Meting van muziekovereenkomst met compressie met verlies

Free Download Mp4Gain

We now offer a subscription for just 10 cents a day*

You will always enjoy the full version of Mp4Gain with all its features and benefits.

For just 10 cents a day*

*Unlimited FULL version of Mp4Gain, billed $US12.50 Quarterly (+ $5 USD one time subscription payment JUST in the first payment).

All other payments will be just $3.12 per month, billed quaterly.

That's only 10 cents per day!

CLICK TO PURCHASE

THIS PRICE ONLY LASTS FOR A FEW DAYS

Meting van muziekovereenkomst met compressie met verlies

informatieverwerkingsalgoritme

Er zijn twee geluidsfragmenten.

Het is erg vergelijkbaar. Ik wil meten hoe vergelijkbaar ze perceptueel zijn, dat wil zeggen, hoe vergelijkbaar mensen ze waarnemen. Is er een manier om twee clips te vergelijken met behulp van een lossy compressie-algoritme zoals MP3, AAC of de Ogg Vorbis-encoder?

Het viel me op dat audiocompressoren al veel kennis over psychoakoestiek en de menselijke perceptie van geluid hebben ingebouwd. Is er een goede manier om ze te gebruiken om te meten hoe vergelijkbaar twee clips zijn?

misschien iets als L(C1||C2)/(L(C1)+L(C2))L(C1||C2)/(L(C1)+L(C2)), waarbij L(X)L(X ) is de gecomprimeerde duur van de geluidsclipXX, en C1||C2C1||C2Is het resultaat van het aaneenschakelen van de twee clips? Of zoek misschien de hoogste bitrate, zoals deze F(C1)F(C1)nearF(C2))F(C2))Door een eenvoudige metriek (bijvoorbeeld de L2-norm toegepast op het FFT-spectrum), waarbijF(C)F (C) is het resultaat van het comprimeren van CCat die bitrate en het vervolgens decomprimeren? Of zoiets? Heeft iemand dit onderzocht?

Als het er toe doet, lijken de twee clips erg op elkaar: de ene wordt verkregen door de andere te transformeren. Ze zijn uitgelijnd in de tijd en hebben dezelfde lengte. Elk is relatief kort (hoogstens een paar seconden). Ik heb wat rondgekeken, maar vond geen referenties of onderzoekspapers die deze benadering bespraken, hoewel ik dat misschien niet heb gedaan.

Is er een goede manier om ze te gebruiken om te meten hoe vergelijkbaar twee clips zijn?

Het is een redelijk verstandige intuïtie, maar een die ik zelden in de literatuur zie, afgezien van het perifere idee van functie-extractie uit een gecomprimeerde stroom (de motivatie hier is eenvoudigweg om de rekenbelasting te verminderen).

Ik denk dat de belangrijkste reden is dat audiocodecs geen perceptuele representaties van audiogegevens opslaan. In plaats daarvan slaan ze een zeer codegerichte weergave van de audio op (entropiecodering, kwantisering, transformatiecoëfficiënten) die zo zijn gekozen dat de vervorming tussen de originele en gecodeerde signalen onder een perceptuele drempel ligt. In zekere zin vertelt het kijken naar een gecomprimeerde audiostream niet hoe een mens een audiosignaal zou waarnemen. Het vertelt je gewoon dat er iets onder de waarnemingsdrempel is genomen. De codec “beeldhouwt” een betekenisvol audiosignaal, maar raakt het nooit aan.

waarbij L(x) de gecomprimeerde duur van geluidsclip x is en C1||C2 het resultaat is van het aaneenschakelen van de twee clips.

Dit is logisch voor strings, ik denk dat het idee te vinden is in sommige Cilibrasi- of Vitanyi-artikelen, maar dat is niet hoe audiocodecs werken. De audiocodecs die u noemt, zijn ontworpen om streaming audio met lage latentie te verwerken, dus ze “zien” slechts een kort venster van het signaal tegelijk en proberen op de lange termijn niet om redundantie te elimineren. Als een JPEG van een afbeelding. Als u 10 exemplaren van dezelfde notitie achter elkaar kopieert, krijgt u een bestand dat 10 keer groter is. Audiocodecs hebben een vaste bitrate of een adaptieve bitrate die zich aanpast op basis van wat de codec ziet in een smal signaalvenster.

De redundantie die audiocodecs elimineren, is van zeer korte termijn.

Uw idee vereist een complexere “objectgeoriënteerde” codec die probeert audio op te splitsen in een hiërarchie van objecten, zoals muzieknoten. In de academische wereld staat het idee nog in de kinderschoenen.

Een andere manier om ernaar te kijken is om te controleren of het decoderingsproces vergelijkbaar is met het generatieve model van het signaal. Dit is het geval voor sommige string-compressie-algoritmen, waarbij het compressieproces een string-achtige generatieve grammatica herstelt (Sequitur, factor-orakels…). Dit is het geval voor op LPC gebaseerde spraakcodecs, waarbij de LP-coëfficiënten kennis bevatten over uitspraak en de resterende kennis over prosodie en vocalisatie/afwezigheid van spraak: de gecomprimeerde stroom kan worden beschouwd als gegevens voor een spraaksynthesizer. Dit is echter niet het geval voor de generieke audiocodecs die u noemde: codecs lijken niet op het muziekproductieproces.

Free Download Mp4Gain