Hoe laat je een machine luisteren om als een mens te klinken? Deel 2


Free Download Mp4Gain
picture



We now offer a subscription for just 10 cents a day*

You will always enjoy the full version of Mp4Gain with all its features and benefits.

For just 10 cents a day*

*Unlimited FULL version of Mp4Gain, billed $US12.50 Quarterly (+ $5 USD one time subscription payment JUST in the first payment).

All other payments will be just $3.12 per month, billed quaterly.

That's only 10 cents per day!

CLICK TO PURCHASE



THIS PRICE ONLY LASTS FOR A FEW DAYS




Hoe laat je een machine luisteren om als een mens te klinken? Deel 2

Human perception

Neurale netwerken (NN’s) zijn erg goed in het extraheren van abstracte representaties van gegevens en zijn daarom ideaal voor het detecteren van cognitieve eigenschappen in geluid. Laten we, om een ​​systeem voor dit doel te bouwen, eerst onderzoeken hoe geluid wordt gerepresenteerd in het menselijk gehoororgaan, dat we kunnen gebruiken om neurale netwerken te motiveren om representaties van klankbetekenis te verwerken.

Human perception

cochleaire representatie
Het menselijk gehoor begint met het uitwendige oor, dat eerst uit het atrium bestaat. De oortelefoon fungeert als een vorm van geluidsspectrale voorbewerking, waarbij het ingangsgeluid wordt aangepast op basis van de oriëntatie ten opzichte van de luisteraar. Het geluid komt dan de gehoorgang binnen via een opening in het atrium en wijzigt vervolgens de spectrale kenmerken van het binnenkomende geluid door deze versterkte frequentie te resoneren (variërend van ~1-6 kHz) [1].

Hoe een machine te laten luisteren als een mens?

Illustratie van het menselijk gehoorsysteem

Wanneer de geluidsgolven het einde van de gehoorgang bereiken, prikkelen ze het trommelvlies, waaraan de gehoorbeentjes (de kleinste botten in het menselijk lichaam) zijn bevestigd. Deze botten brengen druk van de gehoorgang over naar het met vocht gevulde slakkenhuis van het binnenoor [1]. Het slakkenhuis speelt een belangrijke rol bij het begeleiden van de weergave van de betekenis van geluid voor neurale netwerken (NN), aangezien dit het orgaan is dat verantwoordelijk is voor het vertalen van akoestische trillingen in menselijke neurale activiteit.

Het is een opgerolde buis die over de lengte wordt gescheiden door twee membranen, het membraan van Reisner en het basaalmembraan. In het slakkenhuis bevindt zich een rij van ongeveer 3.500 binnenste haarcellen [1]. Wanneer de druk het slakkenhuis binnenkomt, worden de twee membranen ingedrukt. Het basaalmembraan is smaller en stijver aan de basis, maar breder en losser aan de top, waardoor de respons op een bepaalde frequentie op elke plaats langs de lengte sterker is.

In eenvoudige bewoordingen kan het basilaire membraan worden gezien als een reeks continue banddoorlaatfilters van membraanlengte die geluiden scheiden in hun spectrale componenten.

Hoe een machine te laten luisteren als een mens?

Illustratie van het menselijke slakkenhuis

Dit is het meest fundamentele mechanisme waarmee mensen geluidsdruk omzetten in neurale activiteit. Daarom is het redelijk om aan te nemen dat de spectrale representatie van geluid voordelig is bij het bouwen van modellen van geluidsperceptie met kunstmatige intelligentie. Omdat de frequentierespons in het basilair membraan exponentieel varieert, is een logaritmische weergave van de frequentie waarschijnlijk het meest efficiënt. Een dergelijke frequentierepresentatie kan worden gegenereerd met behulp van een filterbank van gammatonen. Deze filters worden vaak gebruikt bij het modelleren van spectrale filtering van het auditieve systeem, omdat ze de impulsrespons kunnen schatten van menselijke auditieve filters die voortkomen uit gehoorzenuwvezels als reactie op een soort witte ruis die de “revcor” -functie wordt genoemd.

Hoe een machine te laten luisteren als een mens?

Vergelijking van vereenvoudigde transductie van menselijk profiel en gedigitaliseerde profieltransductie

Het slakkenhuis heeft ongeveer 3.500 binnenste haarcellen en mensen kunnen hiaten in geluiden detecteren van 2 tot 5 ms lang, dus spectrale ontleding met behulp van 3.500 gammatoonfilters verdeeld in vensters van 2 ms lijkt een machine om te bereiken. beste parameter om weer te geven. In real-world scenario’s geloof ik echter dat minder spectrale decompositie ook gewenste resultaten oplevert in de meeste analyse- en verwerkingstaken, terwijl het rekenkundig beter haalbaar is.

Verschillende softwarebibliotheken voor auditieve analyse zijn online beschikbaar. Een belangrijk voorbeeld is de Gammatone Filterbank Toolkit van Jason Heeris, die niet alleen afstembare filters biedt, maar ook tools biedt voor spectrale analyse van geluidssignalen met behulp van gammatoonfilters.

neurale codering
Terwijl neurale activiteit zich verplaatst van het slakkenhuis naar de gehoorzenuw en oplopende gehoorpaden, vinden er verschillende processen plaats in de hersenstamkernen voordat het de auditieve cortex bereikt.

Deze procedures bouwen een neurale code die de interactie tussen de stimulus en de perceptie vertegenwoordigt. Veel meer over de specifieke taken binnen deze kernels zijn nog steeds gissen of onbekend, dus ik zal op een hoog niveau bespreken hoe ze werken.


Free Download Mp4Gain
picture

Hoe laat je een machine luisteren om als een mens te klinken?

Hoe laat je een machine luisteren om als een mens te klinken?

Human Ears

Er is een grote vooruitgang geboekt op het gebied van kunstmatige-intelligentietechnologie door menselijke systemen te modelleren.

Human Perception

Hoewel kunstmatige neurale netwerken wiskundige modellen zijn die slechts globaal kunnen simuleren hoe menselijke neuronen eigenlijk werken, is hun toepassing bij het oplossen van complexe en dubbelzinnige problemen in de echte wereld verreikend. Bovendien opent het modelleren van de structurele diepte van het menselijk brein in een neuraal netwerk een breed scala aan mogelijkheden om meer betekenisvolle betekenis achter de gegevens te leren.

 

Bij beeldherkenning en -verwerking heeft inspiratie van de complexe en ruimtelijk invariante neuronen in de convolutionele neurale netwerken (CNN’s) van het visuele systeem ook geleid tot substantiële verbeteringen in onze techniek. Als je geïnteresseerd bent in het toepassen van beeldherkenningstechnieken op audiospectrogrammen, bekijk dan mijn artikel “Wat is er mis met convolutionele neurale netwerken (CNN) en spectrogrammen voor audioverwerking?”

Zolang de menselijke waarneming die van machines overtreft, kunnen we leren profiteren van het begrijpen van de principes van menselijke systemen. Mensen zijn zeer bedreven in perceptuele taken, en op het gebied van machinaal horen is het contrast tussen menselijk begrip en de huidige AI-technologieën bijzonder groot. Gezien de voordelen van inspiratie uit menselijke systemen op het gebied van visuele verwerking, stel ik voor dat we neurale netwerken kunnen toepassen op vergelijkbare processen in het gezichtsveld, en dat er voordelen zullen zijn op het gebied van machinaal horen.

Hoe een machine te laten luisteren als een mens?

Het procesraamwerk van dit artikel

In deze serie artikelen zal ik een raamwerk beschrijven voor realtime audiosignaalverwerking met behulp van AI, ontwikkeld in samenwerking tussen Aarhus University en fabrikant van slimme luidsprekers Dynaudio A/S. Het put sterk uit de cognitieve wetenschap, die perspectieven uit de biologie, neurowetenschappen, psychologie en filosofie probeert te combineren om onze cognitieve vermogens beter te begrijpen.

Cognitieve eigenschappen van geluid.
Misschien is de meest abstracte manier om over geluid na te denken, hoe wij mensen het begrijpen. Hoewel oplossingen voor signaalverwerkingsproblemen moeten werken binnen de grenzen van eigenschapsparameters op laag niveau, zoals intensiteit, spectrum en tijd, is het einddoel vaak herkenbaar: het signaal op een bepaalde manier transformeren. betekenis vervat in The Sound.

Als men bijvoorbeeld het geslacht van de spreker van een discours programmatisch wil veranderen, moet het probleem in meer betekenisvolle bewoordingen worden beschreven voordat de kenmerken op een lager niveau worden gedefinieerd. Het geslacht van een spreker kan worden gezien als een cognitief kenmerk dat uit vele factoren bestaat: de toon en het timbre van de spraak, verschillen in uitspraak, verschillen in woord- en taalkeuzes en begrip van hoe deze kenmerken zich tot elkaar verhouden.

Deze parameters kunnen worden beschreven door kenmerken op een lager niveau, zoals intensiteit, spectrale en temporele eigenschappen, maar alleen in complexere combinaties kunnen ze representaties van betekenis op een hoger niveau vormen. Dit vormt een hiërarchie van audiokenmerken waaruit de “betekenis” van het geluid kan worden afgeleid. De cognitieve eigenschappen van menselijke stemmen kunnen worden gezien als vertegenwoordigd door de gecombineerde tijdreekspatronen van intensiteit, spectrum en statistische eigenschappen van geluid.

Mp3 Luider: Mp4Gain beste normalizer

Mp3 Luider: Mp4Gain beste normalizer

Mp3 Louder

Zonder twijfel moeten alle mensen die veel geluidsbestanden (mp3, ogg, flac, m4a, wma, enz.) zijn compatibel en komen overeen met dezelfde luidheid.

Mp3 Louder

Maar dit is niet iets dat vanzelf gaat. Vandaag de dag met het brede scala aan converters en encoders en het enorme aantal verschillende bitrates, samplerates, enz. de situatie is nogal chaotisch.

Als men op zijn zachtst gezegd de bitsnelheid van elk bestand in acht neemt, zal men verbaasd zijn over de variëteit, die niet te wijten is aan planning, maar slechts het resultaat van toeval. Elke keer dat je een bestand deelt of ophaalt, heeft het elke bitrate en zelfs samplerate, zonder iets met de rest te maken te hebben.

Deze combinatie van verschillende instellingen genereert merkbare verschillen in geluid.

Mp4Gain is de perfecte tool om dit alles en daarmee de kwaliteit te corrigeren.

Het kan in batchmodus of één bestand tegelijk worden gebruikt en u kunt ook audio en cvideo combineren, dat wil zeggen, meerdere audiobestanden (van verschillende formaten) en verschillende videobestanden (ook van verschillende formaten) tegelijkertijd normaliseren.

Mp4Gain heeft een algoritme dat is ontworpen voor de enorme audiokwaliteit van veel moderne apparaten en levert daarom de hoogste kwaliteit die tegenwoordig beschikbaar is met behulp van de modernste technologie.

Audio- und Videodatenkomprimierung Teil 2

Audio- und Videodatenkomprimierung Teil 2

Audio and Video Compression

Tatsächlich wird die destruktive Datenkomprimierung irgendwann an den Punkt gelangen, an dem sie nicht mehr funktioniert. Ein extremes Beispiel: Der Komprimierungsalgorithmus löscht jedes Mal das letzte Byte der Datei, und nachdem dieser Algorithmus weiter komprimiert, bis die Datei leer ist, funktioniert der Komprimierungsalgorithmus nicht weiter.

Compression

Die Komprimierung ist wichtig, da sie dazu beiträgt, den Verbrauch teurer Ressourcen wie Festplattenspeicher und Verbindungsbandbreite zu reduzieren. Die Komprimierung erfordert jedoch Informationsverarbeitungsressourcen, die ebenfalls teuer sein können. Daher muss das Design des Datenkomprimierungsmechanismus Kompromisse hinsichtlich der Komprimierungsfähigkeit, des Verzerrungsgrads, der erforderlichen Rechenressourcen und verschiedener anderer Faktoren eingehen, die berücksichtigt werden müssen.

Wie jede Form der Kommunikation funktioniert auch die komprimierte Datenkommunikation nur, wenn sowohl Sender als auch Empfänger der Informationen den Verschlüsselungsmechanismus verstehen. Der Artikel macht zum Beispiel nur Sinn, wenn der Empfänger weiß, dass der Artikel in chinesischen Schriftzeichen interpretiert werden soll. Außerdem können komprimierte Daten vom Empfänger nur verstanden werden, wenn er das Verschlüsselungsverfahren kennt.

Tatsächlich wird die destruktive Datenkomprimierung irgendwann an den Punkt gelangen, an dem sie nicht mehr funktioniert. Ein extremes Beispiel: Der Komprimierungsalgorithmus löscht jedes Mal das letzte Byte der Datei, und nachdem dieser Algorithmus weiter komprimiert, bis die Datei leer ist, funktioniert der Komprimierungsalgorithmus nicht weiter.

Die Komprimierung ist wichtig, da sie dazu beiträgt, den Verbrauch teurer Ressourcen wie Festplattenspeicher und Verbindungsbandbreite zu reduzieren. Die Komprimierung erfordert jedoch Informationsverarbeitungsressourcen, die ebenfalls teuer sein können. Daher muss das Design des Datenkomprimierungsmechanismus Kompromisse hinsichtlich der Komprimierungsfähigkeit, des Verzerrungsgrads, der erforderlichen Rechenressourcen und verschiedener anderer Faktoren eingehen, die berücksichtigt werden müssen.

Wie jede Form der Kommunikation funktioniert auch die komprimierte Datenkommunikation nur, wenn sowohl Sender als auch Empfänger der Informationen den Verschlüsselungsmechanismus verstehen. Der Artikel macht zum Beispiel nur Sinn, wenn der Empfänger weiß, dass der Artikel in chinesischen Schriftzeichen interpretiert werden soll. Außerdem können komprimierte Daten vom Empfänger nur verstanden werden, wenn er das Verschlüsselungsverfahren kennt.