Hoe laat je een machine luisteren om als een mens te klinken?


Free Download Mp4Gain
picture



We now offer a subscription for just 10 cents a day*

You will always enjoy the full version of Mp4Gain with all its features and benefits.

For just 10 cents a day*

*Unlimited FULL version of Mp4Gain, billed $US12.50 Quarterly (+ $5 USD one time subscription payment JUST in the first payment).

All other payments will be just $3.12 per month, billed quaterly.

That's only 10 cents per day!

CLICK TO PURCHASE



THIS PRICE ONLY LASTS FOR A FEW DAYS




Hoe laat je een machine luisteren om als een mens te klinken?

Human Ears

Er is een grote vooruitgang geboekt op het gebied van kunstmatige-intelligentietechnologie door menselijke systemen te modelleren.

Human Perception

Hoewel kunstmatige neurale netwerken wiskundige modellen zijn die slechts globaal kunnen simuleren hoe menselijke neuronen eigenlijk werken, is hun toepassing bij het oplossen van complexe en dubbelzinnige problemen in de echte wereld verreikend. Bovendien opent het modelleren van de structurele diepte van het menselijk brein in een neuraal netwerk een breed scala aan mogelijkheden om meer betekenisvolle betekenis achter de gegevens te leren.

 

Bij beeldherkenning en -verwerking heeft inspiratie van de complexe en ruimtelijk invariante neuronen in de convolutionele neurale netwerken (CNN’s) van het visuele systeem ook geleid tot substantiële verbeteringen in onze techniek. Als je geïnteresseerd bent in het toepassen van beeldherkenningstechnieken op audiospectrogrammen, bekijk dan mijn artikel “Wat is er mis met convolutionele neurale netwerken (CNN) en spectrogrammen voor audioverwerking?”

Zolang de menselijke waarneming die van machines overtreft, kunnen we leren profiteren van het begrijpen van de principes van menselijke systemen. Mensen zijn zeer bedreven in perceptuele taken, en op het gebied van machinaal horen is het contrast tussen menselijk begrip en de huidige AI-technologieën bijzonder groot. Gezien de voordelen van inspiratie uit menselijke systemen op het gebied van visuele verwerking, stel ik voor dat we neurale netwerken kunnen toepassen op vergelijkbare processen in het gezichtsveld, en dat er voordelen zullen zijn op het gebied van machinaal horen.

Hoe een machine te laten luisteren als een mens?

Het procesraamwerk van dit artikel

In deze serie artikelen zal ik een raamwerk beschrijven voor realtime audiosignaalverwerking met behulp van AI, ontwikkeld in samenwerking tussen Aarhus University en fabrikant van slimme luidsprekers Dynaudio A/S. Het put sterk uit de cognitieve wetenschap, die perspectieven uit de biologie, neurowetenschappen, psychologie en filosofie probeert te combineren om onze cognitieve vermogens beter te begrijpen.

Cognitieve eigenschappen van geluid.
Misschien is de meest abstracte manier om over geluid na te denken, hoe wij mensen het begrijpen. Hoewel oplossingen voor signaalverwerkingsproblemen moeten werken binnen de grenzen van eigenschapsparameters op laag niveau, zoals intensiteit, spectrum en tijd, is het einddoel vaak herkenbaar: het signaal op een bepaalde manier transformeren. betekenis vervat in The Sound.

Als men bijvoorbeeld het geslacht van de spreker van een discours programmatisch wil veranderen, moet het probleem in meer betekenisvolle bewoordingen worden beschreven voordat de kenmerken op een lager niveau worden gedefinieerd. Het geslacht van een spreker kan worden gezien als een cognitief kenmerk dat uit vele factoren bestaat: de toon en het timbre van de spraak, verschillen in uitspraak, verschillen in woord- en taalkeuzes en begrip van hoe deze kenmerken zich tot elkaar verhouden.

Deze parameters kunnen worden beschreven door kenmerken op een lager niveau, zoals intensiteit, spectrale en temporele eigenschappen, maar alleen in complexere combinaties kunnen ze representaties van betekenis op een hoger niveau vormen. Dit vormt een hiërarchie van audiokenmerken waaruit de “betekenis” van het geluid kan worden afgeleid. De cognitieve eigenschappen van menselijke stemmen kunnen worden gezien als vertegenwoordigd door de gecombineerde tijdreekspatronen van intensiteit, spectrum en statistische eigenschappen van geluid.


Free Download Mp4Gain
picture