MP3-CODERING


Free Download Mp4Gain
picture



We now offer a subscription for just 10 cents a day*

You will always enjoy the full version of Mp4Gain with all its features and benefits.

For just 10 cents a day*

*Unlimited FULL version of Mp4Gain, billed $US12.50 Quarterly (+ $5 USD one time subscription payment JUST in the first payment).

All other payments will be just $3.12 per month, billed quaterly.

That's only 10 cents per day!

CLICK TO PURCHASE



THIS PRICE ONLY LASTS FOR A FEW DAYS




MP3-CODERING

Mp3 encoding

De eerste stap bij het coderen door de gebruiker is het specificeren van een bitsnelheid. Dit geeft de kwaliteit en tegelijkertijd de opslagbehoefte van een mp3-bestand aan.

MP3 encoding

COMPRESSIE TARIEVEN

Bij de meeste opnameprogramma’s kan de kwaliteit van een mp3-bestand vrij worden gekozen voordat de opname begint. Volgens het Fraunhofer Instituut is de cd-kwaliteit van een mp3-bestand een bitsnelheid van 112 tot 128 kbit per seconde, andere metingen stellen de cd-kwaliteit op tot 160 kbit per seconde. De meest gebruikte en voldoende voor de meeste luisteraars is echter 128 kbit.

Ter vergelijking: een overeenkomstige cd-kwaliteit voor Layer 1 is 384 kbit / s en 256 kbit / s voor Layer 2. Een wave-bestand werkt met een bitsnelheid van 1,4 Mbit / s en werkt daarom met ongeveer dezelfde ruimtevereisten. als een cd-audiotrack (CDA).

74 of 80 minuten muziek kan op een cd worden gezet (afhankelijk van de grootte van de geluidsdrager), in mp3-formaat met een bitsnelheid van 128 kbit / s zou 11,5 of 12,4 uur mogelijk zijn.

PSYCHO-AKOESTIEK

MP3-audiocompressie is afhankelijk van het wegfilteren van onnodige informatie. Psychoakoestiek is een wetenschap die zich bezighoudt met de perceptie van geluid door het menselijk oor.

Bijv: je bent in een disco. Harde muziek schiet door enorme luidsprekers en je probeert met elkaar te praten. Dit is bijna onmogelijk, tenzij je schreeuwt. In de akoestiek wordt dit maskering genoemd. Om maskering te voorkomen, moet het geluidsniveau van spraak zodanig worden verhoogd dat het stoorsignaal (in dit geval muziek) het niet langer dekt.

Dergelijke processen behoren tot de fundamentele gebieden van de psychoakoestiek.

Tonen onder deze drempel zijn niet hoorbaar en worden daarom ruis tijdens MP3-opname (overgeslagen).

De overlays werken als volgt: je hebt bijvoorbeeld (foto 2) een toon met 1 kHz (1) en een andere toon met 1,1 kHz, die ongeveer 18 dB lager is (2). De tweede tint is volledig over de eerste heen gelegd. Dit werkt ook voor andere zwakkere tonen (zie afb. 2). Een andere toon met een frequentie van 2 kHz, die ook 18 dB zachter is dan de eerste, zou niet overlappen omdat hij net buiten de drempel van de eerste toon valt.

Ruis kan een andere compressie-optie zijn voor MP3-opnames. Het feit dat wanneer een geluid wordt gedigitaliseerd, het niet met een oneindige frequentie kan worden bemonsterd, wordt een geluid gegenereerd dat niet waarneembaar is voor het menselijk oor (kwantiseringsruis). Het wordt gebruikt als model voor de MPEG-audiolaag en verhoogt zo de ruis rond een toon. Bovenal maskeren harde en korte tonen een bepaald bereik in het frequentiebereik voor en na zichzelf, waar de zwakste signalen niet hoorbaar zouden zijn. Met MP3-codering neemt het ruisniveau in dit gebied toe, alsof het met een lagere resolutie is gedigitaliseerd.

Er is ook maskering in het slaapgebied: het gehoor heeft een zogenaamde “hersteltijd” nodig voor harde en zachte geluiden totdat het weer volledig functioneel is. Dit is vooral merkbaar bij sterke, korte en snel stijgende tonen. Na een vertraging van ongeveer 5 ms zakt de gehoordrempel weer en na ongeveer 200 ms bereikt het het normale niveau, de zogenaamde rusthoordrempel. Dit effect wordt postmaskering genoemd. Het effect van voormaskeren is minder belangrijk, maar nog indrukwekkender: het is gebaseerd op het feit dat de hersenen harde geluiden sneller verwerken dan zachte. Tot op zekere hoogte weegt de sterke impuls zwaarder dan de stille op weg naar de hersenen. Dit resulteert in een voormaskeringstijd van maximaal 20 ms.

Het bovenstaande psycho-akoestische algoritme wordt gebruikt in de volgende stappen:
– Audio-informatie is onderverdeeld in subbanden
– Subbands worden verminderd
– Er worden 16-bits samples gegenereerd
– Monsters zijn gecomprimeerd
– Gecomprimeerde samples worden gecombineerd tot blokken
– Codering volgens Huffmann-procedure
: samenvatting in tabellen

VERDEELD IN ONDERBANDEN

Afhankelijk van de frequentie van de akoestische informatie is deze onderverdeeld in 32 subbanden. De banden hebben verschillende maten door aanpassing aan het menselijk oor volgens een psychoakoestisch model.

De verdeling gebeurt met behulp van een meerfasig filter. Dit betekent dat de samples tegelijkertijd worden gedecimeerd en gefilterd.

In de lagen 1 en 2 hadden de banden dezelfde grootte met een bandbreedte van elk 625 Hz. De reden voor deze indeling is om het algoritme een beter doel te geven.

ONDERBAND VERMINDERING

De MP3-encoder onderzoekt nu elk van de subbanden volgens het psycho-akoestische model voor vervangbare frequenties. Hier wordt de maskerdrempel bepaald, waarna de subbanden waarvan het niveau onder deze maskeerfunctie ligt, worden verwijderd. Een andere reden om een ​​hele subband te laten vallen, kan zijn dat deze onhoorbaar is vanwege de toonhoogte, vergelijkbaar met het fluitje van een hond.

CONVERSIE IN 16-BIT MONSTERS

De frequentiebanden worden bemonsterd en geconverteerd naar 16-bits samples. Tonen worden opgesplitst in digitale signalen en verder verwerkt als numerieke waarden. De samplefrequentie bepaalt de lengte van de sample-intervallen. Noch de meting van de amplitude, noch de grootte van de bemonsteringsintervallen kunnen echter oneindig nauwkeurig zijn. Om deze reden wordt bij analoog-digitaalconversie een waarde afgerond tussen twee monsterpunten. Dit resulteert in afrondingsfouten die worden opgemerkt in wat bekend staat als kwantiseringsruis. Met de hoogst mogelijke resolutie kan dit onhoorbaar worden gehouden: met 8 bit kunnen maximaal 256 niveaus worden weergegeven, met 12 bit al 4096 en met 16 bit 65536 individuele stappen, zodat er geen ruis te horen is.

Sommige samples worden echter ook gedigitaliseerd met een lagere samplefrequentie. In de achtste subband is er bijvoorbeeld een toon met 1 kHz en 60 dB. De MPEG-audio-encoder berekent nu de maskeerdrempel en herkent dat deze 36dB lager is. De acceptabele signaal-ruisverhouding is hier 24 dB, wat overeenkomt met een 4-bits resolutie, aangezien de twee waarden direct gerelateerd zijn. Als u een bit uit resolutie laat, neemt het ruisniveau toe met 6dB. Aangezien een audio-cd doorgaans met 16 bits wordt gedigitaliseerd, kan hier een aanzienlijke datareductie worden toegepast.

VOORBEELD COMPRESSIE

De volgende stap is om de samples verder te comprimeren. Dit proces heeft echter niets meer te maken met de originele tinten. Vanaf nu is compressie alleen gegevensgestuurd.

Elke sample bestaat uit 16 bits, maar ze zijn niet allemaal absoluut noodzakelijk om een ​​niveau weer te geven. Zo kunnen voorloopnullen worden weggelaten. Als voor een sample bijvoorbeeld de waarde 0000011101010101 wordt verkregen, kapt het algoritme het resultaat af tot 11101010101. Om de oorspronkelijke 16 bits uit deze informatie te reconstrueren, heeft de decoder twee stukjes informatie nodig: de schaalfactor en de bittoewijzing. De schaalfactor geeft aan waar de resterende bits van de sample zich in hun oorspronkelijke staat bevonden. De bitmapping bevat de informatie over hoeveel bits er nog over zijn in de sample, aangezien je niet meer kunt rekenen met een vast 16-bit getal. Als u deze waarden echter voor elk monster afzonderlijk zou opslaan, zou u niet veel winnen,

GROEPEREN VAN DE MONSTERS

De 16-bits samples die zojuist zijn gemaakt, worden nu gecombineerd in blokken. Hiervoor zijn er twee verschillende bloklengten: de korte blokken met twaalf samples en de lange blokken met 36 samples.

Voor lage frequenties worden lange blokken gebruikt. Lange blokken zouden echter niet voldoende resolutie bij hogere frequenties mogelijk maken; hier worden korte blokken gebruikt. In de zogenaamde mixed block-modus worden lange blokken gebruikt voor de twee frequentiebanden met de laagste frequenties. Voor de overige 30 frequentiebanden is het de beurt aan de korte blokken. Deze modus maakt een betere frequentieresolutie in de lage frequenties mogelijk zonder hulde te brengen aan de bemonsteringsfrequentie in de hoge frequenties.

HUFFMANN CODERING

De laatste stap in MP3-compressie is Huffmann-codering. Dit algoritme wordt bijvoorbeeld ook gebruikt in verpakkingsprogramma’s zoals WinZip. De frequentie van bepaalde waarden is hierbij belangrijk. De subbanden zijn echter van tevoren georganiseerd. Subbands met lagere frequenties bevatten doorgaans aanzienlijk meer waarden dan die met hoge frequenties. De subbanden zijn op basis van hun frequentie onderverdeeld in drie groepen. Elk gebied heeft zijn eigen Huffmann-boom (afb. 3) om de optimale compressiefactor te bereiken.

Als eerste stap sluit de encoder hoge frequenties uit; codering is hier niet nodig, aangezien de grootte kan worden afgeleid uit die van de andere twee regio’s. Het middenfrequentiebereik wordt behandeld zoals het is, en de lage frequenties worden weer onderverdeeld in drie regio’s, die elk een eigen Huffmann-boom krijgen. Het uiterlijk van een Huffmann-boom wordt opgeslagen in het mp3-bestand.

De structuur van een Huffmann-boom werkt als volgt: vaak voorkomende waarden krijgen een korte reeks bits, terwijl zeldzame waarden een lange krijgen, dus het algoritme bepaalt eerst de verdeling van waarden binnen de gegevens die moeten worden gecomprimeerd.

Om te bepalen wat bekend staat als de Huffman-boom, begin je met de twee zeldzaamste waarden. Ze krijgen een “0” of een “1” toegewezen. De twee waarden worden samengevat, in de volgorde waarin ze nu worden weergegeven door de som van hun frequentie. Hetzelfde geldt voor de volgende twee zeldzamere waarden. Dit proces eindigt wanneer er nog maar één waarde overblijft. Het resultaat van deze procedure is een boomstructuur. De codering is gebaseerd op deze structuur. Elke tak aan de linkerkant krijgt een 0, elke tak aan de rechterkant wordt aangeduid met een “1”. In ons kleine voorbeeld zou het minst voorkomende zijn

Waarde 4 weergegeven door de reeks bits 010. Aan de meest voorkomende waarde 6 wordt daarentegen een eenvoudige 1 toegewezen.

SAMENVATTING VAN HET KADER

Het resultaat van bovenstaande compressie wordt samengevat in zogenaamde frames. Elk van deze frames bevat 1152 samples (32 subbanden x 36 samples). Een frame bestaat uit een header, een checksum check, de eigenlijke audiogegevens en in bepaalde gevallen een zogenaamde bit repository. Een dergelijke afzetting ontstaat wanneer de monsters binnen het frame zodanig kunnen worden gecomprimeerd dat niet het volledige theoretische aantal bits in een frame nodig is. De encoder kan op deze buckets terugvallen als de beschikbare bits onvoldoende zijn voor een volgend frame. Er moet onderscheid worden gemaakt tussen twee termen: framemaat en framelengte.

De grootte van het frame wordt bepaald door het aantal samples en is constant binnen een laag. In Layer 1-formaat zijn dit altijd 384 samples per frame, in Layers 2 en 3 1152 per frame. De lengte van het frame kan echter verschillen op laag 3 vanwege de verandering in bitsnelheid of het deponeren van niet-gevulde bits. Het frame bevat ook de eerder genoemde informatie over de schaalfactor en bittoewijzing om alle samples opnieuw te kunnen reconstrueren.

Een bestandskop, zoals bekend van andere bestandsindelingen, bestaat niet in een mp3-bestand. In het geval van een afbeeldingsbestand zou een koptekst informatie bevatten over de hele afbeelding (bijv. Grootte, kleurdiepte, resolutie


Free Download Mp4Gain
picture