Pisadovelar.mp3
2007/04/01 Etxebeste Aduriz, Egoitz - Elhuyar Zientzia Iturria: Elhuyar aldizkaria
Encara que existeixen diversos formats de compressió musical, el més reeixit és sens dubte MPEG-1 Àudio Layer 3, molt més conegut com a MP3. MPEG és un grup de treball de l'Organització Internacional per a l'Estandardització (ISO) que va crear el famós MP3.
Per a conservar el so digital és necessari un gran nombre de dades que, comprimits en format MP3, poden reduir-se considerablement sense que es produeixin pèrdues en la qualitat del so. Aquesta és la clau de l'èxit del mp3. Però aquest èxit també està directament relacionat amb Internet. De fet, gràcies a aquest format, els arxius musicals es van fer accessibles en la xarxa.
Els arxius MP3 comencen a aparèixer en la xarxa a partir de mediats dels 90. A la fi d'aquesta dècada, amb l'aparició de programari com Winamp (1997) o Napster (1999), la compressió musical es va convertir en una cosa molt senzilla per a qualsevol persona, així com la reproducció, el compartir en xarxa o simplement baixar-ho. Això va suposar una gran abraçada per als usuaris, ja que va permetre obtenir un munt de música gratis. L'ús compartit de la música a través de les xarxes P2P o peer-to-peer s'ha convertit en una pràctica habitual, la qual cosa ha donat lloc a diverses polèmiques i problemes legals. També ha influït notablement en la indústria musical.
Els reproductors d'MP3 també han tingut un gran èxit. No és d'estranyar, tenen un preu raonable i es pot guardar un munt de música en un lloc molt petit per a escoltar-lo on i quan vulguis. Gràcies al MP3 s'ha creat música de butxaca.
Aquests són alguns dels factors que han influït en l'èxit del MP3. Però, com hem dit, la clau està en el nivell de compressió aconseguit sense pèrdua apreciable de qualitat. I on està el misteri? Com aconsegueix l'MP3, la música que necessita tant d'espai, entrar en un lloc tan petit? Com es poden escoltar 20.000 cançons en la butxaca? Doncs perquè els algorismes que s'utilitzen per a comprimir en format MP3 treballen a la mesura de la nostra oïda. Aquests algorismes eliminen la informació que la nostra oïda no detectarà i pot ser molt.
So amb números
Per a saber com es comprimeix el so, abans cal entendre com es digitalitza el so. El so és una ona i per a digitalitzar-la cal representar-la amb números. Segons el teorema de Nyquist, l'expressió numèrica de l'ona a una freqüència determinada requereix l'adopció de 2 mesures per cicle. Per tant, perquè un so compost per diverses freqüències s'expressi amb números serà necessari dues vegades la freqüència més elevada. L'home pot sentir un so màxim de 20 kHz (20.000 cicles per segon). La digitalització d'aquest so requeriria 40.000 mesures per segon. Per exemple, en els CDs s'utilitzen 44.100 mesures per segon, l'estàndard de qualitat establert per al so digital és 44,1 kHz.
A més, per a guardar la informació de la intensitat del so, és necessari assignar un valor a cadascuna d'aquestes mesures. Amb un bit s'indiquen els valors 0 i 1, és a dir, si el so existeix o no existeix. Amb els dos bits, a més del zero, es poden representar 3 intensitats diferents i amb 16 bits 65.536. Doncs bé, tots els avatars i matisos de la música s'expressen correctament en 16 bits per mesura.
A més, si es vol conservar la música estèreo s'han d'utilitzar 2 canals. Finalment, el so de qualitat de CD requereix 1.411,2 Kbps (16 bits/talla x 44.100 mesures/s x 2 canals). O cosa que és el mateix, per a guardar un segon de so d'aquesta qualitat es necessiten 1.411,2 kb (176 kB).
No és mel per a la boca del ruc
Aquesta qualitat de CD és molt bona, potser massa bona, perquè l'ésser humà no és capaç de rebre tota la informació que conté. Això és el que diu almenys la psicoacústica. La psicoacústica analitza la percepció de les característiques del so. I aquesta percepció, per descomptat, té els seus límits. Per exemple, només podem sentir sons que estan entre 20 i 20.000 Hz i amb l'edat la capacitat d'escoltar altes freqüències disminueix. En realitat són pocs els adults capaços de sentir més de 16 kHz, amb un límit de 10 kHz per a 60-70 anys.
Doncs bé, els algorismes MPEG utilitzen models psicoacústicos per a mesurar les dades sobrants i eliminar els que no podem escoltar. D'una banda, es poden eliminar directament tots els sons que estiguin per sota de 20 Hz i per sobre de 20 kHz. D'altra banda, quan el so està en estèreo, sol haver-hi informació repetida en tots dos canals. Per sota d'una determinada freqüència no som capaces de distingir d'on ve el so, per la qual cosa per sota d'aquestes freqüències n'hi ha prou amb codificar un sol canal.
Però els models psicoacústicos són els que més treballen amb l'efecte de recobriment. Un so de certa freqüència cobreix un so més feble amb una freqüència similar i no som capaces d'escoltar el més feble. És el que es coneix com a efecte de recobriment, i com més pròximes estiguin les freqüències, major és el tapat. Per exemple, si amb un so d'1 kHz tenim un altre de 1,1 kHz, però aquest últim té 18 dB menys, només podrem escoltar el primer. Si el segon so és de 2 kHz, encara que sigui 18 dB menys, se sentirà, ja que en aquest cas seria necessària una diferència de 45 dB per a cobrir el segon.
L'efecte de recobriment pot ser simultani, però també ocorre entre sons molt pròxims al temps. A més, la capacitat de resolució de la nostra oïda varia molt en funció de la freqüència. La major sensibilitat la trobem entre 2 i 4 kHz, en el mateix rang que la veu humana. Perquè tot això ho té en compte el codificador que comprimeix el so.
Per a això, l'espectre de freqüències de 20 Hz a 20 kHz es divideix primer en diverses subcategories, i posteriorment, aplicant models psicoacústicos en cada banda, es calcula quina informació és més important i quina menys. Depenent de la seva importància, el nombre de bits que s'utilitzen per a emmagatzemar aquesta informació és diferent, és a dir, algunes dades poden ser eliminats directament i molts altres poden ser emmagatzemats utilitzant menys de 16 bits que uns altres.
Així, després d'eliminar el que sobra i codificar el que es pot expressar amb menys dades, amb un algorisme estàndard només queda comprimir aquesta informació. Finalment es pot aconseguir comprimir de 1.411,2 kbps de so no comprimit a 32-320 kbps. No obstant això, a partir d'un nivell de compressió, la pèrdua de qualitat és significativa i normalment no supera els 128 kbps.
D'altra banda, la qualitat de la compressió varia molt segons el codificador utilitzat, ja que no tots codifiquen de la mateixa manera. Amb un bon codificador, amb 128 kbps la majoria no notarà pèrdua de qualitat. No obstant això, en aquells casos en els quals el material que es comprimirà és més difícil, o en els quals l'oïda de l'oïdor està format, poden ser necessaris 192 kbps per a evitar pèrdues. No obstant això, el grau de compressió pot variar. Cada part dels arxius MP3 pot tenir un grau de compressió diferent, de manera que quan el so té més dinamisme es poden utilitzar més bits per a obtenir una millor qualitat.
En definitiva, el mp3 és un format a la nostra mesura. Preparat per a les nostres oïdes. Capaç de fer música petita sense tocar la seva grandesa.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia