}

Pisadovelar.mp3

2007/04/01 Etxebeste Aduriz, Egoitz - Elhuyar Zientzia Iturria: Elhuyar aldizkaria

Hoy en día no es difícil llevar en coche toda la fonoteca de la casa, aunque la fonoteca es muy grande y el maletero del coche es pequeño. Es más, se puede llevar en el bolsillo toda la fonoteca y más, 20.000 canciones, imagínate unos 2.000 discos. Para ello sólo es necesario comprimir la música.
Pisadovelar.mp3
01/04/2007 | Etxebeste Aduriz, Egoitz | Elhuyar Zientzia Komunikazioa
(Foto: R. Etxebeste)

Aunque existen diversos formatos de compresión musical, el más exitoso es sin duda MPEG-1 Audio Layer 3, mucho más conocido como MP3. MPEG es un grupo de trabajo de la Organización Internacional para la Estandarización (ISO) que creó el famoso MP3.

Para conservar el sonido digital es necesario un gran número de datos que, comprimidos en formato MP3, pueden reducirse considerablemente sin que se produzcan pérdidas en la calidad del sonido. Esa es la clave del éxito del mp3. Pero este éxito también está directamente relacionado con Internet. De hecho, gracias a este formato, los archivos musicales se hicieron accesibles en la red.

Los archivos MP3 comienzan a aparecer en la red a partir de mediados de los 90. A finales de esa década, con la aparición de software como Winamp (1997) o Napster (1999), la compresión musical se convirtió en algo muy sencillo para cualquier persona, así como la reproducción, el compartir en red o simplemente bajarlo. Esto supuso un gran abrazo para los usuarios, ya que permitió obtener un montón de música gratis. El uso compartido de la música a través de las redes P2P o peer-to-peer se ha convertido en una práctica habitual, lo que ha dado lugar a diversas polémicas y problemas legales. También ha influido notablemente en la industria musical.

Los reproductores de MP3 también han tenido un gran éxito. No es de extrañar, tienen un precio razonable y se puede guardar un montón de música en un sitio muy pequeño para escucharlo donde y cuando quieras. Gracias al MP3 se ha creado música de bolsillo.

Los reproductores de MP3 han tenido un gran éxito.
R. Etxebeste

Estos son algunos de los factores que han influido en el éxito del MP3. Pero, como hemos dicho, la clave está en el nivel de compresión alcanzado sin pérdida apreciable de calidad. ¿Y dónde está el misterio? ¿Cómo consigue el MP3, la música que necesita tanto espacio, entrar en un lugar tan pequeño? ¿Cómo se pueden escuchar 20.000 canciones en el bolsillo? Pues porque los algoritmos que se utilizan para comprimir en formato MP3 trabajan a la medida de nuestro oído. Estos algoritmos eliminan la información que nuestro oído no detectará y puede ser mucho.

Sonido con números

Para saber cómo se comprime el sonido, antes hay que entender cómo se digitaliza el sonido. El sonido es una onda y para digitalizarla hay que representarla con números. Según el teorema de Nyquist, la expresión numérica de la onda a una frecuencia determinada requiere la adopción de 2 medidas por ciclo. Por lo tanto, para que un sonido compuesto por varias frecuencias se exprese con números será necesario dos veces la frecuencia más elevada. El hombre puede oír un sonido máximo de 20 kHz (20.000 ciclos por segundo). La digitalización de este sonido requeriría 40.000 medidas por segundo. Por ejemplo, en los CDs se utilizan 44.100 medidas por segundo, el estándar de calidad establecido para el sonido digital es 44,1 kHz.

Además, para guardar la información de la intensidad del sonido, es necesario asignar un valor a cada una de estas medidas. Con un bit se indican los valores 0 y 1, es decir, si el sonido existe o no existe. Con los dos bits, además del cero, se pueden representar 3 intensidades diferentes y con 16 bits 65.536. Pues bien, todos los avatares y matices de la música se expresan correctamente en 16 bits por medida.

Según el teorema de Nyquist, para expresar numéricamente una onda es necesario tomar dos medidas por ciclo.
G. Roa

Además, si se quiere conservar la música estéreo se deben utilizar 2 canales. Finalmente, el sonido de calidad de CD requiere 1.411,2 Kbps (16 bits/talla x 44.100 medidas/s x 2 canales). O lo que es lo mismo, para guardar un segundo de sonido de esa calidad se necesitan 1.411,2 kb (176 kB).

No es miel para la boca del burro

Esta calidad de CD es muy buena, quizás demasiado buena, porque el ser humano no es capaz de recibir toda la información que contiene. Eso es lo que dice al menos la psicoacústica. La psicoacústica analiza la percepción de las características del sonido. Y esa percepción, por supuesto, tiene sus límites. Por ejemplo, sólo podemos oír sonidos que están entre 20 y 20.000 Hz y con la edad la capacidad de escuchar altas frecuencias disminuye. En realidad son pocos los adultos capaces de oír más de 16 kHz, con un límite de 10 kHz para 60-70 años.

Pues bien, los algoritmos MPEG utilizan modelos psicoacústicos para medir los datos sobrantes y eliminar los que no podemos escuchar. Por un lado, se pueden eliminar directamente todos los sonidos que estén por debajo de 20 Hz y por encima de 20 kHz. Por otra parte, cuando el sonido está en estéreo, suele haber información repetida en ambos canales. Por debajo de una determinada frecuencia no somos capaces de distinguir de dónde viene el sonido, por lo que por debajo de esas frecuencias basta con codificar un solo canal.

Cuando hay sonidos de muchas frecuencias a la vez, unos cubren a otros y no podemos escucharlos todos.
De archivo

Pero los modelos psicoacústicos son los que más trabajan con el efecto de recubrimiento. Un sonido de cierta frecuencia cubre un sonido más débil con una frecuencia similar y no somos capaces de escuchar el más débil. Es lo que se conoce como efecto de recubrimiento, y cuanto más próximas estén las frecuencias, mayor es el tapado. Por ejemplo, si con un sonido de 1 kHz tenemos otro de 1,1 kHz, pero este último tiene 18 dB menos, sólo podremos escuchar el primero. Si el segundo sonido es de 2 kHz, aunque sea 18 dB menos, se oirá, ya que en este caso sería necesaria una diferencia de 45 dB para cubrir el segundo.

El efecto de recubrimiento puede ser simultáneo, pero también ocurre entre sonidos muy próximos al tiempo. Además, la capacidad de resolución de nuestro oído varía mucho en función de la frecuencia. La mayor sensibilidad la encontramos entre 2 y 4 kHz, en el mismo rango que la voz humana. Pues todo esto lo tiene en cuenta el codificador que comprime el sonido.

Para ello, el espectro de frecuencias de 20 Hz a 20 kHz se divide primero en varias subcategorías, y posteriormente, aplicando modelos psicoacústicos en cada banda, se calcula qué información es más importante y qué menos. Dependiendo de su importancia, el número de bits que se utilizan para almacenar esta información es diferente, es decir, algunos datos pueden ser eliminados directamente y muchos otros pueden ser almacenados utilizando menos de 16 bits que otros.

Así, tras eliminar lo que sobra y codificar lo que se puede expresar con menos datos, con un algoritmo estándar sólo queda comprimir esa información. Finalmente se puede conseguir comprimir de 1.411,2 kbps de sonido no comprimido a 32-320 kbps. Sin embargo, a partir de un nivel de compresión, la pérdida de calidad es significativa y normalmente no supera los 128 kbps.

El ser humano no es capaz de recibir toda la información contenida en un CD.
De archivo

Por otra parte, la calidad de la compresión varía mucho según el codificador utilizado, ya que no todos codifican del mismo modo. Con un buen codificador, con 128 kbps la mayoría no notará pérdida de calidad. Sin embargo, en aquellos casos en los que el material que se va a comprimir es más difícil, o en los que el oído del oyente está formado, pueden ser necesarios 192 kbps para evitar pérdidas. Sin embargo, el grado de compresión puede variar. Cada parte de los archivos MP3 puede tener un grado de compresión diferente, de forma que cuando el sonido tiene más dinamismo se pueden utilizar más bits para obtener una mejor calidad.

En definitiva, el mp3 es un formato a nuestra medida. Preparado para nuestros oídos. Capaz de hacer música pequeña sin tocar su grandeza.

Etxebeste Aduriz, Egoitz
Servicios
Más información
2007
Seguridad
030
Imágenes/Sonidos; Periféricos; Software
Artículo
Otros

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia