miércoles, 9 de enero de 2008

La batalla de los formatos (2ª parte)

Hoy: formatos de audio

Desde que se han popularizado los reproductores de audio portátiles con memorias flash (reproductores de MP3, para entendernos) nos hemos familiarizado bastante con el formato MP3, pero, ¿sabemos en qué consiste? ¿Conocemos alguna alternativa? Trataremos de arrojar un poco de luz sobre el asunto.

Hay dos formas de digitalizar el sonido: sin comprimir o con compresión, ésta a su vez puede ser sin pérdida y con pérdida.

Los formatos de audio sin comprimir guardan la información sonora tal cual la recogen, dependiendo la calidad de esta conversión principalmente de dos parámetros: la frecuencia de muestreo y el ancho de palabra o número de bits empleados en la cuantificación.

Muestreo y cuantificación son dos conceptos relativamente complejos, mencionaremos sólamente que cuanto mayor es la frecuencia de muestreo y mayor el número de bits empleados al cuantificar, mejor (o más fidedigno) es el proceso de conversión del sonido al formato digital. Por ejemplo, en los CDs de audio la frecuencia de muestreo es aproximadamente 44 kHz y el ancho de palabra utilizado es de 16 bits.

Los formatos de audio sin comprimir más conocidos son WAV (Waveform Audio Format), AIFF (Audio Interchange File Format) y AU. De ellos, el formato wav es el más conocido, principalmente por ser utilizado como formato de audio predominante en el sistema operativo Windows. Los otros dos formatos tienen un ámbito de utilización más restringido [1], son utilizados en aplicaciones profesionales (sistemas de audio profesional, CDs de audio, ...) y en los sistemas operativos Macintosh y UNIX, respectivamente.

Estos formatos sin comprimir se caracterizan como ya hemos dicho por la alta fidelidad del sonido digitalizado (dependiendo siempre de los parámetros que mencionábamos anteriormente) y por ser bastante "pesados", esto es, ocupan mucho espacio.

Hemos grabado dos fragmentos de audio con dos frecuencias de muestreo diferentes en el mismo equipo, uno a 8 kHz y el otro a 48 kHz. El primero ocupa 92 KBytes, el segundo 432 KBytes (¡casi medio mega!), y el fragmento de audio apenas dura unos segundos. Comprueben la calidad de cada uno de ellos: 8khz.wav y 48khz.wav

Ya que el audio sin comprimir es muy pesado se han diseñado distintas formas de reducir el tamaño de los archivos de audio manteniendo más o menos la fidelidad del sonido. A este proceso se le denomina compresión.Si en el proceso de compresión (reducción de tamaño) se conserva toda la información sonora original, hablamos de formatos de compresión sin pérdida. No son los más conocidos, FLAC (Free Losssless Audio Codec) es, probablemente, el más importante.

Los formatos de audio comprimido con pérdida son aquellos en los que al tratar la muestra sonora original reducimos el tamaño sacrificando la fidelidad al utilizar una técnica llamada "codificación perceptual":
Los humanos no somos capaces de discriminar todos los sonidos que suenan simultáneamente cuando algunos son mucho más intensos que otros (enmascaramiento).
Si eliminamos de la muestra sonora estos sonidos enmascarados reduciremos la cantidad de información que guardamos (y por lo tanto el tamaño) sin que apreciemos pérdida alguna.

El problema es que el umbral de enmascaramiento no es el mismo para todas las personas. Un oído entrenado puede discernir sonidos en una mezcla que otros no pueden. Los algoritmos de codificación con pérdida no pueden tener en cuenta estas particularidades y utilizan modelos estadísticos.

El parámetro más importante en una compresión de audio es el "bitrate" o "tasa de bits". Cuanto mayor es éste valor, mayor fidelidad al original conseguimos (se suprimen menos sonidos), pero no se consigue tanta reducción de tamaño. Se utilizan tasas de 48 a 96 kbps (kilobits por segundo) para aplicaciones de baja fidelidad (voz, ...), tasas de 128 kbps para música con una calidad aceptable y de 192 kbps para una mayor calidad.
Se dice (rumorea) que un fragmento de música comprimido en MP3 a 256 kbps es prácticamente indistinguible del original, incluso para los oídos más finos y entrenados.

En los siguiente archivos hemos comprimido un fragmento de música desde un CD a diferentes tasas. Los tamaños de archivo son, respectivamente, 48 kB, 128 kB y 256 kB (curiosamente ha coincidido el tamaño del archivo con la tasa de compresión: si hubiese querido hacerlo adrede, no lo hubiera conseguido).
Escuchen los resultados: 48kbps.mp3 128kbps.mp3 256kbps.mp3 [2]

Los formatos de audio comprimido con pérdida más conocidos son los siguientes:

  • MP3
    Es uno de los formatos más veteranos, extendidos y soportados. Probablemente sea el formato que adolece de más limitaciones técnicas de los cuatro.
    Es un formato patentado por el Instituto Fraunhofer IIS. Esto quiere decir que cada cachivache o programa que maneja ficheros MP3 debe pagar a esta institución. Los usuarios no pagamos directamente, aunque supongo que una pequeña parte del precio que pagamos por nuestro aparatito debe ir destinado a abonar por la patente.

  • Vorbis
    Formato que destaca principalmente por ser libre (sin patentes, de código abierto) e incorporar bastantes mejoras respecto al formato MP3. El principal lastre de este formato es que no está apoyado por ninguna compañía, por lo que no tiene tanta penetración en el mercado, aunque poco a poco ésta va aumentando.

  • WMA
    Formato creado y apoyado por Microsoft. Destaca principalmente porque es el formato de audio comprimido "por defecto" en el sistema operativo Windows.

  • AAC
    Formato creado por Apple [3] por varias compañías (Dolby, Fraunhofer IIS, AT&T, Sony y Nokia) y utilizado intensivamente por Apple. Es el formato de audio predeterminado en algunas tiendas de música "on-line" y en los reproductores portátiles de la marca Apple (aunque pueden reproducir otros formatos).


Estos dos últimos formatos (WMA y AAC) incorporan la posibilidad de limitar de alguna forma la reproducción de los archivos y el uso que se hace de ellos, principalmente para impedir copias y reproducciones no autorizadas.

Podemos decir que los formatos que incorporan tecnologías DRM (Digital Rights Management o Gestión de Derechos Digitales) limitan en cierto modo la libertad del usuario por un producto que ha pagado. Además, en algunos países (como en España) la copia privada de música (para uso personal y sin ánimo de lucro) está permitida y autorizada, por lo que estas tecnologías son bastante cuestionables desde el punto de vista legal.

Hasta que el formato Vorbis tenga una mayor implantación (algunos reproductores ya lo soportan), prefiero utilizar MP3 e ignorar estos formatos propietarios.
Que cada uno se informe y use lo que le convenga.

[1]: Corrección: como bien indica un lector en los comentarios, el formato AIFF es el que internamente se utiliza en los CDs de audio.

[2]: En otra entrada un lector me reprochaba el haber caído en el tópico facilón cuando escribí, medio en broma, medio en serio que "el mejor Jazz era el de los años 50". Para resarcirme un poco, el fragmento de ejemplo es un tema del primer disco de Joshua Redman (saxofonista), grabado en 1993.

[3]: Corrección: otro lector me ha indicado que Apple no diseñó el formato AAC.

8 comentarios:

  1. El formato aiff es muy ampliamente utilizado por el público usuario ya que es el que se utiliza en todos los CD musicales

    ResponderEliminar
  2. Y hay más formatos: el ape, el mpc, etcétera. La duda, como siempre, es a partir de cuándo percibimos pérdidas de calidad en el sonido. Si no es como lo de los megapixels, que parece una vieja discusión de a ver quién la tiene más grande.

    ResponderEliminar
  3. Errata: El formato AAC no fue creado por Apple, sino por Dolby, Fraunhofer IIS, AT&T, Sony y Nokia. Se puede consultar en la pagina en de la wikipedia inglesa sobre el dicho formato.

    ResponderEliminar
  4. David Asorey Álvarez9 de enero de 2008, 16:24

    Jose Ignacio, Enric: gracias por los comentarios. Corregido.

    ResponderEliminar
  5. Sin duda has elegido un buen fragmento de jazz, sólo tiene de malo la escasa duración. Para otra hazlo con algo de los cincuenta, seguro que elegirás bien.Yo no soy capaz de distinguir entre los archivos: 48kbps.mp3 128kbps.mp3 256kbps.mp3. ¿Alguien es capaz?Un saludo y gracias.

    ResponderEliminar
  6. Sergio:No creo que sea muy legal poner el tema entero, además del ancho de banda que consumiría, por eso la breve duración del fragmento.¿Has probado a escuchar los distintos fragmentos con unos cascos medianamente decentes? De 128 a 256 no se nota tanto la diferencia, pero de 48 a 128 sí: escucha el ''charles'' de la batería. A 48 kbps suena muerto, sin brillo.

    ResponderEliminar
  7. Tienes toda la razón David.

    ResponderEliminar
  8. Esta informacion me parecio muy util puesto que realmente no sabi las diferencias entre formatos. Gracias por explicar de manera sencilla asi quienes no sabemos mucho de informatica podemos entender.

    ResponderEliminar