Compresion de Audio Buenazo

December 6, 2017 | Author: Gustavo López | Category: Sampling (Signal Processing), Codec, Mp3, Sound, Audio Electronics
Share Embed Donate


Short Description

Download Compresion de Audio Buenazo...

Description

Compresión de audio Silvia Bernardo de Castro, Ana María García Díez, Guillermo Ménguez Álvarez Resumen. La compresión de audio cobra gran relevancia en la década de los años 90 debido a la proliferación de la música MP3, el DVD y la tecnología de la cine, televisión y radio digital. Así mismo es una técnica complicada debido a que la información cambia rápidamente y no hay valores comunes. El presente trabajo pretende ofrecer una visión general acerca de la compresión de audio. Se centrará en la descripción de los fundamentos básicos de la misma, los distintos algoritmos utilizados para realizar la compresión así como sus características comparadas y por último, se comentarán algunas de las herramientas y formatos existentes en la actualidad en este campo coincidiendo en los más representativos y usados.

1 Fundamentos 1.1 Introducción El sonido es una onda. Puede verse como una disturbación física en el aire o cualquier otro medio o como una serie de ondas producidas por oscilaciones en la presión del aire por el movimiento de determinados átomos o moléculas que se convierten en ondas mecánicas en el organo auditivo y el cerebro interpreta. Debido a esto puede decirse que no todas las personas perciben todos los sonidos de la misma forma pues están involucrados componentes físicos y psicológicos. Aún así un dato irrefutable es que el oido humano percibe aquellos sonidos cuya frecuencia oscila entre los 20 Hz y los 20 KHz. Por otro lado, la voz humana sólo se presenta en el rango de 500 Hz a 2 KHz. El sonido puede modelarse como una onda y describirse mediante funciones matemáticas en función del tiempo o de la frecuencia. Las representaciones de la amplitud, presión que ejerce sobre el medio, frente al tiempo aporta información sobre todas las propiedades de la onda. Por otro lado, representando su diagrama espectral se observan los cambios de frecuencia durante un periodo de tiempo y su amplitud. Una señal de período T (equivalente al inverso de la frecuencia) puede escribirse como una suma de senos y cosenos de la siguiente forma:

A partir del espectro de frecuencias teóricamente puede reconstruirse la señal de audio al completo. De esta forma el uso de dicho espectro en lugar de la señal original puede usarse para codificar cualquier señal de audio. Este fue la primera técnica de compresión de audio que llamaron "vocoder" y fue desarrollada por los Laboratorios Bell en 1928, consiguiendo reducir una señal de 3000 Hz en una de 100 Hz, ancho de banda del cable de telégrafo transatlántico. 1.2 La compresión de audio La compresión de audio consiste en la reducción del requerimiento del ancho de banda de transmisión y el tamaño de una señal de audio digital de forma que se consiga una transmisión y almacenamiento eficientes. Los objetivos que persigue son los siguientes: El parecido entre la señal codificada y la original debe ser el mayor posible. Baja complejidad de implementación.

Requerimientos aritméticos razonables. Aplicable a tantos tipos de señales como sea posible. Robustez, escalabilidad y extensibilidad.

Como se ha comentado anteriormente el oido humano tiene un rango limitado de frecuencias audibles con lo que uno de los principios básicos es no codificar aquello que no se pueda oir. Además se deben tener en cuenta los efectos de enmascaramiento, algunas señales pueden hacer que otras sean inaudibles.

Fig. 1. En la gráfica de la izquierda se muestra el umbral de audición del oido humano representando la frecuencia del sonido en hertzios frente a su intensidad en decibelios y en la de la derecha se puede observar el enmascaramiento de un tono de 1 KHz.

Se ha de tener en cuenta los dos tipos de enmascaramiento existentes:

Frecuencial, es la disminución de de la sonoridad de un tono a cierta frecuencia, en presencia de otro tono simultáneo a una frecuencia diferente (cómo ocurre en la figura de arriba). Temporal, que involucra una señal enmascarante y una enmascarada y en función del orden de aparición de las mismas se distinguirá entre enmascaramiento simultáneo (ambas aparecen a la vez), pre-enmascaramiento (previo a la aparición de la señal enmascarante) y post-enmascaramiento (posterior a la señal enmascarante).

Fig. 2. Enmascaramiento temporal, P representa la señal enmascarada y E la enmascarante.

Los efectos conocidos como redundancia e irrelevancia, señales presentes que, perceptibles o no, no aportan información también serán eliminados de la señal final.

Un factor imporante que hay que tener en cuenta en la codificación de audio es que la decodificación debe ser rápida. A diferencia de un texto o una imagen que no importa que se descompriman primero y se visualicen después, en el caso del audio normalmente se desea escucharlo a medida que se va descomprimiendo. Debido a este requerimiento la mayoría de los algoritmos de compresión de audio son asimétricos, puesto que el codificador puede ser sofisticado, complejo o lento pero el decodificador ha de ser necesariamente muy rápido.

1.3 Información de audio digitalizada. Muestreo y cuantificación

La representación digital del audio ofrece numerosas ventajas entre las que cabe destacar la inmunidad al ruido, la estabilidad y la reproducibilidad. Así mismo permite la implementación eficiente de numerosas funciones de procesamiento de este tipo de señales como pueden ser el mezclado, filtrado y ecualizado. Sin embargo tiene como consecuencia un aumento sustancial de del ancho de banda para la transmisión de la capacidad necesaria para su almacenamiento como se ha expuesto anteriormente. La conversión del mundo analógico al digital se realiza de forma sencilla mediante el muestro (recogida del valor de la señal en un instante determinado) de la señal de audio entrante en intervalos de tiempo discretos y regulares y la cuantificación de las muestras tomadas en un número discreto de niveles uniformemente espaciados. La información digital de audio consiste en en una secuencia de valores binarios que representan el número de niveles cuantificados para cada muestra de sonido. Este método se conoce como PCM (Pulse Code Modulation) y consiste en representar cada muestra como una palabra clave.

Fig. 3. Procesamiento digital de señales de audio. Las grandes cuestiones que presenta el muestreo son cuántas veces se debe muestrear una onda de sonido por segundo (tasa de muestreo) y cómo de grande (número de bits) ha de ser cada una de las muestras. Muestrear demasiadas veces origina demasiadas muestras con la complicación que supone su manejo mientras que hacerlo pocas veces devuelve señales de poca calidad. Parece lógico que la tasa de muestreo dependa de la frecuencia, pero mientras ésta varía la tasa debe permanecer constante, pues contrario equivaldría a demasiadas complicaciones. El Teorema de Nyquist da respuesta a estos enigmas, una señal de audio muestreada representa fielmente cualquier otra señal cuya frecuencia sea como máximo la mitad de la tasa de muestreo aunque en la práctica debido a las limitaciones técnicas será algo menor. El "truco" está en determinar la frecuencia máxima, doblarla e incrementar este resultado ligeramente.

Las tasas más utilizadas son las de 8 KHz y la de 48 KHz; la primera llega hasta los 4 KHz incluyendo así la mayoría de las señales producidas por la voz humana y la segunda hasta los 24 KHz para así cubrir el rango de audición al completo.

Normalmente se utilizan potencias de 2 para el número de niveles cuantificados con el objetivo de conseguir un uso de un número fijo de bits para cada muestra estando el rango típico entre 8 (256 niveles de cuantificación o amplitudes posinles) y 16 bits (65536 niveles) por cada una. Cada bit adicional incrementa aproximadamente en 6 dB la relación señal a ruido consiguiendo un rango dinámico entre 48 y 96 dB. El sonido digitalizado requiere de compresión para conseguir un almacenamiento y una transmisión eficiente debido a su gran tamaño. Por ejemplo en los CD y DVD donde se muestrea a 44.1 KHz y 16 bits por canal, procesando unos 1.4 megabits por segundo. Si se procesase una canción de 3 minutos, longitud típica, se obtendrían 7938000 muestras (180 segundos x 44100 muestras/segundo) que utilizando las muestras de 16 bits supondrían 16 Mb. El proceso de cuantificación mencionado consiste en redondear al valor discreto más cercano entre un conjunto definido previamente los valores de amplitud obtenidos tras el muestreo. Se pueden distinguir dos tipos que a su vez permiten numerosas clasificaciones internas: Escalar. Cada una de las muestras es cuantificada por separado. Vectorial. Se muestrean dos muestras como mínimo de cada vez.

1.4 Factores de la compresión de audio Los factores a tener en cuenta en la compresión de audio que revisten mayor importancia se han ido determinando a lo largo de los años. El equilibrio entre estos factores depende normalmente de la aplicación usada. Los más destacados son:

Fidelidad. Mide cómo de parecidas son la señal reconstruida y la original. Tasa de información. Representa la velocidad de la transmisión de información a través de un canal de comunicación medida en bits/segundo. Este punto es determinante debido a las restricciones que se presentan en cuanto a la velocidad de acceso a la información almacenada, la capacidad del canal de transmisión y la velocidad de reproducción del dispositivo. Complejidad. Se refiere a la cantidad de trabajo requerida y su coste para realizar un proceso de compresión y decompresión. En el mundo real el coste de implementación es más importante que cualquier otra cosa, aunque teóricamente no esté directamente relacionado con la cantidad de trabajo puesto que depende del ordenador y la tecnología utilizada. Retardo. Entendiendo como tal el intervalo de tiempo existente entre la transmisión y recepción de una señal. Es un parámetro crítico en aplicaciones en tiempo real como la telefonía o las tele/vídeoconferencias. Estas medidas son muy subjetivas debido a la naturaleza de los sistemas de audio. En el diseño de un sistema de compresión de audio normalmente se precisa de una fidelidad muy alta con tasas de transmisión bajas manteniendo la complejidad y el retardo tan pequeños como sea posible. Además de los parámetros mencionados anteriormente hay que diferenciar el sonido en dos tipos, habla y música, que son los más usados a día de hoy en multimedia. Los requerimientos para ambos son totalmente diferentes, para una conversación telefónica se manejan señales de 200 a 3400 Hz y un ancho de banda con una frecuencia entre 50 y 7000 Hz mientras que para la música se necesita el procesamiento de señales de 20 Hz a 20 KHz. Así se llega a dos áreas de compresión diferentes, en la del habla se trata de eliminar el silencio y en la de música de encontrar una forma eficiente de reconstruirla para poder reproducirla adecuadamente.

2 Algoritmos y características comparadas 2.1 Tipos Principalmente existen dos tipos de algoritmos de compresión de datos: Con pérdidas: se aprovechan de las limitaciones de audición humana y de los enmascaramientos de la señal para crear un conjunto de datos con menos información que la señal original. Sin pérdidas: crean un conjunto de datos que permiten recomponer totalmente la señal original. Utilizan técnicas de compresión más genéricas. 2.2 Algoritmos con pérdidas

2.2.1 Algorítmos µ-law y A-law El algoritmo µ-law es una técnica básica de compresión, esencialmente logarítmica, que permite, con tan sólo 8 bits por muestra, cubrir el equivalente de 14 bits por muestra en cuantificación líneal. Está técnica ofrece una tasa de compresión de

Al contrario que en la cuantificación lineal, el espaciado logarítmico permite representar con mayor precisión señales de baja amplitud, mientras que se perderá calidad en aquellas de mayor amplitud. En consecuencia, la relación señal a ruido de la salida será más uniforme a lo largo del rango de amplitudes de la señal de entrada.Este algoritmo se utiliza principalmente en Norte América y Japón para señales de voz de 8 KHz para comunicaciones sobre RDSI. Existe una variante de este algoritmo utilizada en el resto del mundo para las mismas aplicaciones llamada Alaw. Su principio de funcionamiento es básicamente el mismo, proporcionando un rango dinámico ligeramente inferior lo que, por el contrario, introduce menor distorsión para señales de menor amplitud.

2.2.2 ADPCM El algoritmo de codificación ADPCM se aprovecha de que con mucha frecuencia, dos muestras cercanas de audio son muy similares entre sí. En lugar de representar cada muestra de audio independientemente como se hace en la codificación PCM, el codificador calcula la diferencia entre cada muestra y el valor que considera que debería corresponderle. Dicha diferencia será, presumiblemente, muy pequeña y por tanto ocupará muy pocos bits. El codificador ADPCM se puede adaptar a las características de la señal de audio de entrada cambiando el incremento del cuantificador o del predictor. La forma de calcular el valor esperado varía según las diferentes implementaciones del algoritmo. Algunos sistemas ADPCM requieren que el codificador aporte a su salida información adicional además de los valores diferenciales PCM con dos propósitos. Por un lado, en ocasiones el decodificador puede necesitar esa información adicional para determinar el incremento del cuantificador, del predictor o de ambos. Por otro, esta información proporciona redundancia de datos al decodificador y le permite reconstruir la señal aunque el flujo de datos contenga errores, así como permitir acceso aleatorio al flujo de datos.

Este funcionamiento se recoge en la siguiente figura:

Fig. 4. Esquema de codificador y decodificador ADPCM

Respecto a los factores de compresión, cada versión del algoritmo ofrece uno diferente. Por ejemplo, el algoritmo ADPCM propuesto por la Interactive Multimedia Association (IMA) ofrece un factor de compresión expresado por:

Otros esquemas de compresión ADPCM incluyen la recomendación G.721 de la CCITT, con una tasa binaria comprimida de 32 kilobits/s y la G.723, con una tasa binaria comprimida de 24 kilobits/s. Además, los algoritmos ADPCM también se utilizan para la compresión de audio en los CDs interactivos.

2.2.3 Compresión MPEG El algoritmo para compresión de audio MPEG (Motion Picture Experts Group) es un estándar ISO para la compresión de audio de alta fidelidad. Forma parte de un grupo de tres estándares de compresión, siendo las otras dos vídeo y sistemas. Cuando se combinan audio y vídeo sincronizados la compresión es tal que se obtiene una tasa de 1.5 megabits/s. Al contrario que en los algoritmos estudiados anteriormente, el algoritmo MPEG puede conseguir compresión con pérdidas que puede pasar como compresión sin pérdidas de cara al oído humano. Para su desarrollo se llevaron a cabo pruebas intensivas de audición por parte de diversos tipos de sujetos. Dichas pruebas determinaron que incluso con un factor de compresión 6:1 (estéreo, 16 bits por muestra a 48 KHz, comprimido a 256 kilobits/s) y en condiciones óptimas de audición, los oyentes expertos fueron incapaces de distinguir las señales comprimidas de las originales. El elevado rendimiento de este algoritmo se debe a que se aprovecha del enmascaramiento auditivo, concepto explicado en los fundamentos, y que consiste en la imposibilidad de oír una señal débil en presencia de una señal más fuerte cercana tanto en tiempo como en frecuencia. Para la compresión de audio, esta propiedad se explota transformando la señal de audio al dominio de la frecuencia, dividiendo el espectro resultante en sub-bandas aproximadamente iguales a las bandas críticas (aquellas en las que se produce el enmascaramiento) y, finalmente, cuantificando cada sub-banda de acuerdo a la audibilidad del ruido de cuantificación en dicha banda. Para que la compresión resulte óptima, cada banda debe cuantificarse con un número de niveles no superior al necesario para hacer el ruido de cuantificación inaudible. En el siguiente diagrama se muestra cómo opera este algoritmo:

Fig. 5. Codificador y decodificador MPEG

Como se puede observar, el audio de entrada pasa a través de un conjunto de filtros que la dividen en múltiples sub-bandas. Simultaneamente, dicho flujo de audio pasa a través de un modelo psicoacústico (obtenido experimentalmente) que determina la tasa de enmascaramiento de la señal en cada sub-banda. El bloque asignación bit/ruido utiliza dichas tasas para decidir cuantos de los bits de codificación se asignan a cada una de las sub-bandas para minimizar la audibilidad del ruido de cuantificación. Finalmente el último bloque toma la representación de las muestras de audio cuantificadas y la formatea en un stream de bits que pueda ser decodificado. Respecto al decodificador, simplemente invierte el proceso, reconstruyendo las sub-bandas cuantificadas y finalmente transformando dichos valores al dominio tiempo para obtener una señal de audio reproducible. El estándar de audio MPEG tiene tres capas diferentes para la compresión. La primera de ellas implementa el algoritmo básico aquí descrito mientras que las capas II y III mejoran ciertos aspectos de éste. Cada una de las capas mejora el rendimiento de la compresión a costa de una mayor complejidad tanto en codificadores como en decodificadores. Respecto a los factores de compresión y tasas binarias, estos son variables en función de la calidad deseada a la salida del codificador, variando desde 32 kilobits/s, recomendados para aplicaciones de voz, hasta 256 kilobits/s que pueden ser utilizados para música de alta fidelidad.

2.2.4 Otros algorítmos Existen otros algoritmos con pérdidas que se basan en técnicas muy similares a las ya analizadas. Uno de ellos es el utilizado en el formato Vorbis, que se basa también en una transformación al dominio de la frecuencia (a través de la transformación discreta de coseno modificado o MDCT según sus siglas en inglés). La información se divide de forma similar a la de MPEG basándose en técnicas de análisis estadístico (cuantificación vectorial y codificación entrópica). Este algoritmo está destinado para su utilización para la compresión de audio de 8 a 500 KHz y las tasas binarias comprimidas, seleccionables de nuevo según la calidad deseada, varían entre 32 y 500 kilobits/s.

2.3 Algoritmos sin pérdidas Este tipo de algoritmos, al contrario de los vistos anteriormentes, permiten reproducir totalmente la señal original tras la descompresión. Por ello, se utilizan para aplicaciones como el archivo de audio, su edición, reproducción de alta fidelidad y masterizado de originales para uso ocasional. Las técnicas que se utilizan en este tipo de algoritmos son muy similares a las utilizadas para la compresión genérica de datos, obteniéndose en consecuencia factores de compresión menores que en el caso con pérdidas, del ordem de 2:1 como máximo. Dichos algoritmos no se analizarán aquí al estar fuera del alcance de este trabajo.

2.4 Características comparadas En

la

siguiente

tabla

se

muestra

una

pequeña

comparativa

de

los

algoritmos

estudiados:

Algorítmo

Fundamento

Aplicación

Ratio (16 bits/muestra)

µ-law/A-law

Escalado logarítmico

Voz

2:1

ADPCM

Cuantificación y predicción adaptativas

Voz

4:1

MPEG

Enmascaramientos Variable (voz, Variable (de (modelo música, otros) 4:1 a 12:1) psicoacústico)

Otros

Combinación de las anteriores, análisis estadístico

Variable

Variable

Tabla 1. Características comparadas de algoritmos

A día de hoy la compresión de audio es un tema muy importante para todo tipo de comunicaciones móviles, aún más con el auge de la comunicación de voz a través de redes IP. Por ello, existe una familia mucho más amplia de algoritmos, cada uno con sus particularidades, que no se estudiarán aquí pero cuyos fundamentos son similares a los analizados.

3. Formatos y herramientas 3.1 Codecs de audio Los codecs (codificadores-decodificadores) de audio cumplen la función de reducir el volumen de datos digitales que son necesarios para reproducir una señal auditiva. Dentro de los codecs de audio habría que hacer una primera clasificación en función del objetivo para el que han sido desarrollados: Almacenamiento. Empleado en reproductores multimedia que reproducen sonido almacenado como un disco duro, un CD o una tarjeta de memoria. Transmisión. En la implementación de redes de videoconferencia o telefonía IP. Por otro lado, hay que tener en cuenta los parámetros que los definen y que se enumeran a continuación: Número de canales. Un flujo de datos codificado puede tener uno o más canales. Según el número puede ser monocanal (un solo canal), estéreo (dos canales) o multicanal (más de dos canales). Un ejemplo de multicanal son los sistemas de home cinema que tienen 6 u 8 canales. Frecuencia de muestreo. La frecuencia de muestreo determina la calidad de la codificación y cuanto mayor sea, mayor será la fidelidad del sonido obtenido respecto a la señal original. Según el teorema de Nyquist, la frecuencia de muestreo será como máximo el doble de la máxima frecuencia. Número de bits por muestra. Indica con qué precisión se reproduce la señal original y cuál es su rango dinámico. A mayor número de bits mayor rango dinámico. El más común es el de 16 bits que tiene un rango de hasta 90 dB.

Pérdida. Al igual que en la clasificación de los algoritmos, existen codecs con y sin perdidas en función de si eliminan o no frecuencias de la señal original. Tasa de bits. Número de bits de información procesados por unidad de tiempo y en la que influyen la frecuencia de muestreo, el número de canales y la profundidad de la muestra en bits. 3.2 Codecs con pérdidas Como se ha comentado anteriormente, son aquellos codecs que eliminan determinadas frecuencias durante el proceso de compresión de audio. A continuación se comentan los más significativos diferenciados entre codecs de voz (speech) y de música. 3.2.1 Codecs de voz CELP (Code Excited Linear Prediction) o Es el estándar más usado en la actualidad para codificación de voz y cuenta con diferentes versiones. G.711 o Estándar de la ITU. Utilizado principalmente en telefonía. G.726 o Otro estándar ITU. Su uso se centra en la telefonía en llamadas internacionales y a través de internet. HILN (Harmonic and Individual Lines and Noise) o Se apoya en la promesa de que el sonido puede ser sintetizado únicamente con sus sinusoides y su ruido. AMR (Adaptative Multi Rate) o Ampliamente usado en telefonía móvil para el almacenamiento de grabaciones de voz. Speex o Es un codec libre mayoritariamente usado en aplicaciones VoIP.

3.2.2 Codecs de música AAC (Advanced Audio Coding) o Diseñado para ser el sustituto del MP3 ofreciendo sonido de mejor cualidad. Es el codec usado en el iPhone, iPod e iTunes de Apple o las videoconsolas PlayStation de Sony. ADPCM (Adaptative Differential Pulse-Code Modulation) o Usado en telefonía, aplicaciones multimedia y VoIp. ATRAC (Adaptative Transform Acoustic Coding) o Es un codec propietario desarrollado por la empresa Sony. El primer elemento que lo comercializó fue el MiniDisc. Sharp y Panasonic lo incorporaron después a sus productos. Dolby Digital o Desarrollado por los laboratorios Dolby. Existen numerosas tecnologías con diferentes propósitos. MP2 (MPEG-1 Audio Layer II) o Estándar dominante en broadcast de audio. MP3 (MPEG-1 Audio Layer III) o Probablemente el codec de audio más usado por los consumidores en el almacenamiento de audio en reproductores autónomos y portátiles. Se utiliza masivamente en el streaming de audio y la compresión de alta calidad.

Es posible ajustar la calidad de la compresión y por tanto el tamaño del archivo final, llegando a tasas de compresión de hasta 15:1. Musepack o De código abierto. En el reproductor de música XMMS (Linux) se utilizan librerías MPC. Ogg Vorbis o También es un codec de audio libre. Normalmente usado junto con el contenedor Ogg. Es un codec de fines generales que permite la flexibilidad máxima del decodificador, pudiendo escoger entre una amplia gama de tasas de bit. Se encuentra al nivel del MP2 y Musepack e incluso con AAC en la mayoría de las tasas de bit. WMA (Windows Media Audio) o Formato desarrollado por Microsoft. Es superior técnicamente al MP3 pero inferior al Vorbis. Actualmente se encuentra en el reproductor de Windows Media Player y varias aplicaciones y reproductores portátiles, aunque nunca ha conseguido la popularidad del formato MP3. Posee una infraestructura para proteger el copyright y dificultar el tráfico P2P.

3.3 Codecs sin pérdidas En este caso, no se ha eliminado ninguna frecuencia en la codificación. Los codecs sin pérdidas más importantes son: ALAC (Apple Lossless Audio Codec) o Desarrollado por Apple Computer. Fue introducido como componente en uno de los reproductores Quicktime y a día de hoy se utiliza en el iTunes y el reproductor iPod. Es rápido y presenta un consumo de energía eficiente. Dolby TrueHD o Codec multicanal desarrollado por los laboratorios Dolby. Desarrollado al principio para equipos de entretenimiento de alta definición como los discos Blu-Ray y HD DVD. FLAC (Free Lossless Audio Codec) o Reduce el ancho de banda y los requerimientos de almacenamiento sin sacrificar la integridad de la fuente de audio. Una señal codificada a FLAC reduce su tamaño un 50 o 60% respecto al original. Es adecuado para cualquier aplicación y tiene la ventaja de que es un codec de código abierto, parte del proyecto Ogg. Actualmente se ha convertido en un formato muy usado en la venta de música por internet y en las redes P2P como sustituto del MP3 debido a la gran calidad que presenta el sonido codificado. Además es válido para casi todas las plataformas, lo cual es una gran ventaja. Monkey’s Audio o Se comporta como el formato anterior. Es útil para propósitos de distribución, reproducción y archivo. Aunque es software propietario, su código también es abierto. Su principal desventaja es que la descomprensión en dispositivos portátiles suele ser muy lenta y no es compatible con muchas plataformas aparte de Windows. MPEG-4 ALS (Audio Lossless Coding) o Similar al FLAC. De acceso más rápido a la información codificada.

Wavpack o Formato libre y de código abierto. Comprime los archivos en formato .WAV. Soporta sonido surround y utiliza elevadas frecuencias de muestreo, con lo que ofrece mucha calidad. Reduce el tamaño entre un 30 y un 70 % para la música popular y algo más en la música clásica. WMA Lossless o Codec de Microsoft de Windows Media Player 9. Soporta hasta 6 canales y tiene una tasa de hasta 24 bits en un rango de hasta 96 KHz.

3.4 Herramientas MP3 o

o o

Compresores:  Lame: libre, multiplataforma, rápido, altamente configurable.  BladeENC: libre, multiplataforma, fácilmente empotrable. Bueno para altos bitrates.  Codificadores del instituto Fraunhofer: implementación de referencia.  Xing MP3 encoder: fama de ser el más rápido, problemas de calidad. Descompresores:  FFmpeg: libre, incluido en multitud de software. Reproductores: incluido en prácticamente todos los reproductores, tanto software como físicos, disponibles en el mercado.

OGG Vorbis o Compresores:  Libvorbis: implementación de referencia, libre, multiplataforma, incluido en gran cantidad de software. o Descompresores:  Libvorbis.  FFmpeg. o Reproductores: al igual que en el caso de MP3, se incluye en casi todos los reproductores de tipo software, no así en los de tipo hardware. Firmware para reproductores móviles con soporte para ogg: Rockbox. WMA o Compresores:  Windows Media Encoder: privativo. o Descompresores:  Windows Media Encoder.  FFmpeg. o Reproductores: incluido en reproductores software de terceros a través de FFmpeg. Windows Media Player. Presente en gran parte de reproductores portátiles. FLAC o Compresores:  FLAC (libflac): implementación de referencia, libre, librería para su inclusión en software de terceros.

Referencias 1. 2. 3. 4.

Salomon, D.: Data Compression: The Complete Reference, 3rd Edition, Springer (2004). Salomon, D.: A Concise Introduction to Data Compression, Springer-Verlag (2008). Wootton, C.: A Practical Guide to Video and Audio Compression, Elsevier (2005). Gersho, A.: Advances in Speech and Audio Compression, Proceddings of the IEEE Vol. 82 No. 6 (1994). 5. Mengyi Pu, I.: Fundamental Data Compression, Elsevier (2006). 6. Kaufmann, M.: Introduction to Data Compression, 3rd Edition, Elsevier (2005). 7. Larsson, N. J.: Structures of String Matching and Data Compression, Departament of Computer Science, LundUniversity (1999). 8. Hanzo, L., Somerville, F. C., Woodard, J.: Voice and Audio Compression for Wireless Communications, 2nd Edition,B IEEE Press (2007). 9. Nedjl, R.: Audio Compression Techniques, http://musik.ringofsaturn.com/compress.php. 10. Several authors, http://en.wikipedia.org/wiki/Audio_compression_%28data%29. 11. Yen Pan, D.: Digital Audio Compression, http://en.wikipedia.org/wiki/Audio_compression_%28data%29. 12. Bier, J.: Digital Audio Compression: Why, What and How, http://en.wikipedia.org/wiki/Audio_compression_%28data%29 (2000).

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF