1.3. Digitalizacion de La Voz
June 21, 2022 | Author: Anonymous | Category: N/A
Short Description
Download 1.3. Digitalizacion de La Voz...
Description
El campo de la digitalización de la voz ha sido, y es todavía, un área área de permanen nente desarr sarroollo llo. Este ste desarr sarroollo llo ha prod produc ucid idoo much muchos os tipo tiposs dife diferrent entes de alg algorit oritmo moss par para digitalización de la voz. La escogencia de un tipo particular depende del costo de implementación y los requerimientos de desempeño desempeño necesari necesarios os en la aplicació aplicación. n. El algoritmo usados para sistemas T1 es el de PCM companded, el cual proporciona excelente calidad a una tasa mode moderrada ada (6 (644 Kbps) Kbps) y con un un cost osto mode moderrado ado.
El campo de la digitalización de la voz ha sido, y es todavía, un área área de permanen nente desarr sarroollo llo. Este ste desarr sarroollo llo ha prod produc ucid idoo much muchos os tipo tiposs dife diferrent entes de alg algorit oritmo moss par para digitalización de la voz. La escogencia de un tipo particular depende del costo de implementación y los requerimientos de desempeño desempeño necesari necesarios os en la aplicació aplicación. n. El algoritmo usados para sistemas T1 es el de PCM companded, el cual proporciona excelente calidad a una tasa mode moderrada ada (6 (644 Kbps) Kbps) y con un un cost osto mode moderrado ado.
Las Las aplic plicac acio ion nes de tra transmis smisió ión n con anc anchos hos de ban banda limitados, como los sistemas celulares digitales, requieren algoritmos de digitalización de la voz más sofisticados para lograr lograr tasas tasas del orden orden de 8 16 Kbps. Otras aplicaciones para la voz digitalizada son los sistemas de almacenamiento de la voz. El almacenamiento digital es particularmente apropiado para grabar anuncios, ya que el sonido pregrabado no se deteriora con el tiempo y además, los anuncios individuales, individuales, que son guardados guardados en memorias memorias o en CDs puede pueden n ser acc accesados esados en forma forma aleat aleatori oria. a.
La grabación de conversaciones en memorias con capacidad limi limita tada da son son ejem ejempl ploo de una una apli apliccació ación n que que pued puedee usar usar alg algorit oritmo moss con tasa tasass de digi digita tali liza zacción ión muy muy baja bajass y con reduc reduccion ciones es important importantes es de calidad calidad La razón principal para que los sistemas de mensajes de voz usen almacenamiento almacenamiento digital es la de tener acceso acceso aleatorio a los mensajes individualmente. Para minimizar el espacio de almacenamiento estos sistemas usan típicamente tasas de datos datos de 8 32 Kbps. Kbps.
Las técnicas de digitalización de la voz pueden ser categorizadas categorizadas en dos clases: las que codifican formas de onda análogas tan fielmente como sea posible y las que procesan formas de onda onda para codificar codificar solamente los aspectos que que son realmente importantes en los procesos de conversación y audición La prim primer eraa cat categorí egoríaa es repr epresen esenta tati tiva va de los los probl problem emas as generales generales de las l as conversiones conversiones A/D ó D/A y no esta restringida a la digita digitaliz lizac ación ión de de las conve onversa rsaci cione ones. s.
La tres técnicas más comunes usadas para codificar la voz son; Modulación por Código de Pulsos (PCM), PCM Diferencial (DPCM) y Modulación Delta (DM). Excepto en casos especiales los equipos telefónicos son diseñados para reproducir una forma de onda análoga usando una de estas técnicas. La segunda categoría de digitalización de la conversación esta relacionada con producir codificadores y decodificadores de tasas de datos muy bajas para sistemas de transmisión de banda estrecha ó dispositivos de almacenamiento digital con capacidad limitada.
Un
dispositivo con esta clase de técnica especial es llamado un vocoder (voice coder; codificador de voz). La mayor parte de los esfuerzos en este campo se han dedicado a desarrollar vocoders con tasas medias (ej. 8 Kbps) con calidades naturales de la conversación, principalmente para aplicaciones de celulares digitales. Estos codificadores se implementan como una combinación de las técnicas de bajas tasas de bits y los codificadores de formas de onda. Estas técnica representan una tercera clase de algoritmos de digitalización de la voz.
MODULACION DE AMPLITUD DE PULSO
El primer paso en la digitalización de una forma de onda análoga es establecer un conjunto de tiempos discretos en los cuales se va a muestrear la señal de entrada. Las técnicas de digitalización predominantes están basadas en el uso de muestras espaciadas en forma regular y periódica.
Si tenemos un número suficiente de muestras la forma de onda original podrá ser recuperada completamente usando un filtro pasa-bajas para interpolar los valores intermedios de las muestras. La figura inferior muestra una forma de onda análoga muestreada a una frecuencia constante f s ! 1 / T y que luego es reconstruida mediante un filtro pasa bajas.
TASA DE MUESTREO DE NYQUIST Harry Nyquist logró establecer en 1933 la frecuencia de muestreo mínima requerida para extraer toda la información de una forma de onda continua variante en el tiempo. Este resultado, llamado criterio de Nyquist, se definió por la relación: f s " (2)( BW ) Donde
f s BW
= frecuencia de muestreo = ancho de banda de la señal de entrada
La representación espectral del muestreo se puede apreciar en la figura inferior, donde el muestreo se asemeja a la multiplicación de la señal por un tren de pulsos y la recuperación de la señal se logra mediante un filtro pasa bajas.
DISTORSION POR SUPERPOSICION
Si la forma de onda de entrada de un sistema PAM esta submuestreada ( f s 2BW ) , la forma de onda original no podrá ser recuperada sin distorsión. Esta distorsión se presenta porque las componentes de frecuencia generadas por el muestreo se superponen unas con otras haciendo imposible recuperar la forma original del espectro
En esencia, la distorsión por superposición produce componentes de frecuencia, en la banda de frecuencias de interés, las cuales no existen en la forma de onda original. Otro término empleado para esto es aliasing. El aliasing no es un fenómeno exclusivo de la digitalización de la voz.
MODULACION POR CODIGO DE PULSOS La Modulación por Código de Pulsos (PCM) es una extensión de PAM, en donde cada valor de la muestra análoga es cuantizada a un valor discreto para su representación en una palabra codificada digitalmente. Todos los valores de muestras que estén en un intervalo de cuantización particular serán representados por un valor discreto localizado en el centro del intervalo de cuantización. De esta manera el proceso de cuantización introduce cierta cantidad de error de distorsión en las muestras de la señal.
Este error conocido como error de cuantización es minimizado estableciendo un gran número de intervalos de cuantización.
R UIDO DE CU ANTIZACIÓN Generalmente se asume que los errores de cuantización sucesivos de un codificador PCM están distribuidos en forma aleatoria y que no están correlacionados unos con otros Si la señal tiene tiempo suficiente para cambiar en amplitud por varios intervalos de cuantización, los errores de cuantización serán independientes.
Si una señal es sobremuestrada (frecuencia mayor que la tasa de Nyquist), las muestras sucesivas probablemente caerán en el mismo intervalo, causando perdida de independencia en los errores de cuantización. El error de cuantización, o distorsión, creado por la digitalización de la señal análoga, se expresa generalmente como una potencia promedio de ruido, relacionada con la potencia promedio de la señal.
De esta forma la relación señal a ruido de cuantización (SQR), se puede determinar como: SQR
2 E { x (t )} 2 E {[ y (t ) x(t )] }
Donde E {y} x (t ) y (t )
esperanza ó promedio señal de entrada análoga señal de salida decodificada
Hay tres observaciones respecto a la determinación del valor esperado del ruido de cuantización: 1.
El error y (t ) x(t ) está limitado en amplitud a donde q es el peso del intervalo de cuantización.
q/2
,
2. El valor de una muestra tiene igual probabilidad de caer
dentro de cualquier intervalo de cuantización, empleando una densidad de probabilidad uniforme de amplitud 1 / q .
3. Se asume que las amplitudes de la señal están limitadas al
rango máximo del codificador. Si el valor de una muestra excede el rango del intervalo de cuantización mas alto, se presentará una distorsión de sobrepeso, también llamada limitación de pico ó saturación. Si asumimos por conveniencia una resistencia de potencia promedio del ruido de cuantización será: Potencia de ruido de cuatización
!
1 12
q2
1; ,
la
Si todos los intervalos de cuantización tienen igual longitud (cuantización uniforme), el ruido de cuantización es independiente de los valores de las muestras y el SQR se determina como: ¨ v ¸ ¨ v 2 ¸ © ¹¹ 10 . 8 20 log ! © ¹ SQR (db) ! 10 log10 © 2 10 © ¹ ª q º ª q / 12 º
Donde
v
es la amplitud rms de la entrada.
En particular, para una señal de entrada senoidal la SQR producida por cuantización uniforme es:
S
¨ A2 / 12 ¸ ¹¹ (db) ! 10 log10 ©© 2 ª q / 12 º
¨ A ¸ ! 7.78 20 log10 ©© ¹¹ ª q º
Donde A es la amplitud pico de la onda senoidal.
R UIDO DE CANAL INACTIVO Las ecuaciones para determinar los valores de SQR muestran que este valor es pequeño para valores de muestra pequeños.
La figura superior muestra que el ruido puede ser mayor que la señal cuando los valores de las muestras están en el primer intervalo de cuantización.
Este efecto es particularmente molesto durante las pausas de las conversaciones y se conoce como ruido de canal inactivo. Un
método para minimizar el ruido de canal inactivo en sistemas PCM consiste en establecer niveles de cuantización que estén montados sobre el origen.
En este caso todos los valores de las muestras que esten localizados en el intervalo central de cuantización son decodificados como una salida constante cero. Los sistemas PCM de este tipo usan un número impar de intervalos de cuantización, ya que los rangos de codificación de señales positivas y negativas es igual.
CODIFICACION PCM UNIFORME Un
codificador que utiliza intervalos de cuantización de igual longitud para todas las muestras, genera palabras codificadas que guardan una relación lineal con los valores de las muestras análogas. Esto quiere decir que el equivalente numérico de cada palabra codificada es proporcional al valor de la muestra cuantizada que este representa. De esta manera un sistema PCM uniforme usa un conversor análogo-digital convencional para generar los códigos de la muestra. El número de bits requerido para cada muestra se determina mediante la máxima potencia de ruido aceptable.
La calidad mínima de voz digitalizada requiere una SQR de 26dB. Para que un sistema PCM uniforme logre esta SQR se necesita que ! 0.1 3 A. Para excursiones iguales de la señal tanto en rango positivo como negativo se necesitan 16 intervalos de cuantización, o cuatro bits por muestra. Además de proporcionar una calidad adecuada para las pequeñas señales, un sistema telefónico debe ser capaz de transmitir un rango grande de amplitudes de señal, llamado rango dinámico.
El rango dinámico (DR) es usualmente expresado en decibeles como la relación entre la máxima y la mínima amplitud de la señal: DR
Un
¨ P max ¸ ¹¹ 0 log 0 ©© ª P min º
¨ V max ¸ ¹¹ 20 log10 ©© ª V min º
rango dinámico típico es de 30dB. Si se asumen intervalos de cuantización igualmente espaciados, el número total de intervalos es de 496, lo cual requiere palabras de 9 bits.
El desempeño de un sistema PCM uniforme de n bits se determina observando que: !
2 Amax 2n
Donde A max es la amplitud máxima. Sustituyendo el valor de q tenemos que: ¨ A SQR ! 1.76 6.02n 20 Log 10©© ª A
max
¸ ¹¹ º
COMPANDING En un sistema PCM uniforme el tamaño de cada intervalo de cuantización está determinado por las condiciones del nivel más bajo de señal a ser codificada. Los valores más altos de la señal son codificados con los mismos intervalos de cuantización. Si los niveles de la señal tienen pocas excursiones a los valores más altos, se desperdiciarían niveles de cuantización. Un
proceso de codificación más eficiente se logra cuando los intervalos de cuantización no son uniformes, sino que se incrementan con el valor de la muestra.
Cuando los intervalos de cuantización son directamente proporcionales al valor de las muestras, la SQR es constante para todos los niveles de la señal. Cuando los intervalos de cuantización no son uniformes se presenta una relación no lineal entre las palabras codificadas y las muestras que ellas representan. Una
función no lineal se presenta cuando la señal de entrada análoga es inicialmente comprimida y luego cuantizada con intervalos de cuantización uniforme. El efecto de la operación de compresión se presenta en la siguiente diapositiva.
Se puede observar que los intervalos de la señal de entrada son comprimidos sucesivamente en intervalos de cuantización de longitud constante. Los valores de muestra más grandes serán comprimidos antes de la codificación.
El proceso de comprimir primero una señal y luego expandirla es conocido como companding.
Las dos familias de compresión más utilizadas son la ley - Q y la ley - A .
REDUNDANCIAS EN LAS CONVERSACIONES Los sistemas PCM convencionales codifican cada muestra de una forma de onda independientemente de las otras muestras. De esta forma un sistema PCM es capaz de codificar una forma de onda aleatoria cuyas máximas componentes de frecuencia no excedan la mitad de la tasa de muestreo. Los análisis de las formas de onda de conversación indican que hay una redundancia considerable de una muestra a la otra. El coeficiente de correlación entre muestras adyacentes de 8KHz es generalmente de 0.88
Además de la correlación que existe entre las muestras adyacentes de una forma de onda de conversación, existen otros niveles de redundancia que pueden ser explotados para reducir las tasas de bits codificados: -
Distribuciones de amplitud no uniforme Correlaciones muestra a muestra Correlaciones ciclo a ciclo (periodicidad) Factores de inactividad
Distribuciones de amplitud no uniforme. Las muestras con bajos niveles de amplitud son más comunes que aquellas con niveles altos. La mayoría de las muestras con bajo nivel ocurren como resultado de las pausas en una conversación. Sin embargo, los niveles de potencia de la conversación activa suelen estar en la parte baja del rango de codificación. La calidad promedio de una conversación PCM puede ser mejorada haciendo más cortos los intervalos cuantización de los niveles más bajos, e incrementando los intervalos de cuantización de los niveles más altos.
Las mejoras logradas con esta técnica son mínimas, y en su mayor parte no justifican la complejidad adicional. Correlaciones muestra a muestra. La alta correlación entre muestras sucesivas indica que cualquier intento por reducir las tasas de transmisión deben aprovechar la correlación entre muestras adyacentes. La forma más simple de aprovechar la redundancia entre muestras en una conversación es codificar solamente las diferencias entre las muestras adyacentes.
Las diferencias de medidas son acumuladas en el decodificador para recuperar la señal. En esencia estos sistemas codifican la pendiente o derivada de una señal en el origen y recuperan la señal integrando en el destino. Correlaciones ciclo a ciclo (periodicidad). Aunque una señal de conversación requiere el ancho de banda entero de 3003400Hz de un canal telefónico, en cualquier instante de tiempo particular ciertos sonidos estarán compuestos por unas pocas frecuencias dentro de la banda.
Cuando unas pocas frecuencias fundamentales existan en un sonido, la forma de onda presentará una fuerte correlación entre numerosas muestras correspondientes a varios ciclos de una oscilación. El ciclo natural de un sonido de voz se muestra en la figura
Los codificadores que aprovechan la redundancia ciclo a ciclo en las conversaciones son más complicados que aquellos que solo remueven las redundancias en muestras adyacentes. Factores de inactividad. El análisis de las conversaciones telefónicas indica que una conversación está típicamente activa durante el 40% de la duración de la llamada. La mayor inactividad ocurre como resultado de que una persona escucha mientras la otra habla. Para una conexión full-duplex convencional esto significa una subutilización.
MODULACION POR CODIGO DE PULSOS DIFERENCIAL La Modulación por Código de Pulsos Diferencial (DPCM) está diseñada específicamente para sacar ventaja de la redundancia muestra a muestra en una forma de onda típica de conversación. Ya que el rango de diferencias de muestra es menor que el rango de muestras individuales, se necesitan pocos bits para codificar las diferencias de las muestras. La tasa de muestreo es a menudo la misma en lo que respecta a un sistema PCM comparable.
PCM ADAPTATIVO DIFERENCIAL DPCM tiene una implementación relativamente sencilla y puede darnos un ahorro de 1 a 2 bits por muestra con respecto a la codificación estándar PCM. Incluso se pueden lograr ahorros mayores agregando lógica de adaptación al algoritmo básico de PCM para crear lo que se llama PCM Diferencial Adaptativo (ADPCM)
MODULACION DELTA La Modulación Delta es otra técnica de digitalización que se aprovecha de la redundancia muestra a muestra en una forma de onda de conversación. DM se puede considerar como un caso especial de DPCM usando solamente 1 bit por muestra de la diferencia de señal.
El bit especifica solamente la polaridad de la diferencia de la muestra y por lo tanto indica si la señal se incrementa o se decrementa respecto a la última muestra.
CODIFICACION PREDICTIVA ADAPTATIVA Los sistemas diferenciales anteriores (DPCM, ADPCM, DM), operan con tasas de datos más bajas que el sistema PCM debido a que codifican una diferencia de señal que tiene una potencia promedio más baja que la señal de entrada. La relación entre la potencia de la señal de entrada y la potencia de la diferencia de señal es lo que se llama ganancia de predicción. Los sistemas DPCM simples permiten alrededor de 5 dB de ganancia de predicción.
La Codificación Predictiva Adaptativa (APC) permite grandes niveles de ganancia de predicción adaptando los coeficientes de predicción a segmentos de conversación individuales. Si los coeficientes son determinados a partir de la historia pasada y usados para predecir los segmentos de conversación subsecuentes, se pueden obtener ganancias de predicción del orden de los 13 dB .
CODIFICACIÓN SUBBANDA Es un codificador que usa un análisis en el dominio de la frecuencia en lugar del dominio del tiempo como en los anteriores. Los codificadores dividen el espectro de entrada en subbandas mediante filtros. Cada subbanda es codificada separadamente con APCM, PCM ó ADPCM. Estos códigos son multiplexados y transmitidos al decodificador donde son demultiplexados, decodificados y combinados para reconstruir la señal de entrada.
VOCODERS Los algoritmos anteriores pretenden reproducir la señal de entrada tan exactamente como sea posible. Estos asumen poco o ningún conocimiento de la naturaleza de la señal que procesan y son aplicables a cualquier señal presente en un canal de voz. Los procedimientos de digitalización de los vocoders codifican específicamente señales de voz. De allí su nombre de vocoders, por Voice Coders (codificadores de voz). Estas técnicas son diseñadas exclusivamente para señales de voz.
El objetivo básico de un vocoder es codificar solamente los aspectos más importantes, perceptivamente, de la conversación, con menos bits que los codificadores de formas de onda generales.
View more...
Comments