TICRM - Tecnologías del Habla– Codificación de Voz
Codificación de VozCodificación de Voz1. Introducción1. Introducción2. 2. Vocoder Vocoder LPCLPC3. Codificadores Híbridos3. Codificadores Híbridos
TICRM - Tecnologías del Habla– Codificación de Voz
Clasificación Codificadores de VozClasificación Codificadores de Voz1.1. Codificadores de forma de ondaCodificadores de forma de onda
Reconstruir una forma de onda de señal lo mas Reconstruir una forma de onda de señal lo mas parecida al originalparecida al original
PCM G.711 64 PCM G.711 64 kbkb/s, ADPCM G.721 32 /s, ADPCM G.721 32 kbkb/s/sSBC G.722SBC G.722
2.2. Codificadores de fuenteCodificadores de fuenteReconstruir una señal basada en el modelo de Reconstruir una señal basada en el modelo de producción de la señal de vozproducción de la señal de voz
Vocoder Vocoder LPC FS1015 2,4 LPC FS1015 2,4 kbkb/s, MELP 2,4 /s, MELP 2,4 kbkb/s/s3.3. Codificadores híbridos Codificadores híbridos –– AnálisisAnálisis--porpor--SíntesisSíntesis
Forma de onda basado en el modelo de producciónForma de onda basado en el modelo de producciónETSI GSM, CELP G.729ETSI GSM, CELP G.729
TICRM - Tecnologías del Habla– Codificación de Voz
Comparación de CodificadoresComparación de Codificadores
1. Bit Rate kb/s2. Calidad MOS (Mean Opinion Score)3. Complejidad4. Retardo5. Sensibilidad a errores de canal6. Ancho de Banda
Coder Bit Rate kb/s MOS BW (kHz)CD Audio 1.411 5.0 44,1
PCM 64 4.3 8
ADPCM 40,32,24,16 4.2 (32 kb/s) 8
SBC 64,56,48 >4.5 16
TICRM - Tecnologías del Habla– Codificación de Voz
ComparativaComparativa
TICRM - Tecnologías del Habla– Codificación de Voz
Codificación de Voz: Codificación de Voz: VocoderVocoder LPCLPC
TICRM - Tecnologías del Habla– Codificación de Voz
Análisis LPCAnálisis LPC
Síntesis LPC:
P(z)
)(ns
)(ˆ ns
)(neH(z)=1/A(z)
∑=
−−=p
i
ii zazP
1·)(
H(z): estimación de la respuesta del tracto vocal
TICRM - Tecnologías del Habla– Codificación de Voz
VocoderVocoder LPCLPC
Simplificación de la excitación en la síntesis:
Tren de impulsos periódicos en los segmentos sonorosRuido gaussianoblanco en los segmentos sordosMantenimiento de la potencia del residuo en la nueva excitación sintética.Ejemplos:
TICRM - Tecnologías del Habla– Codificación de Voz
Decodificador/Codificador LPCDecodificador/Codificador LPC
P(z)
+
H(z)x
ANÁLISISLPC
P(z)
- ANÁLISIS-PITCH-U/V
G
CoeficientesReflexión
G
V
U
F0)(nr
)(ˆ ns
)(ns
)(ns
1/F0
TICRM - Tecnologías del Habla– Codificación de Voz
VocoderVocoder LPC10E/LPC10E/FS1015FS1015
54 bits/trama
Pitch + U/V->7bitsG->5bitsK1 a K4->5bitsK5 a K8-> 4bitsK9->3bitsK10->2bits
Fs= 8000muestras/s54bits/trama180muestras/trama(22.5ms/trama)
54*8000/180=2400bits/seg
TICRM - Tecnologías del Habla– Codificación de Voz
VocoderVocoder LPC10ELPC10E
Ejemplos:Señal OriginalSeñal transcodificada LPC10E Señal transcodificada LPC10E (transmisión radio vía satélite)
Características:Nasalidad: modelo todo-polosExcitación sonora simple (tren de impulsos): buzzingTamaño de trama: problemas con las transiciones rápidas (p, t, k…)
TICRM - Tecnologías del Habla– Codificación de Voz
MELP:MELP: MixedMixed--ExcitationExcitation LinearLinear Predictive Predictive VocoderVocoder
2400 bps Federal Standard speech coder
La señal de excitación se genera mediante una mezcla de ruido y tren de impulsos en distintas bandas frecuenciales
TICRM - Tecnologías del Habla– Codificación de Voz
MELP:MELP: MixedMixed--ExcitationExcitation LinearLinear Predictive Predictive VocoderVocoder
TICRM - Tecnologías del Habla– Codificación de Voz
MELP:MELP: MixedMixed--ExcitationExcitation LinearLinear Predictive Predictive VocoderVocoder
Señal original “limpia” Lpc-10
Señal transcodificada MELP “limpia”
Señal original “sucia”
Señal transcodificada MELP “sucia”Data rate: 2400 bps (54* 44,44444 frames/second) Sampling rate: 8 kHzBit stream format: For each 22.5 ms frame of input speech, the following 54 bits are placed into the bit-stream (in this order)Description Number of bits
Pitch index 7Jitter flag 1Bandpass voicing decision 4x1Gain for second half of frame 5Gain for first half of frame 3LSP frequencies (10 line spectrum pairs) 25Fourier magnitudes (10 harmonies) 8Sync bit 1 Total 54
TICRM - Tecnologías del Habla– Codificación de Voz
Codificadores HíbridosCodificadores HíbridosCodificadores Codificadores Predictivos Predictivos basados en el basados en el
Análisis por SíntesisAnálisis por Síntesis
TICRM - Tecnologías del Habla– Codificación de Voz
Codificadores HíbridosCodificadores HíbridosDependiendo de la excitación se clasifican en tres tipos básicos1. Excitación Multipulso (MPE)2. Excitación por Pulsos Regulares (RPE)3. Excitación por Códigos (CELP)
TICRM - Tecnologías del Habla– Codificación de Voz
Codificadores HíbridosCodificadores HíbridosCodificador CELP: Excitación por Códigos
TICRM - Tecnologías del Habla– Codificación de Voz
Análisis localizadoAnálisis localizado
Valores típicos:Trama de análisis: 25 ms (200 muestras)Trama de voz: 20 ms (160 muestras)Subtrama: 5 ms (40 muestras)
TICRM - Tecnologías del Habla– Codificación de Voz
Filtro de SíntesisFiltro de SíntesisBasado en una predicción lineal a corto y largo plazo
s(n) rL(n)
ANÁLISISA CORTO
ANÁLISISA LARGO
P(z)
-PL(z)
-r(n)
SÍNTESIS
PL(z) P(z)
r(n)rL(n)+ +
s(n)
)(ˆ ns)(ˆ nr
TICRM - Tecnologías del Habla– Codificación de Voz
Filtro de SíntesisFiltro de SíntesisPredictor a largo plazo
ˆ( ) ( )r n r n Dβ= −
ˆ( ) ( ( 1)) ( ) ( ( 1))1 2 3
r n r n D r n D r n Dβ β β= − + + − + − −Estimación
o también
)(ˆ nr
Cálculo de los parámetros, minimizar error predicción( ) ( ) ( )e n r n r n Dβ= − −
[ ]211 2( ) ( ) ( )
00
NNE e n r n r n D
nnβ
−−= = − −∑∑
==
/ 0E β∂ ∂ =[ ]
1( ) ( )
01 2( )0
Nr n r n D
nN
r n Dn
β
−−∑
==−
−∑=
TICRM - Tecnologías del Habla– Codificación de Voz
Filtro de SíntesisFiltro de SíntesisSeleccionar el valor de D que minimiza
la potencia del error E
[ ]
21( ) ( )
1 2 0( ) 1 20 ( )0
Nr n r n D
N nE r n Nn r n D
n
−−∑
− == −∑ −= −∑
=
TICRM - Tecnologías del Habla– Codificación de Voz
Filtro de Ponderación Filtro de Ponderación PerceptualPerceptualFunción: modificar las características frecuenciales del error a minimizar, concediendo más importancia a las zonas de frecuencia en las que el oído va a ser más sensible y menos importancia a las zonas en las que el oído va a ser menos sensible. Basado en el enmascaramiento frecuencial que se produce en el oído:
En las zonas de máxima energía (formantes) se podrá cometer más error. La respuesta del filtro tendrá la forma inversa a la envolvente espectral de la señal de voz a codificar.Función de transferencia utilizada: W(z)=A(z)/A(γ-1z)Parámetro γ=[0,1], controla en nivel de ponderación realizado. Debe actualizarse junto con el predictor.
TICRM - Tecnologías del Habla– Codificación de Voz
Filtro de Ponderación Filtro de Ponderación PerceptualPerceptual
1 1( ) 1 1( )
( / ) 11 (1 ( ) )1 1
P Pk ka z a zk kA z k kW zP PA z zk ka z pk kk k
γγ
γ
− −− −∑ ∑= == = =
− −− −∑ ∏= =
11( )
1(1 )1
P ka zkkW zP
p zkkγ
−− ∑==
−−∏=
0.8 0.9γ≤ ≤normalmente
TICRM - Tecnologías del Habla– Codificación de Voz
Filtro de Ponderación Filtro de Ponderación PerceptualPerceptual
TICRM - Tecnologías del Habla– Codificación de Voz
Filtro de Ponderación Filtro de Ponderación PerceptualPerceptual
TICRM - Tecnologías del Habla– Codificación de Voz
Codificador GSM 06.XX: RPE-LTPGSM 1982 "Groupe Spécial Mobile“ ,
actualidad "Global System for Mobile communications“RPE-LTP: Regular Pulse Excitation – Long Term Prediction
Codificador GSM 06.XX: RPE-LTP
SID – Silence Descrition FrameBFI – Bad Frame Indicator
TICRM - Tecnologías del Habla– Codificación de Voz
Codificador GSM 06.XX: RPE-LTPPérdidas de Pérdidas de FramesFrames:1) Frames de voz
a) Primera pérdidas -> repetición de la anterior buena
b) Siguientes pérdidas -> decrecer el nivel de salida hasta el silencia en 320 ms
2) Frames de SIDa) Primera pérdidas -> repetición de la anterior
buenab) Siguientes pérdidas -> decrecer el nivel de salida
hasta el silencia en 320 msTICRM - Tecnologías del Habla– Codificación de Voz
TICRM - Tecnologías del Habla– Codificación de Voz
Codificador GSM 06.XX: RPE-LTP
TICRM - Tecnologías del Habla– Codificación de Voz
TICRM - Tecnologías del Habla– Codificación de Voz
Codificador GSM: RPE-LTP
TICRM - Tecnologías del Habla– Codificación de Voz
Codificador GSM 06.XX: RPE-LTP
TICRM - Tecnologías del Habla– Codificación de Voz
TICRM - Tecnologías del Habla– Codificación de Voz
Codificador GSM 06.10
Cada 160 muestras (20 ms.)LAR1, LAR2->6 bitsLAR3, LAR4->5 bitsLAR5, LAR6->4 bitsLAR7, LAR8->3 bitsTotal LAR’s->36 bits
Cada 40 muestras (5ms.)Retardo Predictor largo-> 7 bitsGanancia Predictor largo-> 2 bitsPosición rejilla (k)->2 bitsAmplitud del bloque-> 6 bitsAmplitud de cada pulso (13)->3 bitsTotal subtrama excitación-> 56 bits
36+56·4=260 bits / 20 ms.
Bitrate = 13 kbps
Codificador GSM 06.XXRuido de ConfortRuido de Confort
SID SID –– Background Background Acoustic Noise EvaluationAcoustic Noise Evaluation
SID codeword con 95 bits a cero
Sobre 4 tramas (segmentos consecutivos con VAD=0)se calcula:
Media de los parámetros LARMedia de Xmax
Los pulsos RPE se reemplazan localmente por secuenciasde enteros aleatorios uniformemente distribuidos entre 1 y6
TICRM - Tecnologías del Habla– Codificación de Voz
TICRM - Tecnologías del Habla– Codificación de Voz
Codificador GSM 06.10
Ejemplos:Señal original: Señal transcodificada GSMDiferencia original-transcodificada (ruido de transcodificación)
Ruido blanco con la misma potenciaSeñal original + ruido blanco (es decir, sin ponderación del error cometido).
TICRM - Tecnologías del Habla– Codificación de Voz
Codificador GSM 06.10
Original
Transcodificada
Mantenimiento de la forma de onda