Download pdf - 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

Codificación de VozCodificación de Voz1. Introducción1. Introducción2. 2. Vocoder Vocoder LPCLPC3. Codificadores Híbridos3. Codificadores Híbridos


Clasificación Codificadores de VozClasificación Codificadores de Voz1.1. Codificadores de forma de ondaCodificadores de forma de onda

Reconstruir una forma de onda de señal lo mas Reconstruir una forma de onda de señal lo mas parecida al originalparecida al original

PCM G.711 64 PCM G.711 64 kbkb/s, ADPCM G.721 32 /s, ADPCM G.721 32 kbkb/s/sSBC G.722SBC G.722

2.2. Codificadores de fuenteCodificadores de fuenteReconstruir una señal basada en el modelo de Reconstruir una señal basada en el modelo de producción de la señal de vozproducción de la señal de voz

Vocoder Vocoder LPC FS1015 2,4 LPC FS1015 2,4 kbkb/s, MELP 2,4 /s, MELP 2,4 kbkb/s/s3.3. Codificadores híbridos Codificadores híbridos –– AnálisisAnálisis--porpor--SíntesisSíntesis

Forma de onda basado en el modelo de producciónForma de onda basado en el modelo de producciónETSI GSM, CELP G.729ETSI GSM, CELP G.729


Comparación de CodificadoresComparación de Codificadores

1. Bit Rate kb/s2. Calidad MOS (Mean Opinion Score)3. Complejidad4. Retardo5. Sensibilidad a errores de canal6. Ancho de Banda

Coder Bit Rate kb/s MOS BW (kHz)CD Audio 1.411 5.0 44,1

PCM 64 4.3 8

ADPCM 40,32,24,16 4.2 (32 kb/s) 8

SBC 64,56,48 >4.5 16


ComparativaComparativa


Codificación de Voz: Codificación de Voz: VocoderVocoder LPCLPC


Análisis LPCAnálisis LPC

Síntesis LPC:

P(z)

)(ns

)(ˆ ns

)(neH(z)=1/A(z)

∑=

−−=p

i

ii zazP

1·)(

H(z): estimación de la respuesta del tracto vocal


VocoderVocoder LPCLPC

Simplificación de la excitación en la síntesis:

Tren de impulsos periódicos en los segmentos sonorosRuido gaussianoblanco en los segmentos sordosMantenimiento de la potencia del residuo en la nueva excitación sintética.Ejemplos:


Decodificador/Codificador LPCDecodificador/Codificador LPC

P(z)

+

H(z)x

ANÁLISISLPC

P(z)

- ANÁLISIS-PITCH-U/V

G

CoeficientesReflexión

G

V

U

F0)(nr

)(ˆ ns

)(ns

)(ns

1/F0


VocoderVocoder LPC10E/LPC10E/FS1015FS1015

54 bits/trama

Pitch + U/V->7bitsG->5bitsK1 a K4->5bitsK5 a K8-> 4bitsK9->3bitsK10->2bits

Fs= 8000muestras/s54bits/trama180muestras/trama(22.5ms/trama)

54*8000/180=2400bits/seg


VocoderVocoder LPC10ELPC10E

Ejemplos:Señal OriginalSeñal transcodificada LPC10E Señal transcodificada LPC10E (transmisión radio vía satélite)

Características:Nasalidad: modelo todo-polosExcitación sonora simple (tren de impulsos): buzzingTamaño de trama: problemas con las transiciones rápidas (p, t, k…)


MELP:MELP: MixedMixed--ExcitationExcitation LinearLinear Predictive Predictive VocoderVocoder

2400 bps Federal Standard speech coder

La señal de excitación se genera mediante una mezcla de ruido y tren de impulsos en distintas bandas frecuenciales





Señal original “limpia” Lpc-10

Señal transcodificada MELP “limpia”

Señal original “sucia”

Señal transcodificada MELP “sucia”Data rate: 2400 bps (54* 44,44444 frames/second) Sampling rate: 8 kHzBit stream format: For each 22.5 ms frame of input speech, the following 54 bits are placed into the bit-stream (in this order)Description Number of bits

Pitch index 7Jitter flag 1Bandpass voicing decision 4x1Gain for second half of frame 5Gain for first half of frame 3LSP frequencies (10 line spectrum pairs) 25Fourier magnitudes (10 harmonies) 8Sync bit 1 Total 54


Codificadores HíbridosCodificadores HíbridosCodificadores Codificadores Predictivos Predictivos basados en el basados en el

Análisis por SíntesisAnálisis por Síntesis


Codificadores HíbridosCodificadores HíbridosDependiendo de la excitación se clasifican en tres tipos básicos1. Excitación Multipulso (MPE)2. Excitación por Pulsos Regulares (RPE)3. Excitación por Códigos (CELP)


Codificadores HíbridosCodificadores HíbridosCodificador CELP: Excitación por Códigos


Análisis localizadoAnálisis localizado

Valores típicos:Trama de análisis: 25 ms (200 muestras)Trama de voz: 20 ms (160 muestras)Subtrama: 5 ms (40 muestras)


Filtro de SíntesisFiltro de SíntesisBasado en una predicción lineal a corto y largo plazo

s(n) rL(n)

ANÁLISISA CORTO

ANÁLISISA LARGO

P(z)

-PL(z)

-r(n)

SÍNTESIS

PL(z) P(z)

r(n)rL(n)+ +

s(n)

)(ˆ ns)(ˆ nr


Filtro de SíntesisFiltro de SíntesisPredictor a largo plazo

ˆ( ) ( )r n r n Dβ= −

ˆ( ) ( ( 1)) ( ) ( ( 1))1 2 3

r n r n D r n D r n Dβ β β= − + + − + − −Estimación

o también

)(ˆ nr

Cálculo de los parámetros, minimizar error predicción( ) ( ) ( )e n r n r n Dβ= − −

[ ]211 2( ) ( ) ( )

00

NNE e n r n r n D

nnβ

−−= = − −∑∑

==

/ 0E β∂ ∂ =[ ]

1( ) ( )

01 2( )0

Nr n r n D

nN

r n Dn

β

−−∑

==−

−∑=


Filtro de SíntesisFiltro de SíntesisSeleccionar el valor de D que minimiza

la potencia del error E

[ ]

21( ) ( )

1 2 0( ) 1 20 ( )0

Nr n r n D

N nE r n Nn r n D

n

−−∑

− == −∑ −= −∑

=


Filtro de Ponderación Filtro de Ponderación PerceptualPerceptualFunción: modificar las características frecuenciales del error a minimizar, concediendo más importancia a las zonas de frecuencia en las que el oído va a ser más sensible y menos importancia a las zonas en las que el oído va a ser menos sensible. Basado en el enmascaramiento frecuencial que se produce en el oído:

En las zonas de máxima energía (formantes) se podrá cometer más error. La respuesta del filtro tendrá la forma inversa a la envolvente espectral de la señal de voz a codificar.Función de transferencia utilizada: W(z)=A(z)/A(γ-1z)Parámetro γ=[0,1], controla en nivel de ponderación realizado. Debe actualizarse junto con el predictor.


Filtro de Ponderación Filtro de Ponderación PerceptualPerceptual

1 1( ) 1 1( )

( / ) 11 (1 ( ) )1 1

P Pk ka z a zk kA z k kW zP PA z zk ka z pk kk k

γγ

γ

− −− −∑ ∑= == = =

− −− −∑ ∏= =

11( )

1(1 )1

P ka zkkW zP

p zkkγ

−− ∑==

−−∏=

0.8 0.9γ≤ ≤normalmente






Codificador GSM 06.XX: RPE-LTPGSM 1982 "Groupe Spécial Mobile“ ,

actualidad "Global System for Mobile communications“RPE-LTP: Regular Pulse Excitation – Long Term Prediction

Codificador GSM 06.XX: RPE-LTP

SID – Silence Descrition FrameBFI – Bad Frame Indicator


Codificador GSM 06.XX: RPE-LTPPérdidas de Pérdidas de FramesFrames:1) Frames de voz

a) Primera pérdidas -> repetición de la anterior buena

b) Siguientes pérdidas -> decrecer el nivel de salida hasta el silencia en 320 ms

2) Frames de SIDa) Primera pérdidas -> repetición de la anterior

buenab) Siguientes pérdidas -> decrecer el nivel de salida

hasta el silencia en 320 msTICRM - Tecnologías del Habla– Codificación de Voz





Codificador GSM: RPE-LTP





Codificador GSM 06.10

Cada 160 muestras (20 ms.)LAR1, LAR2->6 bitsLAR3, LAR4->5 bitsLAR5, LAR6->4 bitsLAR7, LAR8->3 bitsTotal LAR’s->36 bits

Cada 40 muestras (5ms.)Retardo Predictor largo-> 7 bitsGanancia Predictor largo-> 2 bitsPosición rejilla (k)->2 bitsAmplitud del bloque-> 6 bitsAmplitud de cada pulso (13)->3 bitsTotal subtrama excitación-> 56 bits

36+56·4=260 bits / 20 ms.

Bitrate = 13 kbps

Codificador GSM 06.XXRuido de ConfortRuido de Confort

SID SID –– Background Background Acoustic Noise EvaluationAcoustic Noise Evaluation

SID codeword con 95 bits a cero

Sobre 4 tramas (segmentos consecutivos con VAD=0)se calcula:

Media de los parámetros LARMedia de Xmax

Los pulsos RPE se reemplazan localmente por secuenciasde enteros aleatorios uniformemente distribuidos entre 1 y6




Ejemplos:Señal original: Señal transcodificada GSMDiferencia original-transcodificada (ruido de transcodificación)

Ruido blanco con la misma potenciaSeñal original + ruido blanco (es decir, sin ponderación del error cometido).



Original

Transcodificada

Mantenimiento de la forma de onda