Upload
lyris
View
58
Download
0
Embed Size (px)
DESCRIPTION
Traitement de la parole. -Introduction-. Restauration -analyse SNR -filtrage. Codage -quantification -codage par modèles -transmission. Reconnaissance -modélisation du langage -théorie de la décision -intelligence artificielle. Com. Multimodale -multimédia -son-image -les 5 sens. - PowerPoint PPT Presentation
Citation preview
Télécommunications, services & usages
TSI Jean-Marie Gorce
Traitement de la parole
-Introduction-
Télécommunications, services & usages
TSI Jean-Marie Gorce
Analyse-synthèse-modélisation physique-modélisation électrique-analyse spectrale-prédiction linéaire
Codage-quantification-codage par modèles-transmission
Reconnaissance-modélisation du langage-théorie de la décision-intelligence artificielle
Com. Multimodale-multimédia-son-image-les 5 sens
Compréhension-base de données
-grammaire, analyse sémantique
Identification‘speaker specific’
Restauration-analyse SNR-filtrage
Télécommunications, services & usages
TSI Jean-Marie Gorce
La paroleidée,
niveau cognitif,pensée.
Locuteur
compréhension
Auditeur
constructiongrammaticale.
commandemusculaire.
signalacoustique
=vecteur de la
parolesystème
phonatoire
prétraitementsensoriel
systèmeauditif
traitementcognitif
?????????
objectif : la communication
Télécommunications, services & usages
TSI Jean-Marie Gorce
‘la parole aux télécoms’
microphone
CAN
signal acoustiqueLocuteur Auditeur
problème : limité dans l’espace
signalélectrique
signalnumérique
CNA
signalnumérique
écouteur
signalélectriquetransmission
électromagnétique
câble
hertzien
Télécommunications, services & usages
TSI Jean-Marie Gorce
Le codage de la paroledegré de complexité
-analogique RE
-numérique quantification échantillonnage
RE CAN CNA
Normes de communication
-codage modélisation compression
RE CAN CNAcodeur décod.
Télécommunications, services & usages
TSI Jean-Marie Gorce
Aspects abordés dans ce cours
• modélisation du signal de parole
• le codage direct (PCM, DPCM, APCM, ADPCM)
• la prédiction linéaire (APC,LPC,RPE-LTP)
• la quantification vectorielle (VSELP, CELP,
ACELP)
• transformée en sous-bande (MBE,MELP)
• signal audio musical : HD, (MPEG, MIDI)
Télécommunications, services & usages
TSI Jean-Marie Gorce
Traitement de la parole
-Etude du signal de parole-
Télécommunications, services & usages
TSI Jean-Marie Gorce
Plan
production naturelle de la parole
modélisation physique
modélisation spectrale, analyse de Fourier
modélisation paramétrique autorégressive
Télécommunications, services & usages
TSI Jean-Marie Gorce
I-Production naturelle de la parole1) un peu de physiologie
oesophage
Trachée artère
glotte
langue
narines
lèvres
Caviténasale
phar
ynx C. buccale
larynx
Télécommunications, services & usages
TSI Jean-Marie Gorce
Le larynx : - voisé ou non voisé - fréquence fondamentale (pitch)
glotte
épiglotte
Cordesvocales
muqueuse
Télécommunications, services & usages
TSI Jean-Marie Gorce
Un son voisé est défini par :- sa fréquence fondamentale (=hauteur) - son timbre = rapport entre fondamental et harmonique
2) Le rôle des cordes vocales : sons voisés
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
temps
amp
litu
de ‘e’
Télécommunications, services & usages
TSI Jean-Marie Gorce
PharynxCavitébuccale E
souffle
cordesvocales
Cavité nasale E
3) Représentation simplifiée :
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
-0.4
-0.2
0
0.2
0.4
0.6
temps
amplitude
b on j ou r
Télécommunications, services & usages
TSI Jean-Marie Gorce
4) Les différents types de sons (phonèmes)
Les voyelles (voisées)
Orales
Nasales
cordesvocales
PharynxCavitébuccale E
souffle
Cavité nasale E
cordesvocales
PharynxCavitébuccale E
souffle
[A, E, I, O, U, OU...]
[IN, UN, AN, ON]
Télécommunications, services & usages
TSI Jean-Marie Gorce
0 50 100-0.2
0
0.2
0.4
t (ms)
[e]
0 50 100-0.2
0
0.2
0.4
t (ms)
[on]
0 1 2 3 4 50
10
20
30
40
50PSD [e]
f (kHz)
(dB
)
0 1 2 3 4 50
10
20
30
40
50PSD [on]
f (kHz)
(dB
)
Télécommunications, services & usages
TSI Jean-Marie Gorce
Les consonnes
Liquides
Nasales
cordesvocales
PharynxCavitébuccale E
souffle
Cavité nasale E
cordesvocales Pharynx
Cavitébuccale E
souffle
[R,L]
[M,N,GN]
Télécommunications, services & usages
TSI Jean-Marie Gorce
Fricatives non voisées
Fricatives voisées
PharynxCavitébuccale E
souffle
cordesvocales
[F, S, CH]
[V, Z, J] PharynxCavitébuccale E
souffle
Télécommunications, services & usages
TSI Jean-Marie Gorce
0 10 20 30 40 50 60 70 80 90 100-0.1
-0.05
0
0.05
0.1
t (ms)
[ch]
0 1 2 3 4 5 6 7 8 9 10-20
-10
0
10
20
30PSD [ch]
f (kHz)
(dB
)
Télécommunications, services & usages
TSI Jean-Marie Gorce
Occlusives non voisées
Occlusives voisées
PharynxCavitébuccale E
souffle
cordesvocales
[P, T, K]
[B, D, G] PharynxCavitébuccale E
souffle
Cavité nasale E
Télécommunications, services & usages
TSI Jean-Marie Gorce
0 50 100 150-1
-0.5
0
0.5
1
t (ms)
[bon]
0 50 100 150-0.1
-0.05
0
0.05
0.1
t (ms)
[par]
[p]
[on]
[r]
[b]
[a]
Télécommunications, services & usages
TSI Jean-Marie Gorce
II-Modélisation physique
Télécommunications, services & usages
TSI Jean-Marie Gorce
III-Modélisation harmonique
Modèle de Dudley (VOCODER) également développé en 1930
Bandpass filter 1
Bandpass filter Q
Non-linearity
Non-linearity
Lowpassfilter
Lowpassfilter
Samplingrate
reduction
Samplingrate
reduction
AmplitudeCompression
AmplitudeCompression
speech
Télécommunications, services & usages
TSI Jean-Marie Gorce
DFT
0 50 100-0.2
0
0.2
0.4
t (ms)
[e]
0 1 2 3 4 50
10
20
30
40
50PSD [e]
f (kHz)
(dB
)
Transformée de Fourier = décomposition spectrale
Télécommunications, services & usages
TSI Jean-Marie Gorce
Quelques propriétés spectrales
•Sons voisés Fondamental (pitch)
0 1 2 3 4 50
10
20
30
40
50PSD [e]
f (kHz)
(dB
)
Harmoniques
Formants
Télécommunications, services & usages
TSI Jean-Marie Gorce
•Sons non voisésBruit blanc
(souffle)
0 1 2 3 4 5 6 7 8 9 10-20
-10
0
10
20
30PSD [ch]
f (kHz)
(dB
)
Télécommunications, services & usages
TSI Jean-Marie Gorce
Non stationnarité : le spectrogramme
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
-0.4
-0.20
0.2
0.4
0.6
t (s)
bonjour
t (s)
f (M
Hz)
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.5
1
1.5
2
Télécommunications, services & usages
TSI Jean-Marie Gorce
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1-0.1
-0.05
0
0.05
0.1
t (s)
sachez parler
t (s)
f (M
Hz)
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
1
2
3
4
Télécommunications, services & usages
TSI Jean-Marie Gorce
Signal aléatoire :
Densité spectrale de puissance
SignalTransformée de Fourier
Processus stationnaire, ergodiquePlusieurs réalisations,Energie finie DSP=mean(TSF)
Télécommunications, services & usages
TSI Jean-Marie Gorce
Processus gaussien non corrélé
Signal
Fourier
0
DSP
Signal
Télécommunications, services & usages
TSI Jean-Marie Gorce
IV-Modélisation paramétrique
La modélisation paramétrique présentée repose sur les propriétésde la transformée en z et de la modélisation ARMA (filtres IIR; FIR).
Quelques rappels :
- transformée en z
-modélisation ARMA
-les différentes représentations des modèles AR
Télécommunications, services & usages
TSI Jean-Marie Gorce
1) La transformée en z
la transformée en Z est aux signaux échantillonnés ce que la transformée de Laplace est aux signaux continus (automatisme)
X z x k z k( )
•déf.X(z) est définie comme lasomme d’une série relativeaux échantillons temporels x[k]
étude du domaine de convergence en fonction de z
•prop. linéaritédécalage temporelconvolution temporelle
cf. cours TSI
Télécommunications, services & usages
TSI Jean-Marie Gorce
•liens avec la transformée de Fourier discrète
si on restreint l’espace de z au cercle unité, z=e(j) , on retrouvela transformée de Fourier :
k
fk2jjd e]k[x)ez(X)f(X
la périodicité du spectreapparaît naturellement, enfonction de la fréquence d’échantillonnage
|z|<1
Re(z)
Im(z)
f=0
f=fe
Télécommunications, services & usages
TSI Jean-Marie Gorce
•Fonction de transfert numérique H(z)
h[k] x[k] y[k]=(x*h)|k
X(z) H(z) Y(z)=X(z).H(z)
Xd(f) Hd(f) Yd(f)
z=exp(j2f) z=exp(j2f)
Comme pour la TFD, le passage dans le domaine des z, permetde remplacer l’opération de convolution par une opération demultiplication => mathématiquement très intéressant
Télécommunications, services & usages
TSI Jean-Marie Gorce
•cas spécifique où H(z) est un polynôme du type
H zb b z b z
a z a zq
q
pp
( ). . .
. . .
0 1
1
111
remarques : a0=1 pour unicité du modèleai, bi réels si signal réelfactorisation numérateur => q zérosfactorisation dénominateur => p pôles
Tous les pôles dans le cercle unité => stabilité du filtreTous les zéros dans le cercle unité =>phase minimale
Télécommunications, services & usages
TSI Jean-Marie Gorce
•intérêt de cette structure
Y(z)=X(z).H(z)
expression dans le domaine temporel
y k a y k a y k p b x k b x k b x k pp p( ) ( ) . . . ( ) ( ) ( ) . . . ( ) 1 0 11 1
expression dans le domaine spectral
jp
pj
1
jqq
j10j
ea...ea1
eb...ebb)ez(H)f(H
Télécommunications, services & usages
TSI Jean-Marie Gorce
•problème de filtrage :
•problème de modélisation:
H (z) x[k] y[k]
def. d’un gabarit
H (z) u[k] y[k]
x[k]
e[k]+
-
2) Modélisation ARMA
Télécommunications, services & usages
TSI Jean-Marie Gorce
•modélisation AR (autorégressive)
- modèle ’tout pôles’- algorithmes d’estimation très rapides.- spectres présentant des pics.
•modélisation ARMA (moving average autoregressive)
- les zéros caractérisent la partie ‘moyenne ajustée’.- les pôles caractérisent la partie ‘autorégressive’.
•modélisation MA (moyenne ajustée)
- modèle ’tout zéros ’spectres doux
MA AR ordre infini
Télécommunications, services & usages
TSI Jean-Marie Gorce
•Exemple de modèles AR, 1 pôle réel
-0.5 0 0.5-5
0
5
10
15
20
fr
réponse spectrale
(dB
)
position des pôles
0.25
-0.25
0.5-0.5
0
0 500
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
n
réponse impulsionnelle
p=0.85p=0.6p=0.3
Télécommunications, services & usages
TSI Jean-Marie Gorce-0.5 0 0.5-5
0
5
10
15
20
fr
réponse spectraleposition des pôles
0.25
-0.25
0.5-0.5
0
0 50-1
0
1
n
réponse impulsionnelle
(dB
)
•Exemple de modèles AR, 2 pôles conjuguésp=0.85; 0.3
p=0.85 exp(j/4)p=0.3 exp(j/2)
Télécommunications, services & usages
TSI Jean-Marie Gorce
3) Modélisation ARMA de la parole
•représentation shématique du signal de parole :
Canal 1 Canal n Esource
la source peut être un bruit blanc (sons non voisés ou chuchotés)ou 1 train périodique pour les sons voisés.
le conduit vocal peut être représenté par une succession de tubes acoustiques,(pharynx, cavité buccale, nasale) modélisés par des résonateurs.
l’émetteur, lèvres ou narines, représente une charge acoustique pour l’onde sonore qui y arrive.
Télécommunications, services & usages
TSI Jean-Marie Gorce
•source pour les sons voisésG(z)
xv(k)
G zG
z z( )
0
1 11 1
0 100 200 300 400 5000
5
10
n
réponse impulsionnelle
0 1 2 3 40
10
20
30
40
50
60
f (kHz)
réponse spectrale
(dB
)
=0.97, =0.85, fE=44kHz
Télécommunications, services & usages
TSI Jean-Marie Gorce
0 500 1000 1500 2000 25000
1
2
3
4
5
fE=44kHz
n
Source (sortie de G(z) ) pour les sons voisés
Télécommunications, services & usages
TSI Jean-Marie Gorce
•source pour les sons non voisés
Télécommunications, services & usages
TSI Jean-Marie Gorce
•canal ou tube acoustique
La réponse acoustique d’un tube est caractérisée par un résonateur.
La réponse d’un résonateur est donnée par
V zA
a z a zi
i
i i
( ), ,
1 1
12
2modèle AR d’ordre 2
Chaque résonateur est un ‘formant’ dont la fréquence centrale est :
F fa
ai Ei
i
12
21 1
2cos
/,
,
Le conduit vocal est donc bien modélisé par un modèle AR, ordre 2n
V zA
a z a zi ii
n( )
, ,
1 1
12
2
1
Télécommunications, services & usages
TSI Jean-Marie Gorce
0 50 100-1
-0.5
0
0.5
1
1.5
n
réponse impulsionnelle
0 5
-14
-12
-10
-8
-6
-4
-2
0
2
4
f (kHz)
(dB
)
position des pôles
11kHz
-11kHz
22kHz 0
réponse spectrale
Télécommunications, services & usages
TSI Jean-Marie Gorce
•L’émetteur (lèvres ou narines)
La pression observée à une certaine distance des lèvres est proportionnelleà la dérivée du volume des lèvres :
R z C z( ) 1 1modèle MA d’ordre 1
Télécommunications, services & usages
TSI Jean-Marie Gorce
•Son voisé
V1(z) Vn(z) R(z)G(z)
V(z)
T zT z
z z a z a zi ii
n( )
01
1 11
12
2
1
1
1 1 1
qui tend vers 1 modèle AR d’ordre 2n+1, si un des pôles de G(z) est proche de l’unité
Télécommunications, services & usages
TSI Jean-Marie Gorce
•Son nasalisé
les sons nasalisés font intervenir simultanément les cavités nasale et bucale.
V1(z) Vn(z) R(z)G(z)
T zT
A zT
A zA z T A z T
A z A z( )
( ) ( )( ) ( )
( ) ( )
1
1
2
2
2 1 1 2
1 2
V’ (z) R’(z)
modèle ARMA
Télécommunications, services & usages
TSI Jean-Marie Gorce
4) En résumé
•complexité de la production de la parole (sons voisés, occlusifs etc...).
•principales propriétés spectrales du signal de parole (électrique ou acoustique) : fondamentale, harmonique, formants, bande passante vocale, non stationnarité, stationnarité locale (20ms), signal stochastique
•modèles ARMA d’un processus physique (intérêt pour le codage)
•un modèle AR pouvait suffire dans certains cas.
Télécommunications, services & usages
TSI Jean-Marie Gorce
Traitement de la parole
-Le codage de la parole-
Télécommunications, services & usages
TSI Jean-Marie Gorce
Compression
Problématique du codage
qualité
débit
complexité coût
Télécommunications, services & usages
TSI Jean-Marie Gorce
Exemple :
norme CCITT G.711Échantillonnage : 8kHzQuantification : non uniforme (A-law ou µ-law) sur 8 bitsDébit : 64kb/s
Télécommunications, services & usages
TSI Jean-Marie Gorce
A-La quantification scalaire(quantization)
L’échantillonnage
La quantification uniforme
La quantification non uniforme
La quantification différentielle
La quantification adaptative
Télécommunications, services & usages
TSI Jean-Marie Gorce
I-L’échantillonnage(sampling)
Fréquence d ’échantillonnage ???
Télécommunications, services & usages
TSI Jean-Marie Gorce
Recouvrement spectral
0 1 2 3 4 5 6 7 8 9 10-20
-10
0
10
20
30PSD [ch]
f (kHz)
(dB
)
Théorème de Shannon : fmax=Fe/2•filtre anti-repliement (anti-aliasing)
Initial aliased prefiltered
Télécommunications, services & usages
TSI Jean-Marie Gorce
II-La quantification
Exemple : quantification sur 3 bits
Télécommunications, services & usages
TSI Jean-Marie Gorce
•La quantification
Q(x)x y D D q qq q n ; , ,1
- L : nombre de valeurs quantifiées- b : nombre de bits de codage; L = 2b
- x(0) ... x(L) : niveaux de décision- x(0),x(L) : seuils- (i)=x(i)-x(i-1) : pas de quantification- y(1) ... y(L) : valeurs quantifiées
1° quelques définitions
Télécommunications, services & usages
TSI Jean-Marie Gorce
•L’erreur de quantification : q(x)=Q(x)-x- granulation : erreur liée au nombre de valeurs choisies (e
2)
- saturation : erreur liée au dépassement des seuils (d2).
•signaux aléatoiresle signal de parole est considéré comme un signal aléatoire à moyenne nulle et variance x
2. l’erreur de quantification sera donc appelée bruit dequantification, en général à moyenne nulle (0,e
2).
x(n) y(n)+ +
q(n) q(n)
Télécommunications, services & usages
TSI Jean-Marie Gorce
[sachez parler]VS ???
-0.1 0 0.1histogramme
Télécommunications, services & usages
TSI Jean-Marie Gorce
•Rapport Signal-Bruit (RSB ou SNR)
22
2
log10de
xRSB
[dB]
•facteur de charge =xs/x
)log(2077.402.6 bRSB
Télécommunications, services & usages
TSI Jean-Marie Gorce
2° la quantification uniforme
définition : - y(i)=1/2 ( x(i-1)+x(i) )-(i)= qlqsoit i -valeurs seuils : -xs, xs
propriétés : - =2 xs /L- erreur de granulation |e|< /2
Télécommunications, services & usages
TSI Jean-Marie Gorce
Télécommunications, services & usages
TSI Jean-Marie Gorce
Télécommunications, services & usages
TSI Jean-Marie Gorce
3° la quantification non-uniforme
Télécommunications, services & usages
TSI Jean-Marie Gorce
Transformation non-linéaire préalable
x(n) y(n)+
q(n)
Compressiondes
amplitudes
Dilatationdes
amplitudes
Signal de distribution uniforme
Télécommunications, services & usages
TSI Jean-Marie Gorce
Norme: Modulation par Impulsions Codées (MIC, 64kbits/s)(Pulse Code Modulation, PCM)
Filtre 100-3400Hz
Éch.fE=8kHz
Compressiond ’amplitude
Quantification8bits
1x
xA);x(sgn
)Aln(1
)xx
Aln(1x)x(F
Ax
x0);x(sgn
)Aln(1
xA)x(F
max
1maxmax
1
max
Norme européenne
Télécommunications, services & usages
TSI Jean-Marie Gorce
Représentation de la loi de compression
Télécommunications, services & usages
TSI Jean-Marie Gorce
Télécommunications, services & usages
TSI Jean-Marie Gorce
Télécommunications, services & usages
TSI Jean-Marie Gorce
III-La quantification différentielle(differential quantization)
1° Principe
x(n) y(n)+
q(n)
-
z-1x(n-1)
r(n)
)1(12 22xxr Décorrélation >>>
Télécommunications, services & usages
TSI Jean-Marie Gorce
2° Gain RSB
))1(12
1log(10
x
RSB
Si x(1)>0.5, r2 < x
2,
A nombre de niveaux constant, on peut réduire le pas de quantification
et améliorer le RSB dans un rapport r2/x
2
Télécommunications, services & usages
TSI Jean-Marie Gorce
3° Mise en œuvre codage-décodage
x(n) +
q(n)
-
z-1x(n-1)
r(n) y(n)
+
z-1y(n-1)
t(n)
Intégration de l ’erreur !!!!
y(n)=x(n)+e(n); e(n)=q(n)+e(n-1)
Télécommunications, services & usages
TSI Jean-Marie Gorce
Idée : coder la différence par rapport à la sortie
x(n) +
q(n)
-y(n-1)
r(n) y(n)
+
z-1y(n-1)
t(n)
Remarque : OK si le signal est correctement codé ; quantification suffisante
Télécommunications, services & usages
TSI Jean-Marie Gorce
Délocalisation du décodage
x(n) +
q(n)
-y(n-1)
r(n) t(n)
z-1
y(n)
+
z-1y(n-1)
+
Télécommunications, services & usages
TSI Jean-Marie Gorce
4° Prédiction linéaire
r(n)=x(n)-x(n-1)
r(n)=x(n)-a1.x(n-1) - a2.x(n-2) - … - ap.x(n-p)
•Quel ordre p ?•Quels paramètres AR ?•Quel gain ?
•Variance de l ’erreur faible.•Erreur = bruit blanc•Justification de ce modèled’après la théorie de la parole
Télécommunications, services & usages
TSI Jean-Marie Gorce
Modélisation AR
x(n) +
q(n)
-y(n-1)
r(n) t(n)
P(z)
y(n)
+
P(z)y(n-1)
+
P(z)=a1z-1 + a2z-2 + ... + apz-p
Télécommunications, services & usages
TSI Jean-Marie Gorce
2° Système DPCM (MICD)
-0.1
-0.05
0
0.05
0.1
20ms (160 ech);8kHzARMA(6,2);2-5 bits/ech. (16-64 kb/s)
Télécommunications, services & usages
TSI Jean-Marie Gorce
IV-La quantification adaptative(adaptive quantization)
1° Principe : adapter au fur et à mesure les paramètres (AR, gain)du signal de parole
couplée avec la quantification différentielle
Modulation par Impulsions Codées Différentielle Adaptative (MICDA)Adaptive Differential Pulse Code Modulation (ADPCM)
Télécommunications, services & usages
TSI Jean-Marie Gorce
Disponible sur le site Texas Instrumenthttp://www.ti.com/sc/docs/psheets/abstract/apps/bpra053.htm
Télécommunications, services & usages
TSI Jean-Marie Gorce
4) En résumé
•système PCM : fe=8kHz, 8pts/ech. 64kb/sec,
•Système ADPCM : fe=8kHz, 4<.<8pts/ech. 16-64kb/sec
Objectif :<16 kb/sec Moins de
2bits/point !!!!!!!!
Télécommunications, services & usages
TSI Jean-Marie Gorce
B-La quantification vectorielle
Principe de la quantification vectorielle
Quantification vectorielle prédictive (CELP).
1 exemple de codeur utilisé en téléphonie cellulaire : GSM.
Télécommunications, services & usages
TSI Jean-Marie Gorce
I-La quantification vectorielle(vectorial quantization)
1° Principe : Regrouper les échantillons pour les transmettre.Mieux rentabiliser chaque bit utilisé.
i(m)
Nm1N1mx)m(V
V(m) Règle du plus proche
voisin
V’1…V’ L
Inspectiondans une
table
V’1…V’ L
V’(m)
Télécommunications, services & usages
TSI Jean-Marie Gorce
Exemple pour M=2 : le codage vectoriel permet d ’adapter la répartition des codes.
Télécommunications, services & usages
TSI Jean-Marie Gorce
2° Algorithmie : Comment choisir le dicitonnaire ??
algorithme de Lloyd-Max
1- Initialiser le ‘dictionnaire’ >> niveaux
2- Appliquer la règle du plus proche voisin(minimiser l’erreur de codage) >> seuils implicites
3- Appliquer la règle du centroïde (minimiser l’erreur de décodage) >> niveaux
4- Refaire 2 et 3 jusqu’à convergence...
Télécommunications, services & usages
TSI Jean-Marie Gorce
II-LPC (linear predictive coding)1° Principe : Minimiser la corrélation entre échantillons codés simultanément pour simplifier le travail du ‘ dictionnaire ’.
Coder l ’erreur après modélisation AR
-
R(m)A(z)
i(m)V(m)
Optimisation des paramètres AR
pour chaque vecteur
Règle du plus proche
voisin
R’1…R’ L
V’(m)1/A(z)
Inspectiondans une
table
R’1…R’ L
R’(m)
V(z) = Bruit(z)/A(z)
Télécommunications, services & usages
TSI Jean-Marie Gorce
2° Codeur prédictif excité par des codes (Code ExcitedLinear Predictive Coding, CELP) :
Minimiser les distorsions en minimisant l ’erreur relative au signal initial.
1/A(z)
i(m)V(m) Règle du
plus prochevoisin
V’1…V’ L
V’(m)Inspectiondans une
table
R’1…R’ L
1/A(z)
V’M
R’1…R’ L
AR(m)
Télécommunications, services & usages
TSI Jean-Marie Gorce
3° Prédiction long terme (long terme prediction, LTP) :
Ajouter un 2ième étage de prédiction pour prendre en comptela périodicité des sons voisés....
4° Introduction d ’un facteur perceptuel (préfiltrage W(z)) :
Utiliser les principes de ‘masquage du son’ pour concentrerl ’erreur dans les zones non perceptuelles (cf. cours sons audio).
Télécommunications, services & usages
TSI Jean-Marie Gorce
III-Codeurs GSM
passe-haut(>80Hz)
EstimationAR
Prédictionà long terme
Modélisationdu bruit
Paramètres AR
Paramètres b,Q
Index du dictionnaire
Télécommunications, services & usages
TSI Jean-Marie Gorce
Norme GSM, FR (Full Rate) (RPE-LTP, Regular Pulse Excitation with Long Term Prediction)
1- Pré-accentuation H(z)=(1-0.86z-1 )2- LPC ordre 8, algorithme de Schur sur N=160échantillons.
Codage des coefficients sur 36bits/fen160ech 1.8kbit/s3- Prédiction à long terme (2 coefs b et Q) sur fenêtres N=40éch. Codage des coefficients (7+2)bits/fen40ech 1.8kbit/s4- Sous échantillonnage par 3 =>4 signaux de 13 éch. On garde seulement le plus énergétique (2bits). Quantification non uniforme sur 3bits des 13 éch. Quantification non uniforme du facteur d’échelle sur 6bits. Codage (2+3*13+6)bits /fen40ech 9.4kbit/s
13kbit/s
Télécommunications, services & usages
TSI Jean-Marie Gorce
Norme GSM, EFR (Enhanced Full Rate) (CELP Code Excited Linear Prediction)(GSM 06.60 version 6.0.1, release 1997)
http://www.etsi.org/
1- Pré-filtrage (passe-haut, 80Hz)2- LPC ordre 10, par fenêtres pondérées, N=160 échantillons
Codage des coefficients sur 38bits/fen160ech 1.9kbit/s
3- Prédiction à long terme (2 coefs b et Q) sur fenêtres N=40éch. Codage des coefficients (9;6 +4)bits/fen 40ech 2.3kbit/s
4- Dictionnaire à structure algébrique.Codage des coefficients 35 bits/fen 40ech 7 kbit/sCodage du gain statique 5bits/fen 40 ech 1 kbit/s
12.2kbit/s
P:/gorceGSM_juillet2000
Télécommunications, services & usages
TSI Jean-Marie Gorce
2- LPC ordre 10, par fenêtres pondérées, N=160 échantillons
Estimation d ’un modèle AR ordre 10 après fenêtrage WI(n) et WII(n) :- directement modèles pour les sous-fenêtres f2 et f4.
- par interpolation modèles pour les sous-fenêtres f1 et f3.
f1 f2 f3 f4
Télécommunications, services & usages
TSI Jean-Marie Gorce
Codage des coefficients AR (2 vecteurs) sous forme d ’une matrice, pour les 2 fenêtres.(on code ensemble les modèles des 4 sous fenêtres d ’un ‘ frame ’
Rem : on ne code pas directement les coefficients AR, mais des coefficientséquivalents dans un espace fréquentiel équivalent. (LSF, linear spectral frequencies)
Filtre de synthèse quantifié
On obtient en sortie un bruit
zA)z(H
Filtre de blanchiment
Télécommunications, services & usages
TSI Jean-Marie Gorce
2b- filtrage ‘perceptuel’
/zA
)z(A)z(W
|S(z)|
|W(z)|
s(t)
Limiter le bruit de quantification dans les zones fréquentiellesà haute énergie (formants)
Télécommunications, services & usages
TSI Jean-Marie Gorce
Â(z)
Paramètres AR définis pour des fenêtres de 40 éch. (5ms)Â(z)=1+ a1.z-1 + a2.z-2 + …+a10.z-10
s(n)
160 éch.
w’(n)A(z)/A(z/)
Résumé de la phase de prédiction linéaire
Transmission et codage des paramètres d ’une fenêtre sur 2 regroupement par 2 : codage sur 38bits pour 160 échantillons (20ms), de la différence avec les vecteursprécédents.
w(n)
Télécommunications, services & usages
TSI Jean-Marie Gorce
s(n)
w’(n)
Reste une certaine périodicité >>> Prédiction long terme
Télécommunications, services & usages
TSI Jean-Marie Gorce
3- Prédiction à long terme
QLT bz1
1
zB
1)z(H
y(n)=e(n)+b.y(n-Q)
« pitch synthesis filter »
i.e. périodicité de période Q.
FiltrageFiltrage
B(z)w’(n)
160 éch.
w’’(n)
Paramètres b,Q définis pour des fenêtres de 40 éch. B(z)=1-bz-Q
Pour b : 4bits / sous-fenêtrePour Q, codage sur les sous-fenêtres - codage f1 et f3 (9bits x2) - codage de la différence pour f2 et f4 (6bits x2).
Télécommunications, services & usages
TSI Jean-Marie Gorce
4- Codage Par dictionnaire algébrique
Mot Code Impulsions Positions
1 i0, i5 0,5,10,15,20,25,30,35
2 i1, i6 1,6,11,16,21,26,31,36
3 i2, i7 2,7,12,17,22,27,32,37
4 i3, i8 3,8,13,18,23,28,33,38
5 i4, i9 4,9,14,19,24,29,34,39
Dans une fenêtre, codage des 10 / 40 échantillons les plus forts10 ech = 5 mots de 2 impulsions
Télécommunications, services & usages
TSI Jean-Marie Gorce
Codage de l ’erreur W’’(n) par mots codes : c1+c2+c3+c4+c5Codage de l ’erreur W’’(n) par mots codes : c1+c2+c3+c4+c5
Mot Code i : 2 impulsions => - position de chaque impulsion (8 positions) sur 3bits.- signe de la première sur 1 bit (l ’autre signe est déduit).
code Gray 000 001 011 010 110 111 101 100
Code à transmettre : 1 101 0117 bits par mot code => 35 bits / ssfen
Codage d ’un coefficient de gain statique :Codage d ’un coefficient de gain statique :5 bits /ssfenConservation de l ’énergie du signal
Minimisation de l ’erreur de synthèse
Télécommunications, services & usages
TSI Jean-Marie Gorce
En résumé
•Codage de base (PCM) 64kbit/s. qualité téléphonique (pas audio).
•Codage adaptatif différentiel (ADPCM), même qualité à 32kbit/s. Acceptable jusqu’à 16kbit/s.
•Codage vectoriel : regrouper les valeurs à coder pour diminuer la redondance. Autour de 10kbit/s. (militaire : 4.kbit/s).
•Complexité des méthodes hybrides. Augmentation des performances. Codage en sous-bandes???
Télécommunications, services & usages
TSI Jean-Marie Gorce
Traitement de la parole
-Le codage du son-
Télécommunications, services & usages
TSI Jean-Marie Gorce
Compression
Problématique du codage
qualité
débit
complexité coût
Télécommunications, services & usages
TSI Jean-Marie Gorce
A-Qu ’est-ce qu ’un son ?
La parole (cf. cours précédent)
La musique
Les autres sons
Télécommunications, services & usages
TSI Jean-Marie Gorce
I-La parole(résumé)
Propriétés connues :
- fmax=3,4kHz (=> Fe=8kHz)- Processus de formation (formants, pitch, harmoniques)- Modélisation AR performante.- Loi de distribution ~ Laplace (=>A-law, µ-law)
Mise en œuvre de codeurs spécifiques très performants
Objectif :transmission d ’unmessage compréhensibleet reconnaissance du locuteur
Télécommunications, services & usages
TSI Jean-Marie Gorce
II-La musique(naturelle ou synthétique)
1° Les notespitch, fondamental, tonalité…do, re….
0La
440HzLa
220HzLa
110Hzf
même note, octave différente
1 octave = x2
Télécommunications, services & usages
TSI Jean-Marie Gorce
2° Les harmoniques
0 5 10 15 20 25-1
0
1
Télécommunications, services & usages
TSI Jean-Marie Gorce
3° Le timbre (forme d ’onde; waveform)
Télécommunications, services & usages
TSI Jean-Marie Gorce
4° Musique :
- Somme de plusieurs notes (pitch)- Différentes formes d ’ondes (les instruments)+ chant =parole modulée.
IL FAUT COUVRIR TOUT LE SPECTRE AUDIBLE
Télécommunications, services & usages
TSI Jean-Marie Gorce
III-Les autres sons
Applications : TVHD, Vidéo, Multimédia ….
Les bruits ambiants, les onomatopées, etc….Bruits sourds (chute d ’eau…)Bruits brusques (bris de glace…)
= transmettre tout ce qui est susceptible d ’être perçupar l ’auditeur.
Télécommunications, services & usages
TSI Jean-Marie Gorce
B-Codage ‘ Audio ’
codeur décodeur
Récepteur
?
Émetteur
N ’autoriser que les pertes non perceptibles
Télécommunications, services & usages
TSI Jean-Marie Gorce
I-Modèle psychoacoustique1° Bande passante : Seuil d’audibilité d’une sinusoïde
BP=[20Hz ; 20kHz] fE>40kHz
Télécommunications, services & usages
TSI Jean-Marie Gorce
3° Masquage fréquentiel
(f1,P1=80 dB) : sinusoïde masquante(f2,P2) : P2 à émettre pour entendre f2
Télécommunications, services & usages
TSI Jean-Marie Gorce
2° Bandes critiques fréquentielles (critical bands)
Détection de f+df ??
10 100 1k 10k
1
10
Bark
f(Hz)
1
600
f
600
flog6fB
2
Passage des Hertz au Bark
Télécommunications, services & usages
TSI Jean-Marie Gorce
Courbes de masquage >> segments de droite indépendante de f1
Télécommunications, services & usages
TSI Jean-Marie Gorce
20 40 60 80 100 120 140 160 180 2000
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
Exemple de bande critique en BF (120Hz)
f
1 bark
32 bandes critiques de 20 Hz à 20 kHz, f : 80-3500 Hz
Télécommunications, services & usages
TSI Jean-Marie Gorce
4° Masquage temporel
Après un son relativement fort, masquage de la bande critique(et voisines…) pendant un certain délai.
Télécommunications, services & usages
TSI Jean-Marie Gorce
4° Masquage fréquentiel et temporel
Télécommunications, services & usages
TSI Jean-Marie Gorce
5° Nouvelle approche de compression :utilisée dans MPEG
Principe : utiliser les propriétés de masquage de certaineszones de fréquence pour réduire le débit nécessaire.
Pertes non perceptibles
Passage dans le domaine de Fourier nécessaire
Codage en sous-bandes
Télécommunications, services & usages
TSI Jean-Marie Gorce
II-norme MPEG Audio
1°) Etat des lieux
Qualité Audio Numérique44.1kHz16bit (96dB relativement au seuil d ’audibilité)loi de distribution inconnue (pas de A-law)stéréo
Débit de 1,4Mbit/s
Télécommunications, services & usages
TSI Jean-Marie Gorce
2°) Objectifs
•Stockage (CD) : morceau de musique de 50 ’1.4Mbit/s*50*60=5.05Gbit=630MO
•Transmission (TVHD, multimedia) : temps réel diminuer le débit pour améliorer les capacités de transmission.
Compression sans pertes audiblesNormalisation nécessaire
Télécommunications, services & usages
TSI Jean-Marie Gorce
3°) MPEG Audio
Moving Pictures Coding Experts Group
Janvier 1988 : naissance, groupe mandaté par ISO/EICMPEG = normalisation vidéo / audio / system
MPEG-1 : qualité VHS sur CD-rom(352x288 + CD audio @ 1.5Mbit/s)
MPEG-2 : TVHS, multimedia ==>TV numérique AAC (fin Avril97) Advanced Audio Coding
MPEG-4 : diminuer le débit; coder infos complémentaires ==>Multimédia
http://drogo.cselt.it/mpeg/
Télécommunications, services & usages
TSI Jean-Marie Gorce
4°) MPEG-1 audio
3 couches définies (qualité/complexité du codage)pour qualité audio :
layer 1 : 384 kb/s 1/4layer 2 : 256…192 kb/s 1/6..1/8layer 3 : 128…112 kb/s 1/10..1/12
Tx de réduction
Mais différentes fréquences d ’échantillonnage et débitsautorisés (32kHz, 44.1kHz, 48kHz)
Télécommunications, services & usages
TSI Jean-Marie Gorce
sound quality bandwidth mode bitrate reduction ratio
telephone sound 2.5 kHz mono 8 kbps * 96:1 better than shortwave 4.5 kHz mono 16 kbps 48:1 better than AM radio 7.5 kHz mono 32 kbps 24:1 similar to FM radio 11 kHz stereo 56...64 kbps 26...24:1 near-CD 15 kHz stereo 96 kbps 16:1 CD >15 kHz stereo 112..128kbps 14..12:1
*) Fraunhofer uses a non-ISO extension of MPEG Layer-3 for enhanced performance ("MPEG 2.5")
From the Fraunhofer Institute for Integrated Circuits, Applied ElectronicsCenter, IIS-A, http://www.iis.fhg.de/about/index.html
Qualité de compression, couche 3
Télécommunications, services & usages
TSI Jean-Marie Gorce
Principe général de MPEG-1 (et suivants)
FiltresDécomposition
en bandes critiques
Allocation desbits (f(²))
Exploitationmasquage
Quantification+-
Codagein
Télécommunications, services & usages
TSI Jean-Marie Gorce
384 ech.
Layer 1 : Masquage fréquentiel + QScalLayer 2 : + Masquage temporelLayer 3 : + Redondance stéréo + Huffman
Télécommunications, services & usages
TSI Jean-Marie Gorce
III-Codage en sous-bandes
1°) Sous-échantillonnage
Télécommunications, services & usages
TSI Jean-Marie Gorce
Spectre d ’un signal échantillonné
Constante, Sinusoïde f0=fE, ou f0=2.fE
f0-fE fEfE/2-fE/2
A
Composante continue ??
Télécommunications, services & usages
TSI Jean-Marie Gorce
Recouvrement spectral
f0-fE fEfE/2-fE/2
A
Sous-échantillonnage
f0-fE fEfE/2-fE/2
A/2
Télécommunications, services & usages
TSI Jean-Marie Gorce
Filtre anti-repliement
f0-fE fEfE/2-fE/2
A/2
fE/4
f0-fE fEfE/2-fE/2
A/2
Télécommunications, services & usages
TSI Jean-Marie Gorce
2°) Décomposition en 2 sous-bandes
f0-fE fEfE/2-fE/2
A
Périodicité!!!
f0-fE fEfE/2-fE/2
A
Télécommunications, services & usages
TSI Jean-Marie Gorce
Représentation des 2 sous-bandes
f0-fE fEfE/2-fE/2
A
f0-fE fEfE/2-fE/2
A
Télécommunications, services & usages
TSI Jean-Marie Gorce
Sous-échantillonnage des 2 sous-bandes
f0-fE fEfE/2-fE/2
A/2
f0-fE fEfE/2-fE/2
A/2
Télécommunications, services & usages
TSI Jean-Marie Gorce
3°) Sur-échantillonnage
f0-fE fEfE/2-fE/2
A
f0-fE fEfE/2-fE/2
A
2.fE-2.fE
Télécommunications, services & usages
TSI Jean-Marie Gorce
dans le domaine temporel
Télécommunications, services & usages
TSI Jean-Marie Gorce
Filtre passe-bas=interpolateur
f0-fE fEfE/2-fE/2
A
2.fE-2.fE
Télécommunications, services & usages
TSI Jean-Marie Gorce
4°) Sous / Sur-échantillonnage d ’un facteur m
H(z) m
m F(z)
x(n)
x’(n)
xSE(n)
xSE(n)
perte d ’information
Télécommunications, services & usages
TSI Jean-Marie Gorce
2
2
Schéma de principe de la décomposition en 2 sous-bandes
H0(z)x(n) x0(n)
H1(z)x1(n)N points
N/2 points
N/2 points
H0 : filtre réel [0; fe/4]H1 : filtre réel [fe/4; fe/2]
Télécommunications, services & usages
TSI Jean-Marie Gorce
5°) Généralisation en N sous-bandes
m
H0(z)x(n) x0(n)
H1(z)x1(n)
N points
N/m points
m
mHm(z)
F0(z) m
F1(z) m
Fm(z) mxm(n)
Télécommunications, services & usages
TSI Jean-Marie Gorce
Télécommunications, services & usages
TSI Jean-Marie Gorce
6°) Les problèmes techniques
1) Le choix des filtres H : parfaits => IIR2) Approximation => choix des filtres F adaptés
(transformée en Cosinus)3) Sélectionner la bonne longueur de vecteur initial4) Nombre de bandes de fréquences
Télécommunications, services & usages
TSI Jean-Marie Gorce
7°) Les progrès MPEG-2, 4
Utiliser le modèle psycho-acoustique pour choisir le nombrede bits par bande de fréquence.
Utiliser une répartition non homogène de l’ échelle des fréquences.
Utiliser la redondance entre voies stéréo (ou 5 voies, surround).
Intégration du codage vectoriel / prédiction linéaire sur lesbandes de fréquences.
Télécommunications, services & usages
TSI Jean-Marie Gorce
IV-ConclusionCodageaudio
(musique)
Codageparole
(téléphonie)full-duplex
Un bon codeur = répondre à des contraintes spécifiquesau plus près.
Interactions entre vectoriel / sous-bandes