CODAGE ET TRANSPORT DE LA VOIX SUR IP - …cadly.free.fr/ressources/1sen/2011-12/CI11-systemesTR/CI... · 2012-02-08 · SYNTHESE CODAGE ET TRANSPORT DE LA VOIX SUR IP auteur : L.Burri

SYNTHESE CODAGE ET TRANSPORT DE LA VOIX SUR IP

auteur : L.Burri 1

CODAGE ET TRANSPORT DE LA VOIX SUR IP

1. Les codecs Pour pouvoir utiliser les mêmes liaisons que les autres données, sur le réseau du FAI,

la voix est multiplexée :

Pour être ainsi transportée, sous forme de paquets, la voix doit être numérisée :

Les Codecs (COdeur/DECodeur) permettent la conversion analogique/numérique à

l’émission puis la conversion numérique/analogique à la réception de la parole

téléphonique.

2. Synoptique La transformation d’une onde sonore en « paquets » de données comporte plusieurs

étapes :

- Conversion énergie mécanique / énergie électrique

- Conversion analogique/numérique

- Codage-Compression

- Paquétisation-Ajout des en-têtes


auteur : L.Burri 2

échantillonnage

conversion

onde sonore

1

signal analogique

signal discret

quantification

conversion

analogique

/

numérique

signal quantifié

Compression-codage

signal codé

Paquétisation -

ajout des en-têtes

paquet

Éventuellement :

suppression des silences

2

3

4

5


auteur : L.Burri 3

2.1 Conversion onde sonore/signal électrique

Cette première étape est réalisée à l’aide d’un microphone.

Le microphone est un transducteur d'énergie, qui transforme de l'énergie acoustique

en énergie électrique.

2.2 Echantillonnage et quantification

La conversion analogique/numérique (CAN) permet de représenter le signal analogique,

image de la parole, sous forme d’un ensemble fini de nombres à une fréquence d’échantillonnage fixée.

Cette CAN se caractérise par :

La fréquence d’échantillonnage, c’est-à-dire la période avec laquelle le signal

analogique est mesuré au cours du temps.

La méthode de quantification, c’est-à-dire le nombre et la distribution des

valeurs discrètes qui sont utilisées pour la mesure.

2.2.1 Echantillonnage

Mathématiquement, le processus d’échantillonnage est le résultat de la multiplication

d’une série d’impulsions d’amplitude 1 par le signal analogique. On obtient des

impulsions à amplitude modulée (PAM =Pulse Amplitude Modulation) :

Théorème de Shannon

La fréquence minimale d’échantillonnage d’un signal doit être au moins le double

de la fréquence maximale contenue dans le signal à échantillonner :

Fech 2 * Fmax_signal

On considère alors que les échantillons contiennent toutes les informations du signal

original.

t t

1

Te = 1/fe

t

X =


auteur : L.Burri 4

t

0000

0001

0010

0011

0100

0110

0111

1000

1001

1010

1011

1100

1110

1111

Comme la parole

téléphonique a une bande passante de 3200Hz, ce

sont au moins 6400

échantillons qui doivent être

acheminés au récepteur.

La normalisation a optée

pour un échantillonnage

8000 fois par seconde

2.2.2 Quantification

La quantification permet de représenter chaque échantillon par une valeur numérique

au moyen d’une loi de correspondance.

2.2.2.1 Quantification linéaire

La loi la plus simple consiste à diviser l’ordonnée en segments égaux, le nombre de

segments dépendant du nombre de bits choisis pour la numérisation. C’est la

quantification linéaire.

o Exemple : quantification sur 4 bits :

La valeur de l’échantillon est

égale à la valeur numérique la

plus proche


auteur : L.Burri 5

t

0000

0001

0010

0011

0100

0110

0111

1000

1001

1010

1011

1100

1110

1111

On obtient un signal MIC (Modulation par Impulsion Codée) :

Les erreurs introduites par le processus de quantification, induisent un « bruit de quantification ». Ce bruit est la différence entre la valeur du signal analogique à

l'entrée du CAN, et la valeur du signal quantifié à la sortie. Plus l’échelle de

quantification est fine, moins le bruit est important.

o Remarque : le bruit total, dans le signal qui arrive au récepteur est la somme

de plusieurs bruits introduits par : les erreurs de quantification, la qualité de

la ligne de transmission, les ondes électromagnétiques…

SNR = Signal to Noise Ratio

SNR =

Le SNR est le rapport de l’énergie du signal transmis (S) sur l’énergie du bruit (B).

2.2.2.2 Quantification non linéaire

La loi de correspondance, pour la quantification doit être choisie de façon à ce que la valeur des signaux ait le plus de signification possible.

Ainsi, si tous les échantillons ont une valeur à peu près égale et se trouvent donc tous

rassemblés dans une zone de codage, il faut essayer d’y obtenir plus de possibilités de

codage que dans les zones où il y a peu d’échantillons, de façon à pouvoir distinguer la valeur de ces échantillons très proches (plutôt que d’avoir que des valeurs égales).


auteur : L.Burri 6

On utilise essentiellement 2 lois de correspondance :

La loi en Amérique du Nord : 128 valeurs d’échantillons positives La loi A en Europe : 128 valeurs d’échantillons positives + 128 négatives, soit

256 valeurs

Ces deux lois sont de type semi-logarithmique, garantissant ainsi une précision à peu

près constante :


auteur : L.Burri 7

2.3 Compression - codage

Dans le but de transporter les données numériques précédentes, on réalise un

traitement du signal, par de purs algorithmes mathématiques.

La compression/codage permet de coder des échantillons, issus de la quantification de

N1 bits en échantillons de N2 bits, avec N2 < N1, afin de réduire le débit en ligne.

Il existe des codages :

HBR ( Hight Bit Rate Codec ) = codecs haut débit

LBR ( Low Bit Rate Codec ) = codecs bas débits.

o Remarque : Si les codecs LBR permettent de réduire la bande passante allouée

au trafic de la voix, ils induisent aussi une distorsion du signal et des

problèmes d’écho.

o Débit de différents codecs :

codec G.711 G.726 G.728 G.729 G.729a G.723.1

Débit(Kbits/s) 64 32 16/24/32/40 8 8 5,3/6,3

2.4 Suppression des silences

Pour optimiser la bande passante, il ne faut pas transmettre les silences.

Par contre, les utilisateurs doivent toujours avoir l’impression d’être en conversation.

La VAD (Voice Activity Detection) permet, en cas de silence de ne pas les

transmettre, mais de générer à leur place, côté réception, un bruit de confort.

2.5 Paquétisation - ajout des en-têtes

La voix est transporté au dessus d’IP, en mode non connecté (plus rapide) via UDP( User Data Protocol).

Le protocole utilisé pour transporter les échantillons de voix téléphonique est RTP (Real-time Transport Protocol)

RTP

UDP

IP

Data link

Physical


auteur : L.Burri 8

Par défaut, le segment RTP contenu dans le paquet IP contient un nombre

d’échantillons équivalents à 20 ms de voix, mais cette valeur peut être modifiée

jusqu’à 200ms au maximum.

L’en-tête contient :

Les adresses IP (source et destination)

Le n° de port UDP afin d’identifier les applications émettrice et réceptrice

Dans le champ RTP, les informations nécessaires à la restitution du signal voix.

3. Transport de la voix

Deux protocoles sont utilisés pour le transport des flux en temps réel : RTP et RTCP.

Les connexions RTP et RTCP sont établies par un protocole supplémentaire de signalisation : H245, SIP…

3.1 RTP

RTP = Real-time Transport Protocol

RTP fournit les services suivants :

Distingue les différentes sources, lors d’envoi de trames de multidiffusion

Maintient la distribution en temps réel des paquets

Assure la synchronisation des flux voix

Séquence les paquets afin d’identifier, à la réception, une perte éventuelle

Identifie les types de codecs

Contrôle le multipoint (conversation à plusieurs)

en-tête charge utile


auteur : L.Burri 9

RTP ne fournit pas la QoS (Qualité de Service)

3.2 RTCP

RTP = Real-time Transport Control Protocol

RTCP fournit les services suivants :

Transmet les paquets de contrôle aux participants à un appel.

Rend compte de la qualité du service fourni par le RTP en fournissant des

informations de supervision relatives à la gigue et au taux de perte des

paquets.

Contrôle la session. RTCP permet aux participants d'indiquer, par exemple, leur

départ d'une conférence téléphonique (paquet Bye)

4. Qualité de réception de la parole téléphonique Plusieurs paramètres influent sur la qualité de la voix :

Le traitement de la voix (qualité de codage)

Le délai de transmission

La gigue

Le phénomène d’écho

La perte des paquets

4.1 Qualité du codec

Souvent, les techniques de codage offrant de faibles débits (codec LBR), augmentent

le délai de transmission.

Pour caractériser la qualité du codeur, il existe le critère de notation MOS ( Mean Opinion Score – note moyenne d’opinion), qui classe les codecs en 5 classes :

1 = Mauvais

2 = Médiocre

3 = Moyen, assez bon

4 = Bon

5 = Excellent

4.1.1 Le MOS de différents codecs

codec G.711 G.726 G.728 G.729 G.729a G.723.1

MOS 4.1 3.85 3.61 3.92 3.9 3.9

4.1.2 Taille des paquets

La bande passante utilisée sur le réseau, pour le transport de la parole téléphonique,

ne dépend pas uniquement du choix du codec, mais aussi de la taille des paquets de

voix.

http://www.3cx.fr/voip-sip/rtp.php


auteur : L.Burri 10

Ainsi, pour un même temps de parole à transmettre, si l’on utilise :

des petits paquets de voix :

Il ya un plus grand nombre de paquets à transmettre

donc plus d’en-tête à transmettre

donc la BP utilisée est plus importante

par contre le temps d’acheminement de chaque paquet est plus court.

de grands paquets de voix :

Il ya un plus petit nombre de paquets à transmettre

donc moins d’en-tête à transmettre

donc la BP utilisée est moins importante

par contre le temps d’acheminement de chaque paquet est plus long.

Donc, il faut un bon compromis entre la taille des paquets à transmettre et le délai nécessaire pour cette transmission.

4.1.3 Bande passante utilisée par différents codecs


auteur : L.Burri 11

4.2 Délai de transmission

Le délai de transmission est le temps écoulé entre l’émission de la parole et sa

restitution à l’arrivée.

Dans le cas de la VOIP, par exemple, il est donc la somme des opérations suivantes :

o Codage/Paquétisation de la voix o Traversée du terminal

(téléphone ou PC) o Traversée du modem et de la

passerelle o Traversée du réseau IP o Traversée du modem et de la

passerelle o Traversée du terminal

(téléphone ou PC) o Décodage/Dépaquétisation de

la voix

Pour permettre un échange interactif, la voix doit être transmise avec des

contraintes de délai.

L’UIT-T, indique qu’un délai de transmission des paquets de voix :

de 0 à 150 ms = est acceptable pour la plupart des conversations

de 150 à 300 ms = est acceptable pour des conversations faiblement

interactives

de 300 à 700ms = devient pratiquement une conversation half-duplex (talkie-

walkie)

au-delà de 700ms = inutilisable sans une bonne pratique de la conversation half-

duplex.

4.3 Gigue (jitter)

La gigue est la variation du délai de transmission.

Comme les différents paquets de voix n’empruntent pas forcément le même chemin,

ils subissent inévitablement des délais de transmission variables, le récepteur ne peut

pas simplement reproduire le signal, au moment de l’arrivée du paquet. Pour égaliser

les variations de la gigue, on utilise un tampon de lissage (jitter buffer). La

reproduction de la voix se fait par lecture, à partir du tampon de lissage, et non plus à

partir du réseau, en temps réel :


auteur : L.Burri 12

L’inconvénient est que l’utilisation de ce tampon de lissage introduit un délai supplémentaire et augmente donc le délai de transmission.

4.4 Phénomène d’écho

o Echo côté locuteur : perception par le locuteur de sa propre voix, décalée dans

le temps.

o Echo côté auditeur : lorsque la parole du locuteur est réfléchie deux fois,

l’auditeur entend la voix du locuteur deux fois : un signal fort et clair, suivi d’un

signal très atténué et fortement décalé.

4.5 Perte des paquets

Pour combattre les effets des pertes de paquets, les terminaux peuvent utiliser des

techniques de

Redondance = au départ, on envoie périodiquement de paquets contenant un

« résumé » des N paquets précédents cela augmente le délai de

transmission. Masquage : à l’arrivée, on remplace le paquet manquant avec les données des

paquets qui précèdent et qui suivent le paquet perdu.

Pour avoir une qualité de parole acceptable, le taux de parte de paquets doit être

inférieur à 5%.

5. Sources « Cours réseaux et télécoms » de Guy Pujolle, aux éditions Eyrolles Diaporama « voix et téléphonie sur IP » de Learneo (Avril 2005)

Documents

CODAGE ET TRANSPORT DE LA VOIX SUR IP - …cadly.free.fr/ressources/1sen/2011-12/CI11-systemesTR/CI... · 2012-02-08 · SYNTHESE CODAGE ET TRANSPORT DE LA VOIX SUR IP auteur : L.Burri