41
1 Francesco Beritelli Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Dipartimento di Ingegneria Elettronica Elettrica e Informatica Informatica Università di Catania Università di Catania I principali standard di codifica della voce in ambito ITU-T ed ETSI

1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Embed Size (px)

Citation preview

Page 1: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

1

Francesco BeritelliFrancesco Beritelli

Dipartimento di Ingegneria Elettronica Elettrica e Informatica Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di CataniaUniversità di Catania

I principali standard di codifica della voce in ambito ITU-T ed ETSI

Page 2: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

2

Tecniche di codifica della voceTecniche di codifica della voceTecniche e algoritmi di

compressione/decompressione del segnale vocale in forma digitale che riducono il bit

rate sul canale di comunicazione, garantendo una riproduzione trasparente, ovvero una

qualità quanto più simile a quella del segnale originario non compresso, con il minimo

ritardo introdotto e calcolo computazionale richiesto

Page 3: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

3

MotivazioniMotivazioni

• Migliore utilizzo delle risorse di canale

• Incremento del numero di conversazioni

• Migliore qualità della voce (es. MCR limitati)

• Riduzione della memoria nei sistemi di registrazione o archiviazione audio

• Riduzione costi e tempi di trasmisisone

Page 4: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

4

Contesti applicativiContesti applicativi

• Comunicazioni radiomobili e via satellite• Telefonia VoIP• Riproduttori audio• Registratori digitali• Segreterie telefoniche• Sistemi di infonavigazione• Dispositivi per guide audio turistiche• Ecc.

Page 5: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

5

Le varie codifiche …Le varie codifiche …

S

Codifica di sorgente

Codifica della voce

Codifica di linea

Cifratura dei dati

Codifica di canale

Page 6: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

6

• bit rate rb=fc*b,

• La frequenza di campionamento fc (NB o WB) e la risoluzione b determinano la qualità del segnale originale non compresso

• Fattore di compressione = input bit rate/output bit rate (es. 64/8=8)

Compressione/Decompressione Compressione/Decompressione del segnale vocaledel segnale vocale

Page 7: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

7

Algoritmi di compressione con e Algoritmi di compressione con e senza perditasenza perdita

con perdita

senza perdita

• Nei sistemi con perdita ovviamente in ricezione non è possibile riprodurre fedelmente la forma d’onda originaria ma una versione degradata.• Tutti i sistemi di compressione utilizzati nelle tecniche di codifica del segnale vocale sono con perdita

Page 8: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

8

L’informazione nel segnale vocaleL’informazione nel segnale vocale

(10 car/sec x 6 bit = 60 bit/sec)

ASR TTSvoce vocetesto

Oltre al testo: identità, emozione, accento, intonazione, area di appartenenza, ecc

Page 9: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

9

Principali cause di ridondanzaPrincipali cause di ridondanza

RIDONDANZA STATISTICA

- disuniformità della distribuzione statistica delle ampiezze (gaussiana a breve termine): è possibile ridurre la risoluzione del quantizzatore (quindi il numero dei livelli) per gli intervalli di minor interesse.

- variabilità nel tempo delle ampiezze: è conveniente utilizzare estremi di quantizzazione che non siano costanti ma che si adattino alla dinamica corrente.

- correlazione fra i campioni: un campione è correlato con la serie di campioni precedente per cui non è conveniente codificarli isolatamente.

- disuniformità della distribuzione dell’energia in frequenza: è possibile adottare caratteristiche di quantizzazione differenti per ciascuna porzione dello spettro.

RIDONDANZA PERCETTIVA

- fenomeni di mascheramento dell’udito: è possibile adottare tecniche di quantizzazione che mascherino tramite il segnale il rumore di quantizzazione.

Page 10: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

10

Caratteristiche del segnale vocaleCaratteristiche del segnale vocale

• Banda 20-10000 Hz • Banda standardizzata ITU-T:

– Narrowband (20÷4000 Hz, qualità telefonica)– Wideband (20÷7000 Hz, qualità audioconferenza)

• Media nulla, distribuzione non uniforme• Segnale non stazionario con correlazione a breve

e lungo termine• Struttura “on-off” nel tempo con il 40 % di attività

vocale e circa il 60 % di pause di silenzio• Suoni vocalizzati, non vocalizzati e misti

Page 11: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

11

Valutazione delle prestazioniValutazione delle prestazioni

• Fattore di compressione – Riferimento ITU-T G.711 a 64kbit/s– Valori tipici 2 ÷ 32

• Qualità percepita• Ritardo introdotto• Robustezza alla degradazione del canale • Robustezza ai rumori ambientali• Complessità computazionale• Trasparenza alla trasmissione dati in banda

fonica

Page 12: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

12

Metodi di valutazione della qualitàMetodi di valutazione della qualità

• Soggettivi:– MOS (Mean Opinion Scores): metrica definita dalla

ITU-T P.800 con scala a 5 valori, da 1 (qualità pessima) a 5 (qualità eccellente). Metodo complesso e costoso.

• Oggettivi:– SNR (rumore di codifica: r(n)=y(n)-x(n))– E-model (SNR, degradazione codec, ritardo, perdite):

valori tra 0 e 100 mappati con MOS– PESQ (ITU-T P.862): predice il MOS effettuando una

comparazione tra sequenza codificata e originale basata su modelli matematici psico-acustici

Page 13: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

13

Perceptual Evaluation of Speech Perceptual Evaluation of Speech Quality (PESQ)Quality (PESQ)

Page 14: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

14

Principali tecniche di codificaPrincipali tecniche di codifica-codifica di forma d’onda: sfrutta le caratteristiche statistiche del segnale vocale nel dominio del tempo quali:

- la distribuzione non uniforme delle ampiezze del segnale- la non stazionarietà- la correlazione dei campioni

Buona qualità se non si scende sotto i 24 kbit/s, un basso ritardo e bassa complessità.

-codifica parametrica (o per modelli): tale codifica non è relativa ai campioni della forma d’onda, ma ai parametri di un modello matematico della sorgente che ha generato il segnale (sistema fonatorio umano). Con questo tipo di codifica necessito di un buffer per l’analisi delle trame e quindi introduco ritardi. Di contro riesco a raggiungere un bassissimo bit rate (fino a 2 kbit/s) a scapito dell’intellegibilità del segnale.-codifica di analisi per sintesi: tale codifica sfrutta i vantaggi delle due tecniche precedenti raggiungendo un buon compromesso fra compressione e qualità del segnale vocale (4÷16kbit/s)

Page 15: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

15

Metodi di compressioneMetodi di compressionedella voce (MOS vs Bit-rate)della voce (MOS vs Bit-rate)

Page 16: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

16

Codifica di forma d’ondaCodifica di forma d’onda

Sfruttano le caratteristiche statistiche del segnale indipendentemente dalle specifiche

del sistema che lo ha generato

• Distribuzione non uniforme delle ampiezze → Log PCM

• Non stazionarietà (varianza) → APCM

• Correlazione del segnale → DPCM

Page 17: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

17

Quantizzazione uniforme/non Quantizzazione uniforme/non uniformeuniforme

Page 18: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

18

Leggi di compressione A e Leggi di compressione A e µµ

Page 19: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

19

SNRq uniforme vs non unif.SNRq uniforme vs non unif.

Page 20: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

20

Standard ITU-T G.711 Log PCM a Standard ITU-T G.711 Log PCM a 64 kbit/s64 kbit/s

• Banda telefonica 0÷4kHz• Frequenza di campionamento 8kHz• Distribuzione non uniforme• Compressione della dinamica (legge A o µ)• 12 bit lineari/campione → 8 bit logaritmi/campione• Compressione da 96kbit/sec → 64kbit/sec • Qualità MOS 4.3• Standard per l’accesso base ISDN

Page 21: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

21

Standard ITU-T G.721 ADPCM Standard ITU-T G.721 ADPCM a 32 kbit/seca 32 kbit/sec

 

• Adattamento backward per ridurre il ritardo

• Codifica del segnale differenza a 16 livelli (4bit)

• Banda 0÷4 kHz

• Toll quality (MOS 4.1)

• Bassa complessità

• Robusto al BER rispetto al PCM

• Sensibile alla perdita di diverse trame

• Molto diffuso per la rete fissa (PSTN e VoIP)

• ITU-T G.726 ADPCM 16, 24, 32, 40 kbit/s

Page 22: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

22

Standard di Codifica WideBand Standard di Codifica WideBand ITU-T G.722 a 64 kbit/secITU-T G.722 a 64 kbit/sec

 

Page 23: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

23

Predizione a lungo termine LTPPredizione a lungo termine LTP 

terminelungo a predizione di guadagno ˆ~bMndbmdLPT

M rappresenta il periodo di vibrazione delle corde vocali (il suo inverso è il pitch o frequenza fondamentale)

Page 24: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

24

Esempio di analisi del pitchEsempio di analisi del pitch 

• Per una stima accurata servono algoritmi di analisi del pitch molto complessi

• L’ordine del predittore può variare (1÷3) e anche l’ampiezza della finestra di analisi (2÷4 sottotrame di analisi)

• M viene codificato in genere con 7 bit (128 valori)

• b viene codificato in genere con 3 bit

Page 25: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

25

CODIFICHE PARAMETRICHE CODIFICHE PARAMETRICHE

• Estrazione e codifica dei parametri del modello analitico associato al sistema che ha prodotto il segnale (sistema fonatorio)

• Modello a due stati del residuo di predizione a lungo termine r(n)

• Vantaggi: basso bit-rate (2,4 kbit/sec)

• Svantaggi: alto ritardo e qualità metallica

• Applicazioni in ambito militare (LPC10 DoD)

Page 26: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

26

Sistema fonatorio umano e Sistema fonatorio umano e relativo diagramma a blocchi relativo diagramma a blocchi

Page 27: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

27

Vocoder a Vocoder a predizionepredizione lineare lineare

DecisioneV/UV

Buffer 20 ms

Analisi Pitch

Analisi LPC

Stima delGuadagno

CANALE

G

P

ai

V/UV

LPC

G

X

Noise

P

ai

V/UV x^(n)

x(n)

CODIFICATORE

DECODIFICATORE

Page 28: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

28

Caratteristiche Vocoder LPCCaratteristiche Vocoder LPC

Parametri Numero bit / trama

Coefficienti LPC 40

Decisione V/UV 1

Pitch 7

Guadagno 6

Totale bit/trama 54

Bit-rate 54 bit/22,5ms = 2400 bit/sec

Page 29: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

29

CODIFICHE IBRIDE DI CODIFICHE IBRIDE DI ANALISI PER SINTESI (AbS) ANALISI PER SINTESI (AbS)

x^(n)=d^(n)+x~LPC(n)=r(n)+ x~

LTP(n)+ x~LPC(n)

• Utilizzo di un modello più raffinato per la codifica del residuo di predizione a lungo termine r(n)

• Superano i limiti dei più semplici modelli parametrici

• Richiedono per r(n) un numero di bit meno elevato delle tecniche DPCM con LTP

• Utilizzano in fase di codifica la sintesi per ricavare i parametri ottimi (o sub-ottimi) che minimizzano un indice errore dopo un filtro di pesatura percettiva

• Tecniche che richiedono un elevato calcolo computazionale

Page 30: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

30

How are you?…...

Comfort Noise

VAD & Comfort Noise GenerationVAD & Comfort Noise Generation

Speech

Page 31: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

31

Voice Activity Detection (VAD)Voice Activity Detection (VAD)

VAD Decision

BackgroundNoise

Coding

Talkspurt Coding

TalkspurtDecoding

Noise LPC

Channel

G

HighBit-rate

Very Low Bit-rate

Speech

Comfort Noise Generator

(CNG)

0

1

Page 32: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

32

FEC MSC OVER NDS

Activity

VAD decision

Inactivity

Parametri di valutazione Parametri di valutazione prestazionale di un VADprestazionale di un VAD

OGGETTIVI:- FEC (Front End Clipping)- MSC (Mid Speech Clipping) - OVER- NDS (Noise Detected as Speech)

SOGGETTIVI: - MOS

Page 33: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

33

Codifica ON-OFFCodifica ON-OFF

A ON OFF    

B OFF ON 

• Utilizzo di un codec CBR + VAD (source driven)

• Codifica CBR dei tratti di ON (Talkspurt)

• Trasmissione periodica dei SID nei tratti di OFF (silenzio o rumore ambientale)

• Sintesi dei tratti di OFF in Rx tramite un CFG

• Prestazioni dipendono dal rumore ambientale

Page 34: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

34

Modalità di codifica AMRModalità di codifica AMR

Page 35: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

35

Prestazioni AMR vs. GSM EFRPrestazioni AMR vs. GSM EFR

Experiment 1a - Test Results

1.0

2.0

3.0

4.0

5.0

Conditions

M OS

Sel. Requir.

AMR-FR

EFR

Sel. Requir. 4.01 4.01 4.01 3.65

AMR-FR 4.06 4.06 4.13 4.08 3.96 3.59 2.66

EFR 4.01 4.01 3.65 3.05 1.53

No Errors C/I=16 dB C/I=13 dB C/I=10 dB C/I= 7 dB C/I= 4 dB C/I= 1 dB

Page 36: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

36

Robustezza iLBC alla packet lossRobustezza iLBC alla packet loss

Page 37: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

37

Codifica audio SILKCodifica audio SILK

• E’ uno codec audio royalty free adottato in Skype 4.0 (2009)

• E’ scalabile in banda, bit rate e complessità:

Page 38: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

38

Codifica audio SILKCodifica audio SILK

• Il ritardo algoritmo è di 25 ms = frame size (20ms) + look-ahead (5ms)

• Prestazioni MOS al variare del bit-rate e del packet-loss:

Page 39: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

39

Standard Description Bit rate Mos (Ber=0)ITU-T G.711 Log PCM 64 kbit/s 4.3

ITU-T G.723.1 Dual rate speech coder for

multimedia applications (MP-MLQ/ACELP)

6.3/ 5.3 kbit/s 3.8 / 3.6

ITU-T G.726 Adaptive Differential Pulse Code Modulation

(ADPCM); contains obsolete Rec. G.721, G.723

16,24,32,40

kbit/s

4.0

ITU-T G.727 5-, 4-, 3-, and 2 bits per sample embedded Adaptive Differential Pulse Code Modulation (ADPCM)

16,24,32,40

kbit/s

N.D.

ITU-T G.728 Low Delay CELP (LD-CELP) 16 kbit/s 4.2

ITU-T G.729 Conjugate Structure Algebraic CELP (CS-ACELP) Annex A:Reduced complexity algorithm at 8 kbit/s

Annex D:Low-Rate extension at 6.4 kbit/s

AnnexE : High-Rate extension at 11.8 kbit/s

8 kbit/s

(6.4, 11.8 kbit/s) 3.9

ITU-T G.722 Wideband (7 kHz) audio codec by Subband ADPCM (SB-ADPCM)

64 (56, 48) kbit/s

N.D.

Standard di codifica vocale ITU-TStandard di codifica vocale ITU-T

Page 40: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

40

Standard Description Bit rate Mos (Ber=0)ETSI GSM 06.10 Full Rate (FR) speech transcoding

(RPE-LTP:Regular Pulse Excitation- Long Term Prediction)

13 kbit/s 3.7

ETSI GSM 06.20 Half Rate (HR) speech transcoding (VSELP:Vector sum Excited Linear Prediction)

5.6 kbit/s 3.5

ETSI GSM 06.60 Enhanced Full Rate (EFR) speech transcoding (ACELP:Algebraic CELP)

12.2 kbit/s 3.9

ETSI GSM (AMR) Used in UMTS 12.2 kbit/s 3.9

ETSI GSM (AMR) Used in UMTS 4.75 kbit/s 3.3

Standard di codifica vocale ETSIStandard di codifica vocale ETSI

Page 41: 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce

Tecniche di codifica della voce - Francesco Beritelli

41

Reti radiomobili LTEReti radiomobili LTE

• Modulazioni avanzate (QAM, OFDMA)

• Tecniche di diversità di antenna (MIMO)

• Multi accesso (3GPP, WiFi, Wi-Max)

• Incremento della velocità di trasmissione in UL e DL

• Riduzione dei ritardi (RTT da 60ms a 25ms) grazie alla riduzione dei nodi di rete

• Commutazione di pacchetto -> VoIP

• Voce/dati integrati