58
Kodovanje govornog signala Milan M.Milosavljević

Kodovanje Govornog Signala

Embed Size (px)

DESCRIPTION

coding signal

Citation preview

Page 1: Kodovanje Govornog Signala

Kodovanje govornog signala

Milan M.Milosavljević

Page 2: Kodovanje Govornog Signala

Produkcioni model govora

Page 3: Kodovanje Govornog Signala

Informaciona brzina govora

• Informaciono teorijski aspekt

10 simbola/sec za normalnu brzinu govora

=> rezultuje u ekvivalenih 60 bit/sec.• Komunikacioni aspekt:

Govorni opseg izmedju 4 (telefonski kvalitet) i 8 kHz (širokopojasni hi-fi govor)(širokopojasni hi-fi govor)

Učestanost odabiranja izmedju 8 i 16 kHz,

Za 8 bita po odbirku (logaritamsko kodovanje) imamo

• 8000x8=64000 bit/sec (telefonski govor)

• do 16000x8=128000 bita/sec (širokopojasni govor)

• Odavde vidimo da je promena u brzini od poruka izraženih u nekom datom alfabetu do akustičkog signala kojim se govorne poruke prenose, od 1000 do 2000 puta.

Page 4: Kodovanje Govornog Signala

Informaciona brzina govora

Page 5: Kodovanje Govornog Signala

Nastanak govornog signalaMehanizam nastanka govora:• prilikom udisanja, kada se pluća

ispunjavaju vazduhom nema

proizvodjenja govora

• prilikom izdisanja vazduha iz pluća,

vazdušna struja prolazi kroz dušnik i

izaziva vibracije glasnih žica u grkljanu izaziva vibracije glasnih žica u grkljanu

(Bernulijeve vibracije)

•Vazdušna struja je isprekidana i

formira kvaziperiodične impulse , koji se

frekventno modulišu prilikom prolaska

kroz ždrelo, usnu i nosnu duplju.

•Pozicije različitih artikulatora, kao što

su vilica, jezik, meko nepce, usta, usne,

odredjuju različite zvuke koji pri tome

nastaju i konstituišu akustički izraz

izgovorene poruke.

Page 6: Kodovanje Govornog Signala

Glotalni talasi

Page 7: Kodovanje Govornog Signala

Mehanizam proizvodjenja govora

•• pluća i odgovarajući mišići čine izvor vazdušne pluća i odgovarajući mišići čine izvor vazdušne

pobude koja pobudjuje vokalni mehanizampobude koja pobudjuje vokalni mehanizam

•• mmišići izbacuju vazduh iz pluća iz plučaišići izbacuju vazduh iz pluća iz pluča ((slično kao slično kao

što klip potiskuje vazduh unutar cilindaršto klip potiskuje vazduh unutar cilindar) ) u u

bronhije i dušnikbronhije i dušnikbronhije i dušnikbronhije i dušnik

•• ako su glasne žice zategnuteako su glasne žice zategnute, , ova vazdušna struja ova vazdušna struja

izaziva njihove vibracije, proizvodeći vokalizovane izaziva njihove vibracije, proizvodeći vokalizovane

kvaziperiodičane zvučne glasovekvaziperiodičane zvučne glasove

•• ako su glasne žice opuštene, vazdušna struja ako su glasne žice opuštene, vazdušna struja

neometano prolazi do vokalnog trakta dok ne neometano prolazi do vokalnog trakta dok ne

naidje na suženjanaidje na suženja, , što izaziva turbulenciješto izaziva turbulencije,, koje koje

daju bezvučne glasovedaju bezvučne glasove ((kao što sukao što su /s/, /s/, //šš/),/), ili ili

nailaze na prepreke koje potpuno zatvaraju nailaze na prepreke koje potpuno zatvaraju

vokalni traktvokalni trakt, , praveći porast pritiska dok se praveći porast pritiska dok se

prepreka ne otvori, nakon čega dolazi do naglog prepreka ne otvori, nakon čega dolazi do naglog

oslobadjanja vazdušnog tokaoslobadjanja vazdušnog toka, , čime nastaju čime nastaju

tranzijentni glasovi, kao što sutranzijentni glasovi, kao što su /p/, /t/, /p/, /t/, iliili /k//k/

Page 8: Kodovanje Govornog Signala

Vremenski i spektralni oblik govora

•• 100 100 msecmsec//po linijipo liniji; ; 0.5 sec 0.5 sec govoragovora

•• SS--tišinatišina--pozadinski zvuk pozadinski zvuk –– nema nema

govoragovora

•• UU--bezvučni govorbezvučni govor, , glasne žice ne glasne žice ne

vibrirajuvibriraju

••VV--zvučnizvučni--kvaziperidičnikvaziperidični--govorgovor

•• govor je vremenski govor je vremenski

••VV--zvučnizvučni--kvaziperidičnikvaziperidični--govorgovor

•• govor je vremenski govor je vremenski

sporopromenljivi signal u okviru sporopromenljivi signal u okviru

intervala od intervala od 55 do do 100 100 msecmsec

•• na dužim vremenskim intervalimana dužim vremenskim intervalima

(100 msec(100 msec--5 sec), 5 sec), karakteristike karakteristike

govora se rapidno menjaju govora se rapidno menjaju 1010--20 20

putaputa/se/sekundikundi

=> => Nema jasno definisanih početaka i Nema jasno definisanih početaka i

krajeva pojedinih glasovakrajeva pojedinih glasova

Page 9: Kodovanje Govornog Signala

Kako govor zvučiKako govor zvuči

• “Should we chase”

– /sh/

– /ould/

– /we/

9

– /ch/

– /a/

– /s/

•• teško je razlikovati tihe glasove od tišineteško je razlikovati tihe glasove od tišine•• teško je vršiti preciznu segmentacijuteško je vršiti preciznu segmentaciju

Page 10: Kodovanje Govornog Signala

Spektrogram govornog signala

Page 11: Kodovanje Govornog Signala

Parametrizacija govora

Page 12: Kodovanje Govornog Signala

Parametrizacija govora

• Ljudski vokalni trakt je u stavri cev čiji poprečni preseci variraju i mogže se aproksimirati rednim spajanjem cevi različitog poprečnog preseka

• Akustička teorija pokazuje da se prenos energije od izvora pobude do izlaza može opisati prirodnim učestanostima ili pobude do izlaza može opisati prirodnim učestanostima ili rezonancama ovih pojedinačnih cevi

• Rezonance su poznate kao formantne učestanosti (formanti)na kojima se većina energije prenosi sa ulaza na izlaz

• Tipično je da postoje 3 značajna formanta ispod 3500 Hz

• Formanti su efikasna i kompaktna predstava govornog signala

Page 13: Kodovanje Govornog Signala

Formantna struktura zvučnog govora

Page 14: Kodovanje Govornog Signala

Vokali (Samoglasnici)

• Nastaju pri fiksiranom obliku vokalnog trakta• Produženog je zvučanja• Glasne žice vibriraju• Poprečni preseci vokalnog trakta odredjuju formante

samoglasnika i kvalitet zvuka

14

samoglasnika i kvalitet zvuka• Pozicija jezika (visina, pozicija napred/nazad) je

najvažnija u definisanju samoglasnika• Po pravilu su dužeg trajanja (mogu se dugo održavati

tokom pevanja) i spektralno su dobro formirani

Page 15: Kodovanje Govornog Signala

Oblik artikulacije vokala

15

Page 16: Kodovanje Govornog Signala

Talasni oblici i spektrogrami vokala

16

Page 17: Kodovanje Govornog Signala

09-Feb-12 CS 224S Winter 2005 17

Page 18: Kodovanje Govornog Signala

Spektrogrami vokala

09-Feb-12 CS 224S Winter 2005 18

Page 19: Kodovanje Govornog Signala

Formanti vokala

19

Page 20: Kodovanje Govornog Signala

Trougao vokala

20

Centroidi vokala formiraju trougao u F1-F2

prostoru iy-ih-eh-ae-uh

Page 21: Kodovanje Govornog Signala

Gunnar Fant’s OVE sintetizator

• Of the Royal Institute of

Technology, Stockholm

• Formantni

• Sintitetizator

09-Feb-12 21

• Sintitetizator

vokala

• F1 i F2 se mogu

kontrolisati

Page 22: Kodovanje Govornog Signala

Nazalni talasni oblici i spektrogrami

22

Page 23: Kodovanje Govornog Signala

Talasni oblici i spektrogrami

bezvučnih frikativa

23

Page 24: Kodovanje Govornog Signala

Talasni oblici i spektrogrami zvučnih

frikativa

24

Page 25: Kodovanje Govornog Signala

Talasni oblici i spektrogrami stop konsonanata

uh-{p,t,k}-a

uh-{j,ch,h}-a

25

Page 26: Kodovanje Govornog Signala

Digitalni model proizvodjenja govora

Page 27: Kodovanje Govornog Signala

LPC VOKODER ZASNOVAN NA LPC VOKODER ZASNOVAN NA

VEKTORSKOJ KODNOJ KNJIZIVEKTORSKOJ KODNOJ KNJIZI

• učenje VQ kodne knjige na PARCOR koeficijentima

suština: u cilju značajnog povežanja kvaliteta

27

• Slučaj 1: isti kvalitet kao i 2400 bps LPC vokoder

• 10-bit kodna knjiga nad PARCOR vektorima

• 44.4 frejmova/sec

• 8-bita za osnovnu učestanost, zvučnost, pojačanje

• 2-bita za sinhronizaciju frejmova

• ukupna brzina 800 bps

• Slučaj 2: ista bitska brzina, veći kvalitet

• 22 bitna kodna knjiga => potrebno je pretražiti 4.2 million kodnih reči

• nikad nije ostavren dobar kvalitet usled računarskih zahteva, memorije, kvantizacionih distorzija na granicama

povežanja kvaliteta neophodno je poboljšati model pobude

Page 28: Kodovanje Govornog Signala

Kodovanje pobude analizom i sintezom

28

Pobuda se bira optimizacijom perceptualno težinskog kriterijuma

Page 29: Kodovanje Govornog Signala

Koder sa višeimpulsnom pobudom

29

Page 30: Kodovanje Govornog Signala

Kodovanje u MP-LPC

• 8 impulsa u 10 msec => 800 impulsa/sec X 9 bita/impulsu => 7200 bps

• 2400 bps za A(z) => ukupna bitska brzina 9600 bps

30

bps

• Vrši se diferencijalno kodovanje pozicije impulsa(Δ

i= N

i– N

i-1) čime se smanjuje dinamički opseg

kodovane veličine

• Amplitude se normalizuju da bi se smanjio dinamički opseg

Page 31: Kodovanje Govornog Signala

LP pobudjena kodovima

• Osnovna ideja je prezentacija reziduala dugovreme linearne predikcije na svakom frejmu jednom kodnom reči iz kodne knjige generisane vektorskom kvantizacijom , umesto predstave ovog reziduala preko niza impulsa

• Ovo se svodi na zamenu generatora reziduala iz prethodnog primera sa generatorom kodnih reči dužine 40 odbiraka na svakom frejmu od 5 ms, ako je govor digitalizovan po vremenu sa učestanošću 8 kHz.

31

učestanošću 8 kHz.• Koristiti se i “deterministička” i “stohastička” kodna knjiga — po

pravilu sa 10 bitnim adresnim prostorom (1024 kodne reči)• Deterministička kodna knjiga se dobija na osnovu treninga na

zadatom skupu vektora ( osetljive na uslove prenosnog kanala)• Stohastička kodna knjiga je motivisana zapažanjem da su

dugovremeni reziduli linearne predikcije raspodeljeni gausovski, što znači da se kodna knjiga može napraviti od belog gausovog šuma jedinične varijanse

• Takvi su npr. CELP korišćen u STU-3 na 4800 bps i celularni koder na 800 bps

Page 32: Kodovanje Govornog Signala

CELP analitičko sintetički model

32Federal Standard FS-1016

Page 33: Kodovanje Govornog Signala

Analiza pobude stohastičkim kodovaimaAnaliza pobude stohastičkim kodovaima

(CELP) (CELP)

33

Page 34: Kodovanje Govornog Signala

Pretraga stohastičke kodne knjige

• Optimalna kodna sekvenca je ona koja maksimizuje veličinu

34

• gde je

• Pošto ovo zahteva dosta računanja, kodna knjiga se struktuira tako da se ovaj račun minimizira.

Page 35: Kodovanje Govornog Signala

Stohastička kodna knjiga sa

preklapanjem

35

Page 36: Kodovanje Govornog Signala

CELP sa stohastičkom kodnom knjigom

36

Page 37: Kodovanje Govornog Signala

Primena kodera govora

• mrežni-64 Kbps PCM (8 kHz učestanost odabiranja,

8-bit log kvantizacija)

• internacionalnil-32 Kbps ADPCM

• telekonferencijski-16 Kbps LD-CELP

37

telekonferencijski-16 Kbps LD-CELP

• wireless-13, 8, 6.7, 4 Kbps CELP-koderi

• Kripto telefoni -4.8, 2.4 Kbps LPC- koderi (MELP)

• VoIP-8 Kbps CELP-koder

• Memorisanje govorne pošte, govorne mašine, najave 16 Kbps LC-CELP

Page 38: Kodovanje Govornog Signala

Primena kodera govora

38

Page 39: Kodovanje Govornog Signala

Svojstva kodera govora

• Bitska brzina od 2400 do 128,000 bps• Subjektivni kvalitet (MOS), objektivni (SNR,

razumljivost)• Kompleksnost, memorijski zahtevi, procesorski

zahtevi• Kašnjenje-eho, reverberacija; kodno kašnjenje,

39

• Kašnjenje-eho, reverberacija; kodno kašnjenje, procesorsko kašnjenje, multipleksno kašnjenje, prenosno kašnjenje ~100 msec

• Telefonski opseg -200-3200 Hz, 8kHz učestanost odabiranja

• Širokopojani govor -50-7000 Hz, 16 kHz učestanost odabiranja

Page 40: Kodovanje Govornog Signala

Standardi mrežnog kodovanja govora

Coder Type Rate Usage

G.711 companded PCM

64 Kbps toll

G.726/727 ADPCM 16-40 Kbps toll

40

G.722 SBC/ADPCM 48, 56,64 Kbps wideband

G.728 LD-CELP 16 Kbps toll

G.729A CS-ACELP 8 Kbps toll

G.723.1 MPC-MLQ & ACELP

6.3/5.3 Kbps

toll

Page 41: Kodovanje Govornog Signala

Standardi kodera govora u

mobilnoj telefonijiCoder Type Rate Usage

GSM RPE-LTP 13 Kbps <toll

GSM ½ rate VSELP 5.6 Kbps GSM

41

GSM ½ rate VSELP 5.6 Kbps GSM

IS-54 VSELP 7.95 Kbps GSM

IS-96 CELP 0.8-8.5 Kbps <GSM

PDC VSELP 6.7 Kbps <GSM

PDC ½ rate PSI-CELP 3.45 Kbps PDC

Page 42: Kodovanje Govornog Signala

Standardi zaštićenih telefonskih kodera

govoraCoder Type Rate Usage

FS-1015 LPC 2.4 Kbps high DRT

42

FS-1016 CELP 4.8 Kbps <IS-54

? model-based

2.4 Kbps >FS-1016

Page 43: Kodovanje Govornog Signala

Evaluacija kvaliteta kodera govora

• 2 tipa kodera

– Aproksimacija talasnih oblika-PCM, DPCM, ADPCM-koderi koji proizvode

rekonstruisani talasni oblik originalnog signala sa opadajućom greškom kvantizacije

– Parametarski koderi (zasnovani na modelu)-SBC, MP-LPC, LPC. MB-LPC, CELP-koderi

koji proizvode rekonstruisani signal koji ne konvergira ka originalnom signalu sa

opadajućom greškom kvantizacije

• koderi talasnog oblika

konvergiraju po kvalitetu ka

originalnom govoru

• parametarsko koderi

konvergiraju ka maksimalnom

kvalitetu za zadati model

Page 44: Kodovanje Govornog Signala

G.728 LD-CELP

• CELP coderi– Filter čije se karakteristike menjaju u toku vremena– Kodna knjiga akustičkih vektora

• Svaki vektor predstavlja različite karakteristike pobude

– Šta se prenosi• Koeficijenti filtra, pojačanje, indeks izabranog vektora pobude u

kodnoj knjizi

3-44

• Koeficijenti filtra, pojačanje, indeks izabranog vektora pobude u kodnoj knjizi

• CELP malog kašnjenja (LD CELP)– Adaptivni koder unazad

• Koristi prethodne odbirke signala za odredjivanje koeficijenata filtra

• Radi nad 5 odbiraka – kašnjenje < 1 ms

• Prenosi se samo indeks kodne reči iz kodne knjige

Page 45: Kodovanje Govornog Signala

G.728 LD-CELP• 1024 vectora u kodnoj knjizi

• 10-bitni indeks kodne reči

• Brzina - 16 kbps

• LD-CELP koder (Minimizira težinsku srednjekvadratnu grešku

u frekventnom domenu)u frekventnom domenu)

Page 46: Kodovanje Govornog Signala

LD-CELP dekoder

3-46

– MOS skor oko 3.9

– Jedna četvrtina brzine G.711

Page 47: Kodovanje Govornog Signala

G.723.1 ACELP• 6.3 ili 5.3 kbps

– Obe brzine su obavezne– Može da se menja se iz jedne u drugu brzinu u toku

razgovora

• Koder– Ulaz je frekventno ograničen govorni signal– Odabiranje sa 8 KHz, i uniformno 16-bit kvantovanje

3-47

Ulaz je frekventno ograničen govorni signal– Odabiranje sa 8 KHz, i uniformno 16-bit kvantovanje– Radi nad blolovima od 240 odbiraka– Radi unapred 7.5 ms– Ukupno algoritamsko kašnjenje je 37.5 ms + ostala

kašnjenja– Visokofrekventnim filtriranjem se odstranjuje svaka

jednosmerna komponenta

Page 48: Kodovanje Govornog Signala

G.723.1 ACELP

– 5.3 kbps, ACELP (Algebraic Code-Excited Linear Prediction)

– 6.3 kbps, višeimpusna kvantizacija maksimalne verodostojnosti

3-48

verodostojnosti

– Prenose se

• Koeficijenti filtra linearne predikcije

• Pojačanje

• Indeks iz kodne knjige pobuda

• 24-oktetni frejmovi na 6.3 kbps, 20-oktetni frejmovi na5.3 kbps

Page 49: Kodovanje Govornog Signala

G.723.1 Annex A

• G.723.1 Annex A

– Silence Insertion Description (SID) frejmovi dužine četiri okteta

• Dva najmanje značajna bita prvog okteta odredjuju

3-49

odredjuju

– 00 6.3kbps 24 okteta/frejmu

– 01 5.3kbps 20

– 10 SID frejm 4

• MOS oko 3.8

– Kašnjenje najmanje 27.5 ms

Page 50: Kodovanje Govornog Signala

G.729

• 8 kbps• Ulazni frejmovi od 10 ms, odnosno 80 odbiraka

pri učestanosti odabiranja od 8 KHz • 5 ms analiza unapred

– Algoritamsko kašnjenja 15 ms

3-50

– Algoritamsko kašnjenja 15 ms

• 80-bitni frejmovi za 10 ms govora• Kompleksan koder

– G.729.A (Annex A), niz uprošćenja– Ista struktura frejmova– Kooder/dekoder, G.729/G.729.A– Nešto niži kvalitet

Page 51: Kodovanje Govornog Signala

G.729.B

• G.729.B

– VAD, Voice Activity Detection

• Zasniva se na analizi niza ulaznih parametara govora

• Posmatra se tekući frejm i dva prethodna frejma

– DTX, Discontinuous Transmission

3-51

– DTX, Discontinuous Transmission

• Ne šalje se ništa ili SID frejm

• SID frame contains information to generate comfort noise

– CNG, Comfort Noise Generation

• G.729, MOS oko 4.0

• G.729A, MOS oko 3.7

Page 52: Kodovanje Govornog Signala

G.729 Annex D

• G.729 Annex D– Ekstenzija za niže brzine

– 6.4 kbps; 10 ms govorni odbirci, 64 bita/frejmu

– MOS ∼ 6.3 kbps G.723.1

• G.729 Annex E

3-52

• G.729 Annex E– Poboljšanje sa većom bitskom brzinom

– Linearni prediktivni filter za G.729 ima 10 koeficijenata

– G.729 Annex E ima 30 koeficijenata

– Kodna knjiga G.729 ima 35 bits

– Kodna knjiga G.729 Annex E ima 44 bita

– 118 bita/frejmu; 11.8 kbps

Page 53: Kodovanje Govornog Signala

Drugi koderi

• CDMA QCELP definisan u IS-733

– Koder promenljive brzine

– Dve najčešće korišćene brzine

• Viša brzina, 13.3 kbps

3-53

• Viša brzina, 13.3 kbps

• Niža brzina, 6.2 kbps

– Potiskivanje pauza (tišine)

– Koristi se sa RTP, RFC 2658

Page 54: Kodovanje Govornog Signala

Drugi koderi

• GSM Enhanced Full-Rate (EFR)

– GSM 06.60

– Poboljšana verzija GSM Full-Rate

– ACELP-koder

3-54

– ACELP-koder

– Ista bitska brzina i struktura

• 12.2 kbps

– Podržava prekidani prenos

– Koristi se sa RTP, RFC 1890

Page 55: Kodovanje Govornog Signala

Drugi koderi

• GSM Adaptive Multi-Rate (AMR) koder– Kodno kašnjenje 20 ms

– Osam režima rada

– Od 4.75 kbps do 12.2 kbps

– 12.2 kbps, GSM EFR

3-55

– 12.2 kbps, GSM EFR

– 7.4 kbps, IS-641 (TDMA cellular systems)

– Može da menja ređime rada u bilo kom trenutku

– Radi i u prekidnom prenosu• SID (Silence Descriptor) se šalje svaki 8. frejm i dužine je 5

bajtova

– Kodni sistem u mnogim 3G bežičnim mrežama

Page 56: Kodovanje Govornog Signala

Drugi koderi

• MOS vrednosti u laboratorijskim uslovima

– G.711 ne podržava izgubljene pakete

– G.729 može da prevazidje izgubljeni frejm, interpolacijom na osnovu prethodnih frejmova

3-56

interpolacijom na osnovu prethodnih frejmova

• But cause errors in subsequent speech frames

• Procesna snafa

– G.728 ili G.729, 40 MIPS

– G.726 10 MIPS

Page 57: Kodovanje Govornog Signala

Standardi mobilne telefonije

Coder Rate Approach Quality Complexity Delay

GSM FR 13 RPE-LPT 3.5 Low 40

GSM HR 5.6 VSELP <3.5 High 45

GSM EFR 12.2 ACELP 4.0 Medium 45

GSM AMR 4-12 ACELP 3.5-4.0 Medium 45GSM AMR 4-12 ACELP 3.5-4.0 Medium 45

TIA IS54 8 VSELP 3.5 Medium 45

TIA IS641 8 ACELP 4.0 Medium 45

TIA IS96 8* QCELP <3.5 Medium 45

TIA EVRC 8* ACELP 4.0 High 50

TIA Q13 13* QCELP 4.0 Med-High 45?

* = Variable rate

Page 58: Kodovanje Govornog Signala

Vojni / Satelitski standardiCoder Rate

(Kb/s)Approach Quality

(MOS)Complexity Delay

(ms)

FS-1015LPC-10

2.4 LPC 2.5 Low- med 13.5

FS-1016 4.8 CELP 3.0 high 67.5

MELP 2.4 MELP 3.3 Med-high 67

Satellite 1 4.8 IMBE 3.3-3.5 medium 100

Satellite 2 2.4-3.6 AMBE 3.3-3.5 medium 100