Upload
taida-pecanin
View
38
Download
5
Embed Size (px)
DESCRIPTION
coding signal
Citation preview
Kodovanje govornog signala
Milan M.Milosavljević
Produkcioni model govora
Informaciona brzina govora
• Informaciono teorijski aspekt
10 simbola/sec za normalnu brzinu govora
=> rezultuje u ekvivalenih 60 bit/sec.• Komunikacioni aspekt:
Govorni opseg izmedju 4 (telefonski kvalitet) i 8 kHz (širokopojasni hi-fi govor)(širokopojasni hi-fi govor)
Učestanost odabiranja izmedju 8 i 16 kHz,
Za 8 bita po odbirku (logaritamsko kodovanje) imamo
• 8000x8=64000 bit/sec (telefonski govor)
• do 16000x8=128000 bita/sec (širokopojasni govor)
• Odavde vidimo da je promena u brzini od poruka izraženih u nekom datom alfabetu do akustičkog signala kojim se govorne poruke prenose, od 1000 do 2000 puta.
Informaciona brzina govora
Nastanak govornog signalaMehanizam nastanka govora:• prilikom udisanja, kada se pluća
ispunjavaju vazduhom nema
proizvodjenja govora
• prilikom izdisanja vazduha iz pluća,
vazdušna struja prolazi kroz dušnik i
izaziva vibracije glasnih žica u grkljanu izaziva vibracije glasnih žica u grkljanu
(Bernulijeve vibracije)
•Vazdušna struja je isprekidana i
formira kvaziperiodične impulse , koji se
frekventno modulišu prilikom prolaska
kroz ždrelo, usnu i nosnu duplju.
•Pozicije različitih artikulatora, kao što
su vilica, jezik, meko nepce, usta, usne,
odredjuju različite zvuke koji pri tome
nastaju i konstituišu akustički izraz
izgovorene poruke.
Glotalni talasi
Mehanizam proizvodjenja govora
•• pluća i odgovarajući mišići čine izvor vazdušne pluća i odgovarajući mišići čine izvor vazdušne
pobude koja pobudjuje vokalni mehanizampobude koja pobudjuje vokalni mehanizam
•• mmišići izbacuju vazduh iz pluća iz plučaišići izbacuju vazduh iz pluća iz pluča ((slično kao slično kao
što klip potiskuje vazduh unutar cilindaršto klip potiskuje vazduh unutar cilindar) ) u u
bronhije i dušnikbronhije i dušnikbronhije i dušnikbronhije i dušnik
•• ako su glasne žice zategnuteako su glasne žice zategnute, , ova vazdušna struja ova vazdušna struja
izaziva njihove vibracije, proizvodeći vokalizovane izaziva njihove vibracije, proizvodeći vokalizovane
kvaziperiodičane zvučne glasovekvaziperiodičane zvučne glasove
•• ako su glasne žice opuštene, vazdušna struja ako su glasne žice opuštene, vazdušna struja
neometano prolazi do vokalnog trakta dok ne neometano prolazi do vokalnog trakta dok ne
naidje na suženjanaidje na suženja, , što izaziva turbulenciješto izaziva turbulencije,, koje koje
daju bezvučne glasovedaju bezvučne glasove ((kao što sukao što su /s/, /s/, //šš/),/), ili ili
nailaze na prepreke koje potpuno zatvaraju nailaze na prepreke koje potpuno zatvaraju
vokalni traktvokalni trakt, , praveći porast pritiska dok se praveći porast pritiska dok se
prepreka ne otvori, nakon čega dolazi do naglog prepreka ne otvori, nakon čega dolazi do naglog
oslobadjanja vazdušnog tokaoslobadjanja vazdušnog toka, , čime nastaju čime nastaju
tranzijentni glasovi, kao što sutranzijentni glasovi, kao što su /p/, /t/, /p/, /t/, iliili /k//k/
Vremenski i spektralni oblik govora
•• 100 100 msecmsec//po linijipo liniji; ; 0.5 sec 0.5 sec govoragovora
•• SS--tišinatišina--pozadinski zvuk pozadinski zvuk –– nema nema
govoragovora
•• UU--bezvučni govorbezvučni govor, , glasne žice ne glasne žice ne
vibrirajuvibriraju
••VV--zvučnizvučni--kvaziperidičnikvaziperidični--govorgovor
•• govor je vremenski govor je vremenski
••VV--zvučnizvučni--kvaziperidičnikvaziperidični--govorgovor
•• govor je vremenski govor je vremenski
sporopromenljivi signal u okviru sporopromenljivi signal u okviru
intervala od intervala od 55 do do 100 100 msecmsec
•• na dužim vremenskim intervalimana dužim vremenskim intervalima
(100 msec(100 msec--5 sec), 5 sec), karakteristike karakteristike
govora se rapidno menjaju govora se rapidno menjaju 1010--20 20
putaputa/se/sekundikundi
=> => Nema jasno definisanih početaka i Nema jasno definisanih početaka i
krajeva pojedinih glasovakrajeva pojedinih glasova
Kako govor zvučiKako govor zvuči
• “Should we chase”
– /sh/
– /ould/
– /we/
9
– /ch/
– /a/
– /s/
•• teško je razlikovati tihe glasove od tišineteško je razlikovati tihe glasove od tišine•• teško je vršiti preciznu segmentacijuteško je vršiti preciznu segmentaciju
Spektrogram govornog signala
Parametrizacija govora
Parametrizacija govora
• Ljudski vokalni trakt je u stavri cev čiji poprečni preseci variraju i mogže se aproksimirati rednim spajanjem cevi različitog poprečnog preseka
• Akustička teorija pokazuje da se prenos energije od izvora pobude do izlaza može opisati prirodnim učestanostima ili pobude do izlaza može opisati prirodnim učestanostima ili rezonancama ovih pojedinačnih cevi
• Rezonance su poznate kao formantne učestanosti (formanti)na kojima se većina energije prenosi sa ulaza na izlaz
• Tipično je da postoje 3 značajna formanta ispod 3500 Hz
• Formanti su efikasna i kompaktna predstava govornog signala
Formantna struktura zvučnog govora
Vokali (Samoglasnici)
• Nastaju pri fiksiranom obliku vokalnog trakta• Produženog je zvučanja• Glasne žice vibriraju• Poprečni preseci vokalnog trakta odredjuju formante
samoglasnika i kvalitet zvuka
14
samoglasnika i kvalitet zvuka• Pozicija jezika (visina, pozicija napred/nazad) je
najvažnija u definisanju samoglasnika• Po pravilu su dužeg trajanja (mogu se dugo održavati
tokom pevanja) i spektralno su dobro formirani
Oblik artikulacije vokala
15
Talasni oblici i spektrogrami vokala
16
09-Feb-12 CS 224S Winter 2005 17
Spektrogrami vokala
09-Feb-12 CS 224S Winter 2005 18
Formanti vokala
19
Trougao vokala
20
Centroidi vokala formiraju trougao u F1-F2
prostoru iy-ih-eh-ae-uh
Gunnar Fant’s OVE sintetizator
• Of the Royal Institute of
Technology, Stockholm
• Formantni
• Sintitetizator
09-Feb-12 21
• Sintitetizator
vokala
• F1 i F2 se mogu
kontrolisati
Nazalni talasni oblici i spektrogrami
22
Talasni oblici i spektrogrami
bezvučnih frikativa
23
Talasni oblici i spektrogrami zvučnih
frikativa
24
Talasni oblici i spektrogrami stop konsonanata
uh-{p,t,k}-a
uh-{j,ch,h}-a
25
Digitalni model proizvodjenja govora
LPC VOKODER ZASNOVAN NA LPC VOKODER ZASNOVAN NA
VEKTORSKOJ KODNOJ KNJIZIVEKTORSKOJ KODNOJ KNJIZI
• učenje VQ kodne knjige na PARCOR koeficijentima
suština: u cilju značajnog povežanja kvaliteta
27
• Slučaj 1: isti kvalitet kao i 2400 bps LPC vokoder
• 10-bit kodna knjiga nad PARCOR vektorima
• 44.4 frejmova/sec
• 8-bita za osnovnu učestanost, zvučnost, pojačanje
• 2-bita za sinhronizaciju frejmova
• ukupna brzina 800 bps
• Slučaj 2: ista bitska brzina, veći kvalitet
• 22 bitna kodna knjiga => potrebno je pretražiti 4.2 million kodnih reči
• nikad nije ostavren dobar kvalitet usled računarskih zahteva, memorije, kvantizacionih distorzija na granicama
povežanja kvaliteta neophodno je poboljšati model pobude
Kodovanje pobude analizom i sintezom
28
Pobuda se bira optimizacijom perceptualno težinskog kriterijuma
Koder sa višeimpulsnom pobudom
29
Kodovanje u MP-LPC
• 8 impulsa u 10 msec => 800 impulsa/sec X 9 bita/impulsu => 7200 bps
• 2400 bps za A(z) => ukupna bitska brzina 9600 bps
30
bps
• Vrši se diferencijalno kodovanje pozicije impulsa(Δ
i= N
i– N
i-1) čime se smanjuje dinamički opseg
kodovane veličine
• Amplitude se normalizuju da bi se smanjio dinamički opseg
LP pobudjena kodovima
• Osnovna ideja je prezentacija reziduala dugovreme linearne predikcije na svakom frejmu jednom kodnom reči iz kodne knjige generisane vektorskom kvantizacijom , umesto predstave ovog reziduala preko niza impulsa
• Ovo se svodi na zamenu generatora reziduala iz prethodnog primera sa generatorom kodnih reči dužine 40 odbiraka na svakom frejmu od 5 ms, ako je govor digitalizovan po vremenu sa učestanošću 8 kHz.
31
učestanošću 8 kHz.• Koristiti se i “deterministička” i “stohastička” kodna knjiga — po
pravilu sa 10 bitnim adresnim prostorom (1024 kodne reči)• Deterministička kodna knjiga se dobija na osnovu treninga na
zadatom skupu vektora ( osetljive na uslove prenosnog kanala)• Stohastička kodna knjiga je motivisana zapažanjem da su
dugovremeni reziduli linearne predikcije raspodeljeni gausovski, što znači da se kodna knjiga može napraviti od belog gausovog šuma jedinične varijanse
• Takvi su npr. CELP korišćen u STU-3 na 4800 bps i celularni koder na 800 bps
CELP analitičko sintetički model
32Federal Standard FS-1016
Analiza pobude stohastičkim kodovaimaAnaliza pobude stohastičkim kodovaima
(CELP) (CELP)
33
Pretraga stohastičke kodne knjige
• Optimalna kodna sekvenca je ona koja maksimizuje veličinu
34
• gde je
• Pošto ovo zahteva dosta računanja, kodna knjiga se struktuira tako da se ovaj račun minimizira.
Stohastička kodna knjiga sa
preklapanjem
35
CELP sa stohastičkom kodnom knjigom
36
Primena kodera govora
• mrežni-64 Kbps PCM (8 kHz učestanost odabiranja,
8-bit log kvantizacija)
• internacionalnil-32 Kbps ADPCM
• telekonferencijski-16 Kbps LD-CELP
37
telekonferencijski-16 Kbps LD-CELP
• wireless-13, 8, 6.7, 4 Kbps CELP-koderi
• Kripto telefoni -4.8, 2.4 Kbps LPC- koderi (MELP)
• VoIP-8 Kbps CELP-koder
• Memorisanje govorne pošte, govorne mašine, najave 16 Kbps LC-CELP
Primena kodera govora
38
Svojstva kodera govora
• Bitska brzina od 2400 do 128,000 bps• Subjektivni kvalitet (MOS), objektivni (SNR,
razumljivost)• Kompleksnost, memorijski zahtevi, procesorski
zahtevi• Kašnjenje-eho, reverberacija; kodno kašnjenje,
39
• Kašnjenje-eho, reverberacija; kodno kašnjenje, procesorsko kašnjenje, multipleksno kašnjenje, prenosno kašnjenje ~100 msec
• Telefonski opseg -200-3200 Hz, 8kHz učestanost odabiranja
• Širokopojani govor -50-7000 Hz, 16 kHz učestanost odabiranja
Standardi mrežnog kodovanja govora
Coder Type Rate Usage
G.711 companded PCM
64 Kbps toll
G.726/727 ADPCM 16-40 Kbps toll
40
G.722 SBC/ADPCM 48, 56,64 Kbps wideband
G.728 LD-CELP 16 Kbps toll
G.729A CS-ACELP 8 Kbps toll
G.723.1 MPC-MLQ & ACELP
6.3/5.3 Kbps
toll
Standardi kodera govora u
mobilnoj telefonijiCoder Type Rate Usage
GSM RPE-LTP 13 Kbps <toll
GSM ½ rate VSELP 5.6 Kbps GSM
41
GSM ½ rate VSELP 5.6 Kbps GSM
IS-54 VSELP 7.95 Kbps GSM
IS-96 CELP 0.8-8.5 Kbps <GSM
PDC VSELP 6.7 Kbps <GSM
PDC ½ rate PSI-CELP 3.45 Kbps PDC
Standardi zaštićenih telefonskih kodera
govoraCoder Type Rate Usage
FS-1015 LPC 2.4 Kbps high DRT
42
FS-1016 CELP 4.8 Kbps <IS-54
? model-based
2.4 Kbps >FS-1016
Evaluacija kvaliteta kodera govora
• 2 tipa kodera
– Aproksimacija talasnih oblika-PCM, DPCM, ADPCM-koderi koji proizvode
rekonstruisani talasni oblik originalnog signala sa opadajućom greškom kvantizacije
– Parametarski koderi (zasnovani na modelu)-SBC, MP-LPC, LPC. MB-LPC, CELP-koderi
koji proizvode rekonstruisani signal koji ne konvergira ka originalnom signalu sa
opadajućom greškom kvantizacije
• koderi talasnog oblika
konvergiraju po kvalitetu ka
originalnom govoru
• parametarsko koderi
konvergiraju ka maksimalnom
kvalitetu za zadati model
G.728 LD-CELP
• CELP coderi– Filter čije se karakteristike menjaju u toku vremena– Kodna knjiga akustičkih vektora
• Svaki vektor predstavlja različite karakteristike pobude
– Šta se prenosi• Koeficijenti filtra, pojačanje, indeks izabranog vektora pobude u
kodnoj knjizi
3-44
• Koeficijenti filtra, pojačanje, indeks izabranog vektora pobude u kodnoj knjizi
• CELP malog kašnjenja (LD CELP)– Adaptivni koder unazad
• Koristi prethodne odbirke signala za odredjivanje koeficijenata filtra
• Radi nad 5 odbiraka – kašnjenje < 1 ms
• Prenosi se samo indeks kodne reči iz kodne knjige
G.728 LD-CELP• 1024 vectora u kodnoj knjizi
• 10-bitni indeks kodne reči
• Brzina - 16 kbps
• LD-CELP koder (Minimizira težinsku srednjekvadratnu grešku
u frekventnom domenu)u frekventnom domenu)
LD-CELP dekoder
3-46
– MOS skor oko 3.9
– Jedna četvrtina brzine G.711
G.723.1 ACELP• 6.3 ili 5.3 kbps
– Obe brzine su obavezne– Može da se menja se iz jedne u drugu brzinu u toku
razgovora
• Koder– Ulaz je frekventno ograničen govorni signal– Odabiranje sa 8 KHz, i uniformno 16-bit kvantovanje
3-47
Ulaz je frekventno ograničen govorni signal– Odabiranje sa 8 KHz, i uniformno 16-bit kvantovanje– Radi nad blolovima od 240 odbiraka– Radi unapred 7.5 ms– Ukupno algoritamsko kašnjenje je 37.5 ms + ostala
kašnjenja– Visokofrekventnim filtriranjem se odstranjuje svaka
jednosmerna komponenta
G.723.1 ACELP
– 5.3 kbps, ACELP (Algebraic Code-Excited Linear Prediction)
– 6.3 kbps, višeimpusna kvantizacija maksimalne verodostojnosti
3-48
verodostojnosti
– Prenose se
• Koeficijenti filtra linearne predikcije
• Pojačanje
• Indeks iz kodne knjige pobuda
• 24-oktetni frejmovi na 6.3 kbps, 20-oktetni frejmovi na5.3 kbps
G.723.1 Annex A
• G.723.1 Annex A
– Silence Insertion Description (SID) frejmovi dužine četiri okteta
• Dva najmanje značajna bita prvog okteta odredjuju
3-49
odredjuju
– 00 6.3kbps 24 okteta/frejmu
– 01 5.3kbps 20
– 10 SID frejm 4
• MOS oko 3.8
– Kašnjenje najmanje 27.5 ms
G.729
• 8 kbps• Ulazni frejmovi od 10 ms, odnosno 80 odbiraka
pri učestanosti odabiranja od 8 KHz • 5 ms analiza unapred
– Algoritamsko kašnjenja 15 ms
3-50
– Algoritamsko kašnjenja 15 ms
• 80-bitni frejmovi za 10 ms govora• Kompleksan koder
– G.729.A (Annex A), niz uprošćenja– Ista struktura frejmova– Kooder/dekoder, G.729/G.729.A– Nešto niži kvalitet
G.729.B
• G.729.B
– VAD, Voice Activity Detection
• Zasniva se na analizi niza ulaznih parametara govora
• Posmatra se tekući frejm i dva prethodna frejma
– DTX, Discontinuous Transmission
3-51
– DTX, Discontinuous Transmission
• Ne šalje se ništa ili SID frejm
• SID frame contains information to generate comfort noise
– CNG, Comfort Noise Generation
• G.729, MOS oko 4.0
• G.729A, MOS oko 3.7
G.729 Annex D
• G.729 Annex D– Ekstenzija za niže brzine
– 6.4 kbps; 10 ms govorni odbirci, 64 bita/frejmu
– MOS ∼ 6.3 kbps G.723.1
• G.729 Annex E
3-52
• G.729 Annex E– Poboljšanje sa većom bitskom brzinom
– Linearni prediktivni filter za G.729 ima 10 koeficijenata
– G.729 Annex E ima 30 koeficijenata
– Kodna knjiga G.729 ima 35 bits
– Kodna knjiga G.729 Annex E ima 44 bita
– 118 bita/frejmu; 11.8 kbps
Drugi koderi
• CDMA QCELP definisan u IS-733
– Koder promenljive brzine
– Dve najčešće korišćene brzine
• Viša brzina, 13.3 kbps
3-53
• Viša brzina, 13.3 kbps
• Niža brzina, 6.2 kbps
– Potiskivanje pauza (tišine)
– Koristi se sa RTP, RFC 2658
Drugi koderi
• GSM Enhanced Full-Rate (EFR)
– GSM 06.60
– Poboljšana verzija GSM Full-Rate
– ACELP-koder
3-54
– ACELP-koder
– Ista bitska brzina i struktura
• 12.2 kbps
– Podržava prekidani prenos
– Koristi se sa RTP, RFC 1890
Drugi koderi
• GSM Adaptive Multi-Rate (AMR) koder– Kodno kašnjenje 20 ms
– Osam režima rada
– Od 4.75 kbps do 12.2 kbps
– 12.2 kbps, GSM EFR
3-55
– 12.2 kbps, GSM EFR
– 7.4 kbps, IS-641 (TDMA cellular systems)
– Može da menja ređime rada u bilo kom trenutku
– Radi i u prekidnom prenosu• SID (Silence Descriptor) se šalje svaki 8. frejm i dužine je 5
bajtova
– Kodni sistem u mnogim 3G bežičnim mrežama
Drugi koderi
• MOS vrednosti u laboratorijskim uslovima
– G.711 ne podržava izgubljene pakete
– G.729 može da prevazidje izgubljeni frejm, interpolacijom na osnovu prethodnih frejmova
3-56
interpolacijom na osnovu prethodnih frejmova
• But cause errors in subsequent speech frames
• Procesna snafa
– G.728 ili G.729, 40 MIPS
– G.726 10 MIPS
Standardi mobilne telefonije
Coder Rate Approach Quality Complexity Delay
GSM FR 13 RPE-LPT 3.5 Low 40
GSM HR 5.6 VSELP <3.5 High 45
GSM EFR 12.2 ACELP 4.0 Medium 45
GSM AMR 4-12 ACELP 3.5-4.0 Medium 45GSM AMR 4-12 ACELP 3.5-4.0 Medium 45
TIA IS54 8 VSELP 3.5 Medium 45
TIA IS641 8 ACELP 4.0 Medium 45
TIA IS96 8* QCELP <3.5 Medium 45
TIA EVRC 8* ACELP 4.0 High 50
TIA Q13 13* QCELP 4.0 Med-High 45?
* = Variable rate
Vojni / Satelitski standardiCoder Rate
(Kb/s)Approach Quality
(MOS)Complexity Delay
(ms)
FS-1015LPC-10
2.4 LPC 2.5 Low- med 13.5
FS-1016 4.8 CELP 3.0 high 67.5
MELP 2.4 MELP 3.3 Med-high 67
Satellite 1 4.8 IMBE 3.3-3.5 medium 100
Satellite 2 2.4-3.6 AMBE 3.3-3.5 medium 100