18
1 Universitatea Tehnică din Cluj-Napoca Facultatea de Electronică,Telecomunicații și Tehnologia Informației Speech Coding-Codarea vorbirii Proiect disciplină: Analiza, sinteza și recunoașterea semnalului vocal PROFESOR ÎNDRUMĂTOR: Student: Prof.dr.ing Eugen Lupu Gheorghițoiu Alexandra

Speech Coding

Embed Size (px)

DESCRIPTION

Codarea vorbirii

Citation preview

  • 1

    Universitatea Tehnic din Cluj-Napoca

    Facultatea de Electronic,Telecomunicaii i Tehnologia Informaiei

    Speech Coding-Codarea vorbirii

    Proiect disciplin: Analiza, sinteza i recunoaterea semnalului vocal

    PROFESOR NDRUMTOR: Student:

    Prof.dr.ing Eugen Lupu Gheorghioiu Alexandra

  • 2

    CUPRINS 1.Noiuni introductive ............................................................................................................................. 3

    1.1 Definiia codrii vorbirii ................................................................................................................. 3

    1.2 Parametrii ai codrii vorbirii ......................................................................................................... 4

    1.3 Proprietii ale codrii vorbirii ...................................................................................................... 5

    1.3.1 Debit binar redus ................................................................................................................... 5

    1.3.2 Vorbire de nalt calitate........................................................................................................ 6

    1.3.3 Calitatea semnalului indiferent de limba vorbit sau persoan ............................................ 6

    1.3.4 Rezistena n prezena erorilor de canal ................................................................................ 6

    1.3.5 Bun performan n semnalele non-vorbire ........................................................................ 6

    1.3.6 Cantitatea de memorie i complexitatea computaional sczut ....................................... 6

    1.3.7 ntrzierea de codificare sczut ........................................................................................... 6

    2.Msuri de distorsiune i algoritmi de codificare .................................................................................. 7

    2.1 Lista de coduri pentru domeniul vorbirii ...................................................................................... 7

    2.2 Lista de coduri pentru domeniul perceptual ................................................................................ 8

    3.Aplicaii ................................................................................................................................................ 8

    3.1 Telefonia mobil ........................................................................................................................... 8

    3.2 VoIP ............................................................................................................................................... 9

    4.Metoda de codare PCM ..................................................................................................................... 10

    5.Standarde ........................................................................................................................................... 11

    6. Prelucrarea vorbirii la nivelul stratului fizic GSM .............................................................................. 14

    7.Bibliografie ......................................................................................................................................... 18

  • 3

    1.Noiuni introductive

    Codarea vorbirii este arta de reprezentare ntr-o form minim redundant a semnalului

    vocal care poate fi transmis sau stocat ntr-un coninut media digital n mod eficient, i

    decodarea semnalului cu cea mai bun calitate de percepie. [1]

    Codarea vorbirii este fundamental pentru funcionarea unei reele telefonice publice

    (PSTN), sisteme de video conferin, comunicaii digitale celulare i aplicaii VoIP.[2]

    Principalul scop al codrii vorbirii este acela de a reprezenta vorbirea ntr-un format

    digital pe ci mai puini bii posibili, meninnd dac este posibil inteligibilitatea i calitatea

    necesar pentru punerea n aplicare.Interesul fa de codarea vorbirii aprut odat cu evoluia

    comunicaiilor digitale i obligaia de a minimiza rata de bii, prin urmare i limea de

    band.[2]

    1.1 Definiia codrii vorbirii

    Codarea vorbirii (speech coding) se refer la aplicarea metodelor de compresie a

    datelor a semnalului audio digital care conine vorbire. Codarea vorbirii utilizeaz metode de

    estimare a parametrilor de vorbire specifici pentru a modela semnalul vocal combinat cu

    algoritmii generici de compresie a datelor pentru a reprezenta rezultatele parametrilor

    modelatai ntr-un bitstream compact.[3]

    Figura 1.Diagrama bloc a unui sistem de comunicaii digital

    Sursa

    Encoder

    Canalul

    Encoder Modulator

    Canal de

    transmisie sau

    dispozitiv de

    stocare

    Demodulator Canal

    Decodor

    Sursa

    Decodor

    Sursa

    Receptor

    Uman

    Sursa de codare Canalul de codare

  • 4

    1.2 Parametrii ai codrii vorbirii

    Cei patru parametrii fundamentalii ai codarii vorbirii sunt :

    Calitatea semnalului

    Rata de bit

    ntrzierea de procesare

    Complexitatea implementrii[4]

    Format audio Rata de eantionare Banda de frecven

    Telefonie 8KHz 200-3400 HZ

    Teleconferine 16KHz 50-7.000 Hz

    Compact disc (CD) 44,1 KHz 20-20.000Hz

    Banda magnetic digital 48 KHz 20-20.000 Hz

    Tabelul 1.Parametrii de baz de vorbire [4]

    Calitatea semnalului audio este descris pe baza unor criterii subiectivi.Este larg

    acceptat o scar cu 5 trepte ai calitii semnalelor la care se adaug i msurtori de

    inteligibilitate.Pentru a obine o reducere semificant a ratei, parametrii folosii pentru a

    reprezenta semnalul vocal sunt n general transmii la o precizie mai redus iar semnalul

    vocal reconstituit nu este o copie perfect a semnalului original digital. Este important deci s

    se asigure c calitatea semnalului ntlnete anumite standarde.[4]

    Rata de bit exprimat n bit pe secund ( bps ) sau n bii pe eantion este esenial n

    codarea semnalelor. Pentru codificarea cu rat fix, rata de bii este aceeai pentru fiecare

    bloc de codificare, n timp ce pentru codificarea cu rat variabil, rata de bii variaz n

    timp.[4]

    ntrzierea de procesare este suma ntrzierilor care apar n procesele de codare-

    decodare, n procesele de digitalizare a semnalelor la trasmiterea n reea. Se cunoate faptul

    c o performan optim de condificare,n general, are nevoie de o ntrziere n transferul

    mesajului. ntrzierile lungi nu sunt practice deoarece sunt n general asociate cu metode de

    mare calcul i necesitatea stocrii, i pentru c n medii n timp real utilizatorul nu tolereaz

    ntrzieri aa de mari.[4]

  • 5

    Complexitatea este msurat att prin procesele aritmetice necesare algoritmului ct

    i prin cerinele de memorie. Primele reelele terestre de telecomunicaii digitale au fost n

    general, concepute pentra a avea debitul binar de erori sczut, eliminnd astfel necesitatea

    unor msuri pentru a corecta erorile de transmitere a vorbirii. Mai trziu,erorile de bit i

    pierderile de pachete sunt motenite n infrastructura comunicaiilor moderne. Erorile de bit

    sunt ,n general, ntlnite n reelele wireless.[4]

    1.3 Proprietii ale codrii vorbirii

    Codarea vorbirii are dou scopuri principale.Primul scop este acela de a maximiza

    calitatea perceput la o anumit rat de bit iar al doilea scop este acela de a minimiza rata de

    bit pentru o anumit calitate perceptiv.[5]

    Rata de bit corespunztoare la care vorbirea trebuie s fie transmis, stocat depinde

    de costul de transport sau de costul de depozitare, costul de codificare, semnalul de vorbire

    digital precum i cerine legate de calitatea vorbirii.[5]

    n aproximativ toate cazurile, vorbirea codat difer de cea original. Rata de bit este

    redus prin reprezentarea semnalului de vorbire cu o precizie redus i prin eliminarea

    redundanei inerente din semnal, rezultnd ntr-un sistem de codificare cu pierderi.

    Principalele proprietii ale codarii vorbirii sunt urmtoarele:

    Debit binar redus

    Vorbire de nalt calitate

    Calitatea semnalului indiferent de limba vorbit sau persoan

    Rezistena n prezena erorilor de canal

    Performana bun n semnalele non vorbire

    Cantitatea de memorie i complexitatea computaional sczut

    ntrzierea de codificare sczut.[5]

    1.3.1 Debit binar redus

    Cu ct rata de bit a unui flux de bit codificat este mai joas este nevoie de ct mai

    puin lime de band pentru transport, care s conduc la un sistem mai eficient. Acest

    lucru este ntr-un continuu conflict cu alte proprietii bune ale sistemului, cum ar fi calitatea

    vorbirii.

  • 6

    n practic s-a gsit ns un compromis pentru a satisface aceast necesitate pentru o

    anumit aplicaie.

    1.3.2 Vorbire de nalt calitate

    Vorbirea decodat ar trebui s aib o calitate acceptabil pentru aplicaia dorit (int).

    Exist multe dimensiuni n percepia calitii, dimensiuni care includ inteligibilitatea,

    naturaleea, recunoaterea vorbitorului i utilizarea unui ton plcut.

    1.3.3 Calitatea semnalului indiferent de limba vorbit sau persoan

    Tehnica care st la baza codrii vorbirii ar trebui s fie suficient de general pentru a

    modela diveri vorbitori cum ar fi un brbat adult, o femeie adult precum i copii, aceai

    regul fiind similar i pentru diferitele limbi.Important de reinut este faptul c acest lucru

    nu este uor de realizat deoarece fiecare semnal vocal are caracteristicile sale unice.

    1.3.4 Rezistena n prezena erorilor de canal

    Acest lucru este esenial pentru sistemele de comunicaii digitale de unde erorile de

    canal pot avea un impact negativ asupra calitii vorbirii.

    1.3.5 Bun performan n semnalele non-vorbire

    ntr-un sistem tipic de telecomunicaii, pot fi prezente i alte semnale n afara celor de

    vorbire.Tonurile de semnalizare cum ar fi dual-tonul multi-frecven (DTMF) sunt ntlnite n

    apelarea unei tastaturi i n muzic.

    Chiar dac debitul binar este sczut, vorbirea codat s-ar putea s nu fie n msur s

    reproduc n totalitate toate semnalele, aceasta nu ar trebui s genereze artefacte

    nesemnificative atunci cnd se confrunt aceste semnale alternative.

    1.3.6 Cantitatea de memorie i complexitatea computaional sczut

    Pentru ca codarea vorbirii s fie practicabil, costurile asociate cu punerea sa n

    aplicare trebuie s fie sczute; aceste costuri includ cantitatea de memorie necesar pentru a

    sprijini funcionalitatea acesteia precum i cererea de calcul.

    Cercettorii care studiaz codarea vorbirii petrec o mare parte din eforturile lor pentru

    a gsi cele mai eficiente realizrii.

    1.3.7 ntrzierea de codificare sczut

    n procesul de codare i decodare a vorbirii, ntrzierea este introdus n mod

    inevitabil,aceast ntrziere este trecerea de timp ntre vorbirea de intrare a codorului n raport

  • 7

    cu vorbirea de ieire a decodorului. O ntrziere excesiv provoac probleme cu timpul real

    de conversaii n dou ci, n cazul n care prile au tendina de a vorbi peste reciproc.[5]

    2.Msuri de distorsiune i algoritmi de codificare

    Msura de distorsiune are un impact semnificativ asupra algoritmilor de codare a

    vorbirii.[5]

    2.1 Lista de coduri pentru domeniul vorbirii

    Cel mai simplu algoritm pentru codarea vorbirii este definirea unei liste de coduri n

    domeniul de vorbire i de a folosi o msur de distorsiune n timpul codrii i timpul

    trainingului de list de coduri.n general aceast msur este adaptiv.

    Un avantaj al acestei metode este faptul c decodorul nu necesita contiine care

    variaz n timp msura de distorsiune.

    Masurarea

    distorsiunii

    Cuantificator

    Semnalul model

    Decodorul

    Semnalul

    model

    yk

    k

    Fig.3 Model de arhitectur pentru codificarea cu o msura de distorsiune[5]

  • 8

    2.2 Lista de coduri pentru domeniul perceptual

    Ca o alternativ, definind o list de coduri n domeniul de vorbire, se poate define o

    list de coduri ntr-un domeniu perceptual dup cum este prezentat n figura 3.

    Definim un domeniu perceptual ca un domeniu n care se poate aplica criteriul

    ponderii erorii ptratice.Cea mai elegant paradigm nu are nevoie de nici o informaie despre

    vectorul vorbirii dect indexul din lista de coduri din domeniul perceptual.Acest lucru se

    aplic doar n cazul n care maparea domeniului perceptual este 1 la 1.[5]

    Fig 4. Arhitectura ideal pentru codificarea n domeniul de percepie, cu mapare inversabil

    Maparea Cuantificator Decodor Mapare invers

    Semnalul

    model

    Semnalul

    model

    uk y

    m m m

    3.Aplicaii

    Cele mai importante aplicaii ale codarii vorbirii sunt aplicaiile de telefonie mobil i

    Voice over IP.

    3.1 Telefonia mobil

    Telefonia mobila se refer la furnizarea de servicii de telefonie, la telefoane care se

    pot deplasa n mod liber, n loc s rmn fixat ntr-un singur loc. Telefoanele mobile sunt

    conectate la o reea celular terestra de staii de baz.[6]

    Exist totui cteva limitri.Soluiile de telefonie mobil veche sunt n band

    ngust.Aceast proprietate impune limitri severe asupra calitii realizabile. De fapt, n

    aplicaiile de telefonie mobil tradiionale, limea de band de vorbire este restricionat mai

    mult de limitrile inerente ale bandei nguste la o rat de eantionare de 8 kHz.

  • 9

    n mod normal vorbirea prin telefonul mobil este limitat la 300-3400 Hz.Aceast

    limitare a limii de band explic faptul c majoritatea persoanelor sunt obinuite s atepte

    o vorbire prin telefon cu sunetul mai slab,nenatural i fr claritate.[6]

    Conexiunea final, n majoritatea cazurilor, este n general analog, prin intermediul

    unor cabluri de cupru cu dou fire, n timp ce n ntregime conexiunile digitale sunt de obicei

    gsite numai n medii de ntreprinderi.[6]

    Datorit conexiunilor slabe sau datorit faptului c cablurile sunt vechi, se poate

    genera o distorsiune semnificativ n partea analogic a conexiunii cu telefonul mobil, un tip

    de distorsiune care lipsete n implementareaVoIP. Telefoanele fr fir genereaz i ele o

    distorsiune analog semnificativ datorit intergerenelor radio i alte probleme de punere n

    aplicare.

    Fig 5. Turn de telefonie mobil[6]

    3.2 VoIP

    Voice over IP se caracterizeaz prin conversia vocii n pachete de date ce se transmit

    prin reelele IP de la surs la destinaie unde sunt puse din nou n ordinea iniial i convertite

    napoi n semnale acustice.[7]

    Limea de band a semnalului vocal poate fi mbuntit peste banda de vorbire a

    telefonului, chiar i fr a schimba frecvena de eantionare.Este posibil s se poat extinde

    banda inferioar cu pn la aproximativ 50 Hz, extindere care poate mbuntii sunetul de

    baz a semnalului de vorbire i care are un impact major asupra naturaleei, prezena i

  • 10

    confortul ntr-o conversaie. Extinznd banda superioar pn la aproape 4 kHz mbuntete

    naturaleea i claritatea sunetului.[7]

    Principalul avantaj al VoIP este preul redus, datorit faptului c este utilizat reeaua

    IP, reea care poate fi folosit n acelai timp i pentru alte servicii cum ar fi navigare web,

    e-mail, e-banking. Un utilizator poate s foloseasc serviciul VoIP indiferent de locaia n

    care se afl.

    Fig 6. Exemplu de reea care include VoIP[7]

    4.Metoda de codare PCM

    Cea mai utilizat metod de codare a semnalului vocal este tehnica modularii

    impulsurilor n cod, cunoscut i sub numele de PCM (Pulse Code Modulation). Prin

    folosirea acestei tehnici de codare a semnalului vocal, fiecare eantion este cuantizat, i

    anume i se atribuie o valoare numeric, independent de celelalte eantioane. [8]

    Fig 7.PCM

  • 11

    Un codor PCM poate determina nivelul de cuantizare a fiecarui eantion fr s mai

    in cont de nivelul eantioanelor precedente,iar apoi atribuie acestui nivel de cuantizare un

    cod binar, acest cod binar reprezentnd forma codat a semnalului.

    n tehnica PCM exist diferite moduri de cuantizare a valorii fiecrui eantion i de

    asociere a cuvintelor de cod pentru un nivel de cuantizare. Cele mai folosite tehnici sunt

    codarea liniar i cea logaritmic. [8]

    Codarea liniar const n considerarea valorii scalate a eantionului ca i cuvant de

    cod. Astfel, un semnal de intrare cu valori ntre 0 i 1000 mV va fi codat liniar cu valori ntre

    0 i o valoare maxima VM. Valoarea eantionului poate fi o mrime cu semn, innd cont c

    semnalul vocal variaz n jurul unei poziii de referina, de nivel 0. Astfel, cuvntul de cod

    poate fi la rndul lui un numr cu semn. [8]

    Codarea logaritmic aplic o transformare logaritmic valorii scalate a eantionului,

    i apoi atribuie o reprezentare numeric rezultatului obinut. Astfel, cuvntul de cod va

    conine semnul i logaritmul valorii scalate a eantionului.

    Acest standard de codare este folosit n telefonia digital, datorit faptului c n

    telefonie, valorile de amplitudine mare a eantioanelor sunt puin frecvente, i ca urmare pot

    fi reprezentate cu o precizie mai mic dect valorile de amplitudine mic, aa cum este cazul

    n transformarea logaritmic.[8]

    5.Standarde

    Standardele pentru codarea vorbirii sunt urmtoarele: [5]

    ITU G.726 si G.727 ADPCM

    G.726 este un standard de vorbire ITU-T ADPCM care acoper trasmiterea de voce la

    rate de 16,24,32 i 40 kbit/s.Acesta a fost introdus pentru a nlocui ambele, G.721 care a

    acoperit ADPCM la 32 kbit/s i G.723 care acoperea ADPCM pentru 24 i 40 kbit/s. G.276 a

    introdus de asemena o nou rat de 16kbit/s.

    Cele patru rate de bii asociate cu G.726 sunt adesea menionate de mrimea de bit a

    unei probe care sunt 2,3,4 i respective 5 bii.Modul cel mai obiuit este 32 kbit/s care

    dubleaz capacitatea reelei utilizabile folosind doar jumtate din rata de G.711.Acesta este

    utilizat n primul rnd n trunchiurile internaionale n reeaua de telefonie i este codecul

    standard utilizat n sitemele de telefonie fr fir DECT.

    G.727 a fost introdus n accelai timp ca i G.726, i include acelasi rate de bii, dar

    acesta este optimizat pentru pachetele de echipamente de circuite multiplex(PCME).Acest

  • 12

    lucru se realizeaz prin ncorporarea a 2 bii cuantizor la 3 bii cuantizor i acelai pentru

    modurile superioare.Acest lucru permite pierderea a celui mai puin semnificativ bit la fluxul

    de bii fr efecte adverse asupra semnalului de vorbire.

    MELP

    Mixed-excitation liniar prediction sau MELP este un standard de codificare folosit n

    Statelor Unite ale Americi, n Departamentul Aprari.Acest codare este utilizat n principal

    n aplicaiile militare i comunicaiilor prin satelit, secure voice i dispozitive radio

    secure.Standardizarea i dezvoltrile ulterioare au fost conduse i susinute de ctre NSA i

    NATO.

    Standardul a fost dezoltat iniial de ctre Alan McCree, n anul 1995.Tehnologia a fost

    ulterior liceniat de ctre Atlanta Signal Processos INC pentru dezvoltarea comercial.Acest

    standard de codificare a vorbiri a fost iniial standardizat n anul 1997 cunoscut sub numele

    de MIL-STD-3005.

    Vector Sum Excited LP

    VSELP este o metod de codificare a vorbirii utilizat n mai multe standarde

    celulare.Algoritmul VSELP este o tehnic de codificare care utilizeaz o analiz prin sintez

    i aparine clasei de codificare a vorbirii, algoritm cunoscut i sub numele de CELP.

    Variaiile acestui codec au fost utilizate n mai multe standarde de telefonie celular

    2G, inclusive IS-54, IS-136 GSM(Half Rate Speech), etc.Acesta a fost de asemnea utilizat n

    prima versiune a Real Audio pentru audio pe Internet.Standardul VSELP IS-54 a fost publicat

    de ctre Asociaia Industriei de Telecomunicaii n anul 1989.

    ITU-T G.729 CS-ACELP

    A fost standardizat n anul 1996, i se bazeaz pe algoritmul CS-ACELP. Acesta

    funcioneaz la 8 kb / s, cu o lungime a cadrului de vorbire de 10 ms. Fiecare cadru de discurs

    de 10 ms este format de ctre dou sub-cadre cu fiecare de 5 ms.

    Coeficienii de filtrare LPC sunt estimai pe baza analizei pe 10 ms cadre de discurs,

    n timp ce parametrii de semnal de excitaie sunt estimai pe baza analizei fiecrui subcadru

    (5 ms). Coeficienii de filtrare LPC sunt transformai n perechi LSP pentru stabilitate i pentr

    eficiena de transmitere.

    Pentru un encoder G.729, la fiecare 10 ms a cadrului de vorbire este analizat pentru a

    se obine parametrii relevani, care sunt apoi codificate la 80 de bii i transmise la canal.

    G.729 sprijin trei tipuri de cadre de vorbire, care sunt cadru de vorbire normal (cu 80 de

  • 13

    bii), Silence Insertion Descriere (SID) cadru (cu 15 bii, pentru a indica caracteristicile de

    zgomot de fond cnd VAD este activat) i un cadru nul (cu 0 bit). G.729 a fost proiectat

    pentru aplicaii mobile i de reea.

    n standardul G.729, mai este definit de asemenea G.729A (G.729 Anexa A) pentru

    un algoritm cu complexitate sczut care funcioneaz la 8 kbps, anexa D pentru extindere

    low-rate la 6,4 kbps i Anexa E pentru extinderea high-rate la 11,8 kbps.[5]

    ITU G.723.1 MP-MLQ/ACELP

    Standardul a aparut n anul 1996 i are la baz metodele algebrice CELP(ACELP)

    pentru rata de bii la 5,3 kb i MP-MLQ pentru rata de biti de 6,3 kb.Acest standard a fost

    propus pentru comunicaiile multimedia, cum ar fi de exemplu pentru rata de bit foarte

    sczut la aplicaiile de telefonie vizual i ofer rate duble pentru flexibilitate.Cu ct rata de

    bii este mai mare, cu att vorbirea va avea o calitate mai ridicat. Acest standard folosete un

    cadru de discurs de 30ms, pentru rata de eantionare de 8kHz.

    Comutarea ntre cele doua rate de bii poate fi efectuata n orice cadru limita(30ms).

    Fiecare cadru de discurs de 30 ms este mprit n patru sub-cadre (fiecare 7,5 ms). Al 10-lea

    tip de analiz de ordinul LPC se aplic pentru fiecare subcadru.

    Att n bucl deschis ct i prim-bucl pitch perioada de estimare / predicie se

    efectueaz pentru fiecare dou subcadre . Se folosesc dou metode de excitatie diferite una pe

    ACELP i una pe MP-MLQ.[5]

    Tipul Codorului ITU-T Standard Rata de bit (kbps)

    PCM G.711 64

    ADPCM G.726 16,24,32,40

    Embeded ADPCM G.727 16,24,32,40

    Low-Delay CELP G.728 16

    ACELP G.729 8

    ACELP/MP-LPC G.723.1 5.3/6.3

    Tabel 1.Standardele folosite n telecomunicaii[5]

  • 14

    Tipul codorului Standardul Rata de bit

    (kbps)

    Regiunea

    RPE-LTP GSM 06.01 13 Europa

    ACELP GSM EFR,PCS,1900 EFR 12.2 Europa i SUA

    ACELP EFR IS-641 7.4 SUA

    QCELP IS-96 8.5 SUA

    VSELP GSM Half Rate 06.20 5.6 Europa

    VSELP PDC 6.7 Japonia

    PSI-CELP PDC Half Rate 3.45 Japonia

    Tabel 3 Standarde folosit n telefonia mobil[5]

    6. Prelucrarea vorbirii la nivelul stratului fizic GSM

    Strat fizic GSM nu este nimic altceva dect modulele prin care vor trece prin vorbire

    nainte de a fi transmise n aer. Aceste module sunt descrise n figura de mai jos.

    Fig 8. GSM-strat fizic

    Aceste module sunt module de codificare a vorbiri, codificarea canalului, intercalare,

    cifrarea, asamblare izbucniri, modulare. Codificarea vorbirii bloc utilizeaz 13kbps RELP

    (linear cu excitaia rezidual de codare predictiv). Blocul de codificare canal utilizeaz

    codificare convoluional de rat 1/2 cu o lungime de 5. Intercalarea unui bloc face

  • 15

    intercalare diagonal, dup ce 456 de bii codate n 20ms sunt mprite n 57 de bii sub-

    blocuri.[10]

    GSM Full Rate / EPR-LPC codec

    GSM Full Rate EPR-LPC este cunoscut i sub numele de Pulse Regular Excited -

    Linear Predictive Coder.Aceast form de codare a vocii a fost primul codec de vorbire

    folosit cu GSM i a fost ales dupa efectuarea unor teste pentru a compara alte scheme de

    codare. Codarea discursului se bazeaz n mod regulat pe LPC cu o predicie pe termen

    lung.[11]

    Schema de baz se refer la dou codec-uri de vorbire anterioare, i anume RELP i

    MPE-LPC. Avantajele RELP sunt complexitatea relativ redus care rezult din utilizarea

    codificri de band, dar performanele sale sunt limitate de zgomotul produs de ctre sistem.

    MPE-LPC este mult mai complex, dar ofer un nivel mai bun de performan. Codecul RPE-

    LPC a prevzut un compromis ntre cele dou, echilibrnd astfel performana i

    complexitatea pentru tehnologia n timp.

    n ciuda lucrrii care a fost efectuat pentru a oferi performane optime, pe msur ce

    tehnologia este ntr-o contiun dezvoltare,codec-ul EPR-LPC ofer un nivel slab de calitate a

    vocii. Pe msur ce alte codec-uri audio cu rat complet au devenit disponibile, acestea au

    fost incorporate n sistem.

    Fig.9 LPC

  • 16

    GSM EFR - Enhanced Full Rate codec

    Mai trziu, un alt vocoder numit EFR a fost adugat ca un rspuns la calitatea slab

    perceput de ctre utilizatorii originali EPR-LPC. Acest nou codec a mbuntit calitatea

    sunetului i a fost adoptat de GSM. Folosind tehnologia de compresie ACELP, a oferit o

    mbuntire semnificativ calitii n originalul LPC-EPR. A devenit posibil aa cum

    puterea de procesare care a fost disponibil s creasc n telefoanele mobile, ca urmare a

    nivelului de putere de procesare combinat cu un consum mai mic de curent.[11]

    GSM Half Rate Codec

    Sistemul Half Rate Codec a fost introdus n anul 1990, dar avnd n vedere calitatea

    proast cu care a fost perceput nu a fost utilizat la scar larg.

    Standardul GSM permite divizarea unui singur canal vocal de rat complet n dou

    sub-canale care pot menine apeluri separate. Prin aceasta, operatorii de reea pot dubla

    numrul de apeluri de voce care pot fi tratate prin reea cu puine investiii suplimentare.

    Pentru a activa aceast facilitate, trebuie s se utilizeze Half Rate Codec pentru a fi

    utilizate.Codec-ul Half Rate a fost introdus n primii ani de GSM, ns a dat o calitate a vocii

    mult mai inferioar n comparaie cu alte codec-uri de vorbire. Cu toate acestea ns a oferit

    avantaje atunci cnd cererea a fost mare i capacitatea reelei a fost premium. GSM Half Rate

    codec folosete un algoritm VSELP.

    Acest algoritm codeaz datele de aproximativ 20 ms Frames, fiecare transportnd 112

    bii pentru a oferi o rat de date de 5,6 kbps. Aceasta include o rata de date de 100 bps pentru

    un mod de indicator care detaileaza dac sistemul consider cadrele care conin date vocale

    sau nu. Acest lucru permite codarii vorbirii pentru a opera ntr-un mod care asigur o calitate

    optim.[11]

    GSM AMR Codec

    AMR sau Adaptive Multi-rate codec este codec-ul GSM cel mai utilizat n prezent la

    scar larg. A fost adoptat de 3GPP n octombrie 1988 i este folostit att pentru GSM ct i

    pentru comutarea circuitelor UMTS/WCDMA a apelurilor voce.

    Codec-ul AMR ofer o varietate de obiuni pentru unul dintre cele opt rate diferite de

    bii aa cum este descris n tabelul de mai jos. Codec-ul AMR are n total opt rate:opt sunt

    disponibile la rat complet, n timp ce ase sunt disponibile la jumatate de rat.Acestea dau

    n total 14 moduri diferite.[11]

  • 17

    Moduri Rata de bit

    (kbps)

    FullRate(FR)/

    Half Rate(HR)

    AMR 12.2 12.2 FR

    AMR 10.2 10.2 FR

    AMR 7.95 7.95 FR/HR

    AMR 7.40 7.40 FR/HR

    AMR 6.70 6.70 FR/HR

    AMR 5.90 5.90 FR/HR

    AMR 5.15 5.15 FR/HR

    AMR 4.75 4.75 FR/HR

    Tabelul4.AMR codec data rates[11]

    Ratele de bii pe care se bazeaz sunt de 20 ms de lungi.El utilizeaz o varietate de

    tehnici diferite pentru a oferi compresia datelor. Codecul ACELP este folosit ca i codec de

    baz pentru ansamblu de vorbire dar sunt utilizate alte tehnici n plus faa de aceasta.

    Transmisia discontinu este realizat n aa fel nct atunci cnd nu exist nici o activitate de

    vorbire, trasmisia este tiat. n plus, activitatea de detectare a vocii (VAD) este folosit pentru

    a indica atunci cnd nu exist zgomotul de fundal i nici vorbire.

    Pentru a oferi utilizatorului un feedback c conexiunea este nc prezent, un GNC

    (generator de zgomot confort) este utilizat pentru a oferi un zgomot de fond chiar i atunci

    cnd nu exista date de vorbire transmise. Acesta se adaug local la receptor.

  • 18

    7.Bibliografie

    1. SPEECH CODING: FUNDAMENTALS AND APPLICATIONS, MARK HASEGAWA-

    JOHNSON ,University of Illinois

    2. Speech Coding Methods, Standards, and Applications, Jerry D. Gibson

    3. Site-ul http://en.wikipedia.org/wiki/Speech_coding, Data ultimei accesrii 07.01.2015

    4.Site-ul http://www.scrigroup.com/tehnologie/comunicatii/Parametrii-semnalelor-

    vorbirii15616.php , Data ultimei accesrii 07.01.2015

    5.Springer Handbook of Speech Processing,

    6.Site-ul http://en.wikipedia.org/wiki/Mobile_telephony , Data ultimei accesrii 09.01.2015

    7.Site-ul http://en.wikipedia.org/wiki/Voice_over_IP , Data ultimei accesrii 09.01.2015

    8. Site-ul http://www.ijareeie.com/upload/2013/november/37_PERFORMANCE.pdf

    9. Springer Handbook of Speech Processing

    10.Site-ul http://www.rfwireless-world.com/Tutorials/gsm-speech-processing.html , Data

    ultimei accesrii 12.01.2015

    11.Site-ul http://www.radio-electronics.com/info/cellulartelecomms/gsm_technical/audio-

    codecs-vocoders-amr-celp.php , Data ultimei accesrii 12.01.2015

    http://en.wikipedia.org/wiki/Speech_codinghttp://www.scrigroup.com/tehnologie/comunicatii/Parametrii-semnalelor-vorbirii15616.phphttp://www.scrigroup.com/tehnologie/comunicatii/Parametrii-semnalelor-vorbirii15616.phphttp://en.wikipedia.org/wiki/Mobile_telephonyhttp://en.wikipedia.org/wiki/Voice_over_IPhttp://www.ijareeie.com/upload/2013/november/37_PERFORMANCE.pdfhttp://www.rfwireless-world.com/Tutorials/gsm-speech-processing.htmlhttp://www.radio-electronics.com/info/cellulartelecomms/gsm_technical/audio-codecs-vocoders-amr-celp.phphttp://www.radio-electronics.com/info/cellulartelecomms/gsm_technical/audio-codecs-vocoders-amr-celp.php