Upload
andrei
View
1.958
Download
20
Embed Size (px)
DESCRIPTION
A guide to adaptive filtering methods and algorithms written in Romanian.
Citation preview
Colec ia "PRELUCRAREA SEMNALELOR" ________________________________________________________________
METODE ADAPTIVE DE PRELUCRARE A SEMNALELOR
Cartea face o expunere exaustiv a principiilor i metodelor utilizate în prelucrarea adaptiv a semnalelor, un subiect de larg aplicabilitate în multe domenii de vârf ale tehnicii actuale. Rod al unei experien e îndelungate, fapt eviden iat de vasta bibliografie utilizat , ea con ine numeroase aplica ii i probleme care completeaz în mod fericit materialul teoretic de înalt inut . Lucrarea se constituie într-un util instrument de lucru dedicat tuturor celor interesa i de prelucrarea digital a semnalelor, în special de telecomunica ii. Ea este adresat în primul rând studen ilor electroni ti masteranzi care studiaz disciplina Traitement adaptatif du signal, dar poate fi util doctoranzilor i cercet torilor care se specializeaz în domeniul prelucr rii adaptive a semnalelor. Referent tiin ific: Prof.dr.ing. Ioan NAFORNI
Descrierea CIP a Bibliotecii Na ionale a României CÂMPEANU, ANDREI
Metode adaptive de prelucrare a semnalelor/ prof.dr.ing. Andrei Câmpeanu, asist.ing. János Gál - Timi oara: Editura Politehnica, 2009
Bibliogr. ISBN 978-973-625-605-9
I. Gál János 621.391.8
Prof.dr.ing. Andrei CÂMPEANU Asist ing János GÁL
METODE ADAPTIVE DE PRELUCRARE A SEMNALELOR
Colec ia “PRELUCRAREA SEMNALELOR”
EDITURA POLITEHNICA TIMI OARA - 2009
Cartea face o expunere exaustiv a principiilor i metodelor utilizate în prelucrarea adaptiv a semnalelor, un subiect de larg aplicabilitate în multe domenii de vârf ale tehnicii actuale. Rod al unei experien e îndelungate, fapt eviden iat de vasta bibliografie utilizat , ea con ine numeroase aplica ii i probleme care completeaz în mod fericit materialul teoretic de înalt inut . Lucrarea se constituie într-un util instrument de lucru dedicat tuturor celor interesa i de prelucrarea digital a semnalelor, în special de telecomunica ii. Ea este adresat în primul rând studen ilor electroni ti masteranzi care studiaz disciplina Traitement adaptatif du signal, dar poate fi util doctoranzilor i cercet torilor care se specializeaz în domeniul prelucr rii adaptive a semnalelor. Referent tiin ific: Prof.dr.ing. Ioan NAFORNI
Descrierea CIP a Bibliotecii Na ionale a României CÂMPEANU, ANDREI
Metode adaptive de prelucrare a semnalelor/ prof.dr.ing. Andrei Câmpeanu, asist.ing. János Gál - Timi oara: Editura Politehnica, 2009
Bibliogr. ISBN 978-973-625-605-9
I. Gál János 621.391.8
Prof.dr.ing. Andrei CÂMPEANU Asist ing János GÁL
METODE ADAPTIVE DE PRELUCRARE A SEMNALELOR
Colec ia “PRELUCRAREA SEMNALELOR”
EDITURA POLITEHNICA TIMI OARA - 2009
Copyright © Editura Politehnica, 2009 Toate drepturile sunt rezervate editurii. Nici o parte din aceast lucrare nu poate fi reprodus , stocat sau transmis prin indiferent ce form , f r acordul prealabil scris al Editurii Politehnica. EDITURA POLITEHNICA Bd. Republicii nr. 9 300159 Timi oara, România Tel. 0256/403.823 Fax 0256/403.823 E-mail: [email protected] Consilier editorial: Prof.dr.ing. Sabin IONEL Redactor: Claudia MIHALI Bun de imprimat: 14.09.2009 Coli de tipar: 25,25 C.Z.U. 621.391.8 ISBN 978-973-625-605-9 Tiparul executat sub comanda nr. 103 la Tipografia Universit ii "Politehnica" din Timi oara
PREFAŢĂ
Metodele adaptive reprezintă în momentul de faţă una din temele majore de studiu ale disciplinei care se ocupă cu prelucrarea semnalelor. Începând cu anii 60, aceste metode au cunoscut un avânt remarcabil, datorat dezvoltării tehnicilor de calcul numeric şi creşterii constante a capacităţii calculatoarelor, permiţând implementarea în timp real a unor algoritmi din ce în ce mai sofisticaţi şi mai puternici. Domeniile care au beneficiat de impactul dezvoltării tehnicilor de prelucrare adaptivă a semnalelor includ în primul rând telecomunicaţiile, dar şi aplicaţii radar sau sonar, aplicaţii în multimedia, analiza datelor seismice şi teledetecţie, etc. În aceste aplicaţii, metodele adaptive realizează operaţii precum identificarea şi modelarea parametrilor unor sisteme, filtrarea şi predicţia unor semnale sau suprimarea interferenţelor şi zgomotelor din componenţa semnalelor recepţionate. Obiectivele pe care cartea îşi propune să le trateze sunt următoarele:
Să expună principiile de bază şi metodele generale de filtrare adaptivă sub forma unor idei simple şi clare.
Să dea un acces rapid şi direct la algoritmii adaptivi cei mai utilizaţi, facilitând înţelegerea şi stăpânirea lor în vederea alegerii celei mai convenabile soluţii pentru o aplicaţie dată.
Să ofere instrumentele matematice şi rezultatele necesare studiului convergenţei algoritmilor de filtrare adaptivă.
Scopul principal al acestei cărţi este să ajute atât studenţii cât şi inginerii din producţie să înţeleagă principiile matematice fundamentale care stau la baza metodelor de filtrare adaptivă, să aprecieze limitările lor inerente şi să furnizeze detalii suficiente pentru implementarea lor practică. Limbajul matematic utilizat este accesibil studen-ţilor din ciclul doi de studii şi inginerilor de profil electric ce au cunoştiinţe standard în domeniul algebrei lineare, al calculului probabilităţilor şi al prelucrării semnalelor.
În studiul filtrelor adaptive, simulările pe calculator constituie un complement important în raport cu analizele şi deducţiile teoretice. Pentru realizarea acestora, se utilizează, pe tot parcursul lucrării, programul MATLAB. Din carte fac parte integrantă de asemenea, exerciţii şi probleme pe care le propunem la sfârşitul fiecărui capitol.
Lucrarea se deschide în Capitolul 1 cu o privire generală asupra structurii şi principalelor categorii de aplicaţii ale filtrelor adaptive. Sunt trecute în revistă în acest capitol mai multe exemple de aplicaţii ca modelarea de sistem, egalizarea de canal, suprimarea ecourilor şi reţelele de antene.
Copyright © Editura Politehnica, 2009 Toate drepturile sunt rezervate editurii. Nici o parte din aceast lucrare nu poate fi reprodus , stocat sau transmis prin indiferent ce form , f r acordul prealabil scris al Editurii Politehnica. EDITURA POLITEHNICA Bd. Republicii nr. 9 300159 Timi oara, România Tel. 0256/403.823 Fax 0256/403.823 E-mail: [email protected] Consilier editorial: Prof.dr.ing. Sabin IONEL Redactor: Claudia MIHALI Bun de imprimat: 14.09.2009 Coli de tipar: 25,25 C.Z.U. 621.391.8 ISBN 978-973-625-605-9 Tiparul executat sub comanda nr. 103 la Tipografia Universit ii "Politehnica" din Timi oara
PREFAŢĂ
Metodele adaptive reprezintă în momentul de faţă una din temele majore de studiu ale disciplinei care se ocupă cu prelucrarea semnalelor. Începând cu anii 60, aceste metode au cunoscut un avânt remarcabil, datorat dezvoltării tehnicilor de calcul numeric şi creşterii constante a capacităţii calculatoarelor, permiţând implementarea în timp real a unor algoritmi din ce în ce mai sofisticaţi şi mai puternici. Domeniile care au beneficiat de impactul dezvoltării tehnicilor de prelucrare adaptivă a semnalelor includ în primul rând telecomunicaţiile, dar şi aplicaţii radar sau sonar, aplicaţii în multimedia, analiza datelor seismice şi teledetecţie, etc. În aceste aplicaţii, metodele adaptive realizează operaţii precum identificarea şi modelarea parametrilor unor sisteme, filtrarea şi predicţia unor semnale sau suprimarea interferenţelor şi zgomotelor din componenţa semnalelor recepţionate. Obiectivele pe care cartea îşi propune să le trateze sunt următoarele:
Să expună principiile de bază şi metodele generale de filtrare adaptivă sub forma unor idei simple şi clare.
Să dea un acces rapid şi direct la algoritmii adaptivi cei mai utilizaţi, facilitând înţelegerea şi stăpânirea lor în vederea alegerii celei mai convenabile soluţii pentru o aplicaţie dată.
Să ofere instrumentele matematice şi rezultatele necesare studiului convergenţei algoritmilor de filtrare adaptivă.
Scopul principal al acestei cărţi este să ajute atât studenţii cât şi inginerii din producţie să înţeleagă principiile matematice fundamentale care stau la baza metodelor de filtrare adaptivă, să aprecieze limitările lor inerente şi să furnizeze detalii suficiente pentru implementarea lor practică. Limbajul matematic utilizat este accesibil studen-ţilor din ciclul doi de studii şi inginerilor de profil electric ce au cunoştiinţe standard în domeniul algebrei lineare, al calculului probabilităţilor şi al prelucrării semnalelor.
În studiul filtrelor adaptive, simulările pe calculator constituie un complement important în raport cu analizele şi deducţiile teoretice. Pentru realizarea acestora, se utilizează, pe tot parcursul lucrării, programul MATLAB. Din carte fac parte integrantă de asemenea, exerciţii şi probleme pe care le propunem la sfârşitul fiecărui capitol.
Lucrarea se deschide în Capitolul 1 cu o privire generală asupra structurii şi principalelor categorii de aplicaţii ale filtrelor adaptive. Sunt trecute în revistă în acest capitol mai multe exemple de aplicaţii ca modelarea de sistem, egalizarea de canal, suprimarea ecourilor şi reţelele de antene.
VI PREFAŢĂ
Capitolele 2 şi 3 fac într-o primă instanţă rememorarea pentru cititor a unor elemente de bază din domeniile analizei semnalelor deterministe şi aleatoare şi ale algebrei lineare.
În Capitolul 4 este introdusă o clasă importantă de sisteme lineare optimale cunoscute sub numele de filtre Wiener-Hopf. Filtrele Wiener-Hopf sunt fundamentale pentru definirea şi implementarea filtrelor adaptive.
Capitolul 5 utilizează teoria filtrării Wiener-Hopf la rezolvarea problemei predicţiei lineare. În cazul filtrelor de predicţie, răspunsul optimal este determinat exclusiv pe baza seriei temporale de intrare, fapt care constituie baza algoritmului de calcul recursiv Levinson-Durbin.
Tehnicile de filtrare adaptivă pot fi considerate în primul rând modalităţi de a realiza filtrarea lineară optimală prin tehnici de calcul recursiv şi în absenţa unor informaţii detailate cu privire la statistica procesului aleator filtrat. Din acest punct de vedere, metodele de gradient prezentate în Capitolul 6 se constituie ca un suport teoretic necesar atât înţelegerii cât şi analizei familiei de algoritmi LMS, cei mai utilizaţi algoritmi adaptivi. Capitolul 7 este dedicat unui studiu exhaustiv al algoritmului LMS, metoda adaptivă cea mai utilizată în practică. Analiza performanţelor algoritmului este făcută atât din punct de vedere teoretic cât şi prin simulări numerice. Algoritmii derivaţi din algoritmul LMS reprezintă subiectul Capitolului 8 al lucrării. Variantele algoritmului LMS urmăresc să îmbunătăţească performanţele algoritmului standard atât din punctul de vedere al creşterii performanţelor cât şi al reducerii volumului de calcul.
Metoda celor mai mici pătrate (Least Squares) constituie subiectul Capitolului 9. Aceasta poate fi văzută ca o alternativă la teoria filtrării optimale. În principiu, filtrele Wiener-Hopf utilizează modele statistice ale semnalelor prelucrate, pe când abordarea pe care o realizează metoda celor mai mici pătrate este deterministă. Capitolul 10 este dedicat studiului algoritmului RLS (Recursive Least-Squares). Algoritmul reprezintă cea mai bună aplicaţie a metodei celor mai mici pătrate în domeniul prelucrării adaptive a semnalelor.
Capitolul 11 dedicat filtrului Kalman completează studiul filtrelor lineare optimale cu o abordare diferită de cea utilizată de Wiener. Caracteristica ce distinge filtrele Kalman de alte filtre optimale este că formularea lor matematică este realizată pe baza conceptului de spaţiu al stărilor.
Ultimul capitol al lucrării tratează o clasă importantă de algoritmi adaptivi, care sunt recurenţi atât după ordinul filtrului cât şi în timp: algoritmii RLS rapizi.
Ţinem să ne exprimăm recunoştiinţa tuturor colegilor din Departamentul de Comu-nicaţii al Universităţii „Politehnica” Timişoara care ne-au sprijinit şi încurajat pe toată perioada conceperii şi realizării acestei cărţi, îndeosebi Profesorului Ioan Naforniţă. Finanţarea cărţii a fost asigurată de grantul CNCSIS tip TD-24 nr. 189/01.10.2007.
Andrei Câmpeanu János Gál
Cuprins
Prefaţă ................................................................................................................................ V
1 Introducere ............................................................................................................. 1 1.1 Filtre lineare .................................................................................................................. 1 1.2 Structura filtrelor adaptive ........................................................................................... 2 1.3 Algoritmii adaptivi ........................................................................................................ 5 1.4 Aplicaţiile filtrelor adaptive .......................................................................................... 5
1.4.1 Modelarea .............................................................................................................. 6 1.4.2 Modelarea inversă .................................................................................................. 7 1.4.3 Predicţia lineară ..................................................................................................... 9 1.4.4 Anularea interferenţelor ...................................................................................... 14
1.5 Filtrarea spaţială ......................................................................................................... 18
2 Semnale şi sisteme în timp discret ........................................................................ 21 2.1 Transformarea Z ......................................................................................................... 21 2.2 Proprietăţile transformării Z ....................................................................................... 22 2.3 Sisteme lineare invariante în timp (SLIT)..................................................................... 23 2.4 Cauzalitate şi stabilitate ............................................................................................. 25 2.5 Sisteme de fază minimă .............................................................................................. 26 2.6 Transformarea Fourier în timp discret ........................................................................ 27 2.7 Transformarea Fourier discretă .................................................................................. 27 2.8 Implementarea convoluţiei cu ajutorul transformării DFT ......................................... 28
2.8.1 Metoda Overlap-Add (Suprapune şi însumează) .................................................. 29 2.8.2 Metoda Overlap-Save (Suprapune şi salvează) .................................................... 31
2.9 Transformarea cosinus discretă (Discrete Cosine Transform - DCT) ........................... 32 Probleme ................................................................................................................................. 34
3 Procese aleatoare în timp discret .......................................................................... 37 3.1 Caracterizarea statistică a proceselor aleatoare în timp discret ................................ 37
3.1.1 Descrierea prin funcţii de probabilitate ............................................................... 38 3.1.2 Descrierea prin medii statistice de ordinul unu sau doi ....................................... 39 3.1.3 Categorii de procese aleatoare ............................................................................ 40 3.1.4 Procese aleatoare staţionare ............................................................................... 41
3.2 Caracterizarea temporală a proceselor aleatoare în timp discret .............................. 43 3.2.1 Medii temporale ................................................................................................... 44 3.2.2 Procese aleatoare ergodice .................................................................................. 44
3.3 Descrierea în domeniul frecvenţă a proceselor staţionare ......................................... 45 3.3.1 Densitatea spectrală de putere – definiţie şi proprietăţi ..................................... 45 3.3.2 Zgomotul alb ........................................................................................................ 48
3.4 Trecerea semnalelor aleatoare prin sisteme lineare invariante în timp ..................... 48
VI PREFAŢĂ
Capitolele 2 şi 3 fac într-o primă instanţă rememorarea pentru cititor a unor elemente de bază din domeniile analizei semnalelor deterministe şi aleatoare şi ale algebrei lineare.
În Capitolul 4 este introdusă o clasă importantă de sisteme lineare optimale cunoscute sub numele de filtre Wiener-Hopf. Filtrele Wiener-Hopf sunt fundamentale pentru definirea şi implementarea filtrelor adaptive.
Capitolul 5 utilizează teoria filtrării Wiener-Hopf la rezolvarea problemei predicţiei lineare. În cazul filtrelor de predicţie, răspunsul optimal este determinat exclusiv pe baza seriei temporale de intrare, fapt care constituie baza algoritmului de calcul recursiv Levinson-Durbin.
Tehnicile de filtrare adaptivă pot fi considerate în primul rând modalităţi de a realiza filtrarea lineară optimală prin tehnici de calcul recursiv şi în absenţa unor informaţii detailate cu privire la statistica procesului aleator filtrat. Din acest punct de vedere, metodele de gradient prezentate în Capitolul 6 se constituie ca un suport teoretic necesar atât înţelegerii cât şi analizei familiei de algoritmi LMS, cei mai utilizaţi algoritmi adaptivi. Capitolul 7 este dedicat unui studiu exhaustiv al algoritmului LMS, metoda adaptivă cea mai utilizată în practică. Analiza performanţelor algoritmului este făcută atât din punct de vedere teoretic cât şi prin simulări numerice. Algoritmii derivaţi din algoritmul LMS reprezintă subiectul Capitolului 8 al lucrării. Variantele algoritmului LMS urmăresc să îmbunătăţească performanţele algoritmului standard atât din punctul de vedere al creşterii performanţelor cât şi al reducerii volumului de calcul.
Metoda celor mai mici pătrate (Least Squares) constituie subiectul Capitolului 9. Aceasta poate fi văzută ca o alternativă la teoria filtrării optimale. În principiu, filtrele Wiener-Hopf utilizează modele statistice ale semnalelor prelucrate, pe când abordarea pe care o realizează metoda celor mai mici pătrate este deterministă. Capitolul 10 este dedicat studiului algoritmului RLS (Recursive Least-Squares). Algoritmul reprezintă cea mai bună aplicaţie a metodei celor mai mici pătrate în domeniul prelucrării adaptive a semnalelor.
Capitolul 11 dedicat filtrului Kalman completează studiul filtrelor lineare optimale cu o abordare diferită de cea utilizată de Wiener. Caracteristica ce distinge filtrele Kalman de alte filtre optimale este că formularea lor matematică este realizată pe baza conceptului de spaţiu al stărilor.
Ultimul capitol al lucrării tratează o clasă importantă de algoritmi adaptivi, care sunt recurenţi atât după ordinul filtrului cât şi în timp: algoritmii RLS rapizi.
Ţinem să ne exprimăm recunoştiinţa tuturor colegilor din Departamentul de Comu-nicaţii al Universităţii „Politehnica” Timişoara care ne-au sprijinit şi încurajat pe toată perioada conceperii şi realizării acestei cărţi, îndeosebi Profesorului Ioan Naforniţă. Finanţarea cărţii a fost asigurată de grantul CNCSIS tip TD-24 nr. 189/01.10.2007.
Andrei Câmpeanu János Gál
Cuprins
Prefaţă ................................................................................................................................ V
1 Introducere ............................................................................................................. 1 1.1 Filtre lineare .................................................................................................................. 1 1.2 Structura filtrelor adaptive ........................................................................................... 2 1.3 Algoritmii adaptivi ........................................................................................................ 5 1.4 Aplicaţiile filtrelor adaptive .......................................................................................... 5
1.4.1 Modelarea .............................................................................................................. 6 1.4.2 Modelarea inversă .................................................................................................. 7 1.4.3 Predicţia lineară ..................................................................................................... 9 1.4.4 Anularea interferenţelor ...................................................................................... 14
1.5 Filtrarea spaţială ......................................................................................................... 18
2 Semnale şi sisteme în timp discret ........................................................................ 21 2.1 Transformarea Z ......................................................................................................... 21 2.2 Proprietăţile transformării Z ....................................................................................... 22 2.3 Sisteme lineare invariante în timp (SLIT)..................................................................... 23 2.4 Cauzalitate şi stabilitate ............................................................................................. 25 2.5 Sisteme de fază minimă .............................................................................................. 26 2.6 Transformarea Fourier în timp discret ........................................................................ 27 2.7 Transformarea Fourier discretă .................................................................................. 27 2.8 Implementarea convoluţiei cu ajutorul transformării DFT ......................................... 28
2.8.1 Metoda Overlap-Add (Suprapune şi însumează) .................................................. 29 2.8.2 Metoda Overlap-Save (Suprapune şi salvează) .................................................... 31
2.9 Transformarea cosinus discretă (Discrete Cosine Transform - DCT) ........................... 32 Probleme ................................................................................................................................. 34
3 Procese aleatoare în timp discret .......................................................................... 37 3.1 Caracterizarea statistică a proceselor aleatoare în timp discret ................................ 37
3.1.1 Descrierea prin funcţii de probabilitate ............................................................... 38 3.1.2 Descrierea prin medii statistice de ordinul unu sau doi ....................................... 39 3.1.3 Categorii de procese aleatoare ............................................................................ 40 3.1.4 Procese aleatoare staţionare ............................................................................... 41
3.2 Caracterizarea temporală a proceselor aleatoare în timp discret .............................. 43 3.2.1 Medii temporale ................................................................................................... 44 3.2.2 Procese aleatoare ergodice .................................................................................. 44
3.3 Descrierea în domeniul frecvenţă a proceselor staţionare ......................................... 45 3.3.1 Densitatea spectrală de putere – definiţie şi proprietăţi ..................................... 45 3.3.2 Zgomotul alb ........................................................................................................ 48
3.4 Trecerea semnalelor aleatoare prin sisteme lineare invariante în timp ..................... 48
VIII CUPRINS
3.4.1 Analiza în domeniul timp ...................................................................................... 48 3.4.2 Analiza în domeniul frecvenţă .............................................................................. 50
3.5 Matricea de corelaţie .................................................................................................. 50 3.5.1 Definirea matricii de corelaţie .............................................................................. 51 3.5.2 Proprietăţile matricii de corelaţie ........................................................................ 51 3.5.3 Matricea de corelaţie a unei sinusoide complexe înecate în zgomot aditiv ........ 53
3.6 Vectori şi valori proprii ale matricii de corelaţie ......................................................... 55 3.6.1 Problema valorilor proprii .................................................................................... 55 3.6.2 Proprietăţile valorilor şi vectorilor proprii ............................................................ 57
3.7 Filtre adaptate şi filtre proprii ..................................................................................... 65 3.7.1 Filtrul adaptat ....................................................................................................... 67 3.7.2 Filtrul propriu ....................................................................................................... 67
3.8 Transformări care utilizează descompunerea triunghiulară ....................................... 68 3.8.1 Descompunerea LDU ............................................................................................ 69 3.8.2 Descompunerea UDL ............................................................................................ 70
3.9 Modelarea lineară a semnalelor stochastice .............................................................. 70 3.9.1 Modelul stochastic cu medie alunecătoare (MA) ................................................ 71 3.9.2 Modelul stochastic autoregresiv (AR) .................................................................. 72 3.9.3 Modelul stochastic ARMA .................................................................................... 75
Probleme ................................................................................................................................. 76
4 Filtre lineare optimale ........................................................................................... 81 4.1 Filtrarea optimală lineară: punerea problemei........................................................... 81 4.2 Principiul ortogonalităţii ............................................................................................. 84
4.2.1 Formularea principiului ........................................................................................ 84 4.2.2 Corolarul principiului ortogonalităţii .................................................................... 86 4.2.3 Interpretarea geometrică a principiului ortogonalităţii ....................................... 86
4.3 Ecuaţiile Wiener-Hopf ................................................................................................. 87 4.3.1 Calculul coeficienţilor filtrului Wiener în cazul general ........................................ 87 4.3.2 Soluţia matricială a ecuaţiilor Wiener-Hopf pentru filtre FIR de lungime finită ... 88
4.4 Suprafaţa de eroare .................................................................................................... 91 4.4.1 Calculul funcţiei de cost ....................................................................................... 91 4.4.2 Forma canonică a suprafeţei de eroare ............................................................... 94
4.5 Rezolvarea ecuaţiilor normale prin descompunere triunghiulară .............................. 96 4.6 Reprezentarea prin transformare a filtrului optimal .................................................. 99 4.7 Caracterizarea în frecvenţă a filtrului optimal .......................................................... 102 4.8 Egalizarea de canal ................................................................................................... 103 4.9 Filtrul de varianţă minimă cu constrângeri lineare ................................................... 106 Probleme ............................................................................................................................... 111
5 Predicţia lineară .................................................................................................. 115 5.1 Predicţia lineară înainte (directă) ............................................................................. 115
5.1.1 Filtrul de predicţie înainte .................................................................................. 115 5.1.2 Filtrul erorii de predicţie înainte ........................................................................ 117 5.1.3 Relaţia dintre predicţia lineară şi modelarea autoregresivă .............................. 118 5.1.4 Ecuaţiile Wiener-Hopf extinse pentru predicţia înainte ..................................... 119
5.2 Predicţia lineară înapoi (inversă) .............................................................................. 121
CUPRINS IX
5.2.1 Filtrul de predicţie înapoi ................................................................................... 121 5.2.2 Relaţia dintre filtrele de predicţie înainte şi înapoi ............................................ 123 5.2.3 Filtrul erorii de predicţie înapoi .......................................................................... 124 5.2.4 Ecuaţiile Wiener-Hopf extinse pentru predicţia înapoi ...................................... 125
5.3 Predicţia lineară generalizată ................................................................................... 126 5.4 Algoritmul Levinson-Durbin ...................................................................................... 128
5.4.1 Formularea algoritmului ..................................................................................... 129 5.4.2 Interpretări ale parametrilor m şi 1m ........................................................... 132 5.4.3 Implementarea algoritmului .............................................................................. 133
5.5 Algoritmul Schür ....................................................................................................... 136 5.6 Proprietăţile filtrelor erorii de predicţie .................................................................... 140 5.7 Structuri lattice pentru filtrele de eroare de predicţie .............................................. 142
5.7.1 Ortogonalitatea erorilor de predicţie ................................................................. 142 5.7.2 Recursii după ordin pentru erorile de predicţie ................................................. 145
5.8 Recursia lui Burg ....................................................................................................... 148 Probleme ............................................................................................................................... 150
6 Metode de gradient ............................................................................................ 153 6.1 Metoda SD ................................................................................................................ 154
6.1.1 Introducere ......................................................................................................... 154 6.1.2 Descrierea metodei SD ....................................................................................... 155
6.2 Soluţia directă a ecuaţiei de recursie SD ................................................................... 158 6.2.1 Calculul soluţiei .................................................................................................. 158 6.2.2 Soluţia metodei SD ............................................................................................. 160
6.3 Convergenţa metodei SD .......................................................................................... 161 6.3.1 Stabilirea condiţiilor de convergenţă ................................................................. 161 6.3.2 Dinamica procesului de convergenţă ................................................................. 162 6.3.3 Comportarea tranzitorie a erorii pătratice medii ............................................... 163 6.3.4 Viteza de convergenţă ........................................................................................ 164
6.4 Metoda Newton ........................................................................................................ 169 6.4.1 Formularea algoritmului ..................................................................................... 169 6.4.2 O interpretare alternativă a metodei Newton ................................................... 172
Probleme ............................................................................................................................... 173
7 Algoritmul gradientului stochastic (LMS) ............................................................ 177 7.1 Deducerea algoritmului LMS .................................................................................... 177 7.2 Analiza performanţelor algoritmului LMS ................................................................ 180
7.2.1 Convergenţa în medie a vectorului coeficienţilor .............................................. 180 7.2.2 Ipoteze în studiul comportării erorii pătratice medii a algoritmului LMS .......... 184 7.2.3 Curba de învăţare a algoritmului LMS ................................................................ 185 7.2.4 Evoluţia matricii de corelaţie a erorii coeficienţilor ........................................... 187 7.2.5 Eroarea pătratică medie în exces şi dezadaptarea ............................................. 190 7.2.6 Stabilitatea algoritmului LMS ............................................................................. 192 7.2.7 Reguli practice de implementare a algoritmului LMS ........................................ 193
7.3 Simulări pe calculator ............................................................................................... 194 7.3.1 Predicţia lineară ................................................................................................. 195
VIII CUPRINS
3.4.1 Analiza în domeniul timp ...................................................................................... 48 3.4.2 Analiza în domeniul frecvenţă .............................................................................. 50
3.5 Matricea de corelaţie .................................................................................................. 50 3.5.1 Definirea matricii de corelaţie .............................................................................. 51 3.5.2 Proprietăţile matricii de corelaţie ........................................................................ 51 3.5.3 Matricea de corelaţie a unei sinusoide complexe înecate în zgomot aditiv ........ 53
3.6 Vectori şi valori proprii ale matricii de corelaţie ......................................................... 55 3.6.1 Problema valorilor proprii .................................................................................... 55 3.6.2 Proprietăţile valorilor şi vectorilor proprii ............................................................ 57
3.7 Filtre adaptate şi filtre proprii ..................................................................................... 65 3.7.1 Filtrul adaptat ....................................................................................................... 67 3.7.2 Filtrul propriu ....................................................................................................... 67
3.8 Transformări care utilizează descompunerea triunghiulară ....................................... 68 3.8.1 Descompunerea LDU ............................................................................................ 69 3.8.2 Descompunerea UDL ............................................................................................ 70
3.9 Modelarea lineară a semnalelor stochastice .............................................................. 70 3.9.1 Modelul stochastic cu medie alunecătoare (MA) ................................................ 71 3.9.2 Modelul stochastic autoregresiv (AR) .................................................................. 72 3.9.3 Modelul stochastic ARMA .................................................................................... 75
Probleme ................................................................................................................................. 76
4 Filtre lineare optimale ........................................................................................... 81 4.1 Filtrarea optimală lineară: punerea problemei........................................................... 81 4.2 Principiul ortogonalităţii ............................................................................................. 84
4.2.1 Formularea principiului ........................................................................................ 84 4.2.2 Corolarul principiului ortogonalităţii .................................................................... 86 4.2.3 Interpretarea geometrică a principiului ortogonalităţii ....................................... 86
4.3 Ecuaţiile Wiener-Hopf ................................................................................................. 87 4.3.1 Calculul coeficienţilor filtrului Wiener în cazul general ........................................ 87 4.3.2 Soluţia matricială a ecuaţiilor Wiener-Hopf pentru filtre FIR de lungime finită ... 88
4.4 Suprafaţa de eroare .................................................................................................... 91 4.4.1 Calculul funcţiei de cost ....................................................................................... 91 4.4.2 Forma canonică a suprafeţei de eroare ............................................................... 94
4.5 Rezolvarea ecuaţiilor normale prin descompunere triunghiulară .............................. 96 4.6 Reprezentarea prin transformare a filtrului optimal .................................................. 99 4.7 Caracterizarea în frecvenţă a filtrului optimal .......................................................... 102 4.8 Egalizarea de canal ................................................................................................... 103 4.9 Filtrul de varianţă minimă cu constrângeri lineare ................................................... 106 Probleme ............................................................................................................................... 111
5 Predicţia lineară .................................................................................................. 115 5.1 Predicţia lineară înainte (directă) ............................................................................. 115
5.1.1 Filtrul de predicţie înainte .................................................................................. 115 5.1.2 Filtrul erorii de predicţie înainte ........................................................................ 117 5.1.3 Relaţia dintre predicţia lineară şi modelarea autoregresivă .............................. 118 5.1.4 Ecuaţiile Wiener-Hopf extinse pentru predicţia înainte ..................................... 119
5.2 Predicţia lineară înapoi (inversă) .............................................................................. 121
CUPRINS IX
5.2.1 Filtrul de predicţie înapoi ................................................................................... 121 5.2.2 Relaţia dintre filtrele de predicţie înainte şi înapoi ............................................ 123 5.2.3 Filtrul erorii de predicţie înapoi .......................................................................... 124 5.2.4 Ecuaţiile Wiener-Hopf extinse pentru predicţia înapoi ...................................... 125
5.3 Predicţia lineară generalizată ................................................................................... 126 5.4 Algoritmul Levinson-Durbin ...................................................................................... 128
5.4.1 Formularea algoritmului ..................................................................................... 129 5.4.2 Interpretări ale parametrilor m şi 1m ........................................................... 132 5.4.3 Implementarea algoritmului .............................................................................. 133
5.5 Algoritmul Schür ....................................................................................................... 136 5.6 Proprietăţile filtrelor erorii de predicţie .................................................................... 140 5.7 Structuri lattice pentru filtrele de eroare de predicţie .............................................. 142
5.7.1 Ortogonalitatea erorilor de predicţie ................................................................. 142 5.7.2 Recursii după ordin pentru erorile de predicţie ................................................. 145
5.8 Recursia lui Burg ....................................................................................................... 148 Probleme ............................................................................................................................... 150
6 Metode de gradient ............................................................................................ 153 6.1 Metoda SD ................................................................................................................ 154
6.1.1 Introducere ......................................................................................................... 154 6.1.2 Descrierea metodei SD ....................................................................................... 155
6.2 Soluţia directă a ecuaţiei de recursie SD ................................................................... 158 6.2.1 Calculul soluţiei .................................................................................................. 158 6.2.2 Soluţia metodei SD ............................................................................................. 160
6.3 Convergenţa metodei SD .......................................................................................... 161 6.3.1 Stabilirea condiţiilor de convergenţă ................................................................. 161 6.3.2 Dinamica procesului de convergenţă ................................................................. 162 6.3.3 Comportarea tranzitorie a erorii pătratice medii ............................................... 163 6.3.4 Viteza de convergenţă ........................................................................................ 164
6.4 Metoda Newton ........................................................................................................ 169 6.4.1 Formularea algoritmului ..................................................................................... 169 6.4.2 O interpretare alternativă a metodei Newton ................................................... 172
Probleme ............................................................................................................................... 173
7 Algoritmul gradientului stochastic (LMS) ............................................................ 177 7.1 Deducerea algoritmului LMS .................................................................................... 177 7.2 Analiza performanţelor algoritmului LMS ................................................................ 180
7.2.1 Convergenţa în medie a vectorului coeficienţilor .............................................. 180 7.2.2 Ipoteze în studiul comportării erorii pătratice medii a algoritmului LMS .......... 184 7.2.3 Curba de învăţare a algoritmului LMS ................................................................ 185 7.2.4 Evoluţia matricii de corelaţie a erorii coeficienţilor ........................................... 187 7.2.5 Eroarea pătratică medie în exces şi dezadaptarea ............................................. 190 7.2.6 Stabilitatea algoritmului LMS ............................................................................. 192 7.2.7 Reguli practice de implementare a algoritmului LMS ........................................ 193
7.3 Simulări pe calculator ............................................................................................... 194 7.3.1 Predicţia lineară ................................................................................................. 195
X CUPRINS
7.3.2 Modelarea de sistem .......................................................................................... 198 7.3.3 Egalizarea adaptivă ............................................................................................. 200
7.4 Algoritmi LMS pentru aplicaţii de control activ ........................................................ 204 7.4.1 Algoritmul LMS cu filtrarea referinţei ................................................................ 205 7.4.2 Algoritmul LMS cu filtrarea erorii ....................................................................... 207
7.5 Algoritmul LMS cu constrângeri liniare ..................................................................... 211 7.6 Efectele cuantizării asupra implementării digitale a algoritmului LMS .................... 216 Probleme ............................................................................................................................... 218
8 Algoritmi derivaţi din algoritmul LMS ................................................................. 223 8.1 Algoritmi LMS cu semn ............................................................................................. 224
8.1.1 Algoritmul LMS cu semnul erorii ........................................................................ 224 8.1.2 Algoritmul LMS cu semnul datelor ..................................................................... 226 8.1.3 Algoritmul LMS semn-semn ............................................................................... 226
8.2 Algoritmul LMS normalizat ....................................................................................... 227 8.2.1 Deducerea algoritmului ...................................................................................... 227 8.2.2 Stabilitatea algoritmului NLMS ........................................................................... 230
8.3 Algoritmul LMS-Newton ........................................................................................... 232 8.4 Algoritmi LMS cu transformare de domeniu ............................................................. 235
8.4.1 Principiul filtrării adaptive TDAF ......................................................................... 235 8.4.2 Transformări ortogonale .................................................................................... 237 8.4.3 Formularea algoritmului ..................................................................................... 241 8.4.4 Transformarea Karhunen-Loève şi algoritmul LMS-Newton .............................. 243
8.5 Algoritmul de proiecţie afină .................................................................................... 244 8.5.1 Formularea algoritmului APA ............................................................................. 245 8.5.2 Abordare alternativă a algoritmului APA ........................................................... 248 8.5.3 Interpretarea proiecţiei afine ............................................................................. 249
8.6 Algoritmi LMS pentru structuri lattice ...................................................................... 251 8.6.1 Algoritmul LMS-GAL pentru filtre ale erorii de predicţie lattice ........................ 251 8.6.2 Algoritmul LMS-GAL de filtrare adaptivă ............................................................ 254
Probleme ............................................................................................................................... 258
9 Metoda celor mai mici pătrate ............................................................................ 261 9.1 Formularea problemei celor mai mici pătrate .......................................................... 261
9.1.1 Ecuaţia matricială a erorii ................................................................................... 261 9.1.2 Deducerea algebrică a ecuaţiilor normale în metoda LS .................................... 265 9.1.3 Interpretarea geometrică a estimării prin metoda celor mai mici pătrate ........ 266 9.1.4 Proprietăţi ale soluţiei problemei celor mai mici pătrate .................................. 268 9.1.5 Ecuaţiile LS normale ponderate ......................................................................... 269 9.1.6 Proprietăţile statistice ale estimatorilor LS ........................................................ 270
9.2 Filtre FIR realizate prin metoda celor mai mici pătrate ............................................ 272 9.3 Tehnici de ortogonalizare utilizate în calculul estimării LS ....................................... 275
9.3.1 Factorizarea QR .................................................................................................. 275 9.3.2 Transformarea (reflexia) Householder ............................................................... 278 9.3.3 Transformarea (rotaţia) Givens .......................................................................... 280 9.3.4 Ortogonalizarea Gram-Schmidt .......................................................................... 283
9.4 Rezolvarea problemei LS prin descompunerea în valori singulare ............................ 285
CUPRINS XI
9.4.1 Teorema descompunerii în valori singulare ....................................................... 285 9.4.2 Proprietăţi şi interpretări ale descompunerii în valori singulare ....................... 286 9.4.3 Soluţia de normă minimă a problemei LS .......................................................... 288
Probleme ............................................................................................................................... 291
10 Soluţii recursive ale problemei LS ........................................................................ 295 10.1 Filtre LS adaptive ...................................................................................................... 295
10.1.1 Ecuaţiile de recursie ale matricii de corelaţie şi vectorului de intercorelaţie .... 296 10.1.2 Algoritmul adaptiv LS apriori .............................................................................. 297 10.1.3 Algoritmul adaptiv LS aposteriori ....................................................................... 298
10.2 Algoritmul RLS standard ........................................................................................... 301 10.2.1 Deducerea algoritmului ...................................................................................... 301 10.2.2 Ecuaţia de recursie a minimului funcţiei de cost ................................................ 302 10.2.3 Particularităţi ale algoritmului RLS standard ...................................................... 304
10.3 Analiza convergenţei şi performanţelor algoritmului RLS ........................................ 305 10.3.1 Analiza algoritmului cu memorie infinită ........................................................... 305 10.3.2 Analiza algoritmului cu memorie finită .............................................................. 306 10.3.3 Simularea pe calculator ...................................................................................... 308
10.4 Algoritmi RLS cu factorizare QR ................................................................................ 310 10.4.1 Calcule LS prin descompunere Cholesky sau QR ................................................ 310 10.4.2 Leme de factorizare matricială ........................................................................... 314 10.4.3 Algoritmul QR-RLS .............................................................................................. 315 10.4.4 Algoritmul QR-RLS extins .................................................................................... 317 10.4.5 Algoritmul QR-RLS invers.................................................................................... 318 10.4.6 Implementarea algoritmului QR-RLS prin utilizarea rotaţiilor Givens ................ 319 10.4.7 Implementarea algoritmului QR-RLS invers prin utilizarea rotaţiilor Givens ..... 323
10.5 Clasificarea algoritmilor RLS ..................................................................................... 327 Probleme ............................................................................................................................... 329
11 Filtrul Kalman ...................................................................................................... 331 11.1 Ecuaţii de stare pentru sisteme lineare în timp discret ............................................. 331
11.2 Procesul de inovaţii ............................................................................................ 333 11.2.1 Definirea procesului de inovaţii ......................................................................... 333 11.2.2 Matricea de corelaţie a procesului de inovaţii ................................................... 334
11.3 Estimarea predicţiei de stare în filtrarea Kalman ..................................................... 336 11.3.1 Calculul recursiv al estimării de stare ................................................................. 336 11.3.2 Matricea de câştig Kalman ................................................................................. 337 11.3.3 Ecuaţia Ricatti ..................................................................................................... 339
11.4 Estimarea de stare prin filtrare ................................................................................. 341 11.4.1 Eroarea de estimare filtrată şi factorul de conversie ......................................... 342 11.4.2 Matricea de corelaţie a erorii de filtrare a stării ................................................ 342
11.5 Algoritmul de filtrare Kalman ................................................................................... 344 11.5.1 Condiţii iniţiale ................................................................................................... 344 11.5.2 Formularea algoritmului Kalman standard ........................................................ 345
11.6 Variante de filtre Kalman .......................................................................................... 348 11.6.1 Modelul sistemului dinamic neforţat ................................................................. 349 11.6.2 Algoritmul de filtrare de covarianţă (Kalman) .................................................... 350
X CUPRINS
7.3.2 Modelarea de sistem .......................................................................................... 198 7.3.3 Egalizarea adaptivă ............................................................................................. 200
7.4 Algoritmi LMS pentru aplicaţii de control activ ........................................................ 204 7.4.1 Algoritmul LMS cu filtrarea referinţei ................................................................ 205 7.4.2 Algoritmul LMS cu filtrarea erorii ....................................................................... 207
7.5 Algoritmul LMS cu constrângeri liniare ..................................................................... 211 7.6 Efectele cuantizării asupra implementării digitale a algoritmului LMS .................... 216 Probleme ............................................................................................................................... 218
8 Algoritmi derivaţi din algoritmul LMS ................................................................. 223 8.1 Algoritmi LMS cu semn ............................................................................................. 224
8.1.1 Algoritmul LMS cu semnul erorii ........................................................................ 224 8.1.2 Algoritmul LMS cu semnul datelor ..................................................................... 226 8.1.3 Algoritmul LMS semn-semn ............................................................................... 226
8.2 Algoritmul LMS normalizat ....................................................................................... 227 8.2.1 Deducerea algoritmului ...................................................................................... 227 8.2.2 Stabilitatea algoritmului NLMS ........................................................................... 230
8.3 Algoritmul LMS-Newton ........................................................................................... 232 8.4 Algoritmi LMS cu transformare de domeniu ............................................................. 235
8.4.1 Principiul filtrării adaptive TDAF ......................................................................... 235 8.4.2 Transformări ortogonale .................................................................................... 237 8.4.3 Formularea algoritmului ..................................................................................... 241 8.4.4 Transformarea Karhunen-Loève şi algoritmul LMS-Newton .............................. 243
8.5 Algoritmul de proiecţie afină .................................................................................... 244 8.5.1 Formularea algoritmului APA ............................................................................. 245 8.5.2 Abordare alternativă a algoritmului APA ........................................................... 248 8.5.3 Interpretarea proiecţiei afine ............................................................................. 249
8.6 Algoritmi LMS pentru structuri lattice ...................................................................... 251 8.6.1 Algoritmul LMS-GAL pentru filtre ale erorii de predicţie lattice ........................ 251 8.6.2 Algoritmul LMS-GAL de filtrare adaptivă ............................................................ 254
Probleme ............................................................................................................................... 258
9 Metoda celor mai mici pătrate ............................................................................ 261 9.1 Formularea problemei celor mai mici pătrate .......................................................... 261
9.1.1 Ecuaţia matricială a erorii ................................................................................... 261 9.1.2 Deducerea algebrică a ecuaţiilor normale în metoda LS .................................... 265 9.1.3 Interpretarea geometrică a estimării prin metoda celor mai mici pătrate ........ 266 9.1.4 Proprietăţi ale soluţiei problemei celor mai mici pătrate .................................. 268 9.1.5 Ecuaţiile LS normale ponderate ......................................................................... 269 9.1.6 Proprietăţile statistice ale estimatorilor LS ........................................................ 270
9.2 Filtre FIR realizate prin metoda celor mai mici pătrate ............................................ 272 9.3 Tehnici de ortogonalizare utilizate în calculul estimării LS ....................................... 275
9.3.1 Factorizarea QR .................................................................................................. 275 9.3.2 Transformarea (reflexia) Householder ............................................................... 278 9.3.3 Transformarea (rotaţia) Givens .......................................................................... 280 9.3.4 Ortogonalizarea Gram-Schmidt .......................................................................... 283
9.4 Rezolvarea problemei LS prin descompunerea în valori singulare ............................ 285
CUPRINS XI
9.4.1 Teorema descompunerii în valori singulare ....................................................... 285 9.4.2 Proprietăţi şi interpretări ale descompunerii în valori singulare ....................... 286 9.4.3 Soluţia de normă minimă a problemei LS .......................................................... 288
Probleme ............................................................................................................................... 291
10 Soluţii recursive ale problemei LS ........................................................................ 295 10.1 Filtre LS adaptive ...................................................................................................... 295
10.1.1 Ecuaţiile de recursie ale matricii de corelaţie şi vectorului de intercorelaţie .... 296 10.1.2 Algoritmul adaptiv LS apriori .............................................................................. 297 10.1.3 Algoritmul adaptiv LS aposteriori ....................................................................... 298
10.2 Algoritmul RLS standard ........................................................................................... 301 10.2.1 Deducerea algoritmului ...................................................................................... 301 10.2.2 Ecuaţia de recursie a minimului funcţiei de cost ................................................ 302 10.2.3 Particularităţi ale algoritmului RLS standard ...................................................... 304
10.3 Analiza convergenţei şi performanţelor algoritmului RLS ........................................ 305 10.3.1 Analiza algoritmului cu memorie infinită ........................................................... 305 10.3.2 Analiza algoritmului cu memorie finită .............................................................. 306 10.3.3 Simularea pe calculator ...................................................................................... 308
10.4 Algoritmi RLS cu factorizare QR ................................................................................ 310 10.4.1 Calcule LS prin descompunere Cholesky sau QR ................................................ 310 10.4.2 Leme de factorizare matricială ........................................................................... 314 10.4.3 Algoritmul QR-RLS .............................................................................................. 315 10.4.4 Algoritmul QR-RLS extins .................................................................................... 317 10.4.5 Algoritmul QR-RLS invers.................................................................................... 318 10.4.6 Implementarea algoritmului QR-RLS prin utilizarea rotaţiilor Givens ................ 319 10.4.7 Implementarea algoritmului QR-RLS invers prin utilizarea rotaţiilor Givens ..... 323
10.5 Clasificarea algoritmilor RLS ..................................................................................... 327 Probleme ............................................................................................................................... 329
11 Filtrul Kalman ...................................................................................................... 331 11.1 Ecuaţii de stare pentru sisteme lineare în timp discret ............................................. 331
11.2 Procesul de inovaţii ............................................................................................ 333 11.2.1 Definirea procesului de inovaţii ......................................................................... 333 11.2.2 Matricea de corelaţie a procesului de inovaţii ................................................... 334
11.3 Estimarea predicţiei de stare în filtrarea Kalman ..................................................... 336 11.3.1 Calculul recursiv al estimării de stare ................................................................. 336 11.3.2 Matricea de câştig Kalman ................................................................................. 337 11.3.3 Ecuaţia Ricatti ..................................................................................................... 339
11.4 Estimarea de stare prin filtrare ................................................................................. 341 11.4.1 Eroarea de estimare filtrată şi factorul de conversie ......................................... 342 11.4.2 Matricea de corelaţie a erorii de filtrare a stării ................................................ 342
11.5 Algoritmul de filtrare Kalman ................................................................................... 344 11.5.1 Condiţii iniţiale ................................................................................................... 344 11.5.2 Formularea algoritmului Kalman standard ........................................................ 345
11.6 Variante de filtre Kalman .......................................................................................... 348 11.6.1 Modelul sistemului dinamic neforţat ................................................................. 349 11.6.2 Algoritmul de filtrare de covarianţă (Kalman) .................................................... 350
XII CUPRINS
11.6.3 Algoritmul de filtrare informaţională ................................................................. 350 11.6.4 Algoritmi de filtrare Kalman cu descompunere matricială ................................ 352
11.7 Filtrul Kalman extins (EKF) ........................................................................................ 354 11.8 Filtrul Kalman şi algoritmul RLS ................................................................................ 358
11.8.1 O comparare a metodelor aleatoare şi deterministe ......................................... 360 11.8.2 Comparaţie între filtrul Kalman de covarianţă şi algoritmul RLS ....................... 361
Probleme ............................................................................................................................... 363
12 Algoritmi RLS rapizi ............................................................................................. 365 12.1 Predicţie liniară în context LS .................................................................................... 365
12.1.1 Recursia după ordinul filtrului ............................................................................ 365 12.1.2 Ecuaţiile erorii de predicţie LS ............................................................................ 367 12.1.3 Ecuaţiile de recursie ale predicţiei RLS ............................................................... 369
12.2 Filtre FIR rapide fără recursie de ordin...................................................................... 370 12.2.1 Inversarea matricilor hermitice partiţionate ...................................................... 371 12.2.2 Algoritmul Kalman rapid..................................................................................... 373 12.2.3 Algoritmul FAEST ................................................................................................ 376 12.2.4 Algoritmul FTF .................................................................................................... 377 12.2.5 Iniţializarea şi stabilitatea algoritmilor rapizi fără recursie de ordin .................. 379
12.3 Algoritmi LS rapizi pentru structuri lattice ................................................................ 379 12.3.1 Recursii după ordin în predictoare LS................................................................. 379 12.3.2 Algoritmi rapizi de predicţie lattice .................................................................... 382
12.4 Algoritmi LS rapizi pentru structuri lattice-scară ...................................................... 384 12.4.1 Filtre FIR cu recursie după ordin ........................................................................ 384 12.4.2 Structura de filtrare lattice-scară ....................................................................... 386 12.4.3 Algoritmi RLS lattice-scară .................................................................................. 387 12.4.4 Algoritmi RLS lattice-scară cu reacţie pe eroare ................................................ 389 12.4.5 Algoritmi RLS lattice-scară cu rotaţii Givens ....................................................... 390
Probleme ............................................................................................................................... 397
Bibliografie ......................................................................................................................... 399
Index ............................................................................................................ 403
1 Introducere istemele care prelucrează semnalele prin metode adaptive poartă numele generic de „filtre adaptive”. Este normal să începem discuţia noastră despre filtrele adaptive, printr-o încercare de a explica sensul celor două cuvinte. „Adaptiv” este acel sistem care încearcă să-şi ajusteze el însuşi parametrii, astfel încât să
răspundă unor fenomene care se produc în vecinătate. În ceea ce priveşte cel de-al doilea termen, sistemele care realizează şi suferă efectul procesului de „adaptare”, sunt denumite prin termenul foarte familiar oricărui inginer de „filtre”. În funcţie de timpul necesar atingerii ţintei finale a procesului de adaptare, denumit timp de convergenţă şi de complexitatea resurselor utilizate pentru realizarea adaptării, putem avea o varietate de algoritmi şi structuri de filtre. Din acest punct de vedere, tema acestei cărţi este studiul unor algoritmi adaptivi şi implementarea acestora în structuri de filtrare adecva-te din punctul de vedere a convergenţei şi performanţelor.
1.1 Filtre lineare În contextul studiului semnalelor şi sistemelor, filtrele sunt utilizate pentru a selecta din semnalul de intrare, componentele de frecvenţă care aparţin unei anumite benzi de frecvenţă, rejectând în acelaşi timp restul componentelor care nu aparţin acestei benzi. Într-o generalizare, utilizăm termenul filtru pentru a ne referi la un sistem care modelează componentele spectrale ale semnalului de intrare pentru a genera un semnal de ieşire cu caracteristici convenabile.
Filtrele (sau, în general, sistemele) pot fi atât lineare cât şi nelineare. În această lucrare ne vom ocupa numai cu filtrele lineare, accentul fiind pus în totalitate pe semnale şi sisteme în timp discret. Prin urmare, toate semnalele vor fi reprezentate prin secvenţe, ca de exemplu u n . Sistemele lineare se caracterizează prin respectarea de către acestea a principiului superpoziţiei. Aceasta înseamnă că dacă răspunsurile unui sistem linear în timp discret la secvenţele de intrare 1u n şi 2u n sunt 1y n respectiv 2y n , atunci răspunsul aceluiaşi sistem la secvenţa de intrare
Capitolul
1 S
1 Introducere
istemele care prelucrează semnalele prin metode adaptive poartă numele generic
de „filtre adaptive”. Este normal să începem discuţia noastră despre filtrele
adaptive, printr-o încercare de a explica sensul celor două cuvinte. „Adaptiv”
este acel sistem care încearcă să-şi ajusteze el însuşi parametrii, astfel încât să
răspundă unor fenomene care se produc în vecinătate. În ceea ce priveşte cel de-al
doilea termen, sistemele care realizează şi suferă efectul procesului de „adaptare”, sunt
denumite prin termenul foarte familiar oricărui inginer de „filtre”. În funcţie de timpul
necesar atingerii ţintei finale a procesului de adaptare, denumit timp de convergenţă şi
de complexitatea resurselor utilizate pentru realizarea adaptării, putem avea o varietate
de algoritmi şi structuri de filtre. Din acest punct de vedere, tema acestei cărţi este
studiul unor algoritmi adaptivi şi implementarea acestora în structuri de filtrare adecva-
te din punctul de vedere a convergenţei şi performanţelor.
1.1 Filtre lineare
În contextul studiului semnalelor şi sistemelor, filtrele sunt utilizate pentru a selecta din
semnalul de intrare, componentele de frecvenţă care aparţin unei anumite benzi de
frecvenţă, rejectând în acelaşi timp restul componentelor care nu aparţin acestei benzi.
Într-o generalizare, utilizăm termenul filtru pentru a ne referi la un sistem care
modelează componentele spectrale ale semnalului de intrare pentru a genera un semnal
de ieşire cu caracteristici convenabile.
Filtrele (sau, în general, sistemele) pot fi atât lineare cât şi nelineare. În această
lucrare ne vom ocupa numai cu filtrele lineare, accentul fiind pus în totalitate pe
semnale şi sisteme în timp discret. Prin urmare, toate semnalele vor fi reprezentate prin
secvenţe, ca de exemplu u n . Sistemele lineare se caracterizează prin respectarea de
către acestea a principiului superpoziţiei. Aceasta înseamnă că dacă răspunsurile unui
sistem linear în timp discret la secvenţele de intrare 1u n şi 2u n sunt 1y n
respectiv 2y n , atunci răspunsul aceluiaşi sistem la secvenţa de intrare
Capitolul
1
S
2 INTRODUCERE - 1
1 2u n au n bu n , unde a şi b sunt două constante arbitrare, va fi
1 2y n ay n by n . Această proprietate determină o serie de rezultate interesante
în teoria sistemelor lineare. În particular, un sistem linear este caracterizat complet de
răspunsul lui la impuls unitar sau de transformata Fourier a acestui răspuns, care este
denumită funcţie de transfer.
Figura 1.1 prezintă o structură generală de filtrare care evidenţiază scopul pentru
care sunt utilizate filtrele în această carte. În particular, filtrul din figură acţionează
asupra anumitor semnale de intrare în asemenea mod încât ieşirea să reprezinte o bună
estimare a semnalului dorit. Procesul prin care parametrii filtrului sunt modificaţi astfel
încât să se obţină o cât mai bună armonizare a semnalului de ieşire cu semnalul dorit,
se face prin optimizarea unei aşa-numite funcţii de performanţă. În cazul în care se
recurge la o abordare statistică, cea mai utilizată funcţie de performanţă este valoarea
medie pătratică a semnalului de eroare reprezentat de diferenţa dintre semnalul dorit şi
ieşirea filtrului. Dacă semnalul de ieşire şi semnalul dorit sunt staţionare, minimizarea
erorii medii pătratice conduce la bine-cunoscutul filtru Wiener-Hopf, care, din acest
motiv, se spune că este optimal în sensul erorii medii pătratice. În abordarea
deterministă, funcţia de performanţă este suma ponderată a pătratelor semnalului de
eroare. Minimizarea acestei funcţii conduce la un filtru care este optim pentru setul de
date de intrare considerat. Totuşi, în anumite condiţii şi ipoteze statistice, soluţia
deterministă se apropie de soluţia statistică, adică se ajunge la filtrul Wiener pentru
lungimi de date importante.
1.2 Structura filtrelor adaptive
În mod obişnuit, filtrele adaptive sunt implementate prin structura transversală de filtru
FIR (filtru cu răspuns finit la impuls ~ Finite Impulse Response) reprezentată în Figura
1.2. În acest caz, filtrul adaptiv are o singură intrare u n şi o ieşire y n . Secvenţa
d n este semnalul dorit. Semnalul de ieşire y n este dat de combinaţia lineară a
eşantioanelor întârziate ale secvenţei de intrare u n , aşa cum rezultă din ecuaţia
1
*
0
M
i
i
y n w n u n i
(1.1)
Figura 1.1 În cazul filtrării adaptive, rolul filtrului este de a modifica semnalul de
intrare în sensul realizării identităţii semnalului de ieşire cu semnalul dorit.
1.2 Structura filtrelor adaptive 3
unde *
iw n sunt ponderile filtrului (coeficienţii) iar M este lungimea filtrului. Refe-
rindu-ne la eşantioanele semnalului de intrare u n i , pentru 0,1, 1i M , acestea
poartă numele de intrările filtrului. Ponderile filtrului *
iw n pot varia în timp, fiind
controlate prin algoritmul adaptiv.
În unele aplicaţii, de exemplu în cazul antenelor adaptive care utilizează
formatoare de fascicule (beamforming), intrările celulelor filtrului nu sunt ca în cazul
anterior, eşantioane întârziate ale unui singur semnal de intrare. În aceste situaţii,
structura filtrului adaptiv ia forma din Figura 1.3. Vom numi această structură
combinator linear, întrucât ieşirea sa este o combinaţie lineară de semnale diferite
recepţionate pe intrările celulelor sale:
1
*
0
M
i i
i
y n w n u n
(1.2)
Putem remarca faptul că structura de combinator linear este mai generală decât cea
de filtru transversal. Filtrul transversal poate fi considerat ca un caz particular al
combinatorului întrucât se alege iu n u n i .
Structurile din Figura 1.2 şi Figura 1.3 sunt filtre nerecursive, adică calculul ieşirii
Figura 1.2 Filtru FIR (transversal) adaptiv.
Figura 1.3 Combinator linear adaptiv.
4 INTRODUCERE - 1
filtrului nu presupune nicio reacţie. Spre deosebire de filtrele nerecursive ce au
răspunsul la impulsul aplicat la intrare finit (FIR), un filtru cu răspuns infinit la impuls
(IIR ~ Infinite Impulse Response), vezi Figura 1.4, este caracterizat de ecuaţiile
recursive:
1 1
0 1
M N
i i
i i
y n b n u n i a y n i
(1.3)
unde ib n şi ia n sunt coeficienţii nerecursivi respectiv recursivi ai filtrului.
Filtrele IIR au foarte multe aplicaţii, dar după cum va deveni mai clar în capitolele
următoare, din cauza dificultăţilor care apar în adaptarea filtrelor nerecursive, utilizarea
lor în domeniul filtrelor adaptive este destul de restrânsă. În particular, filtrele IIR pot
deveni uşor instabile pentru că polii acestora pot fi deplasaţi de către procesul de adap-
tare în exteriorul cercului de rază unitară (adică 1,z în planul z ). În plus, funcţia de
performanţă (adică dependenţa erorii medii pătratice de coeficienţii filtrului) a filtrului
nerecursiv are, de obicei, mai multe minime locale. Drept urmare filtrul poate converge
către unul dintre aceste minime ale funcţiei de performanţă, care nu este şi minimul
global al funcţiei. În opoziţie cu filtrele IIR, funcţia de eroare medie pătratică a unui
filtru FIR sau a unui combinator linear este pătratică, are un singur punct de minim
care poate fi determinat uşor prin diverşi algoritmi adaptivi. Acestea sunt motivele
pentru care, în capitolele ce urmează ne vom limita în totalitate la filtrele nerecursive.
Există câteva aplicaţii practice în care secvenţa de intrare a filtrului şi semnalul
dorit au valori complexe. Un exemplu bun pentru această situaţie este dat de
transmisunile de date digitale unde, în mod frecvent, se utilizează modulaţia de fază
digitală (PSK ~ Phase Shift Keying) sau modulaţia de amplitudine în cuadratură (QAM
~ Quadrature Amplitude Modulation). În aceste aplicaţii, semnalul din banda de bază
este alcătuit din două componente separate care sunt partea reală şi partea imaginară a
unui semnal de valoare complexă. Mai mult, în cazul implementării în domeniul
frecvenţă a filtrelor adaptive, apar semnale complexe, chiar dacă semnalele originale
sunt de valoare reală. Acesta este motivul pentru care vom studia în continuare, ori de
câte ori este posibil, cazul filtrelor adaptive în forma valorilor complexe. Este evident
Figura 1.4 Structura unui filtru cu răspuns infinit la impuls (IIR).
1.4 Aplicaţiile filtrelor adaptive 5
că situaţia mai simplă a filtrelor de valori reale reprezintă un caz particular şi
rezultatele obţinute pentru un filtru complex pot fi simplificate la cazul particular
extrem de uşor.
1.3 Algoritmii adaptivi
După cum s-a discutat deja în paragraful 1.1, algoritmii adaptivi s-au dezvoltat pe baza
a două abordări distincte, şi anume abordarea statistică şi abordarea deterministă.
Ambele abordări prezintă multe variaţii în implementările lor, ceea ce a condus la o
varietate bogată de algoritmi, fiecare dintre aceştia oferind anumite avantaje distincte.
În general, un algoritm adaptiv urmăreşte ca semnalul de ieşire al filtrului transver-
sal y n să realizeze o „bună” estimare a semnalului dorit d n (vezi Figura 1.2).
Drept măsură a „adaptării” ieşirii y n la răspunsul dorit se generează o secvenţă de
eroare e n , utilizată de algoritmul adaptiv la modificarea coeficienţilor filtrului
*
iw n la fiecare moment de timp n.
1
*
0
M
i
i
e n d n w n u n i
(1.4)
Literatura de specialitate prezintă mai mulţi asemenea algoritmi adaptivi.
Utilizarea unui algoritm într-o aplicaţie dată ţine seama de următorii factori (Haykin
1996):
viteza de convergentă (număr de iteraţii necesare pentru a ajunge la o soluţie
apropiată de cea optimă).
capacitatea de urmărire a variaţiilor proprietăţilor statistice ale semnalelor.
robusteţea algoritmului (capacitatea acestuia de a opera chiar şi în cazul
datelor ce ridică probleme de calcul numeric).
complexitatea algoritmului (numărul de operaţii aritmetice şi capacitatea de
memorie necesară).
structura algoritmului (implementare hardware).
robusteţea numerică a algoritmului în raport cu precizia numerică de repre-
zentare a coeficienţilor.
1.4 Aplicaţiile filtrelor adaptive
Prin însăşi natura lor, filtrele adaptive sunt sisteme autoajustabile care se adaptează la
diverse condiţii şi situaţii. Drept urmare, filtrele adaptive îşi găsesc aplicaţii în domenii
diverse precum controlul sistemelor, comunicaţii, prelucrarea semnalelor radar şi
sonar, suprimarea interferenţelor, inginerie biomedicală, etc. Trăsătura comună a
acestor aplicaţii prin care ele pot fi încadrate în categoria filtrelor adaptive este că în
toate se desfăşoară un proces de filtrare a unui semnal de intrare astfel încât ieşirea să
6 INTRODUCERE - 1
reprezinte cea mai bună estimare a unui semnal dorit. Parametrii filtrului sunt
actualizaţi în urma efectuării unui set de măsurători asupra semnalelor existente, rezul-
tatele măsurătorilor fiind aplicat algoritmului de filtrare adaptivă. Acesta acţionează
asupra parametrilor filtrului astfel încât diferenţa dintre ieşirea filtrului şi răspunsul
dorit să fie minimizată sau în sens statistic sau în sens determinist. În acest context,
putem identifica patru clase de bază de aplicaţii ale filtrării adaptive, şi anume
modelarea, modelarea inversă, predicţia lineară şi anularea interferenţelor. În
încheierea capitolului, vom face o trecere în revistă a acestor aplicaţii (Ciochină şi
Negrescu 1999, Farhang-Boroujeny 1998).
1.4.1 Modelarea
Figura 1.5 descrie problema modelării în contextul filtrării adaptive. Scopul este de a
estima parametrii modelului W z a unui sistem necunoscut G z . Pe baza unei
cunoaşteri apriori a sistemului G z , se alege pentru început o funcţie de transfer
W z cu un anumit număr de parametri ajustabili. Parametrii lui W z sunt apoi aleşi
astfel încât diferenţa dintre ieşirea sistemului d n şi ieşirea filtrului adaptiv y n să
fie minimizată.
Figura 1.5 Modelarea adaptivă a sistemului G z .
Figura 1.6 Schema bloc a regulatorului cu auto-adaptare.
1.4 Aplicaţiile filtrelor adaptive 7
O aplicaţie directă a modelării este identificarea sistemelor. În multe sisteme
moderne de control, sistemul controlat este identificat on-line iar rezultatul identificării
este folosit într-un regulator auto-adaptiv, configuraţie descrisă în Figura 1.6 .
Caracteristicile neideale ale canalelor de comunicaţii provoacă anumite distorsiuni
asupra semnalelor recepţionate. Pentru a anula aceste distorsiuni se utilizează de obicei
egalizoare de canal. Această tehnică este echivalentă cu implementarea inversului
funcţiei de transfer a canalului, care va fi discutată în secţiunea următoare. Totuşi,
modelarea directă a canalului a fost găsită ca fiind utilă în unele implementări de
receptoare de date.
1.4.2 Modelarea inversă
În acest gen de aplicaţii, (vezi Figura 1.7) rolul filtrului adaptiv este de a furniza
modelul invers al unui sistem necunoscut. Ideal, în cazul în care eroarea este nulă
funcţia de transfer a filtrului adaptiv aproximează inversul funcţiei de transfer a
sistemului necunoscut, funcţia de transfer globală reducându-se la o întârziere.
Răspunsul dorit pentru filtrul adaptiv este, astfel, o versiune întârziată a semnalului de
la intrarea sistemului necunoscut.
Modelarea inversă, cunoscută şi ca deconvoluţie, are aplicaţii multiple. Aplicaţia
cea mai utilizată a modelării inverse este în domeniul comunicaţiilor, unde se foloseşte
un model invers (denumit egalizor) pentru a atenua distorsiunile de canal. Conceptul
de modelare inversă se aplică în controlul adaptiv al sistemelor, atunci când
dispozitivul de control se conectează în cascadă cu sistemul controlat astfel încât
răspunsul global să fie cel dorit (Widrow şi Stearns 1985). Şi procesul de predicţie,
care va fi discutat mai departe, poate fi văzut ca o schemă de modelare inversă. În
continuare, ne concentrăm asupra aplicării modelării inverse în egalizarea de canal.
Egalizarea de canal
Figura 1.8 prezintă schema bloc a unui sistem de transmisiuni în banda de bază echipat
cu un egalizor de canal. În figură, blocul Canal reprezintă combinaţia răspunsului în
frecvenţă al filtrului de transmisie, al canalului real şi al filtrului de la intrarea recepto-
rului. Secvenţa de zgomot aditiv v n se datorează zgomotului termic al circuitelor
electronice şi posibilelor interferenţe de pe canalele învecinate. Simbolurile transmise
Figura 1.7 În cazul modelării inverse, ieşirea sistemului necunos-
cut se conectează la intrarea filtrului adaptiv.
8 INTRODUCERE - 1
s n apar sub forma de impulsuri modulate în amplitudine/fază, fiind distorsionate de
canal. Distorsiunea cea mai semnificativă este efectul de împrăştiere a impulsurilor
(pulse-spreading effect), ce este determinat de răspunsul la impuls al canalului care nu
este ideal, fiind diferit de zero pentru mai multe eşantioane. Consecinţa acestei
distorsiuni este apariţia interferenţei între simboluri învecinate, ceea ce îngreunează
utilizarea în procesul de detecţie al unui detector simplu cu prag. Fenomenul de
interferenţă al simbolurilor de date învecinate se numeşte interferenţă intersimbol (ISI
~ InterSymbol Interference). Prezenţa în semnalul recepţionat a zgomotului aditiv
v n agravează şi mai mult fenomenul. Rolul egalizorului, văzut ca filtru, este să
elimine atât distorsiunile introduse de canal (rejecţia ISI) cât şi să minimizeze în
măsura posibilului efectul zgomotului aditiv la intrarea detectorului cu prag. Dacă
zgomotul ar putea fi ignorat, atunci sarcina egalizorului ar fi evidentă. Pentru
canalul H z , un egalizor cu funcţia de transfer 1W z H z ar fi perfect, pentru că
funcţia de transfer globală ar fi 1H z W z , ceea ce ar face ca secvenţa transmisă
s n să apară nedistorsionată la intrarea detectorului. Din păcate, acesta este un caz
ideal, care nu poate fi realizat într-o aplicaţie practică.
Trebuie observat că inversa funcţiei de transfer a canalului, 1 H z , poate fi
necauzală dacă H z are zerouri situate în exteriorul cercului de rază unitate, ceea ce
face ca soluţia să fie nerealizabilă în practică. Problema necauzalităţii poate fi evitată
dacă se utilizează condiţia H z W z z , fiind o întârziere convenabilă, număr
întreg de eşantioane. Alegerea acestei soluţii este echivalent cu a spune că la intrarea
detectorului se aplică o replică întârziată a simbolurilor transmise.
O altă remarcă este dată de observaţia că utilizarea egalizorului
W z z H z poate duce la o amplificare semnificativă a zgomotului aditiv s n
în acele benzi de frecvenţă în care magnitudinea lui H z este mică (cu alte cuvinte
1 H z este mare). Drept urmare, în alegerea egalizorului W z se va încerca
realizarea unui echilibru între interferenţa reziduală ISI şi amplificarea zgomotului la
ieşirea egalizorului. Vom vedea mai târziu că filtrul Wiener poate reprezenta soluţia
acestei probleme.
Figura 1.8 Un sistem de transmisie a datelor în banda de bază cu egalizare de canal.
1.4 Aplicaţiile filtrelor adaptive 9
Figura 1.9 prezintă detaliile unui sistem de transmisiuni în banda de bază înzestrat
cu un egalizor adaptiv. Acesta este, de obicei, implementat sub forma unui filtru
transversal. Iniţial, egalizorul se găseşte în modul de învăţare (antrenare), utilizând
drept semnal dorit d n o replică întârziată a simbolurilor de date transmise, generată la
recepţie. Evident, secvenţa de antrenare este emisă şi de sursa de date, fiind utilizată
pentru adaptarea iniţială a ponderilor filtrului egalizor. Drept urmare, ieşirea
egalizorului va fi ideal identică cu simbolurile de date transmise. Simbolurile secvenţei
de învăţare sunt, de obicei, specificate prin standarde iar modemurile de date,
indiferent de producător, le respectă.
La sfârşitul modului de antrenare, coeficienţii egalizorului au valori apropiate de
valorile optimale. Simbolurile detectate sunt în acest moment similare cu simbolurile
transmise, probabilitatea acestui lucru fiind apropiată de unitate. În continuare prin
urmare, simbolurile detectate pot fi considerate că reprezintă semnalul dorit pentru
adaptarea în continuare a egalizorului astfel încât posibilele variaţii ale canalului să
poată fi urmărite. Acest mod de funcţionare a egalizorului este denumit mod orientat
pe decizie (decision oriented mode). Egalizorul poate funcţiona în modul orientat pe
decizie un timp îndelungat, de fapt, câtă vreme variaţiile de canal sunt suficient de
lente încât algoritmul adaptiv să poată să urmărească satisfăcător variaţiile canalului.
1.4.3 Predicţia lineară
În acest caz, filtrul adaptiv se foloseşte pentru a furniza cea mai bună predicţie
(estimare) a valorii actuale u n a semnalului de intrare pe baza valorilor anterioare:
1 , 2 , ,u n u n u n M . În configuraţia de predicţie din Figura 1.10, operaţia pe
ieşirea 1 realizează un filtru al erorii de predicţie, iar dacă se operează ieşirea 2,
structura este un predictor.
Printre multiplele utilizări ale predicţiei vom spune în primul rând că este o tehnică
de estimare spectrală folosită la modelarea proceselor aleatoare corelate în scopul
determinării unei reprezentări parametrice a acestor procese. În contextul predicţiei
Figura 1.9 Sistem de transmisie a datelor în banda de bază echipat cu un egalizor adaptiv de
canal.
10 INTRODUCERE - 1
lineare, se utilizează modelul din Figura 1.11. În acest model, se presupune că procesul
aleator u n este generat prin excitarea filtrului G z cu semnalul de intrare x n .
Întrucât funcţia de transfer G z are numai poli (este de tip all-pole), modelul este
autoregresiv (AR). Tipul semnalului de excitaţie x n depinde de aplicaţie şi poate
varia în funcţie de natura procesului modelat. Acesta este, de obicei, un zgomot alb.
Alte modele utilizate pentru reprezentarea parametrică sunt modelele cu medie
alunecătoare (MA) în care G z este un filtru transversal având numai zerouri (tip
all-zero) şi modelele autoregresive cu medie alunecătoare (ARMA) unde G z are
atât poli cât şi zerouri. Totuşi, modele AR sunt cele mai utilizate.
Vom da în continuare motivul utilizării extensive a modelelor AR. Dacă presupu-
nem că eşantioanele unui semnal aleator u n sunt corelate între ele, aceste corelaţii
pot fi folosite pentru a face o predicţie asupra eşantionului curent u n al procesului
aleator utilizând eşantioanele sale trecute: 1 , 2 ,u n u n ,u n M ca în Figura
1.12. Intuitiv, o astfel de predicţie se îmbunătăţeşte pe măsură ce lungimea predic-
torului M creşte. Totuşi, îmbunătăţirea poate deveni neglijabilă în momentul în care
M depăşeşte o anumită valoare, care depinde de lungimea corelaţiei în procesul dat. În
acel moment, eroarea de predicţie e n devine aproximativ zgomot alb. Să observăm
că funcţia de transfer dintre procesul de intrare u n şi eroarea de predicţie e n este:
1
1M
i
i
i
H z a z
(1.5)
unde ia sunt coeficienţii predictorului. Acum, dacă un proces de zgomot alb x n ce
are statistici similare cu e n este aplicat filtrului cu funcţia de transfer G z , unde:
1
1
1M
i
i
i
G z a z
(1.6)
Figura 1.11 Modelarea autoregresivă a unui proces aleator.
Figura 1.10 Filtrul adaptiv estimează valoarea curentă a semnalului
pe baza eşantioanelor "trecute" ale semnalului de intrare.
1.4 Aplicaţiile filtrelor adaptive 11
ca în Figura 1.11, atunci semnalul de ieşire u n va fi cu siguranţă un proces având
aceleaşi statistici cu u n .
Pe baza celor discutate mai sus, suntem acum pregătiţi să prezentăm aplicaţii ale
predicţiei adaptive.
Analiza spectrală autoregresivă
Unele aplicaţii necesită estimarea spectrului de putere al unui proces aleator. În mod
obişnuit, o astfel de estimare se face prin calculul transformatei Fourier (transformarea
Fourier discretă – TFD - pentru procesele în timp discret) urmată, în scopul
îmbunătăţirii estimării, de o operaţie de mediere. O asemenea procedură de calcul se
încadrează în categoria tehnicilor de estimare spectrală neparametrice. Atunci când
numărul de eşantioane ale semnalului de analizat este redus, estimarea furnizată de
tehnicile neparametrice îşi pierde credibilitatea. În aceste cazuri estimarea spectrală
parametrică oferă rezultate mai sigure.
După cum s-a menţionat anterior, estimarea spectrală parametrică poate fi făcută
utilizând unul din modelele AR, MA sau ARMA prezentate anterior (Kay 1988). Vom
prezenta procedura de calcul pentru cazul în care se alege modelul AR. Astfel, se
începe prin alegerea unui ordin M adecvat pentru model. Secvenţa observată, u n ,
este aplicată unei structuri de predicţie similară celei din Figura 1.12, a cărei coefi-
cienţi, ia sunt optimizaţi prin minimizarea erorii de predicţie e n . Odată procesul de
convergenţă al coeficienţilor predictorului terminat, o estimare a densităţii spectrale de
putere a lui u n se obţine în conformitate cu ecuaţia de mai jos
2
1
1
1xx o M j i
ii
Na e
(1.7)
unde oN este o estimare a puterii erorii de predicţie e n . Justificarea procedurii de
estimare rezultă din modelul din Figura 1.11 şi din faptul că după convergenţa
predictorului, e n este aproximativ un zgomot alb. Vom reveni pe parcursul lucrării la
această aplicaţie, prezentând implementarea ei prin algoritmul LMS.
Figura 1.12 Predicţia lineară
1
Mi
i
i
a z
u n
u n e n
12 INTRODUCERE - 1
Codarea vorbirii
Printre numeroasele tehnici de prelucrare a semnalului aplicate semnalului vocal,
predicţia lineară s-a dovedit cea mai promiţătoare, dând numeroşi algoritmi utili. De
fapt, mare parte din teoria predicţiei s-a dezvoltat în contextul prelucrării vorbirii.
Există două tehnici principale de codare a vorbirii care utilizează predicţia lineară
(Jayant şi Noll 1984). Scopul ambelor metode este reducerea numărului de biţi utilizaţi
la codare, determinând astfel economii în dimensiunea fişierelor memorate sau în
banda de semnal transmisă. Prima metodă care se încadrează în clasa codarea sursei,
urmăreşte producerea de voce digitală cu rate de biţi cuprinse între 2 şi 10 kb/s. Vocea
sintetizată nu este, totuşi, de calitate înaltă, pentru că „sună” sintetic şi pierde din
naturaleţe, făcând dificilă recunoaşterea vorbitorului. Cea de a doua tehnică, pe care o
încadrăm în clasa codarea semnalului, dă rezultate mult mai bune cu costul unei rate
de bit mai mari (tipic, 32 kb/s).
Principala cauză a utilizării pe scară largă a predicţiei lineare la codarea vorbirii
este că semnalele vocale pot fi precis modelate ca în Figura 1.13. Aici, filtrul all-pole
constituie modelul tractului vocal al vorbitorului. Excitarea pentru acest model, x n ,
este sau zgomot alb în cazul sunetelor „surde” (consoane fricative ca s,f, etc) sau un
tren de impulsuri în cazul sunetelor „sonore” (vocale ca i). Durata trenului de impul-
suri, denumită durata tonului (în engleză, pitch period) precum şi puterea zgomotului
alb, denumită nivel de excitare, sunt parametrii modelului vorbirii care trebuie identifi-
caţi în procesul de codare.
Codarea predictivă lineară (LPC ~ Linear Predictive Coding). Vorbirea reprezintă un
proces profund nestaţionar. Forma tractului vocal este supusă la variaţii importante
pentru a genera diferitele sunete ce alcătuiesc fiecare cuvânt. Având în vedere acestea,
în LPC în scopul codării vorbirii, aceasta este partiţionată în segmente de 10 pâna la 30
ms lungime. Aceste segmente sunt suficient de scurte pentru ca forma tractului vocal să
rămână aproape staţionară pe durata lor, astfel ca parametrii modelului de producere a
vorbirii din Figura 1.13 să poată fi presupuşi fixaţi. În continuare, pentru obţinerea
parametrilor fiecărui segment, sunt urmaţi paşii de mai jos:
1. Se obţin, pentru segmentul dat, coeficienţii predictorului ia pe structura de filtru
Figura 1.13 Modelul de generare al vorbirii.
1.4 Aplicaţiile filtrelor adaptive 13
adaptiv din Figura 1.12, în urma minimizării erorii de predicţie e n în sensul
celor mai mici pătrate.
2. Se măsoară energia erorii de predicţie e n . Aceasta stabileşte nivelul de excitare
ce este necesar la sinteza segmentului.
3. Se clasifică segmentul: „sonor” sau „surd”.
4. În cazul în care segmentul este „sonor”, se măsoară durata tonului pentru
segmentul considerat.
Pentru fiecare segment prelucrat sunt apoi memoraţi sau transmişi următorii parametri
ai vorbirii codate: (i) coeficienţii predictorului, (ii) energia semnalului de excitaţie, (iii)
clasificarea „sonor”/„surd” şi (iv) durata tonului, în cazul unui segment „sonor”. Pentru
refacerea semnalul vocal, aceşti parametri sunt utilizaţi pentru sinteză într-un model
similar cu cel din Figura 1.13.
Codarea semnalului. Cea mai directă cale de codare a semnalului este tehnica
modulaţiei impulsurilor în cod (PCM ~ Pulse Code Modulation), în care eşantioanele
de semnal vocal sunt convertite numeric direct într-un număr prescris de biţi in scopul
generării biţilor de informaţie asociaţi cu vorbirea codată. Cuantizarea directă a eşan-
tioanelor vocale necesită un număr relativ mare de biţi (de obicei 8 biţi pe eşantion)
pentru ca vorbirea originală să poată fi reconstruită la o calitate acceptabilă.
O modificare a modulaţiei PCM standard, cunoscută drept modulaţia impulsurilor
în cod diferenţială (DPCM ~ Differential PCM) foloseşte predictorul linear din Figura
1.12 şi utilizează biţii asociaţi cu eşantioanele cuantizate ale predicţiei de eroare e n
drept codare a vorbirii. Explicaţia este aici faptul că eroarea de predicţie e n are o
varianţă mult mai redusă decât intrarea filtrului u n . Astfel, pentru un nivel de cuanti-
zare dat, e n poate fi reprezentat printr-un număr de biţi mai mic în comparaţie cu
reprezentarea semnalului original u n . Drept urmare, rata de bit a modulaţiei DPCM
va fi mai mică în raport cu cea a modulaţiei PCM standard.
Filtrul de predicţie utilizat în DPCM poate fi fix sau poate fi făcut adaptiv. Un
sistem DPCM cu predictor adaptiv se numeşte de DPCM adaptiv (ADPCM ~ Adaptive
DPCM). În cazul semnalelor vocale, utilizarea modulaţiei ADPCM dă performanţe
mai bune decât modulaţia DPCM neadaptivă. De fapt, ADPCM a fost standardizată, iar
în practică se utilizează curent. (vezi Recomandarea ITU G.726).
Figura 1.14 prezintă schema bloc simplificată a unui sistem ADPCM, aşa cum este
propusă de Recomandarea ITU G.726. În acest caz, predictorul este un filtru recursiv
cu 6 zerouri şi 2 poli. Coeficienţii acestui filtru sunt ajustaţi adaptiv astfel încât eroarea
de cuantizare e n să fie minimizată în sensul mediei pătratice. Intrarea predictorului,
u n , este identică cu semnalul de intrare original cu excepţia erorii de cuantizare din
e n . Pentru a înţelege funcţionarea comună a codorului şi decodorului din Figura
1.14, vom remarca că la intrările predictoarelor din codor şi decodor se aplică acelaşi
14 INTRODUCERE - 1
semnal e n . Prin urmare, dacă stabilitatea buclei alcătuite din predictor şi algoritmul
de adaptare ar putea fi garantată, atunci valoarea de regim permanent a vorbirii
reconstruite la decodor, adică 'u n , va fi egală cu acea de la codor, u n , pentru că
efectul condiţiilor iniţiale ale buclelor codorului şi decodorului care nu sunt egale va
dispărea după o fază tranzitorie.
1.4.4 Anularea interferenţelor
Anularea interferenţelor se referă la situaţiile în care se cere să se elimine un
semnal/zgomot perturbator dintr-un semnal dat care este alcătuit atât dintr-o parte utilă
cât şi din perturbaţie. Principiul suprimării interferenţelor este de a se realiza o estimare
a semnalului perturbator, care apoi să fie extrasă din semnalul corupt de perturbaţie.
Fezabilitatea acestei idei se bazează pe disponibilitatea unei surse de referinţă cu care
semnalul perturbator să fie corelat.
Figura 1.15 descrie, în cea mai simplă formă, conceptul de anulare a interferen-
ţelor. Sistemul de anulare a interferenţelor are două intrări: intrarea primară şi intrarea
de referinţă. La intrarea primară se aplică semnalul corupt, adică semnalul dorit plus
interferenţa. Semnalul de pe intrarea de referinţă, pe de altă parte, provine numai de la
sursa care generează interferenţa. Filtrul adaptiv se ajusteasă astfel încât la ieşirea sa să
apară o replică a interferenţei prezente în semnalul primar. Prin extragerea acestei
Figura 1.15 Anularea interferenţelor.
Figura 1.14 Codor-decodor ADPCM
1.4 Aplicaţiile filtrelor adaptive 15
replici din semnalul primar rezultă o ieşire curăţată de interferenţe, ceea ce explică
numele de anulare a interferenţelor dat acestui tip de aplicaţie (Farhang-Boroujeny
1998).
Configuraţia de anulare a interferenţei din Figura 1.15 este diferită de cazurile
anterioare de aplicaţii ale filtrării adaptive, în sensul că eroarea reziduală (care în cele-
lalte cazuri era eliminată) este aici semnalul curăţat de perturbaţii. Semnalul dorit din
cazurile anterioare este înlocuit aici de o versiune zgomotoasă (coruptă) a semnalului
dorit. Mai mult, utilizarea termenului “referinţă” pentru a desemna intrarea filtrului
adaptiv este legată direct de rolul acestei intrări în aplicaţie.
Anularea ecoului pe liniile telefonice
Un ecou este versiunea întârziată şi distorsionată a unui semnal original care se întoar-
ce spre sursa sa. În unele aplicaţii (radar, sonar sau ultrasunete), ecoul reprezintă
semnalul util; însă, în comunicaţii, ecoul este un semnal nedorit care trebuie eliminat.
Există două tipuri de ecou în sistemele de comunicaţii: (i) ecouri electrice sau de linie,
care sunt generate electric datorită neadaptării de impedanţă de-a lungul mediului de
transmisie, şi (ii) ecouri acustice, care se datorează reflexiei undelor acustice şi cuplajul
acustic dintre microfon şi difuzor.
În continuare vom discuta despre eliminarea ecourilor electrice în comunicaţiile de
date, urmând ca despre anularea ecourilor acustice în aplicaţiile de tip teleconferinţă să
discutăm în paragraful următor.
Ecouri electrice pot fi observate pe legăturile telefonice de mare distanţă. Figura
1.16 face o reprezentare simplificată a unui asemenea circuit. Conexiunea utilizatorului
la centrala telefonică constă dintr-un circuit cu două fire bidirecţional, în timp ce legă-
tura dintre centralele telefonice se face pe patru fire, ceea ce include toate tipurile de
conexiuni, inclusiv legătura prin satelit. Trecerea de la circuitele pe două fire la circui-
tele pe patru fire se realizează prin circuite speciale denumite hibrizi sau transforma-
toare diferenţiale (în engleză, hybrids). Un hibrid ideal permite (i) trecerea semnalului
de intrare către ieşirea pe două fire fără vreo atenuare pe portul de ieşire şi (ii) trecerea
semnalului de la circuitul pe două fire către portul său de ieşire fără reflexie. În
practică, datorită neadaptărilor de impedanţă, hibrizii nu funcţionează perfect. Drept
urmare, o parte din energia de intrare în circuit se întoarce către sursă ca un ecou (vezi
Figura 1.16). Ecoul, care, de obicei, este mai mic cu 11 dB în raport cu semnalul
Figura 1.16 Generarea ecoului în reţelele de comunicaţii de lungă
distanţă.
16 INTRODUCERE - 1
original, face dificilă purtarea unei conversaţii, dacă întârzierea dus-întors depăşeşte 40
ms. În cazul legăturilor prin satelit, datorită plasării sateliţilor la altitudini mari, aceste
întârzieri ating 500-600 ms.
Suprimarea ecoului s-ar putea efectua pe baza estimării transmisiei semnalului de
la punctul C la punctul D (vezi Figura 1.17). Dacă funcţia de transfer a ecoului este
cunoscută, ar putea fi realizat un filtru care să producă o copie (sau replică a semna-
lului ecou pornind de la semnalul din punctul C. Scăderea replicii ecoului din semnalul
din punctul D îl va elimina fără să distorsioneze semnalul din B care poate fi prezent în
punctul D. Rezultă configuraţia de anulare adaptivă a ecoului prezentată în Figura 1.17.
În practică, caracteristicile canalului nu sunt în general cunoscute. Pentru legăturile
telefonice pe fir, canalele diferă de la convorbire la convorbire, iar caracteristicile cana-
lelor radio sau de microunde se modifică semnificativ în timp. Prin urmare, nu se poate
realiza un circuit fix de anulare a ecoului cu performanţe satisfăcătoare pentru orice
conexiune posibilă. Există două căi posibile de rezolvare a problemei:
1. Realizarea unui circuit de anulare a ecoului fix „de compromis” bazat pe o „medie”
a căii de ecou, presupunând că există suficiente informaţii despre conexiunile pe
care le poate vedea acesta.
2. Realizarea unui circuit de anulare a ecoului adaptiv care poate „învăţa” caracteristi-
cile căii de ecou atunci când este pornit, iar după aceea, poate urmări variaţiile
acestora, fără vreo intervenţie suplimentară din exterior. Pentru că un filtru adaptiv
se adaptează mai bine la caracteristicile variabile ale căi de ecou, rezultatele sunt
mai bune decât cele obţinute cu un circuit fix de anulare a ecoului reglat pe bază de
compromis.
Vom sublinia că principala sarcină a circuitului de anulare este de a estima semna-
lul de ecou cu suficientă precizie; estimarea funcţiei de transfer a ecoului este doar
calea prin care se realizează acest scop. Performanţa circuitului se măsoară prin atenua-
rea în decibeli a ecoului, parametru care este cunoscut sub numele de creşterea atenuă-
rii de ecou. Filtrul adaptiv realizează acest scop prin modificarea răspunsului său, utili-
zând semnalul rezidual de ecou, aşa cum am arătat mai sus.
Circuitele de anulare a ecoului sunt utilizate pe scară largă în telecomunicaţiile
vocale, iar organizaţia de standardizare internaţională CCITT a emis setul de
Figura 1.17 Principiul anulării adaptive a ecoului.
1.4 Aplicaţiile filtrelor adaptive 17
recomandări CCITT G. 165 care subliniază caracteristicile fundamentale ale acestor
dispozitive.
Anularea ecoului acustic
Figura 1.18 prezintă un sistem audio tipic de teleconferinţă care ajută două grupuri de
persoane, localizate în două locuri diferite, să comunice efectiv. Din nefericire, perfor-
manţa acestui sistem este degradată de următoarele efecte:
1. Reverberaţiile camerei datorate faptului că microfonul culege nu numai sunetele
vorbitorului dar şi reflexiile pe pereţii şi obiectele din cameră.
2. Ecourile create de cuplajul acustic dintre microfonul şi difuzorul plasate în aceiaşi
încăpere. Sunetele din camera B nu sunt ascultate numai de vorbitorul din camera
A, dar sunt de asemenea, preluate de microfonul din camera A şi, dacă nu există un
mecanism de eliminare, returnate ca ecou vorbitorului din camera B.
Sunt utilizate filtre transversale de lungime suficientă pentru a modela acustica
celor două încăperi (vezi Figura 1.19). Acestea furnizează o replică a ecoului la
difuzor, care este, în continuare scăzută din semnalul microfonului înainte de
transmisia acestuia.
Evident că problema anulării acustice a ecoului, poate fi privită ca o problemă de
modelare de sistem. Principala provocare aici este împrăştierea căilor de ecou pe o
durată relativ importantă. Pentru camerele obişnuite, întârzierea ecourilor este în gama
100-250 ms. La o frecvenţă de eşantionare de 8 kHz, aceasta înseamnă că filtrul
adaptiv de anulare ar trebui să aibă 800-2000 de celule. Prin urmare, adevărata
problemă a anulării ecoului, nu numai în cazul acustic, este cea a implementării unor
Figura 1.18 Sistem tipic de teleconferinţă fără controlul ecoului acustic.
Figura 1.19 Principiul anulării acustice a ecoului prin utilizarea filtrării adaptive.
18 INTRODUCERE - 1
filtre adaptive foarte lungi. Pe parcursul lucrării, vom vedea cum pot fi depăşite aceste
dificultăţi.
1.5 Filtrarea spaţială
În aplicaţiile prezentate anterior, filtrele sau predictoarele combină eşantioane ale
semnalului de intrare, culese la momente de timp diferite, în scopul generării unui
semnal de ieşire. Aceste fac, evident, filtrare temporală. Un beamformer care prelu-
crează prin combinare semnalele furnizate de o reţea de antene egal distanţate (vezi
paragraful 1.2), este diferit de acestea în sensul că intrările sunt eşantioane ale semna-
lelor recepţionate în diferite puncte din spaţiu. Acesta este motivul pentru care acţiunea
acestuia o numim filtrare spaţială. Beamformer-ul şi-a găsit aplicaţii în comunicaţii,
radar şi sonar (Johnson şi Dudgeon 1993) dar şi în ingineria medicală (Soumekh 1994).
În filtrarea spaţială, un număr de senzori independenţi sunt plasaţi egal distanţaţi pe
o linie în scopul de a recepţiona semnalele provenind de la surse diverse (vezi Figura
1.20). În radiolocaţie şi comunicaţii, semnalele sunt unde electromagnetice iar senzorii
sunt elemente de antenă. Prin urmare termenul de reţea de antene se referă la aceste
situaţii. În aplicaţiile de tip sonar, senzorii sunt hidrofoane, care răspund la unde
acustice.
Reţeaua de senzori eşantionează spaţial undele incidente astfel încât în cazul unor
senzori egal distanţaţi, avem o eşantionare la incremente spaţiale egale. Prin contrast,
un filtru FIR utilizează drept intrare, un semnal eşantionat uniform în timp. Să consi-
derăm o undă plană incidentă pe o reţea de antene ca în Figura 1.21. Semnalul spaţial
soseşte la fiecare senzor cu o întârziere determinată de unghiul de sosire . În cazul
unui semnal de bandă îngustă, această întârziere corespunde unei defazări egale de la
senzor la senzor ceea ce corespunde frecvenţei spaţiale u de-a lungul reţelei:
sind
u
(1.8)
unde este lungimea de undă a semnalului şi d este distanţa uniformă dintre senzori.
Această frecvenţă spaţială este analoagă frecvenţei temporale întâlnită în cazul semna-
lelor în timp discret. În funcţionarea filtrului spaţial, semnalele senzorilor sunt multipli-
cate cu ponderile corespunzătoare exact în maniera în care un filtru FIR produce
semnalul de ieşire ca o sumă ponderată a eşantioanelor de timp ale intrării. Exact aşa
cum un filtru selectiv în frecvenţă FIR extrage din semnalul de intrare, banda de
Figura 1.20 Exemplu de filtrare spaţială şi caracteristica de directivitate realizată.
1.5 Filtrarea spaţială 19
frecvenţă de interes, un beamformer caută să amplifice semnalele cu o anumită
frecvenţă spaţială (adică, semnalele ce sosesc sub un anumit unghi). Astfel, este bene-
fic să privim un filtru spaţial ca un filtru selectiv de frecvenţă spaţială.
De multe ori o reţea de antene are de a face cu semnale nedorite ce sosesc din dife-
rite direcţii, ceea ce poate preveni extragerea cu succes a semnalului de interes pentru
care reţeaua este proiectată. În acest caz, reţeaua trebuie să-şi ajusteze răspunsul la
datele recepţionate pentru a rejecta semnalele nedorite. Rezultă o reţea adaptivă de
antene având ponderile determinate automat pe baza semnalelor recepţionate fără inter-
venţia utilizatorului. Ca şi în cazul filtrelor adaptive selective în frecvenţă, dacă pot fi
modelate statistic condiţiile de funcţionare a reţelei adaptive atunci poate fi găsit un
beamformer optimal care să minimizeze sau să maximizeze un anumit criteriu de
performanţă.
Vom prezenta în continuare o aplicaţie a filtrării spaţiale adaptive în domeniul
suprimării adaptive a lobilor laterali din radiaţia unei antene de radiolocaţie
(Manolakis, ş.a. 2005) (vezi Figura 1.22). Pe direcţia ţintei este îndreptată o antenă
neadaptivă cu câştig mare şi fix, sau chiar un beamformer neadaptiv. În caz de interfe-
renţă, aceasta trebuie eliminată, sau cel puţin redusă într-un anumit fel. Sistemul de
radiolocaţie înlătură interferenţa de pe canalul principal prin metode adaptive spaţiale.
Una dintre aceste metode constă în suprimarea adaptivă a lobilor laterali ai antenei de
radiolocaţie ilustrată în Figura 1.23.
Vom remarca că semnalul de interes este recepţionat dintr-o direcţie particulară pe
care presupunem că antena are prin canalul să principal o amplificare mare. Pe de altă
parte, interferenţele sunt recepţionate de pe o altă direcţie, dar pentru că sunt de putere
mai mare decât semnalele utile, le „maschează” pe acestea. Suprimarea lobilor laterali
utilizează unul sau mai multe dintre canalele secundare ale antenei radar pentru a anula
interferenţa de pe canalul principal, astfel încât semnalele utile să poată fi recepţionate
în condiţii bune. Aceste canale auxiliare au, tipic, un câştig mai redus pe direcţia pe
care este îndreptat canalul principal al antenei, astfel încât ele conţin numai interfe-
Figura 1.21 Undă incidentă pe o reţea de
antene distanţate uniform cu d.
20 INTRODUCERE - 1
renţe. Astfel de canale auxiliare sunt realizate cu senzori omnidirecţionali. Este evident
că această aplicaţie face parte din categoria aplicaţiilor prezentate în paragraful 1.4.4
care se referă la anularea interferenţelor.
Suprimarea lobilor laterali utilizează canalele auxiliare ale antenei radar pentru a
forma o estimare a interferenţei de pe canalul principal. Estimarea este calculată prin
ponderarea canalelor auxiliare pe baza calculării intercorelaţiei dintre canalele auxiliare
şi canalul principal. Estimarea interferenţei este extrasă din semnalul de pe canalul
principal. Rezultă un răspuns global al antenei ce are pe de-o parte un nul îndreptat pe
direcţia sursei de perturbaţii, iar pe de alta, câştig maxim pe direcţia de interes. Evident
că dacă există suficientă informaţie apriori, problema ar putea fi rezolvată prin utili-
zarea unui circuit fix de anulare. Totuşi, lipsa informaţiilor apriori şi caracteristicile
variabile ale mediului fac din sistemul adaptiv singura soluţie viabilă.
Figura 1.22 Exemplu de beamformer adaptiv utilizat de un
radar de supraveghere aeriană pentru atenuarea
interferenţelor.
Figura 1.23 Sistem de anulare a lobilor laterali ai antenei radar cu
un canal directiv principal şi canale auxiliare.
2 Semnale şi sisteme în
timp discret
relucrarea adaptivă a semnalelor se face atât cu circuite sau sisteme analogice
(Carusone şi Johns 2000) cât şi digital. De fapt, imensa majoritate a filtrelor adaptive
sunt implementate digital, datorită beneficilor evidente pe care le oferă această
abordare: flexibilitate şi precizie în calcule (Haykin 1996). Acesta este motivul, pentru care
în această lucrare, ne vom limita la a aborda doar problemele semnalelor şi sistemelor în
timp discret.
Vom folosi prezentul capitol pentru a reaminti cititorilor noştri unele din principiile şi
proprietăţile fundamentale ale secvenţelor de numere variabile care reprezintă funcţii de
timp eşantionate uniform. În primul rând, vom avea în vedere modalităţile utilizate pentru
trecerea de la reprezentarea semnalului în domeniul timp discret în domeniul frecvenţă, ceea
ce oferă utilizatorului o altă imagine asupra secvenţei transformate. Sunt utilizate în cazul
nostru atât transformata Z (de variabilă complexă) cât şi transformata Fourier în timp discret
(DFT), ce poate fi considerată un caz particular al celei dintâi şi care este o funcţie de
variabilă reală (frecvenţa) (Naforniţă, ş.a. 1995, Oppenheim, ş.a. 1998).
După scurta trecere în revistă a proprietăţilor secvenţelor discrete şi a transformatelor
lor, vom aborda şi câteva subiecte mai evoluate din aceiaşi arie de interes, utile în abordarea
unor tehnici de filtrare adaptivă particulare (implementarea convoluţiilor prin transformarea
DFT şi transformarea cosinus discretă).
2.1 Transformarea Z
Considerăm seria temporală alcătuită din eşantioanele , 1 , 2 ,u n u n u n , unde n
reprezintă timpul discret. Vom utiliza în continuare notaţia simplă u n pentru a desemna
această secvenţă. Transformata Z a secvenţei u n se defineşte prin:
n
n
U z Z u n u n z
(2.1)
Capitolul
2
P
22 SEMNALE ŞI SISTEME ÎN TIMP DISCRET - 2
unde z este o variabilă complexă. Secvenţa u n şi transformarea sa Z constituie o pereche
de transformate Z, ceea ce, simbolic, se scrie astfel:
u n U z (2.2)
Pentru ca transformata Z să fie definită, seria de puteri (2.1) trebuie să fie absolut
sumabilă, ceea ce face ca U z să fie uniform convergentă. Regiunea de convergenţă (RC)
este setul de valori ale lui z pentru care transformata Z, U z , este uniform convergentă.
În regiunea de convergenţă circulară a lui U z : 1 2R z R , considerăm un contur
închis C ce înconjoară originea, pe care se calculează formula de inversare a transformatei
Z:
1
2
n dzu n U z z
j z
C
(2.3)
unde conturul de integrare este parcurs în sens invers acelor ceasornicului.
2.2 Proprietăţile transformării Z
Reamintim în continuare proprietăţi importante ale transformării Z, care sunt utilizate
frecvent în restul lucrării:
1. Este o transformare lineară. Fie ,a b şi 1 2,u n u n - două secvenţe ce au transfor-
matele Z, 1U z respectiv 2U z . Atunci:
1 2 1 2au n bu n aU z bU z (2.4)
RC în care relaţia (2.4) este valabilă este dată de intersecţia RC a lui 1U z cu RC a lui
2U z .
2. Proprietatea deplasării în timp. Dacă transformarea Z a secvenţei u n este U z ,
atunci perechea Z a secvenţei deplasate în timp 0u n n , este dată prin relaţia
0
0
nu n n z U z
(2.5)
unde 0n . Transformarea obţinută prin relaţia (2.5) păstrează aceiaşi RC cu U z ,
cu excepţia adăugării sau eliminării punctelor 0z sau z . În cazul special 0 1n
se observă că transformarea Z a lui u n se multiplică cu 1z , ceea ce justifică numele
de element de întârziere unitară pe care îl poartă termenul 1z .
3. Teorema convoluţiei. Notăm prin 1U z şi 2U z transformatele Z ale secvenţelor
1u n respectiv 2u n . Potrivit teoremei convoluţiei
2.3 Sisteme lineare invariante în timp (SLIT) 23
1 2 1 2 1 2
i
u n u n u i u n i U z U z
(2.6)
unde RC include intersecţia RC a celor două secvenţe. Prin urmare, convoluţia a două
secvenţe din domeniul temporal se transformă în domeniul frecvenţă în produsul
transformatelor lor Z.
2.3 Sisteme lineare invariante în timp
(SLIT)
Vom trece în revistă, în continuare, principiile de bază ale SLIT, subliniind aspectele ce
prezintă importanţă pentru lucrarea de faţă. În conformitate cu scopurile pe care le urmărim,
un sistem se defineşte ca un dispozitiv fizic sau algoritm care transformă un semnal,
denumit semnal de intrare sau excitaţie, într-un alt semnal denumit semnal de ieşire sau
răspuns.
Un sistem linear invariant în timp (SLIT) este caracterizat prin proprietăţile de lineari-
tate şi invarianţă în timp:
1. Linearitatea: Fie 1v n şi 2v n , două excitaţii diferite aplicate la intrarea sistemului.
Notăm prin 1u n şi 2u n răspunsurile sistemului la aceste excitaţii. Atunci răspunsul
sistemului la excitaţia 1 2av n bv n este secvenţa 1 2 , ,au n bu n a b .
2. Invarianţa în timp: Dacă u n este răspunsul unui sistem invariant în timp la excitaţia
v n , atunci răspunsul filtrului la excitaţia 0v n n este 0u n n , unde 0n este o
întârziere arbitrară.
Pentru caracterizarea SLIT se foloseşte răspunsul la impuls definit drept răspunsul
sistemului la un impuls unitar aplicat la momentul 0 la intrare, notat prin h n . În aceste
condiţii, răspunsul SLIT la o excitaţie oarecare v n se defineşte prin suma de convoluţie:
i
u n h i v n i h n v n
(2.7)
Aplicarea teoremei convoluţiei ecuaţiei (2.7) conduce la:
U z H z V z (2.8)
În ultima ecuaţie, U z şi V z reprezintă transformatele Z ale semnalelor de la ieşirea şi
intrarea sistemului. H z , transformata Z a lui h n , este denumită funcţie de transfer a
sistemului. Aceasta constituie o bază de descriere a SLIT şi se defineşte prin
U zH z
V z (2.9)
24 SEMNALE ŞI SISTEME ÎN TIMP DISCRET - 2
Astfel, funcţia de transfer H z este egală cu raportul dintre transformata Z a semnalului de
ieşire şi transformata Z a semnalului de intrare.
O importantă subclasă a SLIT este constituită din sistemele descrise prin ecuaţii cu
diferenţe finite. În general, un asemenea sistem satisface o ecuaţie cu diferenţe de ordinul N:
0 0
N N
j j
j j
a u n j b v n j
(2.10)
unde ja şi jb sunt coeficienţi constanţi. Aplicând transformata Z ecuaţiei (2.10), funcţia de
transfer se exprimă ca o funcţie raţională:
1
0 0 1
10
0 1
1
1
N Nj
j kj k
N Nj
j k
j k
a z c zU z a
H zV z b
b z d z
(2.11)
Ultima expresie evidenţiază următoarele:
a. fiecare factor 11 kc z dă un zero în kz c ,
b. fiecare factor 11 kd z dă un pol în kz d şi un zero în 0z ,
c. cu excepţia factorului de scară 0 0a b , H z este complet definită de polii şi
zerourile sale.
Reprezentarea SLIT prin relaţia (2.11), ne permite să diferenţiem două tipuri distincte
de SLIT:
Sisteme FIR (Finite Impulse Response – cu răspuns finit la impuls): 0,kd k . Sunt
sisteme numai cu zerouri pentru că polii lui H z se găsesc toţi în 0z . În mod corespun-
zător, h n are durată finită. Sunt sisteme cu răspuns de durată finită la impuls unitar, ceea
ce este precizat în denumire.
Sisteme IIR (Infinite Impulse Response – cu răspuns infinit la impuls): H z are cel
puţin un pol nenul, ce nu este anulat de un zero. În consecinţă, h n are durată infinită: filtru
cu răspuns infinit la impuls. Dacă toţi coeficienţii kc sunt nuli, avem de a face cu un filtru ce
are numai poli (all-pole filter), pentru că toate zerourile sale sunt în 0z .
Figura 2.1 prezintă un exemplu de filtru FIR iar Figura 2.2 descrie structura unui filtru
particular IIR, filtrul all-pole. Săgeţile etichetate cu 1z reprezintă elemente de întârziere
unitară, iar săgeţile ce sunt desemnate prin 1 2, , , Ma a a sunt coeficienţii filtrelor. De
remarcat că structura filtrului FIR din Figura 2.1 nu include bucle de reacţie inversă spre
deosebire de filtrul IIR din Figura 2.2 care este alcătuit numai din astfel de bucle. În ambele
cazuri, blocurile funcţionale din componenţa celor două filtre sunt elemente de întârziere,
multiplicatoare şi sumatoare.
2.4 Cauzalitate şi stabilitate 25
2.4 Cauzalitate şi stabilitate
Un SLIT este cauzal dacă excitaţia precede întotdeauna răspunsul. Cu alte cuvinte:
0 pentru 0h n n (2.12)
Un sistem ce operează în timp real trebuie să fie cauzal. Totuşi cauzalitatea nu este
necesară pentru realizabilitate fizică, pentru că în foarte multe aplicaţii semnalul de prelucrat
este memorat. În aceste cazuri sistemul poate fi noncauzal şi totuşi fizic realizabil.
Un SLIT este stabil dacă răspunsul este limitat în amplitudine pentru toate excitaţiile de
intrare limitate (stabilitate IMEM – intrări mărginite, ieşiri mărginite). Condiţia necesară şi
suficientă pentru stabilitate IMEM se deduce simplu din (2.7):
k
h n
(2.13)
Cu alte cuvinte: Răspunsul la impuls al filtrului trebuie să fie absolut sumabil.
Cauzalitatea şi stabilitatea nu sunt în mod necesar cerinţe compatibile. Pentru ca un
SLIT definit prin (2.10) să fie atât stabil cât şi cauzal, RC a funcţiei de transfer H z
trebuie să satisfacă două cerinţe (Naforniţă, ş.a. 1995):
1. Să fie plasată în exteriorul celui mai mare pol al lui H z .
2. Să includă cercul de rază unitate.
Figura 2.1 Filtru cu răspuns finit la impuls (FIR).
Figura 2.2 Filtru IIR all-pole.
26 SEMNALE ŞI SISTEME ÎN TIMP DISCRET - 2
Cerinţele pot fi satisfăcute numai şi numai dacă toţi polii lui H z se găsesc în interiorul
cercului de rază unitate (vezi Figura 2.3). Nu există în schimb restricţii relativ la poziţia
zerourilor.
2.5 Sisteme de fază minimă
Cercul de rază unitate joacă un rol critic nu numai în legătură cu stabilitatea unui filtru
cauzal ci şi în ceea ce priveşte evaluarea răspunsului în frecvenţă. Înlocuind jz e în
expresia funcţiei de transfer H z se obţine răspunsul în frecvenţă al filtrului:
arg jj H ej jH H e H e e
(2.14)
Recunoaştem în ultima expresie cele două funcţii reale utilizate pentru caracterizarea
comportării în frecvenţă a SLIT: amplificarea, jH e şi răspunsul de fază sau defa-
zarea, arg jH e .
SLIT de fază minimă sunt o clasă specială de filtre ale căror amplificări şi funcţii de fază
sunt legate unic între ele, astfel încât dacă este dată una dintre funcţii, cealaltă poate fi
stabilită în mod unic. Un filtru de fază minimă îşi ia numele de la faptul că pentru o funcţie
de amplificare dată, răspunsul de fază este minim posibil pentru toate valorile z de pe cercul
unitate.
Pentru ca un SLIT să fie de fază minimă se impun restricţii asupra poziţiei zerourilor
funcţiei de transfer a filtrului H z şi anume:
1. zerourile lui H z pot fi plasate în interiorul şi pe circumferinţa cercului
unitate;
2. zerourile de pe cercul unitate trebuie să fie simple.
Figura 2.3 Definirea regiunii de conver-
genţă a unui SLIT stabil şi
cauzal.
2.7 Transformarea Fourier discretă 27
Un SLIT de fază minimă cu funcţie de transfer H z admite un sistem invers având
funcţia de transfer 1 H z şi care este stabil şi cauzal cu condiţia ca H z să nu aibă
zerouri pe cercul unitate. Conectate în cascadă, perechea de filtre H z şi 1 H z are
funcţia de transfer egală cu unitatea.
2.6 Transformarea Fourier în timp discret
Un semnal în timp discret u n se încadrează în categoria semnalelor de modul sumabil
dacă satisface condiţia
k
u n
(2.15)
În cazul semnalelor ce îndeplinesc condiţia (2.15), se observă imediat că RC a transformatei
lor Z include circumferinţa cercului de rază unitate, întrucât în punctele de pe acest cerc
caracterizate prin 1z unde ,jz e , suma de definiţie din (2.1) şi integrala din
(2.3) sunt convergente.
Reluând calculul relaţiilor ce definesc transformarea Z pe conturul jz e , se obţine:
j
j j n
z en
U z U e U u n e
(2.16)
şi 1
2
j n j nu n U e e d
(2.17)
Sunt ecuaţiile ce definesc transformarea Fourier în timp discret directă respectiv,
transformarea Fourier în timp discret inversă. Ca şi în cazul transformării Z, secvenţa u n
şi transformarea ei U constituie perechea de transformări Fourier în timp discret:
u n U (2.18)
Cu precizarea că transformarea Fourier în timp discret a unei secvenţe există numai
dacă secvenţa îndeplineşte condiţia (2.15), aceasta poate fi obţinută direct din transformarea
Z a secvenţei prin schimbarea de variabilă jz e . Cu această precizare, toate relaţiile
scrise anterior pentru transformate Z îşi găsesc un echivalent direct în transformarea Fourier
în timp discret.
2.7 Transformarea Fourier discretă
Pentru o secvenţă în timp discret de durată finită se poate utiliza în scopul descrierii sale în
domeniul frecvenţă transformarea Fourier discretă (Discrete Fourier Transform – DFT).
Ca şi secvenţa temporală, DFT este la rândul său alcătuit dintr-o secvenţă de eşantioane,
uniform distanţate în frecvenţă. Transformarea Fourier discretă s-a impus în prelucrarea
digitală a semnalelor ca un instrument puternic şi indispensabil pentru că există o serie de
28 SEMNALE ŞI SISTEME ÎN TIMP DISCRET - 2
algoritmi eficienţi de calcul al acesteia, cunoscuţi sub numele generic de transformarea
Fourier rapidă (Fast Fourier Transform – FFT).
Fie o secvenţă de durată finită u n , alcătuită din N eşantioane. Atunci transformata
DFT a lui u n se defineşte prin
21
0
, 0,1, , 1knN j
N
n
U k u n e k N
(2.19)
Transformarea Fourier discretă inversă (IDFT) a lui U k este dată de:
21
0
1, 0,1, 1
knN jN
k
u n U k e n NN
(2.20)
De remarcat că atât secvenţa originală u n cât şi transformata ei Fourier U k au aceiaşi
lungime, N . Prin urmare, vom spune despre transformarea Fourier discretă că este „DFT în
N puncte.”
Transformarea Fourier discretă poate fi descrisă prin intermediul transformării Z; ea
poate fi obţinută evaluând transformarea Z a aceleiaşi secvenţe în N puncte uniform
distanţate de pe cercul de rază unitate din planul z : 2 k
jN
kz e
, 0,1, , 1k N .
Deşi secvenţa u n şi transformata ei DFT U k sunt definite ca secvenţe „de lungime
finită”, în realitate ambele reprezintă câte o singură perioadă din nişte secvenţe periodice.
Această dublă periodicitate nu este decât o consecinţă a eşantionării atât în timp cât şi în
frecvenţă a unui semnal în timp continuu.
2.8 Implementarea convoluţiei cu ajutorul
transformării DFT
Natura „dublu periodică” a transformării Fourier discrete, îi conferă acesteia unele proprie-
tăţi ce o deosebesc de transformarea Fourier. În particular, convoluţia lineară a două secven-
ţe, să spunem h n şi v n , presupune să înmulţim una dintre ele cu versiunea inversată în
timp şi deplasată a celeilalte secvenţe, iar apoi să însumăm produsele h i v n i pentru
toate valorile lui i ca în ecuaţia (2.7). Prin contrast, în cazul transformării DFT se realizează
o convoluţie circulară, în care cea de a doua secvenţă este inversată în timp şi deplasată
circular în raport cu prima secvenţă. Cu alte cuvinte, în convoluţia circulară, ambele
secvenţe au lungimea N (sau mai mică) iar secvenţele sunt deplasate modulo N . Numai
dacă convoluţia este definită ca mai sus, convoluţia a două secvenţe în domeniul timp se
transformă în produsul transformatelor lor Fourier discrete în domeniul frecvenţă.
Reformulând altfel această proprietate spunem că dacă multiplicăm transformatele DFT a
două secvenţe finite iar apoi calculăm transformarea Fourier discretă inversă a produsului,
2.8 Implementarea convoluţiei cu ajutorul transformării DFT 29
rezultatul astfel obţinut este echivalent cu convoluţia circulară a celor două secvenţe
originale.
Având în vedere diferenţa marcantă dintre convoluţia circulară şi convoluţia lineară, se
pune problema modului în care poate fi utilizată transformarea DFT pentru a se calcula
convoluţia lineară. Pentru a ilustra modul în care poate fi aceasta realizată, vom considera
două secvenţe discrete v n şi h n de lungimi L , respectiv P . Convoluţia lineară a aces-
tor două secvenţe este o secvenţă finită de durată 1L P . Observând faptul că prin
convoluţia a două secvenţe periodice se obţine o altă secvenţă periodică de aceiaşi perioadă,
putem proceda după cum urmează:
Se adaugă un număr corespunzător de eşantioane nule la v n şi h n astfel încât
fiecare dintre cele două secvenţe să devină secvenţe de N puncte, unde
1N L P ; acest proces poartă numele de zero padding.
Se calculează transformatele Fourier discrete în N puncte a versiunilor adăugite
ale secvenţelor v n şi h n , se multiplică apoi transformările DFT şi în final se
calculează transformarea DFT inversă a produsului.
Se foloseşte o perioadă a convoluţiei circulare astfel calculate drept convoluţie
lineară a secvenţelor originale v n şi h n .
Procedura descrisă înainte, funcţionează perfect în cazul secvenţelor de durată finită.
Dar cum pot fi rezolvate aplicaţiile de filtrare lineară care presupun, din raţiuni practice, că
semnalul de intrare este de durată infinită? În situaţii de acest fel, se poate recurge la două
procedee larg utilizate, ce sunt descrise mai departe.
2.8.1 Metoda Overlap-Add (Suprapune şi însumează)
Cea mai bună cale de a explica metoda Overlap-Add este de a recurge la un exemplu. Să
considerăm secvenţele v n şi h n din Figura 2.4; vom presupune că secvenţa v n este de
lungime „infinită” iar secvenţa h n are o lungime oarecare P finită. Se începe prin a
secţiona secvenţa v n în blocuri adiacente dar care nu se suprapun ca în Figura 2.5, fiecare
bloc fiind de lungime Q N P , unde N are o lungime prestabilită. Semnalul poate fi
reprezentat în acest caz prin suma unor secvenţe deplasate de lungime finită:
0
r
r
v n v n
(2.21)
unde
, 0,1, , 1
0, în restr
v n rQ n Qv n
(2.22)
În continuare, fiecărei secţiuni i se adaugă câte 1P eşantioane nule în scopul
completării unei perioade a secvenţei periodice de lungime N , cum prezintă Figura 2.5.
Prima secţiune astfel obţinută poate fi descrisă prin
30 SEMNALE ŞI SISTEME ÎN TIMP DISCRET - 2
0
, 0,1, ,
0, 1, , 1
v n n N Pv n
n N P N
(2.23)
Convoluţia circulară a lui 0v n cu h n dă secvenţa de ieşire 0u n prezentată în primul
Figura 2.5 (a) Descompunerea semnalului din Figura 2.4 în secţiuni adiacente de
lungime Q care nu se suprapun. (b) Rezultatul convoluţiei fiecărei
secţiuni cu h n .
Figura 2.4 Răspunsul la impuls de durată finită h n (a) şi semnalul de
durată nedefinită v n ce urmează a fi filtrat de h n (b).
2.8 Implementarea convoluţiei cu ajutorul transformării DFT 31
grafic din Figura 2.5.
A doua secţiune a semnalului 1v n împreună cu toate celelalte secţiuni ale secvenţei
v n sunt tratate în mod similar. Secvenţele de ieşire 1u n şi 2u n care rezultă în urma
aplicării la intrare a semnalelor 1v n şi respectiv 2v n sunt de asemenea ilustrate în
Figura 2.5. În final, secvenţele de ieşire 0 1, ,u n u n 2 ,u n sunt combinate pentru a
furniza secvenţa de ieşire globală u n . De remarcat că 1 2, ,u n u n sunt deplasate cu
valorile corespunzătoare, şi anume cu ,2 ,N N , înainte să fie adunate la 0u n . Procedeul
de convoluţie secţionată descris aici se numeşte metoda overlap-add din două motive: mai
întâi, secvenţele de ieşire tind să se suprapună una peste cealaltă iar apoi acestea sunt
adunate împreună în scopul furnizării rezultatului corect.
2.8.2 Metoda Overlap-Save (Suprapune şi salvează)
Această metodă diferă de metoda overlap-add prin aceea că se suprapun mai degrabă
secvenţele de intrare decât cele de ieşire. În mod specific, se secţionează secvenţa „infinit”
lungă de intrare în blocuri de N puncte care se suprapun pe lungimea a 1P eşantioane,
unde P este lungimea secvenţei „scurte” h n aşa cum ilustrează Figura 2.6. Convoluţia
Figura 2.6 (a) Descompunerea semnalului v n din Figura 2.4 în secţiuni de lungime
N care se suprapun. (b) Rezultatul convoluţiei fiecărei secţiuni cu h n ;
sunt indicate porţiunile din fiecare secţiune filtrată care sunt eliminate
pentru realizarea convoluţiei lineare.
32 SEMNALE ŞI SISTEME ÎN TIMP DISCRET - 2
circulară în N puncte ale lui h n şi rv n este calculată pentru 0,1,r Secvenţele de
ieşire 0u n , 1u n şi 2u n rezultate pentru secvenţele de intrare 0v n , 1v n şi 2v n sunt
de asemenea prezentate în Figura 2.6. Primele 1P eşantioane ale fiecărei secvenţe de
ieşire ,ru n 0,1,r se ignoră, pentru că ele sunt datorate efectului de înfăşurare la
capăt (wraparound) a convoluţiei circulare. În final, eşantioanele rămase ale secvenţelor
0u n , 1u n şi 2u n sunt însumate după ce au fost în prealabil deplasate cu valori
corespunzătoare. Se obţine astfel secvenţa corectă de ieşire u n . În acest fel, este evident
motivul pentru care procedeul de secţionare descris aici poartă numele de metoda
overlap-save.
În concluzie, pentru a calcula convoluţia lineară a unei secvenţe scurte h n cu o a doua
secvenţă mult mai lungă v n utilizăm una dintre cele două metode prezentate anterior. Mai
întâi, se secţionează secvenţa mai lungă în blocuri mici, apoi se calculează indirect, cu
ajutorul transformatei Fourier discrete (DFT), convoluţia circulară dintre fiecare dintre
aceste blocuri cu secvenţa scurtă h n , pentru ca în final rezultatele individuale să fie
asamblate într-o manieră corespunzătoare. Utilizarea într-o largă măsură a metodelor
overlap-add şi overlap-save se datorează existenţei unor algoritmi eficienţi de calcul a
transformatei DFT (de exemplu algoritmii FFT). Calculul indirect al convoluţiei prin
metodele overlap-add şi overlap-save cu utilizarea algoritmilor FFT poartă numele de
convoluţie rapidă, pentru că timpii de calcul sunt mai reduşi decât atunci când se efectuează
calculul direct al convoluţiei.
2.9 Transformarea cosinus discretă
(Discrete Cosine Transform - DCT)
Este o transformare utilizată în unele aplicaţii de prelucrare digitală a semnalelor. DCT se
foloseşte, îndeosebi în compresia datelor pentru că realizează o puternică „compactare a
energiei”, ceea ce face ca cea mai mare parte a informaţiei semnalului transformat să se
concentreze în componentele de joasă frecvenţă ale transformării (Strang 1999). Prin
aceasta, DCT se apropie de transformarea Karhunen-Loève (ce va fi introdusă în Capitolul
3), care este optimală din punctul de vedere a „albirii” datelor în cazul în care semnalul
prelucrat derivă dintr-un proces Markov. Transformarea DCT a unei secvenţe discrete de
N puncte u n se defineşte prin (Rao şi Yip 1990):
1
0
2 1cos , 0,1, , 1
2
N
m
n
n mU m k u n m N
N
(2.24)
iar transformarea inversă cosinus discretă (transformarea IDCT) a lui U m se defineşte
astfel:
2.9 Transformarea cosinus discretă (Discrete Cosine Transform - DCT) 33
1
0
2 12cos , 0,1, , 1
2
N
m
m
n mu n k U m n N
N N
(2.25)
Constanta mk din definiţiile (2.24) şi (2.25) se defineşte ea însăşi prin
1 2, 0
1, 1,2, , 1m
mk
m N
(2.26)
După cum se poate aştepta există o legătură între transformarea DCT şi transformarea
Fourier discretă. Pentru a stabili această legătură, începem prin a construi u n , o secvenţă
de 2N puncte, ce reprezintă extensia pară a secvenţei iniţiale u n :
, 0,1, , 1
2 1 , , 1, ,2 1
u n n Nu n
u N n n N N N
(2.27)
În acest fel, u n este o extensie pară a lui u n . Transformarea DFT a secvenţei u n este
dată de:
2 2 22 1 1 2 1
2 2 2
0 0
j mn j mn j mnN N N
N N N
n n n N
U m u n e u n e u n e
(2.28)
Înlocuind ecuaţia (2.27) în (2.28), se obţine
2 21 2 1
2 2
0
2 121
2 2
0
2 1j mn j mnN N
N N
n n N
j m nj mnN
N N
n
U m u n e u N n e
u n e e
(2.29)
Introducem apoi în ecuaţia (2.29) defazajul 2m N şi factorul de ponderare 2mk , pentru
a scrie
2 1 2 11
2 2 2
0
1
0
1 1
2 2
2 1cos
2
j n m j n mjm N
N N Nm m
n
N
m
n
k e U m k u n e e
n mk u n
N
(2.30)
Recunoaştem în membrul drept al ecuaţiei (2.30), definiţia transformatei DCT a
secvenţei iniţiale u n . Rezultă prin urmare, că transformarea cosinus discretă U m a
secvenţei u n şi transformata Fourier discretă U m a secvenţei extinse u n sunt legate
prin relaţia:
21
, 0,1, , 12
jm
NmU m k e U m m N
(2.31)
34 SEMNALE ŞI SISTEME ÎN TIMP DISCRET - 2
Această relaţie arată că, în timp ce transformarea DFT este periodică de perioadă N ,
perioada transformării DCT este de valoare 2N .
Probleme
P 2.1 Să se determine transformata Z a semnalelor:
( ) , ( ) 0.5 1 ,
( ) 0.5 , ( ) 0.5 .
a b
nn
c d
a x n n b x n n n
c x n n d x n
,
Să se precizeze în fiecare caz RC şi să se reprezinte constelaţia de poli şi zerouri. În
expresiile de mai sus, n este impulsul unitar iar n impulsul treaptă unitate.
P 2.2 Să se determine pentru toate RC posibile, semnalele în timp discret care corespund
următoarelor transformate Z:
1 2
21 1
1( ) 2 1 1 ,
1 11 1
4 2
aa X z z z b X z
z z
P 2.3 Se consideră sistemul în timp discret a cărui răspuns la semnalul x n este dat de
relaţia:
0
0
n n
k n n
y n x k
unde 0n este un număr natural.
(a) Este acest sistem liniar? Dar invariant în timp? Dar cauzal?
(b) Se consideră că semnalul x n este mărginit superior: ,x n B n .
Demonstraţi că şi y n este mărginit superior de constanta C . Exprimaţi C în
funcţie de B şi de 0n .
P 2.4 Pentru secvenţele discrete 1,2,3,4,3,2,1x n şi 1,0, 1h n să se calcu-
leze convoluţia y n x n y n
(a) prin utilizarea definiţiei (2.7),
(b) prin utilizarea teoremei convoluţiei,
(c) prin utilizarea programului MATLAB.
P 2.5 Se consideră sistemul liniar şi invariant şi cauzal în timp discret descris prin
ecuaţia cu diferenţe finite:
1
12
y n y n x n
(a) Să se determine răspunsul în frecvenţă, jH e al sistemului.
SEMNALE ŞI SISTEME ÎN TIMP DISCRET Probleme 35
(b) Să se reprezinte grafic pe intervalul amplificarea jH e şi faza
arg jH e funcţiei de sistem.
(c) Care este răspunsul sistemului la următoarele semnale de intrare:
1 1
, 12 2
n
i iii x n n ii x n n n
P 2.6 Consideraţi funcţia de sistem
1 2
1 2
1 6
1 11
4 8
z zH z
z z
(a) Arătaţi că sistemul H z nu este un sistem de fază minimă.
(b) Construiţi un sistem de fază minimă minH z astfel încât:
min
j jH e H e
P 2.7 Fie 0,9n
x n n .
(a) Determinaţi analitic expresia lui x n x n şi reprezentaţi primele 101
eşantioane.
(b) Trunchiaţi x n la primele 51 de eşantioane. Calculaţi şi reprezentaţi convoluţia
x n x n utilizând funcţia MATLAB conv.
(c) Presupuneţi că x n este răspunsul la impuls al unui sistem SLIT. Determinaţi
pentru funcţia MATLAB filter coeficienţii vectorilor a şi b. Utilizând funcţia
filter, calculaţi şi reprezentaţi primele 101 eşantioane ale convoluţiei
x n x n .
(d) Comentaţi graficele obţinute. Care din procedurile MATLAB utilizate este cel mai
bine adaptată la calculul convoluţiei unor secvenţe de lungime infinită şi de ce?
P 2.8 Fie x n o secvenţă sinusoidală de frecvenţă 0 şi de lungime finită N:
0cos , 0 1
0, în rest
A n n Nx n
În acest fel, x n poate fi privit ca o sinusoidă de lungime infinită multiplicată
printr-o fereastră dreptunghiulară de lungime N.
(a) Dacă transformarea Fourier în timp discret a lui x n se exprimă prin părţile ei
reale şi imaginare astfel:
36 SEMNALE ŞI SISTEME ÎN TIMP DISCRET - 2
jX e X jX R I
determinaţi expresiile analitice ale lui X R şi X I
.Exprimaţi cos prin
intermediul exponenţialelor complexe şi utilizaţi proprietatea de modulaţie pentru
a da rezultatul.
(b) Alegeţi 32N şi 0 4 şi reprezentaţi X R
şi X I pentru
, .
(c) Calculaţi DFT în 32 de puncte a semnalului x n şi reprezentaţi separat
eşantioanele sale reale şi imaginare. Suprapuneţi graficul de la punctul (b) peste
graficul DFT. Comentaţi rezultatele.
(d) Repetaţi ultimele două puncte pentru 32N şi 0 1,1 4 . De ce graficele sunt
atât de diferite în raport cu cele obţinute iniţial?
P 2.9 Fie cos 4x n n . Vom presupune că sunt disponibile pentru procesare
numai 16 de eşantioane din semnal.
(a) Calculaţi transformarea Fourier discretă (DFT) pentru aceste 16 eşantioane şi
reprezentaţi amplitudinile lor.
(b) Calculaţi DFT în 32 de puncte a secvenţei obţinută prin adăugarea la cele 16
eşantioane de mai sus a altor 16 eşantioane nule (zero-padding).
(c) Repetaţi punctul (b) pentru DFT în 64 de puncte, adică pentru un zero-padding de
48 de puncte.
(d) Explicaţi efectul şi prin urmare scopul operaţiei DFT asupra spectrului DFT al
unei secvenţe de lungime finită.
3 Procese aleatoare în
timp discret
ermenul de semnal aleator sau semnal stochastic descrie evoluţia în timp a unui
fenomen statistic în conformitate cu legi probabilistice. Semnalul aleator este o
funcţie de timp definită pe un anumit interval de observaţie. Natura statistică a
fenomenului face ca înainte de a porni experimentul să nu se poată defini exact modul în
care acesta va evolua în timp.
Vom efectua studiul semnalelor aleatoare, pornind de la teoria variabilelor aleatoare şi a
vectorilor aleatori pe care le presupunem cunoscute (Papoulis 1991, Spătaru 1968), acestea
nefăcând obiectul lucrării de faţă. Un cadru matematic natural pentru descrierea acestor
semnale aleatoare este furnizat de teoria proceselor aleatoare în timp discret.
3.1 Caracterizarea statistică a proceselor
aleatoare în timp discret
Pentru a da o definiţie formală, vom considera un experiment ce are un număr finit sau
infinit de realizări dintr-un spaţiu eşantion 1 2, , S , fiecare dintre acestea produ-
cându-se cu o probabilitate P , 1,2,k k . Fiecărui element k din S i se atribuie
după o anumită regulă o secvenţă deterministă , ,kx n n . Spaţiul eşantion
S , probabilităţile P k şi secvenţele , kx n constituie un proces aleator în timp discret
sau o secvenţă aleatoare. Formal, , ,x n n este o secvenţă stochastică dacă
pentru o valoare fixată 0n a lui n , 0 ,x n este o variabilă aleatoare.
Setul tuturor secvenţelor posibile ,x n este denumit un ansamblu, iar fiecare
secvenţă individuală , kx n este numită realizare sau secvenţă eşantion a ansamblului.
Capitolul
3
T
38 PROCESE ALEATOARE ÎN TIMP DISCRET - 3
În funcţie de caracterul lui n şi al lui , există patru posibile interpretări ale lui
,x n , după cum relevă Figura 3.1 (Manolakis, ş.a. 2005):
,x n este o variabilă aleatoare dacă n este fixat iar este variabil.
,x n este o realizare dacă este fixat iar n este variabil.
,x n este un număr dacă atât n cât şi sunt fixate.
,x n este un proces stochastic dacă atât n cât şi sunt variabile.
3.1.1 Descrierea prin funcţii de probabilitate
Figura 3.1 evidenţiază că pentru 0n n , 0 ,x n este o variabilă aleatoare care este
descrisă printr-o funcţie de probabilitate de ordinul întâi, de exemplu funcţia de distribuţie
0;xF x n . În mod similar, pentru a descrie perechea de variabile aleatoare 1,x n şi
2 ,x n , se utilizează funcţia de distribuţie de ordinul doi 1 2 1 2, ; ,xF x x n n . Un proces
stochastic conţine infinit mai multe astfel de variabile aleatoare. Drept urmare, el poate fi
descris complet în sens statistic, dacă funcţia de distribuţie de ordinul k
1 1 1 1, , ; , , , ,x k k k kF x x n n P x n x x n x (3.1)
poate fi cunoscută pentru fiecare valoare 1k şi pentru toate momentele 1 2, ,n n , kn .
Densitatea de probabilitate de ordinul k este definită acum astfel:
1 1
1 1
1
, , ; , ,, , ; , , , 1
k
x k k
x k k
k
F x x n nf x x n n k
x x
(3.2)
Figura 3.1 Descrierea grafică a unui proces aleator.
3.1 Caracterizarea statistică a proceselor aleatoare în timp discret 39
În mod evident, descrierea probabilistică necesită foarte multă informaţie care, în
practică, este dificil de obţinut. Totuşi, multe proprietăţi ale proceselor stochastice pot fi
descrise prin momente de ordinul unu şi doi asociate densităţilor de probabilitate de acelaşi
ordin.
Pentru simplificare, în restul lucrării vom folosi notaţia compactă x n pentru a repre-
zenta atât un proces aleator ,x n cât şi o unică realizare x n , ce face parte din ansam-
blu. De asemenea, vom presupune, în lipsa unei specificaţii explicite, că procesele
stochastice sunt de valori complexe.
3.1.2 Descrierea prin medii statistice de ordinul unu
sau doi
În practică, nu se pot determina funcţiile de densitate, de probabilitate mutuală pentru un set
de observaţii (realizări ale unui proces aleator). În consecinţă, ne mulţumim cu
caracterizarea parţială a procesului prin determinarea momentelor sale de ordinul unu şi doi.
Pentru seria temporală cu valori complexe , 1 , ,u n u n u n M se defineşte
funcţia valoare medie a procesului prin:
n E u n (3.3)
unde E reprezintă operatorul de mediere statistică:
xE x xf x dx
(3.4)
Funcţia de autocorelaţie a procesului se defineşte prin:
1 2 1 2, ,r n n E u n u n
(3.5)
unde defineşte operaţia de conjugare complexă. Funcţia furnizează o măsură a depen-
denţei dintre valorile procesului la două momente diferite de timp. În acest sens, ea oferă
informaţii despre variaţia în timp a procesului stochastic.
De observat că pentru 1 2n n n , ,r n n reprezintă valoarea medie pătratică a lui
u n :
2
,r n n E u n
(3.6)
Funcţia de autocovarianţă este:
1 2 1 1 2 2 1 2 1 2, ,c n n E u n n u n n r n n n n
(3.7)
Dacă în (3.7) se consideră 1 2n n n , se obţine varianţa (sau momentul centrat de ordinul
doi) 2 n , un parametru deosebit de important în caracterizarea proceselor stochastice:
40 PROCESE ALEATOARE ÎN TIMP DISCRET - 3
2 2 22 n E u n n E u n n
(3.8)
Cele trei funcţii introduse realizează o caracterizare parţială a procesului, dacă se cunosc
valorile lor pentru diverse valori ale lui n1 şi n2. Sunt două avantaje ce se obţin prin utilizarea
acestei descrieri parţiale:
1. Poate fi stabilită prin măsurări practice,
2. Este bine adaptată la efectuarea de operaţiuni liniare asupra proceselor stochastice.
Relaţia statistică dintre două procese aleatoare u n şi v n , distribuite mutual (adică
definite pe acelaşi spaţiu eşantion S ) poate fi descrisă prin funcţiile de intercorelaţie (pe
scurt corelaţie) şi intercovarianţă (covarianţă) definite astfel:
1 2 1 2
* *
1 2 1 1 2 2 1 2 1 2
, ,
, ,
uv
uv uv
r n n E u n u n
c n n E u n n u n n r n n n n
(3.9)
3.1.3 Categorii de procese aleatoare
Vom descrie, pe baza proprietăţilor statistice, în continuare câteva categorii deosebite de
procese stochastice. Spunem că un proces aleator este:
Proces independent dacă:
1 1 1 1, , ; , , ; ; , , 1, ,u k k u u k k if u u n n f u n f u n k n i k (3.10)
adică, u n este o secvenţă de variabile aleatoare independente. Dacă toate varia-
bilele independente au aceiaşi densitate de probabilitate f u , oricare ar fi k ,
atunci u n reprezintă o secvenţă aleatoare IID (Independent and Identically
Distributed – distribuită independent şi identic).
Proces necorelat dacă x n este o secvenţă de variabile aleatoare necorelate:
2
2 1 1 2
1 2 1 1 2
1 2
,,
0,
n n nc n n n n n
n n
(3.11)
Alternativ, funcţia de autocorelaţie a unui proces necorelat este
22
1 1 1 2
1 2
1 2 1 2
,,
* ,
n n n nr n n
n n n n
(3.12)
Proces ortogonal sau secvenţă de variabile aleatoare ortogonale
222
1 1 1 2
1 2 1 1 2
1 2
,,
0,
n n n nr n n E u n n n
n n
(3.13)
3.1 Caracterizarea statistică a proceselor aleatoare în timp discret 41
Aceste definiţii se pot extinde la cazul a două procese aleatoare mutual. Spunem că
procesele aleatoare u n şi v n sunt
Independente statistic dacă pentru toate valorile lui 1n şi
2n
1 2 1 2, ; , ; ;uv u vf u v n n f u n f v n (3.14)
Necorelate dacă pentru orice 1n şi
2n
1 2 1 2 1 2; 0 sau ;uv uv u vc n n r n n n n (3.15)
Ortogonale dacă oricare ar fi 1n şi
2n
1 2; 0uvr n n (3.16)
3.1.4 Procese aleatoare staţionare
Un proces aleator este numit staţionar dacă statisticile determinate pentru u n sunt egale
cu statisticile lui u n k , oricare ar fi k. Mai exact, definiţia este:
Definiţie: Un proces stochastic u n este denumit staţionar de ordinul N dacă
1 1 1 1, , ; , , , , ; , , ,u N N u N Nf u u n n f u u n k n k (3.17)
pentru orice valoare a lui k . Dacă u n este staţionar, oricare ar fi ordinul
1,2,N , atunci se spune că procesul este staţionar în sens strict.
De remarcat că staţionaritatea în sens strict este o condiţie prea restrictivă pentru cele
mai multe aplicaţii practice. O formă mai relaxată de staţionaritate, suficientă în problemele
practice are loc atunci când procesul aleator este staţionar de ordinul 2, caz care mai este
numit staţionaritate în sens larg.
Definiţie: Un proces aleator u n este denumit staţionar în sens larg dacă media
sa statistică este o constantă independentă de n , adică
E u n (3.18)
Varianţa sa este, de asemenea, o constantă independentă de n , adică
2 22 2n E u n n E u n
(3.19)
Funcţia de autocorelaţie depinde numai de distanţa 1 2l n n , numită întârziere,
adică
* *
1 2 1 2,r n n r n n r l E u n l u n E u n u n l (3.20)
Din ecuaţiile (3.18), (3.19) şi (3.20) rezultă că funcţia de autocovarianţă a unui semnal
staţionar în sens larg depinde de asemenea numai de 1 2l n n , cu alte cuvinte:
2
c l r l (3.21)
42 PROCESE ALEATOARE ÎN TIMP DISCRET - 3
Exemplul 3.1: Fie w n o secvenţă gaussiană, de medie nulă şi necorelată de
varianţă 2 1n .
a. Caracterizaţi secvenţa aleatoare w n .
b. Se defineşte 1 ,u n w n w n n . Determinaţi media şi
autocorelaţia lui u n . Caracterizaţi de asemenea secvenţa u n .
Soluţie: Vom observa pentru început că varianţa lui w n este o constantă.
În cazul variabilelor aleatoare gaussiene, necorelarea implică independenţa
ceea ce face ca w n să fie o secvenţă aleatoare independentă. Pentru că atât
media cât şi varianţa ei sunt constante, secvenţa este, cel puţin, staţionară de
ordinul unu. Mai mult, din (3.12) şi (3.13) avem
2
1 2 1 2 1 2,wr n n n n n n
Prin urmare, w n este, de asemenea, un proces aleator în sens larg.
Media statistică a lui u n este zero oricare ar fi n pentru că w n este un
proces de medie zero. Calculăm autocorelaţia:
1 2 1 2 1 1 2 2
1 2 1 2 1 2 1 2
2 2 2 2
1 2 1 2 1 2 1 2
1 2 1 2 1 2
, 1 1
, , 1 1, 1, 1
1 1 1 1
2 1 1
u
w w w w
r n n E u n u n E w n w n w n w n
r n n r n n r n n r n n
n n n n n n n n
n n n n n n
Evident că 1 2,ur n n este funcţie de 1 2n n l . Prin urmare
2 1 1ur l l l l
Prin urmare u n este o secvenţă staţionară în sens larg. Totuşi, aceasta nu
este o secvenţă aleatoare independentă pentru că atât u n cât şi 1u n depind
de w n .
Vom sublinia că, deşi orice semnal staţionar în sens strict este staţionar în sens larg,
inversa nu este întotdeauna adevărată, cu excepţia cazului în care semnalul este gaussian.
Totuşi în practică, se întâlnesc rar cazuri în care un semnal staţionar în sens larg să nu fie
staţionar în sens strict (Manolakis, ş.a. 2005).
Secvenţa de autocorelaţie a unui proces staţionar are o serie de proprietăţi importante,
utile în dezvoltarea studiului nostru:
Proprietatea 1: Puterea medie a procesului aleator staţionar în sens larg u n
satisface relaţiile:
3.2 Caracterizarea temporală a proceselor aleatoare în timp discret 43
220 0,
0 ,
r
r r n n
(3.22)
Prima parte rezultă din ecuaţia (3.21), cea de a doua parte poate fi demonstrată utilizând
inegalitatea 2
0E u n l u n
.
Proprietatea implică faptul că funcţia de corelaţie îşi atinge valoarea maximă la întârzie-
re nulă şi că această valoare este pozitivă. Mărimea 2
reprezintă puterea medie de curent
continuu (cc) iar 2 este puterea medie de curent alternativ (ca) a secvenţei aleatoare.
Mărimea 0r este, prin urmare, puterea medie totală a lui u n .
Proprietatea 2: Secvenţa de autocorelaţie r n este o funcţie simetric conjugată,
adică:
*r n r n (3.23)
Demonstraţia proprietăţii se face pe baza definiţiilor staţionarităţii în sens larg şi a
ecuaţiei (3.20).
Două semnale aleatoare u n şi v n se numesc staţionare mutual în sens larg dacă
fiecare este staţionar în sens larg iar funcţia lor de intercorelaţie (corelaţie) depinde numai de
1 2l n n
* *;uv uv uv u vr l E u n v n l c l r l (3.24)
Consecinţa staţionarităţii în sens larg este că secvenţele de corelaţie sau covarianţă
bidimensionale devin secvenţe unidimensionale. Este un rezultat foarte important care
permite realizarea descrierii spectrale a proceselor aleatoare staţionare.
3.2 Caracterizarea temporală a proceselor
aleatoare în timp discret
Un proces aleator constă dintr-un ansamblu de realizări şi o lege de probabilitate. Dacă
aceste informaţii sunt disponibile, proprietăţile statistice ale procesului pot fi stabilite în mod
direct. Totuşi în realitate, avem acces la un număr limitat de realizări ale procesului (de
obicei, numai una). Este foarte important în aceste condiţii să putem stabili caracteristicile
statistice ale procesului dintr-o singură realizare, lucru ce devine posibil pentru clasa de
procese aleatoare numite ergodice. Aşadar, ergodicitatea, care se bazează pe descrierea în
domeniul timp a procesului aleator, permite ca toate informaţiile statistice referitoare la
proces să poată fi obţinute dintr-o singură realizare a acestuia.
44 PROCESE ALEATOARE ÎN TIMP DISCRET - 3
3.2.1 Medii temporale
În practică, mediile statistice definite prin operatorul E , ce presupun operaţiuni statistice
pe un ansamblu de realizări, nu se fac frecvent, pentru că nu se poate dispune de un număr
suficient de realizări pentru ca estimarea realizată să fie precisă. Apare prin urmare nevoia
unui alt tip de mediere, bazată pe o singură realizare a procesului aleator. Evident, aceasta se
poate realiza numai prin mediere în timp.
Media temporală a unei mărimi, legate de un semnal aleator în timp discret se defineşte
astfel:
1
lim2 1
N
Nn NN
(3.25)
De remarcat că, datorită dependenţei de o singură realizare, orice medie temporală este ea
însăşi o variabilă aleatoare.
Corespunzător fiecare medii pe ansamblu discutate anterior, putem defini o medie
temporală corespunzătoare:
2
2
*
*
*
*
Valoare medie = ,
Valoare medie pătratică = ,
Varianţă = ,
Autocorelaţie = ,
Autocovarianţă = ,
Intercorelaţie = ,
Intercovarianţă =
u n
u n
u n u n
u n u n l
u n u n u n l u n l
u n v n l
u n u n v n l v n l
(3.26)
3.2.2 Procese aleatoare ergodice
Un semnal stochastic u n este denumit ergodic dacă mediile statistice pe ansamblul
realizărilor sunt egale cu mediile de timp corespunzătoare. Există diverse grade de
ergodicitate (Papoulis 1991). Prezentăm în continuare două dintre acestea: ergodicitate în
medie şi ergodicitate în corelaţie.
Definiţie: Un proces aleator u n este ergodic în medie dacă:
u n E u n (3.27)
Definiţie: Un proces aleator u n este ergodic în corelaţie dacă:
* *u n u n l E u n u n l (3.28)
3.3 Descrierea în domeniul frecvenţă a proceselor staţionare 45
Trebuie remarcat aici că, întrucât u n este o constantă iar *u n u n l este
funcţie de l , dacă u n este ergodic atât în medie cât şi în corelaţie, atunci procesul este
şi staţionar în sens larg. Astfel, numai semnalele staţionare pot fi ergodice. Pe de altă parte,
staţionaritatea în sens larg nu implică ergodicitate de orice fel. Din fericire, în practică
aproape toate procesele staţionare sunt şi ergodice, ceea ce este foarte util pentru estimarea
proprietăţilor lor statistice. În continuare, vom înţelege prin ergodicitate atât ergodicitatea în
medie cât şi în corelaţie.
Definiţie: Două semnale aleatoare sunt denumite mutual ergodice dacă ele sunt
individual ergodice şi, în plus:
* *u n v n l E u n v n l (3.29)
În practică, este evident imposibil să utilizăm formula de mediere temporală (3.25),
pentru că pentru medie sunt disponibile doar secvenţe de lungime finită. Operatorul de
medie temporală utilizat în practică în locul lui (3.25) este:
1
2 1
N
Nn NN
(3.30)
În final, să concluzionăm că dacă staţionaritatea presupune invarianţa în timp a statisti-
cilor semnalului aleator, atunci ergodicitatea înseamnă că orice statistică poate fi calculată
atât prin mediere peste toate realizările ansamblului la un moment de timp fixat cât şi prin
mediere în timp pe o singură realizare din ansamblu.
3.3 Descrierea în domeniul frecvenţă a
proceselor staţionare
3.3.1 Densitatea spectrală de putere – definiţie şi
proprietăţi
Fie seria temporală u n infinit lungă care reprezintă o singură realizare a unui proces
aleator discret staţionar în sens larg, de medie nulă. Delimităm o porţiune de N eşantioane
din respectiva serie:
, 0, 1, , 1
0, 0, 0N
u n n Nu n
n n
(3.31)
şi calculăm transformata Fourier în timp discret a acesteia cu relaţia
1
0
Nj n
N N
n
U u n e
(3.32)
În general NU este o funcţie complexă, având pătratul modulului stabilit prin ecuaţia de
mai jos
46 PROCESE ALEATOARE ÎN TIMP DISCRET - 3
1 1
2 * *
0 0
N Nj n k
N N N N N
n k
U U U u n u k e
(3.33)
Trecerea de la o realizare la descrierea întregului proces aleator, implică efectuarea
medierii statistice în ambii membri ai relaţiei (3.33), cu schimbarea între ei a operatorilor de
mediere şi sumare în membrul drept al ecuaţiei:
1 1
2 *
0 0
N Nj n k
N N N
n k
E U E u n u k e
(3.34)
Se poate recunoaşte în media din membrul drept al lui (3.34) pe Nr n k , funcţia de auto-
corelaţie a lui Nu n , care, potrivit definiţiei (3.31), poate fi exprimată prin autocorelaţia lui
u n :
*
, 0 , 1
0, altfelN
E u n u k r n k n k Nr n k
(3.35)
Prin urmare, ecuaţia (3.34) capătă forma
1 1
2
0 0
N Nj n k
N
n k
E U r n k e
(3.36)
şi, înlocuind l n k se scrie:
1
2
1
11
Nj l
N
l N
lE U r l e
N N
(3.37)
Pe măsură ce N tinde la infinit, valoarea parantezei rotunde din membrul drept al ecuaţiei
(3.37) tinde către unu, astfel încât se poate scrie:
21
limj l
N
ln
E U r l eN
(3.38)
Ecuaţia (3.38) ne permite să definim mărimea
21
limN
n
S E UN
(3.39)
Dacă limita din ecuaţia (3.39) există, o interpretare a mărimii S d îi atribuie aces-
teia semnificaţia de valoare medie a contribuţiei la puterea totală a semnalului aleator staţio-
nar în sens larg a componentelor de frecvenţă cuprinse între frecvenţele şi ;
media este realizată pe toate realizările posibile ale procesului (Haykin 1996). Drept urmare,
S este, pe scurt, densitatea spectrală de putere a procesului aleator, ceea ce ne permite
să rescriem acum ecuaţia (3.38), astfel:
3.3 Descrierea în domeniul frecvenţă a proceselor staţionare 47
,j l
l
S r l e
(3.40)
În concluzie, ecuaţia (3.40) stabileşte că:
Proprietatea 1: Funcţia de autocorelaţie şi densitatea spectrală de putere a unui
proces aleator staţionar în sens larg formează o pereche de transformate Fourier.
Prin urmare, legătura dintre funcţia de autocorelaţie r l şi densitatea spectrală de pute-
re S a unui proces aleator staţionar în sens larg este stabilită de relaţiile (3.40) şi (3.41):
1
, 0, 1, 2,2
j lr l S e d l
(3.41)
Această pereche de ecuaţii fundamentale poartă numele de Teorema Wiener-Hincin.
Proprietatea 2: Densitatea spectrală de putere S este o funcţie de frecvenţă
cu valori reale, periodică de perioadă 2 pentru orice proces aleator cu valori
complexe u n . Dacă u n este un proces cu valori reale, atunci S este de
asemenea, o funcţie pară de .
Pentru a demonstra prima parte a proprietăţii, rescriem ecuaţia (3.41):
1
1
0 j k j k
k k
S r r k e r k e
Înlocuind pe k cu k în al treilea termen din partea dreaptă a ecuaţiei, şi observând că
*r k r k , se obţine
*
1 1
0 0 2 Rej k j k j k
k k
S r r k e r k e r r k e
(3.42)
unde Re este operatorul parte reală. Ecuaţia (3.42) arată că densitatea spectrală de putere
S este o funcţie cu valori reale de .
Proprietatea 3: Densitatea spectrală de putere a unui proces aleator staţionar în
timp discret este o funcţie nenegativă:
0, ,S (3.43)
Proprietatea rezultă direct din formula fundamentală (3.39).
Proprietatea 4: Valoarea medie pătratică a unui proces aleator staţionar în timp
discret este egală, cu excepţia factorului de scală 1 2 , cu aria de sub curba
S pentru .
Proprietatea rezultă direct din ecuaţia (3.41) evaluată pentru 0l :
1
02
r S d
(3.44)
48 PROCESE ALEATOARE ÎN TIMP DISCRET - 3
Densitatea spectrală mutuală de putere sau interspectrul a două procese stochastice
staţionare mutual u n şi v n face o reprezentare în domeniul frecvenţă a relaţiilor lor
statistice şi este definită ca transformare Fourier a funcţiei lor de intercorelaţie
j k
uv uv
k
S r k e
(3.45)
Funcţia de intercorelaţie uvr n poate fi obţinută prin transformarea Fourier inversă a
interspectrului:
1
2
j n
uv uvr n S e d
(3.46)
3.3.2 Zgomotul alb
O secvenţă aleatoare staţionară în sens larg w n este denumită proces de zgomot alb de
medie w şi varianţă 2
w dacă şi numai dacă wE w n şi
2
w wr l E w n w n l l (3.47)
ceea ce implică ca 2 ,w wS (3.48)
Termenul de zgomot alb este utilizat pentru a sublinia că toate frecvenţele au contribuţii
egale la puterea semnalului, ca şi în cazul luminii albe, care se obţine prin combinarea tutu-
ror culorilor posibile cu aceiaşi pondere. Dacă, în plus, funcţia de densitate de probabilitate a
lui w n este gaussiană, atunci procesul este denumit proces de zgomot alb gaussian.
Este evident că zgomotul alb este cel mai simplu proces aleator, pentru că nu are niciun
fel de structură statistică. Totuşi, după cum se va vedea în continuare, el poate fi utilizat ca
bloc de bază în construcţia de procese aleatoare ce au structuri de corelaţie mult mai
complicate.
3.4 Trecerea semnalelor aleatoare prin
sisteme lineare invariante în timp
Vom considera un sistem în timp discret care este linear, invariant în timp şi stabil.
Răspunsul la impuls unitar al sistemului este h n , şi acesta are drept transformată Fourier
funcţia cu valori complexe H , funcţia de transfer a sistemului.
3.4.1 Analiza în domeniul timp
Pentru a calcula acţiunea sistemului asupra semnalului aleator u n aplicat la intrarea lui,
vom nota procesul aleator de la ieşirea acestuia prin y n (vezi Figura 3.2(a)). Vom utiliza
3.4 Trecerea semnalelor aleatoare prin sisteme lineare invariante în timp 49
acest paragraf pentru a stabili relaţiile intrare-ieşire pe care le stabileşte sistemul precum şi
proprietăţile statistice ale procesului aleator de la ieşirea acestuia.
Semnalul de la ieşirea sistemului reprezintă rezultatul convoluţiei dintre semnalul de
intrare şi funcţia pondere a sistemului, h n :
k
y n h h k u n kn u n
(3.49)
Dacă u n este staţionar, media sa statistică u este independentă de timp. Pentru a
determina valoarea medie a procesului de la ieşire, vom aplica operatorul de mediere ambi-
lor termeni ai ecuaţiei (3.49):
0 0j
y u u
k k
h k E u n k h k e H
(3.50)
u şi 0H fiind constante, y este de asemenea o constantă.
Notaţiile utilizate pentru funcţia de autocorelaţie sunt ur l în cazul secvenţei de intrare,
respectiv yr l pentru secvenţa de ieşire:
* *,
u yr l E u n u n l r l E y n y n l (3.51)
Pentru a calcula corelaţia dintre semnalul de intrare şi cel de ieşire (intercorelaţia
intrare-ieşire), conjugăm complex ecuaţia (3.49), o multiplicăm cu u n l şi calculăm
media statistică pentru ambii membri ai relaţiei obţinute
* * *
k
E u n l y l h k E u n l u n k
sau * *
uy u u
k m
r l h k r l k h m r l m
Prin urmare, *
uy ur l h l r l (3.52)
Similar, yu ur l h l r l (3.53)
Calculăm în continuare funcţia de autocorelaţie a semnalului de ieşire. Înmulţim în acest
scop ambii termeni ai lui (3.49) cu y n l şi continuăm, mediind statistic
Figura 3.2 (a) Transmisia unui semnal aleator printr-un sistem linear. (b) Sistem echivalent
ce are la intrare secvenţa de autocorelaţie a intrării de la punctul (a).
50 PROCESE ALEATOARE ÎN TIMP DISCRET - 3
k
E y n y n l h k E u n k y n l
sau y uy uy
k
r l h k r l k h l r l
(3.54)
Din (3.52) şi (3.54) se obţine
y ur l h l h l r l (3.55)
sau y h ur l r l r l (3.56)
unde h
n
r l h l h l h n h n l
(3.57)
este funcţia de autocorelaţie a răspunsului la impuls şi este denumită secvenţa de corelaţie a
sistemului.
Având în vedere că y este constant iar yr l depinde numai de întârzierea l, răspunsul
sistemului la un semnal de intrare staţionar este de asemenea un proces staţionar (vezi
Figura 3.2(a)). Concluzia care poate fi desprinsă după o examinare atentă a relaţiei (3.57)
este că atunci când un semnal u n este filtrat de un sistem linear invariabil în timp cu
răspunsul la impuls h n , autocorelaţia sa este „filtrată” de un sistem cu răspunsul la
impuls egal cu autocorelaţia lui h n , după cum arată Figura 3.2(b).
3.4.2 Analiza în domeniul frecvenţă
În vederea calculului spectrului semnalului de ieşire al sistemului din Figura 3.2(b), aplicăm
transformata Fourier relaţiei (3.55) şi avem în vedere că *h l H F . Se obţine
astfel:
2
y uS H S (3.58)
Densitatea spectrală mutuală a proceselor staţionare de la intrarea şi ieşirea sistemului se
calculează pornind de la ecuaţiile (3.52) şi (3.53)
**
,uy u yu u
S H S S H S (3.59)
În concluzie, prin referire la ecuaţia (3.58), cunoscând densităţile spectrale de putere
la intrare şi ieşire, putem determina modulul răspunsului în frecvenţă al sistemului nu şi faza
acestei funcţii. Doar densităţile mutuale de putere sau interspectrul (vezi ecuaţia (3.59))
furnizează informaţii despre faza funcţiei.
3.5 Matricea de corelaţie
În prelucrarea adaptivă a semnalelor dar şi în analiza semnalelor se obişnuieşte să se
reprezinte semnalele aleatoare sub forma unor vectori de date (Ciochină şi Negrescu 1999).
3.5 Matricea de corelaţie 51
În aceste condiţii, valorile funcţiei de autocorelaţie a semnalului sunt reprezentate sub forma
unei matrici pătrate, matricea de corelaţie a procesului (Bellanger 1989, Haykin 1996).
3.5.1 Definirea matricii de corelaţie
Fie vectorul de observaţie de dimensiuni 1M nu format din elemente ale seriei
temporale , 1 , , 1u n u n u n M . Scriem:
1 1T
n u n u n u n M u (3.60)
unde indicele T este pentru operaţia de transpunere, iar u n este un proces aleator staţio-
nar în sens larg.
Se defineşte matricea de corelaţie a procesului în timp discret aleator reprezentat prin
acest vector, media statistică:
HE n n R u u (3.61)
unde indicele H indică operaţia de transpunere hermitică (conjugare + transpunere).
Înlocuirea lui (3.60) în (3.61) şi utilizarea condiţiilor de staţionaritate în sens larg condu-
ce la matricea R de dimensiune M M :
0 1 1
1 0 2
1 2 0
r r r M
r r r M
r M r M r
R (3.62)
unde r k E u n u n k (3.63)
este funcţia de autocorelaţie a vectorului nu . Elementul 0r de pe diagonala principală
este întotdeauna real. În schimb pentru serii nu complexe, restul elementelor lui R au
valori complexe.
3.5.2 Proprietăţile matricii de corelaţie
Matricea de corelaţie R are un rol major în analiza statistică şi definirea filtrelor adap-
tive. Din acest motiv vom examina în continuare unele proprietăţi importante ale acesteia.
Proprietatea 1: Matricea de corelaţie a unui proces în timp discret aleator
staţionar este hermitică. (Se spune că o matrice complexă este hermitică dacă ea
este egală cu conjugata sa transpusă). În particular:
HR R (3.64)
Proprietatea derivă din observaţia
r k E u n u n k E u n u n k r k
(3.65)
52 PROCESE ALEATOARE ÎN TIMP DISCRET - 3
Deci, în cazul unui proces aleator în sens larg sunt necesare doar M valori ale lui r k ,
0,1, , 1k M pentru a defini complet pe R , care poate fi acum scris sub forma
0 1 1
1 0 2
1 2 0
r r r M
r r r M
r M r M r
R (3.66)
În cazul special al vectorului de date nu real, r k este real pentru k , iar R este o
matrice simetrică.
Proprietatea 2: Matricea de corelaţie a unui proces aleator în timp discret
staţionar are proprietatea Toeplitz, adică toate elementele de pe diagonala prin-
cipală şi de pe orice altă diagonală paralelă cu cea principală sunt egale între ele.
Este important de observat că proprietatea Toeplitz a matricii de corelaţie R este o
consecinţă directă a presupunerii că procesul stochastic în timp discret reprezentat de
vectorul de observaţie nu este staţionar în sens larg.
Proprietatea 3: Matricea R este pozitiv semidefinită. Această proprietate
înseamnă că pentru orice vector complex nenul x de dimensiune 1M ,
1 1
0M M
i j
i j
r i j x x
H
x R x (3.67)
Într-adevăr,
2
0E n n E n n E n H H H H H H
x R x x u u x x u u x x u
Consecinţa acestei proprietăţi în cazul inegalităţii stricte implică faptul că determinantul lui
R împreună cu toţi minorii săi principali sunt mai mari decât 0, ceea ce atrage consecinţa că
matricea de corelaţie a unui proces staţionar este nesingulară, adică este inversabilă.
Proprietatea 4: Dacă ordinea elementelor vectorului de observaţie nu este
inversată, efectul este echivalent cu transpunerea matricii de corelaţie a
procesului.
Notăm prin nB
u , vectorul 1M obţinut prin inversarea ordinii elementelor vecto-
rului de date:
1 2TBT
n u n M u n M u n u (3.68)
unde indicele B reprezintă rearanjarea, prin inversarea ordinii, a elementelor unui vector.
Matricea de corelaţie a acestui vector este:
3.5 Matricea de corelaţie 53
0 1 1
1 0 2
1 2 0
B BH
r r r M
r r r ME n n
r M r M r
u u (3.69)
Prin urmare, comparând matricea de corelaţie extinsă din (3.69) cu cea din ecuaţia (3.66), se
observă că
B BH TE n n u u R (3.70)
Proprietatea 5: Matricele de corelaţie M
R şi 1M
R ale unui proces aleator în timp
discret staţionar corespunzătoare la M respectiv 1M observaţii asupra proce-
sului sunt legate prin următoarele relaţii:
1 1
0
sau echivalent
0
H B
M
M M
BT
M
r
r
r R r
R R
r R r
(3.71)
unde 0r este autocorelaţia procesului pentru întârziere 0 şi:
1 2
1 1
H
BT
r r r M
r M r M r
r
r (3.72)
Pentru a demonstra prima parte a ecuaţiei (3.71), se exprimă 1M R prin utilizarea
partiţiei de mai jos:
1
0 1 2
1 0 1 1
2 1 0 2
1 2 0
M
r r r r M
r r r r M
r r r r M
r M r M r M r
R (3.73)
Identic se demonstrează şi partea a doua a ecuaţiei (3.71).
3.5.3 Matricea de corelaţie a unei sinusoide complexe
înecate în zgomot aditiv
Sinusoida înecată în zgomot reprezintă o serie temporală ce prezintă un interes deosebit în
multe aplicaţii importante de prelucrare a semnalelor. De exemplu, ea poate reprezenta
semnalul compus de la intrarea unui receptor, sinusoida complexă constituind semnalul util
iar zgomotul fiind datorat fenomenelor termice de la intrarea receptorului.
54 PROCESE ALEATOARE ÎN TIMP DISCRET - 3
Vom nota prin şi amplitudinea, respectiv pulsaţia sinusoidei complexe. În ceea ce
priveşte zgomotul, el este presupus de medie nulă, n , fiind eşantionul de la momentul
n . Seria temporală ce constă din sinusoida complexă plus zgomot se scrie astfel:
exp , 0,1, , 1u n j n n n N (3.74)
Cele două componente ale procesului sunt independente una de alta iar media lui u n este
evident egală cu exp j n .
Pentru a calcula funcţia de autocorelaţie a procesului u n este nevoie, fără îndoială, să
fie cunoscută funcţia de autocorelaţie a zgomotului. Vom presupune că acesta este zgomot
alb introdus în paragraful 3.3.2, fiind caracterizat de următoarea funcţie de autocorelaţie
2 , 0
0, 0
kE n n k
k
(3.75)
Sursele ce generează sinusoida complexă şi zgomotul sunt independente şi, prin urmare
necorelate, astfel încât funcţia de autocorelaţie a procesului u n este egală cu suma
funcţiilor de autocorelaţie a celor două componente. În consecinţă, utilizăm ecuaţiile (3.74)
şi (3.75) pentru a stabili funcţia de autocorelaţie pentru o întârziere de valoare k :
2 2
2
, 0
exp , 0
kr k E u n u n k
j k k
(3.76)
De remarcat că pentru o deplasare 0k , funcţia de autocorelaţie r k este, cu excepţia
amplitudinii, aceiaşi sinusoidă cu cea din procesul u n .
Pentru M observaţii, , 1 , , 1u n u n u n M făcute asupra procesului aleator,
matricea de corelaţie se calculează, utilizând rezultatul din (3.76) în definiţia (3.62):
2
1 1 exp exp 1
exp 1 1 exp 2
exp 1 exp 2 1 1
j j M
j j M
j M j M
R (3.77)
unde este raportul semnal-zgomot definit prin
2
2
v
(3.78)
Un caz particular al situaţiei descrise anterior este cel în care din componenţa procesului
aleator (3.74) dispare zgomotul. Prin urmare, . De asemenea, pentru comoditate,
3M . Particularizând în (3.77), matricea de corelaţie a acestei serii temporale este:
3.6 Vectori şi valori proprii ale matricii de corelaţie 55
2
1 exp exp 2
exp 1 exp
exp 2 exp 1
j j
j j
j j
R (3.79)
Este simplu de observat din (3.79) că atât determinantul lui R cât şi determinanţii tuturor
minorilor principali ai acestuia sunt nuli. Prin urmare, această matrice de corelaţie este
singulară.
O generalizare a rezultatului de mai sus se referă la un proces u n ce constă din
M eşantioane obţinute prin însumarea a K sinusoide ( K M ) şi care nu conţine zgomot
aditiv. Matricea de corelaţie a unui asemenea proces este, de asemenea, singulară.
3.6 Vectori şi valori proprii ale matricii de
corelaţie
Matricea de corelaţie a unui proces aleator în timp discret staţionar este hermitică, fapt ce
permite descompunerea convenabilă a acesteia în funcţie de valorile şi vectorii săi proprii.
Această formă de reprezentare este utilă în prelucrarea digitală a semnalelor.
3.6.1 Problema valorilor proprii
Vectorul propriu de dimensiune 1M al matricii de corelaţie R notat prin q satisface
condiţia:
Rq q (3.80)
unde este o constantă particulară. Conform condiţiei, vectorul q este transformat în
vectorul q de către matricea hermitică R . Mărimea fiind o constantă, vectorul q are
semnificaţia specială că rămâne invariant în direcţie (în spaţiul M dimensional) în urma
transformării liniare R . Vectorii proprii ai unei matricii R de dimensiune M M sunt în
număr de M şi se pot obţine prin rezolvarea ecuaţiei (3.80), rescrisă sub forma:
R I q 0 (3.81)
unde I este matricea identitate de dimensiune M M iar 0 este vectorul de dimensiune
1M nul. Matricea R I trebuie să fie singulară, pentru că există soluţii nenule pentru
q dacă şi numai dacă:
det 0 R I (3.82)
Dezvoltarea determinantului (3.82) conduce evident la un polinom în de gradul M cu
M rădăcini pentru . În consecinţă, (3.81) are M soluţii pentru vectorul q .
Ecuaţia (3.82) se numeşte ecuaţia caracteristică a matricii R . Rădăcinile 1 2, , , M
ale ecuaţiei sunt denumite valori proprii ale matricii R . Acestea pot fi sau nu distincte.
56 PROCESE ALEATOARE ÎN TIMP DISCRET - 3
Atunci când ecuaţia caracteristică (3.82) are rădăcini multiple, se spune că matricea R are
valori proprii degenerate.
Să notăm prin i , o valoare proprie a lui R . De asemenea, fie
iq un vector nenul,
astfel că:
i i iRq q (3.83)
Vectorul iq se numeşte vector propriu asociat lui
i . Un vector propriu poate cores-
punde unei singure valori proprii. Totuşi, o valoare proprie poate avea mai mulţi vectori
proprii, întrucât dacă iq este un vector propriu asociat valorii proprii
i atunci şi a iq are
aceiaşi proprietate, a 0 . Putem spune, în consecinţă, că, dacă R are M valori proprii
distincte i , acestora le corespund M vectori proprii distincţi până la un factor de scară.
Dacă, în schimb, m este o valoare proprie degenerată a lui R repetată de p ori, atunci
rangul matricii mR I se reduce astfel încât soluţia ecuaţiei (3.80), mq poate fi orice
vector dintr-un subspaţiu p-dimensional al spaţiului vectorial cu M dimensiuni.
Exemplul 3.2: Zgomot alb
Matricea de corelaţie de dimensiune M M a unui proces de zgomot alb este
diagonală (vezi (3.47) şi (3.62)):
2 2 2diag , , , R
unde 2 este varianţa procesului. Matricea R are o singură valoare proprie dege-
nerată de multiplicitate M egală cu 2 . Orice vector de dimensiune 1M poate
reprezenta un vector propriu asociat.
Exemplul 3.3: Sinusoidă complexă
Fie matricea de corelaţie de dimensiune M M a unei serii de timp a cărei
elemente sunt eşantioanele unei sinusoide complexe de fază aleatoare şi putere
unitară:
1
2
1 2
1
1
1
j Mj
j Mj
j M j M
e e
e e
e e
R
unde este frecvenţa sinusoidei complexe. Vectorul de dimensiune 1M
1
1j Mje e
q
este un vector propriu al matricii R , iar valoarea proprie corespunzătoare este M
(adică dimensiunea matricii R ). Cu alte cuvinte, o sinusoidă complexă este un
vector propriu al propriei sale matrici de corelaţie, cu excepţia operaţiei triviale
de conjugare complexă.
3.6 Vectori şi valori proprii ale matricii de corelaţie 57
Trebuie remarcat că matricea R are rangul 1, ceea ce înseamnă că orice coloană
a lui R poate fi exprimată ca o combinaţie lineară a celorlalte coloane. Drept
urmare, celelalte valori proprii sunt 0 cu ordinul de multiplicitate 1M , şi acestei
valori proprii îi corespund 1M vectori proprii.
3.6.2 Proprietăţile valorilor şi vectorilor proprii
La originea acestor proprietăţi stă caracterul hermitic al matricii de corelaţie a unui proces
aleator staţionar. Pe de altă parte, aceste proprietăţi au aplicaţii importante în ceea ce priveşte
analiza şi sinteza unor algoritmi eficienţi de filtrare adaptivă.
Proprietatea 1: Dacă 1 2, , , M sunt valorile proprii ale matricii de corelaţie
R , atunci matricea kR are valorile proprii k k k
1 2 M, , , , k .
Demonstraţia se face prin multiplicarea repetată a ecuaţiei (3.80) cu matricea R :
k kR q q (3.84)
În consecinţă:
1. dacă este o valoare proprie a lui R , atunci k este o valoare proprie a lui k
R ;
2. fiecare vector propriu al lui R este vector propriu al lui kR .
Proprietatea 2: Dacă valorile proprii ale lui R sunt distincte: 1 2, , , M ,
atunci vectorii proprii corespunzători 1 2, , , Mq q q sunt liniar independenţi.
Se utilizează Proprietatea 1 în demonstrarea acestei proprietăţi. Dacă există M scalari
i nu toţi nuli, astfel încât
1
M
i i
i
q 0 , (3.85)
atunci se spune că vectorii iq sunt linear dependenţi. Vom presupune că relaţia (3.85) este
satisfăcută fără ca toţi scalarii i să fie nuli iar valorile proprii
i sunt toate distincte. În
continuare, multiplicăm repetat pe (3.85) cu ,kR 0,1, , 1k M şi folosim Proprieta-
tea 1 pentru a scrie
1 1
, 0,1, 1M M
k k
i i i i
i i
k M
R q q 0
Expresia poate fi rescrisă în format matricial pentru 1,2, ,i M
2 1
1 1 1
2 1
2 2 2
1 1 2 2
2 1
1
1
1
M
M
M M
M
M M M
q q q 0 (3.86)
58 PROCESE ALEATOARE ÎN TIMP DISCRET - 3
Cum toate valorile i sunt distincte, matricea pătrată din (3.86) este nesingulară, fiind o
matrice Vandermonde. Prin urmare, postmultiplicând ambii termeni ai ecuaţiei (3.86) cu
inversa matricii Vandermonde, se obţine:
1 1 2 2 M M q q q 0 (3.87)
Întrucât vectorii proprii iq nu sunt nuli, singurul mod în care relaţia (3.87) poate fi înde-
plinită este ca toţi coeficienţii i să fie nuli. Consecinţa este că (3.85) nu este îndeplinită,
oricare ar fi setul de scalari nenuli i , ceea ce implică faptul că vectorii
iq sunt linear
independenţi.
Conform acestei proprietăţi , vectorii proprii lineari independenţi 1 2, , ,q q
Mq pot
servi drept bază pentru reprezentarea unui vector arbitrar w de aceleaşi dimensiuni ca şi
vectorii proprii. În particular, w se exprimă printr-o combinaţie lineară de vectori proprii
astfel:
1
M
i i
i
w q (3.88)
unde 1 2, , , M sunt constante.
Proprietatea 3: Toate valorile proprii 1 2, , , M ale matricei de corelaţie R
de dimensiune M M sunt reale şi nenegative.
Se scrie relaţia de definiţie a valorii proprii i :
, 1, 2, , i i i i M Rq q (3.89)
Premultiplicând ambii termeni ai ecuaţiei cu H
iq , transpusa hermitică a vectorului propriu
iq , se obţine:
, 1,2, ,H H
i i i i i i M q Rq q q (3.90)
De aici:
, 1,2,....,H
i ii H
i i
i M q Rq
q q (3.91)
În ultima relaţie, H
i iq q reprezintă pătratul lungimii euclidiene a vectorului propriu iq ,
prin urmare 0H
i i q q . La numărătorul expresiei se recunoaşte forma hermitică H
i iq Rq ,
care pentru o matrice de corelaţie este, conform Proprietăţii 3 a acestora, întotdeauna reală
şi nenegativă: 0 H
i i q Rq . Rezultă deci că 0; 1,2,....,i i M .
Proprietatea 4: Oricare doi vectori proprii distincţi ,i jq q ce corespund valorilor
proprii ,i j i j sunt ortogonali:
0,H
i j i j q q (3.92)
3.6 Vectori şi valori proprii ale matricii de corelaţie 59
Se scriu ecuaţiile de definire ale vectorilor proprii ,i jq q :
,i i i j j j Rq q Rq = q (3.93)
Premultiplicăm cei doi membrii ai primei ecuaţii din (3.93) cu H
jq :
H H
j i i j iq Rq q q (3.94)
Pe de altă parte, calculăm transpusa hermitică a celei de a doua ecuaţii din (3.93) şi
avem în vedere că matricea de corelaţie R este hermitică, H R R :
H H
j j jq R q (3.95)
Postmultiplicăm în continuare ecuaţia (3.95) cu vectorul iq :
H H
j i j j iq Rq q q , (3.96)
şi scădem ecuaţia (3.96) din (3.94):
0H
i j j i q q (3.97)
Întrucât valorile proprii ale matricii R se presupun a fi distincte i j , rezultă că
ecuaţia (3.97) este îndeplinită dacă şi numai dacă:
0,H
j i i j q q (3.98)
Proprietatea 5: Transformarea unitară de similaritate
Fie vectorii proprii 1 2, ,...., Mq q q care corespund valorilor proprii distincte 1 2, ,
, M ale matricii de corelaţie R de dimensiune M M . Din vectorii proprii se
constituie matricea de dimensiune M M :
1 2 MQ q q q (3.99)
unde
1,
0,
H
i j
i j
i j
q q . (3.100)
Se defineşte matricea diagonală de dimensiune M M :
1 2 diag ( , , , )M Λ (3.101)
În aceste condiţii, matricea originală R se poate diagonaliza astfel:
H Q RQ Λ (3.102)
Condiţia ca 1H
i i q q pentru 1,2, ,i M cere ca fiecare vector propriu să fie
normalizat la lungimea 1. Lungimea la pătrat sau norma la pătrat a vectorului iq este
definită ca produsul scalar H
i iq q . Condiţia de ortogonalitate: 0H
i j q q pentru i j rezultă
din Proprietatea 4. Când sunt satisfăcute ambele condiţii (vezi ecuaţia (3.100)), se spune că
60 PROCESE ALEATOARE ÎN TIMP DISCRET - 3
vectorii proprii 1 2, ,...., Mq q q formează un set ortonormat. Prin definiţie, vectorii proprii
1 2, ,...., Mq q q satisfac ecuaţiile (vezi (3.83))
, 1,2, ,i i i i M Rq q (3.103)
Matricea Q de dimensiune M M are drept coloane setul ortonormat de vectori
proprii 1 2, ,...., Mq q q , cu alte cuvinte:
1 2 MQ q q q (3.99)
Matricea diagonală Λ de dimensiune M M are valorile proprii 1 2, , , M drept ele-
mente ale diagonalei sale principale:
1 2 diag ( , , , )M Λ (3.101)
Drept urmare, se pot scrie cele M ecuaţii (3.103) ca o singură ecuaţie matricială:
RQ = QΛ (3.104)
Dată fiind natura ortonormată a vectorilor proprii, aşa cum sunt definiţi prin ecuaţia
(3.100), se scrie:
HQ Q = I
ceea ce este echivalent cu:
1 H Q Q (3.105)
O matrice ce se bucură de această proprietate este denumită matrice unitară.
Premultiplicând ambii membrii ai ecuaţiei (3.104) cu HQ şi ţinând cont de (3.105), se
obţine transformarea unitară de similaritate:
HQ RQ = Λ (3.106)
Dacă postmultiplicăm ambele părţi ale ecuaţiei (3.104) cu matricea inversă 1Q şi se
utilizează apoi proprietatea (3.105), rezultă:
H
1
MH
i i i
i
R = QΛQ q q (3.107)
unde M este dimensiunea matricii R .
Proprietatea 6: Fie 1 2, , , M valori proprii ale matricei de corelaţie R de
dimensiune M M . Suma acestor valori proprii este egală cu urma matricii R .
Urma (trasa) unei matricii pătrate se defineşte ca suma elementelor diagonale ale
matricii. Dacă se extrage urma pentru ambii membrii ai ecuaţiei (3.106), se poate scrie:
tr trH Q RQ Λ (3.108)
Matricea diagonală Λ are drept elemente diagonale valorile proprii ale lui R :
1
trM
i
i
Λ (3.109)
3.6 Vectori şi valori proprii ale matricii de corelaţie 61
Utilizând o regulă din algebra matricială, se poate scrie:
Htr trH Q RQ RQQ
Însă H QQ I , şi prin urmare:
tr trH Q RQ R ,
consecinţa fiind că ecuaţia (3.108) poate fi scrisă ca:
1
trM
i
i
R (3.110)
Proprietatea 7: Raportul valorilor proprii maxime şi minime ale matricii de
corelaţie a unui proces aleator în timp discret este limitat superior de raportul
valorilor maxime şi minime ale densităţii spectrale de putere a procesului.
Vom nota prin i şi
iq , 1, 2, ,i M , valorile proprii, respectiv vectorii proprii
asociaţi matricii de corelaţie R de dimensiuni M M a unui proces aleator în timp discret
u n . Din ecuaţia (3.91) avem
, 1,2,....,H
i ii H
i i
i M q Rq
q q
Forma hermitică de la numărătorul expresiei de mai sus poate fi dezvoltată astfel:
*
1 1
M MH
i i ik il
k l
q r l k q
q Rq (3.111)
unde *
ikq este elementul k al vectorului linie H
iq , r l k este elementul kl al matricii R ,
iar ilq este elementul l al vectorului coloană
iq . Folosim teorema Wiener-Hincin din (3.41)
pentru a scrie
1
2
j l kr l k S e d
(3.112)
unde S este densitatea spectrală de putere a procesului u n . Cu înlocuirea din (3.112),
rescriem ecuaţia (3.111) astfel
*
1 1
*
1 1
1
2
1
2
M Mj l kH
i i ik il
k l
M Mj k j l
ik il
k l
q q S e d
d S q e q e
q Rq
(3.113)
Vom nota transformata Fourier a secvenţei * * * *
1 2 1, , , ,i i i iMq q q q prin
*
1
Mj k
i ik
k
Q q e
(3.114)
În consecinţă, înlocuind ecuaţia (3.114) în (3.113), obţinem
62 PROCESE ALEATOARE ÎN TIMP DISCRET - 3
21
2
H
i i iQ S d
q Rq (3.115)
Similar, se poate arăta că
21
2
H
i i iQ d
q q (3.116)
Rezultatul ultimelor relaţii este că valoarea proprie i a matricii de corelaţie R poate fi
exprimată, pe baza relaţiei (3.91), prin intermediul densităţii spectrale de putere asociate
astfel
2
2
i
i
i
Q S d
Q d
(3.117)
Vom nota prin minS respectiv
maxS valorile minime şi maxime absolute ale densităţii
spectrale de putere S . Rezultă că
2 2
mini iQ S d S Q d
(3.118)
şi
2 2
maxi iQ S d S Q d
(3.119)
Se deduce, prin urmare, că valorile proprii i sunt mărginite de către valorile maxime şi
minime ale densităţii spectrale de putere asociate astfel:
min max , 1, 2, ,iS S i M (3.120)
Facem acum o digresiune necesară pentru a introduce mărimea denumită numărul de
condiţionare A a unei matrici A . Mărimea descrie calitatea unei matrici din punctul de
vedere a operaţiei de inversare. Cu cât numărul de condiţionare a unei matrici este mai mare,
cu atât sunt mai mari erorile care apar la inversarea ei, fapt ce ar putea provoca probleme la
rezolvarea sistemelor de ecuaţii, operaţie care implică calculul lui 1R . Se spune în acest
caz că matricea considerată este rău condiţionată . Pentru o matrice de corelaţie R ,
numărul de condiţionare este dat de raportul valorilor proprii asociate extreme max şi
min ,
fiind denumit din acest motiv şi grad de împrăştiere a valorilor proprii:
max
min
R (3.121)
Revenind la relaţia (3.120), ea implică o limitare a valorilor R , aşa cum evidenţiază
relaţia de mai jos
max max
min min
S
S
R (3.122)
3.6 Vectori şi valori proprii ale matricii de corelaţie 63
Să mai remarcăm că pe măsură ce dimensiunea M a matricii de corelaţie tinde către infinit,
valoarea maximă max se apropie de
maxS , iar valoarea minimă min de
minS .
Proprietatea 8: Fie matricea de corelaţie R de dimensiune M M ce are valori-
le proprii 1 2 M unde
1 şi M sunt cea mai mică respectiv cea mai
mare valoare proprie a lui R şi un vector oarecare x din spaţiul subîntins de
vectorii proprii 1 2, , , Mq q q . Se defineşte coeficientul Rayleigh al vectorului x
prin:
H
HR
x Rxx
x x (3.123)
În aceste condiţii:
1 MR R R q x q (3.124)
unde conform ecuaţiei (3.91) 1 1R q şi M MR q .
Proprietatea 9: Transformarea Karhunen-Loève
Fie vectorul nu de dimensiune 1M , reprezentând o secvenţă de date extrasă
dintr-un proces staţionar în sens larg de medie zero şi matrice de corelaţie R . Fie
1 2, , , Mq q q vectorii proprii asociaţi cu cele M valori proprii ale matricii R .
Vectorul nu poate fi exprimat printr-o combinaţie lineară a acestor vectori
proprii astfel:
1
M
i i
i
n u n
u q (3.125)
Coeficienţii dezvoltării (3.125) sunt variabile aleatoare necorelate de medie zero
definite prin produsul scalar
, 1, ,H
i iu n n i M q u (3.126)
Reprezentarea vectorului aleator nu descris prin ecuaţiile (3.125) şi (3.126) este
versiunea în timp discret a transformării Karhunen-Loève (TKL). În particular, ecuaţia
(3.126) reprezintă partea de „analiză” a transformării pentru că defineşte pe iu n în funcţie
de vectorul de intrare nu . Pe de altă parte, ecuaţia (3.125) face „sinteza” semnalului
original nu pe baza componentelor iu n .
Formăm vectorul nu ale cărui componente sunt , 1, ,iu n i M , transformatele
TKL ale secvenţei nu :
1 2
T
Mn u n u n u n u (3.127)
În aceste condiţii, ecuaţiile de „analiză” (3.126) se rescriu, având în vedere ecuaţia (3.99),
într-o formă compactă:
64 PROCESE ALEATOARE ÎN TIMP DISCRET - 3
Hn n u Q u (3.128)
Vom stabili în continuare proprietăţile vectorului nu . Pentru început, matricea de
corelaţie a vectorului:
H H H HE n n E n n u u Q u u Q Q RQ (3.129)
Înlocuim pe R din (3.107) şi presupunem că vectorii proprii 1 2, , , Mq q q sunt normali-
zaţi astfel încât H Q Q . Se obţine
HE n n u u (3.130)
Matricea este diagonală, ceea ce demonstrează că elementele lui nu sunt necore-
late unul cu celălalt. Acestea sunt variabile aleatoare ale căror proprietăţi rezultă din (3.128)
şi (3.130), confirmând afirmaţiile din enunţ:
*,
0, 1, şi0,
i
i i j
i jE u n i M E u n u n
i j
, (3.131)
Şi ecuaţia de „sinteză” (3.125) poate fi rescrisă în format matricial:
n nu Qu (3.132)
Pentru a da o interpretare fizică transformării Karhunen-Loève, putem vedea vectorii
proprii 1 2, , , Mq q q drept axe de coordonate ale unui spaţiu M-dimensional, reprezentând
astfel vectorul aleator nu prin proiecţiile sale pe aceste axe 1 2, , , Mu n u n u n .
Exemplul 3.4: Un proces aleator staţionar în sens larg de medie nulă este
caracterizat prin valorile funcţiei de autocorelaţie: 0 1, 1 , 1,r r
. Secvenţa 1 0n u este extrasă din proces. Se cer să se determine:
a. expresia matricii de corelaţie R ;
b. expresiile valorilor proprii i , ale vectorilor proprii , 1, 2i i q şi ale
gradului de împrăştiere a valorilor proprii R ;
c. transformarea Karhunen-Loève (TKL) a vectorului nu .
Soluţie: Matricea de corelaţie a procesului aleator este
1
1
R
Valorile proprii ale lui R reprezintă soluţiile ecuaţiei caracteristice
1
det 01
R I
Soluţiile sunt: 1 21 , 1 .
3.7 Filtre adaptate şi filtre proprii 65
Gradul de împrăştiere a valorilor proprii ale matricii R este dat de
max
min
1
1
R
Valoarea minimă a lui R se obţine atunci când 0 . Acest caz
corespunde la 1 R , şi conform Proprietăţii 7, max minS S , adică procesul
aleator are spectrul de frecvenţă constant. Rezultatul este previzibil, având în
vedere faptul că procesul este zgomot alb.
Vectorii proprii 1q şi
2q sunt soluţii ale ecuaţiilor
1
2
1 0, 1, 2
1 0
ii
i
qi
q
adică 11 12 21 22,q q q q
Valorile normalizate ale vectorilor proprii sunt
1 2
1 1 1 11 1 1, ,
1 1 1 12 2 2
q q Q
Se observă proprietatea interesantă a vectorilor proprii ai matricii de core-
laţie de dimensiune 2 2 de a fi independenţi de parametrul . Drept urmare,
transformarea TKL efectuată de matricea Q , are drept consecinţă rotirea cu 45° a
axelor de reprezentare
1
2
1 1 1 11 1
1 1 0 12 2
Hu n
n nu n
u Q u .
3.7 Filtre adaptate şi filtre proprii
O problemă fundamentală în teoria comunicării este cea a determinării filtrului cu răspuns
finit la impuls (FIR) optim, criteriul de optimizare fiind maximizarea raportului semnal
zgomot la ieşire. Asemenea filtre sunt utilizate la detecţia semnalelor înecate în zgomot în
multe aplicaţii dintre care se pot aminti comunicaţiile digitale şi radiolocaţia. Pentru început,
vom discuta despre filtrarea optimală a unui semnal determinist de formă cunoscută înecat
în zgomot, pentru ca în continuare să extindem rezultatele la cazul unui semnal aleator
înecat în zgomot.
Fie un filtru linear FIR al cărui răspuns la impuls este reprezentat de vectorul
1 2
T
Mw w ww (Figura 3.3). La intrarea filtrului se aplică secvenţa x n ce
constă dintr-o componentă de semnal util s n plus o componentă de zgomot aditiv v n .
Considerând vectorii ce desemnează eşantioanele acestora pentru ultimele M momente de
timp, vom scrie
66 PROCESE ALEATOARE ÎN TIMP DISCRET - 3
n n n x s v (3.133)
Vom studia două cazuri distincte. Pe de o parte, semnalul util s n poate fi un semnal
determinist de forma 0s n s unde 0s este forma complet cunoscută a lui s n iar
este o variabilă aleatoare de putere (varianţă) P . Argumentul arg reprezintă faza iniţia-
lă iar modulul amplitudinea semnalului ns . În al doilea rând, el poate fi un proces
stochastic, staţionar în sens larg cu medie nulă şi matrice de corelaţie R . Zgomotul v n
are medie nulă, este alb cu densitatea spectrală de putere constantă determinată de varianţă 2 . Se presupune că semnalul s n şi zgomotul v n sunt necorelate, adică:
* 0, ,E s n v m n m (3.134)
Expresia semnalului de ieşire al filtrului y n este
*
1
1M
H H H
i
i
y n w x n i n n n
w x w s w v (3.135)
unde vectorul de intrare este 1 1T
n x n x n x n M x . Puterea semna-
lului de ieşire este calculată în conformitate cu definiţia din relaţia (3.22):
2 H H H
y xP E y n E n n w x x w w R w (3.136)
Vom considera în continuare separat efectul semnalului util şi al zgomotului la ieşirea
filtrului. Notăm prin oN puterea medie a componentei de zgomot din semnalul de ieşire
y n . Având în vedere că matricea de corelaţie a zgomotului alb este 2
M I , relaţia (3.136)
devine:
2 H
oN w w (3.137)
Calculul raportului semnal zgomot la ieşirea filtrului RSZo şi optimizarea acestuia
constituie obiectivul pe care îl urmărim în continuare. După cum se va arăta, filtrul care
maximizează RSZodepinde de natura semnalului util de la intrare, s n .
Figura 3.3 Configuraţie de filtrare lineară utilizată la determina-
rea filtrului optimal.
3.7 Filtre adaptate şi filtre proprii 67
3.7.1 Filtrul adaptat
În cazul în care semnalul de intrare este determinist, 0n s s , puterea la ieşire datorată
semnalului util se calculează cu
2 22
0 0 0
H H H
sP E P
w s w s w s (3.138)
iar raportul semnal zgomot la ieşire are valoarea
2
0
2RSZ
H
s
Hoo
P P
N
w s
w w (3.139)
Maximizarea expresiei (3.139) este simplă, dacă se recurge la inegalitatea
Cauchy-Schwartz. Aplicată numărătorului ultimei expresii, această inegalitate conduce la
1 2 1 2
0 0 0
H H Hw s w w s s (3.140)
astfel încât se poate afirma că maximul raportului RSZo
0 02,maxRSZ H
o
P
s s (3.141)
este atins atunci când coeficienţii filtrului optim sunt stabiliţi de relaţia
0 0w s (3.142)
În concluzie, în cazul filtrării optimale a unui semnal de formă cunoscută, coeficienţii
filtrului optimal reprezintă o replică la scară a formei cunoscute a semnalului util s n .
Proprietatea (3.142) a filtrului optimal face ca acesta să poarte în acest caz numele de
filtru adaptat. Este un dispozitiv utilizat pe larg în aplicaţii de telecomunicaţii şi radiolocaţie.
De observat că, dacă un vector 0w maximizează raportul RSZo din (3.139), atunci orica-
re ar fi constanta cu care se multiplică acesta, această proprietate se păstrează. Prin urma-
re, alegerea constantei rămâne arbitrară. Aici, constanta a fost aleasă astfel, încât să avem
0 0 1H w s .
3.7.2 Filtrul propriu
O soluţie diferită faţă de cea realizată în cazul filtrării optimale a unui semnal de formă
cunoscută se obţine pentru situaţia în care semnalul s n este aleator, staţionar în sens larg şi
având matricea de corelaţie R cunoscută. În acest caz, după cum se arată în continuare,
soluţia optimală pentru coeficienţii filtrului este vectorul propriu maxq al matricii R ce
corespunde valorii proprii maxime max a aceleiaşi matrici. Aceasta este explicaţia numelui
de filtru propriu acordat acestui filtru optimal.
Pentru început, recalculăm puterea de ieşire ce corespunde semnalului util ns notată
prin sP
68 PROCESE ALEATOARE ÎN TIMP DISCRET - 3
2
H H H H
sP E n E n n w s w s s w w Rw (3.143)
Continuăm apoi prin calculul raportului semnal zgomot la ieşire
2
RSZH
s
Hoo
P
N
w Rw
w w (3.144)
Problema de optimizare poate fi acum formulată astfel: Să se determine vectorul w al
coeficienţilor filtrului FIR care maximizează valoarea raportului semnal zgomot la ieşire
RSZo
supus la constrângerea 1H w w .
Ecuaţia (3.144) arată, că exceptând factorul de scară 21 , raportul semnal zgomot la
ieşire RSZo este egal cu coeficientul Rayleigh al vectorului ponderilor filtrului FIR w
(relaţia (3.123). Se observă, prin urmare, că problema filtrării optime, aşa cum a fost formu-
lată aici, poate fi văzută ca o problemă de valori proprii. Într-adevăr, soluţia problemei
rezultă direct din Proprietatea 9 a valorilor şi vectorilor proprii ai matricii de corelaţie R
(Manolakis, ş.a. 2005). Utilizând (3.124), se pot afirma următoarele (Haykin 1996):
Valoarea maximă a raportului semnal zgomot este dată de:
max
2,maxRSZ
o
(3.145)
unde max este cea mai mare valoare proprie a matricii de corelaţie R .
Vectorul coeficienţilor filtrului FIR optim care produce raportul semnal zgomot maxim
din relaţia (3.145) se defineşte prin
maxo w q (3.146)
unde maxq este vectorul propriu asociat celei mai mari valori proprii a matricii de
corelaţie R . Este vorba de matricea de corelaţie a semnalului util de la intrare
s n .
Un filtru FIR al cărui răspuns la impuls are coeficienţii egali cu elementele unui vector
propriu este denumit filtru propriu (Makhoul 1981). Putem enunţa că filtrul optim este filtrul
asociat celei mai mari valori proprii a matricii de corelaţie a componentei utile din semna-
lul de la intrare.
3.8 Transformări care utilizează
descompunerea triunghiulară
Transformările lineare introduse în paragraful 3.6.2 se bazează pe diagonalizarea unei
matrici hermitice prin vectori şi valori proprii. Aceste transformări sunt deosebit de utile în
aplicaţii de detecţie şi estimare (Manolakis, ş.a. 2005). Descompunerea în matrici triunghiu-
lare conduce la transformări reprezentate prin operaţii de filtrare cauzală sau anticauzală a
secvenţelor asociate. Există două tipuri de descompuneri triunghiulare: LDU
3.8 Transformări care utilizează descompunerea triunghiulară 69
(Lower-Diagonal-Upper ~ Inferior-Diagonal-Superior) la care se asociază filtrarea cauzală
şi UDL (Upper-Diagonal-Lower ~ Superior-Diagonal-Inferior) căreia îi corespunde filtra-
rea anticauzală.
3.8.1 Descompunerea LDU
Orice matrice hermitică, pozitiv definită R poate fi factorizată astfel (Golub şi Van_Loan
1996)
H
LR LD L (3.147)
sau echivalent 1 H
L
L RL D (3.148)
unde L este o matrice unitară inferior triunghiulară, LD este o matrice diagonală cu
elemente pozitive iar HL este o matrice unitară superior triunghiulară.
Matricea L fiind inferior triunghiulară, 1
detM l
ii
R , unde l
i sunt elementele de
pe diagonala lui LD . Dacă pentru vectorul de date de intrare u , definim transformarea
lineară
1w L u Bu (3.149)
atunci se găseşte că
1 1H H H H
w LE E R ww L uu L L RL D (3.150)
Este evident că elementele vectorului w sunt ortogonale iar valorile l
k sunt momen-
tele lor de ordinul doi. Drept urmare, această transformare pare a fi similară unei transfor-
mări ortogonale. Totuşi, spre deosebire de o transformare ortogonală, LDU nu constă într-o
simplă rotaţie a vectorului u (Manolakis, ş.a. 2005). Pentru a înţelege transformarea, să
observăm pentru început că 1B L este, de asemenea, o matrice unitară inferior triunghiu-
lară. Atunci, (3.149) se poate scrie astfel:
1 1
1
1
1 0 0
1 0
1
ii i
M MiM M
w u
bw u
b bw u
(3.151)
unde ikb sunt elemente ale lui B . Ecuaţia (3.151) evidenţiază că iw este o combinaţie linea-
ră de ,ku k i , componente ale vectorului de intrare:
1
, 1i
i ik k
k
w b u i M
(3.152)
Dacă vectorul semnalului de intrare este alcătuit din eşantioane succesive ale procesului
aleator în timp discret u n , adică 1 1T
u n u n u n M u , atunci
70 PROCESE ALEATOARE ÎN TIMP DISCRET - 3
ecuaţia (3.152) exprimă o operaţie de filtrare lineară cauzală a secvenţei aleatoare de la
intrare. Această transformare este utilizată frecvent în probleme de filtrare lineară optimală
şi predicţie lineară.
3.8.2 Descompunerea UDL
Acest procedeu de diagonalizare este aproape identic cu cel descris în paragraful anterior. El
constă în factorizarea unei matrici hermitice unitare pozitiv definite într-o formă superior-
diagonal-inferior:
H
UR UD U (3.153)
sau, echivalent 1
1diag , ,H u u
U M U RU D (3.154)
în care U este o matrice unitară superior triunghiulară, HU este o matrice unitară inferior
triunghiulară iar UD este o matrice diagonală cu elemente pozitive. Trebuie remarcat că
H U L şi U LD D . Urmând aceeaşi analiză ca şi în paragraful precedent, avem
1
det detM u
U ii
R D . Întrucât 1A U este o matrice unitară superior triunghiu-
lară în transformarea 1w U u , componentele lui w sunt ortogonale şi se exprimă prin
combinaţii lineare de ,ku k i , adică
, 1M
i ik k
k i
w l u i M
(3.155)
Dacă u este o secvenţă de eşantioane succesive ale unui semnal în timp discret, (3.155) se
constituie într-o operaţie de filtrare anticauzală a acestei secvenţe.
3.9 Modelarea lineară a semnalelor
stochastice
Utilizăm aici termenul de model pentru a desemna orice ipoteză care încearcă să explice sau
să descrie legile, în general necunoscute, care se presupun că guvernează generararea
semnalelor fizice de interes. Primul care a avut ideea de a reprezenta un proces aleator
printr-un model a fost Yule în 1927 (Haykin 1996).
În acest paragraf, vom introduce şi analiza proprietăţile unei clase speciale de secvenţe
aleatoare staţionare care se obţin prin trecerea zgomotului alb prin sisteme lineare şi inva-
riante în timp. Un proces aleator este adeseori modelat ca fiind răspunsul unui sistem la un
alt proces având caracteristici mai simple. Ideea esenţială este că o serie temporală u n ce
constă din „observaţii” puternic corelate, poate fi generată de ieşirea unui filtru linear la a
cărui intrare se aplică o serie temporală alcătuită din eşantioane independente ca în Figura
3.4 (Kay 1988, Manolakis, ş.a. 2005). Drept intrare în filtru se foloseşte, de obicei, o serie de
variabile aleatoare extrase dintr-o distribuţie gaussiană de medie nulă şi varianţă constantă.
O astfel de serie de variabile aleatoare se constituie în procesul aleator pe care l-am denumit
3.9 Modelarea lineară a semnalelor stochastice 71
zgomot alb gaussian. În termeni statistici, seria temporală de la intrarea sistemului din
Figura 3.4 se descrie astfel:
2
* ,0, şi
0, altfel
v k nE v n n E v n v k
(3.156)
Filtrul linear din Figura 3.4 poate avea diferite structuri care corespund unor modele
distincte pentru semnalul de ieşire. Pot fi identificate trei tipuri clasice de modele lineare
stochastice:
Model cu medie alunecătoare (MA – Moving Average),
Model autoregresiv (AR – Autoregressive),
Model mixt autoregresiv cu medie alunecătoare (ARMA).
În cele ce urmează, vom descrie aceste modele.
3.9.1 Modelul stochastic cu medie alunecătoare (MA)
Cel mai simplu tip de filtru este filtrul cu răspuns finit la impuls (FIR), descris în Figura 3.5.
Acesta este asociat modelului MA, fiind definit prin ecuaţia cu diferenţe finite:
1
* * * *
0 1 1
0
1 1L
L i
i
u n g v n g v n g v n L g v n i
(3.157)
unde coeficienţii * * *
0 1 1, , , Lg g g definesc răspunsul la impuls al filtrului, fiind denumiţi în
acest caz parametri MA iar v n este un proces de zgomot alb de medie zero şi varianţă
2
v . La ieşirea filtrului se obţine procesul MA u n . Este vorba după cum s-a arătat în
Capitolul 2 de un filtru având numai zerouri şi a cărui funcţie de transfer este un polinom în 1z :
Figura 3.4 Utilizarea filtrului linear pentru a genera un
proces aleator.
Figura 3.5 Generarea unui proces aleator cu medie
alunecătoare (MA) cu un filtru FIR.
72 PROCESE ALEATOARE ÎN TIMP DISCRET - 3
1
*
0
Li
i
i
G z g z
(3.158)
În sfârşit, ordinul funcţiei de transfer din (3.158) stabileşte ordinul procesului MA. Deci, în
cazul de faţă, u n este un proces stochastic de ordinul 1L .
Pentru a determina funcţia de autocorelaţie a ieşirii u n , se aplică relaţia (3.55) şi se au
în vedere caracteristicile zgomotului alb, aşa cum sunt definite prin (3.156). Rezultă:
12 *
0
0
,
0,
L k
v l l k
l
l
g g k Lr k u l u k l
k L
(3.159)
Calculăm media şi varianţa procesului de ieşire:
1
22 2
0 0 0
0, 0L
l l v k
l k k
E g v n l g E v n l r g
(3.160)
Având în vedere faptul că răspunsul la impuls al filtrului este de lungime finită şi funcţia
de autocorelaţie a procesului de ieşire este nulă pentru întârzieri mai mari decât 1L .
3.9.2 Modelul stochastic autoregresiv (AR)
Seria temporală , 1 , ,u n u n u n M reprezintă o realizarea unui proces autoregre-
siv de ordinul M dacă ea satisface următoarea ecuaţie cu diferenţe finite:
*
1
M
i
i
u n a u n i v n
(3.161)
unde 1 2, , , Ma a a sunt constante denumite parametri AR iar v n este un proces de
zgomot alb.
Motivul pentru care se utilizează numele „autoregresiv” pentru acest proces este pus în
evidenţă prin rescrierea ecuaţiei (3.161):
* * *
1 21 2 Mu n a u n a u n a u n M v n (3.162)
Se observă că valoarea prezentă a procesului, u n este dată de o combinaţie lineară finită
a valorilor trecute ale procesului 1 , ,u n u n M la care se adaugă un termen de
eroare v n . Prin urmare, în ecuaţia (3.162), variabila u n se obţine prin regresie asupra
valorilor proprii precedente, şi de aici numele de „autoregresiv”.
Membrul stâng al ecuaţiei (3.161) poate fi considerat drept rezultat al convoluţiei
secvenţei de intrare , 1 , ,u n u n u n M şi a secvenţei de parametri * * *
0 1, , , Ma a a
unde 0 1a . Aplicăm în continuare transformata Z în (3.161) pe care îl rescriem astfel:
aH z U z V z (3.163)
3.9 Modelarea lineară a semnalelor stochastice 73
unde U z şi V z sunt transformatele secvenţelor de intrare respectiv de ieşire iar
1
*
0
Mi
a i
i
H z a z
(3.164)
Sunt posibile două interpretări pentru ecuaţia (3.163) în funcţie de modul în care este
privit procesul AR: intrare sau ieşire a sistemului aH z . Acestea sunt:
1. Procesul AR se aplică la intrarea filtrului FIR aH z , ceea ce face ca la ieşirea acestuia
să se producă zgomotul alb v n . În acest tip de aplicaţii, filtrul este analizor de proces
AR cu funcţia de transfer aH z V z U z , coeficienţii lui find identici cu cei ai
procesului AR de intrare u n .
2. Dacă zgomotul alb v n este considerat intrare în sistem iar procesul AR u n ieşire,
atunci filtrul are structura din Figura 3.6. Acest filtru este un generator de proces AR,
având funcţia de transfer
*
0
1 1g M
iai
i
U zH z
V z H za z
(3.165)
Filtrul generator este de tipul cu răspuns infinit la impuls (IIR).
Analizorul de proces AR este un filtru ce are numai zerouri. Prin urmare, filtrul este
inerent stabil. Având în vedere că ieşirea acestui filtru este zgomotul alb v n , el este
denumit şi filtru de „albire”, pentru că transformă un proces aleator staţionar în zgomot alb.
Generatorul de proces AR din Figura 3.6 este un filtru ce are numai poli, adică funcţia
sa de transfer este complet definită prin specificarea poziţiei polilor săi, 1 2, , Mp p p , care
sunt soluţiile ecuaţiei caracteristice:
* 1 * 2 *
1 2 11 0M
Ma z a z a z
(3.166)
Polii permit scrierea funcţiei de transfer a generatorului AR sub forma
Figura 3.6 Generarea unui proces stochastic
autoregresiv (AR) cu un filtru IIR.
74 PROCESE ALEATOARE ÎN TIMP DISCRET - 3
1 1 1
1 2
1
1 1 1g
M
H zp z p z p z
(3.167)
Condiţia necesară şi suficientă pentru ca procesul AR generat să fie staţionar în sens larg
este ca filtrul din Figura 3.6 să fie stabil, ceea ce, după cum s-a arătat în Capitolul 2, impune
ca polii acestuia să fie toţi plasaţi în interiorul cercului de rază unitate al planului Z
1,kp k (3.168)
Pentru a defini în mod unic modelul generator AR de ordin M din Figura 3.6, valorile
funcţiei de autocorelaţie a acestuia, 0 , 1 , , 1r r r M se consideră date iniţiale ale
problemei. Vom stabili în continuare ecuaţiile Yule-Walker care determină pe baza datelor
iniţiale, parametrii AR 1 2, , , Ma a a şi varianţa 2
v a zgomotului alb v n . În acest scop se
multiplică ambii membri ai relaţiei (3.161) cu *u n l iar apoi se aplică operatorul de
mediere statistică:
* * *
0
M
k
k
E a u n k u n l E v n u n l
(3.169)
Membrul drept al ecuaţiei se simplifică în urma observaţiei că * 0E v n u n l pentru
0l , astfel că ecuaţia (3.169) devine
*
0
0, 0M
k
k
a r l k l
(3.170)
şi, întrucât 0 1a , după aplicarea operaţiei de conjugare se obţine:
*
1
, 1M
k l
k
a r k l r l l
(3.171)
Sub formă matricială:
*
1
* *
2
* * *
0 1 1 1
1 0 2 2
1 2 0 M
r r r M a r
r r r M a r
r M r M r a r M
(3.172)
Acestea sunt ecuaţiile Yule-Walker, care se pot scrie şi într-o formă mai compactă
Ra r (3.173)
unde 1 2
T
Ma a aa şi * * *1 2T
r r r M r .
În sfârşit, pentru 0l , membrul drept al ecuaţiei (3.169) ia forma specială
* * 2
vE v n u n E v n v n , unde 2
v este varianţa zgomotului alb v n . Se
obţine astfel, formula de calcul a varianţei procesului de zgomot alb:
3.9 Modelarea lineară a semnalelor stochastice 75
2
0
M
v k
k
a r k
(3.174)
unde 0 1a . Prin urmare, fiind cunoscute valorile funcţiei de autocorelaţie 0 , 1 ,r r
,r M , se poate determina varianţa zgomotului alb 2
v .
3.9.3 Modelul stochastic ARMA
Un semnal ARMA (AutoRegresiv cu Medie Alunecătoare) este obţinut la ieşirea unui filtru
având funcţia de transfer:
*
0
*
0
Li
i
ig M
iai
i
g zG z
H z G z H zH z
a z
(3.175)
unde *
0 1a . Ecuaţia cu diferenţe finite a modelului ARMA ce corespunde funcţiei (3.175)
este
* *
0 1
L M
i i
i i
u n g v n i a u n i
(3.176)
unde v n este zgomotul alb gaussian aplicat la intrarea modelului iar u n procesul
ARMA modelat.
O relaţie directă între funcţia de autocorelaţie şi coeficienţii modelului ARMA se obţine
înmulţind cei doi termeni ai ecuaţiei precedente cu *u n k şi aplicând apoi operatorul de
medie statistică, avem:
* * *
0 1
L M
i i
i i
r k g E v n i u n k a r k i
(3.177)
Se poate verifica că relaţiile dintre funcţiile de autocorelaţie şi coeficienţi devin nelineare din
cauza primului termen din ecuaţia (3.177).
Din punctul de vedere a calculelor, modelul AR are un atu important în faţa modelelor
MA şi ARMA. În particular, calculul coeficienţilor modelului AR din Figura 3.6 este dat de
sistemul de ecuaţii lineare Yule-Walker (3.172) şi (3.174). Pe de altă parte, calculul coefi-
cienţilor MA pentru modelul din Figura 3.5 precum şi al coeficienţilor ARMA sunt mult
mai complicate, vezi în acest sens relaţiile (3.159) ce pot fi utilizate la determinarea
coeficienţilor MA. Din aceste motive, în practică, modelele AR sunt mult mai utilizate decât
modelele MA şi ARMA.
Exemplul 3.5: Consideraţi procesul MA de ordinul 2 u n care satisface ecuaţia
cu diferenţe finite
0,75 1 0,25 2u n v n v n v n
76 PROCESE ALEATOARE ÎN TIMP DISCRET - 3
unde v n este un proces aleator de zgomot alb cu medie zero şi varianţă unitară,
2 1v . Să se determine:
a. Funcţia de autocorelaţie ur k a procesului aleator u n ,
b. Să se aproximeze procesul MA cu procesul AR de ordinul 3M x n ,
calculându-se coeficienţii procesului AR.
Soluţie: Funcţia de autocorelaţie ur k a procesului u n se poate calcula
direct din ecuaţia de definiţie, dacă aceasta se multiplică cu *u n k iar apoi se
aplică media statistică relaţiei ce rezultă. Relaţia (3.159) sintetizează aceste
rezultate:
2 220 1 0,75 0,25 1,625; 1 0,75 1 0,25 0,75 0,9375;
2 0,25 1 0,25; 0, 2
u u
u u
r r
r r k k
Procesul AR de ordinul 3M x n aproximează procesul MA dacă xr k
ur k pentru 3k . Considerăm că egalitatea are loc, ceea ce permite să
determinăm coeficienţii procesului AR prin rezolvarea ecuaţiilor Yule-Walker
(3.172):
1
2
3
0 1 2 1
1 0 1 2
2 1 0 3
x x x x
x x x x
x x x x
r r r a r
r r r a r
r r r a r
Soluţiile sunt: 1 2 30,75; 0,3182; 0,0682a a a . În concluzie, procesul gene-
rator AR x n de ordinul 3M este descris de ecuaţia cu diferenţe finite:
0,75 1 0,3182 2 0,0682 3x n x n x n x n v n .
Probleme
P 3.1 Fie procesul aleator w n generat de aruncarea unei monezi „corecte” pentru
fiecare moment de timp n, n , definit prin:
"Cap" Pr 0,5
"Pajură" Pr 0,5
S Cw n
S P
unde S este o constantă.
(a) Caracterizaţi procesul din punctul de vedere a independenţei şi staţionarităţii,
calculând în primă instanţă media şi varianţa lui.
Vom defini, în continuare, un nou proces aleator, , 1x n n , prin
PROCESE ALEATOARE ÎN TIMP DISCRET Probleme 77
1
1 1
2 1 2 1 2
1n
i
x w
x x w w w
x n x n w n w i
Acest proces aleator poartă în literatură numele de „proces discret Wiener” sau în
engleză „random walk”.
(b) Calculaţi media şi varianţa lui x n şi stabiliţi dacă este proces staţionar sau
nu.
P 3.2 Pentru fiecare proces aleator din lista care urmează, stabiliţi dacă acesta este: (1)
staţionar în sens larg sau (2) ergodic în sens larg.
(a) x n A , unde A este o variabilă aleatoare distribuită uniform între 0 şi 1.
(b) 0cos ,x n A n unde A este o variabilă gaussiană cu media 0 şi varianţa 1.
(c) x n este un proces Bernoulli cu Pr 1 şi Pr 1 1x n p x n p .
P 3.3 O secvenţă aleatoare staţionară x n de medie 4x şi autocovarianţă
4 3
0 în restx
n nc n
se aplică la intrarea unui sistem SLIT cu răspunsul la impuls h n dat de
4h n n n
unde n este impulsul treaptă unitate. Semnalul de ieşire al sistemului este o
altă secvenţă aleatoare y n . Determinaţi pentru acest proces:
(a) media y n ,
(b) funcţia de intercovarianţă 1 2,xyc n n ,
(c) funcţia de autocovarianţă 1 2,xr n n .
P 3.4 Sistemului SLIT cauzal descris prin ecuaţia cu diferenţe finite
1 1
1 12 3
y n y n x n x n
i se aplică la intrare un proces aleator staţionar în sens larg de medie nulă şi
funcţie de autocorelaţie 0,5l
xr l .
(a) Determinaţi densitatea spectrală de putere şi funcţia de autocorelaţie a secvenţei
de ieşire y n .
78 PROCESE ALEATOARE ÎN TIMP DISCRET - 3
(b) Determinaţi funcţia de intercorelaţie xyr l şi interspectrul de putere xyS
dintre semnalele de intrare şi ieşire.
P 3.5 Fie procesul aleator u n .
(a) Utilizând nenegativitatea expresiei 2
E u n l u n
, arătaţi că 0u ur r l ,
oricare ar fi l.
(b) Determinaţi care dintre matricile pătrate de mai jos reprezintă matrici de corelaţie:
1 2
3 4
1 0,5 0,251 1
1 2 0,5 1 0,51 1
0,25 0,5 1
1 0,5 11 1
3 4 0,5 2 0,51 1
1 1 1
j
j
R R
R R
P 3.6 Fie matricea de corelaţie R .
(a) Utilizând transformarea unitară de similaritate (vezi paragraful 3.6.2), arătaţi că
pentru orice n număr întreg, n n HR QΛ Q .
(b) Matricea 1 2R , cu proprietatea 1 2 1 2 R R R , este definită drept rădăcină pătrată
a lui R . Arătaţi că 1 2 1 2 HR QΛ Q .
(c) Arătaţi că identitatea H R QΛ Q este valabilă pentru orice număr raţional α.
P 3.7 Se consideră matricea de corelaţie R a vectorului de observaţii nu . Se defineşte
vectorul
1 2n nu R u
unde 1 2R este inversa matricii 1 2
R definită în problema P 3.6. Arătaţi că
matricea de corelaţie a lui nu este matricea identitate.
P 3.8 Consideraţi procesul 1u n au n w n , unde w n este un proces aleator
gaussian de medie nulă şi varianţă 2
w .
(a) Arătaţi că matricea de corelaţie a procesului de dimensiune M M este Toeplitz
simetrică, fiind dată de
1
22
2
1 2
1
1
1
1
m
m
w
m m
a a
a a
a
a a
R
(b) Verificaţi că
PROCESE ALEATOARE ÎN TIMP DISCRET Probleme 79
2
1
2
2
1 0 0
1 01
0
1
0 0 1
w
a
a a a
a
a a
a
R
(c) Arătaţi că dacă
1 0 0
1 0
0
0 0 1
a
a
L
atunci 21T a L RL I .
P 3.9 Calculaţi şi comparaţi autocorelaţiile următoarelor procese:
(a) 0,3 1 0,4 2au n v n v n v n şi
(b) 1,2 1 1,6 2bu n v n v n v n
unde v n este un proces normal de zgomot alb de medie nulă şi varianţă unitară.
Explicaţi rezultatele obţinute.
P 3.10 Consideraţi modelul MA(2) de proces aleator
0,1 1 0,2 2u n v n u n u n
unde v n este un proces normal de zgomot alb de medie nulă şi varianţă unitară.
(a) Este procesul u n staţionar? De ce?
(b) Este modelul considerat un model de fază minimă? De ce?
(c) Determinaţi funcţia de autocorelaţie a procesului.
P 3.11 Un proces real de ordinul întâi autoregresiv (AR) u n satisface ecuaţia cu
diferenţe finite reală
1 1u n a u n v n
unde 1a este o constantă iar v n este un proces de zgomot alb de varianţă 2
v .
(a) Arătaţi că dacă media lui v n este nenulă, atunci procesul AR u n este
nestaţionar.
(b) În cazul în care v n are media nulă iar constanta 1a satisface condiţia 1 1a ,
arătaţi că varianţa lui u n este
80 PROCESE ALEATOARE ÎN TIMP DISCRET - 3
2
2
1
var1
vu na
(c) Pentru condiţiile specificate la punctul (b), stabiliţi funcţia de autocorelaţie a
procesului AR u n . Reprezentaţi grafic funcţia de autocorelaţie pentru cazurile
10 1a şi 11 0a
P 3.12 Utilizaţi ecuaţiile Yule-Walker pentru a determina funcţiile de autocorelaţie ale
modelelor AR de mai jos, presupunând că v n este un proces normal de zgomot
alb de medie nulă şi varianţă unitară:
(a) 0,5 1u n u n v n ,
(b) 1,5 1 0,6 2u n u n u n v n
Care este varianţa 2
u a procesului rezultat?
P 3.13 Dorim să generăm în MATLAB eşantioane dintr-un proces gaussian cu funcţia de
autocorelaţie 1 12 2
,l l
ur l l .
(a) Găsiţi ecuaţia cu diferenţe finite care generează procesul u n , atunci când
excitaţia este un proces normal de zgomot alb de medie nulă şi varianţă unitară.
(b) Generaţi 1000N eşantioane ale procesuluişi estimaţi densitatea de probabilitate
utilizând histograma şi funcţia de autocorelaţie normată.
(c) Verificaţi valabilitatea modelului, reprezentând pe acelaşi grafic (i) densitatea de
probabilitate reală şi estimată a lui u n şi (ii) funcţiile de autocorelaţie reale şi
estimate.
P 3.14 Determinaţi filtrul adaptat pentru impulsul determinist 0coss n n pentru
0 1n M şi zero în rest, atunci când zgomotul este (a) alb cu varianţa 2
v şi
(b) colorat cu funcţia de autocorelaţie 2 21 , 1 1l
v vr l .
Reprezentaţi răspunsul în frecvenţă al filtrului şi suprapuneţi-l peste densitatea de
putere a zgomotului pentru 2
0 6, 12, 1 şi =0,9vM .Explicaţi forma
pe care o ia răspunsul filtrului. (c) Studiaţi efectul valorii parametrului 2
v asupra
RSZ de la punctul (a).
4 Filtre lineare optimale
cest capitol este dedicat studierii clasei de filtre lineare optimale cunoscute sub
numele de filtre Wiener. După cum vom vedea în capitolele următoare, conceptul
de filtru Wiener se constituie într-un instrument esenţial în înţelegerea şi aprecierea
filtrelor adaptive. Mai mult, filtrarea Wiener este generală şi aplicabilă în toate categoriile de
aplicaţii care presupun estimarea unui semnal (denumit semnal dorit) printr-un alt semnal
asociat.
Semnalele care intervin în teoria filtrelor Wiener sunt presupuse a fi procese aleatoare
iar filtrul este realizat utilizând statistici obţimute prin mediere pe ansamblu. Această
abordare este urmată pe tot parcursul dezvoltării şi analizei teoretice a filtrelor Wiener.
Totuşi, din punctul de vedere a implementării algoritmilor de filtrare adaptivă, vom avea în
vedere în capitolele următoare şi utilizarea mediilor temporale în locul celor statistice.
Teoria filtrelor optimale a fost dezvoltată în timp continuu de Wiener (1942) şi
Kolmogorov (1939) iar în timp discret, Levinson (1947) a reformulat teoria filtrelor FIR şi a
proceselor staţionare, dezvoltând un algoritm elegant de rezolvare eficientă a ecuaţiilor
normale care exploatează structura Toeplitz a matricii de corelaţie R (Farhang-Boroujeny
1998, Manolakis, ş.a. 2005). Acesta este motivul pentru care filtrele optimale sunt denumite
filtre Wiener.
4.1 Filtrarea optimală lineară: punerea
problemei
Se consideră schema bloc din Figura 4.1. Intrarea filtrului constă din seria temporală cu
valori complexe 0 , 1 , 2 ,u u u , iar filtrul este caracterizat prin răspunsul la impuls
0 1 2, , ,w w w . La momentul de timp discret n , filtrul produce semnalul de ieşire y n .
Acesta reprezintă o estimare a răspunsului dorit notat prin d n . Diferenţa dintre d n şi
y n reprezintă eroarea de estimare e n , un semnal ce are caracteristicile sale statistice
proprii. Eroarea de estimare trebuie minimizată cât mai mult posibil, pe baza unui anumit
Capitolul
4
A
82 FILTRE LINEARE OPTIMALE - 4
criteriu statistic pe care urmează să-l stabilim în continuare. Utilizarea de semnale cu valori
complexe se datorează faptului că în multe aplicaţii practice (comunicaţii, radar, sonar, etc),
reprezentarea semnalelor în banda de bază se face în format complex. Evident că semnalele
reale reprezintă un caz particular pentru abordarea noastră.
Vom impune, din start, două restricţii asupra filtrului (Haykin 1996):
1. Filtrul este linear, ceea ce facilitează tratarea matematică a problemei;
2. Filtrul funcţionează în timp discret, ceea ce permite implementarea prin structuri
digitale hard/soft.
Este acum momentul să decidem în privinţa a două caracteristici importante care
influenţează profund performanţele filtrului adaptiv:
1. Ce fel de răspuns la impuls are filtrul utilizat: finit (FIR) sau infinit (IIR)?
2. Ce tip de criteriu statistic este utilizat pentru optimizarea parametrilor filtrului.
În ceea ce priveşte prima dilemă, dezvoltarea iniţială a teoriei filtrării optimale presupu-
ne că filtrul din Figura 4.1 are un număr infinit de coeficienţi iw , ceea ce înseamnă că trata-
rea include atât cazul FIR cât şi cel mai general, IIR. Totuşi, cea mai mare parte din lucrare
este dedicată exclusiv filtrelor FIR, pentru că acestea sunt inerent stabile iar structura lor nu
cuprinde decât căi directe de semnal între intrare şi ieşire. Filtrele IIR au în structură cel
puţin o cale de reacţie inversă de la ieşire spre intrare, ceea ce poate conduce, în anumite
condiţii, la pierderea stabilităţii circuitului. Deşi stabilitatea este un parametru ce poate fi
bine controlat, combinarea acestei probleme cu cea a adaptivităţii coeficienţilor filtrului, face
din filtrul IIR o opţiune nu foarte atractivă pentru implementarea filtrării adaptive. Acestea
sunt motivele care fac ca filtrele FIR să fie preferate celor IIR în probleme de filtrare
adaptivă, chiar dacă implementarea filtrelor IIR necesită mai puţină putere de calcul decât
filtrele FIR.
În ceea ce priveşte problema alegerii criteriului de optimizare, trebuie spus că multe
aplicaţii practice (ca de exemplu codarea vorbirii, a imaginilor, etc.) necesită criterii
subiective care sunt dificil de exprimat matematic. Drept urmare, ne vom îndrepta atenţia
către criterii de performanţă care:
1. depind numai de eroarea de estimare e n ;
2. asigură o evaluare suficientă a satisfacţiei utilizatorului, şi
3. conduc la o problemă tratabilă matematic.
Pentru că în cele mai multe aplicaţii eroarea este la fel de dăunătoare indiferent de
semnul pe care îl are, criteriul acordă ponderi egale atât erorilor pozitive cât şi celor
negative. Această cerinţă este satisfăcută de funcţii ca cele reprezentate în Figura 4.2: (i)
Figura 4.1 Schema bloc a problemei de filtrare adaptivă
4.1 Filtrarea optimală lineară: punerea problemei 83
valoarea absolută a erorii e n , (ii) eroarea pătratică 2
e n sau (iii) o altă putere a lui
e n . În raport cu primul criteriu, criteriul pătratului erorii subliniază mai pronunţat efectul
erorilor mari. El oferă, de asemenea, avantajul de a putea fi exprimat prin expresii
matematice convenabile, astfel că reprezintă cea mai convenabilă alegere.
Denumit funcţie de cost, criteriul de performanţă ce utilizează pătratul erorii 2
e n
trebuie să aibă în vedere şi caracterul stochastic al semnalelor din Figura 4.1, implicit al
erorii e n . Printre potenţialele funcţii de cost, alegerea se face între:
1. eroarea pătratică medie (EPM):
2
J E e n e n E e n (4.1)
2. suma pătratelor erorii:
2
1
2
1 2,n
n n
E n n e n
(4.2)
În cazul filtrării optimale Wiener, se alege prima funcţie, cea de a doua funcţie fiind
utilizată în cazul metodei celor mai mici pătrate (LS) ce va fi tratată în Capitolul 9 al cărţii.
Utilizarea erorii medii pătratice ca funcţie de cost oferă un cadru matematic convenabil,
conduce la soluţii aplicabile în practică şi, serveşte drept etalon pentru estimarea algoritmilor
de filtrare adaptivă. Vom mai preciza aici că metoda mediei pătratice a fost dezvoltată iniţial
de Gauss în secolul XIX şi a constituit de a lungul timpului obiectul studiului mai multor
generaţii de matematicieni.
În concluzie, problema filtrării adaptive Wiener se defineşte astfel (Haykin 1996):
Figura 4.2 Ilustrare grafică pentru acţiunea diverselor expresii ale
criteriului de optimizare
84 FILTRE LINEARE OPTIMALE - 4
„Să se proiecteze un filtru linear în timp discret a cărui ieşire să furnizeze o
estimare a răspunsului dorit y n pe baza eşantioanelor semnalului de intrare
0 , 1 , 2 ,u u u , astfel încât valoarea medie pătratică a erorii de estimare
e n , definită ca diferenţa dintre răspunsul dorit d n şi răspunsul real y n , să
fie minimizată.”
4.2 Principiul ortogonalităţii
4.2.1 Formularea principiului
Să examinăm modelul filtrării statistice din Figura 4.1. Atât semnalul de intrare 0 , 1 ,u u
2 ,u , cât şi răspunsul la impuls al filtrului 0 1 2, , ,w w w , se presupun a fi serii tempora-
le cu valori complexe şi de durată infinită. Ieşirea filtrului la momentul de timp discret n ,
y n , este definită prin suma de convoluţie lineară:
0
[ ] [ ], 0,1,2,k
k
y n w u n k n
(4.3)
unde asteriscul reprezintă operaţia de conjugare complexă.
Scopul filtrului este de a furniza o estimare a răspunsului dorit d n . Presupunem că
atât semnalul de intrare cât şi răspunsul dorit sunt realizări singulare ale unor procese
aleatoare staţionare mutual în sens larg, ambele de medie nulă. Drept urmare, estimarea lui
d n este acompaniată de o eroare definită prin:
e n d n y n (4.4)
Valoarea e n este, de asemenea, o realizare a unei variabile aleatoare. Pentru a optimi-
za filtrul se minimizează valoarea pătratică medie a erorii de estimare (EPM) e n ce face
obiectul definiţiei (4.1) a funcţiei de cost J . Prin urmare, problema revine la determinarea
valorilor coeficienţilor filtrului oiw care fac ca J să-şi atinge minimul:
2
min mini iw w
J e n (4.5)
Pentru vectori de date de intrare complecşi, coeficienţii filtrului sunt, în general,
complecşi. Cel de-al k -lea coeficient al filtrului kw se descompune într-o parte reală şi una
imaginară:
, 0,1,2,k k kw a jb k (4.6)
Corespunzător, se poate defini un operator de gradient al cărui al k -lea element este
descris prin intermediul derivatelor parţiale de ordinul întâi în raport cu ka şi kb :
4.2 Principiul ortogonalităţii 85
, 0,1,2,k
k k
j ka b
(4.7)
Prin urmare, în cazul aplicării operatorului funcţiei de cost J , se obţine vectorul
multidimensional complex J cu elementul k dat de
, 0,1,2,k
k k
J JJ j k
a b
(4.8)
Operatorul gradient se utilizează în problemele de determinare a punctelor staţionare
ale unei funcţii de mai multe variabile (Ştefănescu şi Zidăroiu 1981). În consecinţă, funcţia
de cost J îşi atinge valoarea minimă când toate componentele vectorului gradient sunt
simultan nule, adică:
0, 0,1,2,k J k (4.9)
Cu aceste condiţii îndeplinite, filtrul este optim din punctul de vedere a erorii pătratice
medii.
În conformitate cu ecuaţia (4.1), funcţia J este un scalar independent de momentul de
timp n . Prin urmare, aplicând (4.8) asupra lui (4.1) se obţine:
* *
* *[ ]k
k k k k
e n e n e n e nJ E e n e n j e n j e n
a a b b
(4.10)
Din (4.4) şi (4.6) se obţin valorile derivatelor parţiale care apar în ecuaţia (4.10):
* *
*
; ;
; ;
k k
k k
e n e nu n k ju n k
a b
e n e nju n k u n k
b a
(4.11)
Valorile obţinute se înlocuiesc în (4.10) şi, după anularea termenilor comuni, se obţine în
final:
*2k J E u n k e n (4.12)
Se pot specifica acum condiţiile necesare pentru minimizarea funcţiei de cost. Fie oe
valoarea pe care o atinge eroarea de estimare atunci când filtrul a atins optimul. Condiţiile
specificate în (4.9) sunt, după cum se observă, echivalente cu:
* 0, 0,1,oE u n k e n k (4.13)
Cu alte cuvinte, ecuaţia (4.13) afirmă:
„Condiţia necesară şi suficientă pentru ca funcţia de cost J să atingă valoarea
minimă este ca valoarea corespunzătoare a erorii oe n să fie ortogonală pe
fiecare eşantion al semnalului de intrare ce intră în estimarea răspunsului dorit la
momentul de timp n ”.
86 FILTRE LINEARE OPTIMALE - 4
Această propoziţie constituie principiul ortogonalităţii. Ea reprezintă una dintre cele mai
elegante teoreme din domeniul filtrării lineare optimale, constituind de asemenea baza
matematică a unor proceduri ce testează dacă filtrul linear funcţionează în condiţii optimale.
4.2.2 Corolarul principiului ortogonalităţii
Corolarul este obţinut în urma examinării corelaţiei dintre ieşirea filtrului y n şi eroarea de
estimare e n . Această corelaţie se exprimă astfel:
* * * * *
0 0
k k
k k
E y n e n E w u n k e n w E u n k e n
(4.14)
Vom nota prin oy n ieşirea filtrului optimizat în sensul EPM minime şi prin oe n
eroarea de estimare corespunzătoare. Aplicarea principiului ortogonalităţii (4.13) în suma
din (4.14) conduce la rezultatul dorit:
* 0o oE y n e n (4.15)
Corolarul principiului ortogonalităţii se enunţă astfel:
„Atunci când filtrul funcţionează în condiţii optimale, estimarea răspunsului dorit
de către ieşirea filtrului, oy n , şi eroarea de estimare corespunzătoare oe n
sunt ortogonale una în raport cu cealaltă."
4.2.3 Interpretarea geometrică a principiului
ortogonalităţii
Este convenabil şi pedagogic să privim variabilele aleatoare de medie nulă şi varianţă finită
ca vectori într-un spaţiu vectorial abstract înzestrat cu produs scalar (spaţiu Hilbert). În acest
spaţiu două variabile aleatoare x şi y sunt ortogonale, ceea ce se scrie x y , dacă produ-
sul lor scalar este
, , 0x y E x y (4.16)
ceea ce implică că ele sunt necorelate, întrucât sunt de medie nulă.
Punctul de vedere geometric oferă o interpretare intuitivă asupra principiului
ortogonalităţii. Pentru a ilustra utilizarea principiului ortogonalităţii, trebuie observat că
orice combinaţie lineară 0 1 1w u n w u n se plasează în subspaţiul definit de
vectorii , 1 ,u n u n , subspaţiul nU . Prin urmare, estimarea răspunsului dorit
od n y n
nU care minimizează pătratul vectorului de eroare, adică realizează o eroare
EPM minimă, este determinată de piciorul perpendicularei din vârful vectorului d la
„planul” determinat de vectorii , 1 ,u n u n . Aceasta este ilustrată în Figura 4.3 pentru
un spaţiu al semnalului în două dimensiuni. Întrucât oe este perpendicular pe fiecare vector
4.3 Ecuaţiile Wiener-Hopf 87
din plan, avem ,oe u n k k , ceea este este de fapt enunţul principiului ortogonalităţii
(4.13). Se remarcă de asemenea că perpendiculara oe reprezintă segmentul de lungime
minimă care poate fi dus din vârful vectorului d la „planul” nU .
Pe parcursul prezentării noastre, vom remarca de mai multe ori utilitatea interpretării
geometrice a principiului ortogonalităţii în cazul filtrării optimale. De exemplu, aplicarea
Teoremei lui Pitagora în triunghiul dreptunghic format din vectorii ˆ, od e şi d din Figura 4.3
conduce la relaţia
22 2ˆ
od d e
sau 22 2ˆ
oE d E d E e
(4.17)
care descompune puterea semnalului dorit în două componente, una care este corelată cu
datele de intrare şi alta care este necorelată cu acestea.
4.3 Ecuaţiile Wiener-Hopf
4.3.1 Calculul coeficienţilor filtrului Wiener în cazul
general
Principiul ortogonalităţii descris prin ecuaţia (4.13) specifică condiţia necesară şi suficientă
pentru funcţionarea optimă a filtrului. Această condiţie poate fi reformulată înlocuind
ecuaţiile (4.4) şi (4.3) în (4.13):
* *
0
0, 0,1,2,oi
i
E u n k d n w u n i k
(4.18)
Figura 4.3 Ilustrarea grafică a principiului
ortogonalităţii.
88 FILTRE LINEARE OPTIMALE - 4
unde oiw este coeficientul al i -lea al răspunsului la impuls al filtrului optimal. Dezvoltarea
ecuaţiei, urmată de rearanjarea termenilor duce la:
* *
0
, 0,1,2,oi
i
w E u n k u n i E u n k d n k
(4.19)
Cele două operaţii de mediere din (4.19) au următoarele interpretări:
1. Media *E u n k u n i este egală cu funcţia de autocorelaţie a secvenţei de
la intrare pentru întârzierea i k :
*r i k E u n k u n i (4.20)
2. Media *E u n k d n este egală cu corelaţia mutuală a intrării filtrului
u n k cu răspunsul dorit pentru întârzierea k . Notaţia utilizată este următoarea:
p k E u n k d u (4.21)
Introducerea definiţiilor (4.20) şi (4.21) în (4.19) conduce la un sistem de ecuaţii de
dimensiuni infinite. Acestea constituie condiţia necesară şi suficientă pentru optimalitatea
filtrului:
0
; 0,1,2,....oi
i
w r i k p k k
(4.22)
Sistemul de ecuaţii (4.22) defineşte coeficienţii filtrului optimal, în funcţie de două funcţii de
corelaţie: autocorelaţia secvenţei de la intrare şi intercorelaţia intrării cu semnalul dorit.
Ecuaţiile sunt denumite ecuaţiile Wiener-Hopf sau ecuaţiile normale.
4.3.2 Soluţia matricială a ecuaţiilor Wiener-Hopf
pentru filtre FIR de lungime finită
Rezolvarea ecuaţiilor Wiener-Hopf este simplificată mult în cazul special al filtrelor lineare
transversale (filtre FIR) (vezi Figura 4.4). Acestea sunt definite printr-un set finit de blocuri
de întârziere 1z şi multiplicare 0 1 1, , , Mw w w . Ecuaţiile Wiener-Hopf se reduc la un
sistem de M ecuaţii simultane:
Figura 4.4 Filtru FIR transversal
4.3 Ecuaţiile Wiener-Hopf 89
1
0
; 0,1,2,..., -1M
oi
i
w r i k p k k M
(4.23)
Vom desemna prin R matricea de corelaţie de dimensiune M M a secvenţei de
intrare , 1 , , 1u n u n u n M în filtrul FIR din Figura 4.4:
E n n H
R u u (4.24)
unde nu este vectorul de dimensiune 1M :
1 1T
n u n u n u n M u (4.25)
Dezvoltarea lui R este:
0 1 1
1 0 2
1 2 0
r r r M
r r r M
r M r M r
R (4.26)
Similar, vectorul de intercorelaţie dintre semnalul de intrare nu şi răspunsul dorit
d n se notează cu p :
0 1 1 [ ]T
p p p M E n d n p u (4.27)
Se observă că întârzierile utilizate în definirea lui p sunt sau nule sau negative. Ecuaţiile
Wiener-Hopf (4.23) pot fi rescrise matricial astfel:
o Rw p (4.28)
unde 0w este vectorul optimal al coeficienţilor filtrului transversal:
0 1 1
T
o o o oMw w w w (4.29)
Ecuaţiile Wiener-Hopf pot fi rezolvate dacă matricea de corelaţie R este nesingulară.
Înmulţind ambii termeni ai ecuaţiei (4.28) cu 1R , inversa matricii R , se obţine:
1
o
w R p (4.30)
Prin urmare, calculul vectorului coeficienţilor optimali ow necesită cunoaşterea a două
mărimi:
1. matricea de corelaţie R a secvenţei de intrare,
2. vectorul de corelaţie mutuală p a secvenţei nu cu răspunsul dorit d n .
Exemplul 4.1: Semnalul de intrare u n al unui filtru FIR (vezi Figura 4.5) este
alcătuit dintr-o componentă utilă s n perturbată de zgomotul alb v n de
varianţă 2
v ce este necorelat cu s n :
90 FILTRE LINEARE OPTIMALE - 4
u n s n v n
Semnalul s n este şi el un proces aleator cu funcţia de autocorelaţie dată prin
relaţia
, 0 1l
sr l
Să se stabilească coeficienţii filtrului optimal Wiener-Hopf de ordinul 2M .
Se va evalua, de asemenea, modul în care se modifică raportul semnal/zgomot
(RSZ) în urma trecerii semnalului prin filtrul optimal.
Soluţie: Deoarece s n şi v n sunt necorelate, funcţia de autocorelaţie a
semnalului de intrare r l este dată de suma
2 ,l
s v vr l r l r l l l
Prin urmare, matricea de corelaţie R a procesului stochastic de la intrare are,
pentru situaţia examinată, dimensiunea 2 2 şi expresia
2 2
2 2
1 0 1
1 0 1
v v
s v
v v
R R R
Vectorul de intercorelaţie p dintre semnalul de intrare nu şi răspunsul
dorit d n este
0 1 1T T
s sr r p
Ecuaţiile Wiener-Hopf sunt, prin urmare
2
0
21
11
1
v
v
w
w
iar soluţia este:
2 20
2 22 21
11
1
v
vv
w
w
RSZ la intrare este dat de raportul varianţelor semnalelor s n şi v n ,
adică: 2 2RSZ 0 1in s v vr . La ieşire, RSZout se stabileşte în urma calculului
puterilor de semnal şi zgomot la ieşirea filtrului
Figura 4.5 Configuraţia de filtrare pentru exemplul din
paragraful 4.3.
4.4 Suprafaţa de eroare 91
22 2 2 2 2 2 4
, 22 2
22 2 2 4
2
, 22 2
1 2 1,
1
1
1
v v v vH
out s o s o
v
v vH
out v o v o v
v
P
P
w R w
w R w
Prin urmare:
22 2 2 2 2 2 4
,
22 2 2 2 4
,
1 2 1RSZ
1
v v v vout s
out
out vv v v
P
P
În sfârşit, în scopul evidenţierii efectului pozitiv al filtrului optimal, vom calcu-
la raportul RSZout la RSZin
2 2 2
22 2 2 4
2 1RSZ1
RSZ 1
v vout
inv v
Examinând ultima expresie, se constată că valoarea ei este cuprinsă între 1 şi
2, valoarea maximă fiind atinsă atunci când 1 . Prin urmare, în cazul filtrului
optimal cu 2M , câştigul obţinut prin filtrare adaptivă este relativ modest (nu
mai mare de 3dB). În schimb, se poate demonstra că performanţele se îmbunătă-
ţesc, pe măsură ce numărul de coeficienţi ai filtrului creşte.
4.4 Suprafaţa de eroare
4.4.1 Calculul funcţiei de cost
Ecuaţiile Wiener-Hopf (4.28) au fost deduse pe baza principului ortogonalităţii introdus în
paragraful 4.2. Putem face remarca că aceste ecuaţii pot fi obţinute de asemenea prin
examinarea dependenţei funcţiei de cost de ponderile (coeficienţii) filtrului FIR, J w . În
acest scop, începem prin a exprima eroarea e n din relaţiile (4.4) şi (4.3):
1
0
MH
k
k
e n d n w u n k d n n
w u (4.31)
Funcţia de cost a structurii de filtru transversal din Figura 4.4 este media pătratului erorii
de estimare e n :
2
H H
J E e n e n E e n
E d n n d n n
w
w u u w
Prin urmare:
92 FILTRE LINEARE OPTIMALE - 4
2 H H
H H
J E d n E d n n E n d n
E n n
w u w w u
w u u w
(4.32)
unde vectorul nu definit prin (4.25) este secvenţa de date, d n este semnalul dorit la
momentul de timp curent iar vectorul w descrie ponderile filtrului
0 1 1Mw w w w (4.33)
În membrul drept al expresiei (4.32) pot fi identificate patru medii statistice:
1. Varianţa răspunsului dorit d n , pe care îl presupunem a fi proces aleator de medie
nulă:
22
d E d n
(4.34)
2. Mediile E n d n u şi E d n n H
u se scriu astfel:
0
1 1
11
E u n d n p
E u n d n pE n d n
p ME u n M d n
u p (4.35)
şi 0 1 1H HE d n n p p p M u p (4.36)
3. În sfărşit, a patra medie este:
HE n n u u R (4.37)
Drept urmare, ecuaţia (4.32) poate fi rescrisă sub forma:
2
1 1 1 12
0 0 0 0
H H H
d
M M M M
d k k k i
k k k i
J
w p k w p k w w r i k
w w p p w w Rw
(4.38)
Ecuaţia (4.38) afirmă faptul că, în cazul în care semnalul de intrare în filtrul FIR şi
răspunsul dorit sunt mutual staţionare, funcţia de cost sau eroarea EPM J este o funcţie de
gradul doi de coeficienţii filtrului 0 1 1, , , Mw w w , fiind o suprafaţă paraboidală (de tip
cupă) în spaţiul 1M dimensional cu M grade de libertate reprezentate de coeficienţii
filtrului. Această suprafaţă este caracterizată printr-un minim unic. Este denumită suprafaţa
erorii pătratice medii (vezi Figura 4.6) sau, pur şi simplu suprafaţă de eroare. Valoarea
minimă a erorii, notată prin minJ este atinsă în punctul în care vectorul gradient J este
identic nul. Cu alte cuvinte se ajunge la ecuaţia:
0, 0,1,...., -1k J k M w (4.39)
4.4 Suprafaţa de eroare 93
cu soluţia, ecuaţiile Wiener-Hopf introduse în paragraful precedent.
Exemplul 4.2: Graficul din Figura 4.6 (a) reprezintă suprafaţa de eroare medie
pătratică pentru un filtru transversal cu 2M coeficienţi. Figura 4.6 (b) prezintă
Figura 4.6 (a) Suprafaţa de eroare medie pătratică pentru un filtru FIR cu
2M , (b) Curbele de contur ale aceluiaşi filtru.
94 FILTRE LINEARE OPTIMALE - 4
contururile de eroare constantă ale suprafeţei obţinute prin secţionarea acesteia
cu plane paralele la planul 1 2,w w .
Expresia funcţiei de eroare reprezentate în Figura 4.6 este dată de ecuaţia
(4.38), iar parametrii utilizaţi pentru reprezentare sunt
24,5 0,1545 0,5
, 0,5 şi0,1545 4,5 0,1545
d
R p
4.4.2 Forma canonică a suprafeţei de eroare
Începem prin a rescrie expresia (4.38) a funcţiei de cost J w , punând în evidenţă depen-
denţa erorii de vectorul coeficienţilor filtrului:
2 H H H
dJ w w p p w w Rw
Eroarea atinge minimul minJ pentru valoarea vectorului coeficienţilor
ow care satisface
ecuaţiile Wiener-Hopf, (o Rw p ):
2
min
H H H
o d o o o oJ J 2 2
d dw w Rw w p p w (4.40)
şi, întrucât matricea de corelaţie R este aproape întotdeauna pozitiv definită, matricea
inversă 1R există şi ecuaţia (4.40) poate fi scrisă sub forma:
2 1
min
H
dJ p R p (4.41)
Ultima expresie este remarcabilă, întrucât exprimă valoarea minimă a erorii EPM numai în
funcţie de caracteristicile proceselor aleatoare implicate în operaţiunea de filtrare optimală,
nu şi de parametrii filtrului optimal.
Ecuaţia suprafeţei de eroare poate fi mai bine examinată calitativ dacă vom aplica o
translatare a axelor de coordonate astfel încât noua origine să se găsească în punctul de
localizare a filtrului optimal ow . Se înlocuieşte în acest scop în (4.38) vectorul w cu
o o w w w . Astfel, se obţine ecuaţia (4.38) sub forma:
2 1 1 1
HH
o o
HH
d
J
2
d ow p w w w R w w
p R p w R p R w R p (4.42)
Ultima expresie subliniază încă odată două caracteristici esenţiale ale filtrului FIR optimal.
În primul rând, termenul 1 1H
w R p R w R p este pozitiv întrucât matricea R este
pozitiv definită, anulându-se doar pentru 1w R p , adică exact valoarea optimă a
coeficienţilor filtrului. În al doilea rând, atunci când 1w R p , se anulează ultimul termen
din relaţia (4.42) şi funcţia de cost ia valoarea minimă specificată prin ecuaţia (4.41).
Exemplul 4.3: Pentru ca filtrarea optimală să fie eficientă din punctul de vedere
a EPM, intercorelaţia semnalului dorit d n cu vectorul semnalului de intrare
4.4 Suprafaţa de eroare 95
nu trebuie să fie nenulă. Pentru a sublinia acest lucru vom considera două
cazuri.
Drept prim exemplu fie semnalul dorit, obţinut printr-o simplă întârziere cu 2
eşantioane a semnalului de intrare, împreună cu o atenuare de valoare a :
2d n au n
Semnalul de intrare nu este necorelat, şi drept urmare:
2
MR I
În consecinţă, din (4.36) se scrie:
20 0 0 0T
E n d n a p u
Soluţia matricială a ecuaţiei Wiener-Hopf se scrie:
1 0 0 0 0T
o a w R p
iar EPM minimă este, conform cu ecuaţia (4.41), egală cu:
2 2 2 2
min 0H
dJ a a a op w
Este posibil în acest caz, ca cel puţin teoretic, să se obţină o eroare nulă, din cauza
gradului mare de corelaţie dintre semnalele u n şi d n .
Să comparăm acest prim rezultat cu cazul predicţiei liniare a unui semnal
necorelat. Acum se urmăreşte predicţia lui u n pe baza eşantioanelor precedente
1 , 2 , ,u n u n u n M . Prin urmare, ieşirea filtrului y n , utilizată
pentru predicţie, se descrie prin:
ˆ 1Hy n u n n w u
În acest caz se scrie:
21 1H
ME n n R u u I
şi, pentru că u n este necorelat:
1E n u n p u 0
Filtrul optimal are în acest caz coeficienţii:
o w 0 (4.43)
Filtrul „optimal” este, prin urmare, filtrul nul. Rezultatul se explică prin aceea că
în cazul unui semnal necorelat nu poate fi prezis corect eşantionul care urmează.
Orice altă predicţie ar fi eronată şi ar mări valoarea erorii J . Cea mai bună
predicţie este (4.43), întrucât menţine nivelul EPM la 2J .
96 FILTRE LINEARE OPTIMALE - 4
4.5 Rezolvarea ecuaţiilor normale prin
descompunere triunghiulară
Vom prezenta, în cele ce urmează, o metodă numerică de rezolvare a ecuaţiilor normale şi
de calculare a EPM minime care utilizează descompunerea LDU a matricilor hermitice
pozitiv definite prezentată în paragraful 3.8. Conform ecuaţiei (3.147), aceste matrici pot fi
descompuse unic în produsul dintre o matrice inferior triunghiulară, o matrice diagonală şi
o matrice superior triunghiulară:
HR LDL (4.44)
unde L este o matrice unitară inferior triunghiulară
10
1,0 1,1
1 0 0
1 0
1M M
l
l l
L (4.45)
iar 1 2diag , , , M D (4.46)
este o matrice diagonală cu elemente reale şi pozitive. Dacă descompunerea (4.44) este
cunoscută, atunci poate fi rezolvat sistemul de ecuaţii normale
H
o o Rw LD L w p (4.47)
prin găsirea în primul pas al soluţiei sistemului inferior triunghiular:
LDk p (4.48)
urmată în al doilea pas de rezolvarea sistemului superior triunghiular:
H
o L w k (4.49)
Avantajul acestei abordări a rezolvării ecuaţiilor normale este acela că rezolvarea unui
sistem de ecuaţii triunghiulare devine o problemă trivială.
Exemplul care urmează, ilustrează cum se face descompunerea H
LDL şi cum se aplică
aceasta la rezolvarea sistemului de ecuaţii normale pentru 3M . Generalizarea pentru un
ordin M oarecare este imediată.
Exemplul 4.4 Să se rezolve explicit un sistem de ecuaţii normale de ordinul
3M prin descompunerea H
LDL .
Soluţie: Explicitarea relaţiei (4.44) este
* *
11 12 13 1 10 20
*
21 22 23 10 2 21
31 32 33 20 21 3
1 0 0 0 0 1
1 0 0 0 0 1
1 0 0 0 0 1
r r r l l
r r r l l
r r r l l
(4.50)
4.5 Rezolvarea ecuaţiilor normale prin descompunere triunghiulară 97
unde facem presupunerea că *
ij ijr r şi 0i . Efectuând multiplicarea matricilor
din membrul drept al ecuaţiei (4.50) şi egalând cu elementele matricii din membrul
stâng se obţine:
11 1 1 11
2121 1 10 10
1
2 2
22 1 10 2 2 22 1 10
3131 1 20 20
1
3
r r
rr l l
r l r l
rr l l
r
** 32 1 20 10
2 1 20 10 2 21 21
2
2 2 2 2
22 1 20 2 21 3 2 33 1 20 2 21
r l ll l l l
r l l r l l
(4.51)
Calculul elementelor descompunerii H
LDL se efectuează linie după linie, iar
calculul unei linii a matricii nu schimbă liniile deja calculate.
Sistemul unitar triunghiular din (4.48) devine:
1 1
10 2 2
20 21 3 3
1 0 0 0
1 0 1
1 2
k p
l k p
l l k p
(4.52)
şi poate fi rezolvat prin substituţie, pornind de la prima ecuaţie. Se obţine:
1 1 1
1
10 1 1
10 1 1 2 2 2
2
20 1 1 21 2 2
20 1 1 21 2 2 2 2 3
2
00
11
22
pk p k
p l kl k k p k
p l k l kl k l k k p k
(4.53)
Coeficienţii ik sunt calculaţi, ca şi pentru ijl respectiv i în ordine „directă”.
Valoarea coeficienţilor filtrului optimal rezultă în urma rezolvării sistemului triun-
ghiular superior (4.49) prin substituţie în ordine „inversă”, adică, substituţia
începe de la ultima ecuaţie din sistem:
98 FILTRE LINEARE OPTIMALE - 4
* *
10 20 ,1 1 ,3 3
* *
21 ,2 2 ,2 2 21 ,3
* *
,3 3 ,1 1 10 ,2 20 ,3
1
0 1
0 0 1
o o
o o o
o o o o
l l w k w k
l w k w k l w
w k w k l w l w
(4.54)
Consecinţa substituţiei în ordine „inversă” este că în cazul în care se doreşte să se
calculeze încă un coeficient al filtrului optimal, se modifică valorile tuturor
coeficienţilor calculaţi anterior.
Tabelul 4.1 generalizează rezultatul din Exemplul 4.4, formulând algoritmul de rezol-
vare a ecuaţiilor normale prin descompunerea H
LDL . Descompunerea triunghiulară nece-
sită 3 6M operaţii iar soluţia unui sistem triunghiular presupune efectuarea a
21 2 2M M M operaţii.
Descompunerea H
LDL din (4.44) oferă o abordare simplă a calculului EPM minime a
filtrului optimal minJ fără a recurge la calculul coeficienţilor acestuia. În acest scop, prin
utilizarea relaţiilor (4.40), (4.44) şi (4.49), se obţine:
1 1
min
HH H H
oJ 2 2 2
d d dp w k L R L k k Dk (4.55)
sau, sub formă scalară: 2
min
1
M
i i
i
J k
2
d (4.56)
pentru că matricea D este diagonală.
Relaţia (4.56) este extrem de importantă, pentru că ea demonstrează că, întrucât 0i ,
creşterea ordinului filtrului (mărirea numărului de coeficienţi) determină reducerea erorii
Pentru 1,2, ,i M şi pentru 0,1, , 1,j i
1
*
1, 1 1
0
1(nu se execută pentru )
j
ij i j m im jm
mi
l r l l i M
1
2
1, 1
1
j
i ii m i m
m
r l
Pentru 1,2, , ,i M
2
1, 1
0
1 i
i i M M
mi
p ik l k
Pentru , 1, ,1,i M M
*
, 1, 1 ,
1
M
o i i m i o m
m i
w k l w
Tabelul 4.1 Algoritmul de rezolvare a ecuaţiilor normale prin descompunere triunghiulară.
4.6 Reprezentarea prin transformare a filtrului optimal 99
minime şi, prin urmare, conduce la o estimare mai bună a semnalului dorit (Manolakis, ş.a.
2005). În sfârşit, pentru că determinantul unei matrici unitare inferior triunghiulare este egal
cu unu, din (4.44) se obţine:
1
det det det detM
H
i
i
R L D L (4.57)
ceea ce arată că, dacă R este pozitiv definită, 0,i i şi viceversa.
Elementele diagonale i , obţinute prin descompunerea triunghiulară a matricii R sunt
pozitive, astfel încât matricea
1 2
L LD (4.58)
este inferior triunghiulară cu elemente diagonale pozitive. Atunci, definiţia (4.44) poate fi
rescrisă sub forma:
HR LL (4.59)
cunoscută sub numele de factorizarea (descompunerea) Cholesky a matricii R (Golub şi
Van_Loan 1996). Calculul matricii L necesită 3 6M multiplicări şi adunări şi M rădăcini
pătrate. În MATLAB, calculul poate fi efectuat utilizând funcţia L=chol(R,’lower’),
care implementează prima parte a algoritmului din Tabelul 4.1. Funcţia chol se constituie
într-un mijloc eficient de testare a caracterului pozitiv definit al matricii R, pentru că în cazul
în care aceasta nu este pozitiv definită, mediul MATLAB furnizează un mesaj de eroare.
4.6 Reprezentarea prin transformare a
filtrului optimal
Proprietăţile filtrelor lineare optimale şi suprafeţele lor de eroare depind de matricea de
corelaţie R . Se pot afla o serie de informaţii preţioase despre natura filtrului optimal dacă
R este exprimat în funcţie de valorile şi vectorii săi proprii. Într-adevăr din Capitolul 3
avem
1
şiM
H H H
i i i
i
R = QΛQ q q Λ Q RQ (4.60)
unde 1 2diag , , , M Λ (4.61)
sunt valorile proprii ale lui R , presupuse a fi distincte, iar
1 2 MQ q q q (4.62)
sunt vectorii proprii ai lui R . Matricea Q este unitară, adică
H Q Q I (4.63)
ceea ce implică 1 H Q Q . Relaţia (4.60) dintre R şi Λ este cunoscută sub numele de
transformarea de similaritate.
100 FILTRE LINEARE OPTIMALE - 4
În general, prin multiplicarea unui vector cu o matrice se schimbă atât lungimea cât şi
direcţia vectorului. Definim o transformare de coordonate a vectorului coeficienţilor
filtrului optimal prin
' sau 'H
o o o ow Q w w Qw (4.64)
Pentru că ' ' ' ' 'H H H
o o o o o o w Qw Qw w Q Qw w (4.65)
transformarea (4.64) modifică direcţia vectorului transformat dar nu-i modifică lungimea.
Dacă se înlocuieşte (4.64) în ecuaţiile normale (4.28), se obţine:
sauH H H
o o QΛQ w p ΛQ w Q p
ceea ce conduce la
' 'o Λw p (4.66)
unde ' sau 'Hp Q p p Qp (4.67)
este vectorul de intercorelaţie transformat.
Din cauza faptului că Λ este o matrice diagonală, setul de M ecuaţii (4.66) se poate
scrie astfel:
' ' 1i oi iw p i M (4.68)
unde 'oiw şi 'ip sunt componentele lui 'ow respectiv lui 'p . Ecuaţiile (4.68) sunt un set de
M ecuaţii de gradul întâi „necuplate”, pentru că dacă 0i , atunci
'
' , 1ioi
i
pw i M
(4.69)
iar dacă 0i , atunci valoarea lui 'oiw este nedeterminată.
În ceea ce priveşte valoarea minimă a EPM, aceasta devine
2 2 2
min
2
2 2
1 1
' ' ' '
'' '
HH H
d d o d
M Mi
d i oi d
i i i
J
pp w
o op w Qp Qw p w
(4.70)
ceea ce evidenţiază modul în care valorile proprii şi componentele de intercorelaţie „necu-
plate” afectează performanţa filtrului optimal. Relaţiile (4.69) şi (4.70) oferă avantajul
studierii comportării fiecărui parametru al filtrului optimal, independent de ceilalţi
parametrii.
În continuare ne vom referi la semnificaţia transformării de similaritate asupra
suprafeţei de eroare de ordinul doi, rezultatele obţinute fiind uşor de generalizat la cazul
filtrului FIR de ordinul M, a cărui suprafaţă de eroare se reprezintă într-un spaţiu cu 1M
dimensiuni. Figura 4.7 reprezintă contururile de eroare pătratică medie constantă pentru o
suprafaţă de eroare de ordinul doi, pozitiv definită. Contururile sunt elipse concentrice
centrate pe vârful vectorului optim al coeficienţilor ow . Definim un nou sistem de coordo-
4.6 Reprezentarea prin transformare a filtrului optimal 101
nate, având originea în ow şi axele determinate de axele elipsei
1v şi 2v . Cele două axe
sunt ortogonale, iar sistemul rezultat este cunoscut sub numele de sistem principal de
coordonate. Transformarea de la sistemul „vechi” la cel „nou” se face în doi paşi:
Translaţie:
Rotaţie:
o
H
w w w
v Q w (4.71)
unde rotaţia schimbă axele spaţiului pentru a le alinia cu axele elipsoidului. Expresia EPM
(4.42) devine
min min
2
min min
1
H H H
MH
i i
i
J J J
J J v
v w Rw w QΛQ w
v Λv (4.72)
care arată că penalitatea plătită pentru deviaţia unui parametru de la valoarea sa optimală
este proporţională cu valoarea proprie corespunzătoare.
Utilizând transformarea de similaritate (4.60), avem
1 1
1 1
'HM MH i i
o i i
i ii i
p
q p
w R p QΛ Q p q q (4.73)
iar semnalul optimal de la ieşirea filtrului poate fi scris astfel
1
'MH i
o i
i i
pd n y n n n
w u q unU (4.74)
ceea ce conduce la reprezentarea filtrului optimal din Figura 4.8. Filtrele de valori proprii
iq decorelează vectorul de intrare nu în componentele sale principale, care, în continuare,
sunt ponderate şi însumate pentru a furniza semnalul de ieşire optim.
Figura 4.7 Contururile de eroare constantă şi axele de coordo-
nate principale pentru o suprafaţă de eroare de ordi-
nul doi.
102 FILTRE LINEARE OPTIMALE - 4
4.7 Caracterizarea în frecvenţă a filtrului
optimal
Paragraful este dedicat caracterizării în domeniul frecvenţă a filtrului Wiener. Dacă, în
studiul întreprins în acest Capitol până în acest punct ne-am limitat la cazul filtrelor FIR
cauzale, în acest paragraf vom include în aria de acoperire şi filtrele necauzale, astfel că vom
considera că răspunsul în timp al filtrului optimal se întinde de la n la n . În
virtutea ipotezei făcute, rescriem principiul ortogonalităţii din (4.13) astfel:
* 0, , 2, 1,0,1,2,oE u n k e n k (4.75)
unde oe n este eroarea de estimare optimă.
Modificarea făcută în ecuaţiile (4.13) prin (4.75) aduce drept consecinţă şi o nouă formă
a ecuaţiilor Wiener-Hopf (4.22):
, 2, 1,0,1,2,oi
i
w r i k p k k
(4.76)
Relaţia (4.76) poate fi considerată ca fiind generală, astfel încât putem să recurgem în
continuare la exprimarea ei în domeniul frecvenţă. În acest scop vom scrie pentru început
răspunsul în frecvenţă al filtrului FIR caracterizat de vectorul coeficienţilor ow :
j k
o ok
k
W w e
(4.77)
De asemenea, aşa cum s-a stabilit în Capitolul 3, transformata Fourier în timp discret a
funcţiei de autocorelaţie r l este uS , densitatea spectrală de putere a procesului aleator
u n . În ceea ce priveşte membrul drept al ecuaţiei(4.76), *p k E u n k d n este
funcţia de intercorelaţie, udp k r k a cărei transformare Fourier în timp discret
poartă, aşa cum s-a introdus în Capitolul 3, numele de densitate spectrală mutuală de putere
sau interspectru: *
ud duS S .
Figura 4.8 Reprezentarea prin transformarea pe axele de coordonate
principale a filtrului linear optimal.
4.8 Egalizarea de canal 103
Cu aceste precizări şi având în vedere că transformarea Fourier în timp discret a
produsului de convoluţie în domeniul timp este un produs în domeniul frecvenţă, expresia
(4.76) se scrie în frecvenţă astfel:
*
u o udS W S (4.78)
Această ultimă relaţie poartă numele de ecuaţia Wiener-Hopf în domeniul frecvenţă. Filtrul
optimal Wiener-Hopf are funcţia de transfer
*
ud du
o
u u
S SW
S S
(4.79)
Vom spune că răspunsul în frecvenţă al filtrului Wiener optimal la o frecvenţă dată
i este determinat de raportul dintre densitatea spectrală mutuală a proceselor d n
şi u n şi densitatea spectrală de putere a procesului u n la i .
Expresia în domeniul frecvenţă a erorii pătratice medii (EPM) minime pentru filtrul
Wiener optimal se obţine prin înlocuirea relaţiei (4.79) în ecuaţia (4.40). În condiţiile în care
răspunsul filtrului se întinde de la n la n , aceasta poate fi rescrisă astfel:
*
min ,
H
o o o k
k
J J p k w
2 2
d dw p w (4.80)
În continuare, utilizăm relaţia lui Parseval de mai jos
* *
1 2 1 2
1
2n
x n x n X X d
(4.81)
şi înlocuim suma de convoluţie din (4.80) cu echivalentul său din domeniul frecvenţă. Se
obţine:
2
min
1
2d ud oJ S W d
(4.82)
Ultima expresie este corectă, indiferent de tipul filtrului optimal, FIR sau IIR, atâta timp cât
în relaţia (4.80) sunt utilizate limitele corecte pentru sumă.
4.8 Egalizarea de canal
Ne vom îndrepta în continuare atenţia asupra câtorva aplicaţii ale teoriei filtrării optimale.
Mai întâi în acest paragraf va fi prezentată o aplicaţie din domeniul comunicaţiilor de date.
În continuare, vom discuta despre problemele care apar în filtrarea spaţială şi modul în care
optimizarea în sens Wiener a filtrării spaţiale se aplică în acest gen de aplicaţii.
Un canal de comunicaţii care se pretează bine la transmisia semnalelor digitale este
canalul telefonic. El este caracterizat printr-un raport semnal/zgomot mare. Cu toate acestea,
o limitare practică importantă a canalului telefonic este aceea că el este de bandă limitată.
Drept urmare, atunci când se transmite pe acest canal informaţie prin intermediul unei
modulaţii discrete în amplitudine şi fază a unei purtătoare sinusoidale, numărul de nivele
detectabile pe care canalul telefonic le poate suporta este limitat în principal mai degrabă de
104 FILTRE LINEARE OPTIMALE - 4
interferenţa intersimbol (ISI – InterSymbol Interference) decât de zgomotul aditiv de pe
canal. În consecinţă, vom neglija în cele ce urmează zgomotul de pe canal. Interferenţa
intersimbol (ISI) se produce ca urmare a efectului de ”lăţire” a impulsurilor transmise, ce
este datorat naturii dispersive a canalului şi are drept consecinţă suprapunerea impulsurilor
adiacente. Dacă fenomenul ISI nu este combătut, pot apărea erori la reconstrucţia fluxului de
date la ieşirea receptorului. O metodă eficientă de combatere a degradării transmisiei ca
urmare a ISI este conectarea în cascadă cu canalul a unui egalizor ca în Figura 4.9. Structura
utilizată cu bune rezultate pe post de egalizor este cea de filtru transversal prezentată în
Figura 4.10 (Haykin 1996). Egalizorul este un sistem simetric, numărul de celule ale filtrului
egalizor fiind ales egal cu 2 1N , coeficienţii filtrului transversal fiind prin urmare notaţi
cu 1 0 1, , , , , ,N Nh h h h h . Răspunsul la impuls al egalizorului este, prin urmare
N
k
k N
h n h n k
(4.83)
unde n este impulsul unitate. Similar, putem exprima răspunsul la impuls al canalului
prin:
k
k
c n c n k (4.84)
În lumina celor discutate anterior, zgomotul canalului poate fi ignorat. În consecinţă,
conexiunea în cascadă a canalului şi a egalizorului este echivalentă cu un singur filtru
digital. Vom defini răspunsul la impuls a filtrului echivalent prin:
N
k
k N
w n w n k
(4.85)
Figura 4.9 Schema de principiu a egalizării unui canal de comunicaţii.
Figura 4.10 Filtru transversal simetric utilizat la implementarea blocului egalizor.
4.8 Egalizarea de canal 105
unde secvenţa w n este egală cu convoluţia secvenţelor c n şi h n . Prin urmare, coefi-
cienţii filtrului transversal sunt
, 0, 1, ,N
l k l k
k N
w h c l N
(4.86)
Fie secvenţa de date u n aplicată la intrarea canalului, o secvenţă necorelată cu media
zero şi varianţă unitară. În practică, o asemenea secvenţă poate fi bine aproximată printr-o
secvenţă pseudo-aleatoare generată de un registru de deplasare cu reacţie. Conform acestei
ipoteze, putem exprima elementele matricii de corelaţie R a semnalului de la intrarea
canalului după cum urmează:
1, 0
0, 0
lr l
l
(4.87)
Drept semnal de răspuns dorit d n aplicat filtrului egalizor, vom presupune că este
disponibilă o „replică” întârziată a secvenţei transmise. Răspunsul dorit poate fi generat de
un al doilea registru de deplasare cu reacţie, identic cu cel utilizat pentru generarea secvenţei
de date originale u n . Cele două registre de deplasare cu reacţie sunt sincronizate unul cu
celălalt, astfel încât are loc egalitatea d n u n , unde momentul de timp n se măsoară în
raport cu celula centrală a filtrului egalizor. Drept urmare, intercorelaţia secvenţei de intrare
u n cu răspunsul dorit d n este definită prin
1, 0
0, 1, 2, ,
lp l
l N
(4.88)
În acest moment, cadrul pentru aplicarea ecuaţiilor Wiener-Hopf (4.22) este fixat.
Potrivit ecuaţiilor (4.87) şi (4.88), vom impune
1, 0
0, 1, 2, ,l
lw
l N
(4.89)
Pe de altă parte, dacă facem apel la suma de convoluţie din ecuaţia (4.86), avem:
1, 0
0, 1, 2, ,
N
k l k
k N
lh c
l N
(4.90)
Acest sistem de ecuaţii simultane poate fi rescris în formă matricială extinsă astfel:
106 FILTRE LINEARE OPTIMALE - 4
0 1 1 2
1 0 1 2 1 1
1 0 1 0
1 2 1 0 1 1
2 1 1 0
0
0
1
0
0
N N N N N
N N
N N
N N
N N N N N
c c c c c h
c c c c c h
c c c c c h
c c c c c h
c c c c c h
(4.91)
În concluzie, dacă se cunoaşte răspunsul la impuls al canalului, caracterizat de
coeficienţii 1 0 1, , , , , ,N Nc c c c c
, se utilizează ecuaţia (4.91) pentru a determina coefi-
cienţii necunoscuţi ai filtrului egalizor 1 0 1, , , , , ,N Nh h h h h
.
În literatura de specialitate (Lucky, ş.a. 1968), un egalizor proiectat în conformitate cu
ecuaţia (4.91) poartă numele de egalizor cu forţare de zero (zero-forcing equalizer).
Egalizorul este denumit astfel, întrucât dacă se transmite un singur impuls pe canal, el
„forţează” ieşirea receptorului să fie nulă la toate momentele de eşantionare, cu excepţia
momentului de timp ce corespunde impulsului transmis.
Principalul inconvenient al egalizoarelor zero-forcing (Manolakis, ş.a. 2005) este acela
că ignoră prezenţa zgomotului pe canal şi prin urmare, amplifică zgomotul care apare în
vecinătatea frecvenţelor la care amplificarea pe canal este nulă. De asemenea nu
funcţionează corect decât la valori mari ale raportului semnal/zgomot. Acestea sunt motivele
pentru care, la nivele de zgomot importante sunt preferate aşa-numitele egalizoare cu EPM
minimă (Minimum MSE Equalizers) care sunt mai robuste întrucât iau în considerare atât
ISI cât şi proprietăţile statistice ale zgomotului (Qureshi 1985).
4.9 Filtrul de varianţă minimă cu
constrângeri lineare
Caracteristic unui filtru Wiener este faptul că acesta minimizează valoarea pătratică medie a
erorii de estimare definită ca diferenţă dintre răspunsul dorit şi ieşirea filtrului. Nu există
constrângeri asupra soluţiei în rezolvarea problemei de minimizare. Există aplicaţii de
filtrare care au drept obiectiv proiectarea unui filtru care minimizează în medie pătratică un
criteriu impus, totodată acelaşi filtru fiind supus unor anumite constrângeri suplimentare. De
exemplu, se poate cere să se minimizeze puterea de ieşire medie a unui filtru linear şi, toto-
dată, acesta să asigure o amplitudine constantă a semnalului de ieşire la o anumită frecvenţă.
Acest paragraf, pe lâgă faptul că prezintă o anumită categorie de filtre spaţiale ce sunt reali-
zate pe baza criteriilor prezentate mai sus, se doreşte a se constitui într-o introducere în
problema filtrării optimale cu constrângeri.
Vom începe prin a considera filtrul transversal linear din Figura 4.4. Semnalul de ieşire
a filtrului, ca răspuns la excitaţiile de intrare , 1 , 1u n u n u n M este dat de
4.9 Filtrul de varianţă minimă cu constrângeri lineare 107
1
*
0
M
k
k
y n w u n k
(4.92)
În cazul special al unei excitaţii sinusoidale
j nu n e (4.93)
ecuaţia (4.92) se rescrie sub forma
1
*
0
Mj n j k
k
k
y n e w e
(4.94)
Problema de optimizare cu constrângere pe care dorim să o rezolvăm pentru acest
filtru, poate fi enunţată astfel
Să se determine setul optim de coeficienţi ai filtrului 0 1 1, ,c c c
o o oMw w w care mini-
mizează valoarea pătratică medie a ieşirii filtrului y n ,
1 1
2 *
0 0
M Mc c c cH
o o o o ok oi
k i
P E y n w w r i k
w Rw (4.95)
supus constrângerii liniare
1*
0
o
Mc j k
ok
k
w e g
(4.96)
unde o este o valoare prescrisă a frecvenţei cuprinsă în intervalul
iar g este o constantă complexă.
Problema de optimizare cu constrângere a filtrării aşa cum este descrisă prin ecuaţiile
(4.92) şi (4.96) este o problemă de natură temporală. Există şi o versiune spaţială a acestei
probleme de optimizare cu constrângere, întâlnită în cazul reţelelor liniare de receptoare
(senzori, antene) uniform distanţate, utilizată la stabilirea poziţiei unei surse de radiaţie
izotrope situate în regiunea de câmp îndepărtat (vezi Figura 4.11). Ieşirile acestor receptoare
sunt, pentru început, multiplicate fiecare în parte cu nişte ponderi variabile, iar în final însu-
mate, obţinându-se astfel un filtru transversal nu în domeniul timp ca cele utilizate în lucra-
re, ci mai degrabă în domeniu spaţial, datorită distanţelor egale d ce există între elementele
reţelei de antene. Prin utilizarea optimizării cu constrângere la o reţea de antene, pe de o
parte se maximizează rezoluţia reţelei pe o direcţie dată, iar pe de altă parte, se minimizează
puterea semnalului recepţionat pe toate celelalte direcţii. După cum s-a specificat în
Capitolul 1, în literatura de specialitate reţeaua de senzori (antene) direcţionabilă poartă
numele de beamformer (formator de fascicul).
Comparând filtrul transversal din Figura 4.4 şi beamformer-ul din Figura 4.11, se
observă că deşi acestea sunt complet diferite din punct de vedere fizic, cele două situaţii sunt
complet echivalente din punctul de vedere a formulării matematice, întrucât ambele cazuri
se rezolvă printr-o optimizare cu constrângere. Astfel în cazul filtrării spaţiale, locul
frecvenţei temporale o este luat de frecvenţa spaţială (unghi de incidenţă) o iar prin
filtrarea cu constrângere se urmăreşte să se menţină constant nivelul semnalului de unghi de
108 FILTRE LINEARE OPTIMALE - 4
incidenţă o concomitent cu minimizarea tuturor semnalelor ce au un alt unghi de
incidenţă. Vom exemplifica, în continuare, rezolvarea problemei de optimizare cu
constrângere pentru cazul filtrului transversal.
În general, rezolvarea problemei de optimizare cu constrângere, face apel la metoda
multiplicatorilor lui Lagrange (Ştefănescu şi Zidăroiu 1981). Se începe prin a defini o
funcţie de cost reală ,c
J w , care combină cele două laturi ale problemei de optimizare
cu constrângere:
1 1 1
* * *
0 0 0
, Re
puterea de ieşire constrângere lineară
o
M M Mc j k
k i k
k i k
J w w r i k w e g
w (4.97)
unde este multiplicatorul complex al lui Lagrange. Faţă de filtrul optimal Wiener, în
acest caz există o diferenţă, şi anume lipseşte răspunsul dorit din definiţia funcţiei de cost ,c
J w . În schimb, această funcţie include o constrângere lineară ce trebuie să fie
satisfăcută la frecvenţa impusă o . În orice caz, impunerea constrângerii conservă
semnalul de interes, iar minimizarea funcţiei c
J atenuează zgomotul sau interferenţele ce
pot deveni deranjante dacă nu sunt ţinute sub control.
Pentru a calcula valorile optimale ale coeficienţilor filtrului transversal care minimizea-
ză funcţia de cost c
J definită prin ecuaţia (4.97), se determină vectorul gradient c
J , iar
Figura 4.11 Undă plană incidentă pe o reţea de 5 sensori. Ponderile cu care
sunt însumate contribuţiile senzorilor sunt controlate printr-un
algoritm adaptiv.
4.9 Filtrul de varianţă minimă cu constrângeri lineare 109
apoi se egalează acesta cu zero. Aplicând o procedură similară celei utilizate în paragraful
4.2.1 se stabileşte că componenta k a gradientului cJ este
1
*
0
2 o
Mc j k
k i
i
J w r i k e
(4.98)
Fie c
oiw componenta i a vectorului coeficienţilor filtrului optimal c
ow . Atunci, condiţia de
optim pentru filtrul transversal se scrie astfel:
*1
0
, 0,1, , 12
o
Mc j k
oi
i
w r i k e k M
(4.99)
Sistemul de M ecuaţii simultane (4.99) definesc valorile optime ale coeficienţilor filtrului
optimal cu constrângerea (4.96). Sistemul are o formă similară cu cea a ecuaţiei Wiener-
Hopf din (4.22).
În acest punct al expunerii este mai comod să trecem la formularea matricială a
problemei de optimizare, întrucât sistemul de M ecuaţii lineare din (4.99) se exprimă în
aceste condiţii astfel:
*
2
c
o o
Rw s (4.100)
Ca şi în restul capitolului, R este matricea de corelaţie M M iar c
ow e vectorul ponde-
rilor optimale ale filtrului optimizat cu constrângerea (4.96). În sfârşit, os este vectorul
11 oo
Tj Mj
o e e
s (4.101)
Soluţia ecuaţiei (4.100) este
*
1
2
c
o o
w R s (4.102)
unde 1R este inversa matricii de corelaţie R , considerând că matricea R e nesingulară.
Soluţia (4.102) a vectorului coeficienţilor filtrului optimal c
ow nu este explicită,
întrucât în expresie intervine multiplicatorul lui Lagrange care este necunoscut. Pentru a
elimina pe * din această ecuaţie, se recurge la relaţia care introduce constrângerea lineară,
(4.96). Varianta matricială a relaţiei (4.96) este
c H
o o g w s (4.103)
Pentru a determina valoarea constantei Lagrange , calculăm transpusa hermitică a relaţiei
(4.102) şi postmultiplicăm apoi rezultatul cu os . În sfârşit, se face apel la relaţia (4.103)
pentru a introduce constanta complexă g . Rezultatul final este:
1
2H
o o
g
s R s (4.104)
110 FILTRE LINEARE OPTIMALE - 4
unde s-a utilizat proprietatea 1H R R . Forma pătratică 1H
o o
s R s este reală. În
final, înlocuind (4.104) în (4.102) se obţine formula căutată a vectorului ponderilor optimale
* 1
1
c o
o H
o o
g
R sw
s R s (4.105)
De observat că prin minimizarea puterii (varianţei) la ieşirea filtrului şi totodată prin
respectarea constrângerii (4.96), filtrul tinde să atenueze toate semnalele ale căror frecvenţă
este diferită de o .
Minimul funcţiei de cost, cu alte cuvinte valoarea minimă a puterii la ieşirea filtrului
optimal este dată de particularizarea relaţiei (4.97) pentru frecvenţa o :
min 1
1c c cH
o o H
o o
J
w Rws R s
(4.106)
unde s-a considerat 1g .
Procesul de minimizare a varianţei care conduce la rezultatul din (4.106), indică faptul
că min
cJ reprezintă o estimare de varianţă minimă şi fără distorsiuni a puterii la frecvenţa
o .
Rezultatul obţinut pentru filtrul transversal în domeniul timp poate fi generalizat în
cazul filtrării spaţiale, introducând o estimare a varianţei în funcţie de frecvenţa spaţială .
Înlocuind pe prin , exprimăm valoarea minimă a funcţiei de cost min
cJ . În acest mod se
defineşte în cazul filtrării spaţiale, spectrul de putere al estimatorului de varianţă minimă
fără distorsiuni (Minimum Variance Distorsionless Response – MVDR):
1
1MVDR H
S
s R s
(4.107)
unde: 11
Tj Mje e
s (4.108)
Vectorul s de dimensiune M M este denumit, în contextul beamformer-ului din
Figura 4.11, vector spaţial de scanare. Prin definiţie MVDRS are dimensiuni de putere.
Dependenţa sa de unghiul electric al reţelei spaţiale, justifică denumirea de estimator al
spectrului de putere. De observat că pentru orice alt unghi de incidenţă , puterea undei
incidente este minimizată. Drept urmare, spectrul obţinut prin filtrare MVDR tinde să aibă
maxime mai ascuţite şi o mai mare rezoluţie în raport cu cele oferite de alte metode
neparametrice.
FILTRE LINEARE OPTIMALE Probleme 111
Probleme
P 4.1 Fie un filtru Wiener determinat de matricea de corelaţie R a vectorului de intrare
nu , vectorul de intercorelaţie a lui nu cu răspunsul dorit d n şi varianţa
răspunsului dorit 2
d , definite prin
21 0,7 0,5
, şi 20,7 1 0,25
d
R p
(a) Calculaţi coeficienţii filtrului Wiener şi EPM minimă produsă de acest filtru
Wiener.
(b) Determinaţi expresia funcţiei de cost şi reprezentaţi suprafaţa de eroare, utilizând
MATLAB.
(c) Formulaţi o reprezentare a filtrului Wiener utilizând valorile proprii şi vectorii
proprii asociaţi ai matricii R.
P 4.2 Să se examineze problema de egalizare adaptivă din Figura 4.12. Simbolurile
generate de sursa s n se presupun a fi eşantioane ale unui proces de zgomot alb
de varianţă unitară.
(a) Să se determine matricea de corelaţie R a semnalului de la intrarea egalizorului şi
vectorul de intercorelaţie p dintre semnalul de intrare şi semnalul dorit.
(b) Să se determine valorile optime ale coeficienţilor egalizorului.
(c) Care este EPM minimă de la ieşirea egalizorului.
(d) Se pot explica rezultatele obţinute la punctele (b) şi (c) fără a recurge la toate
calculele efectuate? Cum şi de ce?
P 4.3 Fie procesul aleator armonic 0cosd n A n de amplitudine şi frecvenţă
fixe dar necunoscute şi fază aleatoate, distribuită uniform pe intervalul 0 2 .
Procesul este afectat de zgomotul aditiv alb gaussian v n de medie nulă şi
varianţă 2
v . Semnalul rezultat u n d n v n este disponibil pentru
procesare.
(a) Să se calculeze coeficienţii filtrului Wiener de ordinul doi cu intrare u n şi
semnal dorit d n pentru 2
00,5, 0,1 şi 0,5vA .
Figura 4.12 Schema de egalizare din problema P 4.2.
112 FILTRE LINEARE OPTIMALE - 4
(b) Calculaţi EPM minimă a filtrului Wiener obţinut.
(c) Calculaţi RSZ la intrarea respectiv la ieşirea filtrului Wiener, exprimând în dB
câştigul pe care îl realizează filtrul Wiener proiectat.
P 4.4 Scopul acestei probleme este explorarea utilizării filtrării Wiener în radiolocaţie.
Expresia în timp discret a semnalului emis de radar este 0
0
j nA e
unde 0 este
frecvenţa semnalului transmis iar 0A este amplitudinea lui complexă. Semnalul
recepţionat este
1
1
j nu n Ae v n
unde 1 0A A , 1 diferă de
0 datorită deplasării Doppler produse de
mişcarea ţintei iar v n este un eşantion de zgomot alb.
(a) Arătaţi că matricea de corelaţie a seriei temporale u n compuse din M elemente
se poate scrie
2 2
1 1 1
H
v R I s s
unde 2
v este varianţa zgomotului alb de medie nulă v n , iar 22
1 1E A
şi
111
1 1T
j Mje e
s
(b) Seria temporală u n se aplică unui filtru Wiener cu M coeficienţi, vectorul de
intercorelaţie p dintre u n şi răspunsul dorit d n fiind dat de
2
0 0 p s
unde 22
0 0E A
şi 00 1
0 1T
j Mje e
s
Deduceţi o expresie pentru calculul vectorului coeficienţilor filtrului Wiener.
P 4.5 Vom considera semnalul dorit 0,8 1d n d n w n generat de procesul
zgomot alb w n de medie nulă şi varianţă 2
w . Acest semnal este trecut prin
sistemul cauzal 11 0,9H z z a cărui ieşire s n este afectată de zgomotul alb
aditiv v n de medie nulă şi varianţă 2
v . Procesele w n şi v n sunt necorelate
cu 2 0,3w şi 2 0,1v .
(a) Calculaţi filtrul FIR optim de ordinul doi care estimează pe d n din semnalul
u n s n v n şi determinaţi ow şi minJ .
(b) Reprezentaţi suprafaţa de eroare şi verificaţi că este pătratică iar punctul
corespunzător filtrului optim se găseşte în punctul ei de minim.
FILTRE LINEARE OPTIMALE Probleme 113
(c) Repetaţi punctul (a) pentru un filtru de ordinul trei şi verificaţi dacă există vreo
îmbunătăţire în acest caz.
P 4.6 Se consideră problema de modelare de sistem prezentată în Figura 4.13. Semnalul
s n este de tip zgomot alb cu dispersia unitară, iar semnalul v n are dispersia
2 0.1v .
(a) Să se găsească matricea de corelaţie R a coeficienţilor de intrare ai filtrului
precum şi vectorul de intercorelaţie p dintre vectorul de intrare nu şi semnalul
dorit d n .
(b) Să se găsească coeficienţii optimali ai filtrului Wiener.
(c) Care este eroarea pătratică medie minimă ? Să se determine această eroare atât
în mod analitic cât şi prin inspectarea directă a schemei din figură.
P 4.7 Consideraţi procesul aleator armonic
0 0cosd n A n
cu amplitudine şi frecvenţă fixe dar necunoscute, şi faza aleatoare distribuită
uniform pe intervalul 0,2 . Acest proces este afectat de zgomotul alb gaussian
aditiv v n de medie nulă şi varianţă 2
v , care este necorelat cu 0d n . Semnalul
rezultat 0d n d n v n este disponibil utilizatorului pentru prelucrare.
(a) Arătaţi că funcţia de autocorelaţie a procesului 0d n este
0
2
02 cosdr l A l .
(b) Scrieţi o funcţie MATLAB w=opt_fir(A,omega0,var_v,M) pentru a
proiecta filtrul FIR optimal de ordinul M cu răspunsul la impuls w n . Utilizaţi
funcţia toeplitz din MATLAB pentru a genera matricea de corelaţie R.
(c) Utilizaţi MATLAB pentru a determina şi reprezenta răspunsul în amplitudine al
filtrului optimal FIR de ordinul 20 pentru 20,5, 0 0,05 0,5vA omega şi .
2
1
1
1 z
1
0 1w w z
11 4z
u n
y n
e n
d n
v n
s n
Figura 4.13 Schema de modelare din problema P 4.6.
114 FILTRE LINEARE OPTIMALE - 4
P 4.8 Consideraţi semnalul u n d n v n , unde d n este semnalul util aleator
corupt de zgomotul v n . Procesele d n şi v n sunt necorelate, având
densităţile spectrale de putere
1, 0
2
0,2
dS
respectiv 1,
4 2
0, 0 4 2
vS
şi
(a) Determinaţi funcţia de transfer în frecvenţă a filtrului FIR optimal şi EPM minimă.
Este acesta un filtru FIR?
(b) Determinaţi un filtru FIR optimal cu patru coeficienţi şi EPM minimă cores-
punzătoare.
(c) Determinaţi filtrul FIR noncauzal optimal cu trei coeficienţi definit prin
1 1 0 1 1y n w u n w u n w u n
5 Predicţia lineară
redicţia lineară joacă un rol major în multe domenii teoretice şi practice ale prelucrării
semnalelor. Noţiunea de predicţie include operaţiunile prin care se estimează sau se
prezice valoarea u n a unui semnal la momentul de timp 0n n , pe baza valorilor
altor eşantioane din acelaşi semnal (Manolakis, ş.a. 2005). Predicţia lineară joacă un rol
central în modelarea semnalelor şi implementarea unor algoritmi de calcul eficienţi. Deşi
predicţia lineară reprezintă un subiect teoretic major, importanţa sa în prelucrarea
semnalelor derivă, în mai mare măsură, din aplicaţiile practice pe care le are în domeniul
transmisiei şi compresiei informaţiei.
Dintr-un alt punct de vedere, predicţia lineară este un caz particular al filtrării optimale
Wiener, fiind cazul în care semnalele u n şi d n sunt identice dar decalate în timp
(Michaut 1992).
5.1 Predicţia lineară înainte (directă)
5.1.1 Filtrul de predicţie înainte
Predictorul linear înainte (Figura 5.1) constă dintr-un filtru transversal linear cu M
coeficienţi ,1 ,2 ,, , ,f f f Mw w w şi intrările 1 , 2 , ,u n u n u n M . Presupunem că
aceste semnale de intrare reprezintă un proces aleator staţionar în sens larg de medie nulă,
iar coeficienţii filtrului sunt optimizaţi în conformitate cu teoria filtrării optimale Wiener.
Capitolul
5
P
Figura 5.1 Filtrul de predicţie lineară înainte cu un pas.
116 PREDICŢIA LINEARĂ - 5
Filtrul realizează o predicţie lineară a valorii curente a semnalului de la intrare. Notând prin
1nU spaţiul M-dimensional al eşantioanelor de intrare, valoarea prezisă 1ˆ
nu n U este
definită prin:
1 ,
1
ˆ 1M
n f k f
k
u n w u n k n
w uU (5.1)
unde: 1 1T
n u n u n M u şi ,1 , .
T
f f f Mw w w Răspunsul
dorit d n este eşantionul curent (de la momentul n ) al semnalului de intrare:
d n u n (5.2)
Eroarea de predicţie înainte, Mf n este egală cu diferenţa dintre u n şi valoarea sa
prescrisă 1ˆ
nu n U :
1ˆ
M nf n u n u n U (5.3)
Indicele M din Mf n reprezintă ordinul predictorului, definit ca număr de elemente de
întârziere unitară necesare pentru a memora setul de eşantioane utilizate în realizarea
predicţiei.
Vom nota prin MP valoarea minimă a mediei pătratice a erorii de predicţie înainte:
2
M MP E f n
(5.4)
Deoarece se presupune că semnalul de intrare este de medie nulă, eroarea de predicţie
înainte Mf n va fi de asemenea medie nulă. În aceste circumstanţe, MP este egală cu
varianţa erorii înainte. El poate fi privit ca puterea erorii de predicţie, în condiţiile în care
Mf n este o tensiune aplicată pe o rezistenţă de 1Ω.
În vederea obţinerii vectorului optimal fw , rezolvarea ecuaţiilor Wiener-Hopf necesită
determinarea a doua mărimi:
1. Matricea de corelaţie a procesului de intrare [ 1]n u :
1 -1
0 1 1
1 0 2
1 2 0
M E n n
r r r M
r r r M
r M r M r
HR u u
(5.5)
MR are aceiaşi expresie ca şi în cazul filtrării Wiener pentru că matricea unui
proces staţionar rămâne invariantă la deplasarea în timp a semnalului:
1n n u u .
5.1 Predicţia lineară înainte (directă) 117
2. Vectorul de intercorelaţie dintre intrarea 1n u şi răspunsul dorit u n :
1 1
2 21
r r
r rE n u n
r M r M
r u (5.6)
În sfârşit pentru a evalua MP este necesară o a treia mărime, 2
u , varianţa lui u n :
3. Varianţa lui u n este egală cu 0r , întrucât semnalul este de medie nulă.
În consecinţă adaptarea ecuaţiilor Wiener-Hopf la problema predicţiei lineare directe
este:
M f R w r (5.7)
Similar, din (4.40) şi (5.6), puterea erorii de predicţie înainte se calculează cu:
2 0H H
M u f fP r r w r w (5.8)
Din ultimele două ecuaţii şi din (5.6), rezultă că vectorul de dimensiune 1M al coefi-
cienţilor predictorului înainte şi puterea erorii de predicţie sunt determinate numai de setul
de 1M valori ale funcţiei de autocorelaţie a procesului de intrare pentru întârzierile
0,1, ,M .
5.1.2 Filtrul erorii de predicţie înainte
Eroarea de predicţie înainte Mf n , definită prin relaţia (5.3) se poate dezvolta în
expresia:
,
1
M
M f k
k
f n u n w u n k
(5.9)
Vom nota prin ,M ka , 0,1,k M coeficienţii unei noi structuri de filtrare transversală. Ei
sunt legaţi de coeficienţii predictorului înainte prin relaţia:
,
,
1, 0
, 1,2, ,M k
f k
ka
w k M
(5.10)
În aceste condiţii, cei doi termeni din membrul drept al relaţiei (5.9) pot fi combinaţi într-o
unică sumă:
,
0
M
M M k
k
f n a u n k
(5.11)
118 PREDICŢIA LINEARĂ - 5
Această relaţie intrare-ieşire este reprezentată de filtrul transversal din Figura 5.2, care se
numeşte filtrul erorii de predicţie înainte. După cum îi spune şi numele şi după cum rezultă
din relaţia (5.11), filtrul furnizează la ieşire semnalul de eroare de predicţie înainte Mf n .
Relaţia dintre filtrul de eroare de predicţie înainte şi filtrul predictor înainte este ilustrată
în Figura 5.3. De remarcat că lungimea filtrului erorii de predicţie este mai mare decât
lungimea filtrului predictor cu o unitate. Totuşi ambele filtre au acelaşi ordin M , pentru că,
conţin M elemente de întârziere.
5.1.3 Relaţia dintre predicţia lineară şi modelarea
autoregresivă
Este interesant să reluăm relaţiile (5.7) şi (5.8) pentru coeficienţii filtrului erorii de predicţie
înainte:
,1 ,2 , şi,T
M M M M Ma a a R r (5.12)
,1 ,2 , ,
0
0 sauM
TH
M M M M M M M k
k
P r a a a P a r k
r (5.13)
Dacă avem curiozitatea să le comparăm cu ecuaţiile Yule-Walker din Capitolul 3
(3.173) şi (3.174) care definesc modelul autoregresiv (AR) al unui proces aleator staţionar,
vom constata perfecta lor identitate, atât pentru ecuaţia ce defineşte coeficienţii filtrului
generator al procesului AR cât şi pentru formula varianţei zgomotului ce constituie excitaţia
aplicată la intrarea filtrului AR. De fapt, dacă la intrarea filtrului erorii de predicţie înainte se
aplică un proces staţionar AR de ordinul M, printr-o predicţie înainte de acelaşi ordin opti-
mizată în sensul mediei pătratice, putem stabili valoarea parametrilor ce definesc procesul
Figura 5.2 Filtrul erorii de predicţie înainte.
Figura 5.3 Relaţia dintre filtrul de eroare de predicţie înainte
şi filtrul predictor înainte.
5.1 Predicţia lineară înainte (directă) 119
aleator analizat. Chiar dacă procesul nu este autoregresiv, totuşi analiza prin predicţie lineară
poate furniza o aproximare a procesului (Haykin 1996).
Din cele discutate anterior mai rezultă observaţie importantă, care porneşte de la ideea
evidentă că filtrul generator AR şi filtrul erorii de predicţie fac unul în raport cu celălalt ope-
raţii inverse. Concluzia logică care urmează acestei observaţii este că, în condiţiile în care la
intrarea filtrului de predicţie înainte se aplică un proces staţionar iar lungimea acestuia, M,
este suficient de mare, semnalul de ieşire tinde către zgomot alb, identic cu semnalul de la
intrarea filtrului AR. Prin urmare, în condiţiile specificate, eşantioanele erorii de predicţie
înainte tind să devină independente statistic unul de celălalt. Se spune că filtrul erorii de
predicţie înainte are rolul de „a albi” procesul staţionar aplicat la intrarea sa (Bellanger
1989, Michaut 1992).
5.1.4 Ecuaţiile Wiener-Hopf extinse pentru predicţia
înainte
Ecuaţiile Wiener-Hopf (5.7) împreună cu cele ale puterii erorii de predicţie înainte (5.8), pot
fi combinate într-o singură relaţie matricială:
10 H
M
f MM
Pr
r
w 0r R (5.14)
unde M0 este vectorul nul de dimensiune 1M . În membrul stâng al relaţiei (5.14) poate fi
identificată expresia matricii de corelaţie extinse 1M R de dimensiune 1 1M M .
Această identificare se bazează pe Proprietatea 5 a matricilor de corelaţie introdusă în secţiu-
nea 3.5 a lucrării. 1M R este matricea de corelaţie a eşantioanelor , 1 , ,u n u n
u n M de la intrarea filtrului erorii de predicţie din Figura 5.2. Mai mult, vectorul de
dimensiune 1 1M din membrul stâng este vectorul coeficienţilor filtrului erorii de
predicţie înainte (vezi relaţia (5.10)):
1
M
f
a
w (5.15)
Prin urmare relaţia (5.14) se poate exprima sub forma:
1
M
M M
M
P
R a0
(5.16)
sau ,
0
, 0
0, 1,2, ,
MM
M l
l
P ia r l i
i M
(5.17)
Ecuaţiile (5.14), (5.16) şi (5.17) poartă numele de ecuaţiile Wiener-Hopf extinse ale
filtrului erorii de predicţie de ordinul M .
120 PREDICŢIA LINEARĂ - 5
Exemplul 5.1: Vom calcula în conformitate cu relaţia (5.14), soluţia ecuaţiei
Wiener-Hopf extinse pentru filtrul erorii de predicţie înainte de ordinul 1M . De
remarcat rezolvarea se face doar cu valorile 0r şi 1r
1,0 1
1,1
0 1
1 0 0
ar r P
ar r
unde: 22
2det 0 1r r r R
De asemenea, prin definiţie: 1,0 1a . Prin urmare:
1 1,1
1;
0 0
rr
P ar r
Exemplul 5.2: Să se analizeze realizarea unui predictor de ordinul 2 pentru
procesul aleator autorecursiv AR(1) u n generat în Figura 5.4. Procesul
generator v n este un zgomot alb cu valoare medie nulă şi varianţă 2
v . De
asemenea, 1, .
Pentru a scrie ecuaţiile Wiener-Hopf este necesară determinarea funcţiei de
autocorelaţie a semnalului de intrare r k . În acest scop, se porneşte de la
ecuaţia cu diferenţe finite ce caracterizează procesul AR:
1u n u n v n
Multiplicăm ecuaţia cu u n l şi aplicăm operatorul de mediere statistică
1r l r l E v n u n l
Cu excepţia întârzierii 0l , membrul drept al ultimei ecuaţii este nul, întrucât
semnalul generator v n este necorelat cu eşantioane anterioare u n l . Se
scrie
20 1 , 0
1 0 0, 0
vr r l
r r l
Funcţia de autocorelaţie este
Figura 5.4 Filtrul de predicţie înainte pentru procesul autoregresiv de
ordinul 1 u n .
5.2 Predicţia lineară înapoi (inversă) 121
2
2,
1
n
vr n n
Coeficienţii optimi ai filtrului predictor de ordinul 2 sunt soluţiile ecuaţiei
matriciale:
0 0
2
1 1
1
1 0
o o
o o
w w
w w
Prin urmare, ieşirea filtrului predictor este
1ˆ 1nu n y n u n U
Predictorul este, de fapt, de ordinul 1, eşantionul 2u n nefiind utilizat, iar
coeficientul filtrului este egal cu parametrul procesului AR de intrare (vezi
paragraful 5.1.3). În sfârşit, eroarea medie pătratică este egală cu varianţa
zgomotului alb ce generează procesul de la intrare:
2 2
2 0 1 20
H
x o vP r r r
p w
5.2 Predicţia lineară înapoi (inversă)
5.2.1 Filtrul de predicţie înapoi
Asupra seriei temporale , 1 , ,u n u n u n M se poate acţiona şi în direcţie inversă
în operaţia de predicţie, şi anume pe baza eşantioanelor , 1 , , 1u n u n u n M , se
face predicţia lui u n M . Notând prin nU spaţiul M -dimensional subîntins de ,u n
1 , , 1u n u n M , predicţia eşantionului u n M se face prin:
,
1
ˆ 1M
b k
k
u n M w u n k
nU (5.18)
unde ,1 ,2 ,, , ,b b b Mw w w sunt coeficienţii filtrului de predicţie înapoi reprezentat în Figura
5.5.
Coeficienţii filtrului se presupun a fi optimizaţi în conformitate cu teoria filtrării Wiener.
Astfel, răspunsul dorit este acum:
d n u n M (5.19)
iar eroarea de predicţie înapoi are expresia:
ˆM nb n u n M u n M U (5.20)
Şi în acest caz indicele M din Mb n semnifică ordinul predictorului, adică numărul de
elemente de întârziere utilizate.
122 PREDICŢIA LINEARĂ - 5
Prin MP este notată valoarea medie pătratică minimă a erorii de predicţie înapoi sau
puterea erorii de predicţie înapoi:
2
M MP E b n
(5.21)
Faptul că se utilizează o unică notaţie MP pentru puterea erorii de predicţie, atât înainte cât
şi înapoi, indică că aceste două mărimi sunt egale, lucru care va fi demonstrat pe parcursul
acestui paragraf.
Următoarele mărimi sunt utilizate pentru rezolvarea ecuaţiilor Wiener-Hopf ale
predicţiei înapoi.
1. Matricea de corelaţie MR a vectorului semnalului de intrare nu :
H
M E n n R u u (5.22)
unde: 1 1T
n u n u n u n M u . Procesul fiind staţionar,
definiţiile matricii MR prin (5.5) şi (5.22) conduc la rezultate identice.
2. Vectorul de intercorelaţie dintre intrarea nu şi răspunsul dorit u n M de
dimensiune 1M :
1 1TB E n u n M r M r M r r u (5.23)
Indicele B din Br indică aranjarea în ordine inversă a elementelor vectorului.
3. Varianţa răspunsului dorit u n M , egală cu 0r . Şi în acest caz, procesul fiind
staţionar, valoarea este identică cu cea utilizată pentru predicţia înainte.
În condiţiile specificate anterior, ecuaţiile Wiener-Hopf ce rezolvă problema predicţiei
lineare înapoi pentru semnale staţionare de intrare sunt:
B
M b
R w r (5.24)
Similar, se obţine expresia puterii erorii de predicţie înapoi:
20 BT BT
M b u bP r r w r w (5.25)
În Tabelul 5.1 (Haykin 1996) sunt recapitulate diversele mărimi relative la filtrul
Wiener, predictorul înainte şi respectiv predictorul înapoi.
Figura 5.5 Filtrul predictor de eroare înapoi cu un pas
5.2 Predicţia lineară înapoi (inversă) 123
5.2.2 Relaţia dintre filtrele de predicţie înainte şi
înapoi
Similitudinea care există între relaţiile Wiener-Hopf ale predictorului înainte (5.7) şi (5.8) şi
ale predictorului înapoi (5.24) şi (5.25) ne determină să stabilim echivalenţe între cele două
tipuri de predictoare. În acest scop, introducem matricea de schimb notată J care inversează
ordinea elementelor unui vector:
0 0 1
,0 1 0
1 0 0
H H
J J J JJ I (5.26)
În aceste condiţii, utilizăm matricea J şi rescriem vectorul de intercorelaţie Br utilizat în
cazul predicţiei inverse, astfel:
B E n u n M r u Jr (5.27)
Prin urmare, ecuaţiile Wiener-Hopf pentru predicţia înapoi (5.24) şi (5.25) devin
M b
R w Jr (5.28)
şi 0 0BT T
M b bP r r r w r Jw (5.29)
Pentru echivalarea celor două tipuri de predicţie, începem prin a conjuga complex
ecuaţia Wiener-Hopf a predictorului înainte (5.7):
M f
R w r (5.30)
Aplicăm în continuare matricea de schimb relaţiei (5.30)
M f
JR w Jr (5.31)
Dar MR este o matrice Toeplitz simetrică (vezi Capitolul 3), şi are proprietatea
RJ JR (5.32)
Aplicăm ecuaţia (5.32) relaţiei (5.31) şi obţinem:
Tabelul 5.1 Principalele mărimi utilizate la definirea filtrului Wiener, a filtrului de
predicţie înainte şi a filtrului de predicţie înapoi.
124 PREDICŢIA LINEARĂ - 5
M f
R Jw Jr (5.33)
Comparând ultima ecuaţie cu (5.28), avem
b f
w Jw (5.34)
sau, cu alte cuvinte:
Un predictor înapoi poate fi obţinut dintr-un predictor înainte prin inversarea
ordinii coeficienţilor şi conjugarea lor complexă.
Pentru a demonstra egalitatea puterii erorilor de predicţie înainte şi înapoi, se conjugă
complex relaţia (5.29) şi se are în vedere că atât MP cât şi 0r sunt mărimi reale, nefiind
afectate de această operaţie. În sfârşit, din utilizarea relaţiei de legătură (5.34) rezultă că
puterile erorilor de predicţie înainte şi înapoi sunt egale.
Aceste proprietăţi remarcabile de simetrie a celor două tipuri de predictoare optimale se
manifestă doar în cazul proceselor staţionare dar dispare pentru procese nestaţionare
(Manolakis, ş.a. 2005). De asemenea, simetria încetează să se manifeste dacă se aplică un alt
criteriu de minimizare în locul celui al EPM minime sau dacă procesul prezis este
negaussian (Weiss 1975).
5.2.3 Filtrul erorii de predicţie înapoi
Eroarea de predicţie înapoi Mb n definită prin ecuaţia (5.20) se dezvoltă conform cu (5.18)
astfel:
,
1
1M
M b k
k
b n u n M w u n k
(5.35)
Coeficienţii filtrului erorii de predicţie înapoi se definesc în raport cu cei corespunzători ai
predictorului înapoi după cum urmează:
, 1
,
, 0,1, , 1
1,
b k
M k
w k Mc
k M
(5.36)
În consecinţă ecuaţia (5.35) se rescrie (vezi Figura 5.6) astfel:
,
0
M
M M k
k
b n c u n k
(5.37)
Ecuaţia (5.34) exprimă relaţia dintre vectorii coeficienţilor filtrului predictor înainte şi
înapoi. Expresia scalară a relaţiei este:
, 1 , , 1,2, ,b M k f kw w k M
sau echivalent: , , 1 , 1,2, ,b k f M kw w k M
(5.38)
Înlocuind prin urmare (5.38) în (5.36) se obţine:
,
,
, 0,1, , 1
1,
f M k
M k
w k Mc
k M
(5.39)
5.2 Predicţia lineară înapoi (inversă) 125
Astfel, utilizând relaţiile între coeficienţii filtrului erorii de predicţie înainte şi ai
predictorului înainte date în (5.10) se poate scrie:
, , , 0,1, ,M k M M kc a k M
(5.40)
Drept urmare, în cazul filtrului erorii de predicţie înapoi, relaţia intrare-ieşire se poate
exprima sub forma:
,
0
M
M M M k
k
b n a u n k
(5.41)
Relaţia (5.41) este transpusă în Figura 5.7. Comparând această reprezentare cu cea din
Figura 5.2 pentru filtrul erorii de predicţie înainte, devine evident faptul că cele două filtre se
obţin unul din celălalt prin inversarea ordinii coeficienţilor şi conjugare complexă.
5.2.4 Ecuaţiile Wiener-Hopf extinse pentru predicţia
înapoi
Ecuaţiile Wiener-Hopf ale predictorului înapoi (5.24) şi expresia puterii erorii de predicţie
înapoi (5.25) pot fi combinate într-o singură relaţie, după cum urmează:
10
B
MbM
BT
MPr
0wR r
r (5.42)
unde M0 este vectorul nul de dimensiune 1M . În membrul stâng se remarcă matricea de
corelaţie extinsă 1M R de dimensiune 1 1M M , a eşantioanelor de intrare ,u n
1 , ,u n u n M în filtrul erorii de predicţie din Figura 5.6. Mai mult, se observă că:
1
b B
M M
wc a
Relaţia (5.42) se scrie atunci:
1
MB
M M
MP
0R a
Figura 5.6 Filtrul erorii de predicţie înapoi. Figura 5.7 Filtrul erorii de predicţie înapoi definit pe baza
coeficienţilor filtrului erorii de predicţie înainte.
126 PREDICŢIA LINEARĂ - 5
sau: ,
0
0, 0,1, , 1
,
M
M M i
i M
i Ma r l i
P i M
(5.43)
Ecuaţiile (5.42) şi (5.43) poartă numele de ecuaţii Wiener-Hopf extinse pentru predicţia
înapoi de ordinul M . Ecuaţia (5.42) este echivalentă ecuaţiei (5.14) pentru predicţia înainte.
Având în vedere că 1M R este atât o matrice Toeplitz cât şi hermitică, ultima ecuaţie
întăreşte relaţia stabilită dintre coeficienţii filtrului erorii de predicţie înapoi şi ai filtrului
erorii de predicţie înainte.
5.3 Predicţia lineară generalizată
Ca şi în cazurile studiate anterior, se porneşte de la setul de valori ale procesului stochastic
, 1 , ,u n u n u n M . Diferenţa în situaţia pe care o tratăm constă în faptul că de
această dată se doreşte a fi estimată o valoare oarecare din set, să spunem u n i , printr-o
combinaţie lineară a celorlalte eşantioane. Estimarea rezultată u n i şi eroarea de estima-
re corespunzătoare i
Me n sunt:
,
0
ˆM
g k
kk i
u n i w u n k
(5.44)
şi
, ,
0
ˆ cu 1M
i i i
M M k M i
k
e n u n i u n i g u n k g
(5.45)
Coeficienţii ,g kw care apar în ecuaţia (5.44) sunt elementele vectorului ponderilor filtrului
de predicţie generalizate: ,0 ,1 , .T
g g g g Mw w w w Ecuaţia (5.45) defineşte filtrul
erorii de predicţie generalizate de ordinul M, elementele ,
i
M kg
constituind coeficienţii
acestui filtru:
,0 ,1 , .Ti
M M M M Mg g g g Filtrul erorii de predicţie generalizate este
reprezentat în Figura 5.8. Relaţiile dintre coeficienţii celor două filtre sunt de aceiaşi formă
cu cele scrise în paragrafele 5.1.2 şi 5.2.3 pentru predicţia înainte şi înapoi:
Figura 5.8 Filtrul erorii de predicţie generalizate.
5.3 Predicţia lineară generalizată 127
,
,
1,
, 1,2, , ,
i
M k
g k
k ig
w k M k i
(5.46)
O imagine sugestivă a similitudinilor dar şi a diferenţelor care se stabilesc între predicţia
generalizată, predicţia înainte şi predicţia înapoi este prezentată în Figura 5.9 (Manolakis,
ş.a. 2005). Se remarcă că, în toate cele trei cazuri, predicţia este realizată pe baza aceluiaşi
set de eşantioane, diferit fiind doar termenul seriei temporale care se estimează.
Pentru a obţine ecuaţiile Wiener-Hopf care definesc valoarea minimă a EPM în cazul
filtrului de predicţie generalizată, se partiţionează ecuaţia (5.45) astfel:
1
, ,
0 1
,1 1 ,2 2
i Mi
M M k M k
k k i
i H i H i H
M M M
e n g u n k u n i g u n k
n u n i n n
g u g u g u
(5.47)
unde partiţiile vectorului coeficienţilor şi ale vectorului de date în jurul componentei i,
rezultă din context, iar T
n u n u n i u n M u . Să observăm că în
acest caz, componentele operaţiei de optimizare sunt:
1
2
Răspunsul dorit Vectorul de daten
u n in
u
u
Utilizând relaţia (5.7), prima ecuaţie Wiener-Hopf se scrie astfel:
,1 111 11
212 22 ,2
i
M
T i
M
n
n
g uR R
uR R g (5.48)
Explicaţia semnului minus din membrul drept al lui (5.48) este datorat utilizării
coeficienţilor filtrului de eroare de predicţie din (5.46) în loc de coeficienţii filtrului de
predicţie. De asemenea, pentru , 1,2j k , s-a scris:
şi H
jk j k j jE n n E n u n i R u u r u (5.49)
Pentru a scrie puterea erorii de predicţie generalizate iMP se porneşte de la (5.8), şi se
ţine cont de schimbarea de semn din (5.46). Rezultă
1 ,1 2 ,20i i iH H
M M MP r r g r g (5.50)
Ecuaţia Wiener-Hopf extinsă a predicţiei generalizate se obţine prin combinarea într-o
singură ecuaţie a relatiilor (5.48) şi (5.50). În acest scop, este util de notat că matricea de
corelaţie 1M R a vectorului extins nu poate fi partiţionată în raport cu linia i şi coloana i
astfel:
11 1 12
1 1 2
12 2 22
0H H
M
H
r
R r R
R r r
R r R
(5.51)
128 PREDICŢIA LINEARĂ - 5
Relaţia se obţine, combinând (5.48), (5.50) şi (5.51) într-o singură ecuaţie matricială
1 linia i i
M M MP i
0
R g
0
(5.52)
Aceasta este ecuaţia Wiener-Hopf extinsă a predicţiei generalizate.
Dacă 2M L şi i L , atunci se obţine aşa-numitul filtru de netezire simetric Mg .
Acesta produce o estimare a eşantionului median ce utilizează L eşantioane anterioare şi L
eşantioane posterioare.
5.4 Algoritmul Levinson-Durbin
Este o metodă directă de calcul al coeficienţilor filtrelor erorii de predicţie şi al puterii erorii
de predicţie prin rezolvarea ecuaţiilor Wiener-Hopf extinse. Metoda este recursivă şi se
bazează pe structura Toeplitz a matricii de corelaţie. În principiu, procedura utilizează solu-
ţia ecuaţiilor Wiener-Hopf extinse pentru un filtru de eroare de predicţie de ordinul 1m
pentru a calcula soluţia corespunzătoare pentru filtrul cu un ordin mai mare (Bellanger
2001). Principala calitate a algoritmului Levinson-Durbin este eficienţa în calcule: se reali-
Figura 5.9 Estimări, eşantioane şi erori utilizate în predicţia
generalizată, predicţia înainte şi predicţia înapoi.
5.4 Algoritmul Levinson-Durbin 129
zează economii în ceea ce priveşte numărul operaţiilor aritmetice şi capacitatea de memorie
utilizată în raport cu metodele standard (Manolakis, ş.a. 2005).
Numele pe care îl poartă algoritmul a fost dat în semn de recunoaştere a faptului că a
fost introdus prima oară de Levinson în 1947, fiind reformulat independent mai târziu de
Durbin în 1960 (Haykin 1996).
5.4.1 Formularea algoritmului
Fie vectorul ma de dimensiune 1 1m al coeficienţilor filtrului erorii de predicţie
înainte de ordinul m . Coeficienţii filtrului erorii de predicţie înapoi se obţin prin inversarea
ordinii elementelor vectorului urmată de operaţia de conjugare complexă. Efectul combinat
al acestor două operaţiuni este notat prin B
M
a . Vectorii de dimensiune 1m ai filtrelor de
eroare de ordinul 1m sunt notaţi prin 1ma respectiv
1
B
m
a . Operaţia de recursie
Levinson-Durbin se face după ordinul filtrului şi permite, ca pe baza coeficienţilor filtrulului
erorii de predicţie de ordinul m-1, să se calculeze coeficienţii filtrului de ordinul m. Ea se
formulează în două moduri echivalente:
1. Coeficienţii filtrului de eroare de predicţie înainte sunt calculaţi recursiv cu relaţia:
1
1
0
0
m
m m B
m
aa
a (5.53)
unde m este o constantă. Versiunea scalară a acestei operaţiuni este:
, 1, 1, ; 0,1, ,m l m l m m m la a a l m
(5.54)
unde ,m la este coeficientul l al filtrului erorii de predicţie înainte de ordinul m şi
similar pentru 1,m la care este coeficientul l al filtrului de ordinul 1m . Elementul
1,m m la
este coeficientul l al filtrului erorii de predicţie înapoi de ordinul 1m . De
remarcat că 1,0 1ma iar 1, 0m ma .
2. Coeficienţii filtrului de eroare de predicţie înapoi sunt calculaţi recursiv cu ecuaţia:
1
1
0
0
mB
m mB
m
aa
a (5.55)
versiunea scalară fiind:
, 1, 1, ; 0,1, ,m m l m m l m m la a a l m
(5.56)
unde ,m m la
este coeficientul l al filtrului de eroare de predicţie înapoi de ordinul
m , celelalte elemente fiind definite anterior.
Pentru a stabili condiţiile pe care constanta m trebuie să le satisfacă, se parcurg cele
patru etape care urmează:
130 PREDICŢIA LINEARĂ - 5
1. Se înmulţeşte ecuaţia (5.53) cu 1mR , matricea de corelaţie de dimensiune
1 1m m a intrărilor , 1 , ,u n u n u n m . Pentru membrul stâng al
ecuaţiei (5.53) se obţine, în conformitate cu (5.14):
1
m
m m
m
P
R a0
(5.57)
Indicii matricii 1mR şi ai vectorului
m0 se referă la dimensiunile lor, în timp ce
indicii vectorului ma şi ai scalarului
mP (puterea erorii de predicţie) se referă la
ordinul predicţiei.
2. Pentru primul termen din membrul drept al ecuaţiei (5.53) se utilizează partiţia
matricii de corelaţie 1mR de forma:
10
B
m m
m BT
m r
R rR
r
unde B
mr este vectorul de intercorelaţie a intrărilor , 1 , , 1u n u n u n m
cu u n m . Se scrie:
11 1
1
-10 00
B
m mm mm m
m BTBT
m mm r
R aa aR rR
r ar (5.58)
Setul de ecuaţii extinse Wiener-Hopf pentru filtrul erorii de predicţie înainte de
ordinul 1m este:
1
1
1
m
m m
m
P
R a0
(5.59)
unde 1mP este puterea erorii de predicţie a acestui filtru. Se defineşte scalarul:
1
1 1 1,
0
mBT
m m m m l
l
r l m a
r a (5.60)
Înlocuind ecuaţiile (5.59) şi (5.60) în ecuaţia (5.58), se obţine:
1
1
1 1
1
0
m
m
m m
m
P
aR 0 (5.61)
3. Pentru cel de-al doilea termen din membrul drept al ecuaţiei (5.53) se utilizează o
altă partiţie a lui 1mR :
1
0 H
m
m
m m
r
rR
r R
5.4 Algoritmul Levinson-Durbin 131
unde mr este intercorelaţia vectorului 1n u cu u n . Se poate scrie prin urmare:
1
1
1 1 1
0 00 H H B
m m m
m B B Bm mm m m m
r
r r aR
a ar R R a (5.62)
Scalarul 1
H B
m m
r a este egal cu:
1
1 1, 1, 1
1 0
m mH B
m m m m k m l m
k l
r k a r l m a
r a (5.63)
De asemenea, setul de ecuaţii Wiener-Hopf extinse pentru filtrul erorii de predicţie
înapoi de ordinul 1m este:
1
1
1
mB
m m
mP
0R a (5.64)
Înlocuind ecuaţiile (5.63) şi (5.64) în (5.62), se scrie:
1
1 1
1
1
0m
m mB
m
mP
R 0a
(5.65)
4. Însumând rezultatele obţinute la paşii 1, 2, 3 şi anume, ecuaţiile (5.57), (5.61) şi
(5.65) se ajunge la observaţia că multiplicând ambii termeni ai ecuaţiei (5.53) cu
matricea 1mR se obţine:
1 1
1 1
1 1
m m
m
m m m
m
M m
PP
P
0 00
(5.66)
În concluzie, dacă relaţia de recursie (5.53) este corectă, atunci ecuaţia (5.66) este un
rezultat direct al acestei recursii. Invers, dacă condiţiile descrise de ecuaţia (5.66) se aplică,
vectorul coeficienţilor filtrului erorii de predicţie înainte, poate fi calculat ca în ecuaţia
(5.53).
Din ecuaţia (5.66) se pot trage două concluzii importante:
1. Din prima linie a vectorilor ecuaţiei (5.66) rezultă:
1 1m m m mP P
(5.67)
2. Din ultima linie a vectorilor din ecuaţia (5.66) se scrie:
1 10 m m mP (5.68)
Rezultă imediat valoarea constantei m :
1
1
mm
mP
(5.69)
132 PREDICŢIA LINEARĂ - 5
unde 1m este definită prin ecuaţia (5.60). Mai mult
1m se poate elimina între ecuaţiile
(5.67) şi (5.68), furnizând relaţia de calcul prin recursie al puterii erorii de predicţie:
2
1 1m m mP P (5.70)
Pe măsură ce ordinul m al filtrului erorii de predicţie creşte, valoarea corespunzătoare a
puterii erorii de predicţie descreşte sau rămâne aceeaşi. Bineînţeles, mP nu poate fi negativă
şi astfel întotdeauna:
10 , 1m mP P m (5.71)
În cazul elementar al filtrului erorii de predicţie de ordinul 0:
0 0P r
unde 0r este funcţia de autocorelaţie a intrării pentru întârziere nulă. Se poate acum,
aplicând repetat ecuaţia (5.70) şi pornind de la relaţia de mai sus, determina puterea erorii de
predicţie pentru ordinul M:
2
01
1M
M mm
P P
(5.72)
5.4.2 Interpretări ale parametrilor m şi
1m
Parametrii m , 1 m M , ce rezultă din aplicarea recursiei Levinson-Durbin unui filtru al
erorii de predicţie de ordinul final M sunt denumiţi coeficienţi de reflexie. Utilizarea
termenului vine de la analogia ecuaţiei (5.70) cu teoria liniilor de transmisie unde m poate
fi considerat coeficient de reflexie la graniţa dintre două secţiuni cu impedanţe caracteristice
diferite. De observat condiţia asupra coeficientului de reflexie care rezultă din (5.71):
1,m m (5.73)
Din ecuaţia (5.54) se observă că pentru un filtru al erorii de predicţie de ordinul m ,
coeficientul m este egal cu ultimul coeficient al filtrului, ,m ma :
,m m ma (5.74)
În ceea ce priveşte parametrul 1m , el poate fi interpretat ca intercorelaţia dintre
eroarea de predicţie înainte 1mf n şi eroarea de predicţie înapoi întârziată 1 1mb n .
Pornind de la definiţii şi utilizând principiul ortogonalităţii, se poate scrie (vezi Exemplul
5.3):
1 1 11m m mE b n f n
(5.75)
unde 1mf n se produce la ieşirea filtrului erorii de predicţie înainte de ordinul 1m ca
răspuns la secvenţa de intrare , 1 , , 1u n u n u n m iar 1 1mb n se produce la
ieşirea filtrului erorii de predicţie înapoi ca răspuns la secvenţa 1 , ,u n u n m .
5.4 Algoritmul Levinson-Durbin 133
De subliniat că:
0 0f n b n u n
unde u n este intrarea filtrului erorii de predicţie la momentul n . Prin urmare, din ecuaţia
(5.75) se poate stabili că 0 are valoarea:
0 0 01 1 1E b n f n E u n u n r
Cunoscând 0 şi
0P , se poate calcula, folosind relaţiile de recurenţă (5.69) şi (5.70),
coeficientul 1 :
201 1 0 1
0
0; 1
1
rP P
P r
şi aşa mai departe până la ordinul M . Coeficienţii 1m se calculează cu formula de
definiţie (5.60) şi, utilizând relaţiile de recurenţă, se pot calcula succesiv mP ,
m şî ma
pornind de la 0m .
Ecuaţiile (5.69) şi (5.70) se pot utiliza pentru a dezvolta o interpretare diferită a para-
metrului m . În particular, întrucât
1mP poate fi văzut drept valoarea medie pătratică a ero-
rii de predicţie înainte 1mf n , se poate scrie
1 1
2
1
1m m
m
m
E b n f n
E f n
(5.76)
Membrul drept al ecuaţiei (5.76), cu excepţia unui semn, poartă numele de coeficient de
corelaţie parţială (PARCOR), terminologie larg utilizată în literatura de specialitate.
5.4.3 Implementarea algoritmului
Tabelul 5.2 prezintă o implementare a algoritmului (Ciochină şi Negrescu 1999). În această
abordare, sunt utilizate succesiv ecuaţiile (5.69), (5.70), (5.74), (5.54) şi (5.60).
Dacă rezolvarea matricială a ecuaţiilor Wiener-Hopf necesită un număr de operaţii
matematice proporţional cu 3M , în cazul algoritmului Levinson-Durbin, în pasul m sunt
efectuate:
1 (o) împărţire,
2 1m înmulţiri,
2m adunări.
Întregul algoritm necesită 2
12 2 3
M
mm M M
înmulţiri / împărţiri şi
2
12
M
mm M M
adunări. Timpul total de calcul este proporţional cu 2M .
134 PREDICŢIA LINEARĂ - 5
Exemplul 5.3: Să se demonstreze că 1m este egală cu intercorelaţia dintre
eroarea de predicţie înapoi întârziată 1 1mb n şi eroarea de predicţie înainte
1mf n .
Soluţie: Este simplu de observat că:
1 1 11m m mE b n f n E u n m f n
pentru că 1
1 ,
1
1m
m b k
k
b n u n m w u n k
,
iar, în conformitate cu principiul ortogonalităţii:
1 0, 0,1, , 1mE u n k f n k n m
De asemenea, eroare de predicţie înainte poate fi scrisă ca:
1 1 1 m-1 1 fH T H
m m m mf n n n n n
a u u a u a
Prin urmare:
1 1
1 11 1 q.e.d
H
m m
BT
m m m
E u n m f n E u n m n
r m r m r
u a
a r a
Exemplul 5.4: Se dau coeficienţii 3,1 3,2 3,3, ,a a a ai unui filtru al erorii de predicţie
de ordinul 3. Să se determine coeficienţii de reflexie corespunzători 1 2 3, , .
Tabelul 5.2 Implementarea algoritmului
Levinson-Durbin.
5.4 Algoritmul Levinson-Durbin 135
Este vorba de a stabili aşa-numitul algoritm Levinson-Durbin invers. În general, se
porneşte de la valorile coeficienţilor filtrului ,1 ,2 ,, , ,M M M Ma a a şi se calculează coeficienţii
de reflexie 1 2, , , M . Evident, ,0 1Ma . Pentru rezolvare, se combină ecuaţiile (5.54)
şi (5.56) ce reprezintă versiunile scalare ale recursiei Levinson-Durbin pentru filtrele de
eroare de predicţie înainte respectiv înapoi:
, 1,
, 1,
1, 0,1, ,
1
m k m km
m m k m m km
a ak m
a a
(5.77)
unde ordinul este 1,2, ,m M . Presupunând că 1m , soluţia pentru coeficientul
1,m ka este:
, , ,
1, 2
,
; 0,1, ,1
m k m m m m k
m k
m m
a a aa k m
a
(5.78)
unde s-a utilizat ,m m ma .
Procedura de calcul porneşte de la setul de coeficienţi ,M ka pentru care filtrul erorii de
predicţie are ordinul M . Se utilizează ecuaţia (5.78) recursiv pentru ordine descrescătoare
ale filtrului: , 1, ,2m M M . În final, se utilizează pentru a determina coeficienţii de
reflexie, relaţia:
, , , 1, ,1m m ma m M M
Soluţie:
a. Filtrul erorii de predicţie de ordinul 2 ( 3m ):
3,1 3,3 3,2 3,2 3,3 3,1
2,1 2,22 2
3,3 3,3
;1 1
a a a a a aa a
a a
b. Filtrul erorii de predicţie de ordinul 1 ( 2m ):
2,1 2,2 21
1,1 2
2,21
a a aa
a
c. Coeficienţii de reflexie sunt, prin urmare:
3 3,3 2 2,2 1 1,1, ,a a a
unde 3,3a este dat iar 2,2a şi 1,1a sunt calculaţi mai sus.
Exemplul 5.5: Să se calculeze prin algoritmul Levinson-Durbin coeficienţii de
reflexie ai unui predictor de ordinul 3, din valorile funcţiei de autocorelaţie:
0 1; 1 0,75; 2 0,5; 3 0,25r r r r . Ecuaţia Wiener-Hopf este:
136 PREDICŢIA LINEARĂ - 5
,1
,2
,3
1 0,75 0,5 0,75
0,75 1 0,75 0,5
0,5 0,75 1 0,25
f
f
f
w
w
w
Soluţie: Se aplică algoritmul Levinson-Durbin din Tabelul 5.2.
a. Iniţializare: 0 00 1; 1 0,75P r r
b. Predictorul de ordinul I:
201 1 0 1
0
1,0 1,1 1
1 1,0 1,1
3 7; 1
4 16
31;
4
12 1
16
P PP
a a
a r a r
c. Predictorul de ordinul II:
212 2 1 2
1
2,0 2,1 1,1 2 1,1 2,2 2
2 2,0 2,1 2,2
1 3; 1
7 7
6 11; ;
7 7
13 2 1
14
P PP
a a a k a a
a r a r a r
d. Predictorul de ordinul III:
223 3 2 3
2
3,0 3,1 2,1 3 2,2 3,2 2,2 3 2,1 3,3 3
1 5; 1
6 12
5 11; ; 0 ;
6 6
P PP
a a a a a a a a
5.5 Algoritmul Schür
Spre deosebire de algoritmul Levinson-Durbin, algoritmul Schür calculează doar coeficienţii
de reflexie m ai filtrului erorii de predicţie, nu şi ponderile acestuia, , ,,m k m ka c . Prin urma-
re, este normal ca algoritmul Schür să ofere problemei de determinare a filtrului predictor o
soluţie mai eficientă (Ciochină şi Negrescu 1999, Manolakis, ş.a. 2005).
Definim secvenţa ,f my i obţinută prin convoluţia coeficienţilor filtrului erorii de
predicţie înainte de ordinul m ce are ponderile ,m ka cu secvenţa de autocorelaţie r i :
, ,
0
m
f m m k
k
y i a r i k
(5.79)
5.5 Algoritmul Schür 137
Pe de altă parte, ecuaţia Wiener-Hopf extinsă (5.17) a filtrului erorii de predicţie înainte se
poate scrie în formele
,
1
, 1, 2, ,m
m k
k
a r i k r i i m
(5.80)
,
0
0, 1, 2, ,m
m k
k
a r i k i m
(5.81)
Comparând rezultatele din (5.79), (5.80) şi (5.81) se observă că:
, 0, 1, 2, ,f my i i m (5.82)
şi, de asemenea ,
0
0, 1, 2, ,m
m k
k
a r i k i m
(5.83)
În cazul filtrului erorii de predicţie înapoi de ordinul m având coeficienţii notaţi prin
,m kc , se defineşte similar secvenţa ,b my i :
, ,
0
m
b m m k
k
y i c r i k
(5.84)
Pe de altă parte, după cum s-a stabilit în (5.40)
*
, ,m k m m kc a
ceea ce are drept consecinţă faptul că:
*
, ,b m f my i y m i (5.85)
Ca în (5.82) şi în (5.83) rezultă proprietăţi echivalente pentru secvenţa ,b my i
, 0, 0,1, , 1b my i i m (5.86)
,b m my m P (5.87)
Facem în continuare apel la relaţiile de recurenţă (5.54) şi (5.56) pe care le rescriem
pentru simplificare, în cele ce urmează
, 1, 1, 1
*
, 1, 1, 1
m k m k m m k
m k m m k m k
a a c
c a c
Relaţii de recurenţă asemănătoare se pot scrie şi pentru secvenţele ,f my i şi ,b my i :
, , 1 , 1 1f m f m m b my i y i y i (5.88)
*
, , 1 , 1 1b m m f m b my i y i y i (5.89)
Pe de altă parte, condiţiile iniţiale pentru relaţiile de recurenţă (5.88) şi (5.89) sunt:
,0 ,0f by i y i r i (5.90)
138 PREDICŢIA LINEARĂ - 5
În sfârşit, coeficienţii de reflexie m pot fi calculaţi recursiv dacă se face apel pentru
momentul m la relaţia de recurenţă (5.88) şi la proprietatea (5.82)
, , 1 , 1 1 0f m f m m b my m y m y m (5.91)
Prin urmare:
, 1
, 1 1
f m
m
b m
y mk
y m
(5.92)
Algoritmul Schür calculează recursiv coeficienţii de reflexie ai predictorului optim,
făcând apel la valorile funcţiei de autocorelaţie şi la relaţiile (5.90),(5.91), (5.92), (5.88) şi
(5.89). El este prezentat în Tabelul 5.3. Parcurgerea unui ciclu al algoritmului presupune
efectuarea următoarelor operaţiuni matematice (Ciochină şi Negrescu 1999):
O împărţire pentru calculul lui m ;
M m înmulţiri şi M m adunări în primul ciclu după i ;
1M m înmulţiri şi 1M m adunări în al doilea ciclu după i .
Într-un ciclu sunt 2 2 2M m înmulţiri/împărţiri şi 2 2 1m M adunări, ceea ce face în
total 2M M înmulţiri/împărţiri şi 2M adunări.
Modalitatea de organizare practică a algoritmului este următoarea:
Se iniţializează algoritmul. Se constituie „matricea generatoare”:
Tabelul 5.3 Implementarea algoritmului Schür.
5.5 Algoritmul Schür 139
0
0 1 2
0 1 2
r r r M
r r r r M
G (5.93)
Se deplasează spre dreapta cu o unitate, linia a doua a matricii 0G
'
0
0 1 2
0 0 1 1
r r r M
r r r M
G (5.94)
Raportul cu semn schimbat al elementelor de pe coloana a doua stabileşte valoarea
coeficientului de reflexie 1 .
Se constituie matricea
1
1 *
1
1
1
K (5.95)
Se calculează
,1 ,1' '
1 1 0
,1 ,1 ,1
0 0 2
0 1 2
f f
b b b
y y M
y y y M
G K G (5.96)
unde s-a avut în vedere relaţiile de recurenţă şi faptul că ,1 1 0fy .
În continuare se repetă ultimele trei operaţii.
Exemplul 5.6: Să se calculeze prin algoritmul Schür coeficienţii de reflexie ai
unui predictor de ordinul 3. Valorile funcţiei de autocorelaţie sunt: 0 1;r
1 0,75; 2 0,5; 3 0,25r r r .
Soluţie: Se constituie matricile 0G şi '
0G
'
0 0
0 0,75 0,5 0,25 0 0,75 0,5 0,25,
1 0,75 0,5 0,25 0 1 0,75 0,5
G G
Rezultă: 1 1
1 0,750,75 3,
0,75 11 4
K
Se reia calculul pentru 1m
' '
1 1 0 1
2 2
0 0 1 16 1 8 0 0 1 16 1 8,
0 7 16 3 8 5 16 0 0 7 16 3 8
1 1 71 161 7 ,
1 7 17 16
G K G G
K
Pentru 2m
' '
2 2 1 2
0 0 0 1 14 0 0 0 1 14,
0 0 3 7 5 14 0 0 0 3 7
G K G G
140 PREDICŢIA LINEARĂ - 5
3
1 141 6
3 7
5.6 Proprietăţile filtrelor erorii de predicţie
Proprietatea 1. Echivalenţa dintre funcţia de autocorelaţie şi coeficienţii
de reflexie. Există o corespondenţă strictă între valorile coeficienţilor de reflexie
ai unui filtru al erorii de predicţie şi valorile funcţiei de corelaţie, în sensul că
dacă se cunoaşte una dintre ele, cea de a doua poate fi determinată în mod unic
într-o manieră recursivă.
Valorile funcţiei de autocorelaţie sau transformata sa Fourier - densitatea spectrală de putere
- reprezintă o modalitate obişnuită de a reprezenta statistic un proces aleator staţionar în sens
larg. Afirmaţia din titlu se referă la faptul că setul de valori ale coeficienţilor de refle-
xie 0 1 20 , , , , MP r ai unui filtru de eroare de predicţie de ordinul M determină în
mod unic setul corespunzător de valori ale funcţiei de autocorelaţie 0 , 1 , ,r r r M şi
viceversa.
Pentru a demonstra această echivalenţă, vom începe prin a elimina 1m între ecuaţiile
(5.60) şi (5.68). Se obţine:
1
1, 1
0
m
m k m m
k
a r k m P
(5.97)
În (5.97) înlocuim r m r m şi avem în vedere că 1,0 1ma , ceea ce conduce la rela-
ţia de recursie
1
*
1 1.
1
m
m m m k
k
r m P a r m k
(5.98)
Prin urmare, dacă se dă setul de numere 1 20 , , , , Mr , prin utilizarea relaţiei (5.98)
împreună cu ecuaţiile de recursie Levinson-Durbin (5.54) şi (5.70) , se poate genera recursiv
setul de numere care le corespunde: 0 , 1 , ,r r r M .
Vom presupune, în continuare, că este dat setul de valori ale funcţiei de autocorelaţie
1 , ,r r M . Atunci se poate calcula recursiv setul corespunzător de numere 1 2, ,
, M prin utilizarea relaţiei:
1
1,
01
1 m
M m k
km
a r k mP
(5.99)
Ultima relaţie se obţine prin rezolvarea ecuaţiei (5.97) pentru m . În ecuaţia (5.99) se presu-
pune că 1mP este nenul. Dacă 1mP este nul, din (5.70) rezultă că 1 1m , iar secvenţa
coeficienţilor de reflexie 1 2 1, , , m este terminată.
5.6 Proprietăţile filtrelor erorii de predicţie 141
Proprietatea 2. Legătura dintre funcţia de transfer a filtrului erorii de
predicţie şi coeficienţii de reflexie. Fiind dat coeficientul de reflexie m şi funcţii-
le de transfer de ordinul 1m ale filtrelor erorii de predicţie înainte şi înapoi,
funcţiile de transfer corespunzătoare de ordinul m ale filtrelor erorii de predicţie
sunt unic determinate.
Vom nota prin ,f mH z , respectiv ,b mH z funcţiile de transfer ale filtrelor erorii de
predicţie înainte şi înapoi de ordinul m . Acestea se obţin prin aplicarea transformatei Z
răspunsului la impuls al acestor filtre:
, , , , ,
0 0 0
,m m m
k k k
f m m k b m m k m m k
k k k
H z a z H z c z a z
(5.100)
Pe baza recursiei Levinson-Durbin exprimată prin ecuaţiile (5.54) şi (5.56), coeficienţii
filtrului de ordinul m se pot exprima în funcţie de cei ai filtrelor de ordinul 1m :
, 1, 1,
0 0
-1 11
-1, 1, 1
0 0
=
m mk k
f m m k m m m k
k k
m mk k
m k m m m k
k k
H z a z a z
a z z a z
(5.101)
unde, în linia a doua s-a utilizat faptul că 1, 0m ma . Secvenţa de numere 1. , 0,1,m ka k
, 1m defineşte răspunsul la impuls al unui filtru al erorii de predicţie înainte de ordinul
1m , iar secvenţa 1, 1 , 0,1, , 1m m ka k m defineşte răspunsul la impuls al unui filtru al
erorii de predicţie înapoi de acelaşi ordin. Înlocuind funcţiile menţionate în (5.101), se scrie:
1
, , 1 , 1f m f m m b mH z H z z H z
(5.102)
Similar, se scrie relaţia de recurenţă pentru filtrul erorii de predicţie înapoi de ordinul m :
1
, , 1 , 1b m f m m b mH z z H z H z
(5.103)
Proprietatea 3. Dacă procesul u n este staţionar, filtrul erorii de predicţie
înainte este de fază minimă iar filtrul erorii de predicţie înapoi este de fază
maximă.
Un filtru de fază minimă are toate zerourile situate în interiorul cercului 1z , iar filtrul de
fază maximă are toate zerourile în exteriorul cercului 1z (vezi Capitolul 2). Având în
vedere definiţiile funcţiilor de transfer ale celor două filtre făcute în (5.100) şi proprietatea
(5.40), este simplu de arătat că între funcţiile de transfer ale celor două filtre se stabileşte
relaţia
, ,
1( ) m
b m f mH z z Hz
(5.104)
În conformitate cu (5.104), zerourile filtrului erorii de predicţie înapoi sunt simetrice în
raport cu circumferinţa cercului de rază unitate cu zerourile filtrului erorii de predicţie
142 PREDICŢIA LINEARĂ - 5
înainte. Drept urmare, este suficient să se demonstreze prima parte a proprietăţii pentru că
cea de a doua rezultă automat din (5.104)
Nu vom face aici demonstraţia proprietăţii, întrucât aceasta depăşeşte cadrul lucrării.
Cei interesaţi pot consulta demonstraţia ingenioasă din Vaidyanathan, ş.a. (1997) reluată şi
în Manolakis, ş.a. (2005).
Proprietatea 4. Filtrul erorii de predicţie înainte are proprietatea de „a albi” un
proces stochastic staţionar în timp discret, cu condiţia ca ordinul filtrului să fie
suficient de mare.
Putem justifica această proprietate dacă ne referim la afirmaţia făcută în paragraful 5.1.3 cu
privire la faptul că generarea unui proces staţionar pornind de la zgomot alb şi utilizând un
model AR pe de o parte, şi predicţia lineară a aceluiaşi proces pe de alta, sunt două operaţii
inverse, una în raport cu cealaltă. Consecinţa este că, dacă ordinul filtrului erorii de predicţie
este, cel puţin, egal cu cel al procesului AR, atunci procesul aleator de la ieşirea filtrului va fi
necorelat, adică zgomot alb.
Dintr-un alt punct de vedere, procesul de predicţie se bazează pe prezenţa corelaţiei
dintre eşantioanele adiacente ale procesului de intrare. Implicaţiile acestei observaţii este că,
pe măsură ce ordinul filtrului erorii de predicţie creşte, succesiv se reduce corelaţia dintre
eşantioanele adiacente ale procesului de intrare, până când se ajunge la punctul în care filtrul
are un ordin suficient de mare pentru ca ieşirea sa să fie alcătuită dintr-o secvenţă de
eşantioane necorelate.
5.7 Structuri lattice pentru filtrele de
eroare de predicţie
Structura lattice (în traducere românească zăbrele) reprezintă o modalitate eficientă şi
modulară de implementare sub forma unei reţele a predicţiei lineare. Un predictor lattice
constă din conexiunea în cascadă a unor etaje elementare de structură tip lattice. Numărul de
etaje este egal cu ordinul de predicţie.
5.7.1 Ortogonalitatea erorilor de predicţie
Să considerăm o „baterie” de filtre ale erorii de predicţie înapoi de ordine de la 0 la M,
conectate în paralel ca în Figura 5.10. De observat că pentru predicţia de ordinul zero, filtrul
erorii se reduce la conexiunea directă. Vom nota prin 0 ,b n 1 , , Mb n b n , secvenţa
erorilor predicţiei înapoi produsă de aceste filtre. Aceste erori pot fi exprimate prin
intermediul secvenţei de intrare şi al coeficienţilor filtrelor de eroare astfel, vezi relaţia
(5.41)
0
1 1,1 1,0
2 2,2 2,1 2,0
1
1 2
b n u n
b n a u n a u n
b n a u n a u n a u n
5.7 Structuri lattice pentru filtrele de eroare de predicţie 143
, , 1 ,01M M M M M Mb n a u n a u n a u n M
Aceste 1M ecuaţii lineare se pot combina într-o singură ecuaţie matricială, sub
forma:
n nb Lu (5.105)
unde nu este vectorul de intrare de dimensiune 1 1M :
1T
n u n u n u n M u
iar nb este vectorul erorilor de predicţie înapoi de dimensiune 1 1M :
0 1
T
Mn b n b n b n b
Matricea coeficienţilor din membrul drept al ecuaţiei (5.105) are dimensiunea
1 1M M şi este dată de coeficienţii filtrelor de eroare de predicţie înapoi cu ordine
de la 0 la M, astfel:
1,1
, , 1
1 0 0
1 0
1M M M M
a
a a
L (5.106)
Matricea L are trei proprietăţi utile:
1. este inferior-triunghiulară, cu valoarea 1 de-a lungul diagonalei sale principale;
toate elementele sale deasupra diagonalei principale sunt nule.
2. determinantul matricii L este unitar, prin urmare este nesingular (este
inversabilă).
Figura 5.10 Set de filtre ale erorii de predicţie înapoi de
ordine cuprinse între 0 şi M, conectate în
paralel.
144 PREDICŢIA LINEARĂ - 5
3. elementele nenule din fiecare linie a matricii L sunt, cu excepţia conjugării
complexe, egale cu coeficienţii filtrului erorii de predicţie al cărui ordin
corespunde cu poziţia acelei linii în matrice.
Din cele prezentate până acum, este evident că transformarea lineară (5.105) are toate
proprietăţile descompunerii inferior triunghiulară a vectorului de date nu , descompunere
prezentată în Capitolul 3. În contextul predicţiei lineare, transformarea (5.105) poartă nume-
le de algoritm de ortogonalizare Gram-Schmidt. În sens invers, fiind dat vectorul nb , se
poate obţine vectorul nu prin utilizarea inversei ecuaţiei (5.105):
1n nu L b (5.107)
Secvenţa de erori a predicţiei înapoi ce constituie elementele vectorului nb au o
proprietate importantă:
Şirul de erori de predicţie înapoi 0 1, , , Mb n b n b n este constituit din elemen-
te ortogonale unul în raport cu celălalt, după cum arată relaţia:
,
0,
m
m i
P i mE b n b n
i m
(5.108)
Pentru a demonstra proprietatea, vom presupune de la început că m i . În scopul
demonstrării relaţiei (5.108), începem prin a utiliza suma de convoluţie din (5.41) pentru a
exprima eroarea de predicţie ib n
,
0
i
i i i k
k
b n a u n k
În continuare, utilizăm această relaţie pentru a evalua autocorelaţia secvenţei ib n :
,
0
i
m i i i k m
k
E b n b n a E b n u n k
(5.109)
Conform principiului ortogonalităţii, media statistică din (5.109) este nulă atâta vreme cât
0 k i . Prin urmare, pentru m i şi 0 k i :
0,m iE b n b n m i
De asemenea, atunci când m i , ecuaţia (5.109) se reduce la
,m i m m mE b n b n E b n b n P m i
De subliniat că proprietatea este îndeplinită numai în condiţiile în care nu este un
proces aleator staţionar în sens larg. În concluzie, algoritmul Gram-Schmidt transformă
vectorul de intrare nu alcătuit din eşantioane corelate în vectorul nb al erorilor de
predicţie care sunt necorelate.
5.7 Structuri lattice pentru filtrele de eroare de predicţie 145
În sfârşit, exprimăm matricea de corelaţie a vectorului erorilor de predicţie înapoi nb
în funcţie de matricea de corelaţie 1mR a semnalului de intrare. În conformitate cu termino-
logia utilizată în legătură cu descompunerea LDU dezvoltată în Capitolul 3, matricea respec-
tivă este notată prin 1mD :
1
1
H H H
m
H H H
m
n n E n n
E n n
D E b b Lu u L
L u u L LR L (5.110)
Vom încheia prin două observaţii referitoare la matricea de corelaţie a erorilor de
predicţie înapoi:
1. Atunci când matricea 1mR a vectorului de intrare nu este pozitiv definită şi are
drept urmare inversă, matricea de corelaţie1mD a vectorului erorilor de predicţie
este, de asemenea, pozitiv definită şi inversabilă.
2. Matricea de corelaţie 1mD este diagonală, pentru că nb este alcătuit din elemen-
te care sunt ortogonale între ele. În particular, expresia lui 1mD este:
1 0 1diag , , ,m mP P P D (5.111)
unde iP este puterea medie a erorii de predicţie înapoi de ordinul i, ib n , adică:
2
, 0,1, ,i iP E b n i M
(5.112)
5.7.2 Recursii după ordin pentru erorile de predicţie
O posibilitate de a implementa algoritmul Gram-Schmidt din ecuaţia (5.105) care transfor-
mă vectorul de intrare nu în vectorul echivalent nb alcătuit din erori de predicţie neco-
relate este de a utiliza structura de calcul paralel din Figura 5.10. Calculul în paralel al erori-
lor este însă ineficient în condiţiile în care prin algoritmul Levinson-Durbin, calculul poate fi
realizat recursiv după ordinul erorii de predicţie, prin conectarea în cascadă a mai multor
structuri elementare de calcul denumite predictoare lattice şi care, fiecare în parte, realizea-
ză o recursie elementară de un ordin atât pentru eroarea de predicţie înainte cât şi pentru
eroarea de predicţie înapoi. Numele acestor structuri este dat de reprezentarea lor grafică
care aminteşte de structura de grinzi cu zăbrele. Numărul de etaje de predicţie lattice utiliza-
te egalează ordinul filtrului erorii de predicţie care se implementează.
Relaţiile intrare-ieşire care caracterizează un predictor lattice pot fi extrase din formula-
rea matriceală a algoritmului Levinson-Durbin dată prin ecuaţiile (5.53) şi (5.55). Reluăm
aceste ecuaţii aici:
1
1
0
0
m
m m B
m
aa
a (5.53)
146 PREDICŢIA LINEARĂ - 5
1
1
0
0
mB
m mB
m
aa
a (5.55)
Să considerăm pentru început filtrul erorii de predicţie înainte de ordinul m cu vectorul
de intrare , 1 , ,u n u n u n m . Vectorul 1m nu poate fi partiţionat sub forma:
1
m
m
n
n
u n m
u
u (5.113)
sau, echivalent:
1
1
m
m
u n
n
n
u
u
(5.114)
În continuare formăm produsul scalar al vectorilor ma şi 1m nu :
1. Pentru membrul stâng al ecuaţiei (5.53):
1
H
m m mf n n a u (5.115)
unde mf n este eroarea de predicţie înainte produsă la ieşirea filtrului erorii de
predicţie înainte de ordinul m.
2. Pentru primul termen din membrul drept al ecuaţiei (5.53) utilizăm partiţia lui
1m nu din ecuaţia (5.113):
1 1 1
1 1
0 0
m
H H
m m m
H
m m m
n
n
u n m
n f n
u
a u a
a u
(5.116)
unde 1mf n este eroarea de predicţie înainte produsă la ieşirea filtrului erorii de
predicţie înainte de ordinul 1m .
3. Pentru a doua matrice din membrul drept al ecuaţiei (5.53) se utilizează partiţia lui
1m nu din ecuaţia (5.114):
1 1 10 1 1
1
BT BT
m m m m
m
u n
n b n
n
a a u
u
(5.117)
unde 1 1Mb n este eroarea de predicţie înapoi întârziată produsă la ieşirea
filtrului erorii de predicţie înapoi de ordinul 1m .
Combinând ultimele trei relaţii, se obţine:
5.7 Structuri lattice pentru filtrele de eroare de predicţie 147
1 1 1m m m mf n f n b n
(5.118)
În mod similar, actionând asupra ecuaţiei (5.55) se găseşte că:
1 11m m m mb n b n f n (5.119)
Ecuaţiile (5.118) şi (5.119) reprezintă perechea de ecuaţii de recursie după ordin care
caracterizează etajul m al predictorului lattice. Ele pot fi scrise într-un format matricial:
1
1
1 , 1,2,...,
11
m mm
m mm
f n f nm M
b n b n
(5.120)
Pentru a da o reprezentare grafică etajului de predicţie lattice, putem vedea 1 1Mb n
drept rezultat al aplicării operatorului de întârziere unitară asupra erorii de predicţie înapoi
1Mb n :
1
1 11m mb n z b n
(5.121)
Utilizarea ecuaţiilor (5.120) şi (5.121) conduce la reprezentarea etajului m al predictorului
lattice din Figura 5.11.
Pentru cazul elementar 0m , se scriu condiţiile iniţiale:
0 0f n b n u n (5.122)
unde u n este semnalul de intrare la momentul n . Prin urmare, pornind cu 0m şi
mărind progresiv ordinul filtrului se obţine modelul lattice echivalent prezentat în Figura
5.12 pentru un filtru de eroare de predicţie de ordinul M . Este nevoie doar de cunoaşterea
setului complet de coeficienţi de reflexie 1 2, , , M pentru a reprezenta filtrul.
Structura lattice a predictorului oferă următoarele avantaje:
1. Eficienţă. Atât eroarea de predicţie înainte cât şi cea de predicţie înapoi sunt genera-
te simultan.
2. „Decuplare” între etajele predictorului lattice pentru că erorile de predicţie produse
de etaje sunt ortogonale una pe cealaltă, aşa cum s-a arătat în paragraful 5.7.1.
Figura 5.11 Celula elementară a predictorului lattice.
148 PREDICŢIA LINEARĂ - 5
3. Modularitatea structurii. Dacă problema o cere, se pot adăuga una sau mai multe
celule fără a fi afectate celulele anterioare.
5.8 Recursia lui Burg
Burg a propus o metodă de calcul recursiv care, spre deosebire de algoritmul
Levinson-Durbin nu necesită calculul intermediar al valorilor funcţiei de autocorelaţie.
Metoda calculează valorile coeficienţilor de reflexie pornind direct de la datele de intrare
(Burg 1968, McClellan 1988). În afara excepţiei menţionate, algoritmul Burg utilizează
aceiaşi manieră de recursie după ordin ca şi filtrele erorii de predicţie discutate anterior. Prin
urmare, filtrele erorii de predicţie ce utilizează algoritmul Burg, operează într-o structură de
tip lattice (Haykin 1996).
Considerăm etajul m al predictorului lattice din Figura 5.12. Relaţiile intrare-ieşire ale
acestuia sunt exprimate în format matricial de ecuaţia (5.120). Reluăm aici expandat aceste
relaţii:
1 1 1m m m mf n f n b n
(5.118)
1 11m m m mb n b n f n (5.119)
unde 1,2, ,m M , M fiind ordinul final al predictorului.
Coeficientul de reflexie m al etajului lattice m este astfel ales încât să minimizeze
funcţia de cost mJ calculată prin însumarea mediilor statistică a semnalelor de eroare de
predicţie de la ieşirea etajului m a predictorului lattice:
2 2
m m mJ E f n E b n
(5.123)
Înlocuind relaţiile (5.118) şi (5.119) în (5.123) se obţine:
2 2 2
1 1
1 1 1 1
1 1
2 1 2 1
m m m m
m m m m m m
J E f n E b n
E f n b n E f n b n
(5.124)
În general, coeficientul de reflexie este o mărime complexă m m mj . Vom dife-
renţia funcţia de cost mJ în raport atât cu partea reală cât şi cea imaginară a lui m pentru a
obţine gradientul complex al acesteia
Figura 5.12 Structura modulară a unui predictor lattice de ordin m.
5.8 Recursia lui Burg 149
2 2
1 1 1 12 1 4 1
m mm
m m
m m m m m
J JJ
E f n E b n E f n b n
(5.125)
Egalând acest gradient cu zero, vom determina valoarea optimă a coeficientului de reflexie
care minimizează funcţia de cost mJ :
1 1
, 2 2
1 1
2 1, 1,2, ,
1
m m
m o
m m
E f n b nm M
E f n b n
(5.126)
Ecuaţia (5.126) pentru coeficientul de reflexie este cunoscută sub numele de formula Burg.
Utilizarea sa oferă două proprietăţi interesante:
1. Coeficientul de reflexie ,m o satisface condiţia
, 1m o m (5.127)
Cu alte cuvinte, formula Burg furnizează întotdeauna o structură de filtru de fază
minimă pentru predictorul lattice.
2. Valorile medii pătratice ale erorilor de predicţie înainte şi înapoi la ieşirea etajului m
sunt legate de erorile de predicţie aplicate la intrarea etajului astfel:
22 2
, 11m m o mE f n E f n
(5.128)
şi 22 2
, 11 1m m o mE b n E b n
(5.129)
Formula Burg, aşa cum este descrisă de relaţia (5.126), presupune utilizarea mediilor pe
ansamblu. Presupunând că procesul de intrare u n este ergodic, mediile pe ansamblu pot fi
înlocuite prin medii temporale. Se ajunge astfel la estimatorul Burg al coeficientului de
reflexie al etajului m al predictorului lattice
1 1
1
2 2
1 1
1
2 1
ˆ , 1,2,
1
N
m m
n mm N
m m
n m
b n f n
m M
f n b n
(5.130)
unde N este lungimea blocului de date de intrare iar 0 0f n b n u n . Conform ultimei
relaţii, calitatea estimării lui ˆm este dependentă de lungimea blocului de date.
Algoritmul Burg necesită un volum mare de calcul şi de memorie. Această abordare nu
asigură o modalitate simplă de a exprima coeficientul de reflexie la momentul n+1 de
valoarea sa la momentul anterior n. Acest tip de comportare contrastează cu procedurile de
estimare adaptivă descrise în capitolele următoare, şi care se remarcă prin număr mic de
150 PREDICŢIA LINEARĂ - 5
operaţii matematice, volum de memorie redus şi formule de recursie după timp extrem de
convenabile.
Probleme
P 5.1 Se consideră procesul staţionar în sens larg u n caracterizat prin următoarele
valori ale funcţiei de autocorelaţie:
0 1, 1 0,8, 2 0,6, 3 0,4r r r r
(a) Folosiţi recursia Levinson-Durbin pentru a evalua coeficienţii de reflexie 1 ,
2 şi
3
(b) Implementaţi un predictor de tip lattice cu trei celule elementare, folosind valorile
coeficienţilor de reflexie găsiţi la punctul anterior.
(c) Evaluaţi puterea medie a erorii de predicţie la ieşirea fiecărei celule din acest
predictor. Trasaţi apoi un grafic al puterii erorii de predicţie în funcţie de ordinul
predicţiei. Comentaţi rezultatelor obţinute.
P 5.2 Se consideră structura de filtrare din Figura 5.13 în care întârzierea este un
număr întreg mai mare decât unu. Se cere să se aleagă vectorul coeficienţilor
filtrului FIR, w astfel încât să minimizeze valoarea pătratică medie a erorii de
estimare e n . Să se determine valoarea optimă a lui nw .
P 5.3 Se consideră predicţia liniară a unui proces autoregresiv staţionar u n , generat
de ecuaţia cu diferenţe finite de ordinul I:
0.9 1u n u n v n
unde v n este un proces de zgomot alb cu media nulă şi dispersia unitară.
Ordinul de predicţie este doi.
(a) Determinaţi coeficienţii filtrului erorii de predicţie înainte 2,1a şi 2,2a .
(b) Determinaţi coeficienţii de reflexie 1 şi 2 ai predictorului lattice corespunzător.
Comentaţi rezultatele obţinute.
P 5.4 Vectorul nu este caracterizat prin următoarele valori ale funcţiei de autocore-
Figura 5.13 Structura de filtrare din problema P 5.2.
PREDICŢIA LINEARĂ Probleme 151
laţie: 0 1, 1 0,8, 2 0,4, 3 0,1r r r r . Se doreşte realizarea predicţiei
eşantionului curent u n pe baza eşantioanelor anterioare.
(a) Să se determine filtrul de predicţie optimal cu un singur coeficient.
(b) Să se determine filtrul de predicţie optimal cu doi coeficienţi.
(c) Să se determine filtrul de predicţie optimal cu trei coeficienţi.
(d) Utilizând rezultatele de la punctele anterioare să se determine EPM minimă, iP
pentru fiecare filtru. Se consideră 2 1d .
P 5.5 Utilizaţi algoritmul Levinson-Durbin pentru a rezolva sistemul de ecuaţii
0
1
2
3
1,0 0,8 0,5 0,2 0,8
0,8 1,0 0,8 0,5 0,5
0,5 0,8 1,0 0,8 0,2
0,2 0,5 0,8 1,0 0
w
w
w
w
P 5.6 Consideraţi procesul AR(1) 1u n u n v n , unde v n este zgomot alb de
medie nulă şi varianţă 2
v iar 1 1 .
(a) Determinaţi matricea de corelaţie a procesului, 1M R .
(b) Determinaţi predictorul linear înainte de ordinul M, utilizând algoritmul Levinson-
Durbin.
P 5.7 Dacă 0cosr l l , determinaţi filtrul erorii de predicţie de ordinul doi şi
verificaţi dacă este un filtru de fază minimă.
P 5.8 Consideraţi o secvenţă aleatoare cu funcţia de autocorelaţie 0 1; 1 0,8;r r
2 0,6; 3 0,4r r .
(a) Determinaţi coeficienţii filtrului erorii de predicţie înainte ma şi valoarea minimă a
erorii de predicţie înainte mP pentru 0,1,2,3m .
(b) Determinaţi şi reprezentaţi structura lattice a filtrului erorii de predicţie de ordinul
trei.
P 5.9 Fiind dată secvenţa de autocorelaţie 0 1; 1 2 0,5; 3 0,25r r r r ,
calculaţi coeficienţii structurii lattice a filtrului erorii de predicţie prin utilizarea
algoritmului Schür.
P 5.10 Problema îşi propune să stabilească prin predicţie lineară un model AR(2) pentru
un semnal sinusoidal cu fază aleatoare înecat în zgomot aditiv. Secvenţa de autoco-
relaţie este dată de relaţia
2
0 0cos vr l P l l
unde l este impulsul unitate.
152 PREDICŢIA LINEARĂ - 5
(a) Să se determine parametrii modelului 2,0 2,1 2,2, ,a a a şi 2
w în funcţie de 0 0,P şi
2
v .
(b) Să se determine coeficienţii de reflexie ai modelului lattice al procesului.
(c) Care sunt valorile limită ale coeficienţilor structurii directe de filtrare şi ai modelu-
lui lattice atunci când 2 0v .
P 5.11 Consideraţi un filtru al erorii de predicţie specificat prin 2
3 015 16 , 1 4,P
1 21 2, 1 4 .
(a) Determinaţi coeficienţi filtrului FIR corespunzător.
(b) Determinaţi valorile funcţiei de autocorelaţie 1 , 2r r şi 3r .
(c) Determinaţi valoarea 4r astfel încât valoarea minimă a pătratului erorii de
predicţie 4P a filtrului de predicţie de ordinul patru corespunzător să fie minim
posibilă.
P 5.12 Consideraţi procesul AR definit prin ecuaţia cu diferenţe finite
0,7 1 0,66 2 0,432 3u n u n u n u n v n
unde v n este un proces de zgomot alb de medie nulă şi varianţă unitară.
(a) Determinaţi funcţia de sistem H z care leagă u n de v n .
(b) Arătaţi că polii lui H z sunt 0,9; -0,8; şi 0,6.
(c) Determinaţi puterea lui u n .
(d) Determinaţi coeficienţi de reflexie ai lui u n : 1 2 3, şi .
(e) Determinaţi puterile erorii de predicţie ale lui u n : 1 2 3, P P şi P .
(f) Ce se poate spune despre valorile lui m mşi P pentru 4m .
6 Metode de gradient
n Capitolul 4 am stabilit că prin rezolvarea ecuaţiei Wiener-Hopf pot fi obţinute valorile
optimale ale coeficienţilor unui filtru Wiener transversal, cu condiţia cunoaşterii caracte-
risticilor statistice ale semnalelor de interes. Reamintim că soluţia ecuaţiei Wiener-Hopf
este obţinută prin minimizarea unei funcţii de cost care, de obicei, depinde printr-o expresie
pătratică de coeficienţii filtrului. O cale alternativă de a determina ponderile optime ale
filtrului transversal este de a utiliza un algoritm iterativ de căutare, care porneşte dintr-un
punct iniţial, ales arbitrar în spaţiul vectorului coeficienţilor filtrului, deplasându-se, prin paşi
progresivi, spre vectorul coeficienţilor optimi ai filtrului. Fiecare pas al algoritmului se efec-
tuează astfel încât să determine reducerea funcţiei de cost. Pentru o funcţie de cost convexă,
ceea ce se întâmplă în cazul unui filtru FIR, o asemenea procedură de găsire a minimului
converge în mod garantat către soluţia optimă. Principiul determinării vectorului optim al
coeficienţilor prin minimizarea progresivă a funcţiei de cost este fundamental în dezvoltarea
algoritmilor adaptivi, care fac obiectul următoarelor capitole ale cărţii. Prin urmare, o înţele-
gere aprofundată a metodelor iterative de căutare, atât din punctul de vedere a dezvoltării
lor, cât şi din cel a proprietăţilor de convergenţă pe care le au, este esenţială în studiul
algoritmilor adaptivi (Widrow şi Stearns 1985).
În acest capitol vom prezenta două metode de căutare iterativă bazate pe determinarea
gradientului funcţiei de cost, care permit stabilirea valorii coeficienţilor filtrului Wiener
transversal ce corespund minimului acestei funcţii. Aceste metode reprezintă versiuni ideali-
zate ale unei clase de algoritmi care, sub numele generic de algoritmi LMS vor fi introduşi
în capitolul următor. Vom presupune pe parcursul capitolului că sunt cunoscute à-priori
matricea de corelaţie a eşantioanelor de intrare precum şi vectorul de intercorelaţie dintre
semnalul dorit şi semnalul de intrare.
Prima metodă prezentată este denumită în limba engleză „Steepest Descent”, ceea ce se
traduce în română sub numele de metoda pantei descendente maxime. Pe lângă utilizarea
denumirii româneşti, vom folosi frecvent şi numele metoda SD, făcând apel la prescurtarea
denumirii din limba engleză. Conceptul care stă la baza acestei metode este simplu. Indife-
rent de punctul iniţial al suprafeţei de eroare din care se porneşte, algoritmul va face un pas
în direcţia pe care funcţia de cost descreşte cel mai rapid, adică pe direcţia pantei descenden-
te maxime, direcţie dată de gradientul la suprafaţa de eroare. De aici şi denumirea alternativă
Capitolul
6
Î
154 METODE DE GRADIENT - 6
pe care o are metoda SD: metoda gradientului. Repetând succesiv paşii de dimensiune
convenabilă făcuţi pe direcţia pantei descendente maxime, convergenţa metodei SD este
asigurată.
De multe ori metoda SD prezintă o convergenţă slabă şi lentă. Cea de a doua metodă
introdusă în acest capitol depăşeşte acest neajuns cu preţul unei complexităţi mai mari.
Cunoscută sub numele de metoda Newton, ea poate, cel puţin din punct de vedere teoretic,
să stabilească într-un singur pas poziţia minimului suprafeţei de eroare.
6.1 Metoda SD
6.1.1 Introducere
Considerăm filtrul transversal ce are drept intrări eşantioanele , 1 , ,u n u n
1u n M extrase dintr-un proces aleator stator staţionar în sens larg de medie nulă şi
matrice de corelaţie R . Setul corespunzător de coeficienţi ai filtrului transversal este:
0 1 1, , , Mw n w n w n . În plus, răspunsul dorit d n constituie un cadru de referinţă
pentru acţiunea de filtrare optimală. Figura 6.1 descrie configuraţia de filtrare utilizată.
Notăm prin nu vectorul eşantioanelor de la intrările filtrului din momentul n. Estima-
rea răspunsului dorit de la ieşirea filtrului este desemnată prin ˆnd n U , unde nU este
spaţiul subîntins de intrările , 1 , , 1u n u n u n M . Comparând această estimare
cu răspunsul dorit d n , se generează eroarea de estimare, e n :
ˆ H
ne n d n d n d n n n w uU (6.1)
unde termenul H n nw u este produsul scalar dintre vectorul coeficienţilor filtrului nw
şi vectorul semnalului de intrare nu :
0 1 1
T
Mn w n w n w n w (6.2)
şi 1 1T
n u n u n u n M u (6.3)
Figura 6.1 Structura filtrului transversal adaptiv.
6.1 Metoda SD 155
Dacă vectorul nu şi semnalul de referinţă d n sunt mutual staţionare, atunci
eroarea pătratică medie (EPM) sau funcţia de cost J n la momentul n are o dependenţă
pătratică de vectorul coeficienţilor filtrului, astfel că se poate scrie (ecuaţia (4.38)):
2 H H H
dJ n n n n n w p p w w Rw (6.4)
unde 2
d este varianţa răspunsului dorit d n , p este vectorul de intercorelaţie dintre
vectorul nu şi răspunsul dorit iar R este matricea de corelaţie a vectorului de intrare
nu .
Dependenţa EPM J n de elementele vectorului coeficienţilor nw poate fi vizuali-
zată printr-o suprafaţă în formă de cupă ce are un singur minim denumită suprafaţa de
eroare a filtrului adaptiv (vezi Figura 6.2 pentru cazul unui filtru transversal cu doi coefi-
cienţi). Procesul adaptiv are sarcina de a căuta continuu punctul de minim al acestei suprafe-
ţe. În punctul de minim al suprafeţei de eroare, vectorul coeficienţilor ia valoarea optimă
ow , definită de ecuaţiile Wiener-Hopf (4.28):
o Rw p (6.5)
Eroarea pătratică medie este egală cu (vezi ecuaţia (4.40)):
min
H
o oJ J 2
dw p w (6.6)
6.1.2 Descrierea metodei SD
Pentru a înţelege principiile care guvernează metoda SD, vom considera cazul unui filtru
FIR cu doi coeficienţi, a cărui suprafaţă de eroare este reprezentată în Figura 6.2.
Figura 6.2 Suprafaţa de eroare J nw a unui filtru transversal cu
doi coeficienţi: 0 1,w w .
156 METODE DE GRADIENT - 6
Punctul iniţial al algoritmului sunt valorile coeficienţilor incluse în vectorul 0w .
Acestor valori le corespunde, conform suprafeţei reprezentate în Figura 6.2, o eroare EPM
de valoare 0 0J Jw . În punctul corespunzător al suprafeţei de eroare pătratică
medie, există o orientare specifică a suprafeţei ce poate fi descrisă prin derivatele
direcţionale ale suprafeţei în acest punct. Aceasta înseamnă că în punctul considerat, există o
pantă instantanee la suprafaţă care exprimă viteza şi direcţia după care suprafaţa are variaţie
maximă. Funcţia matematică corespunzătoare acestui vector de direcţie este gradientul
suprafeţei în punctul considerat, 0w J . În cazul nostru bidimensional, gradientul
funcţiei de eroare în punctul de coordonate se scrie astfel pentru un set de coeficienţi
complecşi ai filtrului:
0 0 0
1 1 10 0
0w
J J J J
J J Jj
w a bJ
J J Jj
w a b
(6.7)
unde kJ a şi , 0,1kJ b k sunt derivatele parţiale ale funcţiei de cost J în raport cu
partea reală ka respectiv partea imaginară
kb a coeficientului kw al filtrului. În (6.7) relaţia
este prezentată pentru un filtru având 2M coeficienţi; extinderea ei la M arbitrar este
imediată. Proiecţia acestui gradient pe contururile funcţiei de cost este prezentată în Figura
6.3.
Să presupunem acum că în punctul 0 , 0Jw se pune o bilă. Dacă i s-ar da drumul,
atunci bila s-ar rostogoli înspre minimul suprafeţei, adică într-o direcţie opusă celei pe care
viteza de creştere a funcţiei este maximă. Această direcţie este opusa celei a gradientului în
punctul considerat sau echivalent, este direcţia „pantei descendente maxime” (SD). Prin
urmare, metoda SD rezolvă ecuaţiile Wiener-Hopf printr-o metodă matematică similară
descrierii calitative a procesului de rostogolire al bilei înspre minimul suprafeţei paraboidale.
Figura 6.3 Calculul din derivatele parţiale a
direcţiei de deplasare a metodei
gradientului.
6.1 Metoda SD 157
Dacă s-ar lua „instantanee” la intervale discrete de timp asupra poziţiei bilei, bila s-ar
deplasa în paşi discreţi către minimul suprafeţei de eroare. Din fiecare nouă poziţie de timp
discret, bila ar aluneca înspre minimul global pe o direcţie dependentă de gradientul lui J în
punctul considerat.
Generalizând acum, poziţia bilei la momentul de timp 1 în planul w este:
1 0 0w J w w
unde este o constantă oarecare, ce va fi definită mai târziu. La momentul de timp 2 se
scrie:
2 1 1w J w w
iar formula generală de recursie se exprimă prin:
1 wn n J n w w (6.8)
Relaţia (6.8) exprimă algoritmul matematic care corespunde la alunecarea bilei către
minimul suprafeţei de eroare pătratică medie. Vectorul nw din (6.8) este setul coeficienţi-
lor filtrului adaptiv la iteraţia n. Această recursie exprimă noul vector al coeficienţilor în
funcţie de vechea sa valoare la care se adaugă un termen de corecţie care depinde de
proprietăţile funcţiei de cost în poziţia anterioară.
Pentru a aplica metoda gradientului la cazul filtrului adaptiv, trebuie estimat gradientul
suprafeţei de eroare. Aplicarea derivatei vectoriale expresiei (6.4) furnizează:
2 2wJ n n p Rw (6.9)
Relaţia (6.9) este universal valabilă, indiferent de punctul de pe suprafaţa de eroare în
care este ea calculată. Înlocuirea expresiei gradientului (6.9) în relaţia de recursie (6.8),
produce următoarea formulare pentru recursia SD:
1 2 2n n n w w p Rw (6.10)
Întrucât este o constantă, se obişnuieşte să se definească valoarea pasului algoritmu-
lui SD prin:
2 (6.11)
ceea ce conduce la forma utilizată pentru descrierea metodei de recursie SD:
1n n n w w p Rw (6.12)
Ultima relaţie poate fi scrisă şi în forma:
1 Mn n w I R w p (6.13)
unde MI este matricea identitate de dimensiune M M .
În concluzie, metoda gradientului poate fi aplicată la stabilirea problemei filtrării opti-
male după cum urmează (Alexander 1986):
1. Se calculează pentru început estimări ale matricii de corelaţie R şi ale vectorului de
intercorelaţie p.
158 METODE DE GRADIENT - 6
2. Estimările R se folosesc în ecuaţia (6.12) pentru a realiza iteraţii succesive în
scopul determinării soluţiei ecuaţiei ˆ ˆRw p prin metoda pantei descendente
maxime.
6.2 Soluţia directă a ecuaţiei de recursie
SD
6.2.1 Calculul soluţiei
Vom începe prin a scrie ecuaţia de recursie (6.13) la momentul de timp 0n :
1 0M w I R w p (6.14)
Similar, pentru 1n :
2 1M w I R w p (6.15)
Dacă înlocuim ecuaţia (6.14) în (6.15) şi continuăm acest proces până la iteraţia a n-a
obţinem:
1
0
0n
n j
M M
j
n
w I R w p I R (6.16)
Ecuaţia (6.16) poate fi folosită pentru a calcula vectorul coeficienţilor după oricare
iteraţie n, pentru că valorile lui p şi R sunt cunoscute. Totuşi, calculele sunt greoaie, iar
expresia matematică nu evidenţiază convergenţa lui nw către ow . Este nevoie, prin
urmare, de o metodă care să simplifice interpretarea ecuaţiei (6.16). Vom aplica în acest
scop asupra vectorului coeficienţilor nw transformări lineare, transformări ale căror
proprietăţi au fost discutate în Capitolul 3. În acest scop, definim vectorul de eroare al coefi-
cienţilor la momentul n:
on n c w w (6.17)
Înlocuim pe nw cu nc în ecuaţia (6.12), scăzând valoarea optimă Ow din ambii
termeni ai ecuaţiei:
1 1 o on n n n
n n
c w w w w p Rw
c p Rw (6.18)
Ecuaţia (6.18) poate fi exprimată doar în funcţie de vectorul de eroare, dacă în termenul
drept se adună şi se scade factorul oRw :
1 o on n n c c R w w p Rw (6.19)
În (6.19), ultima paranteză este nulă, ceea ce conduce la ecuaţia de recursie în formă
vectorială:
6.2 Soluţia directă a ecuaţiei de recursie SD 159
1 Mn n c I R c (6.20)
Ultima formă, ecuaţia (6.20) este mult mai uşor de evaluat decât soluţia directă (6.13).
Soluţia generală (6.16) se prezintă acum sub forma:
0n
Mn c I R c (6.21)
Deşi (6.21) reprezintă o îmbunătăţire în raport cu ecuaţia (6.16) în evidenţierea compor-
tării dinamice a soluţiei
nw , nu este încă clar modul în care termenul din dreapta ecuaţiei
tinde către zero pentru n . Dificultatea întâmpinată este un rezultat direct al faptului că,
componentele vectorului nc sunt legate unele de celălalte ca urmare a faptului că
M I R nu este o matrice diagonală. Este necesară prin urmare, aplicarea transformării
unitare de similaritate (vezi Capitolul 3, ecuaţia (3.107)) pentru a transforma setul de ecuaţii
lineare cuplate (6.21) într-un set de ecuaţii decuplate, în care fiecare componentă scalară să
fie funcţie de o singură pondere scalară. Prin transformare, R se descompune astfel:
HR QΛQ (6.22)
Coloanele matricii Q sunt constituite din setul ortogonal de vectori proprii asociaţi valorilor
proprii ale matricii R. Matricea Q este denumită matricea unitară a transformării. Matricea
Λ este diagonală şi are drept elemente diagonale valorile proprii ale matricii de corelaţie R.
Aceste valori proprii notate prin 1,
2 , , M , sunt toate reale şi pozitive. Fiecare valoare
proprie este asociată vectorului propriu corespunzător sau coloanei corespunzătoare a
matricii Q.
Se porneşte de la ecuaţia de bază a recursiei (6.13) în care se aplică matricii de corelaţie
transformarea (6.22):
1 H
Mn n w Q I Λ Q w p (6.23)
unde s-a folosit proprietatea matricilor ortogonale H
MQQ I . Se defineşte în continuare,
vectorul coeficienţilor necuplaţi nw , prin transformarea:
Hn n w Q w (6.24)
Aceiaşi transformare dă şi setul de coeficienţi optimali necuplaţi:
H
o o w Q w (6.25)
Pentru a obţine soluţia în această situaţie, se înmulţeşte ecuaţia (6.23) cu HQ şi se înlocuieşte
apoi din ecuaţia (6.25):
1 H H
M
M
n n
n
w Q Q I Λ w Q p
I Λ w p (6.26)
unde s-a folosit notaţia:
H p Q p (6.27)
Înlocuim acum în (6.25):
160 METODE DE GRADIENT - 6
1H H
o o
w Q w Q R p (6.28)
Proprietăţile speciale ale transformării (6.22) fac, ca pentru inversa lui R, să putem scrie:
1
1H H
R QΛQ QΛ Q (6.29)
iar apoi înlocuind (6.29) în (6.28), să obţinem
1 1H H
o
w Q QΛ Q p Λ p (6.30)
Ecuaţia (6.30) este similară ecuaţiei normale, cu excepţia faptului că este scrisă pentru
vectorul coeficienţilor necuplaţi ow . Pentru că este o matrice diagonală, inversa sa este,
de asemenea, diagonală:
1
1 2diag 1 ,1 , ,1 M Λ (6.31)
Acum, se poate stabili o expresie simplă pentru fiecare componentă a lui o
w , prin
dezvoltarea relaţiei (6.30):
1 1
2 2
1 0 0
0 1 0
0 0 1
o
M M
p
p
p
w (6.32)
din care se observă că fiecare componentă iow este dată de:
, 1,2, ,io i iw p i M (6.33)
Întrucât acum, matricea M I Λ este diagonală, ecuaţia de recursie (6.26) poate fi
explicitată în felul următor:
1 11 1
2 22 2
1 1 0 0
1 0 1 0
1 0 0 1M MM M
w n w n p
w n w n p
w n w n p
(6.34)
Se observă că fiecare componentă 1iw n este funcţie doar de iw n şi nu este funcţie de
nici o altă componentă jw n , oricare ar fi j i . Aceasta este exact proprietatea necesară
pentru a scrie sistemul de ecuaţii (6.34) ca un set de M ecuaţii scalare necuplate:
1 1 , 1i i i iw n w n p i M (6.35)
Aceste ecuaţii pot fi rezolvate în cazul general, obţinându-se întregul set de soluţii pentru
1 i M .
6.2.2 Soluţia metodei SD
Ecuaţia de recursie (6.35) poate fi evaluată pentru valori succesive ale lui n şi o relaţie de
recurenţă poate fi stabilită. Exprimăm (6.35) pentru 0n :
6.3 Convergenţa metodei SD 161
1 1 0i i i iw w p
şi apoi pentru 1n :
1
2
0
2 1 1 1 0 1j
i i i i i i i
j
w w p w p
Relaţia generală, este prin urmare:
1
0
1 0 1n
n j
i i i i
j
w n w p
(6.36)
Întrucât factorul 1 i apare frecvent în cele ce urmează, facem substituţia:
1i i (6.37)
şi rescriem relaţia (6.36):
1
0
0n
n j
i i i i
j
w n w p
(6.38)
Pentru suma din ultima relaţie se poate scrie:
1
0
1
1
nnj i
i
j i
(6.39)
astfel încât forma finală a relaţiei (6.38) ce dă soluţia necuplată a coeficienţilor filtrului
adaptiv este
1
01
nn i
i i i
i
w n w p
(6.40)
6.3 Convergenţa metodei SD
6.3.1 Stabilirea condiţiilor de convergenţă
Studiul convergenţei metodei gradientului o facem pe ecuaţia (6.40) pentru n .
Condiţia ca această ecuaţie să producă o soluţie mărginită pentru iw n este ca valoarea
absolută a lui i să fie subunitară pentru orice 1 i M :
1i (6.41)
Condiţia (6.41) impune restricţii asupra parametrului de câştig , care conform relaţiei
(6.37) se scriu:
1 1i (6.42)
ceea ce este echivalent cu:
1 1 1i (6.43)
Este simplu de demonstrat că inegalităţile din (6.43) sunt echivalente cu:
162 METODE DE GRADIENT - 6
2
0i
(6.44)
Ultima relaţie trebuie să fie valabilă pentru orice i, 1 i M şi, prin urmare, trebuie
găsită valoarea minimă a lui pentru care orice i îndeplineşte condiţia (6.42). Cazul cel
mai defavorabil se produce atunci când maxi , valoarea proprie maximă a matricii de
corelaţie R. Domeniul valorilor lui care asigură convergenţa este prin urmare:
max
20
(6.45)
Pentru situat în limitele mai sus menţionate, avem 0 1i şi utilizând (6.40), se
obţine prin trecere la limită:
lim ii
ni
pw n
(6.46)
De observat că acesta este exact rezultatul pentru ow , soluţia optimă pentru coeficienţii
necuplaţi obţinută prin relaţia (6.33). Prin urmare, coeficienţii obţinuţi prin metoda pantei
descendente maxime converg către setul de valori optimale ce reprezintă soluţiile ecuaţiilor
Wiener-Hopf, cu condiţia ca să se găsească între limitele impuse de relaţia (6.45).
6.3.2 Dinamica procesului de convergenţă
Vom examina în continuare procesul prin care metoda SD tinde către ow optimal. Elemen-
te esenţiale definitorii pentru acest proces sunt constantele de timp care stabilesc evoluţia
soluţiei recursive. De asemenea, acestea stabilesc natura convergenţei: monotonă sau oscila-
torie. Vom utiliza în continuare spaţiul coeficienţilor centraţi necuplaţi v , care oferă un
punct de vedere global asupra procesului de convergenţă.
Începem, prin a reaminti din ecuaţia (6.17) expresia vectorului de eroare (centrat) al
coeficienţilor:
on n c w w
Notăm prin nv vectorul care se obţine în urma aplicării transformării unitare de similari-
tate (6.22) asupra vectorului centrat al coeficienţilor:
Hn nv Q c (6.47)
Vectorul nv este atât centrat cât şi decuplat, ceea ce evidenţiază relaţia de mai jos, obţinu-
tă din (6.47) şi (6.24):
on n v w w (6.48)
Vom scrie componenta i a vectorului, iv n , înlocuind (6.33) şi (6.40) în ecuaţia (6.48),
sub forma
6.3 Convergenţa metodei SD 163
1
01
nn i i
i i i i
i i
pv n w p
(6.49)
Este o relaţie, care după prelucrări ulterioare conduce la:
0 1ni
i i i
i
pv n w
(6.50)
De remarcat că termenul din paranteza dreaptă a membrului drept al ecuaţiei este o constan-
tă dacă se aleg coeficienţii filtrului la momentul 0, 0iw . În aceste condiţii, desemnăm
această constantă prin 0iv . Prin urmare ecuaţia (6.50) poate fi scrisă mai simplu sub
forma:
1 0n
i i iv n v (6.51)
Din examinarea relaţiei (6.51) este evident că în cazul în care 0 0iv , coeficienţii
centraţi necuplaţi iv n converg exponenţial către 0 cu o constantă de timp ce depinde de
raportul dintre valoarea lui şi valorile proprii ale lui R. Reamintind definiţia lui iv n ,
această constatare implică faptul că vectorul coeficienţilor nw converge prin recursia SD
către valorile optime ow în aceiaşi manieră în care nv converge către 0. O altă observaţie
importantă din ecuaţia (6.51), este că iv n tinde către 0 indiferent de valoarea iniţială a lui
0iv , ceea ce este echivalent cu afirmaţia că nw converge către ow , fără ca valoarea
iniţială aleasă 0w să conteze. Este o proprietate foarte importantă a metodei SD ce se
păstrează la toţi algoritmii adaptivi ce se bazează pe această metodă.
6.3.3 Comportarea tranzitorie a erorii pătratice medii
Putem obţine o mai bună înţelegere asupra metodei gradientului prin examinarea
comportării tranzitorii a funcţiei de cost J n , eroarea pătratică medie. Vom utiliza în acest
scop expresia EPM (4.56) stabilită în Capitolul 4:
2
min
1
M
k k
k
J n J v n
(6.52)
unde minJ este valoarea minimă a erorii pătratice minime. Comportarea tranzitorie a compo-
nentei k a vectorului coeficienţilor centraţi necuplaţi kv n este dictată de ecuaţia (6.51).
Prin înlocuirea lui (6.51) în ecuaţia (6.52) se obţine:
22
min
1
1 0M
n
k k k
k
J n J v
(6.53)
164 METODE DE GRADIENT - 6
unde 0kv este valoarea iniţială a lui kv n . Dacă metoda SD este convergentă, adică dacă
pasul algoritmului este ales în limitele definite de ecuaţia (6.45), se observă că, indiferent
de condiţiile iniţiale,
minlimn
J n J
(6.54)
Graficul obţinut prin reprezentarea dependenţei erorii pătratice medii J n de numărul
de iteraţii, n, este denumită curbă de învăţare (Farhang-Boroujeny 1998, Haykin 1996).
Ecuaţia (6.53) evidenţiază observaţia: curba de învăţare a metodei SD constă dintr-o sumă
de exponenţiale, ce corespund fiecare câte unei componente necuplate a algoritmului. În
general, numărul de exponenţiale ce contribuie la curba de învăţare este egal cu numărul de
coeficienţi ai filtrului.
6.3.4 Viteza de convergenţă
Viteza (sau rata) de convergenţă a metodei SD depinde de parametrii suprafeţei de eroare.
Cel mai important efect asupra acesteia îl are numărul de condiţionare a matricii de corelaţie
R care determină forma suprafeţei J n . Se poate arăta că (Luenberger 1984 , Manolakis,
ş.a. 2005):
2
11
1J n J n
R
R (6.55)
unde: max min R (6.56)
este numărul de condiţionare a matricii R. Reamintim că R a fost introdus în Capitolul
3 prin relaţia (3.120) şi reprezintă gradul de împrăştiere a valorilor proprii a matricii de
corelaţie.
Să observăm că vectorii proprii ce corespund lui min şi
max indică direcţiile de curbu-
ră minimă respectiv maximă a suprafeţei de eroare. Vom remarca că convergenţa se reduce
pe măsură ce contururile funcţiei de cost (vezi Figura 6.3) devin din ce în ce mai turtite. În
cazul unor contururi circulare, ce corespund condiţiei 1 R , algoritmul converge rapid,
dar situaţia se degradează rapid pe măsură ce gradul de împrăştiere a valorilor proprii creşte.
Chiar dacă matricea R are 1M valori proprii egale şi una diferită mult de acestea,
convergenţa algoritmului este foarte lentă.
Viteza de convergenţă poate fi caracterizată de constanta de timp i definită prin:
1 1
1 exp 1i
i i
(6.57)
care defineşte timpul (sau numărul de iteraţii) în care componenta i a vectorului
coeficienţilor necuplaţi şi centraţi iv n (vezi ecuaţia (6.51) se reduce la 1 e din valoarea sa
iniţială 0iv . Atunci când 1 , se poate scrie:
6.3 Convergenţa metodei SD 165
1
i
i
(6.58)
În mod similar, există o constantă de timp ,i EPM pentru eroarea pătratică medie J n , care
este, în conformitate cu (6.53) şi (6.57):
,
1
2i EPM
i
(6.59)
În concluzie, se poate considera că constanta de timp (a coeficientului kv ) a algoritmu-
lui gradientului este min1 , care împreună cu condiţia max2 , conduc la:
max min2 2 . Prin urmare, cu cât mai mare este gradul de împrăştiere a valori-
lor proprii a matricii de corelaţie R, cu atât mai îndelungat va fi timpul necesar ca algorit-
mul SD să realizeze convergenţa.
În exemplul care urmează, vom calcula proprietăţile unui predictor linear cu trei coefi-
cienţi, ilustrând proprietăţile metodei SD.
Exemplul 6.1: Se consideră semnalul u n generat de procesul autoregresiv de
ordinul doi
1 21 2u n a u n a u n v n (6.60)
unde v n este zgomot alb de medie nulă şi varianţă 2
v . Parametrii 1a şi
2a sunt
astfel aleşi încât sistemul (6.60) să fie de fază minimă. Ne propunem să calculăm
un filtru adaptiv care să utilizeze eşantioanele 1u n şi 2u n pentru a prezice
valoarea u n (răspunsul dorit).
Soluţie: Dacă multiplicăm (6.60) cu , 0,1,2u n k k , şi aplicăm
operatorul de mediere statistică în ambii termeni, se obţin ecuaţiile lineare:
2
1 2
1 2
1 2
0 1 2
1 0 1 0
2 1 0 0
vr a r a r
r a r a r
r a r a r
(6.61)
care pot fi utilizate pentru a exprima autocorelaţia lui u n în funcţie de
parametrii modelului 1a , 2a . Soluţiile sistemului sunt
22 2
2 22 2 1
2
1 12
2 2
10 ,
1 1
1 0 , 2 01 1
vu
ar
a a a
a ar r r a r
a a
Alegem 2 1u , astfel încât
166 METODE DE GRADIENT - 6
2 2
2 2 12
2
1 1
1v
a a a
a
Coeficienţii predictorului optimal
,0 ,1ˆ 1 2o oy n u n w u n w u n
sunt daţi de sistemul de ecuaţii Wiener-Hopf (vezi Capitolul 5)
,0 ,1
,0 ,1
0 1 1
1 0 2
o o
o o
r w r w r
r w r w r
cu min ,0 ,10 1 0 .o oJ r r w r w
Prin comparaţie cu (6.61), soluţia sistemului este ,0 1,ow a ,1 2 ,ow a şi
2
2 vP .
Valorile proprii ale matricii de corelaţie
0 1
1 0
r r
r r
R
sunt: 211,2
2
11
u
a
a
de unde, rezultă că împrăştierea valorilor proprii este
1 1 2
2 1 2
1
1
a a
a a
R
care, dacă 2 0a şi 1 0a , este mai mare decât 1.
S-au realizat în continuare experimente MATLAB privind influenţa numărului
R şi a pasului SD (Manolakis, ş.a. 2005, Quinquis, ş.a. 1998). În aceste
experimente s-a ales astfel 2
v încât 2 1u . Formularea algoritmului SD este,
conform cu (6.12)
0 1 1 1T
k w k w k k k w w p Rw
unde 1 2 şi 0 0 0T T
r r p w
S-au ales două seturi diferite de valori pentru 1a şi 2a : primul conduce la un
număr R redus, iar cel de al doilea la o valoare mare pentru acelaşi parame-
tru.Tabelul 6.1 prezintă aceste valori împreună cu numerele R corespunză-
toare şi valorile varianţei 2
v .
6.3 Convergenţa metodei SD 167
Pentru fiecare set de parametri, punctul iniţial al algoritmului este dat de
vectorul 0w , utilizând două valori distincte pentru pasul . Pentru a descrie
comportarea tranzitorie a algoritmului, se reprezintă traiectoriile coeficienţilor
0w k şi 1w k în funcţie de indicele iteraţiei k de-a lungul contururilor suprafe-
ţei de eroare J k . Traiectoria lui kw porneşte din originea 0 w 0 şi se
termină în punctul corespunzător valorii optime 1 2
T
o a a w . O ilustrarea a
comportării tranzitorii poate fi de asemenea realizată şi în domeniul coeficienţilor
necuplaţi şi centraţi kv . Utilizând ecuaţia (6.51), observăm că aceşti coeficienţi
sunt daţi de:
1 00
1 2 1
1 0
1 0
k
k
vv kk
v k v
v
unde valoarea iniţială 0v ce rezultă din ecuaţiile (6.17) şi (6.47), este
0 1
1 2
00 0 0
0
T T T T
o o
v a
v a
v Q c Q w w Q w Q
Astfel, traiectoria lui kv începe în 0v şi se termină în origine o v 0 . Contu-
rurile funcţiei de eroare în domeniul transformat sunt date de ecuaţia (6.52):
2 2
min 1 0 2 1J k J v k v k
a. Împrăştiere redusă a valorilor proprii şi răspuns supraamortizat
In acest experiment, valorile parametrilor au fost astfel alese încât numărul R
să fie apropiat de unitate ( 1,22 R ). Valoarea pasului algoritmului este
0,3 , mai mică decât max2 1,8 , ceea ce asigură convergenţa, răspunsul
fiind amortizat. În Figura 6.4 se prezintă patru grafice care descriu comportarea
algoritmului. Graficul (a) prezintă evoluţia lui 0w k şi 1w k în funcţie de numă-
rul iteraţiei k , în timp ce graficul din (b) reprezintă curba de învăţare pentru
EPM J k . Graficul (c) reprezintă traiectoria vectorului coeficienţilor kw în
raport cu contururile de eroare de predicţie constantă. În sfârşit, (d) prezintă
traiectoria lui kv de a lungul curbelor ce reprezintă valori succesive ale lui
Împrăştierea
valorilor proprii 1a 2a
1 2 R 2
v
Mică -0,1950 0,95 1,1 0,9 1,22 0,0965
Mare -1,5955 0,95 1,818 0,182 9,99 0,0322
Tabelul 6.1 Valorile parametrilor utilizate în simularea algoritmului SD în problema
predicţiei liniare a semnalului autoregresiv de ordinul doi.
168 METODE DE GRADIENT - 6
J k . Primele trei curbe pentru 0,1,2k sunt numerotate pentru a reprezenta
direcţia traiectoriei.
În concluzie, coeficienţii converg în mod monoton, ceea ce confirmă natura
supraamortizată a răspunsului. De asemenea, convergenţa este rapidă pentru că
sunt suficiente aproximativ 15 iteraţii, ceea ce este de aşteptat în condiţiile în care
valorile proprii au o împrăştiere redusă.
b. Împrăştiere mare a valorilor proprii şi răspuns supraamortizat
Pentru acest experiment, valoarea parametrilor a fost astfel aleasă încât
împrăştierea valorilor proprii să fie aproximativ egală cu 10 ( 9,99 R ).
Pasul algoritmului este, din nou, 0,3 . Figura 6.5 reprezintă performanţele
experimentului, acestea fiind similare cu rezultatele reprezentate în Figura 6.4.
Diferenţa dintre cele două cazuri se datorează valorii mult mai mari pe care o are
numărul R în situaţia de faţă. În primul rând,contururile funcţiei de cost sunt
eliptice chiar şi în domeniul transformat, iar în al doilea rând, convergenţa este
lentă, fiind necesare peste 60 de iteraţii pentru convergenţă. Răspunsul tranzitoriu
este, din nou, supraamortizat.
Figura 6.4 Curbele ce caracterizează performanţele algoritmului SD utilizat în problema de
predicţie lineară cu pasul algoritmului 0,3 şi gradul de împrăştiere a valorilor
proprii 1,22 R .
6.4 Metoda Newton 169
c. Împrăştiere mare a valorilor proprii şi răspuns subamortizat
În final, cel de-al treilea experiment utilizează aceiaşi parametri de model ca şi în
cazul anterior dar măreşte valoarea pasului algoritmului la 1 , ceea ce este
inferior valorii limită care asigură stabilitatea, dar suficient pentru a face ca
răspunsul tranzitoriu să fie subamortizat. Figura 6.6 reprezintă curbele corespun-
zătoare. De remarcat că acum, maniera de convergenţă a parametrilor este oscila-
torie, totuşi convergenţa este sensibil mai rapidă decât în cazul supraamortizat.
Prin urmare, alegerea pasului algoritmului reprezintă un element important în
reglarea algoritmului.
6.4 Metoda Newton
6.4.1 Formularea algoritmului
Exemplul 6.1 a evidenţiat ideea că performanţele algoritmului pantei descendente maxime
sunt afectate puternic de modurile de convergenţă lente care apar din cauza împrăştierii
valorilor proprii ale matricii de corelaţie R. Aceasta înseamnă că, dacă s-ar putea reduce
această împrăştiere, atunci şi performanţele de convergenţă ar deveni mult mai bune.
Această ultimă aserţiune este exact ceea ce îşi propune să realizeze metoda Newton. Pentru
Figura 6.5 Curbele ce caracterizează performanţele algoritmului SD utilizat în problema de
predicţie lineară cu pasul algoritmului 0,3 şi gradul de împrăştiere a valorilor
proprii 10 R .
170 METODE DE GRADIENT - 6
a obţine algoritmul Newton în cazul funcţiilor de eroare pătratică medie, pornim de la algo-
ritmul SD dat prin ecuaţia (6.12). Utilizând egalitatea op Rw , relaţia (6.12) devine
1 on n n w w R w w (6.62)
Ultima ecuaţie evidenţiază faptul că prezenţa lui R în (6.62) provoacă probleme datorită
împrăştierii valorilor proprii ale acestei matrici. Metoda Newton rezolvă aceste probleme
prin înlocuirea parametrului scalar de pas din (6.8) prin matricea A de dimensiuni
M M . În aceste condiţii, ecuaţia de recursie (6.8) se scrie astfel:
11
2n
n n J w
w w A (6.63)
Pentru a stabili valoarea pasului matricial A care permite atingerea soluţiei optime
ow dintr-o singură iteraţie, vom relua ecuaţia (6.20), punând în locul lui pe A :
1 o M on n w w I AR w w (6.64)
Algoritmul va converge într-un singur pas, dacă obligatoriu, termenul M I AR este
nul, situaţie din care rezultă:
Figura 6.6 Curbele ce caracterizează performanţele algoritmului SD utilizat în problema de
predicţie lineară cu pasul algoritmului 1 şi gradul de împrăştiere a valorilor
proprii 10 R .
6.4 Metoda Newton 171
1 şi 1 A R (6.65)
Prin urmare, metoda Newton originală converge într-un singur pas şi are expresia:
111
2n
n n J n w
w w R (6.66)
Figura 6.7 demonstrează efectul înlocuirii vectorului gradient J din algoritmul SD origi-
nal cu vectorul 1 J R în ecuaţia Newton de recursie (6.64). Acest lucru are efectul rotirii
vectorului gradient pe direcţia minimului suprafeţei de eroare medie pătratică.
Acest algoritm este foarte atractiv deoarece conduce la o convergenţă extrem de rapidă
(într-un singur pas), după care vectorul pondere atinge valoarea optimă ow . Algoritmul
Newton este aplicabil numai atunci când matricea R este pozitiv definită, deoarece implică
faptul că inversa acesteia există. În aplicaţiile practice, funcţia de cost J nu este cunoscută, ea
fiind doar estimată în urma măsurării statisticii semnalului de intrare (Farhang-Boroujeny
1998). Drept urmare, ar putea apare un zgomot de estimare a gradientului care ar afecta prin
intermediul ecuaţiei de evoluţie vectorul pondere. Acest efect nedorit ar putea fi diminuat
dacă 0 , ceea ce contravine condiţiei (6.65).
În metoda Newton originală pasul algoritmului se alege 1 iar nw converge către
valoarea optimă ow într-o singură iteraţie. Totuşi, în implementările reale, valorile exacte
ale lui J şi 1R nu sunt disponibile şi trebuie estimate, astfel încât suntem nevoiţi să folo-
sim un pas diferit de 1 (Manolakis, ş.a. 2005). Cu această observaţie, folosim ecuaţia de
recursie (6.64) şi condiţia matricială din (6.65) pentru a exprima valoarea vectorului nw
după n iteraţii, valoarea iniţială fiind 0w :
Figura 6.7 Vectorul gradientului J indicând panta
descrescătoare maximă şi corecţia acestuia prin
metoda Newton, 1 J R .
172 METODE DE GRADIENT - 6
1 0n
o on w w w w (6.67)
Ultima relaţie ne permite să concluzionăm că stabilitatea algoritmului Newton este garantată
atunci când 1 1 sau, echivalent
0 2 (6.68)
În concluzie, comportarea tranzitorie a algoritmului Newton este caracterizată de o
singură exponenţială, metoda Newton evidenţiindu-se printr-un unic mod de convergenţă,
acesta fiind determinat numai de mărimea pasului algoritmului şi nu şi de valorile şi
gradul de împrăştiere a valorilor proprii i ale matricii de corelaţie ca în cazul algoritmului
SD.
6.4.2 O interpretare alternativă a metodei Newton
Vom încerca în cele ce urmează să dezvoltăm o abordare distinctă a algoritmului Newton
pornind de la transformarea Karhunen-Loève (TKL) introdusă în Capitolul 3.
Transformarea TKL a unui vector de date nu se defineşte prin ecuaţia (3.128):
Hn n u Q u (6.69)
unde Q este matricea de dimensiune M M a cărei coloane sunt vectorii proprii ai matricii
de corelaţie HE n n R u u . Reamintim că în Capitolul 3 s-a arătat că componentele
vectorului transformat, desemnate prin 1 2, ,u n u n Mu n reprezintă un set de variabi-
le aleatoare mutual necorelate. Mai mult, conform relaţiei (3.131), valorile medii pătratice
ale acestora sunt egale cu valorile proprii ale matricii de corelaţie R :
2
, 1,2, ,i iE u n i M
(6.70)
Vom defini prin N nu vectorul ale cărui componente se exprimă prin
1 2
, , 1,2, ,N i i iu n u n i M (6.71)
Indicele N indică faptul că ,N iu n este normat pentru o valoare unitară a puterii. Ecuaţiile
(6.71) pot fi grupate în ecuaţia vectorială
1 2
N n n u Λ u (6.72)
unde matricea Λ este diagonală, fiind compusă din valorile proprii 1 2, , M . Se demon-
strează imediat, pornind de la faptul că Q este o matrice unitară, faptul că matricea de
corelaţie a vectorului transformat normat N nu este
H
N N N Me n n R u u I (6.73)
unde MI este matricea identitate de dimensiune M M .
METODE DE GRADIENT Probleme 173
Vectorul transformat normat se aplică la intrarea filtrului transversal modificat ce are
coeficienţii
1 2 H
N w Λ Q w (6.74)
Expresia de mai sus a coeficienţilor filtrului a fost aleasă pentru că aceasta furnizează la
ieşire semnalul H
N N Ny n n w u ce este identic cu cel dat de filtrul originar
Hy n nw u . Într-adevăr
H H H H
N N n n n w u w QΛ Λ Q u w u
Ultimul rezultat indică faptul că alternativ filtrului ce are drept intrare nu şi ieşire
Hy n nw u poate fi utilizat filtrul cu intrarea N nu şi coeficienţi Nw . Algoritmul
pantei descendente maxime pentru această realizare se scrie, conform (6.13), astfel:
1N M N N Nn n w I R w p (6.75)
unde *
N NE n d n p w (6.76)
Înlocuind (6.73) în relaţia (6.75), această ultimă relaţie se simplifică la
1 1N N oNn n w w w (6.77)
unde 1
oN N N N
w R p p .
Dacă comparăm relaţia (6.77) cu ecuaţia recursivă a algoritmului Newton (6.67), se
constată că în cazul vectorilor de date supuşi transformării Karhunen-Loève (TKL) şi
normării, acţiunea algoritmului SD este identică cu acţiunea algoritmului Newton asupra
vectorilor de date iniţiali (Farhang-Boroujeny 1998).
În concluzie se poate afirma că algoritmul Newton poate fi văzut ca un algoritm SD
pentru semnale de intrare transformate TKL (Ciochină şi Negrescu 1999). Problema
provocată metodei pantei descendente maxime de împrăştierea valorilor proprii ale matricii
de corelaţie este rezolvată prin decorelarea eşantioanelor de intrare în filtrul transversal (prin
transformarea corespunzătoare TKL) urmată de o procedură de normare în putere. Întreaga
operaţie poartă numele de procedură de albire; pentru că prin decorelare şi, apoi normare la
putere unitară înainte de operaţia propriu zisă de filtrare, aceste eşantioane capătă
caracteristicile unui zgomot alb de varianţă unitară.
Probleme
P 6.1 Să se arate că, dacă în algoritmul SD valoarea iniţială a vectorului coeficienţilor
0w este vectorul nul, atunci după n iteraţii el va fi egal cu
2n
on
w I I R w
unde ow reprezintă valorea optimă a vectorului coeficienţilor.
174 METODE DE GRADIENT - 6
P 6.2 Se consideră procesul autoregresiv (AR) de ordinul întâi u n , descris prin ecuaţia
cu diferenţe finite:
1u n au n v n
unde a este parametrul AR al procesului, iar v n este un zgomot alb de medie
nulă şi varianţă 2
v .
(a) Să se determine un predictor liniar de ordinul unu pentru calculul parametrului a .
Să se utilizeze metoda SD pentru calculul prin recursie al soluţiei Wiener pentru
parametrul a .
(b) Să se reprezinte curba de eroare pentru această problemă, identificând punctul de
minim al curbei în funcţie de parametrii cunoscuţi.
(c) Ce condiţie se impune pasului algoritmului pentru ca acesta să fie stabil? Justi-
ficaţi răspunsul!
P 6.3 Se consideră un filtru Wiener cu doi coeficienţi caracterizat de următorii
parametrii:
1 0.8 2
şi 0.8 1 1
R p
unde R este matricea de corelaţie a intrării, nu , iar p este vectorul de inter-
corelaţie dintre semnalul de intrare nu şi ieşirea dorită d n .
(a) Să se determine pentru pasul intervalul de valori care asigură convergenţa
metodei SD. Să se specifice, dacă rezultatul obţinut este influenţat de vectorul de
intercorelaţie p .
(b) Utilizând MATLAB, să se ruleze algoritmul SD pentru parametrii
0,05;0,1;0,5 şi 1 şi să se traseze traiectoriile corespunzătoare în planul
0 1,w w .
(c) Să se reprezinte grafic pentru 0,05 , separat, evoluţia coeficienţilor 0w k şi
1w k în funcţie de indicele de iteraţie 0,1, ,200k .
(d) Pe graficele obţinute la punctul (c) ar trebui să se observe că evoluţia fiecărui
coeficient este influenţată de două constante de timp diferite. Aceasta implică că
variaţia coeficienţilor poate fi descompusă în suma a două serii exponenţiale
distincte. Să se dea o explicaţie acestei observaţii.
P 6.4 Se consideră procesul u n generat de modelul AR(3)
0,729 3u n u n v n
METODE DE GRADIENT Probleme 175
unde v n este un zgomot alb de medie nulă şi varianţă unitară. Utilizând metoda
SD se proiectează un predictor linear al lui u n definit prin
,1 ,2 ,3ˆ 1 2 3o o oy n u n w u n w u n w u n Un-1
(a) Determinaţi matricea de corelaţie R a lui u n de dimensiune 3 3 şi calculaţi
valorile proprii 1 2 3, , .
(b) Determinaţi vectorul de intercorelaţie p de dimensiune 3 1 .
(c) Alegeţi pasul SD astfel încât răspunsul algoritmului să fie supraamortizat. Apoi
implementaţi algoritmul în MATLAB şi reprezentaţi traiectoriile coeficienţilor
filtrului 3
1i
iw n
în funcţie de n.
(d) Repetaţi punctul (c), alegând pentru o asemenea valoare încât răspunsul să fie
subamortizat.
P 6.5 Se consideră un filtru transversal având vectorul semnalului de intrare nu şi
vectorul ponderilor w . Ieşirea y n este dată de:
Hy n nw x
Definim vectorul 1 2n nu R u unde Hn n R E u u . Fie nu vectorul
de intrare într-un filtru al cărui semnal de ieşire se calculează cu relaţia
Hy n nw x
unde w este vectorul coeficienţilor noului filtru.
(a) Să se deducă o ecuaţie pentru coeficienţii w astfel încât ieşirile celor două filtre
y n şi y n să fie identice.
(b) Să se determine ecuaţia de recursie SD pentru vectorul ponderilor w .
(c) Să se deducă o relaţie care să demonstreze evoluţia coeficienţilor filtrului pe
măsură ce evoluează algoritmul SD determinat la punctul (b) .
(d) Determinaţi constantele de timp ale curbei de învăţare a algoritmului.
(e) Să se demonstreze că ecuaţia de recursie determinată la punctul (b) este
echivalentă cu algoritmul lui Newton.
P 6.6 Ecuaţia (6.53) defineşte comportarea tranzitorie a EPM J n în cazul aplicării
algoritmului SD. Vom nota prin 0J şi J valoarea iniţială respectiv
valoarea finală a lui J n . Vom aproxima răspunsul tranzitoriu printr-o singură
exponenţială astfel: 0 nJ n J J e J unde este denumit
constantă de timp efectivă. Vom alege pe astfel încât 1 1J J .
176 METODE DE GRADIENT - 6
Se cere să se arate că viteza iniţială de convergenţă a algoritmului SD definită ca
fiind inversa lui , este dată de
01ln
1
J J
J J
Utilizând ecuaţia (6.53) determinaţi valoarea lui 1 . Presupuneţi că valoarea
iniţială 0w este nulă iar pasul este mic.
P 6.7 Ne propunem să evaluăm o altă modalitate de deducere a ecuaţiei (6.12) ce
defineşte algoritmul SD. Inversa unei matrici pozitiv definite se poate dezvolta în
serie astfel:
1
0
k
k
R I R
unde I ete matricea identitate iar μ o constantă pozitivă. Pentru a asigura
convergenţa seriei, constanta μ trebuie să se situeze în domeniul
max
20
unde max este cea mai mare valoare proprie a matricii R. Utilizând această
dezvoltare în serie a inversei matricii de corelaţie în ecuaţiile Wiener-Hopf,
dezvoltaţi ecuaţia de recursie
1n n n w w p Rw
unde nw este aproximarea soluţiei Wiener pentru vectorului coeficienţilor:
0
k
k
n
w I R p
7 Algoritmul gradientului
stochastic (LMS)
n acest capitol vom deduce, vom analiza performanţele şi vom prezenta câteva aplicaţii
practice ale algoritmului adaptiv LMS (Least Mean Squares – media pătratică minimă).
Denumirea „gradient stochastic” are scopul de a diferenţia algoritmul LMS de metoda
SD, care utilizează în calculul recursiv al filtrului Wiener un gradient calculat determinist.
Algoritmul LMS, introdus de Widrow şi Hoff Jr. (1960), împreună cu toate variantele sale
este cel mai larg utilizat în practică datorită simplităţii, eficienţei computaţionale şi perfor-
manţelor excelente, indiferent de condiţiile în care el este utilizat. Mai mult, el nu necesită
nici măsurarea sau calculul funcţiilor de corelaţie şi nici realizarea operaţiei de inversare a
matricii de corelaţie. Algoritmul gradientului stochastic reprezintă un standard în raport cu
care sunt comparate performanţele altor algoritmi de filtrare adaptivă.
7.1 Deducerea algoritmului LMS
Dacă ar fi posibilă măsurarea exactă a vectorului gradient J n la fiecare iteraţie n şi
dacă parametrul ar fi ales în mod convenabil, atunci vectorul ponderilor filtrului adaptiv
nw calculat prin metoda SD ar converge într-adevăr către soluţia Wiener. În realitate,
măsurători exacte ale vectorului gradient nu sunt posibile pentru că ar necesita cunoaşterea
apriori atât a matricii R cât şi a răspunsului dorit, d n . Drept urmare, vectorul gradient
trebuie să fie estimat pe baza datelor disponibile.
Pentru a dezvolta o estimare a vectorului gradient J n , strategia cea mai evidentă
este de a substitui estimările matricii de corelaţie R şi ale vectorului de intercorelaţie p din
formula (6.9), utilizată în metoda SD a gradientului suprafeţei de eroare:
*2 2 2 2 HJ n n E n d n E n n n p Rw u u u w (7.1)
Cea mai simplă alegere a estimatorilor pentru R şi p utilizează estimatele instantanee ale
acestora bazate pe valorile instantanee ale vectorului semnalului de intrare nu şi ale
Capitolul
7
Î
178 ALGORITMUL GRADIENTULUI STOCHASTIC (LMS) - 7
răspunsului dorit d n , aşa cum sunt definite, în urma renunţării la operaţia de mediere
statistică, prin:
ˆ Hn n nR u u (7.2)
şi respectiv *ˆ n n d np u (7.3)
În mod corespunzător, estimatul instantaneu al vectorului gradient este:
*ˆ ˆ2 2 HJ n n d n n n n u u u w (7.4)
În general, estimatul este deplasat, din cauză că estimatul vectorului coeficienţilor ˆ nw
este un vector aleator care depinde de vectorul semnal de intrare nu . De observat, că esti-
matul ˆ J n poate fi, de asemenea, văzut ca operatorul gradient aplicat erorii pătratice
instantanee e n .
Înlocuind estimata din ecuaţia (7.4) a vectorul gradient J n în algoritmul de pantă
descendentă maximă (vezi Capitolul 6) descris prin ecuaţia:
1
12
n n J n w w (7.5)
se obţine noua relaţie de recursie pentru actualizarea vectorului coeficienţilor filtrului
adaptiv:
*
*
ˆ ˆ ˆ1
ˆ
Hn n n d n n
n n e n
w w u u w
w u (7.6)
unde este pasul algoritmului LMS. S-a utilizat simbolul căciulă aşezat deasupra
simbolului vectorului coeficienţilor ˆ nw pentru a realiza distincţia dintre valoarea curentă
şi cea obţinută prin algoritmul SD. În mod echivalent, rezultatul poate fi scris sub forma a
trei relaţii de bază care sintetizează acţiunea algoritmului LMS, după cum urmează:
1. Calculul semnalului de ieşire al filtrului:
ˆ Hy n n nw u (7.7)
2. Calculul erorii de estimare:
e n d n y n (7.8)
3. Actualizarea (recursia) coeficienţilor filtrului adaptiv:
*ˆ ˆ1n n n e n w w u (7.9)
Ecuaţiile (7.7) şi (7.8) definesc eroarea de estimare e n , a cărui calcul se bazează pe
estimarea curentă (eroare apriori) a vectorului ponderilor ˆ nw . De observat de asemenea
că cel de-al doilea termen *n e nu din membrul drept al ecuaţiei (7.9) reprezintă
7.1 Deducerea algoritmului LMS 179
corecţia ce se aplică asupra estimării curente a vectorului coeficienţilor ˆ nw . Procedura
iterativă porneşte de la o estimare iniţială ˆ 0w .
Algoritmul descris de ecuaţiile (7.7)-(7.9) reprezintă forma complexă a algoritmului
adaptiv LMS. La fiecare iteraţie sau actualizare a vectorului coeficienţilor, el necesită
cunoaşterea celor mai recente valori nu , d n şi ˆ nw . Algoritmul LMS face parte din
familia algoritmilor de gradient stochastic. În particular, atunci când algoritmul LMS
operează asupra unui set de semnale aleatoare, setul permis de direcţii pe care algoritmul
adaptiv le adoptă de la o recursie la alta este destul de aleator, astfel încât acestea nu pot fi
privite ca fiind direcţiile adevărate ale gradientului. De aici, explicaţia denumirii pe care o
aplicăm acestei categorii de algoritmi adaptivi.
Figura 7.1 prezintă graful algoritmului LMS sub forma unui model cu reacţie. Acest
model se aseamănă cu modelul utilizat pentru descrierea algoritmului SD. Graful ilustrează
simplitatea extremă a algoritmului LMS. În particular, din figură rezultă, că algoritmul
necesită doar 2 1M multiplicări complexe şi 2M adunări complexe pe iteraţie, unde
M este numărul de coeficienţi ai filtrului transversal adaptiv. Cu alte cuvinte, complexitatea
de calcul a algoritmului LMS este 0 M .
Estimările instantanee ale lui R şi p date prin ecuaţiile (7.2) şi (7.3) au varianţe relativ
importante. La prima vedere, drept urmare, se poate face observaţia că algoritmul LMS este
incapabil de performante bune întrucât utilizează estimări instantanee. Totuşi, să ne reamin-
tim, că algoritmul gradientului stochastic este prin natura lui recursiv, ceea ce are drept
consecinţă faptul că algoritmul însuşi face efectiv media acestor estimări pe parcursul adap-
tării. Sistemul adaptiv controlat de algoritmul de gradient stochastic este prezentat în Figura
Figura 7.1 Reprezentarea grafică a algoritmului LMS.
180 ALGORITMUL GRADIENTULUI STOCHASTIC (LMS) - 7
7.2. În Tabelul 7.1 sunt rezumate operaţiunile necesare implementării algoritmului LMS
(Ciochină şi Negrescu 1999).
7.2 Analiza performanţelor algoritmului
LMS
7.2.1 Convergenţa în medie a vectorului coeficienţilor
În continuare, vom studia stabilitatea şi performanţele în regim staţionar ale algoritmului
LMS în ipoteza în care semnalul de intrare nu şi răspunsul dorit d n sunt procese
aleatoare staţionare mutual. În acest caz, vectorul optim al coeficienţilor filtrului Wiener
optimal, ow , este fixat şi poate fi stabilit în conformitate cu ecuaţiile Wiener Hopf (4.30).
Scăzând ow din cei doi membri ai ecuaţiei (7.9), se obţine
*ˆ ˆ1n n e n n c c u (7.10)
unde ˆ ˆon n c w w este vectorul de eroare al coeficienţilor. Pentru eroarea de ieşire a
filtrului, e n , putem, de asemenea, scrie
ˆ ˆ
ˆ
H H H
o o
H
o
e n d n n n d n n n n
e n n n
u w u w u w w
u c (7.11)
unde oe n este eroarea de estimare atunci când ponderile filtrului sunt optimale:
Figura 7.2 Filtrul adaptiv LMS
7.2 Analiza performanţelor algoritmului LMS 181
H
o oe n d n n u w (7.12)
Înlocuind (7.11) în ecuaţia (7.10), se obţine în urma rearanjării
*ˆ ˆ1 H
on n n n e n n c I u u c u (7.13)
unde I este matricea identitate. Prin aplicarea operatorului de mediere statistică ambilor
termeni ai ecuaţiei (7.13), se obţine
*ˆ ˆ1
ˆ
H
o
H
E n E n n n E e n n
E n n n
c I u u c u
I u u c (7.14)
unde ultima egalitate rezultă din faptul că, în conformitate cu principiul ortogonalităţii,
* 0oE e n n u .
Principala dificultate pe care o întâmpină orice analiză mai elaborată a membrului drept
al ecuaţiei (7.14) este evaluarea momentului de ordinul trei al vectorului
ˆHE n n n u u c , ceea ce, în general, este o sarcină matematică dificilă. Pentru a depăşi
această dificultate matematică, cercetătorii au adoptat diferite strategii. Cele mai multe dintre
aceste abordări presupun că eşantioanele de date curente ( ,n d nu ) sunt independente de
observaţiile anterioare ( 1 , 1n d n u ),( 2 , 2n d n u ),...; vezi de exemplu Feuer
şi Weinstein (1985) şi Farhang-Boroujeny (1998). Această abordare se numeşte Ipoteza de
Independenţă. Conform ipotezei, putem argumenta că, întrucât ˆ nc depinde numai de
observaţiile anterioare ( 1 , 1n d n u ),( 2 , 2n d n u ,...,) el este independent în
raport cu nu , astfel încât
ˆ ˆH HE n n n E n n E n u u c u u c (7.15)
1. Se iniţializează variabila contor a ciclului 0n şi se atribuie o
valoare iniţială pentru vectorul coeficienţilor (de obicei ˆ w 0 ). Se alege corespunzător constanta .
2. Se calculează ieşirea curentă a filtrului:
ˆ Hy n n nw u
3. Se determină eşantionul curent al semnalului de eroare:
e n d n y n
4. Se calculează vectorul ponderilor pentru pasul următor:
*ˆ ˆ1n n n e n w w u
5. Se incrementează variabila contor 1n n şi se execută salt la
2 .
Tabelul 7.1 Algoritmul LMS
182 ALGORITMUL GRADIENTULUI STOCHASTIC (LMS) - 7
De fapt, în cele mai multe din cazurile practice, ipoteza de independenţă este
discutabilă. De exemplu, vectorii de intrare nu şi 1n u au 1M termeni comuni din
M . Cu toate acestea, practica algoritmului LMS a arătat că presupunerile făcute pe baza
ipotezei de independenţă se armonizează bine cu simulările făcute pe calculator şi cu
performanţele algoritmului LMS în practică. Vom încerca o explicaţie pentru această
situaţie în cele ce urmează.
La orice moment de timp, vectorul coeficienţilor ˆ nw este afectat de toată evoluţia
eşantioanelor observate ( 1 , 1n d n u ),( 2 , 2n d n u ),... Atunci când pasul
algoritmului este mic, ponderea ultimelor M observaţii în valoarea actuală a lui ˆ nw
este redusă, şi astfel putem afirma că nu şi ˆ nw sunt slab dependente. Rezultatul
evident al afirmaţiei este că relaţia (7.15) poate fi acceptată cu un anumit grad de
aproximare. Oricum, acest gen de raţionament poate fi acceptat mai uşor decât ipoteza de
independenţă. Indiferent de aceste consideraţii, analiza algoritmului LMS, pe care o facem
în continuare, se bazează pe (7.15) şi alte aproximări similare.
Înlocuim (7.15) în ecuaţia (7.14), pentru a obţine:
ˆ ˆ1E n E n c I R c (7.16)
unde HE n n R u u este matricea de corelaţie a vectorului de date nu .
Comparaţia ecuaţiilor de recursie (7.16) şi (6.20) indică faptul că acestea sunt exact de
aceiaşi formă matematică. Vectorul determinist de eroare ˆ nc al coeficienţilor filtrului din
(6.20) obţinut prin metoda SD este înlocuit prin media statistică a vectorului de eroare
ˆE n c a coeficienţilor filtrului LMS. Ultima observaţie sugerează că, în medie,
algoritmul LMS se comportă identic cu metoda pantei descendente maxime. În consecinţă,
convergenţa algoritmului LMS este direct legată de împrăştierea valorilor proprii ale
matricii de corelaţie R . Mai mult, reamintindu-ne de relaţia dintre gradul de împrăştiere a
valorilor proprii ale lui R şi densitatea spectrală de putere a semnalului u n , observăm că
convergenţa algoritmului LMS este legată direct de gradul de aplatizare a spectrului de
putere al semnalului de intrare.
În particular, vectorul de eroare a coeficienţilor ˆ nc se apropie de zero, dar execută
mici fluctuaţii în jurul acestei valori. Aceste observaţii confirmă formal faptul că vectorul
convergent al coeficienţilor filtrului LMS poate fi modelat ca în Figura 7.3.
Dacă se urmăreşte o procedură similară ca în Capitolul 6, manipularea relaţiei (7.16)
conduce la concluzia că ˆE n c tinde către zero dacă pasul algoritmului LMS , verifică
inegalitatea:
max
20
(7.17)
7.2 Analiza performanţelor algoritmului LMS 183
unde max este cea mai mare valoare proprie a lui R . Totuşi, vom sublinia aici că
îndeplinirea inegalităţii (7.17) nu garantează, în mod necesar, stabilitatea algoritmului LMS.
Convergenţa algoritmului LMS presupune convergenţa în medie a lui ˆ nw către ow şi,
de asemenea, convergenţa varianţei componentelor lui ˆ nw către anumite valori limită.
După cum vom arăta în continuare, pentru a garanta stabilitatea algoritmului LMS,
valabilitatea relaţiei (7.17) devine discutabilă.
Exemplul 7.1: Algoritmul LMS cu „pierderi” (leaky-LMS) este caracterizat de
ecuaţia (Diniz 2008, Håkansson 2004):
*ˆ ˆ1 1n n n e n w w u (7.18)
unde 0 1 . Se cere:
a. Să se calculeze domeniul valorilor lui necesar pentru a asigura conver-
genţa în medie a coeficienţilor.
b. Care este expresia funcţiei de cost lJ n pe care o minimizează acest
algoritm.
c. Ce se întâmplă cu coeficienţii filtrului adaptiv în situaţia în care eroarea
şi/sau semnalul de intrare devin nule.
Soluţie:
a. Dezvoltăm expresia erorii din ecuaţia de ajustare a coeficienţilor algorit-
mului leaky-LMS:
*
*
ˆ ˆ ˆ1 1
ˆ
H
H
n n n d n n n
n n n n d n
w w u u w
I u u I w u
Aplicăm în continuare ultimei expresii operatorul de mediere:
ˆ ˆ1E n E n w I R I w p
Filtru Wiener
ow
Filtru stochastic
ˆ ˆo c w w
u n y n e n
d n
Figura 7.3 Model al algoritmului LMS
184 ALGORITMUL GRADIENTULUI STOCHASTIC (LMS) - 7
Apariţia lui în prima expresie este echivalentă cu adăugarea la semnalul
de intrare nu a unui zgomot alb, astfel încât la valorile proprii ale
matricii de corelaţie R să se adauge valoarea . Drept urmare, condiţia
de stabilitate în medie statistică a coeficienţilor se exprimă prin:
max
20
Coeficienţii converg către o soluţie „deplasată” (în engleză – biased) în
raport cu soluţia optimală Wiener, fiind daţi de:
1
ˆ pentru E n n
w R I p
b. Ecuaţia (7.18) poate fi rescrisă într-un format care să permită identi-
ficarea expresiei gradientului funcţiei de cost lJ n :
*
*
ˆ ˆ ˆ1
ˆ ˆ ˆH
n n n n e n
n n d n n n n n
w w w u
w w u u u w (7.19)
Dacă comparăm ultima expresie cu relaţia (7.5) care defineşte metoda SD,
rezultă că gradientul căutat este definit prin:
*
ˆ
*
ˆ ˆ2 2
ˆ2 2
H
lJ n n n d n n n
n n e n
w w u u w
w u
Prin urmare, funcţia de cost care este supusă minimizării în algoritmul
leaky-LMS este:
2 2
ˆlJ n e n n w
c. În condiţiile în care semnalul de intrare (sau eroarea) sunt anulate după
câteva iteraţii iniţiale, ecuaţia de actualizare (7.18) are excitaţii nule.
Întrucât valorile proprii ale matricii de tranziţie Hn n I u u I
sunt mai mici decât unu, atunci coeficienţii filtrului adaptiv vor tinde către
zero, pe măsură ce n .
7.2.2 Ipoteze utilizate în studiul comportării erorii
pătratice medii a algoritmului LMS
Vom studia, în continuare, evoluţia lui 2
J n E e n
pe măsură ce algoritmul LMS
evoluează. Vom folosi rezultatele comunicate de Feuer şi Weinstein (1985) şi reluate apoi în
tratatele scrise de Haykin (1996) şi Farhang-Boroujeny (1998). Vom urmări direct,
condiţiile în care are loc convergenţa algoritmului LMS. Presupunerile pe care ne bazăm
sunt următoarele:
7.2 Analiza performanţelor algoritmului LMS 185
1. Secvenţa de intrare u n şi secvenţa de răspuns dorit d n sunt procese
aleatoare staţionare de medie nulă.
2. Secvenţele aleatoare u n şi d n constau din variabile aleatoare cu distribuţie
mutual gaussiană.
3. La momentul de timp n , vectorul ponderilor filtrului adaptiv ˆ nw este
independent atât în raport cu vectorul de intrare nu cât şi cu semnalul dorit
d n .
Validitatea ultimei ipoteze este justificată, aşa cum s-a discutat în paragraful anterior
atunci când pasul algoritmului este mic. Aceasta este Ipoteza de Independenţă. Prima
presupunere simplifică mult analiza, în timp ce a doua conduce la simplificări în rezultatul
final, întrucât momentele de ordinul trei şi patru care apar pe parcursul calculelor pot fi
exprimate prin intermediul momentelor de ordinul doi în cazurile în care variabilele
aleatoare care intervin au o distribuţie mutual gaussiană.
7.2.3 Curba de învăţare a algoritmului LMS
Calculăm eroarea pătratică medie la ieşirea filtrului adaptiv LMS, pornind de la relaţia
(7.11):
ˆH
oe n e n n n c u (7.20)
Pentru a obţine eroarea pătratică medie (EPM), multiplicăm cu conjugata ambii
membrii ai relaţiei (7.20) şi aplicăm operatorul de mediere:
22 2
*
ˆ
ˆ ˆ
H
o
H H
o o
J n E e n E e n E n n
E e n n n E e n n n
c u
u c c u
(7.21)
Cel de-al doilea termen din membrul drept al ecuaţiei (7.21) se calculează, pe baza ipotezei
de independenţă şi a egalităţii ˆ ˆH Hn n n nc u u c , astfel:
2
ˆ ˆ ˆ
ˆ ˆ ˆ ˆ
H H H
H H H
E n n E n n n n
E n E n n n E n n
c u c u u c
c u u c c Rc
(7.22)
Observând că 2
ˆHE n n
c u este un scalar şi, făcând apel la relaţia (7.22), se scrie în
continuare
2 2
ˆ ˆ ˆ ˆtr tr
ˆ ˆtr
H H H
H
E n n E n n E n n
E n n
c u c u c Rc
c Rc
(7.23)
186 ALGORITMUL GRADIENTULUI STOCHASTIC (LMS) - 7
unde tr reprezintă urma unei matrici, iar în scrierea ultimei egalităţi am utilizat
proprietatea operatorilor lineari „urmă” şi „medie” de a putea fi schimbaţi între ei. Acest
rezultat poate fi simplificat mai mult dacă folosim un rezultat din algebra matricială şi
anume că pentru orice pereche de matrici A şi B de dimensiuni N M respectiv M N
se poate scrie
tr trAB BA (7.24)
Utilizarea identităţii (7.24) conduce la:
ˆ ˆ ˆ ˆ ˆ ˆtr tr trH H HE n n E n n E n n c Rc c c R c c R (7.25)
În aceste condiţii, definim matricea de corelaţie a vectorului de eroare a coeficienţilor ˆ nc
prin
ˆ ˆHn E n n K c c (7.26)
şi rezultatul din (7.25) se reduce la
2
ˆ trHE n n n c u K R (7.27)
Utilizând ipoteza de independenţă şi observând că oe n este un scalar, ultimul termen
din membrul drept al relaţiei (7.21) se calculează astfel:
* *
*
ˆ ˆ
ˆ 0
H H
o o
H
o
E e n n n E n n e n
E n E n e n
c u c u
c u (7.28)
unde ultimul pas rezultă din principiul ortogonalităţii care afirmă că eroarea de estimare
optimă şi eşantioanele de semnal de la intrarea unui filtru Wiener sunt ortogonale
(necorelate), adică * 0oE n e n u . Similar,
ˆ 0H
oE e n n n u c (7.29)
Înlocuind relaţiile (7.27), (7.28) şi (7.29) în (7.21), se obţine
2
min trJ n E e n J n RK (7.30)
unde 2
min oJ E e n
este eroarea pătratică medie (EPM) minimă a ieşirii filtrului.
În vederea unei analize mai detailate, acest ultim rezultat poate fi pus într-o formă mai
convenabilă, dacă ne reamintim că în Capitolul 3 matricea de corelaţie R s-a descompus
astfel
HR QΛQ (7.31)
7.2 Analiza performanţelor algoritmului LMS 187
unde Q este matricea de dimensiune M M a cărei coloane sunt vectorii proprii ai matricii
R iar Λ este matricea diagonală alcătuită din valorile proprii 1 1, , , M ale lui R . Prin
introducerea lui (7.31) în relaţia (7.30) şi utilizarea identităţii (7.24), se obţine
min trJ n J n ΛX (7.32)
unde Hn nX Q K Q . În plus, utilizând (7.26) şi relaţia (6.47) Hn nv Q c din
Capitolul 6, matricea nX poate fi definită prin
ˆ ˆ Hn E n n X v v (7.33)
unde ˆˆ Hn nv Q c este vectorul de eroare a coeficienţilor în coordonatele definite de
vectorii proprii ai lui R .
Observând că Λ este o matrice diagonală, relaţia (7.32) se exprimă astfel:
min
1
M
i ii
i
J n J x n
(7.34)
unde iix n este elementul i de pe diagonala matricii nX .
Reprezentarea graficului J n în funcţie de indicele de timp n , definită prin (7.30) sau
prin formele alternative (7.32) sau (7.34) este denumită curba de învăţare a algoritmului
LMS (Farhang-Boroujeny 1998 şi Manolakis, ş.a. 2005). Aceasta este asemănătoare cu
curba de învăţare a metodei SD, pentru că, în conformitate cu observaţiile din paragraful
anterior, algoritmul LMS urmăreşte în medie aceiaşi traiectorie cu metoda SD. Variaţiile
coeficienţilor filtrului datorate zgomotului, introduc în cazul algoritmului LMS o eroare
adiţională, exJ n , şi plasează curba sa de învăţare mai sus decât curba metodei SD. Totuşi,
atunci când pasul al algoritmului LMS este redus (ceea ce în practică este obişnuit),
diferenţa dintre cele două curbe poate fi observabilă doar atunci când metodele au realizat
convergenţa iar curbele s-au apropiat de valorile lor finale.
7.2.4 Evoluţia matricii de corelaţie a erorii
coeficienţilor
Matricea de corelaţie a erorii coeficienţilor nK joacă un rol important în studiul algorit-
mului LMS. Relaţia (7.30) indică că J n este legat direct de nK . Această ecuaţie impli-
că faptul că, dacă valorile elementelor acestei matrici rămân mărginite atunci când n creşte,
stabilitatea algoritmului LMS este garantată.
Pentru a calcula nK , vom postmultiplica mai întâi ambii termeni ai ecuaţiei de recur-
sie (7.13) cu hermiticele lor respective iar apoi vom aplica operatorul de mediere statistică
rezultatelor obţinute:
188 ALGORITMUL GRADIENTULUI STOCHASTIC (LMS) - 7
*
2 *
ˆ ˆ1 1 1
ˆ ˆ
ˆ
ˆ
H
HH H H
H H
o
HH H
o
H
o o
n E n n
E n n n n n n
E n n n e n n
E n e n n n n
E n e n e n n
K c c
I u u c c I u u
I u u c u
u c I u u
u u
(7.35)
Din ipotezele de independenţă, oe n este independentă faţă de ˆ nc şi nu . Prin urmare,
al doilea şi al treilea termen din (7.35) dispar, iar cel de al patrulea este egal cu 2
minJ R .
Dacă dezvoltăm primul termen din (7.35), se obţine:
2 2
min1n n n n J K K RK K R A R (7.36)
unde: ˆ ˆH H TE n n n n n n A u u c c u u (7.37)
iar termenii nRK şi nK R sunt obţinuţi prin utilizarea independenţei mutuale a
mărimilor nu , ˆ nc şi oe n .
Calculul matricii A poate fi simplificat dacă se adoptă unele ipoteze suplimentare refe-
ritoare la proprietăţile statistice ale lui nu . După cum a arătat Gardner (1984), dezvoltarea
unei relaţii de recursie pentru elementele lui nK prin utilizarea numai a ipotezelor de
independenţă necesită produse şi inversări de matrici de dimensiune 2 2M M , M fiind
dimensiunea vectorului nu .
Dacă Gardner (1984) a evaluat acest termen în ipoteza că secvenţa nu este IID, foarte
plauzibilă în cazul transmisiunilor de date, în cazul unei distribuţii gaussiene a datelor, care
caracterizează foarte bine semnalele vocale, calculele au fost făcute de Rupp (1993).
Presupunând că secvenţa nu de medie nulă şi matrice de corelaţie R este normal
distribuită, se pot face o serie de simplificări. Într-adevăr, în acest caz se poate utiliza
proprietatea de factorizare a variabilelor aleatoare normal distribuite pentru a exprima
momentele de ordinul patru (Papoulis 1991). Astfel, dacă 1 2 3 4, , şi z z z z sunt variabile alea-
toare complexe, de medie aleatoare nulă şi distribuite mutual gaussian, atunci
* * * * * *
1 2 3 4 1 2 3 4 1 4 2 3E z z z z E z z E z z E z z E z z (7.38)
Înlocuind direct (7.38) în (7.37), se poate arăta (Manolakis, ş.a. 2005) că
trn n A RK R R RK (7.39)
În final, înlocuind (7.39) în (7.36) se obţine ecuaţia stochastică cu diferenţe finite pentru
nK :
7.2 Analiza performanţelor algoritmului LMS 189
2 2
min
1
tr
n n n n
n n J
K K RK K R
RK R R RK R (7.40)
Prezenţa termenului 2
minJ R în (7.40) are drept consecinţă faptul că nK nu va
deveni nul în nicio condiţie, şi drept urmare, coeficienţii filtrului LMS adaptiv vor fluctua
întotdeauna în jurul valorilor optime, ceea ce împiedică convergenţa.
O simplificare importantă a analizei se realizează dacă trecem de la nK la matricea
nX definită prin relaţiile (7.31) şi (7.33). Dacă pre- şi postmultiplicăm (7.40) cu HQ
respectiv Q şi folosim egalităţile H H Q Q QQ I , se obţine:
2 2
min
1
tr
n n n n
n n J
X X ΛX X Λ
ΛX Λ Λ ΛX Λ (7.41)
Simplificările se bazează pe faptul că Λ este o matrice diagonală. Elementele oricărei
matrici nX simetrică şi pozitiv definită satisfac, oricare ar fi valorile lui i şi j , relaţiile
2
ij ii jjx n x n x n . Prin urmare, convergenţa elementelor diagonale ale lui nX este
suficientă pentru a asigura convergenţa tuturor elementelor sale. Această observaţie
împreună cu relaţia (7.41) sugerează că pentru a analiza algoritmului va trebui să studiem
din (7.41) ecuaţiile elementelor diagonale ale matricii nX incluse în vectorul nx :
11 22
T
MMn x n x n x n x (7.42)
Se poate arăta uşor că ecuaţia recursivă a vectorului nx este:
2
min1n n J x Bx λ (7.43)
unde 2 TB Ρ λ λλ (7.44)
1 2
T
M λ (7.45)
1 2
2
diag , ,
1 0, 1
M
k k k M
Ρ λ (7.46)
Matricea B de dimensiune M M este reală, pozitiv definită şi simetrică, de elemente
2
2
1 ,
,
i
ij
i j
i jb
i j
(7.47)
Ecuaţia stochastică cu diferenţe finite (7.43) poate fi utilizată la studiul stabilităţii
algoritmului LMS. Aceasta este garantată dacă elementele lui nx rămân mărginite odată
cu creşterea lui n . Condiţia necesară şi suficientă este ca toate valorile proprii ale matricii
B să fie subunitare. Feuer şi Weinstein (1985) au dat, pe această bază condiţiile de
190 ALGORITMUL GRADIENTULUI STOCHASTIC (LMS) - 7
stabilitate. În lucrarea noastră, vom stabili condiţiile de stabilitate într-un mod indirect după
ce vom determina expresii convenabile pentru EPM în exces şi dezadaptare.
7.2.5 Eroarea pătratică medie în exces şi
dezadaptarea
Chiar şi în condiţiile în care vectorul coeficienţilor filtrului ˆ nw se apropie de valoarea
optimală ow , iar media gradientului pătratului erorii J n tinde către zero, valoarea
instantanee a acestui gradient poate să nu fie nulă. Există, prin urmare, o perturbaţie a vecto-
rului coeficienţilor ˆ nw în jurul valorii sale optimale ow , chiar şi după ce algoritmul a
realizat convergenţa. Aceasta, la rândul său, măreşte EPM a algoritmului LMS la un nivel ce
se situează peste valoarea minimă a acestei erori care este obţinută pentru coeficienţii
filtrului Wiener. Această eroare suplimentară este denumită eroare pătratică medie în exces.
Cu alte cuvinte, EPM în exces a unui filtru adaptiv ,excJ este definită drept diferenţa dintre
EPM a filtrului în regim staţionar ,J şi EPM minimă minJ . Din relaţiile (7.30), (7.34),
(7.42) şi (7.45) scriem:
min
1
exc
MT
i ii
i
J J J
tr x
RK λ x (7.48)
Atunci când algoritmul LMS este convergent, nx converge către o valoare de regim
permanent mărginită şi putem spune că 1 ,n n x x atunci când n . Cu această
observaţie, din ecuaţia (7.43) se obţine
12
minn J
x I B λ (7.49)
Înlocuim ultima expresie în (7.48) pentru a avea:
12
min
T
excJ J
λ I B λ (7.50)
În primul rând să remarcăm că excJ este proporţional cu min ,J observaţie intuitiv de
înţeles, dacă se remarcă că atunci când ˆ nw se situează într-o vecinătate a lui ow , varianţa
elementelor vectorului gradientului erorii este proporţională cu minJ . De asemenea, ca şi
min ,J excJ este o putere. Pentru a avea o măsură absolută a degradării datorate lui ,excJ se
obişnuieşte să se normeze excJ la minJ . Rezultatul poartă numele de dezadaptare
(misadjustment) şi este notat prin M :
12
min
TexcJ
J
λ I B λM (7.51)
Structura specială a matricei I B ne permite să-i stabilim inversa.
Remarcăm din (7.44) şi (7.46) că
7.2 Analiza performanţelor algoritmului LMS 191
2
1 2diag 1 ,1 , ,1 T
M I B λλ (7.52)
Pentru a inversa matricea ,I B facem apel la Lema de inversare matricială (vezi
Capitolul 10), care, pentru o matrice A de dimensiune M M , un vector a de lungime
M şi un scalar , afirmă că:
1 1
11
11
HH
H
A aa AA aa A
a A a (7.53)
Identificăm în (7.53) 2
1 2diag 1 ,1 , ,1 , şi - ,M A a λ aflăm inversa
lui ,I B înlocuim rezultatul în definiţia (7.51), şi, după câteva manipulări directe, se
obţine
1
1
2
12
Mi
i i
Mi
i i
M (7.54)
Este util să simplificăm acest rezultat prin câteva aproximări adecvate, astfel încât
rezultatul să poată fi utilizat la alegerea pasului algoritmului, . În practică se obişnuieşte să
se aleagă o astfel de valoare pentru încât să se realizeze o dezadaptare M de 10%
( 0,1M ) sau chiar mai mică. În cazul considerat, se poate face simplificarea
1 1
tr2 2 2
M Mi
i
i ii
R (7.55)
Justificarea aproximării este dată de observaţia că pentru valori mici ale lui M , suma din
membrul stâng al lui (7.55) este, de asemenea mică. Mai mult, pentru o valoare mică a lui
M , se poate face aproximarea 2 2, 1 ,i i M iar numitoarele termenilor din
sumele aflate în membrul drept al ecuaţiei (7.54) dispar. Se obţine astfel
tr
2 tr
R
RM (7.56)
În plus, se observă că pentru valori mici ale lui M , de exemplu 0,1M , valoarea expre-
siei tr R este, de asemenea, mică, şi astfel ea poate fi ignorată la numitorul relaţiei
(7.56) pentru a da aproximarea:
tr2
RM (7.57)
Ultima ecuaţie este extrem de convenabilă în practică, întrucât tr R este egală cu
suma puterii eşantioanelor de semnal de la intrarea filtrului. Aceasta poate fi uşor măsurată
şi folosită la alegerea pasului algoritmului, , astfel încât să se realizeze un anumit nivel al
dezadaptării. Mai mult, atunci când procesul de la intrarea filtrului nu este staţionar,
192 ALGORITMUL GRADIENTULUI STOCHASTIC (LMS) - 7
estimarea pentru tr R poate fi actualizată recursiv iar pasul algoritmului , ales astfel
încât să menţină un anumit nivel de dezadaptare.
7.2.6 Stabilitatea algoritmului LMS
În Capitolul 6 am arătat că pentru metoda SD, limitele între care poate lua valori pasul algo-
ritmului este dependentă de proprietăţile statistice ale procesului aleator de la intrare.
Condiţia a fost reluată în acest Capitol la studiul convergenţei în medie a coeficienţilor filtru-
lui LMS prin relaţia (7.17). Ne aşteptăm, totuşi, ca examinarea erorii pătratice medii a filtru-
lui să stabilească limite mai restrictive în ceea ce priveşte valoarea lui . Pentru a determina
limita superioară a lui , care garantează stabilitatea algoritmului LMS, vom examina în
detaliu relaţia de calcul al dezadaptării (7.54).
Definim:
1 2
Mi
i i
(7.58)
şi notăm că
1
M (7.59)
De observat că noua variabilă este o funcţie strict crescătoare de , întrucât:
21 2
Mi
i i
(7.60)
Similar, se poate arăta că M este o funcţie crescătoare de . În consecinţă, dezadaptarea
M definită prin (7.54) este, de asemenea, o funcţie crescătoare de . Astfel, pornind de la
0, limita inferioară a parametrului , şi crescând pe , găsim că atât cât şi M pornesc
de la zero şi cresc odată cu . Se remarcă că, pe măsură ce se apropie de unu, M tinde
la infinit. Această condiţie coincide evident cu limita superioară a lui , valoare sub care
trebuie să se situeze pasul algoritmului, dacă se doreşte asigurarea stabilităţii acestuia.
Astfel, valoarea maximă a lui se obţine în urma stabilirii primei rădăcini pozitive a
ecuaţiei:
1
12
Mi
i i
(7.61)
Rezolvarea exactă a ecuaţiei(7.61) se dovedeşte a fi în general, o problemă matematică
dificilă. În plus, din punct de vedere practic, o asemenea soluţie nu e rentabilă, având în
vedere că aceasta depinde, într-un manieră complicată, de statistica semnalului de intrare.
Vom calcula în continuare marginea superioară a valorilor lui , care depinde numai de
1
trM
ii
R , o mărime uşor de măsurat în practică. Vom utiliza pentru început observa-
ţia din Farhang-Boroujeny (1998) că, orice valoare a lui care satisface ecuaţia
7.2 Analiza performanţelor algoritmului LMS 193
1
1
1
2
M
i
i
M
i
i
(7.62)
satisface şi inegalitatea
1
12
Mi
i i
(7.63)
În plus, orice valoare a lui situată între zero şi soluţia ecuaţiei (7.62) satisface condiţia
(7.63). Consecinţa este că (7.62) stabileşte o limită superioară pentru suficientă pentru
stabilitatea algoritmului LMS, dar care, în general, nu este necesară. Notând prin max solu-
ţia lui (7.62), se obţine:
max
1
1 1
trM
i
i
R
(7.64)
În concluzie, algoritmul LMS rămâne stabil, dacă
10
tr
R (7.65)
o condiţie mult mai restrictivă decât cea bazată pe convergenţa în medie a coeficienţilor
filtrului LMS către valorile lor optimale, ecuaţia (7.17). Să mai remarcăm că (7.65)
constituie o condiţie suficientă dar nu necesară pentru stabilitate. Avantajul acestei soluţii
este acela că ea poate fi măsurată uşor din eşantioanele de semnal de la intrarea filtrului.
7.2.7 Reguli practice de implementare a algoritmului
LMS
Condiţia de convergenţă a algoritmului LMS exprimată prin relaţia (7.65) poate fi reformu-
lată pornind de la proprietăţile remarcabile pe care le are o matrice de corelaţie. Aceasta este
o matrice Toeplitz, pozitiv definită, având toate elementele de pe diagonala principală egale
cu 0r . Întrucât 0r este el însuşi egal cu valoarea medie pătratică a semnalului de intrare
pe fiecare dintre cele M celule multiplicative ale filtrului transversal, se scrie
1
2
1 0
0M M
i
i k
tr Mr E u n k
R (7.66)
Astfel, utilizând noţiunea de putere a vectorului de intrare pentru a face referire la suma
valorilor pătratice medii ale semnalelor , 1 , , 1u n u n u n M , condiţia din ecua-
ţia (7.65) pentru convergenţa algoritmului LMS în medie pătratică poate fi reformulată astfel
1
0Puterea vectorului de intrare
(7.67)
194 ALGORITMUL GRADIENTULUI STOCHASTIC (LMS) - 7
O altă expresie care primeşte o reformulare mai practică este (7.57), referitoare la
dezadaptarea M :
1
Puterea vectorului de intrare2 2
M
i
i
M (7.68)
Prin urmare, dacă se impune, pentru stabilitate, condiţia practică (7.67), se asigură automat
nu numai convergenţa algoritmului ci şi realizarea unei dezadaptări M mai mici decât ½.
Se poate defini pentru matricea de corelaţie R o valoare proprie medie prin
1
1 M
i
iM
(7.69)
De asemenea, se poate presupune că curba de învăţare mediată pe ansamblu a algoritmului
LMS este aproximată printr-o singură exponenţială cu constanta de timp EPM . În
continuare, putem utiliza ecuaţia (6.59), dezvoltată pentru metoda gradientului, pentru a
defini constanta de timp medie EPM a algoritmului LMS:
1
2EPM
(7.70)
Prin urmare, substituind ecuaţiile (7.69) şi (7.70) în (7.68), poate fi redefinită aproxi-
mativ dezadaptarea astfel (Widrow şi Stearns 1985):
2 4 epm
M M
M (7.71)
Pe baza formulei de mai sus, se pot face următoarele observaţii:
1. Dezadaptarea M creşte linear cu lungimea filtrului M pentru o constantă de
timp fixată, EPM .
2. Timpul necesar amortizării regimului tranzitoriu (settling time) al algoritmului
LMS este proporţional cu constanta de timp medie EPM . Consecinţa este că
dezadaptarea M este invers proporţională cu settling time.
3. Dezadaptarea M este direct proporţională cu pasul algoritmului , în timp ce
constanta de timp medie EPM este invers proporţională cu . Există aici o
contradicţie în sensul că dacă este mic pentru a reduce dezadaptarea atunci
timpul de amortizare a algoritmului LMS va creşte. Prin urmare, trebuie acor-
dată o atenţie deosebită alegerii parametrului .
7.3 Simulări pe calculator
Simulările pe computer joacă un rol major în studiul filtrelor adaptive. În analiza prezentată
în paragraful anterior, în scopul simplificării tratamentului matematic al problemei, au fost
făcute o serie de ipoteze şi presupuneri. Valabilitatea acestor supoziţii şi concordanţa dintre
7.3 Simulări pe calculator 195
rezultatele matematice şi performanţele reale ale filtrelor adaptive sunt verificate de obicei
prin simulări pe calculator.
Vom prezenta în continuare câteva exemple de simulări pe calculator. Este vorba de trei
aplicaţii diferite ale filtrării adaptive:
Predicţia lineară
Identificarea de sistem
Egalizare de canal.
În primul caz, vom relua din Capitolul 6 problema de predicţie lineară şi vom compara pe
exemplul ales performanţele algoritmului LMS cu cele ale metodei SD. A doua aplicaţie
este o problemă de modelare de sistem în condiţiile în care ieşirea sistemului este înecată în
zgomot iar semnalul de intrare este un zgomot „colorat”. Ultimul exemplu studiază apli-
carea egalizării adaptive LMS la minimizarea interferenţei intersimbol de pe un canal de
comunicaţii dispersiv.
Obiectivele urmărite prin aceste exemplificări sunt
Să-i ajute pe cititori să se familiarizeze cu simulările pe calculator.
Să verifice acurateţea rezultatelor teoretice obţinute.
Să îmbunătăţească înţelegerea rezultatelor teoretice prin examinarea şi interpre-
tarea atentă a rezultatelor simulărilor.
Toate rezultatele prezentate în continuare au fost obţinute prin utilizarea mediului de progra-
me pentru calcule ştiinţifice şi tehnice MATLAB. Pe lângă funcţii şi operatori matematici de
uz general, MATLAB include şi instrumente specifice „Toolboxes” dedicate în mod explicit
realizării şi analizei performanţelor filtrelor adaptive (Douglas şi Losada 2002).
7.3.1 Predicţia lineară
În Exemplul 6.1, s-a utilizat metoda SD pentru a face predicţie lineară asupra modelului AR
de ordinul doi dat prin ecuaţia (6.60). S-au analizat de asemenea, performanţele metodei SD.
În Exemplul 7.2, vom executa aceleaşi operaţii prin algoritmul LMS şi vom studia efectele
pe care le are împrăştierea valorilor proprii ale matricii de corelaţie asupra convergenţei
algoritmului LMS.
Exemplul 7.2: Vom relua, pentru început relaţia (6.60) a procesului AR care
generează semnalul u n :
1 21 2u n a u n a u n v n
unde v n este zgomot alb de medie nulă şi varianţă 2
v , iar coeficienţii sunt aleşi
din Tabelul 6.1 pentru două valori distincte ale gradului de împrăştiere a valorilor
proprii, R . În scopul efectuării analizei statistice, pentru fiecare set de para-
metri din tabel s-au generat 1000 de realizări aleatoare ale procesului v n .
196 ALGORITMUL GRADIENTULUI STOCHASTIC (LMS) - 7
Coeficienţii 1 2ˆ ˆ ˆ
T
n w n w n w ai predictorului adaptiv LMS de ordinul
doi se calculează cu ecuaţiile recursive (vezi Tabelul 7.1):
1 2
1 1
2 2
ˆ ˆ1 1 1 1 1 2
ˆ ˆ 1 1 1
ˆ ˆ 1 1 2
e n u n w n u n w n u n
w n w n e n u n
w n w n e n u n
unde este parametrul de pas al algoritmului. Predictorul adaptiv s-a iniţializat
prin 0 1ˆ ˆ1 2 0 şi 1 1 0u u w w . Implementarea predictorului LMS
s-a făcut cu pasul 0,08 , iar evoluţia coeficienţilor şi a EPM a fost înregistrată
pentru fiecare realizare a procesului. Pentru a studia statistic comportarea algo-
ritmului LMS, aceste mărimi s-au mediat pe ansamblul realizărilor. Calculele s-au
reluat pentru 0,02 .
Figura 7.4 prezintă câteva grafice obţinute pentru 1,22 R . Graficul (a)
prezintă traiectoria mediată pe ansamblu 300
0ˆ
nn
w suprapusă peste contururile
Figura 7.4 Graficele performanţelor algoritmului LMS în problema de predicţie lineară
pentru valori ale parametrilor 1,22 R şi 0,08 .
7.3 Simulări pe calculator 197
suprafeţelor de EPM constantă. Pentru a evidenţia caracterul aleator al unei
singure realizări este reprezentată, de asemenea, o astfel de traiectorie. Graficul
(b) prezintă curbele de învăţare mediate ale lui ˆ nw împreună cu rezultatul obţi-
nut pentru o singură realizare. Graficul (c) prezintă curbele de învăţare ale EPM
iar, în final, graficul (d) descrie efectul pe care îl are mărimea pasului asupra
curbei de învăţare a EPM. Grafice similare prezintă Figura 7.5 pentru 10 R .
Câteva observaţii se pot face pornind de la graficele obţinute prin simulările descrise
mai sus:
Traiectoriile şi curbele de învăţare ale unei simple realizări sunt, evident, aleatoare
sau „zgomotoase”, în timp ce operaţia de mediere pe ansamblu are, clar, un efect de
„netezire”.
Mărimile mediate (coeficienţii şi EPM) converg către valorile optimale iar rata de
convergenţă este în concordanţă cu calculele teoretice.
Rata de convergenţă a algoritmului LMS depinde de pasul algoritmului . Cu cât
este mai mic acest pas, cu atât mai lentă este viteza de convergenţă.
Figura 7.5 Graficele performanţelor algoritmului LMS în problema de predicţie lineară
pentru valori ale parametrilor 10 R şi 0,08 .
198 ALGORITMUL GRADIENTULUI STOCHASTIC (LMS) - 7
Rata de convergenţă depinde de asemenea de gradul de împrăştiere a valorilor
proprii R . Cu cât mai mare este această împrăştiere, cu atât mai lentă este
această rată. Pentru 1,22 R , algoritmul converge în aproximativ 150 de paşi
în timp ce, pentru 10 R , el are nevoie de aproximativ 500 de paşi.
7.3.2 Modelarea de sistem
Vom examina în continuare problema de identificare a unui sistem descrisă în Figura 7.6.
Semnalul de intrare u n pentru sistemul de identificat şi filtrul adaptiv este obţinut prin
trecerea unei secvenţe de zgomot alb gaussian de varianţă unitară, v n , prin filtrul cu
răspunsul la impuls h n . Sistemul necunoscut, ow n , este presupus a fi de tipul FIR ,
adică răspunsul lui la impuls este de durată finită, M eşantioane. Ieşirea sistemului este
contaminată cu o secvenţă de zgomot alb gaussian, oe n , de varianţă 2
o . Un filtru adap-
tiv cu M coeficienţi, ˆ , 0,1, , 1w n n M este utilizat pentru estimarea parametrilor
sistemului de identificat.
Exemplul 7.3: Se consideră aplicaţia de modelare din Figura 7.6, în care siste-
mul de identificat are funcţia de transfer
14
0 8
ii i
o o
i i
W z Z w n z z
Prin urmare, ordinul filtrului adaptiv utilizat la identificare este 15M . Pe de
altă parte, varianţa zgomotului alb oe n este 2 310o .
În ceea ce priveşte filtrul FIR h n , ce „colorează” semnalul de intrare în
sistem, în scopul examinării efectului gradului de împrăştiere a valorilor proprii
ale lui R asupra performanţelor filtrării adaptive se utilizează pentru funcţia de
transfer H z două expresii distincte:
Figura 7.6 Modelarea adaptivă a unui sistem necunoscut FIR
7.3 Simulări pe calculator 199
1 2
1 1
1 2
2 2
0,35 0,35
0,35 0,35
H z Z h n z zH z Z h n
H z Z h n z z
Alegerea primei expresii conduce la o valoare a împrăştierii 1,45 R , apro-
piată de cea a zgomotului alb. În schimb, utilizarea celei de a doua variante dă un
semnal de intrare mult mai „colorat”, întrucât 28,7 R . Conform proprietăţii
a 7-a a valorilor şi vectorilor proprii ale lui R (vezi Capitolul 3), valoarea
gradului de împrăştiere R poate fi aproximată din graficul densităţii spectrale
de putere (DSP) a procesului considerat. Figura 7.7 reprezintă DSP pentru cele
două funcţii de transfer considerate. Pentru a reprezenta graficele din Figura 7.7,
s-a avut în vedere că spectrul procesului u n se obţine prin aplicarea relaţiei
(3.58) la cazul examinat:
2
u vS H S
cu 1vS , pentru că v n este zgomot alb de varianţă unitară. În concluzie,
Figura 7.7 evidenţiază că procesul generat de 2H z este puternic „colorat” în
timp ce spectrul generat de 1H z este relativ plat.
Figura 7.8 reprezintă curbele de învăţăre ale algoritmului LMS pentru cele
două variante de filtru H z utilizate. Parametrul de pas al algoritmului se
alege în conformitate cu relaţia (7.68) dintre dezadaptarea M şi puterea proce-
sului u n , astfel încât valoarea dezadaptării să fie de 10%, 20% respectiv 30%.
Valorile iniţiale ale coeficienţilor filtrului adaptiv sunt nule, ˆ 0 0,iw
Figura 7.7 Densităţi spectrale de putere ale proceselor
de intrare u n obţinute prin filtrare cu:
(a) 1h n h n , (b) 2h n h n .
200 ALGORITMUL GRADIENTULUI STOCHASTIC (LMS) - 7
0,1, , 1i M . Fiecare curbă reprezentată în Figura 7.8 este obţinută printr-o
mediere statistică pe 100 de rulări independente ale experimentului. Se observă că
eroarea minimă este minJ 2 2
o oE e n , valoare atinsă atunci când coefi-
cienţii filtrului LMS coincid cu cei ai modelului.
Figura 7.8(a) evidenţiază încă o dată faptul că în situaţia în care dezadaptarea este redu-
să şi pentru un acelaşi pas al algoritmului LMS, convergenţa algoritmului se face mai
rapid în cazul unei împrăştieri mai mici a valorilor proprii R . Din Figura 7.8(b) rezultă
că, pentru un grad de împrăştiere R dat, odată cu creşterea pasului şi, implicit a
dezadaptării M , rata de convergenţă a algoritmului creşte, dar, lucru evident pentru
30%M , sporeşte şi instabilitatea algoritmului.
Sunt câteva concluzii care pot fi desprinse din Exemplul 7.3:
Pentru un nivel al dezadaptării 10%M (şi mai mic), relaţia (7.68) descrie foarte
bine ceea ce se întâmplă în realitate, după cum rezultă din simulări. Pentru nivele de
dezadaptare 10% 30% M , relaţia mai precisă, (7.54), realizează o bună
concordanţă cu rezultatele simulărilor (Farhang-Boroujeny 1998).
După cum se remarcă şi din Figura 7.8(a), pentru dezadaptări 30%M ,
rezultatele simulărilor nu mai pot fi descrise satisfăcător de modele teoretice
adecvate. Mai mult, figura evidenţiază, pentru 30%M , un anumit grad de
instabilitate, care se accentuează dacă dezadaptarea creşte. Explicaţia dezacordului,
în acest ultim caz, dintre teorie şi experiment poate fi atribuit faptului că ipoteza de
independenţă, care s-a făcut la dezvoltarea rezultatelor teoretice, este serios violată
pentru valori mari ale lui .
7.3.3 Egalizarea adaptivă
Performanţele sistemelor de transmisie a datelor pe canale care pot fi aproximate prin
sisteme lineare sunt limitate de factori ca banda finită de frecvenţă, interferenţa intersimbol
(ISI) şi zgomotul termic. Exemplele tipice de asemenea canale includ liniile telefonice,
Figura 7.8 Curbele de învăţare ale algoritmului LMS pentru problema de identificare de
sistem din Figura 7.6, pentru cele două variante de procese de intrare discutate.
7.3 Simulări pe calculator 201
transmisiunile de microunde cu propagare directă, canalele de satelit şi canalele acustice
subacvatice. Pentru viteze de transmisie a datelor mai mici de 2400 biţi/s, ISI este relativ
redus şi nu pune probleme în funcţionarea unui modem. Totuşi, dacă vitezele de
comunicaţie depăşesc 2400 biţi/s, modemul are nevoie de un egalizor pentru a compensa
distorsiunea de canal. Deoarece caracteristicile canalelor sunt, în general, necunoscute şi
variabile în timp, se foloseşte un algoritm adaptiv, ceea ce conduce la egalizare adaptivă.
Figura 7.9 descrie aplicarea filtrării adaptive la egalizarea de canal. Iniţial, se transmite o
secvenţă cunoscută şi de durată scurtă pentru a ajusta coeficienţii egalizorului prin
intermediul algoritmului LMS. După această scurtă perioadă de învăţare, se transmite
efectiv secvenţa de date u n . Variaţiile lente ale caracteristicilor canalului sunt în
continuare urmărite în mod continuu prin ajustarea coeficienţilor egalizorului ce utilizează
deciziile în locul secvenţei cunoscute de învăţare. Această abordare este eficientă, atâta timp
cât rata de eroare a deciziilor este redusă.
Exemplul 7.4: Figura 7.10 prezintă schema bloc a sistemului utilizat în studiul
experimental al performanţelor algoritmului LMS utilizat în egalizarea adaptivă.
Sursa de date generează secvenţa Bernoulli 0d n de simboluri 1 şi 1 , ce are
media nulă şi varianţa unitară. Canalul, prin care se propagă semnalul sursei, este
modelat de un răspuns la impuls de tip cosinus ridicat:
Figura 7.9 Modelul unui egalizor adaptiv dintr-un sistem de transmisiuni de date.
202 ALGORITMUL GRADIENTULUI STOCHASTIC (LMS) - 7
20,5 1 cos 2 , 1,2,3
0, în rest
n nh n W
(7.72)
unde parametrul W este utilizat pentru a controla mărimea distorsiunii de canal.
Distorsiunea creşte odată cu creşterea lui W . Generatorul de zgomot aleator
furnizează secvenţa de zgomot alb gaussian v n , care modelează zgomotul
canalului. Secvenţa de intrare în egalizor este:
3
0
1k
u n h k d n k v n
(7.73)
Secvenţa 0d n este independentă, iar zgomotul v n este necorelat cu ea, astfel
încât întârzierea maximă pentru care corelaţia este nenulă este 2. Calculul
corelaţiei lui u n :
2 2 2 20 1 2 3
1 1 2 2 3
2 1 3
vr h h h
r h h h h
r h h
permite ca, pentru un egalizor de lungime M , să se formeze matricea R de
dimensiune M M . Întrucât, parametrul W controlează valorile proprii ale lui
R , el dictează implicit şi gradul de împrăştiere a acestora, R .
În cazul simulării, semnalul de învăţare al egalizorului adaptiv este o versiune
a lui 0d n , decalată faţă de aceasta cu o durată egală cu suma întârzierilor intro-
duse de canal şi egalizor, . Răspunsul la impuls al canalului din (7.72) este
simetric în raport cu 2n , şi presupunând că egalizorul este un filtru FIR cu fază
lineară, întârzierea totală este egală cu 1 2 2M . Semnalul de eroare
e n d n y n este utilizat împreună cu y n pentru a implementa algoritmul
Figura 7.10 Schema bloc a sistemului utilizat în studiul performanţelor unui
egalizor adaptiv.
7.3 Simulări pe calculator 203
LMS în egalizorul adaptiv, valorile iniţiale fiind nule: ˆ 0 w 0 . Pentru fiecare
caz studiat, s-au executat 100 de realizări independente ale secvenţelor aleatoare,
11M iar varianţa zgomotului de canal este 2 310v . S-au efectuat rulări
pentru două valori distincte ale parametrului de canal: 2,9 W=3,5W şi respec-
tiv pentru patru valori ale lui : 0,01; 0,02; 0,04 şi 0,08. Rezultatele sunt prezen-
tate în Figura 7.11. Figura 7.12 evidenţiază faptul că răspunsul la impuls al
filtrului adaptiv este simetric în raport cu cel de-al 7-lea coeficient al filtrului,
exact aşa cum s-a prevăzut, în timp ce Figura 7.13 prezintă realizări particulare ce
se obţin cu egalizorul LMS prezentat pentru secvenţa transmisă, recepţionată
respectiv egalizată.
În legătură cu rezultatele obţinute, subliniem următoarele:
Efectul împrăştierii valorilor proprii. Curbele de învăţare ale erorii pătratice
medii pentru 2,9W şi 3,5W din Figura 7.11(a) indică faptul că rata de
convergenţă a EPM descreşte odată cu creşterea lui W (sau, echivalent, cu
creşterea lui R ), ceea ce era de aşteptat. Pe de altă parte, valoarea de regim
permanent a EPM se măreşte, atunci când W creşte.
Efectul pasului μ. Figura 7.11(b) prezintă curbele de învăţare ale EPM obţinute
Figura 7.11 Graficele de analiză a performanţelor algoritmului LMS în problema de egalizare
adaptivă.
Figura 7.12 Valorile mediate pe ansamblu ale coeficienţilor egalizorului
adaptiv.
204 ALGORITMUL GRADIENTULUI STOCHASTIC (LMS) - 7
pentru trei valori diferite ale lui . Acestea evidenţiază că afectează rata de
convergenţă ca şi valoarea de regim permanent a erorii. Pentru 0,08 , algorit-
mul converge în aproximativ 100 de iteraţii, în timp ce atunci când 0,01 sunt
necesari în jur de 500 de paşi ai algoritmului.
7.4 Algoritmi LMS pentru aplicaţii de
control activ
Domeniul aplicaţiilor filtrării adaptive este, de regulă, cel al prelucrării semnalelor în teleco-
municaţii. În acest gen de aplicaţii, ieşirea filtrului este o estimare a semnalului dorit. În apli-
caţiile de control activ (reducerea zgomotului acustic sau a vibraţiilor nedorite), filtrul adap-
tiv controlează un sistem dinamic ce conţine amplificatoare sau elemente de acţionare
(actuatori) (Elliott 2001). După cum evidenţiază Figura 7.14(a), ieşirea sistemului dinamic
(anti-zgomot sau anti-vibraţii) reprezintă semnalul de ieşire al sistemului adaptiv. În conse-
cinţă, în acest gen de aplicaţii, se utilizează variante specializate ale algoritmilor adaptivi.
Este evident că un algoritm adaptiv convenţional ca de pildă algoritmul LMS se dove-
deşte, după toate probabilităţile, instabil în acest gen de aplicaţii datorită întârzierilor ce apar
pe calea directă (Elliott şi Nelson 1993). În aceste situaţii, o posibilă alegere sunt algoritmii
LMS cu filtrarea referinţei (în engleză – filtered-X LMS) şi LMS cu filtrarea erorii (în
engleză – adjoint LMS). Ambii algoritmi provin din algoritmul LMS dar introduc, pentru
calculul vectorului coeficienţilor, modele ale sistemului de comandă între semnal şi algoritm
Figura 7.13 Formele de undă ale unei secvenţe aleatoare transmise,
recepţionate şi egalizate de egalizorul LMS.
7.4 Algoritmi LMS pentru aplicaţii de control activ 205
(Håkansson 2006, Morgan 1980) în cazul primului algoritm menţionat respectiv între
semnalul de eroare şi algoritm (Elliott 2001, Wan 1996) în cazul celui de al doilea.
7.4.1 Algoritmul LMS cu filtrarea referinţei
Pentru a exprima semnalul de ieşire Cy n al sistemului de control activ din Figura 7.14(a)
avem în vedere că filtrul FIR este adaptiv cu M coeficienţi variabili, vectorul coeficienţilor
fiind 0 1 1ˆ ˆ ˆ ˆ
T
Mn w n w n w n w . De asemenea, vom presupune că sistemul
de control c poate fi descris printr-o funcţie de transfer de tip FIR de ordinul I:
0 1 1Ic c c c (7.74)
În aceste condiţii, calculăm semnalul de ieşire Cy n al schemei din Figura 7.14(a)
1
0
1 1 1
0 0 0
ˆ ˆ
IT
C j
j
I I MT
j j i
j j i
y n n c y n j
c n j n j c w n j u n j i
c y
w u
(7.75)
Ideea care stă la baza aplicării algoritmilor adaptivi în sistemele de control activ este că
variaţia în timp a coeficienţilor filtrului adaptiv ˆiw este mult mai lentă decât dinamica siste-
mului de control, astfel încât într-o primă aproximaţie, filtrul adaptiv poate fi considerat ca
fiind invariabil în timp. În aceste condiţii, se poate face aproximaţia: ˆ ˆ ,i iw n j w n
0,1, , 1, 0,1, 1i M j I şi:
1 1 1 1
0 0 0 0
ˆ ˆI M M I
j i i j
j i i j
c w n j u n j i w n c u n i j
(7.76)
Expresia din membrul drept al ecuaţiei (7.76) indică posibilitatea echivalării configuraţiei
Figura 7.14 (a) Versiunea simplificată a schemei bloc a unui sistem adaptiv
de control activ. (b) Versiunea rearanjată a schemei din (a) în
cazul unor sisteme liniare şi invariante în timp.
206 ALGORITMUL GRADIENTULUI STOCHASTIC (LMS) - 7
din Figura 7.14(a) cu cea din Figura 7.14(b), ceea ce este justificat pentru un sistem linear
invariant în timp. Drept urmare, pentru a aplica sistemului de control activ din Figura
7.14(a) algoritmul LMS, ne vom referi la schema echivalentă din Figura 7.14(b), ecuaţia
LMS de recursie a vectorului coeficienţilor (7.9) luând acum forma:
ˆ ˆ1n n n e n w w r (7.77)
unde nr este răspunsul sistemului de control c la secvenţa de intrare nu :
1
0
1 ,
cu:
T
I
j
j
n r n r n k r n M
r n k c u n k j
r
(7.78)
iar expresia semnalului de eroare e n este
T
Ce n d n y n d n n n w r (7.79)
Relaţia (7.77) reprezintă ecuaţia de recursie a algoritmului LMS cu filtrarea referinţei,
numit în limba engleză filtered-X LMS din motiv că se obişnuieşte ca semnalul de referinţă
u n să fie notat în literatura de specialitate cu x n .
În practică, semnalul de referinţă filtrat va fi generat utilizând o versiune estimată a
răspunsului real al actuatorului făcută de un model al sistemului de control. Acesta poate fi
implementat ca un filtru separat cu funcţia de transfer C z , care este utilizat pentru a gene-
ra semnalul de referinţă filtrat, r n , după cum este ilustrat de Figura 7.15. Versiunea
practică a algoritmului LMS cu filtrarea referinţei poate fi atunci scrisă sub forma:
ˆˆ ˆ1n n n e n w w r (7.80)
O interpretare fizică a acestui algoritm poate fi obţinută comparând relaţia (7.80) cu ecuaţia
corespunzătoare a algoritmului LMS standard, (7.9). În cazul algoritmului LMS, semnalul
de eroare este multiplicat direct cu semnalul de referinţă pentru a furniza estimarea funcţiei
de intercorelaţie utilizată în adaptarea filtrului. Dacă această abordare ar fi fost adoptată în
cazul sistemului de control activ, semnalul de eroare ar fi fost filtrat de ieşirea actuatorului,
Figura 7.15 Schema bloc a implementării în practică a algoritmului LMS cu filtrarea
referinţei. Se utilizează un model C z al sistemului de comandă real
C z pentru a genera semnalul de referinţă filtrat ˆ nr .
7.4 Algoritmi LMS pentru aplicaţii de control activ 207
ceea ce ar fi distorsionat estimarea intercorelaţiei. Algoritmul LMS cu filtrarea referinţei
prefiltrează u n cu răspunsul estimat al actuatorului astfel încât semnalul de eroare şi
semnalul de referinţă filtrat să fie din nou aliniate în timp, dând astfel o estimare validă a
intercorelaţiei.
În raport cu algoritmul LMS standard, este evident că volumul de calcul pe care îl
implică implementarea algoritmului LMS cu filtrarea referinţei este mai mare, datorită
calculului vectorului ˆ nr la fiecare iteraţie, ceea ce necesită un număr de I multiplicări
suplimentare.
7.4.2 Algoritmul LMS cu filtrarea erorii
Acest algoritm reprezintă o simplă alternativă la algoritmul anterior. În algoritmul LMS cu
filtrarea erorii, după cum îi spune şi numele, se filtrează, printr-un model adjunct al
sistemului de comandă, eroarea e n şi nu semnalul de referinţă u n . Pentru a deduce
algoritmul LMS cu filtrarea erorii, va trebui să revenim asupra schemei de principiu a
sistemului de control activ din Figura 7.15(b) şi să exprimăm explicit gradientul mediei
statistice a pătratului semnalului de eroare:
2
ˆ ˆˆ2 2TE e n E e n d n n E e n n w w w r r (7.81)
Pentru a justifica înlocuirea operaţiei de filtrare a semnalului de referinţă utilizată în
algoritmul precedent cu filtrarea erorii, vom face apel la caracterul ergodic al semnalelor ce
apar în relaţia (7.81) şi vom înlocui în respectiva relaţie medierea statistică prin mediere
temporală:
2
ˆ 2 2E e n E e n n e n n w r r (7.82)
Continuăm calculul, şi facem apel la relaţia (7.78) pentru a examina componenta k a
vectorului gradientului
2
2
1
0
2
2lim
2 1
kw
k
N I
jN
n N j
E e nE e n e n r n k
w
e n c u n k jN
(7.83)
Rescriem ultima ecuaţie într-un format alternativ, prin efectuarea schimbării de variabilă
n n j n n j :
2
1
0
2lim
2 1
I N
jN
j n j Nk
E e nu n k c e n j
w N
(7.84)
Notăm prin f n rezultatul convoluţiei necauzale dintre semnalul de eroare cu răspunsul
inversat în timp al sistemului de comandă:
208 ALGORITMUL GRADIENTULUI STOCHASTIC (LMS) - 7
1
0
I
j
j
f n c e n j
(7.85)
Observăm de asemenea că întrucât j este întotdeauna finit, rezultatul sumării de la –N la N
pe măsură ce N tinde la ∞ din membrul drept al ecuaţiei (7.84) este identic atât pentru
la n cât şi pentru la n j . Rezultatul mediei temporale din (7.84) poate
fi scris în consecinţă astfel:
2
2lim 2
2 1
N
Nn Nk
E e nf n u n k f n u n k
w N
(7.86)
Ultimul rezultat va fi folosit pentru implementarea algoritmului tip LMS pornind de la
ecuaţia (7.5) a metodei gradientului. Astfel, estimata instantanee a componentei k a
gradientului EPM este 2 f n u n k iar o estimare instantanee a gradientului EPM
poate fi exprimată după cum urmează:
2
ˆ 2E e n f n n w u (7.87)
Problema pe care o pune aplicarea relaţiei (7.87) într-un algoritm în timp real este că relaţia
de calcul (7.85) al funcţiei f n nu poate fi implementată într-un sistem în timp real. Ea
poate fi depăşită prin întârzierea atât a lui f n cât şi a lui u n k din ecuaţia (7.86) cu
1I eşantioane. Forma finală a algoritmului LMS cu filtrarea erorii poate fi acum scrisă
prin înlocuirea estimării (7.87) în ecuaţia (7.5) şi întârzierea cu 1I eşantioane ale
rezultatului obţinut (Wan 1996):
ˆ ˆ1 1 1n n f n I n I w w u (7.88)
unde: 1 1 2T
n I u n I u n I u n I M u (7.89)
Semnalul întârziat de eroare filtrat, care ar fi utilizat într-o implementare practică a
algoritmului, are expresia
1 1
1
0 0
ˆ ˆ ˆ1 1I I
j I j
j j
f n I c e n j c e n j
(7.90)
unde ˆjc sunt coeficienţii răspunsului la impuls al unui model FIR al sistemului de control,
care se presupune că are I coeficienţi. Forma finală a ecuaţiei (7.90) se obţine făcând
schimbarea de variabilă 1j I j şi subliniind că semnalul de eroare este acum filtrat
cauzal prin utilizarea unei versiuni inversate în timp a modelului sistemului de control. Dacă
transformata Z a acestui model este:
1
0
ˆ ˆI
j
j
j
C z c z
(7.91)
7.4 Algoritmi LMS pentru aplicaţii de control activ 209
atunci funcţia de transfer a filtrului necesar pentru a genera versiunea întârziată a semnalului
de eroare filtrat ˆ 1f n I din semnalul de eroare e n poate fi scrisă astfel
1
1 1 1
0
ˆ ˆI
I j I
j
j
z C z c z
(7.92)
Rezultatul obţinut este schema bloc a algoritmului LMS cu filtrarea erorii prezentată în
Figura 7.16. Numele de algoritm LMS adjunct utilizat adesea pentru a desemna algoritmul
se datorează faptului că modelul utilizat pentru filtrarea erorii are drept funcţie de transfer
adjuncta funcţiei sistemului de control (Wan 1996).
În cazul sistemelor de control activ mono-canal, algoritmul LMS cu filtrarea erorii nu
oferă nici un avantaj în raport cu algoritmul LMS cu filtrarea referinţei, pentru că şi într-un
caz şi în celălalt este necesar ca la fiecare iteraţie să se calculeze convoluţia cu toţi
coeficienţii modelului utilizat. Totuşi, în cazul sistemelor multi-canal situaţia este diferită,
avantajul fiind de partea algoritmului LMS adjunct (Elliott 2001).
În măsura în care pasul algoritmului LMS cu filtrarea erorii este mic, nu există diferenţe
între performanţele acestui algoritm şi cele ale algoritmului LMS cu filtrarea referinţei.
Diferenţe apar în favoarea algoritmului LMS cu filtrarea referinţei odată cu creşterea facto-
rului , datorită întârzierii suplimentare de 1I eşantioane introdusă de algoritmul LMS
cu filtrarea erorii în scopul asigurării cauzalităţii filtrului adjunct.
Exemplul 7.5: În scopul comparării performanţelor algoritmilor LMS utilizaţi în
aplicaţii de control activ se utilizează în experiment schema de principiu din
Figura 7.14(a). Semnalul de referinţă u n este zgomot alb de medie nulă şi
varianţă unitară. Schema de control activ are scopul să compenseze semnalul
perturbator d n , obţinut prin trecerea lui u n prin filtrul FIR, D cu carac-
teristica de transfer din Figura 7.19 şi însumarea la rezultatul obţinut a unui
zgomot alb de varianţă 2 410v . Sistemul de comandă C z aflat în structura
schemei de control activ, şi modelul acestuia C z utilizat de algoritmii LMS de
control activ (vezi Figura 7.15 şi Figura 7.16) sunt filtre FIR cu 32 de coeficienţi,
proiectate prin metoda ferestrei Hamming.
Figura 7.16 Schema bloc a algoritmului LMS cu filtrarea erorii în care eroarea este
filtrată de un filtru care este o versiune inversată şi întârziată a
modelului sistemului de comandă.
210 ALGORITMUL GRADIENTULUI STOCHASTIC (LMS) - 7
S-a studiat comportarea algoritmilor LMS cu filtrarea referinţei, respectiv
LMS cu filtrarea erorii, utilizând în ambele situaţii un filtru adaptiv FIR cu 32 de
coeficienţi. Pasul algoritmilor este 0,008 . Figura 7.17 evidenţiază echivalenţa
celor doi algoritmi din punctul de vedere al evoluţiei în timp a semnalului de
eroare e n .
O bună caracterizare a acţiunii sistemelor de control activ se poate face în
domeniul frecvenţă. În cazul în care ieşirea acestuia Cy n reuseşte să realizeze o
bună compensare a semnalului perturbator d n , caracteristicile de frecvenţă ale
sistemului de control şi ale canalului perturbator D devin similare. Acest
Figura 7.17 Evoluţia instantanee a erorii e n la ieşirea
schemelor de control activ LMS cu filtrarea
referinţei respectiv cu filtrarea erorii.
Figura 7.18 Curbele de învăţare ale EPM ale algoritmi-
lor LMS cu fitrarea referinţei respectiv LMS
cu filtrarea erorii.
7.5 Algoritmul LMS cu constrângeri liniare 211
lucru îl demonstrează Figura 7.19. Pentru a evidenţia acţiunea algoritmilor LMS
de control activ, în figură este reprezentată şi caracteristica de frecvenţă a
sistemului de control C .
Curbele de învăţare ale EPM reprezentate în Figura 7.18 au fost obţinute prin
mediere pe 100 de realizări independente şi sunt perfect identice, atâta vreme cât
factorul are valori reduse. Diferenţe în favoarea algoritmului LMS cu filtrarea
referinţei apar în experiment atunci când 0,015 .
7.5 Algoritmul LMS cu constrângeri liniare
În aplicaţiile de bandă îngustă ale formatoarelor de fascicoli (beamformer) discutate în
Secţiunea 4.8, obiectivul urmărit a fost acela de a minimiza puterea de ieşire a reţelei de
antene, prin impunerea unui set de constrângeri asupra coeficienţilor filtrului adaptiv. Vom
reaminti în cele ce urmează problema filtrării de varianţă minimă cu constrângeri lineare în
scopul dezvoltării unui algoritm LMS adecvat acesteia.
Beamformer-ul este o reţea adaptivă de antene (vezi Figura 7.20), ale căror semnale
recepţionate sunt combinate linear, ( 1 *
0ˆ
M c
k kky n w n u n
), astfel încât la ieşire să
apară doar semnalele sosite pe o anumită direcţie particulară, în timp ce semnalele sau
perturbaţiile având alte direcţii de propagare sunt atenuate. Din punct de vedere matematic,
condiţia impusă reprezintă o problemă de optimizare cu constrângeri, enunţată în Capitolul
4 prin ecuaţiile (4.79) şi (4.80). Vom relua în continuare aceste condiţii, la un nivel mai înalt
de generalizare şi adaptate scopului propus:
Figura 7.19 Spectrele canalului perturbator D , ale
sistemului de comandă C , şi ale algo-
ritmilor LMS de control activ.
212 ALGORITMUL GRADIENTULUI STOCHASTIC (LMS) - 7
Fiind dat vectorul de observaţie 0 1 1
T
Mn u n u n u n u , să se
determine coeficienţii optimi 0 1 1ˆ ˆ ˆ ˆ
Tc c c c
o o o oMn w n w n w n
w care mini-
mizează în sensul mediei pătratice puterea de ieşire a combinatorului
ˆ c Hy n n nw u :
2
ˆ ˆ
ˆ
ˆ ˆmin min
ˆ ˆmin
c c
c
c H cH
c H c
E y n n E n n n
n n
w w
w
w u u w
w Rw
(7.93)
în condiţiile îndeplinirii setului de constrângeri liniare:
ˆ cH n S w g (7.94)
unde R este matricea de corelaţie a semnalului de intrare, S este matricea de
constrângeri iar g un vector fixat.
Problema poate fi rezolvată prin metoda multiplicatorilor lui Lagrange. Definim, în
acest scop, funcţia de cost cJ n , dată de relaţia (ca peste tot în acest paragraf indicele (c)
desemnează constrângere):
2ˆ
ˆ ˆ ˆ
c cH
c H c cH
J n E y n n n
n n n
λ S w g
w n Rw λ S w g
(7.95)
unde nλ este vectorul coeficienţilor Lagrange.
Acţiunea algoritmului LMS cu constrângeri (Diniz 2008, Frost_III 1972) constă în
căutarea unui vector al coeficienţilor ˆ 1c
n w care să satisfacă atât setul de constrângeri
Figura 7.20 Descrierea acţiunii unui formator de fascicul
(beamformer).
7.5 Algoritmul LMS cu constrângeri liniare 213
cât şi să reprezinte o mică actualizare în raport cu ˆ cnw pe direcţia opusă gradientului
funcţiei de cost (vezi ecuaţia (7.5)):
ˆ
1ˆ ˆ1
2
1 ˆˆ ˆ22
ç
c c c
c
n n J n
n n n n
ww w
w R w Sλ
(7.96)
unde ˆ nR este estimarea matricii de corelaţie a semnalului de intrare la momentul n. De
remarcat că gradientul funcţiei de cost în raport cu ˆ cnw este:
ˆ
ˆ2ç
cJ n n n
wRw Sλ
În cazul particular al algoritmului LMS cu constrângeri, matricea ˆ nR se alege ca în
(7.2) drept estimarea instantanee Hn nu u , ceea ce face ca relaţia (7.96) să devină
1
ˆ ˆ ˆ12
c c Hn n n n n n w w u u w Sλ (7.97)
Aplicăm în expresia de mai sus constrângerea liniară (7.94) sub forma ˆ 1cH n S w g , şi
rezultă
*
1ˆ ˆ ˆ1
2
1ˆ
2
c cH H H H H
cH H H
n n n n n n
n y n n n
S w g S w S u u w S Sλ
S w S u S Sλ
(7.98)
Rezolvăm ecuaţia de mai sus pentru 1 2 nλ şi obţinem:
1 1
*ˆ1 2cH H Hn n y n n
λ S S S w u S S g (7.99)
Acum, pentru a ajunge la forma finală a ecuaţiei de recursie, rămâne să înlocuim (7.99) în
ecuaţia (7.97), ceea ce conduce la
*ˆ ˆ1c c
Sn n y n n w P w u g (7.100)
unde 1
H
S
g S S S iar 1
H H
P I S S S S .
Putem face observaţia că actualizarea vectorului coeficienţilor din ecuaţia (7.100) constă
în efectuarea proiecţiei pe hiperplanul definit prin ˆH S w 0 a unei soluţii LMS neconstrânse
la care se adaugă un vector Sg ce readuce soluţia proiectată în hiperplanul cu constrângeri.
Dacă în configuraţia beamformer-ului din Figura 7.20 este inclusă şi o intrare de
referinţă ca în Figura 1.23 ce furnizează semnalul dorit d n , ecuaţia de actualizare (7.100)
capătă expresia
214 ALGORITMUL GRADIENTULUI STOCHASTIC (LMS) - 7
*ˆ ˆ1c c
Sn n e n n w P w u g (7.101)
unde semnalul de eroare e n este ca de obicei, diferenţa d n y n . Tabelul 7.2 rezumă
operaţiile necesare implementării ecuaţiei (7.101).
Şi algoritmul LMS normalizat prezentat în Capitolul 8 poate fi modelat ca o problemă
de optimizare cu constrângerea ˆ 1H n n d n w u . Prin urmare, pentru a avea un
algoritm LMS normalizat cu constrângeri, soluţia va trebui să satisfacă pe lângă condiţia ˆ 1cH n S w g şi egalitatea de normalizare ˆ 1
c Hn n d n w u . O astfel de
abordare a fost urmată, printre alţii, de J.A.Apolinário_Jr, ş.a. (1998).
Exemplul 7.6: O reţea de antene cu 4 elemente (vezi Figura 7.21) cu distanţa
dintre elemente 0,15md recepţionează semnale de la două surse diferite plasate
la 90° respectiv 30° în raport cu axa antenelor. Semnalul util soseşte la antenă sub
un unghi de 90°, având frecvenţa de 20MHz iar semnalul parazit este o sinusoidă
cu frecvenţa 70MHz. Frecvenţa de eşantionare este de 2GHz. Nivelul puterii
semnalelor recepţionate este de 0dB iar cel al zgomotului în antenă este -30dB. Se
va utiliza algoritmul LMS cu constrângeri lineare pentru a adapta beamformer-ul.
Este o problemă de optimizare cu două constrângeri. O primă constrângere
impune ca amplitudinea recepţionată pe frecvenţa 20MHz să fie unitară, cea de a
doua anulează la ieşire amplitudinea corespunzătoare frecvenţei perturbatoare.
Expresia lor matematică este
1. Se alege o valoare convenabilă pentru pasul şi constanta . Se
iniţializează variabila contor 0n , vectorul pondere, vectorul şi
matricea care modelează constrângerile:
1 1
ˆ 0 ,c H H H
S
w g S S S g P I S S S S
2. Se calculează ieşirea curentă a filtrului:
ˆ c Hy n n nw u
3. Se determină eşantionul curent al secvenţei de eroare:
e n d n y n
4. Se calculează soluţia LMS fără constrângeri:
*ˆ ˆ1c
n n e n n w w u
5. Se calculează vectorul coeficienţilor pentru pasul următor, impunând constrângerile:
ˆ ˆ1 1c
Sn n w Pw g
6. Se incrementează variabila contor 1n n şi se execută un salt
la 2.
Tabelul 7.2 Algoritmul LMS cu constrângeri
7.5 Algoritmul LMS cu constrângeri liniare 215
1 2
3 3* *
0 0
ˆ ˆ1 şi 0c cjk jk
k k
k k
w e w e
unde ˆ c
kw sunt coeficienţii beamformer-ului iar , 1,2i i reprezintă frecvenţa
spaţială a reţelei în raport cu cele două unde electrice (vezi relaţia (1.8)):
2
cos , 1,2i i
i
di
În relaţia de mai sus, i şi i sunt parametrii celor două unde incidente.
Expresia matricială a constrângerilor este:
ˆ cH S w g
cu 0 1 2 3
ˆ ˆ ˆ ˆ ˆT
c c c c cw w w w
w vectorul coeficienţilor, 1 0T
g şi
1 1 1
2 2 2
2 3
2 3
1
1
j j j
T
j j j
e e e
e e e
S
Figura 7.22 prezintă rezultatele obţinute în urma implementării algoritmului
descris în Tabelul 7.1, demonstrând că, practic, după convergenţă, în semnalul de
ieşire se regăseşte doar sinusoida de interes. Graficul puterii de ieşire a reţelei în
funcţie de unghiul de incidenţă este prezentat în Figura 7.23. Din această figură, se
observă atenuarea mare pe care beamformer-ul o impune asupra semnalelor ce
sosesc pe direcţia de 30°.
Figura 7.21 Sistem de antene cu 4 elemente.
216 ALGORITMUL GRADIENTULUI STOCHASTIC (LMS) - 7
7.6 Efectele cuantizării asupra implemen-
tării digitale a algoritmului LMS
Implementarea digitală a algoritmilor de filtrare adaptivă introduce o limitare a preciziei atât
în privinţa mărimilor de intrare cât şi a rezultatelor algoritmilor. Semnalele de intrare în
filtrul adaptiv sunt cuantizate la o precizie numerică limitată în convertoarele analog-
numerice (CAN). Operaţiile aritmetice sunt efectuate cu o precizie de calcul limitată iar
rezultatele acestora sunt rotunjite sau trunchiate cu o precizie limitată specifică (Håkansson
2004, Oppenheim, ş.a. 1998). Figura 7.24 ilustrează pe schema bloc a algoritmului LMS
operaţiile algoritmului care sunt afectate de precizia limitată.
Figura 7.23 Caracteristica de directivitate a beam-
former-ului din Exemplul 7.6.
Figura 7.22 Semnale la intrarea şi ieşirea beamformer-
ului din Exemplul 7.6, obţinute după
convergenţa algoritmului LMS cu
constrângeri.
7.6 Efectele cuantizării asupra implementării digitale a algoritmului LMS 217
Blocurile notate în figură cu Q efectuează operaţia de cuantizare. Cuantizarea, atât în
blocurile CAN cât şi în operaţiile aritmetice ca de exemplu multiplicare în care se fac
rotunjiri sau trunchieri, introduce erori de cuantizare. În cazul cuantizării uniforme din
convertoarele CAN, eroarea de cuantizare introdusă poate fi aproximată printr-un proces de
zgomot alb de medie nulă şi varianţă 2 12 , unde este valoarea pasului de cuantizare
(Mateescu, ş.a. 1997). În plus, de obicei erorile de cuantizare rezultate din rotunjirea
produselor sunt de medie nenulă.
Cu alte cuvinte, produsul e n n u cu care se actualizează coeficienţii în algoritmul
LMS (vezi ecuaţia (7.6)) va fi cuantizat Q e n n u ca în:
Q e n n e n n n u u b (7.102)
unde vectorul erorilor de cuantizare 0 1 1
T
Mn b n b n b n b este posibil să
includă şi componente , 0,1, , 1kb n k M de medie nenulă (Cioffi 1987). Ecuaţia
algoritmului LMS poate fi scrisă, prin urmare, astfel:
1n n e n n n w w u b (7.103)
Media statistică a vectorului coeficienţilor este în acest caz dată de (Cioffi 1987):
1E n E n E n w I R w p b (7.104)
În regim staţionar permanent, când 1n w w , se poate scrie
1 11E
w R p R b (7.105)
unde b este media vectorului erorilor de cuantizare.
Având în vedere că matricea de corelaţie R este hermitică, utilizăm ecuaţia (3.107)
pentru a o descompune după vectori şi valori proprii:
Figura 7.24 Schema bloc a algoritmului LMS cu precizie limitată.
218 ALGORITMUL GRADIENTULUI STOCHASTIC (LMS) - 7
H
1
MH
i i i
i
R = QΛQ q q (7.106)
unde i şi
iq sunt valorile şi vectorii proprii ai matricii de corelaţie. Introducând ultima
relaţie în membrul drept al ecuaţiei (7.105), se obţine
1 1
1
1 1 MH
i i i
i
R b q q b (7.107)
Termenii care corespund celor mai mici valori proprii domină această sumă, pentru că
proiecţiile vectorului erorilor de cuantizare pe vectorii proprii care le corespund sunt nenule.
Efectele acestor erori sistematice se cumulează, astfel încât este posibil, chiar şi pentru erori
de cuantizare reduse, ca valoarea coeficienţilor să crească şi să provoace depăşiri înainte ca
limita prescrisă de ecuaţia (7.105) să fie atinsă. Dacă se produce depăşire atunci
performanţele se deteriorează semnificativ. Şi mai serios este faptul că algoritmul LMS nu
va mai converge până ce coeficienţii nu sunt resetaţi, cu alte cuvinte se produce aşa-numita
„agăţare” a adaptării (Cioffi 1987). În plus, valorile mici ale pasului contribuie la
creşterea erorilor de rotunjire cu un termen invers proporţional cu .
Probleme
P 7.1 Algoritmul LMS este utilizat pentru a face predicţia înainte cu un pas a semnalului
cos 3u n n , utilizând un filtru FIR cu trei coeficienţi, primul coeficient
având valoarea fixată la 1, prin minimizarea valorii medii pătratice a lui y n .
Calculaţi o valoare adecvată pentru pasul algoritmului , semnalul de ieşire al
filtrului şi coeficienţii filtrului pentru primele 10 iteraţii. Valoarea iniţială a
coeficienţilor este 0 1 0 0T w .
P 7.2 Semnalul 0,85 1u n u n v n
este aplicat la intrarea unui predictor cu doi coeficienţi, unde v n este zgomot alb
gaussian cu varianţă 2 0,3v . Se recomandă utilizarea MATLAB la rezolvarea
problemei.
(a) Calculaţi soluţia Wiener.
(b) Alegeţi o valoare adecvată pentru şi reprezentaţi curba de învăţare a algo-
ritmului LMS pe suprafaţa de eroare EPM.
(c) Reprezentaţi curbele de învăţare ale EPM şi ale coeficienţilor filtrului, obţinute atât
printr-o rulare unică cât şi prin medierea a 25 de rulări.
P 7.3 Consideraţi procesul AR(1) 1u n au n v n , unde v n este zgomot alb
gaussian de varianţă 2
v . Dorim să proiectăm un predictor linear de ordinul unu
într-un pas, utilizând algoritmul LMS de mai jos:
ALGORITMUL GRADIENTULUI STOCHASTIC (LMS) Probleme 219
ˆ ˆ 1 1
ˆ
ˆ ˆ 1 1
u n a n u n
e n u n u n
a n a n e n u n
unde este pasul algoritmului.
(a) Determinaţi funcţia de autocorelaţie r l , predictorul linear de ordinul unu optim
şi EPM minimă corespunzătoare.
(b) Utilizând ipoteza de independenţă, determinaţi mai întâi iar apoi rezolvaţi ecuaţia
cu diferenţe finite pentru ˆE a n .
(c) Utilizând MATLAB, pentru 20,95; 0,025; 1 şi 0 500va n N ,
determinaţi media pe ansamblu a lui ˆE a n utilizând 200 de rulări
independente şi comparaţi rezultatul cu curba teoretică obţinută la punctul (b).
(d) Utilizând ipoteza de independenţă, determinaţi mai întâi iar apoi rezolvaţi ecuaţia
cu diferenţe finite pentru P n E e n .
(e) Reluaţi punctul (c) pentru P n şi comentaţi rezultatele obţinute.
P 7.4 Utilizaţi algoritmul LMS pentru a identifica un sistem cu funcţia de transfer
12
1
1
1
zH z
z
Semnalul de intrare este zgomot alb uniform distribuit cu varianţă 2 1u iar
zgomotul de măsurare este zgomot alb gaussian necorelat cu intrarea şi de
varianţă 2 310v . Filtrul adaptiv are 12 coeficienţi. Utilizaţi MATLAB pentru
rezolvare.
(a) Calculaţi max , valoarea maximă a pasului algoritmului, care asigură stabilitatea
acestuia.
(b) Rulaţi algoritmul pentru max max max2, 10 şi 50 . Comentaţi comportarea
algoritmului în fiecare dintre aceste cazuri.
(c) Măsuraţi dezadaptarea M în fiecare din cazurile studiate la punctul (b) şi
comparaţi cu rezultatele obţinute prin ecuaţia (7.57).
(d) Reprezentaţi răspunsul în frecvenţă al filtrului FIR în fiecare din cazurile studiate
la punctul (b) şi comparaţi acesta cu caracteristica de frecvenţă a sistemului necu-
noscut.
P 7.5 Secvenţa cos ou n n n reprezintă eşantioanele unui semnal modulat în
fază de bandă îngustă. Faza semnalului n este aleatoare, dar variază lent în
timp, adică 1 2n n n . Scopul problemei este detectarea
220 ALGORITMUL GRADIENTULUI STOCHASTIC (LMS) - 7
frecvenţei purtătoarei o a semnalului u n . Coeficienţii filtrului nw se
ajustează astfel încât să minimizeze semnalul de ieşire y n în sensul mediei
pătratice. Se propune să se utilizeze schema de filtrare adaptivă prezentată în
Figura 7.25. Coeficientul w n este astfel ajustat încât să minimizeze semnalul de
ieşire y n în sensul mediei pătratice.
(a) Arătaţi că valoarea optimă a coeficientului w este
2coso ow
(b) Formulaţi algoritmul LMS pentru problema de faţă. În particular, specificaţi
vectorul coeficienţilor filtrului, nw , vectorul de intrare nx , ieşirea dorită,
d n şi modul în care este definită eroarea de la ieşirea filtrului în acest caz.
P 7.6 Schema bloc din Figura 7.26 reprezintă modelarea adaptivă a unui sistem
necunoscut, în care filtrul adaptiv transversal este controlat de o versiune
modificată a algoritmului LMS. Semnalul de ieşire notat cu d n are expresia:
T
od n n n v n w u
unde ow este vectorul (necunoscut) al parametrilor modelului, nu este vectorul
de intrare (regresor) iar v n este constituit din eşantioane ale unui proces de tip
zgomot alb de medie nulă şi de dispersia 2
v . În particular, vectorul coeficienţilor
filtrului transversal nw este ales astfel încât să minimeze indicele de
performanţă:
2, pentru 1,2,3,KJ E e n K w K
(a) Utilizând vectorul gradient instantaneu, să se arate că nouă ecuaţie de adaptare
pentru estimatul corespunzător vectorilor ponderilor este
2 1ˆ ˆ1 Kn n K n e n w w u
Figura 7.25 Schema de filtrare adaptivă utilizată în
problema P 7.5.
ALGORITMUL GRADIENTULUI STOCHASTIC (LMS) Probleme 221
(b) Se presupune că vectorul erorii coeficienţilor ˆon n c w w este aproape nul
şi că nv este independent de nu . Să se arate că:
2 21 2 1 KE n K K E v n E n c I R c
unde R este matricea de corelaţie a vectorului de intrare nu .
(c) Să se arate că algoritmul LMS modificat descris la punctul (a) converge în valoare
medie dacă parametrul satisface condiţia:
2 1
max
20
2 1K
K K E v n
unde max este cea mai mare valoare proprie a matricii de corelaţie R .
P 7.7 Consideraţi sistemul de anulare a zgomotului prezentat în Figura 7.27. Semnalul
util este sinusoida 0coss n n , unde 0 16 şi faza este o varia-
bilă aleatoare uniform distribuită pe intervalul 0 şi 2 . Semnalele de zgomot sunt
date de 1 10,9 1v n v n w n şi 2 20,75 1v n v n w n , unde
secvenţa w n este zgomot alb gaussian de medie nulă şi varianţă unitară.
Figura 7.26 Schemă de modelare a unui sistem necunos-
cut utilizată în problema P 7.6.
Figura 7.27 Sistemul de anulare a zgomotului utilizat în problema
P 7.7.
222 ALGORITMUL GRADIENTULUI STOCHASTIC (LMS) - 7
(a) Proiectaţi un filtru optimal de lungime M şi alegeţi o valoare rezonabilă pentru
oM , reprezentând grafic dependenţa dintre EPM minimă şi M.
(b) Proiectaţi un filtru LMS cu oM coeficienţi şi alegeţi pasul algoritmului astfel
încât dezadaptarea M să aibă valoarea 10%.
(c) Reprezentaţi semnalele 1 2, ,s n s n v n v n , semnalul de eroare furnizat de
filtrul optimal oe n şi semnalul de eroare LMSe n dat de filtrul LMS. Comentaţi
rezultatele obţinute.
P 7.8 Utilizând MATLAB, reprezentaţi curbele de învăţare LMS ale sistemului din
Figura 7.28, pentru 0,005 şi 0,02 . Generatoarele de date A şi B transmit
simbolurile +1 şi -1 cu probabilitate egală. Filtrul FIR de la ieşirea lui A care
modelează calea de ecou are răspunsul la impuls
5 81 43 2 3 5
, 0 1n n
ow n n M
unde 20M este lungimea totală a căii de ecou. Filtrul de la ieşirea generatoru-
lui B modelează calea de transmisie de la emiţător la receptor, fiind caracterizat de
345 5
ng n
Zgomotul generat de generatorul de zgomot este alb gaussian de medie nulă şi 2 1v şi modelează zgomotul de transmisie. Semnalul r n este astfel scalat încât
2 210lg 30dBd r , iar valoarea iniţială a coeficienţilor filtrului adaptiv este
0 w 0 .
Curbele de învăţare pentru EPM de la ieşirea e n sunt rezultatul medierii pe
ansamblul a 200 de realizări individuale.
Figura 7.28 Schema bloc a sistemului de studiu al performantelor blocului adaptiv de
suprimare a ecoului din problema P 7.8.
8 Algoritmi derivaţi din
algoritmul LMS
xistă un număr de algoritmi de filtrare adaptivă care provin din algoritmul LMS
convenţional prezentat în Capitolul precedent. Obiectivul acestor algoritmi LMS
alternativi este, fie să reducă complexitatea şi volumul de calcul, fie să reducă timpul
de convergenţă. Vom prezenta şi analiza în continuare câţiva algoritmi care provin din algo-
ritmul LMS şi anume: algoritmii LMS cu semn (Ciochină şi Negrescu 1999, Verkhoecx şi
Claasen 1984), algoritmul LMS cu transformare de domeniu, sau LMS în domeniul frecven-
ţă (Farhang-Boroujeny 1998, Narayan, ş.a. 1983), algoritmul LMS normalizat (Alexander
1986, Ciochină şi Negrescu 1999), algoritmi de proiecţie afină (Diniz 2008, Ozeki şi Umeda
1984) şi, în sfârşit, algoritmii LMS pentru structuri de filtrare lattice (Clarkson 1993,
Griffiths 1977).
Algoritmii LMS cu semn au o complexitate de calcul redusă în raport cu algoritmul
standard, întrucât limitează reprezentarea semnalelor ce intervin în algoritmul LMS la
semnul lor.
Algoritmul LMS normalizat utilizează un pas variabil al algoritmului care minimizează
eroarea instantanee. Un asemenea pas reduce timpul de convergenţă a algoritmului dar
măreşte totodată dezadaptarea acestuia.
Algoritmul cu transformare de domeniu aplică o transformare asupra semnalului de
intrare pentru a reduce gradul de împrăştiere a valorilor proprii ale matricii de corelaţie a
semnalului transformat în raport cu împrăştierea valorilor proprii ale matricii de corelaţie a
semnalului de intrare. Aplicarea algoritmului LMS asupra semnalului transformat permite
realizarea unei convergenţe mai rapide.
Algoritmul de proiecţie afină refoloseşte date mai vechi în scopul realizării unei
convergenţe rapide atunci când semnalul de intrare este puternic corelat, deschizând calea
către o famile de algoritmi care armonizează efortul de calcul cu viteza de convergenţă.
Capitolul
8
E
224 ALGORITMI DERIVAŢI DIN ALGORITMUL LMS - 8
8.1 Algoritmi LMS cu semn
În cazul algoritmului LMS determinarea setului de coeficienţi pentru pasul următor necesită
în total 2 1M înmulţiri reale şi 2M adunări pentru fiecare iteraţie. Deşi volumul de calcul
este mic în comparaţie cu alţi algoritmi mai elaboraţi, există situaţii când se doreşte reduce-
rea la maximum a numărului de operaţii matematice sau simplificarea implementării hard-
ware. Un caz tipic este cel al prelucrării digitale a semnalului TV, situaţie în care debitul
mare al datelor pune probleme atunci când se urmăreşte realizarea prelucrării în timp real. În
aceste situaţii se folosesc algoritmi LMS cu semn. Cei mai importanţi membri ai aceste clase
de algoritmi sunt prezentaţi în continuare.
8.1.1 Algoritmul LMS cu semnul erorii
Algoritmul LMS cu semnul erorii foloseşte pentru actualizarea ponderilor semnul secvenţei
de eroare în locul valorilor e n propriu-zise. Expresia algoritmului LMS standard:
*ˆ ˆ1n n n e n w w u (8.1)
este înlocuită acum, în cazul unor semnale de intrare nu reale prin (vezi Tabelul 8.1)
ˆ ˆ1 sgnsen n e n n w w u (8.2)
Din cauza înlocuirii erorii e n prin semnul ei, implementarea acestei ecuaţii de recursie
poate fi mult mai simplă şi eficientă decât utilizarea algoritmului LMS standard, în special în
aplicaţiile de mare viteză unde este necesar ca recursia de adaptare să fie realizată în
hardware. Mai mult, de obicei pasul se al algoritmului este o putere a lui doi, astfel încât
1. Se alege o valoare convenabilă pentru pasul se . Se iniţializează
variabila contor 0n şi vectorul pondere:
ˆ 0 0 0 0T
w
2. Se calculează ieşirea curentă a filtrului:
ˆ Ty n n nw u
3. Se determină eşantionul curent al secvenţei de eroare:
e n d n y n
4. Se calculează semnul erorii:
sgn e n
5. Se calculează vectorul pondere pentru pasul următor:
ˆ ˆ1 sen n n w w u
6. Se incrementează variabila contor 1n n şi se execută un
salt la 2.
Tabelul 8.1 Algoritmul LMS cu semnul erorii
8.1 Algoritmi LMS cu semn 225
pentru a implementa ecuaţia (8.2) nu este necesară vreo operaţie de multiplicare. Operaţii de
deplasare combinate cu adunări sau scăderi sunt suficiente pentru a actualiza coeficienţii
filtrului adaptiv.
O justificare pentru algoritm pleacă de la observaţia că, dacă algoritmul LMS se obţine
pornind de la criteriul minimizării erorii pătratice medii (EPM), pentru derivarea algoritmu-
lui LMS cu semnul erorii se utilizează criteriul minimizării valorii absolute medii a erorii
(Benesty 2004):
T
aJ n E e n E d n n w u (8.3)
Gradientul funcţiei aJ n este
sgnaa
JJ n E n e n
u
w (8.4)
Estimarea valorii instantanee a gradientului se face, prin urmare, cu expresia:
ˆ sgnaJ n n e n u (8.5)
ceea ce se constituie într-o justificare a relaţiei de definire a algoritmului (8.2).
Eroarea semnalului, ˆ Te n d n n n w u , este denumită de asemenea eroare
apriori, pentru că în calculul ei se utilizează valorile coeficienţilor filtrului de dinainte de
actualizare. Eroarea aposteriori n se defineşte prin:
ˆ 1Tn d n n n w u (8.6)
şi se calculează odată ce actualizarea a fost efectuată.
Algoritmul poate fi considerat stabil dacă valoarea absolută a erorii „aposteriori” este
mai mică decât cea a erorii „apriori”, ceea ce este logic întrucât n beneficiază de mai
multe informaţii decât e n . Calculăm n :
1
T
se
n nn e n
e n
u u (8.7)
şi impunem condiţia: n e n (8.8)
Din (8.8) şi (8.7) se deduce condiţia de stabilitate a algoritmului LMS cu semnul erorii:
20 se T
e n
n n
u u (8.9)
Dezavantajul algoritmului este că utilizează un estimat mai zgomotos al semnalului de
eroare, ceea ce are drept consecinţă creşterea fluctuaţiilor ponderilor în jurul valorilor
optime. Pentru ca soluţia de regim permanent să aibă o calitate comparabilă cu cea a algorit-
mului LMS standard, este necesară micşorarea constantei de adaptare, ceea ce face în
226 ALGORITMI DERIVAŢI DIN ALGORITMUL LMS - 8
consecinţă ca timpii necesari atingerii regimului permanent să crească, ducând la scăderea
posibilităţilor de urmărire în cazul unor semnale de intrare nestaţionare.
8.1.2 Algoritmul LMS cu semnul datelor
Algoritmul LMS cu semnul datelor utilizează pentru actualizarea ponderilor în locul
eşantioanelor semnalului de intrare u n l doar semnul acestora sgn u n l ,
adică:
ˆ ˆ1 sgnsdn n e n n w w u (8.10)
unde: sgn sgn sgn 1 sgn 1T
n u n u n u n M u (8.11)
Condiţia de stabilitate a algoritmului, dedusă ca în (8.9), se scrie, în acest caz, astfel:
20
sgnsd T n n
u u
(8.12)
Deşi din punct de vedere a formei sunt similare, algoritmul LMS cu semnul datelor are
performanţe mult mai bune decât algoritmul LMS cu semnul erorii.
8.1.3 Algoritmul LMS semn-semn
Algoritmul LMS semn-semn cum îi spune numele, combină algoritmii cu semnul erorii cu
algoritmul cu semnul datelor. El actualizează vectorul ponderilor fără nici o multiplicare,
conform relaţiei:
ˆ ˆ1 sgn sgnssn n e n n w w u (8.13)
Condiţia de stabilitate este
20
sgnss T
e n
n n
u u (8.14)
În acest caz, estimatul folosit este mai zgomotos faţă de cazurile precedente, performanţele
fiind, în consecinţă, mai slabe. Totuşi, această variantă cunoaşte o largă răspândire, constitu-
ind standardul CCITT pentru transmisiile ADPCM (Adaptive Differential Pulse Code
Modulation) (Treichler, ş.a. 1986).
Vom remarca că, chiar dacă în multe cazuri algoritmii simplificaţi par să conveargă
către soluţia Wiener-Hopf optimă, în general, această afirmaţie nu poate fi susţinută. De
exemplu, algoritmul semn-semn converge către un set de coeficienţi care satisfac ecuaţia
sgn 0E e n n u (8.15)
care, în general, poate să nu fie echivalentă cu principiul ortogonalităţii care conduce la
soluţia Wiener-Hopf:
0E e n n u (8.16)
8.2 Algoritmul LMS normalizat 227
Cu toate acestea, în cele mai multe cazuri, soluţiile obţinute prin (8.15) şi (8.16) sunt, de
obicei, identice.
Exemplul 8.1: În scopul evaluării şi comparării performanţelor algoritmilor cu
semn şi ale algoritmului LMS standard, s-a utilizat problema de identificare de
sistem introdusă în Exemplul 7.3 din Capitolul 7. La intrare s-a aplicat semnalul
furnizat de filtrul 2H z , caracterizat de gradul de împrăştiere 28,7 R .
Valoarea parametrilor de pas pentru diverşii algoritmi s-a stabilit experimental
astfel încât, indiferent de algoritm, în regim staţionar să se atingă aceiaşi valoare
a erorii pătratice medii. Curbele de învăţare ale EPM prezentate în Figura 8.1
sunt rezultatul al 100 de rulări independente.
Principalele concluzii care pot fi trase pe baza graficului din Figura 8.1 evidenţiază în
primul rând faptul că algoritmul LMS cu semnul datelor este numai uşor mai lent decât
versiunea standard a algoritmului. Totuşi, algoritmii cu semnul erorii şi semn-semn sunt
ambele mult mai lente decât algoritmul convenţional. Modul în care se produce convergenţa
în aceste cazuri este particular: iniţial, viteza de convergenţă este extrem de redusă, aceasta
crescând mult, pe măsură ce nivelul EPM se reduce.
8.2 Algoritmul LMS normalizat
8.2.1 Deducerea algoritmului
Algoritmul LMS normalizat (Normalised LMS - NLMS) trebuie văzut drept o implementare
specială a algoritmului LMS care ia în considerare variaţia nivelului semnalului de la intra-
rea filtrului şi determină pe baza acestuia mărimea pasului de convergenţă astfel încât să
se obţină un algoritm mai stabil şi cu o viteză de convergenţă mai mare. Algoritmul NLMS
poate fi dezvoltat pe baza a mai multor puncte de vedere. Vom adopta în continuare, aborda-
Figura 8.1 Curbele de învăţare ale EPM pentru algoritmii:
(a) LMS standard, (b) LMS cu semnul erorii, (c)
LMS cu semnul datelor, (c) LMS semn-semn.
228 ALGORITMI DERIVAŢI DIN ALGORITMUL LMS - 8
rea făcută de Goodwin şi Sin (1984), care au formulat algoritmul NLMS ca o problemă de
optimizare cu constrângeri. Pentru simplificarea aparatului matematic, vom aborda cazul în
care atât semnalul cât şi coeficienţii filtrului au valori reale (Alexander 1986). Soluţia în
cazul general, în care mărimile sunt complexe, este o generalizare a soluţiei particulare la
care vom ajunge.
În cazul algoritmului LMS pentru valori reale, corecţia ˆ ˆ ˆ1 1n n n w w w
cu care se face actualizarea vectorului ponderilor este de forma:
ˆ 1n n e n w u (8.17)
fiind direct proporţională cu mărimea semnalului de intrare. Dacă norma lui nu este
mare, are loc fenomenul de amplificare a zgomotului de estimare a gradientului. Această
dificultate poate fi depăşită de algoritmul LMS normalizat în care pasul de adaptare este
invers proporţional cu norma semnalului de intrare.
Algoritmul LMS normalizat poate fi privit ca o problemă de optimizare cu constrângeri
alcătuită dintr-o condiţie de optimizare cu constrângeri şi o constrângere:
1. Condiţia de optimizare impune ca valorile actualizate ale coeficienţilor, ˆ 1n w ,
să fie determinate astfel încât variaţia vectorul ponderilor:
ˆ ˆ ˆ1 1n n n w w w (8.18)
să fie minimă.
2. Constrângerea impusă este:
ˆ 1T n n d n w u (8.19)
Cu alte cuvinte: valoarea noilor coeficienţi după actualizare, ar fi anulat la
momentul anterior valoarea erorii.
În cazul problemelor de optimizare cu constrângeri, se utilizează metoda multiplicatori-
lor Lagrange (vezi paragraful 7.5 al acestei lucrări). Funcţia de cost cJ n este astfel
definită încât să reflecte cele două condiţii care stabilesc problema de optimizare. Metoda
minimizează în cazul nostru funcţia de cost definită prin relaţia:
2ˆ ˆ ˆ1 1
c TJ n n n n d n w w u (8.20)
unde reprezintă aşa-numitul multiplicator al lui Lagrange. Şi în acest caz, rezolvarea
problemei constă în determinarea soluţiei care anulează gradientul funcţiei de cost. Deci:
c
J n 0 (8.21)
Începem calculul gradientului funcţiei de cost prin dezvoltarea expresiei (8.20):
ˆ ˆ ˆ ˆ ˆ1 1 1
ˆ ˆ ˆ ˆ ˆ ˆ1 1 1 1
ˆ ˆ ˆ 1
c T T T
T T T
T
J n n n n n n n d n
n n n n n n
n n n n d n
w w w w w u
w w w w w w
w w w u
(8.22)
8.2 Algoritmul LMS normalizat 229
Gradientul se calculează în raport cu noile ponderi ˆ 1n w . Avem succesiv:
ˆ ˆ1 1 2 1 ,
ˆ ˆ ˆ ˆ ˆ1 1 2 ,
ˆ 1 .
T
T T
T
n n n
n n n n n
n n n
w w w
w w w w w
w u u
(8.23)
Prin urmare: ˆ ˆ2 1 2c
J n n n n w w u (8.24)
Egalând cu zero expresia (8.24) se obţine relaţia de actualizare a coeficienţilor:
1
ˆ ˆ12
n n n w w u (8.25)
Determinarea valorii multiplicatorului Lagrange se face impunând constrângerea (8.19).
În ecuaţia (8.25) înmulţim la stânga ambii membri cu T nu :
1
ˆ ˆ12
T T Tn n n n n n u w u w u u (8.26)
În continuare, în relaţia (8.26) putem distinge:
2
ˆ 1 şi T Tn n d n n n n u w u u u (8.27)
Prin urmare, multiplicatorul Lagrange are valoarea:
2 2
22ˆT
e nd n n n
n n u w
u u (8.28)
iar relaţia de actualizare a vectorului coeficienţilor se calculează, înlocuind multiplicatorul
Lagrange din (8.28) în relaţia (8.25):
2
1ˆ ˆ1n n n e n
n w w u
u (8.29)
Se obişnuieşte să se introducă pentru algoritmul NLMS un pas variabil :
2ˆ ˆ1n n n e n
n
w w u
u (8.30)
Compararea ultimei expresii cu ecuaţia care defineşte algoritmul LMS, (8.1), duce la consta-
tarea imediată, că algoritmul LMS normalizat poate fi echivalat cu algoritmul gradientului
stochastic, dacă considerăm că în cazul algoritmului NLMS locul pasului fix al algoritmului
LMS standard, , este luat de pasul variabil, n :
2n
n
u (8.31)
230 ALGORITMI DERIVAŢI DIN ALGORITMUL LMS - 8
La o primă vedere, conform ecuaţiei (8.30), fiecare iteraţie a algoritmului NLMS
necesită, pentru calculul lui 2
nu , un număr suplimentar de M multiplicări şi 1M
adunări. Acest efort de calcul poate fi redus, dacă se utilizează M locaţii suplimentare de
memorie şi se face apel la formula de tip fereastră alunecătoare:
1
2 2 2 2 2
0
1M
k
n u n k n u n u n M
u u (8.32)
unde 2
1 0 u . Efortul de calcul al formulei (8.32) s-a redus astfel la o înmulţire şi două
adunări.
În practică, pentru a evita împărţirea cu zero, dacă n u 0 , se adaugă la numitor o
mică cantitate, 0 :
2ˆ ˆ1n n n e n
n
w w u
u (8.33)
Generalizarea ecuaţiei (8.33) pentru semnale complexe este directă:
*
2ˆ ˆ1n n n e n
n
w w u
u (8.34)
În Tabelul 8.2 sunt rezumate operaţiunile necesare implementării algoritmului LMS norma-
lizat.
8.2.2 Stabilitatea algoritmului NLMS
Algoritmul poate fi considerat stabil dacă n e n , unde n este eroarea „aposte-
riori”. Înlocuind ecuaţia algoritmului NLMS (8.30) în expresia erorii „aposteriori” (8.6) se
obţine:
ˆ 1
ˆ 1
T
T
n d n n n
d n n n e n e n
w u
w u (8.35)
Prin urmare:
1 1 1 0 2e n e n (8.36)
În aceste condiţii, constanta poate fi privită atât drept un parametru care controlează
viteza de convergenţă a algoritmului cât şi dezadaptarea acestuia.
Impunând condiţii mai riguroase, Rupp (1993), Slock (1993) au arătat că algoritmul
NLMS converge în medie pătratică dacă
0 1, (8.37)
ceea ce face ca alegerea parametrului de pas să fie mult mai simplă decât stabilirea valorii
lui în cazul algoritmului LMS.
8.2 Algoritmul LMS normalizat 231
Exemplul 8.2: Vom compara, în cele ce urmează, performanţele algoritmilor
LMS şi NLMS, în condiţii de lucru similare. Reluăm, în acest scop, experimentul cu
egalizorul adaptiv, studiat în Exemplul 7.4.
Asigurarea echivalenţei condiţiilor de acţiune a celor doi algoritmi s-a făcut,
prin stabilirea în mod experimental a valorilor pasului celor doi algoritmi, ,
respectiv astfel încât valorile EPM de regim staţionar să fie egale pentru cei
doi algoritmi.
Experimentul este realizat în conformitate cu schema bloc din Figura 7.10,
canalul de comunicaţii este modelat prin relaţia (7.70) cu parametrul de canal
2,9W . Cele două filtre sunt realizate cu 11M coeficienţi. Utilizarea
facilităţilor oferite de pachetul MATLAB ne-a permis să stabilim că, pentru ca
valoarea finală a EPM să fie în ambele situaţii 0,0025J , se alege 0,06
în cazul LMS şi 0,75 în cazul NLMS. Figura 8.2 prezintă rezultatele obţinute.
Experimentul descris evidenţiază, ca o caracteristică generală, că algoritmul LMS
normalizat prezintă o rată de convergenţă potenţial mai rapidă decât algoritmul LMS
standard. Avantajele algoritmului NLMS în raport cu LMS standard devin şi mai evidente,
în condiţiile unor semnale de intrare nestaţionare, situaţie în care, capacitatea NLMS de a
1. Se alege o valoare convenabilă pentru pasul şi constanta . Se
iniţializează variabila contor 0n , vectorul pondere şi vectorul
de semnal :
ˆ 0 1 0 0 0T
w u
2. Se calculează ieşirea curentă a filtrului:
ˆ Hy n n nw u
3. Se determină eşantionul curent al secvenţei de eroare:
e n d n y n
4. Se calculează pătratul eşantionului curent de intrare 2
u n .
5. Se calculează pătratul normei semnalului de intrare:
2 2 2 2
1n n u n u n M u u
6. Se calculează vectorul pondere pentru pasul următor:
*
2ˆ ˆ1n n n e n
n
w w u
u
7. Se incrementează variabila contor 1n n şi se execută un salt
la 2.
Tabelul 8.2 Algoritmul LMS normalizat
232 ALGORITMI DERIVAŢI DIN ALGORITMUL LMS - 8
urmări variaţiile parametrilor statistici ai semnalelor prelucrate este, evident, superioară
performanţelor LMS standard.
8.3 Algoritmul LMS-Newton
Algoritmul utilizează estimări temporale ale matricii de corelaţie R în scopul creşterii
vitezei de convergenţă a algoritmului LMS în situaţiile în care semnalul de intrare este
puternic corelat. Progresele realizate în privinţa vitezei de convergenţă sunt realizate cu
preţul creşterii complexităţii calculelor.
Punctul de pornire a algoritmului LMS-Newton este metoda Newton introdusă în
Capitolul 6. Aceasta minimizează EPM într-un singur pas la momentul 1n , calculând
coeficienţii filtrului prin relaţia (6.66) pe care o reluăm în continuare:
111
2n
n n J n w
w w R (8.38)
În cazul ideal, atunci când matricea R şi vectorul gradient nJ n
wse cunosc cu precizie,
11 on w R p w . Prin urmare, metoda Newton converge către soluţia optimală într-o
singură iteraţie, ceea ce este de aşteptat în cazul unei funcţii obiectiv pătratice.
În practică, sunt disponibile numai nişte estimări ale matricii R şi ale vectorului
nJ n
w. Aceste estimări pot fi introduse în formula de actualizare (8.38), definind astfel
o metodă de tip Newton prin:
11 ˆ ˆˆ ˆ12
N nn n J n
ww w R (8.39)
Figura 8.2 Compararea performanţelor algoritmilor LMS şi
NLMS din punctul de vedere a evoluţiei EPM.
8.3 Algoritmul LMS-Newton 233
S-a introdus factorul de convergenţă (pas) N în scopul protejării algoritmului de divergen-
ţa datorată utilizării unor estimări prea „zgomotoase” a mărimilor R şi n
J nw
.
Dacă în ecuaţia (8.39) se înlocuieşte estimarea vectorului gradient cu relaţia
ˆ 2n
J n e n n w
u (vezi ecuaţia (7.4) din Capitolul 7), rezultă formula ce defineşte
ecuaţia de actualizare a algoritmului LMS-Newton:
1ˆˆ ˆ1 Nn n e n n n w w R u (8.40)
Pentru semnale de intrare staţionare şi reale, o estimare a lui R este
0
1 1ˆ ˆ 11 1 1
nT T
i
nn i i n n n
n n n
R u u R u u (8.41)
Estimarea este „nedeplasată”, întrucât:
0
1ˆ1
nT
i
E n E i in
R u u R (8.42)
Totuşi, estimarea lui R prin relaţia (8.41) nu este practică, pentru că la n mare, orice
schimbare în statistica semnalului de intrare va fi neglijată din cauza memoriei infinite a
algoritmului de estimare.
O altă modalitate de estimare a matricii de corelaţie poate fi generată prin folosirea unei
sumări ponderate, după cum urmează:
1
0
ˆ ˆ1 1
1
T
nn iT T
i
n n n n
n n i i
R u u R
u u u u (8.43)
unde în practică, este un factor mic ales în gama 0 0,1 . Acest domeniu de valori
ale lui permite un bun echilibru între valorile prezente şi trecute de informaţie. Calculând
media statistică în ambii membri ai relaţiei (8.43) şi presupunând că n , rezultă
0
ˆ 1 ,n
n i T
i
E n E i i n
R u u R (8.44)
Drept urmare, estimarea lui R din ecuaţia (8.43) este „nedeplasată”.
Pentru a evita operaţia de inversare a matricii ˆ nR , operaţie necesară conform ecuaţiei
(8.39), se poate utiliza aşa-numita lemă de inversare matricială definită prin relaţia
11 1 1 1 1 1 A BCD A A B DA B C DA (8.45)
unde , , şi A B C D sunt matrici de dimensiuni adecvate iar şi A C sunt matrici nesingulare.
Relaţia de mai sus poate fi demonstrată, arătând că prin premultiplicarea membrului drept al
ecuaţiei cu A BCD rezultă matricea identitate. Alegând ˆ1 1 ,n A R
T n B D u şi C , se poate arăta că
234 ALGORITMI DERIVAŢI DIN ALGORITMUL LMS - 8
1 1
1 1
11
ˆ ˆ1 11ˆ ˆ 1ˆ1 1
T
T
n n n nn n
n n n
R u u RR R
u R u (8.46)
Ecuaţia de calcul al lui 1ˆ nR este mai puţin complexă de actualizat (numărul
multiplicărilor este de ordinul a 2M operaţii) decât inversarea directă la fiecare iteraţie a
matricii ˆ nR (multiplicări de ordinul a 3M operaţii).
Algoritmul LMS-Newton complet este prezentat în Tabelul 8.3. Trebuie remarcat că
sunt posibile şi alte proceduri de iniţializare decât cea utilizată în tabel.
După cum am subliniat în Capitolul 7, direcţia gradientului estimat are tendinţa să se
apropie de direcţia ideală a gradientului. Similar, vectorul care rezultă din produsul lui
1ˆ nR cu gradientul estimat tinde să se apropie de direcţia Newton. În consecinţă, putem
concluziona că algoritmul LMS-Newton converge într-o manieră mult mai directă spre
minimul suprafeţei de eroare decât alţi algoritmi LMS. Se poate arăta, de asemenea că în
cazul algoritmului LMS-Newton, convergenţa acestuia este independentă de împrăştierea
valorilor proprii ale lui R .
Algoritmul LMS-Newton este matematic identic cu algoritmul RLS dacă factorul de
uitare al algoritmului RLS se alege astfel încât 2 1 (Diniz 2008). Întrucât vom
discuta pe larg despre algoritmul RLS ceva mai târziu, vom încheia aici discuţia despre
algoritmul LMS-Newton.
1. Iniţializare:
1ˆ 1 ( este o constantă pozitivă mică)
ˆ 0 1 0 0 0T
R I
w u
2. Se calculează ieşirea curentă a filtrului:
ˆ Ty n n nw u
3. Se determină eşantionul curent al secvenţei de eroare:
e n d n y n
4. Se calculează estimatul inversei matricii de corelaţie:
1 1
1 1
11
ˆ ˆ1 11ˆ ˆ 1ˆ1 1
T
T
n n n nn n
n n n
R u u RR R
u R u
5. Se calculează vectorul pondere pentru pasul următor:
1ˆˆ ˆ1 Nn n e n n n w w R u
6. Se incrementează variabila contor 1n n şi se execută salt la
2.
Tabelul 8.3 Algoritmul LMS-Newton
8.4 Algoritmi LMS cu transformare de domeniu 235
8.4 Algoritmi LMS cu transformare de
domeniu
Convergenţa algoritmilor de tip LMS depinde puternic de nivelul în care semnalul de la
intrarea filtrului este corelat şi, în particular, de gradul de împrăştiere a valorilor proprii ale
matricii de corelaţie R .
Filtrele adaptive cu transformare de domeniu (TDAF – Transform Domain Adaptive
Filter) exploatează proprietăţile de decorelare pe care le au anumite transformări de semnal
bine-cunoscute, precum transformarea Fourier discretă (DFT) sau transformarea cosinus
discretă (DCT). Aplicarea acestor transformări asupra datelor de intrare determină „albirea”
(sau decorelarea) acestora cu câştiguri imediate în ceea ce priveşte convergenţa algoritmului.
Creşterea performanţelor filtrelor TDAF este, de regulă, dependentă de gradul de corelaţie a
semnalului şi, prin urmare, gradul de succes al metodei variază de la semnal la semnal şi de
la transformare la transformare. Efortul de calcul rămâne şi în cazul TDAF de ordinul a
O M operaţii pe eşantion pentru un filtru de lungime M.
8.4.1 Principiul filtrării adaptive TDAF
Scopul algoritmului LMS cu transformare de domeniu este de a mări viteza de convergenţă
în raport cu algoritmul LMS convenţional în cazul secvenţelor de intrare puternic corelate.
Ideea fundamentală este de a modifica semnalul aplicat la intrarea filtrului adaptiv astfel
încât gradul de împrăştiere a valorilor proprii ale matricii corespunzătoare de corelaţie să se
reducă.
În algoritmul LMS cu transformare de domeniu, vectorul semnalului de intrare nu
este transformat, prin aplicarea transformării ortonormate (sau unitare) T , în vectorul „mai
convenabil” nu (vezi Figura 8.3):
n nu Tu (8.47)
unde T reprezintă matricea de dimensiune M M a transformării, aleasă astfel încât
transformarea să fie unitară:
H H
M TT T T I (8.48)
Expresia semnalului de ieşire al filtrului TDAF este
ˆ Hy n n nw u (8.49)
iar funcţia de cost J n se exprimă prin:
2 2 ˆ ˆ ˆ ˆH H H
d T T TJ n E e n
w p p w w R w (8.50)
236 ALGORITMI DERIVAŢI DIN ALGORITMUL LMS - 8
unde 2* 2, iar .H
T T dE n n E n d n E d n R u u p u Egalând gradien-
tul lui J n cu zero se obţine ecuaţia Wiener-Hopf ce dă coeficienţii filtrului TDAF
optimal:
1
o T T
w R p (8.51)
Înlocuim ultima valoare în (8.50) iar rezultatul obţinut este valoarea minimă a erorii pătrati-
ce medii a filtrului cu transformarea unitară T:
2 1
min
H
d T T TJ p R p (8.52)
Vom compara eroarea minimă (8.52) cu valoarea EPM minime obţinute în cazul unui
filtru adaptiv convenţional. În acest scop, calculăm:
H H H H
T E n n E n n R u u T u u T TRT (8.53)
şi * *
T E n d n E n d n p u T u Tp (8.54)
Înlocuind (8.53) şi (8.54) în (8.52), şi ţinând cont de (8.48), se obţine după câteva operaţii
2 1
min
H
dJ p R p (8.55)
Acest rezultat este identic cu cel obţinut în Capitolul 4. El indică faptul că eroarea mini-
mă la filtrarea adaptivă TDAF este identică cu cea obţinută în cazul convenţional. Rezultatul
este absolut normal şi poate fi înţeles intuitiv având în vedere că transformarea
n nu Tu este reversibilă, adică Hn nu T u . În consecinţă, între coeficienţii
filtrului TDAF şi cei ai filtrului convenţional există, de asemenea, aceiaşi relaţie:
Figura 8.3 Filtrul adaptiv cu transformare de domeniu.
8.4 Algoritmi LMS cu transformare de domeniu 237
n nw Tw (8.56)
Înainte de a intra în detaliile filtrării TDAF, vom prezenta în următorul paragraf caracte-
ristici deosebite ale transformărilor ortogonale care le fac foarte promiţătoare din punctul de
vedere a algoritmilor cu transformare de domeniu.
8.4.2 Transformări ortogonale
Există mai multe transformări ortogonale care realizează cu mai mult sau mai puţin succes
filtrarea adaptivă de domeniu. De exemplu, matricea T poate realiza transformarea Fourier
discretă (DFT - vezi paragraful 2.6). În acest caz, elementul klf al matricii DFTT are
expresia
2
1, , 0,1, , 1
klj
Mklf e k l M
M
(8.57)
O altă transformare ortogonală importantă este transformarea cosinus discretă (DCT – vezi
paragraful 2.8). Se utilizează şi alte transformări în filtrarea adaptivă TDAF: transformarea
sinus discretă şi transformarea Hartley discretă (Diniz 2008, Sayed 2008). De remarcat că
nu există o soluţie optimă în ceea ce priveşte alegerea transformării, iar această alegere
depinde de tipul aplicaţiei şi al semnalelor care se prelucrează în aceasta. Sunt şi alte
considerente, ca de exemplu viteza de calcul, care concură la alegerea transformării într-o
aplicaţie dată.
În calitate de exemplu de transformare ortogonală vom examina în continuare transfor-
marea cosinus discretă. DCT a fost definită în Capitolul 2 prin ecuaţiile (2.20)-(2.22), modi-
ficate în aşa fel încât transformarea să fie unitară. Definim acum transformarea DCT a
secvenţei , 1 , , 1u n u n u n M prin
1
0
, 0,1, , 1M
k kl
l
u n c u n l k M
(8.58)
unde coeficienţii utilizaţi de transformarea DCT sunt:
1 , 0
2 12 cos , 1,2, , 1
2
kl
M k
c l kM k M
M
(8.59)
Vom sublinia de asemenea că relaţia (8.58) poate fi scrisă şi sub forma
DCTn nu T u (8.60)
DCTT este matricea transformării DCT. Cu această notaţie, klc din (8.58) este elementul kl
al matricii DCTT , iar vectorul nu de dimensiune 1M este
0 1 1Mn u n u n u n u
În afară de a fi o transformare lineară, operaţia definită prin (8.58) sau (8.60) poate fi
privită şi drept o implementare a unui banc de M filtre cu răspuns finit la impuls (FIR) ale
238 ALGORITMI DERIVAŢI DIN ALGORITMUL LMS - 8
căror coeficienţi sunt chiar , 0,1, 1klc l M . Figura 8.4 prezintă răspunsul la impuls al
filtrelor DCT pentru 8M . Aceste curbe reflectă clar proprietatea de separare în benzi a
filtrelor DCT. Fiecare răspuns are un lob principal care poate fi identificat drept banda de
trecere a filtrului precum şi un număr de lobi secundari situaţi în banda de blocare. Caracte-
ristici similare de frecvenţă prezintă şi celelalte transformări ortogonale utilizate în filtrarea
TDAF, de exemplu DFT.
Proprietăţii de separare în benzi pe care o au transformările ortogonale îi corespunde în
domeniul timp proprietatea de ortogonalizare. Proprietatea de ortogonalizare poate fi expli-
cată intuitiv pornind chiar de la separarea în benzi. Se ştie că două procese ce au benzi
spectrale ce se exclud mutual, sunt necorelate unul cu celălalt (Papoulis 1991). Pe de altă
parte, din proprietatea de separare în benzi, se observă că elementele vectorului transformat
de la ieşire nu reprezintă un set de procese aleatoare cu benzi de frecvenţă separate
aproximativ între ele. Aceasta implică faptul că componentele lui nu sunt (cel puţin)
aproximativ necorelate între ele. Ultima constatare are drept consecinţă faptul că matricea de
corelaţie a procesului transformat H
T E n n R u u este mai apropiată de o matrice
diagonală decât matricea de corelaţie a procesului iniţial R . Vom exemplifica acest raţiona-
ment prin exemplul care urmează.
Exemplul 8.3: Pentru a demonstra proprietăţile de decorelare a transformatelor
DCT şi DFT se consideră procesul aleator nu cu matricea de corelaţie de
ordinul 4M :
1,000 0,900 0,810 0,729
0,900 1,000 0,900 0,810
0,810 0,900 1,000 0,900
0,729 0,810 0,900 1,000
R
Matricile transformărilor utilizate sunt:
0 0.1 0.2 0.3 0.4 0.50
0.5
1
1.5
2
2.5
3
Frecventa normalizata
Am
plitu
din
e
k=0
1 2 3 4 5 6
7
Figura 8.4 Caracteristicile de frecvenţă ale filtrelor DCT
pentru 8M .
8.4 Algoritmi LMS cu transformare de domeniu 239
0,500 0,500 0,500 0,500
0,653 0,271 0,271 0,653
0,500 0,500 0,500 0,500
0,271 0,653 0,653 0,271
0,500 0,500 0,500 0,500
0,500 0,500 0,500 0,500
0,500 0,500 0,500 0,500
0,500 0,500 0,500 0,500
DCT
DFT
j j
j j
T
T
Transformarea de domeniu (8.53) conduce la
3,525 0,000 0,086 0,000
0,000 0,310 0,000 0,003
0,086 0,000 0,105 0,000
0,000 0,003 0,000 0,061
H
C DCT DCT
R T RT
3,525 0,043 0,043 0,000 0,043 0,043
0,043 0,043 0,190 0,043 0,043 0,086
0,000 0,043 0,043 0,096 0,043 0,043
0,043 0,043 0,086 0,043 0,043 0,190
F
j j
j j j
j j
j j j
R
Trebuie remarcat că matricile rezultate în urma transformărilor DCT şi DFT sunt
mai apropiate de matricea diagonală (pentru că elementele care nu sunt pe diago-
nală sunt mai aproape de zero) decât matricea R.
În pofida diagonalizării evidente a matricii transformate TR , datorită faptului că T este
unitară, relaţia dintre R şi TR are forma unei transformări de similaritate, transformare care
păstrează valorile proprii. Aceasta înseamnă că R şi TR au aceleaşi valori proprii iar pentru
Exemplul 8.3: 57,4T R R . În consecinţă, simpla utilizare a unei transformări
ortogonale nu îmbunătăţeşte performanţele algoritmulului LMS. Este nevoie de mai mult
pentru a spori aceste performanţe.
Operaţia prin care metoda transformării de domeniu devine eficace în cazul filtrării
adaptive este normarea la putere unitară a elementelor vectorului transformat nu . În acest
scop, notăm prin D matricea de dimensiune M M :
240 ALGORITMI DERIVAŢI DIN ALGORITMUL LMS - 8
2
0
2
1
2
1
0 0
0 0
0 0 M
E u n
E u n
E u n
D (8.61)
iar operaţia de normare este descrisă prin relaţia
1
2N n n
u D u (8.62)
unde N nu este vectorul normat. Matricea de corelaţie asociată vectorului N nu este
1 1
2 2TN T
R D R D (8.63)
Mai mult, este de observat că diag TD R , (8.64)
unde diag TR este matricea diagonală ce constă din elementele diagonale ale lui TR .
Drept rezultat al acestei normări, toate componentele vectorului N nu au valoarea medie
pătratică egală cu unu şi acelaşi lucru se întâmplă cu elementele de pe diagonala lui TNR .
Trebuie remarcat că relaţia dintre matricile de corelaţie R şi TNR nu mai este una de
similaritate, şi drept urmare, gradul de împrăştiere a valorilor lor proprii este diferit.
Exemplul 8.4: Ne propunem să normalizăm matricile şi C FR R obţinute în
Exemplul 8.3 iar apoi să calculăm TN R în cele două cazuri.
Aplicăm pentru început (8.64) şi continuăm cu operaţia de normare din (8.63).
Rezultatele sunt:
1,000 0,000 0,141 0,000
0,000 1,000 0,000 0,023
0,141 0,000 1,000 0,000
0,000 0,023 0,000 1,000
1,000 0,052 0,052 0,000 0,052 0,052
0,052 0,052 1,000 0,317 0,317 0,450
0,000 0,317 0,317 1,000 0
CN
FN
i i
i j j
j
R
R,317 0,317
0,052 0,052 0,450 0,317 0,317 1,000
j
i j j
Gradul de împrăştiere a valorilor proprii ale matricilor este 1,33CN R
pentru transformarea DCT şi 3,60FN R pentru DFT.
8.4 Algoritmi LMS cu transformare de domeniu 241
Efectul pe care secvenţa de transformare de forma T TN R R R îl are asupra
suprafeţei de eroare a unui filtru adaptiv cu doi coeficienţi este evidenţiat în Figura 8.5. Se
observă că efectul matricii de transformare unitară este de a roti suprafaţa de eroare, fără a
modifica excentricitatea elipsei. Prin urmare, transformarea nu afectează gradul de împrăş-
tiere a valorilor proprii. Principalul efect al normalizării constă în egalizarea axelor, ceea ce
conduce la micşorarea împrăştierii valorilor proprii ale matricii de corelaţie a procesului.
8.4.3 Formularea algoritmului
Implementarea algoritmului LMS cu transformare de domeniu utilizează pentru calculul
recursiv al ponderilor filtrului adaptiv următoara ecuaţie de recursie
1 *ˆˆ ˆ1n n n e n w w D u (8.65)
unde D este un estimat al matricii diagonale D definită în paragraful precedent. Această
recursie scrisă mai sus la nivelul vectorului coeficienţilor poate fi descompusă în M ecuaţii
scalare de recursie:
*
2ˆ ˆ1 , 0,1, , 1
ˆi
i i i
u
w n w n u n e n i Mn
(8.66)
unde 2ˆiu n este o estimare a lui
2
iE u n
. Acest fapt arată că prezenţa lui 1ˆ D în
ecuaţia (8.65) este echivalentă cu utilizarea de paşi diferiţi pentru fiecare din componentele
vectorului ponderilor filtrului în cazul filtrării TDAF. Fiecare parametru de pas este ales
proporţional cu inversa puterii componentei corespunzătoare de intrare în filtru. Din acest
motiv recursia din (8.65) este denumită recursie LMS cu pas normalizat. Pentru a preveni
confuzia dintre acest algoritm şi algoritmul LMS normalizat îl vom numi în continuare
algoritm LMS cu pas normalizat.
Apariţia factorului 1ˆ D în ecuaţia (8.65) este echivalentă cu operaţia de normare a
vectorului transformat descrisă în paragraful anterior prin ecuaţiile (8.62) şi (8.63). Pentru a
demonstra aceasta, dacă premultiplicăm şi postmultiplicăm cu 1
2D ecuaţia (8.65), obţinem
*ˆ ˆ1N N Nn n n e n w w u (8.67)
Figura 8.5 a. Contururile suprafeţei EPM iniţiale, b. Suprafaţa de eroare rezultată în urma
transformării de domeniu, c. Suprafaţa de eroare obţinută prin normalizare.
242 ALGORITMI DERIVAŢI DIN ALGORITMUL LMS - 8
unde N nu e definit prin (8.62) iar 1
2ˆˆ ˆN n n
w D w . Cu alte cuvinte, algoritmul LMS
cu pas normalizat poate fi echivalat cu un algoritm LMS convenţional dacă vectorul care se
aplică pe intrările filtrului este normalizat, N nu având componente de putere unu.
Pentru implementarea lui (8.65) este necesar să se facă estimarea puterii semnalului de
intrare pe fiecare dintre celulele filtrului adaptiv în domeniu transformat, adică a valorilor
2ˆiu n . Se utilizează în acest scop ecuaţia de recursie
22 2ˆ ˆ 1 1 , 0,1, , 1
i iu u in n u n i M (8.68)
unde este o constantă pozitivă, apropiată dar mai mică decât unu. Algoritmul LMS cu
pas normalizat este prezentat în Tabelul 8.4.
Complexitatea de calcul a algoritmului LMS cu transformare de domeniu depinde de
alegerea lui T şi de modul în care această transformare este implementată. De exemplu, să
presupunem că este vorba de transformarea DFT definită prin relaţia (8.57). Chiar dacă se
realizează transformarea n nu Tu prin FFT, această etapă necesită 2logM M operaţii
pe iteraţie. Costurile sunt mai mari, oricum decât în cazul LMS convenţional (de ordinul a 2M operaţii pe iteraţie). Cu toate acestea, cel puţin în cazul transformărilor DFT şi DCT
(Sayed 2008), numărul de operaţii se poate reduce la ~M/iteraţie dacă se exploatează faptul
1. Iniţializare:
2ˆ 1 , 0,1, , 1 ( este o constantă pozitivă mică)
ˆ 0 1 0 0 0
iu
T
i M
w u
2. Se calculează transformarea ortogonală:
n nu Tu
3. Se determină semnalul de ieşire al filtrului:
ˆ Hy n n nw u
4. Se stabileşte eroarea la ieşirea filtrului:
e n d n y n
5. Se estimează puterea pe intrările filtrului ( pentru 0,1, , 1 i M )
22 2ˆ ˆ 1 1
i iu u in n u n
6. Se calculează elementele vectorului pondere pentru pasul următor:
*
2ˆ ˆ1 , 0,1, , 1
ˆi
i i i
u
w n w n u n e n i Mn
7. Se incrementează variabila contor 1n n şi se face salt la 2.
Tabelul 8.4 Algoritmul LMS cu transformare de domeniu
8.4 Algoritmi LMS cu transformare de domeniu 243
că doi vectori de date succesivi { 1 ,n nu u } au comune cea mai mare parte a elemen-
telor:
Drept urmare, vectorul nu poate fi calculat direct din 1n u şi valorile u n şi
u n M iar consecinţa directă a acestei observaţii este reducerea numărului de operaţii la
O M pe iteraţie.
8.4.4 Transformarea Karhunen-Loève şi algoritmul
LMS-Newton
Scopul acestui paragraf este să exploreze relaţia strânsă care există între algoritmul LMS-
Newton, aşa cum este acesta definit prin relaţia (8.40) şi algoritmii LMS cu transformare de
domeniu. Vom arăta că atunci când matricea transformării de domeniu T este astfel aleasă
încât să realizeze transformarea Karhunen-Loève (TKL), cele două proceduri reprezintă
două formulări diferite ale aceluiaşi algoritm. Astfel, rezultă concluzia logică că atunci când
este utilizată o transformare de domeniu adecvată, algoritmul LMS cu transformare de
domeniu poate fi considerat a fi o implementare eficientă a algoritmului LMS-Newton.
Conform Proprietăţii 5 a matricii de corelaţie R (vezi Capitolul 3), descompunerea
acesteia după valori proprii se face prin transformarea unitară de similaritate, conform rela-
ţiei (3.107):
HR = QΛQ
unde H QQ I iar Λ este matricea diagonală alcătuită din valorile proprii ale lui R. În
consecinţă, efectuăm transformarea de domeniu cu relaţia HT Q , care este transformarea
Karhunen-Loève (TKL) introdusă tot în Capitolul 3 prin relaţiile (3.128) şi (3.132), aplicând
relaţia (8.53) pentru a calcula matricea de corelaţie a procesului rezultat:
H H H
T R TRT Q QΛQ Q Λ (8.69)
Şi matricea diagonală D utilizată pentru normare în ecuaţia de recursie (8.65), capătă o
expresie simplă în cazul TKL: D Λ . Având în vedere că Λ este o matrice diagonală,
rezultă că TKL decorelează complet componentele vectorului transformat nu , ceea ce
înseamnă că aceasta este cea mai bună transformare din punctul de vedere a eficienţei
filtrării TDAF.
Se poate acum cerceta şi legătura care există între algoritmii LMS-Newton şi LMS cu
transformare de domeniu. În acest scop, premultiplicăm cu H
Q ecuaţia de recursie LMS-
Newton (8.40). Rezultatul obţinut:
1 *ˆ ˆ1H H H
Nn n n e n Q w Q w Λ Q u (8.70)
244 ALGORITMI DERIVAŢI DIN ALGORITMUL LMS - 8
este identic, având în vedere cele discutate înainte, cu forma pe care o ia recursia (8.65)
atunci când se utilizează TKL ca transformare de domeniu. Pe de altă parte, se poate
considera că algoritmul LMS-Newton încearcă să facă o estimare a transformării Karhunen-
Loève, atunci când detemină 1ˆ nR . În sfârşit, şi algoritmul NLMS este un caz particular
al algoritmului LMS-TDAF, pentru că utilizează o transformare identitate T I şi o
estimare instantanee a puterii semnalului de intrare dată de norma 2
nu .
Transformarea Karhunen-Loève (TKL) este transformarea optimală, dar este dependen-
tă de semnal şi, practic, ea nu poate fi calculată în timp real. Întrucât transformarea optimală
în cazul filtrării TDAF este dependentă de semnal, nu se poate stabili o transformare optimă
cu parametrii fixaţi care să fie utilizată universal în cazul filtrării adaptive cu transformare de
domeniu. În fapt, dacă spectrul semnalului de intrare este cunoscut, atunci poate fi calculată
şi utilizată TKL, altfel orice matrice unitară de dimensiuni corespunzătoare poate fi o
alegere posibilă pentru transformare. Totuşi utilizarea cea mai răspândită o are
transformarea cosinus discretă, care cel puţin pentru un proces Markov de ordinul întâi,
staţionar, de medie zero, este echivalentă asimptotic cu TKL (Beaufays 1995,
Kenneth_Jenkins şi D.F. Marshall 1999).
Exemplul 8.5: Ne propunem să comparăm, din punctul de vedere a vitezei de
convergenţă, în raport cu algoritmul LMS standard, performanţele algoritmilor
TDAF: LMS-DFT şi LMS-DCT. Ca şi în cazul algoritmului NLMS, reluăm, în
acest scop, experimentul cu egalizorul adaptiv introdus în Exemplul 7.4 din
Capitolul 7.
Asigurarea echivalenţei condiţiilor de acţiune a celor trei algoritmi s-a făcut,
prin stabilirea, în mod experimental, a valorilor pasului celor trei algoritmi, ,
astfel încât valorile EPM de regim staţionar să rămână egale, indiferent de
algoritmi.
Experimentul este realizat în conformitate cu schema bloc din Figura 7.10,
canalul de comunicaţii este modelat prin relaţia 7.70 cu parametrul de canal
2,9W . Filtrele au toate 11M coeficienţi. Utilizarea facilităţilor oferite de
pachetul MATLAB ne-a permis să stabilim că, pentru ca valoarea finală a EPM să
fie în toate cazurile 0,0025J , se alege 0,06 pentru algoritmul LMS
standard şi 0,08 pentru algoritmii LMS-DFT şi LMS-DCT. Figura 8.6 prezintă
rezultatele obţinute, evidenţiind faptul că algoritmii LMS cu transformare de
domeniu, au, în raport cu algoritmul LMS standard, o convergenţă mai rapidă.
8.5 Algoritmul de proiecţie afină
Deducerea algoritmului LMS s-a făcut pe baza unor aproximaţii simple efectuate asupra
matricii de corelaţie R şi a vectorului de intercorelaţie p. Algoritmi mai avansaţi, cu
performanţe superioare dar şi costuri de calcul mai mari, pot fi obţinuţi făcând apel la
aproximări mai sofisticate pentru R şi p. Aşa-numitul algoritm de proiecţie afină (APA)
reprezintă o ilustrare a acestor afirmaţii.
8.5 Algoritmul de proiecţie afină 245
8.5.1 Formularea algoritmului APA
Deşi APA reprezintă o generalizare a algoritmului NLMS şi poate fi dezvoltat similar cu
acesta (Ciochină 2008), am ales, pentru a trata subiectul, abordarea din Sayed (2008).
Punctul de pornire îl constituie acum algoritmul LMS-Newton formulat prin recursia (8.39)
pe care o amendăm aici, adăugând la matricea de corelaţie R un termen de valoare redusă
I , ce poate să garanteze inversabilitatea expresiei corespunzătoare:
1
ˆ
1
1 ˆ ˆˆ ˆ12
ˆ ˆˆˆ ˆ
N nn n n J n
n n n n n
ww w I R
w I R p R w
(8.71)
În ecuaţie, ˆ nR şi ˆ np sunt estimările mărimilor corespunzătoare făcute la momen-
tul de timp n, iar algoritmul de proiecţie afină, spre deosebire de alţi algoritmi realizează o
mai bună aproximare a acestora. În acest scop se alege un număr pozitiv întreg K (de regulă
K M , unde dimensiunile vectorului w sunt 1M ) iar estimările ˆ nR şi ˆ np se
calculează prin următoarele aproximaţii instantanee:
*
1 1
1 1ˆ ˆ,n n
H
j n K j n K
n j j n j d jK K
R u u p u (8.72)
unde 1 1T
j u j u j u j M u şi d j sunt vectorul de intrare,
respectiv semnalul dorit la momentul j . Cu alte cuvinte, la fiecare iteraţie n sunt utilizaţi cei
mai recenţi K vectori de intrare şi cele mai recente K observaţii pentru a calcula prin mediere
temporală valorile aproximative ale lui R şi p:
Figura 8.6 Compararea performanţelor algoritmilor LMS stan-
dard, LMS-DFT şi LMS-DCT din punctul de vedere a
evoluţiei EPM.
246 ALGORITMI DERIVAŢI DIN ALGORITMUL LMS - 8
, 1 , , 1 şi , 1 , , 1n n n K d n d n d n K u u u
Introducem matricea datelor de intrare nA de dimensiune K M şi vectorul semna-
lelor dorite nd de dimensiune 1K :
1 1
1 1
1 2
1 2
1 1
H
H
n n n n K
u n u n u n K
u n u n u n K
u n M u n M u n K M
n d n d n d n K
A u u u
d
(8.73)
Cu noile notaţii, ˆ nR şi ˆ np pot fi exprimate într-o formă mult mai compactă:
1 1ˆ ˆşiH Hn n n n n nK K
R A A p A d (8.74)
Drept urmare, reformulăm expresia ecuaţiei de recursie Newton (8.71), în care înlocuim cu
relaţiile din (8.74) şi K :
1
ˆ ˆ ˆ1 H Hn n n n n n n n
w w I A A A d A w (8.75)
Deşi produsul H n nA A este o matrice singulară atunci când K M , termenul I
garantează existenţa inversei lui H n n I A A .
Rezolvarea ecuaţiei de recursie (8.75) necesită, la fiecare iteraţie, inversarea matricii
H n nA A de dimensiune M M . Alternativ, se poate face apel la formula de inversare
matricială (8.45) pentru a verifica egalitatea de mai jos:
1 1
H H H Hn n n n n n
I A A A A I A A (8.76)
caz în care, relaţia (8.75) devine
1
1
ˆ ˆ ˆ1
ˆ
H H
H H
n n n n n n n n
n n n n n
w w A I A A d A w
w A I A A e
(8.77)
Această ultimă formă a recursiei APA este mai convenabilă întrucât necesită inversarea
la fiecare iteraţie a matricii Hn n I A A de dimensiune (de obicei mai mică)
K K .
Ecuaţia (8.77) este formularea algoritmului de proiecţie afină. În particular, se observă
că atunci când 1K , APA se reduce la ecuaţia de recursie a algoritmului LMS normalizat
(8.34). Mai general, din compararea APA cu algoritmii LMS standard sau NLMS, se poate
8.5 Algoritmul de proiecţie afină 247
constata că APA utilizează pentru eroarea de estimare vectorul ˆn n n n e d A w ,
spre deosebire de eroarea scalară ˆHe n d n n n u w utilizată de LMS şi NLMS.
Această observaţie evidenţiază faptul că, spre deosebire de LMS şi NLMS care folosesc
pachetul de date de la momentul n pentru a actualiza coeficienţii filtrului adaptiv, APA
utilizează în acelaşi scop cele mai recente K pachete de date. Din acest motiv, algoritmul
APA este denumit şi algoritm cu reutilizarea datelor pentru că refoloseşte pachete de date
de la momentele de timp anterioare. Numărul întreg K este denumit ordin al filtrului APA.
Tabelul 8.5 rezumă operaţiunile care implementează algoritmul. Efortul de calcul al
algoritmului APA este mare, având în vedere că produsul Hn nA A necesită 2K M
multiplicări iar inversarea 1
Hn n
I A A costă 3O K operaţii (multiplicări şi
adunări). Concluzia este că ordinul de mărime a numărului de operaţii la care se ridică costul
APA este 2O K M pe iteraţie, o valoare foarte mare, atunci când o comparăm cu costul
LMS standard. Există, trebuie să spunem, multe variante mai rapide ale algoritmului (Albu,
ş.a. 2007, Sayed 2008) care utilizează în scopul reducerii numărului de operaţii, redundanţa
care există în datele prelucrate.
Exemplul 8.6: Figura 8.7 compară performanţele a patru implementări ale algo-
ritmului APA cu algoritmul LMS standard pentru experimentul realizat în
conformitate cu schema bloc din Figura 7.10, canalul de comunicaţii fiind modelat
1. Se alege o valoare convenabilă pentru pasul şi constanta . Se
iniţializează variabila contor 0n , vectorul pondere şi vectorii
de semnal :
ˆ 0 0 0 0 , 0, 0T
d i u i i w
2. Se calculează ieşirea curentă a filtrului:
ˆ Hy n n nw u
3. Se determină valoarea curentă a vectorului de eroare:
ˆn n n n e d A w
4. Se calculează pătratul eşantionului curent de intrare 2
u n .
5. Se calculează pătratul normei semnalului de intrare:
2 2 2 2
1n n u n u n M u u
6. Se calculează vectorul pondere pentru pasul următor:
1
ˆ ˆ1 H Hn n n n n n
w w A I A A e
7. Se incrementează variabila contor 1n n şi se execută un salt
la 2.
Tabelul 8.5 Algoritmul de proiecţie afină
248 ALGORITMI DERIVAŢI DIN ALGORITMUL LMS - 8
prin relaţia 7.70, cu parametrul de canal 2,9W . În toate situaţiile, filtrul
adaptiv are 11M coeficienţi iar curbele de învăţare au fost obţinute prin medie-
re pe 300 de experimente.
Cele 4 curbe generate pentru algoritmul APA corespund la patru valori
distincte ale ordinului filtrului APA: 1,2,4,6K . S-a realizat astfel o evaluare a
efectului pe care îl are ordinul proiecţiei afine asupra performanţelor
algoritmului.
Asigurarea echivalenţei condiţiilor de acţiune a celor trei algoritmi s-a făcut,
prin stabilirea, în mod experimental, a valorilor pasului celor trei algoritmi, ,
astfel încât valorile EPM de regim staţionar să rămână egale, indiferent de
algoritmi. Valorile acestor paşi sunt trecute în grafic.
Experimentul evidenţiază că APA are performanţe net superioare algoritmului
LMS standard, în condiţiile în care ordinul APA este 1K . Totuşi pe măsură ce K
creşte, numărul de operaţii matematice se măreşte cu pătratul lui K, ceea ce
devine, de la un anumit nivel, prohibitiv. De asemenea, există o limită pentru K, în
experimentul nostru 4K , dincolo de care, în loc ca performanţele să se
îmbunătăţească, se constată o degradare a acestora.
8.5.2 Abordare alternativă a algoritmului APA
Algoritmul proiecţiei afine poate fi definit ca fiind soluţia exactă a unei probleme de
optimizare locală. Pentru a justifica acestea, vom presupune că se dispune de coeficienţii
filtrului ˆ nw estimaţi la momentul 1n şi de datele de intrare la momentul n, nd şi
nA . Definim doi vectori de eroare de estimare: vectorul de eroare apriori:
Figura 8.7 Compararea performanţelor algoritmului LMS standard
şi a algoritmului proiecţiei afine pentru mai multe
valori ale ordinului de proiecţie K.
8.5 Algoritmul de proiecţie afină 249
ˆn n n n e d A w (8.78)
şi vectorul de eroare aposteriori:
ˆ 1n n n n ε d A w (8.79)
Dacă primul dintre ei măsoară eroarea care se face la estimarea lui nd prin utilizarea
produsului ˆn nA w . adică prin utilizarea coeficienţilor disponibili înainte de actualizare.
cel de al doilea măsoară eroarea la estimarea lui nd prin ˆ 1n n A w , adică după utili-
zarea noilor coeficienţi. Vectorul aposteriori se poate exprima în funcţie de vectorul apriori
dacă în relaţia(8.79) se înlocuieşte ˆ 1n w prin ecuaţia de recursie (8.77):
1
1
ˆ H H
H H
n n n n n n n n
n n n n n
ε d A w A I A A e
I A A I A A e
(8.80)
În concluzie, algoritmul APA determină coeficienţii ˆ 1n w care rezolvă următorul
criteriu de optimizare cu constrângeri:
2
ˆ 1
1
ˆ ˆmin 1 cu condiţia:n
H H
n n
n n n n n n
ww w
ε I A A I A A e
(8.81)
Cu alte cuvinte, se caută vectorul ˆ 1n w cel mai apropiat în sensul normei euclidiene de
ˆ nw şi supus unei constrângeri dată de egalitatea (8.80).
Se poate demonstra (Sayed 2008) că constrângerea din (8.81) este îndeplinită atâta
vreme cât pasul algoritmului îndeplineşte condiţia
0 2 (8.82)
Mai mult, (8.82) asigură realizarea inegalităţii 2 2
n nε e , ceea ce garantează că
ˆ 1n n A w este o estimare mai bună a lui nd decât ˆn nA w .
8.5.3 Interpretarea proiecţiei afine
Formularea (8.81) ne permite să explicăm de ce în numele algoritmului apare termenul
„proiecţie afină”. Motivul este că un caz special al recursiei APA (8.77) admite o
interpretare ce face apel la proiecţii pe subspaţii afine. În acest scop, ne referim la condiţia
(8.81) cu K M şi cazul particular 1 şi =0 , situaţie în care condiţia se reduce la
2
ˆ 1ˆ ˆmin 1 cu condiţia:
nn n n
ww w ε 0 (8.83)
sau, echivalent:
250 ALGORITMI DERIVAŢI DIN ALGORITMUL LMS - 8
2
ˆ 1ˆ ˆ ˆmin 1 cu condiţia: 1
nn n n n n
ww w d A w (8.84)
iar ecuaţia de recursie a algoritmului APA devine
1
ˆ ˆ ˆ1 H Hn n n n n n n n
w w A A A d A w (8.85)
Cu alte cuvinte, pentru 1 şi =0 , APA satisface ˆ 1n n n d A w . În cazul special
1K , regăsim formularea algoritmului LMS normalizat:
2
ˆ 1ˆ ˆ ˆmin 1 cu condiţia: 1H
nn n d n n n
ww w u w (8.86)
a cărei soluţie este ecuaţia de recursie NLMS
2
ˆ ˆ ˆ1 1
H
Hn
n n d n n nn
u
w w u wu
(8.87)
În acest caz, algoritmul NLMS satisface egalitatea ˆ 1Hd n n n u w . Această obser-
vaţie admite interpretarea geometrică pe care o dăm în continuare.
Oricare ar fi datele de intrare ,n nd u , există o infinitate de vectori care rezolvă
egalitatea ˆ 1Hd n n n u w . Setul tuturor acestor vectori w este un subspaţiu afin
(denumit de asemenea hiperplan) notat prin nM , a cărui relaţie de definiţie este:
ˆ ˆsetul tuturor vectorilor care satisfac condiţia 0H
n n d n w u wM
Se utilizează denumirea „afin” pentru a indica că hiperplanul nu trece în mod necesar prin
originea ˆ w 0 . Pornind de la vectorul ˆ nw şi îndeplinind condiţia (8.86), NLMS
selectează acel vector particular ˆ 1n w care este cel mai aproape de ˆ nw în sensul
normei euclidiene. Vom spune prin urmare, că ˆ 1n w se obţine prin proiecţia lui ˆ nw
pe subspaţiul afin nM .
Pe de altă parte, atunci când 1K , se observă din condiţia (8.86) că recursia (8.85)
impune satisfacerea a K egalităţi (spre deosebire de una ca în cazul NLMS):
ˆ ˆ1 , 1 1 1 , ,
ˆ, 1 1
H H
H
d n n n d n n n
d n K n n K
u w u w
u w
Pentru fiecare pereche de date ,n i n i d u , există o infinitate de vectori w care
satisfac egalitatea ˆ 1Hd n i n i n u w şi care definesc un subspaţiu n iM .
Vectorul coeficienţilor care este calculat cu (8.84)-(8.85) este situat la intersecţia a K
subspaţii afine:
1
ˆ 1n
j
j n K
n
w M
8.6 Algoritmi LMS pentru structuri lattice 251
Se spune atunci că ˆ 1n w dat de APA pentru 1 se obţine prin proiecţia vectorului
ˆ nw pe intersecţia subspaţiilor , , 1, , 1j j n n n K M . Figura 8.8 ilustrează
această construcţie pentru cazul 2K . Două subspaţii sunt arătate în figură: nM şi n iM .
În figură, estimarea ˆ nw se află în planul n iM în timp ce estimarea actualizată ˆ 1n w
se găseşte la intersecţia celor două hiperplane, 1n nM M .
8.6 Algoritmi LMS pentru structuri lattice
Structura lattice de filtrare adaptivă introdusă în Capitolul 5 reprezintă o modalitate eficientă
de implementare a algoritmului LMS. Algoritmii dezvoltaţi pentru aceste structuri de
predicţie lineară şi care reprezintă o extensie naturală a algoritmului LMS sunt denumiţi
algoritmi GAL (Gradient Adaptive Lattice). Utilizarea metodei gradientului pentru structuri
lattice a fost introdusă de Griffiths (1977).
8.6.1 Algoritmul LMS-GAL pentru filtre ale erorii de
predicţie lattice
Vom considera celula m din structura lattice a unui filtru al erorii de predicţie reprezentată în
Figura 8.9. Caracteristic unei astfel de celule este faptul că relaţia intrare-ieşire este
caracterizată de un singur parametru, şi anume coeficientul de reflexie m . Vom presupune
că semnalele de intrare sunt staţionare în sens larg iar m este un număr complex.
Etajul de predicţie lineară din Figura 8.9 este optimal atunci când erorile de predicţie
înainte şi înapoi de la ieşirea celulei, şi m mf n b n sunt minime. În consecinţă, se
Figura 8.8 Interpretarea geometrică a APA de ordinul doi.
Estimarea ˆ 1n w situată în planul n iM este
proiectată în punctul ˆ nw aflat la intersecţia
planelor n iM şi
nM .
252 ALGORITMI DERIVAŢI DIN ALGORITMUL LMS - 8
stabileşte valoarea optimă a coeficientului m din condiţia de minimizare a funcţiei de cost,
definită de (Ciochină 2008, Haykin 1996):
2 2
m m mJ n E f n b n
(8.88)
Relaţiile intrare-ieşire ale celulei lattice considerate sunt stabilite în Capitolul 5 prin
ecuaţiile (5.118) şi (5.119). Le reluăm în continuare, pentru comoditatea expunerii:
1 1
1 1
1
1
m m m m
m m m m
f n f n b n
b n b n f n
(8.89)
Pentru calculul gradientului funcţiei de cost în raport cu părţile reale şi imaginare ale
coeficientului de reflexie m , aplicăm regulile formale de derivare:
2 * * *
1
2 * * *
1
2 1
2
m m m
m m m
m m m m m m m
m m m m m m m
E f n E f n f n f n f n E f n b n
E b n E b n b n b n b n E b n f n
Deci: * *
1 12 1m m m m m mJ n E f n b n b n f n
(8.90)
unde 1mf n este eroarea de predicţie înainte iar 1 1Mb n este eroare de predicţie înapoi
întârziată, ambele măsurate la intrarea blocului.
Principiul de bază al algoritmilor LMS enunţat în Capitolul 7 prin relaţiile (7.2)-(7.4)
este de a înlocui media statistică utilizată în calculul gradientului funcţiei de cost prin esti-
marea instantanee a acesteia. Aplicarea acestui principiu ecuaţiei (8.90), ne permite să
scriem estimarea instantanee a lui m mJ n :
* *
1 1ˆ 2 1
m m m m m mJ n f n b n b n f n (8.91)
Notăm prin ˆm n vechea estimare a coeficientului de reflexie m al celulei m a
structurii lattice iar prin ˆ 1m n estimarea actualizată a aceluiaşi coeficient. Adaptăm
Figura 8.9 Celulă de predictor lattice utilizată la definirea
algoritmului GAL.
8.6 Algoritmi LMS pentru structuri lattice 253
ecuaţia (7.5) la calculul acestei estimări, însumând la ˆm n un termen de corecţie propor-
ţional cu estimarea gradientului m mJ n :
1 ˆˆ ˆ12 mm m m mn n J n (8.92)
unde m este pasul algoritmului asociat celulei m a structurii lattice. Înlocuind ecuaţia
(8.91) în (8.92), se obţine:
* *
1 1ˆ ˆ1 1m m m m m m mn n f n b n b n f n (8.93)
Ultima ecuaţie este expresia algoritmului LMS pentru celula m a structurii lattice
(LMS-GAL). Este evident că, pentru a asigura stabilitate, pasul algoritmului m poate avea
o valoare distinctă pentru fiecare celulă a structurii, ceea ce afectează mult aplicabilitatea
practică a algoritmului sub această formă.
O modalitate mai bună de utilizare a algoritmului LMS este de a face apel la varianta
normalizată a algoritmului LMS. În algoritmul NLMS-GAL, parametrul de adaptare depinde
de energia semnalelor de la intrarea celulei:
1
m m
m
nn
E
(8.94)
unde 2 2 2 2
1 1 1 1 1 1
1
1 1 1n
m m m m m m
i
n f i b i n f n b n
E E (8.95)
Pentru ca algoritmul să prezinte o convergenţă robustă, se alege 0,1 (Haykin 1996).
Parametrul 1m nE reprezintă suma totală a energiilor erorilor de predicţie înainte şi înapoi
la intrarea celulei m, măsurate până la momentul curent n.
În practică, de obicei se utilizează o modalitate diferită de (8.95) pentru estimarea ener-
giei semnalului de intrare în celulă (Clarkson 1993, Griffiths 1977):
2 2
1 1 1 11 1 1m m m mn n f n b n E E (8.96)
unde 0 1 . Introducerea parametrului β înzestrează algoritmul NLMS-GAL cu o
memorie finită, ceea ce îi asigură o comportare superioară atunci când funcţionează în regim
nestaţionar.
Studiul convergenţei algoritmului NLMS-GAL este o problemă destul de complexă, din
cauza interacţiunii nelineare dintre comportările celulei a n-a şi a celor de ordin inferior
(Haykin 1996). Comparând algoritmii GAL şi LMS, în general algoritmii GAL converg mai
rapid şi cu o viteză de convergenţă ce este în mare măsură independentă de gradul de
împrăştiere a valorilor proprii de la intrare. Pe de altă parte, s-a arătat că valoarea dezadaptă-
rii este mai mare în cazul structurilor lattice decât al filtrelor transversale (Clarkson 1993).
Algoritmul GAL normalizat are performanţe superioare datorită reducerii dependenţei de
varianţa semnalului de intrare.
254 ALGORITMI DERIVAŢI DIN ALGORITMUL LMS - 8
8.6.2 Algoritmul LMS-GAL de filtrare adaptivă
Structura lattice de filtrare adaptivă este utilizată în calitate de filtru al erorii de predicţie. În
aplicaţiile de predicţie lineară care fac apel la acest gen de filtre, semnalul dorit reprezintă o
replică deplasată în timp a semnalului de intrare: d n u n N . Pentru a extinde
domeniul de aplicabilitate a algoritmilor GAL la întreaga gamă de aplicaţii adaptive,
structurii lattice i se adaugă o configuraţie în scară de combinator linear ca în Figura 8.10.
Ca în orice aplicaţie de filtrare adaptivă, se urmăreşte ca ieşirea y n a combinatorului
să realizeze cea mai bună estimare a semnalului dorit, d n . Prin urmare, se impune
minimizarea funcţiei de cost
2
, cu: HJ n E e n e n d n n n
h b (8.97)
unde 0 1
T
Mn h n h n h n h este vectorul coeficienţilor structurii în scară iar
vectorul 0 1
T
Mn b n b n b n b înglobează secvenţa erorilor de predicţie
înapoi ale filtrului lattice.
Alegerea pentru intrările structurii în scară din Figura 8.10 a secvenţei erorilor de
predicţie înapoi nb nu este întâmplătoare. Este momentul să reamintim aici una din
proprietăţile fundamentale ale structurii lattice, proprietate care a fost evidenţiată în
Capitolul 5 dedicat predicţiei lineare:
Secvenţa erorilor de predicţie înapoi 0 1, , , Mb n b n b n ale unui filtru lattice
este constituit din elemente ortogonale unul în raport cu celălalt, după cum arată
relaţia:
,
0,
m
m i
P i mE b n b n
i m
(5.108)
unde mP este valoarea medie minimă a erorii de predicţie înapoi a celulei lattice
m.
Prin urmare, dacă coeficienţii filtrului lattice i sunt optimizaţi, acesta prin ieşirile sale
constituite din estimatele erorii de predicţie înapoi realizează operaţia de ortogonalizare a
vectorului de intrare. Din această perspectivă, putem spune că acţiunea structurii de filtrare
din Figura 8.10 este identică cu cea a unui filtru adaptiv cu transformare de domeniu,
Figura 8.10 Filtrul adaptiv FIR cu structură lattice-scară
8.6 Algoritmi LMS pentru structuri lattice 255
transformarea de domeniu realizată de celulele lattice prin algoritmul LMS-GAL prezentat
în paragraful precedent fiind şi ortogonală dacă algoritmul e convergent. În aceste condiţii,
cea mai eficientă implementare a algoritmului LMS pe o structură lattice-scară face apel la
ecuaţia (8.65) a algoritmului LMS cu transformare de domeniu:
1 *ˆ ˆ ˆ1 hn n n e n h h D b (8.98)
unde D este un estimat al matricii diagonale D definită prin
2 2 2
0 1 0 1diag , , diag , , ,M ME b n E b n E b n P P P
D (8.99)
Recursia (8.98) scrisă mai sus la nivelul vectorului coeficienţilor poate fi descompusă în
1M ecuaţii scalare de recursie:
*
2ˆ ˆ1 , 0,1, ,
ˆi
i i i
b
h n h n b n e n i Mn
(8.100)
unde 2ˆib n este o estimare a lui
2
iE b n
. Acest fapt arată că prezenţa lui 1ˆ D în
ecuaţia (8.99) este echivalentă cu utilizarea de paşi diferiţi pentru fiecare din componentele
vectorului ponderilor filtrului ˆ nh .
Pentru implementarea lui (8.98) este necesar să se facă estimarea puterii semnalului de
intrare pe fiecare dintre celulele filtrului adaptiv în domeniu transformat, adică a lui 2ˆib n .
Se utilizează în acest scop ecuaţia de recursie
22 2ˆ ˆ 1 1 , 0,1, ,
i ib b in n b n i M (8.101)
unde este o constantă pozitivă, apropiată dar mai mică decât unu. Tabelul 8.6 se consti-
tuie într-un rezumat al operaţiunilor algoritmului LMS-GAL.
În ansamblul său, sistemul adaptiv reprezentat în Figura 8.10 este descris prin două
seturi de coeficienţi adaptivi: coeficienţii de reflexie ai structurii lattice ˆ , 0,1, ,i i M şi
coeficienţii structurii de filtru transversal ˆ , 0,1, ,ih i M . Cele două seturi se adaptează
simultan în paralel: prin coeficienţii ˆi se urmăreşte ortogonalizarea intrărilor structurii în
scară, prin coeficienţii ˆih se realizează adaptarea secvenţei de intrare u n la semnalul dorit
d n . Marele avantaj al acestei structuri adaptive în comparaţie cu filtrele adaptive transver-
sale este că structura lattice furnizează setul ortogonal al erorilor de predicţie înapoi 0 ,b n
1 , , Mb n b n , ceea ce are drept consecinţă faptul că intrările structurii în scară sunt
„decuplate”. În consecinţă, funcţionarea secţiunii în scară a structurii din Figura 8.10 nu este
afectată de problemele cauzate de împrăştierea valorilor proprii ale semnalului de intrare.
Bine înţeles, această comportare se produce numai după ce a fost obţinută convergenţa
coeficienţilor de reflexie ˆi . În practică, pe parcursul procesului de adaptare, există o
anumită dependenţă între erorile de predicţie înapoi, astfel încât structura în scară resimte pe
această perioadă efectul împrăştierii valorilor proprii. De remarcat că adaptarea
256 ALGORITMI DERIVAŢI DIN ALGORITMUL LMS - 8
coeficienţilor de reflexie se face numai în raport cu u n . Drept urmare, modificările în
statistica lui d n vor afecta coeficienţii ˆih , dar nu şi coeficienţii de reflexie. Pentru semnale
u n staţionare, odată ce predictorul lattice a realizat convergenţa, erorile de predicţie înapoi
vor rămâne ortogonale chiar dacă d n este nestaţionar.
1. Parametri: 1 - ordinul filtrului adaptiv
, - constante în intervalul 0 , 1
, 0,1
M
2. Iniţializare: Pentru 0,1, , 1i M
1 1 1
ˆˆ0 0 0 0 0
ˆ0 0 , - constantă micăi
i i i i
i b
f b h
E
3. Pentru 1,2,n se pune: 0 0f n b n u n
4. Predicţia: Se calculează pentru ordinele de predicţie 1,2, ,m M
*
1 1
*
1 1
2 2
1 1 1 1
* *
1 1
1
22 2
ˆ 1 ,
ˆ1 ,
1 1 1 ,
ˆ ˆ1 1 ,
ˆ ˆ 1 1m m
m m m m
m m m m
m m m m
m m m m m m
m
b b m
f n f n n b n
b n b n n f n
n n f n b n
n n f n b n b n f nn
n n b n
E E
E
5. Se formează vectorul de ieşire al predicţiei:
0 1
T
Mn b n b n b n b
6. Se determină semnalul de ieşire a filtrului:
ˆ Hy n n nh b
7. Se stabileşte eroarea la ieşirea filtrului:
e n d n y n
8. Se calculează elementele vectorului pondere pentru pasul următor:
*
2ˆ ˆ1 , 0,1, ,
ˆi
i i i
b
h n h n b n e n i Mn
9. Se incrementează variabila contor 1n n şi se face salt la 3.
Tabelul 8.6 Algoritmul LMS-GAL de filtrare adaptivă
8.6 Algoritmi LMS pentru structuri lattice 257
Exemplul 8.7 Ca şi în exemplele anterioare, urmărim să comparăm
performanţele algoritmului LMS-GAL de filtrare adaptivă cu cele ale algoritmului
LMS standard. Schema de filtrare GAL aleasă este structura lattice-scară din
Figura 8.10 care conduce la un algoritm LMS cu transformare de domeniu, ceea ce
ne-a permis să extindem comparaţia şi la cel mai performant algoritm din această
categorie, şi anume algoritmul LMS-DCT. Ca şi pentru alţi algoritmi LMS
dezvoltaţi în acest Capitol, comparaţia s-a realizat pe experimentul din Exemplul
7.4 şi reprezentat în Figura 7.10. S-a asigurat echivalenţa celor trei algoritmi
testaţi, prin ajustarea cuantelor astfel ca în toate cele trei cazuri, eroarea
minimă minJ să fie identică.
Toate cele trei filtre adaptive au 11M coeficienţi iar paşii algoritmilor au
valorile: 0,06 în cazul LMS standard, 0,08 pentru algoritmul LMS-DCT
respectiv 0,002 pentru ajustarea coeficienţilor de reflexie ai celulelor lattice şi
0,06 pentru ajustarea coeficienţilor structurii în scară în cazul algoritmului
LMS-GAL. Rezultatele prezentate în Figura 8.11 este obţinut în urma medierii a
300 de rulări distincte.
Examinând Figura 8.11, constatăm că performanţele algoritmului LMS-GAL sunt tot
aşa de bune ca performanţele celui mai bun algoritm LMS cu transformare de domeniu,
fiind net superioare performanţelor algoritmului LMS standard. Aceste performanţe bune
sunt obţinute cu preţul unei complexităţi mult mai ridicate a calculelor şi a dificultăţii
evidente de a trebui să controlezi algoritmul prin intermediul a doi parametri distincţi de pas.
Figura 8.11 Compararea performanţelor algoritmilor LMS-GAL,
LMS-DCT şi LMS standard din punctul de vedere al
evoluţiei EPM.
258 ALGORITMI DERIVAŢI DIN ALGORITMUL LMS - 8
Probleme
P 8.1 Algoritmul LMS cu semnul erorii este utilizat pentru a face predicţia înainte cu un
pas a semnalului sin 3u n n , utilizând un filtru FIR cu trei coeficienţi,
primul coeficient având valoarea fixată la 1, prin minimizarea valorii medii pătra-
tice a lui y n . Calculaţi o valoare adecvată pentru pasul algoritmului , semna-
lul de ieşire al filtrului y n , şi coeficienţii filtrului pentru primele 10 iteraţii.
Valoarea iniţială a coeficienţilor este ˆ 0 1 0 0T w .
P 8.2 Într-o problemă de identificare de sistem, semnalul de intrare este generat de un
proces AR dat de ecuaţia
1,2 1 0,81 2u n u n u n v n
unde v n este zgomot alb gaussian de medie nulă şi varianţă 2 1v . Sistemul
necunoscut are funcţia de transfer
1 2 31 0,9 0,1 0,2H z z z z
Filtrul adaptiv este un filtru transversal cu patru coeficienţi. Utilizând algoritmul
LMS cu semnul erorii implementat în MATLAB:
(a) Să se aleagă o valoare adecvată pentru , apoi să se ruleze un ansamblu de 20 de
experimente şi să se reprezinte curba de învăţare mediată a algoritmului.
(b) Să se măsoare EPM în exces şi să se compare rezultatul cu valoarea teoretică.
P 8.3 Expresia algoritmului LMS cu „pierderi” (leaky-LMS) (Manolakis, ş.a. 2005) este
*ˆ ˆ1 1n n e n n w w u
unde coeficientul de pierderi este 0 1 .
(a) Arătaţi că ecuaţia de recursie a coeficienţilor poate fi obţinută prin minimizarea
funcţiei de cost
2 2
ˆJ n e n n w
unde eroarea se defineşte ca de obicei: ˆ He n d n n n w u .
(b) Utilizând ipoteza de independenţă, arătaţi că
ˆ ˆ 1E n E n w I R I w p
unde HE n n R u u şi *E n e n p u .
(c) Arătaţi că dacă max0 2 , unde max este cea mai mare valoare
proprie a lui R, atunci
ALGORITMI DERIVAŢI DIN ALGORITMUL LMS Probleme 259
1
ˆlimn
E n
w R I p
ceea ce înseamnă că, în regim staţionar, 1ˆoE w w R p .
P 8.4 Repetaţi problema P 8.2 utilizând algoritmul LMS normalizat.
P 8.5 Să considerăm secvenţa sinusoidală înecată în zgomot
sind n a n v n
unde v n este o secvenţă de zgomot. Frecvenţa este cunoscută apriori, ampli-
tudinea a şi faza sunt necunoscute. Pentru a obţine o estimare a acestor parame-
tri, se alege un filtru FIR cu doi coeficienţi la intrarea căruia se aplică semnalul
sinu n n şi ale cărui ponderi sunt astfel adaptate încât diferenţa dintre d n
şi ieşirea filtrului y n să fie minimizată în sensul celor mai mici pătrate. Ieşirea
filtrului y n este, în aceste condiţii, estimarea „nezgomotoasă” a secvenţei
sinusoidale obţinută prin algoritmul LMS.
(a) Utilizând mediile temporale, găsiţi matricea de corelaţie R a semnalului de intrare.
(b) Determinaţi pasul algoritmului LMS care să permită realizarea unei dezadaptări
5%M .
(c) Pentru valoarea pasului determinată la punctul (b), stabiliţi constantele de timp
ale curbei de învăţare a filtrului şi arătaţi că convergenţa algoritmului LMS devine
mai lentă pe măsură ce descreşte.
(d) Arătaţi că problema convergenţei lente a algoritmului LMS poate fi rezolvată dacă
se utilizează un algoritm TDAF cu matricea de transformare
1 11
1 12T
P 8.6 Repetaţi problema P 8.2 utilizând algoritmul cu transformare de domeniu LMS-
DCT. Comparaţi rezultatele cu cele obţinute la P 8.2 şi P 8.4.
P 8.7 Utilizaţi algoritmul de proiecţie afină cu 3K pentru a egaliza un canal de
comunicaţii cu funcţia de transfer
1 20,34 0,27 0,87 0,43 0,34 0,21H z j j z j z
Semnalul de intrare este de tip QAM cu patru simboluri, reprezentând secvenţe
binare generate aleator cu RSZ la receptor 2 2
ˆ 20u v , unde u n este semnalul
util recepţionat fără a lua în considerare zgomotul adiţional de pe canal, v n .
Filtrul adaptiv are 10 coeficienţi. Se va utiliza MATLAB în rezolvare.
(a) Rulaţi algoritmul pentru 0,1 0,4 0,8şi . Faceţi comentarii cu
privire la convergenţă pentru fiecare caz.
260 ALGORITMI DERIVAŢI DIN ALGORITMUL LMS - 8
(b) Reprezentaţi părţile reale şi părţile imaginare ale semnalului recepţionat înainte şi
după egalizare.
(c) Măriţi numărul de coeficienţi la 20 şi repetaţi experimentul de la punctul (b).
P 8.8 Repetaţi problema P 8.7 în cazul utilizării algoritmului LMS normalizat.
P 8.9 O modificare a algoritmului LMS cunoscută sub numele de MLMS (momentum
LMS) este definită prin:
*1 1 2n n e n n n n w w u u u
unde 1 (Manolakis, ş.a. 2005).
(a) Rescrieţi ecuaţia de mai sus pentru a demonstra că algoritmul are structura unui
filtru trece-jos (0 1 ) sau trece-sus ( 1 0 ).
(b) Explicaţi intuitiv efectul termenului de „moment” 1 2n n u u asupra
convergenţei algoritmului.
(c) Repetaţi experimentul cu egalizorul adaptiv din Exemplul 7.4, utilizând atât LMS
cât şi MLMS pentru a compara performanţele în următoarele cazuri:
i. 3,1 0,01 0,5.LMS MLMSW
ii. 3,1 0,04 0,01 0,5.LMS MLMSW
iii. 3,1 0,04 0,2.LMS MLMSW
iv. 4,0 0,03 0,3.LMS MLMSW
9 Metoda celor mai mici
pătrate
roblema realizării unui filtru care să estimeze un semnal dorit pe baza unui alt semnal
poate fi formulată atât din punct de vedere statistic cât şi determinist. Până acum,
începând cu Capitolul 4 al acestei cărţi, a fost examinat punctul de vedere statistic.
Filtrul Wiener şi versiunea sa adaptivă (algoritmul LMS şi algoritmii derivaţi din acesta)
reprezintă abordarea statistică a acestui proces, întrucât realizarea filtrului se bazează pe
minimizarea unei mărimi statistice, eroarea pătratică medie (EPM). În continuare, vom
examina metoda bazată pe abordarea deterministă şi care conduce la o clasă distinctă de
algoritmi adaptivi. Este vorba de metoda celor mai mici pătrate (LS – Least Squares în lite-
ratura de limbă engleză).
Metoda celor mai mici pătrate se constituie într-o alternativă la teoria filtrării optimale.
În principiu, filtrele Wiener se obţin, pornind de la medii statistice, cu rezultatul că filtrul
este optim din punct de vedere probabilistic în raport cu toate realizările procesului aleator
presupus staţionar în sens larg. Pe de altă parte, abordarea pe care o realizează metoda celor
mai mici pătrate este deterministă, pentru că utilizează medii temporale, ceea ce are drept
consecinţă faptul că filtrul depinde de numărul şi valoarea eşantioanelor luate în considerare.
9.1 Formularea problemei celor mai mici
pătrate
9.1.1 Ecuaţia matricială a erorii
Pornim de la structura generală de combinator linear adaptiv din Figura 9.1. Datele de intra-
re ale problemei care trebuie rezolvată sunt: setul de vectori de valoare complexă ai semna-
lelor de intrare 0 1 1
T
Mn u n u n u n u şi secvenţa de semnal dorit de valoa-
re complexă d n cunoscute pentru momentele de timp 0 1n N . La momentul de
Capitolul
9
P
262 METODA CELOR MAI MICI PĂTRATE - 9
timp curent, coeficienţii filtrului formează vectorul 0 1
T
Mn w n w n w .
Ieşirea filtrului este dată de produsul scalar al vectorilor nw şi nu :
1
*
0
MH
i i
i
y n n n w n u n
w u (9.1)
Trebuie remarcat aici că elementele vectorului de intrare nu au fost specificate în mod
special, ceea ce înseamnă că acestea pot fi atât eşantioane succesive ale unui proces de intra-
re particular, aşa cum se întâmplă în cazul filtrelor FIR cât şi eşantioane ale unui set paralel
de semnale de intrare ca în cazul reţelelor de antene . În cazul uzual al structurii de filtrare cu
filtru FIR, expresia vectorilor de intrare devine 1 ,T
n u n u n M u
0 1n N .
Ca şi în cazul filtrului optimal Wiener-Hopf, problema LS constă în estimarea răspunsu-
lui dorit d n de către semnalul de ieşire al combinatorului linear y n . Eroarea de
estimare este definită prin
He n d n y n d n n n w u (9.2)
iar coeficienţii structurii lineare din Figura 9.1 sunt astfel determinaţi încât să fie minimizată
funcţia de cost, care este în acest caz suma pătratelor erorilor definită prin
1
2
0
N
ń
E e n
(9.3)
Se observă că expresia (9.3) reprezintă energia semnalului de eroare. Pentru ca minimizarea
să fie posibilă, vectorul coeficienţilor nw va fi menţinut constant pe perioada de timp pe
care s-a efectuat măsurătoarea: 0 1n N . Vectorul constant LSw care rezultă în acest
proces de optimizare depinde de setul de valori măsurate şi poartă numele de estimator
linear de eroare LS.
Figura 9.1 Structura de combinator linear utilizată la
formularea problemei celor mai mici pătrate.
9.1 Formularea problemei celor mai mici pătrate 263
Expresia erorii de estimare poate fi scrisă matricial, dacă pornind de la relaţia
* * He n d n n u w , exprimăm semnalul de eroare e n pentru momentele de timp
0,1, , 1n N astfel:
0 0 0
1 1 1
1 1 1
H
H
H
e d
e d
e N d N N
u w
u w
u w
(9.4)
Se introduc vectorii
0 1 1
0 1 1
0 1 1
H
H
H
e e e N
d d d N
y y y N
e
d
y
(9.5)
şi matricea de dimensiune N M
0 0 0
1 1 1
1 1 1
0 1 1
0 1 10 1 1
0 1 1
H
H
M M M
u u u N
u u u NN
u u u N
A u u u (9.6)
Prin urmare, ecuaţiile (9.4) se exprimă matricial astfel
e d y d Aw (9.7)
Matricea de date A poate fi partiţionată atât după coloane cât şi după linii, după cum
urmează
0 1 1
0
1
1
H
H
M
H N
u
uA u u u
u
(9.8)
unde coloanele ku ale lui A
0 1 1 , 0 1H
k k k ku u u N k M u
sunt denumite înregistrări de date iar liniile
0 1 1 , 0 1T
Mn u n u n u n n N u
poartă numele de înregistrări instantanee. Ambele modalităţi de partiţie a matricii de date,
ilustrate în Figura 9.2 sunt utile în deducerea, interpretarea şi calculul estimatorilor metodei
celor mai mici pătrate. Coloanele matricii de date A (înregistrări de date) sunt înregistrări
264 METODA CELOR MAI MICI PĂTRATE - 9
ale datelor colectate pe fiecare intrare a structurii de filtrare, în timp ce fiecare linie a acesteia
(înregistrare instantanee) conţine eşantioane ale tuturor intrărilor luate la un moment
specificat de timp.
Metoda celor mai mici pătrate definită prin ecuaţia (9.7) operează pe blocuri de date,
ceea ce înseamnă că prelucrează la un moment dat un cadru de N înregistrări instantanee
succesive utilizând etapele prezentate în Figura 9.3. Semnalele de intrare sunt asamblate în
cadre de N înregistrări instantanee, suprapunerea a două cadre succesive fiind de 0N
eşantioane. Valorile lui N şi 0N depind de aplicaţie.
Impunând în ecuaţia (9.7) condiţia e 0 , se ajunge la un sistem de N ecuaţii cu M
necunoscute. Dacă N M , atunci (9.7) are, de obicei, o soluţie unică. Pentru N M ,
avem un sistem de ecuaţii lineare supradeterminat, care, în mod tipic, nu are soluţie. Din
contră, dacă N M , sistemul de ecuaţii este subdeterminat, având o infinitate de soluţii.
Totuşi, indiferent dacă M N sau N M , sistemul (9.7) are prin metoda LS o soluţie
unică, naturală. În continuare, ne vom axa atenţia asupra sistemelor supradeterminate,
pentru că ele joacă un rol foarte important în aplicaţiile practice.
Figura 9.2 Reprezentarea grafică a vectorilor şi matricii care intervin în
ecuaţia matricială a erorii de estimare (9.7).
Figura 9.3 Implementarea la nivel de schemă bloc a metodei celor mai mici pătrate.
9.1 Formularea problemei celor mai mici pătrate 265
9.1.2 Deducerea algebrică a ecuaţiilor normale în
metoda LS
Energia erorii (sau alternativ, funcţia de cost) pentru estimarea după cele mai mici pătrate
efectuată pe structura de filtrare liniară din Figura 9.1 este dată de pătratul normei vectorului
de estimare definit prin ecuaţia (9.7):
2
ˆˆ ˆ
H H H H
H H H H H H
H H H
d
E
E
e e e d w A d Aw
d d w A d d Aw w A Aw
w p p w w Rw
(9.9)
unde: 1
2
0
NH
d
n
E d n
d d (9.10)
1
0
ˆN
H H
n
n n
R A A u u (9.11)
1
*
0
ˆN
H
n
n d n
p A d u (9.12)
Dacă împărţim mărimile definite prin relaţiile (9.10)-(9.12) la numărul de eşantioane de date
N atunci observăm că mărimile ˆ,dE R şi p reprezintă estimări mediate în timp ale puterii
răspunsului dorit 2
d , ale matricii de corelaţie a vectorului de date de intrare R, respectiv ale
vectorului de intercorelaţie dintre răspunsul dorit şi vectorul de date, p.
Concluzia observaţiei de mai sus este evidentă şi se referă la faptul că toate formulele
obţinute prin aplicarea criteriului erorii pătratice medii (EPM) minime în cazul filtrării
optimale Wiener-Hopf rămân valabile şi în cazul metodei celor mai mici pătrate (LS) dacă
se înlocuieşte media statistică E prin operatorul de mediere temporală
1
01
N
nN
(Manolakis, ş.a. 2005). Acest lucru rezultă din faptul că ambele criterii de
minimizare conduc la funcţii de cost pătratice. Având în vedere această echivalenţă dintre
cele două abordări ale problemei filtrării adaptive, vom trece în continuare la deducerea
ecuaţiilor normale ale metodei LS.
Valoarea vectorului LSw al coeficienţilor combinatorului linear din Figura 9.1 care
minimizează expresia energiei erorii din relaţia (9.9) se obţine prin egalarea cu zero a
gradientului complex al lui E calculat în raport cu vectorul coeficienţilor:
ˆˆ2 2 2 2H HE w A d A Aw p Rw 0 (9.13)
Vom concluziona, prin analogie cu cazul filtrului optimal din paragraful 4.3, că coefi-
cienţii estimatorului LS, LSw , sunt daţi de soluţia ecuaţiei normale:
ˆ ˆLS Rw p (9.14)
266 METODA CELOR MAI MICI PĂTRATE - 9
Înlocuim soluţia (9.14) în expresia sumei pătratelor erorii pentru a stabili valoarea
minimă a acesteia, LSE :
1ˆˆ ˆ ˆH H
LS LS d d LSE E E E w p R p p w (9.15)
În ceea ce priveşte rezolvarea problemei celor mai mici pătrate prin relaţia (9.14),
trebuie subliniat că din punct de vedere a efortului de calcul, acesta este mai mare la forma-
rea ecuaţiilor normale decât în rezolvarea lor. Într-adevăr, în cazul în care R este o matrice
pozitiv definită, soluţia ecuaţiilor normale poate fi obţinută prin descompunerea HLDL sau
prin factorizarea Cholesky ca în paragraful 4.5. În schimb, calculul unui singur element, íjr ,
al estimării mediate în timp a matricii de corelaţie R presupune efectuarea produsului scalar
al doi vectori cu N elemente:
1
*
0
ˆ , 0,1, , 1; 1N
H
ij i j i j
n
r u n u n i M i j M
u u (9.16)
Matricea R fiind hermitică, doar elementele situate în partea superior triunghiulară a aceste-
ia trebuiesc calculate, adică sunt necesare 1 2M M N operaţiuni aritmetice pentru
formarea acesteia. La acestea se adaugă şi efortul necesar pentru calcularea membrului drept
al ecuaţiei (9.14) care constă din M produse scalare de tipul
1
*
0
ˆ , 0,1, 1N
H
i i i
n
p u n y n i M
u y , (9.17)
adică alte MN operaţii aritmetice.
9.1.3 Interpretarea geometrică a estimării prin
metoda celor mai mici pătrate
Pentru a da o interpretare geometrică a acţiunii metodei LS, trebuie să privim mărimile ce
intervin în ecuaţia vectorială a erorii (9.7), ,y d şi A drept vectori şi hiperplane plasate într-
un spaţiu N-dimensional înzestrat cu produs scalar şi lungime (normă), definite prin:
1
*
0
,N
H
i j i j i j
n
u n u n
u u u u (9.18)
şi, respectiv 1
2
0
,N
u
n
u n E
u u u (9.19)
Estimarea prin metoda LS a răspunsului dorit pe intervalul de timp 0, 1N este conţinută
în vectorul semnalului de ieşire
,
1
ˆM
LS LS LS k k
k
w
y w d Aw u (9.20)
care este o combinaţie lineară de înregistrări de date ku .
9.1 Formularea problemei celor mai mici pătrate 267
Cei M vectori ku definesc un subspaţiu M-dimensional, denumit spaţiu de estimare,
care este spaţiul definit de coloanele matricii de date A . Ceea ce este evident este faptul că
orice vector y este plasat în spaţiul de estimare pentru că este combinaţie lineară de ku , în
timp ce vectorul răspunsului dorit d se găseşte în general în afara spaţiului de estimare.
Figura 9.4 ilustrează modul în care are loc estimarea LS pentru cazul 2 şi N=3M .
Vectorul de eroare e uneşte în figură vârful vectorului estimării LS, d cu vârful vectorului
semnalului dorit, d . Pătratul lungimii lui e este minim atunci când e este perpendicular pe
spaţiul de estimare, adică pentru 0 1k k M e u .
Afirmaţia anterioară se constituie în principiul ortogonalităţii a cărui formulare mate-
matică este:
1
0
, 0, 0 1N
H
k k k
n
u n e n k M
u e u e (9.21)
sau, mai compact H H
LS A e A y Aw 0
sau: H H
LS A A w A d (9.22)
în care recunoaştem ecuaţiile normale (9.14) ale estimării optime în sens LS.
O consecinţă imediată a principiului enunţat prin ecuaţia (9.21) este corolarul principiului
ortogonalităţii. Acesta rezultă din observaţia că vectorul e este ortogonal pe orice vector din
subspaţiul de estimare, deci, în particular, şi pe vectorul eşantioanelor ieşirii structurii de
filtrare ce are ponderile optimizate în sens LS:
1
0
ˆˆ ˆ, 0N
H
n
d n e n
d e d e (9.23)
Soluţia problemei celor mai mici pătrate separă vectorul de răspuns dorit d în două
componente ortogonale, şi anume vectorul semnalului de ieşire optimizat în sens LS
ˆLS y w d şi vectorul de eroare LSe . Prin urmare:
22 2ˆ
LS d d e (9.24)
0u 1u
,0 0LSw u ,1 1LSw u
d
d
ˆLS e d d
Figura 9.4 Interpretarea geometrică a estimării prin metoda LS pentru
cazul 3N (dimensiunea spaţiului datelor) şi 2M (dimen-
siunea subspaţiului de estimare).
268 METODA CELOR MAI MICI PĂTRATE - 9
şi, utilizând relaţiile (9.18) şi (9.19), avem
H H H H
LS d LS LS d LSE E E w A Aw w A d (9.25)
ceea ce este identic cu relaţia (9.15).
9.1.4 Proprietăţi ale soluţiei problemei celor mai mici
pătrate
Soluţia unui sistem de ecuaţii normale în sens LS există şi este unică. Condiţia ca aceste
afirmaţii să fie corecte este ca matricea de corelaţie mediată în timp definită prin ˆ HR A A
să fie inversabilă. Vom arăta în continuare că pentru ca condiţia enunţată să fie îndeplinită
trebuie ca vectorii coloană ku ai matricii A să fie linear independenţi sau echivalent, matri-
cea R să fie pozitiv definită.
Condiţiile enunţate mai sus sunt atât necesare cât şi suficiente. Pentru a demonstra
acestea, vom considera pentru început că coloanele lui A sunt liniar independente, ceea ce
are drept consecinţă că pentru orice vector z 0 , produsul Az 0 . Consecinţa este că
pentru orice z 0 ,
2
0HH H z A A z Az Az Az
cu alte cuvinte, matricea este pozitiv definită şi, în consecinţă nesingulară. În schimb, dacă
coloanele lui A sunt linear dependente atunci există cel puţin un vector 0 z 0 astfel încât
0 Az 0 . Prin urmare, 0
H A Az 0 , ceea ce înseamnă că matricea ˆ HR A A este
singulară.
Pentru ca o matrice să aibă coloane liniar independente, numărul de linii trebuie să fie
mai mare sau egal cu numărul de coloane; altfel spus, trebuie să existe mai multe ecuaţii
decât necunoscute. În concluzie, o problemă LS supradeterminată ( N M ) are soluţia
unică (9.14) dacă matricea de corelaţie mediată în timp R este pozitiv definită sau echi-
valent, dacă coloanele matricii de date A sunt liniar independente (Manolakis, ş.a. 2005).
În condiţiile de mai sus, soluţia problemei celor mai mici pătrate se exprimă sub forma
1
1ˆ ˆ H H
LS
w R p A A A d A d (9.26)
unde: 1
H H
A A A A (9.27)
este o matrice de dimensiune M N cunoscută sub numele de pseudo-inversa matricii A
(Golub şi Van_Loan 1996).
Estimarea lui d prin metoda celor mai mici pătrate pe care ieşirea structurii de filtrare
din Figura 9.1, ˆLS y w d , o furnizează, poate fi exprimată prin
ˆ d Pd (9.28)
unde: 1
H H
P A A A A (9.29)
9.1 Formularea problemei celor mai mici pătrate 269
poartă numele de matrice de proiecţie pentru că aceasta realizează proiecţia vectorului de
răspuns dorit d pe subspaţiul coloanelor matricii A pentru a forma estimarea LS d a lui
d . În mod similar, vectorul de eroare al estimării LS LSe poate fi exprimat sub forma
LS e I P d (9.30)
unde I este matricea identitate de dimensiune N N . Matricea de proiecţie P este
hermitică. şi idempotentă, adică
HP P (9.31)
şi, respectiv 2 H P P P P (9.32)
9.1.5 Ecuaţiile LS normale ponderate
Rezultatele din paragraful precedent au fost obţinute prin utilizarea unei forme a criteriului
LS care acordă fiecărui eşantion a semnalului de eroare e n o pondere egală. Sunt situaţii
în care bazându-ne pe informaţii apriori, am putea dori să acordăm o pondere mai mare unor
anumite eşantioane ale semnalului de eroare prin utilizarea variantei ponderate a criteriului
LS:
1
2
0
NH
n
E n e n
e Λe (9.33)
unde diag 0 , 1 , , 1N Λ (9.34)
este o matrice de ponderare diagonală ce are elemente pozitive. De obicei, se aleg ponderi
reduse acolo unde erorile sunt mari şi viceversa. Minimizarea funcţiei de cost E în raport
cu coeficienţii structurii de filtrare w , conduce la definirea soluţiei ponderate a problemei
celor mai mici pătrate (Weighted LS ~ WLS)
1
H H
LS
w A ΛA A Λd (9.35)
în ipoteza că inversa lui HA ΛA există. De remarcat că dacă Λ I , atunci LS LS w w .
Exemplul 9.1 Se cere estimarea prin metoda celor mai mici pătrate a secvenţei
de semnal dorit 0 1 2T
d pe baza înregistrărilor de date 0 2 2 0T
u ,
1 1 4 3T
u . Să se determine coeficienţii filtrului optimal LS, estimarea LS d ,
vectorul de eroare minimă LSe şi valoarea minimă a energiei erorii LSE .
Soluţie: Pentru început, calculăm
2 1 02 2 0 8 10 2 2 0 2
ˆ ˆ2 4 , 11 4 3 10 26 1 4 3 10
0 3 2
T T
R A A p A d
iar apoi rezolvăm ecuaţia normală (9.14) pentru vectorul coeficienţilor LSw
270 METODA CELOR MAI MICI PĂTRATE - 9
113 54 5 54 2 4 9
ˆ ˆ5 54 2 27 10 5 9
LS
w R p ,
şi secvenţele de ieşire ale filtrului d şi de eroare LSe :
2 1 1 3 1 34 9
ˆ ˆ2 4 4 3 , 1 35 9
0 3 5 3 1 3
LS LS
d Aw e d d
Valoarea funcţiei de cost pentru această estimare LS poate fi obţinută şi direct,
având în vedere că 2
LS LSE e dar şi din (9.15):
4 9 1
ˆ 5 2 105 9 3
T H
LS LSE
d d p w
Calculele pot fi realizate alternativ, utilizând matricea de proiecţie:
1
2 3 1 3 1 3
1 3 2 3 1 3
1 3 1 3 2 3
H H
P A A A A
De exemplu: ˆ 1 3 4 3 5 3T
d Pd .
În sfârşit, soluţia obţinută verifică principiul de ortogonalitate împreună cu
corolarul său: 0 1ˆ 0T T T
LS LS LS u e u e d e .
Pachetul de programe MATLAB oferă multiple posibilităţi de rezolvare a problemei
celor mai mici pătrate. Operaţiunea de divizare la stânga X\y este soluţia în sensul celor mai
mici pătrate a unui sistem de ecuaţii supradeterminat unde X este o matrice pătrată M N
iar y vector coloană de lungime , N M N . În acelaşi scop este folosită şi funcţia w =
lscov(X,y). De exemplu, soluţia în Exemplul 9.1, se obţine prin comanda w =
lscov(A,d), unde A este matricea de date iar d vectorul răspunsului dorit.
9.1.6 Proprietăţile statistice ale estimatorilor LS
Studiul proprietăţilor statistice ale estimării prin metoda celor mai mici pătrate ne permite să
evaluăm calitatea acesteia. Pentru a efectua acest studiu, vom presupune că semnalul dorit
d este generat de procesul aleator
o o d Aw e (9.36)
unde oe este vectorul aleator al erorilor de măsurare iar ow poate fi privit drept valoarea
„corectă” a vectorului coeficienţilor. Dacă se înlocuieşte relaţia (9.36) în ecuaţia normală
(9.22), coeficienţii estimatorului LS, LSw , se exprimă în funcţie de parametrii lui d :
1
H H
LS o o
w w A A A e (9.37)
9.1 Formularea problemei celor mai mici pătrate 271
Pentru analiza efectuată vom considera că A este o matrice de constante iar pentru
vectorul de zgomot oe , vom admite următoarele:
1. este de medie nulă: oE e 0 , (9.38)
2. are componente necorelate de varianţă constantă 2
o . Expresia matricii de corelaţie
a vectorului oe este:
2H
o o o oE R e e I , (9.39)
3. nu este corelat cu matricea de date A .
Pentru început, vom calcula media statistică a coeficienţilor filtrului LS. Aplicând
operatorul de mediere relaţiei (9.37), obţinem:
1
H H
LS o o oE E E
w w A A A e w (9.40)
pentru că A este deterministă iar oE e 0 . Concluzia este că estimatorul în sensul celor
mai mici pătrate LSw realizează o estimare „nedeplasată” a vectorului
ow (Haykin 1996).
Evaluăm în continuare matricea de covarianţă a coeficienţilor estimatorului LS, LSΓ ,
utilizând relaţiile (9.37) şi (9.39):
1 1 1
2 2 1ˆ
H
LS LS o LS o
H H H H H
o o o o
E
E
Γ w w w w
A A A e e A A A A A R
(9.41)
Este interesant de remarcat că în cazul estimării în sensul celor mai mici pătrate a para-
metrilor semnalului, energia erorii de estimare LSE poate servi pentru a face o estimare
nedeplasată a varianţei vectorului erorii de măsurare 2
o . În acest sens, vom nota prin N
numărul de observaţii efectuate şi prin M numărul de coeficienţi ai filtrului LS de estimare.
Utilizând relaţiile (9.30) şi (9.36), se scrie:
1
H H
LS o o o o
e I P d Aw A A A A A w I P e I P e (9.42)
ceea ce, având în vedere relaţia (9.32), conduce la
HH H H
LS LS LS o o o oE e e e I P I P e e I P e (9.43)
Pentru că LSE depinde de oe , ea este o variabilă aleatoare ce are valoarea medie:
2
tr
tr tr
H H
LS o o o o
H
o o o
E E E E
E
e I P e I P e e
I P e e I P (9.44)
În relaţia anterioară s-a avut în vedere că tr trAB BA , tr fiind funcţia matricială
urmă. De asemenea,
272 METODA CELOR MAI MICI PĂTRATE - 9
1 1
1
tr tr tr
tr tr tr tr
H H H H
N
H H
N N M N M
I P I A A A A I A A A A
I A A A A I I
(9.45)
Rezultă prin urmare: 2 LS
o
E E
N M
(9.46)
Relaţia (9.46) dovedeşte că energia erorii de estimare în sens LS, LSE , reprezintă un
estimator „nedeplasat” al varianţei vectorului erorii de măsurare, 2
o (Manolakis, ş.a.
2005).
9.2 Filtre FIR realizate prin metoda celor
mai mici pătrate
În paragraful precedent am prezentat teoria generală a estimatorilor LS. În continuare, vom
aplica aceste rezultate la definirea şi proiectarea prin metoda celor mai mici pătrate a filtrelor
FIR lineare. Configuraţia de filtrare adaptivă din Figura 9.5 constituie o adaptare a structurii
generale din Figura 9.1 la cazul particular considerat. Ieşirea filtrului y n realizează esti-
marea în sens LS d n a răspunsului dorit d n folosind eşantioanele semnalului de intrare
u n . Reamintim că expresia secvenţei de eroare este
1
*
0
MH
k
k
e n d n n n d n w u n k
w u (9.47)
unde 1 1T
n u n u n u n M u iar 0 1 1
T
Mw w w w este
vectorul coeficienţilor filtrului FIR.
Figura 9.5 Configuraţie de filtru transversal linear utilizat la
ilustrarea estimării LS în cazul filtrării FIR.
9.2 Filtre FIR realizate prin metoda celor mai mici pătrate 273
Vom face presupunerea că estimarea LS se face prin utilizarea înregistrărilor semnalului
de intrare u n şi ale răspunsului dorit d n efectuate pe intervalul de timp 0 1n N .
Pe toată această perioadă, coeficienţii filtrului kw , 0 1k M , sunt menţinuţi constanţi
iar orice eşantioane de date situate în afara intervalului stabilit sunt considerate nule. De
exemplu la momentul 0n , adică atunci când se efectuează prima măsurătoare, 0u ,
pentru a calcula 0y , filtrul are nevoie de eşantioanele 0 , 1 , , 1u u u M .
Întrucât eşantioanele 1 , , 1u u M nu sunt disponibile, pentru ca filtrul să funcţio-
neze, va trebui ori să se atribuie valori arbitrare acestor eşantioane ori operaţia de filtrare să
debuteze cu momentul 1n M . Într-adevăr, pentru 1 1M n N sunt disponibile
toate eşantioanele u n şi d n necesare pentru calcularea semnalelor de ieşire şi eroare
y n şi , 1 1e n M n N . Pe de altă parte, dacă am dori ca filtrul să continue să
calculeze semnalul de ieşire până în momentul în care ultimul eşantion memorat 1u N
ar părăsi memoria filtrului, ar trebui ca operaţia de filtrare să continue până la momentul
2n N M . Şi în această situaţie ar trebui să se atribuie valori arbitrare eşantioanelor
de care nu se dispune: , 2u N u N M . Cel mai frecvent se atribuie valoarea zero
eşantioanelor care lipsesc din înregistrări, operaţie care poate fi privită drept decupare cu o
fereastră dreptunghiulară a secvenţelor u n şi d n . Pentru simplificarea argumentării,
vom ilustra operaţiunea de filtrare pentru cazul 7N şi 3M , scriind ecuaţia (9.47)
pentru 0,1, , 2n N M şi aranjând rezultatul în formă matricială:
sau, în general: e d Aw (9.48)
Forma generală a mărimilor ,e d şi A depinde de domeniul i fN n N pe care se măsoa-
ră în criteriul LS energia erorii:
2
f
i
N
H
n N
E e n
e e (9.49)
274 METODA CELOR MAI MICI PĂTRATE - 9
Filtrul FIR optimizat în sensul celor mai mici pătrate se determină prin rezolvarea
ecuaţiilor normale ale estimatorului LS
ˆ ˆsauH H
LS LS A A w A d Rw p (9.50)
Valoarea minimă a energiei erorii are expresia
ˆ H
LS d LSE E p w (9.15)
unde dE este energia semnalului de răspuns dorit.
Spre deosebire de cazul general de estimator LS tratat în paragraful precedent, există o
serie de diferenţe în cazul descrierii filtrului FIR LS datorate faptului că în acest ultim caz,
coloanele matricii A sunt replici deplasate ale primei coloane. Astfel, elementele matricii
de corelaţie mediate în timp R sunt date de
*ˆ 1 1 , 1 ,f
i
N
H
ij i j
n N
r u n i u n j i j M
u u (9.51)
unde iu sunt coloane ale matricii de date A . O simplă manipulare a expresiei (9.51)
conduce la o relaţie care stabileşte o legătură între elementele matricii R ce sunt localizate
pe aceiaşi diagonală:
* *
1, 1ˆ ˆ 1 1 , 1 ,i j ij i i f fr r u N i u N j u N i u N j i j M
(9.52)
Utilizarea recursiei (9.52) permite reducerea semnificativă a volumului de calcul pe care îl
necesită calcularea matricii R (Manolakis, ş.a. 2005).
Există patru modalităţi de alegere a intervalului de timp i fN n N pe care se fac
însumările pentru filtrele FIR cu estimare LS:
Fără decupare (No windowing): Limitele de sumare sunt 1iN M şi
1fN N . În acest caz, se utilizează numai datele disponibile şi nu există
distorsiuni datorate includerii în calcul a unor date cu valori artificiale.
Cu predecupare (Prewindowing): Limitele de sumare sunt 0iN şi 1fN N ,
ceea ce înseamnă forţarea 1 1 0u u M . Drept urmare, termenul
*u M i u M j dispare din relaţia (9.52). Este o metodă utilizată pe larg în
filtrarea adaptivă LS.
Cu postdecupare (Postwindowing): Însumarea se face între 1iN M şi
2fN N M , cu consecinţa că 2 0u N u N M . Drept urmare,
termenul *u M i u M j dispare din relaţia (9.52). Metoda este puţin utilizată
în practică.
Cu decupare completă (Full windowing): Metoda combină cele două proceduri
anterioare, domeniul de sumare fiind cuprins între 0iN şi 2fN N M şi are
9.3 Tehnici de ortogonalizare utilizate în calculul estimării LS 275
drept consecinţă reducerea ecuaţiei (9.52) la egalitatea 1, 1ˆ ˆi j ijr r . Drept urmare,
elementele ijr depind doar de diferenţa i j iar matricea R este Toeplitz.
Este evident că pentru N M , diferenţele dintre performanţele diverselor metode
devin nesemnificative. Metodele no-windowing şi full-windowing sunt cunoscute în literatu-
ră sub numele de metoda de autocorelaţie respectiv metoda de covarianţă (Makhoul 1975).
Evităm utilizarea acestor termeni pentru că pot conduce la confuzii.
9.3 Tehnici de ortogonalizare utilizate în
calculul estimării LS
9.3.1 Factorizarea QR
Rezolvarea problemei celor mai mici pătrate presupune rezolvarea ecuaţiei normale (9.14)
care necesită mai întâi calcularea matricii de corelaţie mediată în timp ˆ ˆˆ HR A A şi a vecto-
rului de intercorelaţie mediat în timp ˆ Hp A d din datele A şi d . Deşi această abordare
este larg utilizată în practică, există unele aplicaţii care necesită metode de rezolvare cu
proprietăţi numerice mai bune. Atunci când consideraţiile privind precizia numerică prezintă
un interes major, tehnicile de ortogonalizare discutate în acest paragraf şi descompunerea în
valori singulare ce constituie obiectul următorului paragraf sunt metode care oferă perfor-
manţe superioare în rezolvarea problemei LS.
Transformarea ortogonală este o schimbare liniară de variabilă care nu modifică
lungimea vectorului:
y Qx (9.53)
unde şi y x sunt doi vectori oarecare iar Q o matrice ortogonală, adică
1 H H Q Q QQ I (9.54)
Din această proprietate, se poate vedea simplu că multiplicarea unui vector cu o matrice
ortogonală nu schimbă lungimea vectorului:
2 2H H H H y y y x Q Qx x x x (9.55)
Drept urmare, utilizarea transformărilor ortogonale nu amplifică erorile de rotunjire în
calcule, conducând la algoritmi care sunt numeric mai precişi. Există două căi de folosire a
tehnicilor de ortogonalizare în rezolvarea problemei LS:
Utilizarea matricilor ortogonale pentru a transforma matricea de date A într-o
formă care simplifică soluţia ecuaţiilor normale fără a afecta matricea ˆ ˆˆ HR A A .
Oricare ar fi matricea ortogonală Q , se scrie:
ˆ ˆ ˆ ˆ ˆ ˆˆH
H H H H H R A A A QQ A Q A Q A (9.56)
276 METODA CELOR MAI MICI PĂTRATE - 9
Evident, această operaţie poate fi repetată de câte ori se doreşte, până când matricea
1 2
HA Q Q ajunge într-o formă care să simplifice problema LS.
Având în vedere că transformările ortogonale conservă lungimea unui vector,
multiplicând vectorul de eroare e d Aw printr-o matrice ortogonală nu se
modifică suma pătratelor erorii. Drept urmare, se poate scrie:
min min min H w w w
e d Aw Q d Aw (9.57)
Astfel, scopul în această abordare este găsirea unei matrici Q care să simplifice
rezolvarea problemei LS.
În cazul factorizării QR se găseşte o matrice ortogonală Q de dimensiune N N care
satisface relaţia
A Q0
R (9.58)
unde, în practică, matricea Q este astfel concepută încât matricea R de dimensiune
M M să fie superior triunghiulară. Utilizând relaţia (9.57), se obţine:
H H H e Q e Q d Q Aw (9.59)
Utilizând partiţionarea 1 2Q Q Q (9.60)
unde 1Q are M coloane, se obţine descompunerea
1A Q R (9.61)
ce este cunoscută sub numele de factorizare QR redusă. Similar şi vectorul de răspuns dorit
d se poate descompune în două componente:
11
22
H
H
H
zQ dz Q d
zQ d (9.62)
unde 1z are M componente iar
2z are N M componente. Înlocuirea relaţiilor (9.61) şi
(9.62) în (9.59) conduce la
11
22
H
H
w zw Q de
z0 Q d
RR (9.63)
Pentru că termenul 2 2
Hz Q d nu depinde de vectorul coeficienţilor w , lungimea lui e
devine minimă dacă se alege LSw w , adică:
1LS w zR (9.64)
şi 2 2
2 2
H
LSE Q d z (9.65)
unde sistemul de ecuaţii superior triunghiular din (9.64) poate fi rezolvat prin substituţie în
ordine inversă (vezi Capitolul 4, paragraful 4.5).
9.3 Tehnici de ortogonalizare utilizate în calculul estimării LS 277
Tabelul 9.1 rezumă etapele rezolvării problemei celor mai mici pătrate prin factorizare
QR.
Exemplul 9.2 Să se rezolve problema LS din Exemplul 9.1 prin metoda factori-
zării QR.
2 2 0
, 0 1 21 4 3
T
T
A d
Soluţie: Se calculează factorizarea QR cu funcţia MATLAB
[Q,R]=qr(A):
0,7071 0,4082 0,5774 2,8284 3,5355
0,7071 0,4082 0,5774 , 0 3,6742
0 0,8165 0,5774 0 0
Q R
Se parcurg în continuare etapele de rezolvare din Tabelul 9.1 utilizând secvenţă de
comenzi MATLAB:
z=Q’*d;
wls=R(1:2,1:2)\z(1:2);
Els=sum(z(3).^2);
Soluţia problemei celor mai mici pătrate este:
0,4444 0,5556 , 0,3333T
LS LSE w
În aplicaţiile care necesită doar calculul vectorului de eroare LSe , nu este necesar să se
rezolve sistemul de ecuaţii triunghiular 1LS w zR . În loc de aceasta, se poate calcula
1. Factorizarea QR
A Q
0
R
2. Transformarea şi partiţionarea lui d
1
2
H
zz Q d
z
3. Substituţie în ordine inversă LSw
1LS w zR
4. Calculul energiei erorii în sens LS 2
2LSE z
5. Calculul erorii prin transformare inversă
2
LS
0e Q
z
Tabelul 9.1 Rezolvarea problemei estimării LS prin metoda factorizării
QR.
278 METODA CELOR MAI MICI PĂTRATE - 9
direct vectorul de eroare prin 2
H
LS e Q 0 z sau comanda MATLAB
e=Q*[zeros(1,M) z2’]’. Această abordare poartă numele de extracţie directă a
erorii (Manolakis, ş.a. 2005) şi joacă un rol important în algoritmii şi structurile de filtrare
adaptivă LS.
Ori de câte ori stabilitatea numerică este importantă (Golub şi Van_Loan 1996), aplica-
rea directă matricii A a metodelor de descompunere ortogonală este de preferat procedurii
de rezolvare a ecuaţiilor normale ce presupune calculul lui R în primă instanţă. Sensibilita-
tea soluţiei LSw la perturbaţii în A şi d depinde de raportul dintre cea mare şi cea mai mică
valoare proprie a lui R , şi nu depinde de algoritmul utilizat la calculul soluţiei.
Există două clase de algoritmi care realizează factorizarea ortogonală:
1. metode care calculează matricea Q (factorizare QR completă): reflexii
Householder şi rotaţii Givens,
2. metode care calculează matricea 1Q (factorizare QR redusă): ortogonalizarea
Gram-Schmidt clasică sau modificată.
Costul unei descompuneri QR prin rotaţii Givens este dublu faţă de costul utilizării reflexii-
lor Householder sau ortogonalizării Gram-Schmidt. Metoda standard pentru calculul factori-
zării QR şi rezolvare a problemei celor mai mici pătrate utilizează transformarea Househol-
der. În schimb, rotaţiile Givens sunt preferate în implementarea filtrelor LS adaptive.
9.3.2 Transformarea (reflexia) Householder
Fie în plan un vector x şi o linie fixă l (vezi Figura 9.6). Dacă x se reflectă în raport cu linia
l, se obţine vectorul y , care este imaginea reflectată a lui x în raport cu l. Este evident că
vectorul x şi reflexia sa y au lungimi egale. Presupunând că x şi y sunt de lungime
nenulă, definim vectorul unitate z situat pe direcţia x y , prin
1
z x yx y
(9.66)
Figura 9.6 Vectorul de reflexie al lui Householder.
9.3 Tehnici de ortogonalizare utilizate în calculul estimării LS 279
Având în vedere că expresia proiecţiei lui x pe z este Hz x z , examinând Figura 9.6,
se obţine:
2 2 2H H H y x z x z x zz x I zz x Hx (9.67)
unde 2 HH I zz (9.68)
În general, orice matrice H de forma (9.68) cu 1z este cunoscută sub numele de refle-
xie Householder sau transformare Householder (Ciochină şi Negrescu 1999) şi are urmă-
toarele proprietăţi:
1H H H H H H H I H H (9.69)
cu alte cuvinte, matricea H este unitară.
Se poate realiza o matrice Householder kH care să lase neschimbate primele 1k
componente ale unui vector dat x , tot odată să modifice componenta k a vectorului şi, în
sfârşit, să anuleze restul de componente, adică să satisfacă relaţia
, 1,2, , 1
,
0, 1, ,
i
i ki
x i k
y y i k
i k N
Hx (9.70)
unde componenta ky urmează să fie determinată. Alegând
1 2
2k
Nj
k i
i k
y x e
(9.71)
unde k este direcţia unghiulară a lui
kx (în caz că kx este o mărime complexă), atât x cât
şi y au aceiaşi lungime. În ceea ce priveşte alegerea semnului lui ky , există două posibili-
tăţi. Având în vedere că calculul lui z prin relaţia (9.66) implică o scădere (ceea ce poate
conduce la probleme numerice serioase atunci când cele două numere au valori apropiate),
se alege semnul negativ, astfel încât întotdeauna ky şi
kx să aibă semne contrare. Aşadar,
k ky x nu este niciodată diferenţa a două numere aproape egale. Prin urmare, utilizând
relaţia (9.66), z se calculează prin expresia
1
0
01
2
kj
k k
k k kk
N
x s es s x
x
x
z (9.72)
280 METODA CELOR MAI MICI PĂTRATE - 9
unde:
1 2
2N
k i
i k
s x
(9.73)
În general, o matrice A de dimensiune N M cu N M , poate fi diagonalizată
printr-o secvenţă de M transformări Householder
2 1M H H H A R (9.74)
sau A QR (9.75)
unde 1 2 MQ H H H (9.76)
Trebuie remarcat că pentru M N sunt necesare doar 1M reflexii.
Exemplul 9.3: Să se calculeze, utilizând reflexiile Householder, factorizarea QR
a matricii A din Exemplul 9.1:
2 2 0
1 4 3
T
A
Soluţie: Calculăm vectorul 1 0,9239 0,3827 0T
z şi matricea de
reflexie Householder 1H pentru prima coloană a lui A cu relaţiile (9.72) şi
(9.68). Matricea A modificată este:
1
2,8284 3,5355
0 2,1213
0 3
H A
Similar, se efectuează calculele pentru coloana a doua a matricii 1H A . Se obţine
2 0 0,881 0,4597T
z şi, în continuare, rezultatele finale:
1 2 1 2
2,8284 3,5355 0,7071 0,4082 0,5774
0 3,6742 , 0,7071 0,4082 0,5774
0 0 0 0,8165 0,5774
H H A H H QR
Funcţia MATLAB [Q,R]=qr(A) utilizează reflexii Householder pentru a calcula
factorizarea QR a matricii A .
9.3.3 Transformarea (rotaţia) Givens
A doua transformare elementară care nu modifică lungimea unui vector se face prin rotaţia
acestuia în jurul unei axe (vezi Figura 9.7). Pentru a descrie metoda lui Givens, vom
presupune pentru simplitate că vectorii sunt reali. Valoarea componentelor vectorului rotit y
se exprimă în funcţie de componentele vectorului original x astfel:
9.3 Tehnici de ortogonalizare utilizate în calculul estimării LS 281
1 1 2
2 1 2
cos cos sin
sin sin cos
y r x x
y r x x
sau, sub formă matricială
1 1 1
2 2 2
cos sin
sin cos
y x x
y x x
G (9.77)
unde este unghiul de rotaţie. Se poate demonstra uşor că matricea de rotaţie G din
ecuaţia (9.77) este ortogonală şi are determinantul det 1 G .
Orice matrice pătrată de forma
1 0 0 0
0 0
0 0
0 0 0 1
ij
c s i
s c j
i j
G
(9.78)
cu 2 2 1c s (9.79)
este cunoscută sub numele de rotaţie Givens. Când această matrice se aplică unui vector x ,
ea roteşte componentele ix şi jx cu unghiul arctg s c , lăsând, în schimb, toate cele-
lalte componente neschimbate (Manolakis, ş.a. 2005). Comparând definiţia (9.78) cu (9.77),
se poate scrie cosc şi sins pentru un unghi dat. Se arată uşor că matricea
ij G este ortogonală.
Figura 9.7 Transformarea prin rotaţie Givens.
282 METODA CELOR MAI MICI PĂTRATE - 9
Rotaţiile Givens au două caracteristici atractive. În primul rând, realizarea rotaţiei
ij y G x prin operaţiile
, ,
i i j
j i j
k k
y cx sx
y sx cx
y x k i j
(9.80)
necesită doar patru înmulţiri şi două adunări. În al doilea rând, c şi s pot fi alese astfel
încât să determine anularea componentei j a unui vector. Într-adevăr, este suficient ca în
(9.78) să se aleagă
2 2 2 2
,ji
i j i j
xxc s
x x x x
(9.81)
pentru ca să se obţină 2 2 şi 0i i j jy x x y (9.82)
Utilizând o secvenţă de rotaţii Givens, pot fi anulate succesiv toate elementele situate
sub diagonala principală a unei matrici A , furnizând astfel matricea superior triunghiulară
din factorizarea QR. Produsul tuturor matricilor de rotaţie Givens dă matricea Q a factori-
zării. Trebuie subliniat că ordinea în care se efectuează rotaţiile nu este arbitrară, întrucât
rotaţii ulterioare pot anihila zerouri introduse anterior.
Exemplul 9.4: Să se realizeze factorizarea QR a lui A din Exemplul 9.1:
2 2 0
1 4 3
T
A
utilizând metoda rotaţiilor Givens.
Soluţie: Ultimul element al primei coloane a lui A fiind nul, pentru
factorizarea QR a matricii sunt necesare două rotaţii Givens. Se începe cu anula-
rea elementului (2,1) pentru care calculăm matricea de rotaţie 21G cu 0,7071c
şi 0,7071s . Matricea 21G şi rezultatul primei rotaţii sunt:
21 21
0,7071 0,7071 0 2,8284 3,5355
0,7071 0,7071 0 , 0 2,1213
0 0 1 0 3
G G A
După eliminarea elementului (3,2) prin rotaţia Givens 32G dată de parametrii
0,5774c şi 0,8165s , se obţine factorizarea QR a matricii A :
32 21 21 32
2,8284 3,5355 0,7071 0,4082 0,5774
0 3,6742 , 0,7071 0,4082 0,5774
0 0 0 0,8165 0,5774
T T
G G A Q G GR
În cazul rotirii unui vector x complex, componentele vectorului rezultant y din (9.77)
sunt calculate cu relaţia
9.3 Tehnici de ortogonalizare utilizate în calculul estimării LS 283
1 1
2 2
cos sin
sin cos
j
j
y xe
y xe
(9.83)
unde cosc şi sinjs e . Elementul s al matricii de rotaţie ij G din relaţia
(9.78) este înlocuit de *s iar relaţia (9.79) devine 22 1c s .
9.3.4 Ortogonalizarea Gram-Schmidt
Fiind dat setul de M vectori linear independenţi 1 2, , , Mu u u , se poate crea o bază orto-
normală de vectori 1 2, , , Mq q q , care să definească acelaşi spaţiu ca şi setul de vectori
iniţial, printr-o procedură sistematică denumită metoda de ortogonalizare Gram-Schmidt
clasică (GS). Metoda GS porneşte prin alegerea vectorului
11
1
u
qu
(9.84)
drept primul vector al bazei ortonormale. Pentru a obţine pe 2q , se exprimă
2u ca sumă a
două componente: proiecţia 1 2 1
Hq x q a lui
2u pe 1u şi un vector
2p care este perpendicular
pe 1q . În consecinţă,
2 2 1 2 1
H p u q u q (9.85)
iar 2q se obţine prin normalizarea lui 2p , adică:
22
2
p
qp
(9.86)
Vectorii 1q şi 2q au lungime unitară, sunt ortonormali şi subîntind acelaşi spaţiu ca şi
1u şi 2u . În general, baza de vectori jq este obţinută prin scăderea din ju a proiecţiilor sale
pe vectorii deja calculaţi 1q până la 1jq . Avem, prin urmare
1
1
şij
jH
j j i j i j
i j
p
p u q u q qp
(9.87)
pentru orice 1 j M .
Algoritmul GS poate fi utilizat pentru a furniza factorizarea redusă 1Q R . Într-adevăr,
pornind de la vectorii de date 0 1 1, , , M u u u , definim
şiH
ij i j jj jr r q u p (9.88)
şi avem: 1
0
j
j jj j j ij i
i
r r
p q u q (9.89)
sau echivalent, dacă dorim să exprimăm pe ju :
284 METODA CELOR MAI MICI PĂTRATE - 9
0
, 0,1, , 1j
j ij i
i
r j M
u q (9.90)
Utilizând notaţia matricială, putem exprima această ultimă relaţie ca 1A Q R , unde
0 1 1M A u u u ceea ce este exact definiţia factorizării QR reduse din ecuaţia
(9.61).
Principalele neajunsuri ale procedurii GS sunt date de faptul că aceasta nu produce
rezultate precise iar baza de vectori rezultată poate să nu mai fie ortogonală atunci când este
implementată într-o aritmetică de precizie finită. O comportare aritmetică mai bună se poate
obţine dacă calculele sunt făcute în forma cunoscută sub numele de algoritmul Gram-
Schmidt modificat (Modified Gram-Schmidt ~ MGS) (Dahlquist şi Bjorck 1974). Ca şi în
metoda GS clasică, primul pas al algoritmului MGS constă în definirea lui 1q :
11
1
u
qu
(9.84)
Spre deosebire de metoda originală, în continuare toţi ceilalţi vectori 2 , , Mu u sunt
modificaţi astfel încât să devină ortogonali pe 1q . În acest scop, din fiecare vector rămas se
scade proiecţia sa pe 1q :
1
1 1, 2, ,H
i i i i M u u q u q (9.91)
În pasul al doilea se defineşte vectorul
1
22 1
2
u
qu
(9.92)
care este deja ortogonal pe 1q . Apoi, se modifică restul vectorilor rămaşi pentru a-i face
ortogonali pe 2q :
2 1 1
2 2 , 3, ,H
i i i i M u x q u q (9.93)
Continuând într-o manieră similară, expresiile lui mq şi ale vectorilor imx sunt:
1
1
m
mm m
m
uq
u (9.94)
şi 1 1
, 1, ,m m mH
i i m i m i m M
u u q u q (9.95)
Implementarea algoritmului Gram-Schmidt modificat este prezentată în Tabelul 9.2.
Proprietăţile numerice superioare ale algoritmului modificat rezidă din faptul că vectorii
succesivi m
iu generaţi prin ecuaţia (9.95) au dimensiuni descrescătoare iar produsul scalar
1mH
m i
q u poate fi calculat mai precis decât produsul H
m iq u .
9.4 Rezolvarea problemei LS prin descompunerea în valori singulare 285
9.4 Rezolvarea problemei LS prin
descompunerea în valori singulare
Metoda descompunerii în valori singulare (Singular Value Decomposition ~ SVD) ocupă
un loc însemnat în rezolvarea teoretică şi practică a problemei celor mai mici pătrate pentru
că, pe de o parte furnizează un cadru unificator pentru rezolvarea sistemelor de ecuaţii
supra- şi subdeterminate de rang maxim sau redus, iar pe de altă parte reprezintă cea mai
precisă metodă numerică de rezolvare în practică a problemelor LS. În acest paragraf, vom
discuta despre existenţa şi proprietăţile fundamentale ale SVD, arătând cum se utilizează
metoda la rezolvarea problemei LS.
9.4.1 Teorema descompunerii în valori singulare
Descompunerea în valori proprii a unei matrici pătrate hermitice o transformă pe aceasta
într-o matrice diagonală prin pre- şi postmultiplicare cu o unică matrice unitară (vezi
Proprietatea 5 din paragraful 3.6 referitor la valori şi vectori proprii). Descompunerea în
valori singulare generalizează prima transformare la cazul unei matrici oarecare care,
pentru a da o matrice diagonală, este multiplicată pre- şi post- cu două matrici unitare
distincte. Posibilitatea efectuării acestei operaţiuni, de maximă importanţă în algebra lineară,
este afirmată de teorema descompunerii în valori singulare, ce enunţă următoarele:
Orice matrice reală A de dimensiune N M şi de rang r (r este numărul de
coloane linear independente ale matricii) poate fi descompusă astfel:
HA UΣV (9.96)
unde U este o matrice unitară N N , V este o matrice unitară M M iar Σ
este o matrice N M cu 0, şi 0, 1,2, ,iij iii j i r Σ Σ . Numerele
i poartă numele de valori singulare ale lui A şi sunt, de obicei, aranjate în
ordine descrescătoare: 1 2 0r .
For 1,2, ,m M
2
mm mr u
m m mmrq u
For , 1, , ,i m m M
H
mi m ir q u
1i i mi mr u u q
next i next m
Tabelul 9.2 Ortogonalizarea unui set de vectori prin
algoritmul Gram-Schmidt modificat.
286 METODA CELOR MAI MICI PĂTRATE - 9
Demonstraţia teoremei, pe care o dăm în continuare, urmăreşte raţionamentele făcute de
Stewart (1973) şi reluate de Manolakis, ş.a. (2005). Se porneşte de la observaţia că matricea
pătrată HA A este pozitiv semidefinită, având valorile proprii nenegative 2 2 2
1 2, , , M ,
ordonate astfel încât 1 2 r
10 pentru 0r M r M . Fie
1 2, , , Mv v v vectorii proprii care corespund valorilor proprii 2 2 2
1 2, , , M şi luăm în
considerare partiţia 1 2V V V , unde 1V este alcătuit din primele r coloane ale lui V .
Dacă 1 2diag , , ,r r Σ , atunci se poate scrie 2
1 1
H H
rV A AV Σ şi:
1 1
1 1
H H
r r
Σ V A AVΣ I (9.97)
Pe de altă parte, 2 2
H H V A AV 0 , cu consecinţa că
2 AV 0 (9.98)
Dacă se defineşte 1
1 1 r
U AVΣ (9.99)
atunci relaţia (9.97) devine 1 1
H U U I , cu alte cuvinte, coloanele matricii 1U sunt unitare.
În consecinţă, poate fi formată matricea unitară 1 2U U U printr-o alegere convenabilă
a componentelor matricii 2U , astfel încât aceasta să îndeplinească condiţiile 2 1
H U U 0 şi
2 2
H U U I . Atunci:
1 1 1 21
1 2
2 1 2 22
H HHrH
H HH
Σ 0U AV U AVUU AV A V V
0 0U AV U AVU (9.100)
În deducerea lui (9.100) s-au avut în vedere relaţiile (9.97), (9.98) şi egalitatea
2 1 2 1
H H
r U AV U U Σ 0 , care derivă din definiţia (9.99).
Figura 9.8 face o descriere grafică a descompunerii SVD a matricii A .
9.4.2 Proprietăţi şi interpretări ale descompunerii în
valori singulare
Vom face în acest paragraf o prezentare succintă a consecinţelor pe care le are SVD, fără a
insista excesiv asupra demonstrării lor. Cititorul interesat le poate găsi în lucrările de algebră
Figura 9.8 Reprezentarea grafică a operaţiei de descompunere în valori proprii
a matricii de date A .
9.4 Rezolvarea problemei LS prin descompunerea în valori singulare 287
lineară menţionate în bibliografia ataşată (Golub şi Van_Loan 1996, Stewart 1973).
1. Multiplicarea la dreapta (post-) a relaţiei (9.96) cu V , conduce la
AV UΣ (9.101)
Vom nota prin iv coloanele matricii V , 1 2 MV v v v şi prin
iu coloanele
matricii U , 1 2 NU u u u . Egalând coloanele celor două matrici care
intervin în relaţia (9.101), se obţine:
, 1,2, ,
0, 1, ,
i i
i
i r
i r M
uAv (9.102)
În concluzie, coloanele lui V (vectorii iv ) sunt vectorii singulari dreapta ai matricii A .
2. Multiplicând la stânga (pre-) relaţia (9.96) cu HU se obţine H HU A ΣV . Egalarea
liniilor celor doi termeni ai ultimei egalităţi, conduce la
, 1,2, ,
0, 1, ,
i iH
i
i r
i r N
uu A (9.103)
Prin urmare, coloanele lui U (vectorii iu ) sunt vectorii singulari stânga ai matricii A .
3. Vom nota prin i şi prin i , valoarea proprie numărul i în ordine descrescătoare
respectiv valoarea singulară numărul i în ordine descrescătoare a unei matrici date. Dacă
vectorii 1, , Mv v sunt vectorii proprii ai lui HA A , iar vectorii
1, , Nu u sunt vectorii
proprii ai lui HAA , atunci pătratele valorilor singulare 2 2 2
1 2, , , r ale matricii A
sunt primele r valori proprii nenule ale produselor HA A şi H
AA , adică
2H H
i i i A A AA A (9.104)
4. În produsul HA UΣV , ultimele N r coloane ale matricii U şi ultimele M r
coloane ale matricii V sunt superfluu pentru că ele interacţionează doar cu blocuri de
zerouri ale matricii Σ . Această observaţie conduce la aşa-numita descompunere SVD
redusă a matricii A :
H
r r rA U Σ V (9.105)
unde rU şi rV constau din primele r coloane ale matricilor U respectiv V iar
1 2diag , , ,r r Σ .
5. Descompunerea în valori singulare se poate exprima astfel:
1
rH
i i i
i
A u v (9.106)
Matricea A este suma produselor vectorilor singulari ponderată de valorile singulare.
6. Dacă matricea A are rangul r, atunci:
288 METODA CELOR MAI MICI PĂTRATE - 9
a. Primele r coloane ale lui U formează o bază ortonormală pentru spaţiul definit de
coloanele lui A (spaţiul de coloane al lui A ).
b. Primele r coloane ale lui V formează o bază ortonormală pentru spaţiul definit de
liniile lui A (spaţiul de linii al lui A ).
c. Ultimele M r coloane ale lui V formează o bază ortonormală pentru spaţiul de
vectori ortogonal la liniile lui A (spaţiul nul al lui A ).
d. Ultimele N r coloane ale lui V formează o bază ortonormală pentru spaţiul nul
al lui HA .
Descompunerea SVD a unei matrici A poate fi calculată prin formarea matricilor
pătrate HA A şi H
AA urmat de calculul valorilor şi vectorilor lor proprii. Totuşi, această
abordare este, în general evitată din din cauză că „ridicarea la pătrat” a lui A pentru a forma
aceste matrici de corelaţie, conduce la o pierdere de informaţie (Manolakis, ş.a. 2005). În
practică se folosesc algoritmi performanţi ca de exemplu algoritmul R-SVD descris în Chan
(1982). Pachetele de programe matematice LA-PACK şi LINPACK includ algoritmi nume-
rici performanţi de calcul al SVD (Press, ş.a. 1992).
9.4.3 Soluţia de normă minimă a problemei LS
Până acum, în acest Capitol, problema LS a fost identificată cu rezolvarea unui sistem de
ecuaţii supradeterminat ( N M ) ce are o matrice de date de rang maxim ( r M )
utilizând ecuaţiile normale sau factorizarea QR. În continuare, vom prezenta modul în care
descompunerea SVD poate fi utilizată în rezolvarea problemei celor mai mici pătrate fără a
face vreo supoziţie cu privire la dimensiunile N şi M, sau la rangul r al matricii de date A .
Vom presupune cunoscută descompunerea SVD a matricii HA UΣV . Având în
vedere ortogonalitatea matricii U , norma vectorului de eroare se scrie:
H H H d Aw d UΣV w U d ΣV w (9.107)
Definind mărimile şi H H d U d w V w
obţinem valoarea energiei erorii în estimarea LS sub forma:
2 2 2 2
1 1
r N
i i i i
i i r
d w d
d Aw d Σw (9.108)
care este minimizată dacă şi numai dacă pentru 1,2, ,i i iw d i r . Se observă că
atunci când r M , termenii 1, ,r Mw w nu apar în relaţia (9.108). Drept urmare, aceştia
nu au nici un efect asupra erorii totale şi pot fi aleşi arbitrar. Pentru a justifica ultima
afirmaţie se poate utiliza interpretarea geometrică a problemei LS din Figura 9.4. Există
numai o unică combinaţie lineară a vectorilor lineari independenţi 0 1 şi u u care să conducă
la estimarea LS optimă. Dacă matricea de date are încă o coloană 2u aşezată în acelaşi plan
cu celelalte două, atunci există o infinitate de combinaţii lineare 0 0 1 1 2 2w w w u u u care să
satisfacă criteriul erorii LS minime. Pentru a obţine o unică soluţie LS, dintre toate soluţiile
care minimizează norma d Aw , se alege soluţia cu w de lungime minimă. Matricea
9.4 Rezolvarea problemei LS prin descompunerea în valori singulare 289
V fiind unitară, avem w Vw w , iar dacă se minimizează w , atunci şi w este
minim. Prin urmare, alegerea 1rw
0Mw furnizează soluţia de normă minimă a
problemei LS. În concluzie, soluţia unică de normă minimă a problemei celor mai mici
pătrate este
1
Hri
LS i
i i
u d
w v (9.109)
unde , 1, ,
0 1, ,
H
i i
i i i
di r
w
i r M
u d
(9.110)
iar 22 2
1 1
N NH
LS i i
i r i r
E d
d Aw u d (9.111)
este energia erorii LS.
Să exprimăm soluţia de normă minimă a problemei celor mai mici pătrate prin
intermediul pseudoinversei matricii de date, determinată prin descompunerea SVD a
acesteia.. În acest scop, trebuie observat că relaţia (9.110) poate fi scrisă matricial astfel:
w Σ d (9.112)
unde 1
r
Σ 0Σ
0 0 (9.113)
este o matrice pătrată N N cu 1
1 2diag 1 ,1 , ,1r r Σ . Prin urmare, utilizând
relaţiile (9.109) şi (9.113), se obţine
H
LS
w VΣ U d A d (9.114)
unde 1
1rH H
i i
i i
A VΣ U v u (9.115)
este pseudoinversa matricii A . Dacă matricea de date este de rang maxim, r M ,
pseudoinversa se defineşte prin 1
H H
A A A A (Golub şi Van_Loan 1996), astfel încât
utilizarea soluţiei din (9.115) conduce la ecuaţiile normale din (9.22). Dacă
rangN M A atunci 1 A A . Prin urmare, relaţia (9.115) are un caracter general,
indiferent dacă matricea A este pătrată sau dreptunghiulară, indiferent dacă este de rang
maxim sau nu. Formal, A poate fi definită independent de problema LS ca fiind unica
matrice X care satisface cele patru condiţii Moore-Penrose:
H
H
AXA A AX AX
XAX X XA XA (9.116)
290 METODA CELOR MAI MICI PĂTRATE - 9
În concluzie, calculul unui estimator LS prin descompunere în valori singulare
presupune parcurgerea etapelor din Tabelul 9.3. Vectorul LSw obţinut este unic şi satisface
două condiţii:
1. minimizează suma erorilor,
2. are cea mai mică normă euclidiană.
Comparând din punctul de vedere a complexităţii calculelor aritmetice, diversele
metode de rezolvare a problemei celor mai mici pătrate, Golub şi Van_Loan (1996) arată că,
în cazul matricilor de date de rang maxim, toate celelalte metode sunt mai simple decât
metoda SVD. Totuşi, aceste metode sunt imprecise atunci când rangul lui A este redus
(aproape singular). În asemenea situaţii, SVD dezvăluie singularitatea matricii de date, fiind
metoda care asigură rezultate sigure chiar şi în aceste condiţii limită.
Exemplul 9.5: Utilizând procedura SVD detailată în Tabelul 9.3 se cere
rezolvarea problemei celor mai mici pătrate pentru matricea de date şi vectorul de
răspuns dorit specificate mai jos:
1 1 1 1
2 2 1 2,
3 1 3 4
1 0 1 3
A d
Soluţie: În pasul întâi al procedurii SVD se calculează descompunerea HA UΣV , utilizând comanda MATLAB [U,S,V]=svd(A). Se obţine:
0,3041 0,2170 0,8329 0,4082
0,4983 0,7771 0,3844 0,0000,
0,7768 0,4778 0,0409 0,4082
0,2363 0,3474 0,3960 0,8165
U
1. Se calculează descompunerea SVD HA UΣV 2. Se determină rangul r al matricii de date A
3. Se calculează , 1, ,H
i id i N u d
4. Se calculează 1
ri
LS i
i i
d
w v
5. Se calculează 2
1
N
LS i
i r
E d
Tabelul 9.3 Etapele rezolvării problemei celor mai mici pătrate prin
metoda descompunerii în valori singulare.
METODA CELOR MAI MICI PĂTRATE Probleme 291
5,5338 0 00,6989 0,0063 0,7152
0 1,5139 0, 0,3754 0,8544 0,3593
0 0 0,29240,6088 0,5196 0,5994
0 0 0
Σ V
Se observă direct că rangul matricei A este 3r , ceea ce este şi rezultatul
funcţiei MATLAB r=rank(A). Paşii 3, 4 şi 5 din Tabelul 9.3. dau:
5,11673,0
1,1821, 1,5 , 1,5
0,96021,0
1,2247
T
LS LSE
d U d w
Probleme
P 9.1 La intrarea unui combinator linear cu trei coeficienţi ce implementează metoda
celor mai mici pătrate, sunt furnizate următoarele înregistrări instantanee:
0 1 1 0 , 1 2 1 1 ,
2 1 1 1 , 3 0 1 1
T T
T T
u u
u u
(a) Determinaţi valorile matricii de proiecţie pe subspaţiul A , P şi ale matricii
complement ortogonal de proiecţie I P pentru setul de date de intrare.
(b) Utilizând rezultatele de la punctul (a), stabiliţi estimarea LS d a vectorului
1 2 1 1T
d . De asemenea, stabiliţi vectorul erorii minime asociat LSe .
Pentru a controla acurateţea rezultatului obţinut, evaluaţi ˆ H
LSd e şi arătaţi că
rezultatul este nul. Care este explicaţia acestui fapt?
P 9.2 La intrarea filtrului FIR din Figura 9.9 semnalul de intrare are valorile:
0 3, 1 2, 2 1, 3 1u u u u cu 0 0 3u n pentru n şi n .
Semnalul dorit este 0 1, 1 2, 2 1, 3 1 34d d d d şi zero în rest.
u k
d k
y k
1z
e k 1w 0w
Figura 9.9 Filtrul FIR din problema
P 9.2.
292 METODA CELOR MAI MICI PĂTRATE - 9
Utilizând metoda „prewindowing” (vezi paragraful 9.2), să se calculeze:
(a) Estimarea LS a coeficienţilor filtrului, LSw şi a vectorului de eroare
LSe .
(b) Energia minimă a erorii de estimare LSE .
(c) Să se reia punctele (a) şi (b) prin metoda „no windowing”.
(d) Să se reia punctele (a) şi (b) prin metoda „postwindowing”.
(e) Să se reia punctele (a) şi (b) prin metoda „full windowing”.
P 9.3 Diferenţiind ecuaţia (9.9) în raport cu vectorul coeficienţilor w , arătaţi că
estimarea în sens LS a acestuia, LSw , este dată de soluţia ecuaţiei normale (9.14).
P 9.4 Fie varianta ponderată a criteriului LS definită prin HE e We , unde W este o
matrice hermitică definită pozitiv.
(a) Minimizând energia de eroare E în raport cu vectorul w, arătaţi că expresia
estimatorului ponderat în sens LS este dată de relaţia
1
H H
wls
w A WA A Wd
(b) Utilizând descompunerea HW LDL , arătaţi că varianta ponderată a criteriului
LS corespunde unei „prefiltrări” a erorii sau a datelor.
P 9.5 Consideraţi un sistem linear descris prin ecuaţia cu diferenţe finite
0,9 1 0,1 1y n y n x n v n
unde x n este semnalul de intrare, y n este semnalul de ieşire iar v n este o
perturbaţie la ieşire. Presupunem că s-au colectat 1000N eşantioane din datele
de intrare-ieşire şi că dorim să estimăm coeficienţii sistemului utilizând criteriul LS
în varianta „no windowing”. Utilizând MATLAB, determinaţi coeficienţii
modelului 1 1y n ay n dx n şi estimata matricei ei de covarianţă
2 1ˆˆe
R pentru
(a) x n şi v n sunt secvenţe gaussiene necorelate între ele de medie nulă şi
varianţă unitară.
(b) x n şi v n sunt secvenţe gaussiene între ele de medie nulă cu 2 1x şi
0,8 1v n v n w n este un proces AR(1) cu w n zgomot alb de medie
nulă şi varianţă unitară. Comentaţi asupra calităţii estimărilor realizate,
comparând valorile matricilor 2 1ˆˆe
R obţinute în fiecare caz în parte.
P 9.6 Se dă un set oarecare de date experimentale , 1d n n N şi se urmăreşte să se
stabilească prin metoda celor mai mici pătrate parametrii a şi b ai unui model
linear y n a bn , care să reprezinte cel mai bun model linear pentru datele
experimentale.
METODA CELOR MAI MICI PĂTRATE Probleme 293
(a) Enunţaţi problema ca o problemă de filtrare în sens LS, stabilind expresii pentru
matricea de date de intrare A, vectorul semnalului dorit d , vectorul de eroare e,
funcţia de cost E şi vectorul coeficienţilor filtrului, w.
(b) Calculaţi soluţia de la punctul (a) care minimizează funcţia de cost LSE şi
stabileşte valorile optime pentru vectorul coeficienţilor, LSw .
(c) Implementaţi în MATLAB rezolvarea cazului practic în care
1,5 0,035 pentru 0,1, ,d n n v n n N
unde v n este zgomot alb gaussian de medie nulă şi varianţă unitară şi 100N .
P 9.7 Determinaţi a şi b astfel încât funcţia bf x ax să realizeze cea mai bună
aproximare în sensul celor mai mici pătrate a următorului set de date
experimentale:
x 0,5 1,0 1,5 2,0 2,5
y 0,49 1,60 3,36 6,44 10,16
P 9.8 Pentru setul de date:
x 1,0 2,5 3,5 4,0 1,1 1,8 2,2 3,7
y 6,008 15,722 27,130 33,772 5,257 9,549 11,098 28,828
(a) să se stabilească cea mai bună aproximare în sens LS printr-o funcţie lineară.
(b) să se stabilească cea mai bună aproximare în sens LS printr-o funcţie pătratică.
P 9.9 Rezolvaţi, utilizând transformarea Householder, problema de estimare LS de mai
jos:
1 1 1 1
, 3 10 3 62 3 2 1
T
T
A d
P 9.10 Reluaţi rezolvarea problemei P 9.8 Pentru setul de date:
x 1,0 2,5 3,5 4,0 1,1 1,8 2,2 3,7
y 6,008 15,722 27,130 33,772 5,257 9,549 11,098 28,828
(c) să se stabilească cea mai bună aproximare în sens LS printr-o funcţie lineară.
(d) să se stabilească cea mai bună aproximare în sens LS printr-o funcţie pătratică.
P 9.9, utilizând transformarea Givens.
P 9.11 Calculaţi prin metodele GS şi MGS factorizarea QR a matricii de date
4 2 1
2 0 1
2 0 1
1 2 1
A
294 METODA CELOR MAI MICI PĂTRATE - 9
Comparaţi rezultatele obţinute.
P 9.12 Să se calculeze descompunerea SVD, calculând valorile proprii şi vectorii proprii
ai produselor HA A respectiv H
AA . Controlaţi rezultatele obţinute cu funcţia
svd din MATLAB.
6 2 0 1 1
7 6 1 1 0a şi b
A A
Să se determine pseudoinversa matricii A.
P 9.13 Se consideră matricea de dimensiune 2 2 cu valori complexe:
1 1 0.5
0.5 1
j j
j j
A
Să se calculeze valorile singulare şi vectorii singulari ai matricii A , parcurgând
următorii paşi:
(a) Să se construiască matricea HA A , iar apoi să se evalueze valorile proprii şi
vectorii proprii asociaţi ai lui HA A .
(b) Să se construiască matricea HAA apoi să se evalueze valorile proprii şi vectorii
proprii asociaţi ai lui HAA .
(c) Să se stabilească legătura dintre valorile proprii şi vectorii proprii asociaţi obţinuti
la (a) şi (b), şi valorile singulare şi vectorii singulari ai lui A .
10 Soluţii recursive ale
problemei LS
copul algoritmilor celor mai mici pătrate este să minimizeze suma pătratelor
diferenţei dintre semnalul dorit şi semnalul de la ieşirea structurii de filtrare (Diniz
2008). Atunci când la fiecare nouă iteraţie a algoritmului, sunt recepţionate eşantioane
noi ale datelor procesate, soluţia problemei LS poate fi calculată într-o manieră recursivă
(Haykin 1996), ceea ce a condus la dezvoltarea algoritmilor recursivi de estimare a soluţiei
LS, cunoscuţi sub numele de algoritmi RLS (Recursive Least Squares). Studiul acestei
familii de algoritmi întreprinse în Capitolul de faţă porneşte cu algoritmul RLS standard şi
continuă cu algoritmii RLS ce se bazează pe factorizarea QR, algoritmii RLS QR. Aceşti
algoritmi nu impun restricţii asupra tipului operaţiei pe care structura de filtrare o realizează:
filtru FIR sau combinator linear.
Algoritmii RLS au o convergenţă mai rapidă decât algoritmii LMS şi păstrează, practic,
o viteză de convergenţă constantă, chiar şi în condiţiile în care gradul de împrăştiere a
valorilor proprii ale matricii de date este foarte mare (Manolakis, ş.a. 2005). De asemenea au
o comportare mai bună decât algoritmii LMS în cazul în care datele de intrare sunt nestaţio-
nare. Toate aceste avantaje ale algoritmilor RLS sunt obţinute cu costul unei complexităţi de
calcul mai mare şi a unor oarecare probleme de stabilitate, care nu sunt, totuşi atât de critice
ca în cazul algoritmilor LMS.
În Capitol sunt discutate câteva din proprietăţile algoritmilor RLS, printre care dezadap-
tarea şi rata de convergenţă, proprietăţi care sunt verificate în simulări sugestive pentru
acţiunea algoritmilor.
10.1 Filtre LS adaptive
Implementarea filtrelor adaptive LS urmăreşte obiectivul, ca la fiecare actualizare a
coeficienţilor, să se realizeze minimizarea sumei pătratelor erorii de la momentul de timp la
care a fost iniţiată acţiunea filtrului până la momentul de timp curent. Prin urmare,
coeficienţii filtrului la momentul n sunt astfel calculaţi încât să fie minimizată funcţia de cost
LS ponderată, definită în Capitolul 9 prin relaţia (9.33)
Capitolul
10
S
296 SOLUŢII RECURSIVE ALE PROBLEMEI LS - 10
22
0 0
n nn j n j H
j j
E n e j d j j
w u (10.1)
unde e j este valoarea instantanee a erorii iar constanta , 0 1 poartă numele de
factor de uitare. Datorită faptului că ponderile filtrului sunt menţinute constante pe parcursul
intervalului de observare 0 j n , erorile de observaţie apriori şi aposteriori sunt identice.
Vectorul coeficienţilor obţinut prin minimizarea relaţiei (10.1) este notat prin nw şi
asigură, din punct de vedere a criteriului LS, filtrarea optimală la momentul n. Atunci când
1 , se spune că algoritmul are memorie cumulativă pentru că valorile coeficienţilor
filtrului sunt funcţie de toate valorile de intrare trecute. Se utilizează un factor de uitare sub-
unitar (vezi Figura 10.1) pentru a asigura că datelor aflate în trecutul mai îndepărtat li se
acordă o atenţie mai redusă, sunt „uitate” pentru a da filtrului posibilitatea de a urmări
variaţia semnalelor de intrare, atunci când acestea sunt nestaţionare.
10.1.1 Ecuaţiile de recursie ale matricii de corelaţie
şi vectorului de intercorelaţie
Reluăm din paragraful 9.1, expresiile care caracterizează filtrul adaptiv în sens LS ce
minimizează suma pătratelor erorii din (10.1). Coeficienţii optimali ai filtrului sunt
specificaţi prin ecuaţiile normale:
ˆ ˆn n nR w p (10.2)
unde 0
ˆn
n j H
j
n j j
R u u (10.3)
şi *
0
ˆn
n j
j
n j d j
p u (10.4)
caracterizează estimările ponderate exponenţial ale matricii de corelaţie a semnalului de
intrare respectiv ale vectorului de intercorelaţie dintre intrare şi răspunsul dorit. Apariţia în
ultimele două expresii a termenului n j se datorează prezenţei acestuia în funcţia de cost
(10.1). Valoarea minimă a acesteia este:
minˆ H
dE n E n n n p e (10.5)
Figura 10.1 Ponderarea „exponenţială” a observaţiilor la momentele de
timp n şi n + 1. Datele mai „vechi” sunt neglijate mai
puternic de algoritm
10.1 Filtre LS adaptive 297
unde 2
0
nn j
d
j
E n d j
(10.6)
este energia ponderată exponenţial a semnalului de răspuns dorit.
Vom presupune acum că ne situăm la un anumit moment de timp n M , şi că ˆ nR
este o matrice nesingulară. În acest moment se calculează ˆ nR şi ˆ np pentru a rezolva
ecuaţiile normale (10.2) în scopul determinării coeficienţilor filtrului nw . Această
operaţiune, mare consumatoare de timp şi resurse de calcul, trebuie repetată pentru fiecare
observaţie nouă ,n d nu , adică, la momentele de timp 1, 2,n n etc.
O primă reducere a efortului de calcul poate fi obţinută în urma observaţiei că relaţia
(10.3) se poate exprima recursiv astfel:
ˆ ˆ 1 Hn n n n R R u u (10.7)
ceea ce arată că „noua” matrice de corelaţie ˆ nR poate fi actualizată, prin însumarea
„vechii” matrici de corelaţie ponderată ˆ 1n R cu informaţia „nouă” Hn nu u . Simi-
lar, utilizând relaţia (10.4), se poate arăta că recursia temporală a vectorului de intercorelaţie
se face conform relaţiei
*ˆ ˆ 1n n n d n p p u (10.8)
Vom arăta în cele ce urmează că prin utilizarea recursiilor temporale (10.7) şi (10.8),
noul vector al coeficienţilor nw poate fi determinat din vechiul vector 1n w şi noua
pereche de observaţii ,n d nu , fără a rezolva efectiv ecuaţiile normale (10.2).
10.1.2 Algoritmul adaptiv LS apriori
Dacă rezolvăm ecuaţiile (10.7) şi (10.8) pentru a extrage ˆ 1n R , respectiv ˆ 1n p , iar
apoi se face apel la ecuaţiile normale (10.2), se obţine
*ˆ ˆ1Hn n n n n n d n R u u w p u
sau, după câteva calcule simple se obţine:
*ˆ ˆ1n n n e n n R w u p (10.9)
unde 1He n n n n d w u (10.10)
este eroarea de estimare apriori. Dacă matricea ˆ nR este inversabilă, prin multiplicarea
ambilor termeni ai relaţiei (10.9) cu 1ˆ nR şi utilizarea ecuaţiilor normale (10.2) se obţine
1 * 1ˆ ˆ ˆ1n n n e n n n n w R u R p w (10.11)
Definind vectorul câştigului de adaptare ng prin relaţia:
298 SOLUŢII RECURSIVE ALE PROBLEMEI LS - 10
ˆ n n nR g u (10.12)
ecuaţia (10.11) se poate scrie astfel
*1n n n e n w w g (10.13)
Ultima ecuaţie dezvăluie modul în care apare câştigul de adaptare ng în ecuaţia de
recursie a vectorului coeficienţilor.
Exemplul 10.1 Vom determina în cele ce urmează ecuaţiile care guvernează
funcţionarea unui filtru LS adaptiv cu un singur coeficient. În acest caz particular,
1M , estimarea matricii de corelaţie ˆ nR devine scalarul uE n . În sfârşit,
ecuaţiile care descriu funcţionarea estimatorului recursiv LS cu un coeficient se
obţin prin particularizarea ecuaţiilor (10.7), (10.10) şi (10.11):
2
*
*
1
1
11
u u
u
E n E n u n
e n d n w n u n
w n w n u n e nE n
Ultima ecuaţie este similară cu ecuaţia unui algoritm LMS normalizat, pentru
că pasul LMS al algoritmului este 1 un E n . Pe de altă parte, ecuaţia
descrie un algoritm optim în sens LS.
10.1.3 Algoritmul adaptiv LS aposteriori
Înlocuind relaţiile (10.7) şi (10.8) în ecuaţiile normale (10.2) şi efectuând câteva calcule
matematice elementare, se obţine
*ˆ ˆ1 1n n n n n R w u p (10.14)
unde Hn d n n n w u (10.15)
este eroarea de estimare aposteriori. Dacă matricea ˆ 1n R este inversabilă, din relaţia
(10.14) se obţine
1 1 * 1ˆ ˆ ˆ1 1 1 1n n n n n n n w R u R p w
sau *1n n n n w w g (10.16)
unde: ˆ 1n n n R g u (10.17)
defineşte vectorul de câştig adaptiv alternativ ng .
Având în vedere faptul că ecuaţiile de recursie (10.15) şi (10.16) sunt cuplate,
algoritmul LS aposteriori nu este aplicabil. Totuşi, dacă se înlocuieşte ecuaţia (10.16) în
(10.15), se obţine:
10.1 Filtre LS adaptive 299
1H H
H
n d n n n n n
e n n n n
w g u
g u
sau
e nn
n
(10.18)
unde 1 1ˆ1 1 1H Hn n n n n n g u u R u (10.19)
este cunoscut sub numele de factor de conversie. Prin urmare, pentru a calcula eroarea
aposteriori n înainte de a realiza actualizarea vectorului coeficienţilor filtrului se pot
utiliza ecuaţiile (10.19) şi (10.18). Acest artificiu de calcul face posibilă implementarea
algoritmului adaptiv LS aposteriori. Dacă ˆ 1n R este o matrice inversabilă, 1n şi
,n e n n .
Pentru a dezvolta o relaţie între vectorii de câştig adaptiv apriori şi aposteriori, se
compară relaţiile (10.13) şi (10.16), şi se face apel la definiţia factorului de conversie din
(10.18). Rezultatul:
nn
n
gg (10.20)
demonstrează că cele două câştiguri de adaptare sunt vectori ce au o direcţie unică dar
lungimi diferite. Totuşi, întrucât ecuaţiile (10.13) şi (10.16) descriu o unică realitate,
termenii de corecţie *n e ng şi *n ng sunt egali.
Un alt factor de conversie, ce se defineşte în funcţie de vectorul de câştig ng este
1ˆ1 1H Hn n n n n n u R u u g (10.21)
Acesta are câteva interpretări interesante. Astfel, folosim relaţia (10.20) şi avem:
1 ,
1 1 1
H
H
n nn
n
n n n n n
u g
u g
sau 1
nn
(10.22)
ceea ce arată că cei doi factori de conversie sunt unul inversul celuilalt. Având în vedere că
estimarea matricii de corelaţie este pozitiv semidefinită, adică îndeplineşte condiţia
1ˆH n n n u R u 0 , relaţia (10.21) implică
0 1n (10.23)
300 SOLUŢII RECURSIVE ALE PROBLEMEI LS - 10
Prin urmare, factorul de conversie n este cuprins între 0 şi 1. Această limitare permite
interpretarea factorului ca fiind o variabilă unghiulară (Lee, ş.a. 1981) iar monitorizarea lui
n oferă informaţii despre modul în care acţionează algoritmul RLS. Se poate arăta (vezi
problema P 10.4) că
ˆdet 1
ˆdet
Mn
nn
R
R (10.24)
ceea ce demonstrează importanţa lui n sau n pentru inversabilitatea estimatei
matricii de corelaţie.
Tabelul 10.1 recapitulează operaţiunile matematice care definesc algoritmii LS adaptivi
apriori şi aposteriori, iar Figura 10.2 face o reprezentare grafică a procesului de filtrare
Filtrul adaptiv LS apriori Filtrul adaptiv LS aposteriori
Matricea de corelaţie ˆ ˆ 1 Hn n n n R R u u ˆ ˆ 1 Hn n n n R R u u
Vectorul de câştig ˆ n n nR g u ˆ 1n n n R g u
Eroarea apriori 1He n n n n d w u 1He n n n n d w u
Factorul de conversie 1 Hn n n g u 1 Hn n n g u
Eroarea aposteriori n n e n n e n n
Ecuaţia de recursie *1n n n e n w w g *1n n n n w w g
Tabelul 10.1 Operaţiuni matematice utilizate în implementarea filtrelor adaptive LS
apriori şi aposteriori.
Figura 10.2 Reprezentarea grafică a elementelor de bază a
filtrului adaptiv LS apriori. Trebuie observat că
procesul de filtrare nu influenţează calculul
vectorului de câştig.
10.2 Algoritmul RLS standard 301
adaptivă în cazul filtrului adaptiv LS apriori. În legătură cu acestea, se pot face două
observaţii importante (Manolakis, ş.a. 2005, Sayed 2008):
Câştigul de adaptare depinde strict numai de semnalul de intrare. Răspunsul dorit
afectează doar amplitudinea şi semnul termenului de corecţie a coeficienţilor prin
intermediul semnalului de eroare.
Cel mai mare efort de calcul în filtrarea adaptivă LS este reprezentat de calculul
vectorului de câştig adaptiv. Acest calcul presupune rezolvarea unui sistem de ecuaţii
lineare, care necesită un număr de 3O M operaţii la fiecare iteraţie a algoritmului.
10.2 Algoritmul RLS standard
10.2.1 Deducerea algoritmului
Punctul de pornire a algoritmului recursiv al celor mai mici pătrate (RLS – Recursive Least
Squares) sunt relaţiile de calcul al filtrelor adaptive LS (vezi Tabelul 10.1) dezvoltate în
paragraful precedent. RLS reduce efortul de calcul pe care implementarea relaţiilor din tabel
le presupune, prin utilizarea unei formule recursive de calcul al inversei matricii de corelaţie
ˆ nR din expresia câştigului de conversie (vezi relaţiile (10.12) şi (10.17)):
1ˆn n ng R u (10.25)
sau 1 1ˆ 1n n n g R u (10.26)
Pentru a deduce algoritmul recursiv, începem prin a utiliza pentru inversa matricii de
corelaţie notaţia consacrată în literatură:
1ˆn nP R (10.27)
În aceste condiţii, expresia relaţiei de calcul recursiv (10.7) devine
1 1 1 Hn n n n P P u u (10.28)
În continuare, facem apel la lema de inversare matricială a cărei enunţ este (Ciochină şi
Negrescu 1999, Sayed 2008):
Fie matricile , , ,X A B C şi D de dimensiuni , , ,M M M M M N N N
respectiv N M , dintre care ,X A şi C sunt nesingulare, care satisfac relaţia
X A BCD (10.29)
În aceste condiţii, inversa matricii X este dată de:
1
1 1 1 1 1 1
X A A B C DA B DA (10.30)
Pentru a aplica lema (10.30) relaţiei de recursie (10.28), facem identificările:
1 1, 1 , , , Hn n n n X P A P B u C 1 D u
şi înlocuind în (10.28), obţinem:
302 SOLUŢII RECURSIVE ALE PROBLEMEI LS - 10
1 1
1
1
1 11
1 1
H
H
n n n nn n
n n n
P u P uP P
u P u (10.31)
Recunoaştem în numitorul membrului drept al ecuaţiei (10.31) definiţia factorului de
conversie n din (10.19) în timp ce la numărător în paranteze putem identifica expresia
vectorului de câştig alternativ ng din (10.26). Dacă facem apel şi la relaţia (10.20) care
face conversia dintre şi n ng g , ecuaţia (10.31) se scrie
1 1n n n n P P g g (10.32)
Ultima relaţie ne dă formula de recurenţă dorită. Într-adevăr, fiind dată vechea matrice
1n P şi „noile” observaţii ,n d nu , „noua” matrice nP se calculează prin
următoarea procedură (Manolakis, ş.a. 2005):
1
1
1
1
1
H
H
n n n
n n n
nn
n
n n n n
g P u
g u
gg
P P g g
(10.33)
Ecuaţiile (10.33) descriu algoritmul RLS standard. Algoritmul este aplicabil indiferent de
tipul structurii de filtrare utilizate: combinator linear sau filtru FIR, pentru că nu este făcută
nici un fel de restricţie relativ la natura vectorului de date de la intrare. Totuşi, pentru filtrele
FIR se presupune că acestea sunt cu predecupare (pentru termen vezi paragraful 9.2), adică
0u n pentru 1M n . O trecere în revistă a operaţiunilor ce constituie o
implementare practică a algoritmului RLS standard este făcută în Tabelul 10.2.
10.2.2 Ecuaţia de recursie a minimului funcţiei de
cost
Pentru a stabili ecuaţia de recursie pentru minimul funcţiei de cost descris prin relaţia (10.5),
vom observa pentru început că energia semnalului de răspuns dorit definită prin (10.6) poate
fi exprimată într-un format recursiv astfel:
*1d dE n E n d n d n (10.34)
Înlocuind (10.34) şi (10.13) în (10.5), avem
* *
minˆ ˆ1 1H H
dE n E n d n d n n n n n e n p w p g
În continuare, se înlocuieşte ˆ H np din recursia (10.8):
10.2 Algoritmul RLS standard 303
* *
minˆ1
ˆ1 1 1
H
d
H H
E n E n d n d n n n e n
d n n n n n
p g
u w p w
Rearanjăm termenii din ultima ecuaţie şi facem din nou apel la (10.5) pentru a scrie
*
min
1 *
min
*
min
ˆ ˆ1 1 1
ˆ ˆˆ1
1
H H
d
H
H
LS
E n E n n n d n n n e n
E n d n n n n n e n
E n d n n n e n
p w p g
p R R g
w u
unde pentru ultima ecuaţie se are în vedere că matricea ˆ nR şi inversa sa sunt hermitice.
Ultima expresie conduce la ecuaţiile de recursie dorite
*
min min
2
min
1
1
E n E n n e n
E n n n
(10.35)
2
min min 1e n
E n E nn
(10.36)
1. Iniţializare:
11 , 1 ,
constantă mică pozitivă
w 0 P I
2. Pentru fiecare 0,1,2,n se calculează:
a. Calculul vectorului câştigului de adaptare:
1
1
1
H
H
n n n
n n
nn
n n n n
g P u
g u
gg
P P g g
b. Filtrare şi calculul erorii:
1He n d n w n n u
c. Ecuaţia de recursie a coeficienţilor
*1n n n e n w w g
3. Se incrementează contorul 1n n şi se execută salt la 2.
Tabelul 10.2 Implementarea practică a algoritmului RLS standard
304 SOLUŢII RECURSIVE ALE PROBLEMEI LS - 10
Pentru că produsul *n e n este real, are loc egalitatea * * .n e n n e n Valoarea
energiei minime de eroare minE n creşte odată cu trecerea timpului şi atinge o limită finită
numai în cazurile în care 1 .
10.2.3 Particularităţi ale algoritmului RLS standard
În acest paragraf vom discuta despre complexitatea aritmetică şi iniţializarea algoritmului
RLS, aşa cum este el descris de Tabelul 10.2.
O măsură a complexităţii aritmetice a algoritmului standard este reprezentată de numă-
rul de operaţii (o operaţie constă într-o înmulţire şi o adunare) necesare pentru a realiza o
recursie a algoritmului. În calcule se poate avea în vedere că matricea nP este hermitică
şi, prin urmare, pentru a o actualiza este suficient să determinăm doar jumătatea sa
triunghiulară superioară (inferioară), ceea ce permite reducerea la jumătate a efortului de
calcul pe care îl presupune calculul ei. În aceste condiţii, o recursie necesită 22 4M M
operaţii (Manolakis, ş.a. 2005).
Calculul lui ng şi actualizarea lui nP se fac cu 2O M operaţii. Faţă de aceste
operaţiuni, toate celelalte formule din Tabelul 10.2, care presupun produse scalare sau multi-
plicări ale unor vectori cu scalari necesită O M operaţii. Prin urmare, datorită faptului că
în RLS, inversarea matricii ˆ nR este înlocuită, în esenţă, prin împărţire cu un scalar, algo-
ritmul RLS reduce efortul computaţional al metodelor LS de la 3O M la 2O M
operaţii.
Iniţializarea algoritmului constă în impunerea unor valori iniţiale mărimilor nP şi
nw . O alegere uzuală este 1 0 w , dar în ceea ce priveşte matricea de corelaţie
ˆ 1R , valoarea ei nu poate fi nulă pentru că în primele iteraţii ale algoritmului ecuaţia de
recursie (10.32) ar fi neaplicabilă întrucât 1 P I (Sayed 2008).
Există două abordări în ceea ce priveşte fixarea valorii iniţiale 1P . În primul rând, se
poate colecta un bloc de date iniţial 0
1
0, ,n
n d n n M
u pe baza căruia să se calculeze
valorile iniţiale ale algoritmului: 1P şi 1w .
Abordarea utilizată în practică este să se stabilească 11 P I , unde este o
constantă mică pozitivă. Drept urmare, oricare ar fi n M , expresia ˆn n I R ia locul
matricii de corelaţie, ceea ce face ca soluţiile nw să fie deplasate. Totuşi, pentru valori
mari ale lui n, alegerea constantei nu este importantă întrucât algoritmul are capacitatea
de „a uita” pentru 1 .
Se poate arăta (Sayed 2008) că procedura practică de iniţializare conduce la un set de
coeficienţi care minimizează funcţia de cost modificată
10.3 Analiza convergenţei şi performanţelor algoritmului RLS 305
22
0
nn n j H
j
E n d j j
w w u (10.37)
care ia locul expresiei (10.1). Dacă în aceste condiţii, semnalul de intrare este anulat, adică
n u 0 , atunci relaţia (10.32) devine 1 1n n P P , o recursie instabilă în condiţiile
în care 1 .
10.3 Analiza convergenţei şi
performanţelor algoritmului RLS
Scopul oricărui filtru adaptiv LS, ce operează asupra unor semnale staţionare, este să identi-
fice filtrul optimal 1
o
w R p din observaţiile făcute asupra vectorului de intrare nu şi a
semnalului de răspuns dorit
H
o od n n e n w u (10.38)
În scopul simplificării analizei vom utiliza în continuare ipoteza de independenţă introdusă
în paragraful 7.2.2. Rezultatele analizei pe care o întreprindem sunt valabile pentru orice
filtru adaptiv LS indiferent de tipul algoritmului recursiv utilizat la implementarea lui. Anali-
za este separată în două situaţii distincte: 1 (memorie infinită) şi 1 (memorie cu
„uitare”, memorie finită).
10.3.1 Analiza algoritmului cu memorie infinită
Pentru 1 , toate valorile semnalului de eroare, începând cu momentul iniţial, 0n ,
influenţează într-o măsură identică funcţia de cost. Drept urmare, filtrul adaptiv îşi pierde
capacitatea de a urmări variaţiile semnalelor de intrare, ceea ce nu are vreun efect asupra
studiului nostru pe care îl efectuăm cu semnale de intrare staţionare.
În privinţa mediei statistice a vectorului coeficienţilor, E n w , pentru n M ,
putem prelua direct soluţia LS din Capitolul 9, paragraful 9.1.6 pentru că cele două situaţii
sunt identice. Prin urmare:
pentru oE n n M w w (10.39)
ceea ce înseamnă că algoritmul RLS converge în medie pentru n M , unde M este numă-
rul de coeficienţi ai filtrului adaptiv.
Un alt rezultat important din Capitolul 9 şi care rămâne valabil pentru algoritmul RLS
cu 1 , se referă la matricea de covarianţă nK a vectorului coeficienţilor. Pentru
n M , avem
2 1ˆH
o o on E n n E n
K w w w w R (10.40)
unde 2
o este varianţa zgomotului oe n . Matricea de corelaţie ˆ nR este descrisă printr-o
distribuţie Wishart complexă iar media inversei sale este dată de (Haykin 1996):
306 SOLUŢII RECURSIVE ALE PROBLEMEI LS - 10
1 11ˆ ,E n n Mn M
R R (10.41)
Drept urmare: 2
1,on n Mn M
K R (10.42)
Deviaţia pătratică medie (DPM) este o măsură a mediei pătratului distanţei dintre coefi-
cienţii filtrului adaptiv şi cei ai filtrului optimal corespunzător. Deşi DPM nu este măsurabilă
în practică, ea este utilă în studiul pe care îl realizăm. Definiţia DPM este:
2
on E n
w wD (10.43)
Având în vedere definiţia matricii nK din (10.40), este simplu de remarcat că nD este
urma acestei matrici şi, prin urmare
2
1
1tr
Mo
i i
n nn M
KD (10.44)
unde i sunt valorile proprii ale lui R , care nu trebuie să fie confundate cu factorul de
„uitare” . Ultima ecuaţie indică, pe de o parte că DPM este amplificat de cea mai mică
valoare proprie a lui R , iar pe de altă parte că DPM descreşte aproape linear cu timpul.
Parametrul eroare pătratică medie în exces, notată prin excP n , defineşte mărimea cu
care EPM a filtrului adaptiv 2
E e n
depăşeşte valoarea minimă a EPM a unui filtru
adaptiv, valoare realizată de filtrul Wiener. Pentru a calcula acest parametru în cazul studiat,
avem în vedere că formula (7.48) stabilită pentru algoritmul LMS sub ipoteza de
independenţă îşi păstrează valabilitarea pentru orice algoritm apriori:
tr 1excP n n RK (10.45)
Particularizând pentru algoritmul RLS, vom substitui pe (10.42) în (10.45) pentru a obţine:
2
1exc o
MP n
n M
(10.46)
ceea ce arată că excP n tinde către zero atunci când n .
10.3.2 Analiza algoritmului cu memorie finită
În cazul 0 1 , cele mai recente valori ale observaţiilor au cea mai mare influenţă asupra
estimării în sens LS a coeficienţilor filtrului.
În primul rând vom stabili tipul evoluţiei în medie statistică a vectorului coeficienţilor.
Înmulţim în acest scop ecuaţia de recursie a coeficienţilor (10.11) cu ˆ nR şi facem apel la
(10.7) şi (10.10) pentru a obţine
*ˆ ˆ 1 1n n n n n d n R w R w u (10.47)
10.3 Analiza convergenţei şi performanţelor algoritmului RLS 307
Dacă multiplicăm (10.7) cu ow şi scădem rezultatul obţinut din (10.48), rezultă
*ˆ ˆ 1 1 on n n n n e n R c R c u (10.48)
unde on n c w w este vectorul de eroare a coeficienţilor. Rezolvarea ecuaţiei (10.48)
prin recursii succesive conduce la
1 1 1 *
0
ˆ ˆ ˆ1 1n
n n j
o
j
n n n j e j
c R R c R u (10.49)
Ultima expresie indică faptul că nc depinde de condiţiile iniţiale şi de eroarea optimă
*
oe n . În ipoteza că ˆ ,n jR u şi oe j sunt independente, aplicarea operatorului de
mediere statistică ecuaţiei (10.49) dă
1 1ˆ 1nE n E n c R c (10.50)
unde, conform paragrafului 10.2.3, am fixat 11 , 0 P I . Dacă matricea ˆ nR este
pozitiv definită iar 0 1 , atunci , când E n n c 0 . Prin urmare, algoritmul
RLS cu factor de uitare exponenţial converge asimptotic în medie statistică către filtrul
optimal.
Vom evalua, în cele ce urmează, matricea de covarianţă a coeficienţilor filtrului. În
ecuaţia de recursie (10.48) efectuăm operaţiunile matematice:
1 1 *
1 *
ˆ ˆ ˆ1 1
ˆ1
o
o
n n n n n n e n
n n n e n
c R R c R u
c R u
pentru că 1ˆ ˆ 1n n R R I pentru n mare. Dacă neglijăm dependenţa dintre
ˆ1 , ,n n nc R u şi oe n , calculăm:
2 2 1 1ˆ ˆ1H H
on E n n n E n n n n K c c K R u u R (10.51)
Pentru a simplifica calculele, este necesară aproximarea convenabilă a matricii 1ˆ nR .
În acest scop, din definiţia (10.3) avem
1
0
1 1ˆ1 1
nnn j H
j
E n E n n
R u u R R (10.52)
unde ultima egalitate este justificată pentru 1n . Acceptând aproximarea
ˆ ˆE n n R R , putem scrie:
1 1ˆ 1n R R (10.53)
Cu ultima aproximare obţinută înlocuim în (10.51) care devine astfel
22 2 11 1 on n K K R (10.54)
308 SOLUŢII RECURSIVE ALE PROBLEMEI LS - 10
o expresie care converge pentru că 2 1 . Atunci, în regim staţionar, scriem
22 2 11 1 o K R
deoarece 1 pentru 1n n nK K . Deci:
2 11
1o
K R (10.55)
ceea ce ne permite să stabilim o expresie pentru deviaţia pătratică medie (DPM) sub forma
2
1
1 1tr
1
M
o
i i
KD (10.56)
Prin contrast cu expresia (10.44), se constată din (10.56) că DPM a algoritmului cu
1 nu tinde la zero atunci când n . Explicaţia se găseşte în observaţia că algoritmul
RLS cu memorie finită nu utilizează la formarea estimatului de totalitatea datelor de care
dispune
Determinarea erorii pătratice în exces excP în cazul examinat presupune să facem
apel la relaţiile (10.45) şi (10.55). Avem:
21tr
1exc oP M
RK (10.57)
ceea ce arată că, urmare a memoriei finite a algoritmului există o eroare în exces de regim
permanent care poate fi redusă pe măsură ce 1 , cu alte cuvinte, pe măsură ce memoria
efectivă a algoritmului creşte.
10.3.3 Simularea pe calculator
Sunt câteva concluzii care pot fi desprinse din analiza efectuată în acest paragraf .
Astfel, vom sublinia că toţi algoritmii RLS, indiferent de modul în care sunt implementaţi au
performanţe identice, dacă precizia numerică este suficientă. Din punctul de vedere a perfor-
manţelor algoritmului, algoritmii RLS sunt optimi pentru că la fiecare moment de timp,
aceştia minimizează energia ponderată a erorii (Tsypkin 1971). Aceste proprietăţi pot fi puse
mai bine în evidenţă de simularea pe calculator din exemplul care urmează.
Exemplul 10.2: Se consideră egalizorul adaptiv din Exemplul 7.4 prezentat în
schema bloc din Figura 7.10, în care se înlocuieşte blocul LMS printr-un bloc RLS.
Ne propunem să studiem performanţele algoritmului RLS şi să le comparăm cu
cele ale algoritmului LMS. Sursa de date de la intrarea canalului este o secvenţă
Bernoulli cu simboluri +1 şi -1, de medie nulă şi varianţă unitate. Canalul este
modelat de răspunsul la impuls de tip cosinus ridicat (7.72):
20,5 1 cos 2 , 1,2,3
0, în rest
n nh n W
10.3 Analiza convergenţei şi performanţelor algoritmului RLS 309
unde parametrul W controlează nivelul distorsiunilor introduse de canal (sau
împrăştierea valorilor proprii R ) introduse de canal. Zgomotul pe canal este
alb gaussian cu 2 0,001v . Egalizorul adaptiv are 11M coeficienţi, iar
semnalul dorit este obţinut prin întârzierea intrării cu 7 eşantioane. Pentru
implementarea algoritmului RLS se utilizează semnalul de eroare
e n d n y n împreună cu semnalul de intrare u n , condiţiile iniţiale fiind
1 şi 0,001 w 0 . Rezultatele au fost obţinute prin metoda Monte-Carlo în
urma a 100 de realizări pentru factorii de canal 2,9W şi 3,5W respectiv de
„uitare” 1 şi 0,8 . Rezultatele sunt prezentate în Figura 10.3.
Efectul împrăştierii valorilor proprii. Curbele de învăţare ale erorii pătratice medii ale
algoritmului RLS pentru 2,9W şi 3,5W împreună cu valorile minime ale erorii
pătratice medii sunt prezentate în Figura 10.3 (a). Se observă că rata de convergenţă a EPM
a algoritmului RLS, spre deosebire de algoritmul LMS, nu depinde de valoarea parametrului
W (sau, în mod echivalent de gradul de împrăştiere a valorilor proprii R ). Pe de altă
parte, nivelul de regim permanent al EPM creşte odată cu creşterea lui R .
Efectul factorului de uitare λ. Figura 10.3 (b) prezintă curbele de învăţare ale EPM
obţinute pentru algoritmul RLS în condiţiile utilizării a două valori diferite pentru λ, 1 şi 0,8.
Pentru 1 , după cum s-a explicat anterior, algoritmul are memorie infinită iar eroarea
EPM este nulă, lucru care este certificat şi de grafic. În cazul 0,8 memoria este finită,
ceea ce conduce la apariţia unei erori suplimentare, fapt relevat de graficul corespunzător.
Să ne referim la alegerea în practică a lui λ. Deşi λ poate lua orice valoare în intervalul
0 1 , pentru că λ influenţează mărimea memoriei efective a algoritmului, se va alege
pentru λ o valoare apropiată de 1. Această valoare este determinată de numărul parametrilor
care trebuie determinaţi şi de mărimea dorită a memoriei efective. Valori tipice pentru λ sunt
cuprinse între 0,99 şi 1.
Figura 10.3 Graficele de analiză a performanţelor algoritmului RLS în problema de egalizare
adaptivă.
310 SOLUŢII RECURSIVE ALE PROBLEMEI LS - 10
Compararea performanţelor algoritmilor RLS şi LMS. Pentru a face diferenţa între
ratele de convergenţă ale celor doi algoritmi, în Figura 10.3 (b) sunt reprezentate curbele lor
de învăţare în condiţii comparabile, adică pentru valori egale ale EPM de regim staţionar.
Este evident că RLS are performanţe mai bune, dar acestea sunt obţinute printr-o creştere
semnificativă a efortului de calcul.
10.4 Algoritmi RLS cu factorizare QR
Algoritmii RLS bazaţi pe descompunerea QR a matricii de date au o serie de avantaje care îi
recomandă atât în filtrarea FIR adaptivă cît şi în prelucrarea adaptivă a semnalelor într-un
combinator linear. Avantajele sunt:
1. algoritmii QR-RLS sunt echivalent algebric cu algoritmul RLS standard.
2. algoritmii au proprietăţi numerice mai bune decât algoritmul standard.
3. algoritmii sunt modulari şi pot fi implementaţi prin structuri de calcul paralel.
În funcţie de aplicaţia implementată, se utilizează algoritmul QR-RLS cu rotaţii Givens
în situaţiile în care este nevoie numai de secvenţele de eroare apriori e n sau aposteriori
n . Atunci când sunt necesare şi valorile coeficienţilor filtrului adaptiv nw , se preferă
utilizarea algoritmului QR-RLS invers bazat pe rotaţii Givens.
10.4.1 Calcule LS prin descompunere Cholesky sau
QR
Începem prin a reformula problema filtrării celor mai mici pătrate ponderate exponenţial în
termeni de matrici de date, după cum s-a discutat în paragraful 9.1. Dacă nw este vectorul
coeficienţilor filtrului LS la momentul de timp n, se poate scrie
, 0Hj d j n j j n w u (10.58)
unde 1 2
T
Mj u j u j u j u (10.59)
în cazul în care se utilizează un combinator linear şi
1 1T
j u j u j u j M u (10.60)
dacă se face filtrare FIR. Trebuie subliniat că nw este menţinut constant pe intervalul de
optimizare 0 j n . Utilizând matricea de dimensiune 1n M
1 1 1
2 2 2
0 1
0 10 1
0 1
H
M M M
u u u n
u u u nn M
u u u n
A u u u , (10.61)
vectorul de răspuns dorit de dimensiune 1 1n
10.4 Algoritmi RLS cu factorizare QR 311
0 1H
n d d d n d (10.62)
şi vectorul de eroare aposteriori de dimensiune 1 1n
0 1H
n n ε (10.63)
putem combina cele 1n ecuaţii (10.58) într-o singură ecuaţie matricială, astfel
n n n n ε d A w (10.64)
Pentru a exprima eroarea pătratică totală din (10.1) şi ecuaţiile normale din (10.2) într-un
format adecvat aplicării tehnicilor de factorizare ortogonală din paragraful 9.3, definim
matricea 1 1n n de ponderare exponenţială
2 1diag , , ,1n nn Λ (10.65)
În aceste condiţii, energia totală a erorii se exprimă astfel
2 2
0
nn j
j
E n j n n
Λ ε (10.66)
iar coeficienţii filtrului LS reprezintă soluţia ecuaţiilor normale
ˆ ˆn n nR w p (10.67)
unde 0
ˆn
Hn j H
j
n j j n n n n
R u u Λ A Λ A (10.68)
iar *
0
ˆn
Hn j
j
n j d j n n n n
d u Λ A Λ d (10.69)
se exprimă drept funcţii de matricea de date ponderată n nΛ A şi vectorul de răspuns
dorit ponderat n nΛ d .
În Capitolul 4 este prezentată o modalitate de rezolvare a ecuaţiile normale (10.66) prin
utilizarea descompunerii Cholesky
ˆ Hn n nR L L (10.70)
sau a descompunerii H
LDL
ˆ Hn n n nR L D L (10.71)
unde 1 2n n nL D L .
Matricea Cholesky nL poate fi calculată atât din matricea ˆ nR utilizând algoritmul
de descompunere triunghiulară (vezi paragraful 4.5) sau din matricea de date n nΛ A
utilizând una dintre metodele de descompunere (Givens, Householder sau MGS) discutate
în Capitolul 9.
312 SOLUŢII RECURSIVE ALE PROBLEMEI LS - 10
Vom presupune acum că descompunerea QR1 este
n
n n n
RQ Λ A
0 (10.72)
unde nR este o matrice superior triunghiulară cu elemente diagonale pozitive iar nQ
este o matrice unitară. Din ecuaţiile (10.68) şi (10.72) se poate scrie:
ˆ Hn n nR R R (10.73)
ceea ce implică, datorită unicităţii factorizării Choleski, faptul că Hn nL R . Deşi cele
două abordări sunt echivalente din punct de vedere algebric metodele de descompunere QR
au proprietăţi numerice superioare pentru că ele evită operaţia de ridicare la pătrat din
(10.68). Având în vedere că matricea nR poate fi privită drept rădăcină pătrată a matricii
de corelaţie ˆ nR , algoritmii bazaţi pe descompunerea Choleski a acesteia sunt denumiţi
algoritmi de rădacină pătrată.
Fiind dat factorul Cholesky nR , vom rezolva pentru început sistemul de ecuaţii
inferior triunghiular
ˆH n n nR k p (10.74)
pentru a obţine vectorul de corelaţie parţială nk prin eliminare directă. În cazul
descompunerii QR vectorul nk este obţinut prin transformarea vectorului n nΛ d şi
reţinerea primelor sale M componente, adică
2
nn n n n
n
kQ Λ d z
z (10.75)
unde Mn n k z (vezi ecuaţia (9.62) din paragraful 9.3.1). Expresia energiei minime a
erorii în sens LS dată de
22
ˆ H
dE n E n n n n n p w d k (10.76)
a fost de asemenea demonstrată în paragraful 9.3.1.
Pentru a calcula coeficienţii filtrului, trebuie rezolvat prin eliminare înapoi sistemul de
ecuaţii superior triunghiular
n n nR w k (10.77)
După cum s-a arătat în paragraful 9.3.1, soluţia ecuaţiei (10.77) nu este recursivă după
ordinul filtrului.
1 Spre deosebire de Capitolul 9 unde pentru descompunerea QR s-a scris
H Q A R , în acest capitol
vom utiliza notaţia utilizată în literatura tehnică, nu matematică: H Q A R .
10.4 Algoritmi RLS cu factorizare QR 313
În cazul aplicaţiilor care necesită doar valorile erorilor apriori şi aposteriori, rezolvarea
ecuaţiei (10.77) poate fi evitată. Într-adevăr, dacă se defineşte vectorul de inovaţie2 LS nw
prin relaţia
H n n nR w u (10.78)
se obţine H Hn d n n n d n n n w u k w (10.79)
şi 1 1H He n d n n n d n n n w u k w , (10.80)
ecuaţii care pot fi folosite pentru a calcula erorile fără a se cunoaşte vectorul coeficienţilor
nw . Mai mult, întrucât ambele sisteme de ecuaţii (10.74) şi (10.78) sunt inferior triun-
ghiulare, determinarea erorilor n şi e n se face recursiv după ordinul filtrului de la 1 la
M.
Din discuţia efectuată în paragraful 10.1 a rezultat că partea centrală a algoritmului RLS
este reprezentată de calculul vectorului de câştig
ˆ n n nR g u (10.81)
sau, al vectorului de câştig alternativ ˆ 1n n n R g u . Utilizând ecuaţiile (10.73),
(10.78) şi (10.81), se obţine
n n nR g w (10.82)
Ultima ecuaţie exprimă vectorul de câştig prin intermediul matricii Cholesky nR şi al
vectorului de inovaţie nw . Similar cu relaţia (10.77), ecuaţia (10.82) pierde avantajul de a
putea fi rezolvată prin eliminare înainte, deci nu este recursivă după ordinul filtrului.
În concluzie, dacă pentru matricea Cholesky a lui ˆ nR sau a lui 1ˆ nR ar putea fi
găsită o relaţie de recursie, atunci s-ar putea dezvolta algoritmi exacţi RLS care să furnizeze
atât valorile erorilor de filtrare şi vectorul coeficienţilor sau numai erorile de filtrare.
Relaţiile importante pentru dezvoltarea acestor algoritmi sunt rezumate în Tabelul 10.3.
Vom sublinia că dacă metoda de descompunere Cholesky determină factorii nR şi nk
prin factorizarea matricii 2H
n n n n n A d Λ A d , atunci metodele de
descompunere QR factorizează matricea de date n n n Λ A d . Indiferent de metoda
de factorizare utilizată, algoritmii cu descompunere triunghiulară calculează prin recursie
matricile rădăcini pătrate nR şi 1 nR , ceea ce asigură că matricile
ˆ Hn n nR R R şi 1 1ˆ Hn n n R R R sunt în mod garantat hermitice şi îşi
păstrează astfel caracterul pozitiv definit. În consecinţă, aceşti algoritmi au proprietăţi mai
bune decât algoritmul RLS standard.
2 O explicaţie completă a noţiunii de inovaţie în contextul filtrării adaptive este dată în Capitolul 11.
314 SOLUŢII RECURSIVE ALE PROBLEMEI LS - 10
10.4.2 Leme de factorizare matricială
Deducerea variantelor QR ale algoritmului RLS se bazează pe două rezultate matriciale
foarte utile şi care îşi găsesc aplicaţiile atât în algoritmii QR-RLS cât şi în alţi algoritmi de
acest gen (Manolakis, ş.a. 2005, Sayed şi Kailath 1998). Din acest motiv, nu ne vom rezuma
la enunţarea lemelor ci vom face şi demonstrarea lor succintă. Prima lemă pe care o prezen-
tăm rezultă din echivalenţa algebrică care există între metodele de factorizare Cholesky şi
QR.
Lema 10.1 Descompunerea QR a matricii de date n nΛ A de dimensiune
1n M este echivalentă cu factorizarea QR a matricii de dimensiune
1M M
1H
n
n
R
u (10.83)
Demonstraţie Considerăm următoarea partiţie a matricii n nΛ A
1 1H
n nn n
n
Λ AΛ A
u (10.84)
şi definim o matrice 1
11H
nn
Q 0Q
0 (10.85)
pentru a obţine, prin utilizarea relaţiei (10.72):
1
1H
n
n n n
n
R
Q Λ A 0
u
(10.86)
Dacă se poate construi o matrice ˆ nQ care să realizeze factorizarea QR a
membrului drept al ecuaţiei (10.86), atunci matricea unitară nQ
ˆ 1n n Q Q realizează descompunerea QR a lui n nΛ A . Întrucât blocul
Recursie erori şi coeficienţi Recursie numai pentru erori
H n n nR w u ˆH n n nR k p
n n nR g w H n n nR w u
1He n n n n d w u 1e n d n n n k w
*1n n n e n w w g
Tabelul 10.3 Algoritmii RLS cu descompunere triunghiulară realizează sau
recursia erorii şi a vectorului coeficienţilor sau numai recursia
directă a erorii.
10.4 Algoritmi RLS cu factorizare QR 315
de zerouri din (10.86) nu are vreun efect asupra asupra construcţiei matricii
ˆ nQ , construcţia lui ˆ nQ este echivalentă cu găsirea unei matrici unitare
care să realizeze factorizarea QR a matricii din (10.83).
Cea de a doua lemă este cunoscută sub numele de lema de factorizare matricială
(Golub şi Van_Loan 1996, Sayed şi Kailath 1998). Lema este un mijloc elegant de imple-
mentare a algoritmilor QR-RLS.
Lema 10.2 Dacă X şi Y sunt două matrici N M N M , atunci
H HX X Y Y (10.87)
dacă şi numai dacă există o matrice unitară Q ( H Q Q I ) de dimensiune
N N , care să realizeze transformarea
QX Y (10.88)
Demonstraţie Din (10.88) avem H H H H Y Y X Q QX X X , ceea ce
demonstrează condiţia necesară din relaţia (10.87). Pentru a justifica suficien-
ţa, facem apel la descompunerea în valori singulare (SVD) a matricilor X şi
Y :
,H H X X X Y Y YX U Σ V Y U Σ V (10.89)
unde XU şi
YU sunt matrici unitare de dimensiune N N , XV şi
YV matrici
unitare M M iar XΣ şi
YΣ sunt matrici N M ce constau din valorile
singulare nenegative ale lui X şi Y . Utilizând (10.87) împreună cu (10.89),
se obţine:
şi X Y X YV V Σ Σ (10.90)
Pentru a demonstra suficienţa lemei, definim matricea
H
Y XQ U U (10.91)
şi utilizăm relaţiile din (10.90) pentru a obţine
. q.e.d.H H H Y X X X X Y Y YQX U U U Σ V U Σ V Y
10.4.3 Algoritmul QR-RLS
Vom stabili, în cele ce urmează, modalitatea de actualizare a factorilor nR şi nk , a
matricii de date extinse n n n Λ A d , iar apoi vom calcula erorile apriori e n sau
aposteriori n . Constatările la care vom ajunge sunt independente de metoda pe care o
vom utiliza la construcţia matricii de ortogonalizare nQ .
Vom presupune că la momentul n sunt cunoscute vechile valori ale factorilor 1n R
şi 1n k şi sunt recepţionate noile date ,n d n u . Ceea ce se doreşte este să se
determine factorii noi nR şi nk , fără să se reia la fiecare iteraţie toate calculele deja
316 SOLUŢII RECURSIVE ALE PROBLEMEI LS - 10
efectuate. În acest scop, vom arăta că dacă există o matrice unitară nQ care să anuleze
vectorul H nu din ultima linie a matricii din membrul stâng al relaţiei
**
1 1
1HH
n n nn nn
e n nn d n
R k wR k 0Q
0u (10.92)
atunci matricea din membrul drept al relaţiei furnizează actualizările factorilor nR şi
nk precum şi valoarea nouă a erorii. Scalarul n are o valoare reală pentru că este egal
cu ultimul element diagonal al lui nQ . Semnificaţia şi utilitatea lui n şi nw vor fi
explicate în continuare.
Pentru a aplica Lema 10.2 matricilor
**
1 1 şi
1HH
n n nn n
e n nn d n
R k wR k 0X Y
0u
vom face verificarea3
11 11
1 1H H H H Hn n n n n n Y Y R R R R u u X X (10.93)
*
12 121 1H H H H Hn n n n n d n Y Y R k R k u X X (10.94)
13 13
H H Hn n n Y Y R w u X X (10.95)
23 23
H H Hn n e n n d n Y Y k w X X (10.96)
2
33 331H H Hn n n Y Y w w X X (10.97)
În primul rând, trebuie observat că (10.93) este identic cu ecuaţia de recursie (10.7) a
matricii de corelaţie. Prin urmare, nR este factorul Cholesky al lui ˆ nR . De asemenea,
(10.94) este identic, datorită lui (10.74), cu relaţia de recursie a vectorului de intercorelaţie
ˆ np , iar (10.95) este identic cu definiţia din (10.78) a vectorului de inovaţie. Pentru a
dezvălui semnificaţia fizică a mărimilor e n şi n , vom remarca că prin compararea
relaţiilor (10.96) şi (10.79) se obţine
n e n n (10.98)
ceea ce arată că e n este o versiune scalată a erorii aposteriori. Pornind de la (10.97) şi
utilizând (10.77), (10.73) şi (10.21), obţinem
2 1ˆ1 1H Hn n n n n n n w w u R u (10.99)
sau n n (10.100)
3
ijdenotă elementul ij al unei matrici bloc.
10.4 Algoritmi RLS cu factorizare QR 317
ceea ce arată că n este un factor de conversie normalizat. Pentru că
2n n e n n e n (10.101)
din relaţia (10.98) se obţine
e n e n n (10.102)
Prin urmare e n este media geometrică a erorilor LS apriori şi aposteriori. În plus, (10.98)
şi (10.101) dau
e ne n
n (10.103)
o relaţie care poate fi de asemenea demonstrată direct din ecuaţia (10.92).
În concluzie, pentru a determina recursiile factorilor Cholesky nR şi nk şi eroarea
apriori e n este nevoie să se determine o matrice unitară nQ care să anuleze vectorul
H nu în relaţia (10.92). Construcţia matricii nQ este prezentată în paragraful 10.4.6.
10.4.4 Algoritmul QR-RLS extins
Algoritmul introdus în paragraful precedent nu furnizează vectorul coeficienţilor, care se
poate obţine în urma rezolvării prin substituţie a sistemului de ecuaţii superior triunghiular
n n nR w k . Substituţia în ordine inversă nu este recursivă după ordinul coeficienţi-
lor şi nu poate fi implementată printr-o structură de calcul paralel. Se poate alege o abordare
alternativă prin adăugarea a încă unei coloane la matricile algoritmului QR-RLS din (10.92).
Vom justifica algoritmul extins pe un model simplificat alcătuit din prima coloană a matricii
din (10.92) şi coloana cea „nouă”:
1 1H
H HH H
n nn nn
nn
R DR RQ
0 gu 0 (10.104)
unde nD şi ng vor trebui determinaţi. În conformitate cu Lema 10.2 obţinem:
12 12
H H Hn n Y Y R D I X X (10.105)
ceea ce are drept rezultat că Hn nD R este factorul Cholesky al lui 1ˆ nR şi poate fi
actualizat prin aceiaşi transformare ortogonală nQ . În plus, avem
1 1
22 22
1H H H H Hn n n n n n
Y Y R R g g R R X X (10.106)
Dacă în ultima ecuaţie utilizăm relaţia (10.73) rezultă
1 1ˆ 1 Hn n n n n
R P P g g
318 SOLUŢII RECURSIVE ALE PROBLEMEI LS - 10
Comparaţia ultimei ecuaţii cu (10.32) dă
n nn
nn
g gg (10.107)
Prin urmare, vom spune că ng este versiunea scalată a vectorului de câştig RLS. Ecuaţia
de recursie în timp pentru calculul vectorului coeficienţilor se poate scrie, înlocuind
rezultatul găsit în (10.13):
*1n n n e n w w g (10.108)
Metoda de recursie a vectorului nw prezentată mai sus poartă numele de algoritmul
RLS extins (Sayed şi Kailath 1994, Yang şi Böhme 1992). Acest algoritm nu este larg utili-
zat pentru că recursia simultană a matricilor şi Hn nR R poate conduce la probleme
numerice, în special în implementările de precizie finită. Această problemă este evitată de
algoritmul QR-RLS invers ce este discutat în continuare.
10.4.5 Algoritmul QR-RLS invers
Introducerea algoritmului invers porneşte ca şi în situaţiile prezentate în paragrafele 10.4.3 şi
10.4.4 de la Lema 10.2. Pentru a aplica lema, se exprimă matricial unele dintre ecuaţiile ce
definesc filtrarea adaptivă LS din paragraful 10.1. Începem prin a face apel la (10.22) pentru
a rescrie ecuaţia (10.19):
1 11 1H n n n
n u P u (10.109)
Din relaţiile (10.17), (10.20) şi (10.22) se scrie
11
nn n
n
gP u (10.110)
iar ecuaţia de recursie (10.32) dă:
11
Hn nn n
n n
g gP P (10.111)
A patra ecuaţie utilizată este factorizarea Cholesky a inversei matricii de corelaţie nP :
1 1ˆ Hn n n n P R R R (10.112)
Cele patru ecuaţii pot fi rescrise grupat sub forma identităţii matriciale
10.4 Algoritmi RLS cu factorizare QR 319
1
1
1
11 1 1 1
1 1
11 1
1
1
H
H H
H
HH
H
n nn n n
n
nn
nn
n n nn
u RR u R
R 0 0
0 0 R
gg
R
(10.113)
unde 1 nR este o matrice superior triunghiulară. Din (10.113) şi Lema 10.2 rezultă că
există o matrice unitară nQ astfel încât egalitatea de mai jos să fie satisfăcută.
1 11 1
1
1
H
H H
H
H
nn n n
nn
n n
0 RR u R
gQ
0
(10.114)
Se demonstrează astfel că, prin anularea lui 1H n n n R u w , se
realizează actualizarea factorului Cholesky H nR , a vectorului de câştig normalizat
n ng şi a factorului de conversie n . Ca şi în cazul celorlalţi algoritmi QR,
singura cerinţă pe care trebuie să o îndeplinească matricea nQ este să anuleze vectorul
linie 1 1H n n u R . Acest algoritm ca şi algoritmul RLS standard se iniţializează
prin impunerea condiţiei 1H R 1 I , unde este un număr pozitiv foarte mic.
10.4.6 Implementarea algoritmului QR-RLS prin
utilizarea rotaţiilor Givens
Pentru a dezvolta un algoritm RLS bazat pe descompunerea QR, este nevoie să construim
matricea nQ care să anuleze vectorul H nu din membrul drept al ecuaţiei (10.92).
Întrucât calculul vectorului nw nu este necesar în dezvoltarea algoritmului iar n
poate fi calculat din matricea nQ , după cum vom vedea mai târziu, pentru deducerea
algoritmului vom utiliza o formă redusă a ecuaţiei (10.92)
1 1
**
n nn nn
HH e nn d n
n
R kR kQ
0u
R
(10.115)
320 SOLUŢII RECURSIVE ALE PROBLEMEI LS - 10
şi vom arăta cum pot fi anulate elementele lui H nu unu câte unu, utilizând o secvenţă de
M rotaţii Givens. Să reamintim aici că matricea 1n R este superior triunghiulară. În
primul pas se construieşte matricea de rotaţie Givens 1nG care operează asupra primei şi
ultimei linii a lui nR în scopul anulării primului element al lui H nu . Pentru a stabili
parametrii rotaţiei 1c şi
1s se utilizează primul element din prima linie şi primul element din
ultima linie a matricii, iar apoi se aplică rotaţia restului de M perechi de pe cele două linii.
Mai exact, dorim să găsim o rotaţie Givens care să realizeze operaţia:
*
1 1 11 12 1 1
* * * *
1 1 1 2
11 12 1 1
2 2 2
2
1 1 1 1
1 1 1 1
0
H
M
H
M
M
M
c s r n r n r n k n
s c u n u n u n d n
r n r n r n k n
u n u n d n
0
0 I 0 0
0
0
Elementele matricii 1n R sunt 1ijr n . Pentru a asigura compatibilitatea notaţiilor,
vom defini 1
k ku n u n şi 1d n d n .
În continuare, utilizând termenii 22 1r n şi 2
2u n , se determină matricea
2nG şi se anulează cel de al doilea element de pe ultima linie prin rotaţiile a 1M
perechi de termeni de pe a doua linie şi de pe ultima linie a matricii 2n nG R .
Generalizând acum, se utilizează termenii 1iir n şi i
iu n pentru a stabili matri-
cea de rotaţie Givens inG care operează asupra liniei i şi a ultimei linii a matricii rotite
1 1in n n
G G R în scopul anulării elementului i
iu n :
*
, 1
1 1 1
1
0 0 1 1 1
0 0
0 0
0 0 0
Hii iM ii i
H i i ii i i M
ii i i iM i
i i i
i M
r n r n k nc s
s c u n u n d n
r n r n r n k n
u n u n d n
0
0 (10.116)
unde
1i
ii i
i i
ii ii
r n u nc s
r n r n
(10.117)
şi 1 2
22 1
i
ii ii ir n r n u n (10.118)
10.4 Algoritmi RLS cu factorizare QR 321
În concluzie, dacă cele 1M i perechi de rotaţii elementare din (10.116) sunt realiza-
te pentru 1,2, ,i M se realizează anularea primelor M elemente de pe ultima linie a
matricii nR , aceasta fiind convertită în forma triunghiulară din relaţia (10.115). Acest
proces necesită un număr total de 1 2M M perechi de rotaţii elementare. Matricea de
ortogonalizare este:
2 1Mn n n nQ G G G (10.119)
unde
*
1
1
1
1
i ii
i i
c n s nn
s n c n
G (10.120)
sunt matricile de rotaţie de dimensiune 1 1M M ce au toate elementele diagonale
nule, cu excepţia celor plasate în locaţiile , 1i M şi 1,M i .
Relaţia (10.92) evidenţiază faptul că n este egal cu ultimul element de pe diagonala
matricii nQ . În plus, dacă luăm în considerare structura specială a lui inG precum şi
relaţia (10.119), obţinem:
1
M
i
i
n c n
(10.121)
adică, n este produsul termenilor cosinus din cele M rotaţii Givens. Ultima observaţie
explică interpretarea de variabile unghiulare care se dă factorilor de conversie n şi
2n n .
Chiar dacă soluţia unei probleme LS nu este definită atunci când n M , algoritmul de
rotaţie Givens se poate iniţializa cu 1 şi 1 0 R 0 k . Tabelul 10.4 prezintă
algoritmul QR-RLS cu rotaţii Givens. Pentru fiecare iteraţie, algoritmul operează 22M
multiplicări, 2M divizări şi M rădăcini pătrate.
Algoritmul din Tabelul 10.4 poate fi implementat printr-o structură de calcul paralel
care utilizează o reţea triunghiulară de procesoare după cum ilustrează Figura 10.4 pentru
3M . Întreaga reţea funcţionează cu un tact unic, ccea ce face ca în reţea să se producă
transferul de date în mod regulat. Datorită gradului ridicat de paralelism, se pot realiza viteze
foarte mari de prelucrare a datelor. Modul de funcţionare regulat şi paralel a făcut ca aceste
322 SOLUŢII RECURSIVE ALE PROBLEMEI LS - 10
structuri specializate de prelucrare digitală să primească numele de structuri (sau reţele)
sistolice (Ciochină şi Negrescu 1999).
Pentru a descrie funcţionarea structurii din Figura 10.4, vom remarca că la momentul de
timp 1n , termenii matricii 1n R şi ale vectorului 1n k sunt memoraţi în
elementele reţelei. Cele mai noi date de intrare achiziţionate la momentul n,
*H n d n u sunt introduse în paralel prin partea superioară a reţelei şi se propagă
descendent. Parametrii de rotaţie Givens sunt calculaţi în celulele marginale şi se propagă de
la stânga spre dreapta. Celulele interne primesc parametrii de rotaţie din stânga, realizează
rotaţia datelor pe care le primesc de sus şi transmit rezultatele rotaţiei celulelor vecine situate
la dreapta respectiv sub celula considerată. Factorul de conversie n este calculat în celu-
lele marginale iar valoarea erorii apriori sau aposteriori se calculează în ultima celulă a
reţelei. Această procedură de recursie este repetată la fiecare moment de timp odată cu
achiziţionarea noului pachet de date.
1. Iniţializare: 1 0, 1 0, , 1, ,ij ir k i j M
2. Recursie temporală: n = 0,1,....
, 1e n d n n
For 1,2, ,i M
1 2
22 1
i
ii ii ir n r n u n
1i
ii i
i i
ii ii
r n u nc s
r n r n
(dacă 0 1 şi 0iir n c s )
For 1, 2, ,j i i M
1j iju cu n sr n
*1ij ij jr n cr n s u n
ju n u
next j
1ie ce n sk n
*1i ik n ck n s e n
,e n e n c n
next i
sau e n
n e n n e nn
Tabelul 10.4 Algoritmul QR-RLS bazat pe rotaţii Givens
10.4 Algoritmi RLS cu factorizare QR 323
Este evident că reţeaua de procesare din Figura 10.4 realizează două funcţii distincte: pe
de o parte în reţea sunt propagate matricea nR şi vectorul nk care definesc procesorul
LS în reţea iar, pe de altă parte ea realizează, într-un mod nu foarte evident, operaţia de
filtrare, furnizând la ieşire eroarea e n sau n . Figura 10.4 furnizează o descriere
funcţională numai a elementelor de prelucrare numerică a reţelei. În practică, există imple-
mentări diverse ale algoritmilor LS care utilizează reţele sistolice, reţele de undă sau proce-
soare CORDIC. Structura sistolică a fost propusă în 1983 de McWhirter (Haykin 1996,
McWhirter şi Proudler 1993).
10.4.7 Implementarea algoritmului QR-RLS invers
prin utilizarea rotaţiilor Givens
Punctul de pornire a implementării este ecuaţia de factorizare QR (10.114) din paragraful
10.4.5. Aici, definim vectorul
Figura 10.4 Implementarea printr-o reţea de calcul sistolic a algo-
ritmului QR-RLS şi descrierea funcţională a elemente-
lor sale componente.
324 SOLUŢII RECURSIVE ALE PROBLEMEI LS - 10
1
1Hn n n
w R u (10.122)
şi scalarul
2 1ˆ 1 Hn n n
n
w w (10.123)
pentru a rescrie ecuaţia (10.114) astfel
11
1
H H
H
H
n n nn
n n
w R 0 RQ
g0
(10.124)
unde ng este vectorul de câştig normalizat (10.107). Matricea nQ este aleasă ca o
secvenţă de matrici de rotaţie inG definite prin (10.120).
Vom arăta pentru început că parametrii unghiulari şi i ic n s n ai lui inG pot fi
determinaţi utilizând numai elementele vectorului nw . În acest scop, se aleg astfel
parametrii unghiulari ai matricii de rotaţie 1nG încât să se anuleze primul element
1w n din ecuaţia
1
22
1
1
0
ˆ1
MM
w n
w nw n
n
w nw n
n
G (10.125)
Trebuie remarcat că, datorită structurii lui 1nG , restul elementelor vectorului nw nu
sunt afectate de această rotaţie. După cum s-a arătat în Capitolele 3 şi 9, o transformare
unitară nu modifică norma euclideană a unui vector, astfel că:
22
1 1ˆ 1n w n
exprimă pe 1ˆ n în funcţie de 1w n . Pentru a calcula parametrii rotaţiei se utilizează
prima şi ultima ecuaţie din relaţia (10.125):
*
1 1 1
1 1 1 1
0
ˆ
c n w n s n
s n w n c n n
Soluţia sistemului:
*
1
1 1
1 1
1,
ˆ ˆ
w nc n s n
n n
10.4 Algoritmi RLS cu factorizare QR 325
furnizează parametrii primei matrici de rotaţie 1nG . Similar, poate fi determinată rotaţia
2nG care urmăreşte să anuleze elementul 2w n al vectorului din membrul drept al
ecuaţiei (10.125). Parametrii rotaţiei sunt acum
*
2
2 2
2 2
1,
ˆ ˆ
w nc n s n
n n
unde 2 2 22 2
2 1 2 1 2ˆ ˆ1n w n w n n w n
reprezintă formula de calcul recursiv al lui ˆi n . Restul elementelor vectorului nw se
pot anula, dacă se continuă similar procedura descrisă. În general, pentru 1,2, ,i M se
calculează:
1 222
1 0
*
1
ˆ ˆ ˆ, 1
ˆ,
ˆ ˆ
i i i
i i
i i
i i
n w n n
n w nc n s n
n n
(10.126)
şi ˆ ˆMn n .
Vom nota elementele matricii H nR prin ijp n iar prin
i
jg n elementele vecto-
rului H ng după rotaţia i. Prima rotaţie actualizează primul element al matricii
1H n R şi modifică primul element al lui H ng . În consecinţă, din
11
1
1
1
0 011
0 0
H
H
p nn
n
g n
RG
0
(10.127)
se obţine 11 1 11
11p n c n p n
1
1 1 11
11g n s n p n
Multiplicarea lui (10.127) cu 2
nG actualizează cea de a doua linie a matricii
1H n R şi modifică primele două elemente ale lui H ng . În general, rotaţia i
actualizează linia i a lui 1H n R şi modifică primele i elemente ale lui H ng
conform formulelor:
1*11
i
ij i ij i jp n c n p n s n g n
(10.128)
326 SOLUŢII RECURSIVE ALE PROBLEMEI LS - 10
1 1
1i i
j i j i ijg n c n g n s n p n
(10.129)
pentru 1 şi 1i M j i . Aceste recursii se iniţializează cu 0,i
jg n 1 j M şi
furnizează mărimile calculate după M rotaţii. Algoritmul invers QR-RLS este rezumat în
Tabelul 10.5, o implementare a sa într-o reţea de calcul sistolic fiind prezentată în Pan şi
Plemmons (1989).
3. Iniţializare: 1 1 , 1 1ijp w u 0
4. Recursie temporală: n = 0,1,....
0
1
0, 1 ,
ˆ 1
H
i
j
e n d n n n
g n j M i j
n
w u
For 1,2, ,i M
1
1 222
1
*
1
11
ˆ ˆ
ˆ,
ˆ ˆ
i
i ij i
j
i i i
i i
i i
i i
w n p n u n
n w n
n w nc n s n
n n
For 1,2, ,j i
1*
1
11
11
i
ij i ij i j
i i
j i j i ij
p n c n p n s n g n
g n c n g n s n p n
next j
next i
ˆ
M
e ne n
n
For 1,2, ,m M
* *1i
m m jw n w n g n e n
next m
Tabelul 10.5 Algoritmul QR-RLS invers cu rotaţii Givens.
10.5 Clasificarea algoritmilor RLS 327
10.5 Clasificarea algoritmilor RLS
Dacă algoritmul RLS standard furnizează baza pentru introducerea şi evaluarea performan-
ţelor metodei adaptive LS ce se utilizează atât în filtrele adaptive FIR cât şi în combinatoare
lineare, algoritmii QR-RLS bazaţi pe rotaţii Givens constituie cea mai bună implementare a
algoritmului atât din punctul de vedere a comportării numerice cât şi a uşurinţei implemen-
tării în structuri de tip hardware. Pe lângă algoritmii prezentaţi în acest Capitol, mai sunt
mulţi alţi algoritmi care au interpretări teoretice interesante sau satisfac, în cele mai bune
condiţii, necesităţile unor aplicaţii particulare (Manolakis, ş.a. 2005). Algoritmii RLS pot fi
clasificaţi în trei categorii distincte:
1. Algoritmul RLS standard. Algoritmul calculează prin recursie inversa matricii de
corelaţie 1ˆn nP R , după care se calculează vectorul de câştig prin înmulţirea
unei matrici cu un vector. Algoritmul nu permite recursia după ordinul filtrului
adaptiv, acesta fiind fix.
2. Algoritmi de rădăcină pătrată în domeniul putere ce calculează prin recursie ori
nR ori inversa sa 1n nP R , utilizând formule obţinute din descompunerea
Choleski a lui ˆ nR sau a inversei acesteia nP . Din această categorie pot fi
separate două tipuri distincte:
a. Algoritmi ce calculează prin recursie ,n nR k (abordare cu filtrare de
informaţie) sau 1 ,n nR k (abordare cu filtrare de covarianţă4) şi
furnizează numai erorile apriori sau aposteriori.
b. Algoritmi ce calculează prin recursie nR şi calculează pe ng prin
rezolvarea ecuaţiei (10.82) sau fac recursia lui 1 nR şi calculează pe
ng prin înmulţirea unei matrici cu un vector. Ambii algoritmi calculează
vectorul coeficienţilor nw şi erorile şi e n n .
3. Algoritmi de rădăcină pătrată în domeniul amplitudine ce calculează prin recursie
ori matricea nR (algoritmul QR-RLS) sau inversa sa 1n nP R (algoritmul
QR-RLS invers) prin acţiune directă asupra matricii de date n n n Λ A d .
În ambele cazuri, pot fi dezvoltaţi algoritmi care să furnizeze numai erorile
şi e n n sau atât erorile cât şi vectorul coeficienţilor nw .
Algoritmii care calculează recursiv factorul Choleski nR evită problemele provocate
de pierderea simetriei care apar în cazul recursiei lui ˆ nR şi au proprietăţi numerice mai
bune pentru că numărul de condiţionare a lui nR este egal cu rădăcina pătrată a număru-
4 Termenii algoritmi cu filtrare de informaţie sau covarianţă sunt utilizaţi în contextul teoriei
filtrului Kalman (Kailath 1981). Vezi şi Capitolul 11.
328 SOLUŢII RECURSIVE ALE PROBLEMEI LS - 10
lui de condiţionare a matricii ˆ nR . În această carte am prezentat algoritmii RLS bazaţi pe
descompunerea QR prin rotaţii Givens ale setului de date n n n Λ A d pentru că
această factorizare are proprietăţi numerice superioare în raport cu celelalte metode de facto-
rizare Cholesky. În literatură se cunosc alţi algoritmi RLS ce se bazează pe descompunerea
QR prin transformări MGS sau Householder (Ling, ş.a. 1986, Liu, ş.a. 1992) dar aceştia nu
sunt utilizaţi pe scară largă.
O idee general acceptată este că descompunerea QR conduce la cele mai bune metode
de rezolvare a problemei celor mai mici pătrate (Golub şi Van_Loan 1996). S-a arătat prin
simulare că algoritmul QR-RLS cu rotaţii Givens este stabil numeric pentru 1 şi diverge
pentru 1 (Haykin 1996). Acest algoritm este ideal pentru aplicaţiile care necesită doar
erorile apriori sau aposteriori. Dacă sunt necesari şi coeficienţii filtrului adaptiv, o posibilă
soluţie ar putea fi reprezentată de algoritmul QR-RLS extins. Acesta calculează prin recursie
simultan atât pe nR cât şi pe H nR independent unul de celălalt, ceea ce face ca în
implementările de precizie finită valorile calculate ale lui nR şi H nR să devieze una
faţă de inversa hermitică a celeilalte. Urmarea acestei inconsistenţe numerice este că algorit-
mul devine numeric instabil (Haykin 1996). Pentru a evita această problemă, se poate face
apel sau la algoritmul QR-RLS cu substituţie în ordine inversă sau algoritmul QR-RLS
invers (Pan şi Plemmons 1989). Recursia lui nw cu acest din urmă algoritm poate fi
implementată într-o reţea sistolică fără să întrerupă procesul de adaptare.
Dacă se face factorizarea elementelor diagonale ale matricii nR obţinută prin
descompunere QR, aceasta se poate exprima astfel
1 2
1n n nR D R (10.130)
unde 1 nR este o matrice superior triunghiulară cu elemente diagonale unitare, iar
2 2 2
11 22diag , , , MMn r n r n r nD (10.131)
este o matrice diagonală cu elemente pozitive. Se poate vedea uşor că 1
H nR şi nD
constituie factorii descompunerii HLDL descrisă prin (10.71). Rezultă că ecuaţia (10.130)
constituie o bază pentru diverşi algoritmi RLS bazaţi pe factorizarea QR care nu necesită
operaţii de rădăcină pătrată. Într-o manieră similară, factorizarea HLDL face posibilă triun-
ghiularizarea lui nR fără extragerea rădăcinii pătrate. Totuşi, algoritmii care utilizează
factorizarea HLDL au proprietăţi numerice inferioare în raport cu algoritmii de rădăcină
pătrată echivalenţi şi sunt mult mai predispuşi la probleme de depăşire a capacităţii de repre-
zentare numerică, astfel încât sunt mai puţin utilizaţi decât algoritmii de rădăcină pătrată. Cu
toate acestea, algoritmii RLS fără extragere de rădăcină pătrată sunt foarte interesanţi din
punct de vedere a implementărilor VLSI (Hsieh, ş.a. 1993). O abordare unificată a diverşilor
algoritmi RLS utilizând o formulare în spaţiul stărilor şi corespondenţa lor cu algoritmii de
filtrare Kalman asociaţi se dă în Sayed şi Kailath (1998) şi în Haykin (1996).
SOLUŢII RECURSIVE ALE PROBLEMEI LS Probleme 329
Toţi algoritmii la care ne-am referit înainte sunt aplicabili, indiferent de tipul vectorilor
de intrare şi necesită un număr de 2O M operaţii aritmetice pentru fiecare recursie de
timp. Totuşi, dacă vectorul de date de intrare are o structură invariantă la deplasarea în timp,
toţi algoritmii conduc la versiuni simplificate care execută un număr de O M operaţii arit-
metice pe recursie. Aceşti algoritmi care pot fi utilizaţi în aplicaţii de filtrare şi predicţie LS
sunt discutaţi în Capitolul 12.
Probleme
P 10.1 Verificaţi valabilitatea lemei de inversare matricială.
P 10.2 Consideraţi că matricea de corelaţie ˆ nR este definită prin ecuaţia
ˆ Hn n n R I u u
unde nu este vectorul de date de intrare iar este o constantă pozitivă de
valoare mică. Să se calculeze 1ˆn nP R , utilizând lema de inversare
matricială.
P 10.3 Să considerăm definiţia (10.10) a erorii de estimare apriori:
1He n n n n d w u
unde nd este răspunsul dorit, nu este vectorul de date iar 1n w este
vechea estimare a vectorului coeficienţilor. Pe de altă parte, eroarea de estimare
aposteriori este definită de (10.15):
Hn d n n n w u
unde nw este estimarea curentă a vectorului coeficienţilor. Pentru semnale de
intrare având valori numere complexe, atât e n cât şi n au valori numere
complexe. În aceste condiţii, demonstraţi că produsul *e n n este întotdeauna
un număr real.
P 10.4 Demonstraţi ecuaţia (10.24) utilizând identitatea
1 2det det I AB I BA
unde matricile unitate 1I şi 2I şi matricile A şi B au dimensiuni compatibile.
Pentru demonstraţie se pune ecuaţia (10.7) sub forma 1 I AB .
P 10.5 Consideraţi problema de identificare de sistem în care sunt disponibile semnalul de
intrare u n şi ieşirea sistemului necunoscut afectată de zgomot
od n d n v n pentru 0 1n N . Funcţia de transfer a sistemului
necunoscut este
330 SOLUŢII RECURSIVE ALE PROBLEMEI LS - 10
1 2
1 2
0,0675 0,1349 0,0675
1 1,1430 0,4128o
z zH z
z z
unde u n şi v n sunt semnale necorelate de zgomot alb de medie nulă şi
varianţe 2 1u respectiv 2 0,01v iar 300N .
(a) Modelaţi sistemul necunoscut utilizând un filtru LS cu 15M coeficienţi, prin
metoda „no windowing”. Calculaţi energia minimă de eroare LS LSE pe intervalul
0 1n n N pentru 0 20n .
(b) Repetaţi punctul (a) pentru 00 1n n , fără a calcula
LSE . Utilizaţi vectorul
0nw şi matricea 1
0 0ˆn nP R pentru a iniţializa algoritmul RLS standard.
Calculaţi erorile totale 0
1 2N
apr n nE e n
şi apostE
0
1 2N
n nn
, rulând
algoritmul RLS pentru 0 1n n N .
(c) Ordonaţi după mărime cantităţile , ,LS apr postE E E şi justificaţi rezultatul obţinut.
P 10.6 Deduceţi ecuaţiile normale ce corespund minimizării funcţiei de cost (10.37) şi
arătaţi că pentru 0 acestea se reduc la setul standard de ecuaţii normale
(10.2). Pentru situaţia descrisă în problema P 10.5, rulaţi algoritmul RLS standard
pentru diferite valori ale lui şi determină gama de valori care asigură
performanţe acceptabile.
P 10.7 Modificaţi algoritmul RLS standard din Tabelul 10.2 astfel încât filtrul adaptiv să
aibă coeficienţi simetrici, adică să satisfacă constrângerea de fază lineară
*n nw Jw , unde
0 0 1
,0 1 0
1 0 0
H H
J J J JJ I
este aşa-numita matrice de schimb. Pentru simplificare, vom presupune că
2M L ; cu alte cuvinte, filtrul are un număr par de coeficienţi.
11 Filtrul Kalman
cest capitol completează studiul filtrelor optimale lineare prin trecerea în revistă a
fundamentelor filtrării Kalman. O caracteristică deosebită a unui filtru Kalman este
faptul că pentru descrierea sa matematică se utilizează conceptul de spaţiu al
stărilor. O altă trăsătură care deosebeşte filtrul Kalman de filtrul optimal linear este faptul că
soluţia sa se calculează recursiv. În particular, fiecare nouă estimare a stării se calculează pe
baza estimării anterioare şi a noii valori a mărimii de intrare, astfel încât numai ultima esti-
mare trebuie memorată. Pe lângă faptul că elimină necesitatea de a memora toate datele de
intrare anterioare, un filtru Kalman este mai eficient din punctul de vedere a efortului de
calcul decât algoritmii care realizează la fiecare recursie estimarea direct din toate datele
observate anterior. Aceste caracteristici reduc volumul de calcul necesar implementării
filtrului Kalman pe un calculator electronic. În consecinţă, filtrele Kalman au fost imple-
mentate cu succes în multe aplicaţii practice, în particular în industria aeronautică şi spaţială.
Atenţia pe care o acordăm filtrelor Kalman se justifică prin aceea că ele oferă un cadru
unitar pentru fundamentarea matematică a filtrelor adaptive ce se bazează pe algoritmii de
calcul recursiv RLS, aşa cum vom demonstra în ultimul paragraf al Capitolului. În ceea ce
priveşte reprezentarea prin spaţiul stărilor, pe lângă numeroase aspecte favorabile care vor fi
evidenţiate în continuare, aceasta se bucură de avantajele utilizării metodelor algebrei lineare
ceea ce permite punerea în evidenţă a unor proprietăţi remarcabile.
11.1 Ecuaţii de stare pentru sisteme
lineare în timp discret
Se consideră un sistem dinamic linear în timp discret descris de graful de semnal din Figura
11.1. Reprezentarea sistemului în domeniul timp utilizată aici oferă următoarele avantaje
(Haykin 1996):
este convenabilă din punct de vedere matematic şi a notaţiilor utilizate,
are o puternică legătură cu realitatea fizică,
constituie o bază utilă pentru evidenţierea comportării statistice a sistemului.
Capitolul
11
A
332 FILTRUL KALMAN - 11
Noţiunea de stare joacă un rol esenţial în această reprezentare. Vectorul de stare de dimen-
siune 1M desemnat prin nx în Figura 11.1 se defineşte ca orice ansamblu de mărimi
suficiente pentru a descrie comportarea dinamică neforţată a sistemului la momente de timp
n i n . Cu alte cuvinte, starea unui sistem reprezintă un rezumat de informaţii suficiente
ce permit descrierea evoluţiei sistemului. Vectorul de stare nx nu este în mod necesar
direct accesibil pentru a fi măsurat, astfel încât pentru a fi evaluat se utilizează un set de date
observabile, descrise în Figura 11.1 prin vectorul ny de dimensiune 1N .
În termeni matematici, graful de semnal din Figura 11.1 încorporează următoarea pereche de
ecuaţii:
1. O ecuaţie de proces
11 1,n n n n n x F x v (11.1)
unde 1,n nF este o matrice de tranziţie a stărilor de dimensiune M M ce este
cunoscută şi care exprimă legătura dintre stările sistemului la momentele 1n şi
n . Vectorul 1 nv de dimensiune 1M reprezintă semnalul de intrare al procesu-
lui. De obicei, în cazul abordării statistice a modelării sistemului, el este zgomotul
de proces, un proces de zgomot alb cu media nulă, şi are matricea de corelaţie
1
1 1
,
,
H n n kE n k
n k
Qv v
0 (11.2)
2. O ecuaţie de măsurare, ce descrie vectorul de observaţie prin relaţia:
2n n n n y C x v (11.3)
unde nC este o matrice de măsurare de dimensiune N M cunoscută. Vectorul
2 nv de dimensiune 1N este denumit zgomot de măsurare. Este, de obicei,
modelat printr-un proces de zgomot alb ce are matricea de corelaţie
2
2 2
,
,
H n n kE n k
n k
Qv v
0 (11.4)
Figura 11.1 Reprezentarea prin graf de semnal a unui sistem în timp discret linear şi
dinamic
11.2 Procesul de inovaţii 333
Se presupune că valoarea stării iniţiale, 0x , este necorelată atât cu 1 nv cât şi
cu 2 nv pentru 0n . Vectorii de zgomot 1 nv şi 2 nv
sunt statistic indepen-
denţi, astfel că se poate scrie
1 2 , ,HE n k n k v v 0 (11.5)
Problema filtrării Kalman poate fi acum formulată după cum urmează: Să se utilizeze
toate datele observate, ce constau din vectorii 1 , 2 , , ,ny y y pentru a stabili pentru
fiecare moment 1n estimarea de medie pătratică minimă a componentelor stării ix . Ea
este denumită problemă de filtrare dacă i n , problemă de predicţie dacă i n şi, în
sfârşit, problemă de mediere dacă 1 i n . În continuare ne vom concentra asupra
problemelor de filtrare şi predicţie care sunt strâns legate, făcând apel la o abordare bazată
pe procesul de inovaţii (Kailath 1968, Tretter 1976).
11.2 Procesul de inovaţii
11.2.1 Definirea procesului de inovaţii
Desemnăm prin vectorul 1ˆ
nn y Y estimarea de medie pătratică minimă a datelor obser-
vate ny la momentul n . Estimarea se face pe baza tuturor valorilor anterioare ale datelor
de observaţie, începând cu momentul 1n şi până la, inclusiv momentul 1n . Aceste
valori anterioare sunt reprezentate prin vectorii 1 , 2 , , ,ny y y care subîntind spaţiul
vectorial 1nY . Se defineşte procesul de inovaţii asociat vectorului de observaţie ny prin:
1ˆ , 1,2,nn n n n α y y Y (11.6)
Vectorul nα de dimensiune 1N reprezintă informaţia nouă din datele observate ny .
Pe baza caracteristicilor generale ale semnalului de eroare în cazul filtrului optimal, se
demonstrează (Haykin 1996, Manolakis, ş.a. 2005) că procesul de inovaţii are următoarele
proprietăţi:
1. Procesul de inovaţii nα asociat vectorului de date observate ny la momentul
n, este ortogonal pe toate observaţiile anterioare, după cum evidenţiază ecuaţia de
mai jos:
, 1 1HE n k k n α y 0 (11.7)
2. Procesul de inovaţii este alcătuit dintr-o secvenţă de vectori variabile aleatoare,
ortogonali unul pe celălalt, fapt evidenţiat prin:
, 1 1HE n k k n α α 0 (11.8)
334 FILTRUL KALMAN - 11
3. Există o corespondenţă biunivocă între secvenţa de vectori variabile aleatoare ce
reprezintă datele observate, 1 , 2 , , ny y y şi secvenţa de vectori variabile
aleatoare 1 , 2 , , nα α α care reprezintă procesul de inovaţii, în sensul că o
secvenţă poate fi obţinută din cealaltă prin intermediul unor operatori lineari stabili
fără pierdere de informaţie. Această ultimă afirmaţie este descrisă matematic prin:
1 , 2 , , 1 , 2 , ,n ny y y α α α (11.9)
Pentru a forma secvenţa de vectori variabile aleatoare ce defineşte procesul de inovaţii, se
pot utiliza tehnici specifice calculului matricial, de exemplu o tehnică similară procedurii de
ortogonalizare Gram-Schmidt descrisă în Capitolul 9.
11.2.2 Matricea de corelaţie a procesului de inovaţii
Pentru a determina matricea de corelaţie a procesului de inovaţii nα , se începe prin a
rezolva recursiv ecuaţia de stare (11.1), ceea ce conduce la relaţia
1
1
1
,0 0 , 1k
i
k k k i i
x F x F v (11.10)
Pentru deducerea relaţiei (11.10) s-au utilizat următoarele presupuneri şi proprietăţi:
1. Valoarea iniţială a vectorului de stare este 0x .
2. Se presupune că datele observate, şi prin urmare vectorul de zgomot de stare 1 nv
sunt nule pentru 0n .
3. Matricea de tranziţie a stărilor are proprietăţile
, 1 1, 2 1, ,k k k k i i k i F F F F
şi: ,k k F I
unde I este matricea unitate. De observat că pentru un sistem invariant în timp se
scrie
1, 1 1 constantn n n n F F F
Ecuaţia (11.10) arată faptul că kx este o combinaţie lineară de 0x şi 1 11 , 2 , ,v v
1 1k v .
Prin ipoteză, vectorul zgomotului de măsurare 2 nv este necorelat atât cu vectorul de
stare iniţial 0x cât şi cu vectorul de zgomot al procesului 1 nv . În consecinţă, multipli-
când ambii termeni ai ecuaţiei (11.10) cu 2
H nv şi mediind statistic, se deduce că:
2 , , 0HE k n k n x v 0 (11.11)
Corespunzător, din ecuaţia de măsurare se poate deduce:
11.2 Procesul de inovaţii 335
2 , 0 1HE k n k n y v 0 (11.12)
Mai mult, se poate scrie
1 , 0HE k n k n y v 0 (11.13)
Fiind date observaţiile anterioare 1 , 2 , , 1ny y y ce definesc spaţiul vectorial
1nY , putem de asemenea evidenţia din ecuaţia de măsurare (11.3) faptul că estimarea de
medie pătratică minimă a valorii curente a vectorului de observare ny este dată de:
1 1 2 1ˆ ˆ ˆ
n n nn n n n y C x vY Y Y
Totuşi, estimarea 2 1ˆ
nn v Y a vectorului de zgomot de măsurare este nulă, întrucât 2 nv
este ortogonal pe observaţiile anterioare 1 , 2 , , 1ny y y : vezi ecuaţia (11.12). În
consecinţă, se scrie pur şi simplu
1 1ˆ ˆ
n nn n n y C xY Y (11.14)
Prin urmare, utilizând ecuaţiile (11.6) şi (11.14), putem exprima procesul de inovaţii sub
forma
1ˆ
nn n n n α y C x Y (11.15)
Înlocuind ecuaţia de măsurare, se obţine:
2, 1n n n n n α C vє (11.16)
unde , 1n n є este vectorul de eroare a predicţiei de stare la momentul n , pe baza
datelor disponibile până la momentul 1n . Prin urmare, , 1n n є este diferenţa dintre
vectorul de stare nx şi vectorul de predicţie înainte cu un pas 1ˆ
nn x Y :
1ˆ, 1 nn n n n x x Yє (11.17)
Se poate arăta (Haykin 1996) că vectorul de predicţie a erorii de stare este ortogonal atât pe
vectorul de zgomot de proces 1 nv cât şi pe vectorul de zgomot de măsurare 2 nv .
Matricea de corelaţie a procesului de inovaţii nα se defineşte prin
Hn E n n R α α (11.18)
Înlocuim în continuare ecuaţia (11.16) în (11.18), dezvoltăm expresia obţinută şi, având în
vedere faptul că vectorii , 1n n є şi 2 nv sunt ortogonali se obţine rezultatul:
2, 1 Hn n n n n n R C K C Q (11.19)
336 FILTRUL KALMAN - 11
unde 2 nQ este matricea de corelaţie a vectorului de zgomot 2 nv . Matricea , 1n n K
de dimensiune M M poartă numele de matrice de corelaţie a erorii făcute prin predicţia
de stare , 1ˆ
nn x Y , fiind definită de
, 1 , 1 , 1Hn n E n n n n K є є (11.20)
unde , 1n n є este vectorul de eroare a predicţiei de stare. Matricea , 1n n K se folo-
seşte pentru descrierea statistică a erorii care este făcută atunci când se utilizează estimarea
de stare 1ˆ
nn x Y în locul „adevăratei” valori a acesteia nx .
11.3 Estimarea predicţiei de stare în
filtrarea Kalman
11.3.1 Calculul recursiv al estimării de stare
În continuare vom lua în considerare problema determinării estimării de medie pătratică
minimă a stării ix pe baza procesului de inovaţii. În Haykin (1996) şi Manolakis, ş.a.
(2005) se demonstrează faptul că această estimare poate fi exprimată ca o combinaţie lineară
a secvenţei de procese de inovaţii 1 , 2 , , nα α α :
1
ˆn
n i
k
i k k
x B αY (11.21)
unde , 1,2, ,i k k nB , este un set de matrici de dimensiune M N ce urmează a fi
determinate. În conformitate cu principiul ortogonalităţii, vectorul de eroare a predicţiei de
stare este ortogonal pe procesul de inovaţii, aşa cum exprimă ecuaţia care urmează
ˆ, , 1,2, ,H H
nE i n m E i i m m n α x x α 0Yє (11.22)
Înlocuind ecuaţia (11.21) în (11.22) şi apelând la principiul ortogonalităţii pentru procesul de
inovaţii, în particular la ecuaţia (11.8), se obţine
H H
i iE i m m E m m m m x α B α α B R (11.23)
În consecinţă, înmulţind la dreapta ambii membri ai ecuaţiei (11.23) cu matricea inversă
1 mR , găsim pentru matricea i mB expresia
1H
i m E i m m B x α R (11.24)
În final, prin înlocuirea ecuaţiei (11.24) în (11.21) se obţine estimarea de medie pătratică
minimă
11.3 Estimarea predicţiei de stare în filtrarea Kalman 337
1
1
11 1
1
ˆn
H
n
k
nH H
k
i E i k k k
E i k k k E i n n n
x x α R α
x α R α x α R α
Y
Vom particulariza relaţia pentru 1i n :
11
1
1
ˆ 1 1
1
nH
n
k
H
n E n k k k
E n n n n
x x α R α
x α R α
Y (11.25)
În ceea ce priveşte starea 1n x de la momentul 1n , ea este legată de starea nx de la
momentul n prin ecuaţia de proces (11.1). Drept urmare, utilizând această relaţie, putem
scrie pentru 0 k n :
21 1,
1,
H H
H
E n k E n n n n k
n n E n k
x α F x v α
F x α (11.26)
În ultima relaţie s-a folosit faptul că kα depinde numai de datele observate 1 , 2 ,y y
, ky , şi prin urmare din ecuaţia (11.13) se observă că ny şi kα sunt ortogonali
pentru 0 k n . Putem atunci rescrie suma din membrul drept al ecuaţiei (11.25) după
cum urmează:
1 11 1
1 1
1
1 1,
ˆ1,
n nH H
k k
n
E n k k k n n E n k k k
n n n
x α R α F x α R α
F x Y (11.27)
Vom introduce în continuare câteva definiţii fundamentale, necesare pentru formularea
problemei filtrării Kalman.
11.3.2 Matricea de câştig Kalman
Se introduce matricea nG de dimensiune M N , definită prin:
11 Hn E n n n G x α R (11.28)
Utilizăm în continuare această definiţie şi rezultatul ecuaţiei (11.27), pentru a rescrie ecuaţia
(11.25) astfel:
1ˆ ˆ1 1,n nn n n n n n x F x G αY Y (11.29)
Ecuaţia (11.29) are o importanţă fundamentală, pentru că reprezintă formula de calcul
recursiv utilizată în cazul filtrului adaptiv Kalman. Ea evidenţiază faptul că estimarea de
medie pătratică minimă ˆ 1 nn x Y a stării unui sistem dinamic linear, poate fi calculată
prin adăugarea la estimarea stării anterioare a sistemului 1ˆ
nn x Y multiplicată cu matricea
338 FILTRUL KALMAN - 11
de tranziţie a stării 1,n nF , a unui termen de corecţie egal cu n nG α . Termenul de
corecţie este egal cu vectorul procesului de inovaţii nα premultiplicat cu matricea nG .
Drept urmare, şi în semn de recunoaştere a meritelor de pionierat ale lui Kalman, matricea
nG este numită matricea de câştig a lui Kalman.
Rămâne problema exprimării matricii de câştig a lui Kalman nG într-o formă conve-
nabilă calculului. Pentru a ajunge la rezultat, vom face apel la ecuaţiile (11.16) şi (11.26)
pentru a exprima media produsului lui 1n x cu H nα după cum urmează:
2
1 1,
1, , 1
1, , 1
H H
H
H H
E n k n n E n k
n n E n n n n n
n n E n n n n
x α F x α
F x C v
F x C
є
є
(11.30)
unde s-a utilizat constatarea că starea nx şi vectorul de zgomot 2 nv sunt necorelate
(vezi ecuaţia (11.11)). Mai mult, în conformitate cu principiul ortogonalităţii, să notăm că
vectorul de predicţie a erorii de stare , 1H n n є este ortogonal pe estimarea 1ˆ
nn x Y .
Prin urmare, media statistică a produsului 1ˆ , 1H
nn n n x Y є este nulă, astfel încât
putem rescrie ecuaţia (11.30) înlocuind pe nx din membrul drept al ecuaţiei prin vectorul
de predicţie a erorii de stare , 1n n є , ca mai jos:
1 1, , 1 , 1H H HE n k n n E n n n n n x α F Cє є (11.31)
Facem apel în continuare la ecuaţia (11.20) pentru a evidenţia faptul că media statistică din
membrul drept al ecuaţiei (11.31) este egală cu matricea de corelaţie a erorii de predicţie a
stării. Drept urmare, ecuaţia (11.31) se rescrie astfel:
1 1, , 1H HE n k n n n n n x α F K C (11.32)
Acum, poate fi redefinită matricea de câştig a lui Kalman. În particular, înlocuim relaţia
(11.32) în (11.28) pentru a obţine
11, , 1 Hn n n n n n n G F K C R (11.33)
unde matricea de corelaţie nR este ea însăşi definită prin ecuaţia (11.19).
Schema bloc din Figura 11.2 ilustrează graful de semnal al ecuaţiei (11.33) ce calculea-
ză matricea de câştig Kalman nG . Odată calculată matricea de câştig Kalman nG , se
poate utiliza ecuaţia (11.29) pentru a face noua predicţie ˆ 1 nn x Y . Cu alte cuvinte, fiind
dată vechea predicţie 1ˆ
nn x Y , se calculează predicţia curentă ˆ 1 nn x Y , proces
ilustrat prin graful de semnal din Figura 11.3. În această figură, s-a utilizat de asemenea
ecuaţia (11.15) pentru determinarea vectorului procesului de inovaţii nα .
11.3 Estimarea predicţiei de stare în filtrarea Kalman 339
11.3.3 Ecuaţia Ricatti
Ecuaţia de calcul al matricii de câştig Kalman (11.33) aşa cum este acum formulată, nu este
utilă, întrucât pentru determinarea lui nG este nevoie de cunoaşterea valorii matricii de
corelaţie a erorii de predicţie a stării , 1n n K . Pentru a depăşi această dificultate, vom
deduce în continuare o formulă de calcul recursiv pentru matricea , 1n n K .
Vectorul de eroare a predicţiei de stare 1,n nє este egal cu diferenţa dintre vectorul
de stare 1n x şi predicţia înainte într-un pas a acestuia ˆ 1 nn x Y (vezi ecuaţia
(11.17):
ˆ1, 1 1 nn n n n x x Yє (11.34)
Înlocuind ecuaţiile (11.1) şi (11.29) în (11.34), şi utilizând pentru vectorul procesului de
inovaţii nα ecuaţia (11.15), obţinem:
1
1 1
ˆ1, 1,
ˆ
n
n
n n n n n n
n n n n n
F x x
G y C x v
Y
Y
є (11.35)
În continuare, folosim ecuaţia (11.3) pentru a elimina vectorul ny din ecuaţia (11.35). Se
obţine ecuaţia cu diferenţe finite de mai jos, care se utilizează la calculul recursiv al vectoru-
lui de predicţie al erorii de stare:
1 21, 1, , 1n n n n n n n n n n n F G C v G vє є (11.36)
Figura 11.2 Diagrama de calcul a matricii de câştig Kalman.
Figura 11.3 Predictorul Kalman înainte într-un pas.
340 FILTRUL KALMAN - 11
Matricea de corelaţie a vectorului de predicţie a erorii de stare 1,n nє este dată în
conformitate cu ecuaţia (11.20) de relaţia:
1, 1, 1,Hn n E n n n n K є є (11.37)
Înlocuind ecuaţia (11.36) în (11.37), şi acceptând ipoteza că vectorul de eroare , 1n n є şi
vectorii de zgomot 1 nv şi 2 nv sunt mutual necorelaţi, putem exprima matricea de
corelaţie a vectorului de predicţie a erorii de stare după cum urmează:
1 2
1, 1, , 1 1,H
H
n n n n n n n n n n n n
n n n n
K F G C K F G C
Q G Q G (11.38)
unde 1 nQ şi 2 nQ sunt matricile de corelaţie ale lui 1 nv respectiv 2 nv . Dezvol-
tăm, în continuare, membrul drept al ecuaţiei (11.38) şi apoi utilizăm ecuaţiile (11.33) şi
(11.16) pentru matricea de câştig Kalman. Se obţine ecuaţia cu diferenţe finite Riccati ce
permite calculul recursiv al matricii de corelaţie a predicţiei erorii de stare:
11, 1, 1,Hn n n n n n n n K F K F Q (11.39)
unde matricea pătrată nK de dimensiune M M este definită prin ecuaţia de recursie:
, 1 , 1 , 1
, 1 , 1
n n n n n n n n n
n n n n n n
K K F G C K
I F G C K (11.40)
S-a utilizat aici proprietatea: 1, , 1n n n n F F I (11.41)
unde I este matricea uniitate. Această proprietate este o consecinţă a definiţiei matricii de
tranziţie. Semnificaţia matematică a matricii nK din ecuaţia (11.40) va fi lămurită în
paragraful următor.
Figura 11.4 este reprezentarea prin graf de semnal al ecuaţiilor (11.40) şi (11.39),
reprezentare făcută chiar în această ordine. Acest graf poate fi văzut ca o reprezentare a
Figura 11.4 Graful de semnal al rezolvării ecuaţiei Riccati (Calculatorul
ecuaţiei Riccati)
11.4 Estimarea de stare prin filtrare 341
calculatorului ecuaţiei Riccati, prin aceea că fiind dată vechea valoare , 1n n K , el calcu-
lează valoarea curentă 1,n nK .
Ecuaţiile (11.33), (11.19), (11.15), (11.29), (11.40) şi (11.39), în ordinea enunţată,
definesc algoritmul Kalman de predicţie înainte într-un pas.
11.4 Estimarea de stare prin filtrare
Vom considera, în continuare, operaţia de estimare a stării sistemului prin filtrare. În
particular, dorim să calculăm estimarea filtrată ˆnn x Y pornind de la algoritmul de
predicţie într-un pas descris în paragraful precedent.
Să notăm, pentru început faptul că vectorul de stare nx şi vectorul de zgomot 1 nv
sunt independenţi unul faţă de celălalt. Prin urmare, stabilim din ecuaţia de stare (11.1) că
estimarea de eroare medie pătratică minimă a stării 1n x de la momentul de timp 1n ,
fiind date observaţiile făcute pâna inclusiv la momentul n (adică, se cunosc 1 , 2 ,y y
, ny ) este
1ˆ ˆ1 1,n n nn n n n n x F x vY Y Y (11.42)
Având în vedere că vectorul de zgomot 1 nv este independent de observaţiile 1 , 2 ,y y
, ny , rezultă că estimarea de medie pătratică minimă a zgomotului de stare 1 nn v Y
este nulă. În consecinţă, ecuaţia (11.42) se simplifică astfel:
ˆ ˆ1 1,n nn n n n x F xY Y (11.43)
Pentru a stabili estimarea filtrată ˆnn x Y , premultiplicăm ambii termeni ai ecuaţiei
(11.43) cu inversa matricii de tranziţie 1,n nF :
1ˆ ˆ1, 1n nn n n n x F xY Y (11.44)
Utilizând proprietatea matricii de tranziţie a stărilor, dată în (11.41), putem scrie
1 1, , 1n n n n F F (11.45)
şi reluăm ecuaţia (11.44) în forma echivalentă:
ˆ ˆ, 1 1n nn n n n x F xY Y (11.46)
Ultima relaţie arată că, pornind de la soluţia problemei predicţiei într-un pas, care este
estimarea de medie pătratică minimă ˆ 1 nn x Y , putem determina estimarea filtrată
corespunzătoare ˆnn x Y prin multiplicarea lui ˆ 1 nn x Y cu matricea de tranziţie a
stărilor , 1n n F .
342 FILTRUL KALMAN - 11
11.4.1 Eroarea de estimare filtrată şi factorul de
conversie
În contextul discutării operaţiunii de filtrare, este normală introducerea unui vector de
eroare a estimării filtrate a ieşirii sistemului. El se defineşte astfel:
ˆnn n n n e y C x Y (11.47)
Această definiţie este similară definiţiei vectorului de inovaţii nα din (11.15), cu excepţia
faptului că estimarea stării prin filtrare ˆnn x Y a înlocuit estimarea stării prin predicţie
1ˆ
nn x Y . Înlocuind relaţiile (11.29) şi (11.46) în (11.47), se obţine
1ˆ , 1
, 1
, 1
nn n n n n n n n n
n n n n n n
n n n n n
e y C x C F G α
α C F G α
I C F G α
Y
(11.48)
Mărimea matricială din interiorul parantezei rotunde a ecuaţiei (11.48) este numită factor de
conversie, furnizând o formulă pentru conversia vectorului de inovaţii nα în vectorul de
eroare a estimării filtrate ne . Facem apel la ecuaţia (11.33) pentru a elimina matricea de
câştig Kalman nG din această definiţie, şi îndepărtând termenii comuni, putem rescrie
relaţia (11.48) în forma echivalentă:
1
2n n n ne Q R α (11.49)
unde 2 nQ este matricea de corelaţie a procesului de zgomot de măsurare 2 nv , iar
matricea nR se defineşte prin relaţia (11.19) ca matricea de corelaţie a procesului de
inovaţii nα . Astfel, cu excepţia premultiplicării cu matricea 2 nQ , relaţia (11.49) arată
că matricea inversă 1 nR joacă rolul unui factor de conversie în teoria filtrării Kalman.
Într-adevăr, în cazul special în care 2 nQ este egală cu matricea unitate, matricea inversă
1 nR reprezintă exact factorul de conversie care face obiectul acestui paragraf.
11.4.2 Matricea de corelaţie a erorii de filtrare a
stării
S-a introdus anterior enunţării ecuaţiei cu diferenţe Riccati (11.39), matricea nK de
dimensiune M M . Vom trage concluziile în discuţia despre teoria filtrării Kalman prin
demonstrarea faptului că această matrice este egală cu matricea de corelaţie a erorii cu care
se face estimarea prin filtrare a stării ˆnn x Y .
11.4 Estimarea de stare prin filtrare 343
Se defineşte vectorul erorii de filtrare a stării nє ca diferenţa dintre starea nx şi
estimarea filtrată a acesteia ˆnn x Y :
ˆnn n n x x Yє (11.50)
Înlocuind ecuaţiile (11.29) şi (11.46) în (11.50) şi recunoscând faptul că produsul
, 1 1,n n n n F F este egal cu matricea unitate, se obţine
1ˆ , 1
, 1 , 1
nn n n n n n n
n n n n n n
x x F G α
F G α
Yє
є (11.51)
unde , 1n n є este vectorul erorii de predicţie a stării la momentul de timp n pe baza
datelor existente până la momentul 1n iar nα este vectorul procesului de inovaţii.
Prin definiţie, matricea de corelaţie a vectorului erorii de filtrare a stării nє este egală
cu media statistică HE n n є є . În consecinţă, utilizând ecuaţia (11.51), se poate
exprima această medie după cum urmează:
, 1 , 1
, 1 , 1
2 , 1 , 1
H H
H H H
H H H
E n n E n n n n
n n n E n n n n n
E n n n n n n
F G α α G F
α G F
є є є є
є
(11.52)
În urma examinării membrului drept al ecuaţiei (11.52) se poate stabili faptul că cele trei
medii statistice din componenţa sa pot fi interpretate individual după cum urmează:
1. Prima medie este egală cu matricea de corelaţie a erorii de predicţie a stării:
, 1 , 1 , 1Hn n E n n n n K є є
2. Media statistică din cel de al doilea termen este egală cu matricea de corelaţie a
procesului de inovaţii nα :
Hn E n n R α α
3. Media din cel de-al treilea termen poate fi exprimată după cum urmează:
1ˆ, 1 H H H
nE n n n E n n n E n n
α x x α x αYє
unde, ultima expresie s-a obţinut în urma observaţiei că estimarea 1ˆ
nn x Y este
ortogonală pe procesul de inovaţii nα , ce reprezintă intrarea filtrului Kalman. În
continuare din ecuaţia (11.26) se observă că, punând k n şi premultiplicând apoi
ambii membri ai relaţiei cu matricea inversă 1 1, , 1n n n n F F se obţine
, 1 1 , 1H HE n n n n E n n n n n n x α F x α F G R
344 FILTRUL KALMAN - 11
unde în ultima relaţie s-a făcut apel la ecuaţia (11.28). Prin urmare:
, 1 , 1HE n n n n n n n α F G Rє
În continuare, putem utiliza aceste relaţii în ecuaţia (11.52) pentru a obţine
, 1 , 1 , 1H H HE n n n n n n n n n n n K F G R G Fє є (11.53)
Ultima relaţie poate fi simplificată în continuare observând din (11.33) că:
1, , 1 Hn n n n n n n G R F K C (11.54)
Drept urmare, utilizând relaţiile (11.53) şi (11.54) şi având în vedere faptul că produsul
, 1 1,n n n n F F este egal cu matricea unitate, obţinem rezultatul dorit pentru matricea
de corelaţie a erorii filtrate de stare:
, 1 , 1 , 1H H H HE n n n n n n n n n n K K C G Fє є
Echivalent, prin utilizarea proprietăţii matricilor HE n n є є şi , 1n n K de a fi
hermitice, putem scrie:
, 1 , 1 , 1HE n n n n n n n n n n K F G C Kє є (11.55)
Dacă comparăm relaţia (11.55) cu (11.40), rezultă
HE n n n Kє є
Aceasta demonstrează că matricea nK utilizată în ecuaţia Riccati cu diferenţe finite
(11.39) este de fapt matricea de corelaţie a erorii de filtrare a stării. Matricea nK este
folosită la descrierea statistică a erorii estimării obţinute prin filtrare ˆnn x Y .
11.5 Algoritmul de filtrare Kalman
11.5.1 Condiţii iniţiale
Pentru a pune în funcţiune algoritmii de predicţie şi de filtrare descrişi în paragrafele 11.3 şi
11.4, este obligatorie specificarea condiţiilor iniţiale. Vom prezenta în continuare
modalitatea de rezolvare a acestei probleme.
Starea iniţială a procesului descris prin ecuaţia (11.1) nu se cunoaşte cu precizie. Ea se
descrie de obicei prin medie şi matrice sa de corelaţie. În absenţa oricărei date observate la
momentul 0n , putem alege drept estimare de predicţie iniţială valoarea:
0ˆ 1 1E x xY (11.56)
iar drept matrice de corelaţie
01,0 1 1 1 1H
E E E K x x x x Π (11.57)
11.5 Algoritmul de filtrare Kalman 345
Această modalitate de selectare a condiţiilor iniţiale nu numai că satisface intuitiv dar are de
asemenea avantajul de a furniza o estimare filtrată a stării ˆnn x Y care este nedeplasată.
Presupunând că vectorul de stare nx este de medie nulă, putem simplifica relaţiile (11.56)
şi (11.57), impunând
0ˆ 1 x 0Y
şi: 01,0 1 1HE K x x Π
11.5.2 Formularea algoritmului Kalman standard
Tabelul 11.1 prezintă un rezumat al variabilelor utilizate la formularea soluţiei problemei de
filtrare Kalman. Intrarea filtrului este vectorul de proces ny , reprezentat prin spaţiul
Variabila Definiţii Dimensiuni
nx Vector de stare la momentul n 1M
ny Vector de observaţie la momentul n 1N
, 1n n F Matrice de tranziţie de stare de la momentul n la 1n
M M
nC Matrice de măsurare la momentul n N M
1 nQ Matricea de corelaţie a vectorului de proces
de zgomot 1 nv
M M
2 nQ Matricea de corelaţie a vectorului de zgomot
de măsurare 2 nv
N N
ˆ 1 nn x Y Estimarea de predicţie a vectorului de stare la momentul n, pe baza vectorilor de observaţie
1 , 2 , , ny y y
1M
ˆnn x Y Estimarea filtrată a vectorului de stare la
momentul n, pe baza vectorilor de observaţie
1 , 2 , , ny y y
1M
nG Matricea de câştig Kalman la momentul n M N
nα Vectorul de inovaţii la momentul n 1N
nR Matricea de corelaţie a vectorului de inovaţii
nα
N N
1,n nK Matricea de corelaţie a erorii lui ˆ 1 nn x Y M M
nK Matricea de corelaţie a erorii lui ˆnn x Y M M
Tabelul 11.1 Trecerea în revistă a variabilelor care definesc filtrarea Kalman.
346 FILTRUL KALMAN - 11
vectorial nY , iar ieşirea este estimarea filtrată ˆ
nn x Y a vectorului de stare. Tabelul 11.2
face un rezumat al operaţiunilor matematice ce definesc filtrul Kalman (inclusiv condiţiile
iniţiale) care implementează algoritmul de predicţie într-un pas.
Figura 11.5 face o reprezentare grafică a funcţionării filtrului Kalman de predicţie
într-un pas. Acesta este alcătuit din trei blocuri funcţionale:
Blocul de calcul al matricii de câştig Kalman, descris prin schema din Figura 11.2,
Blocul care realizează predicţia Kalman descris prin diagrama din Figura 11.3,
Blocul care rezolvă ecuaţiile Riccati (11.39) şi (11.40) reprezentat prin diagrama
din Figura 11.4.
Exemplul 11.1 Se dă procesul AR(2) (autoregresiv de ordinul doi) x n descris
prin ecuaţia cu diferenţe finite
11,8 1 0,81 2x n x n x n v n (11.58)
unde zgomotul de stare 1v n este un zgomot alb de medie nulă şi varianţă unitară,
iar 1 2 0x x . Să se determine prin filtrarea Kalman a semnalului
observat
2y n x n v n (11.59)
Vectorul procesului de intrare
Observaţii = 1 , 2 , , ny y y
Parametri cunoscuţi
Matricea de tranziţie a stărilor = 1,n nF
Matricea de măsurare = nC
Matricea de corelaţie a vectorului de zgomot de proces = 1 nQ
Matricea de corelaţie a zgomotului de măsurare = 2 nQ
Algoritm de calcul 1,2,3,n
1
21, , 1 , 1H Hn n n n n n n n n n n
G F K C C K C Q
1ˆ
nn n n n α y C x Y
1ˆ ˆ1 1,n nn n n n n n x F x G αY Y
, 1 , 1 , 1n n n n n n n n n K K F G C K
11, 1, 1,Hn n n n n n n n K F K F Q
Condiţii iniţiale
0ˆ 1 1E x xY
01,0 1 1 1 1H
E E E K x x x x Π
Tabelul 11.2 Algoritmul de filtrare Kalman cu predicţie într-un pas.
11.5 Algoritmul de filtrare Kalman 347
estimatul de eroare medie pătratică minimă a lui , 0x n n . Zgomotul de măsurare,
2v n este alb de medie nulă şi 2
2 10 şi ortogonal pe 1v n .
Soluţie Din ecuaţiile (11.58) şi (11.59) pot fi formulate vectorul de stare şi
ecuaţia de măsurare a modelului de stare adoptat:
111,8 0,81
1 21 0 0
x n x n v nn
x n x n
x (11.60)
şi
21 01
x ny n v n
x n
(11.61)
Prin urmare mărimile matriciale care intervin în algoritm sunt
1
1 1
1,8 0,81 0,1 01 0
1 0 0 00
v nn n n n
F v Q C
Pentru rezolvare s-a implementat în MATLAB algoritmul de filtrare Kalman din
Tabelul 11.2. Apoi, s-au procesat prin filtrare Kalman 100 de eşantioane ale
semnalelor x n şi y n generate cu (11.58) şi (11.59) în scopul calculării esti-
mării filtrate a vectorului de stare ˆnn x Y . Rezultatul este prezentat în Figura
11.6. Având în vedere că zgomotul de măsurare are varianţa 2
2 foarte mare,
semnalul măsurat y n are o evoluţie în timp „zgomotoasă” în jurul valorilor lui
Figura 11.5 Reprezentarea prin blocuri de calcul a filtrului Kalman de
predicţie într-un pas.
348 FILTRUL KALMAN - 11
x n . Totuşi filtrul Kalman reuşeşte să urmărească „strâns” evoluţia lui x n şi
să reducă degradarea datorată zgomotului 2v n .
Figura 11.7 prezintă evoluţia componentelor vectorului de câştig Kalman
1 2
T
n G n G n G precum şi a varianţei erorii de estimare HE n n є є .
Se observă că regimul tranzitoriu al filtrului Kalman durează aproximativ 20 de
eşantioane, după care filtrul devine staţionar, după cum era de aşteptat. În regim
staţionar, ecuaţiile de calcul al lui nG şi nK devin independente de datele de
intrare, ceea ce permite înlocuirea lor cu nişte constante şi reducerea importantă a
efortului de calcul.
11.6 Variante de filtre Kalman
Principalul motiv al interesului pe care îl arătăm teoriei filtrelor Kalman se datorează
faptului că aceasta furnizează un cadru general pentru deducerea algoritmilor de filtrare ce
se încadrează în categoriile algoritmilor RLS (vezi Capitolul 10) şi RLS rapizi (Capitolul
12).
Primele aplicaţii ale teoriei filtrării Kalman în domeniul filtrării adaptive raportate în
literatură au fost făcute de Lawrence şi Kaufman (1971). În particular, Godard (1974) a
formulat problema filtrării adaptive cu un filtru FIR ca fiind estimarea unui vector de stare
înecat în zgomot gaussian, ceea ce reprezintă o problemă clasică de filtrare Kalman.
Totuşi abia odată cu Sayed şi Kailath (1994) s-a demonstrat că algoritmul de filtrare
Kalman bazat pe rezolvarea ecuaţiei Ricatti poate fi complet echivalat cu oricare dintre algo-
ritmii cunoscuţi ai familiei RLS. În acest Capitol, vom prezenta elementele comune celor
două metode. În acest scop, foarte important în abordarea comună a celor două metode este
modelul dinamic pe care îl prezentăm în continuare.
Figura 11.6 Estimarea prin filtrare Kalman a procesului
AR(2) din Exemplul 11.1.
11.6 Variante de filtre Kalman 349
11.6.1 Modelul sistemului dinamic neforţat
Considerăm un sistem dinamic linear al cărui model în spaţiul stărilor este descris de urmă-
toarea pereche de ecuaţii de stare (Sayed şi Kailath 1994) :
1 21n n x x (11.62)
Hy n n n v n u x (11.63)
unde este un scalar real pozitiv. Conform acestui model, zgomotul de proces este nul iar
zgomotul de măsurare, reprezentat prin scalarul v n , este un proces de zgomot alb de
varianţă unitară, după cum rezultă din relaţia de mai jos
*1,
0,
n kE v n v k
n k
(11.64)
În urma comparării modelului descris prin ecuaţiile (11.62), (11.63) şi (11.64) cu modelul
general descris prin ecuaţiile (11.1) până la (11.4), notăm următoarele:
1 21,n n F I (11.65)
1 n Q 0 (11.66)
Hn nC u (11.67)
2 1n Q (11.68)
Modelul în spaţiul stărilor descris prin ecuaţiile (11.62) până la (11.64) este numit model
dinamic neforţat datorită faptului că în ecuaţia de proces (11.62) lipseşte vreo forţă externă.
Mai important, matricea de tranziţie a stărilor modelului este egală cu matricea identitate I
Figura 11.7 Evoluţia componentelor vectorului de câştig
Kalman nG şi a erorii pătratice medii de esti-
mare HE n n є є .
350 FILTRUL KALMAN - 11
scalată cu constanta 1 2 . În consecinţă, matricea de corelaţie a erorii de predicţie a stării
1,n nK şi matricea de corelaţie a erorii de filtrare a stării nK iau o valoare comună
(vezi relaţia (11.39)).
Acest model special constituie cheia formulării unui cadru general pentru dezvoltarea
familiei de algoritmi adaptivi de filtrare RLS. După cum se va arăta mai departe, constanta
are un rol semnificativ în funcţionarea acestor algoritmi. Vom considera în continuare,
câteva variante ale algoritmului de filtrare Kalman bazate pe modelul dinamic neforţat.
11.6.2 Algoritmul de filtrare de covarianţă (Kalman)
Algoritmul de filtrare Kalman rezumat în Tabelul 11.2 este astfel conceput încât să propage
matricea de corelaţie (covarianţă) 1,n nK ce se referă la eroarea de estimare a stării
ˆ 1 nn x Y . Acest algoritm este denumit, prin urmare, algoritmul de filtrare de covarianţă
(Kalman). Pentru modelul dinamic neforţat pe de altă parte, găsim că înlocuind ecuaţiile
(11.65)-(11.68) în Tabelul 11.2 se obţine algoritmul simplificat de filtrare de covarianţă, ce
este rezumat în Tabelul 11.3. Din tabel se observă că matricea Kalman de câştig nG
devine în acest caz special vectorul ng .
11.6.3 Algoritmul de filtrare informaţională
O altă modalitate de implementare a filtrului Kalman se poate obţine dacă se face apel la
calculul recursiv al matricii inverse 1 nK . În această abordare se poate spune că se accen-
tuează caracterul de algoritm RLS al procesului de filtrare Kalman. Inversa matricii de
corelaţie a erorii de stare 1 nK este legată de matricea de informaţie a lui Fisher, fapt
care permite să se dea operaţiunii de filtrare o interpretare din punctul de vedere a teoriei
informaţiei (Haykin 1996). Din acest motiv, implementarea algoritmului de filtrare Kalman,
care se bazează pe 1 nK , poartă numele de algoritm de filtrare informaţională.
Pentru a deduce algoritmul de filtrare informaţională, procedăm în maniera pe care o
descriem în continuare.
Pasul 1. Se porneşte de la ecuaţia cu diferenţe finite Riccati care, în cazul special al
modelului dinamic neforţat, capătă forma (vezi ultima linie din Tabelul 11.3):
1 1 21 1Hn n n n n K K g u K (11.69)
Exprimăm din ultima ecuaţie valoarea produsului matricial 1Hn n n g u K :
1 2 1 21 1Hn n n n n g u K K K (11.70)
În continuare exprimăm, ca în prima linie a algoritmului din Tabelul 11.3, valoarea
vectorului de câştig Kalman pentru modelul dinamic neforţat:
1 2 1
1 1H
n nn
n n n
K ug
u K u (11.71)
11.6 Variante de filtre Kalman 351
Înmulţind şi rearanjând termenii din ecuaţia (11.71), o rescriem sub forma:
1 2 1 1Hn n n n n n n g K u g u K u (11.72)
Obţinem o nouă definiţie a vectorului de câştig Kalman dacă substituim relaţia (11.70) în
(11.72) iar apoi simplificăm termenii comuni:
1 2n n ng K u (11.73)
Continuăm, eliminând pe ng între ecuaţiile (11.70) şi (11.73), şi multiplicând apoi
rezultatul cu 1 2 pentru a obţine
1 1Hn n n n n n K K u u K K (11.74)
În sfârşit, se premultiplică ecuaţia (11.74) cu matricea inversă 1 nK iar apoi se postmulti-
plică cu 1 1n K . Rezultatul care se obţine este prima ecuaţie de recursie a algoritmului
de filtrare informaţională:
1 1 1 Hn n n n K K u u (11.75)
Pasul 2. Conform liniilor doi şi trei ale algoritmului prezentat în Tabelul 11.3 se scrie:
1ˆH
nn y n n n u x Y (11.76)
şi: 1 2
1ˆ ˆ1 n nn n n n
x x gY Y (11.77)
Procesul scalar de intrare
Observaţii = 1 , 2 , ,y y y n
Parametri cunoscuţi
Matricea de tranziţie a stărilor = 1 2 ,I I = matricea identitate
Matricea de măsurare = H nu
Varianţa zgomotului de măsurare 1v n
Condiţii iniţiale
0
ˆ 1 1E x xY
01,0 1 1 1 1
H
E E E K x x x x Π
Algoritm de calcul 1,2,3,n
1 2 1
1 1H
n nn
n n n
K ug
u K u
1ˆH
nn y n n n u x Y
1 2
1ˆ ˆ1 n nn n n n
x x gY Y
1 1 21 1Hn n n n n K K g u K
Tabelul 11.3 Algoritmul de filtrare de covarianţă ce se aplică pe modelul de sistem dinamic
neforţat.
352 FILTRUL KALMAN - 11
În consecinţă, înlocuind ecuaţia (11.73) în (11.77), se obţine
1 2 1 2
1ˆ ˆ1 n nn n n n n
x x K uY Y (11.78)
Apoi, eliminarea lui n între ecuaţiile (11.76) şi (11.78), conduce la
1 2 1 2
1
1 2
ˆ ˆ1 H
n nn n n n n
n n y n
x I K u u x
K u
Y Y (11.79)
Dar, din ecuaţia (11.74), se poate deduce cu uşurinţă următoarea relaţie:
1 2 1 2 1 2 1 1Hn n n n n I K u u K K (11.80)
Conform ultimei relaţii, ecuaţia (11.79) se poate simplifica astfel:
1 2 1 1 2
1ˆ ˆ1 1n nn n n n n n y n
x K K x K uY Y
Premultiplicăm această ultimă ecuaţie cu matricea inversă 1 nK şi obţinem cea de a doua
relaţie de recursie a algoritmului de filtrare informaţională:
1 1 2 1
1ˆ ˆ1 1 1n nn n n n n y n
K x K x uY Y (11.81)
Se poate observa faptul că prin ecuaţia (11.81), algoritmul propagă mai degrabă produsul
1 ˆ1 1 nn n K x Y decât estimarea ˆ 1 nn x Y , care de fapt prezintă interes.
Pasul 3. În final, prin combinarea rezultatelor paşilor 1 şi 2, se calculează valoarea
actualizată a estimării vectorului de stare astfel:
1
11 1
ˆ ˆ1 1
ˆ 1
n n
n
n n n n
n n n
x K K x
K K x
Y Y
Y (11.82)
Ecuaţiile (11.75), (11.81) şi (11.82), în această ordine, reprezintă algoritmul de filtrare
informaţională pentru modelul de sistem dinamic neforţat definit prin relaţiile (11.62) până
la (11.64). Un rezumat al algoritmului este prezentat în Tabelul 11.4.
11.6.4 Algoritmi de filtrare Kalman cu
descompunere matricială
Implementarea standard a algoritmului de filtrare de covarianţă Kalman din Tabelul 11.2
reprezintă soluţia optimă a problemei de filtrare lineară enunţată în paragraful 11.1. Totuşi
acest algoritm poate prezenta dificultăţi numerice serioase, bine documentate în literatura de
specialitate (Kaminski, ş.a. 1971). De exemplu, conform ecuaţiei (11.40) matricea nK
este definită ca fiind diferenţa dintre două matrici pozitiv definite; prin urmare, dacă precizia
numerică utilizată la implementarea algoritmului nu este suficient de mare, matricea nK
care rezultă din acest calcul repetat la fiecare iteraţie poate să-şi piardă caracterul pozitiv
definit. O asemenea situaţie este evident neacceptabilă, deoarece nK reprezintă o matrice
de corelaţie. Această comportare instabilă a filtrului Kalman ce se datorează impreciziilor
11.6 Variante de filtre Kalman 353
numerice ce apar atunci când valorile numerice sunt reprezentate în calculator prin cuvinte
de lungime finită, poartă numele de fenomen de divergenţă.
Divergenţa filtrului Kalman poate fi depăşită prin utilizarea de transformări matriciale
unitare numeric stabile la fiecare iteraţie a algoritmului de filtrare Kalman (Kaminski, ş.a.
1971, Morf şi Kailath 1975). În particular, locul matricii de corelaţie nK este luat în
algoritmul Kalman de rădăcina pătrată a acesteia, obţinută prin factorizare Cholesky:
Hn n nK K K (11.83)
unde nK reprezintă o matrice inferior triunghiulară iar H nK este transpusa ei hermitică.
Subiectul descompunerii triunghiulare a unei matrici hermitice a fost introdus în paragraful
4.6 şi utilizat în Capitolele 9 şi 10. În algebra lineară, factorul Cholesky nK este în mod
obişnuit denumit rădăcină pătrată a matricii nK . Drept urmare, orice variantă de
algoritm de filtrare Kalman bazată pe factorizarea Cholesky poartă numele de filtrare de
rădăcină pătrată. Ceea ce trebuie subliniat aici este că produsul matricial Hn nK K nu
poate deveni negativ definit, întrucât produsul oricărei matrici pătrate cu transpusa ei hermi-
tică este întotdeauna pozitiv definit. Într-adevăr, în ciuda erorilor de rotunjire, condiţionarea
numerică a factorului Cholesky nK este mult mai bună decât cea a lui nK .
Algoritmul de filtrare informaţională poate fi de asemenea implementat prin metode de
rădăcină pătrată, cu diferenţa că în acest caz recursia se face pe rădăcina pătrată 1 nK şi
Procesul scalar de intrare
Observaţii = 1 , 2 , ,y y y n
Parametri cunoscuţi
Matricea de tranziţie a stărilor = 1 2 ,I I = matricea identitate
Matricea de măsurare = H nu
Varianţa zgomotului de măsurare 1v n
Condiţii iniţiale
0
ˆ 1 1E x xY
01,0 1 1 1 1
H
E E E K x x x x Π
Algoritm de calcul 1,2,3,n
1 1 1 Hn n n n K K u u
1 1 2 1
1ˆ ˆ1 1 1n nn n n n n y n
K x K x uY Y
1
1 1ˆ ˆ1 1n nn n n n
x K K xY Y
Tabelul 11.4 Algoritmul de filtrare informaţională ce se aplică pe modelul de sistem dinamic
neforţat.
354 FILTRUL KALMAN - 11
nu pe matricea inversă 1 nK (Kaminski, ş.a. 1971). În această variantă a filtrului Kalman,
factorizarea Cholesky exprimă matricea inversă 1 nK astfel:
1 1Hn n n K K K (11.84)
unde 1 nK este o matrice inferior triunghiulară iar H n
K este transpusa ei hermitică.
11.7 Filtrul Kalman extins (EKF)
Până în acest moment al discuţiei noastre asupra filtrelor Kalman, s-a tratat doar problema
estimării vectorului de stare în cazurile în care sistemul dinamic este reprezentat printr-un
model linear. Vom arăta în prezentul paragraf că şi în cazul în care modelul sistemului este
nelinear, se poate aplica filtrarea Kalman prin utilizarea unei proceduri de linearizare. Vom
denumi în mod natural filtrul rezultat în urma acestei operaţiuni, filtru Kalman extins
(Extended Kalman Filter - EKF). O asemenea extindere este fezabilă datorită faptului că
filtrul Kalman este descris, în cazul unui model de stare, prin ecuaţii cu diferenţe finite.
Trebuie subliniat faptul că o asemenea extindere nu este posibilă în cazul filtrului Wiener,
întrucât noţiunea de răspuns la impuls (pe care se bazează filtrul Wiener) are sens doar în
cazul sistemelor lineare. Această observaţie reprezintă un avantaj major al filtrării Kalman în
raport cu filtrul Wiener.
Vom porni în dezvoltarea filtrului Kalman extins de la modelul linear standard al unui
sistem dinamic în spaţiul stărilor introdus în prima parte a capitolului (ecuaţiile (11.1) şi
(11.3)), pe care le reproducem în continuare:
11 1,n n n n n x F x v (11.1)
2n n n n y C x v (11.3)
unde 1 nv şi 2 nv sunt procese de zgomot alb de medie nulă şi necorelate cu matricile
de corelaţie 1 nQ respectiv 2 nQ , definite prin relaţiile (11.2), (11.4) şi (11.5). Ecuaţiile
de definiţie a algoritmului Kalman de filtrare corespunzător sunt rezumate în Tabelul 11.2.
Vom rescrie aceste ecuaţii într-o formă uşor modificată, mai convenabilă scopului propus.
În particular, vom realiza recursia pentru estimarea stării sistemului în doi paşi. În primul
pas se recalculează ˆ 1 nn x Y pornind de la ˆnn x Y conform ecuaţiei (11.43). În al
doilea pas, pornind de la 1ˆ
nn x Y se obţine ˆnn x Y . Această recursie face apel la înlo-
cuirea ecuaţiei (11.29) în (11.44) şi definirea unei noi matrici de câştig Kalman:
1 1,f n n n n G F G (11.85)
În aceste condiţii, algoritmul de filtrare Kalman este descris prin următoarele ecuaţii
ˆ ˆ1 1,n nn n n n x F xY Y (11.86)
1ˆ ˆ
n n fn n n n x x G αY Y (11.87)
11.7 Filtrul Kalman extins (EKF) 355
1ˆ
nn n n n α y C x Y (11.88)
1
2, 1 , 1H H
f n n n n n n n n n
G K C C K C Q (11.89)
11, 1, 1,Hn n n n n n n n K F K F Q (11.90)
, 1fn n n n n K I G C K (11.91)
În continuare, vom face apel la un model mai elaborat al sistemului dinamic. În loc de
ecuaţiile de stare (11.1) şi (11.3), vom utiliza modelul alternativ:
11 1,n n n n n n x F x v d (11.92)
2n n n n y C x v (11.93)
unde nd este un vector cunoscut (adică nealeator). Se verifică uşor în acest caz că ecuaţii-
le Kalman (11.87) până la (11.91) rămân nemodificate, excepţie făcând prima ecuaţie
(11.86) care devine:
ˆ ˆ1 1,n nn n n n n x F x dY Y (11.94)
Această modificare va fi utilizată la deducerea filtrului Kalman extins ce va fi efectuată în
continuare.
După cum a fost menţionat anterior, filtrul Kalman extins (EKF) este o soluţie aproxi-
mativă care oferă posibilitatea extinderii principiului filtrării Kalman la modele nelineare în
spaţiul stărilor (Ljung şi Söderström 1983). În particular, modelul nelinear, pe care îl vom
considera în continuare, are următoarea formă:
11 ,n n n n x F x v (11.95)
2,n n n n y C x v (11.96)
unde, ca şi mai sus, 1 nv şi 2 nv sunt procese de zgomot alb de medie nulă şi necorelate
cu matrici de corelaţie 1 nQ respectiv 2 nQ . În schimb, aici, funcţionala ,n nF x
reprezintă o matrice de tranziţie nelineară, posibil variabilă în timp. În cazul linear, ea se
reduce pur şi simplu la situaţia tratată anterior:
, 1,n n n n n F x F x
În schimb, în cazul general nelinear, prin acţiunea funcţionalei ,n nF x componentele
vectorului de stare nx pot fi combinate nelinear. Mai mult, această dependenţă nelineară
poate fi şi variabilă în timp. Similar, funcţionala ,n nC x reprezintă o matrice de măsu-
rare nelineară care, de asemenea, poate fi variabilă în timp.
Drept exemplu, să considerăm pentru relaţiile (11.95) şi (11.96) modelul bidimensional
în spaţiul stărilor de mai jos descris în continuare:
356 FILTRUL KALMAN - 11
2
1,11 1 2
1,22 1 1 2
2
1 2 2
1
1 1
v nx n x n x n
v nx n nx n x n x n
y n x n x n v n
În acest exemplu avem
2
1 2
1 1 2
,1
x n x nn n
nx n x n x n
F x
şi 2
1 2,n n x n x nC x
Ideea fundamentală a filtrului Kalman extins constă în linearizarea modelului în spaţiul
stărilor din ecuaţiile (11.95) şi (11.96) la fiecare moment de timp în jurul celei mai recente
estimări de stare, care poate fi atât ˆnn x Y cât şi 1
ˆnn x Y , în funcţie de forma
particulară a funcţionalei utilizate. Odată obţinut modelul linear, se aplică ecuaţiile standard
ale filtrului Kalman.
Mai explicit, aproximarea se face în doi paşi.
Pasul 1. Se construiesc următoarele două matrici
ˆ
,1,
nn
n nn n
x x
F xF
xY
(11.97)
şi
1ˆ
,
nn
nn
x x
C xC
xY
(11.98)
Drept urmare, componenta ij a lui 1,n nF este egală cu derivata parţială a componentei i
a lui ,nF x în raport cu componenta j a lui x . Similar, componenta ij a lui nC este
egală cu derivata parţială a componentei i a lui ,nC x în raport cu componenta j a lui x .
În primul caz, derivatele sunt evaluate în ˆnn x Y , în timp ce în al doilea caz, derivatele se
evaluează la 1ˆ
nn x Y . Toate componentele matricilor 1,n nF şi nC sunt cunoscute
(adică sunt calculabile), pentru că ˆnn x Y şi 1
ˆnn x Y sunt cunoscute aşa cum se arată
în continuare.
Aplicăm definiţiile (11.97) şi (11.98) la exemplul ales şi obţinem
2 2
2 1 2
2 1
1 2, , şi 2
xn n xx x x
n x x
F x C
x x
ceea ce conduce la: 2
2 1
ˆ1 21,
ˆ ˆ
n
n n
x nn n
n x n x n
FY
Y Y
11.7 Filtrul Kalman extins (EKF) 357
şi 2
2 1 1 2 1ˆ ˆ ˆ2n nn x n x x n C Y Y
Pasul 2. Odată făcută evaluarea matricilor 1,n nF şi nC , acestea sunt utilizate în
continuare la stabilirea aproximaţiei Taylor de ordinul întâi a funcţionalelor nelineare
,n nF x şi ,n nC x în jurul valorilor ˆnn x Y şi 1
ˆnn x Y . În particular,
,n nF x şi ,n nC x se aproximează după cum urmează:
ˆ ˆ, , 1,n nn n n n n n n n F x F x F x xY Y (11.99)
1 1ˆ ˆ, , n nn n n n n n n C x C x C x xY Y (11.100)
Pe baza ultimelor două relaţii, se poate acum trece la aproximarea ecuaţiilor de stare
nelineare (11.95) şi (11.96) prin expresiile care urmează:
11 1,n n n n n n x F x v d (11.101)
şi 2n n n ny C x v (11.102)
În (11.101) şi (11.102) s-au introdus două noi mărimi:
1 1ˆ ˆ, n nn n n n n n y y C x C xY Y (11.103)
şi ˆ ˆ, 1,n nn n n n n n d F x F xY Y (11.104)
Componentele vectorului ny sunt toate cunoscute la momentul de timp n, şi prin urmare,
ny poate fi privit ca un vector de observaţie la momentul n. Similar, toate componentele
vectorului nd se cunosc la momentul n.
Modelul de stare aproximativ descris de ecuaţiile (11.101) şi (11.102) este linear şi are o
formă matematică identică cu modelul descris prin ecuaţiile (11.92) şi (11.93); de fapt, cu
acest obiectiv în vedere s-a formulat mai devreme modelul din ecuaţiile (11.92) şi (11.93).
Ecuaţiile filtrului Kalman extins sunt, prin urmare, şi în acest caz, ecuaţiile Kalman standard
(11.87) până la (11.91) şi (11.94) aplicate modelului linear definit mai sus. Se ajunge la
următorul set de ecuaţii:
1
1
1 1 1
1
ˆ ˆ1 1,
ˆ ˆ ˆ1, , 1,
ˆ,
ˆ ˆ
ˆ
ˆ ˆ ˆ,
ˆ,
n n
n n n
n
n n f
n
n n n
n
n n n n n
n n n n n n n n
n n
n n n n
n n n n
n n n n n n n
n n n
x F x d
F x F x F x
F x
x x G α
α y C x
y C x C x C x
y C x
Y Y
Y Y Y
Y
Y Y
Y
Y Y Y
Y
(11.105)
358 FILTRUL KALMAN - 11
Pe baza ecuaţiilor (11.105) reprezentăm în Figura 11.8 graful de semnal al operaţiei de
actualizare a filtrului Kalman extins de predicţie într-un pas.
Tabelul 11.5 prezintă un rezumat al algoritmului de filtrare Kalman extins, în care
matricile linearizate 1,n nF şi nC sunt calculate din omoloagele lor nelineare pe
baza ecuaţiilor (11.97) şi (11.98). Fiind dat un model de sistem în spaţiul stărilor descris prin
ecuaţiile (11.95) şi (11.96), se poate utiliza acest algoritm pentru a calcula estimarea de stare
recursiv. Comparând ecuaţiile filtrului Kalman extins rezumate aici cu ecuaţiile filtrului
Kalman standard date prin relaţiile (11.86) până la (11.91), observăm faptul că singurele
diferenţe dintre ele apar la calculul vectorului de inovaţii nα şi al estimării vectorului de
stare ˆ 1 nn x Y . În detaliu, termenii lineari ˆ1, nn n n F x Y şi 1ˆ
nn n C x Y care
apar la filtrul Kalman standard sunt înlocuiţi prin termenii aproximaţi ˆ, nn n F x Y şi
respectiv 1ˆ, nn n C x Y care sunt specifici filtrului Kalman extins. Aceste diferenţe sunt
de asemenea puse în evidenţă la compararea grafului de semnal din Figura 11.3 pentru
predicţia într-un pas făcută cu filtrul Kalman standard şi cel din Figura 11.8 pentru predicţia
într-un pas făcută cu filtrul Kalman extins.
11.8 Filtrul Kalman şi algoritmul RLS
Există o strânsă legătură între problema filtrării recursive prin metoda celor mai mici pătrate
(RLS) dezvoltată pe larg în Capitolul 10 şi cea a filtrării lineare optimale recursive aşa cum
este aceasta realizată prin algoritmul Kalman, prezentat în acest Capitol. Deşi, natura
algoritmilor RLS este deterministă iar metodele de filtrare Kalman sunt de natură stochas-
tică, ambele clase de aplicaţii se dovedesc a fi echivalente în sensul că rezolvând o problemă
dintr-o clasă rezolvăm implicit o problemă din cealaltă clasă şi viceversa (Sayed 2008).
Algoritmul RLS cu ponderare exponenţială a fost dedus pe baza unor principii
deterministe enunţate în Capitolul 10. Modelul matematic ce serveşte drept fundament
acestei deduceri este determinist, întrucât singura sa sursă de incertitudine rezidă în
caracterul aleator al erorii de măsurare 0e n din expresia (10.37) a semnalului de răspuns
dorit:
H
o od n n e n w u (11.106)
Figura 11.8 Graful de semnal al algoritmului de filtrare Kalman extins (EKF) cu
predicţie într-un pas.
11.8 Filtrul Kalman şi algoritmul RLS 359
unde ow sunt parametrii parametrii procesului de regresie ce sunt identificaţi prin filtrare
(coeficienţii optimali ai filtrului adaptiv) iar nu este semnalul la intrarea filtrului adaptiv.
Vom arăta în cele ce urmează că algoritmul RLS poate fi dedus exact direct din
algoritmul de filtrare Kalman de covarianţă prezentat în paragraful 11.6.2, utilizând un
model în spaţiul stărilor care se adaptează perfect problemei RLS (Sayed şi Kailath 1994).
Modelul de stare utilizat în acest caz este prin formularea sa natural stochastic. Această
abordare alternativă a soluţiei problemei RLS este deosebit de importantă întrucât ne permi-
te să stabilim o listă de corespondenţe unu la unu între variabilele RLS şi variabilele Kalman
bazate pe modelul de stare. Cu o asemenea listă la dispoziţie, putem utiliza vasta literatură
consacrată filtrelor Kalman pentru a rezolva problema algoritmilor RLS într-o manieră
unificată, ceea ce reprezintă obiectivul nostru final.
Vectorul procesului de intrare
Observaţii = 1 , 2 , , ny y y
Parametri cunoscuţi
Matricea nelineară de tranziţie a stărilor = ,n nF x
Matricea nelineară de măsurare = ,n nC x
Matricea de corelaţie a vectorului de zgomot de proces = 1 nQ
Matricea de corelaţie a zgomotului de măsurare = 2 nQ
Algoritm de calcul 1,2,3,n
1
2, 1 , 1H H
f n n n n n n n n n
G K C C K C Q
1ˆ, nn n n n α y C x Y
1ˆ ˆ
n n fn n n n x x G αY Y
ˆ ˆ1 ,n nn n n x F xY Y
, 1fn n n n n K I G C K
11, 1, 1,Hn n n n n n n n K F K F Q
Observaţie: Matricile linearizate 1,n nF şi nC sunt calculate din
omoloagele lor nelineare ,n nF x şi ,n n C x prin
utilizarea relaţiilor (11.97) şi, respectiv, (11.98). Condiţii iniţiale
0ˆ 1 1E x xY
01,0 1 1 1 1H
E E E K x x x x Π
Tabelul 11.5 Algoritmul de filtrare Kalman extins (EKF).
360 FILTRUL KALMAN - 11
11.8.1 O comparare a metodelor aleatoare şi
deterministe
Pentru început, vom considera modelul dinamic neforţat descris prin ecuaţiile (11.62) până
la (11.64), pe care îl reproducem în continuare
1 21n n x x (11.107)
Hy n n n v n u x (11.108)
unde nx este vectorul de stare al modelului, y n este mărimea scalară de observaţie sau
semnalul de referinţă, iar v n este un proces scalar aleator de zgomot alb de medie nulă şi
varianţă unitară. Parametrul modelului este o constantă reală şi pozitivă. Din relaţia
(11.107) se vede uşor că:
2 0nn x x (11.109)
unde 0x este valoarea iniţială a vectorului de stare. Evaluând în consecinţă ecuaţia
(11.108) la momentele 0,1,n , şi utilizând în continuare ecuaţia (11.109) pentru a expri-
ma vectorii de stare la momente distincte în funcţie de valoarea iniţială 0x , se obţine
următorul sistem de ecuaţii lineare:
1 2
2
0 0 0 0
1 1 1 1
H
H
n H
y v
y v
y n n n v n
u x
u x
u x
(11.110)
Echivalent, se poate scrie
1 2 1 2
2 2
0 0 0 0
1 1 1 1
H
H
n H n
y v
y v
y n n n v n
u x
u x
u x
(11.111)
Sistemul de ecuaţii (11.111) reprezintă o caracterizare stochastică a modelului dinamic
neforţat, corespunzând astfel la o abordare din punct de vedere Kalman a problemei.
Vom considera în continuare formularea deterministă a problemei, adică vom încerca să
o privim din punctul de vedere a algoritmului RLS. Adaptăm în acest scop la problema
examinată modelul de regresie lineară din ecuaţia (11.106):
11.8 Filtrul Kalman şi algoritmul RLS 361
* *
* *
* *
0 0 0
1 1 1
H
o o
H
o o
H
o o
d e
d e
d n n e n
u w
u w
u w
(11.112)
Avem astfel două sisteme de ecuaţii lineare simultane pentru rezolvarea în esenţă a
aceleiaşi probleme. Un sistem, (11.111), este stochastic, bazat pe teoria filtrării Kalman;
celălalt sistem, (11.112), este determinist, bazat pe teoria estimării după cele mai mici pătra-
te. Intuitiv, ne-am aştepta ca ambele abordări să conducă exact la aceiaşi soluţie pentru
problema examinată. Mai mult, recunoscând că aceste două sisteme de ecuaţii au aceiaşi
formă matematică, pare rezonabil pentru noi să stabilim
0 ox w (11.113)
şi, în consecinţă 2
1ˆ 1n
nn n
x wY (11.114)
Pe această bază, o comparaţie între ecuaţiile stochastice (11.111) şi ecuaţiile deterministe
(11.112) dezvăluie imediat corespondenţele unu la unu:
2 *ny n d n (11.115)
2 *n
ov n e n (11.116)
unde asteriscul reprezintă operaţia de conjugare complexă. Variabilele care apar în membrii
din partea stângă a ultimelor două ecuaţii se referă la modelul din spaţiul stărilor, iar cele
situate în partea dreaptă a ecuaţiilor se referă la modelul de regresie lineară.
11.8.2 Comparaţie între filtrul Kalman de covarianţă
şi algoritmul RLS
După cum a devenit evident în paragraful anterior, legătura dintre algoritmul RLS cu ponde-
rare exponenţială şi filtrarea Kalman se datorează aplicării filtrului Kalman modelului
special în spaţiul stărilor descris de (11.107) şi (11.108). Vom utiliza un pas mai departe
acest argument pentru a arăta că soluţia recursivă a algoritmului RLS standard descrisă prin
ecuaţiile (10.32) şi Tabelul 10.2 reprezintă o formulare alternativă a algoritmului de filtrare
Kalman de covarianţă din Tabelul 11.3 ce se aplică modelului mai sus-menţionat. Ecuaţiile
de mai jos reformulează algoritmul RLS standard într-un format echivalent celui utilizat în
Tabelul 11.31:
1
1
1
1RLS H
n nn
n n n
P ug
u P u (11.117)
1He n d n n n w u (11.118)
1 Pentru a face distincţia dintre vectorii de câştig RLS şi Kalman, desemnaţi anterior prin ng , vom
indica vectorul de câştig RLS prin RLS ng iar vectorul de câştig Kalman prin K ng .
362 FILTRUL KALMAN - 11
*1 RLSn n n e n w w g (11.119)
1 11 1H
RLSn n n n n P P g u P (11.120)
Semnificaţiile mărimilor utilizate în ecuaţiile de mai sus este următoarea: RLS ng este
vectorul câştigului de adaptare, nP este inversa estimatei matricii de corelaţie a procesului
de intrare calculată la momentul n, e n este eroarea apriori de la ieşirea filtrului la acelaşi
moment de timp, iar este factorul de uitare, 0 1 .
Comparăm ecuaţia (11.119) cu relaţia echivalentă de calcul recursiv al algoritmului
Kalman (11.29) adaptată la modelul special utilizat:
1 2
1 1ˆ ˆ ˆ1 H
n n K nn n n y n n n
x x g u xY Y Y (11.121)
Rescriem relaţia de mai sus în termenii algoritmului RLS, făcând substituţiile (11.114) şi
(11.115):
1 2 1 2 2 2 * 21n n n n H
Kn n n d n n n w w g u w
Continuăm, multiplicând ambii termeni ai ultimei relaţii cu 1 2n
:
1 2 * *1 1 1H
K RLSn n n d n n n n e n w w g u w w g
Rezultă relaţia dintre vectorul câştigului de adaptare RLS şi vectorul de câştig Kalman:
1 2
K RLSn ng g (11.122)
Comparând recursia lui nP din (11.120) cu ecuaţia de recursie a matricii de corelaţie
nK din Tabelul 11.3 se obţine, în acelaşi mod cu (11.122):
1n nK P (11.123)
Pe lângă echivalările dintre cei doi algoritmi, evidenţiate de relaţiile (11.113) până la
(11.116) şi (11.122)-(11.123) pot fi realizate şi alte identificări între variabilele Kalman şi
variabilele RLS. Să reamintim, de exemplu, că problemei RLS i se asociază la fiecare
moment de timp n două semnale de eroare:
eroarea apriori: 1He n n n n d w u
şi eroarea aposteriori: Hn d n n n w u
Aceste erori pot fi exprimate în funcţie de variabila de inovaţii a filtrului Kalman K n ,
astfel
2 *
1
2 *
ˆ 1n H
K n
n
n y n n d n n n
e n
x u wY (11.124)
FILTRUL KALMAN Probleme 363
* * 1 2
* 1 2 1 2
1
* 1 2 *
1 2 *
* 1 *
ˆ 1
ˆ
1
1
11
1 1
n H
n
n H
n K K
H H
K
H
K
H
H
n d n n n
d n n n n n
d n n n n n e n
n n e n
n n ne n r n e n
n n n
u x
u x g
u w u g
u g
u K u
u K u
Y
Y
(11.125)
Conform ultimei ecuaţii, factorul de conversie RLS RLS n 2, care transformă eroarea RLS
apriori e n în eroarea RLS aposteriori n , este egal cu factorul de conversie Kalman
(inversa varianţei variabilei de inovaţii), 1r n , definit prin relaţia (11.49).
În concluzie, calculele efectuate mai sus demonstrează că filtrul RLS standard este
echivalent cu filtrarea Kalman de covarianţă ce se aplică modelului unui sistem dinamic
neforţat atunci când între cele două proceduri se utilizează echivalenţele descrise de Tabelul
11.6 (Haykin 1996, Sayed 2008). Această legătură strânsă care există între filtrul Kalman şi
algoritmii RLS permite ca literatura de specialitate foarte bogată în ceea ce priveşte
diversele variante de algoritmi Kalman să fie utilizată nemijlocit la dezvoltarea şi
fundamentarea matematică a filtrelor RLS.
Probleme
P 11.1 Vectorul de eroare a predicţiei de stare se defineşte prin
1ˆ, 1 nn n n n x xє Y
unde 1ˆ
nn x Y este estimarea de medie pătratică minimă a stării nx , pe
spaţiul 1nY subîntins de observaţiile 1 , , 1ny y . Se notează prin 1 nv şi
2 nv vectorii de zgomot de proces respectivde zgomot de măsurare. Arătaţi că
, 1n n є este ortogonal atât pe 1 nv cât şi pe 2 nv ; adică:
1 2, 1 , 1H HE n n n şi E n n n v 0 v 0є є
P 11.2 Expresia matricii de câştig Kalman definit prin relaţia (11.33) include matricea
inversă 1 nR . Matricea nR este la rândul său definită prin ecuaţia (11.19), pe
care o reproducem mai jos
2, 1 Hn n n n n n R C K C Q
2 Pentru a evita confuziile, s-a notat variabila de inovaţii Kalman prin K n iar factorul de
conversie RLS prin RLS n .
364 FILTRUL KALMAN - 11
Matricea nC este definită nenegativ, dar nu este în mod necesar nesingulară
(a) De ce este nR o matrice nesingulară?
(b) Ce condiţie iniţială trebuie impusă matricii 2 nQ pentru a asigura existenţa
matricii inverse 1 nR .
P 11.3 Pentru situaţia în care matricea de tranziţie 1,n nF este matricea unitate iar
vectorul zgomotului de stare este nul, arătaţi că matricea de corelaţie a erorii de
predicţie a stării 1,n nK şi matricea de corelaţie a erorii de stare filtrate
nK sunt egale
P 11.4 Utilizând condiţiile iniţiale descrise prin ecuaţiile (11.56) şi (11.57), arătaţi că
estimarea filtrată ˆnn x Y produsă de filtrul Kalman este nedeplasată; adică:
1ˆ
nE n n x xY
Kalman RLS
Descriere Variabilă Variabilă Descriere
Valoare iniţială a vectorului de stare
0x ow Vector necunoscut al coeficienţilor de regresie
Vector de stare nx 2n
ow Versiune ponderată
exponenţial a vectorului coeficienţilor coeficienţilor
Semnalul de referinţă (măsurat)
y n 2 *n d n Răspunsul dorit
Zgomot de măsurare v n 2 *n e n Eroarea de măsurare
Vector de stare a predicţiei într-un pas
ˆ 1 nn x Y 1 2ˆ
nn
w Estimare vectorului
coeficienţilor Matrice de corelaţie a erorii de predicţia de stare
nK 1 nP Inversă a matricii de
corelaţie a vectorului de intrare
Vector de câştig Kalman K ng 1 2
RLS ng Vector de câştig
Inovaţii K n 2 *n e n Eroare de estimare apriori
Inovaţii K n
2 *n r n e n Eroare de estimare aposteriori
Varianţă a inovaţiilor r n 1
RLS n Inversă a factorului de conversie
Condiţii iniţiale
0ˆ 1 x 0
K 0
Y
1
ˆ 0
0
w 0
P
Condiţii iniţiale
Tabelul 11.6 Corespondenţe între variabilele filtrului Kalman şi variabilele algoritmului RLS
echivalent.
12 Algoritmi RLS rapizi
Capitolul de faţă este dedicat dezvoltării unei clase importante de filtre adaptive, alcătuite
din algoritmi care sunt recurenţi atât în timp cât şi după ordinul filtrului. Originea algoritmi-
lor se găseşte în teoria estimării recursive în sensul celor mai mici pătrate (RLS) şi prin
urmare păstrează cele două caracteristici importante ale acesteia: viteză mare de convergenţă
şi lipsa de sensibilitate la variaţiile gradului de împrăştiere a valorilor proprii ale matricii de
corelaţie a datelor de intrare. Al doilea punct de pornire a algoritmilor RLS rapizi se găseşte
în filtrele de predicţie lineară studiate în Capitolul 5 care, datorită invarianţei pe care o
prezintă faţă de deplasarea semnalului de intrare sunt alcătuite din structuri modulare după
ordin (lattice) de filtrare.
Diferenţa faţă de algoritmii RLS studiaţi până acum este dată de reducerea complexităţii
matematice de la 2O M la O M , M fiind numărul de celule ale filtrelor. Recurenţa
după ordin oferă filtrelor adaptive implementate prin aceste metode eficienţă computaţiona-
lă şi modularitate, justificând pe lângă motivul menţionat anterior, denumirea de algoritmi
rapizi (Ciochină şi Negrescu 1999, Haykin 1996) pe care o poartă această categorie de filtre.
În particular, reducerea volumului de calcul se datorează recurenţei după ordin ceea ce face
ca, odată cu creşterea ordinului filtrului de la m la 1m , o parte din informaţia acumulată
pentru filtrul de ordinul m să fie transferată filtrului de ordinul 1m .
Pentru că algoritmii RLS combină conceptele de predicţie şi filtrare într-un mod elegant
care oferă implementări eficiente din punctul de vedere a efortului de calcul, vom porni
studiul lor de la abordarea predicţiei lineare în contextul metodei celor mai mici pătrate.
12.1 Predicţie liniară în context LS
12.1.1 Recursia după ordinul filtrului
Vom deschide subiectul prin introducerea unor notaţii şi observaţii utile în discutarea algo-
ritmilor recurenţi după ordin. Vom considera în acest scop secvenţa de date de intrare
, 1 , , 1 , ,u n u n u n m u n m Atunci când ordinul de predicţie creşte de la m
Capitolul
12
366 ALGORITMI RLS RAPIZI - 12
la 1m , vectorului de date 1T
m n u n u n m u i se adaugă observaţia
suplimentară u n M , devenind 1m nu . Vom nota prin 1
m
m mn n u u primele m
componente iar prin 1 1m
m mn n u u ultimele m componente ale lui 1m nu . Similar,
matricea de corelaţie 1
m
m n R de ordin m m este determinată de de intersecţia primelor m
linii cu primele m coloane ale lui 1m nR iar matricea 1
m
m n R se obţine din intersecţia
ultimelor m linii şi ultimelor m coloane. De exemplu, dacă 3m şi dacă se face abstracţie
de variabila timp, se scrie:
ceea ce ilustrează partiţionările superior-stânga şi inferior-dreapta ale matricii 4R .
Dezvoltarea algoritmilor de predicţie lineară optimală din Capitolul 5 s-a făcut pe baza
proprietăţii de invarianţă la deplasare a vectorului de date de intrare
1
1
m
m
m
n u nn
u n m n
uu
u (12.1)
Elementul cheie în dezvoltarea acestor algoritmi cu recursie de ordin se află în următoarele
partiţionări după ordin ale matricii de corelaţie (vezi relaţiile (5.14) şi (5.42)):
1
1
b fH
m m m m
m bH f
m m m m
n r n P n r nn
n P n m n n
RR
r r R (12.2)
care reprezintă un rezultat al proprietăţii (12.1). S-au utilizat notaţiile:
* *, 1b f
m m m mn E n u n m n E n u n r u r u (12.3)
şi *P n E u n u n (12.4)
Aceleaşi partiţii pot fi obţinute dacă se calculează matricea de corelaţie în sensul celor mai
mici pătrate (LS), ˆm nR
1 1 1
0
ˆ
ˆ ˆˆ
ˆˆ ˆ 1
nn j H
m m m
j
fHbm mm m
bH fm m m m
n j j
E n r nn r n
n E n m n n
R u u
R
r r R
(12.5)
12.1 Predicţie liniară în context LS 367
în ipoteza că estimarea LS este cu predecupare (prewindowing), 1m u 0 (vezi
paragraful 9.3). Condiţia este necesară pentru a asigura prezenţa termenului ˆ 1m n R în
partiţia inferior-dreapta a lui 1ˆ
m nR .
Formele identice ale relaţiilor (12.2) şi (12.5) implică faptul că relaţiile recurente după
ordin precum şi structurile modulare de predicţie dezvoltate în Capitolul 5 pentru filtrele de
predicţie în sens optimal pot fi utilizate şi pentru predicţia în sens LS cu predecupare. Pentru
a face trecerea de la filtrarea optimală la filtrarea LS, se înlocuieşte, pur şi simplu, operatorul
de medie statistică E cu operatorul de medie temporală 0
n n j
j
, iar termenul
putere mP se înlocuieşte cu termenul energie mE .
Vom relua în cele ce urmează, în contextul estimării LS, problema definirii operaţiei de
predicţie lineară, pentru că apar diferenţe majore în raport cu cazul optimal, ce trebuie
evidenţiate în acest punct al lucrării.
12.1.2 Ecuaţiile erorii de predicţie LS
Predicţia lineară constituie un caz special al filtrării adaptive în care, după cum s-a arătat în
Capitolul 5, semnalul dorit d n este reprezentat chiar de semnalul de intrare: d n u n
în cazul predicţiei înainte respectiv d n u n m în cazul predicţiei înapoi de ordinul m.
Eroarea de predicţie este dată de diferenţa dintre eşantionul specificat al semnalului de intra-
re şi ieşirea predictorului adaptiv.
Astfel, pentru predicţia înainte se defineşte eroarea de predicţie înainte aposteriori
f
m n prin
1f fH
m m mn u n n n w u (12.6)
unde vectorii de lungime m ai secvenţei de intrare 1m n u şi ai coeficienţilor predictorului
adaptiv f
m nw sunt, respectiv
1 1 2T
m n u n u n u n m u
şi: ,1 ,2 ,
Tf f f f
m m m m mn w n w n w n w
Ca şi în cazul filtrării RLS, eroarea aposteriori se calculează pe baza valorii de la momentul
de timp curent n a ponderilor filtrului predictor. Dacă calculul erorii utilizează valorile
„trecute” ale vectorului coeficienţilor, atunci se obţine eroarea de predicţie înainte apriori,
f
me n :
1 1f fH
m m me n u n n n w u (12.7)
Variabilele care definesc operaţia de predicţie înapoi sunt vectorii de lungime m ai
secvenţei de intrare m nu şi ai coeficienţilor predictorului adaptiv b
m nw definiţi prin
368 ALGORITMI RLS RAPIZI - 12
1 1T
m n u n u n u n m u
respectiv: ,1 ,2 ,
Tb b b b
m m m m mn w n w n w n w
Eroarea de predicţie înapoi aposteriori b
m n se calculează pe baza valorilor actualizate la
momentul curent ale coeficienţilor filtrului:
b bH
m m mn u n m n n w u (12.8)
iar calculul erorii de predicţie înapoi apriori b
me n utilizează valorile anterioare ale
vectorului coeficienţilor:
1b bH
m m me n u n m n n w u (12.9)
Trebuie remarcat că notaţiile care desemnează în Capitolul 5 erorile de predicţie înainte
şi înapoi, mf n respectiv mb n , diferă de cele utilizate aici, pentru că erorile de predicţie
LS aposteriori şi apriori nu pot fi echivalate direct cu eroarea predicţiei optimale folosită
anterior.
O modalitate echivalentă de descriere a procesului de predicţie utilizează filtrul erorii de
predicţie înainte respectiv filtrul erorii de predicţie înapoi reprezentate în Figura 12.1.
Relaţia dintre coeficienţii filtrului erorii de predicţie m na respectiv m nc (vezi Figura
12.1) şi coeficienţii predictorului este evidentă, dacă se are în vedere faptul că eroarea de la
ieşirea predictorului este semnalul de ieşire al filtrului de eroare:
respectivf b
m m m mn n n n a w c w (12.10)
Prin urmare, vectorii de lungime m ai coeficienţilor filtrelor erorii de predicţie înainte şi
Figura 12.1 (a) Filtrul erorii de predicţie înainte de
ordinul m şi (b) filtrul erorii de predicţie
înapoi de ordinul m.
12.1 Predicţie liniară în context LS 369
înapoi sunt
,1 ,2 ,
T
m m m m mn a n a n a n a
respectiv ,0 ,1 , 1
T
m m m m mn c n c n c n c .
Rescriem ecuaţiile predicţiei LS (12.6)-(12.9) pentru setul de coeficienţi utilizat în filtrele
erorii de predicţie:
1. Eroarea de predicţie înainte aposteriori
1f H
m m mn u n n n a u (12.11)
2. Eroarea de predicţie înainte apriori
1 1f H
m m me n u n n n a u (12.12)
3. Eroarea de predicţie înapoi aposteriori
b H
m m mn u n m n n c u (12.13)
4. Eroarea de predicţie înapoi apriori
1b H
m m me n u n m n n c u (12.14)
Şi în ceea ce priveşte vectorii coeficienţilor filtrelor erorii de predicţie există o diferenţă
faţă de notaţiile utilizate în Capitolul 5. Anterior, notaţiile m na respectiv m nc desem-
nau vectori de lungime 1m , întrucât şi coeficienţii unitari ,0 1ma respectiv , 1m mc (vezi
Figura 12.1) erau consideraţi ca făcând parte din filtrele erorii de predicţie. Notaţia utilizată
aici are scopul de fi coerentă cu semnificaţia ei.
12.1.3 Ecuaţiile de recursie ale predicţiei RLS
Algoritmii RLS rapizi exploatează invarianţa la deplasare a vectorului de date (12.1) precum
şi ecuaţia de recursie în timp a matricii de corelaţie ˆm nR enunţată prin ecuaţia (10.7), în
scopul dezvoltării de algoritmi rapizi de complexitate O M . Reluăm aici, ecuaţia de
recursie a matricii de corelaţie:
ˆ ˆ 1 H
m m m mn n n n R R u u (12.15)
Principalele categorii de algoritmi care pot fi încadrate sub apelativul de algoritmi RLS
rapizi sunt enumerate în continuare (Manolakis, ş.a. 2005):
1. Algoritmi RLS rapizi fără recursie de ordin pentru filtre FIR cu structură directă
ce calculează recursiv în mod explicit vectorii de câştig RLS ng şi ng .
2. Algoritmi RLS rapizi cu recursie după ordin pentru filtre FIR cu structură lattice-
scară ce-şi actualizează indirect sau direct coeficienţii.
3. Algoritmi RLS cu descompunere QR pentru filtre FIR cu structură lattice-scară ce
utilizează rotaţii Givens.
370 ALGORITMI RLS RAPIZI - 12
Vom studia în continuare cei mai reprezentativi algoritmi din fiecare categorie menţionată
anterior.
Toate relaţiile stabilite în Capitolul 5 rămân valabile în cazul predicţiei liniare în sens LS
cu predecupare, cu diferenţa că variabila P este înlocuită cu variabila E, pentru a sublinia
faptul că în predicţia LS interpretarea funcţiei de cost este de energie şi nu de putere ca în
cazul predicţiei optimale. Tabelul 12.1 prezintă corespondenţele care există la nivelul ecua-
ţiilor de funcţionare între filtrarea FIR generală şi predictoarele liniare înainte şi înapoi.
Utilizând aceste corespondenţe şi ecuaţiile normale care definesc filtrarea în sens LS, se pot
obţine uşor atât ecuaţiile normale cât şi expresiile funcţiei de cost minime, rezumate de
asemenea în Tabelul 12.1. Expresiile din tabel sunt corecte, atâta vreme cât parametrii
filtrelor erorii de predicţie m na şi m nb sunt menţinuţi constanţi pe parcursul întregului
interval de optimizare.
Tabelul 12.2 face o trecere în revistă a ecuaţiilor de recursie apriori şi aposteriori în
sensul celor mai mici pătrate deduse în Capitolul 10 al acestei lucrări. Dacă se utilizează
corespondenţele relevate în Tabelul 12.1 dintre filtrarea FIR generală şi filtrarea de predicţie
lineară LS, atunci pot fi deduse uşor ecuaţii de recursie similare pentru predicţia lineară
înainte respectiv pentru predicţia lineară înapoi. Rezultatele obţinute pentru predicţie sunt de
asemenea trecute în revistă în Tabelul 12.2.
12.2 Filtre FIR rapide fără recursie de
ordin
Principalul efort de calcul în filtrele RLS este reprezentat de calcularea vectorului de câştig
ng sau ng . Algoritmul RLS standard, pentru început, determină matricea inversă
Tabelul 12.1 Corespondenţe în sens LS între filtrarea FIR, predicţia lineară înainte şi predicţia
lineară înapoi
12.2 Filtre FIR rapide fără recursie de ordin 371
1ˆ nR , iar apoi calculează vectorul de câştig printr-o multiplicare matrice-vector ceea ce
face ca complexitatea de calcul să fie de ordinul a 2O M operaţii pe recursie. Singura cale
de reducere a complexităţii de la 2O M la O M este de a actualiza direct vectorii de
câştig. Algoritmii care realizează acest lucru, exploatează structura invariantă la deplasare a
vectorului datelor de intrare evidenţiată prin ecuaţia (12.1), după cum se va vedea pe parcur-
sul acestui paragraf.
La baza dezvoltării acestor algoritmi stă operaţia de calcul prin recursie după timp şi
ordin a inversei matricii de corelaţie pe baza partiţionării acesteia. Vom trece la introducerea
algoritmilor, prezentând pentru început utilizarea lemei de partiţionare în operaţia de
inversare matricială.
12.2.1 Inversarea matricilor hermitice partiţionate
Fie vectorul 1 1 1
T
m m mu u u u de dimensiune 1 1M , unde se notează
1
m
m m
u u . Matricea de corelaţie a acestuia este 1mR , a cărei partiţie definită prin (12.2), se
calculează astfel:
*
1 1
1
bm H m m
m m m bH bm m m
rE u
u
u RR u
r (12.16)
Ecuaţie Recursie temporală
apriori Recursie temporală aposteriori
Câştig (a) ˆm m mn n nR g u ˆ 1m m mn n n R g u
Filtru
adaptiv (b) 1H
m m me n d n n n w u H
m m mn d n n n w u
(c) *1m m m mn n n e n w w g *1m m m mn n n n w w g
(d) 2
1m m m mE n E n n e n
2
1m
m m
m
nE n E n
n
Predictor
linear
înainte
(e) 1 1f H
m m me n u n n n a u 1f H
m m mn u n n n a u
(f) *1 1 f
m m m mn n n e n a a g *1 1 f
m m m mn n n n a a g
(g) 2
1 1f f f
m m m mE n E n n e n
2
11
f
mf f
m m
m
nE n E n
n
Predictor
linear
înapoi
(h) 1b H
m m me n u n m n n c u b H
m m mn u n m n n c u
(i) *1 b
m m m mn n n e n c c g *1 b
m m m mn n n n c c g
(j) 2
1b b b
m m m mE n E n n e n
2
1
b
mb b
m m
m
nE n E n
n
Tabelul 12.2 Rezumat al ecuaţiilor de recursie temporală în sens LS ce utilizează erorile apriori
şi aposteriori în cazul general al filtrării FIR precum şi pentru predicţiile lineare
înainte şi înapoi.
372 ALGORITMI RLS RAPIZI - 12
unde termenul b
mr este dat prin (12.3) iar relaţia (12.4) defineşte pe 2
1
b
m mE u
.
Vom presupune, în continuare, că inversa 1
m
R a submatricii principale
1
m
m m
R R a
matricii 1mR este cunoscută şi că se doreşte să se calculeze 1
1m
R utilizând valorile deja
cunoscute. Având în vedere că inversa 1mQ a matricii hermitice
1mR este tot hermitică, ea
poate fi partiţionată astfel:
1
m m
m H
m mq
Q qQ
q (12.17)
Facem apel la (12.16) pentru a calcula componentele lui 1mQ :
1 11
bm m m mm m
m m H HbH bm m mm m
r
q
Q q I 0RR Q
q 0r (12.18)
După multiplicarea matricială, se obţin ecuaţiile
b H
m m m m m R Q r q I (12.19)
bH b H H
m m m m m r Q q 0 (12.20)
b
m m m m mq R q r 0 (12.21)
1bH b
m m m mq r q (12.22)
unde m0 este vectorul nul de dimensiune 1m . Dacă matricea
mR este inversabilă,
expresia (12.21) permite, în prima instanţă, calculul lui mq :
1 b
m m m mq q R r (12.23)
iar în continuare, prin înlocuire în (12.22), în ipoteza că 1 0b bH b
m m m m r R r , stabilirea
valorii lui mq
1
1m b bH b
m m m m
q
r R r
(12.24)
.Continuăm, înlocuind acum pe (12.24) în (12.23), şi avem:
1
1
b
m mm b bH b
m m m m
R rq
r R r (12.25)
Ultima ecuaţie, coroborată cu relaţia (12.19), conduce la
1 1
1 1 1
1
Hb b
m m m mb H
m m m m m m b bH b
m m m m
R r R rQ R R r q R
r R r (12.26)
Trebuie observat că relaţiile (12.24), (12.25) şi (12.26) exprimă părţile matricii inverse
1mQ în funcţie de mărimi cunoscute. Având în vedere scopurile noastre, vom exprima
ecuaţiile de mai sus într-o modalitate mai convenabilă, utilizând variabilele
12.2 Filtre FIR rapide fără recursie de ordin 373
1
,1 ,2 ,
T b
m m m m m m mc c c c R r (12.27)
şi 1b b bH b b bH
m m m m m m m m r R r r c (12.28)
În contextul predicţiei lineare, semnificaţiile celor două mărimi sunt evidente: relaţia
(12.27) constituie o soluţie a ecuaţiei normale, reprezentând vectorul coeficienţilor filtrului
erorii de predicţie înapoi iar b
m în (12.28) reprezintă puterea în sens optimal (sau energia în
sens LS) minimă a erorii de predicţie înapoi.
Drept urmare, dacă matricea mR este inversabilă iar 0b
m , combinând (12.18) cu
(12.24)-(12.28), se obţine
11
1
1
11
10
bm Hm m m m
m mbbH b H
mm m m
r
cR R 0R c
r 0 (12.29)
Ecuaţia determină 1
1m
R din 1
m
R prin utilizarea unei recursii de ordin cunoscută sub numele
de inversare de matrice prin lema de partiţionare (Noble şi Daniel 1988).
O altă expresie utilă pentru b
m este (Manolakis, ş.a. 2005):
1det
det
b mm
m
R
R (12.30)
ceea ce justifică importanţa mărimii b
m pentru inversabilitatea matricii 1mR .
Urmând o procedură similară cu cea dezvoltată în acest paragraf, se poate arăta
(Manolakis, ş.a. 2005) că inversa matricii 1mR partiţionată inferior-dreapta ( 1
mf
m m
R R ) se
calculează astfel:
1
111
0 111
Hf fH
mHm m
m mff f fmmm m m m
0rR a
ar R 0 R (12.31)
unde 1
,1 ,2 ,
T f f
m m m m m m ma a a
a R r (12.32)
şi: 1
1det
det
f f fH f f fH mm m m m m m m f
m
R
r r r aR
(12.33)
Ca şi în cazul relaţiilor (12.27) şi (12.28), mărimile definite prin (12.32) şi (12.33) au
semnificaţii similare în contextul predicţiei lineare. Astfel, vectorul ma conţine coeficienţii
filtrului erorii de predicţie înainte, ecuaţia sa de definiţie reprezentând soluţia unei ecuaţii
normale iar f
m reprezintă puterea în sens optimal (sau energia în sens LS) minimă a erorii
de predicţie înainte.
12.2.2 Algoritmul Kalman rapid
Vom presupune că se cunoaşte valoarea vectorului de câştig la momentul 1n :
374 ALGORITMI RLS RAPIZI - 12
1ˆ1 1 1m m mn n n g R u (12.34)
Se doreşte determinarea valorii acestuia la următorul moment
1ˆm m mn n ng R u (12.35)
prin ajustarea lui 1m n g pe baza noilor valori disponibile ,m n d nu .
Pentru a calcula recursiv vectorul de câştig, vom utiliza pentru 1
1ˆ
m n
R formulele de
inversarea matricială prin partiţionare (12.29) şi (12.31) actualizate la cazul filtrării LS:
1
1
1
ˆ 1ˆ 110
Hmm mm mbH
mm
nnn n
E n
cR 0R c
0 (12.36)
şi:
1
1 1
0 11ˆ 1ˆ
H
m H
m mfmmm m
n nnE nn
0R a
a0 R (12.37)
Se începe cu prima formulă de partiţionare din (12.36), prima partiţie a vectorului de
date din (12.1) precum şi definiţia erorii de predicţie aposteriori b
m n din Tabelul 12.2. Se
obţine:
10 1
b
mm m
m b
m
nn nn
E n
g cg (12.38)
ceea ce constituie o recursie „pură” după ordin a vectorului de câştig m ng . Similar, se
face apel la ecuaţia (12.37), la cea de a doua partiţie a vectorului de date din (12.1) şi la defi-
niţia erorii de predicţie aposteriori f
m n din Tabelul 12.2 pentru a avea
1
0 1
1
f
m
m fm mm
nn
n nE n
g
g a (12.39)
ceea ce reprezintă o recursie „combinată” de timp şi ordin a vectorului de câştig m ng . În
aceste două ultime ecuaţii se găseşte „cheia” dezvoltării de algoritmi RLS rapizi prin recur-
sia vectorului de câştig.
Pentru a realiza recursia temporală a vectorului de câştig, se porneşte de la 1m n g şi
se face pentru început recursia de timp şi ordin (12.39) ceea ce dă pe 1m ng . În continuare,
se aplică recursia de ordin (12.38) din ale cărei prime m ecuaţii poate fi extras vectorul
m ng astfel:
1 1, 1
m
m m m m mn n g n n g g c (12.40)
întrucât, din (12.38): 1, 1
b
m
m m b
m
ng n
E n
(12.41)
12.2 Filtre FIR rapide fără recursie de ordin 375
Pentru a efectua recursiile (12.38) şi (12.39) este nevoie să se efectueze recursiilor temporale
ale coeficienţilor filtrelor erorii de predicţie m na şi m nc precum şi ale valorilor minime
ale funcţiilor de cost f
mE n respectiv b
mE n , care sunt calculate în Tabelul 12.2. Singura
problemă rămasă în suspans este rezolvarea „cuplajului” care există între m ng din ecuaţia
(12.40) şi vectorul coeficienţilor m nc din relaţia
*1 b
m m m mn n n e n c c g (12.42)
Problema poate fi evitată prin eliminarea lui m nc , în urma înlocuirii recursiei (12.42) în
ecuaţia (12.40):
1 1, 1
*
1, 1
1
1
m
m m m m
m b
m m m
n g n nn
g n e n
g cg (12.43)
ceea ce contribuie cu un ultim pas la realizarea recursiei.
Procedura de calcul prezentată este cunoscută sub numele de algoritmul Kalman rapid.
Ea a fost dezvoltată de Falconer şi Ljung (1978) pornind de la ideile enunţate de Morf
(1974). Pentru a sublinia faptul că algoritmul nu face recursie de ordin, vom nota în
continuare m M şi vom renunţa la indicii de ordin pentru toate mărimile care sunt de
Ecuaţie Calcule
Vechile estimări: 1 , 1 , 1 , 1 , 1fn n n n E n a c g w
Date noi: ,n d nu
Recursia câştigului şi a filtrelor erorii de predicţie
(a) 1 1f He n u n n n a u
(b) *1 1 fn n n e n a a g
(c) 1f Hn u n n n a u
(d) *1f f f fE n E n n e n
(e)
1
0 1
1
f
M f
nn
n nE n
g
g a
(f) 1b He n u n m n n c u
(g)
1 1, 1
*
1, 1
1
1
M
M M M
b
M M
n g n nn
g n e n
g cg
(h) *1 bn n n e n c c g
Recursia filtrului adaptiv
(i) 1He n d n n n w u
(j) *1n n n e n w w g
Tabelul 12.3 Algoritmul Kalman rapid cu recursie în timp pentru filtre FIR în sens LS.
376 ALGORITMI RLS RAPIZI - 12
ordinul M. Organizarea calculelor algoritmului, care necesită 9M operaţii aritmetice pe
fiecare recursie de timp este prezentată în Tabelul 12.3.
12.2.3 Algoritmul FAEST
Algoritmul FAEST (Fast Aposteriori Error Sequential Technique – Tehnică secvenţială
rapidă cu erori aposteriori) a fost introdus de Carayannis, ş.a. (1983). El operează într-un
mod similar cu algoritmul Kalman rapid dar utilizează vectorul de câştig alternativ m ng în
locul lui m ng . Pentru a obţine recursia se porneşte de la ecuaţia:
1 1ˆm m mn n n g R u (12.44)
şi se utilizează în ordine ecuaţiile (12.36) şi (12.37). Într-adevăr, utilizând ecuaţia (12.37)
împreună cu partiţia inferioară din (12.1) şi ecuaţia (12.36) împreună cu partiţia superioară
din (12.1), se obţine
1
0 1
1 11
f
m
m fm mm
e nn
n nE n
g
g a (12.45)
şi:
1
1
0 1
b
mm m
m b
m
e nn nn
E n
g cg (12.46)
ceea ce asigură o conexiune între 1m n g şi m ng . Din (12.46) se obţine:
1 1, 1 1m
m m m m mn n g n n g g c (12.47)
întrucât din ultima linie a relaţiei (12.46) rezultă:
1, 1
1
b
m
m m b
m
e ng n
E n
(12.48)
Diferenţa fundamentală dintre relaţiile (12.38) şi (12.46) este faptul că prezenţa lui
1m n c în cea de a doua întrerupe legătura dintre vectorul de câştig şi filtrul erorii de
predicţie înapoi. Mai mult, relaţia (12.48) poate fi utilizată pentru a calcula eroarea b
me n
prin numai două multiplicări
1, 11b b
m m m me n E n g n (12.49)
Pentru a aplica recursiile în timp ale filtrelor erorii de predicţie cu ajutorul vectorului de
câştig m ng conform formulelor din Tabelul 12.2, este necesar ca erorile aposteriori să fie
calculate din erorile apriori prin utilizarea factorului de conversie
1 H
m m mn n n g u (12.50)
care trebuie la rândul lui să fie actualizat în timp. Acest lucru poate fi îndeplinit printr-o
procedură în doi paşi, pe care o prezentăm în cele ce urmează. În primul pas, prin utilizarea
relaţiei (12.45) şi a partiţiei inferioare din (12.1), se obţine:
12.2 Filtre FIR rapide fără recursie de ordin 377
2
1 11
f
m
m m f
m
e nn n
E n
(12.51)
care este o recursie combinată de timp şi ordin. În continuare se utilizează relaţia (12.46) şi
partiţia superioară din (12.1) pentru a obţine
*
1 1, 1
b
m m m m mn n g n e n (12.52)
sau:
2
11
b
m
m m b
m
e nn n
E n
(12.53)
relaţie care împreună cu (12.51) asigură recursia de timp necesară 11m mn n
m n .
Tabelul 12.4 prezintă operaţiunile matematice care definesc algoritmul FAEST.
Algoritmul FAEST necesită numai 7M operaţiuni pe recursie de timp şi este, din acest punct
de vedere, cel mai eficient algoritm din familia filtrelor RLS cu predecupare.
12.2.4 Algoritmul FTF
Algoritmul FTF (Fast Transversal Filter – Filtrul rapid transversal) este un algoritm de tip
aposteriori obţinut din algoritmul FAEST prin utilizarea factorului de conversie
1 H
m m mn n n g u (12.54)
în locul factorului de conversie 1m mn n . Utilizând ecuaţiile de recursie (12.38) şi
(12.39) împreună cu partiţiile superioară respectiv inferioară ale vectorului de date din (12.1)
, obţinem:
2
1
b
m
m m b
m
nn n
E n
(12.55)
şi, respectiv
2
1 1
f
m
m m f
m
nn n
E n
(12.56)
Algoritmul FTF înlocuieşte pe m din Tabelul 12.4 prin 1 m n şi ecuaţia (h) din
acelaşi tabel prin relaţia (12.56). Pentru a obţine pe m n din 1m n , nu poate fi folosită
ecuaţia (12.55) pentru că aceasta utilizează mărimi dependente de m n . Pentru a evita
această problemă, se înlocuieşte ecuaţia (i) din tabel prin următoarea relaţie
1
*
1 1, 11
m
m b
m m m m
nn
n g n e n
(12.57)
ce este obţinută în urma combinării ecuaţiilor (12.53), (12.48) şi a schimbării de variabilă
1m mn n . În mod similar, se poate arăta că
378 ALGORITMI RLS RAPIZI - 12
1
1 11
f b
m m
m m mf b
m m
E n E nn n n
E n E n
(12.58)
În concluzie, algoritmul FTF are o complexitate de calcul echivalentă cu algoritmul
FAEST, în literatură fiind întâlnit în mai multe variante (Manolakis, ş.a. 2005). El a fost
introdus printr-un raţionament geometric de Cioffi şi Kailath (1984).
Ecuaţie Calcule
Vechile estimări:
1 , 1 , 1 , 1 , 1 , 1 , 1f bn n n n E n E n n a c w g
Date noi: ,n d nu
Recursia câştigului şi a filtrelor erorii de predicţie
(a) 1 1f He n u n n n a u
(b)
1
f
fe n
nn
(c) *1 1 fn n n n a a g
(d) *1f f f fE n E n n e n
(e)
1
0 1
1 11
f
M f
nn
n nE n
g
g a
(f) 1, 11b b
M Me n E n g n
(g) 1 1, 1 1M
M M Mn n g n n g g c
(h)
2
1 11
f
M f
e nn n
E n
(i) *
1 1, 1
b
M M Mn n g n e n
(j) *1 bn n n n c c g
(k)
b
be n
nn
(l) *1b b b bE n E n n e n
Recursia filtrului adaptiv
(m) 1He n d n n n w u
(n)
e nn
n
(o) *1n n n e n w w g
Tabelul 12.4 Algoritmul FAEST cu recursie în timp pentru filtre FIR în sens LS.
12.3 Algoritmi LS rapizi pentru structuri lattice 379
12.2.5 Iniţializarea şi stabilitatea algoritmilor rapizi
fără recursie de ordin
Algoritmii RLS rapizi fără recursie de ordin sunt implementaţi în structuri de filtrare FIR
directe, fiind iniţializaţi la 0n cu valorile
1 1 0
1 1 sau 1 1
f bE E
(12.59)
Pentru restul mărimilor utilizate, valoarea iniţială este nulă. Pentru constanta se alege o
valoare pozitivă mică de ordinul a 20,01 u . În cazul unei variabile de „uitare” 1 , efectul
condiţiilor iniţiale este „uitat” rapid.
Principalul neajuns al algoritmilor din această categorie constă în instabilitatea
numerică pe care o prezintă toţi atunci când 1 . Dacă implementarea algoritmilor se face
cu precizie finită, relaţiile matematice exacte utilizate în descrierea lor pot conduce la
apariţia de probleme numerice.
Există doi căi de a obţine stabilizarea algoritmilor RLS rapizi în formă directă. Într-o
primă abordare, se încearcă identificarea precursorilor comportării nesatisfăcătoare a algorit-
mului şi utilizarea de operaţiuni de salvare adecvate pentru restabilirea funcţionării normale
a algoritmului (Cioffi şi Kailath 1984). O variabilă utilizată la salvare este
1 1b
m m
m b
m m
n E nn
n E n
care satisface condiţia 0 1m n .
În cea de a doua abordare, este exploatat faptul că unele mărimi utilizate de algoritm pot
fi calculate în două moduri distincte. De exemplu, atât b
me n cât şi m n se pot calcula
atât conform definiţiei cât şi prin recursii de ordin. În aceste situaţii, diferenţa dintre valorile
obţinute furnizează o măsură a erorilor numerice, ce permite schimbarea dinamicii sistemu-
lui de propagare a erorilor şi stabilizarea algoritmului.
12.3 Algoritmi LS rapizi pentru structuri
lattice
12.3.1 Recursii după ordin în predictoare LS
Vom deduce în contextul metodei celor mai mici pătrate ecuaţiile de recursie după ordin ale
predicţiei lineare. Problema a fost rezolvată în contextul predicţiei optimale în Capitolul 5
prin algoritmul Levinson-Durbin, reluată apoi în algoritmului LMS-GAL din Capitolul 8,
dar în estimarea LS, soluţia ei capătă accente particulare.
În cazul filtrului erorii de predicţie înapoi, pentru a dezvolta o ecuaţie de recursie după
ordin se porneşte de la ecuaţiile normale ale predicţiei înapoi (12.27):
380 ALGORITMI RLS RAPIZI - 12
1 1 1
ˆ ˆ
ˆ ˆ
bH
m m m
bH
m m m
n n n
n n n
R c r
R c r (12.60)
Întrucât ˆm nR este conţinută în partiţionarea lui 1
ˆm nR , vom verifica dacă şi vectorii din
partea dreaptă a ecuaţiilor (12.60) se bucură de aceiaşi proprietate. Utilizând partiţia infe-
rioară a vectorului 1m nu din (12.1), se poate scrie
1*
1
1
ˆˆ 1
ˆ1 1
bnmb n i
m bi m m
u i r nu i m
i n
r
u r (12.61)
ceea ce determină o partiţie ce include vectorul dorit ˆb
m nr întârziat cu un eşantion ca
urmare a invarianţei la deplasare a lui m nu . Vom exploata această partiţionare, utilizând
inversarea matricii 1ˆ
mR partiţionată inferior-dreapta prin lema de partiţionare (12.37)
1
1 1
0 11ˆ 1ˆ
H
m H
m mfmmm m
n nnE nn
0R a
a0 R (12.62)
unde din (12.32): 1ˆ ˆ1 f
m m mn n n a R r (12.63)
sunt coeficienţii filtrului erorii de predicţie înainte optim în sens LS iar valoarea minimă a
sumei pătratelor erorii f
mE n este extrasă din Tabelul 12.1:
1
ˆdetˆ
ˆdet 1
mf fH
m u m m
m
nE n E n n n
n
Rr a
R (12.64)
Înlocuind (12.62) şi (12.63) în
1
1 1 1ˆ ˆb
m m mn n n
c R r
se obţine ecuaţia de recursie
1
0 1
1
b
m m
m m
n nn n
c
c a (12.65)
unde
b
mb
m f
m
nn
E n
(12.66)
şi 1ˆˆ 1b b H b
m m m mn r n n n a r (12.67)
sunt, în condiţiile utilizării unor notaţii similare celor utilizate în Capitolul 5, coeficientul de
reflexie înapoi ( m ), respectiv coeficientul de corelaţie parţială înapoi ( 0 ).
Ecuaţia de recursie după ordin a filtrului erorii de predicţie înainte se obţine printr-o
procedură similară celei utilizate anterior. În acest caz se foloseşte partiţia inferioara a vecto-
rului 1m nu din (12.1), astfel că:
12.3 Algoritmi LS rapizi pentru structuri lattice 381
*
1
0 1
ˆ1ˆ
ˆ1
fnm mf n i
m fi m
i nn u i
u i m r n
u rr (12.68)
Pentru a scrie ecuaţia de recursie de ordin a coeficienţilor m na , utilizăm ultima relaţie
împreună cu formula de inversare matricială (12.36) şi soluţia ecuaţiilor normale (12.63). Se
obţine:
1
1
0 1
fm m
m m
n nn
a ca (12.69)
unde
1
f
mf
m b
m
nn
E n
(12.70)
şi 1ˆˆ 1f f H f
m m m mn r n n n c r (12.71)
au semnificaţii similare parametrilor din ecuaţiile (12.66) şi (12.67).
Lema Burg (Burg 1975) utilizează egalitatea *
1 1ˆ ˆf b
m mr n r n pentru a face următoarea
simplificare
1
1
* *
1
ˆ ˆ ˆˆ 1 1 1
ˆ ˆ1
f f H f
m m m m m m
bH b b
m m m m
n r n n n n n
n n r n n
c R R r
r a
Pentru simplificarea notaţiilor, vom defini coeficientul de corelaţie parţială prin:
*f b
m m mn n n (12.72)
Ecuaţiile de recursie de ordin Levinson-Durbin (12.65) şi (12.69) permit definirea struc-
turii lattice a filtrelor erorii de predicţie care, în raport cu configuraţia de filtru FIR adaptiv,
are avantajul de a fi modulară, recursivă după ordin şi furnizează simultan estimări ale erorii
de predicţie înainte şi înapoi. Într-o structură de filtrare FIR expresiile erorilor de predicţie
aposteriori sunt (vezi Tabelul 12.2)
1f H
m m m
b H
m m m
n u n n n
n u n m n n
a u
c u (12.73)
Utilizăm (12.1), (12.69) şi (12.73) pentru a scrie:
1
*
11
10 1
1 1 1 1
H
mf fm m
m m
H f H
m m m m m
nn nn u n
u n m
u n n n n n u n m
ua c
a u c u
sau *
1 1f f f b
m m m mn n n n (12.74)
Similar, utilizând (12.1), (12.65) şi (12.73) se obţine:
*
1 1 1b b b f
m m m mn n n n (12.75)
382 ALGORITMI RLS RAPIZI - 12
Relaţiile (12.74) şi (12.75) sunt executate pentru 0,1, , 2m M pornind de la valorile
iniţiale 0 0
f bn n u n şi sunt efectuate de structura lattice din Figura 12.2 care
furnizează erorile de predicţie înainte şi înapoi pentru semnalul de intrare u n .
Relaţii de recursie după ordin pot fi stabilite şi pentru ceilalţi parametri ce intervin în
ecuaţiile Levinson-Durbin. Pentru a calcula valoarea minimă a funcţiei de cost (energia
minimă a erorii) pentru predicţia liniară înainte, f
mE n făcând apel la ecuaţiile (12.64),
(12.68), (12.69) şi (12.71) se obţine
1 1 1
*
1
*
1
ˆ
1ˆ ˆ
0 1
ˆ ˆ ˆ1
f fH
m u m m
fH f fm m
u m m m
fH f fH f
u m m m m m m
E n E n n n
n nE n n r n n
E n n n n n n r n
r a
a cr
r a r c
sau:
2
*
11
mf f f f
m m m m m b
m
nE n E n n n E n
E n
(12.76)
Procedând de manieră similară, se obţine:
2
1 1 1mb b b b
m m m m m f
m
nE n E n n n E n
E n
(12.77)
12.3.2 Algoritmi rapizi de predicţie lattice
Algoritmul LRLS (Lattice RLS) aposteriori (Ciochină şi Negrescu 1999) este conceput pe
baza schemei modulare din Figura 12.2 care calculează simultan valorile erorilor de predic-
ţie înainte şi înapoi aposteriori f
m n şi b
m n prin recursiile de ordin şi timp (12.74) şi
(12.75). Ecuaţiile (12.70) şi (12.66) definesc coeficienţii de reflexie ai structurii lattice
*
,1 1
m mf b
m mb f
m m
n nn n
E n E n
unde coeficientul de corelaţie parţială m n se calculează cu relaţia (12.71):
1ˆ ˆ1H f f
m m m mn n n r n c r (12.78)
Figura 12.2 Structura lattice a filtrului erorii de predicţie în sens LS.
12.3 Algoritmi LS rapizi pentru structuri lattice 383
Pentru a completa definirea algoritmului sunt necesare ecuaţii de recursie de timp ale
energiilor minime de eroare f
mE n şi b
mE n precum şi ale coeficientului de corelaţie parţi-
ală m n . Ecuaţiile de recursie pentru primii doi parametri pot fi extrase din Tabelul 12.2:
*
*
1
1
f f f f
m m m m
b b b b
m m m m
E n E n e n n
E n E n e n n
(12.79)
Pentru a stabili o recursie de timp pentru m n se porneşte de la relaţia de definiţie
(12.78) şi se folosesc în continuare pentru toate mărimile implicate formule de recurenţă în
timp. Se rearanjează şi se recombină termenii astfel:
1
* *
1
*
1
*
1
*
* 1
ˆ ˆ1 1 1
ˆ ˆ1 1
ˆ ˆ1
ˆ ˆ1 1
ˆ1
ˆ ˆ1 1
H f f
m m m m
H f f
m m m m
H f b f
m m m m
H H b f f b
m m m m m m
b H f
m m m m
b H f
m m m m m
m
n n n r n
n n n u n r n u n m u n
n n n u n r n
n n n n r n n u n
n n u n n n
n n u n n n n
c r
c r u
c r
c g r
g r
u R r
*
*
1
1
b H
m m
b f
m m m
n n u n n n
n n e n
u a
Ultima relaţie reprezintă recursia dorită, pentru că implementarea ecuaţiei
*
*
1 1
11 1
1
b f
m m m m
b f
m m m
m
n n n e n
n n nn
(12.80)
este fezabilă, în membrul drept al acesteia găsindu-se mărimi deja cunoscute.
Pentru completarea algoritmului aposteriori este nevoie de o relaţie de recursie după
ordin pentru factorul de conversie M n . Se foloseşte în acest scop ecuaţia (12.55) stabilită
pentru algoritmul FTF. O organizare detailată a algoritmului lattice RLS aposteriori, de
complexitate a 17M operaţiuni aritmetice pe recursie de timp (Ciochină şi Negrescu 1999)
este prezentată în Tabelul 12.5. Iniţializarea algoritmului se face pornind de la definiţiile
mărimilor corespunzătoare. Condiţia 0 1 1n rezultă din relaţia (12.54) iar constanta
pozitivă trebuie să asigure inversabilitatea matricii de corelaţie ˆ nR .
Dacă în locul erorilor aposteriori se folosesc erori apriori, se obţin următoarele
recursii
0 0
f be n e n u n
384 ALGORITMI RLS RAPIZI - 12
*
1 1 1f f f b
m m m me n e n n e n (12.81)
*
1 1 1b b b f
m m m me n e n n e n (12.82)
După cum este de aşteptat, structura predictorului apriori utilizează vechile estimări LS ale
parametrilor filtrului lattice. Pornind de la recursii, poate fi dezvoltat algoritmul lattice RLS
apriori prezentat în Tabelul 12.6, cu o complexitate aritmetică echivalentă cu cea a algorit-
mului aposteriori (Manolakis, ş.a. 2005).
12.4 Algoritmi LS rapizi pentru structuri
lattice-scară
12.4.1 Filtre FIR cu recursie după ordin
În acest paragraf vom încerca să extindem rezultatele obţinute în cazul filtrelor erorii de
predicţie lineară şi care au condus la structura lattice la cazul mai general al filtrelor FIR
adaptive. În primul rând vom stabili un mecanism de calcul recursiv după ordin al parame-
trilor unui filtru FIR adaptiv în sens LS. Se presupune că la momentul de timp n au fost deja
calculaţi parametrii filtrulul FIR în sens LS m nw specificaţi prin ecuaţia normală
1ˆ ˆm m mn n nw R p (12.83)
şi expresia minimului energiei de eroare la ieşirea filtrului
ˆ H
m d m mE n E n n n p w (12.84)
În ultimele două expresii, dE n reprezintă energia semnalului dorit d n iar ˆm np este
vectorul de intercorelaţie
*
0
ˆn
n j
m m
j
n j d j
p u (12.85)
Scopul pe care îl avem în vedere este să calculăm filtrul adaptiv în sens LS
1
1 1 1ˆ ˆ
m m mn n n
w R p (12.86)
pornind de la valoarea cunoscută m nw prin utilizarea unei proceduri de calcul recursive
după ordin. Vom utiliza pentru început ca şi în paragraful 12.3.1 proprietăţile de invarianţă
la deplasare ale vectorului de date m nu ce conduc la stabilirea unei partiţii convenabile
pentru vectorul 1ˆ
m np :
*
1
0 1
ˆˆ
ˆ
nm mn j
m
j m
j nn d j
u j m p n
u pp (12.87)
În aceste condiţii, pentru rezolvarea recursivă a ecuaţiei (12.86) vom face apel la inversarea
matricii de corelaţie 1
1ˆ
m n
R prin lema de partiţionare (12.36):
12.4 Algoritmi LS rapizi pentru structuri lattice-scară 385
1
1
1
ˆ 1ˆ 110
Hmm mm mbH
mm
nnn n
E n
cR 0R c
0 (12.88)
unde 1ˆ ˆb
m m mn n n c R r (12.89)
reprezintă soluţia în sens LS a predicţiei liniare înapoi iar
1
ˆdetˆ
ˆdet
mb cH
m u m m
m
nE n E n m n n
n
Rr c
R (12.90)
este valoarea minimă a energiei erorii de predicţie înapoi. Trebuie remarcat că m nc este
estimatorul optim în sens LS pentru observaţia suplimentară u n m ce este utilizată de
filtrul adaptiv de ordin 1m , 1m nw . Înlocuind relaţiile (12.87) şi (12.88) în ecuaţia
normală (12.86), se obţine:
Ecuaţie Calcule Iniţializare de timp ( 0n )
1 1 0 0 1
1 0, 1 0 0 1
f b
m m
b
m m
E E m M
m M
Iniţializare de ordin
(a) 0 0 0, 1 1f bn n u n n
Elemente lattice: 0,1, , 1m M
(b)
*11
1
b f
m m
m m
m
n nn n
n
(c)
2*
11
f
mf f
m m
m
nE n E n
n
(d)
2
11
b
mb b
m m
m
nE n E n
n
(e)
1mf
m b
m
nn
E n
(f)
*
1
mb
m f
m
nn
E n
(g) *
1 1f f f b
m m m mn n n n
(h) *
1 1b b b f
m m m mn n n n
(i)
2
1
b
m
m m b
m
nn n
E n
Tabelul 12.5 Organizarea calculelor algoritmului RLS lattice aposteriori.
386 ALGORITMI RLS RAPIZI - 12
10 1
wm m
m m
n nn n
w cw (12.91)
unde
w
mw
m b
m
nn
E n
(12.92)
şi 1ˆ ˆw H
m m m mn n n p n c p (12.93)
În concluzie, dacă coeficienţii filtrului erorii de predicţie înapoi m nc sunt cunoscuţi,
se pot determina coeficienţii filtrului adaptiv 1m nw prin recursia de ordin (12.91).
12.4.2 Structura de filtrare lattice-scară
Continuăm demersul început în paragraful anterior prin stabilirea unei recursii după ordin
pentru eroarea aposteriori a filtrului FIR definit prin relaţia (12.86):
1 1 1
H
m m mn d n n n w u (12.94)
Pentru a calcula eroarea prin recursie, înlocuim relaţiile (12.1), (12.91) în (12.94) şi scriem
Ecuaţie Calcule Iniţializare de timp ( 0n )
1 1 0 0 1
1 0, 1 0 0 1
f b
m m
b
m m
E E m M
e m M
Iniţializare de ordin
(a) 0 0 0, 1 1f be n e n u n n
Elemente lattice: 0,1, , 2m M
(b) *
1 1 1f f f b
m m m me n e n n e n
(c) *
1 1 1b b b f
m m m me n e n n e n
(d) *1 1 1b f
m m m m mn n n e n e n
(e) 2
*1 1f f f
m m m mE n E n n e n
(f) 2
1 1b b b
m m m mE n E n n e n
(g)
1mf
m b
m
nn
E n
(h)
*
1
mb
m f
m
nn
E n
(i)
2
1
1
1
b
m
m m b
m
e nn n
E n
Tabelul 12.6 Organizarea calculelor algoritmului RLS lattice apriori.
12.4 Algoritmi LS rapizi pentru structuri lattice-scară 387
1
*
0 1
H
mwm m
m m
H w H
m m m m m
nn nn d n n
u n m
d n n n n u n m n n
uw c
w u c u
În ultima paranteză a expresiei de mai sus poate fi identificată eroarea aposteriori a predicto-
rului linear înapoi de ordinul m, b
m n astfel că recursia după ordin a erorii aposteriori în
sens LS a filtrului FIR poate fi calculată prin ecuaţia
*
1
w b
m m m mn n n (12.95)
care este executată pentru 0,1, , 1m M cu 0 n d n .
Ecuaţia (12.95) împreună cu ecuaţiile de recursie după ordin ale erorilor de predicţie
lineară (12.74) şi (12.75) permite implementarea completă a unui filtru adaptiv în sens LS
sub forma structurii lattice-scară din Figura 12.3. Partea lattice a filtrului furnizează eroarea
aposteriori de predicţie înapoi ,b
m n 0, 1m M implementând ecuaţiile (12.74) şi
(12.75) în timp ce partea scară a filtrului implementează recursiv după ordin relaţia (12.95),
furnizând erorile optime în sens LS ale filtrului FIR (12.86), , 0,1, , 1m n m M . De
remarcat că setul de coeficienţi ai structurii trebuie recalculat la fiecare moment de timp n.
12.4.3 Algoritmi RLS lattice-scară
Algoritmul rapid lattice-scară aposteriori este conceput pe structura de filtrare din Figura
12.3. La fiecare moment de timp n algoritmul calculează recursiv după ordin elementele
celor două componente ale structurii: partea lattice care realizează predicţiile lineare înainte
şi înapoi în sens LS ale semnalului de intrare u n şi partea scară care acţionează în sensul
minimizării energiei erorii ,m n 1,2, ,m M de la ieşirea filtrului adaptiv.
Partea lattice a algoritmului lattice-scară aposteriori care se referă la calculul erorilor de
predicţie înainte şi înapoi aposteriori f
m n şi b
m n constituie algoritmul LRLS aposte-
riori dezvoltat în paragraful 12.3.2 şi care este prezentat în Tabelul 12.5. Ecuaţiile care
Figura 12.3 Structura lattice-scară de predicţie liniară şi filtrare în sens LS.
388 ALGORITMI RLS RAPIZI - 12
corespund părţii scară a algoritmului sunt în primul rând recursia după ordin (12.95) a erorii
de filtrare aposteriori 1m n cu condiţia iniţială 0 n u n . Apoi sunt necesari parame-
trii reţelei în scară, w
m n care sunt definiţi prin relaţia (12.92)
w
mw
m b
m
nn
E n
Valoarea energiei erorii de predicţie înapoi b
mE n din (12.92) este stabilită de algorit-
mul LRLS prin recursia de timp (12.79), în schimb pentru coeficientul de corelaţie parţială
w
m n definit prin (12.93) se dezvoltă recursia de timp astfel:
1
* *
1
*
1
*
1
*
*
ˆ ˆ1 1 1 1
ˆ ˆ1 1 1 1
ˆ ˆ1 1
ˆ ˆ1 1 1 1
ˆ1 1 1
ˆ1 1 1
w H
m m m m
H
m m m m
H b
m m m m
H H b b
m m m m m m
w b H
m m m m
w b H
m m m m
n n n p n
n n n d n p n u n m d n
n n n d n p n
n n n n p n n d n
n n d n n n
n n d n n
c p
c p u
c p
c g p
g p
u R
1
*
*
ˆ
1 1 1
1 1
m
w b H
m m m m
b
m m m
n n
n n d n n n
n n e n
p
u w
Drept urmare, ecuaţia de calcul prin recursie temporală al coeficientului de corelaţie parţială
a filtrului adaptiv este
*
*
1
11
w w b
m m m m
w b
m m m
m
n n n e n
n n nn
(12.96)
În concluzie, algoritmul rapid RLS lattice-scară aposteriori constă din algoritmul LRLS
prezentat în Tabelul 12.5 completat cu ecuaţiile suplimentare din Tabelul 12.7. Complexita-
tea algoritmului este de aproximativ 20M operaţii aritmetice pe fiecare recursie de timp
(Manolakis, ş.a. 2005).
Există şi pentru structura de filtrare adaptivă lattice-scară ca şi în cazul predicţiei lineare
lattice o variantă apriori a algoritmului LRLS. În acest ultim caz structura calculează la
fiecare recursie de timp eroarea apriori de filtrare me n definită prin ecuaţia de recursie
după ordin:
*
1 1 , 1w b
m m m me n e n n e n m M (12.97)
şi 0e n d n . Tabelul 12.8 prezintă ecuaţiile suplimentare care sunt adăugate
algoritmului lattice RLS apriori din Tabelul 12.6 pentru a-l transforma în algoritmul rapid
RLS lattice-scară apriori.
12.4 Algoritmi LS rapizi pentru structuri lattice-scară 389
12.4.4 Algoritmi RLS lattice-scară cu reacţie pe
eroare
Algoritmi rapizi lattice-scară care au făcut obiectul paragrafului precedent actualizează în
primă instanţa coeficienţii de corelaţie parţială m n şi w
m n şi valorile energiei de
eroare minimă f
mE n respectiv b
mE n iar apoi calculează coeficienţii filtrului LS lattice-
scară prin împărţire. Vom dezvolta în cele ce urmează doi algoritmi echivalenţi din punct de
vedere algebric care rezolvă aceiaşi problemă LS prin calculul recursiv direct al coeficienţi-
Ecuaţie Calcule Iniţializare de timp ( 0n )
1 0, 0 1w
m m M
Iniţializare de ordin
(a’) 0e n d n
Elemente lattice: 0,1, , 1m M
(b) - (i)
Elemente scară: 0,1, , 2m M
(j) *1w w b
m m m m mn n n e n e n
(i)
w
mw
m b
m
nn
E n
(k) *
1 1w b
m m m me n e n n e n
Tabelul 12.8 Completările la algoritmul LRLS din Tabelul 12.6 care
definesc algoritmul rapid RLS lattice-scară apriori.
Ecuaţie Calcule Iniţializare de timp ( 0n )
1 0, 0 1w
m m M
Iniţializare de ordin
(a’) 0 n d n
Elemente lattice: 0,1, , 1m M
(b) - (i)
Elemente scară: 0,1, , 1m M
(j) *1w w b
m m m m mn n n n n
(i)
w
mw
m b
m
nn
E n
(k) *
1
w b
m m m mn n n n
Tabelul 12.7 Completările la algoritmul LRLS din Tabelul 12.5 care
definesc algoritmul rapid RLS lattice-scară aposteriori.
390 ALGORITMI RLS RAPIZI - 12
lor lattice-scară. Algoritmii introduşi în Ling, ş.a. (1986), au proprietăţi numerice mai bune
decât algoritmii lattice-scară original atunci când implementarea se face cu precizie
numerică finită. Vom examina pentru început varianta apriori a algoritmului.
Stabilim relaţia de actualizare a coeficientului w
m n , pornind de la ecuaţiile (12.92) şi
(12.96):
*
*
1 1
1
11 1
w w b b
m m m M m mw
m b b b b
m m m m
w b b
m m M m mb
m
n n E n n e n e nn
E n E n E n E n
n E n n e n e nE n
(12.98)
şi înlocuim *1b b b b
m m M m mE n E n n e n e n
pentru a obţine
* *1 1
b
M mw w w b
m m m m mb
m
n e nn n e n n e n
E n
sau, prin substituţie din (12.97):
*
11
b
M m mw w
m m b
m
n e n e nn n
E n
(12.99)
Ecuaţia (12.99) permite calculul recursiv direct al coeficienţilor reţelei în scară. Formule
similare directe se scriu şi pentru coeficienţii de reflexie ai părţii lattice a structurii
(Manolakis, ş.a. 2005). Aceste ecuaţii de recursie constituie elementul distinct al algoritmu-
lui RLS lattice-scară apriori cu reacţie pe eroare prezentat în detaliu în Tabelul 12.9.
Trebuie remarcat că, în primul rând, pentru a calcula eroarea de ordin 1m , 1me n
este utilizat coeficientul 1w
m n conform relaţiei (12.97), iar apoi se utilizează această
eroare pentru a actualiza valoarea coeficienţilor prin relaţia (12.99). Această actualizare are
o structură de tip reacţie negativă, ceea ce explică denumirea de algoritm cu reacţie pe
eroare.
Algoritmul RLS lattice-scară cu reacţie pe eroare are şi o variantă aposteriori, care
poate fi dedusă uşor (Manolakis, ş.a. 2005). Simulările efectuate de Ling, ş.a. (1986) au
arătat că în condiţiile utilizării unei precizii numerice finite, algoritmii cu actualizare directă
a coeficienţilor structurii lattice-scară au proprietăţi numerice superioare algoritmilor ce
realizează indirect actualizarea acestora.
12.4.5 Algoritmi RLS lattice-scară cu rotaţii Givens
Obiectul paragrafului de faţă este studiul implementării rotaţiilor Givens (vezi paragraful
9.3.3), cu sau fără extragere de rădăcină pătrată, la realizarea algoritmilor RLS rapizi lattice-
scară. Ca şi ceilalţi algoritmi din această categorie, algoritmii bazaţi pe rotaţiile Givens utili-
12.4 Algoritmi LS rapizi pentru structuri lattice-scară 391
zează invarianţa la deplasare a datelor de intrare în scopul reducerii complexităţii de la
2O M calcule pe iteraţie de timp la O M calcule (Ling 1991).
Începem, definind pentru structura lattice-scară din Figura 12.3 erorile normalizate
unghiular prin
m m m m me n e n n e n n (12.100)
1f f f f
m m m m me n e n n e n n (12.101)
b b b b
m m m m me n e n n e n n (12.102)
Aceste erori sunt media geometrică a erorilor corespunzătoare apriori şi aposteriori, iar
Ecuaţie Calcule Iniţializare de timp ( 0n )
1 1 0 0 1
1 1 0
1 0 1 0
f b
m m
f b
m m
b w
m m
E E m M
e
Iniţializare de ordin
(a) 0 0 0 0, , 1f be n e n u n e n d n n
Elemente lattice: 0,1, , 2m M
(b) *
1 1 1f f f b
m m m me n e n n e n
(c) *
1 1 1b b b f
m m m me n e n n e n
(d) 2
1 1f f f
m m m mE n E n n e n
(e) 2
1 1b b b
m m m mE n E n n e n
(f)
*
11 11
1
b f
M m mf f
m m b
m
n e n e nn n
E n
(g)
*
111
f b
M m mb b
m m f
m
n e n e nn n
E n
(h)
2
1
b
m m
m m b
m
n e nn n
E n
Elemente scară: 0,1, , 1m M
(i) *
1 1w b
m m m me n e n n e n
(j)
*
11
b
m m mw w
m m b
m
n e n e nn n
E n
Tabelul 12.9 Organizarea calculelor algoritmului RLS lattice-scară apriori
cu actualizare directă a coeficienţilor prin reacţie pe eroare.
392 ALGORITMI RLS RAPIZI - 12
denumirea lor face referire la comentariul pe care-l facem asupra relaţiei (10.23) din Capito-
lul 10 asupra interpretării lui m n drept variabilă unghiulară. De fapt nu este nevoie să
facem distincţie între algoritmi apriori sau aposteriori dacă vom formula problema estimării
în sens LS în funcţie de aceste variabile.
Pentru a stabili ecuaţiile de recursie după ordin pentru aceste variabile, considerăm
ecuaţia lattice a erorii de predicţie înainte apriori (12.81) şi definiţiile erorilor normalizate
unghiular, pentru a scrie
*
1 1
1
1 1 1 1
1 12 2
b
m m m mf f
m mb b
m mm m
n n n e ne n e n
n nE n E n
sau, utilizând relaţia (12.58):
*
1
2 1 1
1 2 1
b b
m m mf f
m mb b bm m m
E n n e ne n e n
E n E n E n
(12.103)
Definind următoarele mărimi
1b
mb
m b
m
E nc n
E n
(12.104)
b
mb
mb
m
e ns n
E n (12.105)
şi
*
11
mf f b
m m mb
m
nn n E n
E n
(12.106)
ecuaţia (12.103) se rescrie astfel:
1 1 1 1f b f b f
m m m m me n c n e n s n n (12.107)
Ultima ecuaţie face recursia de ordin pentru eroarea de predicţie înainte normalizată
unghiular.
Pentru a deduce în continuare ecuaţia de recursie după ordin a coeficientului de reflexie
normalizat f
m n , pornim de la ecuaţia (d) din Tabelul 12.6:
*1 1 1b f
m m m m mn n n e n e n (12.108)
şi utilizând (12.106), (12.101) şi (12.102), se poate scrie
*2 11
1 1
b b
m mf f f
m m mb bm m
E n e nn n e n
E n E n
sau, în final cu ajutorul ecuaţiilor (12.104) şi (12.105):
*1 1 1f b f b f
m m m m mn c n n s n e n (12.109)
12.4 Algoritmi LS rapizi pentru structuri lattice-scară 393
Reluăm, în continuare, pentru eroarea de predicţie înapoi normalizată, procedura de mai
sus. Se utilizează ecuaţia de recursie a erorii apriori (12.82) şi ecuaţiile de definiţie ale erori-
lor normalizate unghiular:
1 1
1
11
1 11 1
f
m m m mb b
m mf f
m mm m
n n n e ne n e n
n nE n E n
sau, dacă facem apel la (12.58)
1
1 11
1
f f
m m mb b
m mf f fm m m
E n n e ne n e n
E n E n E n
(12.110)
Apoi, definim următoarele mărimi
1f
mf
m f
m
E nc n
E n
(12.111)
f
mf
mf
m
e ns n
E n (12.112)
şi
mb b f
m m mb
m
nn n E n
E n
(12.113)
pentru a obţine din ecuaţia (12.110) recursia de ordin a erorii de predicţie înapoi normalizată
unghiular 1
b
me n :
*
1 1 1b f b f b
m m m m me n c n e n s n n (12.114)
În acelaşi timp, pentru recursia lui b
m n , ca şi în cazul ecuaţiei (12.109), prin combinarea
relaţiilor (12.108) şi (12.111) până la (12.113) se poate scrie:
* * *1 1b f b f b
m m m m mn c n n s n e n (12.115)
Ecuaţii de recursie similare pot fi deduse în acelaşi mod pentru partea scară a filtrului
adaptiv. În acest caz, utilizând expresia erorii de filtrare apriori (12.97), definiţiile erorilor
normalizate unghiular şi relaţia (12.58), vom scrie:
*
1
1
1 1
1
b w b
m m m
m mb b bm m m
E n n e ne n e n
E n E n E n
sau *
1 1b b w
m m m m me n c n e n s n n (12.116)
unde
w
mw w b
m m mb
m
nn n E n
E n
(12.117)
este coeficientul normalizat al părţii în scară a reţelei. Coeficientul poate fi recalculat cu:
394 ALGORITMI RLS RAPIZI - 12
*1w b w b
m m m m mn c n n s n e n (12.118)
care poate fi obţinută ca şi (12.109) sau (12.115) prin utilizarea relaţiei (12.96) şi a
definiţiilor aferente.
Următorul pas în enunţarea algoritmului bazat pe rotaţii Givens constă în normalizarea
energiilor de eroare de predicţie minime:
şi f f b b
m m m mE n E n E n E n (12.119)
Ecuaţiile de recursie în timp a variabilelor de energie normalizate sunt deduse din ecuaţiile
(12.79):
*
*
1
1
f f f f f
m m m m m
b b b b b
m m m m m
E n c n E n s n e n
E n c n E n s n e n
(12.120)
dar ecuaţiile de mai jos, deduse tot din (12.79), sunt mai convenabile pentru realizarea
recursiei în timp:
1 22 2
1 22 2
1
1
f f f
m m m
b b b
m m m
E n E n e n
E n E n e n
(12.121)
În acest moment, avem la dispoziţie formularea completă prin erori normalizate unghiu-
lar a ecuaţiilor de recursie în sens LS pentru o structură lattice-scară. Pentru a pune în evi-
denţă mai bine sensul şi semnificaţia acestor recursii, vom exprima aceste ecuaţii sub formă
matricială astfel:
1
*
1 1
1 1 1
ff b bmm m m
f b b fm m m m
e ne n c n s n
n s n c n n
(12.122)
1
* * *
1
1
bb f fmm m m
b f f bm m m m
e ne n c n s n
n s n c n n
(12.123)
1
*1
b bmm m m
w b b wm m m m
e ne n c n s n
n s n c n n
(12.124)
Din ecuaţiile matriciale de mai sus trebuie remarcat că recursiile parametrilor predictorului
înainte şi ale parametrilor reţelei în scară se fac cu aceiaşi matrice pătrată întârziată cu un
pas. Faptul că în matricile din ecuaţii semnul minus are poziţii diferite, datorită utilizării de
semne diferite în definiţiile lui f
m n şi b
m n , nu este relevant. În plus, se poate arăta
imediat că:
2 2
2 2
1
şi 1
f f
m m
b b
m m
c n s n
c n s n
(12.125)
12.4 Algoritmi LS rapizi pentru structuri lattice-scară 395
ceea ce conduce la observaţia că matricile pătrate din setul de ecuaţii (12.122)-(12.124) sunt
matrici de rotaţie Givens. În concluzie, s-a obţinut o formulare a algoritmului LS lattice-
scară care actualizează erorile normalizate unghiular şi setul de coeficienţi de reflexie
normalizaţi ai structurii lattice-scară prin rotaţii Givens. O ecuaţie de rotaţie Givens poate fi
scrisă şi pentru minimul energiei de eroare înapoi normalizate b
mE n . Astfel, dacă pornim
de la (12.121) şi definiţiile lui b
mc n şi b
ms n , vom scrie:
*1
0
b b bbm m mm
b b bm m m
c n s n E nE n
s n c n e n
(12.126)
Ultima ecuaţie ne arată faptul că putem utiliza rotaţia Givens în predictorul linear înapoi
pentru a actualiza valoarea energiei normalizate b
mE n . O transformare similară poate fi
scrisă şi pentru f
mE n . Totuşi, recursiile pentru valorile energiilor sunt, de obicei, realizate
cu ecuaţiile (12.121).
Versiunea fără extragere de rădăcină pătrată a algoritmului RLS lattice-scară cu rotaţii
Givens constă într-o modificare simplă a algoritmului apriori RLS lattice-scară cu reacţie pe
eroare. În acest scop, utilizând ecuaţia (12.98), avem
*
*1
1
b b
m M m mw w
m m mb b
m m
E n n e n e nn n e n
E n E n
În continuare, se definesc mărimile:
21b
mb b
m mb
m
E nc n c n
E n
(12.127)
şi
b
m mb
m b
m
n e ns n
E n
(12.128)
pentru a obţine ecuaţia de actualizare a parametrilor părţii scară a structurii lattice-scară sub
forma unei rotaţii Givens:
*1w b w b
m m m m mn c n n s n e n (12.129)
Similar, utilizând ecuaţiile de recursie pentru parametrii lattice ai algoritmului apriori cu
reacţie pe eroare, se obţin ecuaţiile de actualizare:
*1 1 1f b f b f
m m m m mn c n n s n e n (12.130)
şi *1 1b f b f b
m m m m mn c n n s n e n (12.131)
unde
21f
mf f
m mf
m
E nc n c n
E n
(12.132)
şi
1 f
m mf
m f
m
n e ns n
E n
(12.133)
396 ALGORITMI RLS RAPIZI - 12
Tab
elu
l 1
2.1
0 O
rgan
izar
ea c
alcu
lelo
r al
go
ritm
ulu
i d
e fi
ltra
re a
dap
tiv
ă R
LS
lat
tice
-sca
ră c
u r
ota
ţii
Giv
ens.
ALGORITMI RLS RAPIZI Probleme 397
sunt parametrii de rotaţie a predictorului înainte. Aceste recursii reprezintă baza algoritmului
LS lattice-scară cu rotaţii Givens fără extragere de rădăcină pătrată.
Tabelul 12.10 prezintă organizarea calculelor în cazul algoritmului LS lattice-scară cu şi
fără extragere de rădăcină pătrată. Varianta cu rădăcină pătrată se iniţializează ca de obicei
cu 1 1 0f b
m mE E , 0 0
f be n e n u n , 0 0, 1e n d n n şi toate
celelalte variabile au valori initiale nule. Algoritmul fara extragere de rădăcină pătrată se
iniţializează ca şi algoritmul apriori cu reacţie pe eroare. Figura 12.4 prezintă o celulă a
filtrului LS lattice-scară cu rotaţii Givens şi extragere de rădăcină pătrată.
Probleme
P 12.1 Arătaţi că partiţionarea lui 1ˆ
m nR din relaţia (12.5) ce conduce la o structură de
partiţie similară cu cea din relaţia (12.2), este posibilă numai dacă estimarea LS se
face cu „prewindowing”, adică 1m u 0 . Ce formă ia partiţionarea dacă se
renunţă la condiţia de „prewindowing”?
P 12.2 Demonstraţi identitatea (12.31) referitoare la calculul recursiv după ordin al
inversei matricii 1mR partiţionate inferior-dreapta:
1
111
0 111
Hf fH
mHm m
m mff f fmmm m m m
0rR a
ar R 0 R
P 12.3 Deduceţi formulele ecuaţiilor normale şi ale energiei minime a erorii LS date în
Tabelul 12.1 pentru filtrul erorii de predicţie înainte şi filtrul erorii de predicţie
înapoi.
P 12.4 Deduceţi formulele de recursie apriori şi aposteriori din Tabelul 12.2 referitoare la
filtrul erorii de predicţie înainte şi la filtrul erorii de predicţie înapoi.
Figura 12.4 Schema bloc a celulei RLS lattice-scară cu rotaţii Givens.
Cercurile reprezintă elementele ce calculează parametrii
de rotaţie iar pătratele elementele care execută rotaţiile.
398 ALGORITMI RLS RAPIZI - 12
P 12.5 Modificaţi ordinograma algortimului FAEST din Tabelul 12.4 pentru a obţine
algoritmul FTF. Scrieţi funcţia MATLAB care implementează algoritmul FTF.
P 12.6 Algoritmii RLS lattice-scară aposteriori şi apriori utilizează factorul de conversie
m n în calculul recursiv al mărimilor , ,f b
m m mE n E n n şi w
m n , calcul
care are nevoie atât de erorile apriori cât şi de erorile aposteriori. Deduceţi un
filtru dublu RLS lattice-scară ( atât apriori cât şi aposteriori) care să evite
utilizarea factorului de conversie prin actualizarea simultană a erorilor de
predicţie şi filtrare atât aposteriori cât şi apriori.
P 12.7 În această problemă vom discuta despre câteva mărimi care pot servi la avertizare
în privinţa unei comportări incorecte a algoritmilor RLS rapizi.
(a) Arătaţi că variabila
1 *
1, 1
11
b
m m b
m m m mb
m m
n E nn g n e n
n E n
satisface condiţia 0 1m n .
(b) Demonstraţi relaţiile
1 1
ˆ ˆ ˆdet 1 det det, ,
ˆ ˆ ˆdet det 1 det
m m mm f b
m m m
m m m
n n nn E n E n
n n n
R R R
R R R
(c) Arătaţi că:
b
mm
m f
m
E nn
E n
şi utilizaţi rezultatul pentru a explica de ce mărimea f m b
m m mn E n E n
este folosită ca variabilă de avertizare.
(d) Explicaţi de ce mărimile următoare sunt utilizate în calitate de variabile de
avertizare.
1, 1 1, 1, 11
b
b b
g M M b M Mb
e ni n g n ii n e n E n g n
E n
Bibliografie
F. Albu, M. Bouchard, şi Y. Zakharov, "Pseudo-affine projection algorithms for multichannel
active noise control," IEEE Trans. Audio, Speech and Language Processing, vol. 15, pp.
1044–1052, March, 2007.
S. T. Alexander, Adaptive Signal Processing. Theory and Applications. New York, NY, U.S.A.:
Springer-Verlag, 1986.
J. A. Apolinário_Jr, S. Werner, T. I. Laakso, şi P. S. R. Diniz, "Constrained normalized adaptive
filtering for CDMA mobile communications," în Proc. EUSIPCO - European Signal
Processing Conference, Rhodos, Grecia, 63, 1998, pp. 2053-2056.
K. J. Ǻström şi B. Wittenmark, Adaptive Control. Reading, Mass., U.S.A.: Adison-Wesley, 1989.
M. Bellanger, Analyse des signaux et filtrage numérique adaptatif. Paris: Masson, 1989.
M. Bellanger, Adaptive Digital Filters, 2nd ed. New York, NY, U.S.A.: Marcel Dekker, Inc.,
2001.
J. Benesty, "Adaptive Filtering and Spectral Analysis," INRS-EMT, Ed.: Université du Québec,
2004. http://externe.emt.inrs.ca/users/benesty/course.html
J. P. Burg, "A New Analysis Technique for Time Series Data," NATO Advanced Study Institute
on Signal Processing, Enschede, Olanda 1968.
J. P. Burg, "Maximum Entropy Spectral Analysis." vol. Ph.D. thesis Stanford, CA.: Stanford
University, 1975.
G. Carayannis, D. G. Manolakis, şi N. Kalouptsidis, "A fast sequential algorithm for least-squares
filtering and prediction," IEEE Trans. Acoustics, Speech and Signal Processing, vol. 31(6),
pp. 1394–1402, 1983.
A. Carusone şi D. A. Johns, "Analogue adaptive filters: past and present," IEE Proc.-Circuits
Devices Syst., vol. 147, pp. 83-90, No. 1, February, 2000.
T. F. Chan, "An improved algorithm for computing the SVD,".ACMTrans. Mathematical
Software, pp. 72–88, 8, 1982.
S. Ciochină, "Sisteme adaptive, Note de curs," Bucureşti: Universitatea Politehnică, 2008.
http://www.comm.pub.ro/master/sa/
S. Ciochină şi C. Negrescu, Sisteme adaptive. Bucureşti: Editura Tehnică, 1999.
J. M. Cioffi, "Limited-precision effects in adaptive filtering," IEEE Trans. on circuits and
systems, vol. CAS-34(7) pp. 821–833, 1987.
J. M. Cioffi şi T. Kailath, "Fast, recursive-least-squares transversal filters for adaptive filtering,"
IEEE Trans. Acoustics, Speech and Signal Processing, vol. 32(2), pp. 304–337, 1984.
P. M. Clarkson, Optimal and Adaptive Signal Processing: CRC Press, 1993.
G. Dahlquist şi A. Bjorck, Numerical Methods. Englewood Cliffs, NJ.: Prentice Hall, 1974.
P. S. R. Diniz, Adaptive Filtering: Algorithms and Practical Implementation, 3rd revised ed.:
Springer, 2008.
S. C. Douglas, "Introduction to Adaptive Filters," în The Digital Signal Processing Handbook, V.
K. Madisetti şi D. B. Williams, Eds. Boca Raton, FLA, U.S.A.: CRC Press, 1998.
S. C. Douglas şi R. Losada, "Adaptive filters in MATLAB: from novice to expert," în Proc. 2nd
Signal Processing Education Workshop, Callaway Gardens, GA, 73, October 2002, pp. 1-6,
paper 4.9.
S. J. Elliott, Signal processing for active control. London, UK: Academic Press, 2001.
S. J. Elliott şi P. A. Nelson, "Active noise control," IEEE Signal Processing Magazine, pp. 12-35,
October, 1993.
D. D. Falconer şi L. Ljung, "Application of fast Kalman estimation to adaptive equalization,"
IEEE Trans. Communications, vol. 26(10), pp. 1439–1446, 1978.
400 BIBLIOGRAFIE
B. Farhang-Boroujeny, "Channel equalization via channel identification: algorithms and
simulation results for rapidly fading HF channel," IEEE Trans. Commun., vol. Vol. 44, pp.
1409-1412, no. 11, 1996.
B. Farhang-Boroujeny, Adaptive Filters. Theory and Applications. Chichester, England: J. Wiley
& Sons, 1998.
S. A. Fechtel şi H. Meyr, "Optimal feedforward estimation of frequency-selective fading radio
channels using statistical channel information," în ICC'92 Conference Record, Chicago, IL, 7,
June 14-18, 1992, pp. 677-681.
A. Feuer şi E. Weinstein, "Convergence analysis of LMS filters with uncorrelated Gaussian data,"
IEEE Trans. Acoust. Speech Signal Process, vol. ASSP-33, pp. 222-230, 1, 1985.
O. L. Frost_III, "An algorithm for linearly constrained adaptive array processing," Proceedings of
IEEE, vol. 60, pp. 926-935, Aug., 1972.
W. A. Gardner, "Learning characteristics of stochastic-gradient-descent algorithm: A general
study, analysis and critique.," Signal Processing, vol. 6, pp. 113-133, 1984.
D. N. Godard, "Channel equalization using a Kalman filter for fast data transmission," IBM J.
Res. Dev., vol. 18, pp. 267-273, 1974.
G. H. Golub şi C. F. Van_Loan, Matrix Computations, 3rd ed. Baltimore, MD, U.S.A.: The John
Hopkins University Press, 1996.
G. C. Goodwin şi K. S. Sin, Adaptive Filtering, Prediction and Control. Englewood Cliffs, N.J.:
Prentice-Hall, 1984.
L. J. Griffiths, "A continously adaptive filter implemented as a lattice structure," în Proc. ICASSP,
Hartford, Conn., USA, 71, 1977, pp. 683-686.
L. Håkansson, "Limited Numerical Precision and The LMS Algorithm, and The Leaky LMS -
Solution," în Adaptive Signal Processing Course Ronneby, Suedia: Blekinge Institute of
Technology, 2004. http://www.its.bth.se/courses/etc004/
L. Håkansson, "The Filtered-x LMS Algorithm," în Adaptive Signal Processing Course Ronneby,
Suedia: Blekinge Institute of Technology, 2006. http://www.its.bth.se/courses/etc004/
S. Haykin, Adaptive Filter Theory, 3rd ed. Englewood Cliffs, NJ, U.S.A: Prentice Hall, 1996.
S. Hsieh, K. Liu, şi K. Yao, "A unified square-root-free approach for QRD-based recursive least-
squares estimation," IEEE Trans. Signal Processing, vol. 41(3), pp. 1405–1409 March, 1993.
M. Iosifescu, G. Mihoc, şi R. Teodorescu, Teoria probabilităţilor şi statistică matematică.
Bucureşti: Editura Tehnică, 1966.
N. S. Jayant şi P. Noll, Digital Coding of Waveforms: Principles and Applications to Speech and
Video. Englewood Cliffs, NJ, U.S.A.: Prentice-Hall, 1984.
D. H. Johnson şi D. E. Dudgeon, Array Signal Processing: Concepts and Techniques. Englewood
Cliffs, NJ, U.S.A.: Prentice Hall, 1993.
T. Kailath, "An innovations approach to least-squares estimation: Part 1. Linear filtering in
additive white noise," IEEE Trans. Autom. Control, vol. AC-13, pp. 646-655, 1968.
T. Kailath, Lectures on Linear Least-Squares Estimation. New York: Springer-Verlag, 1981.
P. G. Kaminski, A. E. Bryson, şi S. F. Schmidt, "Discrete square root filtering: A survey of
current techniques," IEE Trans. Autom. Control, vol. AC-16, pp. 727-735, 1971.
S. Kay, "Spectral Estimation," în Advanced Topics in Signal Processing, J. S. Lim şi A. V.
Oppenheim, Eds. Englewood Cliffs, NJ., U.S.A.: Prentice-Hall, 1988.
W. Kenneth_Jenkins şi D.F. Marshall, "Transform Domain Adaptive Filtering," în Digital Signal
Processing Handbook, V. K. Madisetti şi D. B. Williams, Eds.: CRC Press LLC, 1999.
H. J. Kushner, Stochastic Approximation Methods for Constrained and Unconstrained Systems.
Cambridge, Mass., USA: MIT Press, 1984.
R. E. Lawrence şi H. Kaufman, "The Kalman filter for the equalization of a digital
communication channel," IEEE Trans. Commun. Technol., vol. COM-19, pp. 1137-1141,
1971.
D. T. L. Lee, M. Morf, şi B. Friedlander, "Recursive least-squares ladder estimation algorithms,"
IEEE Trans. Circuits and Systems, vol. 28(6), pp. 467–481, 1981.
F. Ling, "Givens rotation based least-squares lattice and related algorithms," IEEE Trans. Signal
Processing, vol. 39, pp. 1541–1551, 1991.
BIBLIOGRAFIE 401
F. Ling, D. Manolakis, şi J. G. Proakis, "Numerically robust least-squares lattice-ladder algorithm
with direct updating of the reflection coefficients," IEEE Trans. Acoustics, Speech and Signal
Processing, vol. 34(4), pp. 837–845, 1986.
K. J. R. Liu, S. F. Hsieh, şi K. Yao, "Systolic block Householder transformation for RLS
algorithm with two-level pipelined implementation," IEEE Trans. Signal Processing, vol. 40,
946–958, 1992.
L. Ljung şi T. Söderström, Theory and practice of recursive identification. Cambridge, Mass.
USA: MIT Press, 1983.
R. W. Lucky, "Automatic equalization for digital communications,". Bell System Tech. J., vol.
44, pp. 547–588, April., 1965.
R. W. Lucky, J. Salz, şi E. J.Weldon, Principles of Data Communications. New York: McGraw-
Hill, 1968.
D. G. Luenberger, Linear and Nonlinear Programming, 2nd ed. Reading, MA, U.S.A.: Addison-
Wesley 1984
J. Makhoul, "Linear prediction: A tutorial review," Proceedings of IEEE, vol. 63(4), pp. 561-580,
1975.
J. Makhoul, "On the eigenvectors of symmetric Toeplitz matrices," IEEE Trans. Acoust. Speech
Signal Process, vol. ASSP-29, pp. 868-872, 1981.
D. G. Manolakis, V. K. Ingle, şi S. M. Kogon, Statistical and Adaptive Signal Processing.
Norwood, MA, U.S.A: Artech House, 2005.
A. Mateescu, S. Ciochină, N. Dumitriu, A. Şerbănescu, şi L. Stanciu, Prelucrarea numerică a
semnalelor. Bucureşti: Editura Tehnică, 1997.
J. H. McClellan, "Parametric Signal Modeling," în Advanced Topics in Signal Processing, J. S.
Lim şi A. V. Oppenheim, Eds. Englewood Cliffs, NJ., U.S.A., 1988.
J. G. McWhirter şi I. K. Proudler, "The QR family," în Adaptive System Identification and Signal
Processing Algorithms, N. Kalouptsidis şi S. Theodoridis, Eds. Englewood Cliffs, NJ.:
Prentice Hall, 1993, pp. 260–321.
F. Michaut, Méthodes adaptives pour le signal. Paris: Ed. Hermés, 1992.
M. Morf, "Fast Algorithms for Multivariable Systems." vol. Ph.D. dissertation, Stanford, CA.:
Stanford University, 1974.
M. Morf şi T. Kailath, "Square-root algorithms for least-squares estimation," IEEE Trans. Autom.
Control, vol. AC-20, pp. 487-497, 1975.
D. R. Morgan, "An analysis of multiple correlation cancellation loops with a filter in the auxiliary
path," IEEE Trans. Acoust. Speech Signal Process, vol. ASSP-28(4), pp. 454-467, August,
1980.
I. Naforniţă, A. Câmpeanu, şi A. Isar, Semnale, circuite şi sisteme vol. 1. Timişoara: Litografia
U.T.T., 1995.
S. S. Narayan, A. M. Peterson, şi M. J. Narasimha, "Transform domain LMS algorithm," IEEE
Trans. Acoust. Speech Signal Process, vol. ASSP-31, pp. 609-615, June, 1983.
B. Noble şi J. W. Daniel, Applied Linear Algebra, 3rd ed. Englewood Cliffs, NJ.: Prentice Hall,
1988.
A. V. Oppenheim, R. W. Schafer, şi J. R. Buck, Discrete-Time Signal Processing, 2nd Illustrated
ed. Englewood Cliffs, NJ, U.S.A: Prentice Hall, 1998.
K. Ozeki şi T. Umeda, "An adaptive filtering algorithm using an orthogonal projection to an
affine subspace and its properties," Electronics and Communications in Japan, vol. 67-A, pp.
19-27, 1984.
C. T. Pan şi R. J. Plemmons, "Least-squares modifications with inverse factorizations: Parallel
implications," Comput. Appl. Math., vol. 27, pp. 109–127, 1989.
A. Papoulis, Probability, Random Variables and Stochastic Processes, 3rd ed. New York:
McGraw-Hill, 1991.
E. Petrişor, Probabilităţi şi statistică Timişoara,: Editura Politehnica, 2005.
A. D. Poularikas şi Z. M. Ramadan, Adaptive Filtering Primer with MATLAB. Boca Raton, FL,
U.S.A.: CRC Press, 2006.
402 BIBLIOGRAFIE
W. H. Press, B. P. Flannery, S. A. Teukolsky, şi W. T. Vetterling, Numerical Recipes in C: The
Art of Scientific Computing. Cambridge, UK: Cambridge University Press, 1992.
A. Quinquis, A. Şerbănescu, şi E. Rădoi, Semnale şi sisteme. Aplicaţii în MATLAB. Bucureşti:
Editura Academiei Tehnice Militare, 1998.
S. Qureshi, "Adaptive equalization,". Proc. IEEE, vol. 73(9), pp. 1349–1387, September, 1985.
K. R. Rao şi P. Yip, Discrete Cosine Transform. Algorithms, Advantages, Applications. Boston,
Mass. U.S.A.: Academic Press, 1990.
M. Rupp, "The behavior of LMS and NLMS algorithms in the presence of spherically invariant
processes," IEEE Trans. Signal Processing, vol. 41(3), pp. 1149-1160, March, 1993.
A. H. Sayed, Adaptive Filters. Hoboken, NJ: John Willey & Sons Inc., 2008.
A. H. Sayed şi T. Kailath, "A state-space approach to adaptive RLS filtering," IEEE Signal
Processing Magazine, vol. 11, pp. 18–60, 1994.
A. H. Sayed şi T. Kailath, "Recursive Least-Squares Adaptive Filters," în The Digital Signal
Processing Handbook, V. K. Madisetti şi D. B. Williams, Eds. Boca Raton, FLA, U.S.A.:
CRC Press, 1998, pp. 486-524.
D. T. M. Slock, "On the convergence behavior of the LMS and the normalized LMS algorithms,"
IEEE Trans. Signal Processing, vol. 45(12), pp. 2811–2825, September, 1993.
M. Soumekh, Fourier Array Imaging. Englewood Cliffs, NJ, U.S.A.: Prentice Hall, 1994.
A. Spătaru, Teoria transmisiunii informaţiei. Bucureşti: Editura Tehnică, 1968.
S. D. Stearns, "Fundamentals of Adaptive Signal Processing," în Advanced Topics in Signal
Processing, J. S. Lim şi A. V. Oppenheim, Eds. Englewood Cliffs, NJ, U.S.A.: Prentice Hall,
1988, pp. 246-288.
G. W. Stewart, Introduction to Matrix Computations. New York.: Academic Press, 1973.
G. Strang, "The Discrete Cosine Transform," SIAM Review, vol. 41, pp. 135-147, No. 1, 1999.
A. Ştefănescu şi C. Zidăroiu, Cercetări operaţionale. Bucureşti: Editura Didactică şi Pedagogică,
1981.
J. R. Treichler, C. R. Johnson, şi M. G. Larimore, Theory and Design of Adaptive Filters. New-
York: John Wiley and Sons, 1986.
S. A. Tretter, Introduction to Discrete-Time Signal Processing. New-York, U.S.A.: Wiley, 1976.
J. Z. Tsypkin, "Adaptation and Learning in Automatic Systems," în Mathematics in Science and
Engineering. vol. 73 New York: Academic Press, 1971.
P. Vaidyanathan, J. Tugan, şi A. Kirac., "On the minimum phase property of prediction-error
polynomials," IEEE Signal Processing Letters, vol. 4(5), pp. 126–127, May, 1997.
N. A. M. Verkhoecx şi T. A. C. M. Claasen, "Some considerations on the design of adaptive
digital filters equipped with the sign algorithm," IEEE Trans. on Communications, vol. COM-
32, pp. 258-266, March, 1984.
E. A. Wan, "Adjoint LMS: An Efficient Alternative to the Filtered-X LMS and Multiple Error
LMS Algorithms," în Proc. of ICASSP96, 65, 1996, pp. 1842-1845.
G. Weiss, "Time-reversibility of linear stochastic processes," J. Appl. Probability, vol. 12, pp.
831–836, 1975.
B. Widrow şi M. E. Hoff Jr., "Adaptive switching circuits," în. IRE WESCON Conv. Rec., 44,
1960, pp. 96–104.
B. Widrow şi S. D. Stearns, Adaptive Signal Processing. Englewood Cliffs, NJ. U.S.A.: Prentice-
Hall, 1985.
B. Yang şi J. F. Böhme, "Rotation-based RLS algorithms: Unified derivations, numerical
properties and parallel implementations," IEEE Trans. Signal Processing, vol. 40, pp. 1151–
1167, 1992.
INDEX
Algoritmi LMS cu semn 224 algoritmul LMS cu semnul datelor 226 algoritmul LMS cu semnul erorii 224 algoritmul LMS semn-semn 226
Algoritmi LMS cu transformare de domeniu 235 algoritm LMS cu pas normalizat 241 formularea algoritmului 241 principiul TDAF 235 proprietatea de separare în benzi 238 transformare de similaritate 239
Algoritmi LMS-GAL 251 algoritmul LMS-GAL de filtrare adaptivă
254 algoritmul NLMS-GAL 253 filtrul erorii de predicţie lattice 251
Algoritmi RLS 295, 348 algoritmul adaptiv LS aposteriori 298 algoritmul adaptiv LS apriori 297 algoritmul RLS standard 302 analiza algoritmului cu memorie finită
306 analiza algoritmului cu memorie infinită
305 ecuaţii de recursie 296 factor de conversie 299 iniţializarea algoritmului 304 vectorul câştigului de adaptare 297 vectorul de câştig adaptiv alternativ 298
Algoritmi RLS cu factorizare QR 310 algoritmul QR-RLS 315 algoritmul QR-RLS cu rotaţii Givens 321 algoritmul QR-RLS extins 317 algoritmul QR-RLS invers 318 algoritmul QR-RLS invers cu rotaţii
Givens 323 descompunerea Cholesky 312
Algoritmi RLS rapizi 348, 365 algoritmi lattice-scară cu reacţie pe
eroare 391
algoritmi lattice-scară cu rotaţii Givens 398
algoritmul FAEST 378 algoritmul FTF 378 algoritmul Kalman rapid 376 algoritmul lattice RLS aposteriori 384 algoritmul lattice RLS apriori 385 algoritmul lattice-scară aposteriori 388 algoritmul lattice-scară apriori 389 algoritmul LRLS 383 cu descompunere QR 370 cu recursie după ordin 370 ecuaţiile erorii de predicţie LS 367 fără recursie de ordin 370 instabilitate numerică 380 proprietatea de invarianţă la deplasare
a vectorului de date 366 recursia după ordinul filtrului 365 recursie în timp 365
Algoritmul de proiecţie afină (APA) 244 algoritm cu reutilizarea datelor 247 formularea algoritmului APA 245 interpretarea proiecţiei afine 249
Algoritmul Gram-Schmidt 144 Algoritmul Kalman
filtrare de rădăcină pătrată 353 Algoritmul Levinson-Durbin 129
implementare 133 invers 135
Algoritmul LMS 177 analiza performanţelor 180 convergenţa în medie 183 curba de învăţare 185, 187 deducerea algoritmului 177 dezadaptare 190 egalizare adaptivă 200 EPM în exces 190 EPM minimă 186 erori de cuantizare 217 ipoteza de independenţă 181, 184
404 INDEX
matricea de corelaţie a erorii coeficienţilor 187
modelare de sistem 198 predicţia lineară 195 relaţie de recursie 178 stabilitatea algoritmului 192
Algoritmul LMS cu „pierderi” 183 Algoritmul LMS cu constrângeri 213 Algoritmul LMS cu filtrarea erorii 207
algoritm LMS adjunct 209 Algoritmul LMS cu filtrarea referinţei 205 Algoritmul LMS normalizat 227
calculul pasului variabil 229 stabilitatea algoritmului 230
Algoritmul LMS-Newton 232 Algoritmul Schür 136
implementare 138 Anularea ecoului acustic 17 Anularea ecoului pe liniile telefonice 15 Aproximarea Taylor 357 Beamformer 18, 107, 211 Codarea predictivă lineară 12 Codarea vorbirii 12 Coeficient de corelaţie parţială (PARCOR)
133 LS 381, 382
Coeficient Rayleigh 63 Coeficienţi de reflexie 132, 255
estimatorul Burg 149 înapoi LS 381 normalizaţi 396
Combinator linear 3 Convoluţia circulară 28 Convoluţia lineară 22 Criteriu statistic 82 Densitate de probabilitate 38 Descompunere în valori singulare 275
descompunerea SVD a unei matrici 288 teorema descompunerii în valori
singulare 285 Deviaţia pătratică medie (DPM) 306 Ecuaţii de recursie LS Levinson-Durbin 381
Ecuaţii Wiener-Hopf (ecuaţii normale) 88 calculul funcţiei de cost 91 forma canonică a suprafeţei de eroare
94 matricea de corelaţie 89 pentru filtre FIR 89 rezolvare prin descompunere
triunghiulară 96 suprafaţa de eroare 91 vectorul de intercorelaţie 89
Ecuaţii Wiener-Hopf extinse 119 pentru predicţia generalizată 127 pentru predicţia înainte 119 pentru predicţia înapoi 125
Egalizor de canal 103 simetric 104 zero-forcing 106
Eroare aposteriori 230, 296, 298, 362 Eroare apriori 296, 297, 362 Eroare pătratică medie (EPM) 83, 155 Erori normalizate unghiular 392 Estimator de varianţă minimă fără
distorsiuni (MVDR) 110 Factorizare QR
redusă 276 Factorizarea QR 276 Filtrare optimală lineară 81
problema filtrării adaptive Wiener 83 Filtre FIR cu estimare LS 272
alegerea intervalului de filtrare 274 Filtru adaptat 67 Filtru all-pole 10, 24 Filtru de „albire” 73, 119, 142, 173 Filtru de fază minimă 141 Filtru de netezire simetric 128 Filtru FIR 2 Filtru IIR 4 Filtru Kalman
ecuaţia Riccati 340 Filtru propriu 67 Filtrul erorii de predicţie 9, 117, 129
generalizate 126 înainte 118 înapoi 124 proprietăţi 140
INDEX 405
Filtrul erorii de predicţie LS 369 înainte 369 înapoi 369
Filtrul Kalman 344 algoritm de filtrare informaţională 350 algoritmul de filtrare de covarianţă 350 algoritmul Kalman standard 346 condiţii iniţiale 344 corespondenţa dintre variabilele
Kalman-RLS 363 corespondenţa Kalman-RLS 361 factor de conversie 342 filtrul Kalman extins (EKF) 354 matricea de autocorelaţie a erorii de
filtrare a stării 344 matricea de câştig Kalman 338 modelul sistemului dinamic neforţat349 problema filtrării Kalman 333 variabila de inovaţii 362 vectorul de eroare a estimării filtrate
342 vectorul de eroare a predicţiei de stare
335 vectorul erorii de filtrare a stării 343
Filtrul Wiener 81 caracterizare în frecvenţă 102
Formula Burg 149 Funcţia de autocorelaţie 39 Funcţia de autocovarianţă 39
varianţa 39 Funcţia de distribuţie 38 Funcţie de corelaţie 40 Funcţie de cost 83, 155
calculul gradientului 228 Gradientul suprafeţei de eroare 157 Interferenţă intersimbol 8, 104 Lema Burg 382 Lema de inversare matricială 233 Leme de factorizare matricială 314 Matrice de corelaţie 51
descompunere LDU 69 descompunere UDL 70
ecuaţie caracteristică 55 inversare de matrice prin lema de
partiţionare 374 în sens LS 367 partiţionare 366 proprietăţi 51 proprietăţile valorilor şi vectorilor
proprii 57 transformarea unitară de similaritate
59, 159 valori proprii 55, 159 vectori proprii 56, 159
Matricea de schimb 123 Matrici ortogonale 159 Media temporală 44 Metoda celor mai mici pătrate (LS) 261
corolarul principiului ortogonalităţii 267 ecuaţia matricială a erorii 261 ecuaţii normale 265 ecuaţii normale ponderate 269 estimator linear de eroare LS 262 funcţia de cost - energia semnalului de
eroare 262 interpretare geometrică 266 înregistrări de date 263 înregistrări instantanee 263 principiul ortogonalităţii 267 proprietăţi statistice 270 soluţia de normă minimă 288
Metoda de ortogonalizare Gram-Schmidt 283, 334 clasică (GS) 283 modificat (MGS) 284
Metoda Newton 169 convergenţă 171
Metoda overlap-add 31 Metoda overlap-save 31 Metoda SD 154
calculul soluţiei 158, 160 condiţii de convergenţă 161 panta descendentă maximă 156 pasul algoritmului 164 recursia SD 157 vectorul coeficienţilor necuplaţi 159 viteza de convergenţă 164
Model ARMA 75
406 INDEX
Model autoregresiv (AR) 10, 72 ecuaţii Yule-Walker 74
Model cu medie alunecătoare (MA) 10, 71 Modelare adaptivă 6
identificarea sistemelor 7 Modelarea inversă 7
egalizarea de canal 7 Operatorul de mediere temporală 265, 367 Operaţie de normare 240 Optimizare cu constrângere 107, 211
algoritmul LMS normalizat 228 metoda multiplicatorilor lui Lagrange
108, 212, 228 Predictor 9, 115
lattice 145 Predicţia lineară 115, 121, 251
eroare de predicţie înainte 116 eroarea de predicţie înapoi 121, 142 generalizată 126
Predicţia lineară LS 366 eroarea aposteriori înainte 367, 369 eroarea aposteriori înapoi 368, 369 eroarea apriori înainte 368, 369 eroarea apriori înapoi 368, 369
Principiul ortogonalităţii 84, 85 corolar 86 interpretarea geometrică 86
Proces aleator în timp discret 37 ansamblu 37 densitate spectrală de putere 46 ergodic 43, 44 independent 40 necorelat 40 ortogonal 40 proces stochastic 38 realizare 37 staţionar 41 staţionar în sens larg 41 variabilă aleatoare 38
Proces de inovaţii 333 matricea de corelaţie 334
Pseudo-inversa unei matrici 268, 289 condiţiile Moore-Penrose 289
Puterea erorii de predicţie 122, 124, 132
înainte 116, 117 înapoi 122
Reţea adaptivă de antene 19 Rotaţie Givens 281, 320 Sisteme lineare invariante în timp (SLIT) 23
sisteme FIR 24 sisteme IIR 24 SLIT cauzal 25 SLIT de fază minimă 26 SLIT stabil 25
Spaţiul stărilor 331 ecuaţie de măsurare 332 ecuaţie de proces 332 matrice de măsurare 332 matrice de măsurare nelineară 355 matrice de tranziţie nelineară 355 matricea de tranziţie a stărilor 332 model nelinear 355 stare 332 zgomot de măsurare 332 zgomot de proces 332
Structura lattice 142, 147, 252, 383 LS 383
Structura lattice-scară 254, 387 Structuri sistolice 322 Tehnici de estimare spectrală
neparametrice 11 Tehnici de ortogonalizare 275 Teorema Wiener-Hincin 47 Transformarea cosinus discretă DCT 32,
237 Transformarea Fourier discretă DFT27, 237 Transformarea Fourier în timp discret 27 Transformarea Fourier rapidă FFT 28 Transformarea Hartley discretă 237 Transformarea Householder 279 Transformarea Karhunen-Loève 63, 172,
243 algoritmi LMS cu transformare de
domeniu 243 algoritmul LMS-Newton 243
Transformarea sinus discretă 237 Transformarea Z 21
INDEX 407
proprietăţile transformării Z 22 Valoare medie 39 Valoare medie pătratică 39
Zero padding 29 Zgomot alb 48, 56
zgomot alb gaussian 48