133
Vorlesung Adaptive Filter Univ. Prof. Dr.-Ing. Markus Rupp Institut f¨ ur Nachrichtentechnik und Hochfrequenztechnik TU Wien 25. M¨ arz 2004

Adaptive Filter

Embed Size (px)

DESCRIPTION

Vorlesung Adaptive Filter

Citation preview

  • Vorlesung Adaptive Filter

    Univ. Prof. Dr.-Ing. Markus RuppInstitut fur Nachrichtentechnik und Hochfrequenztechnik

    TU Wien

    25. Marz 2004

  • Inhaltsverzeichnis

    1 Adaptive Filter : Eine Ubersicht 41.1 Anwendungsgebiete Adaptiver Filter . . . . . . . . . . . . . . . . . . . . . . 41.2 Einordnungsschemata Adaptiver Filter . . . . . . . . . . . . . . . . . . . . . 131.3 Nomenklatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    2 Grundlagen Stochastik 162.1 Least-Mean-Squares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.2 Linear Least-Mean-Squares . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.3 Verfahren des Starksten Abfalls: Der Steepest Descent Algorithmus . . . . . 242.4 Literaturhinweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

    3 Der LMS Algorithmus 303.1 Klassischer Ansatz: Approximative Wiener Losung . . . . . . . . . . . . . . . 303.2 Verhalten in stationarer Umgebung . . . . . . . . . . . . . . . . . . . . . . . 32

    3.2.1 Annahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.2.2 Der Fehlervektor im Mittel . . . . . . . . . . . . . . . . . . . . . . . . 333.2.3 Der Fehlervektor im Mittleren Quadrat . . . . . . . . . . . . . . . . . 333.2.4 Kenngroen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.2.5 Konvergenz mit Wahrscheinlichkeit Eins . . . . . . . . . . . . . . . . 39

    3.3 Verhalten bei sinusformiger Anregung . . . . . . . . . . . . . . . . . . . . . . 423.4 Anwendungsspezifische Varianten . . . . . . . . . . . . . . . . . . . . . . . . 473.5 Literaturhinweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

    4 Der RLS Algorithmus 534.1 Problemstellung der Kleinsten Quadrate . . . . . . . . . . . . . . . . . . . . 53

    4.1.1 Existenzaussagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554.1.2 LS Schatzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.1.3 Anregungsbedingung . . . . . . . . . . . . . . . . . . . . . . . . . . . 574.1.4 Verallgemeinerungen und Spezialfalle . . . . . . . . . . . . . . . . . . 574.1.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

    4.2 Klassische RLS Herleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

    2

  • Univ.-Prof. DI. Dr.-Ing. Markus Rupp 3

    4.2.1 Unterbestimmte Formen . . . . . . . . . . . . . . . . . . . . . . . . . 624.3 Verhalten in stationarer Umgebung . . . . . . . . . . . . . . . . . . . . . . . 654.4 Andere Losungsformen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 674.5 Literaturhinweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

    5 Nachfuhrverhalten Adaptiver Verfahren 695.1 Nachfuhrverhalten von LMS und RLS Algorithmus . . . . . . . . . . . . . . 695.2 Kalman Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 725.3 Literaturhinweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

    6 Verallgemeinerte LS Verfahren 766.1 Rekursiver Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 786.2 Robustheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

    7 Robuste Adaptive Filter 827.1 Lokale Passivitatseigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . 827.2 Robustheitsanalyse bei Gradienten-Algorithmen . . . . . . . . . . . . . . . . 84

    7.2.1 Minimax Optimalitat der Gradientenverfahren . . . . . . . . . . . . . 867.2.2 Hinreichende Konvergenzbedingungen . . . . . . . . . . . . . . . . . . 877.2.3 Die Ruckkopplungsnatur des Gradientenverfahrens . . . . . . . . . . 887.2.4 Der Gau-Newton Algorithmus . . . . . . . . . . . . . . . . . . . . . 91

    7.3 Algorithmen mit Nichtlinearem Filter ohne Gedachtnis im Schatzpfad . . . 947.3.1 Der Perceptron-Learning Algorithmus . . . . . . . . . . . . . . . . . . 947.3.2 Adaptive Entzerrerstrukturen . . . . . . . . . . . . . . . . . . . . . . 967.3.3 Nachfuhrverhalten von Entzerrerstrukturen . . . . . . . . . . . . . . . 98

    7.4 Algorithmen mit Nichtlinearem Filter im Fehlerpfad . . . . . . . . . . . . . . 1017.5 Algorithmen mit Linearem Filter im Fehlerpfad . . . . . . . . . . . . . . . . 1047.6 Algorithmen mit Linear Gefiltertem Regressionsvektor . . . . . . . . . . . . 1107.7 Literaturhinweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

    A Zum Ableiten von Vektoren 113

    B Anmerkungen zu Gauprozessen 115

    C Grundlagen linearer Algebra 119

    D Zur Zustandsdarstellung von Systemen 121

    E Methode der Lagrange-Faktoren 123

    F Small-Gain Theorem 126

  • Kapitel 1

    Adaptive Filter : Eine Ubersicht

    1.1 Anwendungsgebiete Adaptiver Filter

    GabelN

    @@

    -

    -

    Mikrofon

    LautsprecherEchopfad

    Zur Vermittlungsstelle

    Abbildung 1.1: Nahecho-Verbindung.

    Adaptive Filteralgorithmen haben in den vergangenen 20 Jahren uberall Einzug inelektronischen Produkten gehalten. Meist ist dem Anwender ihr Vorhandensein gar nichtbewut, was auf ihre perfekte Arbeitsweise schlieen lasst. Adaptive Filter haben dieEigenschaft, sich an eine standig andernde Umgebung anzupassen und damit optimaleBetriebseigenschaften (meist von digitalen Filtern) zu erreichen. Im Folgenden werdenverschiedene Anwendungsmoglichkeiten adaptiver Filter gezeigt. In Bild 1.1 wird dasBlockschaltbild einer Telefonanlage beim Teilnehmer gezeigt. Eine sogenannte Gabel-schaltung (Wien-Brucke) sorgt dafur, dass der Zweidrahtanschluss des Mikrofons an die

    4

  • Univ.-Prof. DI. Dr.-Ing. Markus Rupp 5

    Vermittlungsleitung weitergeschaltet wird, wahrend gleichzeitig der Zweidrahtanschlussdes Lautsprechers auch von dieser Zweidrahtleitung versorgt wird. Die perfekte Ausba-lancierung der Gabelschaltung ist dann erreicht, wenn der Teilnehmer sich selbst nichthort. Diese optimale Situation ist jedoch meist nicht gegeben, da der Abschluss derVermittlungsleitung unbekannt ist. Eine Nachbildung N versucht den Abschlusswiderstandnachzubilden. Ublicherweise wird ein Ubersprechen von Mikrofon zu Lautsprecher alsangenehm empfunden, da der Teilnehmer das Gefuhl hat, dass das Telefon funktioniert(es reagiert auf seine Eingangssignale). Im Zusammenhang mit Freisprechanlagen, kanndies jedoch zum Problem werden und muss entscheidend gedampft werden. Ein adaptivesFilter kann hier Abhilfe schaffen indem es zunachst den Ubertragungspfad von Mikrofonzu Lautsprecher schatzt, damit das zugehorige Echosignal berechnet und es vom Lautspre-chersignal subtrahiert.

    GabelA N N

    GabelB

    - -

    -

    -

    SprecherA

    SprecherB

    Echo von B

    Echo von A

    A

    B

    Abbildung 1.2: Fern-Echo Verbindung.

    In Abbildung 1.2 werden vereinfacht zwei Teilnehmer gezeigt, die uber ihre lokalenGabelschaltungen verbunden sind. Uberall dort, wo in Vermittlungsanlagen von Zwei-auf Vierdrahtbetrieb umgeschaltet wird, werden solche Gabelschaltungen eingesetzt. BeiWeitverkehrsverbindungen konnen also mehrere dieser Umsetzstellen auftreten. Dabeiwerden an der Gabelschaltung nicht nur die Echos des lokalen Sprechers an den lokalenLautsprecher weitergegeben, sondern auch die Signale des fernen Teilnehmers an derlokalen Gabel (wieder wegen der vorhandenen Fehlanpassung) reflektiert zum fernenTeilnehmer zuruckgesendet. Gerade bei Weitverkehrsverbindungen mit ihren groen

  • 6 Adaptive Filter

    Laufzeiten (500ms) kann dies ein Problem darstellen. Wenn die Gabeldampfung dasSignal nur um 6dB verringert, und des weiteren durch digitale Weitverkehrsubermittlungdas Echo ungedampft zuruckubertragen wird, wird das ferne Teilnehmersignal demfernen Teilnehmer ins eigene Wort fallen und die Verbindung dadurch gehorig storen.Adaptive Filter konnen ahnlich wie beim Nahecho den Echopfad schatzen und dasEcho rekonstruieren, um es vom Nutzsignal zu subtrahieren. Anders als beim Nahechohat man es hier allerdings mit sehr groen Filterlangen (500-4000 Koeffizienten) zu tun.

    Freisprechtelefonanlagen haben in den letzten Jahren enorme Verbreitung gewonnen.Sie werden sowohl in Buroraumen zu (Video-)Konferenzen als auch bei Freisprechanlagenin Autos eingesetzt. Abbildung 1.3 zeigt die Problemstellung. Das ferne Teilnehmersignalgelangt durch den Lautsprecher in den Raum und somit auch an das Mikrofon des lokalenTeilnehmers. Zusammen mit dem eigentlichen Signal des lokalen Sprechers wird es zuruckan den fernen Teilnehmer ubertragen und erscheint dort als Echo. Betreibt dieser auch ei-ne Freisprechanlage kann es eine geschlossene Schleife geben und ein Ruckkopplungspfeifenwird horbar. Ein adaptives Filter kann die Impulsantwort von Lautsprecher-Raum-MikrofonSystem schatzen und wie bei der Gabelschaltung auch das Echosignal rekonstruieren. Diegroen Impulsantwortlangen von solchen akustischen Systemen spielen hierbei einebesondere Rolle. Ebenso erscheint der lokale Sprecher nun als Storung fur das Schatz-verfahren und erfordert somit eine besondere Behandlung.

    @@

    JJJJJJJJJ

    ZZZZZZZZZZZ

    >

    ZZZZZZZZZZZ~

    JJJJJJJJJ^-

    Abbildung 1.3: Lautsprecher-Raum-Mikrofon System.

    Alle bisher beschriebenen Anwendungsgebiete fallen in die Kategorie Systemidentifika-tion. Wie Abbildung 1.4 zeigt, kann der Echopfad in allen drei Fallen als eine unbekannte(lineare) Ubertragungsfunktion dargestellt werden. Durch Beobachten von Ein- und Aus-gang dieses additiv gestortenSystems, gewinnt das adaptive Filter soviel Information,dass es den unbekannten Pfad schatzen kann. Mit bekanntem Eingangssignal lasst sichdann das Echosignal rekonstruieren und wird vom Nutzsignal subtrahiert.

  • Univ.-Prof. DI. Dr.-Ing. Markus Rupp 7

    ?

    w

    h?

    - - -

    -

    6x(k)

    v(k)

    y(k)

    y(k)

    e(k)

    Abbildung 1.4: Systemidentifikation.

    Eine ganz andere Anordnung findet man in der aktiven Gerauschunterdruckung. Ab-bildung 1.5a zeigt die Problemstellung. Eine primare Rauschquelle (Motor, Fohn, etc.)verursacht ein ungewolltes Gerausch an der Stelle des Mikrofons. Durch eine zweite Quellewird versucht, das Storgerausch an der Mikrofonstelle (und der naheren Umgebung) zureduzieren. Oft hat man keinen direkten Zugriff auf die Primarquelle. Dann wird mit einemzweitem Sensor versucht ein Signal zu gewinnen, das zu dem der Primarquelle stark kor-reliert ist. Abbildung 1.5b zeigt das entsprechende Blockschaltbild mit adaptivem Filter.Die Strecke P von Primarquelle zum Mikrofon wird nicht mehr als Gesamtimpulsantwortgeschatzt, sondern um den um H verminderten Anteil, dem Pfad zwischen Sekundarquelleund Mikrofon. Dies kann zu nichtkausalen Anteilen in der Losung fuhren. Wie wir spatersehen werden gehort die adaptive Gerauschreduktion zur Klasse der Fehlerpfad-gefiltertenReferenzmodelle.

  • 8 Adaptive Filter

    - W

    -

    @@

    x

    7

    x(t) y(t) ef (t)

    (a)

    PrimareQuelle

    ElektrischesFilter

    SekundareQuelle

    FehlerMikrofon

    (b)

    - W - H(z)

    6

    - P (z)

    ?

    x(k) ty(k)

    d(k)

    ef (k)

    Abbildung 1.5: (a) Aktive Gerauschunterdruckung. (b) Aquivalentes Blockdiagramm desKontrollalgorithmus.

  • Univ.-Prof. DI. Dr.-Ing. Markus Rupp 9

    Im Bereich Sprachverarbeitung finden adaptive Filter Anwendung in der linearenPradiktion. In Abbildung 1.6 wird solch eine Anordnung gezeigt. Das Sprachsignal wirddurch eine Verzogerungsstufe gefuhrt und dann wird damit das adaptive Filter gespeist.Referenzsignal ist das Originalsignal. Das adaptive Filter wird also versuchen mit Hilfevon vergangenen Werten das Originalsignal anzunahern. Typische Anwendungen solcherPradiktoren sind datenreduzierende Verfahren zur Sprachubertragung. Dabei wird im ein-fachsten Fall nur das Fehlersignal e(k) ubertragen, denn es tragt weniger Energie als dasOriginalsignal und kann somit mit weniger Bit pro Abtastwert dargestellt werden. Eine wei-tere Anwendung ist das Vokoderprinzip. Da Sprachsignale ihr Spektrum nur etwa alle 10msandern, genugt es, nur die Pradiktionskoeffizienten zu ubertragen. Damit konnen enormeDatenreduktionen gewonnen werden.

    - z1 - w

    6

    - 1

    ?

    x(k) ty(k)

    d(k)

    e(k)

    Abbildung 1.6: Linearer Pradiktor

    Ein weiteres Einsatzgebiet adaptiver Filter besteht in adaptiven Entzerrerfiltern bei derDatenubertragung. Bild 1.7 verdeutlicht die Problemstellung. Eine digitales Signal wirddurch einen Kanal c ubertragen und durch additives Rauschen v(n) gestort. Am Empfangerist ein digitales Filter w so einzustellen, dass eine nachfolgende nichtlineare Abbildung dieerhaltenen Symbole eindeutig auf das Sendealphabet abbilden kann. Die Schwierigkeit be-steht dabei oftmals weniger in der geeigneten Wahl der Filterstruktur oder der sehr groenAnzahl von Koeffizienten, als darin den geeigneten adaptiven Algorithmus zu finden, derKanalanderungen schnell zu folgen versteht und zugleich keine uberaus groen An-forderungen an numerische Genauigkeit stellt. Anders als bei der Systemidentifikationliegt bei dieser Problemstellung kein Referenzsignal vor. Es kann dadurch gewonnen wer-den, dass ein bekanntes Signal (Trainingssequenz) ubertragen wird, durch dessen Hilfe dasFilter eingestellt werden kann. Allerdings besteht Datenubertragung darin, unbekannte Da-ten zu ubertragen, d.h. der Anteil der Trainingssequenz muss sehr klein sein gegenuber der

  • 10 Adaptive Filter

    zu ubertragenden Datenmenge. Eine zweite Methode besteht darin, das dekodierte Signalals Referenzsignal zu nutzen. Dekodierfehler wirken allerdings dann auch auf die Qualitatder Adaption.

    c w f

    - - -?

    - -x(k)

    v(k)

    y(k) z(k) x(k)

    Abbildung 1.7: Optimaler Entzerrer und Dekodierer.

    Beide Anwendungen, lineare Pradiktion und adaptiver Entzerrer genugen der selbenReferenzstruktur, wie in Abbildung 1.8 gezeigt. Bei der linearen Pradiktion wird c = z1

    gesetzt und = 0, wahrend bei der adaptiven Kanalentzerrung c den Kanal darstellt unddie Trainingssequenz das um verzogerte Referenzsignal darstellt.

    - c - w

    6

    - z

    ?

    x(k) ty(k)

    d(k)

    e(k)

    Abbildung 1.8: Referenzmodell zur inversen Modellierung

    Eine ahnliche Problemstellung aber ungleich komplizierter ergibt sich bei dem Problemder nichtlinearen Vorverzerrung fur Leistungsverstarker (engl. power amplifier) wie sie imFunkbereich haufig auftreten. Um einen moglichst groen Wirkungsgrad zu erzielen, werden

  • Univ.-Prof. DI. Dr.-Ing. Markus Rupp 11

    diese Verstarker im C oder F Modus betrieben, und erzeugen damit eine starke Nichtlinea-ritat. Bei Bandbreiten bis 1 MHz ist diese Nichtlinearitat noch typischerweise gedachtnisfreiausgepragt (Saleh Modell)

    A (r) =Ar

    1 + Ar2

    (r) =r

    2

    1 + r2,

    (1.1)

    und kann in Form von nichtlinearen Abbildungen fur Amplitude und Phase korrigiert wer-den. Bei groeren Bandbreiten jedoch zeigen sich immer starker auch gedachtnisbehafteteEffekte. Eine Moglichkeit diese Effekte zu beschreiben sind so genannte Volterrareihen. Ei-ne Abbildungsvorschrift durch eine Volterrareihe der Ordnung P vom Eingangssignal u(n)zum Ausgang y(n) kann folgendermassen aussehen

    y(n) =Pp=0

    hp,n [u (n)] , (1.2)

    wobei der Operator hp,n [] eine mehrdimensionale Faltung reprasentiert:

    hp,n [u (n)] =N

    n1=0

    N

    np=0

    hp,n (n1, . . . np)

    pi=1

    u (n ni) . (1.3)

    Der Vorteil der Darstellung liegt darin, dass die Koeffizienten alle linear bzgl. des Eingangssi-gnals vorliegen, wobei die Nichtlinearitat dadurch zustande kommt, dass das Eingangssignalmit zeitverzogerten Varianten ein neues Signal bildet. Ein weiterer Vorteil der Beschreibungdurch Volterrareihen besteht auch darin, dass es immer moglich ist eine Inverse zu bilden,denn die ist ja notig, um das nichtlineare System zu entzerren. Allerdings zeigt es sich in derPraxis, dass solch eine Volterradarstellung sehr viele Koeffizienten benotigt, um eine gewisseGenauigkeit zu erreichen. Abbildung 1.9 zeigt eine typische Anordnung zur Vorverzerrung.Nach der Identifikation des Leistungsverstarkers wird das Modell invertiert und dann dieserso erhaltene Vorentzerrer vor den Leistungsverstarker geschaltet. Die Ubertragung in derGesamtkette Vorentzerrer-Leistungsvertarker verhalt sich dann wieder linear.

    Um die hohe Komplexitat zu verringern, versucht man andere nichtlineare Struktureneinzusetzen. Hierbei haben sich vor allem so genannte Wiener und Hammerstein Modelleals geeignet erwiesen. Abbildung 1.10 zeigt ein Wiener Modell bei dem die Nichtlinearitatgedachtnisfrei hinter dem linearen Anteil erfolgt. Bei Hammerstein Modellen ist die Reihen-folge umgedreht. Arbeitet man mit solchen vereinfachten Modellen, so ist momentan nochunklar wie die adaptiven Algorithmen mit Sicherheit Konvergenz garantieren konnen.

    Eine ahnliche Problemstellung wie die der adaptiven Entzerrung liegt in der Musterer-kennung. Gegebene (oft binare) Muster mussen klassifiziert werden. Beispielsweise liefert

  • 12 Adaptive Filter

    Ref. model

    - -

    Adapt. laws

    - NL Plant

    -

    Controlleru(n)

    yr(n)

    y(n)

    Abbildung 1.9: Nichtlineare, adaptive Vorverzerrung.

    u(n)x(n)- - y(n)- f (, )L (h, )

    Abbildung 1.10: Nichtlineares Wiener Modell.

    eine digitale Kamera an einer Abflaschungsmaschine das Bild einer Flasche. Bei dieser mussnun erkannt werden, ob sie die richtigen Mae hat und ob das Etikett korrekt angebrachtist. Die gelieferten (Bild-)Muster werden mit Referenzmustern verglichen und es wird eineEntscheidung gefallt, ob die geforderte Bedingung erfullt ist oder nicht. Gut geeignet zumAufbau solcher Mustererkenner sind neuronale Netzwerke. Abbildung 1.11 zeigt ein solcheseinfaches Netzwerk, das sich durch einen Entscheider f() und eine Ruckkopplung der Ent-scheidung auszeichnet. Beim Trainingslauf werden dem neuronalen Netzwerk verschiedeneBeispielmuster am Eingang x und zugehorige Entscheidungen d angeboten. Die Aufgabedes neuronalen Netzwerkes besteht darin, die Koeffizienten a und b so einzustellen, dass esbei ahnlichen Mustern ebensolche Entscheidungen korrekt liefern kann.

  • Univ.-Prof. DI. Dr.-Ing. Markus Rupp 13

    a

    b

    f(z)

    -

    -

    - -

    6

    ?

    q1

    x

    z d

    Abbildung 1.11: Ruckgekoppeltes Neuronales Netzwerk.

    1.2 Einordnungsschemata Adaptiver Filter

    Adaptive Filteralgorithmen sind ihrer Natur nach Optimierungsalgorithmen. Anders alsStandardoptimierungsverfahren versuchen sie jedoch mit einer sich standig veranderndenUmgebung zurechtzukommen. Im vorigen Abschnitt wurden adaptive Filter bereits nachihrer Anwendung eingeordnet. Dabei spielen verschiedene Referenzmodelle eine entschei-dende Rolle. Das Referenzmodell erklart ein Signal zum Referenzsignal nachdem sich dieadaptive Filterung richtet. Wie es erzeugt wird hat entscheidende Auswirkung auf dieAnordnung des Filters und dessen Eigenschaften. Bisher hatten wir Systemidentifikation,inverse Modellierung und Identifikation mit gefiltertem Fehlerpfad angesprochen. Dabeikonnen jeweils wieder lineare und nichtlineare Filter zur Anwendung kommen.

    Eine weitere Unterscheidung ergibt sich in On- und Oine-Betrieb der Algorithmen.Liegen alle erforderlichen Daten vor, so kann der Optimierungsalgorithmus laufen, umnach einer bestimmten Anzahl von Iterationen ein (sub-)optimales Ergebnis auszugeben.Man spricht dabei ublicherweise von Oine Betrieb, da wahrend der Iterationen keineneuen Daten hinzukommen. Im Onlinebetrieb ist dies anders, mit jedem Schritt erhaltder Algorithmus einen neuen Datensatz und wird erneut ablaufen, um sich an die sichverandernde Situation neu anzupassen.

    Eine dritte ubliche Unterscheidung erfolgt aufgrund von Kostenfunktionen. Das Refe-renzsignal liefert ein Normal, das Referenzsignal, das wir durch den adaptiven Vorgangversuchen anzunahern. Das dadurch entstehende Fehlersignal kann auf verschiedene Weisezur Kostenfunktion herangezogen werden, je nachdem ob Information uber die Signale indeterminierter oder statistischer Art vorhanden ist. So kann es das Ziel sein E[|e(n)|p] zu mi-nimieren oder dessen zeitliches Pendant

    ni=0 |e(n)|p. Aber auch Minimax-Formulierungen

    sind nicht unublich.

  • 14 Adaptive Filter

    1.3 Nomenklatur

    Die folgende Nomenklatur wurde versucht durchgangig im Skript zu verwenden. steht fur konjugiert komplexT steht fur transponiertH steht fur hermitesch, also transponiert und konjugiert komplex.a, b, c... ist ein (determinierter) Skalar.a,b, c, ... ist eine Zufallsvariable mit Wahrscheinlichkeitsdichtefunktion

    fa(a), Varianz 2a und Mittelwert a.

    a,b,c... ist ein (Spalten-)Vektor mit einer Anzahl von Elementen.1 ist ein Vektor dessen Elemente alle Eins sind.a,b, c... ist ein (Spalten-)Vektor dessen Elemente Zufallsvariablen darstellen.

    Die Verbunddichte dieser Zufallsvariablen ist gegeben durch fa(a).Die Autokorrelationsmatrix dieses Vektors wird mit Raa =E[aa

    H ] bezeichnet.A,B,C, ... bezeichnet eine Matrix bestimmter Dimension, deren Elemente Skalare sind.A,B,C, ... bezeichnet eine Matrix bestimmter Dimension, deren Elemente

    Zufallsvariablen sind.I bezeichnet die Einheitsmatrix mit geeigneter Dimension.aqp angewandt auf den Vektor a bezeichnet die pte Norm zur qten Potenz.

    aqp = (

    i |ai|p)q/paQ angewandt auf den Vektor a bezeichnet diese Norm:

    aHQa.

    Wird ein Argument (k) bei skalaren Groen angehangt oder ein Index k (kleinerBuchstabe) bei Vektoren oder Matrizen eingefuhrt, so handelt es sich um eine weitereZeitabhangigkeit. Zufallsvariablen sind dann als Zufallsprozess zu interpretieren. Wirddagegen ein Grobuchstabe als Index verwendet so kennzeichnet er meist die Dimensiondes Vektors. Positiv definite Matrizen werden oftmals mit der Groer-Relation, also A > 0bezeichnet. Konkret bedeuted dies, dass alle Eigenwerte von A groer als Null sind.

    Lineare Filter werden mit Grobuchstaben und oftmals um die Notation eindeuti-ger zu machen mit einem Argument q1 gekennzeichnet. Zum Beispiel schreiben wirB(q1)[v(k)] = B[v(k] fur eine Folge v(k), die mit den Filterkoeffizienten b(0), b(1)...b(M1)gefiltert werden. Auch rekursive Filterstrukturen konnen auf diese Weise einfach notiert

    werden: B(q1)

    1A(q1) [v(k)] bedeutet ein rekursives Filter der Form:

    y(k) =Nl=1

    a(l)y(k l) +M1l=0

    b(l)v(k l). (1.4)

    Wir werden diese Notation der Z-Transformation vorziehen, denn sie verlangt anders alsdie Z-Transformation keine (Energie-)Bedingung an die Eingangsfolge.

  • Univ.-Prof. DI. Dr.-Ing. Markus Rupp 15

    Da wir mit Vektoren und Matrizen hantieren werden, ist es hilfreich, eine wenige, aberhaufig benutzte Operationen in einer Kurznotation anzugeben. Hierzu gehort insbesonderedas Ableiten nach reell-wertigen und komplex-wertigen Vektoren. Wir vereinbahren fur dasAbleiten nach Vektoren folgende Regeln (fur w IR und z Cl , siehe auch Anhang A fureine ausfuhrliche Diskussion):

    Rw

    w= R

    wTRw

    w= wT [R +RT ]

    Rz

    z= R

    zHRz

    z= zHR.

    Ubung 1.1 Betrachte die folgende Anordnung in Bild 1.12. Man gebe das Fehlersignal inAbhangigkeit vom Eingangssignal x(k) und der Storung v(k) an. Welche Losung ist fur wbei erfolgreicher Adaption zu erwarten? Zu welcher Klasse von Adaptionsschemata handeltes sich bei der Anordnung? Zu welcher Klasse gehort es, wenn man a und w vertauscht?

    - a - w

    6

    - b - c

    ?

    x(k) ty(k)

    d(k) v(k)

    e(k)

    Abbildung 1.12: Adaptive Anordnung

    Ubung 1.2 Zeigen Sie unter welchen Umstanden die Entzerrerschaltung in Abbildung 1.7eine Systemidentifikation darstellt.

  • Kapitel 2

    Grundlagen Stochastik

    Im folgenden Kapitel werden die benotigten Grundlagen der Stochastik prasentiert. Eswerden dabei Least-Mean-Squares (LMS), lineare Losungen (LLMS) hierzu und schlielichdie Wiener-Losung vorgestellt. Eine iterative Losung, der sogenannte Steepest-Descent-Algorithmus wird diskutiert.

    2.1 Least-Mean-Squares

    Im Folgenden werden wir uns mit dem Problem befassen wie man aus BeobachtungenGroen schatzen kann, die man nicht direkt beobachten kann. Betrachten wir eine Zufalls-variable x mit Mittelwert x und Varianz 2x. Also:

    2x = E[x x]2 = E[x2] x2. (2.1)

    Fur mittelwertfreie Zufallsvariablen gilt: 2x = E[x2]. Intuitiv gibt diese Information vor,

    dass sich der gesuchte Wert nicht weit vom Mittelwert befindet; genauer gesagt befindeter sich mit groer Wahrscheinlichkeit in einer Umgebung um den Mittelwert, die durch dieVarianz 2x definiert ist.

    Eine kleine Varianz 2x zeigt an, dass der gesuchte Wert nahe am Mittelwert liegenwird.

    Eine groe Varianz 2x zeigt an, dass der gesuchte Wert in einem groen Intervall umden Mittelwert liegen wird.

    Die Varianz liefert ein Ma fur die Unsicherheit welcher Wert wohl der Richtige ist. Etwasgenauer wird diese Aussage durch die Tschebyscheff-Ungleichung beschrieben:

    P (|x x| ) 2x

    2. (2.2)

    16

  • Univ.-Prof. DI. Dr.-Ing. Markus Rupp 17

    Die Wahrscheinlichkeit, dass der gesuchte Wert im Intervall [x , x + ] liegt, ist alsobeschrankt durch

    2x

    2. Beispielsweise ist die Wahrscheinlichkeit, dass der Wert auerhalb

    von liegt, beschrankt durch 100%, wahrend das Intervall [x 5x, x + 5x] schon eineBeschrankung auf 4% zulasst.

    Im Folgenden wird angenommen, dass Mittelwert und Varianz des unbekannten Wertesbekannt sind. Durch geeignete Schatzmethoden kann der unbekannte Wert x durch denWert x geschatzt werden. Je nach Schatzverfahren konnen unterschiedlich gute Schatzwerteerhalten werden. Die Qualitat der Schatzung kann durch ein Gutema ermittelt werden. Eingeeignetes Gutema konnte beispielsweise darin bestehen, den Abstand des Schatzwerteszum Zufallswert zu bestimmen:

    E[x x]. (2.3)Offensichtlich gehen hier sowohl negative wie auch positive Werte ein und konnen durchAusmitteln ein falsches Bild ergeben. Besser geeignet ist ein quadratisches Ma E[(x x)2].Derjenige Schatzer, der fur dieses Ma den geringsten Wert liefert, ist offensichtlich derBeste. Gesucht ist also ein Schatzverfahren, das folgendes Gutema minimiert:

    minx

    E[(x x)2]. (2.4)

    Quadratische Gutemae sind sehr beliebt, da sie mathematisch einfach zu manipulierensind und ublicherweise zu analytischen Losungen fuhren. Andere Gutemae, wie diel1-Norm (Absolutnorm) sind bei manchen Problemen aber auch sehr aufschlureich undfuhren manchmal zu geringerem Aufwand in der Realisierung.

    Lemma 2.1 Gegeben sei Mittelwert x und Varianz 2x einer Zufallsvariablen x. Der LMS(Least-Mean-Squares) Schatzer x ist optimal, wenn gilt: x = x.

    Beweis: E[(x x)2] = E [([x x] + [x x])2] = 2x + (x x)2.

    Offensichtlich ist in Abwesenheit von weiterer Information der beste Wert zum Schatzen,der Mittelwert. Man betrachte den Schatzfehler e:

    e = x x = x x.

    An dieser Stelle ist es Wert zu bemerken, dass die Varianz des Schatzfehlers genauso groist, wie die Varianz der Zufallsvariablen x1. Offensichtlich hat unser Schatzverfahren dieanfangliche Unsicherheit bzgl. x nicht verandert.

    1Man prufe dies nach.

  • 18 Adaptive Filter

    Im Folgenden werden wir annehmen, dass unser Wissen bzgl. x dadurch vergoert wird,dass wir eine zu x korrelierte Zufallsvariable y kennen. Da die Korrelation zwischen denbeiden Zufallsvariablen eine Information uber das gemeinsame Verhalten der beiden tragt,konnen wir davon ausgehen, durch y auch mehr Information uber x zu erhalten.

    Diese zusatzliche Information mu sich so formulieren lassen, dass unser Schatzwert xfur x besser wird. Nehmen wir an, dass eine funktionale Abbildung von y auf den Schatzerfur x derart existiert, dass

    x = h[y].

    Diese Funktion h[] wird Schatzverfahren oder Schatzer (engl. estimator) genannt. BeimEinsetzen eines Argumentes erhalten wir einen Schatzwert (engl. estimate). Bemerkenswertist, dass es sich beim Schatzwert auch um eine Zufallsvariable handelt, da sie ja alsAbbildung aus einer anderen Zufallsvariablen entstanden ist.

    Lemma 2.2 Das LMS Schatzverfahren (LMSE=least mean squares estimator) von x ge-geben y ist E[x|y]. (Der LMS Schatzwert lautet E[x|y = y].) Das minimale Fehlerquadrat(MMSE= Minimum mean-square-error) ist gegeben durch:

    minx

    E[(x x)2] = E[x2] E[x2].

    Beweis: Per Definition gilt

    E[(x x)2] = E[(x h[y])2] (2.5)=

    (x h[y])2fx,y(x, y)dxdy (2.6)

    =

    fy(y)dy

    ((x h[y])2fx|y(x|y)dx

    ). (2.7)

    Da der erste Term fy(y) 0, kann er als positiver Gewichtungsterm gedeutet werden. Wirkonnen uns also dem zweiten Term zuwenden. Dieser lasst sich bzgl. x differenzieren undman erhalt als Losung fur das Minimum:

    x = E[x|y = y] =

    xfx|y(x|y)dx. (2.8)

    Beispiel 2.1: Betrachtet wird eine Zufallsvariable z = x + y. Die beiden Zufallsvariablenx und y seien unabhangig. x nehme die Werte 1 mit gleicher Wahrscheinlichkeit anund y sei mittelwertfrei gauverteilt mit Varianz 2y. Gesucht ist der LMS Schatzer fur xgegeben z = z.

  • Univ.-Prof. DI. Dr.-Ing. Markus Rupp 19

    Losung: The LMS Schatzer ist gegeben durch

    x = E(x|z = z) =

    xfx|z(x|z)dx. (2.9)

    Um die bedingte Wahrscheinlichkeit zu erhalten, wird zunachst die Wahrscheinlich-keitsdichtefunktion fz(z) berechnet. Da x nur zwei Werte annimmt und dies mit gleicherWahrscheinlichkeit, gilt:

    fz(z) =1

    2fy(z + 1) +

    1

    2fy(z 1).

    Im nachsten Schritt wird die Verbunddichtefunktion fx,z(x, z) bestimmt:

    fx,z(x, z) = fx,y(x, z x) (2.10)=

    1

    2fy(z + 1)(x+ 1) +

    1

    2fy(z 1)(x 1), (2.11)

    wobei (x) die Diracsche Delta Funktion beschreibt. Somit lasst sich die Verbunddichtegeschlossen angeben:

    fx|z(x|z) = fy(z 1)(x 1)fy(z + 1) + fy(z 1) +

    fy(z + 1)(x+ 1)

    fy(z + 1) + fy(z 1)Das Integral in (2.9) lasst sich somit losen. Man erhalt:

    x =fy(z 1)

    fy(z + 1) + fy(z 1) fy(z + 1)

    fy(z + 1) + fy(z 1) (2.12)

    = tanh

    (z

    2y

    )(2.13)

    Der beste Schatzer, der bei gegebener Beobachtung z, einen Schatzwert fur x liefert istoffensichtlich x = tanh(z). Ublicherweise ist es nicht einfach einen expliziten Ausdruckanzugeben. Wenn x und z verbunden gauverteilt sind, ist dies gewohnlich moglich.

    Geometrische Interpretation: Betrachtet werde die Funktion g() auf einer Zufallsvaria-blen y. Da folgender Zusammenhang gilt:

    E(x) = Ey [Ex(x|y)] , (2.14)gilt auch

    E[xg(y)] = Ey (Ex[xg(y)|y]) = Ey (Ex[x|y]g(y)) = E[xg(y)]. (2.15)Somit gilt also:

    E[(x x)g(y)] = 0. (2.16)Die Fehlerzufallsvariable e = x x ist somit unkorreliert zu beliebigen Funktionen einerzweiten korrelierten Zufallsvariablen. Man sagt auch: der Fehler steht orthogonal.

  • 20 Adaptive Filter

    Ubung 2.1 Gegeben seien zwei mittelwertfreie, komplexwertige, verbundgauverteilte Zu-fallsvariablenvektoren x und y der Dimensionen p 1 und q 1. Ihre Wahrscheinlichkeits-dichtefunktionen sind gegeben durch

    fx(x) =1

    pip1

    |detRxx| exp{xHR1xxx} (2.17)

    fy(y) =1

    piq1detRyy exp{yHR1yyy}. (2.18)

    Weiterhin gilt, dass Rxy = RHyx 6= 0.

    Man berechne:

    1. Die Verbundwahrscheinlichkeitsdichte fx,y(x, y).

    2. Die bedingte Wahrscheinlichkeitsdichte fx|y(x|y).3. Die Terme der bedingten Wahrscheinlichkeitsdichte sind so zu arrangieren, dass ein

    Term nur von y abhangt. Hinweis:[Rxx RxyRyx Ryy

    ]1=

    [I 0

    R1yyRyx I] [

    1 00 R1yy

    ] [I RxyR1yy0 I

    ]Dabei muss noch bestimmt werden!

    4. Man gebe den optimalen Schatzer h(y) fur x an.

    5. Man gebe den MMSE fur die Schatzung von x an.

    6. Wie lasst sich die Losung modifizieren, wenn die Zufallsvariablen nicht mittelwertfreisind?

    2.2 Linear Least-Mean-Squares

    Nachdem im vorhergehenden Abschnitt gezeigt wurde, dass die Losung zum LMS Problemdurch den bedingten Erwartungswert

    x = E[x|y1, y2, ..., yn]

    gegeben ist, werden wir uns in diesem Abschnitt speziellen Losungen zuwenden. Wiebereits gezeigt wurde, fuhren Verbund-Gauprozesse bei den Observablen dazu, dass dieLosung des Problems linear beschreibbar ist. Wir werden uns daher konsequent mit denlinearen Losungen befassen. Diese sind dann von groem Interesse wenn die beteiligten

  • Univ.-Prof. DI. Dr.-Ing. Markus Rupp 21

    Zufallsvariablen mittelwertfrei sind.

    Betrachten wir zwei korrelierte, mittelwertfreie Zufallsvariablenvektoren x und y. EinSchatzwert fur x werde durch die Beziehung x = Ky gewonnen. Es gilt, die Matrix K sozu wahlen, dass das Fehlerma minimal wird, d.h.,

    minK

    E[(x x)(x x)H] .

    Hierbei ist eine Matrix als Kostenfunktion zu minimieren was konkret jede beliebige Normauf der Matrix sein kann und die Dimensionen der Vektoren x und y mussen nicht uberein-stimmen. Die Dimension der MatrixK wird entsprechend den beteiligten Vektoren gewahlt.Da bereits Mittelwertfreiheit vorausgesetzt wurde, gilt:

    E[x] = E[Ky] = KE[y] = 0 = E[x]. (2.19)

    Offensichtlich handelt es sich um einen erwartungstreuen (bias-freien, engl.: bias-free)Schatzer. Betrachten wir nun den allgemeinen Fall.

    Lemma 2.3 Der beste lineare Schatzer K fur mittelwertfreie, korrelierte Zufallsvariablen-vektoren x und y ist gegeben durch:

    K = RxyR1yy .

    Der zugehorige MMSE ist gegeben durch:

    Go = minK

    E[(x x)(x x)H] = Rxx RxyR1yyRyx.

    Beweis: Betrachte den MMSE:

    E[(x x)(x x)H ] = E[(xKy)(xKy)H ] (2.20)= Rxx RxyKH KRyx +KRyyKH (2.21)

    Dieser Ausdruck muss nach K optimiert werden. Die Optimierung geht mit folgendemAnsatz. Man vergleicht den obigen Ausdruck mit (K Ko)B(K Ko)H und identifi-ziert die Ausdrucke. Da B = Ryy positiv-definit ist, wird das Minimum an der Stelle

    K = Ko = RxyR1yy erreicht. Den zugehorigen MMSE erhalt man durch Einsetzen des

    optimalen Schatzers in die Definitionsgleichung des MMSE.

    Beide Gleichungen, der optimale Schatzer, sowie der zugehorige MMSE, konnen in einemAusdruck vereint werden: [

    Rxx RxyRyx Ryy

    ] [I

    KHo

    ]=

    [Go0

    ]. (2.22)

  • 22 Adaptive Filter

    Man nennt diesen Gleichungssatz die Normalengleichungen; der Schatzer wird WienerLosung genannt. Das zu bestimmende x wird oft als Wunschsignal (engl. desired)bezeichnet. Die optimale Losung wird also dadurch erhalten, dass die Kovarianz zwischenWunschsignal und Schatzwert minimiert wird.

    Satz 2.1 Gegeben seien zwei mittelwertfreie Zufallsvariablenvektoren x und y. Der lineareSchatzer Ky ist dann und nur dann ein linearer LMS Schatzer fur x, wenn gilt:

    E[(xKy)yH] = 0.

    Ist Ryy nichtsingular, so existiert ein eindeutiges K = Ko mit dieser Eigenschaft.

    Beweis: Es wurde bereits gezeigt (siehe (2.16)), dass fur den LLMSE von x die Orthogo-nalitat des Fehlers gilt. Es muss also noch gezeigt werden, dass die Orthogonalitat auchzum LLMSE fuhrt. Wir nehmen ein beliebiges K an und erhalten den Fehler

    E[(xKy)(xKy)H] = E [(xKy)xH (xKy)yHKH] .

    Das Minimum wird aber nur erreicht, wenn K = Ko (siehe Lemma 2.3).

    Beispiel 2.2: Betrachtet wird ein lineares Modell:

    y = Wx+ v.

    W ist hierbei eine Matrix mit geeigneter Dimension, v eine additive, mittelwertfreie Storungmit Autokorrelationsmatrix Rvv und x ein Zufallsvariablenvektor mit bekannter Autokorre-lationsmatrix Rxx. Es gelte weiterhin, dass Rxv = 0. Ziel ist es x aufgrund der Beobachtungy optimal zu schatzen. Wir erhalten die folgenden Beziehungen:

    Ryy = WRxxWH +Rvv (2.23)

    Rxy = RxxWH . (2.24)

    Damit kann der LLMSE von x angegeben werden als:

    x = RxxWH [WRxxW

    H +Rvv]1y

    Wenn sowohl Rxx als auch Rvv nichtsingular sind, kann der Ausdruck auch folgendermaenumgeformt werden:

    x = [WHR1vvW +R1xx ]

    1WHR1vvy

    Damit ergibt sich der MMSE zu:

    minx

    E[(x x)(x x)H] = min

    xE[(x x)xH] (2.25)

    = Rxx [WHR1vvW +R1xx ]1WHR1vvWRxx (2.26)= [WHR1vvW +R

    1xx ]

    1. (2.27)

  • Univ.-Prof. DI. Dr.-Ing. Markus Rupp 23

    Die letzte Umformung erfolgt aus dem Matrix-Inversions-Lemma.

    Lemma 2.4 (Matrix-Inversions-Lemma) Fur nichtsingulare Matrizen A und C gilt:

    (A+BCD)1 = A1 A1B[DA1B + C1]1DA1.

    Beweis: Der Beweis erfolgt durch Einsetzen und Verifizieren.

    Beispiel 2.3: Abschlieend soll noch ein Spezialfall untersucht werden. Es wird angenom-men, dass die Matrix W und der zu schatzende Vektor x die Dimension m 1 hat. DieBeobachtungsgleichung ergibt sich dann als

    y = wTx+ v.

    Der Schatzer lautet dann

    x =yRxxw

    wTRxxw + 2v.

    Fur den Spezialfall eines weien Vektor-Prozesses x, erhalt man Rxx = 2xI und somit

    x =yw

    w22 + 2v

    2x

    .

    Zusammenfassend lasst sich der lineare Least-Mean-Squares Schatzer in der folgendenTabelle 2.1 angeben.

    Ubung 2.2 Gegeben sei ein linearer Schatzer K fur einen Zufallsvariablenvektor x unddie Beobachtung y. Man zeige, dass fur den Fehler G(K) und jedes beliebige v und K gilt:

    vHGov vHG(K)v.

    Ubung 2.3 Gegeben sei die folgende Beobachtungsgleichung:

    y(k) = a cos(2pifok) + v(k); k = 1, 2, ..., N.

    Hierbei sei a eine mittelwertfreie Zufallsvariable mit Varianz 2a, welche unkorreliert mitdem additiven mittelwertfreien, weien Rauschen v(n) mit Varianz 2v ist. Weiterhin seidie Frequenz fo bekannt. Aus den Beobachtungen y(1), ...,y(N) soll die Zufallsvariable aoptimal geschatzt werden. Man gebe den optimalen Schatzer fur a an und berechne dendazugehorigen minimalen Fehler.

  • 24 Adaptive Filter

    Gegeben LLMSE von x{x,y},{Ryy, Rxy, Rxx} x = RxyR1yyyE[x]= E[y]=0 MMSE = Rxx RxyR1yyRyxy = Wx+ v, x = RxxW

    H [WRxxWH +Rvv]

    1y{Rxx, Rvv,W}, oderE[x]= E[y]= E[v]=0, x = [WHR1vvW +R

    1xx ]

    1WHR1vvyE[xvH ]=0 MMSE= [WHR1vvW +R

    1xx ]

    1

    y = wTx+ v, x =yRxxw

    wTRxxw + 2v{2x, 2v, w},E[x]=0, E[y]= E[v]=0 MMSE=Rxx Rxxw

    wTRxxwTRxxw+2v

    E[xv]=0

    Tabelle 2.1: Linearer LMS Schatzer bei Mittelwertfreiheit.

    2.3 Verfahren des Starksten Abfalls: Der Steepest De-

    scent Algorithmus

    Im Vordergrund der Betrachtung soll wieder folgende Beobachtungsgleichung stehen:

    d = wTx+ v = xTw + v. (2.28)

    Im Unterschied zur bisherigen Betrachtungsweise sollen nun aber sowohl der Ausgang dals auch der Eingang x beobachtet werden. Gegeben sei die Autokorrelationsmatrix Rxx =

    E[xxH ] =(E[xxT ]

    )=(E[xxT ]

    )T. Das additive Rauschen v sei statistisch unabhangig

    von x. Die Kreuzkorrelierte rxd =E[xd] liefert:

    rxd = Rxxw.

    Offensichtlich lassen sich die unbekannten Gewichte w durch Minimieren des quadratischenFehlers

    minw

    E[d wTx2] (2.29)

    bestimmen. Es genugt die Kenntnis von Rxx und rxd. Wenn Rxx regular ist, kann die

    Losung des Verfahrens angegeben werden:

    wo =(Rxx

    )1rxd.

    Dies ist bereits als lineare LMS- , oder Wiener Losung gezeigt worden. Problematisch isthierbei die erforderliche Matrixinversion. Ein Verfahren, das ohne Matrixinversion aus-kommt, ist das Verfahren des starksten Abfalls (engl.: Steepest Descent Algorithm).

  • Univ.-Prof. DI. Dr.-Ing. Markus Rupp 25

    Man geht dabei iterativ vor, um die geschatzten Gewichte w Schritt fur Schritt zu verbes-sern. Der Algorithmus nimmt folgende Form an:

    wk = wk1 + (k)zk; k = 1, 2, .... (2.30)

    Hierbei zeigt wk an, dass es sich um einen Schatzwert von w handelt. Die Iteration beginntbei einem Anfangswert w0 aus dem im ersten Iterationsschritt der (verbesserte) Wertw1 berechnet wird, usw. Dass dieser Schatzwert iterativ verbessert wird, wird durch denIndex k ausgedruckt (der keinen Zeitindex darstellt). Die Verbesserung in Richtung zkwird durch eine sogenannte Schrittweite (k) > 0 kontrolliert. Wir werden uns also mitder Frage befassen mussen, welche Richtung zk zum gewunschten Ziel fuhren kann und wiedie Schrittweite dann gewahlt werden muss.

    Betrachten wir noch einmal die Beobachtungsgleichung (2.28). Nehmen wir an, dassuns nur d gegeben ist und wir wollen dieses durch eine Linearkombination von x und wschatzen. Ist w gegeben, so kann man schreiben:

    go = minw

    E(d xT w)2 . (2.31)

    Wegen rxd = rdx kann man den Ausdruck

    g(w) = E(d xT w)2 = 2d wT rxd rTdxw + wTRxxw (2.32)

    als Kostenfunktion (Gutefunktion) ansehen, die nach w zu minimieren ist. Da die Funktionquadratisch in w ist (ein Paraboloid), muss sich ein eindeutiges Minimum zurWiener Losungw = wo ergeben. Dieses Minimum erhalt man aus der bekannten Ortogonalitatsbeziehung(2.16)

    E[(d wTo x)xH ] = 0H ,zu

    go = 2d rHxdR1xxrxd. (2.33)

    Durch Einsetzen von (2.33) in (2.32) erhalt man die folgende Darstellung:

    g(w) = go + (w wo)TRxx(w wo). (2.34)Offensichtlich handelt es sich bei der Funktion g(w) um eine quadratische Funktion.

    Dies lasst sich auch verdeutlichen, indem man die Funktion in eine Taylor Reihe um denPunkt wk1 entwickelt:

    g(w) = g(wk1) +g(wk1)(w wk1

    )+(w wk1

    )H 2g(wk1) (w wk1) . (2.35)Die Ableitungen ergeben sich wie folgt. Der Gradient ergibt sich durch Ableitung der

    Kostenfunktion nach w:

    g(wk1) =g(w)

    w

    w=wk1

    = [w wo]HRxx. (2.36)

  • 26 Adaptive Filter

    Man beachte, dass der Gradient einen Zeilenvektor darstellt. Diese Beziehung lasst sichauch aus (2.34) direkt gewinnen. Der zweite Term in (2.36) ist wegen der Orthogonalitats-beziehung bereits bekannt als die Kreuzkorrelierte rxd zwischen x und d, also w

    Ho R

    xx = r

    Txd

    oder auch Rxxwo = rxd. Damit erhalt man:

    g

    w= wHRxx rTxd. (2.37)

    Die zweite Ableitung erfolgt durch weitere Ableitung des Gradienten:

    2g(wk1) = Rxx. (2.38)Die Funktion g(w) ist hinreichend glatt, so dass jedem Punkt ein Gradient zugeordnet

    werden kann. Dieser zeigt in Richtung des steilsten Anstiegs. Da dieser Gradient in jedemPunkt w zum steilsten Anstieg hinzeigt, wird er vom Minimum wegzeigen. Der negative(und konjugiert komplexe) Gradient wird andererseits zum steilsten Abstieg (und somitzumindest in etwa zum Minimum) hinzeigen. Man kann daher den negativen (und konju-giert komplexen, transponierten) Gradienten als Richtungsvektor zk = (r

    xd Rxxwk1)

    nehmen.

    Die Kostenfunktion (2.34) ist in Abbildung 2.1 fur nur zwei Parameter w1 und w2(wT = [w1, w2]) verdeutlicht. Im rechten Konturschnitt sind ausserdem negative Gradientenan verschiedenen Punkten eingetragen. Man erkennt, dass vom Minimum weit entferntePunkte keinen Gradienten haben, der direkt auf das Minimum weist, sondern nur in etwazum Minimum hinweisen. Erst das schrittweise Vorgehen gewahrleistet, dass das Minimumerreicht wird.

    Man kann nun den iterativen Ansatz (2.30) in die Kostenfunktion (2.35) einsetzen underhalt:

    g(wk) = g(wk1) +g(wk1)(k)zk + 2(k)zHk 2g(wk1)zk, (2.39)wodurch nun der Entwicklungspunkt der Taylorreihe als w = wk bezeichnet wird. Fordertman, dass die Kostenfunktion abnimmt, also

    g(wk) < g(wk1) (2.40)

    so muss man fordern, dass(k)g(wk1)zk < 0. (2.41)

    Diese Bedingung ist fur viele Suchrichtungen erfullbar. Insbesondere ist sie fur alle Rich-tungen der Art:

    zk = BHg(wk1) (2.42)fur positiv-definite Matrizen B erfullt.

  • Univ.-Prof. DI. Dr.-Ing. Markus Rupp 27

    Abbildung 2.1: Kostenfunktion: links als Paraboloid, rechts als Konturschnitt.

    Setzt man B = I, so erhalt man die komplette Gleichung fur den Steepest-DescentAlgorithmus:

    wk = wk1 + (k)[rxd Rxxwk1], k = 1, 2, ... (2.43)

    Diese Darstellung lasst sich allgemein formulieren als:

    Neuer Schatzwert = alter Schatzwert + Korrektur,

    eine Formulierung, der wir immer wieder bei adaptiven Filtern begegnen werden. Die Wahldes Korrekturterms ist verantwortlich fur Konvergenz des Filterverfahrens, Genauigkeitder Losung und die Adaptionsgeschwindigkeit (oder Adaptionsrate).

    Betrachen wir die Differenz

    wk= wo wk (2.44)

    zwischen aktuellem Schatzwert wk und der Wiener Losung wo, so lasst sich die Adaptions-gleichung (2.43) in dieser neuen Variablen formulieren als

    wk = wk1 (k)Rxxwk1 (2.45)=

    (I (k)Rxx

    )wk1, k = 1, 2, ... (2.46)

    Die Differenz (2.44) wird auch Parameterfehlervektor oder kurz Fehlervektor genannt. Of-fensichtlich handelt es sich bei (2.46) um eine homogene Differenzengleichung. Diese lasst

  • 28 Adaptive Filter

    sich diagonalisieren QRxxQH = und man erhalt mit der Transformation u = Qw:

    uk = (I (k))uk1, (2.47)ui(k) = (1 (k)i)ui(k 1). (2.48)

    Der Index i bezeichnet hierbei den iten Eintrag des Vektors u und i sind die Eintrageder Diagonalmatrix . Aus der diagonalisierten Darstellung (2.48) lasst sich sofort dieKonvergenzbedingung des iterativen Algorithmus ablesen:

    |1 (k)i| < 1. (2.49)Dies lasst sich gleichwertig explizit fur die Schrittweite (k) ausdrucken zu

    0 < (k) max. Dadurch besteht also die Moglichkeit, die Schrittwei-

    te noch weiter nach unten abzuschatzen, ohne eine Eigenwertanalyse vornehmen zu mussen.

    Ist diese Bedingung fur die Schrittweite erfullt, kann die Losung des homogenenDifferenzengleichungssystems also durch exponential abklingende Terme der Formk

    l=1(1 (l)i) beschrieben werden. Interessant ist weiterhin die Adaptionsrate, dieGeschwindigkeit mit der diese Terme abklingen. Je kleiner der Term (1 (k)i) ist, destoschneller tendiert der Fehlervektor gegen null. Die Wahl (k) = 1/i mag also optimalerscheinen. Leider ist sie nur optimal fur einen Eigenwert.

    Die gesamte Betrachtung dieses Abschnitts war auf quadratische Kostenfunktionen be-schrankt. Dies bedeutet jedoch nicht, dass das Verfahren des starksten Abfalls sich nur aufsolche Kostenfunktionen beschrankt. Hat man eine beliebige Kostenfunktion vorliegen, sokann man wie in (2.35) einen Taylor-Ansatz wahlen. Man erhalt dann:

    g(w) = g(wk1)+g(wk1)(w wk1

    )+(w wk1

    )H 2g(wk1) (w wk1)+..., (2.51)also auch weitere Terme, die nicht linear oder quadratisch sind. Demnach genugt dieBedingung (2.41) nicht mehr, um das globale Minimum zu finden. Die quadratischenTerme weisen allerdings darauf hin, dass es um einen oder mehrere Punkte Parabelngibt, die den Verlauf der Kostenfunktion um diese Punkte annahern. Verwendet mandas Iterationsverfahren des steilsten Abfalls, so wird man ein lokales Minimum finden.Dieses muss aber dann nicht dem globalen Minimum entsprechen. Dies ist nur bei einerquadratischen Kostenfunktion gesichert.

  • Univ.-Prof. DI. Dr.-Ing. Markus Rupp 29

    Ubung 2.4 Gegeben seien die Eigenwerte i der Autokorrelationsmatrix Rxx. BerechnenSie die konstante Schrittweite derart, dass

    min

    maxi

    |1 i| .Hinweis: man betrachte die beiden Extrema 1 min und 1 max.

    Ubung 2.5 Man betrachte die Gleichung (2.42) und wahle B =(Rxx

    )1. Was kann man

    uber sie so erhaltene Iterationsgleichung vom Newton-Typ sagen? Fur welche Schrittweiten erhalt man Konvergenz?

    Ubung 2.6 Man leite den Steepest-Descent Algorithmus (2.34)-(2.43) fur reellwerteSignale her. Was andert sich?

    Ubung 2.7 Man betrachte die unendliche Reihe (I R)k bei positiv definiter Matrix R.Unter welcher Bedingung konvergiert

    k=0(IR)k? Welchem Wert strebt die Summe zu?

    Ubung 2.8 Man zeige, dass die optimale Schrittweite dadurch erreicht wird, dass diequadratische Kostenfunktion (2.35) sich maximal schnell verringert und somit gegeben istdurch:

    opt(k) =g(wk1)2

    g(wk1)RxxHg(wk1).

    Matlabexperiment 2.1 Fur ein lineares System der Lange M = 10 mit weiem(alternativ auch farbigem) Anregungssignal berechne man die Wiener Losung und tragedie Kostenfunktion g(wk1) fur die ersten 100 Werte von k graphisch auf. Man verwendeeinmal eine feste Schrittweite und einmal die optimale zeitvariante Schrittweite aus denobigen Rechenubungen.

    2.4 Literaturhinweise

    Eine gute Ubersicht zu Schatzverfahren findet man in [27]. Eine Einfuhrung zum ThemaSteepest Descent Algorithmus ist in [24] zu finden.

  • Kapitel 3

    Der LMS Algorithmus

    Der LMS Algorithmus ist mit Abstand der am haufigsten eingesetzte adaptive Algorithmus.Seine Vorteile liegen in der numerischen Stabilitat, der niedrigen Komplexitat und wie wirim weiteren noch sehen werden, in seiner Robustheit. Fast alle in der Praxis eingesetztenadaptiven Algorithmen sind LMS Algorithmen oder LMS-Derivate. Im folgenden Kapitelwird der LMS Algorithmus zunachst in seiner klassischen Herleitung als Naherung zumSteepest-Descent Verfahren eingefuhrt. Dann werden seine wesentlichen Eigenschaften wieKonvergenzgeschwindigkeit und Restfehler durch stochastische Betrachtung analysiert. ImGegensatz dazu werden wir auch den LMS Algorithmus unter determinierten sinusformigenSignalen diskutieren. Anwendungsspezifische Details runden das Kapitel ab.

    3.1 Klassischer Ansatz: Approximative Wiener

    Losung

    Betrachten wir noch einmal Gleichung (2.43) fur Steepest-Descent mit konstanter Schritt-weite :

    wk = wk1 + (rxd Rxxwk1), k = 1, 2, ...

    Sie erfordert Kenntnis der Kreuzkorrelierten rxd sowie der Autokorrelationsfunktion Rxx desEingangsprozesses. Sind diese nicht bekannt, so kann man Schatzwerte fur diese einsetzen.Verwendet man den Eingangssignalvektor

    xTk= [x(k),x(k 1), ...,x(k M + 1)], (3.1)

    dann lauten die wohl einfachsten (Instantan-)Schatzwerte:

    Rxx = xkx

    Tk (3.2)

    rxd = xkd(k). (3.3)

    30

  • Univ.-Prof. DI. Dr.-Ing. Markus Rupp 31

    Setzt man diese Schatzwerte ein, so erhalt man unmittelbar den LMS Algorithmus:

    wk = wk1 + xk (d(k) xTk wk1)

    ea(k)

    . (3.4)

    Eigentlich ist dieser Name LMS irrefuhrend. Richtigerweise handelt es sich um einstochastisches Gradientenverfahren, da der Gradient nicht wie beim Steepest DescentVerfahren in eine feste durch die Statistik gegebene Richtung weist, sondern mit denWerten des Eingangssignals xk schwankt. Allerdings hat sich der Name LMS Algorithmusin der Literatur der digitalen Signalverarbeitung von Anfang an eingepragt und soll daherauch hier Verwendung finden. Man bedenke allerdings, dass es sich beim LMS Schatzerklassischerweise um eine Schatzung mit einer nichtlinearen Funktion handelt, so wie es imvorigen Kapitel beschrieben wurde. Wie wir im Kapitel uber Robustheit sehen werden istder Name stochastisches Gradientenverfahren auch nicht notwendiger weise korrekt, da derAlgorithmus sehr wohl ohne das Vorhandensein von Zufallsgroen funktioniert.

    Man beachte, dass die Schatzwerte nun auch Zufallsprozesse darstellen; genauso wied(k) und xk. Der Fehlerterm (d(k) xTk wk1) wird gestorter a-priori Fehler genannt, daer mit den a-priori Schatzwerten wk1 gebildet wird. Analog existiert auch ein gestorter a-posteriori Fehler, der mit den a-posteriori Schatzwerten wk gebildet wird: ep = d(k)xTk wk.

    Erste Varianten dieses Algorithmus erhalt man unmittelbar durch verschiedene Wahlvon Schrittweiten. Zeitvariante Schrittweiten (k) erscheinen praktisch; insbesondere dann,wenn man sie an die Energie des Eingangsprozesses koppelt. Man erhalt so die folgendenAlgorithmen:

    Allgemein zeitvariante Schrittweite (k): stochastischer Gradientenalgorithmus. (k) = /xk2: normierter LMS oder NLMS Algorithmus. (k) = /[+ xk2] mit > 0, -NLMS Algorithmus[4]. (k) = /[1 + xk2] a-posteriori Form des LMS Algorithmus.Neben der geringen Komplexitat und der Einfachheit tragt sicherlich noch ein weiterer

    Punkt zur Popularitat des LMS Algorithmus bei: die generische Herleitbarkeit neuer ad-aptiver Algorithmen. Man benotigt nur einen Fehlerterm, den man in geeigneter Weise alsKostenfunktion einsetzt, beispielsweise

    minE [f [ea(k)]] ,

    leite nach dem gesuchten Parametersatz wk1 ab und schreibe ein Gradientenverfahrennach der Idee: Neuer Schatzwert gleich alter Schatzwert plus negativer Gradient. In den

  • 32 Adaptive Filter

    meisten Fallen fuhrt dies auch zum Erfolg. Naturlich muss der Algorithmus, um ihnrichtig einsetzen zu konnen, erst analysiert werden. Meist ist dies jedoch mit statistischenVerfahren aussichtslos. Es soll abschlieend noch ein Beispiel zur generischen Herleitunggezeigt werden. Man minimiere E[|ea(k)|K ]. Ableiten nach wk1 fuhrt auf den Gradienten:E[K

    2|ea(k)|K2xkea(k)]. Der Erwartungswert wird durch die Instantanwerte ersetzt und

    schon erhalt man:

    Der Least-Mean-K Algorithmus:

    wk = wk1 + (k)|ea(k)|K2xkea(k). (3.5)

    Ubung 3.1 Man leite einen adaptiven Algorithmus zur Minimierung der KostenfunktionE[|ea(k)|] her und unterscheide hierbei den Fall komplex-wertiger und reell-wertiger Signale.

    Ubung 3.2 Ein ungestortes, nichtlineares System verhalte sich wie folgt: y(k) =xTkw1+xx

    Tkw2 mit xx(k i) = x(k)x(k i), i = 0, 1, ..M2 1. Die Parameter-Vektoren w1

    und w2 haben die Dimensionen M1 1 und M2 1. Man leite einen adaptiven Algorithmuszur Minimierung des (additiv gestorten) Fehlerquadrates her. Wie lautet die AKF-Matrixdes Eingangs- Vektorprozesses, wenn es sich bei x(k) um einen weien Gauprozesshandelt?

    3.2 Verhalten in stationarer Umgebung

    Die Lerneigenschaft des LMS Algorithmus in einer konstanten (zeitlich nicht varianten)Umgebung beschrieben durch den Optimalvektor wo lasst sich unter bestimmten Annah-men mit Hilfe von statistischen Rechenregeln ermitteln. Diese Annahmen sind jedoch starkvereinfachend und spiegeln das Verhalten nur im Falle eines Linearkombinierers (engl:linear combiner) exakt wieder.

    3.2.1 Annahmen

    Annahmen: (Unabhangigkeitsannahme, engl: Independence Assumption)

    Die Beobachtung d(k) entsteht aus dem Referenzmodell d(k) = wTo xk + v(k), mitmittelwertfreien Prozessen x(k) und v(k).

    Die Vektoren xk des Eingangsprozesses seien statistisch unabhangig voneinander, d.h.fxx(xk, xl) = fx(xk)fx(xl) fur k 6= l.

  • Univ.-Prof. DI. Dr.-Ing. Markus Rupp 33

    Der Eingangsprozess xk ist mittelwertfrei und zirkular (spharisch invariant[5]) gau-verteilt.

    Das additive Rauschen v(k) ist statistisch unabhangig vom Eingangsprozess xk.Man beachte, dass durch diese Bedingungen die Vektoren wk statistisch unabhangig sindvon xl, l > k.

    3.2.2 Der Fehlervektor im Mittel

    Zunachst einmal lasst sich der Parameterfehlervektor (kurz Fehlervektor, engl. parametererror vector, weigth error vector, tap error vector)

    wk= wo wk (3.6)

    im Mittel betrachten, d.h.

    wk = (I xkxTk )wk1 xkv(k); k = 1, 2, ... (3.7)E[wk] = E[(I xkxTk )wk1]; k = 1, 2, .... (3.8)

    Da die Vektoren wk1 statistisch unabhangig sind von xk, gilt:

    E[wk] = E[I xkxTk ]E[wk1] = (I Rxx)E[wk1]. (3.9)Aus dieser Gleichung erkennen wir sofort, dass sich die Fehlervektoren im Mittel genausoverhalten wie die Fehlervektoren beim Steepest-Descent Algorithmus. Wir konnen somitdirekt die notwendige Bedingung fur Konvergenz im Mittel angeben:

    0 < 0 kann aber die modifizierte Matrix I +XHN (k)XN(k) invertiert werden. Allerdings ist es gar nicht notig, eine Matrix der groerenDimension M zu invertieren, denn durch das Matrix Inversions-Lemma gilt:(

    I +XHN (k)XN(k))1

    XHN (k) = XHN (k)

    (I +XN(k)X

    HN (k)

    )1. (4.58)

    Es ist somit nur eine Matrix der Dimension N N zu invertieren. Die Adaptionsgleichungdes -APA lautet somit:

    wN(k) = wN(k 1) + XHN (k)(I +XN(k)X

    HN (k)

    )1[dN(k)XN(k)wN(k 1)] . (4.59)

    Zwei Extremfalle dieser Adaptionsgleichung sind von besonderem Interesse und sollendaher weiter besprochen werden. Der erste Fall betrachtet N = 1. Wir erhalten denLMS Algorithmus. Dieser kann also als Spezialfall des -APA betrachtet werden fur einBeobachtungsfenster der Lange eins.

    Der zweite Spezialfall betrachtet = 1 und = 0. Ist die MatrixXN(k)XHN (k) mit jedem

    Wert von k vom Rang N , so ist sie invertierbar und der Algorithmus wird konvergieren.Interessant ist es fur diesen Fall die Abhangigkeit der a-posteriori zu den a-priori Fehlernzu betrachten. Da N Werte betrachtet werden, betrachtet man einen ganzen a-priori (unda-posteriori) Fehlervektor:

    ea(k)= [dN(k)XN(k)wN(k 1)] , ep(k) = [dN(k)XN(k)wN(k)] . (4.60)

    Einsetzen dieser Definitionen in die Adaptionsgleichung ergibt den gesuchten Zusammen-hang:

    ep(k) =[I XHN (k)(XN(k)XHN (k))1XN(k)

    ]ea(k). (4.61)

    Bei der Matrix I XHN (k)(XN(k)XHN (k))1XN(k) handelt es sich um eine sogenannte Pro-jektionsmatrix. Beachten wir einen Vektor z der sich aus zwei orthogonalen Komponentenzusammensetzt: einer Linearkombination aus XHN (k) und einem Vektor, der orthogonal zudem Unterraum steht, der von XHN (k) aufgespannt wird, also z = y+X

    HN (k)x. Multipliziert

    man diese Projektionsmatrix von links an den Vektor, so erkennt man, dass dieser sichgerade um den Teil verkurzt, der durch die Linearkombination in XHN (k) bestimmt ist, alsox verschwindet. Andererseits bleibt der orthogonale Anteil y unverandert erhalten. Es lasstsich nun zeigen, dass sich der a-priori Fehlervektor ea(k) nur aus Linearkombinationen vonXHN (k) darstellen lasst und damit muss der a-posteriori Fehler ep(k) = 0, also verschwinden.

    Mit dieser Eigenschaft lasst sich die Kostenfunktion des APA auch beschreiben als:

    min wN(k) wN(k 1) mit der Nebenbedingung ep(k) = 0.

  • 64 Adaptive Filter

    Es gibt also unendlich viele Vektoren fur wN(k), die ep(k) = 0 losen (alle mit verschie-denem Orthogonalanteil y). Diese Losungsmenge wird als affiner Unterraum (engl.: affinesubspace, hyperplane, manifold) bezeichnet, eine Bezeichnung, die darauf hinweisen soll,dass die durch die Losungsmenge definierte Ebene nicht notwendigerweise durch wN(k) = 0geht. Fur den Fall N = 1 spricht man davon, dass der APA (NLMS Algorithmus mitnormierter Schrittweite = 1) wN(k 1) die Losung wN(k) durch Projektion bzgl. desaffinen Unterraums erhalt. Bei N > 1 wird die Losung durch die Schnittmenge all dieseraffinen Unterraume genommen. Der APA findet also die Losung durch Projektion bzgl.der Schnittmenge affiner Unterraume. Man beachte, dass diese Projektionseigenschaftenfur den uberbestimmten Fall N > M , also beim RLS Algorithmus verloren gehen.

    Ubung 4.6 Man leite eine rekursive Darstellung fur den LS Algorithmus mit gleitendemRechteckfenster (4.24) her.

    Ubung 4.7 Man leite eine rekursive Darstellung fur den LS Algorithmus mit Exponenti-algewichtung her:

    gLS(w) =Ni=1

    Ni|ea(i)|2 =Ni=1

    Ni|d(i) xTi w|2. (4.62)

    Man gebe die Kostenfunktion als Funktion des a-priori- und des a-posteriori Fehlers an.

    Ubung 4.8 Kann man auch beim LMS Algorithmus eine solche Beziehung wie in (4.39)zwischen a-priori- und a-posteriori Fehlers angeben?

    Ubung 4.9 Man leite den LMS Algorithmus aus dem Steepest-Descent Algorithmus furfolgende Schatzwerte her:

    Rxx =1

    N

    N1l=0

    xlkxTlk (4.63)

    rxd =1

    N

    N1l=0

    xlkd(l k). (4.64)

    Man nehme hierzu an, dass der Eingangsprozess x(k) stationar sei. Unter welcher Schritt-weitenbedingung erhalt man den RLS Algorithmus?

  • Univ.-Prof. DI. Dr.-Ing. Markus Rupp 65

    4.3 Verhalten in stationarer Umgebung

    Ahnlich wie beim LMS Algorithmus lassen sich auch beim RLS Algorithmus Kenngroenangeben, die sein Verhalten in stationarer Umgebung charakterisieren. Dies betrifft zumeinen die Adaptionsgeschwindigkeit und zum anderen den Restfehler. Es wird also wiederdas Referenzmodel aus Lemma 4.1 betrachtet

    dN = XNwo + vN . (4.65)

    Da es sich beim LS-Verfahren (genau wie bei seiner rekursiven Form auch) um einLosungsverfahren zu einem Gleichungssystem der Ordnung M handelt, wird sich nachN = M Schritten eine stationare Losung einstellen, deren Wert nur noch wenig vomadditiven Rauschen abhangt. Setzt man dagegen das rekursive Verfahren ein, so sind imAnfangszustand die Vektoren xk; k = 1..N noch nicht initialisiert. Daher wird es noch ein-mal M Schritte dauern, bis der Algorithmus anfangen kann richtig zu arbeiten. Insgesamtkann man also mit 2M Schritten rechnen bis der RLS Algorithmus konvergiert ist. Dies istoffensichtlich eine wesentliche Beschleunigung gegenuber dem LMS Algorithmus, ja selbstgegenuber dem Newton-LMS Algorithmus, fur den der RLS Algorithmus eine Naherungdarstellt (P1 Rxx). Ahnlich wie beim Newton-LMS Algorithmus wird diese Eigenschaftunabhangig von der Korrelation der Eingangssignale erreicht.

    Um den Restfehler zu berechnen, werden wir im folgenden den exponentiell-gewichtetenRLS Algorithmus betrachten, da er am haufigsten eingesetzt wird. Seine Gleichungen lauten:

    wk = wk1 + kk[d(k) xTk wk1], (4.66)kk =

    1Pk1xk1 + 1xTkPk1x

    , (4.67)

    Pk = 1[Pk1 kkxTkPk1]. (4.68)

    Man beachte, dass wir einen Notationswechsel vorgenommen haben. Statt dem Index N ,der sowohl fur Zeit und Beobachtungsfenster gestanden hat, nehmen wir nun den Zeitpunktk 1. Damit wollen wir zum einen auf die formale Ahnlichkeit zum LMS Algorithmushinweisen und zum anderen andeuten, dass ja jetzt kein Rechteckfenster der Lange N mehrzum Einsatz kommt, und somit die Beobachtungsdauer N damit an Aussagekraft verliert.

    Wir betrachten zunachst das additive Rauschen als Zufallsprozess wodurch der Schatz-wert wk ebenfalls ein Zufallsprozess wird. Aus der unteren Zeile in (4.23) und dem Refe-renzmodell gewinnt man fur 1 = 0, Q = und beliebiges 2v

    limk

    Ev[(wo wk)(wo wk)H ] = limk

    [XHk1Xk1]1[XHk1

    2Xk1][XHk1Xk1]12v.

    (4.69)

  • 66 Adaptive Filter

    Die Diagonaleintrage der Matrix lauten ii = ki. Ebenso lasst sich auch der Eingangs-

    prozess x(k) als Zufallsgroe auffassen. Dann kann man, zumindest naherungsweise, auchden Erwartungswert bzgl. Xk1 angeben als:

    Ex[[XHk1Xk1]

    1[XHk12Xk1][XHk1Xk1]

    1] (Rxx ki=1

    ki)1 [

    Rxx

    ki=1

    2k2i](

    Rxx

    ki=1

    ki)1

    .

    (4.70)Dieser Ausdruck lasst sich weiter vereinfachen zu

    limk

    E[(wo wk)(wo wk)H ] 1 1 +

    R1xx2v. (4.71)

    Damit lasst sich der Restfehler des Parameter-Fehlervektors (engl. mismatch) angeben zu

    limk

    Spur[E[(wo wk)(wo wk)H ]

    ] 1 1 +

    Spur[R1xx ]2v (4.72)

    =1 1 +

    2v

    Mi=1

    1

    i(4.73)

    Der Restfehler des a-priori Fehlers ergibt sich zu (unter der Annahme, dass 2x = 1)

    limk

    E[|ea(k)|2] = 2v + limk

    Spur[E[(wo wk)(wo wk)H ]Rxx

    ](4.74)

    = 2v

    (1 +M

    1 1 +

    )(4.75)

    und somit das Misadjustment zu

    mLS =M1 1 +

    . (4.76)

    Beachte, dass fur reell- und komplex-wertige Gaussprozesse genaue Ausdrucke existieren,da diese als Wishart Prozess formuliert werden konnen. Allerdings sind fur Matrizen derDimension 10 und groer die angegeben Formeln schon hinreichend exakt.

    Matlabexperiment 4.1 Man wiederhole die Matlabexperimente 3.1 und 3.2 jedochmit dem exponentiell gewichteten RLS Algorithmus. Statt verschiedener Schrittweiten,verwende man verschiedene Vergessensfaktoren im Bereich [0.7..1.0]. Man vergleiche dieexperimentellen Ergebnisse mit den theoretischen Voraussagen.

    Ubung 4.10 Fur den Fall dass der Vergessensfaktor eins ist, berechne man den Ausdruck(4.70) exakt. Man nehme hierzu an, dass es sich beim Eingangsprozess um einen mittel-wertfreien Gaussprozess handelt. Welche Aussagen erhalt man nun fur die Restfehler unddas Misadjustment?

  • Univ.-Prof. DI. Dr.-Ing. Markus Rupp 67

    4.4 Andere Losungsformen

    Ein Nachteil des RLS Verfahrens ist immer noch der ungeheuere Aufwand, insbesonderewenn die Anzahl der zu schatzenden Parameter M gro wird. Es stellt sich daher dieFrage, ob die Komplexitat O(M2) nicht weiter zu reduzieren ist. Hierzu haben sichverschiedene (aber ahnliche) Losungen ergeben, die unter dem Namen Fast-TransversalFilter (=FTF) Algorithmen bekannt sind. In ihrer einfachsten Form werden nur noch 7MMAC Operationen verwendet. Neben diesen sind zahlreiche Divisionen erforderlich. FTFAlgorithmen sind numerisch instabil. Nach einer gewissen Zeit beginnen sich ihre Fehlerzu akkumulieren und verstarken sich exponentiell. Zwar wurden zahlreiche Methoden zurStabilisierung erfunden, doch haben auch diese nur zur Folge, dass die Stabilitat fur einenlangeren Zeitraum gewahrleistet wird, die Instabiltat also spater auftritt. Ein moglicherAusweg aus dieser Situation ist die Anwendung von Teilbandfiltern. Wie bereits imvorherigen Kapitel erwahnt, zerlegen diese das Gesamtband-Signal in mehrere voneinanderunabhangige Teilbandsignale. Lasst man die schnellen Verfahren des RLS Algorithmusin den Teilbandern laufen, so werden auch sie instabil werden. Versetzt man jedoch denStartpunkt der einzelnen Teilbander, so wird sich die Instabilitat zu sehr verschiedenenZeiten einstellen. Man kann diese detektieren und dann in dem jeweiligen Teilband einenNeustart erfolgen lassen. Wahrend der Neustart-Periode kann der LMS Algorithmus dieAdaption uberbrucken[19].

    RLS Algorithmen haben grundsatzlich ein Problem bei der Implementierung. Durchdie kontinuierlich durchgefuhrte Matrixinversion werden sehr groe Wertebereiche fur dieverwendeten Variablen benotigt. Dies fallt beim Schreiben eines Matlab-Codes haufignicht ins Gewicht, da intern mit doppelter Genauigkeit (engl. double-precision) gerechnetwird. Bei elektronischen Produkten ist aber der Preis und die Geschwindigkeit einwichtiger Faktor, so dass oft nur Festkommagenauigkeit (engl. fix-point) moglich ist.Hier haben sich verschiedene Verfahren hervorgetan, die alle auf der Idee verlustloserProjektionen beruhen. Benutzt man unitare Transformationen, so bleibt die Energie ineinem Signalvektor erhalten; sie wird nur umverteilt. So kann man erwarten, dass man miteinem endlichen Wertebereich alle wesentliche Information behalt. Im Folgenden wollenwir einige Beispiele hierzu geben. Es sei jedoch der Hinweis gegeben, dass sich diese Ver-fahren nicht besonders eignen, um auf einem handelsublichen DSP implementiert zu werden.

    Das LS-Problem kann als Matrixgleichung in folgender einfacher Form geschrieben wer-den:

    Ax = y. (4.77)

    Hierbei stellt A die Matrix XHNXN dar und der Vektor y rapresentiert XHN dN . Durch eine

    geeignete Transformation mochte man erreichen, dass die Matrix A eine Dreiecksform

  • 68 Adaptive Filter

    erlangt: x x x xx x x xx x x xx x x x

    =x 0 0 0x x 0 0x x x 0x x x x

    . (4.78)Grundlage solcher Operationen sind rotatorische oder hyperbolische Transformationen.Man betrachte im einfachsten Fall eine 2 2 Matrix A:[

    a bc d

    ] [C SS C

    ]=

    [x 0y z

    ]. (4.79)

    Wahlt man hierbei b/a = S/C, so erhalt man eine Null als zweiten Eintrag. Man hat dannnoch genug Freiheit, um aC + bS = 1 zu setzen und die Eins als ersten Eintrag (x = 1) zuerhalten. Die Faktoren C und S konnen als Sinus und Kosinus eines Winkels interpretiertwerden. Sie haben damit die Form

    C =1

    1 + ||2 ; S =

    1 + ||2 . (4.80)

    Ahnliche Operationen sind die hyperbolischen Transformationen, bei denen

    =1

    1 ||2[

    1 1

    ]fur

    { = b

    awenn |a| > |b|

    = ab

    wenn |a| < |b| (4.81)

    Solche rotatorischen und hyperbolischen Transformationen konnen sehr effizient mit Hil-fe von Cordic Strukturen realisiert werden. Dabei werden Winkel in Inkrementen vonarctan(2k) ausgefuhrt, eine Operation, die ohne komplizierte Winkelberechnung auskommt.

    4.5 Literaturhinweise

    Gute Ubersichtsdarstellungen fur LS und RLS Verfahren findet man in [24]. Polyphasenim-plementierungen von schnellen RLS Verfahren finden sich in [19]. Genauere Darstellungenzu den verschiedenen Verfahren der Implementierung sind in [59] zu finden. Details zurImplementierung von Cordic Algorithmen finden sich in [2].

  • Kapitel 5

    Nachfuhrverhalten AdaptiverVerfahren

    Bisher hatten wir ein zeitinvariantes, festes System wo angenommen, das es zu schatzengalt. Aber nicht alle Systeme verhalten sich so. Bedingt durch Alterung und Temperaturverandern Systeme ihre Eigenschaften langsam. Spezielle Systeme verandern sich schnell:die Lautsprecher-Raum-Mikrophon Antwort verandert sich rapide, wenn der Sprecher sichim Raum bewegt; ebenso der Funkkanal bei sich bewegendem Empfanger. Neben demAdaptionsvorgang, den man analog zu festen Filtern auch als Einschwingverhalten desLernvorgangs bezeichnen konnte, existiert also auch noch ein Nachfuhrverhalten (engl.tracking), das beschreibt wie gut ein adaptives Verfahren auf Systemanderungen reagiert.Eine Moglichkeit zeitvariante Systeme zu beschreiben ist es, ihnen eine zusatzliche Rotationzu geben, wie im Folgenden beschrieben:

    d(k) = xTkwoejok + v(k) . (5.1)

    Das zu schatzende System wo rotiert nun mit der Frequenz o. Dieses Problem entsprichtdem der Funkkanalschatzung, wo ja der Empfanger einen anderen Oszillator verwendet wieder Sender und daher eine kleine Frequenzverschiebung o auftritt. Wir werden sehen, dassdie Reaktion des adaptiven Verfahrens auf solch eine Rotation im wesentlichen linearerNatur ist. Das bedeutet, dass die Reaktion auf ein beliebiges zeitvariantes System sichdurch Uberlagerung seiner Komponenten zusammensetzen lasst. Daher genugt es zunachstdas Verhalten auf nur eine Frequenz o zu untersuchen.

    5.1 Nachfuhrverhalten von LMS und RLS Algorith-

    mus

    Mit dem Referenzmodell (5.1) kann der Fehlervektor neu definiert werden:

    wk= woe

    jok wk . (5.2)

    69

  • 70 Adaptive Filter

    Damit ergibt sich fur den a-priori Fehler:

    ea(k) = d(k) xTk wk1 (5.3)= v(k) + xTkwoe

    jok xTk wk1= v(k) + xTkwoe

    jo(k1) xTk wk1 + xTkwoejok xTkwoejo(k1)= v(k) + xTk wk1 + x

    Tkwoe

    jok(1 ejo) . (5.4)

    Die Adaptionsgleichung von LMS und RLS konnen in einer gemeinsamen Form dargestelltwerden:

    wk = (I gkxTk )wk1 v(k)gk + (I gkxTk )woejok(1 ejo). (5.5)Der Vektor g

    kist hierbei xk fur den LMS Algorithmus und kk = Pkxk im Falle des RLS,

    also

    gk=

    {xk ;LMSPkxk ;RLS

    . (5.6)

    Im nachsten Schritt betrachten wir die Signale v(k) und xk als Zufallsprozesse, also v(k)und xk. Somit kann der Erwartungswert bzgl. des Anregungssignals berechnet werden:

    E[wk] = (I A)E[wk1] + (I A)woejok(1 ejo) . (5.7)Die Matrix A ist hierbei Rxx im Falle des LMS und [1 ]I im Falle des RLS Verfahrensmit exponentieller Gewichtung.

    Satz 5.1 Die stationare Losung des LMS und RLS Algorithmus fur ein sich mit derFrequenz o periodisch anderndes System ist im Mittel gegeben durch:

    E[wk] ={I (ejo 1) [ejoI (I A)]1 (I A)}woejo k . (5.8)

    Beweis: Da es sich bei E[wk] um eine aus einem linearen System entstandene Groe han-delt, muss gelten:

    E[wk] = aejo(k+1). (5.9)

    Die Losung fur a erhalt man durch Substitution

    a = (1 ejo) [ejoI (I A)]1 (I A)wo . (5.10)Damit wird der Erwartungswert des Fehlervektors ebenso zeitvariant. Fur k ver-schwinden die Transienten und der Fehlervektor wird schlielich

    E[wk] = (1 ejo)[ejoI (I A)]1 (I A)woejo(k+1) , (5.11)

    oder aquivalent nach dem mittleren Schatzwert umgestellt:

    E[wk] ={I (ejo 1) [ejoI (I A)]1 (I A)}woejok . (5.12)

  • Univ.-Prof. DI. Dr.-Ing. Markus Rupp 71

    Offensichtlich beeinflussen sowohl Frequenz o als auch algorithmenspezifische Para-meter wie und das Ergebnis. Im wesentlichen lasst sich sagen, dass der Schatzwert inBetrag und Phase dem wahren Wert woe

    jok hinterherlauft.

    Das Ergebnis (5.12) lasst sich auch fur einen beliebig kleinen Frequenzbereich d ange-ben:

    dE[wk()] ={I (ej 1) [ejI (I A)]1 (I A)}wo()ejkd.

    Diese Interpretation erlaubt es die Algorithmenantwort auf beliebige Systemanderungenanzugeben:

    E[wk] =1

    2pi

    pipi

    {I (ej 1) [ejI (I A)]1 (I A)}wo()ejkd . (5.13)

    Der Kern dieses Integrals ist die Fourier-Transformierte der Algorithmenantwort, oder auchdie Fourier-Transformierte G der Greenschen Funktion des LMS/RLS Algorithmus:

    G()={I (ej 1) [ejI (I A)]1 (I A)} .

    Diese Greensche Funktion im Mittel wird also durch die inverse Fourier-Transformierteerhalten:

    g(k) = I [(I A)ku(k) (I A)(k1)u(k 1)]mit der Sprungfunktion u(k). Mit anderen Worten, die Algorithmenantwort beliebig sichandernder Systeme kann dadurch berechnet werden, dass eine Faltung mit der GreenschenFunktion g(k) erfolgt. Zwei bereits bekannte Resultate konnen auf diese Weise ebenso er-zeugt werden:

    Im Falle eines Frequenzversatzes gilt: wo() = wo( o). Damit erhalt man:

    E[wk] ={I (ejo 1) [ejoI (I A)]1 (I A)}woejok.

    In der Initialphase der Adaption gilt: wo() = wo/[1 ej]. Man erhalt:

    E[wk] =(I [I A]k+1

    )wo

    Satz 5.2 Bei weier Anregung zeigen LMS und RLS Algorithmus gleiches Nachfuhrver-halten.

  • 72 Adaptive Filter

    Beweis: Die Matrix A wird beim LMS Algorithmus zu I und beim RLS Algorithmuszu [1]I. Mit anderen Worten, die Wahl von = 1 ergibt gleiches Nachfuhrverhalten.

    Matlabexperiment 5.1 Ein mit weiem Signal betriebenes System wTo = [1, 10, 1]verandere sich periodisch mit der Frequenz o. Man berechne die Systemantwort des LMSund RLS Algorithmus in Abhangigkeit zur Frequenz. Man schreibe ein Matlabprogram undverifiziere das Ergebnis. Man trage den relativen Parameterfehler fur verschiedene Wertevon uber bzw. 1 auf. Wie kann man wk nutzen, um die unbekannte Frequenz zubestimmen?

    5.2 Kalman Algorithmus

    Die bisherige Analyse hat gezeigt, dass das adaptive Verfahren dem nachgefuhrten Systemhinterherhinkt. Diese Hinterherlaufen lasst sich zwar durch die Wahl der Schrittweite (oderdes Vergessenfaktors) beeinflussen, doch wird es immer groer, je groer die Frequenzan-teile der Systemanderung sind. Hat man ein Vorwissen uber die Systemanderung ware esangebracht dieses Wissen in den Schatzalgorithmus einflieen zu lassen. Nehmen wir hierzuein allgemeines System in Form der Zustandsbeschreibung an:

    wk = Fkwk1 +Gkuk, k = 1, 2, ... (5.14)

    dk = Xkwk1 + vk. (5.15)

    Das System wk andert sich also gemass Gleichung (5.14), angetrieben durch das Signaluk. Das Ausgangssignal des Systems ist weiterhin eine Linearkombination von System undEingangssignal Xk mit einer zusatzlichen additiven Storkomponente vk. Im allgemeinenFall sind auch die Ausgangsgroen Vektoren.

    Um ein solches System zu schatzen, liegt es nahe einen adaptiven Algorithmus ein-zufuhren, der zumindest Teile der Systemkenntnisse wiederspiegelt. In dem bereits benutz-ten rekursiven Ansatz lasst sich ein Pradiktionsanteil Fkwk einbringen. Da die Fehler nunin Vektorform erscheinen, muss eine optimale Schrittweiten-Matrix Mk eingefuhrt werden.Der optimale Adaptionsalgorithmus lautet dann:

    wk = Fkwk1 +Mkea,k, k = 1, 2, .... (5.16)

    Das Problem besteht also darin, die Schrittweiten Matrix Mk optimal zu gestalten.

    Nehmen wir im Folgenden an, dass es sich bei den Signalen uk und vk um Zufallsprozessehandelt. Wir wollen vereinbaren, dass

    E[vkvHi ] = Rvv(k i); E[ukuHi ] = Ruu(k i); E[vkuHi ] = 0. (5.17)

  • Univ.-Prof. DI. Dr.-Ing. Markus Rupp 73

    Weiterhin soll es einen Anfangszustand w0 geben, der eine mittelwertfreie Zufallsvariablemit den Eigenschaften

    E[w0vHi ] = 0; E[w0u

    Hi ] = 0; E[w0w

    H0 ] = P0. (5.18)

    darstellt. Alle Bedingungen zusammen lassen sich kompakt darstellen:

    E

    ukvkw01

    uiviw0

    H =

    Ruu(k i) 0 0

    0 Rvv(k i) 00 0 P00 0 0

    . (5.19)Wir mussen weiterhin noch zulassen, dass Rvv positiv definit ist, eine Bedingung dieublicherweise immer erfullt ist.

    Betrachten wir noch einmal den Fehlervektor ea,k:

    ea,k = dk Xkwk1 = Xkwk1 + vk. (5.20)Definieren wir die Parameter(fehlervektor)kovarianzmatrix als

    Pk= E[wkw

    Hk ], (5.21)

    so lasst sich die Kovarianzmatrix des Fehlervektors angeben zu:

    E[ea,keHa,k] = Rvv +XkPk1X

    Hk = Ree. (5.22)

    Die optimale Schrittweiten Matrix lasst sich dadurch finden, dass man die Rekursionsglei-chung der Parameterkovarianzmatrix nach Mk minimiert:

    Pk = FkPk1FHk +MkE[ea,keHa,k]M

    Hk +GkRuuG

    Hk FkE[wk1eHa,k]MHk MkE[ea,kwHk1]FHk .

    (5.23)Das Minimieren nach Mk erfolgt durch den Ansatz (Mk Mk)B(Mk Mk)H und Vergleichder Terme. Man erhalt B = Ree und

    Mk = FkE[wk1eHa,k]R

    1ee (5.24)

    = FkE[wk1(Xkwk1 + vk)H ]R1ee (5.25)

    = FkPk1XHk R1ee . (5.26)

    Damit lasst sich nun auch die Rekursionsgleichung der Parameterkovarianzmatrix angeben:

    Pk = FkPk1FHk MkReeMHk +GkRuuGHk . (5.27)Damit ergibt sich der komplette Kalman Algorithmus.

  • 74 Adaptive Filter

    Kalman Algorithmus: Gegeben sei die Zustandsdarstellung eines zeitvarianten Systems:

    wk = Fkwk1 +Gkuk (5.28)

    dk = Xkwk1 + vk. (5.29)

    mit den Bedingungen

    E

    ukvkw01

    uiviw0

    H =

    Ruu(k i) 0 0

    0 Rvv(k i) 00 0 P00 0 0

    . (5.30)Dann gibt konnen die Parameter wk dieses Systems durch folgenden Algorithmus optimalgeschatzt werden:

    Mk = FkPk1XHk [Rvv +XkPk1XHk ]

    1, (5.31)

    wk = Fkwk1 + Mkea,k, (5.32)

    Pk = FkPk1FHk Mk[Rvv +XkPk1XHk ]MHk +GkRuuGHk . (5.33)Man beachte, dass die Verwendung des Kalman Algorithmus die Annahme von stochasti-schen Signalen erfordert. Dies ist bei den anderen bisher betrachteten Algorithmen nichtder Fall gewesen. Der LMS Algorithmus, beispielsweise erforderte zwar diese Annahme,um seine Eigenschaften zu ermitteln, nicht aber fur seinen Betrieb. Es bleibt zu bemerken,dass die Komplexitat des Kalman Algorithmus O(M3) ist, bedingt durch die erforderli-chen Matrixinversionen. Nur in sehr einfachen Fallen, kann auf diese verzichtet werden.Der Kalman Algorithmus fand klassischerweise seine Anwendung in der Regelungstechnik,wo das zeitvariante Verhalten der Regelstrecke bekannt war und man genugend Rechenzeithatte, um die Kalmangleichungen zwischen zwei Abtastwerten auszurechnen. Neuerdingsfindet man viele Anwendungen fur den Kalmanalgorithmus in der (Satelliten)telematik undgelegentlich bei adaptiven Entzerrerschaltungen. Oftmals ist das dynamische System nichtvollstandig bekannt oder auch nur naherungsweise bekannt. Dann mussen neben den Kal-mangleichungen auch noch Schatzwerte der Systemparameter (typischerweise der MatrixFk) ermittelt werden. Man spricht in diesem Zusammenhang von einem erweiterten Kal-man Verfahren (engl. extended Kalman). In der Regelungstechnik gibt es den Begriff derLinearen, Quadratischen Regelung (engl. LQC=linear, quadratic control), bei der versuchtwird, die Stellgroe {uk} in (5.28) so einzustellen, dass

    gLQC(uN+1) = wHN+1PN+1wN+1 +

    Nk=1

    uHk Rvvuk +Nk=1

    dHk Rdddk (5.34)

    minimal wird. Man kann zeigen, dass durch Vertauschen von Fk mit Fk ,H

    k mitGk undGk

    mit Hk der Kalman Algorithmus folgt. Man sagt, dass beide Probleme zueinander dual sind.

  • Univ.-Prof. DI. Dr.-Ing. Markus Rupp 75

    Ubung 5.1 Man leite den Kalman Algorithmus unter der Bedingung

    E

    ukvkw01

    uiviw0

    H =

    Ruu(k i) Ruv(k i) 0Rvu(k i) Rvv(k i) 0

    0 0 P00 0 0

    (5.35)her.

    Ubung 5.2 Fur den Spezialfall Fk = I,Gk = 0, Rvv = 1 und Xk = xTk gebe man die

    Kalman Gleichungen an. Man vergleiche mit dem RLS Algorithmus.

    Matlabexperiment 5.2 Man wiederhole Matlabexperiment 5.1 und verwende denKalmanalgorithmus. Man vergleiche die Ergebnisse.

    5.3 Literaturhinweise

    Erste Veroffentlichungen zum Thema Nachfuhrverhalten finden sich in den Schriften [12,13, 20, 38]. Gute Einfuhrungen zum Thema Kalman Filter liegen in [24] und [27, 59] vor.Die Originalveroffentlichung zum Thema Kalman Filter findet sich unter [28]. In [1] werdenAnwendungen der Algorithmen beschrieben.

  • Kapitel 6

    Verallgemeinerte LS Verfahren

    Wir hatten bisher LS Losungen mit verschiedenen Varianten betrachtet: mit und ohneAnfangswerte, unter und uberbestimmte Systeme, mit und ohne Gewichtung. Bei Gewich-tungen hatten wir immer darauf geachtet, dass diese positive definit waren, also die Gewich-tungsmatrizen Q > 0. Nun wenden wir uns dem allgemeineren Fall zu, dass diese MatrizenQ auch andere Eigenschaften haben konnen und fragen uns wie die Losungen dann ausse-hen werden. Insbesondere, ob sich dann auch in rekursiver Form eine Bestimmungsgleichungangeben lasst. Hierzu betrachten wir wieder unser Standart-LS Problem:

    dN = XNwo + vN (6.1)

    Hierbei wurden N Einzelbeobachtungen d(k) = wTo xk + v(k), k = 1..N in Vektoren undMatrizenschreibweise zusammengefasst:

    dTN = [d(1), d(2), ..., d(N)], (6.2)

    vTN = [v(1), v(2), ..., v(N)], (6.3)

    wTo = [wo(1), wo(2), ..., wo(M)], (6.4)

    XN =

    x(1) x(2) ... x(M)x(2) x(3) ... x(M + 1)x(3) x(4) ... x(M + 2)

    ...... ...

    ...x(N) x(N + 1) ... x(N +M 1)

    =

    xT1xT2xT3...xTN

    . (6.5)Dies fuhrt zur gewichteten Kostenfunktion mit verschwindenden Anfangswerten:

    gWLS(wN) = wHN

    1o wN + (dN XN wN)HQ(dN XN wN). (6.6)

    Erweiterungen mit nicht verschwindenden Anfangswerten wie in (4.22) gezeigt, sind einfachmoglich, werden aber hier der einfacheren Darstellung wegen weggelassen. Um die notwen-digen Bedingungen abzuleiten ist es erforderlich, die Kostenfunktion umzuformulieren.

    gWLS(wN) =

    [dNwN

    ]H [Q QXN

    XHNQ 1o +XHNQXN] [

    dNwN

    ](6.7)

    76

  • Univ.-Prof. DI. Dr.-Ing. Markus Rupp 77

    Es ist moglich diese Matrixgestalt zu zerlegen:[Q QXN

    XHNQ 1o +XHNQXN]

    =

    [I QXN [1o +XHNQXN ]10 I

    ]

    [QQXN [1o +XHNQXN ]1XHNQ 0

    0 1o +XHNQXN

    ]

    [I 0

    [1o +XHNQXN ]1XHNQ I].

    Dadurch kann die Kostenfunktion umgeschrieben werden zu:

    gWLS(wN) = dHN

    [QQXN [1o +XHNQXN ]1XHNQ

    ]dN

    +[wN wN ]H [1o +XHNQXN ]1[wN wN ] (6.8)mit wN = [

    1o + X

    HNQXN ]

    1XHNQdN , wodurch nun nur noch der zweite Term von wNabhangt. Es gilt nun nicht weiterhin, wie bisher fur positiv-definite Anteile [1o +X

    HNQXN ],

    dass wir den zweiten Term minimieren mussen, sondern, je nachdem wie [1o +XHNQXN ]

    gestaltet ist, kann er auch die Kostenfunktion maximieren oder gar noch ganz andersverandern. Man beachte, dass bei Abwesenheit einer Gewichtungsmatrix Q solch ein Effektnicht auftreten kann, da [1o +X

    HNXN ] immer positiv definit sein muss, solange es o ist.

    Offensichtlich ist der Punkt wN = wN ein besonderer und verlangt daher nach unsererAufmerksamkeit. Wir unterscheiden drei Falle:

    1. 1o +XHNQXN > 0: der zweite Term in (6.8) ist nichtnegativ fur jede Wahl von wN ,

    [wN wN ]H [1o +XHNQXN ]1[wN wN ] > 0und erreicht null nur dann, wenn wN = wN . Somit wird also die Kostenfunktion

    gWLS(wN) dHN[QQXN [1o +XHNQXN ]1XHNQ

    ]dN

    und erreicht Null nur fur den Fall wN = wN . Es handelt sich also um ein globalesMinimum mit eindeutiger Losung.

    2. 1o +XHNQXN < 0: der zweite Term in (6.8) ist nichtpositiv fur jede Wahl von wN ,

    [wN wN ]H [1o +XHNQXN ]1[wN wN ] 0und erreicht null nur dann, wenn wN = wN . Somit wird also die Kostenfunktion

    gWLS(wN) dHN[QQXN [1o +XHNQXN ]1XHNQ

    ]dN

    und erreicht Null nur fur den Fall wN = wN . Es handelt sich also um ein globalesMaximum mit eindeutiger Losung.

  • 78 Adaptive Filter

    3. 1o +XHNQXN ist undefiniert (engl.: indefinit): Mindestens ein Eigenwert von

    1o +

    XHNXN ist negativ und mindestens einer ist positiv. Wurde man also vom PunktwN = wN aus laufen, so kann man in einer Richtung (Eigenvektor zugehorig zumpositiven Eigenwert) in der Kostenfunktion aufwarts laufen, wahrend man in deranderen Richtung (Eigenvektor zugehorig zum negativen Eigenwert) abwarts lauft.Man beszeichnet diesen Punkt wN = wN als Sattelpunkt.

    In jedem Fall stellt der Punkt wN = wN eine Besonderheit dar. Er wird ganzallgemein als stationarer Punkt oder auch kritischer Punkt bezeichnet. Wir hattenden Fall, dass es auch verschwindende Eigenwerte gibt ausgeklammert. Aber auch solchenicht-invertierbaren Matrizen konnen in die weitere Betrachtung mit eingeschlossen werden.

    6.1 Rekursiver Algorithmus

    Wir kommen nun zu der Frage, ob es den auch einen rekursiven Algorithmus, ganz imSinne des RLS Algorithmus, fur den allgemeinen Fall unbestimmter Gewichtsmatrizen gibt.Andererseits sind wir aber meist nur an Algorithmen interessiert, die eine Kostenfunktionminimieren. Daher werden wir uns im Folgenden zunachst auf den Fall 1o +X

    HNXN > 0

    beschranken und leiten somit eine Art Verallgemeinerten RLS Algorithmus zur Minimierungeiner quadratischen Kostenfunktion her. Da im nachsten Kapitel der mehrkanalige Fall vonbesonderem Interesse sein wird, wollen wir unsere Verallgemeinerung auch auf diesen Fallausdehnen. Das heisst, dass der Vektor dN nun aus mehr als einer Komponente besteht,und ebenso wird XN aus mehreren unterschiedlichen Beobachtungen bestehen. Weiterhinnehmen wir an, dass die Gewichtungsmatrix Q eine Blockstruktur aufweist. Der Ubergangvon N 1 nach N kann daher wie folgt geschehen:

    dN =

    [dN1dN

    ], XN =

    [XN1XN

    ], QN =

    [QN1 00 QN

    ]Dies erfolgt also ganz analog wie beim RLS Algorithmus, nur dass nun die neuen An-teile keine Vektoren darstellen sondern selbst Matrizen sind. So kann der Vektor dN =[d1(N), d2(N)] beispielsweise aus zwei Komponenten bestehen. Wir konnen wieder die Ma-trix PN einfuhren mit

    PN = [1o +X

    HNQNXN ]

    1; P0 = o. (6.9)

    Damit die Losung existiert muss also fur jeden Zeitpunkt N gelten, dass PN > 0 gilt.Somit erhalt man den folgenden rekursiven Algorithmus:

    Verallgemeinerter RLS Algorithmus: Gegeben seien eine invertierbare Matrix o undeine invertierbare Gewichtungsmatrix QN mit Blockdiagonalstruktur. Die Losung des Mi-nimierungsproblems

    minwN

    gV LS(wN)

  • Univ.-Prof. DI. Dr.-Ing. Markus Rupp 79

    kann folgendermassen in rekursiver Form bestimmt werden. Beginne mit w0 = 0 und P0 =o. Dann gilt fur k > 0:

    k =[Q1k + XkPk1X

    Hk

    ]1(6.10)

    Kk = Pk1XHk k (6.11)

    wk = wk1 +Kk[dk Xkwk1

    ](6.12)

    Pk = Pk1 Kk1k KHk . (6.13)

    Fur jeden Zeitpunkt 0 k N ist wk das Minimum von gV LS(wk), dann und nur dann,wenn Pk > 0, also positiv-definit ist. Man vergleiche diese Darstellung mit (4.44).

    Man beachte, dass diese letzte Bedingung beim RLS Algorithmus nicht erforderlichwar, da sie immer gegeben war (hartnackige Anregung vorausgesetzt). Jetzt muss sie aberexplizit gefordert und ggf. auch uberpruft werden. Die Eigenwerte einer Matrix bei jedemSchritt zu uberprufen ist sehr rechenintensiv. Es gibt aber auch alternative, aquivalenteMethoden (Matrixtragheit, engl.: matrix inertia) zum testen, die mit einfacherer Arithme-tik ausgefuhrt werden konnen.

    Auch fur diesen Algorithmus lasst sich wieder ein Zusammenhang zwischen den a-prioriund a-posteriori Fehlergroen herleiten. Man erhalt:

    ep,k = Q1k kea,k. (6.14)

    Ebenso lasst sich die Kostenfunktion rekursiv mit Hilfe der a-priori und a-posteriori Fehlerformulieren:

    gV LS(wk) = gV LS(wk1) + eHp,kQkea,k (6.15)

    = gV LS(wk1) + eHa,kkea,k (6.16)

    =kl=1

    eHa,llea,l. (6.17)

    Weitergehende Verallgemeinerungen, die sowohl undefinerte Gewichtmatrizen als auchdynamische Prozessmodelle einschliessen, werden im nachsten Kapitel betrachtet.

    6.2 Robustheit

    Die bisherigen adaptiven Verfahren konnen alle mit Zufallsprozessen betrieben werden undaufgrund dieser Prozesse kann ein mittleres Fehlerquadrat minimiert werden. In vielenAnwendungen wie beispielsweise in der Sprachverarbeitung ist dies ein geeignetes Ma.

  • 80 Adaptive Filter

    In anderen Anwendungen jedoch kann solch ein statistisches Ma ungenugend sein. Manstelle sich zum Beispiel die Regelung einer Frasmaschine vor, deren Tiefe des Fraselementsdurch ein statistisches Ma gepragt ist. Mit einer bestimmten Wahrscheinlichkeit kamees dann zu tieferliegenden und hoherliegenden Frasnuten. Viel schlimmer wirkt sich diesbeim Autopiloten aus. Wenn ein Flugzeug nur im Mittel richtig fliegt, bedeutet dies:Absturzgefahr. An dieser Stelle muss also eine neue Groe her, die eine gewisse Robustheitsichert.

    Solch eine Groe kann als Energiema definiert werden. Betrachtet man die Ein- undAusgangssignale eines linearen Systems

    wk = Fkwk1 +Gkuk, k = 1, 2, ... (6.18)

    dk = Xkwk1 + vk. (6.19)

    wie bereits in (5.28,5.29) eingefuhrt, so lasst sich mit Sicherheit eine Energiebeziehungangeben, beispielsweise: N

    k=1 ea,k2wH0

    1o w0 +

    N1k=1 uk2 +

    N1k=1 vk2

    = ka(N). (6.20)

    Hierbei sind die zum Anfangsfehler fuhrende, unbekannte Anfangsbedingung, die Stellgroeuk und das additive Rauschen die Eingangsgroen und die a-priori Fehlerleistung die Aus-gangsgroe. In allgemeiner Form konnen diese Groen folgendermaen definiert werden:

    ea,k = Zkwk1 Zkwk1; vk = dk Xkwk1. (6.21)So kann beispielsweise Zk = Xk gewahlt werden und damit beobachtet man sowohl dasungestorte als auch das gestorte System. Kann man durch einen geeigneten Algorithmusgewahrleisten, dass ka(l) fur jedes beliebige l unter einer bestimmten Schranke bleibt, d.h.

    ka(l) < 2; 1