Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Skriptum zur Vorlesung Spracherkennung
Gernot A. Fink
SS 2014(Stand 22. April 2014)
Inhaltsverzeichnis
1 Einfuhrung 4
1.1 Was ist Spracherkennung? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Warum ist Spracherkennung schwierig? . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Was geht heute schon mit Spracherkennung? . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Spracherkennung und Mustererkennung . . . . . . . . . . . . . . . . . . . . . . . . 6
2 Akustische Grundlagen 7
3 Sprachproduktion 9
3.1 Artikulationsorgane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.2 “Artikulationstechniken” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.3 Phonetische Beschreibung von ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.3.1 ... Konsonanten [Kontoiden] . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.3.2 ... Vokalen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4 Sprachwahrnehmung 12
4.1 Reiz und Empfindung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.1.1 Reizgroßen und Empfindungsgroßen . . . . . . . . . . . . . . . . . . . . . . 12
4.1.2 Reizstufen und Empfindungsstufen . . . . . . . . . . . . . . . . . . . . . . 12
4.1.3 Intensitats- und Positionsempfindungen . . . . . . . . . . . . . . . . . . . . 13
4.2 Physiologie des Gehors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.3 Wichtige Eigenschaften des menschlichen Gehors . . . . . . . . . . . . . . . . . . . 14
4.3.1 Ruhehorschwelle und Horflache . . . . . . . . . . . . . . . . . . . . . . . . 14
4.3.2 Verdeckung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.3.3 Frequenzgruppen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
22. April 2014 1
4.3.4 Lautstarkeempfindung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.3.5 Tonhohenempfindung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
5 Spracherkennung mit einfachem Mustervergleich 17
6 Statistische Spracherkennung 23
7 Kurzzeitanalyse 24
7.1 Spektrale Analyse: Fourier-Transformation . . . . . . . . . . . . . . . . . . . . . . 24
7.2 Cepstrale Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
7.3 Gehorrichtige Verzerrung der Frequenzachse . . . . . . . . . . . . . . . . . . . . . 28
7.4 Berucksichtigung zeitlicher Veranderungen . . . . . . . . . . . . . . . . . . . . . . 28
7.5 Zusammenfassung (Kurzzeitanalyse) . . . . . . . . . . . . . . . . . . . . . . . . . . 31
8 Hidden-Markov-Modelle 32
8.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
8.2 Emissionsmodellierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
8.3 Verwendungskonzepte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
8.4 Bewertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
8.4.1 Die Produktionswahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . 39
8.4.2 Die “optimale” Produktionswahrscheinlichkeit . . . . . . . . . . . . . . . . 41
8.5 Dekodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
8.6 Parameterschatzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
8.6.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
8.6.2 Trainingsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
8.6.3 Mehrere Observationsfolgen . . . . . . . . . . . . . . . . . . . . . . . . . . 50
8.7 Initiale Modellparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
8.7.1 Initiale Ubergangswahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . 55
8.7.2 Initiale Emissionsparameter . . . . . . . . . . . . . . . . . . . . . . . . . . 56
8.7.3 Segmental k-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
8.8 Parameter-Tying . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
8.8.1 Einfaches Tying . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
22. April 2014 2
8.8.2 Mixture-Tying / Semikontinuierliche HMMs . . . . . . . . . . . . . . . . . . 57
8.9 Praktischer Einsatz von HMMs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
8.9.1 Modellierung akustischer Ereignisse . . . . . . . . . . . . . . . . . . . . . . 59
8.9.2 Verbundmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
8.9.3 Suchverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
8.9.4 Evaluierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
8.9.5 Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
9 Sprachmodellierung 69
9.1 n-Gramm-Sprachmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
9.2 Bewertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
9.3 Parameterschatzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
9.3.1 Prinzipielles Vorgehen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
9.3.2 Robuste Parameterschatzung . . . . . . . . . . . . . . . . . . . . . . . . . . 71
9.3.3 Optimierung verallgemeinerter Verteilungen . . . . . . . . . . . . . . . . . 74
9.3.4 Reprasentation von n-Gramm-Modellen . . . . . . . . . . . . . . . . . . . . 75
10 Gesamtsysteme zur automatischen Spracherkennung 78
10.1 Prinzipieller Systemaufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
10.2 Integrierte Suche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
10.2.1 HMM-Netzwerke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
10.2.2 Mehrphasensuche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
10.2.3 Suchraumkopien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
10.3 Das Philips Forschungssystem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
10.3.1 Merkmalsextraktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
10.3.2 Akustisch-phonetische Modellierung . . . . . . . . . . . . . . . . . . . . . 81
10.3.3 Sprachmodellierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
10.3.4 Suche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
11 Ausblick: Handschrifterkennung 82
22. April 2014 3
Kapitel 1
Einfuhrung
1.1 Was ist Spracherkennung?
• “automatisch” immer implizit angenommen
• im Idealfall:
“... die korrekte textuelle Darstellung des Gesprochenen ... rekontruieren ...”
[ST95, S. 4]
Stellung der Spracherkennung: siehe Abb. 1
1.2 Warum ist Spracherkennung schwierig?
• Kontinuitat
Wahrnehmung: Folge von Wortern, Silben, Lauten
Sprachsignal: keine (akustischen) Grenzmarkierungen
Einzelworterkenner↔ isolierte Worter↔ Erkennung kontinuierlicher Sprache
• Variabilitat
akustisch(Storgerausche,
Aufnahme-bedingungen,
...)
— lautlich(Betonung,
Kontext,...)
— zwischen Sprechern(Sprechweise [Tempo, Lautstarke,
Emotion, Kooperativitat, ...], Dialekt,Idiolekt, Geschlecht, Alter, ...)
22. April 2014 4
sprecherabhängig sprecherunabhängig
akustik-abhängig
akustik-unabhängig (z.B. Mikro)
• Komplexitat
– hohe Datenrate des (abgetasteten) Signals
∗ 16.000 Werte / Sekunde (etablierter “Standard”)
∗ 120–150 Worter / Minute muhelos in gesprochener Kommunikation
– Inventar-/Wortschatzgroße (hier: fur das Deutsche)
∗ 40–50 Phone (= Laute)
∗ ca. 10.000 Silben
∗ ca. 100.000 Worter
Folie: Wortschatzumfang moglicher Spracherkennungsanwendungen (Abb. 2)
• Ambiguitat (↗ eher Problem der Interpretation)
– Homophonie (Rad↔ Rat = [ra:t], Auslautverhartung im dt.)
– Wortgrenzen (Stau-becken↔ Staub-ecken,↗ Prosodie)
– Satzbau, Bedeutung, ...
Folie: Veranschaulichung (VORSICHT!) der Schwierigkeiten bei Spracherkennung (Abb. 3)
1.3 Was geht heute schon mit Spracherkennung?
• Kommandosysteme
– (Radiowecker)
– Namenswahl im Telefon (nur Vorstufe, reines Patternmatching)
– nicht sicherheitsrelevante Funktionen im Fahrzeug (Telefon, Radio, ...)
• Diktiersysteme
– fur spezielle Berufsgruppen (Arzte [Radiologen], Rechtsanwalte)
– fur “kooperative” Normalverbraucher
22. April 2014 5
• Datenbanksuche/-indizierung
bei großen Sprachdatenarchiven (z.B. von Rundfunksendungen)
• Schulung
– Fremdsprachenerwerb
– bei Sprechstorungen
• Dialogsysteme (meist telefonisch)
– “Ja”/“Nein”, Ziffern, Menufuhrung
– Auskunftssysteme, z.B. Fahrplan- oder Kinoauskunft
– Buchungssysteme / Telefonbanking
– Personliche Assistenten (z.B. Siri)
• ... sowie militarische Varianten!
Hinweis: Fur Spracherkennung fehlt immer noch die “Killerapplikation”!
Was geht nicht (besser: nie) mit Spracherkennung?
... die “phonetische Schreibmaschine”!
... auch nicht in menschlicher Form (z.B. Sekretarin)!
Maschinelle vs. menschliche Erkennungsleistung
Folie: Vergleich maschineller und menschlicher Erkennungsleistung (Abb. 4)
1.4 Spracherkennung und Mustererkennung
SE ist spezielles Problem der Mustererkennung; erfordert Musterklassifikation und Segmentierungbzw. Klassifikation im Kontext
Folie: Schematischer Aufbau eines Mustererkennungssystems (Abb. 5)
22. April 2014 6
Kapitel 2
Akustische Grundlagen
• Schall = Wellenausbreitung (best. mit dem menschlichen Gehor wahrnehmbarer Frequenzen)in einem Medium [i.d.R. Luft]
– kann als Anderung zum Atmospharendruck (Schalldruck p) gemessen werden, Einheit:1Pa = 1 N
m2
Sensitivitat des Gehors: 10−5Pa...10−2Pa
(auch als Schalldruckintensitat ∼ p2)
– ublicherweise logarithmische Darstellung als Schalldruckpegel
L = 20 logp
p0
dB
mit Festlegung des Referenzpegels
p0 = 2 · 10−5Pa
(p0 falschlicherweise als Horschwelle des menschlichen Gehors bei 1 kHz angenommen,de facto zu niedrig)
– Schalldruckpegel typischer Gerausche (z.T. nach [ST95, S. 40])
0 dB Referenzpegel∼ 6 dB Horschwelle fur 1kHz-Ton(20 dB landliche Gegend bei Nacht)20 dB Flustern50 dB Zimmerlautstarke80 dB belebte Straße
120 dB laute Rock-Gruppe130 dB Schmerzschwelle140 dB Gewehrschuß nahe bei
Ausblick: Lautheitswahrnehmung ist frequenzabhangig (→ Equalizer)
22. April 2014 7
• Schallarten:
– reiner Ton = sinusformige Schwingung konstanter Frequenz (Frequenz = # Schwingungen/ Sekunde in Hz)
1 Hzim Frequenzbereich(Fourriertransformation)
1s
2s
– Ton = reiner (Grund-)Ton + harmonische Teiltone (d.h. Grundfrequenz + Vielfache derGrundfrequenz)
1 Hz
1s
∗ wird i.d.R. als Einheit wahrgenommen
∗ Art der Zusammesetzung (d.h. Intensitaten der (Teil-)Tone = Klangfarbe)
– Klang = Zusammensetzung von Tonen
z.B. auch ≈ Vokale
Unterscheidungsmerkmal = Klangfarbe
– Gerausch = nichtperiodisch, wechselnde Frequenzanteile
– Sprache
Folie: Beispiele fur Sprachlaute siehe Abb. 6
22. April 2014 8
Kapitel 3
Sprachproduktion
3.1 Artikulationsorgane
Folie: Ubersicht uber die Artikulationsorgane des Menschen (Abb. 7)
3.2 “Artikulationstechniken”
• fundamentale Anregung = Luftstrom (i.d.R. exhalatorisch, d.h. [durch Ausatmen aus der Lungeerzeugt])
• optional: periodische Impulsfolge erzeugt durch Schwingungen der Stimmbander
• “Umformung” des Anregungssignals im Ansatzrohr (= Mund-, Nasen- und Rechenraum) [furVokale: Vokaltrakt]
Luftstromaus der Lunge
Glottis geschlossen(aber elastisch)
= stimmhafte Anregung
Engebildungim Ansatzrohr?
Resonanz- undAntiresonanzbildungweißes Rauschen
stimmlosGlottis geöffnet
Konsonant
Vokal
nein
ja
Engebildung
Sprachproduktionsmodell (= Source-Filter-Modell) inkl. Unterscheidung Vokal/Konsonant
22. April 2014 9
Anmerkungen:
– auch Lippenabstrahlung!
– Mathematische Produktionsmodelle tun sich schwer mit Konsonanten.
– Phonetiker tun sich schwer mit Unterscheidung Vokal↔ Konsonant
3.3 Phonetische Beschreibung von ...
3.3.1 ... Konsonanten [Kontoiden]
• Phonation: stimmhaft ↔ simmlos[z], [b], [m] [s], [p]
Spezialfall: Glottisverschluß/-schlag, z.B. ver[?]eisen↔ verreisen
Hinweis: phonetische Symbole nach IPA (SAMPA)
• Artikulationsort
bestimmt durch Stellung aktiver und passiver Artikulationsorgane im Ansatzrohr zueinander,die an der Engebildung bebeiligt sind.
Folie: Artikulationsorgane im Ansatzrohr (Abb. 8), (auch: Meßaufbau)
• Artikulationsart
– Nasalierung nasal ↔ oral[m] [a], [p]
– Offnungsgrad Verschluss ↔ Friktionsenge ↔ friktionslose Enge(= Reibe...)
[p] [f] [l]
– Engebildung zentral ↔ lateral[z] [j]
⇒ Kategorien: Nasale Plosive Frikative Laterale Vibranten[n] [p], [t], [k] [f], [S] [l] [r]
Folie: Konsonantenklassifikation (Abb. 9)
3.3.2 ... Vokalen
• artikulierender Zungenteilvorne — mitte — hinten
−→Kontinuum!
22. April 2014 10
• Zungenhohe
hoch — mitte — tiefgeschlossen — halbgeschlossen — halboffen — offen
[i] −→ [a]
Kontinuum
• Lippenrundungungerundet — gerundet
[i] [y]
• Dauerkurz — lang
“Bett” [E] “Fahre” [E:]
Volaldreieck/-viereck/-trapez durch Zungenteil vs. -hohe definiert:
(Vokaldreieck nach C. F. Hellweg, 1781)
Speziallfall: Diphthonge = “Vokale” mit Gleitbewegungen der Artikulatoren
Anmerkung: Vokaldreieck ergibt sich auch, wenn 1. + 2. Hauptresonanzfrequenz (= Formanten) desAnsatzrohres aufgetragen werden.
Folie: Vokaltrapez im Deutschen (Abb. 10)
Folie: Empirisches und abstrahiertes Vokaldreieck auf Verbmobil-Stichprobe (Abb. ???)
Ausblick: Phonologie
• Untersuchung der bedeutungsunterscheidenden Sprachlaute (= Phoneme)
• Konstruktion eines Phoneminventars fur eine Sprache
Phonem ↔ Phon/Lautbedeutungsunterscheidend perzeptiv unterscheidbar
/C, x/ “Ich-ach-Laut” [C] + [x]
Achtung: Im Bereich der Spracherkennung / Musterkennung wird oft nicht korrekt zwischen Phonenund Phonemen unterschieden!
Ausblick: Prosodie
• Untersuchung suprasegmentaler Eigenschaften von Sprache, wie:
Tonhohe, Lautheit, zeitliche Strukturierung (Dauer, Pausen, Rhythmus), Sprechtempo, Stimm-lage, Stimmqualitat, Klangfarbe, ...
• Grundfrequenz [= akustisch]→ Tonhohe [Empfindung]
Manner ∼ 70 – 140 HzFrauen ∼ 130 – 300 Hz
22. April 2014 11
Kapitel 4
Sprachwahrnehmung
4.1 Reiz und Empfindung
Reiz = Schall −→ Horempfindung↪→ Wo messen? (am Trommelfell ... zu schwierig, i.d.R. außerhalb, da Zusammenhangbekannt)
4.1.1 Reizgroßen und Empfindungsgroßen
Reizgroßen: z.B.Schallpegel [dB]Freqzenz [Hz]
} d.h. naturwissenschaftl. Beschreibung des Reizes
(d.h. einzelne Komponenten des Reizes)
Einzelne Komponenten der Empfindung = Empfindungsgroßen
Lautstarke [sone]Tonhohe [mel]
Reiz: 60 dB, 1 kHz −→ Empfindung: 4 sone, 850 mel
Problem: jede Empfindungsgroße wird von allen Reizgroßen beeinflußt i.a. aber von einer dominiert
Zusammenhang dominierende Reizgroße / Empfindungsgroße = Empfindungsfunktion
4.1.2 Reizstufen und Empfindungsstufen
kleine Reizanderungen fuhren nicht notwendig zu kleinen Emfindungsanderungen
22. April 2014 12
Empfindungsfunktion, d.h. Zu-sammenhang zwischen ReizgroßeA und Empfindunggroße B (aus[Zwi82, S. 4])
4.1.3 Intensitats- und Positionsempfindungen
Empfindungsgroßen, diekontinuierlich mit Orten zusammenhangen,
anwachsen an denen sie wahrgenommen werdenAchtung: Zusammenhang nicht intuitiv,
sondern uber Entstehnung der Empfindung!Vibration Ort der VibrationHelligkeit Raumwinkel im AugeLautstarke Tonhohe (!)
Unterschied: Empfindungsstufen sindabhangig von Empfindungsgroße konstant
4.2 Physiologie des Gehors
zwei Bereiche unterscheidbar:
• Reizweiterleitung / Vorverarbeitung→ Antransportorgan(Außen-, Mittel- und Innenohr)
Hinweis: Frequenzcharakteristik des Signals wird beibehalten!
• neuronale Verarbeitung (ab Haarzellen [Corti’sches Organ])
Folie: Aufbau des menschlichen Ohrs (Abb. 11)
Folie: Schematischer Aufbau des Innenohrs (Abb. 12)
Folie: Frequenz-Orts-Transformation in der Schnecke (Abb. 13)
Folie: Corti’sches Organ (Abb. 14)
22. April 2014 13
4.3 Wichtige Eigenschaften des menschlichen Gehors
4.3.1 Ruhehorschwelle und Horflache
Ruhehorschwelle = Schalldruckpegel eines Sinustons, der (in Abhangigkeit von der Fre-quenz) gerade noch wahrgenommen wird
Horflache = Bereich zwischen Ruhehorschwelle und Schmerzgrenze ≥ Gefahr-dungsgrenze (Schadigung bei Uberschreiten, fur 8h Beschallung proArbeitstag)
Folie: Horflache (Abb. 15)
Hinweis: Großen variieren individuell, angegeben sind Mittelwerte
4.3.2 Verdeckung
(auch bezeichnet als Maskierung)
Simultane Verdeckung
... durch Storschall, z.B. weißes Rauschen
Folge: Ton a) ist unhorbar
b) wird als leiser empfunden
c) oder ist ohne Beeintrachtigung horbarHinweis: Storschall und Reiz, dessen Wahrnehnung beeinflußt wird treten gleichzeitig auf!
Folie: Mithorschwelle (Abb. 16)
Zeitliche Verdeckung
Vor- und Nachverdeckung, d.h. zeitlicher Verlauf eines Reizes beinflußt dessen Wahrnehmung voroder nach dem Auftreten eines bestimmten Maskierungssignals.
Folie: Ubersicht uber Maskierungseffekte (Abb. 17)
Vorverdeckung: (Ruckwartsmaskierung) Uberraschend, aber erklarbar: “intensivere” Signale wer-den schneller verarbeitet (hohere Relevanz)
→ quantitativ schwer zu erfassen (schwacher Effekt)
Nachverdeckung: (Vorwartsmaskierung)
“Erholung” des Gehors von Reaktion auf akustischen Reiz
→ quantitativ relativ gut zu erfassen (starker Effekt)
22. April 2014 14
abhangig von
• Frequenz des Maskierungstons (Maske)
• Intensitat der Maske⇒ je starker, desto starker der Maskierungseffekt
• Dauer der Maske⇒ je langer, desto starker der Maskierungseffekt
• Verzogerung zwischen Maske und Testton⇒Maskierungseffekt nimmt mit zunehmenderVerzogerung ab
Folie: Graphische Darstellung des Effektes der Vorwartsmaskierung (Abb. 18)
Hinweise: • Beide Maskierungseffekte ausgenutzt bei Audiokodierung (z.B. MP3)
• Fur Spracherkennung vereinzelt Vorwartsmaskierung ausgenutzt (erhohteGerauschrobustheit)
4.3.3 Frequenzgruppen
Frequenzgruppe = Zusammenfassung nahe beieinanderliegender Frequenzen bei der (Lautheits-)Wahrnehmung(z.B. an der Ruhehorschwelle meßbar)
Experiment mit Versuchsperson, die konstante Ruhehorschwelle im Bereich um 1 kHz hat:
1. beginne mit 1 Ton⇒ 920 Hz, 3 dB gerade horbar
2. weiter mit zusatzlichem Ton in Abstand von 20 Hz
3. Versuchsperson Lautstarke auf “gerade horbar” einregeln lassen
→ bis 8 Teiltone fallt Einzelintensitat
→ ab dann konstant
Graphik/Folie: Bestimmung der Frequenzgruppenbreite (Abb. 19)
22. April 2014 15
Folie: Frequenzgruppenbreite (Abb. 20)
Tonheit [Bark] = Aneinanderreihung nicht-uberlappender Frequenzgruppen im Horbereich bis16 kHz
Folie: Tonheit / aneinanderreihbare Frequenzgruppen (Abb. 21)
4.3.4 Lautstarkeempfindung
• Phonzahl eines Testimpulses = Pegel in dB eines als gleichlaut empfundenen 1 kHz Tons
• Lautheit [sone] berucksichtigt Lautstarkeverhaltnis
Festlegung:1 kHz Ton, 40 phon → 1 soneL-mal so laut → L sone
Folie: Kurven gleicher Lautstarke (Abb. 22)
4.3.5 Tonhohenempfindung
Frequenz-Orts-Transformation im Innenohr→ Tonhohenempfindung = Positionsempfindung (vs. Intensitatsempfindung)
Empfindungsfunktion der Tonhohenempfindung z.B. durch Messung von Verhaltniswerten (mit Ver-suchspersonen)
Willkurliche Festlegung: 131 Hz = 131 mel
Folie: Zusammenhang f ↔ f2
(Abb. 23)
Folie: Verhaltnistonhohe / mel-Skala (Abb. 24)
Zusammenfassung
Skalen der Basilarmembran (nach [Zwi82, S. 65]):
Lange der BM = 24 Bark = 32 mm = 640 Stufen = 2400 mel = 3600 Haarzellen1 Bark = 1,3 mm = 27 Stufen = 100 mel = 150 Haarzellen
0,7 Bark = 1 mm = 20 Stufe = 75 mel = 110 Haarzellen0,04 Bark = 50 µm = 1 Stufe = 3,8 mel = 5,6 Haarzellen0.01 Bark = 13 µm = 0,26 Stufen = 1 mel = 1,5 Haarzellen
0,007 Bark = 9 µm = 0,18 Stufen = 0,7 mel = 1 Haarzelle
Folie: Skalen der Basilarmembran (Abb. 25)
22. April 2014 16
Kapitel 5
Spracherkennung mit einfachemMustervergleich
Idee: gesprochene Außerung (= Testmuster) wird mit verschiedenen gespeicherten Außerungen (=Referenzmuster) verglichen
Zuordnung erfolgt zum “ahnlichsten” Referenzmuster
Problem: “Ahnlichkeit”?→ mathematisch z.B. uber Abstandsmaße definierbar
⇒ Vorgehen auf Klassifikation mit Nachster-Nachbar-Klassifikator zuruckgefuhrt
Gesucht: geignetes Abstandsmaß fur (digitalisierte) eindimensionale Signale
• einfache Differenzbildung?
• Differenzbildung nach Langennormierung?
Unbefriedigend, da mit signifikanten aber irrelevanten und nichtlinearen Unterschieden in derzeitlichen Ausdehnung von sprachsignalen zu rechnen ist (Sprechgeschwindigkeit etc.)
⇒ Differenzbildung mit nichtlinearer Langen/Zeitnormierung!(= Dynamic Time Warping [DTW])
Folie: Beispiele zur Abstandsbildung (Abb. 26)
DTW: Formale Beschreibung
Gegeben zwei (Signal-)MusterX undY (Referenz- und Testmuster) als Folgen von einzelnen (Abtast-)Werten gemaß
X = x1x2 . . . xTx und Y = y1y2 . . . yTy
mit i.a. unterschiedlicher Lange, d.h. Tx 6= Ty.
22. April 2014 17
Der Abstand einzelner Wertepaare xi, yj sei gegeben durch
d(xi(k), yj(k)) =: d(c(k)) mit c(k) = (i(k), j(k))
(d.h. c(k) identifiziert ein zugeordnetes Wertepaar uber die Indices).
Der unnormierte Gesamtabstand der Muster X und Y sei definiert durch die Summe der Einzel-abstande der durch die Zuordnungsfunktion F
F = c(1), c(2), . . . c(K)
zugeordneten Wertepaare:
D′(X,Y ,F ) =K∑k=1
d(c(k)) =K∑k=1
d(xi(k), yj(k))
Das bedeutet:
• bei linearer Zuordnung i(k) = j(k) = k ⇒ c(k) = (k, k)
D′(X,Y ,Flin) =K∑k=1
d(xk, yk)
• bei beliebiger Zuordnungs- = Zeitverzerrungsfunktion F
Prinzipskizze zur Arbeitsweise des DTW-Algorithmus (aus [Hua90, S. 75]):
22. April 2014 18
Normierungsbedingungen
Problem: D′(X,Y , ) wachst mit zunehmender Lange der beteiligten Muster
Losung: Normierung auf die Lange der Zeitverzerrungsfunktion F gemaß
D(X,Y ,F ) =
∑Kk=1 d(c(k))w(k)∑K
k=1w(k)
wobei w(k) die Lange des k-ten Teilstucks von F reprasentiert.
Problem:∑w(k) ist abhangig von F — unschon!
Zwei Methoden zur vereinfachenden Wahl von w(k):
• symmetrisch
w(k) = (i(k)− (i(k − 1)) + (j(k)− j(k − 1))
⇒∑w(k) = Tx + Ty =: N
• asymmetrisch
w(k) = j(k)− (j(k − 1) [Bezug zum Testmuster]
⇒∑w(k) = Ty =: N
⇒ D(X,Y ,F ) = 1N
K∑k=1
d(c(k))w(k)
Losungsprinzip
Problem: Da Verzerrungsfunktion beliebig, welcher Abstand, wird als Musterabstand angesehen?
⇒ minimal erreichbarer Abstand!
Gesucht D∗(X,Y ) = D(X,Y ,F ∗) = minF D(X,Y ,F )
d.h. die Verzerrungsfunktion, fur die der Abstand der Muster minimal wird. Dieser wird alsMusterabstand betrachtet.
Einschrankung: Theoretisch alle F moglich, aber aufgrund Aufgabenstellung nur solche sinnvoll,die folgende Restriktionen erfullen:
• End-Punkt-Restriktion
i(1) = j(1) = 1 und i(K) = Tx, j(K) = Ty
d.h. Signal-Anfangs- und Endpunkte werden einander zugeordnet
• Monotonie und “Kontinuitats”-Bedingung
Fur Zuordnungspaare c(k) und c(k − 1) muss gelten:
i(k) ≥ i(k − 1) und j(k) ≥ j(k − 1) [Monotonie]
22. April 2014 19
und (z.B.):
i(k)− i(k − 1) = 1 und j(k)− j(k − 1) ≤ 2 [Kontinuitat]
Damit ergibt sich fur c(k − 1):
c(k − 1) =
(i(k)− 1, j(k))
(i(k)− 1, j(k)− 1)
(i(k)− 1, j(k)− 2)
Auch andere Kontinuitatsbedingungenmoglich, z.B.:
Aber dann Achtung bei Normierung und Optimalitat!
• Suchbereich
Zur Vermeidung “unsinniger” Verzerrungsfunktionen kann der Suchbereich eingeschranktwerden, z.B.:
X
Y
oder
X
Y
Berechnung von D∗
Sei G(c(K)) = D(X,Y ,F ∗)K∑k=1
w∗(k) d.h. der unnormierte absolute optimale Abstand vonX und
Y (inkl. der Pfadgewichte w(k)!).
G(c(K)) = minc(1),c(1)...c(K−1)
K∑k=1
d(c(k))w(k) =
[c(K) fest, restliches F frei]
= minc(1),c(1)...c(K−1)
{K−1∑k=1
d(c(k))w(k) + d(c(K))w(K)
}=
[w(K) leider abhangig von c(K − 1)]
= minc(K−1
minc(1),c(1)...c(K−2)
(K−1∑k=1
d(c(k))w(k)
)︸ ︷︷ ︸
=G(c(K−1))
+d(c(K))w(K)
22. April 2014 20
= minc(K−1
{G(c(K − 1)) + d(c(K))w(K)}
Generell ergibt sich folgende rekursive Beziehung:
G(c(k)) = minc(k−1
{G(c(k − 1)) + d(c(k))w(k)}
und unter Verwendung der Monotonie- und Kontinuitatsbedingungen sowie asymmetrischer Gewich-tung der Verzerrungsfunktion (w(k) = 1 ∀k) erhalt man:
G( i, j︸︷︷︸≈c(k)
) = min
G(i− 1, j)
G(i− 1, j − 1)
G(i− 1, j − 2)
+ d(xi, yj) ∀i, j : i+ j > 2
Zur Initialisierung definiert man G(1, 1) = d(x1, y1).
Hinweis: Losungsschema folgt dem Prinzip der dynamischen Programmierung, die wiederum aufdem (Bellmannschen) Optimalitataprinzip aufbaut: Die Optimalitat jeder Entscheidung einesN -stufigen Optimierungsproblems hangt nur vom Systemzustand auf der Stufe n− 1 ab.
22. April 2014 21
DTW-Rechenschema
... zur Bestimmung des minimalen Abstandes D∗ zweier Muster
TY
TX
. . .
. . .1 2 3 4 5
1
2
3
4
5
Pfad-restriktionen
DTW-Rechenschema
22. April 2014 22
Kapitel 6
Statistische Spracherkennung
Das statistische (informationstheoretische) Paradigma der Spracherkennung (“Kanalmodell”)
LINGUISTISCHE QUELLE AKUSTISCHER KANAL SPRACHERKENNUNG
Text-produltion
Wort-artikulation
Merkmals-extraktion
Modell-dekodierung
w
P (X|w)
X w
P (w) argmaxw
P (w|X)
Ziel: Berechnung einer moglichst guten Naherung w fur die ursprungliche Wortfolge w
w = argmaxw
P (w|X) =
[Bayes-Regel]
= argmaxw
P (w)P (X|w)
P (X)=
[da P (X) konstant bzgl. Maximierung]
argmaxw
P (w)P (X|w)
⇒ 2 Modellierungsanteile:
“Akustisches” Modell P (X|w) (Wortrealisierung, HMM)Sprachmodell P (w) (Wortfolgen, n-Gramm-Modell)
22. April 2014 23
Kapitel 7
Kurzzeitanalyse
... d.h. Merkmalsberechnung im Sinne der Mustererkennung
Ziel: Parametrische Charakterisierung kurzer Sprach-(Signal-)Abschnitte
7.1 Spektrale Analyse: Fourier-Transformation
Fourier-Transformation (FT) = Transformationen von Funktionen im Zeitbereich in den Frequenz-bereich
auch: Fourier-Reihenentwicklung = Aufspaltung einer periodischenFunktion in sin / cos-Anteile
↓Fourier-Integral = s.o. fur nichtperiodische Funktionen↓
Fourier-Transformation ≈ kombinierte Berechnung der Parametereines Fourier-Integrals(mit eiϕ = cosϕ+ i sinϕ)
Beispiele zur FT (gerade Fkt: nur Realteil, ungerade Fkt. nur Imaginarteil):
22. April 2014 24
− πT0
πT0
2πT0
2AT0sin(T0ω)(T0ω)
2AT0
f(x)
2πw0
A cos(w0x)
A
−T0 T0
A
Re{F (ω)}
ω0
−ω0 ω0
A
−T0 T0
−ω0
Definition der FT
a) kontinuierlich:
F (ω) = FT{f(x)} =
∫ ∞−∞
f(x) e−iωxdx
Inverse:f(x) = FT−1{F (ω)} =
1
2π
∫ ∞−∞
F (ω)eiωxdω
Falls f(x) reell: F (−ω) = F (ω)∗ (mit z = x+ iy ist z∗ = x− iy)
Wichtige Eigenschaft: FT{f ∗ g} = FT{f} · FT{g}
b) diskret:
22. April 2014 25
Voraussetzung: [fj] istM -periodisch (und diskret)⇒ (diskretes) Spektrum ist auchM -periodisch,DFT kann auf nur einer Periode von [fj] berechnet werden
Fµ =M−1∑j=0
fj e−i2πµjM [Fµ] = DFT{[fj]}
Inverse:
fj =1
M
M−1∑µ=0
Fµ ei2πµjM [fj] = DFT−1{[Fµ]}
Bemerkungen zur Anwendung der (D)FT in der Spracherkennung
• Man betrachtet nicht komplette Sprachsignale, sondern kurze Signalabschnitte (sogenannte fra-mes, Lange ca. 20 ms).
Annahme: Frequenzcharakteristik innerhalb eines Frames naherungsweise stationar!
• Anwendung der DFT ist eigentlich falsch, da Sprachsignale keine M -periodischen Funktionensind!
– aber: jeder Frame wird gedanklich als periodisch fortgesetzt angenommen
(Problem mit Periodenlange und Bandbegrenzung)
– Kurzzeitversion des Signals (= Frame) wird nicht mit Rechteckfenster (→ schlechter Fre-quenzgang), sondern z.B. mit Hammingfenster gebildet:
wn = 0, 54− 0.46 · cos2πn
T − 1
1
0 T-1
• Es gibt eine schnell berechenbare Version der DFT falls M = 2B (B beliebig)⇒ FFT
• Da fur die menschliche Sprachwahrnehmung Phaseninformation (d.h. Winkel zwischen Real-und Imaginarteil der FT) irrelevant (??!), wird nur das sogenannte Leistungsdichtespektrum(Betragsspektrum) |F (ω)| bzw. |Fµ| betrachtet.
• Eine grobe Nachbildung der menschlichen Lautstarkewahrnehmung ergibt sich durch Logarith-mierung des Leistungsdichtespektrums gemaß log |F (ω)| bzw. log |Fµ|.
• DFT allein liefert keine sinnvollen Merkmale!
Spektrum ist durch Grundfrequenz und deren Harmonische “verrauscht”.
22. April 2014 26
⇒ sinnvoller Modellspektrum a la LPC bzw. “Etwas, das nur die Modellcharakteristik enthalt”.
≈ Im Prinzip wieder Trennung von Vokaltraktinformation und Anregungssignal
7.2 Cepstrale Analyse
(= Spezialfall der homomorphen Analyse)
“gemaßigt formale” Herleitung
Basis: einfaches Sprachproduktionsmodell
f = e ∗ v mit f = [fj]
(mit Sprachsignal f , Anregung e, Faltung *, Impulsantwort des Vokaltrakts v)
Dann gilt:DFT{f} = DFT{e ∗ v} = DFT{e} · DFT{v}
log DFT{f} = log(DFT{e ∗ v}) = log DFT{e}+ log DFT{v}
DFT−1{log DFT{f}} = DFT−1{log(DFT{e∗v})} = DFT−1{log DFT{e}}+DFT−1{log DFT{v}}
Hinweise:
• DFT−1{log DFT{. . .}} ⇒ “Pseudo”-Zeitbereich
• Faltung von Anregung und Vokaltraktantwort→ additive Uberlagerung
• in der Praxis: log | . . . |
• Da DFT−1 “ahnlich” zu DFT bedeutet dies im Wesentlichen eine Frequenzanalyse des Lei-stungsdichtespektrums log |DFT{f}|
• Einheit des Cepstrums ist die Quefrenz
Grobstruktur des Leistungsdichtespektrums→ niedrige Quefrenz
Feinstruktur (= Grundfreqeuz + Harmonische)→ hohe Quefrenz
(ex. verschiedene Kunstworter, die durch Silbenvertauschung entstanden: Saphe, Alanysis, ...;ursprungliche Anwendung: Seismologie; siehe [Bog63])
• Cepstralkoeffizienten sind naherungsweise unkorreliert und der Wichtigkeit nach sortiert
Folie: Cepstrum und Beispiele zur Lifterung siehe Abb. 27 und Abb. 28
22. April 2014 27
7.3 Gehorrichtige Verzerrung der Frequenzachse
... gemaß Bark/mel-Skala
Erreicht durch (Bandpaß-)Filterbank, deren Mittenfrequenzen aquidistant auf der mel-Skala liegenmit Bandbreiten von 100 mel (= 1 bark)
Exkurs: Filterung (Hoch-, Tief-, Bandpaß)
Laßt sich z.B. im Frequenzbereich realisieren
"Signal"
Rauschanteil
|F(w)|
Hochpaß
Tiefpaß
Bandpaß
Folie: Mel-Filterbank siehe Abb. 29
Anwendung z.B.: 16 kHz Abtastrate, 16 ms Fenster⇒ 256 Abtastwerte/Frame|DFT{f}| ⇒ 128 spektrale Energienmel-Filterbank (Breite 1 Frequenzgruppe, 50% Uberlappung)⇒ 32 Bandpaßenergien
7.4 Berucksichtigung zeitlicher Veranderungen
Leider: Spektrale Eigenschaften von Sprache sind nur in idealisierten Situationen fur wenige Laut-klassen (Vokale, Frikative) stationar anzunehmen!
(z.B. Plosive, Diphothonge sowieso nie stationar)
Idealisierte Spektrogramme:
22. April 2014 28
naherungweise stationares, kontinuierliches und abruptes Spektralverhaltenverschiedener Lautklassen, nach [ST95, S. 69]
i.A. gelten selbst idealisierte Bedingungen nicht⇒ Information uber zeitliche Veranderung notwendig
Betrachtet man (das Spektrum/) die Merkmale x als Funktion der Zeit⇒ zeitliche Veranderung = Ableitung
3 Grundtypen von Verfahren
(xj ist Merkmalsvektor zum diskreten Zeitpunkt j)
a) Bildung der diskreten Ableitung
∆xj = xj+∆t − xj−∆t x′j =
(xj
∆xj
)
b) Berechnung einer Regressionsgerade (= Annaherung des Funktionsverlaufs durch eine Gerade)≈ Glattung der diskreten Ableitung
c) Zusammenfassung benachbarter Merkmalsvektoren (mit anschließender Dimensionsreduktion,z.B. durch PCA)
x′j = (xj−1,xj,xj+1)T
Hohere Ableitungen
a) im diskreten Fall durch iterierte Anwendung der diskreten Ableitung
∆nxj = ∆n−1xj+∆t −∆n−1xj−∆t
Nachteil: verarbeiteter/benotigter Signalbereich wachst um 2 ·∆t mit jeder Anwendung, d.h.
1. Ableitung: 2 ·∆t+ 1 Zeitpunkte
2. Ableitung: 4 ·∆t+ 1 Zeitpunkte
⇒ wachsende Glattung
22. April 2014 29
xj−2∆txj−∆t xj xj+∆t xj+2∆t
∆xj−∆t ∆xj ∆xj+∆t
∆∆xj ≈ ∆2xj
b) z.B. mit Hilfe von Regressionspolynomen hoherer Ordnung, gemaß:
∆nxj =
∆t∑t=−∆t
pn(t, 2∆t+ 1)xj+t
∆t∑t=−∆t
p2n(t, 2∆t+ 1)
Dabei bilden die Polynome pn ein orthogonales Funktionensystem:
p0(t, α) = 1
p1(t, α) = t
p2(t, α) = t2 − 112
(α2 − 1)
. . .
Fur die (verbreitete) Wahl von ∆t = 2 (d.h. mit einer Fensterbreite von 2∆t + 1 = 5 Frameserhalt man:
∆xj =
∆t∑t=−∆t
p1(t, 2∆t+ 1)xj+t
∆t∑t=−∆t
p21(t, 2∆t+ 1)
=
2∑t=−2
txj+t
2∑t=−2
t2
∆2xj =
∆t∑t=−∆t
p2(t, 2∆t+ 1)xj+t
∆t∑t=−∆t
p22(t, 2∆t+ 1)
=
2∑t=−2
(t2 − 2)xj+t
2∑t=−2
(t2 − 2)2
22. April 2014 30
7.5 Zusammenfassung (Kurzzeitanalyse)
0 T-1
1
(Hamming-Fenster o.Ä)
Srpachsignal
Kurzzeitsignal
logarith. Leistungsdichtespektrum
Fensterbildung
Vorhersagekoffizienten
aµ
|DFT{...}|
Betragsspektrum |Fµ|
verzerrtesBetragsspektrum
gehorrichtig
mel
log
DFT−1
Cepstrum cν
Lifterung cν ← 0, ∀ν > N
DFT
Ableitung o.A.
gangige Merkmale
Modellspektrum
DFT
Lineare-vorhersage
c′ν , ∆c′ν, ∆∆c′ν
c′ν
22. April 2014 31
Kapitel 8
Hidden-Markov-Modelle
... d.h. statistische Modelle zur Klassifikation im Kontext / integrierter Segmentierung und Klassifi-kation
8.0 “Anschauliche” Herleitung
1 Erinnern uns an Spracherkennung mit DTW (= Dynamischer Zeitverzerrung)
a b b x y
a
b
x
y
optimaler Verzerrungspfad
Ref
erez
mus
ter
Testmuster
s1
s2
s3
s4
Achtung: Beispiele in dieser Komplexitat immer fragwurdig!
2 Akzeptierender endlicher Automat (akzeptiert in Zustanden!)
22. April 2014 32
a x yb
Pfadrestriktion
bei
3 Umkehrung: Generierender endlicher Automat
4 Nicht alle Folgen (= Muster) gleich wahrscheinlich
⇒ Zustandsubergangswahrscheinlichkeiten
a b x y
0.2 0.7 0.1 0.4
0.8 0.3 0.9 0.6
5 Generierung von Symbolen auch statistisch
⇒ Emissionswahrscheinlichkeiten
a b x y
0.2 0.7 0.1 0.4
0.8 0.3 0.9 0.6
...
P (b|s1) = 0.2
s1
P (a|s1) = 0.7
P (x|s1) = 0.05
6 Modell beschreibt statistische Produktion von Mustern
Annahme: Jedes Muster entsteht gemaß eines solchen Modells!
Muster kann beobachtet werden (= Observationsfolge abbxy)nicht jedoch das Modell (= hidden, d.h. versteckt).
Fragestellungen an Hidden-Markov-Modelle
1. Wie gut beschreibt ein Modell (ggf. von mehreren) bestimmte Daten?
2. Wie tut es das (d.h. durch welche “internen Ablaufe” = Zustandsfolge)?
22. April 2014 33
3. Wie erstellt man ein geeignetes Modell?(d.h. eines, das bestimmte Daten moglichst gut beschreibt)
22. April 2014 34
8.1 Definition
Ein Hidden-Markov-Modell (HMM) beschreibt einen zweistufigen stochastischen Prozeß.
Die 1. Stufe bildet einen diskreten stochastischen Prozeß, der als Folge von Zufallsvariablen
S = S1, S2, ...ST
beschrieben werden kann. Diese konnen Werte aus einer diskreten, endlichen Zustandsmenge (d.h.von Zustanden)
St ∈ {1, 2, ...N}
annehmen. Der Prozeß beschreibt also probabilistisch Zustandsubergange in einem diskreten, endli-chen Zustandsraum.
Der stochastische Prozeß S ist:
• stationar, d.h. unabhangig von der (absoluten) Zeit t
• kausal, d.h. die Wahrscheinlichkeitsverteilung der Zufallsvariablen St hangt nur von vergange-nen Zustanden ab (d.h. den Werten von Zufallsvarialben St′ mit t′ < t) und ggf.
• einfach, d.h. die Verteilung von St ist nur vom unmittelbaren Vorgangerzustand abhangig (=HMM 1. Ordnung)
P (St|S1, S2, . . . St−1) = P (St|St−1)
Der stochastische Prozeß S kann als endlicher Automat mit Zustandsmenge {1, 2, ...N} aufgefaßtwerden. Zustandsubergange erfolgen gemaß der Zustandsubergangswahrscheinlichkeiten
P (St = j|St−1 = i)
Diese lassen sich in einer Zustandsubergangswahrscheinlichkeitsmatrix
A = {aij|aij = P (St = j|St−1 = i)}
zusammenfassen. Anfangszustande werden gemaß (der Startwahrscheinlichkeiten)
π = {πi|πi = P (S1 = i)}
eingenommen.
Die so erzeugte Folge von Zustanden ist nicht beobachtbar (= hidden).
Beobachtbar ist dagegen die Folge der Observationen
O = O1, O2 . . . OT
22. April 2014 35
die vom dem stochastischen Prozeß der 2. Stufe zu jedem Zeitpunkt in Abhangigkeit vom aktuellenZustand (allein!) erzeugt (= emittiert⇒ Emissionen) wird gemaß:
P (Ot|O1 . . . Ot−1, S1 . . . St) = P (Ot|St)
Bei diskreten HMMs stammen die Observationen aus einem endlichen Symbolinventar ({o1, o2, ...oK}).Mann kann dann die Matrix der Ausgabewahrscheinlichkeiten angeben als:
B = {bjk|bjk = P (Ot = ok|St = j)}
Ein HMM λ (wird in der Literatur ublicherweise so bezeichnet) ist daher vollstandig beschriebendurch das Tripel (π,A,B) aus Start- und Zustandsubergangswahrscheinlichkeiten sowie zustands-spezifischen Emissionsverteilungen (Anzahl N der Zustande implizit).
Beispiel: “Borsen-HMM”
Folie: Modellierung des Kursverhaltens an der Borse als HMM siehe Abb. 30
8.2 Emissionsmodellierung
Diskrete HMMs nur fur symbolische Daten (z.B. genetische Sequenzen) einsetzbar.
Bei Signalanalyse Verarbeitung vektorwertiger Großen erforderlich
⇒ Quantisierungsschritt notwendig (aber: Quantisierungsfehler!) oder
⇒ Verwendung kontinuierlicher Ausgabeverteilungen (kontinuierliche HMMs)
Kontinuierliche Emissionsdichten
Observationen X = x1,x2, ...,xT sind Folgen von Vektoren xt ∈ IRn aus einem n-dimensionalenVektorraum.
Hinweis: Observationsfolge nur mit X bezeichet, wenn explizit als kontinuierliche/vektorwertigeDaten gekennzeichnet, sonstO!
Zur Modellierung der Ausgaben eines HMMs definiert man dann einen Vektor von Emissionsdichten:
bj(x) = p(x|St = j)
Hinweis: Dichte 6= Wahrscheinlichkeit
22. April 2014 36
a) simpel = Normalverteilungen
• Zentraler Grenzwertsatz der Statistik⇒ viele naturliche Zufallsprozesse naherungsweisenormalverteilt
• mathematisch einfach, geschlossene Losungen moglich
bj(x) = N (x|µ,K) =1√|2πK|
e−1
2(x− µ)TK−1(x− µ)
(mit Mittelwert µ und KovarianzmatrixK)
Hinweis: im eindimensionalen Fall:
N (x|µ, σ2) =1√
2πσ2e−(x− µ)2
2σ2
Problem: Normalverteilung ist unimodal, d.h. nur zur Modellierung von Datenverteilungenmit einem Haufungsgebiet geeignet.
b) Mischverteilungen
Ziel: Approximation von beliebigen Verteilungen mit mehreren komplexen Haufungsgebieten
⇒ Mischverteilungen, d.h. Linearkombination bestimmter Basisdichten (z.B. Normalvertei-lungen)
p(x) =∞∑k=1
ckN (x|µk,Kk) ≈M∑k=1
ckN (x|µk,Kk)
(mit Mischungskomponenten N (x|...) und Mischungsgewichten ck,∑
k ck = 1)
Hinweis: Man kann zeigen, daß sich jede allgemeine Verteilung durch eine solche Mischver-teilung beliebig genau approximieren laßt (d.h. evtl. mit beliebig großer Anzahl M vonMischungskomponenten)
⇒ kontinuierliche HMMs (continuous [mixture|density] HMM)
bj(x) =
Mj∑k=1
cjkN (x|µjk,Kjk) =
Mj∑k=1
cjk gjk(x)
d.h. eine Mischverteilung pro Zustand mit je Mj Mischungsverteilungen (Mittelwert +Kovarianzmatrix) und Mischungsgewichten cjk
CDHMM = 3-stufiger Zufallsprozeß:
1. Zustand St = j einnehmen
2. Mischverteilungskomponente mt = k selektieren gemaß cjk
3. Ausgabevektor xt gemaß gjk(x) erzeugen
22. April 2014 37
8.3 Verwendungskonzepte
Annahme: Betrachtete Muster (= Sprachsignale bzw. deren Reprasentation als Merkmalsvektorfol-gen) sind Ausgaben eines — zumindest prinzipiell — vergleichbaren stochastischen Modells!
Fragestellungen(nicht “3 Probleme→ 3 Algorithmen” a la Rabiner!)
• Wie gut beschreibt ein Modell (=HMM) bestimmte Daten (= Observationsfolge)?
(auch als Evaluierungsproblem bezeichnet)
⇒ Produktionswahrscheinlichkeit P (O|λ) (bzw. Naherung) berechnen
Liefert Maß fur “Ubereinstimmung” modellierter Eigenschaften (HMM λ) und beobachteterDaten (ObervationsfolgeO).
Hinweis: P (O|λ) kann auch als Basis fur Klassifikation dienen!
• Welches von mehreren Modellen λi beschreibt bestimmte Daten am besten?
Annahme: λi beschreiben Daten verschiedener Klassen, z.B. verschiedene isoliert gesprocheneWorter.
⇒ Klassifikation nach maximaler a-postieriori Wahrscheinlichkeit
P (λj|O) = maxi
P (O|λi)P (λi)
P (O)
Da P (O) bzgl. Maximierung konstant, Vereinfachung moglich:
λj = argmaxλi
P (λi|O) = argmaxλi
P (O|λi)P (λi)
P (O)= argmax
λi
P (O|λi)P (λi)
Hinweis: Bei gleicher a-priori Wahrscheinlichkeit P (λi) der Klassen entscheidet Produktions-wahrscheinlichkeit
Problem: Klassifikation nur auf vollstandig segmentierten Daten moglich!
• Wie erzeugt ein Modell bestimmte Daten?
(auch als Dekodierungsproblem bezeichnet)
Annahme: Modelle sind strukturiert, entsprechen bedeutungstragenden Einheiten einer Ob-servationsfolge (z.B. einzelnen Wortern oder Lauten)
⇒ Produktionswahrscheinlichkeit liefert keine relevante Information!
⇒ “Aufdeckung” der internen Ablaufe bei der Erzeugung der Daten wichtig, d.h. Zustandsfol-ge s = s1, s2, ...sT
22. April 2014 38
Aber: Ruckschluß nur probabilistisch moglich, d.h. Berechnung der Zustandsfolge s∗, die Da-ten mit maximaler Wahrscheinlichkeit erzeugt
⇒ Segmentierung kann aus s∗ abgeleitet werden (z.B. optimale Laut- oder Wortfolge)
• Wie erzeugt man ein geeignetes Modell?
... “geeignet” fur die Modellierung bestimmter Daten (d.h. zur Beschreibung deren statistischerEigenschaften)
Achtung: I.a. keine Losungsmethode bekannt!
⇒ Losung nur unter Einschrankungen moglich: Verbesserung eines bestehenden Modells
(auch als Trainingsproblem bezeichnet)
d.h. Berechnung aktualisierter Modellparameter λ = (π, A, B), die gegebene Daten Omit gleicher oder großerer Wahrscheinlichkeit erzeugen:
P (O|λ) ≥ P (O|λ)
Problem: Modellstruktur (= # Zustande, i.d.R. auch Kanten) und initiale Parameter mussen(heuristisch?!) vorgegeben werden!
8.4 Bewertung
Verbreitetstes Maß: Produktionswahrscheinlichkeit, aber auch “Varianten” moglich
8.4.1 Die Produktionswahrscheinlichkeit
Betrachten zunachst intiutiv einfache, aber ineffiziente Methode zur Berechnung der Produktions-wahrscheinlichkeit P (O|λ):
a) alle Pfade s = s1, s2, ...sT durch das Modell λ aufzahlen und jeweils die Pfadwahrscheinlich-keit berechnen:
P (s|λ) = πss as1s2 as2s3 ...asT−1sT =T∏t=1
ast−1st mit as0i = πi
b) fur jeden Pfad s die Produktionswahrscheinlichkeit vonO geg. s und λ bestimmen:
P (O|s, λ) = bs1(O1) bs2(O2)...bsT (OT ) =T∏t=1
bst(Ot)
c) Wahrscheinlichkeit fur Produktion insgesamt ergibt sich gemaß:
P (O|λ) =∑s
P (O, s|λ) =∑s
P (O|s, λ)P (s|λ) =∑s
T∏t=1
ast−1st bst(Ot)
22. April 2014 39
Problem des Verfahrens: Aufwand exponentiell O(NT T )
Losung(en) beruhen auf Ausnutzung der Markov-Eigenschaft von HMMs, d.h. ihrem endlichen“Gedachtnis”, das nur die Speicherung eines internen Zustands erlaubt!
⇒ sobald Zustand j zu Zeitpunkt t eingenommen, ist Pfad, auf dem dieser erreicht wurde, furweiteres Verhalten des Modelle irrelevant!
⇒ alle Zustandsfolgen konnen rekombiniert werden! (HMMs 1. Ordnung)
Forward-Algorithmus
... zur effizienten Berechnung der Produktionswahrscheinlichkeit P (O|λ)
Man definiert die Vorwartsvariablen αt(i):
αt(i) = P (O1, O2, . . . Ot, st = i|λ)
d.h. Wahrscheinlichkeit fur die Erzeugung der partiellen Observationsfolge O1, O2, ...Ot und demErreichen des Zustands i zum Zeitpunkt tForward-AlgorithmusMan definiert: αt(i) = P (O1, O2, . . . Ot, st = i|λ)
1. Initialisierung
α1(i) := πibi(O1)
2. Rekursion
fur alle Zeitpunkte t, t = 1 . . . T − 1:
αt+1(j) :=
{∑i
αt(i) aij
}bj(Ot+1)
3. Rekursionsabschluss
P (O|λ) =N∑i=1
αT (i)
Berechnungsaufwand: O(N2T )
22. April 2014 40
Rechenschema zur Bestimmung der Vorwartsvariablen αt(i)
���������
��� �������
�
Zeit
Zustande
��� ������ ���
��� ��
�
� �����
���� �
Hinweis: Produktionswahrscheinlichkeit P (O|λ) betrachtet Erzeugung der Observationsfolge ent-lang aller moglichen Pfade durch das Modell.
Auch: Betrachtung nur der optimalen Moglichkeit
8.4.2 Die “optimale” Produktionswahrscheinlichkeit
... betrachtet nur Erzeugung der Observationsfolge entlang des Pfades s∗, fur den sich die beste indi-viduelle Produktionswahrscheinlichkeit ergibt:
P ∗(O|λ) = P (O, s∗|λ) = maxsP (O, s|λ)
Effiziente Berechnung durch leichte Abwandlung des Forward-Algorithmus moglich (Methode istTeil des Viterbi-Algorithmus [spater]).
Man definiert die partiellen Pfadwahrscheinlichkeiten δt(i):
δt(i) = maxs1,s2,...st−1
P (O1, O2, . . . Ot, s1, s2, . . . st−1, st = i|λ)
d.h. die maximale Wahrscheinlichkeit, die partielle Observationsfolge O1, O2, ...Ot entlang eines be-liebigen Pfades s1, s2, . . . st−1, st mit Endzustand st = i zu erzeugen.
Hinweis: Algorithmus analog Forward-Algorithmus, nur∑
i −→ maxi:
22. April 2014 41
Algorithmus zur Berechnung der max. ProduktionswahrscheinlichkeitMan definiert: δt(i) = max
s1,s2,...st−1
P (O1, O2, . . . Ot, s1, s2, . . . st−1, st = i|λ)
1. Initialisierung
δ1(i) = πibi(O1)
2. Rekursion
fur alle Zeitpunkte t, t = 1 . . . T − 1:
δt+1(j) = maxi{δt(i)aij} bj(Ot+1)
3. Rekursionsabschluss
P ∗(O|λ) = P (O, s∗|λ) = maxiδT (i)
Hinweis: P ∗(O|λ) stellt in der Praxis gute Naherung fur die Produktionswahrscheinlichkeit dar, dadie optimale Moglichkeit zur Generierung von O entlang von s∗ numerisch die ubrigen Summandendominiert.Rechenschema zur Bestimmung der partiellen Pfadwahrscheinlichkeiten δt(i)
�����������
��� ����
Zeit
Zustande
�����
��� ����������
�������
�
� ���!
"$# �
22. April 2014 42
8.5 Dekodierung
Annahme: Zustande eines Modells konnen mit bestimmten bedeutungsvollen Einheiten des Anwen-dungsgebiets assoziiert werden (z.B. Laute, Worter)
⇒ globales Gutemaß (z.B. Produktionswahrscheinlichkeit) nicht mehr ausreichend!
⇒ interne Ablaufe bei Erzeugung der Obervationsfolge aufdecken (d.h. Folge der Zustande)
Problem: Obersvationsfolge prinzipiell entlang jeder Zustandsfolge generierbar
⇒ Ruckschluß nur probabilistisch moglich
Ziel: Bestimme Zustandsfolge s∗, die bei geg. Modell λ Observationsfolge O mit maximaler a-posteriori Wahrscheinlichkeit erzeugt
s∗ = argmaxs
P (s|O, λ)
Umformung mit Bayes-Regel ergibt:
P (s|O, λ) =P (O, s|λ)
P (O|λ)
Da Produktionswahrscheinlichkeit P (O|λ) fur Maximierung unerheblich (konstant), ergibt sich:
s∗ = argmaxs
P (s|O, λ) = argmaxs
P (O, s|λ)
Maximum wird erreicht fur “optimale” Produktionswahrscheinlichkeit P ∗(O|λ) = P (O, s∗|λ), da-her kann s∗ durch Erweiterung des Algorithmus zur Berechung von P (O, s∗|λ) bestimmt werden.
Hinweis: s∗ ist i.a. nicht eindeutig bestimmt!Viterbi-Algorithmus zur Bestimmung der optimalen Zustandsfolge s∗
Man definiert: δt(i) = maxs1,s2,...st−1
P (O1, O2, . . . Ot, s1, s2, . . . st−1, st = i|λ)
1. Initialisierung
δ1(i) := πibi(O1) ψ1(i) := 0
2. Rekursion
fur alle Zeitpunkte t, t = 1 . . . T − 1:
δt+1(j) := maxi{δt(i)aij} bj(Ot+1) ψt+1(j) := argmax
i{δt(i)aij}
3. Rekursionsabschluss
P ∗(O|λ) = P (O, s∗|λ) = maxiδT (i)
s∗T := argmaxj
δT (j)
4. Ruckverfolgung des optimalen Pfades
fur alle Zeitpunkte t, t = T − 1 . . . 1:
s∗t = ψt+1(s∗t+1)
22. April 2014 43
8.6 Parameterschatzung
Problem: Kein Verfahren bekannt, das zu geg. Stichprobe ein in irgendeiner Hinsicht optimales Mo-dell liefert
Aber: Wenn Modellstruktur (d.h. Anzahl Zustande und Art der Emissionsmodellierung) sowie sinn-volle initiale Werte fur Modellparameter vorgegeben, konnen diese schrittweise verbessert wer-den (= Training des Modells)
8.6.1 Grundlagen
Trainingsverfahren unterscheiden sich je nach verwendetem Qualitatsmaß (zur Bewertung der Mo-dellierungsgute)
Generell gilt: Verfahren realisieren Wachstumstransformation auf geg. Modellparametern, so dassverandertes Modelll λ bessere oder gleichbleibende Modellierungsgute liefert:
P (. . . |λ) ≥ P (. . . |λ)
Intuitives Prinzip des Parametertrainings:
1. Aktionen des Modells bei der Erzeugung einer Observationsfolge “beobachten”
2. Anzahl relevanter Ereignisse (Zustandsubergange + Emissionen) “zahlen”
(wegen probabilistischer Formulierung kann nur erwartete Anzahl bestimmt werden)
3. Modellparameter durch relative Haufigkeiten ersetzen
Aktualisierte Modellparameter konnen daher prinzipiell wie folgt bestimmt werden (hier nur fur dis-krete HMMs):
aij =erwartete Anzahl der Ubergange von Zustand i nach j
erwartete Anzahl der Ubergange von Zustand i aus
bi(ok) =erwartete Anzahl der Emissionen von ok in Zustand ierwartete Gesamtanzahl der Emissionen in Zustand i
⇒ fur Ruckschluss auf Zustandsubergange/Emissionen muß Wahrscheinlichkeit bestimmt werden,dass Zustand i zu bestimmtem Zeitpunkt t vorlag (= Zustandswahrscheinlichkeit)!
2 grundlegende Methoden, abhangig vom betrachteten Optimierungskriterium:
• “optimale´´ Produktionswahrscheinlichkeit P (O, s∗|λ), d.h. entlang des optimalen Pfades: Vor-liegen von Zustand i zu best. Zeitpunk t kann direkt auf opt. Zustandsfolge s∗ uberpruft werden
P ∗(St = i|O, λ) = χt(i) =
1 falls s∗t = i und s∗ = argmaxs
P (s,O|λ)
0 sonst
22. April 2014 44
• Produktionswahrscheinlichkeit P (O|λ), d.h. entlang beliebigen Pfades: probabilistischer Ruck-schluß→ aufwendiger!
Forward-Backward-Algorithmus
... zur Berechnung der Zustandswahrscheinlichkeit P (St = i|O, λ) d.h. der a-posteriori Wahrschein-lichkeit eines Zustandes i zum Zeitpunkt t bei gegebener ObservationsfolgeO und bekanntem Modellλ
Prinzipiell brute force Ansatz moglich, aber zu ineffizient!
Erinnern uns: Vorwartsvariable αt(i) liefert bereits – in begrenztem Umfang – Information uber Vor-liegen von Zustand i zu Zeitpunkt t! Lediglich Wahrscheinlichkeit fur Erganzung der partiellen Ob-servationsfolge fehlt.
Man definiert die Ruckwartsvariablen βt(j):
βt(j) = P (Ot+1, Ot+2, . . . OT |st = j, λ)
Kann effizient mit Gegenstuck des Forward-Algorithmus berechnet werden⇒ Backward-Algorithmus
Hinweis: Beide Algorithmen werden i.d.R. als Einheit betrachtet.
Mit Hilfe von αt(i) und βt(j) kann Zustandswahrscheinlichkeit bestimmt werden (Bayes-Regel).
P (St = i|O, λ) =P (St = i,O|λ)
P (O|λ)
P (O|λ): Ergebnis des Forward-Algorithmus
P (St = i,O|λ) = P (O1, O2, . . . Ot, St = i|λ)P (Ot+1, Ot+2, . . . OT |St = i, λ) = αt(i)βt(i)
Die Zustandswahrscheinlichkeit (ublicherweise als γt(i) bezeichnet) ergibt sich dann zu:
γt(i) = P (St = i|O, λ) =αt(i)βt(i)
P (O|λ)
22. April 2014 45
Forward-Backward-AlgorithmusMan definiert:αt(i) = P (O1, O2, . . . Ot, st = i|λ) βt(i) = P (Ot+1, Ot+2, . . . OT |st = i, λ)
1. Initialisierung
α1(i) := πibi(O1) βT (i) := 1
2. Rekursion
fur alle Zeitpunkte t, t = 1 . . . T − 1: bzw. t = T − 1 . . . 1:
αt+1(j) :=∑i
{αt(i)aij} bj(Ot+1) βt(i) :=∑j
aijbj(Ot+1)βt+1(j)
3. Rekursionsabschluss
P (O|λ) =N∑i=1
αT (i) P (O|λ) =N∑i=1
πibi(O1)β1(i)
Rechenschema zur Bestimmung der Ruckwartsvariablen βt(i)
���������
Zeit
Zustande
���� �������
������
�
� �����
���� �
22. April 2014 46
8.6.2 Trainingsverfahren
Zustandswahrscheinlichkeit (probabilistisch: γt(i), bzw. “deterministisch”: χt(i)) Basis der Verfahren⇒ zeitliche Zuordnung von Modellzustanden und Observationen
Baum-Welch-Algorithmus
Verbreitetstes Verfahren zum Training von HMMs (Optimierungskriterium: Produktionswahrschein-lichkeit P (O|λ))
Fur verbessertes Modell λ gilt: P (O|λ) ≥ P (O|λ)
Hinweis: Fur “vollstandiges” Parametertraining mehrfache Anwendung erforderlich!
⇒ Abbruchkriterium z.B. zu geringe Verbesserung von P (O|λ)
Modellparameter werden durch ihre bedingten Erwartungswerte ersetzt (Variante des EM-Algorithmus)
Hilfsgroßen:
• Zustandswahrscheinlichkeit γt(i)
• Wahrscheinlichkeit P (St = i, St+1 = j|O, λ) eines Ubergangs von Zustand i nach j zumZeitpunkt t:
γt(i, j) = P (St = i, St+1 = j|O, λ) =
=P (St = i, St+1 = j,O|λ)
P (O|λ)=αt(i) aij bj(Ot+1) βt+1(j)
P (O|λ)
22. April 2014 47
Rechenschema zur Bestimmung der von γt(i, j)
Zustande
Zeit
�����
����� �
� �����������
�
� �����
� �����
Aktualisierte Modellparameter ergeben sich gemaß:
• Ubergangswahrscheinlichkeiten
aij =
T−1∑t=1
P (St = i, St+1 = j|O, λ)
T−1∑t=1
P (St = i|O, λ)
=
T−1∑t=1
γt(i, j)
T−1∑t=1
γt(i)
• (Startwahrscheinlichkeiten analog/trivial)
• Emissionswahrscheinlichkeiten (diskret)
bj(ok) =
T∑t=1
P (St = j, Ot = ok|O, λ)
T∑t=1
P (St = j|O, λ)
=
∑t :Ot=ok
P (St = j|O, λ)
T∑t=1
P (St = j|O, λ)
=
∑t :Ot=ok
γt(j)
T∑t=1
γt(j)
Hinweis: Vorliegen eines Observationssymbols kann direkt uberpruft werden
⇒ P (St = j, Ot = ok|O, λ) liefert nur dort positive Anteile fur Summation
• Emissionsdichten (kontinuierlich)→ schwieriger!
22. April 2014 48
Zusatzliche Hilfsgroße: Wahrscheinlichkeit, zum Zeitpunkt t im Zustand j k-te Mischverteilungs-komponente zur Erzeugung der Observation Ot zu verwenden:
ξt(j, k) = P (St = j,Mt = k|O, λ) =
N∑i=1
αt−1(i) aij cjk gjk(Ot) βt(j)
P (O|λ)
Aktualisierte Modellparameter der Emissionsdichten erhalt man gemaß:
• Emissionsgewichte
cjk =
T∑t=1
P (St = j,Mt = k|O, λ)
T∑t=1
P (St = j|O, λ)
=
T∑t=1
ξt(j, k)
T∑t=1
γt(j)
• Mittelwertvektoren
µjk =
T∑t=1
P (St = j,Mt = k|O, λ)xt
T∑t=1
P (St = j,Mt = k|O, λ)
=
T∑t=1
ξt(j, k)xt
T∑t=1
ξt(j, k)
• Kovarianzmatrizen
Kjk =
T∑t=1
P (St = j,Mt = k|O, λ) (xt − µjk)(xt − µjk)T
T∑t=1
P (St = j,Mt = k|O, λ)
=
T∑t=1
ξt(j, k) (xt − µjk)(xt − µjk)T
T∑t=1
ξt(j, k)
Folie: Baum-Welch-Algorithmus siehe Abb. 31
Viterbi-Training
Grundprinzip vergleichbar Baum-Welch-Algorithmus, allerdings:
• Optimierungskriterium: “optimale” Produktionswahrscheinlichkeit P ∗(O|λ) = P (O, s∗|λ))
⇒ alternative Def. der Zustandswahrscheinlichkeit: χt(i)
Fur verbessertes Modell λ gilt: P ∗(O|λ) ≥ P ∗(O|λ)
Aktualisierte Modellparameter ergeben sich – z.B. – gemaß:
22. April 2014 49
• Ubergangswahrscheinlichkeiten
aij =
T−1∑t=1
P (St = i, St+1 = j|s∗,O, λ)
T−1∑t=1
P (St = i|s∗,O, λ)
=
T−1∑t=1
χt(i)χt+1(j)
T−1∑t=1
χt(i)
• Emissionswahrscheinlichkeiten (diskret): analog
• Emissionsdichten: extrem komplex, evtl. naherungsweise
Folie: Viterbi-Training siehe Abb. 32
8.6.3 Mehrere Observationsfolgen
Stichproben sind i.d.R. in einzelne Abschnitte untergliedert (bei Spracherkennung: einzelne Auße-rungen / Turns)
⇒ eigentlich einzelne Observationsfolgen
Parameter sollen aber auf der Basis aller Daten aktualisiert werden.
⇒ Statistiken zur Parameterschatzung mussen uber alle Observationsfolgen akkumuliert werden
Beispiel: Neuschatzung der Mittelwertvektoren kontinuierlicher Emissionsdichten
Geg. Stichprobe ω = {O1,O2, . . .OL} von L einzelnen ObservationsfolgenOl
Mittelwertvektoren aktualisieren gemaß:
µjk =
L∑l=1
T∑t=1
ξlt(j, k)xt
L∑l=1
T∑t=1
ξlt(j, k)
22. April 2014 50
8.7 Initiale Modellparameter
8.7.0 Vektorquantisierung
Ziel:
• Codierung vektorwertiger Eingabedaten (Sprache, Bilder) in endliche Menge von Re-prasentanten z.B. zum Zwecke der Komprimierung / Ubertragung
• Partitionierung des Eingabedatenraums (≈ Clusteranalyse)
Definition: Ein (Vektor-)Quantisierer Q ist als die Abbildung eines k-dimensionalen VektorraumsIRk in eine endliche Teilmenge Y ⊂ IRk
Q : IRk 7→ Y
mit dem Codebuch Y = {y1,y2, . . .yN}, d.h. der Menge der Reprasentanten- oder Prototy-penvektoren yi.
Mit jedem Quantisierer Q der Große N ist eine Partition des IRk assoziiert in Zellen
R1, R2, . . . RN
wobei in Ri alle diejenigen Vektoren x ∈ IRk liegen, die von Q dem Prototypen (bzw. Code-wort) yi zugeordnet werden:
Ri = Q−1(yi) = {x ∈ IRk|Q(x) = yi}
Folgerungen:
• Q definiert eine vollstandige, disjunkte Zerlegung des IRk, d.h.:
N⋃i=1
Ri = IRk und Ri ∩Rj = ∅ ∀i, j mit i 6= j
• Der Quantisierer Q ist eindeutig definiert durch die Angabe des Codebuchs Y und derzugehorigen Partition {Ri}.• Ein Quantisierer kann in der Praxis als Kombination eines Codierers C und eines Deko-
dierers D aufgefaßt werden. Mit der Indexmenge I = {1, 2, ...N} ergibt sich:
C : IRk → I und D : I → Y ⇒ Q = D ◦ C
• Da i.a. Q(x) 6= x ist, entsteht bei der Quantisierung von gemaß der Zufallsvariablen Xverteilten Vektoren ein mittlerer Fehler
ε(Q) = E{ε(X|Q)} = E{d(X,Q(X))} =
∫IRk
d(x, Q(x)) p(x) dx
wobei d(., .) ein geeignetes Abstandsmaß und p(x) die Verteilungsdichte von X ist.
22. April 2014 51
Optimalitat von Vektorquantisierern
Satz (“Nachster-Nachbar-Bedingung”): Fur ein geg. Codebuch Y erfullt die optimale Partition{Ri}
Ri ⊆ {x|d(x,yi) ≤ d(x,yj) ∀j 6= i}und
Q(x) = yi falls d(x,yi) ≤ d(x,yj) ∀j 6= i
d.h. Q wahlt den nachsten Nachbarn von x aus.
⇒ d(x, Q(x)) = miny∈Y
d(x,y)
Hinweis: Bei d(x,yi) = d(x,yj) fur i < j wahle Q(x) = yi.
Beweis: Fur ein geg. Codebuch kann der mittlere Fehler nach unten abgeschatzt werden gemaß
ε(Q) =
∫IRk
d(x, Q(x)) p(x) dx ≥∫
IRk
{miny∈Y
d(x,y)} p(x) dx
Diese untere Schranke wird mit der “Nachster-Nachbar-Bedingung” erreicht!
Hinweis: Argumentation greift nur, da sowohl p(x) als auch d(., .) nicht-negativ werden!
Satz (“Zentroid-Bedingung”): Fur eine geg. Partition {Ri} sind die optimalen Codebuchvektorenyi die Zentroiden der jeweiligen Zellen, d.h.
yi = cent(Ri)
wobei
y∗ = cent(R) falls E{d(X,y∗)|X ∈ R} ≤ E{d(X,y)|X ∈ R} ∀y ∈ R
d.h. der Zentroid minimiert den mittleren Fehler der Quantisierung innerhalb einer Zelle Ri.
Hinweis: Fur elliptisch symmetrische Abstandsmaße der Form (x−y)TK−1(x−y) ist der Zentroididentisch mit dem bedingten Erwartungswert
cent(R) = E{X|X ∈ R} =
∫R
x p(x|x ∈ R)dx
Beweis:
ε(Q) =N∑i=1
∫Ri
d(x,yi)p(x)dx =N∑i=1
P (X ∈ Ri)
∫Ri
d(x,yi)p(x|x ∈ Ri)dx
Da dieRi disjunkt sind, konnen alleN Terme unabhangig voneinander minimiert werden indemyi so gewahlt wird, dass∫
Ri
d(x,yi)p(x|x ∈ Ri)dx = E{d(X,yi)|X ∈ R} −→ min!
Dieses Minimum wird genau dann erreicht, wenn yi = cent(Ri)!
Hinweis: Fur optimalen Quantisierer hangen Codebuch und Partition unmittelbar voneinander ab.⇒ Angabe des Codebuchs ausreichend (wird i.d. Praxis mit Quantisierer identifiziert)
22. April 2014 52
Algorithmen zum Design von Vektorquantisierern
Problem: analytische Losung nicht bekannt!
Idee: Iterative Verbesserung eines initialen Codebuchs Y 0 geg. eine “Trainingssequenz” ω = {x1,x2, . . .xT}von Beispielvektoren xi ∈ IRk
1. Algorithmus nach LLoyd
Idee: Duale Sichtweise auf Vektorquantisierer ausnutzen: Codebuch⇔ Partition
Folie: LLoyd-Algorithmus siehe Abb. 33
Hinweis: Fur euklidischen Abstand:
ym+1i = cent(Rm
i ) =1
|Ri|∑x∈Ri
x
Lemma: Fur eine endliche Trainingsmenge ω erzeugt der Algorithmus nach Lloyd immer eine Folgevon Vektorquantisierern, deren mittlerer Fehler in endlich vielen Schritten konvergiert.
Probleme:• Es wird i.a. nur ein lokales Minimum des mittleren Quantisierungsfehlers gefunden. Das
finale Codebuch ist also nicht notwendigerweise optimal!
(Problem kann ggf. durch Stochastische Relaxation umgangen werden.)
• Anzahl N der Codebuchvektoren muß vorgegeben werden.
• Initialisierungsschritt nicht spezifiziert!
2. Algorithmus nach Linde, Buzo & Gray (LBG)
Folie: LBG-Algorithmus siehe Abb. 34
Vorteile:• Initialisierung klar definiert⇒ Risiko lokale Minima zu finden geringer.
• Durch iterative Vergroßerung des Codebuchs wird Klassifikationsaufwand zu Beginn derOptimierung reduziert.
3. k-means-Algorithmus (nach MacQueen)
Achtung: misbrauchliche Verwendung der Bezeichung auch fur Lloyd-Algorithmus!
Annahme: Trainingsmenge ω ist zufallige, unabhangig voneinander erzeugte Folge von Vektoren.
Folie: k-means-Algorithmus siehe Abb. 35
Hinweis: Fur das k-means-Verfahren kann asymptotische Konvergenz fur T →∞ gezeigt werden.
22. April 2014 53
Schatzung von Mischverteilungsmodellen
Vektorquantisierer beschreiben Datenverteilungen nur mit N Reprasentantenvektoren. Lokale Streu-ungseigenschaften werden nicht berucksichtigt.
⇒ genauere Darstellung mit Mischverteilungsmodellen, i.d.R. auf der Basis von Normalverteilungs-dichten
Einfachste (aber schlechte!) Methode: Aufbauend auf Ergebnis des VQ Normalverteilungsdichteschatzen:
• Mittelwertvektor µi ← Zentroid yi
• Kovarianz durch empirische Kovarianz der Zelle Ri approximieren:
Ki ←1
|Ri|∑x∈Ri
(x− µi)(x− µi)T
Besser: Verzerrung des Vektorraums durch Kovarianz schon beim Quantisierungsprozeß berucksich-tigen.
⇒ Mahalanobis-Abstand (= Erweiterung d. euklid. Abstands):
dMahalanobis(x,µ) = (x− µ)TK−1(x− µ)
Hinweis: entspricht fast vollstandig dem Exponentialterm einer Normalverteilung
⇒ Erweiterung zu Normalverteilungsdichte einfach
Hinweise:
• Dichte ist Zugehorigkeits- und nicht Abstandsmaß, d.h.
Ri = {x|i = argmaxjN (x|µj,Kj)}
• Minimierung des mittleren Quantisierungsfehlers fur Dichteschatzung nicht angemessen (Dich-teparameter bei VQ auf endlichem Gebiet Ri berechnet, Normalverteilungsdichte ist aber imgesamten IRk definiert!).
EM-Algorithmus (fur Mischverteilungsmodelle)
EM: Allg. Verfahren zur Optimierung stat. Modelle mit versteckten Zufallsvariablen (hier: Mischungs-komponenten, bei HMMs: Zustande und ggf. Mischungskomponenten der Emissionsdichten)
Mischverteilungsmodell mit N Komponentendichten und Parametern θ = ({ci}, {µi}, {Ki}) defi-niert als:
p(x|θ) =N∑i=1
ci N (x|µi,Ki)
22. April 2014 54
Prinzipielles Ziel: Wahrscheinlichkeit der Daten ω = {x1,x2, . . .xT} in Abhangigkeit von den Para-meter maximieren.
Explizit mit Likelihoodfunktion:
L′(θ|ω) = p(x1,x2, . . .xT |θ)
Haufig wird Logarithmus der Likelihoodfunktion betrachtet:
L(θ|ω) = lnL′(θ|ω) = ln p(x1,x2, . . .xT |θ) =∑x∈ω
ln p(x|θ)
(monotone Funktion verandert Ergebnis der Maximierung nicht!)
2 Phasen des EM-Algorithmus:
• Schatzwerte fur nicht beobachtet Wahrscheinlichkeitsgroßen bestimmen (expectation oder E-step)
Hier: Zuordnung von Datenvektoren zu Normalverteilungsdichten, d.h. a-posteriori Wahrschein-lichkeiten der Einzeldichten / Musterklassen ωi:
P (ωi|x, θ) =P (ωi|θ) p(x|ωi, θ)
p(x|θ) =P (ωi|θ) p(x|ωi, θ)∑j P (ωj|θ) p(x|ωj, θ)
=
=ci N (x|µi,Ki)∑j cj N (x|µj,Kj)
• Schatzwerte fur Modellparameter bestimmen, die Likelihood der Daten maximieren (maximi-sation oder M-step)
Problem: Fur iterative Optimierung mussen initiale Parameter vorgegeben werden!
Wegen Modellkomplexitat keine zufallige Festlegung moglich!
⇒ Aus Ergebnis eines VQ ableiten
Folie: EM-Algorithmus fur Mischverteilungsmodelle siehe Abb. 36
8.7.1 Initiale Ubergangswahrscheinlichkeiten
a) trivial: uniform festlegen, da “nicht so wichtig”
b) heuristisch: manuell (d.h. von Experten) festlegen
(Rechtfertigung unklar, Vorgehen ex. aber im Bereich der Bioinformatik)
c) automatisch: auf nach Modellzustanden gelabelter Stichprobe auszahlen
Problem: Aufwand (falls manuell) oder existierendes Basisssystem erforderlich!
d) (halb-)automatisch: Segmentierung auf Modellebene + heuristische Regeln fur Ableitung derUbergangswahrscheinlichkeiten (abhangig von prinzipieller↗Modelltopologie)
22. April 2014 55
8.7.2 Initiale Emissionsparameter
... konnen auf klassifizierter Stichprobe geschatzt werdenProblem: Phonetisch detaillierte Annotierung von Sprachsignalen sehr aufwendig: “Echtzeitfaktor”
> 300
⇒ i.d.R. automatische Segmentierung mit einem bereits bestehenden Erkennungssystem (Henne-Ei-Problem!)
Prinzip: Zuordnung jedes Frames zum zugehorigen Modellzustand (deterministisch)
a) diskret:
bj(ok) =Anzahl ok in Frames fur Zustand j
Anzahl Frames fur Zustand j
=
∑t
P (Ot = ok, St = j) ← binar∑t
P (St = j) ← binar
(analog Updategleichung fur diskrete Modelle, nur keine Abhangigkeit von Modell, nur implizitvon Observationen!)
b) kontinuierlich: Mischverteilungsmodell pro Zustand erforderlich!
Naherungsweise Gewinnung durch Vektorquantisierung (ggf. mit speziellem Abstandsmaß ≈Normalverteilung pro Codebuchvektor)
Mischungsgewichte naherungsweise ≈ a-priori Wahrscheinlichkeiten der Codebuchklassen
8.7.3 Segmental k-means
... zur kombinierten (Pseudo-)Initialisierung von Emissionen und Ubergangswahrscheinlichkeiten
Hinweis: Weitere Iterationen auch zum Modelltraining (Naherungsweises Verfahren zum Viterbi-Training von kontinuierlichen HMMs)
Folie: Segmental-k-means-Algorithmus siehe Abb. 37
Grundsatzliche Probleme (bei Initialisierung & Training)
Große Anzahl von Parametern leicht definierbar!
Aber: Stichproben sind endlich!
⇒ Robuste Schatzung nicht fur beliebig viele Parameter moglich
Hinweis: Wird evident z.B. wenn K−1 nicht mehr berechnet werden kann, da lineare Abhangigkei-ten vorliegen
22. April 2014 56
8.8 Parameter-Tying
(ungeschickte deutsche Bezeichnung “Verklebung” in [ST95])
“Tying” ≈Wiederverwendung / Indentifizierung (im Sinne von Zusammenfassung)
⇒ geringere Anzahl von Modellparametern
⇒ robustere Parameterschatzung
8.8.1 Einfaches Tying
... fur Zustande, d.h. zwei (oder mehr) Zustande eines Modells teilen sich alle Parameter (Ubergangs-wahrscheinlichkeiten und Emissionsdichten).
/m//a//m/
/p/ /a/ /p/
/a/
/a/
Entsprechende Zusammenfassung von Zustanden ...
a) ensteht implizit bei der Konstruktion großerer Modelle aus kleineren Bausteinen, die an unter-schiedlichen Stellen im Gesamtmodell repliziert (wieso das?) werden,
b) kann vom System-Designer vorgegeben oder ...
c) ggf. automatisch durch Clusteranalyse eines großeren Ausgangszustandsraums gefunden wer-den (Problem: Woher kommen Parameter initialer Zustande?)
8.8.2 Mixture-Tying / Semikontinuierliche HMMs
(erfunden von Huang, daher Vorsicht bei dessen Einschatzungen!)
... alle Zustande eines kontinuierlichen (Mischverteilungs-) HMMs teilen sich die Mischungskompo-nenten (= Codebuch).
22. April 2014 57
⇒Mischungskomponenten (engl. mixtures) sind global, nur Mischungsgewichte lokal
Bei M mixtures gilt:
bj(x) =M∑k=1
cjkN (x|µk,Kk) =M∑k=1
cjk gk(x)
Dekodierung eines semi-kontinuierlichen HMMs kann als zweistufiges Verfahren realisiert werden:
1) Mischungsdichtewerte berechnen (= “weiche Vektorquantisierung”)
2) Mischungsgewichte ≈ Ausgabewahrscheinlichkeiten eines diskreten HMMs
Aber: alle Mischungsanteile werden bei der Berechnung der Emissionswahrscheinlichkeit beruck-sichtigt!
22. April 2014 58
8.9 Praktischer Einsatz von HMMs
8.9.1 Modellierung akustischer Ereignisse
... i.d.R. Worter, aber auch Pausen, Hasitationen (“ah”, “hm”, ...), Gerausche (menschliche [z.B. At-men, Lippenschmatzen] und “technische”).
Allgemeine, voll-vernetzte Modellstruktur (d.h. Ubergange von jedem Zustand zu beliebigen Nach-folgern moglich = ergodisches HMM) fur zeitlich fortschreitende Prozesse wie Sprache nicht sinn-voll.
→ Modelltopologien werden geeignet eingeschrankt
Fur die Spracherkennung verwendete Modelltopologien von HMMs, nach [ST95, S. 128]
22. April 2014 59
Ganzwortmodelle
... “eigentlich” beste/ideale Moglichkeit der Modellierung
Probleme:
• Trainierbarkeit:
bei sinnvoller Wortschatzgroße i.d.R. nicht genugend Trainingsbeispiele fur alle Modelle
• Trainingsvokabular muss Testvokabular (d.h. Wortschatz der beim Einsatz des Systems erkanntwerden muss) vollstandig enthalten (keine im Training nicht vorkommenden Worter sind re-prasentierbar)!
• Riesige Parameteranzahl
⇒ Verwendung von Wortuntereinheiten
Wortuntereinheiten
Prinzip: Analyse durch Synthese
Hier: Wortmodelle werden aus kleineren Modellen zusammengebaut
z.B. λ(Wort) = λ(/v/) ◦ λ(/O/) ◦ λ(/r/) ◦ λ(/t/)
Wesentliche Gesichtspunkte
• Segmentierung (und Rekombination)
Problem: Variationen uber Segmentgrenzen hinweg konnen i.d.R. nicht erfaßt werden, d.h.Problemzonen enstehen an Segmentgrenzen
Abhilfe:
– moglichst wenige Segmentgrenzen (d.h. moglichst große Segmente bzw. Einheiten)
– Segmentgrenzen im “stationaren” Bereich
– implizite Berucksichtigung von Kontext
• Abstraktionsniveau (allgemein↔ speziell)
je allgemeiner, desto leichter tainierbar
je spezieller desto bessere Modellierungseigentschaften
⇒ Abwagung erforderlich!
• Definitionsgrundlage
Phonetik / Statistik, Signalverarbeitung / ?
22. April 2014 60
Kontextunabhangige Modelle
a) Lautmodelle aka “Phonemmodelle”
(Achtung: Bezeichnung Phonemmodell eigentlich falsch, da Phoneme bedeutungsunterschei-dende Einheiten; perzeptiv unterscheidbare = Phone/Laute)
z.B. 3 oder 6 Zustande; Topologie linear oder Bakis (fruher auch komplexere Topologien, z.B.in SPHINX)
Vorteile:
– kleines Inventar (ca. 50 im Deutschen [sprachenabhangig!])
– sehr allgemein, Konstruktion beliebiger Worter einfach moglich
Nachteil:
– artikulatorische Einflusse benachbarter Segmente werden nicht erfaßt!
b) Silbenmodelle
Vorteile:
– wenige Segmentgrenzen, daher Einflusse innerhalb der Silbe erfaßt
– ?? alle Worter konstruierbar?
Nachteile:
– je nach Sprache ggf. riesiges Inventar (ca. 20.000 im Englischen, bis zu 500.000 imDeutschen moglich, ≤ 1000 im Italienischen, nur ca. 100 im Japanischen [ST95,S. 174])
– siehe Phonemmodelle
c) Diphone
modelliert werden nicht zwei Laute, sonder der Ubergang zwischen zwei Lauten:
Graphik: Beispiel a:x@n
Vorteile:
– artikulatorische Verschleifungen zwischen Lauten werden modelliert
– noch handhabbares Inventar (|“Phonem”|2)
Nachteil:
– Annahme stationarer Lautzentren fragwurdig
Hinweis: Heute (noch) fur Sprachsynthese eingesetzt
d) Halbsilben
Vorteil gegenuber Silben: deutlich kleineres Inventar
Nachteil gegenuber Silben: mehr Grenzen
22. April 2014 61
e) Doppelhalbsilben
modelliert wird von Silbenkern zu Silbenkern (kein “Kurzen” Doppel→halb moglich :-)
Graphik: Beispiel Spra:xE6kEnUN
f) Fenone
Modelle fur Lautklassen, die durch eine Clusteranalyse des Merkmalsraums ermittelt werden(aus IBM Tangora).
Kontextabhangige Wortuntereinheiten
a) Wort(-klassen)-abhangige Lautmodelle
– fur alle Worter⇒ = Ganzwortmodellierung
– tatsachlich angewendet fur Wortklassen (z.B. funktionswortabhangige Lautmodelle vs.andere Modelle; Motivation: erwartete starkere Verschleifungen)
b) Triphone
... “beruhmteste” kontextabhangige Wortuntereinheiten
... modellieren einen Laut im Kontext des linken und rechten unmittelbaren Nachbarlauts
z.B. λ(/a:x@n/) = λ(/a:/x) ◦ λ(a:/x/@) ◦ ...(wobei: <Kontext>/<modellierter Laut>/<Kontext>)
Vorteile:
– Koartikulation kann durch kontextabhangige Modellierung berucksichtigt werden
– gute Rekombinierbarkeit
Nachteil:
– riesiges Modellinventar (|“Phonem”|3)⇒ Trainingsproblem!
c) Generalisierte Triphone
Ziel: Gerneralisierung liefert haufiger beobachtete, d.h trainierbare Einheiten
(Generalisierung = Abschwachung der Kontextrestriktion)
Verfahren:
– phonetisch: Lautkontext→ Lautklasse
– empirisch/statistisch: Clusteranalyse auf der Basis (vorlaufiger) Modellparameter (ei-nes Modells ohne Generalisierung)
– kombiniert: Steuerung der Clusterbildung durch phonetisch motivierte Entscheidungsbaume
22. April 2014 62
z.B. phonetische Generalisierung:
p/r/a:
Spr/r/a:x@
r/a/VokalPlosiv/r/a:
p/r/Plosiv/r/Vokal/r/a:
/r/Vokal Plosiv/r/
/r/ Monophon
generalisierteTriphone
Triphon
Vorteil: Auswahl beliebiger Modelle in der Generalisierungshierarchie moglich (aberauch notig!)
d) Polyphone
analog zu Triphonen, Lautkontext allerdings beliebig lang
z.B. Sp/r/a:x@ = Polyphon
Generalisierung durch (symbolische) Kurzung des Kontexts
Zusammenfassung: Wortuntereinheiten
• Generell Abwagung zwischen Modellierungsgenauigkeit (Spezifitat der Modelle) und Trainier-barkeit (bzw. Parameteranzahl) notwendig.
• Derzeit erfolgreichstes Verfahren: Kontextabhangige Lautmodelle (i.d.R. als [geeignet genera-lisierte] Triphone)
• Kontextabhangige Modellierung wird i.d.R. kombiniert mit
– Monophonen
– einzelnen Ganzwortmodellen und
– evtl. auch wortklassenabhangigen Modellen
22. April 2014 63
8.9.2 Verbundmodelle
Kombination und Verschaltung von HMMs in einfacher Weise wie bei endlichen Automaten moglich(Notwendig: Modelle haben “Ausgang” bzw. Endzustande, was in der Literatur ublicherweise nichtnotiert wird).
D.h. geg. z.B. Wortmodelle λ(w1), λ(w2), ...λ(wn)→ Außerungsmodell
• Anfangszustande sind alle Anfangszustande der λ(wi)
• Endzustande jedes λ(wi) werden mit jedem Anfangszustand der λ(wj) verbunden
⇒ zur einfacheren Reprasentation Verwendung von “Pseudoknoten” (d.h. Knoten ohne Emissio-nen, die nur zur Kantenbundelung dienen)
. .
.. .
. → n2 Kanten
22. April 2014 64
Effiziente Reprasentation z.B. als “Lexikonbaum” (von Wortuntereinheiten, hier: Monophonen) moglich
. . .
. . .
. . .
. . .
Abend
aber
ab
achte
ach
Wörter mit Präfix "ab"
/a:/ /b/ /6/
acht
/a/
/x//t/
/@/
/@/
/n/ /t/
/z/
/p/
• erhebliche Reduktion der Zustandsanzahl moglich (da speziell in Wortanfangen ⇒ deutlicheEffizienzsteigerung)
• zusatzliche Aufspaltung bei Verwendung von Wortuntereinheiten mit Rechtskontext erforder-lich
8.9.3 Suchverfahren
... zur Effizienzsteigerung oder zur “Verbesserung” (im Sinne von Reichhaltigkeit) der Erkennungs-ergebnisse
Beam-Search
Ziel: Viterbi-Matrix nur in kleinen relevanten Bereichen um den optimalen Pfad berechnen
Methode: Nicht alle Zustande i werden fur die Berechnung der δt(j) = maxi{...} betrachtet, son-dern nur eine Teilmenge aktiver Zustande At in Abhangigkeit von der derzeit optimalen Pfad-bewertung δ∗t .
Def.: Menge aktiver Zustande zum Zeitpunkt t:
At = {i|δt(i) ≥ B δ∗t } mit δ∗t = maxjδt(j) und 0 < B � 1
(mit beam-Breite B)
Achtung: Durch Einschrankung des Suchbereichs ist das Verfahren zwangslaufig suboptimal!
22. April 2014 65
Vorwarts-Ruckwartssuche
• Vorwarts-Suche mit vergrobertem akustisch-phonetischen Modell
• Dann Ruckwartssuche mit speziellerer/aufwendigerer Modellierung in dem durch den vorgan-gegangenen Suchschritt (Vorwarts-Suche) eingeschrankten Bereich
Analog: Mehrphasensuche (i.d.R. mit Sprachmodell↗)
n-best-Suche
Ziel: Neben optimaler Losung (im Sinne der Modellierung!) noch n− 1 weitere erzeugen als Alter-nativen fur die weitere Verarbeitung (z.B. Sprachverstehen)
Methoden:
• optimal: zu jedem Zeitpunkt n Vorgangerknoten speichern statt einem, aber: Aufwand!
• lattice-n-best: n Vorgangerknoten nur an Wortgrenzen
Problem: Rekombination innerhalb von Wortern loscht evtl. alternative Teilpfade
⇒ suboptimal
• word-dependent-n-best: wie lattice-n-best, aber Pfade werden bei unterschiedlichenVorgangerwortern erhalten
⇒ suboptimal
Wortgraphen
... im Prinzip kompakte Darstellung von n-best-Listen
Aber: Es werden logische Knooten gebildet, die evtl. Wortubergange in einem kleinen zeitlichenIntervall zusammenfassen:
w1
w2
w3
w3
w3
w1
w2
Problem: Bewertung der Kanten bei logisch zeitlich ausgedehnten Knoten.
22. April 2014 66
8.9.4 Evaluierung
• Berechnung der optimalen Wortfolge (Testwortfolge) [6= Keyword Spotting]
• “Vergleich” mit tatsachlicher Wortfolge (Referenzwortfolge)
⇒ Berechnung des Levenshtein-Abstands zwische Test- und Referenzwortfolge
= Bestimmung der minimalen Anzahl von Ersetzungen, Loschungen und Einfugungen (=Fehler) um Referenzwortfolge in Testwortfolge zu transformieren
z.B.:Referenz: Tand Tand ist das Gebilde von MenschenhandTest: Tand Tand ist Gebilde vom Mensch erfand
Worter = 7, Sub = 2, Del = 1, Ins = 1
Hinweis: Fehlklassifikation ggf. fragwurdig, da ohne Alignmentinformation!
Anerkannte Gutemaße
Wortfehlerrate (word error rate)
WER =Anzahl Fehler
Anzahl Referenzworterhier
4
7≈ 57%
Wortakkuratheit (word accuracy)
WA = 100%−WER =Anzahl Referenzworter− Anzahl Fehler
Anzahl Referenzworterhier
7− 4
7≈ 43%
Achtung: negative WA moglich!
Vorsicht bei allen anderen Gutemaßen!
8.9.5 Stichproben
... mindestens zwei unbedingt erforderlich: Trainings- und Test-Stichprobe
Immer: Test 6⊂ Training! ... oder Test ∩ Training = ∅
Anforderung: Reprasentativitat fur die Zielanwendung
z.B. in Bezug auf: Anzahl Sprecher, Geschlechter, Dialekte, Altersklassen, Sprechweisen, Wort-schatz, Aufnahmebedingungen (insbes. Hintergrundgerausche, akustische Verzerrungen), ...
[Anekdote: Kino-Auskunft in Frankreich: es rufen lauter Kinder an =:-[
22. April 2014 67
Beziehungen zwischen Test- und Trainingsstichprobencharakteristik beeinflussen stark bis entschei-dend die Ergebnisse:
• Trainingssprecher im Test −→ gut, aber no-no!
• Testvokabular ⊆ Trainingsvokabular −→ besser
• Testvokabular ⊃ / 6= Trainingsvokabular −→ schlechter
• gleiche Aufnahmebedingungen −→ gut
• unterschiedliche ... −→ schlecht bis kathastrophal!
⇒ je “gleicher” die Stichprobencharakteristik desto besser!
Typischer Verlauf der Erkennungsqualitat in Abhangigkeit vom Training:
Initialisierung
100%
Test != Training
(Traininig wird auswendig gelernt)zu viele Parameter
optimale Erkennungsleistung
Trainingsiterationen
WA
Test = Training
Achtung: Teststichprobe kann mittrainiert werden!
daher am besten: Kreuzvalidierungsstichprobe zusatzlich zu Training + Test (zum Parameteropti-mierung)
idealerweise: Teststichprobe nur genau einmal verwenden!
(kann sich niemand leisten!)
22. April 2014 68
Kapitel 9
Sprachmodellierung
d.h. Restriktion potentiell moglicher Wortfolgen z.B. mit
• formalen Grammatiken (kontextfrei, regular [Harpy])
⇒ gultige vs. ungultige (ganze!) Außerungen
• stochastische Grammatiken (formale Grammatiken + Wahrscheinlichkeiten fur Regeln)
⇒ wahrscheinliche↔ unwahrscheinliche vs. ungultige Außerungen
• “rein statistisch´´
⇒ wahrscheinlich↔ unwahrscheinlich
9.1 n-Gramm-Sprachmodelle
Basis: Faktorisierung von P (w) gemaß:
P (w) = P (w1, w2, . . . wT )
= P (w1)P (w2|w1) . . . P (wT |w1, . . . , wT−1)
=T∏i=1
P (wi| w1, . . . , wi−1︸ ︷︷ ︸Geschichte des Wortes wi
)
• Bei potentiell unbegrenzter Lange der “Geschichte” ist P (w) i. d. Praxis so nicht berechenbar!
• Vereinfachung durch Beschrankung der Geschichte auf n− 1 Vorgangerworter
P (w) ≈T∏t=1
P ( wt |wt−n+1, . . . , wt−1
︸ ︷︷ ︸nSymbole
)
22. April 2014 69
⇒ Man spricht dann von n-Gramm-Modellen (typisch: n = 2⇒ Bigramm, n = 3⇒ Trigramm)
z.B. Bi-Gramm-Modell:
P (w) ≈T∏i=1
P (wi|wi−1)
• P (wi| . . .) kann “einfach” bei Wortubergangen mit der akustischen Bewertung (des HMMs)verrechnet werden.
9.2 Bewertung
... (analog HMMs o.A.) Leistungsfahigkeit auf unbekannten Daten
Bewertungsmaß: Perplexitat (aus Generierungswahrscheinlichkeit abgeleitet)
P(w) =1
|w|√P (w)
=1
T√P (w1, w2, . . . , wT )
= P (w1, w2, . . . , wT )−1T
(= Kehrwert des geometrischen Mittels der einzelnen Symbolwahrscheinlichkeiten)
Herleitung aus der (Kreuz-)Entropie einer (formalen) Sprache:
H(p|q) = −∑i
pi︸︷︷︸data
log2 qi︸ ︷︷ ︸model
−→ −∑t
1
T︸ ︷︷ ︸empirical data
log2 P (wt|...)︸ ︷︷ ︸model
= − 1
Tlog2
∏t
P (wt|...)
P(w) = 2H(w|P (·|...)) = 2−1T
log2
∏t P (wt|...) = P (w1, w2, . . . , wT )−
1T
Interpretationsmoglichkeit:
• Informationsquelle generiert statistisch Symbole aus endlichem Vokabular V ⇒ Prozeßsoll moglichst genau vorhergesagt werden!
aber: nur statistische Voraussagen moglich
• “Schlimmster” Fall: Symbolerzeugung genugt einer Gleichverteilung uber V , d.h. P (wi) =1|V | unabhangig vom Kontext
⇒ P(w) = |V |• Bei anderer Verteilung (best. Worter wahrscheinlicher etc.) erhalt man immer eine gerin-
gere Perplexitat ρ < |V |⇒ Vorhersageproblem ist damit so schwierig wie bei einer “uninformierten” Quelle (per
Gleichverteilung agierend) mit Vokabularumfang |V ′| = ρ
Ziel der Sprachmodellierung: Moglichst geringe Perplexitat fur unbekannte Texte!
Faustformel in der Praxis (fur Erkennung mit HMMs/n-Gramm-Modellen):
22. April 2014 70
Die Wortfehlerrate reduziert sich proportional zur Quadratwurzel der Perplexitat!
9.3 Parameterschatzung
9.3.1 Prinzipielles Vorgehen
... anhand einer Lernstichprobe (in textueller Reprasentation) mit N Wortvorkommen.
• Bestimmung der Haufigkeiten (counts) c(. . .) fur alle (vorkommenden!) n-Gramme
⇒ Schatzwert P (w1, w2, . . . wn) =c(w1, w2, . . . wn)
N(= relative Haufigkeit)
• Bestimmung der bedingten Wahrscheinlichkeiten gemaß:
P (wn|w1, w2, . . . wn−1) =P (w1, w2, . . . . . . wn)
P (w1, w2, . . . wn−1)=c(w1, w2, . . . . . . wn)
c(w1, w2, . . . wn−1)
Problem: viele n-Gramme sind nicht beobachtet
⇒ “unseen events” mit c(. . . wn) = 0⇒ P (wn| . . .) = 0
⇒ P (. . . , w1, · · ·wn, . . . ) = 0 fur alle Wortfolgen die nicht-beobachtetes n-Gramm enthalten!
Beachte: Dies ist nicht die Ausnahme, sondern die Regel!
d.h. die die Mehrzahl der n-Gramm-Zahlungen in konkreten Anwendungen sind Null!
aber: Es muß davon ausgegangen werden, daß dies nur auf begrenztes Trainingsmaterial zuruck-zufuhren ist!
d.h. Schatzwert fur P (wn| . . .) unzuverlassig, da keine Trainingsbeispiele!
⇒ Glattung der n-Gramm-Wahrscheinlichkeiten erforderlich
(großtes Problem bei Verwendung von n-Gramm-Modellen!)
9.3.2 Robuste Parameterschatzung
Ziel: Naherungsweise Ermittlung von Schatzwerten fur Wahrscheinlichkeiten nicht-beobachteter Er-eignisse
Vorgehen:
1. Modifikation (i.d.R. Reduktion) der n-Gramm-Auszahlungen c(. . .) und Gewinnung von“Wahrscheinlichkeitsmasse” fur unseen events
22. April 2014 71
Man erhalt eine reduzierte Haufigkeitsverteilung:
f ∗(z|y) =c∗(yz)
c(y)<c(yz)
c(y)
(d.h. Modifikation des Schatzverfahrens)
2. Umverteilung der Nullwahrscheinlichkeit auf unseen events (i.d.R. mit gleicher Geschich-te y) gemaß einer allgemeineren Verteilung
Umverteilung von Wahrscheinlichkeitsmasse
Primitive (Intuitiv naheliegende) Moglichkeit:
• Alle zu Null geschatzten Wahrscheinlichkeiten auf positiven Wert anheben (z.B. durch Additionvon 1 zu allen Haufigkeiten)
⇒ adding one
Aber: Liefert deutlich schlechtere Ergebnisse als im folgenden vorgestellte Methoden (Wahrschein-lichkeit seltener Ereignisse wird systematisch uberschatzt)!
Discounting
Prinzip: Wahrscheinlichkeitsmasse wird durch reduktion der empirischen Haufigkeiten gewonnen(daruch keine Veranderung der Gesamtwahrscheinlichkeitsmasse!)
⇒ discounting
f ∗(z|y) =c∗(yz)
c(y ·) =c(yz)− β(yz)
c(y ·) ∀yz, c(yz) > β(yz)
Man erhalt als “Manovriermasse” die sogenannte Nullwahrscheinlichkeit (in Abhangigkeit vom Kon-text y:
λ(y) =
∑yz:c(yz)>0
min{β(yz), c(yz)}
c(y ·)
Achtung: Spezialfall, wenn 0 < c(yz) ≤ β(yz)!
Moglichkeiten zur Wahl/Festlegung von β(yz):
Linear Discounting: β(...) ist proportional zur empirischen Haufigkeit c(...):
⇒ β(yz) = α c(yz)
Veranderte relative Haufigkeiten ergeben sich dann gemaß:
f ∗(z|y) =(1− α)c(yz)
c(y ·) = (1− α)f(z|y) ∀yz, c(yz) > 0 und 0 < α < 1
22. April 2014 72
Gute Wahl fur α: relative Haufigkeit nur einmal beobachteter Ereignisse:
α =d1(· ·)c(· ·) =
d1
c
Nachteil: Zahlungen haufiger Ereignisse werden am starksten verandert!
Absolute Discounting: konstantes β(...) unabhangig von counts:
f ∗(z|y) =c∗(yz)
c(y ·) =c(yz)− βc(y ·) = ∀yz, c(yz) > β
Nullwahrscheinlichkeit ergibt sich zu:
λ(y) =
∑yz:c(yz)>0
β
c(y ·) = βd1+(y ·)c(y ·)
Hinweis: Wahl von β ublicherweise β ≤ 1 (β = 1 liefert gute Ergebnisse [= shift one])
Einbeziehung allgemeinerer Verteilungen
Gewinnung von Wahrscheinlichkeitsmasse nicht ausreichted fur befriedigende Schatzwerte
⇒ Umverteilung der Nullwahrscheinlichkeit erfordert zusatzliches Wissens!
⇒ allgemeinere Verteilung
Interpolation
Prinzip: Linearkombination aus spezieller und allgemeinerer Verteilung
P (z|y) = (1− α) f(z|y) + α q(z|y) 0 ≤ α ≤ 1
Verbreitete Wahl der allgemeineren Verteilung: (n − 1)-Gramm-Verteilung (entsteht durch Kurzungder Kontextrestriktion)
q(z|y) = q(z|y1, y2, . . . yn−1)← P (z|y2, . . . yn−1) = P (z|y)
z.B. fur Tri- bzw. Bi-Gramm-Modelle:
q(z|xy) ← P (z|y)
q(z|y) ← P (z)
Naheliegende Wahl des Interpolationsgewichts: Nullwahrscheinlichkeit
P (z|y) =
f ∗(z|y) + λ(y)q(z|y) c∗(yz) > 0
λ(y)q(z|y) c∗(yz) = 0
22. April 2014 73
Backing-Off
Prinzip: Allgemeinere Verteilung nur bei verschwindenden Schatzwerten verwenden
P (z|y) =
f ∗(z|y) c∗(yz) > 0
λ(y)Kyq(z|y) c∗(yz) = 0
Hinweis: Skalierungsfaktor Ky notwendig fur Normierungsbedingung∑
z P (z|y) = 1
Problem: Auch allgemeinere Verteilungen erfordern robuste Schatzung
⇒ Prinzip rekursiv anwenden (auch bei Interpolation)!
z.B. Back-off-Modell fur Trigramm:
P (z|xy) =
f ∗(z|xy)
λ(xy)Kxy
f ∗(z|y)
λ(y)Ky
f ∗(z)
λ(·)K· 1|V |
c∗(xyz) > 0
c∗(xyz) = 0 ∧ c∗(yz) > 0
c∗(yz) = 0 ∧ c∗(z) > 0
c∗(z) = 0
Genereller Vorteil: Da f ∗(z|y) 6= 0 nur fur gesehene n-Gramme mussen << |V |n Werte gespei-chert werden!
9.3.3 Optimierung verallgemeinerter Verteilungen
Bisher: Allgemeinere Verteilung entsteht durch Kurzung des Kontexts
aber: Festlegung ist heuristisch, nicht notwendig optimal!
Beispiel:
• Best. Wort z ist in geg. Stichprobe sehr haufig, ...
• ... tritt aber nur in einem best. Kontext y auf
(z.B. “York” im Kontext “New”, “Grußen” nach “Mit freundlichen”)
• Wenn z in anderen Kontexten y′ nicht beobachtet wurde:
⇒ allg. Verteilung q(z|y′) dominiert Schatzwert fur P (z|y′) (bei backing-off und Interpolation)
• Fur q(z|y′)← P (z) ist P (z|y′) proportional zu c(z)
⇒ relativ hohe Wahrscheinlichkeit fur z in Kontext, in dem Wort nie beobachtet wurde!
22. April 2014 74
Plausibler: Kleine Wahrscheinlichkeit, da z nur in einem Kontext haufig!
Losung nach Kneser & Ney [Kne95]: Analytische Bestimmung (d.h. optimale) der allgemeinerenVerteilung q(·) bei der Verwendung von backing-off nach 2 moglichen Kriterien:
• Randverteilung
(n-1)-Gramm-Verteilung P (z|y) ergibt sich als Randverteilung von P (y, z|y)
Man erhalt:q(z|y) =
d1+(·yz)
d1+(·y·) =d1+(·yz)∑
z′d1+(·yz′)
Losung betrachtet nur Anzahl der Kontexte, in denen ein Wort beobachtet wurde und nicht mehrdessen Haufigkeit in diesen Kontexten.
• Leave-One-Out
Prinzip des leave-one-out: Parameterschatzung mit Hilfe von Kreuzvalidierung, die ein Maß furdie Generalisierungsfahigkeit eines Modells liefert.
Man erhalt:q(z|y) =
d1(·yz)
d1(·y·) =d1(·yz)∑
z′d1(·yz′)
Losung kann als relative Haufigkeiten interpretiert werden, bei denen nur singletons (d.h. nurgenau einmal beobachtete Ereignisse) betrachtet werden.
(Plausibel, da Haufigkeit der singletons gute Schatzung fur die Haufigkeit nicht beobachteterEreignisse liefert)
9.3.4 Reprasentation von n-Gramm-Modellen
Bereits Speicherung nur von Parametern beobachteter Ereignisse (zzgl. Nullwahrscheinlichkeit) er-gibt deutlich effizientere Reprasentation (z.B. als Tabellen).
Prafixbaum zur Speicherung von n-Gramm-Parametern am Beispiel eines Tri-Gramm-Modells
22. April 2014 75
y⊥
z
y
z
x
z
x
λ(x)Kx
f ∗(x)
λ(xy)Kxy
f ∗(y|x)
f ∗(z|xy)
f ∗(z)
λ(yz)Kyz
f ∗(z|y)λ(y)Ky
λ(z)Kz
f ∗(y)
Problem: Durch via backing off oder Interpolation rekursiv definierte Modelle erfordern Mehrfach-zugriffe!
Mogliche Zugriffstypen fur n-Gramm-Modellparameter am Beispiel eines Tri-Gramm-Modells mitbacking off :
n-gram hit :Es soll die Bewertung eines beobachteten Ereignisses xyz bestimmt werden, d.h. c∗(xyz) > 0.
P (z|xy)← f ∗(z|xy)
n-gram miss (einfach):Das Ereignis xyz wurde nicht beobachtet, d.h. c∗(xyz) = 0, aber es existieren andere n-Gramme mit der Geschichte yz, d.h. c(yz) > 0.
P (z|xy) 6← f ∗(·|xy)⇒ P (z|xy)← λ(xy)KxyP (z|y)
history miss (einfach):Die Geschichte xy eines n-Gramms existiert nicht im vorliegenden Modell, sondern nur derenSuffix y.
P (z|xy) 6← f ∗(·|x·)⇒ P (z|xy)← P (z|y)
Kombinierter Suffix-Prafix-Baum zur Speicherung von n-Gramm-Parametern am Beispiel eines Tri-Gramm-Modells.
22. April 2014 76
z
z
z f ∗(z)
f ∗(z|y)
λ(y)Ky
λ(xy)Kxy
f ∗(z|xy)
y
x
⊥
22. April 2014 77
Kapitel 10
Gesamtsysteme zur automatischenSpracherkennung
10.1 Prinzipieller Systemaufbau
... fur sogenannte one-pass decoder, d.h. Systeme, die in einem Verarbeitungsdurchlauf die Segmen-tierung erzeugen.
Merkmals−extraktion
Codebuch−auswertung
Integrierte Pfadsuche
Sprach−modell−entwurf
HMM−Training
Vektor−
sierungquanti− Linguistisches
Wissen
psycho−akustischesWissen
heuristischeMethoden
besteWort−kette
������� ��� S � NP VPNP � N
Aufbau des zeitsynchronen ESMERALDA-Erkenners
Hinweis: Bei Systemen, die im Batch-Betrieb arbeiten konnen und ggf. auch bei manchen on-lineSystemem wir die Segmentierung haufig in mehreren Dekodierungsdurchlaufen erzeugt.
22. April 2014 78
10.2 Integrierte Suche
... d.h. unter Verwendung von HMMs und n-Gramm-Modellen gemaß:
w = argmaxw
P (w)P (X|w)
Hinweis: In der Praxis ist eine direkte Verrechnung so nicht ausreichend. Bewertungen des akusti-schen Modells P (X|w) und des Sprachmodells P (w) mussen gewichtet verrechnet werden
P (w)ρP (X|w)
mit linguistic matching factor ρ ≈ 3− 7.
10.2.1 HMM-Netzwerke���������
������
��� ��
��� �
����������
�
�
�
HMM-Netzwerk bei trivialem Lexikon {a, b, c} und Verwendung eines Bi-Gramm-Sprachmodells.
�������� ���
� �� �
� ����
� ����
� �� �
� ���
�����������������������
�����������
����������
�
�
����������
������
�������
22. April 2014 79
HMM-Netzwerk bei trivialem Lexikon {a, b, c} und Verwendung eines Tri-Gramm-Sprachmodells.Pro Wortmodell y existieren Kopien [x]y zur Kodierung der notwendigen Kontextrestriktionen.
10.2.2 Mehrphasensuche
... ggf. zur Anwendung von Sprachmodellen mit langerer Kontextrestriktion erst in nachfolgendenSuchphasen.
Problem: Integrierte Suche mit Sprachmodellen hoherer Ordnung aufwendig!
Losung: Verwendung verschiedener, aufeinanderfolgender “Suchphasen” mit steigender Modell-komplexitat
Vorgehen:
1. HMM-Dekodierung (z.B. mit Bi-Gramm), liefert alternative Losungen (i.d.R. n-best)
2. Auswertung der n-Gramm-Bewertung (z.B. Tri-Gramm) zur Neubewertung (engl. resco-ring)
⇒ existierende Losungen werden anders sortiert!
3. fur weitere Steigerung der Modellkomplexitat: weiter mit 1.
Folie(n): Beispiel zur Mehrphasensuche
10.2.3 Suchraumkopien
(wortbasiert) ... bei Verwendung eines Lexikonbaums
�
����� ���
�
�
�
...
�����
� ����
������
� �������
� � �������� ��� ���
��� � � ��� ��� ��� �����
��� ���
��� � �
22. April 2014 80
Beispielhafte Darstellung des Gesamtsuchraums bei Verwendung von Baumkopien und einem Tri-Gramm-Modell mit fiktivem Lexikon L = {a, b, c}.
10.3 Das Philips Forschungssystem
10.3.1 Merkmalsextraktion
• statische Merkmale
• dynamische Merkmale
• Lineare Diskriminanzanalyse (LDA)
10.3.2 Akustisch-phonetische Modellierung
• HMM-Struktur: Bakis, 3×2 Zustande
• Emissionsmodellierung: Mischung von Laplace-Dichten
10.3.3 Sprachmodellierung
“nichtlineare Interpolation” = absolute disctounting + Interpolation
10.3.4 Suche
• Lexikonorganisation: Prafixbaum
• Lexikonbaum und Bi-Gramm-Sprachmodell: Baumkopien
• Sprachmodell-Lookahead
22. April 2014 81
Kapitel 11
Ausblick: Handschrifterkennung
... als methodisch prinzipiell vergleichbare Problemstellung
22. April 2014 82
Literaturverzeichnis
[Bog63] B. Bogert, M. Healy, J. Tukey: The Quefrency Analysis of Time Series for Echoes, inM. Rosenblatt (Hrsg.): Proc. Symp. on Time Series Analysis, Wiley, New York, 1963, S.209–243.
[Buß83] H. Bußmann: Lexikon der Sprachwissenschaft, Kroner, Stuttgart, 1983.
[Hoh05] S. Hohenner: Automatische Spracherkennung fur agierende Systeme, Dissertation, Univer-sitat Bielefeld, Technische Fakultat, 2005.
[Hua90] X. Huang, Y. Ariki, M. Jack: Hidden Markov Models for Speech Recognition, Nr. 7 inInformation Technology Series, Edinburgh University Press, Edinburgh, 1990.
[Kne95] R. Kneser, H. Ney: Improved Backing-Off for M-Gram Language Modeling, in Proc. Int.Conf. on Acoustics, Speech, and Signal Processing, Bd. 1, Adelaide, 1995, S. 181–184.
[Koh77] K. Kohler: Einfuhrung in die Phonetik des Deutschen, Erich Schmidt Verlag, Berlin, 1977.
[Kum05] F. Kummert: Vorlesung Musterklassifikation, Skriptum, 2005.
[Lip97] R. P. Lippmann: Speech Recognition by Machines and Humans, Speech Communication,Bd. 22, Nr. 1, 1997, S. 1–15.
[Nie03] H. Niemann: Klassifikation von Mustern, 2003.
[ST95] E. G. Schukat-Talamazzini: Automatische Spracherkennung, Vieweg, Wiesbaden, 1995.
[Zwi82] E. Zwicker: Psychoakustik, Springer, Berlin, Heidelberg, New York, 1982.
22. April 2014 83
Abbildung 1: Stellung der Spracherkennung
22. April 2014 84
Kapitel'(Einf ,uhrung
derartrigoroseEntkopplungdersogenannten 0akustischen3vonder 0linguistischen3Ver6
arbeitung8dieseterminologischwederpr ;azisenocheinwandfreieCharakterisierungent6
stammtdemklassischenJargonderSpracherkennungsforschungundistganzoAensichtlich
vonebenjenemoCgCDekompositionsgedankengetragen8wirdvondenempirischenDaten
psycholinguistischerUntersuchungeninkeinerWeisegest ;utztHFraJKLundstelltdemzufolge
ganzsichernichtdieeinzigeerfolgversprechendetechnischeRealisierungsalternativedarC
!"EntwurfsparameterspracherkennenderSysteme
DerthematischeGegenstanddieserArbeitistdieautomatischeSpracherkennungPdChCdie
TransformationeineralsZeitsignalvorliegendensprachlichen; AuSerungunbekanntenInhalts
indieRechtschriftformCAnhanddertypischenEntwurfsparametereinesSpracherkennungs6
modulsPwelchediepraktischeN ;utzlichkeitdesSystemsPaberauchdenSchwierigkeitsgrad
derdamitaufgeworfenenFragestellungenentscheidendmitbestimmenPsollennunmehreini6
geGrundbegriAedieserTechnologieerl ;autertwerdenCWirunterscheidengrobdreiGruppen
vonEinVuSfaktorenWdieDarbietungsformPdenSprachumfangunddenGradderSprecher2
abh 3angigkeitC ZurDarbietungsformz ;ahlenwirnebenderSprachaufnahmequalit ;atPdieetwadurchdie
WahlderverwendetenAufnahmeapparaturYzCBCdas ;oAentlicheTelefonnetzoderaberein
HiFi6Mikrofon]unddieAbschirmungsbedingungengegen ;uberSt ;orger ;auschengepr ;agtistP
ganzwesentlichdieUnterscheidungPobderSprecherseineEingabe5ie6end ;auSertoderaber
angehaltenistPkurzePausenintervallezwischenaufeinanderfolgendeW ;ortereinzuschiebenP
umdasGesch ;aftderautomatischenErkennungzuerleichternCImerstenFallesprechenwir
vonVerbundworterkennungPimzweitenFalldagegenvonEinzelworterkennungYoderauch
Isoliertworterkennung]CHandeltessichumVieSendgesprocheneS ;atzeodergarmehrs ;atzi6
geTextpassagenPsow ;ahlenwirauchdieBezeichnungkontinuierlicheSpracherkennungzur
AbgrenzungvondereinfacherenErkennungpausenfreige ;auSerterZiAern6oderKommando6
wortfolgenC Alarmstopschalter Men .u0Steuerung3J5N7 Zahlen5Zi:ern Ger .atebedienung Auskunftsdialogca@ABBBBB
Alltagssprache Diktiermaschine DeutschohneFremdw .orterF G FBHx GBJGBB KBBJGBBB LBBBJGBBBB GBBBBJKBBBB
Abbildung()* Wortschatzumfangpotentiel3
lerSpracherkennungsanwen3
dungenA
bbild
ung
2:W
orts
chat
zum
fang
mog
liche
rSpr
ache
rken
nung
sanw
endu
ngen
(aus
[ST
95,S
.6])
22. April 2014 85
Abbildung 3: Veranschaulichung der Schwierigkeiten bei Spracherkennung anhand eines Beispielsaus der (Hand-)Schrifterkennung (aus [ST95, S. 9])
22. April 2014 86
Kor
pus
Bes
chre
ibun
gVo
kabu
lar
Fehl
erra
teFe
hler
rate
Men
sch
Mas
chin
eB
uchs
tabe
nge
lese
nes
Alp
habe
t26
1.6%
5%R
esou
rce
Man
agem
ent
gele
sene
Satz
e1,
000
0.1%
3.6%
Wal
lStr
eet
5.00
0Jo
urna
lge
lese
neSa
tze
(unb
egre
nzt)
0.9%
7.2%
Nor
thA
mer
ican
65.0
00B
usin
ess
New
sge
lese
neSa
tze
(unb
egre
nzt)
0.4%
6.6%
spon
tane
67%
Switc
hboa
rdTe
leph
on-
2.00
04%
↓G
espr
ache
(unb
egre
nzt)
40%
Abb
ildun
g4:
Ver
glei
chm
asch
inel
leru
ndm
ensc
hlic
herS
prac
herk
ennu
ngsl
eist
ung,
nach
Lip
pman
n,19
97:[
Lip
97]
22. April 2014 87
Abb
ildun
g5:
Sche
mat
isch
erA
ufba
uei
nes
Mus
tere
rken
nung
ssys
tem
s
22. April 2014 88
0
10
20
30
40
50
60
70
80
90
0 2000 4000 6000
30
40
50
60
70
80
90
100
110
0 2000 4000 6000
˙10
0
10
20
30
40
50
60
70
80
0 2000 4000 6000
˙15000
˙10000
˙5000
0
5000
10000
15000
20000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
[S] [p] [R] [a:] [x] [E6] [k] [E] [n] [U] [N]
[S] [a:] [n]
Abbildung 6: Signal des Wortes “Spracherkennung” sowie Frequenzdarstellung einzelner Laute
22. April 2014 89
Abbildung 7: Ubersicht uber die Artikulationsorgane des Menschen (aus [Koh77, S. ?])
22. April 2014 90
Abbildung 8: Artikulationsorgane im Ansatzrohr (aus [Koh77, S. ?])
22. April 2014 91
Abb
ildun
g9:
Kon
sona
nten
klas
sifik
atio
n(a
us[K
oh77
,S.?
],vg
l.au
ch[B
uß83
,S.X
XX
])
22. April 2014 92
Abbildung 10: Vokaltrapez im Deutschen (aus [Koh77, S. ?])
22. April 2014 93
Abb
ildun
g11
:A
ufba
ude
sm
ensc
hlic
hen
Ohr
s(“
Sche
mat
isch
eD
arst
ellu
ngvo
nA
usse
n-,M
ittel
-und
Inne
nohr
”,au
s[Z
wi8
2,S.
22])
22. April 2014 94
Abb
ildun
g12
:Sc
hem
atis
cher
Auf
bau
des
Inne
nohr
s,de
rsog
.Sch
neck
e(a
us[Z
wi8
2,S.
2?])
22. April 2014 95
Abb
ildun
g13
:Fr
eque
nz-O
rts-
Tran
sfor
mat
ion
inde
rSch
neck
e(a
us[Z
wi8
2,S.
25])
22. April 2014 96
Abb
ildun
g14
:C
orti’
sche
sO
rgan
(aus
[Zw
i82,
S.2?
])
22. April 2014 97
Abb
ildun
g15
:H
orfla
che,
d.h.
Ber
eich
zwis
chen
Ruh
ehor
schw
elle
und
Schm
erzg
renz
e(a
us[Z
wi8
2,S.
34])
22. April 2014 98
Abb
ildun
g16
:M
ithor
schw
elleLT
von
Test
tone
nve
rdec
ktdu
rch
Wei
ßesR
ausc
hen
mit
vers
chie
dene
mD
icht
epeg
ell W
Ral
sFun
ktio
nTe
stto
nfre
quen
zf T
.(au
s[Z
wi8
2,S.
38])
22. April 2014 99
Abb
ildun
g17
:U
bers
icht
uber
Mas
kier
ungs
effe
kte
22. April 2014 100
Abb
ildun
g18
:G
raph
isch
eD
arst
ellu
ngde
sE
ffek
tes
derV
orw
arts
mas
kier
ung
(aus
[Hoh
05,S
.44]
)
22. April 2014 101
Abb
ildun
g19
:B
estim
mun
gde
rFre
quen
zgru
ppen
brei
tean
derR
uheh
orsc
hwel
le(a
us[Z
wi8
2,S.
47])
22. April 2014 102
Abb
ildun
g20
:B
reite
∆f G
derF
requ
enzg
rupp
eal
sFu
nkio
nde
rFre
quen
zf
(aus
[Zw
i82,
S.51
]).
22. April 2014 103
Abb
ildun
g21
:A
nzah
lde
rbi
szu
rFr
eque
nzf
anei
nand
erre
ihba
ren
Freq
uenz
grup
pen
ergi
btde
nZ
usam
men
hang
zwis
chen
der
Tonh
eitz
und
der
Freq
uenzf
(aus
[Zw
i82,
S.53
]).
22. April 2014 104
Abb
ildun
g22
:K
urve
ngl
eich
erL
auts
tark
efu
rdas
eben
eSc
hallf
eld:
Lau
tsta
rkep
egelL
indb
sow
ieL
auth
eitL
Nin
phon
(aus
[Zw
i82,
S.74
]).
22. April 2014 105
Abb
ildun
g23
:Z
usam
men
hang
zwis
chen
derF
requ
enzf 1
und
derF
requ
enzf 1/2,d
iedi
eha
lbe
Tonh
ohen
empfi
ndun
ghe
rvor
ruft
(aus
[Zw
i82,
S.58
])
22. April 2014 106
Abb
ildun
g24
:V
erha
ltnis
tonh
oheHv
inm
elal
sFu
nktio
nde
rFre
quen
zf
(aus
[Zw
i82,
S.60
])
22. April 2014 107
Abb
ildun
g25
:Sk
alen
derT
onho
hetr
ansf
orm
iert
aufd
ieL
ange
derB
asila
rmem
bran
(aus
[Zw
i82,
S.65
])
22. April 2014 108
Abbildung 26: Muster X und Y und ihr Abstandsmaß: (c) ohne Langenanpassung, (d) mit linearerNormierung und (e) mit nicht-linearer Langenanpassung (aus [Hua90, S. 72])
22. April 2014 109
Abb
ildun
g27
:L
ogar
ithm
iert
esL
eist
ungs
dich
tesp
ektr
umlo
g|Fµ|u
ndC
epst
ralk
oeffi
zien
ten
eine
svo
kalis
chen
Spra
chse
gmen
ts,n
ach
[ST
95,S
.59]
;A
chtu
ng:C
epts
tral
erPe
aken
tspi
chtG
rund
freq
uenz
und
Har
mon
isch
en
22. April 2014 110
Abb
ildun
g28
:G
elif
tert
eL
eist
ungs
dich
tesp
ektr
umde
sSp
rach
segm
ents
aus
Abb
.27,
nach
[ST
95,S
.60]
22. April 2014 111
Abbildung 29: Mel-Filterbank mit Dreiecks-Bandpaß-Filtern fur 25 Frequenzgruppen, nach [ST95,S. 55]
22. April 2014 112
0.1
0.2
0.7
0.2
0.3
0.5
0.4
0.3
0.3
fal-
lend
stei
-ge
nd
glei
ch
P(-
-) =
0.1
5P
(-)
= 0.
4P
(0) =
0.3
P(+
) = 0
.1P
(++)
= 0
.05
P(-
-) =
0.0
1P
(-)
= 0.
1P
(0) =
0.3
P(+
) = 0
.4P
(++)
= 0
.19
P(-
-) =
0.0
5P
(-)
= 0.
2P
(0) =
0.5
P(+
) = 0
.2P
(++)
= 0
.05
π __st
eige
nd: 0
.2gl
eich
: 0.5
falle
nd: 0
.3
=(
(
S : 1
S : 2
S : 3
Abbildung 30: Modellierung des Kursverhaltens an der Borse als HMM, nach [Kum05]
22. April 2014 113
Man definiert:
γt(i) = P (St = i|O, λ) =αt(i)βt(i)
P (O|λ)
γt(i, j) = P (St = i, St+1 = j|O, λ) =αt(i) aij bj(Ot+1) βt+1(j)
P (O|λ)
ξt(j, k) = P (St = j,Mt = k|O, λ) =
N∑i=1
αt−1(i) aij cjk gjk(Ot) βt(j)
P (O|λ)
1. InitialisierungWahle ein geeignetes Startmodell λ = (π,A,B) mit Initialwerten πi fur Start- bzw.aij fur Ubergangswahrscheinlichkeiten sowie Gewichten cjk und Basisdichten gjk(x) =N (x|µjk,Kjk) zur Definition der Emissionsdichten bjk(x) =
∑k
cjk gjk(x).
2. OptimierungBerechne aktualisierte Schatzwerte λ = (π, A, B) der Modellparameter:
aij =
T−1∑t=1
γt(i, j)
T−1∑t=1
γt(i)πi = γ1(i)
cjk =
T∑t=1
ξt(j, k)
T∑t=1
γt(j)
µjk =
T∑t=1
ξt(j, k)xt
T∑t=1
ξt(j, k)Kjk =
T∑t=1
ξt(j, k) (xt − µjk)(xt − µjk)T
T∑t=1
ξt(j, k)
3. Terminierungfalls durch das aktualisierte Modell λ das Gutemaß P (O|λ) gegenuber λ deutlich verbes-sert wurde
setze λ← λ und weiter mit Schritt 2
sonst Ende!
Abbildung 31: Baum-Welch-Algorithmus zur Parameterschatzung fur kontinuierliche HMMs.
22. April 2014 114
Man definiert:
χt(i) =
1 falls s∗t = i und s∗ = argmaxs
P (s,O|λ)
0 sonst
1. InitialisierungWahle ein geeignetes Startmodell λ = (π,A,B) mit Initialwerten πi fur Start- bzw. aij furUbergangswahrscheinlichkeiten sowie diskreten Emissionswahrscheinlichkeiten bj(ok).
2. SegmentierungBerechne mit Hilfe des Viterbi-Algorithmus die optimale Zustandsfolge s∗ zur Erzeugungder DatenO bei geg. Modell λ.
3. OptimierungBerechne aktualisierte Schatzwerte λ = (π, A, B) fur alle Modellparameter (außer π):
aij =
T−1∑t=1
χt(i)χt+1(j)
T−1∑t=1
χt(i)
bj(ok) =
∑t :Ot=ok
χt(j)
T∑t=1
χt(j)
4. Terminierungfalls durch das aktualisierte Modell λ das Gutemaß P ∗(O|λ) gegenuber λ deutlich ver-bessert wurde
setze λ← λ und weiter mit Schritt 2
sonst Ende!
Abbildung 32: Viterbi-Training zur Parameterschatzung fur diskrete HMMs.
22. April 2014 115
Gegeben sei eine Stichprobe ω = {x1,x2, . . .xT} von Beispielvektoren, die gewunschte Co-debuchgroße N sowie eine untere Schranke ∆εmin fur die relative Verbesserung des Quantisie-rungsfehlers
1. Initialisierungwahle ein geeignetes initiales Codebuch Y 0 der Große N(z.B. durch zufallige Auswahl von N Vektoren y0
i aus ω)
initialisiere Interationszahler m← 0
2. Optimierung der Partitionbestimme fur das aktuelle Codebuch Y m die optimale Partition durch Klassifikation allerVektoren xt mit t = 1 . . . T in Zellen
Rmi = {x|ymi = argmin
y∈Ymd(x,y)}
bestimme dabei den mittleren Quantisierungsfehler
ε(Y m) = 1T
T∑t=1
miny∈Ym
d(xt,y)
3. Aktualisierung des Codebuchsfur alle Zellen Rm
i mit i = 1 . . . N berechne neue Reprasentanten
ym+1i = cent(Rm
i )
diese bilden das neue Codebuch Y m+1 = {ym+1i |1 ≤ i ≤ N}
4. Terminierungberechne die relative Abnahme des Quantisierungsfehlers seit der letzten Iteration
∆εm =ε(Y m−1)− ε(Y m)
ε(Y m)
falls die relative Abnahme groß genug war, d.h. ∆εm > ∆εmin
setze m← m+ 1 und weiter mit Schritt 2
sonst Ende!
Abbildung 33: Lloyd-Algorithmus zum Design von Vektorquantisierern
22. April 2014 116
Gegeben sei eine Stichprobe ω = {x1,x2, . . .xT} von Beispielvektoren, die gewunschte Co-debuchgroße N sowie eine untere Schranke ∆εmin fur die relative Verbesserung des Quantisie-rungsfehlers
1. Initialisierungwahle ein geeignetes initiales Codebuch Y 0 der Große N0
(z.B. trivial als Y 0 = {cent(ω)} mit N0 = 1)
initialisiere Interationszahler m← 0
2. Splittingerzeuge aus dem aktuellen Codebuch Y m ein neues Codebuchmit Nm+1 = 2Nm Reprasentanten
Y m+1 = {y1 + ε,y1 − ε,y2 + ε,y2 − ε, . . .yNm + ε,yNm − ε}mit einem geeigneten, betragsmaßig kleinen “Storvektor” ε
3. Optimierungoptimiere das neu erzeugte Codebuch Y m+1 mit dem Lloyd-Algorithmus
4. Terminierungfalls die gewunschte Klassenanzahl noch nicht erreicht ist
setze m← m+ 1 und weiter mit Schritt 2
sonst Ende!
Abbildung 34: LBG-Algorithmus zum Design von Vektorquantisierern
22. April 2014 117
Gegeben sei eine Stichprobe ω = {x1,x2, . . .xT} von Beispielvektoren und die gewunschteCodebuchgroße N
1. Initialisierungwahle als initiales Codebuch Y 0 die ersten N Vektoren der Stichprobe
Y 0 = {x1,x2, . . .xN}initialisiere Interationszahler m← 0
2. Iterationfur alle noch nicht bearbeiteten Vektoren xt, N < t ≤ T
(a) Klassifikationbestimme fur xt den optimalen Reproduktionsvektor ymi im aktuellen Codebuch Y m
ymi = argminy∈Ym
d(xt,y)
(b) Aktualisierung der Partitionbestimme die neue Partition durch Aktualisierung der Zelle des ermittelten Code-buchvektors
Rm+1j =
{Rmj ∪ {xt} falls j = i
Rmj sonst
(c) Aktualisierung des Codebuchsbestimme ein neues Codebuch durch Aktualisierung des Reprasentanten der im vor-angegangenen Schritt veranderten Zelle
ym+1j =
{cent(Rm+1
j ) falls j = iymj sonst
Abbildung 35: k-means-Algorithmus zum Design von Vektorquantisierern
22. April 2014 118
Gegeben sei eine Stichprobe ω = {x1,x2, . . .xT} von Beispielvektoren, die gewunschte AnzahlN von Basisverteilungsdichten sowie eine untere Schranke ∆Lmin fur die relative Verbesserungder Likelihood-Funktion
1. Initialisierungwahle initiale Parameter θ0 = (c0
i ,µ0i ,K
0i ) des Mischverteilungsmodells
initialisiere Interationszahler m← 0
2. Schatzungberechne fur jeden Vektor x ∈ ω mit dem aktuellen Modell θm Schatzwerte fur die a-posteriori Wahrscheinlichkeiten der Musterklassen
P (ωi|x, θm) =cmi N (x|µmi ,Km
i )∑j
cmj N (x|µmj ,Kmj )
berechne fur das aktuelle Modell θm die Likelihood der Daten
L(θm|ω) = ln p(x1,x2, . . . ,xT |θm) =∑x∈ω
ln∑j
cmj N (x|µmj ,Kmj )
3. Maximierungberechne aktualisierte Parameter θm+1 = (cm+1
i ,µm+1i ,Km+1
i )
cm+1i =
∑x∈ω
P (ωi|x, θm)
|ω|
µm+1i =
∑x∈ω
P (ωi|x, θm)x∑x∈ω
P (ωi|x, θm)
Km+1i =
∑x∈ω
P (ωi|x, θm) (x− µm+1i )(x− µm+1
i )T∑x∈ω
P (ωi|x, θm)
4. Terminierungberechne die relative Anderung der Likelihood seit der letzten Iteration
∆Lm =L(θm|ω)− L(θm−1|ω)
L(θm|ω)
falls die relative Verbesserung groß genug war, d.h. ∆Lm > ∆Lmin
setze m← m+ 1 und weiter mit Schritt 2
sonst Ende!
Abbildung 36: EM-Algorithmus zur Schatzung von Mischverteilungsmodellen.
22. April 2014 119
Gegeben sei die Anzahl Mj der pro Modellzustand zu schatzenden Mischverteilungskomponen-ten (haufig wahlt man Mj = M identisch fur alle Zustande j)
1. InitialisierungErzeuge rudimentare Segmentierung der Trainingsdaten (auf Zustandsebene!) mit heuri-stischem Verfahren
(z.B. lineare Segmentierung, da HMMs fur Spracherkennung prinzipiell lineare Strukturhaben)
weiter mit Schritt 2 b)
2. Segmentierung
(a) Berechne mit Hilfe des Viterbi-Algorithmus die optimale Zustandsfolge s∗ zur Er-zeugung der DatenO bei geg. Modell λ.
(b) Berechne aktualisierte Ubergangswahrscheinlichkeiten aij:
aij =
T−1∑t=1
χt(i)χt+1(j)
T−1∑t=1
χt(i)
3. NeuschatzungFur alle Zustande j, 0 ≤ j ≤ N :
(a) ClusteranalyseBerechne auf der Teilstichprobe X(j) ein Vektorquantisierungscodebuch Y ={y1, . . .yMj
} und die zugehorige Partition {R1, . . . RMj} mit Hilfe des k-means-
Algorithmus
(b) Berechnung der ModellparameterBerechne aktualisierte Emissionsparameter:
cjk =|Rk||X(j)|
µjk = yk
Kjk =1
|Rk|∑x∈Rk
(x− µk)(x− µk)T
4. Terminierungfalls durch das aktualisierte Modell λ das Gutemaß P ∗(O|λ) gegenuber λ deutlich ver-bessert wurde
setze λ← λ und weiter mit Schritt 2
sonst Ende!
Abbildung 37: Segmental-k-means-Algorithmus zur Initialisierung / Parameterschatzung fur HMMs
22. April 2014 120
Abbildung 38: Prinzipiell Anordnung von Dichten in allgemeinem kontinuierlichem HMM (links)und bei semi-kontinuierlicher Modellierung (rechts), nach [ST95, S. 144]
22. April 2014 121