Neuronale Netze in der modernen Spracherkennungdnt.kr.hsnr.de/ASR17/neuralnets_gref.pdf ·...

Einleitung und MotivationGrundlagen und Wiederholung

Long short-term memory neural networksState-of-the-art ASR-Systeme

Ausblick auf zukunftige AnsatzeLiteratur

Neuronale Netze in der modernenSpracherkennung

Michael Gref

7. Februar 2018

Michael Gref Neuronale Netze in der modernen Spracherkennung

Agenda

Einleitung und Motivation

Grundlagen und Wiederholung

Long short-term memory neural networks

State-of-the-art ASR-Systeme

Ausblick auf zukunftige Ansatze

EinleitungZielsetzung der Kurseinheit

Motivation I

Abbildung: Verlauf der besten erreichten WER fur verschiedene Domanen(Huang u. a. (2014), Microsoft)

Motivation II

Abbildung: Verlauf der besten erreichten WER fur die Switchboard-Taskim Verlaufe der Zeit (Quelle: Twitter, Oktober 2017, awnihannun)

Motivation III

I Unter Einsatz komplexer Architekturen kunstlicher neuronalerNetze erreichen ASR-Systeme bei der Switchboard EnglishConversational Telephone Speech Recognition Task 2017erstmals Wortfehlerraten von ∼ 5.5%

I Kontroverse Diskussion, ob ASR-Systeme inzwischenmenschliche Wortfehlerraten erreichen!

I Bspw. IBM Watson (Saon u. a. (2017)),I vs. Microsoft AI and Research (Stolcke u. Droppo (2017))

I Gleichzeitig tun sich neue Herausforderungen auf. Bspw.erfreuen sich Sprachassistenten wie Alexa, Google Home oderSiri enormer Beliebtheit

Motivation IV

Abbildung: There’s no data like more data (Huang u. a. (2014),Microsoft)

Das Ziel der Kurseinheit:

I Ein tieferes Verstandnis fur die Funktionsweise vonkunstlichen neuronalen Netzen die zur akustischenModellierung verwendet werden

I Insbesondere von sogenannten LSTMs und TDNNs

Kunstliches NeuronDense-LayerTraining neuronaler NetzeRekurrente Strukturen neuronaler Netz

Grundlagen und Wiederholung

Kurze Wiederholung von:

I Aufbau und Funktionsweise einfacher kunstlicher neuronalerNetze (MLP)

I Notation als Funktionen und mit Strukturen der linearenAlgebra

I Training kunstlicher neuronaler Netze

I Einfache rekurrente Netze

Grundbaustein neuronaler Netze

Basis-Element jedes kunstlichen neuronalen Netzes ist das Neuron.Funktion, die eine endliche Folge oder einen Vektor reellerZahlenwerte auf eine reelle Zahl abbildet.

Schematischer Aufbau

Σ h(⋅)zj

Abbildung: Schematischer Aufbau eines kunstlichen Neurons

Mathematische Beschreibung

In Anlehnung an (Bishop, 2006, S. 227) lasst sich das Verhalteneines einzelnen Neurons mit Index j ∈ N wie folgt modellieren:

zj : RD → R, x 7→ h

(D∑i=1

wj,i · xi + wj,0

I x := (x1, ..., xD)T ∈ RD ein Eingangsvektor mit

I D ∈ N Eingangswerten und

I h eine (differenzierbare) Aktivierungsfunktion.

(Bezeichnung: Forward-Pass)

Anordnung von Neuronen zu Layern

I Neuronen innerhalb des neuronalen Netzes sind im einfachstenFall in sogenannten Dense-Layern angeordnet

I Alle Neuronen innerhalb eines Layers werden stets auf diegleichen Eingangsvektoren angewendet und haben stets diegleiche Aktivierungsfunktion.

I Die verwendeten Aktivierungsfunktionen sind je nachAnwendungsfall ublicherweise - jedoch nicht ausschließlich -die Identitatsfunktion (sog. lineare Aktivierung), dieSigmoidfunktion oder der Tangens-Hyperbolicus.

Mathematische Modellierung

Ein Layer mit Index l ∈ N der Große M ∈ N bestehend aus MNeuronen und kann als Funktion

RD → RM ,x 7→ z(l) (x) :=(z(l)1 (x) , ..., z

(l)M (x)

aufgefasst werden.Bezeichnung:

I Dense-Layer (in moderner Terminologie)

I oder Fully-Connected Layer

Kompakte Notation I

Das Verhalten des Layers lasst sich in Anlehnung an (Yu u. Deng,2015, S. 57) durch Matrix-Multiplikation kompakt schreiben als

z(l) (x) = h(l)(W(l) · x+w0

wobei h(l) die, auf einen Vektor elementweise angewendeteAktivierungsfunktion h(l) ist.

Kompakte Notation II

Es wirdw0

(l) := (w(l)1,0, ..., w

(l)M,0)

als Bias-Vektor und

W(l) :=

w(l)1,1 · · · w

(l)1,i · · · w

(l)1,D

......

w(l)j,1 · · · w

(l)j,i · · · w

(l)j,D

......

w(l)M,1 · · · w

(l)M,i · · · w

(l)M,D

als Ubergangsmatrix des Layers definiert.

Anmerkung zur Notation

Wichtig: Sofern nicht anders angegeben, wird fur die

Ubersichtlichkeit im weiteren Verlauf bei Modellierung neuronalerNetze immer diese Notation verwendet.

Multi-Layer Perceptron I

Im Falle eines einfachen Feed-Forward-Netzes mit L ∈ Nhintereinander verbundenen Layern, lasst sich das Verhalten desgesamten neuronalen Netzes modellieren durch Komposition dereinzelnen Layer-Funktionen. Das heißt, dass der Ausgangswerteines neuronalen Netzes fur einen Eingangsvektor x durch

nnet (x) :=(z(L) ◦ · · · ◦ z(2) ◦ z(1) ◦ idRD

)(x) (6)

Multi-Layer Perceptron II

w(1)MD w

w(2)10

hidden units

inputs outputs

Abbildung: Multilayer perceptron mit einem Hidden-Layer1

1Bishop (2006)Michael Gref Neuronale Netze in der modernen Spracherkennung

Training neuronaler Netze

Supervised-Learning:

I Trainingsdaten bestehen aus einer Menge Tupeln (x,y) mitx ∈ RD und einem Target-Vektor y ∈ RN .

I Ziel ist die Bestimmung der Gewichte aller Neuronen im Netz,so dass das Netz fur x eine

”beste“ Schatzung von y liefert.

(Was”beste“ bedeutet, wird durch eine Zielfunktion definiert)

Zielsetzung

Zielfunktion / Objective Function:

I Zu optimierende Funktion. Bei neuronalen Netzen der Fehlerzwischen Schatzung und Zielwert

I Verschiedene Varianten je nach Art der Aufgabenstellung.Bekannteste Beispiele:

I Fehlerquadrat, Betragsquadrat fur RegressionsaufgabenI Cross-Entropy fur Schatzung von Wahrscheinlichkeiten

Back-Propagation (Grundidee)

Ziel: Anpassung der Gewichtsmatrizen und Bias-Vektoren durch eininkrementelles Gradienten-Verfahren bspw. Stochastic GradientDescent (SGD).

I (Analytische) Differentiation der Zielfunktion nach denGewichten im neuronalen Netz

I Forward Pass: Berechnung der Schatzung des Netzes fur einTrainings-Tupel

I Berechnung des Fehlers mittels der Objective-Function

I Backward Pass: Aktualisierung der Gewichte (inAbhangigkeit ihres jeweiligen Beitrags)

Moglichkeiten zur Verbesserung des Trainings

I (Mini-)Batch-Training

I Shuffeling

I Adaptive Lernrate

I MomentumI Moderne Erweiterungen von SGD fur die Back-Propagation:2

I AdagradI AdadeltaI RMSpropI AdamI AdaMax

2Vergleich und Visualisierung: http://ruder.io/optimizing-gradient-descent/Michael Gref Neuronale Netze in der modernen Spracherkennung

Einfache rekurrente Layer

I Elman network

ht = σh(Whxt +Uhht−1 + bh) (7)

yt = σy(Wyht + by) (8)

I Jordan network

ht = σh(Whxt +Uhyt−1 + bh) (9)

yt = σy(Wyht + by) (10)

Anmerkung zur Notation

I Man beachte: Die Addition der Ausgange zweier Dense-Layerohne Aktivierungsfunktion

f(x,h) = (W · x+ a1) + (U · h+ a2) (11)

kann durch”Aneinanderreihung“ der Vektoren mit nur einem

Dense-Layer realisiert werden:

]):=[W,U

]+ (a1 + a2)︸︷︷︸

I Wir nutzenI in Formeln separate Gewichtsmatrizen fur jeden

Eingangsvektor (besseres Verstandnis).I in Skizzen Zusammenfassung zu einem Dense-Layer

(Ubersichtlichkeit).Michael Gref Neuronale Netze in der modernen Spracherkennung

Aufbau einfacher rekurrenter Layer

Elman-RNN

Jordan-RNN

ht ytxth

Abbildung: Schematischer Aufbau einfacher rekurrenter Layer

Grune Boxen modellieren jeweils einen (vollverbundenen)Dense-Layer.

Back-Propagation Through Time I

Das Training rekurrenter Netze erfolgt mittels Back-PropagationThrough Time:

I Entfaltung der Ruckkopplung im Netz entlang der Zeit fur dieLange der jeweiligen Trainingssquenz

I Auf diese Struktur wird dann derBack-Propagation-Algortihmus angewendet

Back-Propagation Through Time II

Abbildung: Schematische Funktionsweise von BPTT3

Back-Propagation Through Time III

Abbildung: Schematische Darstellung von Verarbeitungsvarianten furSequenzen4

3Quelle: wikimedia.org4Quelle: http://karpathy.github.io/2015/05/21/rnn-effectiveness/

Problem: Rechenzeit

Zu beachten:

I Kann fur lange Training-Sequenzen sehr rechenintensivwerden! Vergleichbar mit sehr tiefen Feed-Forward-DNN

I Sequentielle Verarbeitungsschritte unvermeidbar.Parallelisierung nicht in dem Maße moglich, wie beiFeed-Forward-Netzen - insbesondere mit GPUs.

Probleme rekurrenter Strukturen Anfang der 90er

nach Hochreiter u. Schmidhuber (1997):

I Bei klassischen rekurrenten Strukturen neigen Fehler-Signalebeim Training dazu im Verlauf der Zeit (bezogen auf eineTrainingssequenz) schnell gegen Null zu konvergiert oder zudivergieren

I Fuhrt zu oszillierenden Matrix-Gewichten oder gar zurDivergenz

I Zusammenhange bei langen Sequenzen konnen kaum gelerntwerden. Nur fur Kurzzeit-Gedachtnis (Short-Term Memory)geeignet (ublicherweise 5 bis 10 diskrete Zeitschritte)

Ursprungliches KonzeptHeutiges VerstandnisVariationen von LSTMs

Long short-term memory neural networks

LSTM nach Hochreiter u. Schmidhuber (1997) I

Modellierung eines LSTM-Layers nach (ursprunglicher) Idee vonHochreiter u. Schmidhuber (1997). Erweiterung des rekurrentenAnsatzes um:

I ein constant error carousel (CEC),

I ein multiplikatives Input-Gate, das Speichern von irrelevantenInformationen im CEC schutzen soll,

I ein multiplikatives Output-Gate, das die Ausgabe vonInformationen im CEC unterdrucken soll, die zum aktuellenZeitpunkt nicht relevant sind (aber spater relevant werdenkonnten)

LSTM nach Hochreiter u. Schmidhuber (1997) II

Die Grundidee in Formeln:

ot = σo(Wouo,t + bo) (13)

it = σi(Wiui,t + bi) (14)

ct = ct−1 + it · σc(Wcuc,t + bc) (15)

ht = ot · σh(ct) (16)

Mit der”Multiplikation von Vektoren“ ist die punktweise bzw.

elementweise Multiplikation der Eintrage gemeint.

LSTM nach Hochreiter u. Schmidhuber (1997) III

ctct-1

Abbildung: Grundidee des ursprunglichen LSTM-Konzepts von 1997

LSTM nach Hochreiter u. Schmidhuber (1997) IV

I Durch das CEC soll bei der Back-Propagation der propagierteFehler entlang der Zeit konstant bleiben (Herleitung s. Paper)

I uo,t, ui,t und uc,t werden von Hochreiter nicht explizitdefiniert. Der Nutzer sollte selbst die passendeNetzwerk-Topologie festlegen

I Ublicherweise werden Eingangswerte (bzw. Ausgangswerte vonvorhergehenden Layern) xt und der gepufferte Ausgang desaktuellen Layers ht−1 als Eingangswerte fur die Gatesverwendet.

LSTM nach Hochreiter u. Schmidhuber (1997) V

Das heißt mit

uo,t := ui,t := uc,t :=

ht−1

erhalten wir fur das LSTM:

ot = σo(Woxt +Uoht−1 + bo) (18)

it = σi(Wixt +Uiht−1 + bi) (19)

ct = ct−1 + it · σc(Wcxt +Ucht−1 + bc) (20)

ht = ot · σh(ct) (21)

LSTM nach Hochreiter u. Schmidhuber (1997) VI

ctct-1

Abbildung: Bekannteste Variante des ursprunglichen LSTM-Konzepts

LSTM nach Hochreiter u. Schmidhuber (1997) VII

I LSTMs konnten erstmals Informationen fur bis zu 1000diskrete Zeitschritte speichern

I Problem: Werte konnen zwar additiv ins CEC gespeichertwerden, uberlagern sich jedoch irgendwann

I Fur jede Berechnung muss der Speicher im LSTMzuruckgesetzt werden

Learning to Forget (Gers u. a. (2000)) I

Erweiterung des Konzepts um ein multiplikatives Forget-Gate:

ot = σo(Woxt +Uoht−1 + bo) (22)

it = σi(Wixt +Uiht−1 + bi) (23)

ct = ft · ct−1 + it · σc(Wcxt +Ucht−1 + bc) (24)

ft = σf (Wfxt +Ufht−1 + bf ) (25)

ht = ot · σh(ct) (26)

Learning to Forget (Gers u. a. (2000)) II

ctct-1

Abbildung: Aufbau LSTM-Layer mit Forget-Gate

Zunachst einige Uberlegungen zur Komplexitat I

I Ein LSTM-Layer besteht im Prinzip aus 4 verschiedenenDense-Layern

I Wir definieren die Große des Input-Vektors

I = dim(xt) (27)

und die Große des Cell-Vektors

H = dim(ct) (28)

und erhalten die Anzahl der Parameter im LSTM-Layer:

4 · (I +H + 1) ·H (29)

Zunachst einige Uberlegungen zur Komplexitat II

I Bei H >> I skaliert die Anzahl der Gewichte quadratisch zurGroße des Ausgangs.

I Bspw. mit H = 2000 und I = 257 sind 18.064.000 Parameterzu trainieren

I Zum Vergleich Parameter eines Dense-Layer mit gleicherInput- und Output-Dimension:

(I + 1) ·H = 516.000 (30)

LSTM Variationen

I LSTMs mit Forget-Gates sind im Grunde das, was wirheutzutage mit LSTMs meinen

I CEC ermoglicht das Speichern von Informationen uber langeZeitraume (long) und das schnelle, dynamische Abrufen dieser(short-term memory)

I Es existieren weitere unterschiedliche LSTM-Variationen, diefur verschiedene Probleme beheben sollen.

I Variation sind beispielsweise durch die Wahl der Eingange derdrei Gates moglich oder durch Kombination mit Variation derVerarbeitungsreihenfolge.

I Nachfolgend drei Beispiele.

LSTMs lernen Zahlen I

I Die bisherige LSTM-Struktur kann zwar uber lange ZeitraumeInformationen speichern, jedoch nicht exakt Zahlen

I Beispiel zum Problemverstandnis:I Am Eingang liegt ein konstanter Wert anI Das LSTM soll alle t · 100 (mit t ∈ N ∪ {0}) Zeitschritte 1 am

Ausgang zeigen, ansonsten 0.I Was kann im LSTM passieren?

LSTMs lernen Zahlen II

Gedankenexperiment: Wir nehmen an das LSTM ist trainiert underfullt die Anforderung in hinreichendem Maße.

I Bei t = 0 hat das Netz den Ausgangswert 1

I Der Ausgangwert 1 wird bei t = 1 als Eingangswertverwendet. Informationen konnen uber die Gates in das CECgeschrieben werden.

I Idealerweise ist fur t ∈ {1, ..., 99} der Ausgang immer 0 (odersehr nah dran).

I Daraus folgt:[xt,ht−1]

T (31)

ist (nahezu) konstant fur 1 << t < 99

LSTMs lernen Zahlen III

I Cell-State bleibt nahezu unverandert, da Zugang zum CECnur uber Gates moglich ist

I Es existiert keine Moglichkeit im CEC uber lange Zeitraumehinweg zu zahlen, da nur Layer-Ausgang und Layer-EingangCEC beeinflussen.

I Widerspruch zur Annahme. ⇒ LSTM kann nicht ausreichendtrainiert werden.

LSTMs lernen Zahlen IV

Von Gers u. Schmidhuber (2000) eingefuhrte Peepholes erlaubtden Gates in das CEC zu blicken:

ot = σo(Woxt +Uoht−1 +Voct + bo) (32)

it = σi(Wixt +Uiht−1 +Vict−1 + bi) (33)

ct = ft · ct−1 + it · σc(Wcxt +Ucht−1 + bc) (34)

ft = σf (Wfxt +Ufht−1 +Vfct−1 + bf ) (35)

ht = ot · σh(ct) (36)

(Bzw. erlauben dem CEC den Zustand uber die Gates”aus sich

heraus“ zu beeinflussen)

LSTMs lernen Zahlen V

ctct-1

Abbildung: Aufbau LSTM-Layer mit Peepholes

Verringerung der Komplexitat I

I Wie bereits gezeigt, konnen LSTMs sehr rechenintensivwerden und eine hohe Anzahl Parameter aufweisen.

I Mit Peepholes steigt die Zahl der Parameter weiter an:

4 · (I +H + 1) ·H + 3 ·H ·H (37)

I Fur das Beispiel mit H = 2000 und I = 257 steigt die Zahlder Parameter von 18.064.000 auf 30.064.000

I Projection-Layer nach Sak u. a. (2014) konnen da Abhilfeschaffen

Verringerung der Komplexitat II

ot = σo(Woxt +Uort−1 +Voct + bo) (38)

it = σi(Wixt +Uirt−1 +Vict−1 + bi) (39)

ct = ft · ct−1 + it · σc(Wcxt +Ucrt−1 + bc) (40)

ft = σf (Wfxt +Ufrt−1 +Vfct−1 + bf ) (41)

ht = ot · σh(ct) (42)

rt = Wrht (43)

Verringerung der Komplexitat III

ctct-1

Abbildung: Aufbau LSTM-Layer mit Peepholes und Projection-Layer

Verringerung der Komplexitat IV

I Projection-Layer entkoppeln Große des Ausgangs und desSpeichers

I Anzahl Parameter fur LSTM mit Peepholes undProjection-Layer:

4 · (I +R+ 1) ·H + 3 ·H ·H +H ·R (44)

I Hierbei wird dim(rt) =: R kleiner als H gewahlt.

Verringerung der Komplexitat V

Rechenbeispiel (Wieder mit H = 2000 und I = 257):

I Bspw. nach Cheng u. a. (2017) wird R = 14 ·H gewahlt.

I Zahl der Parameter sinkt von 30.064.000 auf 19.064.000.

I Nur 1.000.000 Parameter mehr als Standard-LSTM ohnePeepholes.

Bi-Direktionale rekurrente Layer I

I Bei der Spracherkennung liegt i.d.R. das Sprachsignal alsganzes Segment vor. Warum daher nur in die Vergangenheitoder (mittels Delay) hochstens ein Stuckchen in die Zukunftschauen?

I Bi-Direktionale rekurrente Layer ermoglichen den gesamtenzeitlichen Kontext in beide Zeit-Richtungen einzubeziehen.

I Voraussetzung: Endliche Lange von Eingangsvektoren!

Bi-Direktionale rekurrente Layer II

I Grundidee fur bi-direktionale rekurrente Netze wurde (u.A.) inSchuster u. Paliwal (1997) vorgestellt.

I Es werden pro Layer zwei (interne) Recurrent-Layer (bspw.LSTMs) verwendet. Einer fur die linken Werte der Zeitachsezum Zeitpunkt t, einer fur die rechten Werte.

I Funktionsweise zu normalen RNN bleibt im Grunde gleich.Lediglich die Reihenfolge der Berechnungen wird nun relevant.

Bi-Direktionale rekurrente Layer III

Abbildung: Schematischer Aufbau eines Bi-Direktionalen RNN5

Bi-Direktionale rekurrente Layer IV

Gegeben sei eine Training-Sequenz (z0, z1, ..., zT ) wobeizt := (xt, yt) das Tupel aus Eingangs- und Zielwerten ist.

I Forward-Pass:1. Berechnung der Ausgangswerte vom

I Forward-Recurrent-Layer fur die Folge (x0, ..., xT )I Backwards-Recurrent-Layer fur die Folge (xT , ..., x0)

und speichere die Werte zu jedem Zeitpunkt t ∈ (0, ..., T ).2. Fur jeden t ∈ (0, ..., T ):

Setze die gespeicherten Ausgangswert vom Forward-RNN undvom Backwards-RNN zusammen und gebe sie an denAusgangslayer weiter.

I Backward-Pass fur die Back-Propagation erfolgt analog.

5Schuster u. Paliwal (1997)Michael Gref Neuronale Netze in der modernen Spracherkennung

Renaissance von LSTMsTime-Delay Neural NetworksState-of-the-art Systeme in Kaldi

LSTMs als Komponenten in state-of-the-art ASR-Systemen

Renaissance von LSTMs I

Warum liefert ein 20 Jahre altes Verfahren erst heute, in denmodernsten ASR-Systemen herausragende Ergebnisse?

I Rechenleistung! Heutige Grafikkarten ermoglichen damalsUndenkbares:

I Deep-Learning. Training von Netzen mit mehrerenverketteten, großen LSTM-Layern sowie Kombinationenanderen komplexen Strukturen

I Verarbeitung enormer Datenmengen. Bspw. Googletrainiert ASR-Systeme mit (Grid-)LSTMs auf 18.000 StundenSprach-Daten (Li u. a. (2017)). Fur die Forschung mancheVerfahren sogar mit 125.000h (Soltau u. a. (2017))!

Renaissance von LSTMs II

I Open-Source! Kostenloser Zugang zu simpel verwendbarenDeep-Learning-Framesworks schafft eine hohe Reichweite. DiePopularitat des Themas bereichert im Gegenzug dieForschung und Open-Source-Entwicklung.

Alternative zu LSTMs

I Wie bei Deep-Learning ublich gilt: tiefe Netze (mit vielenSchichten) erreichen i.d.R. bessere Ergebnisse als breite flacheNetze

I Deep-Learning mit LSTMs ist auf Grund des Rechenaufwandsab einer gewissen Tiefe nicht mehr sinnvoll handhabbar

I Ein alternativer Ansatz zu rekurrenten Strukturen stammt von1989

Time-Delay Neural Networks

I Nicht-rekurrente Architektur eines neuronalen Netzes fur dieVerarbeitung zeitlicher Merkmalsfolgen

I Erstmal in Waibel u. a. (1989) zur Phonem-Erkennungvorgestellt

I Soll Informationen aus zeitlichen Kontext nutzen ohnezeitvariant zu sein

Abbildung: TDNN-Architektur6

6Quelle: wikimedia.orgMichael Gref Neuronale Netze in der modernen Spracherkennung

Kann wie ein Spezialfall eines Convolutional-Neural-Networkaufgefasst werden:

I Lediglich Feed-Forward Operationen

I Hohe des Faltungskerns uber gesamte Anzahl der Merkmale⇒ 1-dimensionaler Output in diese Richtung

I Breite des Faltungskerns uber den gewahlten zeitlichenKontext (Delay: 3 im Beispiel)

I Ausgangsdimension (TDNN-Units) entspricht der Anzahl vonFaltungskernen in einem CNN

TDNN ist, ahnlich wie LSTMs, in der Lage Informationen beivariablen zeitlichen Kontext zu erlernen

I Unteren Layer fuhren initiale Transformationen durch

I Oberen Layer lernen Informationen aus langerem zeitlichenKontext

I Langzeit-Speicherung limitiert durch gesamten resultierendenDelay aller Schichten

I Reduktion der Komplexitat durch sogenanntes sub-samplingmoglich (Peddinti u. a. (2015))

Das Kaldi-ASR-Toolkit I

I OpenSource Toolkit zum Training und Anwendung vonSpracherkennungssystem

I Erstmals vorgestellt in Povey u. a. (2011)

I Zusammenstellung zahlreicher Binaries und Skripte, u.a.:I Akustische Modellierung (mit HMM und DNN-Modellen)I Sprachmodellierung (klassisch und LSTM-Rescoring)I Decoding und Evaluation

Das Kaldi-ASR-Toolkit II

Abbildung: Vergleich Anzahl Zitationen des Kaldi-Paper und demHTK-Book im laufe der Jahre (nach Google Scholar Statistik)

Das Kaldi-ASR-Toolkit III

I Seit 2011 wurde das Kaldi-Paper laut Google Scholar 1869zitiert

I Das HTK-Book (in allen Version) bisher 6315 - seit 1993.

I Zitationen des HTK-Books seit 2015 rucklaufig.

I Kaldi ist aktuell das wahrscheinlich beliebteste ASR-Toolkit.

I In der aktuellsten Version sind verschiedenste Topologien undTrainingsalgorithmen fur ASR implementiert

Ubersicht Wortfehlerraten

Word-Error-Rate mit Kaldi auf eval2000 furSwitchboard-Trainingsdaten und Decoding mit FisherSprachmodell:

I TDNN: 11.6%

I 6 Layer mit 1024 Dim

I LSTM: 11.6%

I 3 Layer mit 1024 Cell-Dim, 256 Projection-Dim

I BiLSTM: 10.3%

Wortfehlerraten bei Chain-Training

Sogenanntes Chain-Training nach Povey u. a. (2016):I TDNN: 9.8%

I 7 Layer mit 625 Dim

I LSTM: 10.5%I 3 Layer mit 1024 Cell-Dim, 256 Projection-Dim

I Gemischte Topologie: 8.8%I 3 × TDNN-Layer + 1 LSTM-LayerI + 2 × TDNN-Layer + 1 LSTM-LayerI + 2 × TDNN-Layer + 1 LSTM-Layer

TDNN-LSTM-Model

Abbildung: Aufbau Chain-TDNN-LSTM-Model (Cheng u. a. (2017))Michael Gref Neuronale Netze in der modernen Spracherkennung

Connectionist Temporal Classification I

Klassische HMM-DNN Ansatze:

I DNNs ersetzt die Schatzung derEmissionswahrscheinlichkeiten der Tied-States fur diebeobachteten Features

I Zeitliche Modellierung erfolgt weiterhin durch HMMs(Ubergangswahrscheinlichkeiten)

I Wozu braucht man noch HMMs, wenn LSTMs eigenstandigZahlen und Zeit modellieren konnen?

Connectionist Temporal Classification II

I Bisher besprochene Art des Trainings minimiert ZielfunktionFrame-Weise (unabhangig von vorherigen und nachfolgendenOutput)

I Zielfunktion ungeeignet zum Training vonzusammenhangenden Zeitfolgen

I Graves u. a. (2006) stellen eine Zielfunktion vor, diestattdessen auf Klassifikation ganzer zusammenhangenderFolgen von Beobachtungen abzielt

Connectionist Temporal Classification III

LSTM wird nicht mehr als Abbildung der Gestalt nnet : RD → RN

aufgefasst sondern als

nnet :(RD)T → (

fur T ∈ N als Lange einer Sequenz.CTC erlaubt dem Netz das Wiederholen einer Klassifikation sowiedas Einfugen eines blank label ε. Beispiel: (X, ε, ε, Y, Y, Y, Z, Z, ε)ist ein gultiger Pfad (X,Y, Z). Kein Fehler wird zuruckpropagiert.

Connectionist Temporal Classification IV

Abbildung: Framewise and CTC networks classifying a speech signal(Graves u. a. (2006))

Connectionist Temporal Classification V

I CTC vereinfacht das Training und Decoding deutlich!

I Training von GMM-HMMs und Anwendung vonForced-Alignment entfallt.

I CTC funktioniert nicht nur auf Phonem-Ebene sondern auchfur Grapheme und Worte!

I Problem: Es scheint, dass deutlich mehr Trainingsdatennotwendig sind und die WER i.d.R. etwas hoher ist als beivergleichbaren DNN-HMM Ansatzen.

Connectionist Temporal Classification VI

CTC erlaubt neue Ansatze von LSTMs zur Spracherkennung!

I Google (Soltau u. a. (2017)) hat ein Akustik-zu-WortCTC-LSTM trainiert, das die Wahrscheinlichkeit ganzer Worteschatzt

I Phonem-Lexikon wird nicht mehr benotigt.

I Sprachmodell ist optional anwendbar.

I Ohne Sprachmodell denkbar einfachstes Decoding moglich.

I Erreicht ohne Sprach-Modell 12% WER bei einem Vokabularvon 82.473 ganzen Worten

I Mit 125.000 Stunden Youtube-gecrawlten Trainingsdaten

Literatur I

[Bishop 2006] Bishop, Christopher M.: Pattern recognition andmachine learning. New York, NY : Springer, 2006 (Informationscience and statistics). – ISBN 978–0387–31073–2

[Cheng u. a. 2017] Cheng, Gaofeng ; Peddinti, Vijayaditya ;Povey, Daniel ; Manohar, Vimal ; Khudanpur, Sanjeev ;Yan, Yonghong: An Exploration of Dropout with LSTMs. In:Proc. Interspeech 2017, 2017, S. 1586–1590

Literatur II

[Gers u. Schmidhuber 2000] Gers, F. A. ; Schmidhuber, J.:Recurrent nets that time and count. In: Proceedings of theIEEE-INNS-ENNS International Joint Conference on NeuralNetworks. IJCNN 2000. Neural Computing: New Challenges andPerspectives for the New Millennium Bd. 3, 2000. – ISSN1098–7576, S. 189–194 vol.3

[Gers u. a. 2000] Gers, F. A. ; Schmidhuber, J. ; Cummins, F.:Learning to Forget: Continual Prediction with LSTM. In: NeuralComputation 12 (2000), Oct, Nr. 10, S. 2451–2471. – ISSN0899–7667

Literatur III

[Graves u. a. 2006] Graves, Alex ; Fernandez, Santiago ;Gomez, Faustino: Connectionist temporal classification:Labelling unsegmented sequence data with recurrent neuralnetworks. In: In Proceedings of the International Conference onMachine Learning, ICML 2006, 2006, S. 369–376

[Hochreiter u. Schmidhuber 1997] Hochreiter, Sepp ;Schmidhuber, Jurgen: Long Short-Term Memory. In: NeuralComputation 9 (1997), November, Nr. 8, S. 1735–1780. – ISSN0899–7667

[Huang u. a. 2014] Huang, Xuedong ; Baker, James ; Reddy,Raj: A Historical Perspective of Speech Recognition. 57 (2014),01, S. 94–103

Literatur IV

[Li u. a. 2017] Li, Bo ; Sainath, Tara N. ; Narayanan, Arun ;Caroselli, Joe ; Bacchiani, Michiel ; Misra, Ananya ;Shafran, Izhak ; Sak, Hasim ; Pundak, Golan ; Chin, Kean; Sim, Khe C. ; Weiss, Ron J. ; Wilson, Kevin W. ; Variani,Ehsan ; Kim, Chanwoo ; Siohan, Olivier ; Weintraub,Mitchel ; McDermott, Erik ; Rose, Richard ; Shannon,Matt: Acoustic Modeling for Google Home. In: Proc.Interspeech 2017, 2017, S. 399–403

Literatur V

[Peddinti u. a. 2015] Peddinti, Vijayaditya ; Povey, Daniel ;Khudanpur, Sanjeev: A time delay neural network architecturefor efficient modeling of long temporal contexts. In:INTERSPEECH 2015, 16th Annual Conference of theInternational Speech Communication Association, Dresden,Germany, September 6-10, 2015, 2015, S. 3214–3218

[Povey u. a. 2011] Povey, Daniel ; Ghoshal, Arnab ;Boulianne, Gilles ; Burget, Lukas ; Glembek, Ondrej ;Goel, Nagendra ; Hannemann, Mirko ; Motlicek, Petr ;Qian, Yanmin ; Schwarz, Petr ; Silovsky, Jan ; Stemmer,Georg ; Vesely, Karel: The Kaldi Speech Recognition Toolkit.

Literatur VI

In: IEEE 2011 Workshop on Automatic Speech Recognition andUnderstanding (2011)

[Povey u. a. 2016] Povey, Daniel ; Peddinti, Vijayaditya ;Galvez, Daniel ; Ghahremani, Pegah ; Manohar, Vimal ;Na, Xingyu ; Wang, Yiming ; Khudanpur, Sanjeev: PurelySequence-Trained Neural Networks for ASR Based onLattice-Free MMI. In: Interspeech 2016, 2016, S. 2751–2755

[Sak u. a. 2014] Sak, Hasim ; Senior, Andrew W. ; Beaufays,Francoise: Long Short-Term Memory Based Recurrent NeuralNetwork Architectures for Large Vocabulary Speech Recognition.In: CoRR abs/1402.1128 (2014)

Literatur VII

[Saon u. a. 2017] Saon, George ; Kurata, Gakuto ; Sercu, Tom; Audhkhasi, Kartik ; Thomas, Samuel ; Dimitriadis,Dimitrios ; Cui, Xiaodong ; Ramabhadran, Bhuvana ;Picheny, Michael ; Lim, Lynn-Li ; Roomi, Bergul ; Hall,Phil: English Conversational Telephone Speech Recognition byHumans and Machines. In: Proc. Interspeech 2017, 2017, S.132–136

[Schuster u. Paliwal 1997] Schuster, M. ; Paliwal, K. K.:Bidirectional recurrent neural networks. In: IEEE Transactionson Signal Processing 45 (1997), Nov, Nr. 11, S. 2673–2681. –ISSN 1053–587X

Literatur VIII

[Soltau u. a. 2017] Soltau, Hagen ; Liao, Hank ; Sak, Hasim:Neural Speech Recognizer: Acoustic-to-Word LSTM Model forLarge Vocabulary Speech Recognition. In: Proc. Interspeech2017, 2017, S. 3707–3711

[Stolcke u. Droppo 2017] Stolcke, Andreas ; Droppo, Jasha:Comparing Human and Machine Errors in Conversational SpeechTranscription. In: Proc. Interspeech 2017, 2017, S. 137–141

Literatur IX

[Waibel u. a. 1989] Waibel, A. ; Hanazawa, T. ; Hinton, G. ;Shikano, K. ; Lang, K. J.: Phoneme recognition usingtime-delay neural networks. In: IEEE Transactions on Acoustics,Speech, and Signal Processing 37 (1989), Mar, Nr. 3, S.328–339. http://dx.doi.org/10.1109/29.21701. – DOI10.1109/29.21701. – ISSN 0096–3518

[Yu u. Deng 2015] Yu, Dong ; Deng, Li: Automatic speechrecognition: A deep learning approach. London : Springer, 2015(Signals and Communication Technology). – ISBN978–1–4471–5778–6

Neuronale Netze in der modernen Spracherkennungdnt.kr.hsnr.de/ASR17/neuralnets_gref.pdf ·...

Documents

9. Vorlesung Neuronale Netze - uni-saarland.de · SC WS 17/18 Georg Frey236 Vorbemerkungen • Neuronale Netze können beliebige nichtlineare Zusammenhänge

Maschinelles Lernen: Neuronale Netze · Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn 16. Januar 2014, überarbeitet am 20. Januar 2017

Studien zur Imitation von Interpretationen klassischer Klavier-Musik durch neuronale Netze

Sven F. Crone Neuronale Netze zur Prognose und Disposition ... - Dissertation inkl Deckblatt.pdf · Neuronale Netze zur Prognose und Disposition im handel Betriebswirtschaftliche

Neuronale Netze - techfak.uni-bielefeld.de

Evolutionärer Entwurf neuronaler Netze. Institut für Informatik Inhaltsverzeichnis Einleitung Neuronale Netze Evolutionäre Algorithmen Evolutionärer Ansatz

Qualitätsmanagement und Neuronale Netze - ein Ansatz zur ...darwin.bth.rwth-aachen.de/opus3/volltexte/2007/1986/pdf/Doeren_Jens.pdf · Qualitätsmanagement und Neuronale Netze -

Tutorial-Neuronale Netze - FH-SWF Home · PDF fileTutorial: Neuronale Netze 1. Einführung 1.1 Motivation 1.1.1 Gegenüberstellung: Computer-Gehirn 1.1.2 Leistungsvergleich: Kommunikationsbandbreite

Neuronale Netze Die Lernmatrix nach Karl Steinbuch

: Neuronale Netze - eine Einführung · PDF fileAbbildung 3: Schematische Darstellung eines neuronalen Netzes Grundlagen/Units Units Neuronale Netze bestehen aus mehreren Neuronen

Neuronale Netze ConvolutionalNeuralNetworks (CNNs)2019/... · 2019. 5. 8. · Neuronale Netze ConvolutionalNeuralNetworks (CNNs) Prof. Dr.-Ing. Sebastian Stober ArtificialIntelligenceLab

Neuronale Netze

Klassifizierungsverfahren und neuronale Netze - KITekptkuhr/HauptseminarWS1112/Keck_handout.pdf · Klassifizierungsverfahren und neuronale Netze – Thomas Keck 1.2 Der Klassifikator

Einfuhrung¨ in Neuronale Netze - Universität Ulm · Einfuhrung¨ in Neuronale Netze Thomas Ruland Contents 1 Das menschliche Gehirn - H¨ochstleistungen im t¨aglichen Leben 2 2

Neuronale Netze - LMU€¦ · Neuronale Netze mit lokaler Verbindungsstruktur: Net-3 •Bei weiteren Varianten wurde die Komplexität anwendungsspezifisch eingeschränkt •Net-3:

Neuronale Netze Von Kay-Patrick Wittbold. BESTANDTEILE

Neuronale Netze - Computational-Intelligencefuzzy.cs.ovgu.de/ci/nn/nn-all.pdf · Schwellenwertelemente: lineare Separabilität Rudolf Kruse Neuronale Netze 17 • Zwei Punktmengen

Neuronale Netze - Universität zu Köln · Für welche Probleme sind neuronale Netze nicht geeignet? Keine Änderung der Programmlogik Probleme, die den genauen Lösungsweg zeigen

Neuronale Netze (Konnektionismus) Einführung in die KI · 3 9 H.D.Burkhard, HU Berlin Winter-Semester 2004/05 Vorlesung Einführung in die KI Neuronale Netze Aktivierungsfunktion

Neuronale Netze, Deep Learning - uni-potsdam.de€¦ · Neuronale Netze sind genaueste bekannte Verfahren für Objektklassifikation (CIFAR/NORB/PASCAL VOC-Benchmarks) Videoklassifikation,