Mehrschichtige Neuronale Netze

Delta-Regel

Back-Propagation of Errors

Back-propagation through time / Rekurrente Netze

AND XOR

w0 1.5

Die “XOR-Problematik”

Einfache Folgerungen:

• Es gibt Probleme, die nur mit mehrschichtigen Netzen gelöst werden können

• Es muß noch erörtert werden, wie dies im Einzelnen geschehen kann

…fehlen nur noch die richtigen Gewichte.

Ein neuronales Netz, mit dem man XOR lösen könnte:

Die Idee von Back-Propagation

• Das Netz soll “selbstständig” lernen, seine Gewichte anzupassen

• Dieses Anpassen der Gewichte erfolgt so lange, bis die gewünschte Funktion erlernt ist

Wie sieht das ungefähr aus?

Backward Propagation of Errors

Forward Propagation of Input Signals

h jµ w jkk

k (6.1)

Vjµ g(h j

µ ) g w jkkµ

hiµ WijVj

µ Wijg w jkkµ

Oiµ g(hi

µ ) g WijVjµ

g Wijg w jkk

Was passiert im Netz?

w12w21

W11 W12

Berechnungen im 1. Layer

(6.1)h jµ w jkk

h10 w11 1

0w12 h20 w21 1

Vjµ g h j

µ (6.2)

w12w21

W11 W12

Berechnungen im 2. Layer

hiµ WijVj

h10 W11 V1

Oiµ g hi

Gradientenverfahren

Eine neue Fehler-Funktion

2 iµ Oi

µi (6.5)

2 iµ g Wijg w jkk

wird zu:

Gradienten-Berechnung (1)

i g hi

Gradienten-Berechnung (2)

w jk E

g hi Wij g

iWij g h j

j g h j

i (6.10)

Die allgemeine Back-Propagation Update-Regel

wpq output Vinputpatterns (6.11)

i g hi

j g h j

i (6.10)

Delta für Hidden-to-output Neuronen:

Delta für Input/Hidden-to-hidden Neuronen

Vorgehensweise für Back-Propagation

1. Wir initialisieren die Gewichte mit kleinen Zufallszahlen….

2. …wählen ein Muster als Eingabe….

3. …berechnen die Auswirkungen der Eingabe auf das Netz…

4. …und erhalten schließlich die Abweichung der Ausgabe vom gewünschten Wert (im Idealfall natürlich = 0 !)

Der eigentliche Clou:

5. Wir berechnen die Fehler der anderen Gewichte (z.B. input-to-hidden), indem wir sie von dem Fehler der Ausgabe ableiten!

6. Nachdem wir alle Fehler berechnet haben, updaten wir alle Gewichte….

7. …und machen mit dem nächsten Pattern bei Step 2 weiter. :-)

w12 w21

W11 W12

“Backward propagation of errors”

iM g hi

M iµ Vi

im 1 g hi

m 1 w jim j

Genaueres zu den Steps 4) und 5) :

Was macht diese Vorgehensweise so vorteilhaft?

• Verwendet man eine günstige Aktivierungsfunktion, muss man keine Ableitungen mehr berechnen!

• Günstig heißt in diesem Fall, man kann die Ableitung der Funktion durch die Funktion selbst darstellen (z.B. Sigmoid oder tanh)

• Mit bekanntem Output O=g(h) ist dann auch die Ableitung bekannt

Nochmal ins Detail:

g h f h 1

1 e 2h g h 2g h 1 g h

Oiµ g hi

iµ Oi

µ 1 Oiµ i

µ Oiµ

Wir verwenden eine sigmoide Funktion, deren Ableitung g’ man wieder mit g beschreiben kann:

Der Output ist uns bekannt und die Delta-Regel ebenso:

iµ g hi

µ iµ Oi

Mit wird aus iµ g hi

µ iµ Oi

Optimierungsmöglichkeiten für den Algorithmus

• Verwendung von anderen Fehler-Funktionen• Momentum-Terms• Verschiedene andere Minimierungsverfahren• Vermeidung von lokalen Minima

Beispiele für die Anwendung von Backprop

• Verallgemeinerung von XOR (Parity)• Sonar: Zielerkennung• Navigation eines Fahrzeugs• Bildkomprimierung• Erkennung von handgeschriebenen PLZ-

Nummern• Spracherkennung (nur sehr eingeschränkt)

Rekurrente Back-Propagation

• Erweiterung des Back-Propagation-Algorithmus auf beliebige Netze

• Bedingung: das Netz muss in einen stabilen Zustand konvergieren

Zwei Beispiele:

Aus eins wird zwei

Vi g wijVj ij

Yi g hp wpiYp Eip

Wie funktioniert Back-Propagation bei rekurrenten

Netzen?• Pattern auswählen, Eingaben ins Netz “schicken”• Warten, bis das Netz in einen stabilen Zustand

konvergiert• Berechnung der Ausgabe-Fehler• Fehler ins zugehörige error-propagation-Netz

“schicken” und warten bis dieses in einen stabilen Zustand konvergiert

• Mit den Ausgaben dieses Netzes die neuen Gewichte berechnen

Lernen von zeitlichen Abfolgen

• Sequenzerkennung

• Reproduktion von Mustern

• Zeitliche Zuordnung

“Back-Propagation through time”

• Modellierung eines voll rekurrenten Netzes durch ein reines Feed-Forward-Netz

• Nur beim Umgang mit kleinen Sequenzen sinnvoll• Für jeden Zeitschritt t = 1, 2, …, T werden die

Einheiten des rekurrenten Netzes dupliziert (also T-mal)

• Im Feed-Forward-Netz werden in jedem Layer die Original-Gewichte verwendet

Ein konkretes Beispiel:

w22w11

Was bringt das?

• Das resultierende Feed-Forward-Netz kann mit Back-Propagation trainiert werden

• Hat man einmal die Gewichte berechnet, kann man wieder das rekurrente Netz benutzen

Resumé

• Back-Propagation ist eine interessante Methode um “Supervised Learning” zu ermöglichen

• Back-Propagation ist allerdings nur bei stark eingegrenzten Problemfeldern effizient einsetzbar

• Es gibt Bereiche, in denen Back-Propagation trotzdem nicht mit “herkömmlichen” Algorithmen mithalten kann

Mehrschichtige Neuronale Netze

Documents

Neuronale Netze und ihre Bedeutung in der Cognitive … · Gliederung 1. Einleitung 2. Das Konzept der natürlicher neuronaler Netze 2.1. Aufbau der natürlicher neuronaler Netze

Neuronale Netze, Deep Learning - uni-potsdam.de€¦ · Neuronale Netze sind genaueste bekannte Verfahren für Objektklassifikation (CIFAR/NORB/PASCAL VOC-Benchmarks) Videoklassifikation,

Neuronale Netze Training & Regularisierung

Neuronale Netze

Kapitel 7 Neuronale Netze zur Datenklassiﬁkationkolanosk/smd_ss02/skripte/nn.pdf · 80 KAPITEL 7. NEURONALE NETZE ZUR DATENKLASSIFIKATION Abbildung 7.1: Hit-Muster, die von Teilchenspuren

Qualitätsmanagement und Neuronale Netze - ein Ansatz zur ...darwin.bth.rwth-aachen.de/opus3/volltexte/2007/1986/pdf/Doeren_Jens.pdf · Qualitätsmanagement und Neuronale Netze -

Klassifizierungsverfahren und neuronale Netze - KITekptkuhr/HauptseminarWS1112/Keck_handout.pdf · Klassifizierungsverfahren und neuronale Netze – Thomas Keck 1.2 Der Klassifikator

(hoffentlich kurze) Einführung: Neuronale Netze...Neuronale Netze Vergleich: Gehirn serieller Rechner Numerische präzise Be- rechnungen Fehlerloses Speichern v. Daten Rekonstrukt

6. Neuronale Netze - swl.htwsaar.de · 3 Neuronale Netze § Künstliche neuronale Netze (artificialneuralnetworks) werden seit den 1940ern als Modell zur Darstellung mathematischer

Neuronale Netze mit erweiterten bayesschen Methoden für ...hss.ulb.uni-bonn.de/2003/0317/0317.pdf · Neuronale Netze mit erweiterten bayesschen Methoden fu¨r reale Datensammlungen

Maschinelles Lernen: Neuronale Netze · Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn 16. Januar 2014, überarbeitet am 20. Januar 2017

BiTS, Wintersemester 2004/2005 Dr. Stefan KoothsKOOTHS – BiTS: Neuronale Netze / Soft Computing, WS 2004/2005 | Teil 1 1 Neuronale Netze/ Soft Computing Teil 1 BiTS, Wintersemester

2.4. Neuronale Netze: Modellierung von Lernen und ...Neuronale Netze:... Page 99 of 151 Modellbildung und Simulation 2. Diskrete Modellierung und Simulation Hans-Joachim Bungartz 2.4.2

Neuronale Netze - Paukert · Neuronale Netze dienen nicht nur der Mustererkennung, welche durch lineare Vektorkombinationen dargestellt werden, sondern auch der nicht linearen Signalverarbeitung

Deduplizierung durch künstliche neuronale Netze¼nstliche-neuronale-Netze.pdf · DEDUPLIZIERUNG DURCH KÜNSTLICHE NEURONALE NETZE georges alkhouri Abschlussarbeit zur Erlangung des

Willkommen zur Vorlesung Grundlagen Neuronale NetzeRekurrente Neuronale Netze (BBTT, Echo-State, LSTM) Neuronale Netze Anwendung Inhalt Prof. Dr. Jörn Fischer - Institut für Robotik

Studien zur Imitation von Interpretationen klassischer Klavier-Musik durch neuronale Netze

Neuronale Netze (Konnektionismus) Einführung in die KI · 3 9 H.D.Burkhard, HU Berlin Winter-Semester 2004/05 Vorlesung Einführung in die KI Neuronale Netze Aktivierungsfunktion

Neuronale Netze in der modernen Spracherkennungdnt.kr.hsnr.de/ASR17/neuralnets_gref.pdf · Neuronale Netze in der modernen Spracherkennung Michael Gref 7. Februar 2018 Michael Gref

kurze Wiederholung der letzten Stunde: Neuronale Netze...Dipl.-Inform. Martin Lösch Labor „Wissensbasierte Systeme“ Wiederholung Neuronale Netze Perzeptron – Lernalgorithmus