View
228
Download
0
Category
Preview:
Citation preview
1
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Κώστας Νεοκλέους, PhDΤηλέφωνο Γραφείου: 22406391
Email: costas@ucy.ac.cy
ΕΠΛ 604Τεχνητή Νοηµοσύνη*****************
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Adaline, Madaline, MLP
Αλγόριθµος Ελαχίστων Μέσων ΤετραγώνωνLeast Mean Square Algorithm (LMS)
Αλγόριθµος Backpropagation
ΤΕΧΝΗΤΑ ΝΕΥΡΩΝΙΚΑ ∆ΙΚΤΥΑ
2
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Γενικά
Στη σειρά αυτή θα δούµε µερικές από τις πιο βασικές αρχιτεκτονικές (ή τοπολογίες) τεχνητών νευρωνικών δικτύων που µπορούν να χρησιµοποιηθούν για τη δηµιουργία άλλων, πιο σύνθετων δοµών.
Αυτές είναι τα Adaline, Madaline, Perceptrons και σταδιακά τα MLP.
Τέτοιες αρχιτεκτονικές έχουν πολλές εφαρµογές όπως θα δούµε στη συνέχεια.
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Είναι µια βασική δοµή ενός γραµµικού νευρώνα.
Είναι προσαρµοζόµενος (adaptive) γραµµικός συνδυαστής (simple adaptive linear combiner).
Οι πληροφορίες εισόδου και εξόδου είναι συνήθως σε ψηφιακή (δυαδική) µορφή.
ADALINE
3
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
∆οµή ενός απλού Adaline
x1(κ)
x2(κ)
.
.
.
xN(κ)
Στοιχείαεισόδου
x
w1(κ)
w2(κ)
wN(κ)
ΣυναπτικάΒάρη
Σ
w u = xTw
N
1 i i
iu x w
=
= ∑
όπου,
x ∈ ℜNx1
w ∈ ℜNx1
u ∈ ℜ
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Το απλό µοντέλο Adaline µοιάζει µε το Finite Impulse Response Filter – FIR που χρησιµοποιείται στη ψηφιακή επεξεργασία σήµατος.
Μετά από κατάλληλη µάθηση – που γίνεται συνήθως µε αλγόριθµο LMS που θα δούµε αργότερα – το adaline µπορεί να χρησιµοποιηθεί για να αναγνωρίζει τα αρχικά σήµατα έστω και αν αυτά έχουν αλλοιωθεί ελαφρά.
ADALINE
4
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Παράδειγµα εφαρµογής φίλτρου που προσαρµόστηκε µε µάθηση LMS:
ΦΙΛΤΡΟ 1 Καλό φιλτράρισµα
κ.ο.κ
ΦΙΛΤΡΟ 0.5 Ικανοποιητικό
φιλτράρισµα
ΦΙΛΤΡΟ 0 Απορριπτέο
φιλτράρισµα
Το σήµα εισόδου Η κατηγοριοποίηση
ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ ΓΙΑ ΦΙΛΤΡΑ
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ ΓΙΑ ΦΙΛΤΡΑ
Τα φίλτρα µπορεί να είναι υλισµικά (physical hardware) ή υπολογιστικά (computer software).
Οι εργασίες που συνήθως κάνουν είναι:
Φιλτράρισµα (filtering) υπό την έννοια της απάλειψης θορύβου (noise) και άλλων µη-επιθυµητών παρεµβολών.
Βελτίωση (smoothening) που γίνεται συνήθως όταν έχουµε καλή γνώση των σχετικών διαδικασιών.
Χρονική πρόβλεψη (prediction).
5
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
1. Σε συστήµατα εντοπισµού στόχων µε ραντάρ (pulse radar tracking systems), το φίλτρο θα µπορούσε να κάνει, καθάρισµασήµατος (filtering), βελτίωση(smoothening) και πρόγνωση (prediction).
Τα φίλτρα µπορούν να κατηγοριοποιηθούν ως γραµµικά ή µη-γραµµικά.
2. ∆ιαχωρισµός ηλεκτροκαρδιογραφήµατος (ΗΚΓ, ΕCG) εγκύου από το ΗΚΓ του εµβρύου
ΜΕΡΙΚΑ ΠΑΡΑ∆ΕΙΓΜΑΤΑ ΕΦΑΡΜΟΓΗΣ ΦΙΛΤΡΩΝ
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Παράδειγµα 3:Καθαρισµός ECG σήµατος από παρεµβολές Η/Μ πεδίου 50 Hz
Ηλεκτροκαρδιογράφος Ηλεκτροκαρδιογράφηµα µε παρεµβολές από το Η/Μ πεδίο των 50 Ηz
Παράδειγµα ΕΚΓ
6
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
ECG σήµα µετά τον καθαρισµό του από κατάλληλο φίλτρο:
Παράδειγµα ΕΚΓ
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Λεπτοµέρεια ECG σήµατος
Το αποτέλεσµα επετεύχθη µε µόνο δύο βάρη (w1 και w2) και µε τη χρήση αλγόριθµου LMS
Παράδειγµα ΕΚΓ
7
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Adaline
x1(κ)
x2(κ)
.
.
.
xN(κ)
w1(κ)
w2(κ)
wN(κ)
Σ
N
1 i i
iu x w
=
= ∑
Για επεξεργασία µε ψηφιακά σήµατα, συχνά χρησιµοποιούµε στην έξοδο περιοριστή (ή κβαντιστή, ή ψαλιδιστή, ή στοιχείο κατωφλίου) (threshold, quantizer, signum, hard limiter, Heavyside,) όπως πιο κάτω:
y = +1 ή -1
Κβαντιστής
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
AdalineΓενικά το Adaline - όπως και τα περισσότερα µονοκατευθυντικάτεχνητά νευρωνικά δίκτυα (feedforward neural networks) –πραγµατοποιούν µιαν αντιστοίχηση (mapping) από N στοιχεία εισόδου σε 1 στοιχείο εξόδου.
ℜΝ ℜ
Μετά που θα µάθει τα παραδείγµατα που το δόθηκαν, θα πρέπει να ελεγχθεί µε άγνωστες περιπτώσεις.
Εάν διακριβώνει σωστά µε ικανοποιητική πιθανότητα, τότε λέµε ότι έµαθε να γενικεύει (generalization).
8
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Λίγη ξεκούραση !
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Adalines σαν λογικές πύλεςΤα Adalines – µπορούν να χρησιµοποιηθούν σαν λογικές πύλες AND, OR, MAJ, NOT
Μαθηµατικά:
1 2
N
1 ( ) 1 - N , , ... ,
Ni
iy x x x x
=
= + = =
∑ AND( )sgn( )
+1 Εάν όλα τα xi = +1
-1 Εάν όχι
1 2
N
1 ( ) N - 1 , , ... ,
Ni
iy x x x x
=
= + = =
∑ OR( )sgn( )
+1 Εάν µερικά xi = +1
-1 Εάν όχι
9
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Adalines σαν λογικές πύλες
1 2
N
1 , , ... ,
Ni
iy x x x x
=
= = =
∑ MAJ(sgn( ) )
+1 Εάν τα πλείστα xi = +1
-1 Εάν όχι
y x x = − = − =
NOn T(s ) )g (
+1 Εάν x = -1
-1 Εάν x = +1
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Adalines σαν λογικές πύλεςΟι πύλες AND, OR, MAJ δείχνονται γραφικά µε adalines πιο κάτω:
x1(κ)
x2(κ)
.
.
.
xN(κ)
1
1
1
Σ
1 - Νx0(κ)=1
y = πύλη AND
AND
10
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Adalines σαν λογικές πύλες
x1(κ)
x2(κ)
.
.
.
xN(κ)
1
1
1
Σ
Ν -1x0(κ)=1
y = πύλη OR
OR
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Adalines σαν λογικές πύλες
x1(κ)
x2(κ)
.
.
.
xN(κ)
1
1
1
Σ
0x0(κ)=1
y = πύλη MAJ
MAJ
11
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Adaline µε µη-γραµµικά στοιχεία εισόδου(Polynomial Discriminant Function – Specht, 1967)
w1
Σy
x1
x2
w2
w3
w4
w5[•]2
X
[•]2x1x2w3
Χρησιµοποιήθηκε για ανάλυση δεδοµένων ECG
Περιοριστής
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Στις περιπτώσεις που τα σήµατα εισόδου δεν µπορούν να διαχωριστούν γραµµικά, τα απλά adaline αποτυγχάνουν να τα διαχωρίσουν.
Σε τέτοιες περιπτώσεις θα µπορούσαµε να χρησιµοποιήσουµε MADALINES (από το Multiple ADALINE) όπου πολλά adalines συνδέονται σε σειρά.
MADALINE
12
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
x1
x2
.
.
.
xN
Σ
Σ
Σ
…
Σ
Σ
y1 = sgn(u1)
y2 = sgn(u2)
Όπου για ευκρίνεια τα βάρη δεν δείχνονται
MADALINE
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Τo απλό µονοεπίπεδο (single-layer) PERCEPTRON(Rosenblatt, 1950) είχε εξαιρετικά µεγάλη επίδραση στην ανάπτυξη των τεχνητών νευρωνικών δικτύων.
Μοιάζει πολύ µε το Adaline που είδαµε.
Ο Rosenblatt χρησιµοποίησε το απλό µοντέλο νευρώνων των McCuloch - Pitts (1947).
PERCEPTRON
13
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Ο Rosenblatt χρησιµοποίησε το µοντέλο που ονόµασε Perceptron, στη προσπάθεια του να µελετήσει τη λειτουργία του οφθαλµού.
Απλό µονοεπίπεδο PERCEPTRON
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Τo απλό µονοεπίπεδο PERCEPTRON έχει πολλές οµοιότητες µε αυτό που ονοµάζεται Maximum- likelihood Gaussian Classifier.
Παρόλο που ήταν µια νέα νέα και πρωτοποριακή µοντελοποίηση νευρωνικού δικτύου, υποβλήθηκε σε πολλή κριτική, κυρίως από τους Minsky και Papert* γιατί, µεταξύ άλλων, δεν µπορούσε να επιλύσει το κλασσικό πρόβληµα ΧOR.
Φαίνεται ότι ο κάπως υπερβολικός όρος “Perceptron”, προδιάθεσε µερικούς επιστήµονες αρνητικά.
Σήµερα, το ενδιαφέρον εστιάζεται στα πολυεπίπεδα perceptrons που θα δούµε λίγο µετά._______________________________________________________________________________________* M. Minsky and S. A. Papert. Perceptrons: An Introduction to Computational Geometry. MIT Press, Cambridge, MA, expanded edition, 1988/1969.
Απλό µονοεπίπεδο PERCEPTRON
14
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Τυπικά ένα τέτοιο δίκτυο αποτελείται από:
Πολυεπίπεδα PERCEPTRONSMultiLayer Perceptrons (MLP)
Ένα σύνολο αισθητήρων ή πληροφοριών εισόδου (πηγαίοι κόµβοι), που αποτελούν το επίπεδο εισόδου (input layer).
Ένα ή περισσότερα κρυµµένα επίπεδα (hidden layers)υπολογιστικών κόµβων.
και ένα επίπεδο υπολογιστικών κόµβων εξόδου.
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Πολυεπίπεδα PERCEPTRONS
ΕΙΣΟ∆ΟΣ
ΕΞΟ∆ΟΣ
κρυµµέναεπίπεδα
15
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Πολυεπίπεδα PERCEPTRONS - MLP
Τα MLP εφαρµόστηκαν µε επιτυχία στην επίλυση ποικίλων και δύσκολων προβληµάτων, όπως δείχνεται παρακάτω για “ηλεκτρονική µύτη”
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
16
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Μάθηση στα
ADALINESMADALINES
PERCEPTRONSκαι
MLP
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Μάθηση στο απλό Adaline
x1(κ)
x2(κ)
.
.
.
xN(κ)
w1(κ)
w2(κ)
wN(κ)
Σ
N
1) i i
iu(κ x w
=
= ∑Σ
Επιθυµητή έξοδος
d(κ)
+
-
Αλγόριθµος µάθησης
Σύγκριση
e(κ) = d(κ) – u(κ)Σφάλµα
Ο αλγόριθµος µάθησης καθορίζει πως να προσαρµοστούν τα βάρη ώστε το σφάλµα να γίνει ικανοποιητικά µικρό.
17
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Αλγόριθµος Ελαχίστων Μέσων Τετραγώνων(ΕΜΤ, LMS)
Τα Adalines συνήθως εκπαιδεύονται µε τον αλγόριθµο των Ελαχίστων Μέσων Τετραγώνων, που είναι επίσης γνωστός ως “Widrow-Hoff” ή “Κανόνας ∆έλτα” (Delta Rule) ή “Error Correction Rule”.
Είναι ένας απλός κανόνας.
Εφαρµόζεται συνήθως σε γραµµικάστοιχεία.
Θα εξηγηθεί για ένα απλό νευρώνα.
Bernard Widrow
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Είναι προϊόν πρωτοποριακής εργασίας που έγινε στο Πανεπιστήµιο Stanford από τους Widrow και Hoff τη δεκαετία του 1960.
Βοηθά στη κατανόηση της θεωρίας των γραµµικών προσαρµοζόµενων φίλτρων που χρησιµοποιούν απλό γραµµικό νευρώνα.
Βοηθά επίσης στη θεωρητική ανάπτυξη των µη-γραµµικών πολυεπίπεδων perceptron (Multi Layer Perceptrons, MLP).
Αλγόριθµος Ελαχίστων Μέσων Τετραγώνων
Η µέθοδος είναι σηµαντική γιατί:
18
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Οι Widrow και Hoff προσπάθησαν να βρουν µια διαδικασία που να προσαρµόζει τα συναπτικά βάρη w έτσι ώστε ο νευρώνας να αναγνωρίζει (ξεχωρίζει, καθορίζει) κάποια πρότυπα εισόδου, µε όσο το δυνατό λιγότερο γενικό σφάλµα.
Σαν µέτρο αποδοτικότητας (performance), χρησιµοποίησαν το κριτήριο Ελάχιστου Μέσου Τετραγωνικού Σφάλµατος (LMS).
Βασίστηκαν στην εργασία του Rosenblatt που έγινε στα Perceptrons.
Αλγόριθµος Ελαχίστων Μέσων Τετραγώνων
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Προσαρµοζόµενα κυκλώµατα [Adaptive Switching Circuits (Widrow και Hoff, 1960)]
Προσαρµοζόµενες τηλεφωνικές γραµµές για γρήγορη µεταφορά πληροφοριών [Adaptive equalization of telephone channels (Lucky 1965, 1966)]
Προσαρµοζόµενες αντένες για τη µείωση των παρεµβολών [Adaptive antennas (Widrow et al., 1967)]
Προσαρµοζόµενη ακύρωση ηχούς που έρχεται από µακρινές αποστάσεις[Adaptive echo cancellation (Sondhi και Berkley, 1980)]
Προσαρµοζόµενη κωδικοποίηση οµιλίας [Adaptive differential pulse code modulation (Jayant και Noll, 1984)]
O αλγόριθµος LMS έχει πολλές εφαρµογές όπως σε:
(ήταν η πρώτη εφαρµογή που έγινε)
Αλγόριθµος Ελαχίστων Μέσων Τετραγώνων
19
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Έστωx = [x1, x2, … , xN]T
τα σήµατα εισόδου που παράγονται από κάποιους αισθητήρες.
w1
wN
w2
Σ...
.
.
.
x1
x2
xN
Αισθητήρες(Sensors)
ΒάρηWeights (multipliers)
Αθροιστής(Adder)
y
x1w1
N
1i i
iy x w
=
= =∑ Tw x
Ανάπτυξη Αλγόριθµου Ελαχίστων Μέσων Τετραγώνων
Έντασηφωτός
Θέση
αισθητήρα
Tα σήµατα εφαρµόζονται σε αντίστοιχο σύνολο βαρών:w = [ w1, w2 ,..., wN]T
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
όπου, y είναι η έξοδος (εξαρτηµένη µεταβλητή) του δικτύου d είναι η επιθυµητή έξοδος (desired output)
[είναι επίσης γνωστή ως target ή observation]
Το ζητούµενο είναι να υπολογιστούν οι βέλτιστες τιµές του w, έτσι ώστε να ελαχιστοποιείται κάποιο κατάλληλο συνολικό σφάλµα, J.
Αυτό είναι συνήθως µια συνάρτηση του σφάλµατος e
όπου e ≡ d – y
Όταν το συνολικό σφάλµα εκφράζεται ως µέσο τετραγωνικό, η λύση θα µπορούσε να βρεθεί από ένα σύστηµα εξισώσεων που είναι γνωστές ως Wiener-Hopf.
Την απόδειξη αυτών των εξισώσεων θα δούµε αµέσως µετά.
Ανάπτυξη Αλγόριθµου Ελαχίστων Μέσων Τετραγώνων
20
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
H σχέση εισόδου-εξόδου είναι:
Το σήµα σφάλµατος για ένα πρότυπο µάθησης και για ένα νευρώνα εξόδου είναι:
e = d – y
N
1i i
iy x w
=
= =∑ Tw x (4.1)
Ανάπτυξη Εξισώσεων Wiener-Hopfµε χρήση Αλγόριθµου Ελαχίστων Μέσων Τετραγώνων
(4.2)
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Ένα κατάλληλο µέτρο απόδοσης (performance criterion ή measure), ή συνάρτηση κόστους (cost function) J, για όλα τα πρότυπα, είναι το µέσο τετραγωνικό σφάλµα (mean square error - MSE), που ορίζεται από τη σχέση:
N2 2 2
1
1 1 1( ) ( )2 2 2 i i
iJ E e E d y E d w x
=
= = − = − ∑
Όπου Ε είναι ο τελεστής της «αναµενόµενης τιµής» ή στατιστική µέση τιµή (expectation, mean, ensemble average).
Αλγόριθµος Ελαχίστων Μέσων Τετραγώνων
(4.3)
21
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Ορισµός και ιδιότητες του Ε[.]
Για τυχαία συνεχή µεταβλητή x, που παρουσιάζεται µε πιθανότητα Px:
Νοουµένου βέβαια ότι το ολοκλήρωµα έχει απόλυτη σύγκλιση.
Ορισµός:
Για τυχαία διακριτή µεταβλητή, x:
[ ] ( )xE x x xP x dx+∞
−∞
= ≡ ∫
[ ] i i i ii i
E x x x Px x x P= ≡ = =∑ ∑
(4.4)
(4.5)
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Ορισµός και ιδιότητες του Ε[.]
Ε[c1x + c2] = c1Ε[x] + c2
Χρήσιµες ιδιότητες του Ε[.] :
Εάν c1 και c2 είναι σταθερές που παίρνουν πραγµατικές τιµές,
Ε[x1x2x3 …] = Ε[x1] Ε[x2] Ε[x3]…
|Ε[x]| ≤ Ε[|x|]
(4.6)
(4.7)
(4.8)
22
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Το πρόβληµα αυτό µπορεί να θεωρηθεί και ως γραµµικό πρόβληµα βέλτιστου φιλτραρίσµατος(linear optimum filtering problem) που συνοπτικά ορίζεται ως εξής:
Γραµµικό πρόβληµα βέλτιστου φιλτραρίσµατος
Ζητείται να καθοριστεί το βέλτιστο σύνολο βαρών w*
1,w*2 ,..., w*
Ν, για το οποίο το µέσο τετραγωνικό λάθος J είναι ελάχιστο.
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
N N N2
1 1 1
1 1[ ]2 2i i i j i j
i j iJ E d E w x d E w w x x
= = =
= − +
∑ ∑∑
Λύση: (γνωστή σαν φίλτρο Wiener)
Από την (4.3) και τις ιδιότητες του τελεστή E[•]:
Εξισώσεις Wiener-Hopf
(4.9)
όπου Ν είναι ο αριθµός των στοιχείων εισόδου.
23
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Επειδή ο τελεστής Ε[.] είναι γραµµικός, µπορούµε να αλλάξουµε τη σειρά του Ε µε το Σ, οπόταν η (4.9) γίνεται:
όπου τα συναπτικά βάρη w θεωρούνται σταθερά, και βγαίνουν έξω από τα Ε[.]
N N N2
1 1 1
1 1[ ] [ ] [ ]2 2i i i j i j
i j iJ E d w E x d ww E x x
= = =
= − +∑ ∑∑
Εξισώσεις Wiener-Hopf
(4.10)
21 1[ ] [ ] [ ]2 2
J E d E d E= − +T T Tx w w xx w (4.11)
ή σε διανυσµατική µορφή:
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Τη συνάρτηση ετεροσυσχέτισης (cross-correlation):
E[d2] ≡ rd = Μέση τετραγωνική τιµή
E[xid] ≡ Rxd (i) όπου i = 1, 2, … ,Ν
Εξισώσεις Wiener-Hopf
Για ευκολία στη χρήση, και χρησιµοποιώντας τους γνωστούς στατιστικούς ορισµούς:
και τη συνάρτηση αυτοσυσχέτισης (auto-correlation):
( ), [ , ] , 1, 2, ... , Nxx i jR i j E x x i j≡ =
Η (4.10) γράφεται:
(4.12)
(4.13)
(4.14)
24
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
N N N
1 1 1
1 1( ) ( , )2 2d i xd i j xx
i j iJ r wR i ww R i j
= = =
= − +
∑ ∑∑
Εξισώσεις Wiener-Hopf
Η εξίσωση αυτή είναι θετική για όλα τα βάρη, και εποµένως έχει ολικό ελάχιστο (global minimum).
Για τη περίπτωση δύο βαρών µόνο, η επιφάνεια δείχνεται παρακάτω.
(4.15)
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Επιφάνεια σφάλµατος για Adaline
25
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Επιφάνεια σφάλµατος
Γενικότερα, η σχεδίαση του κόστους J σαν συνάρτηση δύο παραµέτρων w1, w2δείχνει µιαν επιφάνεια σφάλµατος, µε πολλά ελάχιστα.
J
w1w2
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Ανάλογα, η σχεδίαση κόστους J σε πολυδιάστατο χώρο είναι µια νοητή επιφάνεια σφάλµατος.
Στο γραµµικό adaline, η επιφάνεια έχει κοίλο σχήµα (convex), µε πολύ καλά καθορισµένα τοπικά ελάχιστα και ολικό ελάχιστο (global minimum).
Αυτό το σηµείο, είναι το βέλτιστο για το φίλτρο, µε την έννοια ότι το µέσο τετραγωνικό λάθος δίνει την ελάχιστη τιµή στο J.
Επιφάνεια σφάλµατος
26
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Όπως για να βρούµε το ελάχιστο µιας µονοδιάστατης συνάρτησης, εξισώνουµε τη παράγωγο µε µηδέν και λύνουµε την εξίσωση, έτσι και εδώ, για το προσδιορισµό του βέλτιστου, διαφορίζουµε τη συνάρτηση κόστους J ως προς τα βάρη wi και εξισώνουµε µε µηδέν.
Η µερική παράγωγος του J ως προς wi, είναι η κλίση(gradient) της επιφάνειας σφάλµατος ως προς το συγκεκριµένο wi. Παραγωγίζοντας την (4.15) ως προς wi και εξισώνοντας µε µηδέν, έχουµε:
Ελάχιστο της επιφάνειας σφάλµατος
N
1( ) ( , ) 0xd j xxi
ji
JJ R i w R i jw w =
∂∇ = = − + =
∂ ∑ (4.16)
27
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
N*
1( , ) ( ) 1, 2, ... , Nj xx dx
jw R i j R i i
=
= =∑
Εξισώσεις Wiener-Hopf
Όπου το w*i δηλώνει τη βέλτιστη τιµή του wi.
Έτσι παίρνουµε τις εξισώσεις Wiener-Hoff για βέλτιστο φίλτρο τύπου Adaline:
Tο νευρωνικό δίκτυο που έχει βάρη που ικανοποιούν τις πιο πάνω εξισώσεις, είναι γνωστό ως φίλτρο Wiener.
(4.17)
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Εφαρµογή φίλτρου Wiener
Lena µε θόρυβο Lena µετά από φίλτρο Wiener
28
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Συνήθως δεν είναι εύκολο (ή είναι αδύνατο) να βρεθούν αναλυτικές λύσεις του συστήµατος Wiener-Hopf.
Χρειάζεται να βρεθεί το αντίστροφο ενός µεγάλου πίνακα [ΝxΝ], που είναι δύσκολη και χρονοβόρος εργασία.
Μπορούν όµως να να βρεθούν µε διερεύνηση (search), ψάχνοντας στο χώρο της επιφάνειας σφάλµατος, εφαρµόζοντας τη µέθοδο ταχυτέρας καθόδου που είδαµε προηγουµένως.
Η µέθοδος που προκύπτει λέγεται “Μέθοδος Ελαχίστων Τετραγώνων” (LMS) ή “Κανόνας ∆ιορθώµατος Σφάλµατος” (Error Correction Learning), ή “Κανόνας ∆έλτα” (Delta Rule) (Widrow –Hoff, 1960).
Λύση εξισώσεων Wiener-Hopf
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Μέθοδος ταχυτέρας καθόδου στη λύση των εξισώσεων Wiener-Hoff
Χρησιµοποιώντας τη µέθοδο όπως εξηγήθηκε προηγουµένως, έχουµε:
(4.19)
όπου η παράµετρος η είναι γνωστή ως Ρυθµός Μάθησης(Learning Rate ή Learning Coefficient).
∆wi = - η∇wiJ i = 1, …, N
ή σε διαφορική µορφή για τη περίπτωση συνεχούς χρονικής µεταβολής των βαρών:
Jdtdw
iw∇= η -
(4.18)
29
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Χρησιµοποιώντας τον δείκτη κ, να αναφέρεται στον αριθµό επανάληψης (ή δοκιµής, ή προσπάθειας), ο συνδυασµός των εξισώσεων (4.15) και (4.18) δίνουν:
wi[κ+1] = wi[κ] + ηRxd(i) - i = 1, …, Ν1
[ ] ( , )N
j xxj
w R i jκ=∑ (4.20)
Θα µπορούσαµε να καταλήξουµε σε ανάλογα συµπεράσµατα χρησιµοποιώντας ένα συνολικό άθροισµα των σφαλµάτων αντί της αναµενόµενης ή µέσης τιµής J.
Μέθοδος ταχυτέρας καθόδου στη λύση των εξισώσεων Wiener-Hoff
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Σε τέτοια περίπτωση το κόστος που προσπαθούµε να ελαχιστοποιήσουµε συµβολίζεται συνήθως µε Ε (από το Energy) ή C, και δίνεται όπως πιο κάτω:
(4.21)P
2
1
1 2
iολικόi
E e=
= ∑
Στη βιβλιογραφία θα το βρείτε επίσης µε το όνοµα SSE από το Sum Square Error.
Μέθοδος ταχυτέρας καθόδου στη λύση των εξισώσεων Wiener-Hoff
30
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Ο συνδυασµός της έκφρασης του κόστους ως συνάρτηση των µέσων τετραγώνων του σφάλµατος, και της µεθόδου της ταχυτέρας καθόδου, είναι γνωστός ως:
Αλγόριθµος Ελαχίστου Μέσου Τετραγώνουή Κανόνας ∆έλτα ή Κανόνας Widrow-Hoff
Επειδή δεν γνωρίζουµε τη τελική µορφή της επιφάνειας σφάλµατος, σε πρακτική αλγοριθµική µορφή χρησιµοποιούµε τα στιγµιαία βάρη και τη στιγµιαία επιφάνεια.
Μέθοδος ταχυτέρας καθόδου στη λύση των εξισώσεων Wiener-Hoff
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Αλγόριθµος Ελαχίστου Μέσου ΤετραγώνουLeast Mean Square Algorithm (LMS)
Αρχικοποίηση (initialization):
Για χρόνους κ = 1, 2, ... Υπολόγισε:
0[1]ˆ =iw για i = 1, … , N
Φιλτράρισµα (filtering):
N
1
ˆ[ ] [ ] [ ] i ii
y x wκ κ κ=
=∑και
e[κ] = d[κ] – y[κ]
Το καπελάκι υποδηλώνει καθ’ υπολογισµό βάρη, για τη στιγµιαία επιφάνεια
(4.22)
(4.23)
(4.24)
31
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Αναθεώρηση βαρών w (weight updating):
][][ ][1][ˆ κκκκ iii xηeww +=+
για i = 1, … , Ν
Για την αρχικοποίηση, συνήθως βάζουµε τα βάρη να έχουν αρχικές τιµές ίσες µε µηδέν. Θα µπορούσαµε όµως να χρησιµοποιήσουµε άλλες τιµές.
Αλγόριθµος Ελαχίστου Μέσου ΤετραγώνουLeast Mean Square Algorithm (LMS)
(4.24)
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Όπως είπαµε, µεγάλες τιµές του η θα µπορούσαν να οδηγήσουν σε αστάθειες, ενώ πολύ µικρές θα έκαναν το ρυθµό µάθησης πολύ αργό.
Σηµαντική θεωρητική εργασία που έγινε, δίνει καθοδήγηση για µεταβαλλόµενο η όπως δείχνετε στον παρακάτω αλγόριθµο.
Αλγόριθµος Ελαχίστου Μέσου ΤετραγώνουLeast Mean Square Algorithm (LMS)
32
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Αλγόριθµος Ελαχίστου Μέσου Τετραγώνου µε µεταβαλλόµενο ρυθµό µάθησης, η
N
1
ˆ[ ] ( ) - [ ] [ ] i ii
e d w xκ κ κ κ=
= ∑
∆ώσε αρχικά βάρη w[1] και διάλεξε τιµές για το ηο και το τ.Βήµα 1 Για χρόνο κ = 1
τκ
o
1 ][
+=
ηκη
Βήµα 2 Υπολόγισε το ρυθµό µάθησης από:
Βήµα 3 Βρές το σφάλµα:
(4.25)
(4.25)
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Βήµα 4 Αναθεώρησε τα βάρη:
][][][ ][1][ˆ κκκκκ iii xeηww +=+
για i = 1, … , Ν
Εάν ναι, σταµάτα.
Εάν όχι, θέσε: κ κ +1
Πίσω στο βήµα 2.
Βήµα 5 Έλεγχος για σύγκλιση:
(4.24)
Αλγόριθµος Ελαχίστου Μέσου Τετραγώνου µε µεταβαλλόµενο ρυθµό µάθησης, η
33
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Τα MADALINES µπορούν να εκπαιδευτούν µε τον κανόνα LMS ή από άλλους κατάλληλους που θα δούµε αργότερα.
Μάθηση στα MADALINES
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Λίγη ξεκούραση !
34
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Μάθηση σε Πολυεπίπεδα PERCEPTRONS
Συνήθως εκπαιδεύονται µε επιβλεπόµενο τρόπο (supervised learning), χρησιµοποιώντας τον πολύ δηµοφιλή αλγόριθµο ανατροφοδότησης σφάλµατος (ΑΣ) (Error Backpropagation - BP) που είναι επίσης γνωστός ως Γενικευµένος Κανόνας ∆έλτα (Generalized Delta Rule).
Ο αλγόριθµος βασίζεται σε κανόνα µάθησης που χρησιµοποιεί το σφάλµα στην έξοδο για να οδηγήσει το δίκτυο σε σταδιακά καλύτερη απόδοση (Error Correction Learning Rule).
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Η µάθηση που συνήθως χρησιµοποιείται είναι βασισµένη σε µέσο τετραγωνικό σφάλµα (MSE) και σε κανόνα ταχυτέρας καθόδου.
Μάθηση σε Μη-Γραµµικά PERCEPTRONS κατωφλίου
Ο αρχικός αλγόριθµος όπως προτάθηκε από τον Rosenblatt ήταν:
wij[κ+1] = wij[κ] + ηej[κ]xi[κ]
και ej[κ] = dj[κ] – yj [κ] = dj [κ] – sgn(uj [κ])
(4.25)
35
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Μάθηση σε Μη-Γραµµικά PERCEPTRONS
Στη περίπτωση που η συνάρτηση δραστηριοποίησης είναι σιγµοειδής, η εφαρµογή του πιο πάνω κανόνα οδηγά στον κλασσικό αλγόριθµο Backpropagation (BP) για µονοεπίπεδο, µη-γραµµικό perceptron.Στη περίπτωση που η συνάρτηση δραστηριοποίησης είναι για παράδειγµα η:
)( tanh )( jjj uufy γ==
Ο αλγόριθµος µάθησης γίνετε:wij[κ+1] = wij[κ] + ηej[κ]1- (yj[κ])2xi[κ] Που είναι ο BP για µονοεπίπεδο perceptron.
(4.26)
(4.27)
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
MLP και BP
Βασικά η διαδικασία της ΑΣ αποτελείται από δυο περάσµατα διαµέσου των επιπέδων του δικτύου:
Ένα πέρασµα προς τα εµπρός (ενεργοποίηση) (forward pass) και ένα πέρασµα προς τα πίσω (ανάδραση) (backward pass).
Στην την ενεργοποίηση τα βάρη στο δίκτυο διατηρούνται σταθερά.
Κατά τη διάρκεια της ανατροφοδότησης τα βάρη προσαρµόζονται σύµφωνα µε τον κανόνα διόρθωσης σφάλµατος, ώστε σταδιακά να µειωθεί το συνολικό σφάλµα.
36
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
MLP και BPΗ παρουσία της µη-γραµµικότητας είναι σηµαντική, διότι διαφορετικά η σχέση εισόδου-εξόδου θα µπορούσε να απλοποιηθεί σε αυτή ενός µονοεπίπεδου perceptron.
Η χρήση της λογιστικής συνάρτησης στη δραστηριοποίηση έχει και βιολογικά κίνητρα, µιας και προσοµοιάζει την επίµονη φάση (refractory phase) των πραγµατικών νευρώνων.
Σηµειώνεται επίσης το σηµαντικό χαρακτηριστικό των πραγµατικών βιολογικών νευρώνων, ότι δεν έχουν ψηφιακές (δυαδικές) εξόδους, αλλά η έξοδος τους έχει συνεχώς κάποια τιµή (συρµός από ώσεις).
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
MLP και BP
Η κατανεµηµένη µορφή της µη-γραµµικότητας και η υψηλή διασύνδεση του δικτύου κάνουν την θεωρητική ανάλυση ενός MLP εξαιρετικά δύσκολη.
Επίσης, η χρήση κρυµµένων νευρώνων κάνει την διαδικασία µάθησης δύσκολη, και δυσνόητη.
O αλγόριθµος BP είναι ένας γρήγορος τρόπος για τη µάθηση τέτοιων νευρωνικών δικτύων, όπου βοηθά στη κατανοµή της αναγκαίας διόρθωσης στους κρυµµένους νευρώνες, ώστε το συνολικό σφάλµα να µειώνεται σταδιακά.
37
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
MLP και BP
O κλασσικός αλγόριθµος BP εφαρµόζεται σε πολυεπίπεδα δίκτυα που έχουν ένα ή περισσότερα κρυµµένα επίπεδα, που είναι πλήρως συνδεδεµένα.
Οι υπολογισµοί από την είσοδο προς την έξοδο, λέγονται συνήθως σήµατα ενεργοποίησης ή συναρτησιακά σήµατα (function signals), ή σήµατα δραστηριοποίησης, ενώ τα σήµατα που στέλλονται πίσω για να διορθώσουν τα βάρη λέγονται σήµατα διόρθωσης βαρών (error correction signals) ή ανατροφοδότησης (feedback signals).
Έρευνες έδειξαν ότι δύο κρυµµένα επίπεδα µε λογιστική-σιγµοειδή δραστηριοποίηση, είναι αρκετό για να επιλύσει τα πλείστα µη- γραµµικά προβλήµατα απεικόνισης εισόδου-εξόδου (Kolmogorov, White, Hecht- Nielsen).
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Ο Αλγόριθµος BPΗ πρώτη εργασία έγινε από τον Paul Werbos* το 1974 στο διδακτορικό του. Ακολούθως ξανα-ανακαλύφθηκε από τον Parker το 1982, και από τον LeCun σε παρόµοια µορφή το 1985.
Ο όρος BACKPROPAGATIONκαθιερώθηκε µε τη σηµαντικότατη εργασία των Rumelhart, Hinton και McClelland** το 1986.
Paul Werbos
** Rumelhart D. E., Hinton G. E. and McClelland J. L. (1986). In McClelland J. L., Rumelhart D. E. and the PDP Research Group (Eds.). Parallel Dis-tributed Processing: Explorations in the Microstructure of Cognition. Vol. 1. Foundations. Cambridge, MA: MIT Press.
_____________________________________________________________________________________________*Werbos P. (1974). Beyond regression: New tools for prediction and analysis in the behavioral sciences. Ph. D. Dissertation. Harvard University.
38
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Ο Αλγόριθµος BPΟυσιαστικά ο αλγόριθµος ψάχνει και βρίσκει ένα καλό σύνολο από βάρη w ώστε το δίκτυο να κάνει ικανοποιητικά την αντιστοίχηση (mapping) ℜNx1 ℜMx1.
Είναι µια µορφή βελτιστοποίησης χωρίς περιορισµούς (unconstrained optimization).
Συνήθως οργανώνονται δύο περάσµατα. H ενεργοποίηση από την είσοδο στην έξοδο, και η ανατροφοδότηση (πισωδιάδοση) από το σφάλµα στις διορθώσεις των βαρών.
Μετά τη µάθηση, τα βάρη «παγώνουν» και το δίκτυο εφαρµόζει τηναντιστοίχηση για διάγνωση, κατηγοριοποίηση, αναγνώριση προτύπων, κ.α.
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Ο Αλγόριθµος BP
Το συνολικό (global ή total) σφάλµα εκφράζεται ως:
Για ευκολία, θα αποφύγουµε τον αυτονόητο δείκτη κ, έχοντας υπόψη ότι ∆w = w[κ+1] - w[κ]
Η διαδικασία βασίζεται στη µέθοδο ταχυτέρας καθόδου εφαρµοζόµενησε σφάλµα Εp για το δείγµα p (τοπικό σφάλµα): (p = 1,…,P)
2 2,
1 1
1 1( )2 2
p jp jp out jpj j
E d y eΝ Ν
= =
= − =∑ ∑o o
P P P2 2
,1 1
1 1 1( )2 2 2p jp jp out jp
p p j p jE E d y e
Ν Ν
= =
= = − =∑ ∑∑ ∑∑o o
(4.29)
(4.28)
Στα αγγλικά είναι γνωστό σαν Sum Square Error (SSE).
39
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Ο Αλγόριθµος BP
Θα παρουσιασθεί για αρχιτεκτονική 3 επιπέδων και ακολούθως θα γίνει γενίκευση σε πολλαπλά επίπεδα.
Ας δούµε πρώτα τους σχετικούς συµβολισµούς για το στάδιο της ενεργοποίησης (εµπρός-περάσµατος) (feedforward pass ή function signal pass)
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
x1
x2
.
.
.
xN
Σ
…
Σ
Σ
ΕπίπεδοΕισόδου
1οΚρυ
µµένο
Επίπεδο
Σ
…
Σ
Σ
2οΚρυ
µµένο
Επίπεδο
y1
y2
.
.
.
yNo
ΕπίπεδοΕξόδου
40
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
x1
x2
.
.
.
xN
Σ
…
Σ
Σ
ΕπίπεδοΕισόδου
Σ
…
Σ
Σ
y1
y2
.
.
.
yNo
ΕπίπεδοΕξόδου
Συναπτικάβάρη
u
a
S(.)
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
x1
x2
.
.
.
xN
Σ
…
Σ
Σ
ΕπίπεδοΕισόδου
Σ
…
Σ
Σ
y1
y2.
.
.
yNo
ΕπίπεδοΕξόδου
u[1]1
u[1]2
u[1]n1
Σ
…Σ
Σ
Κρυµµένο επίπεδο 1,µε n1 νευρώνες
Κρυµµένο επίπεδο 2, µε n2 νευρώνες
Κρυµµένο επίπεδο 3, µε No νευρώνες
2 2 2 1
2 1
n n n n[ ] [3] [3] [3] [3] [2] [3] [3] [2] [2] [3] [3] [2] [1] [2] [3]
1 1 1 1
n n[3] [2] [1] [1] [2] [3] [3] [2]
1 1
outl l l l l k kl l k k kl l k j jk kl
k k k j
l k j j jk kl l kk j
y y f u f a w f f u w f f a w w
f f f u w w f f
= = = =
= =
= = ∑ ∑ ∑ ∑
∑ ∑
( ) = ( ) = ( ( ) ) = ( ( ) ) =
= ( ( ( ) ) ) = ( (2 1n n N
[1] [1] [2] [3]o
1 1 1= 1, ..., Nj i ij jk kl
k j if x w w w l
= = =∑ ∑ ∑( ) ) )
a[1]1
a[1]2
a[1]n1
a[2]1
a[2]2
a[2]n2
u[2]1
u[2]2
u[2]n2
u[3]1
u[3]2
u[3]n0
f(.)[3]1
f(.)[3]n0
f(.)[2]1
41
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
2 2
2 1
2 1
[ ] [3] [3] [3]
n n[3] [2] [3] [3] [2] [2] [3]
1 1n n
[3] [2] [1] [2] [3]
1 1
n n[3] [2] [1] [1] [2] [3]
1 1
[3] [2
outl l l l
l k kl l k k klk k
l k j jk klk j
l k j j jk klk j
l k
y y f u
f a w f f u w
f f a w w
f f f u w w
f f
= =
= =
= =
= =
∑ ∑
∑ ∑
∑ ∑
( ) =
= ( ) = ( ( ) ) =
= ( ( ) ) =
= ( ( ( ) ) ) =
= (2 1n n N
] [1] [1] [2] [3]
1 1 1
o΄Οπου, l = 1, ..., N
j i ij jk klk j i
f x w w w= = =∑ ∑ ∑( ( ) ) )
Ο Αλγόριθµος BP: Υπολογισµοί ενεργοποίησης
κ. ο. κ. για MLP περισσότερων επιπέδων.
(4.30)
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Ο Αλγόριθµος BPΥπολογισµοί Ενεργοποίησης - Γενική µορφή
L-1n[L] [L-1] [L]
1j i ij
iu a w
=∑ =
L-1n[L] [L] [L-1] [L]
1j j i ij
iy f a w
=∑ = ( ) (4.32)
(4.31)
42
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
“Ότι δεν θέλεις να σου κάνουν, µην κάνεις στους άλλους”, Κονφούκιος
“Είσαι αυτά που γνωρίζεις”, Albert Einstein
“ΟΠΟΥ ΑΣΤΟΧΗΣΕΙΣ ΓΥΡΙΣΕ, ΚΙ' ΟΠΟΥ ΠΕΤΥΧΕΙΣ ΦΥΓΕ”, Λαϊκή ρήση από τη Κρήτη
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Πισωδιάδοση σφάλµατος
Συνήθως ακολουθείται µια από τις πιο κάτω εναλλακτικές τακτικές:
α) Μάθηση ανά δείγµα (online learning)Η διόρθωση γίνεται µετά από κάθε δείγµα
β) Μάθηση ανά οµάδα ή εποχή (batch ή epoch learning)Η διόρθωση συσσωρεύεται και γίνεται µετά που περνούν όλα τα δείγµατα
[ ]ij∆w L
43
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Πισωδιάδοση σφάλµατος
[3] [3] [2][3]
[3] [3][3]
[3] [3]
και
( )
pij j i
ij
j jj jp jp jp
j j
E∆w a
w
f fe d y
u u
η ηδ
δ
∂= − =
∂
∂ ∂= = −
∂ ∂
Μάθηση ανά δείγµα (online learning)
Η µάθηση βασίζεται στο τοπικό σφάλµα, Ep
Ας δούµε αναλυτικά τον αλγόριθµο για σύστηµα τριών επιπέδων:
(4.33)
(4.34)
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Πισωδιάδοση σφάλµατος
[2] [2] [1][2]
[2][2] [3] [3]
[2]1
και
pij j i
ij
jj i ij
ij
E∆w a
w
fw
u
η ηδ
δ δ=
∂= − =
∂
∂=∂ ∑
3n
Μάθηση ανά δείγµα (online learning)
(4.35)
(4.36)
44
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Πισωδιάδοση σφάλµατος
[1] [1]
[1][1] [2] [2]
[1]1
και
ij j i
jj i ij
ij
∆w x
fw
u
ηδ
δ δ=
=
∂=∂ ∑
2n
Μάθηση ανά δείγµα (online learning)
(4.37)
(4.38)
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Πισωδιάδοση σφάλµατος
Βήµατα στη µάθηση ανά δείγµα:
1. Αρχικοποίησε τα συναπτικά βάρη w δίνοντας τους µικρές τυχαίες τιµές.
2. Εφάρµοσε ένα δείγµα µάθησης x στην είσοδο, από το ζεύγος δείγµατος µάθησης (x, d), και υπολόγισε την έξοδο y µε βάση την τρέχουσα τιµή των w, χρησιµοποιώντας τις εξισώσεις (4.31) και (4.32).
3. Χρησιµοποιώντας τις τιµές της επιθυµητής εξόδου d, υπολόγισε τα τοπικά σφάλµατα δj
[L] από τις (4.34), (4.36) και (4.38).4. ∆ιόρθωσε τα βάρη wij
[L] για L=1,2,3 σύµφωνα µε την εξίσωση:wij
[L] = ηδj[L] xi
[L]
5. Επανάλαβε από το βήµα 2, εφαρµόζωντας νέο δείγµα, µέχρι το σφάλµα να πάρει ικανοποιητική τιµή, και τα βάρη να σταθεροποιηθούν.
45
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
BP µε συντελεστή ορµής
Για να έχουµε ευσταθή µάθηση χρειάζεται να χρησιµοποιήσουµε µικρή τιµή του συντελεστή µάθησης η. Αυτό οδηγεί σε αργό ρυθµό µάθησης.
Επίσης, εάν υπάρχουν τοπικά ελάχιστα, τα βάρη θα µπορούσαν να περιοριστούν γύρω από τέτοιο ελάχιστο.
Ένας τρόπος που χρησιµοποιείται για αποφυγή αυτών των προβληµάτων είναι η χρήση ενός συντελεστή ορµής µ (momentum fficient) όπως πιο κάτω:
[ ] [ ] [ ] [ ][ ] [ 1]ij j i ijw a wκ ηδ µ κ∆ = + ∆ −L L L-1 L
Όπου η > 0 και 0 ≤ µ < 1
(4.39)
[ ] [ ] [ ][ 1] [ ] [ ]ij ij ijw w wκ κ κ+ = + ∆L L Lή (4.40)
46
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
BP - Γενικό σχόλιο
Με τα προηγούµενα, φαίνεται ότι η µέθοδος αυτή, όπως και οι πλείστες παρόµοιες, δουλεύουν όπως και οι στατιστικές πολυπαραµετρικές µέθοδοι για παλινδροµική προσέγγιση ενός υπερεπιπέδου στον πολυδιάστατο χώρο, όπου η προσέγγιση γίνεται µε παραδείγµατα.
(Multidimensional curve fitting)
Πανεπιστήµιο Κύπρου – Τµήµα Πληροφορικής – ΕΠΛ 604 Νευρωνικά ∆ίκτυα – Κ. Νεοκλέους, PhD
Πισωδιάδοση σφάλµατος
Μάθηση ανά οµάδα (Batch processing)Σε αυτή τη τακτική, το τοπικό σφάλµα Epσυσσωρεύεται για µερικά δείγµατα (συνήθως για όλα) και ακολούθως γίνεται η διόρθωση των σφαλµάτων. Ο απλός αλγόριθµος σε αυτή τη περίπτωση γίνεται:
Μια πιο περίπλοκη µορφή αλλά πιο διαδεδοµένη είναι:
[ ] [ ] [ ] [ ][ ]ij p ij jp ip
p pij
Ew w aw
η η δ∂∆ = ∆ = − =
∂∑ ∑L L L L-1L (4.41)
[L] [L] [L-1] [L] [L]
L-1
[ ] [ 1] [ ]nij jp ip ij ij
pw a w wηκ δ µ κ γ κ∆ = + ∆ − −∑ (4.42)
Όπου γ είναι ένας συντελεστής απόσβεσης (decay factor)
Recommended