159
Στατιστική και Υπολογιστική Νοημοσύνη Βασίλειος Λ. Γεωργίου Διδακτορική Διατριβή Πανεπιστήμιο Πατρών Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών «Μαθηματικά των Υπολογιστών και των Αποφάσεων» Τμήμα Μαθηματικών & Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πάτρα Επιβλέπων : Επίκουρος Καθηγητής Φίλιππος Δ. Αλεβίζος (Νοέμβριος 2008)

noimosini sminous

Embed Size (px)

Citation preview

Page 1: noimosini sminous

Στατιστική

και

Υπολογιστική Νοηµοσύνη

Βασίλειος Λ. Γεωργίου

∆ιδακτορική ∆ιατριβή

Πανεπιστήµιο Πατρών

∆ιατµηµατικό Πρόγραµµα Μεταπτυχιακών Σπουδών

«Μαθηµατικά των Υπολογιστών και των Αποφάσεων»

Τµήµα Μαθηµατικών & Τµήµα Μηχανικών Η/Υ και Πληροφορικής

Πάτρα

Επιβλέπων: Επίκουρος Καθηγητής Φίλιππος ∆. Αλεβίζος

(Νοέµβριος 2008)

Page 2: noimosini sminous

i

Η συγκεκριµένη ∆ιδακτορική ∆ιατριβή πραγµατοποιήθηκε στα πλαίσια του Προ-

γράµµατος ΗΡΑΚΛΕΙΤΟΣ το οποίο συγχρηµατοδοτείται από την Ευρωπαϊκή ΄Ενωση

και Εθνικούς Πόρους.

Page 3: noimosini sminous

ii

Αυτή η ∆ιδακτορική ∆ιατριβή στοιχειοθετήθηκε µε το πρόγραµµα LaTEX (διανοµή teTeX).

Η συγγραφή έγινε µε τη ϐοήθεια του προγράµµατος Kile στο λειτουργικό σύστηµα Ubuntu

Linux. Για την ανάπτυξη και τον έλεγχο των προγραµµάτων χρησιµοποιήθηκαν οι γλώσσες

προγραµµατισµού C++, FORTRAN και R. Οι γραφικές παραστάσεις έγιναν µε τη ϐοήθεια

των προγραµµάτων Gnuplot και R και η κατασκευή και επεξεργασία των σχηµάτων µε τα

προγράµµατα Xfig και Gimp.

Στο εξώφυλλο απεικονίζεται η γραφική παράσταση µιας διδιάστατης κανονικής κα-

τανοµής καθώς και ένα σµήνος πτηνών. Η εικόνα αυτή συµβολίζει την ένωση της

κανονικής κατανοµής µε τη ϐελτιστοποίηση µε σµήνος σωµατιδίων. Ο συνδυασµός

των δύο παραπάνω στοιχείων είναι ένα από τα κυριότερα στοιχεία της παρούσας

διατριβής.

Page 4: noimosini sminous

iii

Στους δασκάλους µου, στους γο-

νείς µου και στη Σόνια, για τη

στήριξη και την τεράστια υποµο-

νή τους.

Page 5: noimosini sminous

iv

Page 6: noimosini sminous

Περίληψη

Η παρούσα διατριβή ασχολείται µε τη µελέτη και την ανάπτυξη µοντέλων τα-

ξινόµησης τα οποία ϐασίζονται στα Πιθανοτικά Νευρωνικά ∆ίκτυα (ΠΝ∆). Τα προ-

τεινόµενα µοντέλα αναπτύχθηκαν ενσωµατώνοντας στατιστικές µεθόδους αλλά και

µεθόδους από διάφορα πεδία της Υπολογιστικής Νοηµοσύνης (ΥΝ). Η παρουσία-

ση των επιµέρους ϑεµάτων και αποτελεσµάτων της διατριβής αυτής οργανώνεται ως

εξής :

Στο Κεφάλαιο 1 παρουσιάζουµε τα απαιτούµενα ϑεωρητικά στοιχεία της στατι-

στικής ϑεωρίας αποφάσεων σε προβλήµατα ταξινόµησης. Επιπλέον, παρέχεται µια

σύνοψη των ϐασικών κανόνων ταξινόµησης και των συναρτήσεων διαχωρισµού.

Το Κεφάλαιο 2 αφιερώνεται στην παρουσίαση των εννοιών που απαρτίζουν την

ΥΝ. Ιδιαίτερη µνεία γίνεται στις µεθόδους ϐελτιστοποίησης της ΥΝ και συγκεκριµένα

στη Βελτιστοποίηση µε Σµήνος Σωµατιδίων (ΒΣΣ) και στους ∆ιαφοροεξελικτικούς αλ-

γόριθµους (∆ΕΑ). Στη συνέχεια, παρουσιάζονται εν συντοµία τα Τεχνητά Νευρωνικά

∆ίκτυα (ΤΝ∆) και ειδικότερα τα ΠΝ∆ για τα οποία γίνεται µια εκτενής αναφορά για

τη δοµή, τη λειτουργία, τη χρησιµότητα και τις ποικίλες εφαρµογές τους. Επίσης,

παρουσιάζονται και αρκετές παραλλαγές των ΠΝ∆.

Στο Κεφάλαιο 3 παρέχεται µια σύντοµη περιγραφή των τυπικών µεθόδων επα-

ναδειγµατοληψίας που απαιτούνται σε προβλήµατα µηχανικής µάθησης. Επιπλέον,

παρουσιάζεται η απαιτούµενη µεθοδολογία στατιστικών συγκρίσεων για αλγόριθµους

ταξινόµησης σε ένα αλλά και σε πολλαπλά πεδία εφαρµογών.

Στο Κεφάλαιο 4 προτείνεται µια νέα κλάση µοντέλων ταξινόµησης τα οποία απο-

τελούν µια παραλλαγή των ΠΝ∆. Συγκεκριµένα, εξελικτικοί αλγόριθµοι ϐελτιστοποί-

ησης ενσωµατώνονται στο ΠΝ∆ για την αναζήτηση ϐέλτιστων τιµών των παραµέτρων

λείανσης των συναρτήσεων πυρήνων του ΠΝ∆. Για τον σκοπό αυτό χρησιµοποιείται

η ΒΣΣ και οι ∆ΕΑ και τα νέα µοντέλα καλούνται Εξελικτικά ΠΝ∆ (ΕΠΝ∆).

Στο Κεφάλαιο 5 παρουσιάζεται µια σειρά ϐελτιώσεων των ΕΠΝ∆ ως προς την από-

δοση αλλά και τον απαιτούµενο χρόνο εκπαίδευσης των. Χρησιµοποιώντας µεθόδους

οµαδοποίησης (clustering) χωρίς επίβλεψη, κατασκευάζουµε ένα Βελτιωµένο ΕΠΝ∆

(ΒΕΠΝ∆) το οποίο απαιτεί πολύ µικρότερο χρόνο εκπαίδευσης. Για την περαιτέρω

ϐελτίωση του ΕΠΝ∆ χρησιµοποιείται η τεχνική bagging και επιπλέον επιτρέπουµε σε

κάθε κλάση δεδοµένων να έχει διαφορετικές παραµέτρους λείανσης στους πυρήνες

των ΠΝ∆.

Το Κεφάλαιο 6 παρέχει αρχικά µια σύντοµη περίληψη των ϐασικών εννοιών της

Μπεϋζιανής Ανάλυσης. Στη συνέχεια, προτείνεται ένα Μπεϋζιανό µοντέλο για την

εκτίµηση των παραµέτρων λείανσης των ΠΝ∆ η οποία επιτυγχάνεται µέσω του ∆ειγ-

Page 7: noimosini sminous

vi

µατολήπτη Gibbs. Το προαναφερθέν µοντέλο ενσωµατώνεται στα ΠΝ∆ και ΕΠΝ∆,

προτείνοντας µια κλάση µοντέλων τα οποία καλούνται Μπεϋζιανά ΠΝ∆ (ΜΠΝ∆). Τέ-

λος, µελετάται και η χρήση του πυρήνα του Epanechnikov στα ΠΝ∆ εκτός από τον

πυρήνα κανονικής κατανοµής

Το πρώτο µέρος του Κεφαλαίου 7 παρέχει µια σύντοµη εισαγωγή στη ϑεωρία

των Ασαφών Συνόλων. Αρχικά, χρησιµοποιούµε µια Ασαφή Συνάρτηση Συµµετοχής

χρησιµοποιείται για την περαιτέρω ϐελτίωση της απόδοσης των ΕΠΝ∆ σε προβλήµατα

ταξινόµησης δύο κλάσεων και το µοντέλο που προκύπτει καλείται Ασαφές ΕΠΝ∆

(ΑΕΠΝ∆). Επιπρόσθετα, προτείνεται ένας αλγόριθµος διάσπασης ενός προβλήµατος

πολλαπλών κλάσεων σε προβλήµατα δύο κλάσεων έτσι ώστε να µπορεί να εφαρµοστεί

το ΑΕΠΝ∆ και σε τέτοιου είδους προβλήµατα.

Η παρουσίαση της διατριβής ολοκληρώνεται µε το Κεφάλαιο 8 και το Παράρτηµα

Α. Στο Κεφάλαιο 8 παρουσιάζεται η σύγκριση των νέων µοντέλων ταξινόµησης µεταξύ

τους. Επίσης, τα προτεινόµενα µοντέλα συγκρίνονται και µε τα µοντέλα άλλων ερευ-

νητών που έχουν πετύχει τα καλύτερα αποτελέσµατα στα συγκεκριµένα προβλήµατα

ταξινόµησης. Το Παράρτηµα Α περιέχει µια σύντοµη περιγραφή των προβληµάτων

ταξινόµησης και των δεδοµένων που χρησιµοποιήθηκαν στην παρούσα διατριβή, για

τη σύγκριση των προτεινόµενων µοντέλων.

Page 8: noimosini sminous

Synopsis

The present thesis is dealing with the study and the development of classifica­

tion models that are based on Probabilistic Neural Networks (PNN). The proposed

models were developed by the incorportation of statistical methods as well as

methods from several fields of Computational Intelligence (CI) into PNNs. The

presentation of the subjects and the results of the dissertation is organized as

follows:

In Chapter 1 the required theoretical elements of the statistical decision theory

in classification tasks is presented. Moreover, a summary of the most common

decision rules and discriminant functions is provided.

Chapter 2 is devoted in the presentation of the concepts that consist CI. Special

credit is given to the optimization methods of CI and especially to Particle Swarm

Optimization (PSO) and Differential Evolution Algorithms (DEA). Furthermore,

Artificial Neural Networks are briefly presented and a thorough presentation about

PNNs is provided regarding the structure, the operation, the usefulness and their

various applications. Several known variants of PNNs are also exhibited.

Chapter 3 provides a brief description of the typical resampling methods that

are necessary for machine learning classification problems. Moreover, the requi­

red methodology for the statistical comparisons of classification algorithms on one

or several application tasks is presented.

In Chapter 4 a novel class of classification models that comprise variants of

PNNs is proposed. In particular, evolutionary optimization algorithms are incor­

porated into PNN for the pursuit of promising values for the spread parameters of

its kernel functions. For this purpose, PSO and DEA are employed and the new

models are named Evolutionary PNNs (EPNN).

In the next chapter, a list of improvements for EPNNs is proposed regarding

their performance and required training time. Using unsupervised clustering me­

thods, a new Improved EPNN (IEPNN) is constructed that requires much shorter

training time. For further improvement of EPNN’s performance, the bagging tech­

nique is also employed. Moreover, a different spread parameters’ matrix of PNNs’

kernels is used for every class of the available data.

In Chapter 6 a brief summary of the fundamental concepts of Bayesian A­

nalysis is provided. Afterwards, a Bayesian model is proposed for the estimation

of PNN’s spread parameters where the estimation is achieved by Gibbs sampler.

The aforementioned model is incorporated into PNNs and EPNNs, proposing a new

class of models that are named Bayesian PNNs (BPNN). Moreover, we study the

Page 9: noimosini sminous

viii

use of Epanechnikov’s kernel function besides the normal kernel.

In the first part of Chapter 7 a short review on the theory of Fuzzy Sets is

provided. A Fuzzy Membership Function is employed for the further improvement

of EPNN’s performance in binary classification tasks and the proposed model

is named Fuzzy EPNN (FEPNN). Furthermore, we propose a new decomposition

algorithm that converts multi–class classification problems into multiple binary

classification ones. Utilizing this algorithm, FEPNNs can also be applied on multi–

class classification problems.

This dissertation is completed with Chapter 8 and Appendix A. In the last

chapter, a comparison between all the novel models takes place. Moreover, the

proposed models are compared to the model that has achieved the greatest per­

formance ever for each classification problem. In Appendix A, we provide a short

description of all the classification problems that were used in this thesis for the

evaluation of the proposed models.

Page 10: noimosini sminous

Ευχαριστίες

Η παρούσα διατριβή δεν ϑα µπορούσε να εκπονηθεί χωρίς τη ϐοήθεια και την συµ-

παράσταση αρκετών ανθρώπων. Αισθάνοµαι πρωτίστως την ανάγκη να ευχαριστήσω

ϑερµά τον ∆άσκαλό µου, κ. Φ.∆. Αλεβίζο, Επίκουρο Καθηγητή του Τµήµατος Μα-

ϑηµατικών του Πανεπιστηµίου Πατρών, στον οποίο οφείλεται κατά ένα πολύ µεγάλο

ϐαθµό η υλοποίηση της παρούσας διατριβής. Ευχαριστώ ϑερµά το µέλος της τρι-

µελούς συµβουλευτικής µου επιτροπής κ. Μ.Ν. Βραχάτη, Καθηγητή του Τµήµατος

Μαθηµατικών του Πανεπιστηµίου Πατρών, του οποίου η συµβολή στην υλοποίηση

της διατριβής υπήρξε καθοριστική. Η ουσιαστική καθοδήγηση και των δύο στο ξεπέ-

ϱασµα των ποικίλων δυσκολιών που συνάντησα κατά τη διάρκεια της έρευνάς µου, οι

πολύτιµες συµβουλές και υποδείξεις τους και η ηθική τους συµπαράσταση, µε ϐοή-

ϑησαν τα µέγιστα. Ευχαριστώ επίσης ϑερµά και το τρίτο µέλος της επιτροπής µου κ.

∆.Α. Ιωαννίδη, Καθηγητή του Τµήµατος Οικονοµικών Επιστηµών του Πανεπιστηµίου

Μακεδονίας, για τις υποδείξεις του και τις συµβουλές του.

Κατά τη διάρκεια της εκπόνησης της διατριβής µου είχα τη χαρά και την τιµή να

συνεργαστώ µε τον λέκτορα κ. Κ.Ε. Παρσόπουλο και τον ∆ρ. κ. Ν.Γ. Παυλίδη του

Τµήµατος Μαθηµατικών του Πανεπιστηµίου Πατρών, τους οποίους και ευχαριστώ

ιδιαιτέρως. Τέλος, αισθάνοµαι την υποχρέωση και την ανάγκη να ευχαριστήσω την

υποψήφια διδάκτορα του Τµήµατος Στατιστικής και Ασφαλιστικής Επιστήµης του

Πανεπιστηµίου Πειραιώς κ. Σόνια Μαλεφάκη για τη συνολική συµβολή της στη

υλοποίηση της παρούσας διατριβής.

Βασίλειος Λ. Γεωργίου

Πάτρα, 2008.

Page 11: noimosini sminous

x

Page 12: noimosini sminous

Περιεχόµενα

Περίληψη v

Synopsis vii

Ευχαριστίες ix

Κατάλογος Συντοµέυσεων xix

I Εισαγωγή και Βασικές ΄Εννοιες 1

1 Βασικές ΄Εννοιες Κανόνων Ταξινόµησης 3

1.1 Εισαγωγή . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 Στατιστική Θεωρία Αποφάσεων σε Προβλήµατα Ταξινόµησης . . . . . 3

1.2.1 Ελαχιστοποίηση του αναµενόµενου ϱυθµού σφαλµάτων . . . . 4

1.2.2 Αµφιβολία . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.2.3 Εξωκείµενα σηµεία (outliers) . . . . . . . . . . . . . . . . . . 6

1.3 Κανόνες Ταξινόµησης . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3.1 Γενικοί Κανόνες Ταξινόµησης . . . . . . . . . . . . . . . . . . 6

1.3.2 Κανόνες Ταξινόµησης ϐασισµένοι στην Κανονικότητα . . . . . 8

1.3.3 Συναρτήσεις ∆ιαχωρισµού . . . . . . . . . . . . . . . . . . . 10

2 Βασικές ΄Εννοιες Υπολογιστικής Νοηµοσύνης 13

2.1 Εισαγωγή στην Υπολογιστική Νοηµοσύνη . . . . . . . . . . . . . . . 13

2.2 Εισαγωγή στη Βελτιστοποίηση . . . . . . . . . . . . . . . . . . . . . 14

2.3 Εξελικτικός Υπολογισµός . . . . . . . . . . . . . . . . . . . . . . . . 15

2.3.1 ∆ιαφορική Εξέλιξη . . . . . . . . . . . . . . . . . . . . . . . 18

2.4 Νοηµοσύνη Σµηνών . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.4.1 Βελτιστοποίηση µε Σµήνος Σωµατιδίων . . . . . . . . . . . . 21

2.5 Τεχνητά Νευρωνικά ∆ίκτυα . . . . . . . . . . . . . . . . . . . . . . . 26

2.6 Πιθανοτικά Νευρωνικά ∆ίκτυα . . . . . . . . . . . . . . . . . . . . . 28

2.6.1 ∆οµή και Λειτουργία . . . . . . . . . . . . . . . . . . . . . . 29

2.6.2 Χρησιµότητα . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.6.3 Περιορισµοί . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.6.4 Εφαρµογές–Παραλλαγές . . . . . . . . . . . . . . . . . . . . 32

Page 13: noimosini sminous

xii

3 Πειραµατική Μεθοδολογία 37

3.1 Εισαγωγή . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.2 Μέθοδοι Επαναδειγµατοληψίας . . . . . . . . . . . . . . . . . . . . 38

3.2.1 M–fold Cross–Validation . . . . . . . . . . . . . . . . . . . . 39

3.2.2 Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.3 ΄Ελεγχοι Υποθέσεων σε ένα πεδίο εφαρµογής . . . . . . . . . . . . . 40

3.3.1 ΄Ελεγχος McNemar . . . . . . . . . . . . . . . . . . . . . . . 40

3.3.2 Απλός και διορθωµένος έλεγχος t για επαναδειγµατοληψία . . 41

3.3.3 ΄Ελεγχος t για M–CV . . . . . . . . . . . . . . . . . . . . . . 41

3.3.4 ΄Ελεγχος Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . 44

3.4 ΄Ελεγχοι υποθέσεων σε πολλαπλά πεδία εφαρµογών . . . . . . . . . 45

3.4.1 Σύγκριση δύο αλγορίθµων ταξινόµησης . . . . . . . . . . . . 46

3.4.2 Σύγκριση πολλαπλών αλγόριθµων ταξινόµησης . . . . . . . . 46

II Προτεινόµενα Μοντέλα Ταξινόµησης 51

4 Εξελικτικά Πιθανοτικά Νευρωνικά ∆ίκτυα 53

4.1 Εισαγωγή . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

4.2 Προτεινόµενα Σχήµατα . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.2.1 Εξελικτικά ΠΝ∆ µε χρήση ΒΣΣ . . . . . . . . . . . . . . . . . 55

4.2.2 ∆ιαφοροεξελικτικά ΠΝ∆ . . . . . . . . . . . . . . . . . . . . . 58

4.3 Πειραµατικά Αποτελέσµατα . . . . . . . . . . . . . . . . . . . . . . 60

4.3.1 Αποτελέσµατα των ΕΠΝ∆ ΒΣΣ . . . . . . . . . . . . . . . . . 60

4.3.2 Αποτελέσµατα των ∆ΕΠΝ∆ . . . . . . . . . . . . . . . . . . . 62

4.4 Συµπεράσµατα . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.5 Συνεισφορά . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

5 Βελτιωµένα Εξελικτικά Πιθανοτικά Νευρωνικά ∆ίκτυα 73

5.1 Εισαγωγή . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

5.2 Τεχνική Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

5.3 Νέες προτάσεις για ϐελτίωση του ΕΠΝ∆ . . . . . . . . . . . . . . . . 74

5.3.1 Οµαδοποίηση του συνόλου εκπαίδευσης . . . . . . . . . . . . 74

5.3.2 Επέκταση του πίνακα των παραµέτρων λείανσης σε κάθε κλάση 75

5.3.3 Στάθµιση ΤΝ προτύπων µε ΒΣΣ . . . . . . . . . . . . . . . . 76

5.4 Προτεινόµενο Σχήµα . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.5 Πειραµατικά Αποτελέσµατα . . . . . . . . . . . . . . . . . . . . . . 78

5.6 Συµπεράσµατα . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

5.7 Συνεισφορά . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

6 Μπεϋζιανά Πιθανοτικά Νευρωνικά ∆ίκτυα 85

6.1 Εισαγωγή . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

6.2 Εισαγωγή στη Μπεϋζιανή Ανάλυση . . . . . . . . . . . . . . . . . . 85

Page 14: noimosini sminous

xiii

6.2.1 Θεώρηµα του Bayes . . . . . . . . . . . . . . . . . . . . . . . 85

6.2.2 Εισαγωγή στη µεθοδολογία MCMC . . . . . . . . . . . . . . . 87

6.3 Προτεινόµενη προσέγγιση . . . . . . . . . . . . . . . . . . . . . . . 88

6.3.1 Προτεινόµενο Μπεϋζιανό Μοντέλο . . . . . . . . . . . . . . . 88

6.3.2 Προτεινόµενα Σχήµατα . . . . . . . . . . . . . . . . . . . . . 89

6.4 Πειραµατικά Αποτελέσµατα . . . . . . . . . . . . . . . . . . . . . . 91

6.5 Συµπεράσµατα . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

6.6 Συνεισφορά . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

7 Ασαφή Εξελικτικά Πιθανοτικά Νευρωνικά ∆ίκτυα 99

7.1 Εισαγωγή . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

7.2 Ασαφής Λογική . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

7.2.1 Εισαγωγή . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

7.2.2 Ασαφή Σύνολα . . . . . . . . . . . . . . . . . . . . . . . . . . 100

7.2.3 Εφαρµογές της Ασαφούς Λογικής . . . . . . . . . . . . . . . 101

7.3 Προτεινόµενα Σχήµατα . . . . . . . . . . . . . . . . . . . . . . . . . 102

7.3.1 Προτεινόµενο Σχήµα για δυο κλάσεις . . . . . . . . . . . . . 102

7.3.2 Προτεινόµενο Σχήµα για παραπάνω από δυο κλάσεις . . . . . 105

7.4 Πειραµατικά Αποτελέσµατα . . . . . . . . . . . . . . . . . . . . . . 107

7.5 Συµπεράσµατα . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

7.6 Συνεισφορά . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

III Συµπεράσµατα – Παραρτήµατα – Βιβλιογραφία – Ευρετή-ϱιο 111

8 Συγκρίσεις–Συµπεράσµατα 113

8.1 Σύγκριση προτεινόµενων ΠΝ∆ . . . . . . . . . . . . . . . . . . . . . 113

8.2 Σύγκριση ΠΝ∆ µε ϐέλτιστα µοντέλα ταξινόµησης . . . . . . . . . . . 117

8.3 Συνεισφορά . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

Α Προβλήµατα Ταξινόµησης 121

Α.1 Cancer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

Α.2 Card . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

Α.3 Diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

Α.4 Glass . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

Α.5 Heart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

Α.6 Horse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

Βιβλιογραφία 125

Κατάλογος ∆ηµοσιεύσεων Υποψηφίου 135

Ευρετήριο 138

Page 15: noimosini sminous

xiv

Page 16: noimosini sminous

Κατάλογος Σχηµάτων

2.1 Ψευδοκώδικας λειτουργίας ενός ∆ΕΑ . . . . . . . . . . . . . . . . . 20

2.2 Τοπολογίες ενός σµήνους . . . . . . . . . . . . . . . . . . . . . . . 23

2.3 Ψευδοκώδικας λειτουργίας της ΒΣΣ µε Παράγοντα Περιορισµού . . 26

2.4 Βιολογικός Νευρώνας . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.5 Τεχνητός Νευρώνας . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.6 Τεχνητό Νευρωνικό ∆ίκτυο . . . . . . . . . . . . . . . . . . . . . . 29

2.7 Πιθανοτικό Νευρωνικό ∆ίκτυο . . . . . . . . . . . . . . . . . . . . . 30

3.1 ∆ιάγραµµα Κρίσιµης ∆ιαφοράς για έλεγχο Nemenyi . . . . . . . . . 49

3.2 ∆ιάγραµµα Κρίσιµης ∆ιαφοράς για έλεγχο Bonferroni–Dunn . . . . 50

4.1 Θηκογράµµατα των ΠΕ ελέγχου των ΕΠΝ∆ (Cancer, Card) . . . . . 69

4.2 Θηκογράµµατα των ΠΕ ελέγχου των ΕΠΝ∆ (Diabetes, Glass) . . . . 70

4.3 Θηκογράµµατα των ΠΕ ελέγχου των ΕΠΝ∆ (Heart, Horse) . . . . . . 71

5.1 Θηκογράµµατα των ΠΕ ελέγχου των ΒΕΠΝ∆ . . . . . . . . . . . . 82

6.1 Θηκογράµµατα των ΠΕ ελέγχου των Μπεϋζιανών ΠΝ∆ (Cancer, Card) 96

6.2 Θηκογράµµατα των ΠΕ ελέγχου των Μπεϋζιανών ΠΝ∆ (Diabetes, Glass) 97

6.3 Θηκογράµµατα των ΠΕ ελέγχου των Μπεϋζιανών ΠΝ∆ (Heart, Horse) 98

8.1 ∆ιάγραµµα Κρίσιµης ∆ιαφοράς για έλεγχο Nemenyi των ΠΕ ελέγχου 114

8.2 ∆ιάγραµµα Κρίσιµης ∆ιαφοράς για έλεγχο Nemenyi των χρόνων εκ-

παίδευσης . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

8.3 ∆ιάγραµµα διασποράς των µέσων κατατάξεων των ποσοστών επιτυχίας

και χρόνων εκπαίδευσης . . . . . . . . . . . . . . . . . . . . . . . 118

Page 17: noimosini sminous

xvi

Page 18: noimosini sminous

Κατάλογος Πινάκων

3.1 Παραλλαγές της εκτίµησης της διακύµανσης s2d για M–CV . . . . . 43

4.1 Ψευδοκώδικας Λειτουργίας ενός ΕΠΝ∆ µε ΒΣΣ . . . . . . . . . . . 58

4.2 Ψευδοκώδικας Λειτουργίας ενός ∆ΕΠΝ∆ . . . . . . . . . . . . . . . 60

4.3 Χαρακτηριστικά των προβληµάτων ταξινόµησης . . . . . . . . . . . 61

4.4 Ποσοστά Επιτυχίας στο σύνολο ελέγχου των ΕΠΝ∆ µε ΒΣΣ . . . . . 62

4.5 Χρόνος εκπαίδευσης των ΕΠΝ∆ µε ΒΣΣ . . . . . . . . . . . . . . . . 62

4.6 Ποσοστά Επιτυχίας στο σύνολο ελέγχου των ∆ΕΠΝ∆ (Cancer, Card,

Diabetes) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.7 Ποσοστά Επιτυχίας στο σύνολο ελέγχου των ∆ΕΠΝ∆ (Glass, Heart,

Horse) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

4.8 Χρόνος εκπαίδευσης των ∆ΕΠΝ∆ (Cancer, Card, Diabetes) (sec) . . 66

4.9 Χρόνος εκπαίδευσης των ∆ΕΠΝ∆ (Glass, Heart, Horse) (sec) . . . . 67

5.1 Ψευδοκώδικας Λειτουργίας ενός Βελτιωµένου ΕΠΝ∆ . . . . . . . . 78

5.2 Ποσοστά Επιτυχίας στο σύνολο ελέγχου των ΒΕΠΝ∆ . . . . . . . . 80

5.3 Χρόνοι εκπαίδευσης των ΒΕΠΝ∆ . . . . . . . . . . . . . . . . . . . 81

6.1 Ψευδοκώδικας εκτίµησης των παραµ. λείανσης µε το Μπεϋζιανό µο-

ντέλο. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

6.2 Ποσοστά Επιτυχίας στο σύνολο ελέγχου των Μπεϋζιανών ΠΝ∆ . . . . 94

6.3 Χρόνοι εκπαίδευσης (sec) των Μπεϋζιανών ΠΝ∆ . . . . . . . . . . . 95

7.1 Ψευδοκώδικας Λειτουργίας ενός ΑΕΠΝ∆ . . . . . . . . . . . . . . . 105

7.2 Προτεινόµενος αλγόριθµος διάσπασης πολλαπλών κλάσεων . . . . . 107

7.3 Ποσοστά επιτυχίας στο σύνολο ελέγχου των ΑΕΠΝ∆ για προβλήµατα

ταξινόµησης δύο κλάσεων. . . . . . . . . . . . . . . . . . . . . . . . 108

7.4 Ποσοστά επιτυχίας στο σύνολο ελέγχου των ΑΕΠΝ∆ για προβλήµατα

ταξινόµησης µε περισσότερες από δύο κλάσεις. . . . . . . . . . . . 108

7.5 Χρόνοι Εκπαίδευσης των ΑΕΠΝ∆ σε προβλήµατα ταξινόµησης µε δύο

κλάσεις (sec) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

7.6 Χρόνοι Εκπαίδευσης των ΑΕΠΝ∆ σε προβλήµατα ταξινόµησης µε πε-

ϱισσότερες από δύο κλάσεις (sec) . . . . . . . . . . . . . . . . . . . 109

8.1 Συγκεντρωτικός πίνακας των ΠΕ ελέγχου των προτεινόµενων µοντέλων

ταξινόµησης . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

Page 19: noimosini sminous

xviii

8.2 Συγκεντρωτικός πίνακας χρόνων εκπαίδευσης των προτεινόµενων µο-

ντέλων ταξινόµησης . . . . . . . . . . . . . . . . . . . . . . . . . . 117

8.3 ΠΕ ελέγχου των ϐέλτιστων και των προτεινόµενων µοντέλων ταξινόµησης120

Α.1 Συνοπτικά στοιχεία των συνόλων δεδοµένων . . . . . . . . . . . . . 121

Page 20: noimosini sminous

Κατάλογος Συντοµέυσεων

ANOVA Ανάλυση ∆ιακύµανσης (Analysis Of Variance)

Cl. Οµαδοποιηµένο (Clustered)

CV Cross–Validation

L–O–T Leave–One–Out

MCMC Markov Chain Monte Carlo

ΑΕΠΝ∆ Ασαφές Εξελικτικό Πιθανοτικό Νευρωνικό ∆ίκτυο

ΑΛ Ασαφής Λογική

ΑΠΕΤ Αναµενόµενο Ποσοστό Εσφαλµένης Ταξινόµησης

ΑΣ Ασαφή Σύνολα

ΑΣΣ Ασαφής Συνάρτηση Συµµετοχής

ΑΣΤ Αριθµός Σωστών Ταξινοµήσεων

ΒΑΜ Βελτιστοποίηση µε Αποικία Μυρµηγκιών

ΒΕΠΝ∆ Βελτιωµένο Εξελικτικό Πιθανοτικό Νευρωνικό ∆ίκτυο

ΒΣΣ Βελτιστοποίηση µε Σµήνος Σωµατιδίων

ΓΑ Γενετικός Αλγόριθµος

Γ∆Σ Γραµµική ∆ιαχωριστική Συνάρτηση

Γκ. Πυρήνας Κανονικής Κατανοµής (Γκαουσιανός)

∆Ε ∆ιαφορική Εξέλιξη

∆ΕΑ ∆ιαφοροεξελικτικός Αλγόριθµος

∆ΕΠΝ∆ ∆ιαφοροεξελικτικό Πιθανοτικό Νευρωνικό ∆ίκτυο

∆Κ∆ ∆ιάγραµµα Κρίσιµης ∆ιαφοράς

ΕΑ Εξελικτικός Αλγόριθµος

ΕΜΠΝ∆ Εξελικτικό Μπεϋζιανό Πιθανοτικό Νευρωνικό ∆ίκτυο

ΕΠΝ∆ Εξελικτικό Πιθανοτικό Νευρωνικό ∆ίκτυο

Επ. Epanechnikov

ΕΣ Εξελικτική Στάθµιση

Ετ. Ετεροσκεδαστικό

ΕΥ Εξελικτικός Υπολογισµός

ΜΠΝ∆ Μπεϋζιανό Πιθανοτικό Νευρωνικό ∆ίκτυο

Ν∆ΣΑΒ Νευρωνικό ∆ίκτυο µε Συνάρτηση Ακτινωτής Βάσης

ΝΣ Νοηµοσύνη Σµηνών

Οµ. Οµοσκεδαστικό

ΠΕ Ποσοστό Επιτυχίας

ΠΕΤ Ποσοστό Εσφαλµένης Ταξινόµησης

ΠΝ∆ Πιθανοτικό Νευρωνικό ∆ίκτυο

Page 21: noimosini sminous

xx

Σ∆ Σχήµα ∆ιάσπασης

Τ∆Σ Τετραγωνική ∆ιαχωριστική Συνάρτηση

ΤΝ Τεχνητός Νευρώνας

ΤΝ∆ Τεχνητό Νευρωνικό ∆ίκτυο

ΥΝ Υπολογιστική Νοηµοσύνη

Page 22: noimosini sminous

Μέρος I

Εισαγωγή και Βασικές ΄Εννοιες

Page 23: noimosini sminous
Page 24: noimosini sminous

Κ Ε Φ Α Λ Α Ι Ο 1

Βασικές ΄Εννοιες Κανόνων Ταξινόµησης

Επιστήµη είναι η αλήθεια

που ϐρίσκεται µε τη ϐοήθεια της λογικής.

—Victor Hugo (1802 – 1885)

1.1 Εισαγωγή

Στην ενότητα αυτή, ϑα παρουσιάσουµε το ϐασικό πλαίσιο εργασίας της Στατιστι-

κής Θεωρίας Αποφάσεων σε προβλήµατα ταξινόµησης µε προκαθορισµένο πλήθος

κλάσεων.

1.2 Στατιστική Θεωρία Αποφάσεων σε Προβλήµατα

Ταξινόµησης

΄Εστω ένας πληθυσµός αντικειµένων (ή ατόµων) τα οποία ταξινοµούνται σε K

κλάσεις. Το πλήθος K των κλάσεων ϑεωρείται προκαθορισµένο και σταθερό. Για

κάθε αντικείµενο διαθέτουµε p µετρήσεις σε ισάριθµες µεταβλητές, οι οποίες απαρ-

τίζουν το διάνυσµα των χαρακτηριστικών του, x = [x1, x2, . . . , xp]⊤, που είναι η τιµή

του τυχαίου διανύσµατος X = [X1, X2, . . . , Xp]⊤ στο αντικείµενο αυτό. Τα διανύ-

σµατα των χαρακτηριστικών όλων των αντικειµένων ανήκουν σε ένα κατάλληλο χώρο

χαρακτηριστικών X που είναι υποσύνολο του Rp.

Ορίζουµε ως εκ των προτέρων πιθανότητα πk την αναλογία της κλάσης k, k =

1, 2, . . . , K, στον υπό µελέτη πληθυσµό και η οποία δεν είναι πάντοτε γνωστή. ΄Εστω

επίσης fk(x) η συνάρτηση πυκνότητας πιθανότητας του X στον πληθυσµό της κλάσης

k και f(x) η συνάρτηση πυκνότητας πιθανότητας του X σε όλο τον πληθυσµό.

Στόχος µας είναι, ϐασιζόµενοι στην παρατηρούµενη τιµή X = x του κάθε αν-

τικειµένου, να το ταξινοµήσουµε σε µια από τις K κλάσεις. Αν έχουµε αµφιβολία,

µπορούµε να αποφανθούµε ότι το αντικείµενο ταξινοµείται σε µια νέα κλάση D που

δηλώνει ότι η απόφαση είναι αµφισβητήσιµη και ϑα πρέπει να αναβληθεί η απάντη-

ση έως ότου π.χ. συλλεχθούν περισσότερα στοιχεία. Τέλος, ϑεωρούµε και την νέα

Page 25: noimosini sminous

4 Βασικές ΄Εννοιες Κανόνων Ταξινόµησης

κλάση O που υποδηλώνει την ύπαρξη εξωκείµενου σηµείου (outlier) για το οποίο

είναι προφανές ότι δεν ανήκει σε καµία από τις K προκαθορισµένες κλάσεις.

Θα κατασκευάσουµε λοιπόν κανόνες (µοντέλα) ταξινόµησης, οι οποίοι ϑα µας

ϐοηθήσουν να καταλήξουµε σε µια από τις K + 2 δυνατές αποφάσεις. ΄Εστω C η

ετικέτα της κλάσης που ανήκει ένα διάνυσµα χαρακτηριστικών x, δηλαδή C = k

µε πιθανότητα πk. Ορίζουµε ως ταξινοµητή (classifier) µια συνάρτηση c : X →1, 2, . . . , K,D ϑεωρώντας ότι δεν υπάρχουν εξωκείµενα σηµεία. Για να αποτιµή-

σουµε την αποδοτικότητα µιας τέτοιας διαδικασίας, ορίζουµε κάποια κριτήρια που

πρέπει να ικανοποιεί, όπως για παράδειγµα ένα κριτήριο που να σχετίζεται µε τις

πιθανότητες εσφαλµένης ταξινόµησης στο σύνολο των κλάσεων,

pmc(k) = P (c(x) 6= k, c(x) ∈ 1, 2, . . . , K|C = k) , (1.1)

και τις πιθανότητες αµφίβολης ταξινόµησης

pd(k) = P (c(x) = D|C = k) . (1.2)

1.2.1 Ελαχιστοποίηση του αναµενόµενου ϱυθµού σφαλµάτων

Ο συνηθισµένος τρόπος για την τυποποίηση ενός κριτηρίου επιτυχίας είναι µέσω

µιας συνάρτησης Ϲηµίας (loss function). ΄Εστω L(k, l) µια συνάρτηση Ϲηµίας και

Ckl > 0 το κόστος που προκύπτει αν πάρουµε την απόφαση l ενώ η πραγµατική

κλάση από την οποία προέρχεται το διάνυσµα χαρακτηριστικών x είναι C = k.

Επίσης, ορίζουµε L(k, k) = 0 και L(k,D) = d, για k = 1, 2, . . . , K. ∆ηλαδή µια

συνάρτηση Ϲηµίας ϑα ήταν,

L(k, l) =

0, αν l = k (σωστή απόφαση),

Ckl, αν l 6= k και l ∈ 1, 2, . . . , K (λανθασµένη απόφαση),

d, αν l = D (αµφιβολία),

(1.3)

για k = 1, 2, . . . , K και l = 1, 2, . . . , K,D. Εάν κάθε εσφαλµένη ταξινόµηση είναι

εξίσου σοβαρή δηλαδή έχει το ίδιο κόστος τότε,

L(k, l) =

0, αν l = k (σωστή απόφαση),

1, αν l 6= k και l ∈ 1, 2, . . . , K (λανθασµένη απόφαση),

d, αν l = D (αµφιβολία).

(1.4)

Η παραπάνω µορφή χρησιµοποιείται όταν δεν υπάρχει άλλος τρόπος να ορίσου-

µε µε µεγαλύτερη ακρίβεια το κόστος. Ωστόσο ϑα πρέπει να επισηµάνουµε ότι η

χρήση της µπορεί να προκαλέσει δυσκολίες ή να γίνει ακόµα και επικίνδυνη όταν

δεν προσαρµόζεται κατάλληλα στο κάθε πρόβληµα. Για παράδειγµα το κόστος της

αποτυχίας της αναγνώρισης µιας σοβαρής ασθένειας είναι συνήθως πολύ µεγαλύτερο

από την εσφαλµένη αναγνώρισή της.

Η συνάρτηση κινδύνου (risk function) του ταξινοµητή είναι η αναµενόµενη Ϲηµία

Page 26: noimosini sminous

1.2 Στατιστική Θεωρία Αποφάσεων σε Προβλήµατα Ταξινόµησης 5

αν τη ϑεωρήσουµε ως µια συνάρτηση της άγνωστης κλάσης k,

R(c, k) = E[L(k, c(x))|C = k]

=K∑

l=1

L(k, l)P (c(x) = l|C = k) + L(k,D)P (c(x) = D|C = k)

= pmc(k) + d pd(k). (1.5)

Ο συνολικός κίνδυνος (total risk) είναι η συνολική αναµενόµενη Ϲηµία, ϑεωρώντας

την κλάση C ως τυχαία µεταβλητή, δηλαδή

R(c) = E [R(c, C)] =K∑

k=1

πkpmc(k) + dK∑

k=1

πkpd(k). (1.6)

Με άλλα λόγια, ο συνολικός κίνδυνος είναι το άθροισµα της συνολικής πιθανό-

τητας εσφαλµένης ταξινόµησης συν τη συνολική πιθανότητα αµφιβολίας πολλαπλα-

σιασµένη µε το κόστος αµφιβολίας d.

Τέλος, ορίζουµε ως εκ των υστέρων πιθανότητα της κλάσης k δοθέντος ότι X = x,

την ποσότητα,

P (k|x) = P (C = k|X = x) =πkP (x|k)

∑Kl=1 πlP (x|l)

. (1.7)

Πρόταση 1.1 Ο κανόνας ταξινόµησης που ελαχιστοποιεί τον συνολικό κίνδυνο, υπό

την συνάρτηση Ϲηµίας (1.4) είναι,

c(x) =

k, αν P (k|x) = max1≤l≤K

(P (l|x)) και P (k|x) > 1− d,

D, αν κάθε P (k|x) ≤ 1− d,(1.8)

και για µια γενική συνάρτηση Ϲηµίας

c(x) =

k, αν αυτό επιτυγχάνει min1≤l≤K

j L(j, l)P (j|x) < d,

D, αλλιώς.(1.9)

∆ηλαδή, υπό την συνάρτηση Ϲηµίας (1.4), ο ϐέλτιστος κανόνας είναι να επιλέξουµε

την κλάση µε το µέγιστο γινόµενο πkP (x|k) εφόσον αυτό ξεπερνά το (1−d)P (x), όπου

P (x) =∑K

l=1 πlP (x|l). ΄Οταν δύο ή περισσότερες κλάσεις έχουν την ίδια µέγιστη τιµή

P (k|x), τότε η επιλογή της κλάσης γίνεται αυθαίρετα. Ο ταξινοµητής αυτός καλείται

και κανόνας Bayes. Η τιµή R(c) του συνολικού κινδύνου για τον κανόνα Bayes

καλείται κίνδυνος Bayes. Η τιµή αυτή είναι η καλύτερη που µπορεί να επιτευχθεί

εφόσον οι πk και P (x|k) = fk(x) είναι γνωστές. Επίσης χρησιµοποιείται και ως

µέτρο σύγκρισης για όλες τις άλλες διαδικασίες.

Page 27: noimosini sminous

6 Βασικές ΄Εννοιες Κανόνων Ταξινόµησης

1.2.2 Αµφιβολία

΄Οπως αναφέραµε παραπάνω η σταθερά d στην Εξ. (1.4) χρησιµοποιείται ως ένα

όριο ασφαλείας. Αυτό όµως εµπεριέχει κάποιους κινδύνους και απαιτεί ιδιαίτερη

προσοχή στον καθορισµό της, ο οποίος συνήθως γίνεται από τον χρήστη. Οι δυσκο-

λίες που δηµιουργούνται από µια περίπτωση αµφιβολίας πρέπει να συγκριθούν µε

την περίπτωση µιας εσφαλµένης ταξινόµησης. Η µέθοδος που συνιστάται είναι, να

δοκιµάσουµε διάφορες τιµές του d σε ένα σύνολο εκπαίδευσης και να εκτιµήσου-

µε τα ποσοστά εσφαλµένης ταξινόµησης και αµφιβολίας και έτσι να επιλέξουµε µια

κατάλληλη τιµή του d. Επίσης η γραφική παράσταση του ποσοστού εσφαλµένης

ταξινόµησης ως προς το d είναι συχνά πολύ χρήσιµη.

1.2.3 Εξωκείµενα σηµεία (outliers)

Αρχικά ϑα πρέπει να παρατηρήσουµε ότι το πλαίσιο εργασίας της ϑεωρίας απο-

ϕάσεων δεν ασχολείται ιδιαίτερα µε τα εξωκείµενα σηµεία. Υποτίθεται ότι το υπό

εξέταση πρόβληµα έχει οριστεί πλήρως ενώ τα εξωκείµενα σηµεία δείχνουν λανθα-

σµένες προδιαγραφές. ΄Ετσι ο πλέον απλοϊκός τρόπος είναι, να αναγνωρίσουµε τα

εξωκείµενα σηµεία και να τα ορίσουµε ως µια νέα ξεχωριστή κλάση την οποία κα-

λούµε κλάση 0. Προφανώς ϑα πρέπει να οριστεί η π0 και η πυκνότητα f0(x) της νέας

κλάσης. Αυτό όµως δεν είναι πάντα εφικτό γιατί δεν έχουµε πάντα την δυνατότητα

να συλλέξουµε ένα κατάλληλο σύνολο εκπαίδευσης που να µας δίνει τη δυνατότητα

να εκτιµήσουµε τις π0 και f0(x). Στην πιο συνηθισµένη περίπτωση τα σύνολα εκπαί-

δευσης συλλέγονται υπό αυστηρά καθορισµένες και περιοριστικές συνθήκες όπου

τα εξωκείµενα σηµεία είναι πολύ σπάνια και συνήθως διαγράφονται εντελώς από το

σύνολο. Θα πρέπει όµως να µην αγνοείται η περίπτωση των εξωκείµενων σηµείων

γιατί µπορεί να οδηγήσει σε εσφαλµένα αποτελέσµατα.

Μερικές ϕορές όµως η αναζήτηση για εξωκείµενα σηµεία είναι το ϐασικό ενδια-

ϕέρον ενός προβλήµατος ταξινόµησης, όπως για παράδειγµα στην ανίχνευση καρκι-

νικού ιστού σε µια µαστογραφία. Οι όγκοι είναι αρκετά σπάνιοι και έτσι αναζητούµε

ασυνήθιστο ιστό για περαιτέρω εξετάσεις.

1.3 Κανόνες Ταξινόµησης

1.3.1 Γενικοί Κανόνες Ταξινόµησης

Υποθέτουµε ότι έχουµε K δείγµατα µεγέθους nk, k = 1, 2, . . . , K, από K πλη-

ϑυσµούς όπου κάθε δείγµα αποτελείται από xik, i = 1, 2, . . . , nk, k = 1, 2, . . . , K,

p-διάστατες µετρήσεις, δηλαδή xik = [xik1, xik2, . . . , xikp]⊤. Με άλλα λόγια, κάθε

δείγµα αποτελείται από nk p–διάστατες παρατηρήσεις της οµάδας k από τις συνολι-

κά N διαθέσιµες παρατηρήσεις (N =∑K

k=1 nk). Χρησιµοποιώντας τα δεδοµένα αυτά,

ϑέλουµε να κατασκευάσουµε έναν κανόνα που ϑα µας ϐοηθήσει να αποφασίσουµε

σε ποια από τις K κλάσεις ϑα ταξινοµήσουµε µια νέα παρατήρηση µε διάνυσµα

Page 28: noimosini sminous

1.3 Κανόνες Ταξινόµησης 7

χαρακτηριστικών x = [x1, x2, . . . , xp]⊤. Στην παρούσα ϕάση ϑα αγνοήσουµε την

περίπτωση αµφίβολης ταξινόµησης.

Θεωρούµε ότι οι K πληθυσµοί έχουν συναρτήσεις πυκνότητας πιθανότητας της

ίδιας µορφής (π.χ. είναι όλες πολυδιάστατες κανονικές κατανοµές). ΄Εστω fk(x) η

πυκνότητα πιθανότητας της κατανοµής κάθε πληθυσµού k, τότε ο κανόνας µέγιστης

πιθανοφάνειας ταξινοµεί µια νέα παρατήρηση x στον πληθυσµό k αν η πιθανοφάνεια

του διανύσµατος χαρακτηριστικών της είναι µεγαλύτερη για τον πληθυσµό k από

οποιονδήποτε άλλον. ∆ηλαδή,

Ταξινόµησε τη νέα παρατήρηση x στον πληθυσµό k

αν fk(x) > fk′(x) για k′ 6= k, k, k′ = 1, 2, . . . , K.

Αν ϑεωρήσουµε τώρα την εκ των υστέρων πιθανότητα P (k|x), δηλαδή την πι-

ϑανότητα µια νέα παρατήρηση να ανήκει σε µια κλάση k δοθέντος ότι έχει ένα

συγκεκριµένο διάνυσµα χαρακτηριστικών x, παίρνουµε µια ισοδύναµη µορφή του

παραπάνω κανόνα ταξινόµησης,

Ταξινόµησε τη νέα παρατήρηση x στον πληθυσµό k

αν P (k|x) > P (k′|x) για k′ 6= k, k, k′ = 1, 2, . . . , K.

Από τον τύπο του Bayes έχουµε,

P (k|x) =πkP (x|k)

∑Kl=1 πlP (x|l)

=πkfk(x)

∑Kl=1 πlfl(x)

. (1.10)

Επειδή ο παρονοµαστής είναι σταθερός για κάθε διάνυσµα χαρακτηριστικών x, ο

τελευταίος κανόνας ταξινόµησης ϐασίζεται µόνο στις τιµές του αριθµητή πkP (x|k).

Οι τιµές αυτές καλούνται ϐαθµολογίες διαχωρισµού (discriminant scores).

Παρατηρούµε ότι ο ϱόλος των εκ των υστέρων πιθανοτήτων είναι ϐασικός και η

προσπάθειά µας για την κατασκευή µοντέλων ταξινόµησης εστιάζεται στο να ϐρού-

µε τρόπους εκτίµησης ή προσέγγισης των πιθανοτήτων αυτών χρησιµοποιόντας ένα

σύνολο εκπαίδευσης (training set). Γενικά µπορούµε να πούµε ότι υπάρχουν τρεις

προσεγγίσεις :

• Η πρώτη προσέγγιση είναι να καθορίσουµε ένα µοντέλο ϑεωρητικής κατανο-

µής πιθανότητας, να υποθέσουµε ότι τα δεδοµένα µας προσαρµόζονται στο

µοντέλο αυτό, να εκτιµήσουµε τις παραµέτρους του µοντέλου χρησιµοποιών-

τας τα δεδοµένα και να κατασκευάσουµε ένα κανόνα χρησιµοποιώντας αυτές

τις εκτιµήσεις.

• Η δεύτερη προσέγγιση είναι να εκτιµήσουµε τις τιµές των πυκνοτήτων πιθανό-

τητας απ΄ ευθείας από τα δεδοµένα χωρίς κανένα καθορισµό µοντέλου εκ των

προτέρων και να κατασκευάσουµε ένα κανόνα χρησιµοποιώντας τις εκτιµήσεις

αυτές.

Page 29: noimosini sminous

8 Βασικές ΄Εννοιες Κανόνων Ταξινόµησης

• Μια τρίτη προσέγγιση είναι ένα είδος συνδυασµού των δυο παραπάνω. Στην

περίπτωση αυτή χρησιµοποιείται ένα Μπεϋζιανό πλαίσιο εργασίας για την εκτί-

µηση των πυκνοτήτων για ένα συγκεκριµένο µοντέλο δοθέντων των διαθέσιµων

δεδοµένων.

1.3.2 Κανόνες Ταξινόµησης ϐασισµένοι στην Κανονικότητα

Στην ενότητα αυτή ϑα ασχοληθούµε κυρίως µε την πρώτη περίπτωση όπου το

υπό εξέταση µοντέλο ϑα ϐασίζεται στην κανονική κατανοµή. ΄Εστω η οικογένεια των

p-διάστατων συναρτήσεων πυκνότητας πιθανότητας της κανονικής κατανοµής που

ορίζονται,

fk(x) =1

(2π)p/2|Σk|1/2exp

[

−1

2(x− µk)

⊤Σ

−1k (x− µk)

]

, k = 1, 2, . . . , K, (1.11)

όπου Σk είναι ο p × p πίνακας συνδιακύµανσης του τυχαίου διανύσµατος X =

[X1, X2, . . . , Xp]⊤ στο εσωτερικό του πληθυσµού k, και µk είναι το p×1 διάνυσµα που

εκφράζει τη µέση τιµή του X στον πληθυσµό k. Μπορούµε να παρατηρήσουµε ότι

το εκθετικό κοµµάτι (x−µk)⊤Σ

−1k (x−µk) υποδηλώνει το τετράγωνο της απόστασης

του σηµείου x, που αναπαριστά το διάνυσµα χαρακτηριστικών ενός ατόµου, από

το σηµείο µk που αναπαριστά το κέντρο του πληθυσµού k. Επειδή οι τιµές των

παραµέτρων του µοντέλου είναι συνήθως άγνωστες, εισάγουµε τις εκτιµήσεις των µk

και Σk στην Εξ. (1.11). Οπότε ϑα έχουµε,

fk(x) =1

(2π)p/2|Sk|1/2exp

[

−1

2(x− xk)

⊤S−1k (x− xk)

]

, k = 1, 2, . . . , K, (1.12)

όπου Sk είναι ο p× p πίνακας συνδιακύµανσης στο δείγµα που προέρχεται από τον

πληθυσµό k και xk είναι το p×1 διάνυσµα µέσων του ιδίου δείγµατος. Η δειγµατική

τετραγωνική απόσταση Mahalanobis µεταξύ του διανύσµατος χαρακτηριστικών x

ενός ατόµου και του κέντρου xk του δείγµατος k έχει την ακόλουθη µορφή,

D2k = (x− xk)

⊤S−1k (x− xk) , k = 1, 2, . . . , K.

Η σχέση (1.12) γίνεται,

fk(x) =1

(2π)p/2|Sk|1/2exp

[

−1

2D2

k

]

, (1.13)

και, από τη σχέση (1.10), έχουµε τις εκτιµήσεις των εκ των υστέρων πιθανοτήτων για

κανονικούς κανόνες,

P (k|x) =πk · |Sk|1/2 exp

[

−12D2

k

]

∑Kl=1 πl · |Sl|1/2 exp

[

−12D2

l

] . (1.14)

Στην ειδική περίπτωση όπου υποθέτουµε ότι οι K πληθυσµοί έχουν ίσους πίνακες

Page 30: noimosini sminous

1.3 Κανόνες Ταξινόµησης 9

συνδιακύµανσης δηλαδή

Σ1 = Σ2 = · · · = ΣK = Σ .

τότε ϑα χρησιµοποιήσουµε τον από κοινού (pooled) δειγµατικό πίνακα συνδιακύ-

µανσης Sp ως εκτιµητή του Σ ,

Sp =1

n1 + n2 + · · ·+ nK −K[(n1 − 1)S1 + (n2 − 1)S2 + · · ·+ (nK −K)SK ] .

΄Οπως αναφέραµε παραπάνω, υποθέτουµε ότι ο πίνακας συνδιακύµανσης των

κλάσεων είναι κοινός. ΄Ενας τρόπος εξέτασης της παραπάνω υπόθεσης είναι ο έλεγ-

χος οµοιογένειας του Bartlett. Θα πρέπει να τονίσουµε ότι η µηδενική υπόθεση

απορρίπτεται πολύ εύκολα αν τα δεδοµένα δεν ακολουθούν πολυδιάστατη κανονική

κατανοµή και γι΄ αυτό ϑα πρέπει να χρησιµοποιείται µε µεγάλη προσοχή. Βέβαια

µπορούµε να κάνουµε και κάποιες άλλες υποθέσεις για τον πίνακα συνδιακύµαν-

σης της κάθε κλάσης όπως αν αυτός είναι διαγώνιος ή όχι. Οπότε συνοψίζοντας όλες

αυτές τις περιπτώσεις έχουµε τα εξής µοντέλα µε τις ακόλουθες υποθέσεις :

• Ενιαίο Σφαιρικό µοντέλο

1. Κανονικότητα Πληθυσµών

2. οι K πληθυσµοί έχουν ίσους πίνακες συνδιακύµανσης δηλαδή Σ1 = Σ2 =

· · · = ΣK = Σ , όπου Σ = diag(

σ21 , σ

22, . . . , σ

2p

)

.

• Οµοσκεδαστικό µοντέλο

1. Κανονικότητα Πληθυσµών

2. οι K πληθυσµοί έχουν ίσους πίνακες συνδιακύµανσης δηλαδή Σ1 = Σ2 =

· · · = ΣK = Σ .

• Σφαιρικό µοντέλο

1. Κανονικότητα Πληθυσµών

2. οι K πληθυσµοί δεν έχουν απαραίτητα ίσους πίνακες συνδιακύµανσης

δηλαδή Σ1 6= Σ2 6= · · · 6= ΣK οι οποίοι είναι διαγώνιοι δηλαδή Σk =

diag(

σ2k1, σ

2k2, . . . , σ

2kp

)

, k = 1, 2, . . . , K.

• Ετεροσκεδαστικό µοντέλο

1. Κανονικότητα Πληθυσµών

2. οι Κ πληθυσµοί δεν έχουν απαραίτητα ίσους πίνακες συνδιακύµανσης

δηλαδή Σ1 6= Σ2 6= · · · 6= ΣK.

Page 31: noimosini sminous

10 Βασικές ΄Εννοιες Κανόνων Ταξινόµησης

1.3.3 Συναρτήσεις ∆ιαχωρισµού

΄Οπως είδαµε και στον κανόνα ταξινόµησης που ϐασίζεται στην Εξ. (1.14), αυτό

που µας ενδιαφέρει είναι να µεγιστοποιείται µόνο ο αριθµητής του κλάσµατος της

P (k|x). ∆ηλαδή ο κανόνας αυτός µπορεί ισοδύναµα να εκφραστεί ως µεγιστοποίηση

της ποσότητας,

Rk = πk · |Sk|1/2 exp

(

−1

2D2

k

)

. (1.15)

Η µεγιστοποίηση της Rk δηλαδή η εύρεση του k για το οποίο παίρνει τη µέγιστη

τιµή είναι ισοδύναµη µε τη µεγιστοποίηση του ϕυσικού της λογαρίθµου:

Qk = ln(Rk) = ln(πk) +1

2ln (|Sk|)−

1

2(x− xk)

⊤S−1k (x− xk). (1.16)

΄Ετσι, ο κανόνας ταξινόµησης για την περίπτωση της κανονικής κατανοµής εκ-

ϕράζεται ως εξής :

Ταξινόµησε την παρατήρηση x στον πληθυσµό k

αν Qk > Qk′ για k′ 6= k, k, k′ = 1, 2, . . . , K.

Μπορούµε να παρατηρήσουµε ότι η έκφραση του Qk είναι τετραγωνική ως προς

το x και γι΄ αυτό καλείται Τετραγωνική ∆ιαχωριστική Συνάρτηση (Τ∆Σ), (Quadratic

Discriminant Function). ΄Ετσι ο τετραγωνικός κανόνας ταξινόµησης, ταξινοµεί ένα

άτοµο µε διάνυσµα χαρακτηριστικών x στον πληθυσµό αυτό για τον οποίο η Τ∆Σ

έχει τη µεγαλύτερη τιµή.

Θεωρούµε την ειδική περίπτωση των ίσων πινάκων συνδιακύµανσης. Η µεγιστο-

ποίηση της P (k|x) στον κανόνα ταξινόµησης είναι ισοδύναµη µε τη µεγιστοποίηση

του ϕυσικού λογαρίθµου του πk exp(

−12D2

k

)

εφόσον ο πίνακας συνδιακύµανσης S

είναι κοινός σε όλες τις κλάσεις. ∆ηλαδή έχουµε :

ln

(

πk exp

(

−1

2D2

k

))

= ln πk −1

2(x− x)⊤k S−1(x− xk). (1.17)

Εκτελώντας πράξεις παρατηρούµε πως για ένα συγκεκριµένο διάνυσµα x ο όρος

x⊤S−1

x είναι κοινός για όλα τα δείγµατα και έτσι χωρίς ϐλάβη της γενικότητας

µπορεί να παραληφθεί. ∆ηλαδή η µεγιστοποίηση της (1.17) είναι ισοδύναµη µε τη

µεγιστοποίηση της ποσότητας :

Lk =[

x⊤k S−1

]

x +

[

−1

2x⊤k S−1

xk + ln πk

]

(1.18)

Παρατηρούµε πως η έκφραση Lk είναι γραµµική ως προς x γιατί µπορεί να

γραφεί ως εξής :

Lk = b⊤k · x + ck (1.19)

όπου b⊤k = x⊤k S−1 είναι ένα διάνυσµα ϐαρών και ck = −1

2x⊤k S−1

xk +ln πk µια σταθε-

ϱά. Για τον λόγο αυτό η ποσότητα Lk ονοµάζεται Γραµµική ∆ιαχωριστική Συνάρτηση

Page 32: noimosini sminous

1.3 Κανόνες Ταξινόµησης 11

(Γ∆Σ), (Linear Discriminant Function). Οπότε ο γραµµικός κανόνας ταξινόµησης

έχει την ακόλουθη µορφή:

Ταξινόµησε την παρατήρηση x στον πληθυσµό k

αν Lk > Lk′ για k′ 6= k, k, k′ = 1, 2, . . . , K.

Συνοψίζοντας τους παραπάνω κανόνες µπορούµε να πούµε γενικά ότι ταξινοµού-

µε ένα άτοµο µε διάνυσµα χαρακτηριστικών x στον πληθυσµό που έχει τη µεγαλύτε-

ϱη Τ∆Σ τιµή (αν έχουµε άνισους πίνακες διασπορών) ή τη µεγαλύτερη Γ∆Σ τιµή (αν

έχουµε ίσους πίνακες διασπορών).

Page 33: noimosini sminous

12 Βασικές ΄Εννοιες Κανόνων Ταξινόµησης

Page 34: noimosini sminous

Κ Ε Φ Α Λ Α Ι Ο 2

Βασικές ΄Εννοιες Υπολογιστικής

Νοηµοσύνης

Από τις διαφορές γεννιέται η πιο όµορφη αρµονία.

—Ηράκλειτος (544-483 π.Χ.)

2.1 Εισαγωγή στην Υπολογιστική Νοηµοσύνη

Μια ισχυρή ώθηση στην ανάπτυξη αλγορίθµων είναι η ανάγκη για σχεδιασµό

αλγοριθµικών µοντέλων που να επιλύουν τα συνεχώς αυξανόµενα πολύπλοκα προ-

ϐλήµατα. ΄Εχει σηµειωθεί µια µεγάλη πρόοδος µέσω της µοντελοποίησης ϐιολο-

γικών διαδικασιών και της γενικότερης ευφυΐας της ϕύσης. Οι διαδικασίες αυτές

ενσωµατώνονται και προσαρµόζονται σε ήδη υπάρχοντες αλγορίθµους ή αποτελούν

πηγή έµπνευσης για ανάπτυξη νέων αλγορίθµων. Αυτοί οι ευφυείς αλγόριθµοι που

συµπεριλαµβάνουν τα τεχνητά νευρωνικά δίκτυα, τον εξελικτικό υπολογισµό, την

νοηµοσύνη σµηνών και τα ασαφή συστήµατα, µαζί µε το reasoning, τη λογική, τα

ευφυή συστήµατα και τη συµβολική µηχανική µάθηση αποτελούν το κοµµάτι της

Τεχνητής Νοηµοσύνης που καλείται Υπολογιστική Νοηµοσύνη (ΥΝ) (Computational

Intelligence) [23].

Μια ερώτηση η οποία παραµένει ακόµα αναπάντητη για σχεδόν 60 χρόνια είναι

η ακόλουθη: «Μπορούν οι ηλεκτρονικοί υπολογιστές να αποκτήσουν νοηµοσύνη ;». Ο

Alan Turing πίστευε ότι ϑα µπορούσαν να κατασκευαστούν µηχανές οι οποίες ϑα

µιµούνταν τις διεργασίες του ανθρώπινου εγκέφαλου. Πίστευε πραγµατικά ότι δεν

υπάρχει κάτι που µπορεί να κάνει ο εγκέφαλος και να µην µπορεί να κάνει ένας κα-

λά σχεδιασµένος ηλεκτρονικός υπολογιστής. Παρόλο που έχουν επιτευχθεί αρκετά

πράγµατα στη µοντελοποίηση ϐιολογικών συστηµάτων νευρώνων, δεν υπάρχει ακό-

µα καµία λύση στα πολύπλοκα προβλήµατα της µοντελοποίησης της συνείδησης,

της διαίσθησης και των συναισθηµάτων τα οποία αποτελούν αναπόσπαστα κοµµά-

τια της ανθρώπινης νοηµοσύνης. Το 1950, ο Turing πρότεινε µια δοκιµασία για

την νοηµοσύνη των ηλεκτρονικών υπολογιστών η οποία καλείται Turing test [106].

Στη δοκιµασία αυτή ένα άτοµο κάνει ερωτήσεις µέσω ενός πληκτρολογίου σε έναν

άνθρωπο και σε έναν ηλεκτρονικό υπολογιστή. Αν αυτός που κάνει τις ερωτήσεις

Page 35: noimosini sminous

14 Βασικές ΄Εννοιες Υπολογιστικής Νοηµοσύνης

δεν µπορεί να ξεχωρίσει τις απαντήσεις του ηλεκτρονικού υπολογιστή από αυτές του

ανθρώπου, τότε ϑα µπορούσε ο υπολογιστής να χαρακτηριστεί ως ευφυής. Ο Tu­

ring υποστήριζε ότι ϑα ήταν εφικτό για έναν υπολογιστή µε 109 bits αποθηκευτικού

χώρου να περάσει µια πεντάλεπτη εκδοχή της δοκιµασίας µε πιθανότητα επιτυχίας

70% µέχρι το έτος 2000.

Η ΥΝ επικεντρώνεται στη µελέτη προσαρµοζόµενων µηχανισµών που καθιστούν

εφικτή µια ευφυή συµπεριφορά σε πολύπλοκα και µεταβαλλόµενα περιβάλλοντα.

Αυτοί οι µηχανισµοί παρουσιάζουν την ικανότητα να µαθαίνουν ή να προσαρµόζονται

σε νέες καταστάσεις, να γενικεύουν, να ανακαλύπτουν και να συνδυάζουν.

Πριν προχωρήσουµε στην ανάλυση των µεθόδων της ΥΝ, ϑα δώσουµε αρχικά µια

πολύ σύντοµη εισαγωγή των εννοιών της ϐελτιστοποίησης που ϑα χρησιµοποιήσουµε

στη συνέχεια.

2.2 Εισαγωγή στη Βελτιστοποίηση

΄Ενα µεγάλο µέρος των προβληµάτων που καλούµαστε να αντιµετωπίσουµε σε

πρακτικές εφαρµογές είναι συνήθως προβλήµατα ϐελτιστοποίησης δηλαδή προβλή-

µατα όπου αναζητούµε το µέγιστο ή το ελάχιστο µιας συνάρτησης h. Η συνάρτηση

h, η οποία ονοµάζεται «αντικειµενική συνάρτηση», έχει συχνά αρκετά ακρότατα, συ-

νήθως πολύπλοκη µορφή και πολλές ϕορές µπορεί να µην είναι παραγωγίσιµη και

ούτε καν συνεχής σε ένα δοσµένο διάστηµα το οποίο ϑα το ονοµάζουµε «χώρο αναζή-

τησης». Οι αλγόριθµοι που ϑα αναπτυχθούν στη συνέχεια και ϑα ενσωµατωθούν στα

προτεινόµενα µοντέλα της παρούσας διατριβής, χρησιµοποιούνται για την εύρεση

ϐέλτιστων λύσεων σε τέτοιου είδους προβλήµατα

Με τον όρο «ϐελτιστοποίηση» συµπεριλαµβάνουµε τα προβλήµατα ελαχιστοποίη-

σης αλλά και µεγιστοποίησης καθώς οι δύο περιπτώσεις είναι ισοδύναµες, διότι το

ελάχιστο µιας συνάρτησης h αποτελεί µέγιστο της −h και αντίστροφα. Οπότε, χωρίς

ϐλάβη της γενικότητας ϑα ασχοληθούµε µε την περίπτωση της ελαχιστοποίησης. ΄Ε-

να πρόβληµα ελαχιστοποίησης µιας συνάρτησης h : S → R ορίζεται ως η διαδικασία

αναζήτησης ενός x∗ ∈ S, τέτοιο ώστε h(x∗) 6 h(x), ∀x ∈ S όπου S ⊆ R

d.

Υπάρχουν πολλά κριτήρια διαχωρισµού των µεθόδων ϐελτιστοποίησης σε κατη-

γορίες, π.χ. ως προς το αν χρησιµοποιούν παραγώγους, αν χρησιµοποιούν πληθυ-

σµούς ή αν έχουν εγγυηµένη σύγκλιση. Μια κατηγοριοποίηση που προτείνεται από

τους Beasley et al. [6] είναι η ακόλουθη:

• Μέθοδοι ϐασισµένες στον Λογισµό (calculus­based methods)

• Μέθοδοι τυχαίας αναζήτησης (random search methods)

• Μέθοδοι επαναλαµβανόµενης αναζήτησης (iterated search methods)

• Μέθοδοι προσοµοιωµένης ανόπτησης (simulated annealing)

• ∆υναµικός Προγραµµατισµός (dynamic programming)

Page 36: noimosini sminous

2.3 Εξελικτικός Υπολογισµός 15

• Ευρετικές µέθοδοι (heuristic methods)

∆υστυχώς δεν υπάρχει µια κατηγορία αλγορίθµων ϐελτιστοποίησης που να επι-

τυγχάνει πολύ καλά αποτελέσµατα σε όλα τα προβλήµατα που καλείται να αντιµετω-

πίσει. Οι περισσότεροι αλγόριθµοι έχουν πολύ καλή απόδοση σε µια συγκεκριµένη

κατηγορία προβληµάτων και στα υπόλοιπα προβλήµατα επιτυγχάνουν µια µέτρια

απόδοση. Υπάρχουν αρκετές «κλασικές» µέθοδοι ϐελτιστοποίησης οι οποίες έχουν

µελετηθεί διεξοδικά και επιτυγχάνουν ικανοποιητικές αποδόσεις και, τις τελευταίες

δεκαετίες, έχει αναπτυχθεί και µια άλλη κλάση αλγορίθµων η κατασκευή των οποίων

είναι εµπνευσµένη από τη ϕύση και τον µοναδικό τρόπο εξέλιξής της.

2.3 Εξελικτικός Υπολογισµός

Ο Εξελικτικός Υπολογισµός (ΕΥ) (Evolutionary Computation) είναι ένας γενι-

κός όρος που αναφέρεται σε υπολογιστικές µεθόδους που ϐασίζονται σε πρότυπα

ϐιολογικών εξελικτικών διαδικασιών για την επίλυση σύνθετων πρακτικών προβλη-

µάτων [23,24]. Οι µέθοδοι του ΕΥ έχουν ως κοινή ϐάση την υπολογιστική προσο-

µοίωση της ϕυσικής εξέλιξης (natural evolution) των ειδών, ϐάσει της ϑεωρίας του

∆αρβίνου. ∆ηλαδή χρησιµοποιούνται διαδικασίες που είναι εµπνευσµένες από τη

ϕυσική επιλογή (natural selection) και αναπαραγωγή (reproduction) των ατόµων

(individual structures). Οι διαδικασίες αυτές εξαρτώνται από την καταλληλότητα

(fitness) των ατόµων για επιβίωση στο περιβάλλον του προβλήµατος. Η ϕυσική εξέ-

λιξη είναι ουσιαστικά µια διαδικασία ϐελτιστοποίησης. Οι µέθοδοι ϐελτιστοποίησης

που ανήκουν στην κλάση του ΕΥ χρησιµοποιούν πληθυσµούς σηµείων αναζήτη-

σης και ο µηχανισµός λειτουργίας τους ϐασίζεται στο γεγονός ότι, πιθανές λύσεις

οι οποίες ϐελτιστοποιούν κάποιο µέτρο καταλληλότητας (αντικειµενική συνάρτηση),

έχουν µεγαλύτερη πιθανότητα να εξελιχθούν σε ϐέλτιστες λύσεις ακολουθώντας τη

∆αρβίνεια εξέλιξη που ϐασίζεται στην επιβίωση του καταλληλότερου (survival of the

fittest).

Στις µεθόδους του ΕΥ διαµορφώνουµε ένα πληθυσµό ατόµων, όπου κάθε άτοµο

ϑα αναφέρεται ως χρωµόσωµα το οποίο καθορίζει τα χαρακτηριστικά του ατόµου

µέσα στον πληθυσµό. Το κάθε χαρακτηριστικό του χρωµοσώµατος καλείται γονί-

διο ενώ η τιµή του γονιδίου καλείται αλληλουχία (allele). Τα χαρακτηριστικά που

αναπαριστώνται από ένα χρωµόσωµα µπορούν να διαιρεθούν σε δύο κλάσεις εξε-

λικτικής πληροφορίας : γενότυποι και ϕαινότυποι. ΄Ενας γενότυπος περιγράφει τη

γενετική σύνθεση ενός ατόµου όπως κληρονοµείται από τους γονείς του. Οι γενότυ-

ποι προσφέρουν ένα µηχανισµό αποθήκευσης των ϐιωµατικών στοιχείων που έχουν

συλλεχθεί από τους προγόνους του. ΄Ενας ϕαινότυπος εκφράζει τα επίκτητα γνω-

ϱίσµατα συµπεριφοράς ενός ατόµου όταν εκτεθεί σε ένα συγκεκριµένο περιβάλλον.

Επίσης, µπορεί να υπάρξει µια πολύπλοκη σχέση µεταξύ ϕαινοτύπου και γενοτύ-

που. ∆ύο τέτοιες σχέσεις είναι, η πλειοτροπία όπου µια τυχαία τροποποίηση ενός

γονιδίου µπορεί να προκαλέσει απροσδόκητες και σηµαντικές αλλαγές στο ϕαινό-

Page 37: noimosini sminous

16 Βασικές ΄Εννοιες Υπολογιστικής Νοηµοσύνης

τυπο, και η πολυγενία όπου µια οµάδα γονιδίων αλληλεπιδρούν και παράγουν ένα

συγκεκριµένο ϕαινότυπο.

Αντικειµενική Συνάρτηση

Κάθε χρωµόσωµα αναπαριστά ένα σηµείο στο χώρο αναζήτησης και αποτελείται

από έναν αριθµό γονιδίων όπου κάθε γονίδιο αναπαριστά µια παράµετρο του προ-

ϐλήµατος ϐελτιστοποίησης. ΄Ενα σηµαντικό ϐήµα στο σχεδιασµό ενός γενικού Εξελι-

κτικού Αλγορίθµου (ΕΑ) είναι η ανεύρεση ενός κατάλληλου τρόπου αναπαράστασης

του χρωµοσώµατος. ΄Ισως η πιο σηµαντική συνιστώσα ενός ΕΑ είναι η αντικειµενι-

κή συνάρτηση. Ο σκοπός της αντικειµενικής συνάρτησης είναι να απεικονίσει µια

αναπαράσταση ενός χρωµοσώµατος σε ένα ϐαθµωτό µέγεθος :

h : S → R

όπου h είναι η αντικειµενική συνάρτηση και S ⊆ Rd αναπαριστά το σύνολο των

d–διάστατων χρωµοσωµάτων. Καθώς κάθε χρωµόσωµα αναπαριστά µια πιθανή λύ-

ση, ο υπολογισµός της αντικειµενικής συνάρτησης στο σηµείο αυτό ποσοτικοποιεί

την ποιότητα του συγκεκριµένου χρωµοσώµατος. ∆ηλαδή δείχνει πόσο κοντά στη

ϐέλτιστη λύση είναι η συγκεκριµένη λύση.

Αρχικός Πληθυσµός

Πριν ξεκινήσει η εξελικτική διαδικασία πρέπει να δηµιουργηθεί ένας αρχικός

πληθυσµός. Ο τυπικός τρόπος για τη δηµιουργία ενός τέτοιου αρχικού πληθυσµού

είναι η επιλογή γονιδιακών τιµών τυχαία επιλεγµένων από όλο το σύνολο των επι-

τρεπτών τιµών. Ο στόχος της τυχαίας επιλογής είναι να διασφαλιστεί ότι ο αρχικός

πληθυσµός ϑα παρέχει µια οµοιόµορφη κάλυψη όλου του χώρου αναζήτησης. Αν

υπάρχει πρότερη γνώση ή πληροφορία για το χώρο αναζήτησης και το εξεταζόµενο

πρόβληµα, τότε, η γνώση αυτή, µπορεί να χρησιµοποιηθεί στον αρχικό πληθυσµό

και να κατευθύνει τη διαδικασία ϐελτιστοποίησης προς πιθανώς καλές λύσεις. Ωστό-

σο, µε τον παραπάνω τρόπο, τα στοιχεία του χώρου αναζήτησης δεν έχουν την ίδια

πιθανότητα να επιλεχθούν, γεγονός που µπορεί να οδηγήσει σε πρόωρη σύγκλιση

του πληθυσµού σε ένα τοπικό ϐέλτιστο.

Το µέγεθος του αρχικού πληθυσµού επηρεάζει την απόδοση ως προς την ακρίβεια

και το χρόνο σύγκλισης. ΄Ενας µικρός πληθυσµός αναπαριστά συνήθως ένα µικρό

µέρος του χώρου αναζήτησης όπου, αν και η χρονική πολυπλοκότητα είναι µικρή, ο

ΕΑ απαιτεί µεγαλύτερο αριθµό γενιών σε σχέση µε ένα µεγαλύτερο πληθυσµό. Από

την άλλη πλευρά, ένας µεγάλος πληθυσµός καλύπτει µια µεγαλύτερη περιοχή του

χώρου αναζήτησης και συνήθως απαιτεί λιγότερες γενιές για να συγκλίνει, ωστόσο η

χρονική πολυπλοκότητα αυξάνεται.

Page 38: noimosini sminous

2.3 Εξελικτικός Υπολογισµός 17

Τελεστές Επιλογής

Κάθε γενιά ενός ΕΑ παράγει µια νέα γενιά ατόµων που αναπαριστούν ένα σύνολο

από νέες πιθανές λύσεις του προβλήµατος ϐελτιστοποίησης. Η νέα γενιά διαµορφώ-

νεται από την εφαρµογή τριών τελεστών : ανασυνδυασµός (cross­over), µετάλλαξη

(mutation) και ελιτισµός (elitism). Ο στόχος του τελεστή επιλογής είναι να δώσει

έµφαση στις καλύτερες λύσεις ενός πληθυσµού.

Στην περίπτωση του ανασυνδυασµού, τα «ανώτερα» άτοµα πρέπει να έχουν πε-

ϱισσότερες ευκαιρίες για αναπαραγωγή και για να επιτευχθεί αυτό, οι απόγονοι

περιέχουν συνδυασµούς του γενετικού υλικού των καλύτερων ατόµων. Με αυτό τον

τρόπο, η επόµενη γενιά είναι άµεσα επηρεασµένη από τα γονίδια των ατόµων µε

τις καλύτερες τιµές στην αντικειµενική συνάρτηση. Στην περίπτωση της µετάλλα-

ξης, οι τιµές της αντικειµενικής συνάρτησης χρησιµοποιούνται για να επιλέξουµε να

µεταλλαχθούν τα άτοµα µε τις χειρότερες τιµές. Η ιδέα είναι ότι τα άτοµα µε τις

καλύτερες τιµές δεν πρέπει να διαταραχθούν µέσω της εφαρµογής της µετάλλαξης,

εξασφαλίζοντας έτσι ότι τα καλά χαρακτηριστικά των ατόµων αυτών ϑα διατηρηθούν.

Ο ελιτισµός είναι ένα τελεστής που αντιγράφει τα καλύτερα άτοµα από µια γενιά

απευθείας στην επόµενη, διασφαλίζοντας έτσι ότι η ελάχιστη τιµή της αντικειµενικής

συνάρτησης δεν ϑα αυξηθεί στην επόµενη γενιά.

Μια σύνοψη των τελεστών επιλογής που χρησιµοποιούνται πιο συχνά, παρουσιά-

Ϲεται παρακάτω:

• Τυχαία Επιλογή (Random Selection). Τα άτοµα επιλέγονται τυχαία χωρίς κα-

µία αναφορά στις τιµές της αντικειµενικής συνάρτησης.

• Αναλογική Επιλογή (Proportional Selection). Η πιθανότητα επιλογής ενός α-

τόµου είναι ανάλογη της τιµής της αντικειµενικής συνάρτησης.

• Προκριµατική Επιλογή (Tournament Selection). Μια οµάδα k ατόµων επιλέ-

γεται τυχαία και από τα k άτοµα επιλέγεται αυτό µε την καλύτερη τιµή της

αντικειµενικής συνάρτησης.

• Επιλογή ως προς την κατάταξη (Rank­Based Selection). Η πιθανότητα επιλο-

γής ενός ατόµου ϐασίζεται στη σειρά κατάταξης των τιµών της αντικειµενικής

συνάρτησης των ατόµων και όχι στις πραγµατικές τιµές τους.

Τελεστές Αναπαραγωγής

Ο σκοπός των τελεστών αναπαραγωγής είναι η παραγωγή ενός νέου απογόνου

από κάποια επιλεγµένα άτοµα, είτε µέσω ανασυνδυασµού είτε µέσω µετάλλαξης.

Ανασυνδυασµός είναι η διαδικασία δηµιουργίας ενός νέου ατόµου συνδυάζοντας το

γενετικό υλικό των δύο γονιών. Μετάλλαξη είναι η διαδικασία της τυχαίας αλλαγής

των τιµών των χρωµοσωµάτων σε ένα γονίδιο. Στόχος της µετάλλαξης είναι να εισάγει

νέο γενετικό υλικό σε ένα υπάρχον άτοµο, διευρύνοντας έτσι το χώρο αναζήτησης.

Page 39: noimosini sminous

18 Βασικές ΄Εννοιες Υπολογιστικής Νοηµοσύνης

Η µετάλλαξη συνήθως συµβαίνει µε αρκετά µικρή πιθανότητα, διότι µια µεγάλη

πιθανότητα µετάλλαξης ϑα διαστρέβλωνε τη γενετική δοµή του χρωµοσώµατος.

΄Εχει προταθεί µια σειρά από τέτοιους αλγόριθµους όπως οι Εξελικτικοί Αλγό-

ϱιθµοι (ΕΑ) (Evolutionary Algorithms) [4], Γενετικοί Αλγόριθµοι (ΓΑ) (Genetic Al­

gorithms) [5,51], Εξελικτικές Στρατηγικές [88], Εξελικτικός προγραµµατισµός [27]

Μορφωτικοί Αλγόριθµοι (Cultural Algorithms [84] και οι ∆ιαφοροεξελικτικοί αλγό-

ϱιθµοι [100].

2.3.1 ∆ιαφορική Εξέλιξη

Η ∆ιαφορική Εξέλιξη (∆Ε) (Differential Evolution, DE) είναι µια στοχαστική στρα-

τηγική αναζήτησης η οποία ϐασίζεται σε πληθυσµούς ατόµων [25,82,100]. Η ϐασική

διαφορά της ∆Ε σε σχέση µε άλλους εξελικτικούς αλγόριθµους είναι ότι δεν χρησι-

µοποιεί τελεστή µετάλλαξης, ο οποίος εξαρτάται από κάποια συνάρτηση κατανοµής

πιθανότητας, αλλά εισάγει έναν νέο αριθµητικό τελεστή που εξαρτάται από τις δια-

ϕορές µεταξύ τυχαία επιλεγµένων Ϲευγαριών ατόµων.

΄Εστω ένας d–διάστατος χώρος αναζήτησης, S ⊂ Rd. Οι ∆ιαφοροεξελικτικοί αλ-

γόριθµοι (∆ΕΑ) χρησιµοποιούν ένα πληθυσµό από d–διάστατα διανύσµατα Zi =

[zi1, zi2, . . . , zid]⊤ πλήθους NP σε κάθε γενιά. Το πλήθος NP των ατόµων παραµένει

σταθερό καθ΄ όλη τη διάρκεια της εξέλιξης. Σε κάθε γενιά επιδρούν δύο τελεστές

σε κάθε άτοµο, ο τελεστής µετάλλαξης και ο τελεστής ανασυνδυασµού, παράγοντας

έτσι το νέο πληθυσµό. Αρχικά επιλέγονται τυχαία τρία άτοµα από τον πληθυσµό της

γενιάς g και ϐάσει της Εξ. (2.2) παράγεται το µεταλλαγµένο άτοµο V(g+1)i . Βέβαια

εκτός από αυτή την εξίσωση (στρατηγική), έχουν προταθεί και άλλες στρατηγικές

όπως οι παρακάτω:

V(g+1)i = Z

(g)best + F

(

Z(g)r1− Z

(g)r2

)

, (2.1)

V(g+1)i = Z

(g)r1 + F

(

Z(g)r2− Z

(g)r3

)

, (2.2)

V(g+1)i = Z

(g)i + F

(

Z(g)best − Z

(g)i

)

+ F(

Z(g)r1− Z

(g)r2

)

, (2.3)

V(g+1)i = Z

(g)best + F

(

Z(g)r1− Z

(g)r2

)

+ F(

Z(g)r3− Z

(g)r4

)

, (2.4)

V(g+1)i = Z

(g)r1

+ F(

Z(g)r2− Z

(g)r3

)

+ F(

Z(g)r4− Z

(g)r5

)

, (2.5)

V(g+1)i =

(

Z(g)r1

+ Z(g)r2

+ Z(g)r3

)

/3 + (p2 − p1)(

Z(g)r1− Z

(g)r2

)

+

(p3 − p2)(

Z(g)r2− Z

(g)r3

)

+ (p1 − p3)(

Z(g)r3− Z

(g)r1

)

, (2.6)

όπου Z(g)best είναι το καλύτερο άτοµο της g γενιάς, δηλαδή αυτό που έχει τη µικρό-

τερη τιµή στην αντικειµενική συνάρτηση, F ∈ [0, 2] είναι µια πραγµατική σταθερά

που καλείται σταθερά µετάλλαξης και r1, r2, r3, r4, r5 και r6 ∈ 1, 2, . . . , i − 1, i +

1, . . . , NP είναι τυχαίοι ακέραιοι που διαφέρουν ανά δύο. Η στρατηγική που ϐα-

σίζεται στην Εξ. (2.6) ονοµάζεται τριγωνοµετρικός τελεστής µετάλλαξης [25] και τα

Page 40: noimosini sminous

2.3 Εξελικτικός Υπολογισµός 19

p1, p2, p3, υπολογίζονται ως εξής :

p1 = |h(Z(g)r1

)|/p′,p2 = |h(Z(g)

r2)|/p′,

p3 = |h(Z(g)r3

)|/p′,p′ = |h(Z(g)

r1)|+ |h(Z(g)

r2)|+ |h(Z(g)

r3)|.

Μετά τη ϕάση της µετάλλαξης, έπεται η ϕάση του ανασυνδυασµού όπου για κάθε

µεταλλαγµένο διάνυσµα V(g+1)i , i = 1, 2, . . . , NP , παράγεται ένα τυχαίο διάνυσµα

RVi ∈ [0, 1]d και γεννιέται το δοκιµαστικό διάνυσµα U(g+1)i οι τιµές του οποίου

παράγονται ως εξής για j = 1, 2, . . . , d ,

u(g+1)ij =

v(g+1)ij , if rvij 6 CR,

z(g)ij , διαφορετικά.

∆ηλαδή, αν η τυχαία τιµή rvij ξεπεράσει τη σταθερά ανασυνδυασµού CR ∈ [0, 1]

τότε η αντίστοιχη συνιστώσα του δοκιµαστικού διανύσµατος ϑα πάρει την τιµή του

µεταλλαγµένου διανύσµατος, αλλιώς ϑα κρατήσει την τιµή του αρχικού διανύσµατος.

Οι τιµές που δίνουµε στις παραµέτρους F και CR εξαρτώνται κάθε ϕορά από τη

στρατηγική που επιλέγεται.

Τέλος, το δοκιµαστικό άτοµο U(g+1)i γίνεται µέλος του πληθυσµού αν προσφέρει

κάποια µείωση στην συνάρτηση που ελαχιστοποιούµε, δηλαδή αν,

Z(g+1)i =

U(g+1)i , if h

(

U(g+1)i

)

< h(

Z(g)i

)

,

Z(g)i , διαφορετικά.

Στο Σχήµα 2.1 παρουσιάζεται συνοπτικά σε µορφή ψευδοκώδικα η διαδικασία

λειτουργίας και εξέλιξης ενός ∆ΕΑ.

΄Ενας τρόπος συµβολισµού των στρατηγικών µετάλλαξης των ∆ΕΑ που προτάθηκε

από τους Storn & Price [100], έτσι ώστε να είναι εύκολος ο διαχωρισµός τους, είναι

ο ακόλουθος

DE/x/y/z

όπουx καθορίζει το άτοµο του πληθυσµού που ϑα µεταλλαχθεί, το οποίο µπορεί

να είναι είτε ένα τυχαία επιλεγµένο άτοµο του πληθυσµού (rand) είτε το

άτοµο που ϑα πετύχει τη χαµηλότερη τιµή της αντικειµενικής συνάρτησης

στον τρέχοντα πληθυσµό.

y καθορίζει τον αριθµό των διαφορών των διανυσµάτων που χρησιµοποιούνται

στη στρατηγική µετάλλαξης.

z δηλώνει το σχήµα ανασυνδυασµού

Το σχήµα ανασυνδυασµού που χρησιµοποιήσαµε παραπάνω συµβολίζεται (bin)

διότι δηλώνει ότι ο ανασυνδυασµός ενός ατόµου ϐασίζεται σε ανεξάρτητα διωνυµικά

Page 41: noimosini sminous

20 Βασικές ΄Εννοιες Υπολογιστικής Νοηµοσύνης

∆ιαφοροεξελικτικός Αλγόριθµος

Αρχικοποίηση του πληθυσµού Z(0)i , i = 1, 2, . . . , NP ;

Υπολόγισε τα h(

Z(0)i

)

i = 1, 2, . . . , NP ;

For g = 0, MaxGen− 1 do:

For i = 1, NP do:

Μετάλλαξε(

Z(g)i

)

→ V(g+1)i ;

Ανασυνδύασε(

V(g+1)i

)

→ U(g+1)i ;

If h(

U(g+1)i

)

6 h(

Z(g)i

)

Then

Z(g+1)i ← U

(g+1)i ;

Else

Z(g+1)i ← Z

(g)i ;

EndIf

EndFor

If (Συνθήκη Τερµατισµού) Then Stop;

EndFor

Σχήµα 2.1: Ψευδοκώδικας λειτουργίας ενός ∆ΕΑ

(binomial) πειράµατα. Ακολουθώντας τον προτεινόµενο συµβολισµό, η στρατηγική

που ϐασίζεται στην Εξ. (2.2) συµβολίζεται ως DE/rand/1/bin. Αντίστοιχα, η στρατη-

γική µετάλλαξης της Εξ. (2.1) συµβολίζεται ως DE/best/1/bin εφόσον χρησιµοποιεί

το καλύτερο άτοµο της γενιάς και όχι ένα τυχαία επιλεγµένο ως η προηγούµενη

στρατηγική. Αξίζει να σηµειωθεί πως µια από τις αποδοτικότερες στρατηγικές είναι

η DE/best/2/bin που υλοποιείται ϐάσει της Εξ. (2.4) δηλαδή ϐασίζεται στο καλύτε-

ϱο άτοµο κάθε γενιάς, χρησιµοποιεί δύο διαφορές τυχαία επιλεγµένων ατόµων και

υλοποιεί ένα διωνυµικό σχήµα ανασυνδυασµού.

2.4 Νοηµοσύνη Σµηνών

Υποθέτουµε ότι µια οµάδα ϕίλων αναζητά ένα κρυµµένο ϑησαυρό. Κάθε ένα

άτοµο της οµάδας έχει έναν ανιχνευτή µετάλλων και µπορεί να επικοινωνεί µε τους

υπόλοιπους για τη ϑέση και την ισχύ του σήµατος του ανιχνευτή του. Συνεπώς, κάθε

άτοµο γνωρίζει αν κάποιο από τα γειτονικά του άτοµα είναι πιο κοντά στον ϑησαυρό

από ότι το ίδιο. Σε µια τέτοια περίπτωση, µπορεί να µετακινηθεί κοντινότερα στο

συγκεκριµένο γειτονικό άτοµο και έτσι αυξάνει την πιθανότητα να ϐρει το ϑησαυρό.

Επίσης, ο ϑησαυρός µπορεί να ϐρεθεί πιο γρήγορα όταν ψάχνουν όλα τα άτοµα µαζί

παρά αν προσπαθούσε ο καθένας µόνος του. Το παραπάνω παράδειγµα είναι µια

πολύ απλή µορφή της συµπεριφοράς ενός σµήνους, όπου τα άτοµα του σµήνους

Page 42: noimosini sminous

2.4 Νοηµοσύνη Σµηνών 21

αλληλεπιδρούν για να επιλύσουν ένα κοινό πρόβληµα µε έναν πιο αποδοτικό τρόπο

από ότι ϑα µπορούσε το κάθε άτοµο αυτόνοµα.

΄Ενα σµήνος µπορεί να οριστεί ως µια δοµηµένη συλλογή από αλληλεπιδρώντες

οργανισµούς οι οποίοι µπορεί να είναι αρκετά απλοί στη δοµή τους αλλά η συλλογική

συµπεριφορά (collective behaviour) του σµήνους να είναι αρκετά πολύπλοκη. Για

παράδειγµα, σε µια αποικία µυρµηγκιών, τα άτοµα ειδικεύονται σε ένα µόνο σύνολο

απλών εργασιών αλλά οι πράξεις και οι συµπεριφορές τους συνολικά διασφαλίζουν

το κτίσιµο µιας ϐέλτιστης ϕωλιάς, την προστασία της ϐασίλισσας και της προνύµ-

ϕης, την εύρεση των καλύτερων πηγών τροφής, τη ϐελτιστοποίηση των στρατηγικών

επίθεσης κ.α. Η αλληλεπίδραση ή συνεργασία µεταξύ των ατόµων καθορίζεται είτε

γενετικά είτε µέσω της κοινωνικής αλληλεπίδρασης.

Ο όρος Νοηµοσύνη Σµηνών (ΝΣ) (Swarm Intelligence) συµπεριλαµβάνει όλες

τις µεθόδους επίλυσης προβληµάτων που ϐασίζονται στη συλλογική συµπεριφορά

και στην εκδηλούµενη νοηµοσύνη (emergent intelligence) των ατόµων ενός πληθυ-

σµού [8,24,60]. Ο πρώτος αλγόριθµος ΝΣ που προτάθηκε ήταν η Βελτιστοποίηση µε

Αποικία Μυρµηγκιών (ΒΑΜ) (Ant Colony Optimization) ο οποίος είναι εµπνευσµένος

από τη συµπεριφορά των µυρµηγκιών να επιλέγουν ϐέλτιστα µονοπάτια µεταξύ της

αποικίας τους και της πηγής τροφής τους αφήνοντας ίχνη ϕεροµόνης [19]. ΄Ενας

άλλος ϐασικός αντιπρόσωπος της ΝΣ είναι η ϐελτιστοποίηση µε σµήνος σωµατιδίων

την οποία ϑα αναλύσουµε παρακάτω.

2.4.1 Βελτιστοποίηση µε Σµήνος Σωµατιδίων

Ο αλγόριθµος Βελτιστοποίησης µε Σµήνος Σωµατιδίων (ΒΣΣ) (Particle Swarm O­

ptimization, PSO) είναι ένας στοχαστικός αλγόριθµος αναζήτησης ο οποίος χρη-

σιµοποιεί ένα πληθυσµό ατόµων και ϐασίζεται στην προσοµοίωση της κοινωνικής

συµπεριφοράς των πτηνών µέσα σε ένα σµήνος [15,21,59,60,77,78]. Στο πλαίσιο

εργασίας της ΒΣΣ, ο πληθυσµός καλείται σµήνος (swarm) και τα άτοµα του πλη-

ϑυσµού (δηλαδή τα σηµεία αναζήτησης) καλούνται σωµατίδια (particles) τα οποία

ταυτόχρονα διερευνούν για «καλές» περιοχές του χώρου αναζήτησης. Κάθε σωµατί-

διο κινείται µε µεταβαλλόµενη ταχύτητα στο χώρο αναζήτησης και διατηρεί σε µια

µνήµη την καλύτερη ϑέση που έχει επισκεφθεί. Η ϑέση αυτή γνωστοποιείται, σε

κάθε γενιά (επανάληψη), στα γειτονικά σωµατίδια του σµήνους.

Η κοινωνική δοµή της ΒΣΣ καθορίζεται µέσω της διαµόρφωσης γειτονιών και

τα άτοµα µέσα σε µια γειτονιά επικοινωνούν µεταξύ τους. ∆ιάφορες τοπολογίες

γειτονιάς έχουν οριστεί και µελετηθεί. Οι γειτονιές καθορίζονται από τις ετικέτες

των ατόµων και όχι από άλλες πληροφορίες όπως οι Ευκλείδειες αποστάσεις µεταξύ

τους [58]. ∆ηλαδή η γειτονιά καθορίζεται από έναν αριθµητικό δείκτη που δίνεται σε

κάθε άτοµο. Οι τοπολογίες που συναντώνται πιο συχνά είναι οι ακόλουθες,

• Τοπολογία Αστέρα (Star Topology): Κάθε σωµατίδιο µπορεί να επικοινωνεί

µε όλα τα υπόλοιπα άτοµα, δηµιουργώντας ένα πλήρως διασυνδεδεµένο κοινω-

Page 43: noimosini sminous

22 Βασικές ΄Εννοιες Υπολογιστικής Νοηµοσύνης

νικό δίκτυο όπως απεικονίζεται στο Σχήµα 2.2(α). Στην περίπτωση αυτή κάθε

σωµατίδιο προσελκύεται από το συνολικά καλύτερο άτοµο του σµήνους.

• Τοπολογία ∆ακτυλίου (Ring Topology): Κάθε σωµατίδιο επικοινωνεί µόνο µε

τους n άµεσους γείτονες όπως ϕαίνεται και στο Σχήµα 2.2(ϐ). Με άλλα λόγια,

κάθε άτοµο προσπαθεί να κινηθεί κοντινότερα προς στο καλύτερο άτοµο της

γειτονιάς του.

• Τοπολογία Επικέντρωσης (Wheels Topology): Μόνο ένα σωµατίδιο συνδέ-

εται µε όλα τα άλλα σωµατίδια και µε αυτό τον τρόπο, η διαδικασία αυτή,

αποµονώνει τα άτοµα µεταξύ τους όπως απεικονίζεται και στο Σχήµα 2.2(γ).

΄Ετσι, µόνο το κεντρικό σωµατίδιο προσαρµόζει τη ϑέση του προς το καλύτερο

σωµατίδιο και αν η προσαρµογή του οδηγεί σε µια ϐελτίωση της απόδοσής του

τότε ενηµερώνονται και τα υπόλοιπα σωµατίδια για τη ϐελτίωση αυτή.

΄Εστω ένας d–διάστατος χώρος αναζήτησης S ⊂ Rd και

S = Z1,Z2, . . . ,ZNP ,

ένα σµήνος που αποτελείται από NP σωµατίδια. Το i–οστό σωµατίδιο είναι ένα d–

διάστατο διάνυσµα

Zi = [zi1, zi2, . . . , zid]⊤ ∈ S, i = 1, 2, . . . , NP,

το οποίο αναπαριστά µια πιθανή λύση στο πρόβληµα ϐελτιστοποίησης που καλού-

µαστε να επιλύσουµε. Η ϑέση του κάθε σωµατιδίου αλλάζει σύµφωνα µε την προσω-

πική του εµπειρία αλλά και την εµπειρία της γειτονιάς του. Η νέα ϑέση υπολογίζεται

προσθέτοντας στην προηγούµενη ϑέση µια ταχύτητα

Vi = [vi1, vi2, . . . , vid]⊤, i = 1, 2, . . . , NP,

δηλαδή η νέα ϑέση του i–οστού σωµατιδίου στην (t + 1) επανάληψη ϑα είναι,

Z(t+1)i = Z

(t)i + V

(t+1)i . (2.7)

Υπάρχουν διάφορες εκδοχές για τον υπολογισµό του διανύσµατος της ταχύτη-

τας και ο υπολογισµός αυτός πρακτικά οδηγεί τη διαδικασία ϐελτιστοποίησης και

αντανακλά την κοινωνική πληροφορία που ανταλλάσσεται µεταξύ των ατόµων. ∆ύο

από τις ϐασικές παραλλαγές της ΒΣΣ σχετίζονται µε την έννοια της γειτονιάς των

σωµατιδίων.

ΒΣΣ µε ολική γειτονιά

Στην περίπτωση της ΒΣΣ µε ολική γειτονιά (global neighbourhood), η κοινωνική

γνώση που χρησιµοποιείται για να οδηγήσει την κίνηση των σωµατιδίων, ϐασίζεται

Page 44: noimosini sminous

2.4 Νοηµοσύνη Σµηνών 23

Σχήµα 2.2: Τοπολογίες ενός σµήνους

α) Τοπολογία Αστέρα ϐ) Τοπολογία ∆ακτυλίου

γ) Τοπολογία Επικέντρωσης

στη ϑέση του καλύτερου σωµατιδίου από όλο το σµήνος. Επιπλέον, κάθε σωµατίδιο

χρησιµοποιεί και τη δική του εµπειρία πάνω στη µέχρι τώρα προσωπική ϐέλτιστη

λύση που έχει συναντήσει. Η δοµή της γειτνίασης στηρίζεται στην τοπολογία αστέρα

(Σχήµα 2.2(α)) όπου όλα τα άτοµα είναι πλήρως διασυνδεδεµένα µεταξύ τους. ΄Εστω

ότι η καλύτερη ϑέση, που έχει επισκεφθεί το i–οστό σωµατίδιο µέχρι την επανάληψη

t, συµβολίζεται

BP(t)i = [bp

(t)i1 , bp

(t)i2 , . . . , bp

(t)id ]⊤ ∈ S,

και έστω gi ο δείκτης του σωµατιδίου που έχει επιτύχει την καλύτερη τιµή στην

αντικειµενική συνάρτηση µέχρι το ϐήµα t και ανήκει στη γειτονιά του i-οστού σω-

µατιδίου. Εφόσον ϐασιζόµαστε στην τοπολογία αστέρα (Σχήµα 2.2(α)), µε την έννοια

γειτονιά εννοούµε όλο το σµήνος σωµατιδίων, που σηµαίνει ότι το gi σωµατίδιο είναι

το καλύτερο από όλο το σµήνος και αντί για gi µπορούµε να χρησιµοποιήσουµε

Page 45: noimosini sminous

24 Βασικές ΄Εννοιες Υπολογιστικής Νοηµοσύνης

τον δείκτη gl(global). Τότε οι ταχύτητες του σµήνους εξελίσσονται σύµφωνα µε την

εξίσωση

V(t+1)i = V

(t)i + c1 r1

(

BP(t)i − Z

(t)i

)

+ c2 r2

(

BP(t)gl − Z

(t)i

)

, i = 1, . . . , NP, (2.8)

όπου r1, r2 είναι τυχαία διανύσµατα οµοιόµορφα κατανεµηµένα στο [0, 1]d και c1, c2

είναι ϑετικές σταθερές επιτάχυνσης (acceleration constants). Συγκεκριµένα, c1 είναι

η γνωστική (cognitive) σταθερά και c2 είναι η κοινωνική (social) σταθερά. Η γνωστική

σταθερά καθορίζει την επίδραση της προσωπικής ιστορίας του σωµατιδίου ενώ η

κοινωνική σταθερά καθορίζει την επίδραση της ιστορίας ολόκληρης της γειτονιάς

του σωµατιδίου. Οι νέες ϑέσεις των σωµατιδίων του σµήνους υπολογίζονται όπως

προαναφέραµε από την Εξ. (2.7).

ΒΣΣ µε τοπική γειτονιά

Σε αντίθεση µε τη ΒΣΣ µε ολική γειτονιά, η ΒΣΣ µε τοπική γειτονιά (local neigh­

bourhood) χρησιµοποιεί την κοινωνική γνώση µόνο της τοπικής γειτονιάς του κάθε

σωµατιδίου και όχι όλου του σµήνους. Με άλλα λόγια, τα σωµατίδια επηρεάζονται

από την καλύτερη ϑέση µέσα στη γειτονιά τους καθώς και από την προσωπική τους

καλύτερη ϑέση από την προηγούµενη ιστορία τους. Η συγκεκριµένη παραλλαγή

στηρίζεται στην τοπολογία του δακτυλίου (Σχήµα 2.2(ϐ)) όπου κάθε ένα σωµατίδιο

επικοινωνεί µόνο µε τα n προηγούµενα και τα n επόµενα σωµατίδια του για την

εύρεση του καλύτερου της γειτονιάς του. ∆ηλαδή η διαφορά σε σχέση µε τη ΒΣΣ µε

ολική γειτονιά έγκειται στη χρήση του BPgiκαι όχι του BPgl όπως ϕαίνεται και από

την Εξ. (2.9) που αναπαριστά τον κανόνα ανανέωσης των ταχυτήτων του σµήνους.

V(t+1)i = V

(t)i + c1 r1

(

BP(t)i − Z

(t)i

)

+ c2 r2

(

BP(t)gi− Z

(t)i

)

, i = 1, . . . , NP. (2.9)

Η ΒΣΣ µε τοπική γειτονιά ερευνά ένα µεγαλύτερο µέρος του χώρου αναζήτησης και

συχνά µπορεί και να επιτύχει καλύτερες λύσεις σε σχέση µε τη ΒΣΣ µε ολική γειτονιά

αλλά έχει πιο αργή σύγκλιση [23].

ΒΣΣ µε ϐάρος αδράνειας

Οι Εξ. (2.8) και (2.9) αποτελούν την πρώτη µορφή της ΒΣΣ η οποία δεν είχε ιδιαί-

τερα ικανοποιητική απόδοση εξαιτίας των αυθαίρετα µεγάλων τιµών που µπορούσαν

να πάρουν οι ταχύτητες του σµήνους, γεγονός που µπορεί να οδηγήσει σε πιθανή

έκρηξη του σµήνους (swarm explosion) και τελικά σε απόκλιση της µεθόδου. Μια

πρώτη ιδέα για την αντιµετώπιση του προβλήµατος είναι η ενσωµάτωση ενός ϕράγ-

µατος Vmax για την ταχύτητα όπου µετά τον υπολογισµό της νέας ταχύτητας Vi,

υπάρχει ο παρακάτω έλεγχος :

Page 46: noimosini sminous

2.4 Νοηµοσύνη Σµηνών 25

vij =

Vmax, αν vij > Vmax,

−Vmax, αν vij < −Vmax,

vij διαφορετικά.

(2.10)

Για τη ϐελτίωση της απόδοσης της µεθόδου, προτάθηκε µια νέα έκδοση της ΒΣΣ

η οποία εισάγει µια παράµετρο w που ελέγχει την επίδραση της προηγούµενης τιµής

της ταχύτητας του κάθε σωµατιδίου [93,94]. Είναι,

V(t+1)i = wV

(t)i + c1 r1

(

BP(t)i − Z

(t)i

)

+ c2 r2

(

BP(t)gi− Z

(t)i

)

, i = 1, . . . , NP. (2.11)

Η παράµετρος w ονοµάζεται ϐάρος αδράνειας (inertia weight) και συνήθως κα-

ϑορίζεται εµπειρικά. Μια καλή επιλογή είναι, να ξεκινήσει η εξέλιξη της µεθόδου µε

µια αρχική τιµή του w κοντά στη µονάδα και να µειώνεται σταδιακά προς το µηδέν.

΄Ετσι επιτυγχάνεται στην αρχή η ολική αναζήτηση του χώρου και µε το πέρασµα του

χρόνου µειώνεται η τιµή του w ϐοηθώντας την αναλυτικότερη τοπική αναζήτηση.

ΒΣΣ µε παράγοντα περιορισµού

Μια άλλη εκδοχή της ΒΣΣ είναι µια παρόµοια µορφή µε τη ΒΣΣ µε ϐάρος αδρά-

νειας, όπου οι ταχύτητες των σωµατιδίων ενηµερώνονται σύµφωνα µε την παρακάτω

εξίσωση,

V(t+1)i = χ

[

V(t)i +c1 r1

(

BP(t)i −Z

(t)i

)

+ c2 r2

(

BP(t)gi−Z

(t)i

)

]

, i = 1, . . . , NP, (2.12)

όπου χ είναι µια παράµετρος η οποία ονοµάζεται παράγοντας περιορισµού (constri­

ction factor) [15]. Παρόλο που οι Εξ. (2.11) και (2.12) είναι αλγεβρικά ισοδύναµες,

υπάρχουν σηµαντικές διαφορές όσον αφορά την επιλογή των αντίστοιχων παραµέ-

τρων. Συγκεκριµένα, ο παράγοντας περιορισµού υπολογίζεται αναλυτικά από τον

τύπο,

χ =2κ

|2− φ−√

φ2 − 4φ|, (2.13)

για φ > 4, όπου φ = c1 + c2 και κ = 1 σύµφωνα µε την ανάλυση ευαισθησίας των

Clerc and Kennedy [15,104]. Για να γίνει κατανοητός ο τρόπος λειτουργίας της ΒΣΣ,

παρουσιάζονται στο Σχήµα 2.3 τα απαιτούµενα ϐήµατα σε µορφή ψευδοκώδικα για

την περίπτωση της ΒΣΣ µε παράγοντα περιορισµού.

Μετά την παρουσίαση των αλγορίθµων ϐελτιστοποίησης και ιδιαίτερα των αλγο-

ϱίθµων του ΕΥ, ϑα δώσουµε µια σύντοµη εισαγωγή στις έννοιες των τεχνητών νευρω-

νικών δικτύων και συγκεκριµένα στα πιθανοτικά νευρωνικά δίκτυα πάνω στα οποίο

είναι στηριγµένη η διατριβή.

Page 47: noimosini sminous

26 Βασικές ΄Εννοιες Υπολογιστικής Νοηµοσύνης

Αλγόριθµος ΒΣΣ µε Παράγοντα Περιορισµού

Αρχικοποίηση του σµήνους Z(0)i , i = 1, 2, . . . , NP στο S.

Υπολόγισε τα h(

Z(0)i

)

i = 1, 2, . . . , NP .

Αρχικοποίηση των BP(0)i και BP

(0)gi

, i = 1, 2, . . . , NP .

For g = 0, MaxGen − 1 do:

Ενηµέρωσε ταχύτητες, V(g+1)i , i = 1, 2, . . . , NP µε χρήση της Εξ. (2.12).

Ενηµέρωσε σωµατίδια, Z(g+1)i = Z

(g)i + V

(g+1)i , i = 1, 2, . . . , NP .

Περιόρισε σωµατίδια, Z(g+1)i , i = 1, 2, . . . , NP στο S.

Υπολόγισε τα h(

Z(g+1)i

)

, i = 1, 2, . . . , NP .

Ενηµέρωσε τις προσωπικές ϐέλτιστες ϑέσεις BP(g+1)i , i = 1, 2, . . . , NP .

Ενηµέρωσε τη ϐέλτιστη ϑέση της γειτονιάς

κάθε σωµατιδίου BP(g+1)gi

, i = 1, 2, . . . , NP .

If (Συνθήκη Τερµατισµού) Then Stop.

EndFor

Σχήµα 2.3: Ψευδοκώδικας λειτουργίας της ΒΣΣ µε Παράγοντα Περιορισµού

2.5 Τεχνητά Νευρωνικά ∆ίκτυα

Ο εγκέφαλος είναι ένας πολύπλοκος, µη γραµµικός παράλληλος υπολογιστής

όπου έχει την ικανότητα να εκτελεί διεργασίες όπως η αναγνώριση προτύπων, η αν-

τίληψη και ο έλεγχος µηχανισµών, πολύ γρηγορότερα από οποιονδήποτε ηλεκτρονι-

κό υπολογιστή παρόλο που η ταχύτητα µεταφοράς των σηµάτων στα ολοκληρωµένα

κυκλώµατα του Η/Υ είναι της τάξης των δισεκατοµµυριοστών του δευτερολέπτου ε-

νώ στους νευρώνες του εγκεφάλου είναι της τάξης των χιλιοστών του δευτερολέπτου.

Επιπλέον, άλλα χαρακτηριστικά του εγκεφάλου όπως η ικανότητα να µαθαίνει, να

αποµνηµονεύει αλλά και να γενικεύει, κίνησαν το ενδιαφέρον για έρευνα στην αλγο-

ϱιθµική µοντελοποίηση των συστηµάτων ϐιολογικών νευρώνων τα οποία καλούνται

Τεχνητά Νευρωνικά ∆ίκτυα (ΤΝ∆) (Artificial Neural Networks).

Το ϐασικό δοµικό στοιχείο ενός συστήµατος ϐιολογικών νευρώνων είναι το νευ-

ϱικό κύτταρο το οποίο καλείται νευρώνας. ΄Οπως απεικονίζεται και στο Σχήµα (2.4),

ένας νευρώνας αποτελείται από το σώµα, τους δενδρίτες και τον άξονα. Οι νευρώνες

είναι µαζικά διασυνδεδεµένοι όπου η σύνδεση γίνεται µεταξύ του άξονα του ενός

νευρώνα µε τον δενδρίτη ενός άλλου νευρώνα. Η σύνδεση αυτή καλείται σύναψη

και το σήµα µεταδίδεται από τους δενδρίτες µέσω του σώµατος του κυττάρου στον

άξονα και από εκεί µεταφέρεται σε όλους τους διασυνδεδεµένους δενδρίτες. Το σήµα

µεταφέρεται στον άξονα ενός νευρώνα µόνο όταν ενεργοποιείται το κύτταρο.

΄Ενας τεχνητός νευρώνας (ΤΝ) είναι ένα µοντέλο ενός ϐιολογικού νευρώνα όπου

κάθε ΤΝ δέχεται σήµατα από το περιβάλλον ή από άλλους ΤΝ, συλλέγει τα σήµατα

Page 48: noimosini sminous

2.5 Τεχνητά Νευρωνικά ∆ίκτυα 27

Σχήµα 2.4: Βιολογικός Νευρώνας

αυτά και όταν ενεργοποιηθεί, µεταδίδει το σήµα σε όλους τους συνδεδεµένους µε

αυτόν ΤΝ. Τα σήµατα εισόδου ενισχύονται ή µειώνονται µέσω των ϑετικών ή αρνητι-

κών αριθµητικών ϐαρών που σχετίζονται µε κάθε σύνδεση του ΤΝ, όπως ϕαίνεται και

από το Σχήµα (2.5). Η ενεργοποίηση ενός ΤΝ και η ισχύς του εξερχόµενου σήµατος

ελέγχονται µέσω µιας συνάρτησης που καλείται συνάρτηση ενεργοποίησης. ΄Ενας

ΤΝ συλλέγει όλα τα εισερχόµενα σήµατα και υπολογίζει το συνολικό σήµα εισόδου

ως συνάρτηση των αντιστοίχων ϐαρών. Το συνολικό σήµα εισάγεται στη συνάρτηση

ενεργοποίησης η οποία υπολογίζει το σήµα εξόδου του ΤΝ.

Με τον όρο ΤΝ∆ εννοούµε ένα δίκτυο από ΤΝ οργανωµένους σε επίπεδα (layers),

δηλαδή ο κάθε ΤΝ ϑεωρείται ως ένα ανεξάρτητο υπολογιστικό στοιχείο και τελικά ένα

ΤΝ∆ είναι ένας µαζικά παράλληλος κατανεµηµένος επεξεργαστής. ΄Ενα ΤΝ∆ µπορεί

να απαρτίζεται από ένα επίπεδο εισόδου, ένα ή και περισσότερα κρυφά επίπεδα και

ένα επίπεδο εξόδου. Οι ΤΝ ενός επιπέδου συνδέονται πλήρως ή και µερικώς µε τους

ΤΝ του επόµενου επιπέδου. Αν η διάδοση του σήµατος πραγµατοποιείται έτσι ώστε

κάθε νευρώνας να έχει ως είσοδο την έξοδο ενός νευρώνα του προηγούµενου ή των

προηγούµενων επιπέδων, τότε καλείται ΤΝ∆ πρόσθιας τροφοδότησης (feedforward).

Υπάρχει και η δυνατότητα σύνδεσης ενός ΤΝ µε προηγούµενα επίπεδα οπότε υπάρ-

χει η δυνατότητα ανάδρασης (feedback) του σήµατος. Η δοµή ενός τυπικού ΤΝ∆

απεικονίζεται στο Σχήµα (2.6).

΄Εχουν αναπτυχθεί αρκετοί τύποι ΤΝ∆ οι οποίοι χρησιµοποιούνται σε ένα µεγάλο

ϕάσµα εφαρµογών, όπως η διάγνωση ασθενειών, η αναγνώριση προτύπων, η εξόρυ-

Page 49: noimosini sminous

28 Βασικές ΄Εννοιες Υπολογιστικής Νοηµοσύνης

Σχήµα 2.5: Τεχνητός Νευρώνας

ξη γνώσης, η σύνθεση µουσικής, η επεξεργασία εικόνας, ο έλεγχος ϱοµποτικής, η

έγκριση πιστοληπτικής ικανότητας, η συµπίεση δεδοµένων και πολλά άλλα. ΄Ενας

από τους γνωστούς τύπους των ΤΝ∆ που χρησιµοποιείται ευρέως είναι τα Πιθανοτικά

Νευρωνικά ∆ίκτυα που ϑα αναλύσουµε παρακάτω.

2.6 Πιθανοτικά Νευρωνικά ∆ίκτυα

Τα Πιθανοτικά Νευρωνικά ∆ίκτυα (ΠΝ∆) (Probabilistic Neural Networks) τα οποία

προτάθηκαν από τον D. Specht το 1990, αποτελούν µια κλάση ΤΝ∆ που συνδυάζουν

κάποια από τα επιθυµητά στοιχεία της στατιστικής αναγνώρισης προτύπων και των

ΤΝ∆ πρόσθιας τροφοδότησης και χρησιµοποιούνται κυρίως σε προβλήµατα ταξινό-

µησης [96]. Θα µπορούσε κάποιος να ισχυριστεί ότι τα ΠΝ∆ είναι η υλοποίηση της

∆ιαχωριστικής Ανάλυσης (∆Α) µε χρήση συναρτήσεων πυρήνων στο πλαίσιο εργασίας

των ΤΝ∆. Σε αντίθεση µε τα περισσότερα ΤΝ∆, τα οποία ακολουθούν τη ϕιλοσοφία

του «µαύρου κουτιού» (black box systems), τα ΠΝ∆ χρησιµοποιούν τον κανόνα τα-

ξινόµησης του Bayes για την ταξινόµηση προτύπων [83,85] µε τις γνωστές ϐέλτιστες

ιδιότητες που αναφέρονται στο Κεφάλαιο 1. Τα ΠΝ∆ ενσωµατώνουν επίσης τη µη

παραµετρική εκτίµηση της συνάρτησης πυκνότητας πιθανότητας του Parzen [79,96]

και επιπλέον µπορεί να υπολογιστεί η συνεισφορά του κάθε ΤΝ του ΠΝ∆ στην τελι-

κή ταξινόµηση, κάτι που δεν είναι εφικτό στα περισσότερα ΤΝ∆. Το κλασσικό ΠΝ∆

µπορεί να ϑεωρηθεί ως µια «ευφυής µνήµη» καθώς κάθε παρατήρηση του συνόλου

εκπαίδευσης αποθηκεύεται σε ένα ΤΝ του ΠΝ∆ [7]. Τα ΠΝ∆ απαιτούν ένα πολύ

µικρό χρόνο εκπαίδευσης για την κατασκευή τους, καθώς δεν απαιτείται εκτίµηση

των συντελεστών ϐάρους παρά µόνο µια απλή προσπέλαση όλων των παρατηρήσε-

Page 50: noimosini sminous

2.6 Πιθανοτικά Νευρωνικά ∆ίκτυα 29

Σχήµα 2.6: Τεχνητό Νευρωνικό ∆ίκτυο

ων του συνόλου εκπαίδευσης. Βέβαια, αυτά τα επιθυµητά χαρακτηριστικά έρχονται

µαζί µε το κόστος των µεγάλων απαιτήσεων σε µνήµη και του σχετικά αργού χρόνου

εκτέλεσης της ταξινόµησης µιας άγνωστης παρατήρησης σε κάποια από τις προκα-

ϑορισµένες κλάσεις [96].

2.6.1 ∆οµή και Λειτουργία

Η δοµή ενός ΠΝ∆ είναι παρόµοια µε αυτή ενός ΤΝ∆ πρόσθιας τροφοδότησης αλλά

είναι πάντοτε περιορισµένη σε τέσσερα επίπεδα όπως ϕαίνεται και στο Σχήµα 2.7.

Τα επίπεδα του ΠΝ∆ είναι :

• Επίπεδο Εισόδου (Input Layer)

• Επίπεδο Προτύπων (Pattern Layer)

• Επίπεδο ΄Αθροισης (Summation Layer)

• Επίπεδο Εξόδου (Output Layer)

΄Εστω Ttr ένα σύνολο εκπαίδευσης του ΠΝ∆ και Ntr ο αριθµός των διανυσµάτων

χαρακτηριστικών (παρατηρήσεις) που ανήκουν στο Ttr. Ορίζουµε ως Nk τον αριθµό

Page 51: noimosini sminous

30 Βασικές ΄Εννοιες Υπολογιστικής Νοηµοσύνης

Σχήµα 2.7: Πιθανοτικό Νευρωνικό ∆ίκτυο

X1 X2 X p

F1,1 F1,N1F2,1 F2,N2

FK,1 FK,NK

1G 2G KG

C

a

των διανυσµάτων εκπαίδευσης που προέρχονται από τον πληθυσµό k, k = 1, 2, . . . , K

όπου K είναι το πλήθος των προκαθορισµένων κλάσεων.

Ntr =

K∑

k=1

Nk

Υποθέτοντας ότι εργαζόµαστε σε ένα p–διάστατο πρόβληµα ταξινόµησης, έστω xik ∈R

p το i-οστό διάνυσµα χαρακτηριστικών της κλάσης k όπου i = 1, 2, . . . , Nk, k =

1, 2, . . . , K.

Το επίπεδο εισόδου αποτελείται από p ΤΝ εισόδου οι οποίοι απλά µεταφέρουν

στους ΤΝ του επιπέδου προτύπων το διάνυσµα που δίνεται ως είσοδος στο ΠΝ∆. Κά-

ϑε συνιστώσα ενός διανύσµατος εισόδου x = [x1, x2, . . . , xp]⊤ ∈ R

p εφαρµόζεται στον

αντίστοιχο ΤΝ του επιπέδου εισόδου. Για κάθε διάνυσµα xik του συνόλου εκπαίδευ-

σης, κατασκευάσουµε ένα ΤΝ στο επίπεδο προτύπων του ΠΝ∆. Οι Ntr ΤΝ προτύπων

που απαρτίζουν το επίπεδο προτύπων, είναι διαιρεµένοι σε K οµάδες. Σε κάθε

µια οµάδα k, k = 1, 2, . . . , K, ανήκουν οι Nk ΤΝ που ϐασίζονται στα διανύσµατα

χαρακτηριστικών xik, i = 1, 2, . . . , Nk του συνόλου εκπαίδευσης και προφανώς προ-

έρχονται από τον πληθυσµό k. Ο i–οστός ΤΝ προτύπων της k οµάδας χρησιµοποιεί

ως συνάρτηση ενεργοποίησης µια πολυδιάστατη, κανονικής κατανοµής, συνάρτηση

πυρήνα µε κέντρο xik της παρακάτω µορφής,

fik(x) =1

(2 π)p/2 |Σ |1/2exp

(

−1

2(x− xik)

⊤Σ

−1(x− xik)

)

(2.14)

όπου ο πίνακας Σ καθορίζει το µέγεθος και το σχήµα του πεδίου δράσης της συ-

νάρτησης πυρήνα και καλείται πίνακας παραµέτρων λείανσης (spread, smoothing).

Στην αρχική του εκδοχή, ο Specht περιόρισε τον Σ σε µια και µόνο ολική παράµετρο

λείανσης σ2 [96]. Αντικαθιστώντας το Σ = σ2Ιp, όπου Ιp είναι ο µοναδιαίος πίνακας

Page 52: noimosini sminous

2.6 Πιθανοτικά Νευρωνικά ∆ίκτυα 31

p τάξης, η Σχέση (2.14) παίρνει την ακόλουθη µορφή,

fi,k(x) =1

(2 π σ2)p/2exp

(

−‖x− xi,k‖22σ2

)

.

Η έξοδος του συγκεκριµένου ΤΝ προτύπων συνδέεται µε τον ΤΝ του επιπέδου

άθροισης που αντιστοιχεί στην κλάση k από την οποία προέρχεται το xik. ∆ηλαδή, το

επίπεδο άθροισης αποτελείται από K ΤΝ, όπου κάθε ένας αντιστοιχεί σε µια από τις

K κλάσεις. Σε κάθε ΤΝ του επιπέδου άθροισης, υπολογίζεται το άθροισµα των εξόδων

των ΤΝ προτύπων της αντίστοιχης κλάσης και πολλαπλασιάζεται µε ένα συντελεστή

ϐάρους wk

Gk(x) = wk

Mk∑

i=1

fi,k(x), k = 1, 2, . . . , K, (2.15)

όπου wk είναι ένας ϑετικός συντελεστής που ισούται µε την εκ των προτέρων πιθα-

νότητα πk της κλάσης k και ικανοποιεί τη σχέση

K∑

k=1

wk = 1.

Με άλλα λόγια, το επίπεδο άθροισης του ΠΝ∆ εκτιµά την εκ των υστέρων πιθα-

νότητα της κάθε κλάσης, δοθέντος του διανύσµατος χαρακτηριστικών x, µέσω ενός

αθροίσµατος των υπολογισµένων συναρτήσεων πυρήνων των ΤΝ προτύπων της αντί-

στοιχης κλάσης.

΄Ενα διάνυσµα εισόδου x ταξινοµείται στην κλάση που αντιστοιχεί στον ΤΝ άθροι-

σης που πέτυχε τη µεγαλύτερη τιµή εξόδου.

C(x) = arg max16k6K

Gk . (2.16)

Θα πρέπει να σηµειωθεί ότι, οι εκ των προτέρων πιθανότητες πk εξαρτώνται κάθε

ϕορά από το υπό εξέταση πρόβληµα και δεν είναι πάντα εφικτό να τις εκτιµήσουµε

από το σύνολο εκπαίδευσης καθώς το σύνολο αυτό µπορεί να µην περιέχει αξιόπιστες

πληροφορίες ως προς τις πk [101].

Τα ΠΝ∆ που χρησιµοποιούν µια κοινή παράµετρο λείανσης καλούνται οµοσκε-

δαστικά (homoscedastic). Από την άλλη πλευρά, όταν ο πίνακας των παραµέτρων

λείανσης Σ είναι µεν διαγώνιος αλλά τα στοιχεία της κυρίας διαγωνίου δεν είναι απα-

ϱαίτητα ίσα µεταξύ τους, τότε έχουµε το ετεροσκεδαστικό (heteroscedastic) ΠΝ∆ [97].

Με αυτό τον τρόπο επιτρέπουµε στο ΠΝ∆ να έχει διαφορετική παράµετρο κλίµακας

σε κάθε διάσταση του προβλήµατος και όχι µια κοινή παράµετρο λείανσης. Και

στις δύο περιπτώσεις, ο πίνακας των παραµέτρων λείανσης είναι διαγώνιος δηλαδή

έχουµε την ιδιότητα της σφαιρικότητας.

Page 53: noimosini sminous

32 Βασικές ΄Εννοιες Υπολογιστικής Νοηµοσύνης

2.6.2 Χρησιµότητα

Μια επιπλέον χρησιµότητα των ετεροσκεδαστικών ΠΝ∆, εκτός της ταξινόµησης,

είναι και η δυνατότητα επιλογής των ϐέλτιστων µεταβλητών, από το σύνολο των µετα-

ϐλητών, δηλαδή των διαστάσεων του προβλήµατος. Αν η διάσταση του προβλήµατος

είναι µεγάλη, µπορεί κάποιες µεταβλητές να µη ληφθούν υπόψη αν δεν προσφέρουν

επιπλέον πληροφορία ή αν η πληροφορία που περιέχουν οι συγκεκριµένες µεταβλη-

τές προσφέρεται από κάποιες άλλες µεταβλητές. ΄Ενας εµπειρικός κανόνας είναι, να

αποκλείουµε µια µεταβλητή όταν η παράµετρος λείανσης της συγκεκριµένης µετα-

ϐλητής είναι αρκετά µεγάλη σε σχέση µε τις υπόλοιπες παραµέτρους, δηλαδή όταν

δεν παίζουν σηµαντικό ϱόλο στον υπολογισµό των εξόδων του ΠΝ∆.

2.6.3 Περιορισµοί

΄Ενα πρόβληµα των ΠΝ∆ είναι η γνωστή «κατάρα» της διάστασης (curse of dimen­

sionality). ’Οταν η διάσταση ενός συνόλου δεδοµένων είναι αρκετά µεγάλη και τα

δεδοµένα λίγα, πολλές ϕορές, τα ΠΝ∆ δεν επιτυγχάνουν πολύ καλά αποτελέσµατα.

Επίσης, ένα άλλο χαρακτηριστικό που µπορεί να επηρεάσει την αποδοτικότητα των

ΠΝ∆ είναι και η ύπαρξη εξαρτηµένων µεταβλητών σε ένα σύνολο δεδοµένων. Το

ϐασικότερο στοιχείο που επηρεάζει σηµαντικά την απόδοση των ΠΝ∆ είναι η επιλο-

γή του πίνακα των παραµέτρων λείανσης και πάνω σε αυτό έχουν προταθεί αρκετοί

αλγόριθµοι για τη ϐέλτιστη επιλογή αυτών των παραµέτρων.

2.6.4 Εφαρµογές–Παραλλαγές

Βιοπληροφορική–Ιατρική

Τα ΠΝ∆ έχουν χρησιµοποιηθεί σε πληθώρα προβληµάτων από διάφορα πεδία

των επιστηµών µε αρκετά ενθαρρυντικά αποτελέσµατα. Μια εκτενής µελέτη των δυ-

νατοτήτων των ΠΝ∆ έχει πραγµατοποιηθεί από τον Huang [54] ο οποίος προτείνει

παράλληλα και µια µέθοδο εξαγωγής χαρακτηριστικών (feature extraction) πάνω σε

προβλήµατα ταξινόµησης καρκίνου. Τα πειραµατικά αποτελέσµατα του έδειξαν ότι

ο συνδυασµός των ΠΝ∆ και της µεθόδου εξαγωγής χαρακτηριστικών µπορούν να πε-

τύχουν 100% επιτυχία διαχωρισµού µεταξύ ALL (Acute Lymphoblastic Leukaimia)

και AML (Acute Myeloid Leukaimia) το οποίο ϑεωρείται ένα τυπικό πρόβληµα ταξι-

νόµησης καρκίνου. Επίσης, κατάφερε να πετύχει ικανοποιητικά αποτελέσµατα σε

δύο σύνολα δεδοµένων από καρκίνο του παχέος εντέρου [54].

Μια άλλη παραλλαγή των ΠΝ∆ είναι αυτή που προτάθηκε από τους Gorunescu

et al. [47]. Για την εκτίµηση των παραµέτρων λείανσης του ΠΝ∆ κατασκευάζουν

διαστήµατα εµπιστοσύνης των µέσων αποστάσεων µεταξύ των κέντρων των κλάσεων

µε ακτίνα τριών τυπικών αποκλίσεων και έπειτα χρησιµοποιούν τη µέθοδο Monte

Carlo για να αναζητήσουν την ϐέλτιστη παράµετρο λείανσης της κάθε κλάσης. Το

προτεινόµενο ΠΝ∆ έχει χρησιµοποιηθεί µε επιτυχία για τη διάγνωση του καρκίνου

Page 54: noimosini sminous

2.6 Πιθανοτικά Νευρωνικά ∆ίκτυα 33

του ήπατος. Επίσης, έχουν προτείνει και µια πιο πρόσφατη παραλλαγή του µοντέλου

τους όπου ενσωµατώνουν έναν αλγόριθµο αυξητικής (incremental) αναζήτησης για

την επιλογή της ϐέλτιστης περιοχής αναζήτησης κάθε παραµέτρου λείανσης [46].

΄Ενας διαφορετικός τρόπος αναζήτησης των ϐέλτιστων παραµέτρων λείανσης προ-

τείνεται από τους Galleske et al. [32], όπου εισηγούνται µια διαδικασία ανάλυσης

του πίνακα των παραµέτρων λείανσης χρησιµοποιώντας δύο πίνακες. Αρχικά κα-

τασκευάζεται ένας πίνακας περιστροφής και έπειτα υπολογίζεται ένας πίνακας συν-

διακύµανσης αναλύοντας το περιβάλλον του κάθε διανύσµατος χαρακτηριστικών του

συνόλου εκπαίδευσης. Το προτεινόµενο ΠΝ∆ έχει εφαρµοστεί στο γνωστό πρόβληµα

των δύο ελικοειδών, στο σύνολο δεδοµένων για δυσλειτουργία ήπατος BUPA και στο

πρόβληµα διάγνωσης διαβήτη σε ινδιάνους Pima.

Μια άλλη εφαρµογή των ΠΝ∆ είναι η ανάπτυξη NMR-ϐασισµένων µεταβονοµικών

µοντέλων για την πρόβλεψη της ξενοβιοτικά προκαλούµενης τοξικότητας σε πειρα-

µατόζωα και πιθανή χρήση τους σε επιταχυνόµενα ϕάρµακα [107].

Τα ΠΝ∆ έχουν επίσης εξεταστεί για το σχεδιασµό ενός αυτόµατου, αξιόπιστου

και αποδοτικού συστήµατος πρόβλεψης της ϑέσης πρωτεϊνών στο κύτταρο το οποίο

είναι απαραίτητο για µεγάλης κλίµακας γονιδιακή ανάλυση [49]. ΄Ενα ΠΝ∆ και ένας

αλγόριθµος boosting έχουν ενσωµατωθεί σε ένα σύστηµα πρόβλεψης που πέτυχε

ανώτερη απόδοση συγκρινόµενο µε προϋπάρχοντες αλγόριθµους.

Επιπλέον, µια άλλη εφαρµογή των ΠΝ∆ είναι στην ανάλυση εικόνας από µαγνη-

τική τοµογραφία όπου το ΠΝ∆ προσπαθεί να αναγνωρίσει δυσδιάκριτες αλλαγές σε

ποσότητες εγκεφαλικού ιστού που σχετίζονται µε τη διάγνωση νευρολογικών ασθε-

νειών [107].

Τέλος, τα ΠΝ∆ χρησιµοποιούνται για την εκτίµηση του κινδύνου ϑνησιµότητας

µετά από µια εγχείριση καρδιάς [76].

∆ιάφορες Εφαρµογές

Μια ενδιαφέρουσα παραλλαγή προτάθηκε από τους Specht & Romsdahl όπου

προσαρµόζουν ξεχωριστές παραµέτρους λείανσης για κάθε διάσταση και όπως ισχυ-

ϱίζονται, ϐελτιώνεται αισθητά η ικανότητα γενίκευσης του ΠΝ∆ [97]. Συγκεκριµένα,

η αυτόµατη προσαρµογή επιτυγχάνεται µε τη χρήση ενός κριτηρίου ϐελτιστοποί-

ησης, το οποίο µεγιστοποιείται εφαρµόζοντας µια µέθοδο συζυγών κατευθύνσεων

(conjugate gradient descent). Για την επίτευξη του περιορισµού των παραµέτρων

λείανσης ώστε να παίρνουν ϑετικές τιµές, επιστρατεύτηκε η µέθοδος Brent [81]. Μια

λίγο διαφορετική παραλλαγή του Specht προτείνει τη χρήση ενός δεύτερου κριτηρί-

ου ϐελτιστοποίησης µόνο στις κλάσεις όπου έχουµε εσφαλµένη ταξινόµηση, το οποίο

ϐασίζεται στις µέσες τιµές των λογαρίθµων των λόγων πιθανοφανειών µεταξύ των ε-

σφαλµένα ταξινοµηµένων παρατηρήσεων και των σωστά ταξινοµηµένων [95]. Και τα

δύο ΠΝ∆ έχουν εφαρµοστεί σε µια πλειάδα προβληµάτων όπως η παρακολούθηση

συστηµάτων αεροσκάφους, η αυτόµατη στόχευση, η αναγνώριση πορείας πυραύλου,

ο έλεγχος πίεσης προπέλας και η αναγνώριση ανωµαλιών στη λειτουργία µηχανής.

Page 55: noimosini sminous

34 Βασικές ΄Εννοιες Υπολογιστικής Νοηµοσύνης

Μια διαφορετική εφαρµογή των ΠΝ∆ είναι η χρήση τους στην αναγνώριση και

επιβεβαίωση της ϕωνής ενός οµιλητή, ανεξάρτητα από το κείµενο που διαβάζει, από

µια ϐάση δεδοµένων ϕωνής 50 ανδρών οµιλητών [33,34]. Το ΠΝ∆ έχει τροποποιηθεί

έτσι ώστε να µπορεί να συλλάβει τις συσχετίσεις των διαφόρων χαρακτηριστικών της

ϕωνής, που υπάρχουν στα σήµατα οµιλίας µέσω µια διαδικασίας ανάδρασης. Για

να επιτευχθεί αυτό, έχει αλλάξει η δοµή του ΠΝ∆ έτσι ώστε κάθε ΤΝ άθροισης να

δέχεται ως είσοδο όχι µόνο τις τρέχουσες και τις παλαιότερες τιµές της εισόδου και της

εξόδου του αλλά να είναι και πλήρως διασυνδεδεµένος µε τους υπόλοιπους νευρώνες

του ίδιου επιπέδου. ΄Εχουν προταθεί δύο παραλλαγές όπου στη µια έχουµε τοπική

ανάδραση και στην άλλη έχουµε γενικευµένη ανάδραση.

Επιπλέον, οι Yiu et al. [115] χρησιµοποίησαν τρεις διαφορετικές παραλλαγές

των ΠΝ∆ για ένα πρόβληµα αναγνώρισης της ϕωνής ενός οµιλητή. Και στις τρεις

περιπτώσεις, η εκτίµηση των παραµέτρων των συναρτήσεων πυρήνων των ΠΝ∆ επι-

τεύχθηκε µέσω µιας επαναληπτικής διαδικασίας ενηµέρωσης ϐασισµένη στον ΕΜ

(Expectation–Maximization) αλγόριθµο.

Μια ϐελτιωµένη εκδοχή των ΠΝ∆ είναι το παράλληλο ΠΝ∆ όπου, χρησιµοποιών-

τας µια διαφορετική δοµή και συγκεκριµένα µια στερεοτοπολογία, µπορεί να υ-

λοποιηθεί µε τη χρήση µιας συστάδας παράλληλων επεξεργαστών και να επιτύχει

ικανοποιητικά αποτελέσµατα σε αρκετά µικρό χρόνο [113]. Το προτεινόµενο παράλ-

ληλο ΠΝ∆ έχει εφαρµοστεί στο γνωστό πρόβληµα της αποκλειστικής διάζευξης (XOR),

σε προβλήµατα ελέγχου ισοτιµίας (parity check) και σε ένα πρόβληµα απεικόνισης

µιας παραβολικής συνάρτησης.

Για την περίπτωση όπου υπάρχει επικάλυψη στα δεδοµένα των κλάσεων, οι Del­

gosha et al. [16] πρότειναν ένα ΠΝ∆ το οποίο ενσωµατώνει µια λογιστική σιγµοειδή

συνάρτηση ποινής για τις περιπτώσεις εσφαλµένης ταξινόµησης. Το προτεινόµενο

ΠΝ∆ καλείται ασαφές (fuzzy) ΠΝ∆ και έχει εφαρµοστεί σε δύο προβλήµατα αποκλει-

στικής διάζευξης (XOR) για επικαλυπτόµενες κλάσεις.

Σε προβλήµατα που υπάρχουν διαφορετικά είδη µεταβλητών, οι Randall & Mar­

tinez προτείνουν τη χρήση διαφορετικής µετρικής ανά περίπτωση για τα ΠΝ∆ [110].

Για την περίπτωση µεταβλητών µε ονοµαστική κλίµακα µέτρησης προτείνουν τη χρή-

ση της Μετρικής ∆ιαφοράς Τιµής (Value Difference Metric) [99] ενώ για τις µεταβλη-

τές µε συνεχή κλίµακα προτείνουν τις ετερογενείς συναρτήσεις απόστασης [111].

Οι Selekwa et al. [89] χρησιµοποίησαν ένα ΠΝ∆ για ταξινόµηση οχηµάτων σε

µεγάλες κατηγορίες. Η συλλογή των δεδοµένων πραγµατοποιήθηκε συνδυάζοντας

ένα σύνολο αισθητήρων και µια ϐιντεοκάµερα όπου κατέγραφε την κίνηση των δρό-

µων. Από την καταγραφή της εικόνας του κάθε αυτοκινήτου, υπολογίζονταν κάποια

ϐασικά στοιχεία όπως το µήκος του οχήµατος, ο αριθµός των αξόνων του και άλλα

στοιχεία πάνω στα οποία ϐασιζόταν ένα ΠΝ∆ για να ταξινοµήσει ένα όχηµα σε ποια

κατηγορία ανήκει. Τα ΠΝ∆ εφαρµόστηκαν για διάφορα σχήµατα ταξινόµησης τα

οποία αποτελούνταν από 7 µέχρι και 32 διαφορετικές κατηγορίες οχηµάτων.

Μια παραλλαγή των ΠΝ∆ που πρότειναν οι Yang & Chen, αρχικά ενσωµατώνει τη

χρήση διαφορετικών παραµέτρων λείανσης για κάθε µεταβλητή [114]. Για την εκπαί-

Page 56: noimosini sminous

2.6 Πιθανοτικά Νευρωνικά ∆ίκτυα 35

δευση του προτεινόµενου ΠΝ∆ χρησιµοποιείται η τεχνική Jack–knife µαζί µε έναν

ΕΜ αλγόριθµο για την κατασκευή ανθεκτικών εκτιµητών µέγιστης πιθανοφάνειας

των παραµέτρων του ΠΝ∆. Το προτεινόµενο ΠΝ∆ έχει εφαρµοστεί σε ένα τεχνητό

πρόβληµα αποκλειστικής διάζευξης σε δύο διαστάσεις και σε ένα πραγµατικό πρό-

ϐληµα πρόβλεψης της οικονοµικής επιβίωσης ιδιωτικών κατασκευαστικών εταιριών

στο Ηνωµένο Βασίλειο.

Οι Berthold & Diamond πρότειναν έναν κατασκευαστικό αλγόριθµο εκπαίδευ-

σης των ΠΝ∆ ο οποίος ϐασίζεται στη ιδέα του διαχωρισµού µεταξύ των «ταιριαστών»

και των «συγκρουόµενων» γειτόνων [7]. Σε κάθε επανάληψη του αλγορίθµου εκπαί-

δευσης προσθέτονται νέοι νευρώνες, δηλαδή ο αριθµός των απαιτούµενων νευρώνων

καθορίζεται κατά τη διάρκεια της εκπαίδευσης. Με το ίδιο σκεπτικό, η διαφορετική

παράµετρος λείανσης κάθε πυρήνα καθορίζεται δυναµικά κατά τη διάρκεια της εκ-

παίδευσης. Ο προτεινόµενος κατασκευαστικός αλγόριθµος εκπαίδευσης των ΠΝ∆ έ-

χει εφαρµοστεί σε 8 πραγµατικά προβλήµατα από τη ϐάση δεδοµένων STATLOG [61]

µε ικανοποιητικά αποτελέσµατα.

΄Ενας διαφορετικός τρόπος εκπαίδευσης ενός ΠΝ∆, αντί της χρήσης εκτιµητών µέ-

γιστης πιθανοφάνειας για τις παραµέτρους του µοντέλου, προτάθηκε από τους Tiam

& Azimi–Sadjadi όπου ελαχιστοποιούν µια συνάρτηση που προσεγγίζει τον αριθµό

των εσφαλµένων ταξινοµήσεων [103]. Η συνάρτηση αυτή δεν είναι παραγωγίσιµη

και για να µπορέσουν να εκτιµήσουν τις παραµέτρους του ΠΝ∆, χρησιµοποιούν µια

παραγωγίσιµη συνάρτηση που προσεγγίζει την προαναφερθείσα συνάρτηση. Το προ-

τεινόµενο ΠΝ∆ έχει εφαρµοστεί σε προβλήµατα ταξινόµησης σύννεφων ϐασισµένα σε

εικόνες από δορυφόρο.

Μια «ευωδιαστή» εφαρµογή των ΠΝ∆ είναι η χρησιµοποίηση ενός ΠΝ∆ για το

διαχωρισµό οσµών. Συγκεκριµένα, επιλέχθηκαν 133 συνθέσεις αρωµάτων για σύγ-

κριση [62]. Η ταξινόµηση που προτείνει το ΠΝ∆ ϐασίζεται σε µοριακές µετρήσεις των

χηµικών δοµών των αρωµάτων.

Η αναγνώριση και ταξινόµηση ενός ελαττωµατικού προϊόντος στη ϐιοµηχανία χά-

λυβα είναι µια σηµαντική ϕάση της παραγωγικής διαδικασίας και για τον έλεγχο της

διαδικασίας χρησιµοποιήθηκε ένα ΠΝ∆ [12]. Για τον έλεγχο ενός ελαττωµατικού

προϊόντος χρησιµοποίησαν τον έλεγχο ϱεύµατος Eddy (Eddy Current Testing), δη-

λαδή η αναγνώριση ϐασίστηκε στα δεδοµένα που συλλέχθηκαν κατά την ολίσθηση

του αισθητήρα πάνω στο υπό εξέταση αντικείµενο. Για την ταξινόµηση χρησιµοποι-

ήθηκε το ΠΝ∆ στραµµένου πυρήνα [31] ενσωµατώνοντας τέσσερα διαφορετικά είδη

συναρτήσεων πυρήνων.

Οι Raghu & Yegnanarayana χρησιµοποίησαν ένα ΠΝ∆ για προβλήµατα ταξινό-

µησης εικόνων υφής (texture) [83]. Το πρόβληµα της ταξινόµησης υφών ϑεωρήθηκε

ως ένα πρόβληµα ικανοποίησης περιορισµών το οποίο αναλύεται σε τρεις διαδικασί-

ες : τη διαδικασία µορφοποίησης χαρακτηριστικών, τη διαδικασία τµηµατοποίησης

και τη διαδικασία ανάδειξης χαρακτηρισµών. Το ΠΝ∆ ενσωµατώθηκε στη διαδικασία

µορφοποίησης χαρακτηριστικών µε ικανοποιητικά αποτελέσµατα.

Μια διαφορετική εκδοχή των ΠΝ∆ προτάθηκε από τον Montana όπου χρησι-

Page 57: noimosini sminous

36 Βασικές ΄Εννοιες Υπολογιστικής Νοηµοσύνης

µοποιεί ένα διαγώνιο πίνακα παραµέτρων λείανσης οι οποίες δεν είναι απαραίτητα

ίσες µεταξύ τους [72]. Το προτεινόµενο ΠΝ∆ καλείται σταθµισµένο ΠΝ∆ και για

την εκτίµηση των παραµέτρων λείανσης χρησιµοποιείται ένας γενετικός αλγόριθµος

που ελαχιστοποιεί το Leave–One–Out σφάλµα ταξινόµησης. Το σταθµισµένο ΠΝ∆

εφαρµόστηκε σε τέσσερα προβλήµατα µε προσοµοιωµένα δεδοµένα.

Τα ΠΝ∆ έχουν εφαρµοστεί από τους Romero et al. για την οπτική αναγνώριση

κινέζικων χαρακτήρων [85]. Το συγκεκριµένο πρόβληµα ϑεωρείται ιδιαίτερα δύσκο-

λο καθώς η κινέζικη γλώσσα δεν χρησιµοποιεί αλφάβητο και έτσι δεν µπορεί να

χρησιµοποιηθεί ένα λεξικό που να ϐελτιώσει την απόδοση του ΠΝ∆.

Τέλος, µια πιο «διασκεδαστική» εφαρµογή των ΠΝ∆ είναι η εκµάθηση ενός ΠΝ∆

να παίζει το γνωστό παιχνίδι «Τρίλιζα» [48]. Συγκεκριµένα, ένα ΠΝ∆ εκπαιδεύεται στο

να δίνει µια εκτίµηση του πόσο καλό και επικερδές είναι να τοποθετήσουµε ένα ‘×’

σε κάθε κενή ϑέση. Η εκπαίδευση του ΠΝ∆ επιτυγχάνεται µέσω µιας ακολουθιακής

εκτίµησης των παραµέτρων χρησιµοποιώντας έναν ΕΜ αλγόριθµο.

Page 58: noimosini sminous

Κ Ε Φ Α Λ Α Ι Ο 3

Πειραµατική Μεθοδολογία

Τίποτα δεν είναι τόσο

πρακτικό όσο η Θεωρία.

—J. Robert Oppenheimer (1904–1967)

3.1 Εισαγωγή

Οι αλγόριθµοι µηχανικής µάθησης κατασκευάζουν ταξινοµητές που εξαρτώνται

από το σύνολο εκπαίδευσης οπότε δεν είναι εύκολο να συγκρίνουµε δυο ή περισσότε-

ϱους ταξινοµητές από διαφορετικούς αλγόριθµους ταξινόµησης και να καταλήξουµε

στον καλύτερο, ϐάσει κάποιων κριτηρίων όπως είναι το ποσοστό εσφαλµένης ταξι-

νόµησης (ΠΕΤ). Η εκτίµηση του αναµενόµενου ποσοστού εσφαλµένης ταξινόµησης

(ΑΠΕΤ) είναι απαραίτητη για τη σύγκριση ταξινοµητών αλλά το πρόβληµα που προ-

κύπτει είναι πως µπορεί να επιτευχθεί µια ικανοποιητική εκτίµηση.

∆οθέντων δύο αλγορίθµων ταξινόµησης και µιας συγκεκριµένης εφαρµογής, κα-

τασκευάζουµε δύο ταξινοµητές και υπολογίζουµε το ΠΕΤ στο σύνολο εκπαίδευσης.

∆εν µπορούµε να ϐασιστούµε στο ΠΕΤ του συνόλου εκπαίδευσης, διότι εξ ορισµού

αυτό ϑα είναι πάντα χαµηλότερο από το ΠΕΤ του συνόλου ελέγχου καθώς στο σύνολο

ελέγχου περιέχονται άγνωστες παρατηρήσεις για τις οποίες δεν έχει εκπαιδευτεί ο

ταξινοµητής. ΄Ενας επιπλέον λόγος είναι ότι, κατά τη σύγκριση δύο αλγορίθµων, το

πιο πολύπλοκο µοντέλο το οποίο έχει περισσότερες ελεύθερες παραµέτρους ϑα πε-

τυχαίνει τις περισσότερες ϕορές χαµηλότερο ΠΕΤ στο σύνολο εκπαίδευσης σε σχέση

µε ένα πιο απλό µοντέλο, χωρίς αυτό να σηµαίνει απαραίτητα ότι έχει µεγαλύτερη

ικανότητα γενίκευσης. Ο στόχος µας είναι να αποφασίσουµε ποιο µοντέλο έχει τη

µεγαλύτερη επιτυχία στο να ταξινοµήσει άγνωστες παρατηρήσεις στις σωστές κλάσεις.

Με τον όρο άγνωστη παρατήρηση εννοούµε µια παρατήρηση η οποία δεν ανήκει στο

σύνολο εκπαίδευσης και δεν έχει λάβει µέρος στη διαδικασία κατασκευής ή εκπαί-

δευσης του µοντέλου. ΄Ενα καλό µοντέλο πρέπει να έχει την ικανότητα γενίκευσης

δηλαδή να µπορεί να ταξινοµήσει σωστά άγνωστες παρατηρήσεις.

΄Οµως, αν εκτιµηθεί το ΠΕΤ ενός ταξινοµητή σε ένα µόνο σύνολο ελέγχου, τότε

µπορεί να µας δώσει λανθασµένες ενδείξεις διότι µπορεί να τύχει το συγκεκριµέ-

νο σύνολο εκπαίδευσης να περιέχει ασυνήθιστες παρατηρήσεις, όπως ϑόρυβο και

Page 59: noimosini sminous

38 Πειραµατική Μεθοδολογία

εξωκείµενες τιµές. Επίσης, µπορεί ο συγκεκριµένος αλγόριθµος να επηρεάζεται σε

µεγάλο ϐαθµό από τις αρχικές τιµές των παραµέτρων του και πάλι να µας δώσει πα-

ϱαπλανητικά αποτελέσµατα. Για να µπορέσουµε να περιορίσουµε την επίδραση των

τυχαίων αρχικών τιµών, χρησιµοποιώντας τον ίδιο αλγόριθµο, κατασκευάζουµε πολ-

λούς ταξινοµητές. ΄Επειτα, εφαρµόζουµε µια σειρά από διαφορετικά σύνολα ελέγχου

σε κάθε ταξινοµητή και υπολογίζοντας τα ΠΕΤ των συνόλων ελέγχου, λαµβάνουµε

ένα δείγµα από ΠΕΤ των συνόλων ελέγχου. Προφανώς, όλα τα σύνολα εκπαίδευσης

και ελέγχου ϑα πρέπει να έχουν παραχθεί από το ίδιο συγκεκριµένο πρόβληµα.

΄Ετσι, ϑα ϐασίσουµε την αξιολόγηση ενός αλγόριθµου ταξινόµησης πάνω στην

κατανοµή αυτών των ΠΕΤ των συνόλων ελέγχου και ϑα χρησιµοποιήσουµε αυτή

την κατανοµή για να εκτιµήσουµε το ΑΠΕΤ ενός αλγόριθµου ταξινόµησης για ένα

πρόβληµα και να το συγκρίνουµε µε το αντίστοιχο ενός άλλου αλγορίθµου για το

ίδιο πρόβληµα. Θα πρέπει να τονιστεί ότι το ΑΠΕΤ ενός αλγορίθµου που εκτιµούµε,

αναφέρεται κάθε ϕορά σε ένα συγκεκριµένο πρόβληµα και δεν µπορεί να γενικευθεί.

Με άλλα λόγια, δεν έχει νόηµα να πούµε ότι ένας αλγόριθµος είναι ϐέλτιστος µε την

έννοια ότι πάντα ϑα πετυχαίνει καλύτερη απόδοση σε σχέση µε τους υπόλοιπους

αλγόριθµους, γιατί σύµφωνα µε το No free Lunch Theorem για κάθε αλγόριθµο ϑα

υπάρχει ένα σύνολο δεδοµένων στο οποίο ϑα επιτυγχάνει πολύ καλή απόδοση και

ένα σύνολο στο οποίο δεν ϑα επιτυγχάνει ικανοποιητική απόδοση και ϑα υστερεί σε

σχέση µε άλλους αλγόριθµους [112].

3.2 Μέθοδοι Επαναδειγµατοληψίας

Για την εκτίµηση του ΑΠΕΤ, δηµιουργείται η ανάγκη ενός ικανοποιητικού αριθ-

µού Ϲευγαριών συνόλων εκπαίδευσης και ελέγχου από ένα σύνολο δεδοµένων T ενός

προβλήµατος. Αν το σύνολο T είναι αρκετά µεγάλο, µπορεί να διαµεριστεί µε τυχαίο

τρόπο σε M µέρη και έπειτα το κάθε µέρος να διαιρεθεί τυχαία σε δύο κοµµάτια,

ένα για εκπαίδευση και ένα για έλεγχο. Συνηθισµένες τιµές για το M είναι 10 ή

30 αλλά δυστυχώς τα διαθέσιµα σύνολα δεδοµένων δεν είναι σχεδόν ποτέ αρκετά

µεγάλα για αυτή τη διαδικασία. Στη συνηθισµένη περίπτωση των µικρών συνόλων

δεδοµένων, µια λύση είναι η επαναλαµβανόµενη χρήση του ίδιου συνόλου δεδοµέ-

νων χωρισµένου κάθε ϕορά µε διαφορετικό τρόπο. Η διαδικασία αυτή ονοµάζεται

Επαναδειγµατοληψία (resampling) και το ϐασικό της µειονέκτηµα είναι ότι τα πα-

ϱαγόµενα ΠΕΤ είναι εξαρτηµένα µεταξύ τους καθώς τα διάφορα σύνολα έχουν κοινά

δεδοµένα.

∆οθέντος ενός συνόλου δεδοµένων T , ϑέλουµε να κατασκευάσουµε M Ϲευγάρια

συνόλων εκπαίδευσης και ελέγχου T ri, T ei, i = 1, 2, . . . , M . Επιθυµούµε να

διατηρήσουµε το σύνολα εκπαίδευσης και ελέγχου όσο το δυνατόν µεγαλύτερα έτσι

ώστε οι εκτιµήσεις των ΠΕΤ να είναι ανθεκτικές (robust) και ταυτόχρονα η επικάλυψη

µεταξύ των διαφορετικών συνόλων να είναι όσο το δυνατόν µικρότερη. Επιπλέον, δεν

πρέπει να παραλείψουµε να διατηρήσουµε τη σωστή αναλογία των κλάσεων µέσα στα

Page 60: noimosini sminous

3.2 Μέθοδοι Επαναδειγµατοληψίας 39

παραγόµενα σύνολα έτσι ώστε να µη διαταραχθούν οι εκ των προτέρων πιθανότητες

των κλάσεων. Με άλλα λόγια πρέπει να κάνουµε µια σωστή στρωµατοποίηση κατά

την παραγωγή των συνόλων όσο αυτό ϐέβαια είναι εφικτό, ειδικά στην περίπτωση

συνόλων δεδοµένων στα οποία κάποιες κλάσεις περιέχουν πολύ λίγες παρατηρήσεις.

3.2.1 M–fold Cross–Validation

Στην M–fold Cross–Validation (M–CV), το σύνολο δεδοµένων χωρίζεται µε τυχαίο

τρόπο σε M ίσα µέρη Ti, i = 1, 2, . . . , M [63]. Για την κατασκευή κάθε Ϲευγαριού

συνόλων ελέγχου και εκπαίδευσης, κρατάµε ένα από τα M µέρη ως σύνολο ελέγχου

και ενώνουµε τα υπόλοιπα M − 1 µέρη για να απαρτίσουν το σύνολο εκπαίδευσης.

Η διαδικασία αυτή επαναλαµβάνεται M ϕορές αφήνοντας εκτός κάθε ϕορά ένα από

M µέρη και έτσι παίρνουµε M Ϲευγάρια.

T e1 = T1, T r1 = T2 ∪ T3 ∪ · · · ∪ TM ,

T e2, = T2 T r2 = T1 ∪ T3 ∪ · · · ∪ TM ,...

...

T eM = TM , T rM = T1 ∪ T2 ∪ · · · ∪ TM−1.

΄Ενα πρόβληµα που προκύπτει εδώ είναι ότι, για να διατηρήσουµε το µέγεθος

του συνόλου εκπαίδευσης µεγάλο, αναγκαζόµαστε να έχουµε µικρά σύνολα ελέγχου

και επίσης υπάρχει µεγάλη επικάλυψη δεδοµένων µεταξύ των συνόλων εκπαίδευσης

όπου για κάθε δύο σύνολα εκπαίδευσης έχουµε M − 2 κοινά µέρη. Μια τυπική

τιµή για το M είναι 10 και καθώς αυξάνεται το M , το ποσοστό των παρατηρήσεων

που χρησιµοποιούνται για εκπαίδευση αυξάνει και έτσι λαµβάνουµε πιο ανθεκτι-

κούς εκτιµητές αλλά το σύνολο ελέγχου συρρικνώνεται. Επιπλέον, υπάρχει και το

υπολογιστικό κόστος της εκπαίδευσης των ταξινοµητών M ϕορές, το οποίο αυξάνε-

ται καθώς αυξάνεται το M . Για µεγάλες τιµές του µεγέθους του δείγµατος N , το

M µπορεί να πάρει µικρές τιµές αλλά αν το N είναι µικρό, το M πρέπει να είναι

αρκετά µεγάλο ώστε να λαµβάνουµε ικανοποιητικά µεγάλα σύνολα εκπαίδευσης.

Μια ακραία περίπτωση της M–CV είναι η leave–one–out (L–O–T), όπου δοθέντος

ενός συνόλου δεδοµένων µε N παρατηρήσεις, µόνο µια παρατήρηση χρησιµοποιεί-

ται ως σύνολο ελέγχου και οι υπόλοιπες N − 1 απαρτίζουν το σύνολο εκπαίδευσης.

Τότε έχουµε N διαφορετικά Ϲευγάρια συνόλων εκπαίδευσης και ελέγχου αφήνοντας

µια διαφορετική παρατήρηση εκτός σε κάθε επανάληψη. Η L–O–T χρησιµοποιείται

ιδιαίτερα σε αλγόριθµους ταξινόµησης όπου αν προσθέσουµε ή αφαιρέσουµε µια

παρατήρηση από το σύνολο εκπαίδευσης, δεν είναι απαραίτητο να ξεκινήσει από την

αρχή η διαδικασία εκπαίδευσης αλλά υπάρχει κάποια αναδροµική διαδικασία που

υπολογίζει εύκολα και γρήγορα τον νέο ταξινοµητή.

Page 61: noimosini sminous

40 Πειραµατική Μεθοδολογία

3.2.2 Bootstrap

΄Ενας εναλλακτικός τρόπος παραγωγής πολλαπλών δειγµάτων από ένα δείγµα

είναι η µέθοδος bootstrap στην οποία κατασκευάζουµε νέα δείγµατα επιλέγοντας

µε τυχαίο τρόπο παρατηρήσεις από το αρχικό δείγµα µε επανατοποθέτηση [22]. Τα

bootstrap δείγµατα µπορεί να έχουν µεγαλύτερη επικάλυψη από τα CV δείγµατα

και συνεπώς οι εκτιµήσεις που προκύπτουν να είναι περισσότερο εξαρτηµένες αλλά

ϑεωρείται ότι είναι η καλύτερη µεθοδολογία για πολύ µικρά δείγµατα. Με τη µέθο-

δο bootstrap, λαµβάνουµε τυχαία N παρατηρήσεις από ένα δείγµα µεγέθους N µε

επανατοποθέτηση, δηλαδή µπορεί κάποιες παρατηρήσεις του αρχικού δείγµατος να

επιλεχθούν παραπάνω από µια ϕορά και κάποιες άλλες να µην επιλεχθούν καθό-

λου. ΄Ολες οι παρατηρήσεις έχουν την ίδια πιθανότητα επιλογής στο δείγµα η οποία

προφανώς ισούται µε 1/N .

3.3 ΄Ελεγχοι Υποθέσεων σε ένα πεδίο εφαρµογής

Για να µπορέσουµε να αποτιµήσουµε την αποδοτικότητα ενός αλγορίθµου µά-

ϑησης σε σχέση µε κάποιον ή κάποιους άλλους αντίστοιχους, υπάρχουν αρκετές

προτεινόµενες διαδικασίες. Το πρώτο που πρέπει να ξεχωρίσουµε είναι αν ϑα µελε-

τήσουµε την αποδοτικότητα του αλγορίθµου σε ένα συγκεκριµένο πεδίο εφαρµογής

ή σε πολλαπλά πεδία εφαρµογών δηλαδή σε πολλά διαφορετικά προβλήµατα ταυτό-

χρονα.

Στην περίπτωση του ενός συγκεκριµένου προβλήµατος, για τη στατιστική συµπε-

ϱασµατολογία της σύγκρισης των αλγορίθµων ταξινόµησης, έχει προταθεί η χρήση

διαφόρων στατιστικών ελέγχων υποθέσεων όπως οι ακόλουθοι :

3.3.1 ΄Ελεγχος McNemar

Στην περίπτωση που έχουµε µόνο ένα σύνολο εκπαίδευσης και ένα σύνολο ε-

λέγχου, εκπαιδεύουµε δυο ταξινοµητές ϐάσει των δύο υπό σύγκριση αλγορίθµων

και υπολογίζουµε την έξοδό τους στο σύνολο ελέγχου. ΄Επειτα, κατασκευάζουµε τον

πίνακα διασταύρωσης των προβλέψεων των δύο ταξινοµητών µε τις πραγµατικές τα-

ξινοµήσεις των περιπτώσεων του συνόλου ελέγχου. Ορίζουµε ως e00 τον αριθµό των

εσφαλµένα ταξινοµηµένων περιπτώσεων και από τους δύο ταξινοµητές, e01 τον αριθ-

µό των εσφαλµένα ταξινοµηµένων περιπτώσεων από τον ταξινοµητή Α αλλά όχι από

τον Β, e10 τον αριθµό των εσφαλµένα ταξινοµηµένων περιπτώσεων από τον ταξινοµη-

τή Β αλλά όχι από τον Α και e11 τον αριθµό των σωστά ταξινοµηµένων περιπτώσεων

και από τους δύο ταξινοµητές.

Β

0 1

0 e00 e01

Α1 e10 e10

Page 62: noimosini sminous

3.3 ΄Ελεγχοι Υποθέσεων σε ένα πεδίο εφαρµογής 41

Η µηδενική υπόθεση του ελέγχου εδώ είναι ότι οι δύο αλγόριθµοι ταξινόµησης

έχουν το ίδιο ΑΠΕΤ, δηλαδή ότι e10 = e01 = (e10 + e01)/2.

3.3.2 Απλός και διορθωµένος έλεγχος t για επαναδειγµατολη-

ψία

΄Οπως αναφέραµε και νωρίτερα, η έννοια της επαναδειγµατοληψίας αποτελείται

από τον επαναλαµβανόµενο τυχαίο διαχωρισµό του συνόλου δεδοµένων σε δύο σύνο-

λα κάθε ϕορά όπου το πρώτο χρησιµοποιείται για την εκπαίδευση των ταξινοµητών

και το δεύτερο για έλεγχο. ΄Ετσι, για τη σύγκριση δύο αλγορίθµων ταξινόµησης, ε-

ϕαρµόζουµε έναν έλεγχο t για Ϲευγαρωτές παρατηρήσεις στο δείγµα των ΠΕΤ των δύο

αλγορίθµων. Η διαδικασία αυτή ήταν αρκετά δηµοφιλής µέχρι που αποδείχθηκε ότι

έχει ένα αρκετά µεγάλο σφάλµα Τύπου Ι [18].

΄Εστω PA,j και PB,j, τα ΠΕΤ δύο αλγορίθµων Α και Β στον j–οστό διαχωρισµό και

οι διαφορές τους dj = PA,j − PB,j , j = 1, 2, . . . , r µε µέση τιµή d = 1r

∑rj=1 dj. Οι

Nadeau & Bengio [73] παρατήρησαν ότι το υψηλό σφάλµα Τύπου Ι οφείλεται στην

υποεκτίµηση της διασποράς

s2d =

∑rj=1(dj − d)2

r − 1,

και έτσι πρότειναν να µη πολλαπλασιάζεται το άθροισµα των τετραγώνων των απο-

κλίσεων από τη µέση τιµή µε 1r−1

αλλά µε την ποσότητα 1r

+ nte

ntrόπου ntr είναι ο

αριθµός των παρατηρήσεων που χρησιµοποιούνται ως σύνολο εκπαίδευσης και nte ο

αντίστοιχος αριθµός για το σύνολο ελέγχου. Οπότε, έχουµε την παρακάτω στατιστική

συνάρτηση που ακολουθεί την κατανοµή t µε r − 1 ϐαθµούς ελευθερίας (ϐ.ε.) στην

περίπτωση της επαναδειγµατοληψίας

t =d

sd

1r

,

και στην περίπτωση που ενσωµατώσουµε την προτεινόµενη διόρθωση της υποεκτί-

µησης της διασποράς έχουµε

t =d

sd

1r

+ nte

ntr

.

3.3.3 ΄Ελεγχος t για M–CV

Στην διασταυρωµένη δειγµατοληψία M τάξης, υπάρχουν αρκετές παραλλαγές

στην υλοποίηση ελέγχων υποθέσεων για τη σύγκριση δυο αλγορίθµων ταξινόµησης.

Στην πιο απλή περίπτωση, όπου έχουµε διαιρέσει το σύνολο δεδοµένων σε M µη

επικαλυπτόµενα ίσα µέρη, χρησιµοποιώντας κάθε ϕορά ένα από τα M µέρη για

σύνολο ελέγχου και τα υπόλοιπα για σύνολο εκπαίδευσης, παίρνουµε συνολικά M

Page 63: noimosini sminous

42 Πειραµατική Μεθοδολογία

ΠΕΤ για τα σύνολα ελέγχου από κάθε αλγόριθµο. ΄Οπως και στην περίπτωση της

απλής επαναδειγµατοληψίας, υποθέτουµε ότι ο µέσος d = 1M

∑Mj=1 dj ακολουθεί

κανονική κατανοµή αν οι αλγόριθµοι έχουν παρόµοια απόδοση και τα χωρισµένα

µέρη του συνόλου δεδοµένων είναι επαρκώς «µεγάλα» [69]. Με τον όρο «µεγάλο»

συνήθως εννοούµε κάθε µέρος να περιέχει τουλάχιστον 30 παρατηρήσεις.

Ο έλεγχος που χρησιµοποιείται για τη σύγκριση των ΑΠΕΤ δυο αλγορίθµων τα-

ξινόµησης Α και Β είναι ο κλασσικός έλεγχος t µε τη στατιστική συνάρτηση

t =d

sd

1M

,

µε M − 1 ϐ.ε., όπου

s2d =

∑Mj=1(dj − d)2

M − 1,

είναι η εκτίµηση της διακύµανσης των διαφορών των ΠΕΤ των δύο υπό σύγκρι-

ση αλγορίθµων. Και σε αυτόν τον έλεγχο έχει παρατηρηθεί εµπειρικά ένα σχετικά

αυξηµένο σφάλµα Τύπου Ι όταν χρησιµοποιούνται οι συνηθισµένοι ϐαθµοί ελευθε-

ϱίας [18]. Για το λόγο αυτό, ο Bouckaert πρότεινε µια κατάλληλη στάθµιση του

ελέγχου χρησιµοποιώντας ένα εύρος τιµών για ϐ.ε. και επιλέγοντας την τιµή των

ϐαθµών ελευθερίας που επιτυγχάνει το επιθυµητό σφάλµα Τύπου Ι [9].

΄Ενα από τα προβλήµατα των παραπάνω ελέγχων είναι η χαµηλή επαναληψι-

µότητα (replicability), δηλαδή η ικανότητα ενός ελέγχου να παράγει κάθε ϕορά τα

ίδια αποτελέσµατα [10]. Με άλλα λόγια, µπορεί το αποτέλεσµα ενός ερευνητή να

διαφέρει από το αποτέλεσµα ενός άλλου εκτελώντας το ίδιο πείραµα µε τα ίδια δε-

δοµένα και τον ίδιο έλεγχο υπόθεσης αλλά µε διαφορετική τυχαία διαµέριση των

δεδοµένων. Για την εξάλειψη του προβλήµατος της χαµηλής επαναληψιµότητας των

ελέγχων υποθέσεων προτάθηκε να επαναληφθεί η διαδικασία της απλής διασταυ-

ϱωµένης δειγµατοληψίας M τάξης για r ϕορές όπου κάθε ϕορά ϑα διαµερίζεται µε

τυχαίο τρόπο το σύνολο δεδοµένων σε M µέρη. Με άλλα λόγια ϑα χρησιµοποιήσουµε

την r επαναλαµβανόµενη διασταυρωµένη δειγµατοληψία M τάξης και ϑα υπολογί-

σουµε τα ΠΕΤ των συνόλων ελέγχου PA,ij και PB,ij , i = 1, 2, . . . , M, j = 1, 2, . . . , r

για το χώρισµα i της επανάληψης j για τους δύο αλγόριθµους ταξινόµησης Α και Β.

Οπότε η εκτίµηση για τη µέση τιµή των διαφορών των ΑΠΕΤ ϑα είναι

d =1

r ·MM∑

i=1

r∑

j=1

dij.

Ορίζουµε ως d.j = 1M

∑Mi=1 dij και di. = 1

r

∑rj=1 dij τις µέσες διαφορές των διαµε-

ϱίσεων του συνόλου δεδοµένων και των επαναλήψεων αντίστοιχα οπότε η εκτίµηση

της διακύµανσης µπορεί να υπολογισθεί µε διάφορους τρόπους όπως παρουσιάζεται

στον Πίνακα (3.1). Η πιο απλή περίπτωση είναι να ϑεωρήσουµε ότι έχουµε r ·Mπαρατηρήσεις dij και να υπολογίσουµε απευθείας τη διακύµανση όποτε έχουµε την

Page 64: noimosini sminous

3.3 ΄Ελεγχοι Υποθέσεων σε ένα πεδίο εφαρµογής 43

παραλλαγή «Συνολικά». Επίσης, µπορούµε να ϑεωρήσουµε ότι έχουµε µόνο τις r µέ-

σες διαφορές των χωρισµάτων και να υπολογίσουµε ϐάσει αυτών τη διακύµανση είτε

απ΄ ευθείας (παραλλαγή «∆ιαµερίσεις») είτε υπολογίζοντας τις διακυµάνσεις των δια-

ϕορών σε κάθε χώρισµα s2d.j

και έπειτα τη µέση τιµή των διακυµάνσεων (παραλλαγή

«Στάθµιση ως προς διαµερίσεις»). Αντίστοιχα, µπορούµε να εργαστούµε ϑεωρώντας

το δείγµα που προκύπτει από τις M µέσες διαφορές σε κάθε επανάληψη και να υπο-

λογίσουµε την διακύµανση ϐάσει αυτών των τιµών όπου ϑα έχουµε τις παραλλαγές

«Επαναλήψεις» και «Στάθµιση ως προς επαναλήψεις».

Παραλλαγή ∆ιακύµανση s2d ϐ.ε.

Συνολικά 1r·M−1

∑Mi=1

∑rj=1(dij − d)2 r ·M − 1

∆ιαµερίσεις 1r−1

∑rj=1(d.j − d)2 r − 1

Στάθµιση ως προς διαµερίσεις 1r

∑rj=1 s2

d.jr − 1

Επαναλήψεις 1M−1

∑Mi=1(di. − d)2 M − 1

Στάθµιση ως προς επαναλήψεις 1M

∑Mi=1 s2

di.M − 1

Πίνακας 3.1: Παραλλαγές της εκτίµησης της διακύµανσης s2d για M–CV

΄Εχοντας υπολογίσει τη µέση τιµή d και τη διακύµανση s2d µε έναν από τους

παραπάνω τρόπους µπορούµε να χρησιµοποιήσουµε την στατιστική συνάρτηση του

t–ελέγχου

t =d

sd

1ϐ.ε.+1

,

για να εξάγουµε το επιθυµητό συµπέρασµα. ΄Οπως και στον έλεγχο t για επαναδειγ-

µατοληψία, έτσι και στον αντίστοιχο έλεγχο t για επαναλαµβανόµενη διασταυρωµέ-

νη δειγµατοληψία, έχει προταθεί η διόρθωση των διακύµανσης µε τον παράγοντα

nte/ntr όπου τελικά παίρνουµε τον διορθωµένο έλεγχο t για r επαναλαµβανόµενη

διασταυρωµένη δειγµατοληψία M τάξης.

Μια λίγο διαφορετική άποψη προτάθηκε από τον Dietterich [18] όπου εφαρµό-

Ϲοντας 5 ϕορές διασταυρωµένη δειγµατοληψία δεύτερης τάξης, αρχικά υπολογίζουµε

τις διακυµάνσεις κάθε επανάληψης s2j = (d1j−d.j)

2 +(d2j −d.j)2, j = 1, 2, . . . , 5. Η

στατιστική συνάρτηση του ελέγχου δεν λαµβάνει υπόψη όλες τις διαφορές dij παρά

µόνο την πρώτη διαφορά d11 των ΠΕΤ των δύο υπό σύγκριση αλγορίθµων ταξινόµη-

σης. Ο έλεγχος ονοµάζεται 5× 2–CV t έλεγχος και έχει την παρακάτω µορφή:

t =d11

15

∑5j=1 s2

j

∼ t5.

Η χρήση µόνο του d11 έχει σαν συνέπεια ότι το αποτέλεσµα έχει άµεση εξάρτηση α-

πό τον συγκεκριµένο διαχωρισµό των δεδοµένων και προφανώς έχει αρκετά χαµηλή

επαναληψιµότητα [10]. Εµπειρικά αποτελέσµατα έδειξαν ότι επιτυγχάνει σφάλµα

Page 65: noimosini sminous

44 Πειραµατική Μεθοδολογία

Τύπου Ι ίσο ή και µικρότερο από το προκαθορισµένο επίπεδο σηµαντικότητας αλλά

ένα αρκετά υψηλότερο σφάλµα τύπου ΙΙ σε σχέση µε τον απλό έλεγχο t εφαρµοσµένο

σε 10–CV. Μια ϐελτιωµένη εκδοχή του 5×2–CV t ελέγχου προτάθηκε από τον Alpay­

din όπου κατασκεύασε τον πιο ανθεκτικό 5 × 2–CV F έλεγχο ο οποίος επιτυγχάνει

χαµηλότερο σφάλµα Τύπου Ι και υψηλότερη ισχύ [2].

3.3.4 ΄Ελεγχος Wilcoxon

Παρατηρώντας τους προαναφερθέντες ελέγχους, η στατιστική συνάρτηση όλων

των ελέγχων υποθέσεων, εκτός του McNemar, ακολουθεί την κατανοµή t. Αυτό ση-

µαίνει ότι ϐασική προϋπόθεση των παραπάνω ελέγχων είναι, οι διαφορές των ΠΕΤ,

να ακολουθούν την κανονική κατανοµή κάτι το οποίο δεν είναι προφανές στην πε-

ϱίπτωση των ΠΕΤ , τα οποία δεν µπορούν να ϑεωρηθούν ως συνεχείς µεταβλητές.

Επίσης, έλεγχοι για την κανονικότητα των δεδοµένων όπως ο έλεγχος Kolmogorov–

Smirnov [13] και ο έλεγχος Shapiro–Wilk [91] έχουν χαµηλή ισχύ σε µικρά δείγ-

µατα, δηλαδή αρκετές ϕορές αποτυγχάνουν να αναγνωρίσουν ότι τα δεδοµένα δεν

ακολουθούν κανονική κατανοµή. ΄Ενα τρίτο πρόβληµα είναι ότι ο t έλεγχος ϐασίζε-

ται στον υπολογισµό της µέσης τιµής η οποία επηρεάζεται σε µεγάλο ϐαθµό από την

ύπαρξη ακραίων τιµών (outliers).

Μια λύση στην ύπαρξη των παραπάνω προβληµάτων είναι η χρήση µη παραµε-

τρικών ελέγχων όπως ο έλεγχος Wilcoxon για εξαρτηµένα δείγµατα [109] ο οποίος

είναι αντίστοιχος µε τον έλεγχο t για εξαρτηµένα δείγµατα. Στον έλεγχο Wilcoxon

κατατάσσουµε τις διαφορές των ΠΕΤ των δύο αλγόριθµων ταξινόµησης, αγνοώντας

τα πρόσηµα και συγκρίνουµε τις κατατάξεις για τις ϑετικές και τις αρνητικές διαφο-

ϱές. Υποθέτουµε ότι έχουµε dj = PA,j − PB,j j = 1, 2, . . . , r διαφορές των ΠΕΤ τις

οποίες κατατάσσουµε ως προς την απόλυτη τιµή τους και στην περίπτωση ίσων τιµών

υπολογίζουµε τη µέση τιµή των αντίστοιχων κατατάξεων. ΄Εστω R+ το άθροισµα των

κατατάξεων στις οποίες ο αλγόριθµος Α έχει καλύτερη επίδοση σε σχέση µε τον Β και

R− το αντίθετο. Οι κατατάξεις των µηδενικών διαφορών χωρίζονται στη µέση, µεταξύ

των δύο αθροισµάτων και στην περίπτωση που υπάρχει περιττός αριθµός τέτοιων,

τότε απλά αγνοείται. Με άλλα λόγια έχουµε :

R+ =∑

dj>0

rank(dj) +1

2

dj=0

rank(dj) και R− =∑

dj<0

rank(dj) +1

2

dj=0

rank(dj).

΄Εστω T η µικρότερη τιµή από τα δύο αθροίσµατα, T = min(R+, R−). Η τιµή αυτή

του T συγκρίνεται µε τις κρίσιµες τιµές για το T . ΄Οταν το r είναι σχετικά µικρό

(r < 25) και για µεγάλο αριθµό διαφορών χρησιµοποιείται η παρακάτω στατιστική

συνάρτηση η οποία ακολουθεί ασυµπτωτικά την κανονική κατανοµή

z =T − 1

4r(r + 1)

124

r(r + 1)(2r + 1).

Page 66: noimosini sminous

3.4 ΄Ελεγχοι υποθέσεων σε πολλαπλά πεδία εφαρµογών 45

΄Οταν ικανοποιούνται οι υποθέσεις του t ελέγχου, ο έλεγχος Wilcoxon έχει χαµηλό-

τερη ισχύ σε σχέση µε τον έλεγχο t. Από την άλλη πλευρά, όταν παραβιάζονται οι

υποθέσεις, ο έλεγχος Wilcoxon µπορεί να έχει µεγαλύτερη ισχύ από τον έλεγχο t.

Μια απλοϊκή µορφή του ελέγχου Wilcoxon ϑα µπορούσε να ϑεωρηθεί και ο προ-

σηµικός έλεγχος (sign test) ο οποίος δεν λαµβάνει υπόψη το µέγεθος των διαφορών

παρά µόνο εξετάζει το πρόσηµό τους [55]. ΄Οµως, η ισχύς του προσηµικού ελέγχου

είναι αρκετά χαµηλότερη από την ισχύ του ελέγχου Wilcoxon, δηλαδή δεν απορ-

ϱίπτει τη µηδενική υπόθεση εκτός και αν ο ένας αλγόριθµος είναι σχεδόν πάντα

ανώτερος από τον δεύτερο [17].

3.4 ΄Ελεγχοι υποθέσεων σε πολλαπλά πεδία εφαρµο-

γών

Οι διαδικασίες που αναφέρθηκαν παραπάνω αφορούσαν τη σύγκριση δυο αλγο-

ϱίθµων ταξινόµησης σε ένα πεδίο εφαρµογής δηλαδή σε ένα συγκεκριµένο σύνολο

δεδοµένων, χρησιµοποιώντας διάφορες µεθόδους επαναδειγµατοληψίας. Στην περί-

πτωση που ϑέλουµε να εξάγουµε ένα γενικότερο συµπέρασµα για την ανωτερότητα

ενός αλγορίθµου ταξινόµησης σε σχέση µε κάποιους άλλους, όχι σε ένα αλλά σε

πολλαπλά σύνολα δεδοµένων ταυτόχρονα, ϑα πρέπει να κάνουµε κάποιες παραδο-

χές. Αρχικά δεν κάνουµε καµία υπόθεση για τη µέθοδο δειγµατοληψίας που έχει

χρησιµοποιηθεί. Η µόνη απαίτηση είναι ότι τα ΠΕΤ που υπολογίζουµε πρέπει να

είναι αξιόπιστες εκτιµήσεις των ΑΠΕΤ των αλγορίθµων ταξινόµησης που ϑέλουµε να

συγκρίνουµε. Μια συνηθισµένη επιλογή για τον υπολογισµό των ΠΕΤ είναι η χρήση

διασταυρωµένης δειγµατοληψίας και γενικότερα η χρήση επαναδειγµατοληψίας σε

κάθε σύνολο δεδοµένων έτσι ώστε να έχουµε µια ικανοποιητική εκτίµηση του ΑΠΕΤ

του κάθε αλγόριθµου ταξινόµησης σε κάθε σύνολο δεδοµένων.

Υπάρχει µια ϐασική διαφορά µεταξύ των ελέγχων υποθέσεων που χρησιµοποιούν-

ται για τον προσδιορισµό της διαφοράς µεταξύ δύο ταξινοµητών σε ένα µόνο σύνολο

δεδοµένων και των διαφορών σε πολλαπλά σύνολα δεδοµένων. Στην περίπτωση που

χρησιµοποιούµε ένα µόνο σύνολο δεδοµένων, συνήθως υπολογίζουµε τη µέση επί-

δοση και τη διακύµανση της ϐασισµένοι σε τυχαία δείγµατα που προέρχονται από

επαναδειγµατοληψία στο αρχικό σύνολο δεδοµένων.

΄Οπως αναφέρθηκε και στην προηγούµενη ενότητα, τα δείγµατα αυτά είναι συνή-

ϑως συσχετισµένα και απαιτείται ιδιαίτερη προσοχή στο σχεδιασµό του στατιστικού

ελέγχου ώστε να αποφευχθούν προβλήµατα µεροληψίας των εκτιµητών της διακύ-

µανσης. Στη συγκεκριµένη περίπτωση, η επαναδειγµατοληψία από κάθε σύνολο

δεδοµένων χρησιµοποιείται µόνο για τον υπολογισµό της επίδοσης και όχι της δια-

κύµανσης της. Η πηγή της µεταβλητότητας είναι οι διαφορές στην επίδοση πάνω στα

διαφορετικά και προφανώς ανεξάρτητα σύνολα δεδοµένων και όχι στα εξαρτηµένα

δείγµατα ενός συνόλου δεδοµένων. Καθώς η διαδικασία της επαναδειγµατοληψίας

δεν επηρεάζει την εκτίµηση της επίδοσης, µπορούν να χρησιµοποιηθούν χωρίς ϕόβο

Page 67: noimosini sminous

46 Πειραµατική Μεθοδολογία

διάφοροι τύποι επαναδειγµατοληψίας όπως η διασταυρωµένη δειγµατοληψία. Θα

πρέπει να τονίσουµε ότι το µέγεθος του δείγµατος στους συγκεκριµένους ελέγχους

είναι ο αριθµός των συνόλων δεδοµένων και όχι ο αριθµός των δειγµάτων ελέγχου

που έχουν εξαχθεί από ένα συγκεκριµένο σύνολο δεδοµένων ή ο αριθµός των πα-

ϱατηρήσεων ενός τέτοιου δείγµατος. Συνήθως το µέγεθος του δείγµατος µπορεί να

είναι από 5 και πάνω και συνήθως αρκετά κάτω από 30.

3.4.1 Σύγκριση δύο αλγορίθµων ταξινόµησης

Στην περίπτωση που ϑέλουµε να εξάγουµε συµπέρασµα για τη στατιστικά σηµαν-

τική ανωτερότητα της απόδοσης ενός αλγορίθµου ταξινόµησης σε σχέση µε κάποιον

άλλο ϑα πρέπει αρχικά να σηµειώσουµε ότι η χρήση του γνωστού t ελέγχου για εξαρ-

τηµένα δείγµατα κρίνεται ακατάλληλη και στατιστικά µη «ασφαλής» [17]. ΄Ενας από

τους ϐασικούς λόγους, όπως αναφέρθηκε και στο τέλος της προηγούµενης ενότητας,

είναι η υπόθεση της κανονικότητας των δεδοµένων και ειδικά στην περίπτωση που

το δείγµα είναι συνήθως αρκετά µικρότερο από 30. Σε µια τέτοια περίπτωση, οι στα-

τιστικοί έλεγχοι κανονικότητας δεν µπορούν να απορρίψουν την µηδενική υπόθεση

κανονικότητας ακόµα και αν τα δεδοµένα αποκλίνουν από την κανονική κατανοµή

εξαιτίας του µικρού µεγέθους του δείγµατος. Επίσης, η άθροιση και ο υπολογισµός

της µέσης τιµή των ΠΕΤ ενός αλγόριθµου ταξινόµησης σε διαφορετικά προβλήµατα,

κάτι στο οποίο στηρίζεται ο t έλεγχος [108], ϑεωρείται ότι δεν έχει κάποια ιδιαίτερη

ερµηνεία και πρέπει να αποφεύγεται.

Ο προτεινόµενος έλεγχος υποθέσεων για τη σύγκριση δύο αλγορίθµων ταξινό-

µησης σε πολλαπλά σύνολα δεδοµένων είναι ο µη παραµετρικός έλεγχος Wilcoxon

που αναλύθηκε στην προηγούµενη ενότητα. Ο έλεγχος ϐασίζεται στις κατατάξεις των

επιδόσεων και δεν κάνει καµία υπόθεση για την κατανοµή τους.

3.4.2 Σύγκριση πολλαπλών αλγόριθµων ταξινόµησης

Μέχρι τώρα δεν έχει γίνει καµία αναφορά για στατιστική συµπερασµατολογία

πολλών αλγόριθµων ταξινόµησης ταυτόχρονα. Μια τυπική διαδικασία που συναν-

τάται συχνά στη ϐιβλιογραφία είναι η χρήση πολλαπλών ελέγχων για σύγκριση δύο

αλγόριθµων ταυτόχρονα. ΄Εστω ότι ϑέλουµε να συγκρίνουµε 7 αλγόριθµους οπό-

τε ϑα πρέπει να εκτελέσουµε 21 συνολικά t ελέγχους ή ελέγχους Wilcoxon. ΄Οταν

εκτελούνται τόσοι πολλοί έλεγχοι, ένα ποσοστό των µηδενικών υποθέσεων των ελέγ-

χων απορρίπτεται εξαιτίας του δειγµατοληπτικού σφάλµατος δηλαδή της τυχαιότητας

του δείγµατος χωρίς να πρέπει στην πραγµατικότητα να απορριφθεί η µηδενική υ-

πόθεση. Το Ϲήτηµα των πολλαπλών ελέγχων υποθέσεων είναι ένα γνωστό στατιστικό

πρόβληµα όπου ϑέτουµε σαν στόχο να ελέγξουµε το family­wise σφάλµα δηλαδή την

πιθανότητα να κάνουµε τουλάχιστον ένα σφάλµα Τύπου Ι σε οποιαδήποτε από τις

συγκρίσεις.

΄Ενας τρόπος αντιµετώπισης του προβλήµατος των πολλαπλών ελέγχων σε σύγ-

Page 68: noimosini sminous

3.4 ΄Ελεγχοι υποθέσεων σε πολλαπλά πεδία εφαρµογών 47

κριση αλγόριθµων που προτάθηκε από τον Salzberg είναι η χρήση της διόρθωσης

Bonferroni η οποία είναι µια γενική λύση σε τέτοιου είδους προβλήµατα [86]. Τονί-

Ϲεται ότι αυτή η προσέγγιση είναι αρκετά συντηρητική και όχι πάντα επαρκής καθώς

υποθέτει την ανεξαρτησία των µηδενικών υποθέσεων των ελέγχων [17]. Βέβαια, στη

ϐιβλιογραφία προτείνονται και πιο αποδοτικές και εξειδικευµένες διαδικασίες για

τον έλεγχο της σηµαντικότητας των διαφορών µεταξύ πολλών µέσων. Στη συγκεκρι-

µένη περίπτωση, οι προτεινόµενοι έλεγχοι είναι η Ανάλυση ∆ιακύµανσης (Analysis

of Variance, ANOVA) και ο αντίστοιχος µη παραµετρικός έλεγχος Friedman.

΄Ελεγχος ANOVA

Η τυπική στατιστική µέθοδος για τον έλεγχο των διαφορών µεταξύ περισσότερων

από δύο µέσων σε συσχετισµένα δείγµατα είναι ο έλεγχος Ανάλυσης ∆ιακύµανσης

(Analysis of Variance, ANOVA) για επαναλαµβανόµενες µετρήσεις [26]. Με τον όρο

συσχετισµένα δείγµατα εννοούµε τα ΠΕΤ των ταξινοµητών που έχουν µετρηθεί πάνω

στα ίδια σύνολα δεδοµένων και συγκεκριµένα χρησιµοποιώντας τις ίδιες µεθόδους

επαναδειγµατοληψίας. Η µηδενική υπόθεση που εξετάζεται είναι ότι όλοι οι ταξι-

νοµητές έχουν την ίδια απόδοση και ότι οι παρατηρούµενες διαφορές οφείλονται σε

τυχαίους παράγοντες.

Το πρόβληµα µε τη χρησιµοποίηση της ANOVA είναι ότι οι υποθέσεις στις οποίες

ϐασίζεται είναι πολύ πιθανό να παραβιάζονται όταν αναλύουµε τις επιδόσεις αλγο-

ϱίθµων ταξινόµησης. Αρχικά, η ANOVA υποθέτει ότι τα δείγµατα προέρχονται από

κανονικούς πληθυσµούς ενώ δεν υπάρχει κάποια ένδειξη ότι οι κατανοµές των ΠΕΤ

των διαφόρων αλγορίθµων ταξινόµησης ακολουθούν µε ϐεβαιότητα την κανονική κα-

τανοµή. Μια άλλη σηµαντική υπόθεση της ANOVA επαναλαµβανόµενων µετρήσεων

είναι η σφαιρικότητα (sphericity), δηλαδή απαιτείται οι τυχαίες µεταβλητές να έχουν

ίσες διασπορές. Εξαιτίας της ϕύσης και της διαφορετικότητας των αλγορίθµων ταξι-

νόµησης αλλά και των συνόλων δεδοµένων, δεν µπορεί να ϑεωρηθεί η σφαιρικότητα

ως δεδοµένη. Για τους παραπάνω λόγους ο έλεγχος ANOVA δεν συνιστάται για

σύγκριση αλγορίθµων ταξινόµησης.

΄Ελεγχος Friedman

Ο έλεγχος Friedman είναι ο ισοδύναµος µη παραµετρικός έλεγχος της ANOVA

επαναλαµβανόµενων µετρήσεων [28, 29]. Η λειτουργία του ελέγχου στηρίζεται στις

κατατάξεις των ΠΕΤ των αλγορίθµων ταξινόµησης για κάθε σύνολο δεδοµένων ξε-

χωριστά. Υποθέτουµε ότι ϑέλουµε να συγκρίνουµε Nalg αλγόριθµους ταξινόµησης

ϐασισµένοι σε Nset διαφορετικά σύνολα δεδοµένων. ΄Εστω rankij , i = 1, 2, . . . , Nset

και j = 1, 2, . . . , Nalg η κατάταξη του ΠΕΤ του j-οστού αλγόριθµου στο i-οστό σύνολο

δεδοµένων. Ο έλεγχος Friedman συγκρίνει τις µέσες κατατάξεις Rj των αλγορίθµων

ταξινόµησης

Rj =1

Nset

Nset∑

i=1

rankij, j = 1, 2, . . . , Nalg.

Page 69: noimosini sminous

48 Πειραµατική Μεθοδολογία

Υπό τη µηδενική υπόθεση, όπου ϑεωρούµε ότι όλοι οι αλγόριθµοι είναι ισοδύναµοι

οπότε και οι µέσες κατατάξεις Rj ϑα πρέπει να είναι ίσες µεταξύ τους, η στατιστική

συνάρτηση του ελέγχου Friedman ακολουθεί την χ2 κατανοµή µε Nalg − 1 ϐαθµούς

ελευθερίας όταν τα Nalg και Nset είναι αρκετά µεγάλα. ∆ηλαδή,

χ2F =

12Nset

Nalg(Nalg + 1)

Nalg∑

j=1

R2j −

Nalg(Nalg + 1)2

4

∼ χ2(Nalg−1).

΄Ενας εµπειρικός κανόνας για το µέγεθος των Nalg και Nset είναι Nalg > 5 και Nset >

10. Για την περίπτωση όπου ο αριθµός των αλγορίθµων ταξινόµησης καθώς και των

συνόλων δεδοµένων είναι µικρότερος, έχουν υπολογιστεί ακριβείς (exact) τιµές [92].

Post hoc Ανάλυση

Αν απορριφθεί η µηδενική υπόθεση του ελέγχου, τότε ϑα πρέπει να ακολου-

ϑήσει µια post hoc ανάλυση. Στην περίπτωση που ϑέλουµε να συγκριθούν όλοι

οι αλγόριθµοι µεταξύ τους ανά δύο, προτείνεται από τον Demsar [17] να χρησιµο-

ποιηθεί ο ο έλεγχος Nemenyi [74] ο οποίος είναι παρόµοιος µε τον έλεγχο Tukey

της ANOVA [105]. Η επίδοση δύο ταξινοµητών έχει στατιστικά σηµαντική διαφορά

αν οι αντίστοιχες µέσες κατατάξεις διαφέρουν τουλάχιστον κατά µια ποσότητα που

καλείται κρίσιµη διαφορά CD

CD = qα

Nalg(Nalg + 1)

6Nset

,

και οι κρίσιµες τιµές qα ϐασίζονται στο Studentized εύρος διαιρεµένο µε√

2 [17].

΄Οταν όλοι οι ταξινοµητές συγκρίνονται µε έναν ταξινοµητή ελέγχου (control), αντί

του ελέγχου Nemenyi µπορούµε να χρησιµοποιήσουµε µια από τις τυπικές διαδικα-

σίες ελέγχου του family wise σφάλµατος σε πολλαπλούς ελέγχους υποθέσεων, όπως

η διόρθωση Bonferroni ή παρόµοιες διαδικασίες. Παρόλο που αυτές οι µέθοδοι είναι

αρκετά συντηρητικές και έχουν χαµηλή ισχύ, στη συγκεκριµένη περίπτωση έχουν

µεγαλύτερη ισχύ από τον έλεγχο Nemenyi, καθώς ο τελευταίος προσαρµόζει την κρί-

σιµη τιµή για Nalg(Nalg − 1)/2 συγκρίσεις ενώ όταν συγκρίνουµε µε τον ταξινοµητή

ελέγχου, κάνουµε µόνο Nalg − 1 συγκρίσεις.

Η στατιστική συνάρτηση του ελέγχου για τη σύγκριση του i–οστού µε τον j– οστό

ταξινοµητή ϐάσει των παραπάνω, είναι η ακόλουθη:

z = (Ri − Rj)

/

Nalg(Nalg + 1)

6Nset

.

Οι έλεγχοι διαφέρουν ως προς τον τρόπο που προσαρµόζουν την τιµή του επιπέ-

δου σηµαντικότητας α για να αντισταθµίσουν τις πολλαπλές συγκρίσεις. Ο έλεγχος

Bonferroni–Dunn ϱυθµίζει το family wise σφάλµα διαιρώντας µε τον αριθµό των

Page 70: noimosini sminous

3.4 ΄Ελεγχοι υποθέσεων σε πολλαπλά πεδία εφαρµογών 49

συγκρίσεων που έγιναν [20]. ΄Ενας εναλλακτικός τρόπος για να εφαρµόσουµε τον

ίδιο έλεγχο είναι να υπολογίσουµε την κρίσιµη διαφορά CD χρησιµοποιώντας τον

ίδιο τύπο όπως και στον έλεγχο Nemenyi αλλά χρησιµοποιώντας τις κρίσιµες τιµές

για α/(Nalg − 1). Οι κρίσιµες τιµές των δύο ελέγχων δίνονται στο [17]. Για τις συγ-

κρίσεις ενός ελέγχου Bonferroni–Dunn, έχουν προταθεί διάφορες διαδικασίες όπου

ακολουθιακά ελέγχουν τις υποθέσεις ταξινοµηµένες ως προς τη σηµαντικότητά τους.

Από τις πιο απλές διαδικασίες είναι αυτές που προτάθηκαν από τον Holm [52] και

τον Hochberg [50] και µια πιο περίπλοκη είναι αυτή του Hommel [53]. Μια εκτενής

ανάλυση των post hoc ελέγχων έχει δοθεί από τον Schaffer [87].

Γραφική Αναπαράσταση της Post hoc Ανάλυσης

΄Οταν συγκρίνουµε πολλούς ταξινοµητές ταυτόχρονα, τα αποτελέσµατα των post

hoc ελέγχων όπως του Nemenyi µπορούν να αναπαρασταθούν γραφικά µε ένα απλό

διάγραµµα το οποίο καλούµε διάγραµµα κρίσιµης διαφοράς (∆Κ∆) [17]. Στο Σχήµα

(3.1) παρουσιάζεται το ∆Κ∆ από ένα παράδειγµα σύγκρισης τεσσάρων παραλλαγών

ενός δέντρου απόφασης C4.5 σε 14 σύνολα δεδοµένων [17]. Η κύρια οριζόντια γραµ-

µή του διαγράµµατος είναι ο άξονας στον οποίο σηµειώνονται οι µέσες κατατάξεις

των αλγόριθµων. Ο άξονας είναι στραµµένος έτσι ώστε οι µικρότερες κατατάξεις (κα-

λύτεροι αλγόριθµοι) να ϐρίσκονται στη δεξιά πλευρά του άξονα εφόσον ϑεωρούµε τη

δεξιά πλευρά ως καλύτερη. Πάνω από τον άξονα σχεδιάζουµε την κρίσιµη διαφορά

έτσι ώστε να έχουµε µια οπτική εικόνα του µεγέθους της. Κατά τη σύγκριση των

αλγορίθµων ανά δύο, ενώνουµε µε ένα οριζόντιο ευθύγραµµο τµήµα τις οµάδες των

αλγορίθµων που δεν έχουν στατιστικά σηµαντική διαφορά.

Σχήµα 3.1: ∆ιάγραµµα Κρίσιµης ∆ιαφοράς για έλεγχο Nemenyi

Αν οι αλγόριθµοι συγκρίνονται µε έναν αλγόριθµο ελέγχου χρησιµοποιώντας τον

έλεγχο Bonferroni–Dunn, τότε σχεδιάζουµε το διάστηµα µιας κρίσιµης διαφοράς

αριστερά και δεξιά της µέσης κατάταξης του αλγόριθµου ελέγχου. Κάθε αλγόριθµος

µε µέση κατάταξη εκτός της περιοχής αυτής έχει στατιστικά σηµαντική διαφορά από

τον αλγόριθµο ελέγχου.

Επιστρέφουµε στο προηγούµενο παράδειγµα και ϑεωρούµε ως αλγόριθµο ελέγ-

χου το απλό δέντρο απόφασης C4.5. Στο Σχήµα (3.2) παρουσιάζεται το ∆Κ∆ όπου

Page 71: noimosini sminous

50 Πειραµατική Μεθοδολογία

Σχήµα 3.2: ∆ιάγραµµα Κρίσιµης ∆ιαφοράς για έλεγχο Bonferroni–Dunn

γύρω από τη µέση κατάταξη του C4.5 απεικονίζεται το διάστηµα της κρίσιµης δια-

ϕοράς. Σύµφωνα µε τον έλεγχο Bonferroni–Dunn συµπεραίνουµε πως το C4.5 δεν

έχει στατιστικά σηµαντική διαφορά από τα C4.5+cf και C4.5 +m αλλά έχει διαφορά

από το C4.5+m+cf αν και αυτή είναι οριακή.

Page 72: noimosini sminous

Μέρος II

Προτεινόµενα Μοντέλα Ταξινόµησης

Page 73: noimosini sminous
Page 74: noimosini sminous

Κ Ε Φ Α Λ Α Ι Ο 4

Εξελικτικά Πιθανοτικά Νευρωνικά ∆ίκτυα

Μπορείς να προβλέψεις πράγµατα µόνο αφού συµβούν.

—Eugen Ionescu (1909 – 1994)

4.1 Εισαγωγή

΄Ενας από τους σηµαντικότερους παράγοντες που επηρεάζουν την απόδοση των

Πιθανοτικών Νευρωνικών ∆ικτύων (ΠΝ∆) είναι οι παράµετροι λείανσης των συναρ-

τήσεων πυρήνων τους. ΄Οπως είδαµε και στην Ενότητα 2.6.4, έχει αναπτυχθεί µια

πληθώρα τροποποιήσεων των ΠΝ∆ έτσι ώστε να επιτυγχάνεται µια αποδοτικότερη

εκτίµηση αυτών των σηµαντικών παραµέτρων του ΠΝ∆. Τα δύο νέα µοντέλα ταξινό-

µησης που ϑα παρουσιαστούν παρακάτω κατασκευάστηκαν ακολουθώντας αυτή τη

ϕιλοσοφία, πως δηλαδή µπορούµε να εκτιµήσουµε τις παραµέτρους λείανσης έτσι ώ-

στε το προτεινόµενο ΠΝ∆ να επιτυγχάνει χαµηλά ποσοστά εσφαλµένης ταξινόµησης

(ΠΕΤ). Παρουσιάζεται όµως ένα µεγάλο πρόβληµα ! Η συνάρτηση που υπολογίζει

το ΠΕΤ ενός συνόλου δεδοµένων δεν είναι παραγωγίσιµη ως προς τις παραµέτρους

λείανσης, οπότε δεν µπορούν να χρησιµοποιηθούν οι κλασσικοί αλγόριθµοι ελαχι-

στοποίησης οι οποίοι απαιτούν τον υπολογισµό της κλίσης (gradient) ή της Εσσιανής.

΄Ετσι, καταλήγουµε στη χρήση αλγορίθµων ϐελτιστοποίησης οι οποίοι απαιτούν τον

υπολογισµό µόνο συναρτησιακών τιµών.

Μια κατηγορία αλγορίθµων ϐελτιστοποίησης οι οποίοι έχουν να επιδείξουν πολύ

καλά αποτελέσµατα σε αρκετά δύσκολα προβλήµατα είναι οι αλγόριθµοι ϐελτιστο-

ποίησης που ανήκουν στην οµάδα του Εξελικτικού Υπολογισµού (ΕΥ) (ϐλέπε Ενότ.

2.3). Σε αυτή την κατηγορία ανήκουν και οι ∆ιαφοροεξελικτικοί Αλγόριθµοι (∆ΕΑ)

και η Βελτιστοποίηση µε Σµήνος Σωµατιδίων (ΒΣΣ), τους οποίους ϑα ενσωµατώσου-

µε στα ΠΝ∆ για την αναζήτηση των ϐέλτιστων παραµέτρων λείανσης των πυρήνων των

ΠΝ∆ τα οποία καλούµε «Εξελικτικά Πιθανοτικά Νευρωνικά ∆ίκτυα» (ΕΠΝ∆).

Page 75: noimosini sminous

54 Εξελικτικά Πιθανοτικά Νευρωνικά ∆ίκτυα

4.2 Προτεινόµενα Σχήµατα

΄Εστω ένα σύνολο εκπαίδευσης Ttr το οποίο αποτελείται από Ntr διανύσµατα χα-

ϱακτηριστικών xik ∈ Rp, i = 1, 2, . . . , Nk, k = 1, 2, . . . , K που προέρχονται από K

προκαθορισµένους πληθυσµούς. Κατασκευάζουµε ένα ΠΝ∆ το οποίο ϑα αποτελείται

από p ΤΝ στο επίπεδο εισόδου εφόσον η διάσταση των διανυσµάτων εκπαίδευσης

είναι p. Το επίπεδο προτύπων ϑα αποτελείται από Ntr ΤΝ συνολικά οι οποίοι ϑα

είναι οργανωµένοι σε K οµάδες που αντιστοιχούν στις K κλάσεις του προβλήµατος

ταξινόµησης. Κάθε ΤΝ του επιπέδου προτύπων χρησιµοποιεί ως συνάρτηση ενερ-

γοποίησης µια πολυδιάστατη κανονική συνάρτηση πυρήνα µε κέντρο το διάνυσµα

χαρακτηριστικών xik και πίνακα παραµέτρων λείανσης Σk, δηλαδή η έξοδος του

i–οστού ΤΝ προτύπων της k οµάδας είναι :

fik(x) =1

(2 π)p/2 |Σk|1/2exp

(

−1

2(x− xik)

⊤Σ

−1k (x− xik)

)

(4.1)

Στα δύο προτεινόµενα σχήµατα αυτού του Κεφαλαίου κάνουµε τις εξής παρα-

δοχές. Αρχικά, υποθέτουµε ότι οι πίνακες των παραµέτρων λείανσης Σk, k =

1, 2, . . . , K είναι διαγώνιοι και ϑεωρούµε ότι όλες οι κλάσεις έχουν ένα κοινό πί-

νακα Σk = Σ . ΄Επειτα, ϑεωρούµε δύο εκδοχές του Σ , µία στην περίπτωση όπου τα

στοιχεία της κυρίας διαγωνίου είναι ίσα µεταξύ τους δηλαδή έχουµε ένα οµοσκεδα-

στικό µοντέλο

Σ = σ2Ip,

και µία όπου τα στοιχεία της κυρίας διαγωνίου δεν είναι απαραίτητα ίσα µεταξύ τους

δηλαδή ένα ετεροσκεδαστικό µοντέλο

Σ = diag(σ21, σ

22, . . . , σ

2p).

Για το οµοσκεδαστικό µοντέλο, η έξοδος ενός ΤΝ προτύπων απλοποιείται και

παίρνει την ακόλουθη µορφή:

fik(x) =1

(2 πσ)p/2exp

(

∑pj=1(xj − xikj)

2

2σ2

)

, (4.2)

οπότε έχουµε ένα πρόβληµα ελαχιστοποίησης του ΠΕΤ ως προς την παράµετρο σ.

Εφόσον το ΠΕΤ υπολογίζεται πάνω στο σύνολο εκπαίδευσης, του οποίου όλα τα

στοιχεία χρησιµοποιούνται για την κατασκευή του επιπέδου προτύπων του ΠΝ∆, το

αποτέλεσµα εµπεριέχει και µια ποσότητα µεροληψίας. Αυτό ϐέβαια ισχύει για όλες

τις µεθόδους ταξινόµησης αλλά ιδιαίτερα για το ΠΝ∆, το υπολογιζόµενο ΠΕΤ µπορεί

πάντα να τείνει προς το µηδέν αν η παράµετρος σ πάρει πολύ µικρές τιµές χωρίς το

ΠΝ∆ να µπορεί να επιτύχει χαµηλό ΠΕΤ για άγνωστες παρατηρήσεις δηλαδή σε ένα

σύνολο ελέγχου. Αν η τιµή του σ είναι µικρή και δώσουµε ως είσοδο στο ΠΝ∆ το

διάνυσµα xik, τότε όλες οι έξοδοι των ΤΝ προτύπων ϑα δώσουν πολύ µικρές τιµές λόγω

Page 76: noimosini sminous

4.2 Προτεινόµενα Σχήµατα 55

του µικρού σ και η έξοδος του ΤΝ που έχει ως κέντρο το xik ϑα τείνει στη µονάδα,

οπότε ο αντίστοιχος ΤΝ άθροισης της k κλάσης ϑα δώσει τη µεγαλύτερη έξοδο και έτσι

το ΠΝ∆ ϑα αποφανθεί επιτυχώς ότι το xik προέρχεται από τον πληθυσµό k. ΄Οµως,

σε µια άγνωστη παρατήρηση η οποία ϑα διαφέρει από όλες τις παρατηρήσεις του

συνόλου εκπαίδευσης, το ΠΝ∆ δεν ϑα µπορεί να προβλέψει σωστά σε ποια κλάση

ανήκει η άγνωστη παρατήρηση καθώς όλες οι έξοδοι των ΤΝ προτύπων ϑα έχουν

πολύ µικρές τιµές λόγω της µικρής τιµής του σ. Οπότε, συµπεραίνουµε ότι το ΠΕΤ

στο σύνολο εκπαίδευσης δεν είναι ένας καλός εκτιµητής της αποδοτικότητας ενός

ΠΝ∆.

΄Ενας τρόπος για να µπορέσουµε να εκτιµήσουµε την αποδοτικότητα ενός ΠΝ∆

είναι να χρησιµοποιήσουµε τη διασταυρωµένη δειγµατοληψίας M τάξης και συγ-

κεκριµένα την περίπτωση όπου εξαιρούµε µόνο µια παρατήρηση από το σύνολο

εκπαίδευσης και κατασκευάζουµε ένα ΠΝ∆ µε τις υπόλοιπες Ntr − 1 παρατηρή-

σεις, δηλαδή υπολογίζουµε το L­O­T ΠΕΤ στο σύνολο εκπαίδευσης. Προφανώς η

διαδικασία αυτή επαναλαµβάνεται κυκλικά, εξαιρώντας κάθε ϕορά µια από τις πα-

ϱατηρήσεις του συνόλου εκπαίδευσης διαδοχικά. Με αυτό τον τρόπο, η µοναδική

παρατήρηση που αποτελεί το σύνολο ελέγχου δεν συµπεριλαµβάνεται στο αντίστοιχο

σύνολο εκπαίδευσης, οπότε µας προσφέρει µια αντικειµενική πρόβλεψη της κλάσης

στην οποία ανήκει η συγκεκριµένη παρατήρηση. Βέβαια αυτό επιφέρει ένα µεγάλο

υπολογιστικό κόστος διότι, για να καταφέρουµε να υπολογίσουµε το L­O­T ΠΕΤ στο

σύνολο εκπαίδευσης, πρέπει να κατασκευάσουµε Ntr ΠΝ∆. Στην πράξη, το επιπλέον

υπολογιστικό κόστος δεν είναι ιδιαίτερα αυξηµένο γιατί µπορούµε να κατασκευά-

σουµε ένα ΠΝ∆ που να αποτελείται από όλο το σύνολο εκπαίδευσης και σε κάθε

υπολογισµό της ταξινόµησης µιας παρατήρησης, απλά µηδενίζουµε την έξοδο του

ΤΝ προτύπων που αντιστοιχεί στη συγκεκριµένη παρατήρηση και έτσι εξαλείφεται

η επίδραση της συγκεκριµένης παρατήρησης στο ΠΝ∆. Βέβαια, δεν πρέπει να πα-

ϱαλείψουµε να διορθώσουµε και τις εκτιµήσεις των εκ των προτέρων πιθανοτήτων

εφόσον ϑα έχουµε µια παρατήρηση λιγότερη στην αντίστοιχη κλάση.

Για να µπορέσουµε να επιλέξουµε τη ϐέλτιστη τιµή της παραµέτρου σ ϑα χρη-

σιµοποιήσουµε αρχικά τον αλγόριθµο ΒΣΣ µε παράγοντα περιορισµού, ελαχιστο-

ποιώντας το L­O­T ΠΕΤ στο σύνολο εκπαίδευσης.

4.2.1 Εξελικτικά ΠΝ∆ µε χρήση ΒΣΣ

΄Οπως είδαµε και στην Ενότ. 2.4.1, η ΒΣΣ εξαπολύει ένα πληθυσµό σωµατιδίων

που εξετάζουν το χώρο αναζήτησης, κινούµενα µε µεταβλητή ταχύτητα, έτσι ώστε να

εντοπίσουν τις ϐέλτιστες περιοχές. Επίσης τα σωµατίδια διατηρούν σε µια ϑέση µνή-

µης το ϐέλτιστο σηµείο που έχουν ήδη προσπελάσει και ανταλλάσσουν πληροφορίες

µεταξύ τους ως προς τη ϑέση που ϐρίσκονται σε κάθε επανάληψη. Τα σωµατίδια

αντιστοιχούν σε σηµεία του χώρου αναζήτησης στα οποία υπολογίζουµε την αντικει-

µενική συνάρτηση που επιθυµούµε να ελαχιστοποιήσουµε. Στην περίπτωσή µας,

κάθε σωµατίδιο αντιστοιχεί σε µια παράµετρο λείανσης σ και η αντικειµενική συ-

Page 77: noimosini sminous

56 Εξελικτικά Πιθανοτικά Νευρωνικά ∆ίκτυα

νάρτηση είναι το L­O­T ΠΕΤ στο σύνολο εκπαίδευσης, ϑεωρώντας το ως συνάρτηση

της σ, δηλαδή το πρόβληµα ελαχιστοποίησης είναι µονοδιάστατο.

Το πρώτο ϐήµα του προτεινόµενου σχήµατος είναι ο καθορισµός των παραµέ-

τρων της ΒΣΣ, δηλαδή του µεγέθους του σµήνους NP , του παράγοντα περιορισµού

χ, του µέγιστου αριθµού επαναλήψεων MaxGen, των γνωστικών και κοινωνικών

παραµέτρων c1 και c2 και του διαστήµατος των επιτρεπτών τιµών των ταχυτήτων

V = [Vmin, Vmax]. Επίσης πρέπει να καθοριστεί και ο χώρος αναζήτησης της παρα-

µέτρου λείανσης, S = [sl, su], δηλαδή τα όρια sl και su µέσα στα οποία ϑα κινούνται

τα σωµατίδια της ΒΣΣ. ΄Επειτα, κατασκευάζουµε ένα ΠΝ∆ χρησιµοποιώντας το σύ-

νολο εκπαίδευσης Ttr όπου η παράµετρος λείανσης παίρνει µια τυχαία τιµή στο S.

Κατά την αρχικοποίηση του σµήνους επιλέγονται τυχαία NP τιµές από το S τις οποί-

ες ϑέτουµε ως αρχικές ϑέσεις Z(0)i των σωµατιδίων του σµήνους. Θεωρούµε επίσης

ότι οι αρχικές ταχύτητες των σωµατιδίων είναι µηδενικές. Για κάθε σωµατίδιο, δηλα-

δή για κάθε παράµετρο λείανσης, υπολογίζεται το L­O­T ΠΕΤ στο Ttr δηλαδή οι τιµές

της αντικειµενικής συνάρτησης h(

Z(0)i

)

, i = 1, 2, . . . , NP . Κατά την αρχικοποίηση

της ϐέλτιστης ϑέσης κάθε σωµατιδίου BP(0)i , απλά ϑέτουµε ότι BP

(0)i = Z

(0)i . Για

την αρχικοποίηση της ϐέλτιστης ϑέσης της «γειτονιάς» του κάθε σωµατιδίου BP(0)gi ,

ϑέτουµε ότι BPgi= Z

(0)j όπου Z

(0)j είναι η ϑέση του σωµατιδίου που ανήκει στη

γειτονιά του i-οστού σωµατιδίου και πέτυχε τη µικρότερη τιµή στην αντικειµενική

συνάρτηση δηλαδή

j = arg maxl∈N(i)

h(

Z(0)l

)

,

όπου N(i) είναι το σύνολο των δεικτών των σωµατιδίων που αποτελούν την γειτονιά

του i-οστού σωµατιδίου.

Ξεκινώντας την επαναληπτική διαδικασία, για κάθε νέα γενιά υπολογίζουµε τις

νέες ταχύτητες των σωµατιδίων ϐάσει της Εξ. (2.12), λαµβάνοντας δηλαδή υπόψη

την προηγούµενη ταχύτητα κάθε σωµατιδίου, την προσωπική του καλύτερη ϑέση

που έχει επισκεφθεί µέχρι την συγκεκριµένη γενιά και την καλύτερη ϑέση που

έχουν επισκεφθεί όλα τα σωµατίδια της γειτονιάς του. Μετά τον υπολογισµό των

ταχυτήτων, εξετάζουµε αν αυτές περιέχονται στο διάστηµα των επιτρεπτών τιµών V και

τις περιορίζουµε µέσα σε αυτό αν κάποια ταχύτητα ϐρίσκεται εκτός του διαστήµατος.

΄Επειτα, τα σωµατίδια µετακινούνται από την προηγούµενη τους ϑέση κατά µήκος

της διεύθυνσης της νέας ταχύτητας για ένα ϐήµα. Θα πρέπει να εξετάσουµε αν οι

νέες ϑέσεις των σωµατιδίων περιέχονται στο χώρο αναζήτησης S και αν κάποια ϑέση

ξεφεύγει από αυτά τα όρια, την περιορίζουµε στα άκρα του S.

Στο επόµενο ϐήµα υπολογίζουµε τις τιµές της αντικειµενικής συνάρτησης για

κάθε σωµατίδιο, δηλαδή υπολογίζουµε τα L­O­T ΠΕΤ στο σύνολο εκπαίδευσης Ttr

από κάθε ΠΝ∆ ϑέτοντας ως παραµέτρους λείανσης των πυρήνων των ΠΝ∆ τις ϑέσεις

των σωµατιδίων Z(g+1)i , i = 1, 2, . . . , NP . Ακολούθως ενηµερώνεται η προσωπική

ϐέλτιστη ϑέση κάθε σωµατιδίου, η οποία ϑα ισούται µε τη νέα ϑέση του σωµατιδί-

ου αν υπάρχει µείωση στην τιµή της αντικειµενικής συνάρτησης, σε σχέση µε την

προηγούµενη ϐέλτιστη ϑέση, αλλιώς ϑα παραµείνει η προηγούµενη ϐέλτιστη ϑέση.

Page 78: noimosini sminous

4.2 Προτεινόµενα Σχήµατα 57

Με τον ίδιο τρόπο, ενηµερώνονται και οι ϐέλτιστες ϑέσεις της γειτονιάς του κάθε

σωµατιδίου. Πριν προχωρήσουµε στην εξέλιξη της νέας γενιάς, εξετάζουµε αν ικανο-

ποιείται η συνθήκη τερµατισµού ϐάσει της οποίας εξετάζουµε αν το L­O­T ΠΕΤ είναι

µικρότερο από µια προκαθορισµένη τιµή στόχου. Αν δεν ικανοποιείται η συνθήκη

τερµατισµού και ο δείκτης του αριθµού της γενιάς (επανάληψης) g δεν έχει υπερ-

ϐεί τον προκαθορισµένο µέγιστο αριθµό επαναλήψεων MaxGen, επαναλαµβάνεται

η παραπάνω διαδικασία.

΄Οταν ικανοποιηθεί η συνθήκη τερµατισµού ή υπερβούµε το µέγιστο αριθµό ε-

παναλήψεων, ο αλγόριθµος επιστρέφει την παράµετρο λείανσης δηλαδή τη ϑέση του

σωµατιδίου που πέτυχε το µικρότερο L­O­T ΠΕΤ στο σύνολο εκπαίδευσης Ttr και

τερµατίζει. Το προτεινόµενο µοντέλο ονοµάζεται Οµοσκεδαστικό Εξελικτικό Πιθανο-

τικό Νευρωνικό ∆ίκτυο µε χρήση της Βελτιστοποίησης µε Σµήνος Σωµατιδίων (Οµ.

ΕΠΝ∆ ΒΣΣ).

Μια επέκταση του προτεινόµενου µοντέλου είναι η περίπτωση που ϑεωρούµε

πως ο πίνακας των παραµέτρων λείανσης των πυρήνων είναι µεν διαγώνιος αλλά

τα στοιχεία της διαγωνίου δεν είναι απαραίτητα ίσα µεταξύ τους. ∆ηλαδή έχουµε

ένα ετεροσκεδαστικό µοντέλο. ΄Εδω, ο στόχος µας είναι η αναζήτηση όχι µιας πα-

ϱαµέτρου λείανσης σ2 αλλά p παραµέτρων λείανσης [σ21 , σ

22, . . . , σ

2p]. Στο πρόβληµα

ελαχιστοποίησης του L­O­T ΠΕΤ στο σύνολο εκπαίδευσης χρησιµοποιώντας τη ΒΣΣ,

ϑεωρούµε πως κάθε σωµατίδιο είναι ένα p-διάστατο διάνυσµα παραµέτρων λείανσης,

δηλαδή

Zi = [σ2i1, σ

2i2, . . . , σ

2ip]

⊤ ∈ S = [sl, su]p ⊆ R

p+, i = 1, 2, . . . , NP.

΄Ετσι, το πρόβληµα ελαχιστοποίησης είναι πλέον p-διάστατο και ο χώρος αναζήτησης

έχει τη µορφή S = [sl, su]p, δηλαδή η διάσταση ελαχιστοποίησης της ΒΣΣ d ισούται

µε τον αριθµό των µεταβλητών του συνόλου δεδοµένων (d = p). Αντίστοιχα, τα

διανύσµατα των ταχυτήτων των σωµατιδίων ϑα είναι πλέον p-διάστατα, δηλαδή

Vi = [vi1, vi2, . . . , vip]⊤ ∈ V = [Vmin, Vmax]

p ⊆ Rp, i = 1, 2, . . . , NP.

Με αυτό τον τρόπο, το ΕΠΝ∆ επιτρέπει µεγαλύτερη ευελιξία στην προσαρµογή

του µοντέλου στα δεδοµένα, εφόσον σε κάθε µεταβλητή αντιστοιχίζεται µια διαφορε-

τική παράµετρος λείανσης. ∆ηλαδή δεν αναγκάζουµε όλες τις µεταβλητές να έχουν

µια κοινή παράµετρο λείανσης. Το προτεινόµενο µοντέλο, που επιτρέπει την ετερο-

σκεδαστικότητα του πίνακα των παραµέτρων λείανσης, ονοµάζεται Ετεροσκεδαστικό

Εξελικτικό Πιθανοτικό Νευρωνικό ∆ίκτυο µε χρήση της Βελτιστοποίησης µε Σµήνος

Σωµατιδίων (Ετ. ΕΠΝ∆ ΒΣΣ) [44,45].

Στον Πίνακα 4.1 παρουσιάζεται ο ψευδοκώδικας λειτουργίας ενός ΕΠΝ∆ µε χρή-

ση της ΒΣΣ και για τις δύο περιπτώσεις του πίνακα των παραµέτρων λείανσης. Στην

περίπτωση του οµοσκεδαστικού ΕΠΝ∆ ϑέτουµε ως διάσταση ϐελτιστοποίησης d = 1,

δηλαδή κάθε σωµατίδιο του σµήνους είναι µονοδιάστατο και αντιστοιχεί σε µια κοινή

Page 79: noimosini sminous

58 Εξελικτικά Πιθανοτικά Νευρωνικά ∆ίκτυα

Πίνακας 4.1: Ψευδοκώδικας Λειτουργίας ενός ΕΠΝ∆ µε ΒΣΣ

Είσοδος ΠΝ∆: Σύνολο εκπαίδ. Ttr = xik, i = 1, 2, . . . , Nk, k = 1, 2, . . . , KΕίσοδος ΒΣΣ: NP , χ, c1, c2, MaxGen, S = [sl, su]

d,V = [Vmin, Vmax]d.

Κατασκεύασε ένα ΠΝ∆ ϐάσει του Ttr.

Αρχικοποίησε ένα σµήνος από παραµ. λείανσης Z(0)i , i = 1, 2, . . . , NP στο S.

Αρχικοποίησε τις ταχύτητες του σµήνους, V(0)i , i = 1, 2, . . . , NP στο V.

Υπολόγισε τα L­O­T ΠΕΤ στο Ttr, h(

Z(0)i

)

, i = 1, 2, . . . , NP .

Αρχικοποίησε τις καλύτερες ϑέσεις BP(0)i και BP

(0)gi

, i = 1, 2, . . . , NP .

For g = 0, MaxGen− 1 do:

Ενηµέρωσε ταχύτητες, V(g+1)i , i = 1, 2, . . . , NP µε χρήση της Εξ. (2.12).

Περιόρισε ταχύτητες, V(g+1)i , i = 1, 2, . . . , NP στο V.

Ενηµέρωσε σωµατίδια, Z(g+1)i = Z

(g)i + V

(g+1)i , i = 1, 2, . . . , NP .

Περιόρισε σωµατίδια, Z(g+1)i , i = 1, 2, . . . , NP στο S.

Υπολόγισε τα L­O­T ΠΕΤ στο Ttr, h(

Z(g+1)i

)

, i = 1, 2, . . . , NP .

Ενηµέρωσε τις προσωπικές ϐέλτιστες ϑέσεις BP(g+1)i , i = 1, 2, . . . , NP .

Ενηµέρωσε τη ϐέλτιστη ϑέση της γειτονιάς

κάθε σωµατιδίου BP(g+1)gi

, i = 1, 2, . . . , NP .

If (Συνθήκη Τερµατισµού) Then Stop.

EndFor

Εκτύπωσε τη ϐέλτιστη παράµετρο λείανσης και το αντίστοιχο ΠΕΤ.

παράµετρο λείανσης των συναρτήσεων πυρήνων του ΠΝ∆. Προφανώς, ο χώρος ανα-

Ϲήτησης S και ο χώρος των ταχυτήτων V είναι υποσύνολα του R+ και R αντίστοιχα.

Από την άλλη πλευρά, για το ετεροσκεδαστικό ΕΠΝ∆, η διάσταση ϐελτιστοποίησης

ισούται µε τη διάσταση του προβλήµατος των δεδοµένων δηλαδή d = p και έτσι

το κάθε σωµατίδιο αντιστοιχεί σε ένα p-διάστατο διάνυσµα παραµέτρων λείανσης.

Αντίστοιχα εδώ έχουµε ότι S ⊆ Rp+ και V ⊆ R

p.

4.2.2 ∆ιαφοροεξελικτικά ΠΝ∆

Μια εναλλακτική προσέγγιση είναι η ενσωµάτωση µιας άλλης κατηγορίας αλ-

γορίθµων εξελικτικού υπολογισµού και συγκεκριµένα των διαφοροεξελικτικών αλ-

γορίθµων ϐελτιστοποίησης για την αναζήτηση των ϐέλτιστων παραµέτρων λείανσης.

Οι διαφοροεξελικτικοί αλγόριθµοι (∆ΕΑ) είναι και αυτοί στοχαστικοί αλγόριθµοι που

ϐασίζονται σε πληθυσµούς σηµείων όπως αναφέραµε και στην Ενότ. 2.3.1. Θεωρού-

µε πως κάθε άτοµο του πληθυσµού αντιστοιχεί σε µια παράµετρο λείανσης του ΠΝ∆

στην περίπτωση του οµοσκεδαστικού µοντέλου, ή σε ένα p-διάστατο διάνυσµα πα-

ϱαµέτρων λείανσης στην περίπτωση του ετεροσκεδαστικού µοντέλου. Η διαδικασία

είναι παρόµοια µε αυτή του ΕΠΝ∆ µε ΒΣΣ.

Αρχικά, πρέπει να καθορίσουµε τις παραµέτρους του ∆ΕΑ δηλαδή το µέγεθος

του πληθυσµού NP , τη σταθερά µετάλλαξης F , τη σταθερά ανασυνδυασµού CR, τον

µέγιστο αριθµό επαναλήψεων MaxGen και τον χώρο αναζήτησης των παραµέτρων

Page 80: noimosini sminous

4.2 Προτεινόµενα Σχήµατα 59

λείανσης S = [sl, su]d. Επίσης, πρέπει να διαλέξουµε ποια εκ των έξι προτεινόµενων

στρατηγικών µετάλλαξης (Εξ. 2.2–2.6) ϑα ακολουθήσουµε. Γενικά δεν υπάρχει

κάποιος κανόνας που να προτείνει κάποια συγκεκριµένη στρατηγική.

Μετά τον καθορισµό των παραµέτρων του ∆ΕΑ, κατασκευάζουµε ένα απλό ΠΝ∆

χρησιµοποιώντας το σύνολο εκπαίδευσης Ttr. Κατά την αρχικοποίηση του πληθυ-

σµού των ατόµων, επιλέγονται τυχαία NP τιµές από το S τις οποίες ϑέτουµε ως

αρχικά άτοµα Z(0)i , i = 1, 2, . . . , NP του ∆Ε πληθυσµού. ΄Οταν υποθέτουµε ένα οµο-

σκεδαστικό µοντέλο, δηλαδή µια κοινή παράµετρο λείανσης, κάθε άτοµο αντιστοιχεί

σε µια παράµετρο λείανσης και η διάσταση ϐελτιστοποίησης είναι d = 1. Αντίθετα,

αν υποθέσουµε ότι έχουµε ένα ετεροσκεδαστικό µοντέλο, τότε κάθε άτοµο είναι ένα

p–διάστατο διάνυσµα παραµέτρων λείανσης και προφανώς d = p. Για κάθε άτοµο,

υπολογίζεται το L­O­T ΠΕΤ στο Ttr δηλαδή τα h(

Z(0)i

)

, i = 1, 2, . . . , NP και ϐρί-

σκουµε το καλύτερο άτοµο δηλαδή το άτοµο µε το χαµηλότερο L­O­T ΠΕΤ το οποίο

ονοµάζουµε Z(0)best.

Ξεκινώντας την εξέλιξη του ∆ΕΑ, παίρνουµε κάθε ένα άτοµο του πληθυσµού

και το µεταλλάσσουµε ϐάσει µιας εκ των έξι προτεινόµενων στρατηγικών την οποία

έχουµε προκαθορίσει. Για παράδειγµα, αν ακολουθήσουµε την πρώτη στρατηγική

που υλοποιείται ϐάσει της Εξ. (2.2) δηλαδή το σχήµα DE/rand/1/bin, για να

κατασκευάσουµε το νέο i–οστό άτοµο για την επόµενη γενιά, αρχικά επιλέγουµε

τυχαία τρία άτοµα της τρέχουσας γενιάς εκτός του i–οστού και ϐάσει της Εξ. (2.2) το

µεταλλάσσουµε. Με άλλα λόγια, η ϑέση του νέου ατόµου ϑα ισούται µε τη ϑέση ενός

τυχαία επιλεγµένου ατόµου συν τη διαφορά δυο άλλων τυχαία επιλεγµένων ατόµων

πολλαπλασιασµένων επί τη σταθερά µετάλλαξης F .

΄Επειτα, εφαρµόζουµε τον τελεστή ανασυνδυασµού όπου παράγουµε έναν τυχαίο

αριθµό r στο [0, 1] για κάθε µια συνιστώσα του µεταλλαγµένου διανύσµατος και αν

r < CR, τότε επιλέγουµε τη συνιστώσα του µεταλλαγµένου διανύσµατος ως συνιστώ-

σα του δοκιµαστικού διανύσµατος αλλιώς διατηρούµε την αντίστοιχη συνιστώσα του

i–οστού ατόµου της προηγούµενης γενιάς.

Μετά την κατασκευή του δοκιµαστικού ατόµου εφαρµόζουµε τον τελεστή επιλο-

γής, δηλαδή ϑα ενσωµατώσουµε το δοκιµαστικό άτοµο στην νέα γενιά εφόσον αυτό

επιτυγχάνει χαµηλότερη τιµή στην αντικειµενική συνάρτηση. Αν δεν υπάρχει µείωση

του L­O­T ΠΕΤ στο Ttr χρησιµοποιώντας τις συνιστώσες του δοκιµαστικού διανύσµα-

τος ως παραµέτρους λείανσης, τότε διατηρούµε το άτοµο της προηγούµενης γενιάς

και στην επόµενη. Η επαναληπτική διαδικασία παραγωγής νέων ατόµων συνεχίζεται

µέχρι να ικανοποιηθεί το κριτήριο τερµατισµού ή µέχρι ο δείκτης του αριθµού της

γενιάς ϕτάσει το µέγιστο επιτρεπόµενο αριθµό γενεών MaxGen. Τότε ο αλγόριθ-

µος επιστρέφει τη ϐέλτιστη παράµετρο ή τις ϐέλτιστες παραµέτρους λείανσης και το

αντίστοιχο ΠΕΤ.

Το προτεινόµενο ΕΠΝ∆ καλείται ∆ιαφοροεξελικτικό Πιθανοτικό Νευρωνικό ∆ί-

κτυο (∆ΕΠΝ∆) και µπορεί να είναι είτε οµοσκεδαστικό αν ϑεωρήσουµε µια κοινή

παράµετρο λείανσης είτε ετεροσκεδαστικό αν ϑεωρήσουµε ένα διαγώνιο πίνακα πα-

ϱαµέτρων λείανσης [43]. Στον Πίνακα 4.2 παρουσιάζεται ο ψευδοκώδικας λειτουρ-

Page 81: noimosini sminous

60 Εξελικτικά Πιθανοτικά Νευρωνικά ∆ίκτυα

γίας ενός ∆ΕΠΝ∆.

Πίνακας 4.2: Ψευδοκώδικας Λειτουργίας ενός ∆ΕΠΝ∆

Είσοδος ΠΝ∆: Σύνολο εκπαίδ. Ttr = xik, i = 1, 2, . . . , Nk, k = 1, 2, . . . , KΕίσοδος ∆ΕΑ: NP ,F ,CR, MaxGen, S = [sl, su]

d.

Κατασκεύασε ένα ΠΝ∆ ϐάσει του Ttr.

Αρχικοποίησε έναν ∆Ε πληθυσµό Z(0)i , i = 1, 2, . . . , NP στο S.

Υπολόγισε τα L­O­T ΠΕΤ στο Ttr, h(

Z(0)i

)

, i = 1, 2, . . . , NP .

For g = 0, MaxGen− 1 do:

For i = 1, NP do:

Μετάλλαξε(

Z(g)i

)

→ V(g+1)i ϐάσει µιας εκ των Εξ. 2.2–2.6.

Ανασυνδύασε(

V(g+1)i

)

→ U(g+1)i .

If h(

U(g+1)i

)

≤ h(

Z(g)i

)

Then

Z(g+1)i ← U

(g+1)i .

Else

Z(g+1)i ← Z

(g)i .

EndIf

EndFor

If (Συνθήκη Τερµατισµού) Then Stop.

EndFor

Εκτύπωσε τη ϐέλτιστη παράµετρο λείανσης και το αντίστοιχο ΠΕΤ.

4.3 Πειραµατικά Αποτελέσµατα

4.3.1 Αποτελέσµατα των ΕΠΝ∆ ΒΣΣ

Για να εξετάσουµε την αποδοτικότητα των προτεινόµενων ΕΠΝ∆ ϑα τα εφαρµό-

σουµε στα έξι προβλήµατα ταξινόµησης που παρουσιάζονται στο Παράρτηµα Α, ακο-

λουθώντας την πειραµατική µεθοδολογία που προτάθηκε στο Κεφάλαιο 3. Σε κάθε

ένα πρόβληµα ταξινόµησης ϑα εφαρµόσουµε 10 ϕορές τη διασταυρωµένη δειγµα-

τοληψία δέκατης τάξης ϑεωρώντας διαφορετική διαµέριση του συνόλου δεδοµένων

κάθε ϕορά. Με αυτό τον τρόπο ϑα προκύψουν 10× 10 = 100 σύνολα εκπαίδευσης

και 100 σύνολα ελέγχου αντίστοιχα, τα οποία ϐέβαια είναι επικαλυπτόµενα. Χρησι-

µοποιώντας κάθε ένα σύνολο εκπαίδευσης κατασκευάζουµε ένα ΠΝ∆ και εκτιµούµε

τις παραµέτρους του όπως προαναφέραµε.

Για να εξαλείψουµε την πιθανή µεροληψία της αρχικοποίησης των προτεινό-

µενων µοντέλων, επαναλαµβάνουµε την ίδια διαδικασία 5 ϕορές για κάθε σύνολο

εκπαίδευσης αλλάζοντας µόνο τις αρχικές τιµές των παραµέτρων των µοντέλων και

σε κάθε περίπτωση υπολογίζουµε το ΠΕΤ στο σύνολο ελέγχου. Με αυτό τον τρόπο,

καταγράφουµε 5 ΠΕΤ ελέγχου για κάθε ένα από τα 100 σύνολα εκπαίδευσης κάθε

προβλήµατος και για να εκτιµήσουµε την πραγµατική αποδοτικότητα των µοντέλων

Page 82: noimosini sminous

4.3 Πειραµατικά Αποτελέσµατα 61

επιλέγουµε τη διάµεσο των 5 ΠΕΤ. Ο λόγος που προτιµάται η διάµεσος και όχι η

µέση τιµή των 5 ΠΕΤ ελέγχου είναι διότι η διάµεσος είναι µια ανθεκτική παράµετρος

ϑέσης και δεν επηρεάζεται από τυχόν ακραίες τιµές είτε αυτές είναι πολύ µικρές είτε

πολύ µεγάλες. ΄Εχοντας υπολογίσει τα ΠΕΤ ελέγχου κάθε συνόλου εκπαίδευσης,

υπολογίζουµε τα διασταυρωµένα ΠΕΤ στο σύνολο ελέγχου από κάθε δεκάδα εφόσον

έχουµε χρησιµοποιήσει διασταυρωµένη δειγµατοληψία δέκατης τάξης.

Στον Πίνακα 4.3 παρουσιάζονται περιληπτικά τα στοιχεία των έξι προβληµάτων

ταξινόµησης τα οποία παρουσιάζονται αναλυτικά στο Παράρτηµα Α.

Πίνακας 4.3: Χαρακτηριστικά των προβληµάτων ταξινόµησης

Cancer Card Diabetes Glass Heart Horse

Πλήθος Περιπτώσεων 699 690 768 214 920 364

Μεταβλητές 9 51 8 9 35 58

Κλάσεις 2 2 2 6 2 3

Για κάθε ένα από τα έξι προβλήµατα, έχει υπολογιστεί η µέση τιµή, η διάµε-

σος, η τυπική απόκλιση, η ελάχιστη και η µέγιστη τιµή των 10 − CV ποσοστών

επιτυχίας (ΠΕ) των συνόλων ελέγχου. Συγκεκριµένα, τα αποτελέσµατα για το οµο-

σκεδαστικό και ετεροσκεδαστικό ΕΠΝ∆ µε ΒΣΣ παρουσιάζονται στον Πίνακα 4.4.

Για την υλοποίηση της ΒΣΣ χρησιµοποιήθηκαν οι τυπικές τιµές των παραµέτρων

c1 = c2 = 2.05, χ = 0.729 [15]. Ο αριθµός των σωµατιδίων που χρησιµοποιήθηκαν

στη ΒΣΣ ήταν NP = 5 για το οµοσκεδαστικό µοντέλο και NP = 10 για το ετερο-

σκεδαστικό και η ΒΣΣ εξελίχθηκε για το πολύ 50 και 100 γενιές αντίστοιχα, δηλαδή

MaxGen = 50 για το Οµ. ΕΠΝ∆ ΒΣΣ και MaxGen = 100 για το Ετ. ΕΠΝ∆ ΒΣΣ.

Ο χώρος αναζήτησης της ΒΣΣ, δηλαδή το επιτρεπόµενο διάστηµα όπου έπαιρναν

τιµές τα σωµατίδια, ήταν το διάστηµα [0.001, 5.0] το οποίο ϑεωρείται ικανοποιητικό

εφόσον τα διανύσµατα χαρακτηριστικών είναι περιορισµένα στο διάστηµα [0, 1] ή

[−1, 1] ανάλογα µε το πρόβληµα ταξινόµησης. Από τους πίνακες των αποτελεσµάτων

παρατηρούµε ότι το Ετ. ΕΠΝ∆ ΒΣΣ πέτυχε µεγαλύτερο µέσο ΠΕ σε σχέση µε το Οµ.

ΕΠΝ∆ ΒΣΣ σε πέντε από τα έξι προβλήµατα και σε κάποιες περιπτώσεις η διαφορά

ήταν αρκετά µεγάλη.

Η υλοποίηση των ΕΠΝ∆ έγινε µε χρήση της γλώσσα προγραµµατισµού FORTRAN

90 σε λειτουργικό σύστηµα Linux και συγκεκριµένα στη διανοµή Ubuntu. Η εκτέ-

λεση των προγραµµάτων έγινε σε έναν προσωπικό υπολογιστή (PC) µε επεξεργαστή

Intel Pentium IV µε συχνότητα χρονισµού 3GHz και ϕυσική µνήµη 1 GB. Στον

Πίνακα 4.5 παρουσιάζεται η µέση τιµή, η διάµεσος, η τυπική απόκλιση, η ελάχιστη

και η µέγιστη τιµή του απαιτούµενου χρόνου εκπαίδευσης των ΕΠΝ∆ ΒΣΣ. Θα πρέ-

πει να σηµειωθεί ότι ο κώδικας της υλοποίησης δεν είναι ϐελτιστοποιηµένος ως προς

την ταχύτητα εκτέλεσης του προγράµµατος, οπότε οι χρόνοι που παρουσιάζονται εί-

ναι απλά ενδεικτικοί για τη σύγκριση µεταξύ των προτεινόµενων παραλλαγών των

ΠΝ∆. Από τον πίνακα των χρόνων παρατηρούµε ότι το Ετ. ΕΠΝ∆ ΒΣΣ απαιτεί περί-

Page 83: noimosini sminous

62 Εξελικτικά Πιθανοτικά Νευρωνικά ∆ίκτυα

Πίνακας 4.4: Ποσοστά Επιτυχίας στο σύνολο ελέγχου των ΕΠΝ∆ µε ΒΣΣ

Συν. ∆εδοµ. Μοντέλο Μέσος ∆ιάµεσος Τυπ.Απ. Ελαχ. Μεγ.

Cancer Οµ. ΕΠΝ∆ ΒΣΣ 95.82 95.85 0.28 95.28 96.28Ετ. ΕΠΝ∆ ΒΣΣ 95.32 95.21 0.57 94.42 96.14

Card Οµ. ΕΠΝ∆ ΒΣΣ 85.35 85.22 0.38 84.93 86.09Ετ. ΕΠΝ∆ ΒΣΣ 87.67 87.76 0.51 86.96 88.55

Diabetes Οµ. ΕΠΝ∆ ΒΣΣ 67.67 67.58 0.88 66.03 68.80Ετ. ΕΠΝ∆ ΒΣΣ 69.37 69.46 0.80 67.73 70.54

Glass Οµ. ΕΠΝ∆ ΒΣΣ 68.52 68.15 1.55 66.80 70.78Ετ. ΕΠΝ∆ ΒΣΣ 75.36 75.30 1.77 73.31 77.60

Heart Οµ. ΕΠΝ∆ ΒΣΣ 81.50 81.52 0.27 80.87 81.74Ετ. ΕΠΝ∆ ΒΣΣ 82.60 82.45 0.40 82.07 83.26

Horse Οµ. ΕΠΝ∆ ΒΣΣ 66.54 66.74 0.79 65.33 67.55Ετ. ΕΠΝ∆ ΒΣΣ 68.48 68.36 0.97 67.08 69.75

που διπλάσιο χρόνο εκπαίδευσης σε σχέση µε το Οµ. ΕΠΝ∆ ΒΣΣ κάτι το οποίο είναι

αρκετά λογικό εφόσον στην πρώτη περίπτωση η ϐελτιστοποίηση είναι p–διάστατη ενώ

στη δεύτερη είναι µονοδιάστατη καθώς ϑεωρούµε µια κοινή παράµετρο λείανσης.

Πίνακας 4.5: Χρόνος εκπαίδευσης των ΕΠΝ∆ µε ΒΣΣ

Συν. ∆εδοµ. Μοντέλο Μέσος ∆ιάµεσος Τυπ.Απ. Ελαχ. Μεγ.

Cancer Οµ. ΕΠΝ∆ ΒΣΣ 89.12 88.82 1.07 88.12 91.73Ετ. ΕΠΝ∆ ΒΣΣ 171.78 171.75 1.07 170.21 174.04

Card Οµ. ΕΠΝ∆ ΒΣΣ 266.10 274.39 74.56 168.72 342.27Ετ. ΕΠΝ∆ ΒΣΣ 521.60 510.24 142.74 327.08 671.83

Diabetes Οµ. ΕΠΝ∆ ΒΣΣ 101.17 101.13 0.48 100.40 102.01Ετ. ΕΠΝ∆ ΒΣΣ 195.27 195.66 0.92 193.82 196.62

Glass Οµ. ΕΠΝ∆ ΒΣΣ 9.16 9.26 0.65 7.99 9.95Ετ. ΕΠΝ∆ ΒΣΣ 17.21 17.47 0.76 16.04 18.27

Heart Οµ. ΕΠΝ∆ ΒΣΣ 223.28 224.35 4.28 215.15 228.97Ετ. ΕΠΝ∆ ΒΣΣ 438.10 440.29 6.82 422.45 449.24

Horse Οµ. ΕΠΝ∆ ΒΣΣ 76.10 77.98 7.97 66.17 87.37Ετ. ΕΠΝ∆ ΒΣΣ 169.92 169.92 23.39 147.73 192.11

4.3.2 Αποτελέσµατα των ∆ΕΠΝ∆

Ακολουθήσαµε την ίδια µεθοδολογία για να εξετάσουµε την αποδοτικότητα των

∆ΕΠΝ∆. Για κάθε µια από τις έξι προτεινόµενες στρατηγικές των ∆ΕΑ, έχει υπολο-

γιστεί η µέση τιµή, η διάµεσος, η τυπική απόκλιση, η ελάχιστη και η µέγιστη τιµή

των 10−CV ΠΕ των συνόλων ελέγχου σε κάθε πρόβληµα ταξινόµησης. Τα αποτελέ-

σµατα παρουσιάζονται στον Πίνακα 4.6 για τα προβλήµατα Cancer, Card, Diabetes

Page 84: noimosini sminous

4.4 Συµπεράσµατα 63

και στον Πίνακα 4.7 για τα προβλήµατα Glass, Heart, Horse. Ο πληθυσµός που

χρησιµοποιήθηκε από τους ∆ΕΑ αποτελούνταν από NP = 5 άτοµα για το οµοσκεδα-

στικό µοντέλο και NP = 10 άτοµα για το ετεροσκεδαστικό και οι ∆ΕΑ εξελίχθηκαν

για το πολύ 50 και 100 γενιές αντίστοιχα δηλαδή MaxGen = 50 για το Οµ. ∆Ε-

ΠΝ∆ και MaxGen = 100 για το Ετ. ∆ΕΠΝ∆. Ο χώρος αναζήτησης των ∆ΕΑ δηλαδή

το επιτρεπόµενο διάστηµα όπου έπαιρναν τιµές οι παράµετροι λείανσης, δηλαδή τα

άτοµα, ήταν το διάστηµα [0.001, 5.0] όπως και στα ΕΠΝ∆ ΒΣΣ. Για την υλοποίηση

των ∆ΕΑ χρησιµοποιήθηκαν οι τυπικές τιµές των παραµέτρων F , CR για κάθε µια

στρατηγική όπως απεικονίζονται παρακάτω:

Στρατηγική F CR

1η 0.1 0.3

2η 0.3 0.7

3η 0.8 1.0

4η 0.4 0.1

5η 1.0 0.3

6η 0.8 0.1

Από τους Πίνακες 4.6 και 4.7 παρατηρούµε πως στις περισσότερες περιπτώσεις,

τα ετεροσκεδαστικά µοντέλα πέτυχαν µεγαλύτερα µέσα ΠΕ. Επίσης, δεν µπορούµε

να ισχυριστούµε ότι κάποια από τις στρατηγικές υπερτερεί έναντι των υπολοίπων.

Η υλοποίηση των ∆ΕΠΝ∆ έγινε στη γλώσσα προγραµµατισµού C++ σε λειτουρ-

γικό σύστηµα Linux και συγκεκριµένα στη διανοµή Ubuntu. Η εκτέλεση των προ-

γραµµάτων έγινε στον ίδιο υπολογιστή µε τα ΕΠΝ∆ ΒΣΣ αλλά η υλοποίηση είναι

διαφορετική από αυτή των ΕΠΝ∆ ΒΣΣ οπότε δεν είναι άµεσα συγκρίσιµοι οι χρόνοι

τους. Στους Πίνακες 4.8 και 4.9 παρουσιάζεται η µέση τιµή, η διάµεσος, η τυπική

απόκλιση, η ελάχιστη και η µέγιστη τιµή του απαιτούµενου χρόνου εκπαίδευσης

των ∆ΕΠΝ∆. Για τα Οµ. ∆ΕΠΝ∆ παρατηρούµε πως οι χρόνοι εκπαίδευσης έχουν

παρόµοιες µέσες τιµές για τις διάφορες στρατηγικές αλλά υπάρχει µεγάλη διαφορά

µε τα αντίστοιχα Ετ. ∆ΕΠΝ∆ για τα οποία απαιτείται έως και επτά ϕορές παραπάνω

χρόνος εκπαίδευσης.

Για να µπορέσουµε να έχουµε µια καλύτερη εικόνα της αποδοτικότητας των

ΕΠΝ∆ ΒΣΣ και ∆ΕΠΝ∆, κατασκευάσαµε τα αντίστοιχα ϑηκογράµµατα των ΠΕ για

κάθε ένα σύνολο δεδοµένων τα οποία παρουσιάζονται στα Σχήµατα 4.1, 4.2 και 4.3.

4.4 Συµπεράσµατα

Συνοψίζοντας τους προηγούµενους πίνακες των αποτελεσµάτων, µπορούµε να

ισχυριστούµε ότι η ιδέα της χρήσης διαφορετικών παραµέτρων λείανσης σε κάθε

µεταβλητή επιτυγχάνει µεγαλύτερα ΠΕΤ σε σχέση µε το οµοσκεδαστικό µοντέλο τόσο

στο ΕΠΝ∆ ΒΣΣ όσο και στα ∆ΕΠΝ∆. Αυτό συνέβη σε πέντε από τα έξι προβλήµατα

και στα δύο εξάυτών, σε κάποιες περιπτώσεις, η διαφορά ήταν αρκετά µεγάλη. Θα

Page 85: noimosini sminous

64 Εξελικτικά Πιθανοτικά Νευρωνικά ∆ίκτυα

Πίνακας 4.6: Ποσοστά Επιτυχίας στο σύνολο ελέγχου των ∆ΕΠΝ∆ (Cancer, Card, Diabetes)

Συν. ∆εδοµ. Μοντέλο Μέσος ∆ιάµεσος Τυπ.Απ. Ελαχ. Μεγ.

Cancer Οµ. ∆ΕΠΝ∆ Στρ.1 96.22 96.21 0.32 95.71 96.71Οµ. ∆ΕΠΝ∆ Στρ.2 96.11 96.14 0.38 95.28 96.71Οµ. ∆ΕΠΝ∆ Στρ.3 96.05 96.07 0.33 95.42 96.57Οµ. ∆ΕΠΝ∆ Στρ.4 94.30 93.56 1.62 91.99 96.28Οµ. ∆ΕΠΝ∆ Στρ.5 95.11 95.99 1.89 91.57 96.57Οµ. ∆ΕΠΝ∆ Στρ.6 95.79 96.00 0.89 93.42 96.57Ετ. ∆ΕΠΝ∆ Στρ.1 96.44 96.49 0.34 95.71 96.85Ετ. ∆ΕΠΝ∆ Στρ.2 96.39 96.28 0.40 95.85 97.29Ετ. ∆ΕΠΝ∆ Στρ.3 96.72 96.64 0.40 96.14 97.28Ετ. ∆ΕΠΝ∆ Στρ.4 96.62 96.57 0.36 95.85 97.14Ετ. ∆ΕΠΝ∆ Στρ.5 96.42 96.49 0.34 95.85 96.85Ετ. ∆ΕΠΝ∆ Στρ.6 96.47 96.35 0.29 96.14 96.85

Card Οµ. ∆ΕΠΝ∆ Στρ.1 86.07 86.16 0.48 85.36 86.67Οµ. ∆ΕΠΝ∆ Στρ.2 86.01 86.01 0.45 85.22 86.67Οµ. ∆ΕΠΝ∆ Στρ.3 86.03 86.01 0.44 85.36 86.67Οµ. ∆ΕΠΝ∆ Στρ.4 85.74 86.16 1.35 82.17 86.81Οµ. ∆ΕΠΝ∆ Στρ.5 84.59 85.72 2.08 80.72 86.23Οµ. ∆ΕΠΝ∆ Στρ.6 85.97 86.01 0.45 85.22 86.52Ετ. ∆ΕΠΝ∆ Στρ.1 86.88 86.74 0.46 86.23 87.54Ετ. ∆ΕΠΝ∆ Στρ.2 87.13 87.03 0.45 86.52 88.12Ετ. ∆ΕΠΝ∆ Στρ.3 86.93 86.96 0.61 85.80 87.83Ετ. ∆ΕΠΝ∆ Στρ.4 86.70 86.67 0.48 86.09 87.25Ετ. ∆ΕΠΝ∆ Στρ.5 86.75 86.81 0.58 85.65 87.68Ετ. ∆ΕΠΝ∆ Στρ.6 85.80 85.80 1.02 84.49 87.83

Diabetes Οµ. ∆ΕΠΝ∆ Στρ.1 73.93 74.16 0.87 71.91 75.24Οµ. ∆ΕΠΝ∆ Στρ.2 74.29 74.16 0.69 73.38 75.34Οµ. ∆ΕΠΝ∆ Στρ.3 74.22 74.29 0.81 72.72 75.37Οµ. ∆ΕΠΝ∆ Στρ.4 72.48 73.59 2.34 68.65 75.00Οµ. ∆ΕΠΝ∆ Στρ.5 70.75 71.72 3.62 66.52 74.37Οµ. ∆ΕΠΝ∆ Στρ.6 73.84 74.25 1.26 71.16 75.11Ετ. ∆ΕΠΝ∆ Στρ.1 76.17 76.35 0.93 74.55 77.37Ετ. ∆ΕΠΝ∆ Στρ.2 76.36 76.31 0.91 75.12 78.08Ετ. ∆ΕΠΝ∆ Στρ.3 76.44 76.57 0.75 74.70 77.16Ετ. ∆ΕΠΝ∆ Στρ.4 74.59 74.40 1.19 72.75 76.77Ετ. ∆ΕΠΝ∆ Στρ.5 74.14 74.25 1.18 72.22 75.39Ετ. ∆ΕΠΝ∆ Στρ.6 76.33 76.10 0.50 75.80 77.09

πρέπει να σηµειωθεί ότι το Οµ. ΕΠΝ∆ ΒΣΣ πέτυχε υψηλότερο ΠΕ στο Cancer ενώ

το Οµ. ∆ΕΠΝ∆ στο Heart.

Εξετάζοντας προσεκτικά τους πίνακες των ΠΕ παράλληλα µε τα ϑηκογράµµατα,

παρατηρούµε πως τα Ετ. ΕΠΝ∆ ΒΣΣ πέτυχαν υψηλότερο ΠΕ σε τέσσερα από τα

έξι προβλήµατα. Επίσης, αξίζει να σηµειωθεί ότι δεν είναι εύκολο να προτείνουµε

Page 86: noimosini sminous

4.4 Συµπεράσµατα 65

Πίνακας 4.7: Ποσοστά Επιτυχίας στο σύνολο ελέγχου των ∆ΕΠΝ∆ (Glass, Heart, Horse)

Συν. ∆εδοµ. Μοντέλο Μέσος ∆ιάµεσος Τυπ.Απ. Ελαχ. Μεγ.

Glass Οµ. ∆ΕΠΝ∆ Στρ.1 67.51 67.91 2.65 61.96 70.38Οµ. ∆ΕΠΝ∆ Στρ.2 66.70 66.69 2.49 62.27 70.76Οµ. ∆ΕΠΝ∆ Στρ.3 66.95 66.88 2.67 62.36 70.29Οµ. ∆ΕΠΝ∆ Στρ.4 65.08 63.58 4.36 59.01 71.81Οµ. ∆ΕΠΝ∆ Στρ.5 58.70 57.07 6.58 51.73 71.24Οµ. ∆ΕΠΝ∆ Στρ.6 66.79 67.40 3.13 61.56 70.29Ετ. ∆ΕΠΝ∆ Στρ.1 69.79 70.76 2.77 64.97 74.04Ετ. ∆ΕΠΝ∆ Στρ.2 70.57 71.32 2.61 64.99 72.99Ετ. ∆ΕΠΝ∆ Στρ.3 75.17 74.98 1.20 73.71 77.28Ετ. ∆ΕΠΝ∆ Στρ.4 65.67 64.96 2.52 62.72 69.66Ετ. ∆ΕΠΝ∆ Στρ.5 64.29 63.86 1.92 62.19 68.30Ετ. ∆ΕΠΝ∆ Στρ.6 72.73 72.36 1.71 70.06 76.32

Heart Οµ. ∆ΕΠΝ∆ Στρ.1 81.84 81.90 0.57 80.87 82.50Οµ. ∆ΕΠΝ∆ Στρ.2 81.38 81.79 1.14 78.26 82.39Οµ. ∆ΕΠΝ∆ Στρ.3 76.80 77.93 5.70 66.96 82.07Οµ. ∆ΕΠΝ∆ Στρ.4 77.58 77.66 3.54 71.85 82.07Οµ. ∆ΕΠΝ∆ Στρ.5 63.51 64.08 5.85 54.57 72.17Οµ. ∆ΕΠΝ∆ Στρ.6 79.35 79.89 2.79 74.13 82.07Ετ. ∆ΕΠΝ∆ Στρ.1 79.38 79.40 0.70 78.37 80.54Ετ. ∆ΕΠΝ∆ Στρ.2 79.25 79.18 1.07 77.50 81.52Ετ. ∆ΕΠΝ∆ Στρ.3 79.21 79.08 1.51 76.09 81.74Ετ. ∆ΕΠΝ∆ Στρ.4 78.12 78.32 1.57 74.46 80.00Ετ. ∆ΕΠΝ∆ Στρ.5 78.37 78.21 1.00 76.96 80.22Ετ. ∆ΕΠΝ∆ Στρ.6 76.36 76.96 2.67 69.57 79.35

Horse Οµ. ∆ΕΠΝ∆ Στρ.1 66.32 66.43 1.17 64.44 67.94Οµ. ∆ΕΠΝ∆ Στρ.2 66.05 66.00 0.92 64.86 68.11Οµ. ∆ΕΠΝ∆ Στρ.3 65.99 66.00 1.15 64.14 68.39Οµ. ∆ΕΠΝ∆ Στρ.4 66.27 66.29 0.65 65.14 67.28Οµ. ∆ΕΠΝ∆ Στρ.5 66.56 66.63 1.22 64.19 68.39Οµ. ∆ΕΠΝ∆ Στρ.6 65.86 65.90 1.18 64.14 67.83Ετ. ∆ΕΠΝ∆ Στρ.1 65.90 65.68 1.32 64.08 68.28Ετ. ∆ΕΠΝ∆ Στρ.2 66.55 66.43 0.83 65.36 67.83Ετ. ∆ΕΠΝ∆ Στρ.3 66.27 66.35 1.33 64.06 68.44Ετ. ∆ΕΠΝ∆ Στρ.4 65.56 65.40 1.72 62.36 67.86Ετ. ∆ΕΠΝ∆ Στρ.5 65.95 66.51 1.70 61.81 67.33Ετ. ∆ΕΠΝ∆ Στρ.6 65.33 65.43 1.36 63.25 67.44

µια από τις έξι στρατηγικές των ∆ΕΠΝ∆ ως την αποδοτικότερη, διότι παρατηρούµε

πως σε κάποιο πρόβληµα η µια στρατηγική πάει καλύτερα από κάποια άλλη και σε

ένα άλλο πρόβληµα συµβαίνει το αντίστροφο. ΄Ενα τέτοιο παράδειγµα είναι η στρα-

τηγική 5 όπου γενικά δεν επιτυγχάνει πολύ καλά αποτελέσµατα και συνήθως έχει

αρκετά µεγάλη τυπική απόκλιση αλλά στο σύνολο δεδοµένων Horse πέτυχε σχεδόν

Page 87: noimosini sminous

66 Εξελικτικά Πιθανοτικά Νευρωνικά ∆ίκτυα

Πίνακας 4.8: Χρόνος εκπαίδευσης των ∆ΕΠΝ∆ (Cancer, Card, Diabetes) (sec)

Συν. ∆εδοµ. Μοντέλο Μέσος ∆ιάµεσος Τυπ.Απ. Ελαχ. Μεγ.

Cancer Οµ. ∆ΕΠΝ∆ Στρ.1 31.09 31.29 0.95 29.34 32.48Οµ. ∆ΕΠΝ∆ Στρ.2 31.54 31.46 0.59 30.84 32.31Οµ. ∆ΕΠΝ∆ Στρ.3 30.72 30.70 0.24 30.45 31.23Οµ. ∆ΕΠΝ∆ Στρ.4 35.19 35.13 0.47 34.55 36.05Οµ. ∆ΕΠΝ∆ Στρ.5 36.13 36.10 0.45 35.41 36.94Οµ. ∆ΕΠΝ∆ Στρ.6 31.91 32.03 0.53 30.96 32.60Ετ. ∆ΕΠΝ∆ Στρ.1 169.62 169.08 3.78 163.70 175.34Ετ. ∆ΕΠΝ∆ Στρ.2 190.77 193.47 6.09 179.88 196.95Ετ. ∆ΕΠΝ∆ Στρ.3 157.28 157.27 2.08 153.72 160.65Ετ. ∆ΕΠΝ∆ Στρ.4 200.47 200.59 3.20 195.50 206.23Ετ. ∆ΕΠΝ∆ Στρ.5 209.99 210.52 2.73 204.68 213.64Ετ. ∆ΕΠΝ∆ Στρ.6 164.88 164.74 3.31 159.45 171.05

Card Οµ. ∆ΕΠΝ∆ Στρ.1 70.66 70.70 0.41 70.01 71.16Οµ. ∆ΕΠΝ∆ Στρ.2 71.51 71.57 0.45 70.74 72.08Οµ. ∆ΕΠΝ∆ Στρ.3 71.98 72.19 1.28 69.70 74.00Οµ. ∆ΕΠΝ∆ Στρ.4 75.00 75.72 2.02 71.53 77.99Οµ. ∆ΕΠΝ∆ Στρ.5 77.54 78.43 2.29 73.50 80.13Οµ. ∆ΕΠΝ∆ Στρ.6 69.98 70.01 0.61 68.69 70.81Ετ. ∆ΕΠΝ∆ Στρ.1 427.13 427.11 3.97 419.76 433.68Ετ. ∆ΕΠΝ∆ Στρ.2 446.67 447.53 6.83 432.97 457.75Ετ. ∆ΕΠΝ∆ Στρ.3 437.86 436.63 6.50 428.45 449.43Ετ. ∆ΕΠΝ∆ Στρ.4 426.50 434.58 20.43 376.75 439.60Ετ. ∆ΕΠΝ∆ Στρ.5 425.57 406.30 43.46 387.27 496.66Ετ. ∆ΕΠΝ∆ Στρ.6 462.51 474.52 42.23 350.52 493.51

Diabetes Οµ. ∆ΕΠΝ∆ Στρ.1 40.04 39.78 0.85 39.03 41.55Οµ. ∆ΕΠΝ∆ Στρ.2 40.33 40.40 0.38 39.52 40.87Οµ. ∆ΕΠΝ∆ Στρ.3 38.80 38.74 0.40 38.31 39.54Οµ. ∆ΕΠΝ∆ Στρ.4 44.97 44.75 0.81 44.02 46.25Οµ. ∆ΕΠΝ∆ Στρ.5 44.87 44.84 0.62 44.05 45.63Οµ. ∆ΕΠΝ∆ Στρ.6 39.57 39.42 0.49 38.98 40.60Ετ. ∆ΕΠΝ∆ Στρ.1 222.38 221.62 5.60 214.49 231.18Ετ. ∆ΕΠΝ∆ Στρ.2 219.83 219.65 4.68 212.21 227.21Ετ. ∆ΕΠΝ∆ Στρ.3 178.88 177.96 3.43 175.01 187.02Ετ. ∆ΕΠΝ∆ Στρ.4 242.77 243.21 2.65 237.10 246.25Ετ. ∆ΕΠΝ∆ Στρ.5 254.80 254.70 2.32 251.69 258.31Ετ. ∆ΕΠΝ∆ Στρ.6 183.74 184.07 1.52 180.32 185.16

το υψηλότερο µέσο ΠΕ, πράγµα που επιβεβαιώνει το No free Lunch Theorem [112].

Από τους πίνακες των χρόνων εκπαίδευσης παρατηρούµε πως το Οµ. ΕΠΝ∆

ΒΣΣ απαιτεί µεγαλύτερο χρόνο εκπαίδευσης από το Οµ. ∆ΕΠΝ∆ ενώ το Ετ. ΕΠΝ∆

ΒΣΣ απαιτεί λιγότερο χρόνο σε σχέση µε τις περισσότερες στρατηγικές των ∆ΕΠΝ∆.

Σηµειώνουµε πως το Οµ. ∆ΕΠΝ∆ έχει υλοποιηθεί µε διαφορετικό τρόπο από το Οµ.

Page 88: noimosini sminous

4.4 Συµπεράσµατα 67

Πίνακας 4.9: Χρόνος εκπαίδευσης των ∆ΕΠΝ∆ (Glass, Heart, Horse) (sec)

Συν. ∆εδοµ. Μοντέλο Μέσος ∆ιάµεσος Τυπ.Απ. Ελαχ. Μεγ.

Glass Οµ. ∆ΕΠΝ∆ Στρ.1 3.18 3.16 0.08 3.12 3.36Οµ. ∆ΕΠΝ∆ Στρ.2 3.26 3.25 0.06 3.20 3.37Οµ. ∆ΕΠΝ∆ Στρ.3 3.20 3.21 0.06 3.08 3.28Οµ. ∆ΕΠΝ∆ Στρ.4 3.53 3.53 0.07 3.41 3.67Οµ. ∆ΕΠΝ∆ Στρ.5 3.51 3.52 0.05 3.42 3.58Οµ. ∆ΕΠΝ∆ Στρ.6 3.21 3.19 0.06 3.14 3.32Ετ. ∆ΕΠΝ∆ Στρ.1 18.83 18.80 0.49 18.03 19.63Ετ. ∆ΕΠΝ∆ Στρ.2 18.92 18.96 0.81 17.63 20.07Ετ. ∆ΕΠΝ∆ Στρ.3 16.24 16.39 0.59 15.24 17.17Ετ. ∆ΕΠΝ∆ Στρ.4 19.17 19.36 0.63 18.00 19.93Ετ. ∆ΕΠΝ∆ Στρ.5 20.34 20.47 0.53 19.43 20.96Ετ. ∆ΕΠΝ∆ Στρ.6 16.69 16.76 0.62 15.77 17.61

Heart Οµ. ∆ΕΠΝ∆ Στρ.1 93.15 93.02 0.33 92.68 93.71Οµ. ∆ΕΠΝ∆ Στρ.2 93.13 93.37 0.73 91.59 94.27Οµ. ∆ΕΠΝ∆ Στρ.3 92.72 92.49 0.61 91.91 93.54Οµ. ∆ΕΠΝ∆ Στρ.4 96.15 96.19 1.54 94.19 98.48Οµ. ∆ΕΠΝ∆ Στρ.5 99.31 100.18 1.84 96.24 101.36Οµ. ∆ΕΠΝ∆ Στρ.6 92.69 93.12 2.40 88.02 96.03Ετ. ∆ΕΠΝ∆ Στρ.1 656.42 656.88 4.03 650.99 662.25Ετ. ∆ΕΠΝ∆ Στρ.2 683.53 683.79 10.76 657.81 696.52Ετ. ∆ΕΠΝ∆ Στρ.3 641.12 639.04 11.88 622.16 658.96Ετ. ∆ΕΠΝ∆ Στρ.4 675.57 677.72 8.60 660.83 685.18Ετ. ∆ΕΠΝ∆ Στρ.5 628.38 644.36 79.54 536.22 706.65Ετ. ∆ΕΠΝ∆ Στρ.6 510.76 504.30 17.36 491.81 546.74

Horse Οµ. ∆ΕΠΝ∆ Στρ.1 25.21 25.15 0.36 24.74 25.85Οµ. ∆ΕΠΝ∆ Στρ.2 25.20 25.17 0.16 24.93 25.49Οµ. ∆ΕΠΝ∆ Στρ.3 25.27 25.30 0.24 24.90 25.57Οµ. ∆ΕΠΝ∆ Στρ.4 26.04 26.06 0.37 25.46 26.64Οµ. ∆ΕΠΝ∆ Στρ.5 26.85 26.79 0.35 26.47 27.52Οµ. ∆ΕΠΝ∆ Στρ.6 25.34 25.29 0.20 25.04 25.68Ετ. ∆ΕΠΝ∆ Στρ.1 143.50 143.58 2.76 139.71 148.21Ετ. ∆ΕΠΝ∆ Στρ.2 149.49 150.24 3.90 143.51 154.85Ετ. ∆ΕΠΝ∆ Στρ.3 143.89 144.60 3.97 136.38 150.04Ετ. ∆ΕΠΝ∆ Στρ.4 142.46 141.95 1.73 140.67 145.66Ετ. ∆ΕΠΝ∆ Στρ.5 151.06 150.62 2.96 146.13 155.26Ετ. ∆ΕΠΝ∆ Στρ.6 145.05 144.58 2.38 142.23 148.85

ΕΠΝ∆ ΒΣΣ οπότε η διαφορά που παρουσιάζεται στους χρόνους δεν είναι απαραίτητα

η πραγµατική.

Page 89: noimosini sminous

68 Εξελικτικά Πιθανοτικά Νευρωνικά ∆ίκτυα

4.5 Συνεισφορά

Σε αυτό το κεφάλαιο προτάθηκε µια κλάση µοντέλων ταξινόµησης τα οποία κα-

λούµε Εξελικτικά Πιθανοτικά Νευρωνικά ∆ίκτυα (ΕΠΝ∆). Τα µοντέλα αυτά ϐασίζονται

στα Πιθανοτικά Νευρωνικά ∆ίκτυα και ενσωµατώνουν τον αλγόριθµο Βελτιστοποίη-

σης µε Σµήνος Σωµατιδίων (ΒΣΣ) και τους ∆ιαφοροεξελικτικούς αλγόριθµους (∆ΕΑ)

ϐελτιστοποίησης για την αναζήτηση των ϐέλτιστων παραµέτρων λείανσης των πυρή-

νων τους. Τα ΕΠΝ∆ πετυχαίνουν αρκετά ικανοποιητικά αποτελέσµατα και µπορούν

να χρησιµοποιηθούν σε προβλήµατα ταξινόµησης µε δύο ή και περισσότερες κλά-

σεις. ∆εν απαιτούν κάποια ιδιαίτερη αναζήτηση για τον καθορισµό των αναγκαίων

παραµέτρων καθώς αυτό επιτυγχάνεται µε τους ενσωµατωµένους εξελικτικούς αλ-

γόριθµους ϐελτιστοποίησης. Είτε χρησιµοποιηθεί η ΒΣΣ είτε οι ∆ΕΑ παρατηρούµε

πως δεν παρουσιάζονται γενικά µεγάλες διαφορές στην αποδοτικότητα. Επίσης, αξί-

Ϲει να σηµειωθεί ότι η χρήση διαφορετικών παραµέτρων λείανσης πετυχαίνει εν γένει

καλύτερη απόδοση.

΄Οµως οι χρόνοι εκπαίδευσης είναι σχετικά µεγάλοι και οι απαιτήσεις σε µνήµη

είναι αρκετά µεγάλες, εφόσον χρησιµοποιείται ένας νευρώνας για κάθε µια περί-

πτωση του συνόλου δεδοµένων, που σηµαίνει ότι πιθανόν να υπάρξει δυσκολία στην

εκπαίδευση πολύ µεγάλων συνόλων δεδοµένων. Στο επόµενο κεφάλαιο ϑα αναζητή-

σουµε τρόπους µείωσης του απαιτούµενου χρόνου εκπαίδευσης των ΕΠΝ∆.

Page 90: noimosini sminous

4.5 Συνεισφορά 69

Σχήµα 4.1: Θηκογράµµατα των ΠΕ ελέγχου των ΕΠΝ∆ (Cancer, Card)

OmBSS EtBSS OmDE1 OmDE2 OmDE3 OmDE4 OmDE5 OmDE6 EtDE1 EtDE2 EtDE3 EtDE4 EtDE5 EtDE6

0.92

0.93

0.94

0.95

0.96

0.97

Dataset: Cancer

acc

urac

y

OmBSS EtBSS OmDE1 OmDE2 OmDE3 OmDE4 OmDE5 OmDE6 EtDE1 EtDE2 EtDE3 EtDE4 EtDE5 EtDE6

0.82

0.84

0.86

0.88

Dataset: Card

acc

urac

y

Page 91: noimosini sminous

70 Εξελικτικά Πιθανοτικά Νευρωνικά ∆ίκτυα

Σχήµα 4.2: Θηκογράµµατα των ΠΕ ελέγχου των ΕΠΝ∆ (Diabetes, Glass)

OmBSS EtBSS OmDE1 OmDE2 OmDE3 OmDE4 OmDE5 OmDE6 EtDE1 EtDE2 EtDE3 EtDE4 EtDE5 EtDE6

0.66

0.68

0.70

0.72

0.74

0.76

0.78

Dataset: Diabetes

acc

urac

y

OmBSS EtBSS OmDE1 OmDE2 OmDE3 OmDE4 OmDE5 OmDE6 EtDE1 EtDE2 EtDE3 EtDE4 EtDE5 EtDE6

0.45

0.50

0.55

0.60

0.65

0.70

0.75

Dataset: Glass

acc

urac

y

Page 92: noimosini sminous

4.5 Συνεισφορά 71

Σχήµα 4.3: Θηκογράµµατα των ΠΕ ελέγχου των ΕΠΝ∆ (Heart, Horse)

OmBSS EtBSS OmDE1 OmDE2 OmDE3 OmDE4 OmDE5 OmDE6 EtDE1 EtDE2 EtDE3 EtDE4 EtDE5 EtDE6

0.55

0.60

0.65

0.70

0.75

0.80

Dataset: Heart

acc

urac

y

OmBSS EtBSS OmDE1 OmDE2 OmDE3 OmDE4 OmDE5 OmDE6 EtDE1 EtDE2 EtDE3 EtDE4 EtDE5 EtDE6

0.62

0.63

0.64

0.65

0.66

0.67

0.68

0.69

Dataset: Horse

acc

urac

y

Page 93: noimosini sminous

72 Εξελικτικά Πιθανοτικά Νευρωνικά ∆ίκτυα

Page 94: noimosini sminous

Κ Ε Φ Α Λ Α Ι Ο 5

Βελτιωµένα Εξελικτικά Πιθανοτικά

Νευρωνικά ∆ίκτυα

Η ϕαντασία είναι σηµαντικότερη από τη γνώση.

—Albert Einstein (1879 – 1955)

5.1 Εισαγωγή

Τα Εξελικτικά Πιθανοτικά Νευρωνικά ∆ίκτυα (ΕΠΝ∆), όπως είδαµε και στο προη-

γούµενο κεφάλαιο, κατάφεραν να πετύχουν αρκετά ικανοποιητικά αποτελέσµατα

στην ταξινόµηση προτύπων. Θα προσπαθήσουµε τώρα να εισάγουµε κάποιες νέες

ιδέες και τρόπους ϐελτίωσης της αποδοτικότητάς τους. Αρχικά, ϑα επιτρέψουµε σε

κάθε οµάδα των ΤΝ προτύπου να έχει διαφορετικό πίνακα παραµέτρων λείανσης

στις αντίστοιχες συναρτήσεις πυρήνα. Επιπλέον, ϑα χρησιµοποιήσουµε τη ΒΣΣ για

να αναζητήσουµε τις ϐέλτιστες τιµές των εκ των προτέρων πιθανοτήτων των κλάσεων,

δηλαδή ϑα εκτιµήσουµε τα ϐάρη µε τα οποία πολλαπλασιάζονται οι έξοδοι των ΤΝ

άθροισης πριν την τελική ταξινόµηση. Επίσης, ϑα ενσωµατώσουµε και την τεχνι-

κή bagging όπου δηµιουργεί µια συστάδα από ΕΠΝ∆, τα οποία χρησιµοποιούν ως

σύνολα εκπαίδευσης, bootstrap δείγµατα από το αρχικό σύνολο εκπαίδευσης και η

τελική ταξινόµηση επιτυγχάνεται µέσω ενός πλειοψηφικού συστήµατος.

5.2 Τεχνική Bagging

Η τεχνική bagging είναι µια τεχνική που ϐελτιώνει την αποδοτικότητα των µοντέ-

λων ταξινόµησης δηµιουργώντας µια συστάδα µοντέλων όπου η τελική ταξινόµηση

επιτυγχάνεται λαµβάνοντας υπόψη τις επιµέρους ταξινοµήσεις των µοντέλων [11,64].

΄Εστω Ttr ένα σύνολο εκπαίδευσης που αποτελείται από Ϲεύγη διανυσµάτων και

ταξινοµήσεων (x(i), y(i)), i = 1, 2, . . . , Ntr, όπου x(i) ∈ R

p. Σε µια διαδικασία τα-

ξινόµησης, όπου ένα άγνωστο διάνυσµα χαρακτηριστικών x ∈ Rp πρέπει να ταξινο-

µηθεί σε µία από τις K προκαθορισµένες κλάσεις, τα y(i) παίρνουν τιµές στο σύνολο

1, 2, . . . , K. Ανεξαρτήτως του µοντέλου που χρησιµοποιείται, κατασκευάζουµε ένα

Page 95: noimosini sminous

74 Βελτιωµένα Εξελικτικά Πιθανοτικά Νευρωνικά ∆ίκτυα

ταξινοµητή Φ(x, Ttr) ϐασισµένο στο σύνολο εκπαίδευσης Ttr. Υποθέτουµε ότι είναι

διαθέσιµη µια ακολουθία από M σύνολα εκπαίδευσης Ttr,m, m = 1, 2, . . . , M ό-

που κάθε ένα απαρτίζεται από Ntr ανεξάρτητες παρατηρήσεις που προέρχονται από

την ίδια κατανοµή µε το Ttr. Ο στόχος είναι να κατασκευάσουµε έναν καλύτερο

ταξινοµητή από τον Φ(x, Ttr) χρησιµοποιώντας το σύνολο Ttr,m.Στις περισσότερες περιπτώσεις ένα µόνο σύνολο εκπαίδευσης είναι διαθέσιµο,

οπότε για να µπορέσουµε να αποκτήσουµε τα απαιτούµενα δείγµατα, εξάγουµε bo­

otstrap δείγµατα από το Ttr. Κάθε bootstrap δείγµα απαρτίζεται από Ntr παρατηρή-

σεις που εξάγονται από το Ttr µε επανατοποθέτηση. Με άλλα λόγια, µπορεί κάποια

διανύσµατα χαρακτηριστικών να µην επιλεχθούν καθόλου ενώ άλλα να επιλεχθούν

παραπάνω από µια ϕορές. Για κάθε bootstrap δείγµα Ttr,m κατασκευάζουµε έναν

ταξινοµητή Φ(x, Ttr,m). Για να µπορέσουµε να συνδυάσουµε όλους τους ταξινοµητές

Φ(x, Ttr,m), χρησιµοποιούµε µια διαδικασία ψηφοφορίας. ΄Εστω Mk το πλήθος

των ϕορών που οι ταξινοµητές ψήφισαν υπέρ της κλάσης k, δηλαδή

Mk = #m; Φ(x, Ttr,m) = k, k = 1, 2, . . . , K.

Η τελική ταξινόµηση επιτυγχάνεται χρησιµοποιώντας τον κανόνα του µεγίστου των

Mk, k = 1, 2, . . . , K. Με άλλα λόγια, ο τελικός bagging ταξινοµητής

ΦB(x, Ttr) = arg maxk

(Mk),

ταξινοµεί µια παρατήρηση x στην κλάση που ϑα αποφανθούν οι περισσότεροι τα-

ξινοµητές δηλαδή υλοποιεί ένα πλειοψηφικό σύστηµα. Η παραπάνω διαδικασία

καλείται ’’boostrap aggregating’’ και χρησιµοποιείται το ακρωνύµιο bagging.

5.3 Νέες προτάσεις για ϐελτίωση του ΕΠΝ∆

5.3.1 Οµαδοποίηση του συνόλου εκπαίδευσης

Η εκδοχή των ΕΠΝ∆ που προτάθηκε στο Κεφάλαιο 4 έχει µεγάλες απαιτήσεις σε

µνήµη αλλά και υπολογιστική ισχύ καθώς χρησιµοποιεί όλο το σύνολο εκπαίδευσης

Ttr για την κατασκευή του επιπέδου προτύπων του ΠΝ∆. Η απαίτηση, να κατα-

σκευάζουµε ένα ΤΝ προτύπων για κάθε µια παρατήρηση του συνόλου εκπαίδευσης

προκαλεί µεγάλο υπολογιστικό κόστος. Μια προφανής ιδέα για να επιτύχουµε µια

πιο γρήγορη υλοποίηση, τόσο σε εκπαίδευση όσο και σε εκτέλεση µιας ταξινόµησης,

είναι να χρησιµοποιήσουµε ένα µικρότερο σύνολο εκπαίδευσης µε αποτέλεσµα να

κατασκευαστεί ένα ΠΝ∆ µε λιγότερους ΤΝ προτύπων. ΄Ετσι, µε αυτό τον τρόπο ϑα

επιτύχουµε µια ταχύτερη υλοποίηση.

΄Ενας τρόπος ϑα ήταν να επιλέξουµε δειγµατοληπτικά µερικά διανύσµατα χα-

ϱακτηριστικών από το σύνολο εκπαίδευσης, αλλά µέσω αυτής της διαδικασίας δεν

µπορούµε να εγγυηθούµε πως το νέο σύνολο εκπαίδευσης ϑα ενσωµατώνει όλη ή

Page 96: noimosini sminous

5.3 Νέες προτάσεις για ϐελτίωση του ΕΠΝ∆ 75

τουλάχιστον ένα µεγάλος µέρος της πληροφορίας που περιέχει το αρχικό σύνολο

εκπαίδευσης. Μια εύλογη επιλογή ϑα ήταν να χρησιµοποιήσουµε µια τεχνική ο-

µαδοποίησης (clustering) για την αναζήτηση ικανών «αντιπροσώπων» από το σύνολο

εκπαίδευσης. ΄Ετσι, κατασκευάζουµε ένα σύνολο εκπαίδευσης µε λίγους αντιπρο-

σώπους από κάθε µια κλάση εφαρµόζοντας το γνωστό αλγόριθµο οµαδοποίησης

K-medoids [56] στα δεδοµένα εκπαίδευσης κάθε κλάσης και το καλούµε Ttrcl. Τα

εξαγόµενα medoids από κάθε κλάση χρησιµοποιούνται ως κέντρα των κανονικών συ-

ναρτήσεων πυρήνων των ΠΝ∆ αντί να χρησιµοποιήσουµε όλα τα διαθέσιµα δεδοµένα

εκπαίδευσης για την κατασκευή του επιπέδου προτύπων του ΠΝ∆.

Με αυτή τη διαδικασία, επιτυγχάνουµε ένα πολύ µικρότερο ΠΝ∆ ως προς την

αρχιτεκτονική του και συγκεκριµένα ως προς τον αριθµό των ΤΝ που απαρτίζουν

το επίπεδο προτύπων. Ο αριθµός των κέντρων, που εξάγονται από τα δεδοµένα εκ-

παίδευσης κάθε κλάσης, είναι περίπου ίσος µε το 5% του µεγέθους κάθε κλάσης.

Βέβαια, αν το πλήθος των παρατηρήσεων µιας κλάσης είναι σχετικά µικρό µε συνέ-

πεια το 5% να είναι ένας πολύ µικρός αριθµός, εισάγουµε έναν περιορισµό έτσι ώστε

το πλήθος των κέντρων δεν ϑα είναι µικρότερο του 5 ώστε να µπορεί να επιτευχθεί

µια ικανοποιητική αντιπροσώπευση της κλάσης.

Για παράδειγµα, σε ένα πρόβληµα µε δύο κλάσεις δεδοµένων όπου οι παρατηρή-

σεις του συνόλου εκπαίδευσης της πρώτης κλάσης είναι 180 και της δεύτερης κλάσης

είναι 600, ϑα εφαρµόσουµε τον K–medoids στα δεδοµένα της πρώτης κλάσης και

ϑα εξάγουµε 180× 0.05 = 9 κέντρα. Για την δεύτερη κλάση, ϑα εξάγουµε 5 κέντρα

εφόσον 60× 0.05 = 3 < 5. ΄Ετσι, το επίπεδο προτύπων του ΠΝ∆ ϑα αποτελείται από

δύο οµάδες ΤΝ που ϑα απαρτίζονται από 9 και 5 ΤΝ αντίστοιχα και ϑα αντιπροσω-

πεύουν την πληροφορία των δύο κλάσεων του προβλήµατος. Ακολουθώντας αυτή

τη διαδικασία, το µέγεθος του επιπέδου προτύπων του προτεινόµενου ΠΝ∆ ϑα είναι

περίπου 20 ϕορές µικρότερο από αυτό του αντίστοιχου ΠΝ∆ που χρησιµοποιεί όλο

το αρχικό σύνολο εκπαίδευσης.

5.3.2 Επέκταση του πίνακα των παραµέτρων λείανσης σε κάθε

κλάση

΄Οπως αναφέραµε και στο Κεφάλαιο 4, ένα µειονέκτηµα των ΠΝ∆ είναι η ανάγ-

κη εύρεσης κατάλληλων τιµών των παραµέτρων λείανσης των συναρτήσεων πυρήνων

των ΠΝ∆ έτσι ώστε να επιτυγχάνουν ικανοποιητικά αποτελέσµατα. Στο ΕΠΝ∆ που

προτάθηκε στο προηγούµενο κεφάλαιο, χρησιµοποιήθηκε η ΒΣΣ και οι ∆ΕΑ για την

αναζήτηση ϐέλτιστων τιµών των παραµέτρων λείανσης. Στο εξής, ϑα χρησιµοποιούµε

τη ΒΣΣ για τις ανάγκες ϐελτιστοποίησης που προκύπτουν εφόσον οι δύο αλγόριθµοι

έχουν παρόµοια απόδοση και η ΒΣΣ πέτυχε µεγαλύτερο ΠΕ σε περισσότερα προ-

ϐλήµατα (Βλέπε Ενότ. 4.4). Εκτός αυτού δεν χρειάζεται να αναζητούµε σε κάθε

περίπτωση ποια από τις 6 στρατηγικές επιτυγχάνει καλύτερη απόδοση σε κάθε πρό-

ϐληµα ταξινόµησης. Στο εξής όταν ϑα αναφερόµαστε σε ΕΠΝ∆ ϑα εννοούµε ΕΠΝ∆

ΒΣΣ.

Page 97: noimosini sminous

76 Βελτιωµένα Εξελικτικά Πιθανοτικά Νευρωνικά ∆ίκτυα

Η επιλογή του πίνακα των παραµέτρων λείανσης Σ επιτυγχάνεται µέσω της ε-

λαχιστοποίησης του L­O­T ΠΕΤ στο σύνολο εκπαίδευσης ως προς Σ . Ο πίνακας

Σ είναι ένας διαγώνιος πίνακας µε ίσα στοιχεία (οµοσκεδαστικό µοντέλο) ή µε δια-

ϕορετικά στοιχεία (ετεροσκεδαστικό µοντέλο). Μια πρόταση είναι να επεκτείνουµε

την ιδέα αυτή χρησιµοποιώντας ένα διαφορετικό πίνακα Σk, k = 1, 2, . . . , K για

κάθε µια από τις K οµάδες ΤΝ προτύπων που αντιστοιχούν στις K κλάσεις του

προβλήµατος ταξινόµησης. ΄Ετσι, ο πίνακας των παραµέτρων λείανσης των ΤΝ της

κλάσης k µπορεί να είναι διαφορετικός από αυτόν της κλάσης l για k 6= l. Αυτό

επιτρέπει µια καλύτερη και πιο ευέλικτη προσαρµογή των πυρήνων στα δεδοµένα

καθώς η πυκνότητα πιθανότητας των δεδοµένων µιας κλάσης µπορεί να έχει δια-

ϕορετικό σχήµα από την πυκνότητα κάποιας άλλης κλάσης, ενώ προηγουµένως

εφαρµόζαµε µια κοινή πυκνότητα σε όλες τις κλάσεις. Συνεπώς, οι πίνακες των πα-

ϱαµέτρων λείανσης της προτεινόµενης προσέγγισης ϑα έχουν την ακόλουθη µορφή

Σk = diag(σ21k, σ

22k, . . . , σ2

pk), k = 1, 2, . . . , K και η διάσταση ϐελτιστοποίησης της

ΒΣΣ ϑα είναι d = p K.

5.3.3 Στάθµιση ΤΝ προτύπων µε ΒΣΣ

Μια επιπλέον καινοτοµία που προτείνουµε είναι η χρήση της ΒΣΣ για την ανα-

Ϲήτηση ϐέλτιστων τιµών των εκ των προτέρων πιθανοτήτων πk των κλάσεων. Οι εκ των

προτέρων πιθανότητες δεν ϑα εκτιµώνται από τις σχετικές συχνότητες των κλάσεων

στο σύνολο εκπαίδευσης ούτε ϑα επιλέγονται αυθαίρετα αλλά ϑα συµπεριλαµβάνον-

ται στη διαδικασία ϐελτιστοποίησης της ΒΣΣ µαζί µε τις παραµέτρους λείανσης. Αυτό

επιτρέπει στο ΠΝ∆ να έχει µια ακόµα πιο καλή και ευέλικτη προσαρµογή στα δεδο-

µένα, δηλαδή επιτρέπει στο µοντέλο να έχει µεγαλύτερη ελευθερία να προσαρµοστεί

κατάλληλα στα δεδοµένα. Επίσης, περιορίζουµε τις πk να έχουν µοναδιαίο άθροι-

σµα. Στην πραγµατικότητα, οι νέες τιµές των πk λειτουργούν ως ένας νέος τρόπος

στάθµισης της εξόδου κάθε συνάρτησης πυρήνα των ΤΝ προτύπων του ΠΝ∆.

5.4 Προτεινόµενο Σχήµα

Μια αρχική ιδέα είναι να χρησιµοποιήσουµε στο ΕΠΝ∆ το οµαδοποιηµένο σύνολο

εκπαίδευσης Ttrclόπου δηλαδή η αντικειµενική συνάρτηση ϑα είναι το L­O­T ΠΕΤ

στο οµαδοποιηµένο σύνολο εκπαίδευσης. Το µοντέλο αυτό όπως ϑα δούµε και στην

επόµενη ενότητα είναι πολύ γρήγορο αλλά δυστυχώς δεν πετυχαίνει ικανοποιητικά

αποτελέσµατα. ΄Ετσι, ϑα προτείνουµε ένα σχήµα όπου ϑα κατασκευάζεται ένα ΠΝ∆

µε το οµαδοποιηµένο σύνολο εκπαίδευσης Ttrclαλλά ως αντικειµενική συνάρτηση

ϑα ϑεωρήσουµε το απλό ΠΕΤ στο αρχικό σύνολο εκπαίδευσης Ttr. Με αυτό τον

τρόπο, επιτυγχάνουµε ένα ΠΝ∆ µε λίγους ΤΝ προτύπων που σηµαίνει ότι ϑα είναι

γρήγορο τόσο στην εκπαίδευση όσο και στην απόκρισή του σε µια ταξινόµηση αλλά

και αξιοποιούµε όλη την πληροφορία του Ttr εφόσον η αναζήτηση των παραµέτρων

λείανσης γίνεται ελαχιστοποιώντας το ΠΕΤ στο Ttr.

Page 98: noimosini sminous

5.4 Προτεινόµενο Σχήµα 77

Η διαδικασία του προτεινόµενου σχήµατος ξεκινά κατασκευάζοντας το οµαδο-

ποιηµένο σύνολο εκπαίδευσης Ttrclεφαρµόζοντας τον αλγόριθµο K-medoids στα

δεδοµένα κάθε κλάσης του Ttr σύµφωνα µε τις οδηγίες που αναπτύχθηκαν στην

Ενότ. 5.3.1. ΄Οπως αναφέραµε νωρίτερα, ϑα υιοθετήσουµε τη τεχνική bagging

για να ϐελτιώσουµε την απόδοση του προτεινόµενου ΠΝ∆ δηλαδή ϑα κατασκευά-

σουµε µια συστάδα από ΕΠΝ∆ και ϑα χρησιµοποιήσουµε ένα πλειοψηφικό σύ-

στηµα ψηφοφορίας για την τελική ταξινόµηση του σχήµατος. Για να επιτευχθεί

αυτό, ως επόµενο ϐήµα κατασκευάζουµε µια σειρά από M bootstrap δείγµατα

Ttrcl,m, m = 1, 2, . . . , M ϐασισµένα στο Ttrcl. ΄Επειτα, κατασκευάζουµε ένα ΠΝ∆

για κάθε ένα Ttrcl m, m = 1, 2, . . . , M . Θεωρούµε πως οι ΤΝ προτύπων κάθε κλάσης

έχουν το δικό τους διαγώνιο πίνακα παραµέτρων λείανσης όπου αρχικά κάθε πα-

ϱάµετρος παίρνει µια τυχαία τιµή στο επιτρεπόµενο διάστηµα [sl, su]. Επίσης, κατά

την αρχικοποίηση ϑέτουµε ως εκ των προτέρων πιθανότητες πk του κάθε ΕΠΝ∆, τις

σχετικές συχνότητες των κλάσεων του αντίστοιχου Ttrcl,m.

Η επόµενη ϕάση είναι η ϕάση της αναζήτησης των ϐέλτιστων παραµέτρων λεί-

ανσης καθώς και των εκ των προτέρων πιθανοτήτων χρησιµοποιώντας τη ΒΣΣ. Για

κάθε ένα από τα M ΠΝ∆ που κατασκευάσαµε, ϑεωρούµε NP σωµατίδια Zi, i =

1, 2, . . . , NP δηλαδή σηµεία αναζήτησης όπου κάθε Zi είναι ένα διάνυσµα µε K p +

K = (p + 1)K συνιστώσες. Το κάθε σωµατίδιο περιλαµβάνει τις p παραµέτρους λεί-

ανσης κάθε µιας από τις K κλάσεις συν τις K εκ των προτέρων πιθανότητες. ∆ηλαδή

για i = 1, 2, . . . , NP έχουµε

Zi =

[σ2i11, σ

2i21, . . . , σ

2ip1, σ2

i12, σ2i22, . . . , σ

2ip2, . . . , σ2

i1K , σ2i2K , . . . , σ2

ipK , πi1, πi2, . . . , πiK ]⊤,

όπου Zi ∈ S και ο χώρος αναζήτησης S της ΒΣΣ ϑα είναι

S = [sl, su]pK × [0, 1]K .

Για να υπολογίσουµε την τιµή της αντικειµενικής συνάρτησης σε κάθε σωµα-

τίδιο, ϑέτουµε τις συνιστώσες του κάθε σωµατιδίου ως παραµέτρους λείανσης και

εκ των προτέρων πιθανότητες του ΠΝ∆ και υπολογίζουµε το ΠΕΤ στο αρχικό σύ-

νολο εκπαίδευσης Ttr. Ακολουθώντας την διαδικασία λειτουργίας του ΕΠΝ∆ ΒΣΣ

της Ενότ. 4.2.1, αλλά χρησιµοποιώντας το παραπάνω σµήνος σωµατιδίων και την

προαναφερθείσα αντικειµενική συνάρτηση, µπορούµε να εκτιµήσουµε τους πίνα-

κες των παραµέτρων λείανσης και τις εκ των προτέρων πιθανότητες κάθε ενός α-

πό τα M ΠΝ∆. ΄Εχοντας πλέον M ΠΝ∆ µε ϐέλτιστες παραµέτρους, ταξινοµούµε

ένα άγνωστο διάνυσµα χαρακτηριστικών x στην κλάση που προτείνουν τα περισ-

σότερα ΠΝ∆ δηλαδή στην κλάση που έχει συλλέξει τις περισσότερες ψήφους. ΄Ε-

στω ένα σύνολο ελέγχου Tte που αποτελείται από Nte διανύσµατα χαρακτηριστι-

κών xte,i στο οποίο ϑέλουµε να υπολογίσουµε το ΠΕΤ ϐάσει του προτεινόµενου

σχήµατος. Αρχικά δίνουµε ως είσοδο τα xte,i σε κάθε ένα ΠΝ∆m και παίρνουµε

τις εξόδους Oi,m, i = 1, 2, . . . , Nte, m = 1, 2, . . . , M των M ΕΠΝ∆. Ορίζουµε ως

Page 99: noimosini sminous

78 Βελτιωµένα Εξελικτικά Πιθανοτικά Νευρωνικά ∆ίκτυα

Mi,k, i = 1, 2, . . . , Nte, k = 1, 2, . . . , K τον αριθµό των ϕορών που οι M έξοδοι Oi,m

ισούνται µε k, δηλαδή τον αριθµό των ψήφων των M ΕΠΝ∆ υπέρ της κλάσης k για το

διάνυσµα xte,i. Η τελική ταξινόµηση του xte,i είναι ΦB(xte,i, Ttr) = arg maxk(Mi,k).

Στον Πίνακα 5.1 παρουσιάζουµε τα ϐήµατα λειτουργίας του προτεινόµενου µοντέ-

λου το οποίο καλούµε Βελτιωµένο Εξελικτικό Πιθανοτικό Νευρωνικό ∆ίκτυο (ΒΕ-

ΠΝ∆) [40].

Πίνακας 5.1: Ψευδοκώδικας Λειτουργίας ενός Βελτιωµένου ΕΠΝ∆

Είσοδος ΠΝ∆: Σύνολο εκπαίδ. Ttr = xik, i = 1, 2, . . . , Nk, k = 1, 2, . . . , KΕίσοδος ΒΣΣ: NP , χ, c1, c2, MaxGen, S = [sl, su]

d,V = [Vmin, Vmax]d.

Είσοδος Bagging: πλήθος µοντέλων MΕφάρµοσε τον K-Medoids σε κάθε κλάση του Ttr για τον υπολογισµό του Ttrcl

.

Κατασκεύασε M bootstrap δείγµατα Ttrcl,m, m = 1, 2, . . . , M από το Ttrcl.

For m = 1, M do:

Κατασκεύασε το ΠΝ∆m ϐάσει του Ttrcl,m.

Αρχικοποίησε το m σµήνος από Z(0)i,m, i = 1, 2, . . . , NP στο S.

Αρχικοποίησε τις ταχύτητες του m σµήνους, V(0)i,m, i = 1, 2, . . . , NP στο V.

Υπολόγισε τα ΠΕΤ στο Ttr, h(

Z(0)i,m

)

, i = 1, 2, . . . , NP .

Αρχικοποίησε τις καλύτερες ϑέσεις BP(0)i,m και BP

(0)gi,m

, i = 1, 2, . . . , NP .

For g = 0, MaxGen − 1 do:

Ενηµέρωσε ταχύτητες, V(g+1)i,m , i = 1, 2, . . . , NP ϐάσει της Εξ. (2.12).

Περιόρισε ταχύτητες, V(g+1)i,m , i = 1, 2, . . . , NP στο V.

Ενηµέρωσε σωµατίδια, Z(g+1)i,m = Z

(g)i,m + V

(g+1)i,m , i = 1, 2, . . . , NP .

Περιόρισε σωµατίδια, Z(g+1)i,m , i = 1, 2, . . . , NP στο S.

Υπολόγισε τα ΠΕΤ στο Ttr, h(

Z(g+1)i,m

)

, i = 1, 2, . . . , NP .

Ενηµέρωσε τις προσωπικές ϐέλτιστες ϑέσεις BP(g+1)i,m , i = 1, 2, . . . , NP .

Ενηµέρωσε τη ϐέλτιστη ϑέση της γειτονιάς

κάθε σωµατιδίου BP(g+1)gi

, i = 1, 2, . . . , NP .

If (Συνθήκη Τερµατισµού) Then Stop.

EndFor

For i = 1, Nte do:

Ταξινόµησε το xte,i ϐάσει του ΕΠΝ∆m δηλαδή υπολόγισε Oi,m.

Ενηµέρωσε ψήφους Mi,j = Mi,j + 1 όπου j = Oi,m.

EndFor

EndFor

Υπολόγισε την τελική ταξιν. ΦB(xte,i, Ttr) = arg maxk(Mi,k), i = 1, 2, . . . , Nte.

Εκτύπωσε το τελικό ΠΕΤ στο Tte.

5.5 Πειραµατικά Αποτελέσµατα

Για να εξετάσουµε την αποδοτικότητα του ΒΕΠΝ∆ ακολουθήσαµε την ίδια δια-

δικασία µε τα ΕΠΝ∆ του Κεφαλαίου 4. Θα χρησιµοποιήσουµε δηλαδή 10 ϕορές

Page 100: noimosini sminous

5.5 Πειραµατικά Αποτελέσµατα 79

διασταυρωµένη δειγµατοληψία δέκατης τάξης και ϑα κατασκευάσουµε ένα µοντέ-

λο µε κάθε σύνολο εκπαίδευσης που ϑα προκύψει. Αρχικά, ϑα κατασκευάσουµε

τα οµαδοποιηµένα σύνολα εκπαίδευσης Ttrclχρησιµοποιώντας τον αλγόριθµο K–

Medoids σύµφωνα µε την Ενότ. 5.3.1.

Το πρώτο µοντέλο στο οποίο ϑα εφαρµόσουµε τα έξι προβλήµατα ταξινόµησης

είναι το ΕΠΝ∆ ΒΣΣ της Ενότ. 4.2.1 για το οποίο ϑα χρησιµοποιήσουµε τα οµα-

δοποιηµένα σύνολα εκπαίδευσης. Το µοντέλο αυτό ϑα καλείται Οµαδοποιηµένο

Εξελικτικό Πιθανοτικό Νευρωνικό ∆ίκτυο (Cl. ΕΠΝ∆) και ϑα έχει την οµοσκεδαστική

και την ετεροσκεδαστική του εκδοχή. Για την υλοποίηση της ΒΣΣ χρησιµοποιήθη-

καν πάλι οι τυπικές τιµές των παραµέτρων c1 = c2 = 2.05, χ = 0.729 [15]. Ο αριθµός

των σωµατιδίων που χρησιµοποιήθηκαν στη ΒΣΣ ήταν NP = 5 για το οµοσκεδαστικό

µοντέλο και NP = 10 για το ετεροσκεδαστικό αντίστοιχα. Η ΒΣΣ εξελίχθηκε για το

πολύ 50 και 100 γενιές αντίστοιχα δηλαδή MaxGen = 50 για το Cl. Οµ. ΕΠΝ∆

και MaxGen = 100 για το Cl. Ετ. ΕΠΝ∆. Ο χώρος αναζήτησης της ΒΣΣ δηλαδή

το επιτρεπόµενο διάστηµα όπου έπαιρναν τιµές τα σωµατίδια δηλαδή οι παράµετροι

λείανσης ήταν το διάστηµα [0.001, 5.0]

Ως προς το ΒΕΠΝ∆, ο αριθµός των bootstrap δειγµάτων που κατασκευάσαµε

είναι M = 11. Η παράµετρος M µπορεί να πάρει τιµές έως και 50 [11] ή ακόµα και

µεγαλύτερες αλλά γενικότερα δεν υπάρχει κάποιος ιδανικός αριθµός. Για το λόγο

αυτό, προτείνουµε τη χρήση µιας συστάδας 11 µοντέλων ώστε να µην αυξηθεί πολύ το

υπολογιστικό κόστος. Επίσης, ο αριθµός που προτείνεται είναι περιττός έτσι ώστε να

µην υπάρξει περίπτωση ισοψηφίας αλλά πάντα να µπορεί η συστάδα των µοντέλων να

εξάγει µια απόφαση. Επίσης, τα ΕΠΝ∆ δεν παρουσιάζουν πολύ µεγάλες αποκλίσεις

στις προβλέψεις τους οπότε δεν απαιτείται πολύ µεγάλος αριθµός µοντέλων. ΄Ετσι,

συνολικά ϑα δηµιουργήσουµε 10× 10× 11 = 1100 ΒΕΠΝ∆. Για να εξετάσουµε αν η

στάθµιση των εξόδων των ΤΝ προτύπων µέσω της ΒΣΣ συνεισφέρει ϑα υιοθετήσουµε

δύο εκδοχές του ΒΕΠΝ∆. Αρχικά, ϑα εφαρµόσουµε τις προτεινόµενες ϐελτιώσεις

αλλά ϑα ϑεωρήσουµε σταθερές τιµές για τις εκ των προτέρων πιθανότητες πk δηλαδή

τα σωµατίδια της ΒΣΣ ϑα αποτελούνται µόνο από τις p K παραµέτρους λείανσης.

Θα συµβολίσουµε το µοντέλο αυτό ως No Pr. ΒΕΠΝ∆.

Μετά την εφαρµογή των έξι προβληµάτων ταξινόµησης στα προτεινόµενα µοντέλα,

έχει υπολογιστεί η µέση τιµή, η διάµεσος, η τυπική απόκλιση, η ελάχιστη και η

µέγιστη τιµή των 10 − CV ποσοστών επιτυχίας (ΠΕ) των συνόλων ελέγχου και για

τα 4 ΕΠΝ∆. Τα αποτελέσµατα παρουσιάζονται στον Πίνακα 5.2 όπου παρατηρούµε

πως τα Cl. ΕΠΝ∆ πέτυχαν αρκετά χαµηλότερη απόδοση σε σχέση µε τα ΒΕΠΝ∆.

Μόνο στο πρόβληµα Glass το Cl. Οµ. ΕΠΝ∆ πέτυχε µεγαλύτερο ΠΕ σε σχέση

µε τα ΒΕΠΝ∆. Επίσης, αξίζει να σηµειωθεί ότι σε τέσσερα από τα έξι προβλήµατα

η ενσωµάτωση των εκ των προτέρων πιθανοτήτων στη διαδικασία ϐελτιστοποίησης

των ΒΕΠΝ∆ ϐοήθησε στη ϐελτίωση της απόδοσής τους, δηλαδή τα ΒΕΠΝ∆ πέτυχαν

υψηλότερο ΠΕ σε σχέση µε τα No Pr. ΒΕΠΝ∆.

Εκτός των ΠΕ, έχουν καταµετρηθεί και οι αντίστοιχοι χρόνοι εκπαίδευσης των

1100 µοντέλων σε κάθε περίπτωση. Για να εξάγουµε τον πραγµατικό χρόνο εκπαί-

Page 101: noimosini sminous

80 Βελτιωµένα Εξελικτικά Πιθανοτικά Νευρωνικά ∆ίκτυα

Πίνακας 5.2: Ποσοστά Επιτυχίας στο σύνολο ελέγχου των ΒΕΠΝ∆

Συν. ∆εδοµ. Μοντέλο Μέσος ∆ιάµεσος Τυπ.Απ. Ελαχ. Μεγ.

Cancer Cl. Οµ. ΕΠΝ∆ 90.50 90.84 1.58 87.85 92.56Cl. Ετ. ΕΠΝ∆ 87.89 87.78 1.74 85.27 90.56No Pr.ΒΕΠΝ∆ 96.62 96.57 0.26 96.14 97.13ΒΕΠΝ∆ 97.15 97.14 0.28 96.57 97.71

Card Cl. Οµ. ΕΠΝ∆ 82.02 81.81 1.15 80.73 84.49Cl. Ετ. ΕΠΝ∆ 85.20 85.36 0.97 83.34 86.52No Pr. ΒΕΠΝ∆ 86.64 86.67 0.51 85.80 87.39ΒΕΠΝ∆ 86.83 86.81 0.34 86.38 87.39

Diabetes Cl. Οµ. ΕΠΝ∆ 65.35 65.14 0.48 64.99 66.35Cl. Ετ. ΕΠΝ∆ 69.30 69.18 1.59 67.08 72.36No Pr.ΒΕΠΝ∆ 70.78 71.08 1.14 68.55 71.95ΒΕΠΝ∆ 71.22 71.39 1.00 69.75 72.54

Glass Cl. Οµ. ΕΠΝ∆ 54.04 54.91 3.61 48.53 58.93Cl. Ετ. ΕΠΝ∆ 47.25 47.01 2.75 42.42 51.39No Pr. ΒΕΠΝ∆ 52.63 54.02 7.17 41.69 61.58ΒΕΠΝ∆ 49.38 48.86 3.16 44.92 55.06

Heart Cl. Οµ. ΕΠΝ∆ 79.96 79.95 0.56 79.24 81.09Cl. Ετ. ΕΠΝ∆ 77.62 77.66 1.16 75.98 79.35No Pr. ΒΕΠΝ∆ 82.28 82.34 0.62 81.20 83.15ΒΕΠΝ∆ 82.35 82.50 1.05 80.43 84.13

Horse Cl. Οµ. ΕΠΝ∆ 61.81 61.65 0.77 60.89 63.78Cl. Ετ. ΕΠΝ∆ 58.89 59.07 1.51 56.56 61.30No Pr. ΒΕΠΝ∆ 63.96 64.15 1.55 61.26 66.76ΒΕΠΝ∆ 63.87 63.87 1.40 61.26 66.48

δευσης που απαιτεί ένα ΒΕΠΝ∆, έχουµε αθροίσει σε κάθε περίπτωση τον χρόνο που

απαιτείται για την εκπαίδευση της αντίστοιχης ενδεκάδας των ΕΠΝ∆ για να υπο-

λογιστεί η τελική ταξινόµηση ϐάσει του πλειοψηφικού συστήµατος. Η µέση τιµή,

η διάµεσος, η τυπική απόκλιση, η ελάχιστη και η µέγιστη τιµή του απαιτούµενου

χρόνου εκπαίδευσης των δύο εκδοχών των ΒΕΠΝ∆ αλλά και των Cl. ΕΠΝ∆ παρου-

σιάζεται στον Πίνακα 5.3. Εξετάζοντας τα στοιχεία του πίνακα, παρατηρούµε πως

τα Cl. ΕΠΝ∆ έχουν πολύ µικρό χρόνο εκπαίδευσης αλλά δυστυχώς δεν µπορούν να

πετύχουν υψηλά ΠΕ. Επίσης, τα ΒΕΠΝ∆ έχουν αρκετά υψηλότερο χρόνο εκπαίδευ-

σης αλλά όµως πετυχαίνουν και αρκετά µεγαλύτερη απόδοση. Οι δύο εκδοχές των

ΒΕΠΝ∆ απαιτούν παρόµοιο χρόνο εκπαίδευσης εκτός των περιπτώσεων των προβλη-

µάτων Cancer και Glass.

Για να εξετάσουµε τη συνολική κατανοµή των ΠΕ του κάθε µοντέλου στα έξι προ-

ϐλήµατα ταξινόµησης και να αποκτήσουµε µια καλύτερη εικόνα της αποδοτικότητας

των ΒΕΠΝ∆ αλλά και των Cl. ΕΠΝ∆, κατασκευάσαµε τα αντίστοιχα ϑηκογράµµατα

των ΠΕ για κάθε ένα σύνολο δεδοµένων τα οποία παρουσιάζονται στο Σχήµα 5.1.

Γενικά παρατηρούµε πως τα ΒΕΠΝ∆ πετυχαίνουν υψηλότερα ΠΕ σε σχέση µε τα Cl.

Page 102: noimosini sminous

5.6 Συµπεράσµατα 81

Πίνακας 5.3: Χρόνοι εκπαίδευσης των ΒΕΠΝ∆

Συν. ∆εδοµ. Μοντέλο Μέσος ∆ιάµεσος Τυπ.Απ. Ελαχ. Μεγ.

Cancer Cl. Οµ. ΕΠΝ∆ 0.16 0.15 0.02 0.14 0.20Cl. Ετ. ΕΠΝ∆ 0.32 0.33 0.06 0.24 0.43No Pr. ΒΕΠΝ∆ 82.78 78.07 8.86 76.22 99.75ΒΕΠΝ∆ 90.01 89.86 0.92 88.97 92.12

Card Cl. Οµ. ΕΠΝ∆ 0.49 0.47 0.06 0.46 0.66Cl. Ετ. ΕΠΝ∆ 0.66 0.70 0.14 0.42 0.86No Pr.ΒΕΠΝ∆ 309.85 309.36 1.88 307.58 314.33ΒΕΠΝ∆ 309.73 309.84 2.62 305.26 314.95

Diabetes Cl. Οµ. ΕΠΝ∆ 0.18 0.18 0.00 0.17 0.18Cl. Ετ. ΕΠΝ∆ 0.36 0.36 0.01 0.35 0.38No Pr. ΒΕΠΝ∆ 106.42 106.53 0.92 104.25 107.73ΒΕΠΝ∆ 106.24 106.26 0.81 105.31 108.06

Glass Cl. Οµ. ΕΠΝ∆ 0.21 0.21 0.01 0.21 0.22Cl. Ετ. ΕΠΝ∆ 0.45 0.45 0.01 0.43 0.46No Pr. ΒΕΠΝ∆ 37.55 37.78 1.15 34.47 38.95ΒΕΠΝ∆ 48.62 48.89 1.22 45.24 49.77

Heart Cl. Οµ. ΕΠΝ∆ 0.67 0.63 0.08 0.61 0.83Cl. Ετ. ΕΠΝ∆ 1.37 1.31 0.16 1.19 1.70No Pr. ΒΕΠΝ∆ 394.49 392.36 5.93 387.13 404.55ΒΕΠΝ∆ 393.22 391.47 4.95 388.02 401.03

Horse Cl. Οµ. ΕΠΝ∆ 0.37 0.37 0.02 0.33 0.40Cl. Ετ. ΕΠΝ∆ 0.76 0.77 0.03 0.70 0.82No Pr. ΒΕΠΝ∆ 96.50 96.62 0.71 95.61 97.80ΒΕΠΝ∆ 95.39 95.49 0.58 94.05 96.31

ΕΠΝ∆ αν εξαιρέσουµε το πρόβληµα Glass στο οποίο και τα τέσσερα προτεινόµενα

µοντέλα πέτυχαν σχετικά χαµηλά ΠΕ.

5.6 Συµπεράσµατα

Από τους πίνακες των ΠΕ συµπεραίνουµε πως τα ΒΕΠΝ∆ πέτυχαν αρκετά ικανο-

ποιητικά αποτελέσµατα τα οποία ήταν ανώτερα των Cl. ΕΠΝ∆ τόσο στην περίπτωση

του οµοσκεδαστικού µοντέλου όσο και στου ετεροσκεδαστικού. Θα πρέπει να ση-

µειωθεί ότι ο χρόνος εκπαίδευσης των Cl. ΕΠΝ∆ είναι πολύ πιο µικρός από τον αντί-

στοιχο που απαιτείται για την εκπαίδευση των ΒΕΠΝ∆. ΄Οµως, ο χρόνος εκπαίδευσης

των ΒΕΠΝ∆, αν και σχετικά µεγάλος, είναι µικρότερος από τον χρόνο εκπαίδευσης

που απαιτούν τα Ετ. ΕΠΝ∆ του Κεφαλαίου 4. ∆ηλαδή ϐάσει των Πινάκων 4.5 και 5.3

παρατηρούµε πως σε όλα τα προβλήµατα εκτός του Glass τα ΒΕΠΝ∆ χρειάστηκαν

µικρότερο χρόνο εκπαίδευσης και σε κάποιες περιπτώσεις έως και το µισό χρόνο από

τα αντίστοιχα ΕΠΝ∆. Τα µέσα ΠΕ των ΒΕΠΝ∆ ήταν παρόµοια µε αυτά των ΕΠΝ∆ στις

Page 103: noimosini sminous

82 Βελτιωµένα Εξελικτικά Πιθανοτικά Νευρωνικά ∆ίκτυα

Σχήµα 5.1: Θηκογράµµατα των ΠΕ ελέγχου των ΒΕΠΝ∆

Cl.Om.EPND Cl.Et.EPND NoPr.BEPND BEPND

0.86

0.88

0.90

0.92

0.94

0.96

0.98

Dataset: Cancer

acc

urac

y

Cl.Om.EPND Cl.Et.EPND NoPr.BEPND BEPND

0.81

0.82

0.83

0.84

0.85

0.86

0.87

Dataset: Card

acc

urac

y

Cl.Om.EPND Cl.Et.EPND NoPr.BEPND BEPND

0.66

0.68

0.70

0.72

Dataset: Diabetes

acc

urac

y

Cl.Om.EPND Cl.Et.EPND NoPr.BEPND BEPND

0.45

0.50

0.55

0.60

Dataset: Glass

acc

urac

y

Cl.Om.EPND Cl.Et.EPND NoPr.BEPND BEPND

0.76

0.78

0.80

0.82

0.84

Dataset: Heart

acc

urac

y

Cl.Om.EPND Cl.Et.EPND NoPr.BEPND BEPND

0.58

0.60

0.62

0.64

0.66

Dataset: Horse

acc

urac

y

περισσότερες περιπτώσεις αλλά µε µικρότερο χρόνο εκπαίδευσης.

Επιπλέον, η ενσωµάτωση των εκ των προτέρων πιθανοτήτων στη διαδικασία ϐελ-

τιστοποίησης προσέφερε µια επιπλέον ϐοήθεια στην αύξηση της αποδοτικότητας των

ΒΕΠΝ∆ εκτός των άλλων προτεινόµενων διαδικασιών.

Page 104: noimosini sminous

5.7 Συνεισφορά 83

5.7 Συνεισφορά

Στο κεφάλαιο αυτό παρουσιάσαµε ένα νέο µοντέλο ταξινόµησης το οποίο ϐασίζε-

ται στο ΕΠΝ∆ και ενσωµατώνει µερικές νέες ιδέες ϐελτίωσης του, ιδιαίτερα ως προς

τους χρόνους εκπαίδευσης και απόκρισης. Συγκεκριµένα, επεκτείνει τη χρήση δια-

ϕορετικών παραµέτρων λείανσης σε κάθε κλάση και µεταβλητή ώστε το µοντέλο να

έχει τη δυνατότητα και την ευελιξία να προσαρµόζεται καλύτερα στα δεδοµένα κάθε

κλάσης.

Επιπλέον, για να µειωθούν οι απαιτήσεις σε υπολογιστική ισχύ και µνήµη, δεν

χρησιµοποιούµε όλο το σύνολο εκπαίδευσης για την κατασκευή του επιπέδου προτύ-

πων του ΠΝ∆, αλλά εφαρµόζουµε µια τεχνική οµαδοποίησης στα δεδοµένα της κάθε

κλάσης του συνόλου εκπαίδευσης και εξάγουµε κατάλληλους αντιπροσώπους, τους

οποίους αξιοποιούµε στο επίπεδο προτύπων. Επίσης, για την καλύτερη στάθµιση

των εξόδων των ΤΝ προτύπων, τα αντίστοιχα ϐάρη εκτιµώνται από τη ΒΣΣ.

Μια ακόµα πρόταση είναι η ενσωµάτωση της τεχνικής bagging για τη ϐελτίωση

της αποδοτικότητας του προτεινόµενου σχήµατος το οποίο καλούµε Βελτιωµένο Εξε-

λικτικό Πιθανοτικό Νευρωνικό ∆ίκτυο. ΄Ολες οι παραπάνω προτάσεις ϐελτίωσης του

ΕΠΝ∆ δηµιουργούν ένα µοντέλο ταξινόµησης µε παρόµοια απόδοση µε το ΕΠΝ∆,

µικρότερο χρόνο εκπαίδευσης και αρκετά µικρότερες απαιτήσεις σε µνήµη.

Page 105: noimosini sminous

84 Βελτιωµένα Εξελικτικά Πιθανοτικά Νευρωνικά ∆ίκτυα

Page 106: noimosini sminous

Κ Ε Φ Α Λ Α Ι Ο 6

Μπεϋζιανά Πιθανοτικά Νευρωνικά ∆ίκτυα

Η συντοµία είναι η ψυχή του πνευµατώδους λόγου.

—Francis Bacon (1561 – 1626)

6.1 Εισαγωγή

΄Ενας από τους σηµαντικότερους παράγοντες που επηρεάζουν την απόδοση ενός

ΠΝ∆ είναι η εύρεση κατάλληλων τιµών για τις παραµέτρους λείανσης των πυρήνων

του ΠΝ∆. ∆ιάφοροι τρόποι έχουν προταθεί για την αντιµετώπιση του προβλήµατος

αυτού όπως παρουσιάστηκαν στα προηγούµενα κεφάλαια. Στο κεφάλαιο αυτό ϑα

προτείνουµε ένα διαφορετικό τρόπο προσέγγισης του προβλήµατος αυτού ϐασιζόµε-

νοι στη Μπεϋζιανή Ανάλυση [36]. Κατασκευάζουµε ένα Μπεϋζιανό µοντέλο για τα

δεδοµένα κάθε κλάσης και εκτιµούµε τις παραµέτρους λείανσης του ΠΝ∆ κάνοντας

κάποιες ϐασικές παραδοχές για τις εκ των προτέρων κατανοµές τους. Επειδή δεν

είναι δυνατή η άµεση προσοµοίωση από την εκ των υστέρων κατανοµή, χρησιµο-

ποιούµε το δειγµατολήπτη Gibbs για να παράγουµε µια αλυσίδα Markov η οποία

συγκλίνει στην από κοινού κατανοµή των παραµέτρων. Με τον τρόπο αυτό εκτιµούµε

τις παραµέτρους λείανσης του ΠΝ∆.

6.2 Εισαγωγή στη Μπεϋζιανή Ανάλυση

Η στατιστική κατά Bayes ϐασίζεται στην εξής απλή ιδέα : η µόνη ικανοποιη-

τική περιγραφή της αβεβαιότητας επιτυγχάνεται µέσω πιθανοτήτων. Η Μπεϋζιανή

προσέγγιση µας δίνει, µέσω του υπολογισµού πιθανοτήτων, ένα ισχυρό εργαλείο να

καταλάβουµε, να χειριστούµε και να ελέγξουµε την αβεβαιότητα. ΄Ετσι προκύπτει ένα

ϐασικός κανόνας : όλες οι άγνωστες ποσότητες πρέπει να περιγράφονται δια µέσου

πιθανοτήτων.

6.2.1 Θεώρηµα του Bayes

Πριν προχωρήσουµε στην ανάλυση της στατιστικής κατά Bayes, παρουσιάζουµε

παρακάτω το ϑεώρηµα του Bayes ώστε να είναι περισσότερο κατανοητή η ανάλυση.

Page 107: noimosini sminous

86 Μπεϋζιανά Πιθανοτικά Νευρωνικά ∆ίκτυα

΄Εστω X ένα τυχαίο διάνυσµα και θ ∈ Θ η παράµετρος του πληθυσµού που ϑέλουµε

να εκτιµήσουµε. Επιπλέον, έστω ότι µε f συµβολίζουµε γενικά τις συναρτήσεις

πυκνότητας πιθανότητας. Τότε, το ϑεώρηµα του Bayes παίρνει την εξής µορφή:

f(θ|x) =f(θ)f(x|θ)

f(θ)f(x|θ)dθ. (6.1)

Θα πρέπει να σηµειωθεί ότι από τη στιγµή που ολοκληρώνουµε ως προς θ, ο

παρανοµαστής της Εξ. (6.1) είναι συνάρτηση του x. Οπότε, για µια δεδοµένη παρα-

τήρηση x, ο παρανοµαστής είναι σταθερός και ονοµάζεται σταθερά κανονικοποίησης.

Με ϐάσει αυτά ένας εναλλακτικός τρόπος παρουσίασης του ϑεωρήµατος του Bayes

είναι ο εξής :

f(θ|x) ∝ f(θ)f(x|θ), (6.2)

δηλαδή η εκ των υστέρων κατανοµή είναι ανάλογη της εκ των προτέρων κατανοµής

πολλαπλασιαζόµενης µε τη συνάρτηση πιθανοφάνειας.

Το πλαίσιο στο οποίο κινείται η στατιστική κατά Bayes είναι παρόµοιο µε αυ-

τό της κλασικής στατιστικής, δηλαδή υπάρχει η παράµετρος θ του πληθυσµού την

οποία ϑέλουµε να εκτιµήσουµε καθώς και η πιθανότητα f(x|θ) η οποία καθορίζει

την πιθανότητα παρατήρησης διαφορετικών x, κάτω από διαφορετικές τιµές της πα-

ϱαµέτρου θ. ΄Οµως η ϑεµελιώδης διαφορά είναι ότι το θ χρησιµοποιείται ως τυχαία

ποσότητα. Αν και η διαφορά αυτή µπορεί να µοιάζει όχι και τόσο ουσιαστική, ο-

δηγεί σε µία τελείως διαφορετική προσέγγιση ως προς την ερµηνεία, από αυτήν της

κλασικής στατιστικής.

Με άλλα λόγια, τα ϐασικά χαρακτηριστικά της Μπεϋζιανής προσέγγισης είναι

η αντιµετώπιση και χρήση της άγνωστης παραµέτρου θ ως τυχαίας µεταβλητής, ο

καθορισµός της εκ των προτέρων κατανοµής για το θ (η οποία αντιπροσωπεύει τις

πεποιθήσεις µας σχετικά µε το θ προτού να έχουµε οποιαδήποτε πληροφορία για

τα δεδοµένα µας), η χρήση του ϑεωρήµατος του Bayes για τον «εκσυγχρονισµό»

των εκ των προτέρων πεποιθήσεων µας σε εκ των υστέρων πιθανότητες και µετά

η εξαγωγή της κατάλληλης συµπερασµατολογίας. Για τον σκοπό αυτό υπάρχουν

τέσσερα ϐήµατα–κλειδιά για τη Μπεϋζιανή προσέγγιση :

1. Καθορισµός του µοντέλου πιθανοφάνειας f(x|θ).

2. Καθορισµός της εκ των προτέρων κατανοµής f(θ).

3. Υπολογισµός της εκ των υστέρων κατανοµής f(θ|x), από το ϑεώρηµα του Ba­

yes.

4. Εξαγωγή συµπερασµάτων από την εκ των υστέρων πληροφορία.

Η εφαρµογή του ϑεωρήµατος του Bayes στην πράξη είναι αρκετά δύσκολη όσον

αφορά τους µαθηµατικούς υπολογισµούς και η δυσκολία αυτή οφείλεται κυρίως στο

ολοκλήρωµα το οποίο υπάρχει στον παρονοµαστή της (6.1). Βέβαια, αν υποθέσουµε

Page 108: noimosini sminous

6.2 Εισαγωγή στη Μπεϋζιανή Ανάλυση 87

κάποιες συγκεκριµένες εκ των προτέρων κατανοµές, ο υπολογισµός του ολοκληρώ-

µατος µπορεί να παραληφθεί αλλά γενικότερα απαιτούνται ειδικές τεχνικές για να

απλοποιηθούν οι υπολογισµοί.

6.2.2 Εισαγωγή στη µεθοδολογία MCMC

Οι τεχνικές Markov Chain Monte Carlo (MCMC) χρησιµοποιούνται ευρέως στη

Μπεϋζιανή Στατιστική κυρίως για τον υπολογισµό πολύπλοκων ολοκληρωµάτων. ΄Ε-

στω ότι έχουµε κάποια κατανοµή π(x), x ∈ E ⊆ Rd από την οποία ϑέλουµε να

παράγουµε ένα δείγµα και γνωρίζουµε µόνο τη συναρτησιακή µορφή της δηλαδή

δε γνωρίζουµε τη σταθερά κανονικοποίησης. Μπορούµε να κατασκευάσουµε µια

αλυσίδα Markov µε χώρο καταστάσεων E, της οποίας η στάσιµη κατανοµή είναι η

π(x). Συνεπώς, αν προσοµοιώσουµε τιµές xt, t = 0, 1, 2, . . . από αυτή την αλυσίδα,

τότε ασυµπτωτικά η αλυσίδα Xt συγκλίνει (κατά κατανοµή) στην π(x),

Xt d−→

t→∞π(x).

Υποθέτουµε ότι ενδιαφερόµαστε για αλυσίδες Markov σε συνεχή χώρο καταστά-

σεων. Η προσοµοίωση µιας αλυσίδας Markov επιτυγχάνεται ως εξής : Στο χρόνο t+1

προσοµοιώνουµε τη νέα κατάσταση της αλυσίδας από µια συνάρτηση πυκνότητας πι-

ϑανότητας που εξαρτάται µόνο από το xt και την οποία καλούµε πυρήνα µετάβασης

(transition kernel),

xt+1 ∼ K(xt,x)

(

= K(x|xt))

.

΄Ενας απλός τρόπος για να κατασκευάσουµε έναν πυρήνα µετάβασης είναι ο

δειγµατολήπτης Gibbs [37]. ΄Εστω µια πολυµεταβλητή κατανοµή π(x), όπου x =

(x1, x2, . . . , xp). Μέσω του δειγµατολήπτη Gibbs µπορούµε να παράγουµε µια αλυ-

σίδα Markov που συγκλίνει στη στάσιµη κατανοµή π(x) ακολουθώντας τον παρακά-

τω τρόπο προσοµοίωσης.

΄Εστω x0 = (x0

1, x02, . . . , x

0p) ένα οποιοδήποτε αρχικό σηµείο. Μια επανάληψη του

δειγµατολήπτη Gibbs προσοµοιώνει, χρησιµοποιώντας την περιθώρια κατανοµή της

κάθε συνιστώσας του x, και χρησιµοποιεί όλες τις προηγούµενες προσοµοιωµένες

τιµές της τρέχουσας επανάληψης για την παραγωγή της επόµενης µεταβλητής του

x. ∆ηλαδή η επόµενη επανάληψη της προσοµοίωσης ϑα είναι :

Page 109: noimosini sminous

88 Μπεϋζιανά Πιθανοτικά Νευρωνικά ∆ίκτυα

x11 ∼ π(x1|x0

1, x02, . . . , x

0p),

x12 ∼ π(x2|x1

1, x03, . . . , x

0p),

......

x1i ∼ π(xi|x1

1, x12, . . . , x

1i−1, x

0i+1, . . . , x

0p),

......

x1p ∼ π(xp|x1

1, x12, . . . , x

1p−1).

Οπότε µε τον τρόπο αυτό µπορούµε να παράγουµε ένα δείγµα από την κατανοµή

π(x) µέσω του δειγµατολήπτη Gibbs.

6.3 Προτεινόµενη προσέγγιση

6.3.1 Προτεινόµενο Μπεϋζιανό Μοντέλο

Στην ενότητα αυτή ϑα παρουσιάσουµε ένα Μπεϋζιανό µοντέλο για την εκτίµηση

των παραµέτρων λείανσης των συναρτήσεων πυρήνων των ΠΝ∆. Αρχικά υποθέτουµε

ένα διαφορετικό πίνακα παραµέτρων λείανσης Σk = diag(σ21k, σ2

2k, . . . , σ2pk), k =

1, 2, . . . , K για κάθε µια από τις K κλάσεις. Χρησιµοποιώντας τα κεντροποιηµένα

δεδοµένα κάθε κλάσης, ϑεωρούµε το ακόλουθο µοντέλο, για κάθε διάσταση των

δεδοµένων, σε κάθε µια από τις K κλάσεις.

Xikiid∼ Np(µk,Σk) i = 1, 2, . . . , Nk, (6.3)

µjk ∼ N (0, ν2), (6.4)

τjk ∼ G(α, β), j = 1, 2, . . . , p, (6.5)

όπου τjk = σ−2jk και α, β, ν > 0 είναι γνωστές παράµετροι.

Υποθέτουµε επίσης ότι τα Xik είναι ανεξάρτητα δοθέντος των µk, τjk. Επιπλέον τα

µk και τα τjk είναι ανεξάρτητα µεταξύ τους. Η από κοινού εκ των υστέρων κατανοµή

των µjk και τjk είναι :

π(µjk, τjk|Xjk) ∝ τNk/2+α−1jk exp

(

−τjk

(

∑Nk

i=1 (Xijk − µjk)2

2+ β

)

−µ2

jk

2ν2

)

.

Για να µπορέσουµε να εκτιµήσουµε τα τjk ϑα χρησιµοποιήσουµε τον δειγµατο-

λήπτη Gibbs καθώς δεν είναι δυνατή η απ΄ ευθείας προσοµοίωση από την εκ των

υστέρων κατανοµή. Με άλλα λόγια ϑα παράγουµε µια ακολουθία από τυχαίες µετα-

ϐλητές µέσω µιας επαναληπτικής, αναδροµικής προσοµοίωσης από τις δεσµευµένες

Page 110: noimosini sminous

6.3 Προτεινόµενη προσέγγιση 89

κατανοµές η οποία συγκλίνει κατά κατανοµή στην από κοινού εκ των υστέρων κατα-

νοµή. Στο µοντέλο µας, ϑέλουµε να παράγουµε τιµές από την από κοινού κατανοµή

των (µjk, τjk), j = 1, 2, . . . , p και k = 1, 2, . . . , K χρησιµοποιώντας τις πλήρως δε-

σµευµένες κατανοµές

µjk|τjk,Xjk ∼ N(

τjk

∑Nk

i=1 Xijk

τjkNk + 1/ν2,

1

τjkNk + 1/ν2

)

, (6.6)

τjk|µjk,Xjk ∼ G(

Nk

2+ α,

∑Nk

i=1 (Xijk − µjk)2

2+ β

)

. (6.7)

Ως στήριγµα µιας κατανοµής ορίζουµε το σύνολο των τιµών στις οποίες η πυκνό-

τητα πιθανότητας της κατανοµής είναι ϑετική. ΄Ετσι, ξεκινώντας από ένα οποιοδήποτε

σηµείο στο στήριγµα της από κοινού κατανοµής, προσοµοιώνουµε διαδοχικά από τις

δεσµευµένες κατανοµές των µjk και τjk, όπου για να εξάγουµε την τιµή της µιας πα-

ϱαµέτρου, χρησιµοποιούµε την αµέσως προηγούµενη τιµή της άλλης παραµέτρου.

Η παραγόµενη ακολουθία συγκλίνει στην από κοινού κατανοµή. Για να εκτιµήσουµε

τελικά τις παραµέτρους λείανσης του ΠΝ∆, υπολογίζουµε τη µέση τιµή της ακολου-

ϑίας εξαιρώντας ένα αρχικό κοµµάτι της ακολουθίας µήκους Nb (burn–in) έτσι ώστε

να διασφαλιστεί ότι το τµήµα της ακολουθίας που χρησιµοποιούµε δεν επηρεάστη-

κε από την τυχαία αρχική τιµή. ∆ηλαδή η µέση τιµή τ jk των τ tjk υπολογίζεται από

t = Nb µέχρι την τελευταία προσοµοίωση t =MaxDraws. Η παραπάνω διαδικασία

συνοψίζεται σε µορφή ψευδοκώδικα στον Πίνακα 6.1.

Πίνακας 6.1: Ψευδοκώδικας εκτίµησης των παραµ. λείανσης µε το Μπεϋζιανό µοντέλο.

For j = 1, p και k = 1, K do:

Επέλεξε αρχική τιµή για το µjk.

For m = 1, MaxDraws do:

Προσοµοίωσε από την Εξ. (6.7) µια νέα τιµή του τnewjk

χρησιµοποιώντας το µjk.

Προσοµοίωσε από την Εξ. (6.6) µια νέα τιµή του µnewjk

χρησιµοποιώντας το τnewjk .

Θέσε µjk = µnewjk και τm

jk = τnewjk .

EndFor

Υπολόγισε τον µέσο τ jk των τjk, m = Nb, MaxDraws.

Θέσε σ2jk = 1

τ jk.

EndFor

6.3.2 Προτεινόµενα Σχήµατα

Το πρώτο ϐήµα της προτεινόµενης προσέγγισης είναι να κατασκευάσουµε ένα

οµαδοποιηµένο σύνολο εκπαίδευσης από το αρχικό σύνολο εκπαίδευσης σύµφωνα

Page 111: noimosini sminous

90 Μπεϋζιανά Πιθανοτικά Νευρωνικά ∆ίκτυα

µε την Ενότητα 5.3.1 έτσι ώστε να διαθέτουµε ένα µικρό σύνολο εκπαίδευσης το οποίο

ϑα µας επιτρέψει να πετύχουµε µικρούς χρόνους εκπαίδευσης χωρίς να χάσουµε

µεγάλο µέρος της αρχικής πληροφορίας.

Το επόµενο ϐήµα είναι να εκτιµήσουµε τις παραµέτρους λείανσης των πυρήνων

του ΠΝ∆ υιοθετώντας το προαναφερθέν µοντέλο. ∆ηλαδή, αντί να εκτιµήσουµε p×K

παραµέτρους λείανσης, αρκεί µόνο να επιλέξουµε τιµές για τις παραµέτρους α, β

και ν. Στο πρώτο προτεινόµενο σχήµα ϑα εφαρµόσουµε µια εξαντλητική αναζήτηση

για την επιλογή των α και β από 10−4 έως 101 χρησιµοποιώντας µεταβλητό µέγε-

ϑος ϐήµατος. Θα πρέπει να σηµειώσουµε ότι µικρές αλλαγές στην τιµή του α δεν

επηρεάζουν την επίδοση του ΠΝ∆ οπότε χρησιµοποιήθηκε ένα µεγαλύτερο µέγεθος

ϐήµατος. ∆ηλαδή, για κάθε Ϲευγάρι τιµών (α, β), υπολογίζουµε τις τιµές των πα-

ϱαµέτρων λείανσης ϐάσει του Μπεϋζιανού µοντέλου, στη συνέχεια τις ϑέτουµε στο

ΠΝ∆ και υπολογίζουµε το ΠΕΤ σε όλο το σύνολο εκπαίδευσης. Οπότε οι τιµές που

αντιστοιχούν στο µικρότερο ΠΕΤ επιλέγονται ως ϐέλτιστες. Επιπλέον, η επίδραση

της τιµής του ν στην απόδοση του ΠΝ∆ είναι αρκετά µικρή οπότε επιλέγουµε µια λο-

γική τιµή η οποία να καλύπτει όλο το εύρος των αρχικών δεδοµένων. Το παραπάνω

µοντέλο ονοµάζεται Μπεϋζιανό Πιθανοτικό Νευρωνικό ∆ίκτυο (ΜΠΝ∆) [41,42].

Εκτός του πυρήνα κανονικής κατανοµής, µπορούν να χρησιµοποιηθούν και άλ-

λες διαφορετικές συναρτήσεις πυρήνων στους ΤΝ προτύπων ενός ΠΝ∆. ΄Ενας τέτοιος

πυρήνας είναι ο πυρήνας του Epanechnikov µε την ακόλουθη µορφή

fik(x) = max

1− 1

2κ2(x− xik)

⊤Σ

−1k (x− xik) , 0

, (6.8)

όπου κ είναι µια γνωστή παράµετρος [65]. Ο πυρήνας αυτός µπορεί να οδηγήσει

σε µια πιο γρήγορη υλοποίηση καθώς δεν είναι αναγκαίος ο υπολογισµός χρονο-

ϐόρων εκθετικών συναρτησιακών τιµών. Οπότε, χρησιµοποιώντας τον πυρήνα αυτό

προτείνεται µια νέα εκδοχή του ΜΠΝ∆ την οποία ϑα συµβολίζουµε ως Επ.ΜΠΝ∆.

΄Ενας άλλος τρόπος ϐελτίωσης της απόδοσης του ΜΠΝ∆ είναι να χρησιµοποιήσου-

µε τη ΒΣΣ για την αναζήτηση ϐέλτιστων τιµών για τις εκ των προτέρων πιθανότητες

πk, k = 1, 2, . . . , K του ΠΝ∆ σύµφωνα µε την Ενότητα 5.3.3. ∆ηλαδή κατασκευά-

Ϲουµε αρχικά ένα ΜΠΝ∆ όπως παραπάνω και έπειτα αναζητούµε καλύτερες τιµές για

τις πk µε τη ΒΣΣ. Η διάσταση ϐελτιστοποίησης της ΒΣΣ είναι προφανώς d = K και

η αντικειµενική συνάρτηση είναι το ΠΕΤ στο αρχικό σύνολο εκπαίδευσης. Το µο-

ντέλο αυτό καλείται Μπεϋζιανό Πιθανοτικό Νευρωνικό ∆ίκτυο Εξελικτικής Στάθµισης

(ΜΠΝ∆-ΕΣ) εξαιτίας της στάθµισης των ΤΝ άθροισης από την ΒΣΣ.

Στην περίπτωση που χρησιµοποιήσουµε τον πυρήνα Epanechnikov µπορούµε

να έχουµε το αντίστοιχο µοντέλο Επ.ΜΠΝ∆-ΕΣ ϑεωρώντας ότι κ = 1. Για να είναι

περισσότερο σαφές ποιον πυρήνα χρησιµοποιεί το ΜΠΝ∆ ϑα χρησιµοποιούµε το

πρόθεµα Γκ. για τον κανονικό (Γκαουσιανό) πυρήνα και το Επ. για τον πυρήνα του

Epanechnikov.

Για να αποφευχθεί η εξαντλητική αναζήτηση των ϐέλτιστων τιµών για τις παρα-

µέτρους α και β, προτείνεται η χρήση της ΒΣΣ για τη ϐελτιστοποίηση των δύο αυτών

Page 112: noimosini sminous

6.4 Πειραµατικά Αποτελέσµατα 91

παραµέτρων στο ΜΠΝ∆. ∆ηλαδή, η διάσταση ϐελτιστοποίησης της ΒΣΣ ϑα είναι πλέ-

ον d = 2 εφόσον κάθε σωµατίδιο ϑα απαρτίζεται από τιµές των α και β. Με τον τρόπο

αυτό το προτεινόµενο µοντέλο, το οποίο καλούµε Εξελικτικό Μπεϋζιανό Πιθανοτικό

Νευρωνικό ∆ίκτυο (ΕΜΠΝ∆), ϑα αναζητά αυτόµατα όλες τις απαραίτητες παραµέ-

τρους µέσω της ΒΣΣ. Επιπλέον, ένα ακόµα µοντέλο που προτείνουµε ϐασίζεται στο

ΕΜΠΝ∆ αλλά χρησιµοποιεί τη ΒΣΣ και για την καλύτερη στάθµιση των ΤΝ άθροισης

δηλαδή τις εκ των προτέρων πιθανότητες του ΠΝ∆. Η διάσταση ϐελτιστοποίησης ϑα

είναι d = K + 2 και κάθε σωµατίδιο της ΒΣΣ ϑα αποτελείται από K συνιστώσες που

ϑα αντιστοιχούν στις Κ πk καθώς και από δύο επιπλέον συνιστώσες για τις τιµές των α

και β. Το µοντέλο αυτό καλείται Εξελικτικό Μπεϋζιανό Πιθανοτικό Νευρωνικό ∆ίκτυο

Εξελικτικής Στάθµισης (ΕΜΠΝ∆-ΕΣ).

Το τελευταίο µοντέλο του προτείνεται είναι το Επ.κ–ΕΜΠΝ∆–ΕΣ στο οποίο εν-

σωµατώνεται και η αναζήτηση της ϐέλτιστης τιµής της παραµέτρου κ του πυρήνα

Epanechnikov από τη ΒΣΣ. ∆ηλαδή, εκτός των πk και των α και β, κάθε σωµατίδιο

της ΒΣΣ ϑα απαρτίζεται και από µια τιµή του κ οπότε η διάσταση ϐελτιστοποίησης

ϑα είναι d = K + 3.

6.4 Πειραµατικά Αποτελέσµατα

΄Οπως και στις εφαρµογές των προηγούµενων Κεφαλαίων, ϑα εξετάσουµε την απο-

δοτικότητα των προτεινόµενων µοντέλων χρησιµοποιώντας 10 ϕορές διασταυρωµένη

δειγµατοληψία δέκατης τάξης (10− CV ). ∆ηλαδή, ϑα κατασκευάσουµε 100 σύνολα

εκπαίδευσης και 100 αντίστοιχα σύνολα ελέγχου για κάθε ένα από τα έξι προβλήµατα

που ϑα εφαρµόσουµε σε κάθε µοντέλο. Το πρώτο ϐήµα σε κάθε ένα από τα επτά

προτεινόµενα Μπεϋζιανά ΠΝ∆ είναι να κατασκευάσουµε τα οµαδοποιηµένα σύνο-

λα εκπαίδευσης Ttrclχρησιµοποιώντας τον αλγόριθµο K–Medoids σύµφωνα µε την

Ενότ. 5.3.1.

Για την υλοποίηση της ΒΣΣ στα ΜΠΝ∆–ΕΣ, ΕΜΠΝ∆, ΕΜΠΝ∆–ΕΣ και Επ.κ–

ΕΜΠΝ∆–ΕΣ χρησιµοποιήθηκαν πάλι οι τυπικές τιµές των παραµέτρων c1 = c2 =

2.05, χ = 0.729 [15]. Ο χώρος αναζήτησης της ΒΣΣ δηλαδή το επιτρεπόµενο διά-

στηµα όπου έπαιρναν τιµές τα σωµατίδια, δηλαδή οι παράµετροι λείανσης, ήταν το

διάστηµα [0.001, 5.0]. Για τα ΜΠΝ∆–ΕΣ, ένα σµήνος από 10 σωµατίδια εξελίχθηκε

για 50 γενιές και για τα ΕΜΠΝ∆, ΕΜΠ–ΕΣ και Επ.κ–ΕΜΠΝ∆–ΕΣ ένα σµήνος 5 σω-

µατιδίων εξελίχθηκε για 30 γενιές καθώς ο κάθε συναρτησιακός υπολογισµός της

ϐελτιστοποίησης των α και β ήταν αρκετά χρονοβόρος.

Το µέγεθος της ακολουθίας των (α, β) που παράχθηκε από το δειγµατολήπτη

Gibbs ήταν MaxDraws = 10000 και η τυπική απόκλιση των µjk της Εξ. (6.4) ήταν

ν = 0.2 έτσι ώστε να καλύπτει µε αρκετά µεγάλη πιθανότητα το διάστηµα που

παίρνουν τιµές τα δεδοµένα οπότε και ο µέσος τους.

Μετά την εφαρµογή των έξι προβληµάτων ταξινόµησης στα προτεινόµενα µοντέλα,

έχει υπολογιστεί η µέση τιµή, η διάµεσος, η τυπική απόκλιση, η ελάχιστη και η

Page 113: noimosini sminous

92 Μπεϋζιανά Πιθανοτικά Νευρωνικά ∆ίκτυα

µέγιστη τιµή των 10 − CV ποσοστών επιτυχίας (ΠΕ) των συνόλων ελέγχου για τα

7 προτεινόµενα Μπεϋζιανά ΠΝ∆ και τα αποτελέσµατα παρουσιάζονται στον Πίνακα

6.2. Επίσης, στον Πίνακα 6.3 παρουσιάζονται αντίστοιχα περιγραφικά στατιστικά

στοιχεία για τους χρόνους εκπαίδευσης των παραλλαγών των Μπεϋζιανών ΠΝ∆.

6.5 Συµπεράσµατα

Εξετάζοντας προσεκτικά τα αποτελέσµατα των παραλλαγών των Μπεϋζιανών ΠΝ∆

συµπεράνουµε ότι έχουµε πετύχει αρκετά ικανοποιητικά αποτελέσµατα σε σχέση

µε τα ΕΠΝ∆ και τα ΒΕΠΝ∆ τόσο στα ΠΕ όσο και στο χρόνο εκπαίδευσης, αν και

η συνολική σύγκριση των ΠΝ∆ ϑα παρουσιαστεί στο Κεφάλαιο 8. Επίσης, για µια

καλύτερη απεικόνιση των αποτελεσµάτων, τα ϑηκογράµµατα των ΠΕ ελέγχου του

κάθε ΜΠΝ∆ σε κάθε πρόβληµα παρουσιάζονται στα Σχήµατα 6.1, 6.2 και 6.3 και

επιβεβαιώνουν τα στοιχεία των παραπάνω πινάκων.

Αρχικά, συγκρίνοντας τις δύο συναρτήσεις πυρήνων παρατηρούµε ότι στα 5 α-

πό τα 6 προβλήµατα, ο κανονικός πυρήνας πέτυχε καλύτερα αποτελέσµατα από τον

πυρήνα του Epanechnikov αν και σε κάποιες περιπτώσεις η διαφορά ήταν αρκε-

τά µικρή. Θα πρέπει να σηµειωθεί ότι η απόδοση του πυρήνα του Epanechnikov

ϐελτιώθηκε σε 4 από τα 6 προβλήµατα όταν η παράµετρος κ του πυρήνα ενσωµατώ-

ϑηκε στη διαδικασία ϐελτιστοποίησης, δηλαδή στο Επ.κ–ΕΜΠΝ∆–ΕΣ, και δεν είχε

µια σταθερή τιµή. Επιπλέον, η Εξελικτική Στάθµιση των ΤΝ άθροισης, δηλαδή η

αναζήτηση ϐέλτιστων τιµών για τις εκ των προτέρων πιθανότητες του ΠΝ∆, ϐελτίωσε

την απόδοση των ΜΠΝ∆ σε 4 από τα 6 προβλήµατα. Τέλος, στην περίπτωση της

εξελικτικής αναζήτησης µε τη ΒΣΣ για τις ϐέλτιστες τιµές των σταθερών α και β των

ΜΠΝ∆, η απόδοση των ΕΜΠΝ∆ ήταν ανώτερη σε 5 από τα 6 σύνολα δεδοµένων και

ιδιαίτερα µε την ενσωµάτωση και της εξελικτικής στάθµισης.

6.6 Συνεισφορά

Στο κεφάλαιο αυτό προτάθηκε µια κλάση από 7 νέα µοντέλα ταξινόµησης τα ο-

ποία ϐασίζονται στα ΠΝ∆ και ενσωµατώνουν ένα Μπεϋζιανό µοντέλο για τα δεδοµένα

κάθε κλάσης. Θεωρώντας κάποιες συνηθισµένες εκ των προτέρων κατανοµές για τις

παραµέτρους του Μπεϋζιανού µοντέλου, κατασκευάσαµε µια αλυσίδα Markov µε

τον δειγµατολήπτη Gibbs η οποία συγκλίνει κατά κατανοµή στην εκ των υστέρων

κατανοµή των παραµέτρων του µοντέλου. Επιπλέον, δοκιµάστηκε και η χρήση µιας

διαφορετικής συνάρτησης πυρήνα στο ΠΝ∆ από την κλασσική κανονική και συγ-

κεκριµένα ο πυρήνας του Epanechnikov. Βέβαια, τα αποτελέσµατα δεν ήταν τόσο

ενθαρρυντικά όσο µε τον κανονικό πυρήνα, αλλά η χρήση της ΒΣΣ για την αναζήτη-

ση ϐέλτιστης τιµής για την παράµετρο κ του πυρήνα, ϐελτίωσε αρκετά την απόδοση

του ΠΝ∆ στα περισσότερα προβλήµατα. Για την περαιτέρω ϐελτίωση της αποδοτικό-

τητας του προτεινόµενου σχήµατος χρησιµοποιήθηκε η ΒΣΣ και για την αναζήτηση

Page 114: noimosini sminous

6.6 Συνεισφορά 93

των ϐέλτιστων τιµών των σταθερών α και β των εκ των προτέρων κατανοµών του Μπε-

ϋζιανού µοντέλου. Η προτεινόµενη κλάση µοντέλων είναι δηλαδή ένας συνδυασµός

της στατιστικής κατά Bayes και της ΒΣΣ, ενός δηλαδή εξελικτικού αλγόριθµου.

Page 115: noimosini sminous

94 Μπεϋζιανά Πιθανοτικά Νευρωνικά ∆ίκτυα

Πίνακας 6.2: Ποσοστά Επιτυχίας στο σύνολο ελέγχου των Μπεϋζιανών ΠΝ∆

Συν. ∆εδοµ. Μοντέλο Μέσος ∆ιάµεσος Τυπ.Απ. Ελαχ. Μεγ.

Cancer Επ.ΜΠΝ∆ 96.39 96.35 0.18 96.14 96.71Επ.ΜΠΝ∆–ΕΣ 96.53 96.56 0.22 96.14 96.85Γκ.ΜΠΝ∆ 96.36 96.35 0.22 96.13 96.85Γκ.ΜΠΝ∆–ΕΣ 96.51 96.49 0.14 96.28 96.71Γκ.ΕΜΠΝ∆ 96.75 96.71 0.22 96.42 97.14Γκ.ΕΜΠΝ∆–ΕΣ 96.75 96.71 0.17 96.42 97.00Επ.κ–ΕΜΠΝ∆–ΕΣ 96.55 96.49 0.24 96.28 97.13

Card Επ.ΜΠΝ∆ 80.58 80.94 1.03 78.55 81.59Επ.ΜΠΝ∆–ΕΣ 82.83 83.04 0.89 81.45 84.06Γκ.ΜΠΝ∆ 84.93 85.00 0.25 84.49 85.22Γκ.ΜΠΝ∆–ΕΣ 86.21 86.02 0.54 85.66 87.54Γκ.ΕΜΠΝ∆ 84.84 84.57 0.76 84.06 86.23Γκ.ΕΜΠΝ∆–ΕΣ 84.64 84.64 0.66 83.77 85.66Επ.κ–ΕΜΠΝ∆–ΕΣ 85.90 85.87 0.57 84.78 86.96

Diabetes Επ.ΜΠΝ∆ 73.90 73.93 1.16 71.89 75.91Επ.ΜΠΝ∆–ΕΣ 71.68 71.79 1.08 69.92 73.55Γκ.ΜΠΝ∆ 74.21 74.35 0.93 72.43 75.91Γκ.ΜΠΝ∆–ΕΣ 72.93 73.26 1.50 69.92 75.06Γκ.ΕΜΠΝ∆ 66.79 66.72 0.56 66.05 67.93Γκ.ΕΜΠΝ∆–ΕΣ 73.88 73.64 0.53 73.35 74.49Επ.κ–ΕΜΠΝ∆–ΕΣ 74.64 74.47 1.18 72.80 76.69

Glass Επ.ΜΠΝ∆ 52.42 52.63 2.18 49.73 57.26Επ.ΜΠΝ∆–ΕΣ 55.30 55.65 1.28 53.05 56.78Γκ.ΜΠΝ∆ 58.11 57.74 1.47 56.08 60.91Γκ.ΜΠΝ∆–ΕΣ 59.48 58.47 2.86 56.25 64.97Γκ.ΕΜΠΝ∆ 63.25 63.54 2.24 57.88 65.77Γκ.ΕΜΠΝ∆–ΕΣ 63.61 63.78 1.82 59.01 65.92Επ.κ–ΕΜΠΝ∆–ΕΣ 54.82 55.08 2.09 51.07 58.28

Heart Επ.ΜΠΝ∆ 72.26 72.12 0.48 71.52 72.94Επ.ΜΠΝ∆–ΕΣ 73.32 73.31 0.48 72.72 74.02Γκ.ΜΠΝ∆ 80.46 80.43 0.69 79.13 81.52Γκ.ΜΠΝ∆–ΕΣ 81.60 81.68 0.65 80.44 82.61Γκ.ΕΜΠΝ∆ 82.11 82.17 0.66 80.54 83.04Γκ.ΕΜΠΝ∆–ΕΣ 81.82 81.90 1.06 79.78 83.37Επ.κ–ΕΜΠΝ∆–ΕΣ 81.82 81.90 1.06 79.78 83.37

Horse Επ.ΜΠΝ∆ 61.49 61.51 0.36 60.75 62.03Επ.ΜΠΝ∆–ΕΣ 61.46 61.46 0.36 60.75 62.03Γκ.ΜΠΝ∆ 60.10 60.38 2.32 54.36 62.59Γκ.ΜΠΝ∆–ΕΣ 59.88 60.38 2.23 54.36 62.06Γκ.ΕΜΠΝ∆ 63.25 63.37 1.52 60.86 65.56Γκ.ΕΜΠΝ∆–ΕΣ 63.65 63.68 1.95 59.78 67.22Επ.κ–ΕΜΠΝ∆–ΕΣ 61.39 61.53 1.18 58.92 62.72

Page 116: noimosini sminous

6.6 Συνεισφορά 95

Πίνακας 6.3: Χρόνοι εκπαίδευσης (sec) των Μπεϋζιανών ΠΝ∆

Συν. ∆εδοµ. Μοντέλο Μέσος ∆ιάµεσος Τυπ.Απ. Ελαχ. Μεγ.

Cancer Επ.ΜΠΝ∆ 21.40 21.42 0.06 21.32 21.47Επ.ΜΠΝ∆–ΕΣ 24.39 24.42 0.07 24.28 24.48Γκ.ΜΠΝ∆ 27.74 28.08 1.08 24.67 28.17Γκ.ΜΠΝ∆–ΕΣ 31.62 32.02 1.33 27.84 32.16Γκ.ΕΜΠΝ∆ 41.12 41.11 0.69 40.04 42.72Γκ.ΕΜΠΝ∆–ΕΣ 65.04 65.65 2.91 57.23 67.78Επ.κ–ΕΜΠΝ∆–ΕΣ 62.36 64.27 3.59 57.04 65.31

Card Επ.ΜΠΝ∆ 193.86 193.69 1.37 191.86 195.82Επ.ΜΠΝ∆–ΕΣ 203.71 203.47 1.42 201.77 205.95Γκ.ΜΠΝ∆ 215.39 214.92 1.24 214.14 217.49Γκ.ΜΠΝ∆–ΕΣ 229.49 228.98 1.37 228.09 231.70Γκ.ΕΜΠΝ∆ 223.64 221.09 20.04 199.17 262.71Γκ.ΕΜΠΝ∆–ΕΣ 350.22 347.19 45.94 268.26 408.51Επ.κ–ΕΜΠΝ∆–ΕΣ 354.45 351.22 34.93 310.75 399.69

Diabetes Επ.ΜΠΝ∆ 25.18 25.38 0.64 23.37 25.44Επ.ΜΠΝ∆–ΕΣ 28.61 28.86 0.81 26.31 28.93Γκ.ΜΠΝ∆ 25.18 25.63 1.09 22.48 25.79Γκ.ΜΠΝ∆–ΕΣ 29.62 30.27 1.51 25.94 30.43Γκ.ΕΜΠΝ∆ 37.82 37.87 0.76 36.59 39.19Γκ.ΕΜΠΝ∆–ΕΣ 49.92 49.52 1.18 48.80 51.59Επ.κ–ΕΜΠΝ∆–ΕΣ 56.29 56.53 1.42 54.15 58.18

Glass Επ.ΜΠΝ∆ 110.65 110.71 0.24 110.00 110.87Επ.ΜΠΝ∆–ΕΣ 111.58 111.64 0.24 110.92 111.80Γκ.ΜΠΝ∆ 110.80 110.82 0.16 110.45 111.03Γκ.ΜΠΝ∆–ΕΣ 112.02 112.06 0.16 111.68 112.25Γκ.ΕΜΠΝ∆ 121.90 120.32 10.88 110.65 141.50Γκ.ΕΜΠΝ∆–ΕΣ 231.84 227.17 9.72 221.45 251.81Επ.κ–ΕΜΠΝ∆–ΕΣ 253.30 257.02 9.47 228.25 258.52

Heart Επ.ΜΠΝ∆ 88.26 88.17 0.47 87.52 89.27Επ.ΜΠΝ∆–ΕΣ 104.54 104.28 0.72 103.55 106.12Γκ.ΜΠΝ∆ 88.55 88.54 0.38 87.92 89.03Γκ.ΜΠΝ∆–ΕΣ 106.71 106.79 0.56 105.79 107.53Γκ.ΕΜΠΝ∆ 158.79 152.13 14.25 145.29 182.52Γκ.ΕΜΠΝ∆–ΕΣ 160.80 163.87 9.40 147.96 174.22Επ.κ–ΕΜΠΝ∆–ΕΣ 151.42 150.62 8.70 143.03 173.56

Horse Επ.ΜΠΝ∆ 350.23 350.15 0.79 348.41 351.09Επ.ΜΠΝ∆–ΕΣ 355.36 355.30 0.77 353.58 356.20Γκ.ΜΠΝ∆ 349.62 349.45 0.83 347.92 350.90Γκ.ΜΠΝ∆–ΕΣ 355.53 355.36 0.81 353.87 356.79Γκ.ΕΜΠΝ∆ 377.45 371.49 44.05 317.11 454.17Γκ.ΕΜΠΝ∆–ΕΣ 778.62 800.71 34.27 726.59 809.32Επ.κ–ΕΜΠΝ∆–ΕΣ 797.52 798.23 6.54 785.66 805.46

Page 117: noimosini sminous

96 Μπεϋζιανά Πιθανοτικά Νευρωνικά ∆ίκτυα

Σχήµα 6.1: Θηκογράµµατα των ΠΕ ελέγχου των Μπεϋζιανών ΠΝ∆ (Cancer, Card)

Ep.MPND Ep.MPND−ES G.MPND G.MPND−ES G.EMPND G.EMPND−ES Ep.k−EMPND−ES

0.96

20.

964

0.96

60.

968

0.97

0

Dataset: Cancer

acc

urac

y

Ep.MPND Ep.MPND−ES G.MPND G.MPND−ES G.EMPND G.EMPND−ES Ep.k−EMPND−ES

0.80

0.82

0.84

0.86

Dataset: Card

acc

urac

y

Page 118: noimosini sminous

6.6 Συνεισφορά 97

Σχήµα 6.2: Θηκογράµµατα των ΠΕ ελέγχου των Μπεϋζιανών ΠΝ∆ (Diabetes, Glass)

Ep.MPND Ep.MPND−ES G.MPND G.MPND−ES G.EMPND G.EMPND−ES Ep.k−EMPND−ES

0.66

0.68

0.70

0.72

0.74

0.76

Dataset: Diabetes

acc

urac

y

Ep.MPND Ep.MPND−ES G.MPND G.MPND−ES G.EMPND G.EMPND−ES Ep.k−EMPND−ES

0.50

0.55

0.60

0.65

Dataset: Glass

acc

urac

y

Page 119: noimosini sminous

98 Μπεϋζιανά Πιθανοτικά Νευρωνικά ∆ίκτυα

Σχήµα 6.3: Θηκογράµµατα των ΠΕ ελέγχου των Μπεϋζιανών ΠΝ∆ (Heart, Horse)

Ep.MPND Ep.MPND−ES G.MPND G.MPND−ES G.EMPND G.EMPND−ES Ep.k−EMPND−ES

0.72

0.74

0.76

0.78

0.80

0.82

Dataset: Heart

acc

urac

y

Ep.MPND Ep.MPND−ES G.MPND G.MPND−ES G.EMPND G.EMPND−ES Ep.k−EMPND−ES

0.54

0.56

0.58

0.60

0.62

0.64

0.66

Dataset: Horse

acc

urac

y

Page 120: noimosini sminous

Κ Ε Φ Α Λ Α Ι Ο 7

Ασαφή Εξελικτικά Πιθανοτικά Νευρωνικά

∆ίκτυα

Αν δεν ελπίζεις δεν ϑα ϐρεις το ανέλπιστο, γιατί είναι ανεξερεύνητο και απροσπέλαστο.

—Ηράκλειτος (544-483 π.Χ.)

7.1 Εισαγωγή

Στα προηγούµενα κεφάλαια παρουσιάστηκαν αρκετές παραλλαγές των ΠΝ∆, οι

οποίες είτε απαιτούσαν αρκετούς υπολογιστικούς πόρους για εκπαίδευση είτε η κα-

τασκευή τους απαιτεί συστάδες από γρήγορα ΠΝ∆ για να επιτύχουµε ικανοποιητικά

αποτελέσµατα. ∆ιάφορες τεχνικές ενσωµατώθηκαν στα ΠΝ∆ ώστε να ϐελτιωθεί η α-

ποδοτικότητά τους και ως προς την ταχύτητα εκπαίδευσης και απόκρισης αλλά και

ως προς το ΠΕ. Μια ιδέα που προτείνεται για την ϐελτίωση των ΒΕΠΝ∆ χωρίς τη χρή-

ση της τεχνικής bagging η οποία είναι αρκετά χρονοβόρα είναι η ενσωµάτωση της

ϑεωρίας της Ασαφούς Λογικής και των Ασαφών Συνόλων γενικότερα. Η ϑεωρία των

Ασαφών Συνόλων είναι το παλαιότερο και από τα πιο συχνά αναφερόµενα πεδία της

ΥΝ [71]. Συγκεκριµένα, ενσωµατώνουµε στο ΒΕΠΝ∆ µια Ασαφή Συνάρτηση Συµ-

µετοχής [57], σε κάθε κλάση, µέσω της οποίας ϑα σταθµίσουµε κατάλληλα τους ΤΝ

προτύπων του ΒΕΠΝ∆. Επίσης, προτείνουµε και έναν νέο τρόπο αντιµετώπισης προ-

ϐληµάτων ταξινόµησης µε περισσότερες από δύο κλάσεις για µοντέλα ταξινόµησης

δύο κλάσεων.

7.2 Ασαφής Λογική

7.2.1 Εισαγωγή

΄Ενας από τους πρωτοπόρους της Ασαφούς Λογικής (ΑΛ) Fuzzy Logic) ήταν ο Πλά-

τωνας όπου έθεσε τα ϑεµέλια αυτής της ϑεωρίας, υποδεικνύοντας ότι µια πρόταση

µπορεί να µην είναι ούτε αληθής ούτε ψευδής αλλά να ανήκει σε µια τρίτη κατάσταση

όταν δεν είναι ξεκάθαρα σε κάποια από τις δύο πρώτες καταστάσεις. Μια πρώτη µε-

ϑοδευµένη εναλλακτική εκδοχή της δίτιµης λογικής του Αριστοτέλη προτάθηκε από

Page 121: noimosini sminous

100 Ασαφή Εξελικτικά Πιθανοτικά Νευρωνικά ∆ίκτυα

τον Lukasiewicz στα 1920 όπου πρότεινε µια τρίτιµη λογική µαζί µε τα απαιτούµενα

µαθηµατικά της [66]. Η τρίτη τιµή που πρότεινε ϑα µπορούσε να µεταφραστεί ως ο

όρος ‘πιθανό’ και της έδωσε µια αριθµητική τιµή µεταξύ True και False.

Η ϑεωρία των Ασαφών Συνόλων (ΑΣ) (Fuzzy Sets) αρχικά προτάθηκε από τον

Zadeh [30, 116–118] το 1965, ως ένας νέος τρόπος αναπαράστασης της αοριστίας

στην καθηµερινή Ϲωή. Εκεί εισάγει την έννοια της λογικής άπειρων τιµών όπου

περιγράφει τα µαθηµατικά της ϑεωρίας των ΑΣ και κατ΄ επέκταση την ΑΛ. ∆ηλαδή,

προτείνει ότι η συνάρτηση συµµετοχής (membership function) ενός συνόλου παίρνει

τιµές σε όλο το εύρος του διαστήµατος [0, 1] των πραγµατικών αριθµών. Ο Zadeh

ισχυριζόταν ότι ο άνθρωπος δεν απαιτεί ακριβείς αριθµητικές πληροφορίες ως είσοδο

αλλά παρόλα αυτά έχει την ικανότητα να εκτελεί αρκετά δύσκολες εργασίες και να

προσαρµόζεται αντίστοιχα στις εκάστοτε συνθήκες.

Αυτή η ϑεωρία προσφέρει έναν προσεγγιστικό αλλά αποτελεσµατικό τρόπο περι-

γραφής των χαρακτηριστικών ενός συστήµατος το οποίο είναι ιδιαίτερα πολύπλοκο ή

κακώς ορισµένο (ill­defined) για να δεχθεί αυστηρή µαθηµατική ανάλυση. Η Ασαφής

προσέγγιση ϐασίζεται στο συλλογισµό ότι τα ϐασικά στοιχεία της ανθρώπινης σκέψης

δεν είναι απλώς αριθµοί αλλά µπορούν να προσεγγιστούν από πίνακες ασαφών συ-

νόλων, δηλαδή από κλάσεις αντικειµένων στα οποία η µετάβαση από τη συµµετοχή

στη µη συµµετοχή σε µια κλάση είναι ϐαθµιαία παρά απότοµη. ΄Ενα µεγάλο µέρος

της λογικής πίσω από τους ανθρώπινους συλλογισµούς δεν είναι η κλασική δίτιµη

λογική ή ακόµα και η λογική πολλών τιµών αλλά η λογική µε τις ασαφείς αλήθειες,

τις ασαφείς συνδέσεις και τους ασαφείς κανόνες συµπερασµατολογίας. Η ΑΛ παίζει

ένα σηµαντικό ϱόλο σε αρκετές πλευρές της διαδικασίας της ανθρώπινης σκέψης.

Είναι γενικά διαπιστωµένο ότι στα προβλήµατα ταξινόµησης η έννοια των ΑΣ

µπορεί να χρησιµοποιηθεί είτε στο επίπεδο των µεταβλητών (χαρακτηριστικών) είτε

στο επίπεδο της ταξινόµησης. ∆ηλαδή, στο επίπεδο των µεταβλητών µπορούµε να

αναπαραστήσουµε τα δεδοµένα εισόδου ως ένα διάνυσµα µε τιµές συµµετοχής που

δηλώνουν το ϐαθµό κατοχής συγκεκριµένων ιδιοτήτων. Από την άλλη πλευρά, στο

επίπεδο ταξινόµησης τα ασαφή σύνολα χρησιµοποιούνται για την αναπαράσταση

της συµµετοχής των αντικειµένων στις κλάσεις και µπορούν να προσφέρουν µια

εκτίµηση της πληροφορίας των τιµών συµµετοχής που δεν είναι άµεσα διαθέσιµη.

7.2.2 Ασαφή Σύνολα

Στην κλασσική ϑεωρία συνόλων, ένα υποσύνολο A ενός συνόλου X µπορεί να

οριστεί µέσω της χαρακτηριστικής του συνάρτησης χA ως µια απεικόνιση από τα

στοιχεία του X στα στοιχεία του συνόλου 0, 1,

χA : X → 0, 1.

Η παραπάνω απεικόνιση µπορεί να αναπαρασταθεί ως ένα σύνολο διατεταγµένων

Ϲευγών όπου κάθε Ϲεύγος ϑα αντιστοιχεί σε ένα στοιχείο του X . Το πρώτο στοιχείο

Page 122: noimosini sminous

7.2 Ασαφής Λογική 101

του διατεταγµένου Ϲεύγους είναι ένα στοιχείο του X και το δεύτερο είναι ένα στοιχείο

του συνόλου 0, 1. Η τιµή µηδέν δηλώνει τη µη συµµετοχή και η τιµή ένα χρησιµο-

ποιείται για να δηλώσει τη συµµετοχή. Η αλήθεια ή το ψεύδος της πρότασης «Το x

ανήκει στο A» καθορίζεται από το διατεταγµένο Ϲεύγος (x, χA(x)). Η πρόταση είναι

αληθής αν το δεύτερο στοιχείο του Ϲεύγους ισούται µε ένα και ψευδής αν ισούται µε

µηδέν.

΄Οµοια, ένα ασαφές υποσύνολο A ενός συνόλου X µπορεί να οριστεί ως ένα

σύνολο διατεταγµένων Ϲευγών όπου το πρώτο στοιχείο ϑα είναι κάθε ένα από τα

στοιχεία του X και το δεύτερο στοιχείο ϑα είναι ένας πραγµατικός αριθµός στο

διάστηµα [0, 1]. ΄Ετσι ορίζεται µια απεικόνιση uA µεταξύ στοιχείων του συνόλου X και

τιµών του διαστήµατος [0, 1]. Η τιµή µηδέν χρησιµοποιείται για να αναπαραστήσει

ότι το x δεν ανήκει καθόλου στο A, η τιµή ένα για να δηλώσει πλήρη συµµετοχή και

οι τιµές µεταξύ τους αναπαριστούν ενδιάµεσους ϐαθµούς συµµετοχής. Το σύνολο

X καλείται σύνολο αναφοράς (universe of discourse) και η απεικόνιση uA καλείται

ασαφής συνάρτηση συµµετοχής (ΑΣΣ) (fuzzy membership function) του A. Ο ϐαθµός

που η πρόταση «Το x ανήκει στο A» είναι αληθής καθορίζεται από την τιµή της

δεύτερης συνιστώσας του διατεταγµένου Ϲεύγους (x, uA(x)).

Ορισµός 7.1 ΄Εστω X ένα µη κενό σύνολο. ΄Ενα ασαφές υποσύνολο A του X χα-

ϱακτηρίζεται από την συνάρτηση συµµετοχής του

uA(x) : X → [0, 1],

και η uA ερµηνεύεται ως ο ϐαθµός συµµετοχής του στοιχείου x στο ασαφές σύνολο A

για κάθε x ∈ X .

Είναι προφανές ότι το A καθορίζεται πλήρως από το σύνολο των αντίστοιχων Ϲευγών,

A = (x, uA(x))|x ∈ X.

7.2.3 Εφαρµογές της Ασαφούς Λογικής

Η ΑΛ έχει ενσωµατωθεί σε πολλά µοντέλα ταξινόµησης όλων των κατηγοριών. Ο

Looney παρουσιάζει µια γενική µεθοδολογία κατασκευής ενός γενικευµένου ασα-

ϕούς ταξινοµητή χρησιµοποιώντας ασαφή ελλειψοειδή του Epanechnikov σε Νευ-

ϱωνικά ∆ίκτυα µε Συνάρτηση Ακτινωτής Βάσης (Ν∆ΣΑΒ) (Radial Basis Function

Neural Networks) αλλά και ΠΝ∆ [65]. Τα ΠΝ∆ µπορούν να ϑεωρηθούν ως µια ειδι-

κή κατηγορία των Ν∆ΣΑΒ.

Οι Mitra & Basak πρότειναν το Ασαφές Ν∆ΣΑΒ όπου ενσωµατώνει τον ασαφή

αλγόριθµο οµαδοποίησης Fuzzy c–Means αλλά και κάποια επιπλέον στοιχεία της

ϑεωρίας των ΑΣ που επιτρέπουν στο µοντέλο να διαχειριστεί και αριθµητικές αλλά

και κατηγορικές εισόδους [70].

Page 123: noimosini sminous

102 Ασαφή Εξελικτικά Πιθανοτικά Νευρωνικά ∆ίκτυα

Επίσης, οι Mali & Mitra πρότειναν µια ϐελτίωση του ασαφούς Ν∆ΣΑΒ όπου

χρησιµοποιεί τους ασαφείς αλγόριθµους οµαδοποίησης Fuzzy c–Means και Fuzzy

c–Medoids σε ένα συµβολικό πλαίσιο εργασίας [67].

Μια άλλη εκδοχή των Ν∆ΣΑΒ που ϐελτιώνει την αποδοτικότητά τους προτάθηκε

από τους Staiano et al. για προβλήµατα παλινδρόµησης [98]. Η ϐελτίωση επιτυγ-

χάνεται µέσω µια διαδικασίας ασαφούς οµαδοποίησης µε επίβλεψη.

Επιπλέον, µια περιγραφή της συνεισφοράς των ασαφών συνόλων σε προβλήµα-

τα αναγνώρισης προτύπων, επεξεργασίας εικόνας και γενικότερα ευφυίας µηχανών

παρουσιάζεται από τους Mitra & Pal [71].

΄Ενα Ασαφές ΠΝ∆ προτάθηκε από τους Delgosha & Menhaj όπου χρησιµοποιούν

ένα διαφορετικό κριτήριο ϐελτιστοποίησης αντί του ΠΕΤ το οποίο ενσωµατώνει µια

λεία συνάρτηση ποινής για τις λανθασµένες ταξινοµήσεις λαµβάνοντας υπόψη και το

µέγεθος του σφάλµατος [16].

Πολλές άλλες αξιοσηµείωτες προσπάθειες έχουν γίνει έτσι ώστε η ΑΛ να µπορέσει

να ενσωµατωθεί σε γνωστά µοντέλα ταξινόµησης Μια τέτοια προσπάθεια έγινε από

τους Keller & Hunt όπου πρότειναν µια ΑΣΣ και την εισήγαγαν στο αλγόριθµο του

Perceptron [57].

Επιπλέον, ένα Ασαφές Perceptron µε πυρήνες προτάθηκε από τους Chen &

Chen για την κατασκευή ενός ασαφούς ορίου απόφασης που διαχωρίζει δύο κλά-

σεις [14]. Η ΑΣΣ που χρησιµοποιήθηκε είναι η ίδια που προτάθηκε από τους Keller

& Hunt [57].

7.3 Προτεινόµενα Σχήµατα

7.3.1 Προτεινόµενο Σχήµα για δυο κλάσεις

Μια από τις επιθυµητές ιδιότητες που πρέπει να κατέχει ένα µοντέλο ταξινόµησης

µε επίβλεψη είναι η ικανότητα να προσαρµόζει την επίδραση του κάθε διανύσµατος

εκπαίδευσης στην τελική ταξινόµηση. Με άλλα λόγια, διανύσµατα µε υψηλό ϐαθ-

µό αβεβαιότητας για την κλάση στην οποία ανήκουν πρέπει να έχουν µικρότερη

επιρροή στην τελική ταξινόµηση του µοντέλου, ενώ διανύσµατα µε χαµηλό ϐαθµό α-

ϐεβαιότητας πρέπει να επηρεάζουν περισσότερο την ταξινόµηση του µοντέλου. ΄Ενας

τρόπος επίτευξης αυτής της επιθυµητής ιδιότητας είναι να ενσωµατώσουµε µια ΑΣΣ

στο µοντέλο.

Το προτεινόµενο ΠΝ∆ που ϑα παρουσιάσουµε παρακάτω είναι µια επέκταση του

ΒΕΠΝ∆ η οποία ενσωµατώνει την προαναφερθείσα ΑΣΣ των Keller & Hunt [57]. Η

συνάρτηση αυτή περιγράφει το ϐαθµό ϐεβαιότητας ότι µια δοσµένη παρατήρηση α-

νήκει σε κάθε µια από τις προκαθορισµένες κλάσεις ενός προβλήµατος ταξινόµησης.

Η ΑΣΣ προσφέρει ένα τρόπο στάθµισης όλων των διανυσµάτων εκπαίδευσης έτσι ώστε

να επιτευχθεί ένα ακόµα καλύτερο ποσοστό επιτυχούς ταξινόµησης. Με άλλα λόγια,

ϑα σταθµίσουµε τις εξόδους των ΤΝ προτύπων του ΒΕΠΝ∆ µε τις αντίστοιχες τιµές

της ΑΣΣ.

Page 124: noimosini sminous

7.3 Προτεινόµενα Σχήµατα 103

Παρακάτω ϑα παρουσιάσουµε αναλυτικά τον τρόπο λειτουργίας του προτεινό-

µενου µοντέλου το οποίο καλούµε Ασαφές Εξελικτικό Πιθανοτικό Νευρωνικό ∆ί-

κτυο (ΑΕΠΝ∆) [38, 39]. ΄Οπως και στα προηγούµενα κεφάλαια, έστω xik, i =

1, 2, . . . , Nk, k = 1, 2, . . . , K το i–οστό διάνυσµα εκπαίδευσης που προέρχεται από

την κλάση k και ανήκει στο σύνολο εκπαίδευσης Ttr. Καθώς η ΑΣΣ που ϑα χρησιµο-

ποιήσουµε εφαρµόζεται µόνο σε προβλήµατα ταξινόµησης δύο κλάσεων, ϑεωρούµε

αρχικά ότι ο αριθµός των κλάσεων είναι K = 2. ΄Εστω µια ΑΣΣ u(x) ∈ [0, 1] που

ορίζεται :

u(xik) ≡ uik = 0.5 +exp

(

(−1)k [d1(xik)− d2(xik)] λ/d)

− exp(−λ)

2 (exp(λ)− exp(−λ)), (7.1)

όπου Mk, k = 1, 2 είναι το µέσο διάνυσµα της κλάσης k, dk(x) = ‖x−Mk‖ είναι η

απόσταση µεταξύ ενός διανύσµατος χαρακτηριστικών x και του µέσου διανύσµατος

της κλάσης k, d = ‖M1 −M2‖ είναι η απόσταση µεταξύ των δύο µέσων διανυσµά-

των και λ είναι µια σταθερά που ελέγχει το ϱυθµό µε τον οποίο οι ασαφείς τιµές

συµµετοχής ϕθίνουν προς το 0.5 [57].

Οι ασαφείς τιµές συµµετοχής είναι σχεδιασµένες έτσι ώστε αν το διάνυσµα xik

ισούται µε το µέσο της κλάσης k στην οποία ανήκει, να παίρνει την τιµή 1. Επίσης,

αν το διάνυσµα ισούται µε το µέσο διάνυσµα της άλλης κλάσης, τότε η ασαφής τιµή

συµµετοχής ισούται µε 0, 5 που δηλώνει ότι ο συγκεκριµένος ΤΝ προτύπων που έχει

ως κέντρο το xik δεν πρέπει να έχει µεγάλη συνεισφορά στην τελική ταξινόµηση.

Επιπλέον, αν το διάνυσµα ισαπέχει από τους δύο µέσους των κλάσεων, τότε παίρνει

τιµή κοντά στο 0, 5 καθώς δεν µπορεί να µας ϐοηθήσει ιδιαίτερα στην τελική ταξι-

νόµηση. Με άλλα λόγια, όσο ένα διάνυσµα είναι πιο κοντά στο µέσο διάνυσµα της

κλάσης του και πιο µακρυά από το µέσο διάνυσµα της άλλης κλάσης, η τιµή της

ΑΣΣ προσεγγίζει τη µονάδα εκθετικά.

΄Οπως αναφέρθηκε και νωρίτερα, το ΑΕΠΝ∆ ϐασίζεται στο ΒΕΠΝ∆ χωρίς να εν-

σωµατώσουµε την τεχνική bagging. Με άλλα λόγια ϑα ενσωµατώσουµε όλες τις ιδέες

ϐελτίωσης του Κεφαλαίου 5 εκτός της διαδικασίας κατασκευής µιας συστάδας α-

πό ΕΠΝ∆. ∆ηλαδή, ϑα χρησιµοποιήσουµε ένα οµαδοποιηµένο σύνολο εκπαίδευσης

για την κατασκευή του αρχικού ΠΝ∆ και ϑα επιτρέψουµε τη χρήση διαφορετικών

παραµέτρων λείανσης σε κάθε κλάση αλλά και σε κάθε µεταβλητή. Επίσης, ϑα χρη-

σιµοποιήσουµε τη ΒΣΣ για την αναζήτηση των ϐέλτιστων παραµέτρων λείανσης αλλά

και των εκ των προτέρων πιθανοτήτων.

Το πρώτο ϐήµα του προτεινόµενου σχήµατος είναι η κατασκευή ενός οµαδο-

ποιηµένου συνόλου εκπαίδευσης Ttrclεφαρµόζοντας τον αλγόριθµο K-medoids στα

δεδοµένα κάθε κλάσης του Ttr σύµφωνα µε τις οδηγίες που παρουσιάστηκαν στην

Ενότ. 5.3.1. Μετά κατασκευάζουµε ένα ΠΝ∆ ϐάσει του Ttrclδηλαδή τα διανύσµατα

εκπαίδευσης xik, i = 1, 2, . . . , Ntrclk, k = 1, 2 του Ttrclχρησιµοποιούνται ως κέν-

τρα των κανονικών συναρτήσεων πυρήνων των ΤΝ προτύπων. Θεωρούµε πως οι ΤΝ

προτύπων κάθε κλάσης έχουν διαφορετικό διαγώνιο πίνακα παραµέτρων λείανσης

Page 125: noimosini sminous

104 Ασαφή Εξελικτικά Πιθανοτικά Νευρωνικά ∆ίκτυα

Σk, k = 1, 2 όπου κατά τη διαδικασία της αρχικοποίησης παίρνουν τυχαίες τιµές στο

επιτρεπόµενο διάστηµα [sl, su]. Επιπλέον, ϑέτουµε ως εκ των προτέρων πιθανότητες

πk του ΠΝ∆, τις σχετικές συχνότητες των κλάσεων του Ttrcl. ΄Επειτα, υπολογίζουµε

τα κέντρα (µέσους) των δύο κλάσεων M1, M2 καθώς και τη µεταξύ τους απόσταση d.

Μετά, υπολογίζουµε τις ασαφείς τιµές συµµετοχής uik, i = 1, 2, . . . , Ntrclk, k = 1, 2,

για κάθε ένα διάνυσµα χαρακτηριστικών του Ttrclϐάσει της Εξ. (7.1), µε τις οποίες

ϑα σταθµίσουµε τους ΤΝ προτύπων.

Το επόµενο ϐήµα είναι να αναζητήσουµε τις ϐέλτιστες τιµές των παραµέτρων

λείανσης καθώς και των εκ των προτέρων πιθανοτήτων χρησιµοποιώντας τη ΒΣΣ.

Θεωρούµε NP σωµατίδια Zi, i = 1, 2, . . . , NP δηλαδή σηµεία αναζήτησης όπου

κάθε Zi είναι ένα διάνυσµα µε 2 p + 2 συνιστώσες. ∆ηλαδή, το κάθε σωµατίδιο

περιλαµβάνει τις p παραµέτρους λείανσης κάθε µιας από τις δύο κλάσεις καθώς και

τις δύο εκ των προτέρων πιθανότητες. ∆ηλαδή έχουµε

Zi = [σ2i11, σ

2i21, . . . , σ

2ip1, σ2

i12, σ2i22, . . . , σ

2ip2, πi1, πi2]

⊤, i = 1, 2, . . . , NP,

όπου Zi ∈ S και ο χώρος αναζήτησης S της ΒΣΣ ϑα είναι

S = [sl, su]2p × [0, 1]2.

Για να υπολογίσουµε την τιµή της αντικειµενικής συνάρτησης σε κάθε σωµατί-

διο, ϑέτουµε τις συνιστώσες του κάθε σωµατιδίου ως παραµέτρους λείανσης και εκ

των προτέρων πιθανότητες του ΠΝ∆ και υπολογίζουµε το ΠΕΤ στο αρχικό σύνολο

εκπαίδευσης Ttr όπως προτείνεται στην Ενότ. 4.2.1 των ΕΠΝ∆ ΒΣΣ µε µια διαφορά.

Η διαφορά έγκειται στον υπολογισµό των εξόδων των ΤΝ άθροισης και συγκεκριµένα

αντί της Εξ. 2.15 ϑα χρησιµοποιήσουµε τον τύπο

Gk(x) = πk

Ntrclk∑

i=1

uik fik(x), k = 1, 2, (7.2)

όπου πολλαπλασιάζουµε κάθε έξοδο του ΤΝ προτύπων µε την αντίστοιχη ασαφή

τιµή συµµετοχής του στην κάθε κλάση για να ενισχύσουµε ή να µετριάσουµε τη

συνεισφορά του στην τελική ταξινόµηση

΄Ετσι, ακολουθώντας την διαδικασία λειτουργίας του ΕΠΝ∆ ΒΣΣ της Ενότ. 4.2.1,

αλλά χρησιµοποιώντας το παραπάνω σµήνος σωµατιδίων και την προαναφερθείσα

αντικειµενική συνάρτηση που ενσωµατώνει τις ασαφείς τιµές συµµετοχής, µπορούµε

να εκτιµήσουµε τους πίνακες των παραµέτρων λείανσης και τις εκ των προτέρων

πιθανότητες του ΠΝ∆. Στον Πίνακα 7.1 παρουσιάζουµε τα ϐήµατα λειτουργίας του

ΑΕΠΝ∆.

Page 126: noimosini sminous

7.3 Προτεινόµενα Σχήµατα 105

Πίνακας 7.1: Ψευδοκώδικας Λειτουργίας ενός ΑΕΠΝ∆

Είσοδος ΠΝ∆: Σύνολο εκπ. Ttr = (xik, yik), i = 1, 2, . . . , Nk, k = 1, 2, . . . , KΕίσοδος ΒΣΣ: NP , χ, c1, c2, MaxGen, S,V = [Vmin, Vmax]

d.

Εφάρµοσε τον K-Medoids σε κάθε κλάση του Ttr για τον υπολογισµό του Ttrcl.

Κατασκεύασε ένα ΠΝ∆ ϐάσει του Ttrcl.

Υπολόγισε τα κέντρα των κλάσεων M1, M2 και την απόστασή τους d.

For i = 1, Ncl k και k = 1, 2 do:

Υπολόγισε τις ασαφείς τιµές συµµετοχής uik ϐάσει της Εξ. (7.1).

EndFor

Αρχικοποίησε ένα σµήνος σωµατιδίων

Z(0)l = [σ1 1 l, σ1 2 l, . . . , σ1 p l, σ2 1 l, σ2 2 l, . . . , σ2 p l, π1 l, π2 l] , l = 1, 2, . . . , NP .

Αρχικοποίησε τις ταχύτητες του σµήνους, V(0)l , l = 1, 2, . . . , NP στο V.

Αρχικοποίησε τις καλύτερες ϑέσεις BP(0)l και BP

(0)gl

, l = 1, 2, . . . , NP .

For g = 0, MaxGen− 1 do:

For l = 1, NP δο:

Ενηµέρωσε ταχύτητα, V(g+1)l µε χρήση της Εξ. (2.12).

Περιόρισε ταχύτητα V(g+1)l στο V.

Ενηµέρωσε ϑέση σωµατιδίου Z(g+1)l = Z

(g)l + V

(g+1)l .

Περιόρισε ϑέση σωµατιδίου Z(g+1)l στο S.

Θέσε τα Σk και πk από το Z(g+1)l στο ΠΝ∆.

Θέσε Counterl = 0.

For m = 1, Ntr do:

Υπολόγισε την ταξινόµηση Out(m) = arg maxk

(Gk(xm)),

όπου Gk(xm) = πk

∑Ncl k

i=1 uik fik(xm).If (Out(m) 6= Ym) Then Counterl = Counterl + 1.

EndFor

Θέσε h(Z(g+1)l ) = Counterl/Ntr.

Ενηµέρωσε την προσωπική ϐέλτιστη ϑέση BP(g+1)l .

EndFor

Ενηµέρωσε τη ϐέλτ. ϑέση της γειτον. κάθε σωµ. BP(g+1)gl

, l = 1, 2, . . . , NP .

If (Συνθήκη Τερµατισµού) Then Stop.

EndFor

Εκτύπωσε τις ϐέλτιστες παραµέτρους Σk και πk και το αντίστοιχο ΠΕΤ.

7.3.2 Προτεινόµενο Σχήµα για παραπάνω από δυο κλάσεις

΄Οπως αναφέρθηκε νωρίτερα, το προτεινόµενο ΑΕΠΝ∆ µπορεί να εφαρµοστεί µόνο

σε προβλήµατα ταξινόµησης δύο κλάσεων. Για να µπορέσει το νέο σχήµα να απο-

κτήσει ένα µεγαλύτερο εύρος εφαρµογών, προτείνουµε ένα νέο τρόπο εφαρµογής

του σε προβλήµατα ταξινόµησης πολλαπλών κλάσεων χρησιµοποιώντας το ακόλουθο

σχήµα διάσπασης (Σ∆) (decomposition) πολλαπλών κλάσεων.

Υποθέτοντας ότι K > 2, έστω Mk, k = 1, 2, . . . , K το µέσο διάνυσµα κά-

ϑε κλάσης, OM το συνολικό µέσο διάνυσµα όλου του συνόλου εκπαίδευσης και

OMk, k = 1, 2, . . . , K το µέσο διάνυσµα του συνόλου δεδοµένων που απαρτίζεται

Page 127: noimosini sminous

106 Ασαφή Εξελικτικά Πιθανοτικά Νευρωνικά ∆ίκτυα

από παρατηρήσεις όλων των κλάσεων εκτός της k. ∆ηλαδή

Mk =1

Nk

Nk∑

i=1

xik, k = 1, 2, . . . , K, (7.3)

OM =1

K

K∑

k=1

Mk, (7.4)

OMk =1

Ntr −Nk

K∑

l=1l 6=k

Nl∑

i=1

xil, k = 1, 2, . . . , K. (7.5)

Υπολογίζουµε τις Ευκλείδειες αποστάσεις Dk = ‖OM−Mk‖ και D′k = ‖OMk−

Mk‖ για όλες τις κλάσεις και ταξινοµούµε σε ϕθίνουσα σειρά τις K κλάσεις σύµφωνα

µε τη συνολική τους απόσταση ODk = Dk +D′k. ∆ηλαδή, η πρώτη κλάση είναι αυτή

που έχει τη µεγαλύτερη απόσταση από το µέσο διάνυσµα και από τις υπόλοιπες

κλάσεις ώστε να είναι πιο εύκολος ο διαχωρισµός της από τις υπόλοιπες κλάσεις.

΄Ετσι, κατασκευάζεται µια ακολουθία από K−1 ΑΕΠΝ∆ που ϑα χρησιµοποιηθούν

για την τελική ταξινόµηση. ΄Εστω st, t = 1, 2, . . . , K οι δείκτες των ταξινοµηµένων

κλάσεων. Υπενθυµίζουµε ότι το ΑΕΠΝ∆ είναι σχεδιασµένο για προβλήµατα ταξινό-

µησης δύο κλάσεων οπότε για την κατασκευή του πρώτου ΑΕΠΝ∆, ϑα χρησιµοποιή-

σουµε ένα σύνολο εκπαίδευσης που ϑα αποτελείται από τα διανύσµατα της κλάσης

s1 ως κλάση 1 και το υπόλοιπο σύνολο εκπαίδευσης ως κλάση 2. Καθώς αυτό είναι

ένα σύνολο εκπαίδευσης δύο κλάσεων, µπορούµε να χρησιµοποιήσουµε ένα ΑΕΠΝ∆

για να ταξινοµήσουµε τα «άγνωστα» διανύσµατα του συνόλου ελέγχου που ανήκουν

στην κλάση s1. Με άλλα λόγια, το σύνολο ελέγχου για το πρώτο ΑΕΠΝ∆ αποτελείται

µόνο από τα διανύσµατα της κλάσης s1 του αρχικού συνόλου ελέγχου. Με αυτό τον

τρόπο, µπορούµε να καταγράψουµε τον αριθµό των σωστών ταξινοµήσεων (ΑΣΤ) των

διανυσµάτων της κλάσης s1 ως Cs1.

Η διαδικασία αυτή συνεχίζεται και για τις υπόλοιπες κλάσεις st, t = 2, 3, . . . , K−1 και σε κάθε ϐήµα αποκλείουµε τα διανύσµατα των κλάσεων των προηγούµενων

ϐηµάτων sl, l < t για την κατασκευή του τρέχοντος συνόλου εκπαίδευσης ώστε να

υπολογίσουµε τις επιτυχείς ταξινοµήσεις Cst. Στο K−1 ϐήµα όπου έχουν αποµείνει

µόνο δύο κλάσεις, απαιτείται µόνο ένα ΑΕΠΝ∆ το οποίο ϑα κατασκευαστεί ϐάσει ενός

συνόλου εκπαίδευσης που ϑα απαρτίζεται από τα διανύσµατα των κλάσεων sK−1 και

sK και ϑα υπολογίσουµε τις CsK−1και CsK

. Συνεπώς, η τελική επιτυχής ταξινόµηση

είναι το άθροισµα των Cst, t = 1, 2, . . . , K και το αντίστοιχο ΠΕ υπολογίζεται

ΠΕ =

∑Kt=1 Cst

Nte(7.6)

Ο ψευδοκώδικας λειτουργίας του προτεινόµενου σχήµατος διάσπασης πολλα-

πλών κλάσεων παρουσιάζεται στον Πίνακα 7.2.

Page 128: noimosini sminous

7.4 Πειραµατικά Αποτελέσµατα 107

Πίνακας 7.2: Προτεινόµενος αλγόριθµος διάσπασης πολλαπλών κλάσεων

Είσοδος: Σύνολο εκπαίδ. Ttr = (xik, yik), i = 1, 2, . . . , Nk, k = 1, 2, . . . , KΥπολόγισε το µέσο διάνυσµα κάθε κλάσης Mk, k = 1, 2, . . . , K,

ϐάσει της Εξ. (7.3).

Υπολόγισε το συνολικό µέσο διάνυσµα OM ϐάσει της Εξ. (7.4).

Υπολόγισε το συνολικό µέσο διάνυσµα όλων των κλάσεων εκτός της k, OMk

για k = 1, 2, . . . , K ϐάσει της Εξ. (7.5).

Υπολόγισε τις αποστάσεις Dk, D′k και ODk, k = 1, 2, . . . , K.

Ταξινόµησε σε ϕθίνουσα σειρά τις κλάσεις ϐάσει των ODk → sk, k = 1, 2, . . . , K.

For t = 1, K − 2 do:

Κατασκεύασε το σύνολο εκπαίδευσης Ttrt= xist

, 1 ∪ xisl, 2,

όπου l = st+1, st+2, . . . , sK.Κατασκεύασε ένα ΑΕΠΝ∆ ϐάσει του Ttrt

.

Υπολόγισε τον ΑΣΤ των xi,st, i = 1, 2, . . . , Ntest

∈ Tte → Cst.

EndFor

Κατασκεύασε το σύνολο εκπαίδευσης TtrK−1= xisK−1

, 1 ∪ xisK, 2.

Κατασκεύασε ένα ΑΕΠΝ∆ ϐάσει του TtrK−1.

Υπολόγισε τον ΑΣΤ των xi,sK−1, i = 1, 2, . . . , NtesK−1

∈ Tte → CsK−1.

Υπολόγισε τον ΑΣΤ των xi,sK, i = 1, 2, . . . , NtesK

∈ Tte → CsK.

Υπολόγισε το ΠΕ ϐάσει της Εξ. (7.6).

7.4 Πειραµατικά Αποτελέσµατα

Το προτεινόµενο ΑΕΠΝ∆ καθώς και το προτεινόµενο Σ∆ πολλαπλών κλάσεων

εφαρµόστηκαν σε τέσσερα προβλήµατα ταξινόµησης δύο κλάσεων και σε δύο προ-

ϐλήµατα µε περισσότερες από δύο κλάσεις έτσι ώστε να αξιολογήσουµε την αποδο-

τικότητά τους. Η διαδικασία που ακολουθήσαµε είναι ίδια µε αυτή των ΕΠΝ∆ του

Κεφαλαίου 4. ∆ηλαδή, το προτεινόµενο µοντέλο εφαρµόστηκε στα προαναφερθέν-

τα προβλήµατα χρησιµοποιώντας 10 ϕορές διασταυρωµένη δειγµατοληψία δέκατης

τάξης όπου κάθε ϕορά οι παρατηρήσεις κάθε δείγµατος επιλέγονταν τυχαία. Για

να εξουδετερώσουµε την επιρροή των αρχικών τιµών κατά την αρχικοποίηση της

ΒΣΣ, εκπαιδεύουµε το ΑΕΠΝ∆ σε κάθε ένα από τα 100 σύνολα εκπαίδευσης για 5

ϕορές (κάθε ϕορά µε διαφορετικές αρχικές τιµές) και επιλέγουµε το µοντέλο που

αντιστοιχεί στη διάµεσο των 5 ΠΕΤ για την αποφυγή τυχόν ακραίων συµπεριφορών.

Για τη ΒΣΣ χρησιµοποιήθηκαν πάλι οι τυπικές τιµές των παραµέτρων c1 = c2 =

2.05, χ = 0.729 [15], ο αριθµός των σωµατιδίων ήταν NP = 10 και η ΒΣΣ εξελίχθηκε

για το πολύ 100 γενιές, δηλαδή MaxGen = 100. Ο χώρος αναζήτησης της ΒΣΣ,

δηλαδή το επιτρεπόµενο διάστηµα όπου έπαιρναν τιµές τα σωµατίδια, ήταν το διά-

στηµα [0.001, 5.0] για τις παραµέτρους λείανσης και το διάστηµα [0.001, 0.999] για

τις εκ των προτέρων πιθανότητες.

Στον Πίνακα 7.3 παρουσιάζεται η µέση τιµή, η διάµεσος, η τυπική απόκλιση,

η ελάχιστη και η µέγιστη τιµή των ΠΕ των ΑΕΠΝ∆ στο σύνολο ελέγχου για τα 4

προβλήµατα ταξινόµησης δύο κλάσεων. Επιπλέον, στον Πίνακα 7.4 παρουσιάζονται

τα αντίστοιχα αποτελέσµατα για τα προβλήµατα πολλαπλών κλάσεων των ΑΕΠΝ∆

Page 129: noimosini sminous

108 Ασαφή Εξελικτικά Πιθανοτικά Νευρωνικά ∆ίκτυα

µε το Σ∆. Επίσης, παρουσιάζονται και τα αποτελέσµατα ενός αντίστοιχου µοντέλου

µε το ΑΕΠΝ∆ µε Σ∆ αλλά χωρίς την ενσωµάτωση της ΑΣΣ δηλαδή ένα ΒΕΠΝ∆ για

δύο κλάσεις που ενσωµατώνει το Σ∆. Με αυτό τον τρόπο επιδιώκουµε να εξετάσουµε

αν η ενσωµάτωση της ΑΣΣ επιφέρει κάποιο ϑετικό αποτέλεσµα ή όχι στο προτει-

νόµενο Σ∆ για προβλήµατα πολλαπλής ταξινόµησης. Επιπλέον, στους Πίνακες 7.5

και 7.6 παρουσιάζονται τα περιγραφικά στατιστικά µέτρα των απαιτούµενων χρόνων

εκπαίδευσης των αντίστοιχων ΑΕΠΝ∆.

Πίνακας 7.3: Ποσοστά επιτυχίας στο σύνολο ελέγχου των ΑΕΠΝ∆ για προβλήµατα ταξινό-

µησης δύο κλάσεων.

Συν. ∆εδοµ. Μοντέλο Μέσος ∆ιάµεσος Τυπ.Απ. Ελάχ. Μέγ.

Cancer ΑΕΠΝ∆ 97.61 97.56 0.19 97.42 97.85Card ΑΕΠΝ∆ 87.42 87.39 0.28 87.10 87.97Diabetes ΑΕΠΝ∆ 75.09 75.39 0.88 73.59 76.22Heart ΑΕΠΝ∆ 83.01 82.94 0.32 82.72 83.80

Πίνακας 7.4: Ποσοστά επιτυχίας στο σύνολο ελέγχου των ΑΕΠΝ∆ για προβλήµατα ταξινό-

µησης µε περισσότερες από δύο κλάσεις.

Συν. ∆εδοµ. Μοντέλο Μέσος ∆ιάµεσος Τυπ.Απ. Ελάχ. Μέγ.

Glass ΒΕΠΝ∆ µε Σ∆ 75.79 75.73 2.95 72.19 80.93ΑΕΠΝ∆ µε Σ∆ 77.28 77.60 2.74 71.09 81.73

Horse ΒΕΠΝ∆ µε Σ∆ 72.23 72.14 1.89 69.89 74.72ΑΕΠΝ∆ µε Σ∆ 72.78 72.75 1.78 70.19 75.19

Πίνακας 7.5: Χρόνοι Εκπαίδευσης των ΑΕΠΝ∆ σε προβλήµατα ταξινόµησης µε δύο κλάσεις

(sec)

Συν. ∆εδοµ. Μοντέλο Μέσος ∆ιάµεσος Τυπ.Απ. Ελάχ. Μέγ.

Cancer ΑΕΠΝ∆ 8.59 8.56 0.14 8.39 8.82Card ΑΕΠΝ∆ 28.94 28.80 0.47 28.37 29.94Diabetes ΑΕΠΝ∆ 10.03 10.08 0.14 9.79 10.19Heart ΑΕΠΝ∆ 38.00 38.03 0.86 36.81 39.18

Page 130: noimosini sminous

7.5 Συµπεράσµατα 109

Πίνακας 7.6: Χρόνοι Εκπαίδευσης των ΑΕΠΝ∆ σε προβλήµατα ταξινόµησης µε περισσότερες

από δύο κλάσεις (sec)

Συν. ∆εδοµ. Μοντέλο Μέσος ∆ιάµεσος Τυπ.Απ. Ελάχ. Μέγ.

Glass ΒΕΠΝ∆ µε Σ∆ 6.02 6.08 0.31 5.40 6.41ΑΕΠΝ∆ µε Σ∆ 6.17 6.25 0.31 5.68 6.67

Horse ΒΕΠΝ∆ µε Σ∆ 17.61 17.69 0.74 16.50 18.65ΑΕΠΝ∆ µε Σ∆ 17.65 17.74 0.67 16.53 18.48

7.5 Συµπεράσµατα

Συγκρίνοντας τα αποτελέσµατα των ΑΕΠΝ∆ µε τα αντίστοιχα των ΕΠΝ∆ των προη-

γούµενων κεφαλαίων, παρατηρούµε πως στις περισσότερες περιπτώσεις, το προτει-

νόµενο ΑΕΠΝ∆ πέτυχε παρόµοια ή και καλύτερα αποτελέσµατα. Επίσης, ο απαιτού-

µενος χρόνος εκπαίδευσης των ΑΕΠΝ∆ ακόµα και µε το Σ∆ ήταν µικρότερος από τον

αντίστοιχο των Ετ. ΕΠΝ∆ µε ΒΣΣ και ΒΕΠΝ∆ που πέτυχαν παρόµοια αποτελέσµατα.

Επιπλέον, στην περίπτωση που δεν ενσωµατώσουµε τη στάθµιση των ΤΝ προτύπων

µε την ΑΣΣ (ΒΕΠΝ∆ µε Σ∆), παρατηρούµε πως τα αποτελέσµατα είναι υποδεέστερα

έναντι των ΑΕΠΝ∆ µε Σ∆, µε ελάχιστη διαφορά στο χρόνο εκπαίδευσης.

Αρκετά σχήµατα διάσπασης πολλαπλών κλάσεων έχουν προταθεί όπως το ένα–

προς–όλα (1–vs–r) και το ένα–προς–ένα (1–vs–1). Στο (1–vs–r) σχήµα, το πρόβληµα

διασπάται σε ένα σύνολο από K προβλήµατα δύο κλάσεων όπου για κάθε κλάση

k = 1, 2, . . . , K κατασκευάζεται ένας ταξινοµητής που διαχωρίζει µεταξύ των πα-

ϱατηρήσεων της κλάσης k και της σύνθετης κλάσης που αποτελείται από όλες τις

υπόλοιπες κλάσεις. Στο παραπάνω σχήµα, το σύνολο εκπαίδευσης κάθε ταξινοµητή

αποτελείται πάντα από όλες τις παρατηρήσεις όλων των κλάσεων ενώ στο προτεινόµε-

νο Σ∆, σε κάθε ϐήµα αποκλείουµε µια κλάση (εξελικτικά µικρότερο σύνολο εκπαί-

δευσης) και κατασκευάζουµε συνολικά K − 1 ταξινοµητές όπου τελικά έχουµε ένα

πιο γρήγορο σχήµα. Από την άλλη πλευρά, χρησιµοποιώντας το (1–vs–1) σχήµα το

οποίο είναι γνωστό και ως pairwise coupling όπου κατασκευάζεται ένας ταξινοµητής

για κάθε διαφορετικό Ϲευγάρι κλάσεων χρησιµοποιώντας διανύσµατα εκπαίδευσης

µόνο από τις δύο συγκεκριµένες κλάσεις, απαιτούνται συνολικά K(K − 1)/2 ταξι-

νοµητές. Με άλλα λόγια, απαιτείται να κατασκευαστούν K/2 ϕορές περισσότεροι

ταξινοµητές σε σύγκριση µε το προτεινόµενο Σ∆ αν και ϑα πρέπει να αναφέρου-

µε πως στο προτεινόµενο Σ∆ τα σύνολα εκπαίδευσης των πρώτων ϐηµάτων ϑα είναι

µεγαλύτερα και σταδιακά ϑα µειώνονται.

7.6 Συνεισφορά

Στο κεφάλαιο αυτό προτάθηκε ένα µοντέλο ταξινόµησης που ϐασίζεται στο ΒΕ-

ΠΝ∆ αλλά ενσωµατώνει και κάποια ϐασικά στοιχεία της Ασαφούς Λογικής όπως η

Page 131: noimosini sminous

110 Ασαφή Εξελικτικά Πιθανοτικά Νευρωνικά ∆ίκτυα

ΑΣΣ. Συγκεκριµένα, σταθµίζεται η συνεισφορά του κάθε ΤΝ προτύπων ϐάσει µιας

ΑΣΣ η οποία εκτιµά το πόσο µια παρατήρηση είναι αντιπροσωπευτική µιας κλάσης.

Καθώς, το προτεινόµενο ΑΕΠΝ∆ µπορεί να εφαρµοστεί µόνο σε προβλήµατα δύο

κλάσεων, προτείνεται και ένα ευφυές Σ∆ όπου λαµβάνει υπόψη την απόσταση µετα-

ξύ των κέντρων των κλάσεων και δηµιουργεί µια ακολουθία από ΑΕΠΝ∆. ΄Ετσι, το

ΑΕΠΝ∆ µπορεί να εφαρµοστεί και σε προβλήµατα µε περισσότερες από δύο κλάσεις

µε επιτυχία.

Τα προτεινόµενα ΑΕΠΝ∆ πέτυχαν παρόµοια και σε κάποιες περιπτώσεις υψηλό-

τερα ΠΕ σε σχέση µε όλα τα προηγούµενα ΕΠΝ∆ τόσο σε προβλήµατα δύο κλάσεων

όσο και σε προβλήµατα µε περισσότερες κλάσεις. Επίσης, ο χρόνος εκπαίδευσης

τους είναι αρκετά µικρότερος από τα περισσότερα προηγούµενα ΕΠΝ∆.

Page 132: noimosini sminous

Μέρος III

Συµπεράσµατα – Παραρτήµατα –

Βιβλιογραφία – Ευρετήριο

Page 133: noimosini sminous
Page 134: noimosini sminous

Κ Ε Φ Α Λ Α Ι Ο 8

Συγκρίσεις–Συµπεράσµατα

΄Εχοντας πλέον ολοκληρώσει την παρουσίαση των νέων µοντέλων ταξινόµησης

που προτάθηκαν στα προηγούµενα κεφάλαια, στο κεφάλαιο αυτό ϑα προσπαθή-

σουµε να συγκρίνουµε και να κατατάξουµε τα µοντέλα ως προς την αποδοτικότητα

τους. Αρχικά, ϑα συγκρίνουµε τα προτεινόµενα µοντέλα της διατριβής µεταξύ τους

ως προς δύο διαφορετικά κριτήρια. Επιπλέον, έχει πραγµατοποιηθεί µια εκτενής

ϐιβλιογραφική αναζήτηση για το υψηλότερο ποσοστό επιτυχίας (ΠΕ) που έχει επι-

τευχθεί στα έξι προβλήµατα ταξινόµησης που χρησιµοποιήθηκαν, ανεξαρτήτως της

ϕύσης του µοντέλου ταξινόµησης αλλά και του τρόπου διεξαγωγής των πειραµάτων.

Για να επιτευχθεί µια σωστή σύγκριση, εφαρµόστηκαν τα προτεινόµενα ΠΝ∆ σε κάθε

πρόβληµα ταξινόµησης ακολουθώντας τη µεθοδολογία που έχει χρησιµοποιηθεί σε

κάθε άρθρο.

8.1 Σύγκριση προτεινόµενων ΠΝ∆

Στα προηγούµενα κεφάλαια παρουσιάστηκε αναλυτικά η αποδοτικότητα των προ-

τεινόµενων ΠΝ∆, είτε µε τη µορφή περιγραφικών στατιστικών µέτρων των ΠΕ στα σύ-

νολα ελέγχου του κάθε προβλήµατος ταξινόµησης, είτε µε τη γραφική απεικόνιση της

κατανοµής των ΠΕ µε τη χρήση ϑηκογραµµάτων. Αντίστοιχα, παρουσιάστηκαν και

οι απαιτούµενοι χρόνοι εκπαίδευσης των προτεινόµενων ΠΝ∆. Τα προαναφερθέντα

αποτελέσµατα των προηγούµενων κεφαλαίων παρουσιάζονται συνοπτικά στους Πί-

νακες 8.1 και 8.2 έτσι ώστε να είναι πιο εύκολη και άµεση η σύγκριση των µοντέλων

µεταξύ τους.

Ο στόχος µας δεν είναι η σύγκριση των προτεινόµενων µοντέλων σε κάθε πρόβλη-

µα χωριστά αλλά η συνολική σύγκριση σε πολλαπλά πεδία εφαρµογών ταυτόχρονα.

Συνεπώς, ϑα χρησιµοποιηθεί η µεθοδολογία που αναπτύχθηκε στην Ενότητα 3.4.2

όπου για την αρχική συνολική σύγκριση ϑα χρησιµοποιηθεί ο µη παραµετρικός έ-

λεγχος Friedman και για την post hoc ανάλυση ο έλεγχος Nemenyi µε το αντίστοιχο

διάγραµµα κρίσιµης διαφοράς (∆Κ∆). Το πρώτο κριτήριο σύγκρισης ϑα είναι προφα-

νώς το ποσοστό επιτυχούς ταξινόµησης στο σύνολο ελέγχου σε κάθε πρόβληµα όπου

εφαρµόζοντας τον έλεγχο Friedman έχουµε χ2 = 35.99, ϐ.ε. = 13, p–value < 0.001.

∆ηλαδή, συµπεραίνουµε ότι τουλάχιστον ένα από τα 14 προτεινόµενα µοντέλα που

συγκρίνουµε έχει στατιστικά σηµαντική διαφορά από τα υπόλοιπα ως προς το ΠΕ

Page 135: noimosini sminous

114 Συγκρίσεις–Συµπεράσµατα

ελέγχου. Οπότε, πρέπει να προχωρήσουµε σε µια post hoc ανάλυση για να εξετά-

σουµε ποια µοντέλα παρουσιάζουν στατιστικά σηµαντικές διαφορές µεταξύ τους.

Επειδή ο αριθµός των Ϲευγαριών των µοντέλων που πρέπει να εξεταστούν είναι

συνολικά 91 (14 ανά 2), ο οποίος είναι πολύ µεγάλος και η πληροφορία που ϑα προ-

σφέρουν οι αντίστοιχοι έλεγχοι δεν είναι εύκολα αξιοποιήσιµη, ϑα κατασκευάσουµε

ένα ∆Κ∆ όπου ϑα απεικονίζονται οι µέσες κατατάξεις των ΠΝ∆ στα έξι προβλήµατα

ταξινόµησης. Στο Σχήµα 8.1 παρουσιάζεται το ∆Κ∆ των 14 ΠΝ∆ για τα ΠΕ ελέγχου.

Παρατηρούµε πως το ΑΕΠΝ∆ έχει πετύχει τη µεγαλύτερη µέση κατάταξη σε σχέση

µε τα υπόλοιπα ΠΝ∆ και έπειτα ακολουθούν το Ετ.ΕΠΝ∆ και ΒΕΠΝ∆, κάτι το οποίο

ήταν αναµενόµενο σύµφωνα και µε τον συγκεντρωτικό Πίνακα 8.1. Την χειρότερη ε-

πίδοση πέτυχαν τα Cl.Οµ.ΕΠΝ∆ και Cl.Ετ.ΕΠΝ∆ και έπειτα το ΜΠΝ∆ µε τον πυρήνα

του Epanechnikov. Θα πρέπει να σηµειωθεί ότι η ενσωµάτωση της αναζήτησης της

παραµέτρου κ του πυρήνα στη διαδικασία ϐελτιστοποίησης της ΒΣΣ ενίσχυσε αρ-

κετά το µοντέλο και παρατηρούµε ότι το Επ.κ–ΕΜΠΝ∆–ΕΣ πέτυχε την 6 ϑέση στην

κατάταξη ως προς το ΠΕ ελέγχου.

Αν οι µέσες κατατάξεις δύο οποιονδήποτε προς σύγκριση µοντέλων έχουν α-

πόσταση µεγαλύτερη από την κρίσιµη διαφορά, τότε συµπεραίνουµε ότι υπάρχει

στατιστικά σηµαντική διαφορά µεταξύ τους. Με τον τρόπο αυτό επιτυγχάνουµε τις

post hoc συγκρίσεις. Για παράδειγµα, τα µοντέλα από το ΑΕΠΝ∆ µέχρι και το No

Pr. ΒΕΠΝ∆ δεν έχουν στατιστικά σηµαντική διαφορά µεταξύ τους ως προς το ΠΕ

ελέγχου. Υπενθυµίζουµε ότι σε όλους τους ελέγχους και στον υπολογισµό της κρί-

σιµης διαφοράς έχει χρησιµοποιηθεί το προκαθορισµένο επίπεδο σηµαντικότητας

α = 0.05.

Σχήµα 8.1: ∆ιάγραµµα Κρίσιµης ∆ιαφοράς για έλεγχο Nemenyi των ΠΕ ελέγχου

΄Ενα δεύτερο κριτήριο ϐάσει του οποίου ϑα αξιολογήσουµε τα προτεινόµενα ΠΝ∆

είναι ο απαιτούµενος χρόνος εκπαίδευσης κάθε µοντέλου. Σύµφωνα µε τον Πίνακα

8.2 παρατηρούµε πως υπάρχουν αρκετά µεγάλες διαφορές µεταξύ των µοντέλων. Ε-

ϕαρµόζοντας έναν έλεγχο Friedman συµπεραίνουµε ότι τουλάχιστον ένα από τα προς

Page 136: noimosini sminous

8.1 Σύγκριση προτεινόµενων ΠΝ∆ 115

Πίνακας 8.1: Συγκεντρωτικός πίνακας των ΠΕ ελέγχου των προτεινόµενων µοντέλων ταξι-

νόµησης

Συν.∆εδοµ. Cancer Card Diabetes

Μέσος Τυπ.Απ. Μέσος Τυπ.Απ. Μέσος Τυπ.Απ.

Οµ.ΕΠΝ∆ 95.82 0.28 85.35 0.38 67.67 0.88Ετ. ΕΠΝ∆ 95.32 0.57 87.67 0.51 69.37 0.80Cl. Οµ. ΕΠΝ∆ 90.50 1.58 82.02 1.15 65.35 0.48Cl. Ετ. ΕΠΝ∆ 87.89 1.74 85.20 0.97 69.30 1.59No Pr.ΒΕΠΝ∆ 96.62 0.26 86.64 0.51 70.78 1.14ΒΕΠΝ∆ 97.15 0.28 86.83 0.34 71.22 1.00Επ.ΜΠΝ∆ 96.39 0.18 80.58 1.03 73.90 1.16Επ.ΜΠΝ∆–ΕΣ 96.53 0.22 82.83 0.89 71.68 1.08Γκ.ΜΠΝ∆ 96.36 0.22 84.93 0.25 74.21 0.93Γκ.ΜΠΝ∆–ΕΣ 96.51 0.14 86.21 0.54 72.93 1.50Γκ.ΕΜΠΝ∆ 96.75 0.22 84.84 0.76 66.79 0.56Γκ.ΕΜΠΝ∆–ΕΣ 96.75 0.17 84.64 0.66 73.88 0.53Επ.κ–ΕΜΠΝ∆–ΕΣ 96.55 0.24 85.90 0.57 74.64 1.18ΑΕΠΝ∆ 97.61 0.19 87.42 0.28 75.09 0.88

Συν. ∆εδοµ. Glass Heart Horse

Μέσος Τυπ.Απ. Μέσος Τυπ.Απ. Μέσος Τυπ.Απ.

Οµ.ΕΠΝ∆ 68.52 1.55 81.50 0.27 66.54 0.79Ετ.ΕΠΝ∆ 75.36 1.77 82.60 0.40 68.48 0.97Cl. Οµ. ΕΠΝ∆ 54.04 3.61 79.96 0.56 61.81 0.77Cl. Ετ. ΕΠΝ∆ 47.25 2.75 77.62 1.16 58.89 1.51No Pr. ΒΕΠΝ∆ 52.63 7.17 82.28 0.62 63.96 1.55ΒΕΠΝ∆ 49.38 3.16 82.35 1.05 63.87 1.40Επ.ΜΠΝ∆ 52.42 2.18 72.26 0.48 61.49 0.36Επ.ΜΠΝ∆–ΕΣ 55.30 1.28 73.32 0.48 61.46 0.36Γκ.ΜΠΝ∆ 58.11 1.47 80.46 0.69 60.10 2.32Γκ.ΜΠΝ∆–ΕΣ 59.48 2.86 81.60 0.65 59.88 2.23Γκ.ΕΜΠΝ∆ 63.25 2.24 82.11 0.66 63.25 1.52Γκ.ΕΜΠΝ∆–ΕΣ 63.61 1.82 81.82 1.06 63.65 1.95Επ.κ–ΕΜΠΝ∆–ΕΣ 54.82 2.09 81.82 1.06 61.39 1.18ΒΕΠΝ∆ µε Σ∆ 75.79 2.95 – – 72.23 1.89ΑΕΠΝ∆ 77.28 2.74 83.01 0.32 72.78 1.78

σύγκριση µοντέλα έχει στατιστικά σηµαντική διαφορά από τα υπόλοιπα (χ2 = 53.83,

ϐ.ε. = 13, p–value < 0.001). Ακολουθώντας την ίδια διαδικασία, κατασκευάζουµε

ένα ∆Κ∆ σύµφωνα µε τον έλεγχο Nemenyi το οποίο απεικονίζεται στο Σχήµα 8.2. Πα-

ϱατηρούµε ότι τα πιο χρονοβόρα ως προς την εκπαίδευση µοντέλα είναι το Ετ.ΕΠΝ∆

και οι δύο εκδοχές των ΕΜΠΝ∆–ΕΣ. Βέβαια, το Ετ.ΕΠΝ∆ έχει πετύχει µερικές από

τις καλύτερες επιδόσεις ως προς το ΠΕ µεταξύ των προτεινόµενων ΠΝ∆. Τα πιο γρή-

γορα ως προς την εκπαίδευση µοντέλα είναι τα Cl.ΕΠΝ∆ τα οποία όµως δεν πέτυχαν

αρκετά ικανοποιητικά αποτελέσµατα σε σχέση τα υπόλοιπα ΠΝ∆. Αξίζει να σηµειωθεί

Page 137: noimosini sminous

116 Συγκρίσεις–Συµπεράσµατα

ότι το ΑΕΠΝ∆ απαιτεί αρκετά µικρό χρόνο εκπαίδευσης ενώ παράλληλα πετυχαίνει

πολύ υψηλά ΠΕ στο σύνολο ελέγχου.

Σχήµα 8.2: ∆ιάγραµµα Κρίσιµης ∆ιαφοράς για έλεγχο Nemenyi των χρόνων εκπαίδευσης

΄Ενα επιθυµητό µοντέλο ταξινόµησης πρέπει να εκπαιδεύεται σε ένα εύλογο χρο-

νικό διάστηµα και να πετυχαίνει αρκετά ικανοποιητικά ΠΕ. ΄Ενας τρόπος για να

συνδυαστούν τα δύο αυτά κριτήρια είναι η κατασκευή ενός διαγράµµατος διασπο-

ϱάς των µέσων κατατάξεων των ΠΕ ελέγχου και των χρόνων εκπαίδευσης όπως αυτό

παρουσιάζεται στο Σχήµα 8.3. ∆ηλαδή κάθε σηµείο του γραφήµατος αντιστοιχεί σε

ένα προτεινόµενο µοντέλο και συγκεκριµένα η τετµηµένη είναι η µέση κατάταξη των

χρόνων εκπαίδευσης και η τεταγµένη είναι η µέση κατάταξη των ΠΕ ελέγχου. Με άλ-

λα λόγια, το ιδανικό µοντέλο είναι αυτό που έχει µικρή τιµή στον οριζόντιο άξονα και

µεγάλη τιµή στον κατακόρυφο. Από το σχήµα παρατηρούµε πως το καλύτερο µοντέ-

λο το οποίο συνδυάζει αρκετά ικανοποιητικές επιδόσεις και στα δύο κριτήρια είναι

το ΑΕΠΝ∆. Επίσης, τα Cl.Οµ.ΕΠΝ∆ και Cl.Ετ.ΕΠΝ∆ έχουν πολύ καλούς χρόνους

εκπαίδευσης αλλά δυστυχώς τα ΠΕ που πέτυχαν είναι τα χαµηλότερα σε σύγκριση

µε τα υπόλοιπα µοντέλα.

Εξετάζοντας πιο προσεκτικά τα παραπάνω στοιχεία, µπορούµε να παρατηρήσου-

µε ότι τα ΜΠΝ∆ πέτυχαν αρκετά ικανοποιητικά αποτελέσµατα τόσο σε ταξινόµηση

όσο και σε χρόνο εκπαίδευσης στα προβλήµατα δύο κλάσεων ενώ στα προβλήµατα

ταξινόµησης µε παραπάνω από δύο κλάσεις όπως το Glass και το Horse οι επιδόσεις

τους δεν ήταν ιδιαίτερα ικανοποιητικές.

΄Ενα άλλο ενδιαφέρον στοιχείο είναι ότι στην περίπτωση που χρησιµοποιηθεί ένα

οµαδοποιηµένο σύνολο εκπαίδευσης σε ένα ΕΠΝ∆, ο χρόνος εκπαίδευσης µειώνεται

σε µεγάλο ϐαθµό σε σχέση µε το ΕΠΝ∆ που χρησιµοποιεί όλο το σύνολο εκπαίδευσης

αλλά το ΠΕ ελέγχου που πετυχαίνει είναι συνήθως αρκετά χαµηλότερο. Με άλλα

λόγια, απαιτούνται επιπλέον ϐελτιώσεις στα Cl.Οµ.ΕΠΝ∆ και Cl.Ετ.ΕΠΝ∆ όπως αυτές

που προτάθηκαν στα υπόλοιπα µοντέλα για να επιτύχει υψηλότερα ΠΕ ελέγχου.

∆ηλαδή, η τεχνική bagging, η Μπεϋζιανή ανάλυση καθώς και η ασαφής λογική

Page 138: noimosini sminous

8.2 Σύγκριση ΠΝ∆ µε ϐέλτιστα µοντέλα ταξινόµησης 117

Πίνακας 8.2: Συγκεντρωτικός πίνακας χρόνων εκπαίδευσης των προτεινόµενων µοντέλων

ταξινόµησης

Συν.∆εδοµ. Cancer Card Diabetes

Μέσος Τυπ.Απ. Μέσος Τυπ.Απ. Μέσος Τυπ.Απ.

Οµ.ΕΠΝ∆ 89.12 1.07 266.10 74.56 101.17 0.48Ετ. ΕΠΝ∆ 171.78 1.07 521.60 142.74 195.27 0.92Cl. Οµ. ΕΠΝ∆ 0.16 0.02 0.49 0.06 0.16 0.02Cl. Ετ. ΕΠΝ∆ 0.32 0.06 0.66 0.14 0.32 0.06No Pr.ΒΕΠΝ∆ 82.78 8.86 309.85 1.88 82.78 8.86ΒΕΠΝ∆ 90.01 0.92 309.73 2.62 90.01 0.92Επ.ΜΠΝ∆ 21.40 0.06 193.86 1.37 25.18 0.64Επ.ΜΠΝ∆–ΕΣ 24.39 0.07 203.71 1.42 28.61 0.81Γκ.ΜΠΝ∆ 27.74 1.08 215.39 1.24 25.18 1.09Γκ.ΜΠΝ∆–ΕΣ 31.62 1.33 229.49 1.37 29.62 1.51Γκ.ΕΜΠΝ∆ 41.12 0.69 223.64 20.04 37.82 0.76Γκ.ΕΜΠΝ∆–ΕΣ 65.04 2.91 350.22 45.94 49.92 1.18Επ.κ–ΕΜΠΝ∆–ΕΣ 62.36 3.59 354.45 34.93 56.29 1.42ΑΕΠΝ∆ 8.59 0.14 28.94 0.47 10.03 0.14

Συν. ∆εδοµ. Glass Heart Horse

Μέσος Τυπ.Απ. Μέσος Τυπ.Απ. Μέσος Τυπ.Απ.

Οµ.ΕΠΝ∆ 9.16 0.65 223.28 4.28 76.10 7.97Ετ.ΕΠΝ∆ 17.21 0.76 438.10 6.82 169.92 23.39Cl. Οµ. ΕΠΝ∆ 0.21 0.01 0.67 0.08 0.37 0.02Cl. Ετ. ΕΠΝ∆ 0.45 0.01 1.37 0.16 0.76 0.03No Pr. ΒΕΠΝ∆ 37.55 1.15 394.49 5.93 96.50 0.71ΒΕΠΝ∆ 48.62 1.22 393.22 4.95 95.39 0.58Επ.ΜΠΝ∆ 110.65 0.24 88.26 0.47 350.23 0.79Επ.ΜΠΝ∆–ΕΣ 111.58 0.24 104.54 0.72 355.36 0.77Γκ.ΜΠΝ∆ 110.80 0.16 88.55 0.38 349.62 0.83Γκ.ΜΠΝ∆–ΕΣ 112.02 0.16 106.71 0.56 355.53 0.81Γκ.ΕΜΠΝ∆ 121.90 10.88 158.79 14.25 377.45 44.05Γκ.ΕΜΠΝ∆–ΕΣ 231.84 9.72 160.80 9.40 778.62 34.27Επ.κ–ΕΜΠΝ∆–ΕΣ 253.30 9.47 151.42 8.70 797.52 6.54ΒΕΠΝ∆ µε Σ∆ 6.02 0.31 – – 17.61 0.74ΑΕΠΝ∆ 6.17 0.31 38.00 0.86 17.65 0.67

ενίσχυσαν την αποδοτικότητα των ΠΝ∆ χωρίς να αυξάνουν τον απαιτούµενο χρόνο

εκπαίδευσης τους στις περισσότερες περιπτώσεις.

8.2 Σύγκριση ΠΝ∆ µε ϐέλτιστα µοντέλα ταξινόµησης

Οι συγκρίσεις που πραγµατοποιήθηκαν µέχρι τώρα αφορούσαν µόνο τις παραλ-

λαγές των ΠΝ∆ µεταξύ τους. Βέβαια, εκτός από τα ΠΝ∆ υπάρχει και µια µεγάλη

Page 139: noimosini sminous

118 Συγκρίσεις–Συµπεράσµατα

Σχήµα 8.3: ∆ιάγραµµα διασποράς των µέσων κατατάξεων των ποσοστών επιτυχίας και χρό-

νων εκπαίδευσης

πληθώρα από µοντέλα ταξινόµησης τα οποία µπορούν να εφαρµοστούν ή έχουν ή-

δη εφαρµοστεί, από άλλους ερευνητές, στα προβλήµατα ταξινόµησης µε τα οποία

ασχοληθήκαµε. Μια συνηθισµένη τακτική ϑα ήταν να παραθέσουµε τα αποτελέσµα-

τα µερικών κλασικών µοντέλων ταξινόµησης ώστε συγκρίνοντάς τα µε τα αντίστοιχα

αποτελέσµατα των ΠΝ∆ να αποκτήσουµε µια ιδέα για τις δυνατότητές τους. Το ερώ-

τηµα που ακολουθεί είναι ποια µοντέλα πρέπει να συµπεριλάβουµε στη σύγκριση.

Η διαδικασία που ακολουθήσαµε ήταν να αναζητήσουµε στη ϐιβλιογραφία ποιο µο-

ντέλο ταξινόµησης έχει πετύχει το µεγαλύτερο ΠΕ ελέγχου σε κάθε ένα πρόβληµα

ταξινόµησης ανεξάρτητα από τη µέθοδο δειγµατοληψίας που χρησιµοποίησε. Τα α-

ποτελέσµατα των ϐέλτιστων µοντέλων µετά από µια εκτενή ϐιβλιογραφική αναζήτηση

παρουσιάζονται στον Πίνακα 8.3.

Για το σύνολο δεδοµένων Cancer το καλύτερο αποτέλεσµα επιτεύχθηκε από έ-

να Perceptron πολλαπλών επιπέδων (Multilayer Perceptron, MLP) το οποίο εκπαι-

δεύτηκε από έναν υβριδικό αλγόριθµο που συνδυάζει τον αλγόριθµο Levenberg–

Marquardt και γενετικούς αλγόριθµους (GA­LM) [1]. Το υψηλότερο ΠΕ στο πρό-

ϐληµα Card πέτυχε µια συστάδα από Immune δίκτυα (Immune Network Ensemble)

όπου κάθε αντιγόνο αναπαριστά µια µη γραµµική προβολή (Non Linear Projection,

NLP) [35]. Στο πρόβληµα Diabetes η καλύτερη επίδοση επιτεύχθηκε από ένα Νευ-

Page 140: noimosini sminous

8.3 Συνεισφορά 119

ϱωνικό ∆ίκτυο µε χρήση της AdaBoost (AdaB.) και από µια συστάδα από Immune

δίκτυα όπου κάθε αντιγόνο χρησιµοποιεί τη Μέθοδο Τυχαίου Υποχώρου (Random

Subspace Method, RSM) [1]. ΄Ενας Ακολουθιακός Ταξινοµητής Πολλαπλών κατηγο-

ϱιών (Sequential Multi–category Classifier, SMC) που χρησιµοποιεί δίκτυα Συναρ-

τήσεων Ακτινωτής Βάσης (Radial Basis Function, RBF) πέτυχε το υψηλότερο απο-

τέλεσµα για το πρόβληµα Glass [102]. Το µεγαλύτερο ΠΕ ελέγχου για το πρόβληµα

Heart επιτεύχθηκε από ένα MLP του οποίου τα ϐάρη και οι συνδέσεις (τοπολογία)

εξελίσσονται παράλληλα από έναν γενετικό αλγόριθµο (GA MLP) [75]. Τέλος, στο

σύνολο δεδοµένων Horse, το καλύτερο αποτέλεσµα πέτυχε ένα ΤΝ∆ που εκπαιδεύ-

τηκε από έναν γενετικό αλγόριθµο και χρησιµοποιήθηκε µια διαδικασία επιλογής

χαρακτηριστικών [90].

Παρατηρώντας προσεκτικά τον Πίνακα 8.3 µπορούµε να συµπεράνουµε ότι τα

προτεινόµενα ΠΝ∆ πέτυχαν επιδόσεις αρκετά κοντά στις ϐέλτιστες και συγκεκριµένα

στο πρόβληµα Glass το ΒΕΠΝ∆ µε Σ∆ ξεπέρασε και το µέχρι τώρα ϐέλτιστο ΠΕ.

8.3 Συνεισφορά

Στην παρούσα διατριβή µελετήθηκαν και αναπτύχθηκαν νέα µοντέλα ταξινόµη-

σης τα οποία συνδυάζουν στοιχεία και µεθόδους της Στατιστικής και της Υπολογι-

στικής Νοηµοσύνης. Βασισµένοι σε ένα απλό και αποδοτικό µοντέλο, το Πιθανοτικό

Νευρωνικό ∆ίκτυο, ενσωµατώσαµε διάφορες τεχνικές για την ϐελτίωση της αποδοτι-

κότητάς του όπως η τεχνική Bagging, η Μπεϋζιανή Ανάλυση και τα Ασαφή Σύνολα.

Η ϐελτίωση της αποδοτικότητας που επιτεύχθηκε ήταν ως προς την επιτυχή ταξι-

νόµηση αλλά και ως προς τον απαιτούµενο χρόνο εκπαίδευσης. Τα προτεινόµενα

µοντέλα που πέτυχαν περισσότερο ικανοποιητικά αποτελέσµατα σε σχέση µε τα υ-

πόλοιπα είναι το Ασαφές ΠΝ∆ και το Ετεροσκεδαστικό Εξελικτικό ΠΝ∆ χωρίς ϐέβαια

να µειώνεται η αξία των υπολοίπων. Σύµφωνα µε το No Free Lunch Theorem πάντα

ϑα υπάρχει ένα πρόβληµα στο οποίο κάποιο υποδεέστερο µοντέλο ϑα ξεπεράσει σε

επίδοση το µέχρι εκείνη τη στιγµή επικρατέστερο.

Επιπλέον, πραγµατοποιήθηκε µια εκτενής µελέτη πάνω στη στατιστική συµπε-

ϱασµατολογία για τις συγκρίσεις των µοντέλων ταξινόµησης είτε για ένα είτε για

πολλαπλά πεδία εφαρµογών. Οι συγκρίσεις αυτές απαιτούν ιδιαίτερη προσοχή διό-

τι χρησιµοποιούνται εξειδικευµένες τεχνικές δειγµατοληψίας για την εκτίµηση της

τιµής του κριτηρίου σύγκρισης το οποίο είναι συνήθως το ΠΕ στο σύνολο ελέγχου.

΄Ετσι η µεθοδολογία που παρουσιάζεται ως πιο αξιόπιστη είναι αρχικά η χρήση του

ελέγχου Friedman και στη ϕάση της post hoc ανάλυσης, η χρήση του ελέγχου Ne­

menyi και του διαγράµµατος της κρίσιµης διαφοράς.

Page 141: noimosini sminous

120 Συγκρίσεις–Συµπεράσµατα

Πίνακας 8.3: ΠΕ ελέγχου των ϐέλτιστων και των προτεινόµενων µοντέλων ταξινόµησης

Συν.∆εδοµ. Cancer1 Card Diabetes

Μέσος Τυπ.Απ. Μέσος Τυπ.Απ. Μέσος Τυπ.Απ.

Οµ.ΕΠΝ∆ 96.21 0.31 86.36 1.10 73.28 2.14Ετ.ΕΠΝ∆ 96.58 0.45 88.56 1.33 76.25 1.94Νο Pr.ΒΕΠΝ∆ 98.07 0.46 88.09 1.37 73.70 2.38ΒΕΠΝ∆ 98.95 0.38 87.51 1.13 73.23 3.14Επ.ΜΠΝ∆ 97.70 – 55.38 1.89 75.83 1.82Επ.ΜΠΝ∆ 97.71 0.08 55.32 1.91 73.54 2.32Γκ.ΜΠΝ∆–ΕΣ 97.70 – 84.57 1.49 76.77 1.39Γκ.ΜΠΝ∆–ΕΣ 98.28 0.12 83.87 0.69 75.37 2.39Γκ.ΕΜΠΝ∆ 97.43 0.29 84.28 1.44 72.24 2.97Γκ.ΕΜΠΝ∆–ΕΣ 97.52 0.29 84.40 1.68 74.69 1.61Επ.κ–ΕΜΠΝ∆–ΕΣ 97.07 0.55 86.24 1.70 70.73 3.77ΑΕΠΝ∆ 98.35 0.56 87.98 1.24 75.57 1.72Βέλτιστο Μοντέλο 99.98 0.11 90.30 – 80.00 –

Αναφορά GALM [1] NLP [35] AdaB. & RSM [35]

Συν. ∆εδοµ. Glass Heart1 Horse1

Μέσος Τυπ.Απ. Μέσος Τυπ.Απ. Μέσος Τυπ.Απ.

Οµ.ΕΠΝ∆ 56.19 – 81.30 – 71.43 0.52Ετ.ΕΠΝ∆ 68.57 – 80.95 0.36 69.01 1.62Νο Pr.ΒΕΠΝ∆ 64.76 – 80.52 1.04 72.53 1.72ΒΕΠΝ∆ 57.14 – 80.43 0.87 71.98 1.49Επ.ΜΠΝ∆ 50.48 – 76.52 – 67.03 –

Επ.ΜΠΝ∆–ΕΣ 60.95 – 78.52 0.50 67.03 –

Γκ.ΜΠΝ∆ 55.24 – 80.00 – 64.84 –

Γκ.ΜΠΝ∆–ΕΣ 73.33 – 80.43 0.44 67.80 1.80Γκ.ΕΜΠΝ∆ 60.95 – 78.52 0.59 71.21 0.46Γκ.ΕΜΠΝ∆–ΕΣ 60.95 – 78.52 0.39 71.32 1.21Επ.κ–ΕΜΠΝ∆–ΕΣ 50.48 – 77.57 0.24 66.70 0.53ΒΕΠΝ∆ µε Σ∆ 80.00 – – – 75.27 1.81ΑΕΠΝ∆ 71.43 – 78.26 2.11 77.25 3.20Βέλτιστο Μοντέλο 78.09 – 84.23 3.43 80.22 –

Αναφορά SMC­RBF [102] GA MLP [75] GenAlg NN [90]

Page 142: noimosini sminous

Π Α Ρ Α Ρ Τ Η Μ Α A

Προβλήµατα Ταξινόµησης

Στην παρούσα διατριβή έχουν χρησιµοποιηθεί τα παρακάτω έξι σύνολα δεδοµέ-

νων που προέρχονται από πραγµατικά προβλήµατα ταξινόµησης. Τα συγκεκριµένα

προβλήµατα είναι καταχωρηµένα στη ϐάση δεδοµένων για προβλήµατα µηχανικής

µάθησης UCI [3]. Από τη ϐάση UCI έχει προκύψει η ϐάση δεδοµένων Proben1

η οποία αποτελεί µια συλλογή από σύνολα δεδοµένων για εκπαίδευση νευρωνι-

κών δικτύων σε προβλήµατα ταξινόµησης προτύπων (pattern classification) και σε

προβλήµατα προσέγγισης συναρτήσεων (function approximation) [80]. Τα σύνολα

δεδοµένων παρουσιάζονται όλα µε την ίδια απλή µορφή χρησιµοποιώντας µια ανα-

παράσταση χαρακτηριστικών (attributes) η οποία µπορεί να χρησιµοποιηθεί άµεσα

και εύκολα για εκπαίδευση νευρωνικών δικτύων. Τα δεδοµένα είναι µετασχηµατι-

σµένα µε γραµµικό τρόπο στο διάστηµα [−1, 1] ή στο [0, 1] και δεν υπάρχουν ελ-

λειπούσες (missing) τιµές. Θα πρέπει να σηµειωθεί ότι δεν έχει χρησιµοποιηθεί η

µεθοδολογία που προτείνει ο Prechelt [80] για την εφαρµογή των µεθόδων ταξινό-

µησης στα προβλήµατα που περιλαµβάνονται στη ϐάση δεδοµένων Proben1, καθώς

έχουν προταθεί νεώτερες και ακριβέστερες µεθοδολογίες, ιδιαίτερα ως προς τη στα-

τιστική συµπερασµατολογία των αλγορίθµων [10,17,73]. Τα στοιχεία των συνόλων

δεδοµένων παρουσιάζονται συνοπτικά στον κατωτέρω πίνακα και δίνονται αναλυτικά

παρακάτω.

΄Ονοµα Παρατηρήσεις Μεταβλητές Κλάσεις

Cancer 699 9 2

Card 690 51 2

Diabetes 768 8 2

Glass 214 9 6

Heart 920 35 2

Horse 364 58 3

Πίνακας Α.1: Συνοπτικά στοιχεία των συνόλων δεδοµένων

Page 143: noimosini sminous

122 Προβλήµατα Ταξινόµησης

Α.1 Cancer

∆ιάγνωση καρκίνου του µαστού

Στο σύνολο δεδοµένων Cancer, στόχος είναι να ϐρεθεί µια µέθοδος ταξινόµησης

που να προβλέπει αν ένας όγκος στο µαστό είναι καλοήθης ή κακοήθης, ϐασισµένη

σε κυτταρική εξέταση µε µικροσκόπιο. Εδώ έχουµε δύο κλάσεις ταξινόµησης. Ε-

πίσης υπάρχουν 9 µετρήσεις όπως η οµοιοµορφία του µεγέθους και του σχήµατος

των κυττάρων, το µέγεθος του (marginal adhesion) και η συχνότητα των bare nuclei.

Οι µεταβλητές αυτές παίρνουν τιµές από 1 έως 10 και υπάρχουν µετρήσεις για 699

άτοµα εκ των οποίων το 65.5% είχε καλοήθη όγκο. Το Cancer προέρχεται από τη

ϐάση δεδοµένων για τον καρκίνο του µαστού των νοσοκοµείων του πανεπιστηµίου

του Wisconsin, Madison, ΗΠΑ και προσφέρθηκαν από τους Dr. W. H. Wolberg και

O. Mangasarian [68]

Α.2 Card

Πρόβλεψη έγκρισης ή απόρριψης έκδοσης πιστωτικής κάρτας

Κάθε παρατήρηση του συνόλου δεδοµένων Card αντιστοιχεί σε µια πραγµατική

αίτηση για έκδοση πιστωτικής κάρτας από µια τράπεζα και ο στόχος είναι να προ-

ϐλεφθεί αν η τράπεζα ϑα εγκρίνει την αίτηση ή όχι. Υπάρχουν 51 µεταβλητές στο

σύνολο δεδοµένων αλλά τα ονόµατα των µεταβλητών δεν είναι διαθέσιµα για λόγους

προστασίας των προσωπικών δεδοµένων. Από τα 690 άτοµα, στο 44% έγινε αποδεκτή

η αίτηση για έκδοση πιστωτικής κάρτας..

Α.3 Diabetes

∆ιάγνωση διαβήτη στους Ινδιάνους Πίµα

Ο στόχος του συνόλου δεδοµένων Diabetes είναι να διαγνώσει εάν ένα άτοµο από

τους Ινδιάνους Πίµα είναι ϑετικό στο διαβήτη, ϐάσει προσωπικών δεδοµένων που

είναι η ηλικία τους, οι ιατρικές τους εξετάσεις όπως πίεση αίµατος, δείκτης µάζας

σώµατος, εξέταση γλυκόζης κ.α. Ο αριθµός των µεταβλητών είναι 8 και υπάρχουν

µετρήσεις για 768 άτοµα εκ των οποίων το 65.1% ήταν αρνητικό στο διαβήτη. Αυτό

το σύνολο δεδοµένων κατασκευάστηκε ϐάσει του ‘Pima Indians Diabetes’ συνόλου

δεδοµένων από τη ϐάση δεδοµένων UCI [3].

Α.4 Glass

Ταξινόµηση ειδών γυαλιού

Τα αποτελέσµατα µιας χηµικής ανάλυσης ϑραυσµάτων γυαλιού και ο δείκτης

διάθλασής τους χρησιµοποιούνται για να ταξινοµήσουν ένα ϑραύσµα γυαλιού σε

6 κατηγορίες. Στη χηµική ανάλυση µετράται η περιεκτικότητα των ϑραυσµάτων

Page 144: noimosini sminous

Α.5 Heart 123

γυαλιού σε νάτριο, µαγνήσιο, άργιλο, πυρίτιο, κάλιο, ασβέστιο, ϐάριο και σίδηρο

και οι κατηγορίες στις οποίες ταξινοµούνται τα ϑραύσµατα είναι : επεξεργασµένα

(float processed) και µη επεξεργασµένα παράθυρα κτηρίων, παράθυρα αυτοκινή-

των, επιτραπέζια γυάλινα σκεύη, γυάλινα δοχεία µεταφοράς και γυαλιά προβολέων

αυτοκινήτου. Συγκεκριµένα υπάρχουν 214 ϑραύσµατα γυαλιού για τα οποία έχουµε

τις παραπάνω 9 µετρήσεις. Το κίνητρο για την κατασκευή του συνόλου δεδοµένων

αυτού ήταν η ανάγκη εκτίµησης της προέλευσης ϑραυσµάτων γυαλιού σε εγκληµα-

τολογικές έρευνες. Αυτά τα δεδοµένα προέρχονται από το σύνολο δεδοµένων ‘‘glass’’

της UCI [3].

Α.5 Heart

Πρόβλεψη καρδιακού νοσήµατος

Ο στόχος µας εδών είναι να αποφανθούµε αν η διάµετρος τουλάχιστον µιας α-

πό τις τέσσερις κεντρικές αρτηρίες της καρδιάς έχει µειωθεί περισσότερο από 50%.

Το σύνολο δεδοµένων περιγράφεται από µεταβλητές όπως η ηλικία, το ϕύλο, οι

συνήθειες καπνίσµατος, η περιγραφή ϐαθµού πόνου καθώς και τα αποτελέσµατα

διαφόρων ιατρικών εξετάσεων όπως πίεση αίµατος, µέγιστοι σφυγµοί και ηλεκτρο-

καρδιογράφηµα. Υπάρχουν 35 µεταβλητές για 920 ασθενείς όπου ταξινοµούνται σε

δύο κλάσεις σύµφωνα µε το αν έχουν καρδιακό νόσηµα ή όχι. Το 45% δεν έχει µεί-

ωση σε καµία από τις καρδιακές αρτηρίες. Το σύνολο δεδοµένων Heart προέρχεται

από την ένωση 4 συνόλων δεδοµένων από τα Clinical Clinic Foundation, Hungarian

Institute of Cardiology, V.A. Medical Center Long Beach και University Hospital

Zurich. Και αυτό το σύνολο δεδοµένων προέρχεται από το σύνολο δεδοµένων ‘‘heart’’

της UCI [3].

Α.6 Horse

Πρόβλεψη της κατάληξης ενός αλόγου που πάσχει από κολικό

Τα αποτελέσµατα µιας κτηνιατρικής εξέτασης ενός αλόγου που πάσχει από κο-

λικό χρησιµοποιούνται για να προβλέψουν αν το άλογο ϑα επιζήσει, ϑα πεθάνει ή

αν ϑα πρέπει να του κάνουν ευθανασία. ∆ίνονται 58 µετρήσεις για τα 364 άλογα

εκ των οποίων το 62% επέζησε, το 24% πέθανε και το 14% ϑανατώθηκε δηλαδή

το πρόβληµα αυτό έχει τρεις κλάσεις ταξινόµησης. Και αυτό το σύνολο δεδοµένων

δηµιουργήθηκε ϐάσει του ‘‘horse colic’’ από τη ϐάση δεδοµένων UCI [3].

Page 145: noimosini sminous

124 Προβλήµατα Ταξινόµησης

Page 146: noimosini sminous

Βιβλιογραφία

[1] Enrique Alba and J. Francisco Chicano, ‘‘Training neural networks with ga

hybrid algorithms’’, In the proceedings of the Genetic and Evolutionary Com­

putation ­ GECCO 2004, Genetic an:d Evolutionary Computation Conference,

Seattle, WA, USA, June 26­30, 2004, Proceedings, Part I, vol. 3102 of Lecture

Notes in Computer Science, Springer, 852–863, 2004.

[2] E. Alpaydin, ‘‘Combined 5 x 2 cv f test for comparing supervised classifica­

tion learning algorithms’’, Neural Computation, vol. 11, No. 8, 1885–1892,

1999.

[3] A. Asuncion and D.J. Newman, ‘‘UCI machine learning repository’’, 2007.

[4] T. Back, Evolutionary Algorithms in Theory and Practice, Oxford University

Press, New York, 1996.

[5] T. Back, D. Fogel, and Z. Michalewicz, Handbook of Evolutionary Computa­

tion, IOP Publishing and Oxford University Press, New York, 1997.

[6] D. Beasley, D. R. Bull, and R. R. Martin, ‘‘An overview of genetic algorithms:

Part 2, research topics’’, University Computing, vol. 15, No. 4, 170–181,

1993.

[7] M. Berthold and J. Diamond, ‘‘Constructive training of probabilistic neural

networks’’, Neurocomputing, 167–183, 1998.

[8] E. Bonabeau, M. Dorigo, and G. Theraulaz, From Natural to Artificial Swarm

Intelligence, Oxford University Press, New York, 1999.

[9] R. R. Bouckaert, ‘‘Choosing between two learning algorithms based on ca­

librated tests’’, In the proceedings of the ICML, edited by T. Fawcett and

N. Mishra, AAAI Press, 51–58, 2003.

[10] R. R. Bouckaert and E. Frank, ‘‘Evaluating the replicability of significance

tests for comparing learning algorithms’’, In the proceedings of the PAKDD,

edited by H. Dai, R. Srikant, and C. Zhang, vol. 3056 of Lecture Notes in

Computer Science, Springer, 3–12, 2004.

[11] Leo Breiman, ‘‘Bagging predictors’’, Machine Learning, vol. 24, No. 2, 123–

140, 1996.

[12] P. Burrascano, E. Cardelli, A. Faba, S. Fiori, and A. Massinelli, ‘‘Applica­

tion of probabilistic neural networks to eddy current non destructive test

Page 147: noimosini sminous

126 Βιβλιογραφία

problems’’, In the proceedings of the 7th International Conference on Engine­

ering Applications of Neural Networks (EANN’2001), Cagliari, Italy, 192–195,

2001.

[13] I. M. Chakravarti, R. G. Laha, and J. Roy, Handbook of Methods of Applied

Statistics Vol. I, John Wiley and Sons, 1967.

[14] J.H. Chen and C.S. Chen, ‘‘Fuzzy kernel perceptron’’, IEEE Transactions on

Neural Networks, vol. 13, No. 6, 1364–1373, 2002.

[15] M. Clerc and J. Kennedy, ‘‘The particle swarm–explosion, stability, and

convergence in a multidimensional complex space’’, IEEE Transactions on

Evolutionary Computation, vol. 6, No. 1, 58–73, 2002.

[16] F. Delgosha and M. B. Menhaj, ‘‘Fuzzy probabilistic neural networks: A

practical approach to the implementation of baysian classifier.’’ In the pro­

ceedings of the Fuzzy Days, vol. 2206 of Lecture Notes in Computer Science,

Springer, 76–85, 2001.

[17] J. Demsar, ‘‘Statistical comparisons of classifiers over multiple data sets’’,

Journal of Machine Learning Research, vol. 7, 1–30, 2006.

[18] T. G. Dietterich, ‘‘Approximate statistical test for comparing supervised clas­

sification learning algorithms’’, Neural Computation, vol. 10, No. 7, 1895–

1923, 1998.

[19] M. Dorigo and T. StG’Otzle, Ant Colony Optimization, MIT Press, Cambridge,

MA, 2004.

[20] O. J. Dunn, ‘‘Multiple comparisons among means’’, Journal of the American

Statistical Association, vol. 56, No. 293, 52–64, 1961.

[21] R. C. Eberhart and J. Kennedy, ‘‘A new optimizer using particle swarm

theory’’, In the proceedings of the Sixth Symposium on Micro Machine and

Human Science, IEEE Service Center, Piscataway, NJ, 39–43, 1995.

[22] B. Efron and R. J. Tibshirani, An Introduction to the Bootstrap, Chapman &

Hall, New York, NY, 1993.

[23] A. P. Engelbrecht, Computational Intelligence: An Introduction, John Wiley

& Sons, New York, NY, USA, 2002.

[24] A. P. Engelbrecht, Fundamentals of Computational Swarm Intelligence, Wi­

ley, 2006.

[25] H. Y. Fan and J. Lampinen, ‘‘A trigonometric mutation operation to diffe­

rential evolution’’, Journal of Global Optimization, vol. 27, 105–129, 2003.

[26] R. A. Fisher, Statistical Methods and Scientific Inference 2nd Ed., Oliver and

Boyd, London, UK, 1959.

Page 148: noimosini sminous

Βιβλιογραφία 127

[27] L. J. Fogel, ‘‘Evolutionary programming in perspective: The topdown view’’,

In Computational Intelligence: Imitating Life, edited by J. Zurada, R. Marks I­

I, and C. Robinson, 135–146, 1994.

[28] M. Friedman, ‘‘The use of ranks to avoid the assumption of normality im­

plicit in the analysis of variance’’, Journal of the American Statistical Asso­

ciation, vol. 32, No. 200, 675–701, 1937.

[29] M. Friedman, ‘‘A comparison of alternative tests of significance for the pro­

blem of m rankings’’, Annals of Math. Statistics, vol. 11, 86–92, 1940.

[30] R. Fuller, Introduction to Neuro­Fuzzy Systems, Advances in Soft Computing

Series, Springer­Verlag, Berlin/Heildelberg, 1959.

[31] I. Galleske and J. Castellanos, ‘‘Probabilistic neural networks with rotated

kernel functions’’, In the proceedings of the 7th International Conference on

Artificial Neural Networks (ICANN’97), Springer­Verlag, London, UK, 379–

384, 1997.

[32] I. Galleske and J. Castellanos, ‘‘Optimization of the kernel functions in a

probabilistic neural network analyzing the local pattern distribution’’, Neu­

ral Computation, vol. 14, No. 5, 1183–1194, 2002.

[33] T. Ganchev, D. K. Tasoulis, M. N. Vrahatis, and N. Fakotakis, ‘‘Locally recur­

rent probabilistic neural networks with application to speaker verification’’,

GESTS International Transaction on Speech Science and Engineering, vol. 1,

No. 2, 1–13, 2004.

[34] T. Ganchev, D. K. Tasoulis, M. N. Vrahatis, and N. Fakotakis, ‘‘Genera­

lized locally recurrent probabilistic neural networks with application to

text­independent speaker verification’’, Neurocomputing, vol. 70, No. 7–9,

1424–1438, 2007.

[35] N. Garcia­Pedrajas and C. Fyfe, ‘‘Immune network based ensembles’’, Neu­

rocomputing, vol. 70, 1155–1166, 2007.

[36] A. Gelman, J.B. Carlin, H.S. Stern, and D.B. Rubin, Bayesian Data Analy­

sis, Second Edition, Chapman & Hall/CRC, 2003.

[37] S. Geman and D. Geman, ‘‘Stochastic relaxation, gibbs distributions and

the Bayesian restoration of images’’, IEEE Trans. Pattn. Anal. Mach. Intel.,

vol. 6, 721–741, 1984.

[38] V. L. Georgiou, Ph. D. Alevizos, and M. N. Vrahatis, ‘‘Incorporating fuzzy

membership functions into evolutionary probabilistic neural networks’’, In

Lecture Series on Computer and Computational Sciences , Vol. 7a, ICCMSE,

157–160, 2006.

[39] V. L. Georgiou, Ph. D. Alevizos, and M. N. Vrahatis, ‘‘Fuzzy evolutionary

probabilistic neural networks’’, In Lecture notes in Computer Science, edited

Page 149: noimosini sminous

128 Βιβλιογραφία

by L. Prevost, S. Marinai, and F. Schwenker, vol. 5064, 113–124, 2008,

ANNPR 2008 Paris, France.

[40] V. L. Georgiou, Ph. D. Alevizos, and M. N. Vrahatis, ‘‘Novel approaches to

probabilistic neural networks through bagging and evolutionary estimating

of prior probabilities’’, Neural Processing Letters, vol. 27, 153–162, 2008.

[41] V. L. Georgiou and S. N. Malefaki, ‘‘Incorporating Bayesian models for the

estimation of the spread parameters of probabilistic neural networks with

application in biomedical tasks’’, In the proceedings of the Int. Conf. on

Statistical Methods for Biomedical and Technical Systems, Limassol, Cyprus,

305–310, 2006.

[42] V. L. Georgiou, S. N. Malefaki, Ph. D. Alevizos, and M. N. Vrahatis, ‘‘Evolu­

tionary Bayesian probabilistic neural networks’’, In the proceedings of the

Int. Conf. on Numerical Analysis and Applied Mathematics (ICNAAM 2006),

Wiley­VCH, Hersonisos, Crete, 393–396, 2006.

[43] V. L. Georgiou, N. G. Pavlidis, K. E. Parsopoulos, Ph. D. Alevizos, and M. N.

Vrahatis, ‘‘Evolutionary adaptive schemes of probabilistic neural networks’’,

In Lecture Series on Computer and Computational Sciences , Vol. 1, ICCMSE,

852–855, 2004.

[44] V. L. Georgiou, N. G. Pavlidis, K. E. Parsopoulos, Ph. D. Alevizos, and M.

N. Vrahatis, ‘‘Optimizing the performance of probabilistic neural networks

in a bioinformatics task’’, In the proceedings of the European Network of

Excellence on Intelligent Technologies for Smart Adaptive Systems (EUNITE)

2004 Symposium, Aachen, Germany, 34–40, 2004.

[45] V. L. Georgiou, N. G. Pavlidis, K. E. Parsopoulos, Ph. D. Alevizos, and M. N.

Vrahatis, ‘‘New self–adaptive probabilistic neural networks in bioinforma­

tic and medical tasks’’, International Journal on Artificial Intelligence Tools,

vol. 15, No. 3, 371–396, 2006.

[46] F. Gorunescu, M. Gorunescu, Kenneth Revett, and M. Ene, ‘‘A hybrid incre­

mental/monte carlo searching technique for the ‘‘smoothing’’ parameter of

probabilistic neural networks’’, In the proceedings of the International Con­

ference on Knowledge Engineering, Principles and Techniques, KEPT 2007,

Cluj­Napoca, Romania, 107–113, 2007.

[47] M. Gorunescu, F. Gorunescu, M. Ene, and E. El­Darzi, ‘‘A heuristic appro­

ach in hepatic cancer diagnosis using a probabilistic neural network­based

model’’, In the proceedings of the International Symposium on Applied Sto­

chastic Models and Data Analysis, Brest, France, 1016–1024, 2005.

[48] J. Grim, P. Somol, and P. Pudil, ‘‘Probabilistic neural network playing and

learning tic­tac­toe’’, Pattern Recognition Letters, vol. 26, No. 12, 1866–

1873, 2005.

Page 150: noimosini sminous

Βιβλιογραφία 129

[49] J. Guo, Y. Lin, and Z. Sun, ‘‘A novel method for protein subcellular locali­

zation based on boosting and probabilistic neural network’’, In the procee­

dings of the 2nd Asia­Pacific Bioinformatics Conference (APBC2004), Dune­

din, New Zealand, 20–27, 2004.

[50] Y. Hochberg, ‘‘A sharper bonferroni procedure for multiple tests of signifi­

cance’’, Biometrika, vol. 75, 800–802, 1988.

[51] J. H. Holland, Adaptation in Natural and Artificial Systems, MIT Press, 1975.

[52] S. Holm, ‘‘A simple sequentially rejective multiple test procedure’’, Scandi­

navian Journal of Statistics, vol. 6, 65–70, 1979.

[53] G. Hommel, ‘‘A stagewise rejective multiple test procedure based on a mo­

dified bonferroni test’’, Biometrika, vol. 75, 383–386, 1988.

[54] C. J. Huang, ‘‘A performance analysis of cancer classification using feature

extraction and probabilistic neural networks’’, In the proceedings of the

7th Conference on Artificial Intelligence and Applications, Wufon, Taiwan,

374–378, 2002.

[55] Gopal K. Kanji, 100 Statistical Tests, Sage Publications, 1999.

[56] L. Kaufman and P. J. Rousseeuw, Finding Groups in Data: An Introduction

to Cluster Analysis, John Wiley and Sons, New York, 1990.

[57] J. M. Keller and D. J. Hunt, ‘‘Incorporating fuzzy membership functions

into the perceptron algorithm’’, IEEE Trans. Pattern Anal. Machine Intell.,

vol. 7, No. 6, 693–699, 1985.

[58] J. Kennedy, ‘‘Small worlds and mega­minds: effects of neighborhood topo­

logy on particle swarm performance’’, In the proceedings of the Evolutionary

Computation, 1999. CEC 99, vol. 3, 1999.

[59] J. Kennedy and R.C. Eberhart, ‘‘Particle swarm optimization’’, In the pro­

ceedings of the IEEE International Conference on Neural Networks, vol. IV,

IEEE Service Center, Piscataway, NJ, 1942–1948, 1995.

[60] J. Kennedy and R.C. Eberhart, Swarm Intelligence, Morgan Kaufmann Pu­

blishers, 2001.

[61] R. King, C. Feng, and A. Shutherland, ‘‘STATLOG: comparison of classifica­

tion algorithms on large real­world problems’’, Applied Artificial Intelligence,

vol. 9, No. 3, 259–287, 1995.

[62] J. Klocker, B. Wailzer, G. Buchbauer, and P. Wolschann, ‘‘Bayesian neu­

ral networks for aroma classification’’, Journal of Chemical Information and

Computer Sciences, vol. 42, No. 6, 1443–1449, 2002.

[63] R. Kohavi, ‘‘A study of cross–validation and bootstrap for accuracy esti­

mation and model selection’’, In the proceedings of the International Joint

Page 151: noimosini sminous

130 Βιβλιογραφία

Conference on Artificial Intelligence IJCAI, Montreal, Canada, 1137–1145,

1995.

[64] S. Kotsiantis and P. Pintelas, ‘‘Combining bagging and boosting’’, Interna­

tional Journal of Computational Intelligence, vol. 1, No. 4, 324–333, 2004.

[65] C. G. Looney, ‘‘A fuzzy classifier network with ellipsoidal epanechnikov fu­

nctions’’, Neurocomputing, vol. 48, 489–509, 2002.

[66] J. Lukasiewicz, ‘‘O logice trojwartosciowej (on three­valued logic)’’, Ruch

Filozoficzny, vol. 5, 169–171, 1920.

[67] K. Mali and S. Mitra, ‘‘Symbolic classification, clustering and fuzzy radial

basis function network’’, Fuzzy Sets and Systems, vol. 152, No. 3, 553–564,

2005.

[68] O. L. Mangasarian and W. H. Wolberg, ‘‘Cancer diagnosis via linear pro­

gramming’’, SIAM News, vol. 23, 1–18, 1990.

[69] T. M. Mitchell, Machine Learning, McGraw­Hill Higher Education, 1997.

[70] S. Mitra and J. Basak, ‘‘Frbf: A fuzzy radial basis function network’’, Neural

Computing and Applications, vol. 10, No. 3, 244–252, 2001.

[71] S. Mitra and Sankar K. Pal, ‘‘Fuzzy sets in pattern recognition and machine

intelligence’’, Fuzzy Sets and Systems, vol. 156, No. 3, 381–386, 2005.

[72] David J. Montana, ‘‘A weighted probabilistic neural network’’, In the proce­

edings of the NIPS, edited by J. E. Moody, S. J. Hanson, and R. Lippmann,

Morgan Kaufmann, 1110–1117, 1991.

[73] C. Nadeau and Y. Bengio, ‘‘Inference for the generalization error’’, Machine

Learning, vol. 52, No. 3, 239–281, 2003.

[74] P. B. Nemenyi, Distribution–free multiple comparisons, Ph.D. thesis, Prince­

ton University, 1963.

[75] Roman Neruda and Stanislav Slusny, ‘‘Variants of memetic and hybrid le­

arning of perceptron networks’’, In the proceedings of the DEXA Workshops,

IEEE Computer Society, 158–162, 2007.

[76] R. K. Orr, ‘‘Use of a probabilistic neural network to estimate the risk of

mortality after cardiac surgery’’, Medical Decision Making, vol. 17, No. 2,

178–185, 1997.

[77] K. E. Parsopoulos and M. N. Vrahatis, ‘‘Recent approaches to global optimi­

zation problems through particle swarm optimization’’, Natural Computing,

vol. 1, No. 2–3, 235–306, 2002.

[78] K. E. Parsopoulos and M. N. Vrahatis, ‘‘On the computation of all global

minimizers through particle swarm optimization’’, IEEE Transactions on E­

volutionary Computation, vol. 8, No. 3, 211–224, 2004.

Page 152: noimosini sminous

Βιβλιογραφία 131

[79] E. Parzen, ‘‘On the estimation of a probability density function and mode’’,

Annals of Mathematical Statistics, vol. 3, 1065–1076, 1962.

[80] L. Prechelt, ‘‘Proben1: A set of neural network benchmark problems and

benchmarking rules’’, Technical Report 21/94, Fakultat fur Informatik, U­

niversitat Karlsruhe, 1994.

[81] W.H. Press, B.P. Flannery, S.A. Teukolsky, and W.T. Vetterling, Numerical

Recipes in C, Cambridge University Press, 1988.

[82] K. Price, ‘‘Differential evolution: A fast and simple numerical optimizer’’, In

the proceedings of the NAFIPS’96, 524–525, 1996.

[83] P. P. Raghu and B. Yegnanarayana, ‘‘Supervised texture classification using

a probabilistic neural network and constraint satisfaction model’’, IEEE

Transactions on Neural Networks, vol. 9, No. 3, 516–522, 1998.

[84] R. G. Reynolds, An Overview of Cultural Algorithms, Advances in Evolutio­

nary Computation, McGraw Hill Press, 1999.

[85] R. D. Romero, D. S. Touretzky, and R. H. Thibadeau, ‘‘Optical chinese cha­

racter recognition using probabilistic neural networks’’, Pattern Recognition,

vol. 30, No. 7, 1279–1292, 1997.

[86] S. Salzberg, ‘‘On comparing classifiers: Pitfalls to avoid and a recommended

approach’’, Data Mining and Knowledge Discovery, vol. 1, No. 3, 317–328,

1997.

[87] J. P. Schaffer, ‘‘Multiple hypothesis testing’’, Annual Review of Psychology,

vol. 46, 561–584, 1995.

[88] H. P. Schwefel, Evolution and Optimum Seeking, Wiley, New York, 1995.

[89] M. F. Selekwa, V. Kwigizile, and R. N. Mussa, ‘‘Setting up a probabilistic

neural network for classification of highway vehicles’’, International Journal

of Computational Intelligence and Applications, vol. 5, No. 4, 411–424, 2005.

[90] R. S. Sexton and N. A. Sikander, ‘‘Data mining using a genetic algorithm­

trained neural network’’, International Journal of Intelligent Systems in A­

ccounting, Finance & Management, vol. 10, 201–210, 2001.

[91] S. S. Shapiro and M. B. Wilk, ‘‘An analysis of variance test for normality

(complete samples)’’, Biometrika, vol. 52, No. 3,4, 591–611, 1965.

[92] D. J. Sheskin, Handbook of Parametric and Nonparametric Statistical Proce­

dures, Chapman & Hall/CRC, 2000.

[93] Y. Shi and R.C. Eberhart, ‘‘A modified particle swarm optimizer’’, In the pro­

ceedings of the IEEE Conference on Evolutionary Computation, IEEE Service

Center, Anchorage, AK, 1998.

Page 153: noimosini sminous

132 Βιβλιογραφία

[94] Y. Shi and R.C. Eberhart, ‘‘Parameter selection in particle swarm optimi­

zation’’, In Evolutionary Programming, edited by V. Porto, N. Saravanan,

D. Waagen, and A. Eiben, vol. VII, Springer, 591–600, 1998.

[95] D.F. Specht, ‘‘PNN: From fast training to fast running’’, Computational In­

telligence, A Dynamic System Perspective, 246–258, 1995.

[96] D. F. Specht, ‘‘Probabilistic neural networks’’, Neural Networks, vol. 1, No. 3,

109–118, 1990.

[97] D. F. Specht and H. Romsdahl, ‘‘Experience with adaptive probabilistic neu­

ral network and adaptive general regression neural network’’, In the pro­

ceedings of the IEEE International Conference on Neural Networks, vol. 2,

1203–1208, 1994.

[98] A. Staiano, R. Tagliaferri, and W. Pedrycz, ‘‘Improving rbf networks per­

formance in regression tasks by means of a supervised fuzzy clustering’’,

Neurocomputing, vol. 69, No. 13­15, 1570–1581, 2006.

[99] C. Stanfill and D. L. Waltz, ‘‘Toward memory­based reasoning’’, Communi­

cation of the ACM , vol. 29, No. 12, 1213–1228, 1986.

[100] R. Storn and K. Price, ‘‘Differential evolution–a simple and efficient heuristic

for global optimization over continuous spaces’’, Journal of Global Optimi­

zation, vol. 11, 341–359, 1997.

[101] R. L. Streit and T. E. Luginbuhl, ‘‘Maximum likelihood training of proba­

bilistic neural networks’’, IEEE Transactions on Neural Networks, vol. 5,

764–783, 1994.

[102] S. Suresh, N. Sundararajan, and P. Saratchandran, ‘‘A sequential multi­

category classifier using radial basis function networks’’, Neurocomputing,

2007.

[103] B. Tian and M. R. Azimi­Sadjadi, ‘‘Comparison of two different pnn training

approaches for satellite cloud data classification’’, IEEE Transactions on

Evolutionary Computation, vol. 12, No. 1, 164–168, 2001.

[104] I. C. Trelea, ‘‘The particle swarm optimization algorithm: Convergence a­

nalysis and parameter selection’’, Information Processing Letters, vol. 85,

317–325, 2003.

[105] J. W. Tukey, ‘‘Comparing individual means in the analysis of variance’’,

Biometrics, vol. 5, No. 2, 99–114, 1949.

[106] A. M. Turing, ‘‘Computing machinery and intelligence’’, Mind, vol. 59, No.

236, 433–460, 1950.

[107] Y. Wang, T. Adali, S. Kung, and Z. Szabo, ‘‘Quantification and segmentation

of brain tissues from mr images: A probabilistic neural network approach’’,

IEEE Transactions on Image Processing, vol. 7, No. 8, 1165–1181, 1998.

Page 154: noimosini sminous

Βιβλιογραφία 133

[108] G. I. Webb, ‘‘Multiboosting: A technique for combining boosting and wag­

ging’’, Machine Learning, vol. 40, No. 2, 159–196, 2000.

[109] F. Wilcoxon, ‘‘Individual comparisons by ranking methods’’, Biometrics Bul­

letin, vol. 1, No. 6, 80–83, 1945.

[110] D. R. Wilson and T. R. Martinez, ‘‘Improved center point selection for pro­

babilistic neural networks’’, In the proceedings of the 3rd International Con­

ference on Artificial Neural Networks and Genetic Algorithms (ICANNGA’97),

Norwich, England, 514–517, 1997.

[111] D. R. Wilson and T. R. Martinez, ‘‘Improved heterogeneous distance fu­

nctions’’, Journal of Artificial Intelligence Research, vol. 6, 1–34, 1997.

[112] D. H. Wolpert and W. G. Macready, ‘‘No free lunch theorems for optimiza­

tion’’, IEEE Transactions on Evolutionary Computation, vol. 1, No. 1, 67–82,

1997.

[113] B. Xu and L. Zheng, ‘‘Parallel probabilistic neural network (PPNN)’’, 1992.

[114] Z. R. Yang and S. Chen, ‘‘Robust maximum likelihood training of hetero­

scedastic probabilistic neural networks’’, Neural Networks, vol. 11, No. 4,

739–747, 1998.

[115] K.K. Yiu, M.W. Mak, and S.Y. Kung, ‘‘A comparative study on kernel­based

probabilistic neural networks for speaker verification’’, International Journal

of Neural Systems, vol. 12, No. 5, 381–397, 2002.

[116] L. A. Zadeh, ‘‘Fuzzy sets’’, Information and Control, vol. 8, No. 3, 338–353,

1965.

[117] L. A. Zadeh, ‘‘Fuzzy logic.’’ IEEE Computer, vol. 21, No. 4, 83–93, 1988.

[118] L. A. Zadeh, ‘‘Fuzzy logic, neural networks, and soft computing’’, Communi­

cation of the ACM , vol. 37, No. 3, 77–84, 1994.

Page 155: noimosini sminous

134 Βιβλιογραφία

Page 156: noimosini sminous

Κατάλογος ∆ηµοσιεύσεων Υποψηφίου

Εργασίες σε ∆ιεθνή Περιοδικά µε Κριτές

J1. V.L. Georgiou, N.G. Pavlidis, K.E. Parsopoulos, Ph.D. Alevizos, M.N. Vra­

hatis (2006) ‘‘New Self­Adaptive Probabilistic Neural Networks in Bioinfor­

matic and Medical Tasks’’, International Journal on Artificial Intelligence

Tools, 15(3), 371­396.

J2. V.L. Georgiou, Ph.D. Alevizos, M.N. Vrahatis (2008). ‘‘Novel Approaches

to Evolutionary Probabilistic Neural Networks Through Bagging and New

Estimation of Prior Probabilities’’, Neural Processing Letters, 27(2), 153­

162.

Εργασίες σε Τόµους µε Κριτές

E1. V.L. Georgiou, N.G. Pavlidis, K.E. Parsopoulos, Ph.D. Alevizos, M.N. Vra­

hatis ‘‘Evolutionary Adaptive Schemes of Probabilistic Neural Networks’’,

Lecture Series on Computer and Computational Sciences, Vol. 1, ICCMSE

2004, Athens, Greece, 19­23/11/2004, pp. 852–855.

E2. V.L. Georgiou, Ph.D. Alevizos, M.N. Vrahatis ‘‘Incorporating Fuzzy Mem­

bership Functions into Evolutionary Probabilistic Neural Networks’’, Lec­

ture Series on Computer and Computational Sciences, Vol. 7a, ICCMSE

2006, Chania, Greece, 27/10­1/11/2006, pp. 157–160.

E3. V.L. Georgiou, Ph.D. Alevizos, M.N. Vrahatis (2008) ‘‘Fuzzy Evolutionary

Probabilistic Neural Networks’’, Lecture notes in Computer Science, 5064,

ANNPR, Paris, France, pp. 113–124.

E4. V.L. Georgiou, S. Malefaki, Ph.D. Alevizos, M.N. Vrahatis (2008). ‘‘Ex­

tended Evolutionary Bayesian Probabilistic Neural Network Model’’, Lec­

ture notes in Computer Science (accepted).

Page 157: noimosini sminous

136 Κατάλογος ∆ηµοσιεύσεων Υποψηφίου

Εργασίες σε Πρακτικά ∆ιεθνών Συνεδρίων µε Κριτές

P1. V.L. Georgiou, N.G. Pavlidis, K.E. Parsopoulos, Ph.D. Alevizos, M.N. Vra­

hatis ‘‘Optimizing the Performance of Probabilistic Neural Networks in a

Bioinformatics Task’’, Procs Eunite 2004 Symposium, Aachen, Germany

10­12/6/2004, pp. 15–21.

P2. V.L. Georgiou, S. Malefaki ‘‘Incorporating Bayesian Models For The Esti­

mation Of The Spread Parameters Of Probabilistic Neural Networks With

Application In Biomedical Tasks’’, BIOSTAT 2006, 29­31/5/2006, Limas­

sol, Cyprus, pp. 305­310.

P3. V.L. Georgiou, S.N. Malefaki, Ph.D. Alevizos, M.N. Vrahatis ‘‘Evolutionary

Bayesian Probabilistic Neural Networks’’, Procs International Conference

on Numerical Analysis and Applied Mathematics (ICNAAM 2006), Her­

sonissos, Greece, 15­19/9/2006, pp. 393–396.

P4. V.L. Georgiou, S. Malefaki, Ph.D. Alevizos, M.N. Vrahatis ‘‘Determining

Evolutionary Bayesian Probabilistic Neural Network Parameters through

Particle Swarm Optimization’’, 12th International Conference on Applied

Stochastic Models and Data Analysis, (ASMDA 2007), Chania, Greece,

29/5 ­ 1/6/2007.

Εργασίες σε Πρακτικά Ελληνικών Συνεδρίων µε Κριτές

ΡΕ1. Β.Λ. Γεωργίου, Φ.∆. Αλεβίζος, Μ.Ν. Βραχάτης, «Σύγκριση Στατιστικών Με-

ϑόδων Ταξινόµησης και Τεχνητών Νευρωνικών ∆ικτύων µε Εφαρµογές» 15ο

Πανελλήνιο Συνέδριο Στατιστικής, Ιωάννινα, 8 –11/4/2002, 152-160.

ΡΕ2. Β.Λ. Γεωργίου, Φ.∆. Αλεβίζος, Μ.Ν. Βραχάτης «΄Ενας νέος αλγόριθµος ϐελ-

τίωσης της αποδοτικότητας των Πιθανοτικών Νευρωνικών ∆ικτύων» 16ο Πα-

νελλήνιο Συνέδριο Στατιστικής, Καβάλα, 30/4 – 5/5 2003.

ΡΕ3. Β.Λ. Γεωργίου, Ν.Γ. Παυλίδης, Φ.∆. Αλεβίζος, Μ.Ν. Βραχάτης, «Αυτοπροσαρ-

µοζώµενα Πιθανοτικά Νευρωνικά ∆ίκτυα», 17ο Πανελλήνιο Συνέδριο Στατι-

στικής, Λευκάδα 14–18/4/2004, 93-100.

ΡΕ4. Β.Λ. Γεωργίου, Κ.Ε. Παρσόπουλος, Ν.Γ. Παυλίδης, Φ.∆. Αλεβίζος, Μ.Ν. Βρα-

χάτης,«Νέα Αυτοπροσαρµοζώµενα Πιθανοτικά Νευρωνικά ∆ίκτυα στη Βιο-

πληροφορική και την Ιατρική» 1ο Συνέδριο Βιοεπιστηµών Πανεπιστηµίου

Πατρών, Πάτρα, 19-20/5/2005. (Πόστερ)

ΡΕ5. Β.Λ. Γεωργίου, Ν.Γ. Παυλίδης, Φ.∆. Αλεβίζος, Μ.Ν. Βραχάτης, «∆ιαφοροεξε-

λικτικά Πιθανοτικά Νευρωνικά ∆ίκτυα» 18ο Πανελλήνιο Συνέδριο Στατιστι-

κής, Ρόδος 4-7/5/2005.

ΡΕ6. Β.Λ. Γεωργίου, Φ.∆. Αλεβίζος, Μ.Ν. Βραχάτης,«Νέες Τεχνικές Βελτίωσης της

Αποδοτικότητας των Εξελικτικών Πιθανοτικών Νευρωνικών ∆ικτύων» 19ο Πα-

νελλήνιο Συνέδριο Στατιστικής, Καστοριά 26-29/4/2006.

Page 158: noimosini sminous

Κατάλογος ∆ηµοσιεύσεων Υποψηφίου 137

ΡΕ7. Β.Λ. Γεωργίου, Σ. Μαλεφάκη, Φ.∆. Αλεβίζος, Μ.Ν. Βραχάτης,«Βελτιώνοντας

την Αποδοτικότητα των Πιθανοτικών Νευρωνικών ∆ικτύων µε χρήση Μπε-

ϋζιανής Ανάλυσης και Εξελικτικών Αλγορίθµων» 20ο Πανελλήνιο Συνέδριο

Στατιστικής, Λευκωσία, Κύπρος 11-15/4/2007.

Αναφορές από άλλους ερευνητές

C1. F. Gorunescu, M. Gorunescu, K. Revett, and M. Ene (2007), ‘‘A hybrid in­

cremental/Monte Carlo searching technique for the ‘‘smoothing’’ parame­

ter of probabilistic neural networks’’, In procs of International Conference

on Knowledge Engineering, Principles and Techniques, KEPT 2007, Cluj­

Napoca, Romania, pp. 107–113. Αναφέρει την εργασία P1.

C2. B. Cyganek (2007) ‘‘Circular Road Signs Recognition with Affine Moment

Invariants and the Probabilistic Neural Classifier.’’ In: B. Beliczynski, A.

Dzielinski, M. Iwanowski and B. Ribeiro, editors, ICANNGA (2) Lecture

Notes in Computer Science, 4432, pp. 508–516. Αναφέρει την εργασία P1.

C3. S. Walczak (2008) ‘‘Evaluating Medical Decision Making Heuristics and

Other Business Heuristics with Neural Networks.’’, In: Intelligent Decision

Making: An AI­Based Approach, Series: Studies in Computational Intel­

ligence, Springer Verlag, Berlin/Heidelberg, Germany, February 2008 97,

pp.259–287. Αναφέρει την εργασία J1.

C4. A. Banks, J. Vincent, and C. Anyakoha (2008), ‘‘A review of particle swarm

optimization. part ii: hybridisation, combinatorial, multicriteria and con­

strained optimization, and indicative applications.’’, Natural Computing:

an international journal, 7(1), 109–124. Αναφέρει την εργασία P1.

C5. C. Blum and X. Li (2008), ‘‘Swarm Intelligence in Optimization’’, In: Swarm

Intelligence: Introduction and Applications, Natural Computing Series,

Springer, pp. 43­86. Αναφέρει την εργασία P1.

C6. A. Vosoulipour, M. Teshnehlab, and H. A. Moghadam (2008) ‘‘Classifi­

cation on Diabetes Mellitus data­set based on artificial neural networks

and ANFIS.’’ In: 4th Kuala Lumpur International Conference on Biomedical

Engineering, IFMBE Proceedings, 21, pp. 27–30. Αναφέρει την εργασία J1.

Page 159: noimosini sminous

Ευρετήριο

Bagging, 73

Bonferroni–Dunn έλεγχος, 48

Bootstrap, 40

Cross–validation, 39

Friedman ΄Ελεγχος, 47

Mahalanobis, 8

Markov Chain Monte Carlo, 87

Nemenyi έλεγχος, 48

Post Hoc Ανάλυση, 48

Αλληλουχία, 15

Ανάλυση ∆ιακύµανσης, 47

Ανασυνδυασµός, 17

Ανασυνδυασµός (Cross­over), 17

Αντικειµενική Συνάρτηση, 14

Ασαφή Σύνολα, 100

Ασαφής Λογική, 99

Ασαφής Συνάρτηση Συµµετοχής, 101

Βάρος Αδράνειας, 25

Βελτιστοποίηση µε Αποικία Μυρµηγκιών,

21

Βελτιστοποίηση µε Σµήνος Σωµατιδίων, 21

∆ιάγραµµα Κρίσιµης ∆ιαφοράς, 49

∆ιαφορική Εξέλιξη, 18

∆ιαφοροεξελικτικοί Αλγόριθµοι, 18

Εκ των Προτέρων Πιθανότητα, 3

Εκ των Υστέρων Πιθανότητα , 5

Ελιτισµός, 17

Επαναδειγµατοληψία, 38

Εξελικτική Στάθµιση, 90

Εξελικτικός Αλγόριθµος, 16

Εξελικτικός Υπολογισµός, 15

Εξωκείµενο Σηµείο, 6

Φαινότυπος, 15

Γενότυπος, 15

Γνωστική Σταθερά, 24

Γονίδιο, 15

Γραµµική ∆ιαχωριστική Συνάρτηση, 11

Κίνδυνος Bayes, 5

Κανόνας Bayes, 5

Κοινωνική Σταθερά, 24

Μετάλλαξη, 17

Νοηµοσύνη Σµηνών, 21

Πίνακας Παραµέτρων Λείανσης, 30

Παράγοντας Περιορισµού, 25

Πιθανοτικά Νευρωνικά ∆ίκτυα, 28

Πυρήνας Μετάβασης, 87

Χρωµόσωµα, 15

Σύνολο Αναφοράς, 101

Σφαιρικότητα, 47

Συνάρτηση Ενεργοποίησης, 27

Συνάρτηση Κινδύνου, 4

Συνάρτηση Συµµετοχής, 100

Συνάρτηση Ζηµίας, 4

Ταξινοµητής, 4

Τεχνητά Νευρωνικά ∆ίκτυα , 26

Τεχνητός Νευρώνας, 26

Τετραγωνική ∆ιαχωριστική Συνάρτηση, 10

Τοπολογία Αστέρα, 21

Τοπολογία ∆ακτυλίου, 22

Τοπολογία Επικέντρωσης, 22

Υπολογιστική Νοηµοσύνη, 13