33
Αναγνώριση Προτύπων

Αναγνώριση Προτύπων

Embed Size (px)

DESCRIPTION

Αναγνώριση Προτύπων. Σημερινό Μάθημα. Μη-επιβλεπόμενη εκπαίδευση ( Clustering) Μη-παραμετρική Μη-επιβλεπόμενη εκπαίδευση Μέτρα εγγύτητας Αλγόριθμος k-means ISODATA Ιεραρχικό clustering Δεντρογράμματα. Επιβλεπόμενη vs Μη-Επιβλεπόμενη Μάθηση. - PowerPoint PPT Presentation

Citation preview

Page 1: Αναγνώριση Προτύπων

Αναγνώριση Προτύπων

Page 2: Αναγνώριση Προτύπων

Σημερινό Μάθημα

Μη-επιβλεπόμενη εκπαίδευση (Clustering)

Μη-παραμετρική Μη-επιβλεπόμενη εκπαίδευση

Μέτρα εγγύτητας Αλγόριθμος k-means ISODATA Ιεραρχικό clustering Δεντρογράμματα

Page 3: Αναγνώριση Προτύπων

Επιβλεπόμενη vs Μη-Επιβλεπόμενη Μάθηση

Μέχρι τώρα θεωρήσαμε μεθόδους αναγνώρισης με classification όπου το πρότυπο χαρακτηρίζεται από τα μεγέθη {x,ω}

Αυτά τα προβλήματα αναγνώρισης ονομάζονται Επιβλεπόμενα (supervised) αφού διατίθενται και το χαρακτηριστικό διάνυσμα και η σωστή απάντηση.

Υπάρχουν όμως περιπτώσεις όπου δίνεται το χαρακτηριστικό διάνυσμα χωρίς την κλάση.

Αυτές οι μέθοδοι καλούνται Μη-Επιβλεπόμενες (unsupervised) λόγω του ότι δεν χρησιμοποιούν τη σωστή απάντηση.

Page 4: Αναγνώριση Προτύπων

Επιβλεπόμενη vs Μη-Επιβλεπόμενη Μάθηση

Αν και η μέθοδοι μη επιβλεπόμενης μάθηση φαίνονται περιορισμένων δυνατοτήτων υπάρχουν πολλές περιπτώσεις που επιβάλλεται η χρήση τους:

Ο χαρακτηρισμός πολλών δεδομένων μπορεί να αποβεί δαπανηρός (π.χ. αναγνώριση ομιλίας)

Το είδος της κλάσης μπορεί να μην είναι γνωστό εξ’αρχής.

Page 5: Αναγνώριση Προτύπων

Κατηγοριοποιήση των μη-επιβλεπόμενων μεθόδων εκμάθησης

Παραμετρικές (μείγματα κατανομών): Αυτές οι μέθοδοι μοντελοποιούν την υπό συνθήκη πυκνότητα πιθανότητας με ένα μίγμα παραμετρικών πυκνοτήτων με σκοπό να βρουν τις παραμέτρους του μοντέλου.

Μη-παραμετρικές (clustering): Δεν γίνεται υπόθεση για την πυκνότητα πιθανότητα αλλά επιχειρείται διαχωρισμός των δεδομένων σε κλάσεις.

Page 6: Αναγνώριση Προτύπων

Μη-παραμετρική Μη-επιβλεπόμενη εκπαίδευση

Δεν ασχολούμαστε με συναρτήσεις πυκνότητας Αναζητούμε ομαδοποιήσεις (clusters) σε ένα

σύνολο δεδομένων Το μη παραμετρικό clustering συμπεριλαμβάνει

3 βήματα:– Ορισμός ενός μέτρου ομοιότητας

(ανομοιότητας) μεταξύ των παραδειγμάτων– Ορισμός κριτηρίου για clustering (συνάρτηση)– Ορισμός αλγορίθμου βελτιστοποίησης της

συνάρτησης κριτηρίου

Page 7: Αναγνώριση Προτύπων

Μέτρα εγγύτητας Ένας κανόνας μέτρησης της απόστασης

d(x,y) μεταξύ δύο διανυσμάτων x και y πρέπει να πληρεί τις ιδιότητες:

Αν έχει και την ιδιότητα:

Τότε καλείται νόρμα και δηλώνεται ως d(x,y)=||x-y||

Page 8: Αναγνώριση Προτύπων

Μέτρα εγγύτητας

Η πιο γενική μορφή ενός μέτρου απόστασης είναι

Page 9: Αναγνώριση Προτύπων

Γνωστά μέτρα εγγύτητας

Μέτρο Minkowski (Lk)

Η επιλογή του k εξαρτάται από την έμφαση που θέλουμε να δώσουμε σε μεγάλες διαφορές μεταξύ διαστάσεων

Απόσταση Manhattan (L1 norm)

Όταν χρησιμοποιείται με δυαδικά διανύσματα είναι γνωστή και ως απόσταση Hamming

Page 10: Αναγνώριση Προτύπων

Γνωστά μέτρα εγγύτητας

Euclidean απόσταση (L2 norm)

Chebyshev απόσταση (L∞ norm)

Page 11: Αναγνώριση Προτύπων

Γνωστά μέτρα εγγύτητας

Μη γραμμική απόσταση:

Εσωτερικό γινόμενο (απαιτεί κανονικοποιημένα διανύσματα)

Correlation coefficient (συσχέτιση)

Page 12: Αναγνώριση Προτύπων

Συνάρτηση κριτηρίου για clustering

Όταν έχει ορισθεί μέτρο ομοιότητας (ανομοιότητας) χρειάζεται να ορίσουμε μια συνάρτηση κριτηρίου

Η πιο γνωστή συνάρτηση κριτηρίου για clustering είναι το άθροισμα τετραγωνικού λάθους

Μετράει πόσο καλά το σετ δεδομένων απέχει από τα κέντρα των clusters

Επίσης χρησιμοποιούνται οι scatter matrices από το LDA

Page 13: Αναγνώριση Προτύπων

Αξιοπιστία cluster

Η επιλογή του μέτρου ομοιότητας (ανομοιότητας) έχει άμεση επίδραση στα παραγόμενα clusters

H αξιοπιστία των clusters και το πλήθος τους είναι υποκειμενικά

Page 14: Αναγνώριση Προτύπων

Επαναληπτική βελτιστοποίηση

Άπαξ και οριστεί συνάρτηση κριτηρίου, απομένει να ορίσουμε διαμερισμό που να ελαχιστοποιεί το κριτήριο.

Εξαντλητική απαρίθμηση όλων των διαμερισμών δεν είναι εφικτή.

Φανταστείτε ότι πρόβλημα 5 clusters και 100 παραδειγμάτων δίνει 1067 διαμερισμούς.

Page 15: Αναγνώριση Προτύπων

Επαναληπτική βελτιστοποίηση

Ο πιο κοινός τρόπος είναι η επαναληπτική προσέγγιση:

1. Βρες λογικό αρχικό διαμερισμό2. Μετέφερε δείγματα ώστε να βελτιστοποιηθεί η

συνάρτηση κριτηρίου

Τέτοιες προσεγγιστικές μέθοδοι παράγουν υποβέλτιστες λύσεις αλλά είναι υπολογιστικά βολικές

Page 16: Αναγνώριση Προτύπων

Επαναληπτική βελτιστοποίηση

Υπάρχουν δύο κατηγορίες επαναληπτικών προσεγγίσεων:

Επίπεδοι αλγόριθμοι για clustering– Παράγουν σετ ανεξάρτητων clusters– Οι πιο γνωστοί είναι οι k-means και ISODATA

Ιεραρχικοί αλγόριθμοι για clustering– Το αποτέλεσμα είναι μια ιεραρχία

εμφωλιασμένων clusters– Χωρίζονται στους ενωτικούς (agglomerative)

και διαχωριστικούς (divisive)

Page 17: Αναγνώριση Προτύπων

Αλγόριθμος k-means

Είναι απλή διαδικασία clustering που επιδιώκει την ελαχιστοποίηση της συνάρτησης JMSE με επαναληπτική διαδικασία:

Page 18: Αναγνώριση Προτύπων

Αλγόριθμος k-means

1. Όρισε το πλήθος των clusters2. Αρχικοποίησε clusters με:

• Τυχαία κατανομή παραδειγμάτων στα clusters

• Ή τυχαία επιλογή κέντρων clusters3. Υπολόγισε το μέσο κάθε cluster4. Απέδωσε κάθε δείγμα στο

πλησιέστερο μέσο5. Αν η κατανομή των δειγμάτων δεν

άλλαξε τερμάτισε, αλλιώς βήμα 3

Page 19: Αναγνώριση Προτύπων

Αλγόριθμος k-means

Ο k-means χρησιμοποιείται στην επεξεργασία σήματος για διανυσματικό κβαντισμό

Μονοδιάστατα σήματα κβαντίζονται σε αριθμό επιπέδων για μετάδοση ή αποθήκευση με δυαδικό τρόπο

Κβαντίζουμε το πολυδιάστατο διάνυσμα επιλέγοντας ένα σετ πολυδιάστατων προτύπων (κέντρα clusters)

Αυτά τα κέντρα των clusters αποτελούν το codebook της εφαρμογής

Page 20: Αναγνώριση Προτύπων

Αλγόριθμος k-means

Page 21: Αναγνώριση Προτύπων

ISODATA ISODATA είναι συντομογραφία του Iterative Self-

Organizing Data Analysis Technique Algorithm Είναι επέκταση του k-means που εμπεριέχει

ευριστικούς τρόπους για την αυτόματη επιλογή του πλήθους των κλάσεων

Ο χρήστης επιλέγει τις παραμέτρους:– NMIN_EX ελάχιστο πλήθος δειγμάτων ανά cluster– ND επιθυμητό πλήθος cluster

– σS2 μέγιστη διασπορά για διαχωρισμό clusters

– DMERGE μέγιστη απόσταση για ένωση clusters– NMERGE μέγιστο πλήθος clusters που μπορούν να

ενωθούν

Page 22: Αναγνώριση Προτύπων

ISODATA

1. Εκτέλεσε k-means clustering2. Διάσπασε όσα clusters έχουν αρκετά

ανόμοια δεδομένα3. Ένωσε όσα clusters έχουν αρκετά

όμοια δεδομένα4. Βήμα 1

Page 23: Αναγνώριση Προτύπων

ISODATA

Πλεονεκτήματα Διαθέτει δυνατότητες αυτό-οργάνωσης Ευελιξία στον να καταργεί clusters με λίγα δείγματα Ικανότητα να διαιρεί clusters με ανομοιότητες Ικανότητα να ενώνει clusters με ομοιότητεςΜειονεκτήματα Τα δεδομένα πρέπει να είναι γραμμικά διαχωριζόμενα Δύσκολος ο προκαθορισμός των παραμέτρων και

καθοριστικός Για μεγάλα σετ ή πλήθος clusters υπάρχουν καλύτεροι

αλγόριθμοι

Στην πράξη εφαρμόζεται για διάφορες παραμέτρους και επιλέγεται ο συνδυασμός με το μικρότερο τετραγωνικό σφάλμα

Page 24: Αναγνώριση Προτύπων

Ιεραρχικό clustering O k-means και ο ISODATA δημιουργούν ανεξάρτητα

clusters με αποτέσμα μια επίπεδη αναπαράσταση των δεδομένων

Μερικές φορές επιθυμούμε ιεραρχική αναπαράσταση με clusters και sub-clusters σε δεντρική δομή

Οι ιεραρχικές μέθοδοι χωρίζονται σε:– Ενωτικές (Agglomerative ή bottom-up): ξεκινούν

με Ν clusters που ενώνονται διαδοχικά μέχρι να μείνει ένα

– Διαχωριστικές (Divisive ή top-down): ξεκινούν με ένα cluster που διασπάται μέχρι να δημιουργήθούν Ν

Page 25: Αναγνώριση Προτύπων

Δεντρογράμματα

Προτιμώνται για την αναπαράσταση ιεραρχικών clusters

Το δεντρόγραμμα είναι δυαδικό δέντρο που δείχνει τη δομή των clusters

Επιπλέον δείχνει το μέτρο ομοιότητας μεταξύ clusters

Εναλλακτική αναπαράσταση είναι με σύνολα{{x1, {x2, x3}}, {{{x4, x5}, {x6, x7}}, x8}}

Τα δεντρογράμματα δεν δίνουν ποσοτική πληροφορία

Μεγάλη ομοιότητα

Μικρή ομοιότητα

Page 26: Αναγνώριση Προτύπων

Διαχωριστικό Clustering

1. Όρισε NC clusters και NEX επιθυμητό

2. Ξεκίνησε με ένα μεγάλο cluster3. Βρες «χειρότερο» cluster4. Διαίρεσε το 5. Αν NC< NEX πήγαινε στο 2

Page 27: Αναγνώριση Προτύπων

Διαχωριστικό Clustering

Επιλογή «χειρότερου» cluster– Μεγαλύτερο πλήθος δειγμάτων– Μεγαλύτερη διασπορά– Μεγαλύτερο τετραγωνικό λάθος

Διαχωρισμός clusters– Μέσο ή μεσαίο ως προς ένα χαρακτηριστικό– Κάθετα ως προς την κατεύθυνση μεγαλύτερης

διασποράς

Η διαχωριστικοί είναι πιο επίπονοι υπολογιστικά από τους ενωτικούς

Page 28: Αναγνώριση Προτύπων

Ενωτικό Clustering1. Όρισε NC clusters και NEX

επιθυμητό2. Ξεκίνησε με NC cluster ενός

μέλους3. Βρες «κοντινότερα» clusters4. Ένωσε τα 5. Αν NC>Nex πήγαινε στο 2

Page 29: Αναγνώριση Προτύπων

Ενωτικό clustering

Ελάχιστη Απόσταση Όταν χρησιμοποιείται το dmin για την

απόσταση μεταξύ clusters, πρόκειται για τον ΝΝ αλγόριθμο (single-linkage clustering)

Αν ο αλγόριθμος τρέξει μέχρι να μείνει ένα cluster έχουμε ελάχιστο δέντρο

Ευνοεί classes μεγάλου μήκους

Page 30: Αναγνώριση Προτύπων

Ενωτικό clustering

Μέγιστη Απόσταση Όταν χρησιμοποιείται το dmax

πρόκειται για τον αλγόριθμο μακρύτερου γείτονα (farthest neighbor ή complete-linkage clustering)

Κάθε cluster αποτελεί υπο-γράφο Ευνοεί συμπαγείς classes

Page 31: Αναγνώριση Προτύπων

Ενωτικό clustering

Μεσαία και μέση απόσταση Η ελάχιστη και μέγιστη απόσταση είναι

ιδιαίτερα ευαίσθητες σε outliers καθώς το μέτρο των μεταξύ κλάσεων αποστάσεων περιέχει μέγιστα ή ελάχιστα

Οι μέση και μεσαία απόσταση είναι πιο ευέλικτες

Η μεσαία απόσταση είναι πιο ελκυστική υπολογιστικά

Η μέση απόσταση περιλαμβάνει τον υπολογισμό NiNj αποστάσεων για κάθε ζεύγος cluster.

Page 32: Αναγνώριση Προτύπων

Ενωτικό clustering παράδειγμα

Εκτέλεσε ενωτικό clustering με ΝΝ για:X = {1, 3, 4, 9, 10, 13, 21, 23, 28, 29}

Ένωσε clusters με single-linkage

Page 33: Αναγνώριση Προτύπων

Ενωτικό clustering, ελάχιστη Vs. μέγιστη απόσταση

clustering 9 πόλεων στις USA