Weka - Data mining tool - Feature Extraction

  • View
    242

  • Download
    6

  • Category

    Science

Preview:

Citation preview

Πανεπιστήμιο Στερεάς ΕλλάδαςΤμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική

Εξόρυξη Δεδομένων και Ανακάλυψη Γνώσης

Θέμα Εργασίας: WEKA

Αγγελίδου Ραΐσα 010801046

Εισαγωγικά

Weka: Waikato Environment for Knowledge Analysis

Η weka είναι ένα software για εξόρυξη δεδομένων γραμμένο σε JAVA το οποίο περιέχει υλοποιημένες μεθόδους για:

Προεπεξεργασία Δεδομένων Ταξινόμηση Συσταδοποίηση Εύρεση Κανόνων Συσχέτισης

Εισαγωγικά

Είναι ένα φιλικό γραφικό περιβάλλον εργασίας Όλα τα εργαλεία του WEKA: φίλτρα, κατηγοριοποιητές,

ταξινομητές, συσχετιστές και επιλογείς χαρακτηριστικών μπορούν να παρουσιασθούν γραφικά με δισδιάστατα γραφήματα

Με βάση τις γραφικές αναπαραστάσεις των επιλεγμένων δεδομένων δοκιμάζονται και προβλέπεται η απόδοση των εναλλακτικών μοντέλων που θα επιλεγούν να χρησιμοποιηθούν τελικά για την διαμόρφωση της «θαμμένης» γνώσης.

Είναι επιλέξιμα μέσα από αναδυόμενα μενού

Εγκατάσταση

To software είναι διαθέσιμο για εγκατάστασηαπό την ιστοσελίδα:

http://www.cs.waikato.ac.nz/ml/weka/

Το παράθυρο κατηγοριοποίησης

Επιτρέπει την διαμόρφωση και την εφαρμογή των διαφόρων μοντέλων κατηγοριοποίησης στα τρέχοντα δεδομένα

Επίσης μπορεί να πραγματοποιήσει συγκριτικές μελέτες ή ελέγχους σε ομάδες δεδομένων

Μπορεί κανείς να προβάλλει τα σφάλματα της κάθε κατηγοριοποίησης με ένα αναδυόμενο μενού-εργαλείο, ενώ αν το αποτελέσματα είναι ένα δένδρο απόφασης μπορεί να προβληθεί γραφικά με ένα αναδυόμενο γραφικό περιβάλλον.

Στάδια μάθησης

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ: given examples labelled from a finite domain, generate a procedure for labelling unseen examples

ΣΥΣΧΕΤΙΣΗ: given examples labelled with a real value, generate procedure for labelling unseen examples

ΤΑΞΙΝΟΜΗΣΗ: from a set of examples, partitioning examples into “interesting” groups

Δείκτες αποτελεσματικότητας

Ειδικότητα: probability of being correct given that your decision

Ευαισθησία: probability of correctly identifying class

Ακρίβεια: # right/total

Weka environment

Weka environment

Ανοίγοντας το πρόγραμμα δίνεται η δυνατότητα να επιλεγεί ένα σύνολο δεδομένων στο οποίο μπορούν να εφαρμοστούν τεχνικές που αφορούν :

Preprocess Classify Cluster Associate Select Attributes Visualize

Επιλέγοντας ένα σύνολο δεδομένων (αρχείο .arff), εμφανίζονται γραφικά τα δεδομένα για καθένα από τα γνωρίσματα ξεχωριστά καθώς και στατιστικές πληροφορίες για αυτά.

Εάν στο σύνολο δεδομένων δίνεται και κάποια κλάση στην οποία ταξινομούνται, τα δεδομένα που ανήκουν στην ίδια κλάση εμφανίζονται με το ίδιο χρώμα

Weka environment

Αρχεία .arff

Τα αρχεία που περιέχουν το σύνολο δεδομένων πρέπει να έχουν συγκεκριμένο format και να αποθηκεύονται με την επέκταση .arff

Δεδομένα μπορούν επίσης να δοθούν από ένα URL ή από μία SQL βάση.

Παράδειγμα

Παράδειγμα- csv2arff

Weka environment

Weka environment

Weka environment

Παράδειγμα

Παράδειγμα

Οπτικοποίηση-Συσταδοποίηση δεδομένων

Από την καρτέλα visualize υπάρχει η δυνατότητα να εμφανιστεί η γραφική αναπαράσταση κάθε γνωρίσματος σε συνάρτηση με κάθε άλλο γνώρισμα

Αφού έχει επιλεγεί ένα σύνολο δεδομένων είναι δυνατόν να γίνει συσταδοποίηση (εύρεση ομάδων ‘όμοιων’ δεδομένων)

Από την καρτέλα cluster μπορεί να επιλεγεί ένας αλγόριθμος με βάση τον οποίο θα γίνει συσταδοποίηση και με το κουμπί start να αρχίσει η εκτέλεση του αλγορίθμου

Thank you!!

Recommended