30
Dendrogramme de 9 Obs. Mˇth. de Ward Carrˇ distances Euclidiennes 0,0 0,1 0,2 0,3 0,4 Dist. Agrˇgation BUFFET PELEG ABSTEN LAGU BAY LEPEN SANTINI COPE HUCHON Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες Γιάννης Παπαδημητρίου Τμήμα Εφαρμοσμένης Πληροφορικής Πανεπιστήμιο Μακεδονίας Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20- 21/06/2009 - Ιωάννινα

Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

Embed Size (px)

DESCRIPTION

Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες. Γιάννης Παπαδημητρίου Τμήμα Εφαρμοσμένης Πληροφορικής Πανεπιστήμιο Μακεδονίας. Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/2009 - Ιωάννινα. Περιεχόμενο Εισήγησης. - PowerPoint PPT Presentation

Citation preview

Page 1: Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

Dendrogramme de 9 Obs.

Mˇth. de Ward

Carrˇ distances Euclidiennes

0,0 0,1 0,2 0,3 0,4

Dist. Agrˇgation

BUFFET

PELEG

ABSTEN

LAGU

BAY

LEPEN

SANTINI

COPE

HUCHON

Η Ανάλυση Δεδομένωνστις Κοινωνικές Επιστήμες

Η Ανάλυση Δεδομένωνστις Κοινωνικές Επιστήμες

Γιάννης Παπαδημητρίου Τμήμα Εφαρμοσμένης Πληροφορικής

Πανεπιστήμιο Μακεδονίας

Γιάννης Παπαδημητρίου Τμήμα Εφαρμοσμένης Πληροφορικής

Πανεπιστήμιο ΜακεδονίαςΣεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/2009 - Ιωάννινα

Page 2: Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

Μέθοδοι της Ανάλυσης Δεδομένων: Αρχές, Χαρακτηριστικά, Χρησιμότητα

Ποιοτικοποίηση Ποσοτικών Μεταβλητών

Ποσοτικοποίηση Ποιοτικών Μεταβλητών

Η Παραγοντική Ανάλυση των Αντιστοιχιών και

Η Ανιούσα Ιεραρχική Ταξινόμηση

Περιεχόμενο ΕισήγησηςΠεριεχόμενο Εισήγησης

Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/2009 - Ιωάννινα

1

Page 3: Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

Η Ανάλυση Δεδομένων (ΑΔ) είναι ένας σχετικά νέος κλάδος της Στατιστικής ενταγμένη μέσα στον ευρύτερο χώρο της Πολυμεταβλητής Στατιστικής Ανάλυσης και γνώρισε ραγδαία εξέλιξη, κυρίως στη Γαλλία μετά το 1970. Σήμερα η ΑΔ μελετάται, διδάσκεται και παρακολουθείται σ’ όλους σχεδόν τους επιστημονικούς κλάδους.

Η μεγάλη ανάγκη που υπάρχει σε πολλές επιστήμες για πλήρη επεξεργασία μεγάλου όγκου δεδομένων και η κατάληξη σε χρήσιμα συμπεράσματα, οδήγησε στην εξέλιξη και διάδοση των μεθόδων της ΑΔ.

Πίνακες δεδομένων μεγάλων διαστάσεων είναι διαθέσιμοι για άμεση στατιστική επεξεργασία. Τα δεδομένα των πινάκων αυτών είναι συνήθως ετερογενή και πολύ συχνά δεν ακολουθούν κάποια από τις γνωστές κατανομές πιθανοτήτων.

Η Ανάλυση ΔεδομένωνΗ Ανάλυση Δεδομένων

2Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/2009 - Ιωάννινα

Page 4: Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

Οι πιο γνωστές και διαδεδομένες μέθοδοι της ΑΔ είναι:

• Διερευνητική Ανάλυση Παραγόντων (Exploratory Factor Analysis)• Ανάλυση σε Κύριες Συνιστώσες (Principal Component Analysis)• Παραγοντική Ανάλυση των Αντιστοιχιών (Correspondence

Analysis)• Ιεραρχική Ταξινόμηση ή Ανάλυση Συστάδων (Hierarchical Cluster

Analysis)• Πολυδιάστατη Κλιμακοποίηση (Multidimensional Scaling)

Μέθοδοι της Ανάλυσης Δεδομένων (1)Μέθοδοι της Ανάλυσης Δεδομένων (1)

3

Χρησιμοποιούνται όταν το ενδιαφέρον του ερευνητή είναι η ανάδειξη της κρυφής δομής ενός συνόλου δεδομένων, χωρίς τη διάκριση των μεταβλητών σε εξαρτημένες και ανεξάρτητες και χωρίς αυστηρές a priori υποθέσεις ή προϋποθέσεις.

Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/2009 - Ιωάννινα

Page 5: Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

Η ΑΔ έχει να προσφέρει αρκετά πλεονεκτήματα, τα οποία μπορούν να συμβάλλουν στην επιτυχημένη διεξαγωγή πολλών φάσεων της επιστημονικής έρευνας:

Ο μη παραμετρικός χαρακτήρας των μεθόδων, οι οποίες έχουν ελάχιστες τεχνικές προϋποθέσεις και δεν απαιτούν τα διαθέσιμα δεδομένα να χαρακτηρίζονται από συγκεκριμένες στατιστικές ιδιότητες.

Η δυνατότητα των μεθόδων να χειριστούν και ποιοτικά χαρακτηριστικά.

Η δυνατότητα ανάδειξης τόσο γραμμικών όσο και μη γραμμικών σχέσεων μεταξύ των μεταβλητών, ανάλογα με τα δεδομένα.

Τα παραγόμενα στατιστικά αποτελέσματα έχουν απτή φυσική ερμηνεία και είναι δυνατό να αναδείξουν φανερές ή όχι σχέσεις των ιδιοτήτων που περιγράφουν το υπό μελέτη φαινόμενο. 4

Μέθοδοι της Ανάλυσης Δεδομένων (2)Μέθοδοι της Ανάλυσης Δεδομένων (2)

Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/2009 - Ιωάννινα

Page 6: Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

Στάδια Εφαρμογής των ΜεθόδωνΣτάδια Εφαρμογής των Μεθόδων

1.Ομογενοποίηση των δεδομένων (ποιοτικοποίηση των ποσοτικών δεδομένων)

2.Κωδικοποίηση των δεδομένων (μετατροπή πινάκων δεδομένων σε κατάλληλους πίνακες με στοιχεία σε κοινή μονάδα μέτρησης)

3.Ερμηνεία των Αριθμητικών και Γραφικών Αποτελεσμάτων (ποσοτικοποίηση των ποιοτικών δεδομένων)

Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/2009 - Ιωάννινα

5

Page 7: Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

1000 1500 3000 μηνιαίο εισόδημα x

x≤1500 1500<x≤3000 x>3000

χαμηλό μέσο υψηλό

Σχήμα 1.α

ευρώ

60 80 120 επιφάνεια κατοικίας y

x≤1500

πολύ μικρό μεσαίο μεγάλο

Σχήμα 1.β

τ.μ.

200

80<y≤12060<y≤80

120<y 200 y>200

μικρό πολύ μεγάλο

30 55

z ≤30 30<z ≤55 z >55

μέσης ηλικίας μεγάλοι

Σχήμα 1.γ

ηλικία z

μικροί

έτη

Ομογενοποίηση των Δεδομένων (1)Ομογενοποίηση των Δεδομένων (1)

Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/2009 - Ιωάννινα

6

Page 8: Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

min(x) x1 max(x)

33.3% 33.3%

Σχήμα 2.α

x2

x33.3%

min(x) x1 max(x)

25% 50%

Σχήμα 2.β

x2

x25%

Ομογενοποίηση των Δεδομένων (2)Ομογενοποίηση των Δεδομένων (2)

Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/2009 - Ιωάννινα

7

Page 9: Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

Μεταβλητή Α

(είδος διακοπών) Μεταβλητή Β

(επάγγελμα πατέρα)Μεταβλητή Γ

(φύλο)

Α1: Ξενοδοχείο (1)

Α2: Οργανωμένη εκδρομή (2)

Α3: Ενοικιαζόμενο δωμάτιο (3)

Α4: Κάμπινγκ οργανωμένο (4)

Α5: Ελεύθερο κάμπινγκ (5)

Α6: Δεν πήγα διακοπές (6)

Α7:Στο εξοχικό της οικογένειας (7)

Β1: Μισθωτός (1)

Β2: Ελ.επ. επιστήμονας (2)

Β3: Συνταξιούχος (3)

Β4: Εργάτης, τεχνίτης, αγρότης (4)

Β5: Εισοδηματίας (5)

Β6: Ελεύθερος επαγγελματίας (6)

Γ1: Αγόρι (1)

Γ2: Κορίτσι (2)

Κωδικοποίηση των ΔεδομένωνΚωδικοποίηση των Δεδομένων

Έστω ο αρχικός πίνακας δεδομένων που περιγράφει το φαινόμενο των διακοπών 138 φοιτητών με 3 μεταβλητές, με την παρακάτω κωδικοποίηση:

Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/2009 - Ιωάννινα

8

Page 10: Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

Αρχικός Πίνακας ΔεδομένωνΑρχικός Πίνακας Δεδομένων

Α/Α Α Β Γ

1 1 2 1

2 2 2 1

3 3 1 2

4 3 3 2

5 4 3 2

6 4 1 2...

......

...

136 6 6 2

137 4 1 1

138 4 1 2

Ο αρχικός πίνακας δεδομένων που περιγράφει το φαινόμενο των διακοπών 138 φοιτητών με 3 μεταβλητές.

Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/2009 - Ιωάννινα

9

Page 11: Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

Κατασκευή Λογικού Πίνακα 0-1 (1)Κατασκευή Λογικού Πίνακα 0-1 (1)

Α

1

1. Δημιουργούμε μία στήλη – κλάση – ιδιότητα για κάθε μεταβλητή

Μετ. Α 7 κλάσεις

0 0 0 0

A1 A2 A3 A4 A5 A6 A7 B1 B2 B3 B4 B5 B6 Γ1 Γ2

Μετ. Γ 2 κλάσεις

Μετ. Β 6 κλάσεις

2. Μεταφορά κάθε γραμμής δεδομένων του αρχικού πίνακα στον πίνακα 0-1. Κάθε αριθμός γίνεται σχετική θέση στον 0-1.

0 0 0 0 0 0 1 0

Γ

1

Β

2

Α/Α

1

1

1

2 1

1 10

Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/2009 - Ιωάννινα

10

Page 12: Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

Κατασκευή Λογικού Πίνακα 0-1 (2)Κατασκευή Λογικού Πίνακα 0-1 (2)

A1 A2 A3 A4 A5 A6 A7 B1 B2 B3 B4 B5 B6 Γ1 Γ2

1 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0

2 0 1 0 0 0 0 0 0 1 0 0 0 0 1 0

3 0 0 1 0 0 0 0 1 0 0 0 0 0 0 1

4 0 0 1 0 0 0 0 0 0 1 0 0 0 0 1

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

136 0 0 0 0 0 1 0 0 0 0 0 0 1 0 1

137 0 0 0 1 0 0 0 1 0 0 0 0 0 1 0

138 0 0 0 1 0 0 0 1 0 0 0 0 0 0 1

Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/2009 - Ιωάννινα

11

Page 13: Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

0 0 0 0

A2 A3 A4 A5 A6 A7 B3 B4 B5 B6 Γ2

0 0 0 0 0 0 1 01 1 10

A1 Γ1B1 B2

Α1 Α2 Α3 Α4 Α5 Α6 Α7 Β1 Β2 Β3 Β4 Β5 Β6 Γ1 Γ2

Α1 12 0 0 0 0 0 0 0 8 0 0 4 0 9 3

Α2 0 6 0 0 0 0 0 0 4 0 0 2 0 2 4

Α3 0 0 38 0 0 0 0 16 0 10 6 0 6 21 17

Α4 0 0 0 34 0 0 0 14 0 10 4 0 6 18 16

Α5 0 0 0 0 10 0 0 4 4 0 0 0 2 4 6

Α6 0 0 0 0 0 24 0 8 0 4 0 0 12 14 10

Α7 0 0 0 0 0 0 14 6 0 2 6 0 0 8 6

Β1 0 0 16 14 4 8 6 48 0 0 0 0 0 24 24

Β2 8 4 0 0 4 0 0 0 16 0 0 0 0 10 6

Β3 0 0 10 10 0 4 2 0 0 26 0 0 0 20 6

Β4 0 0 6 4 0 0 6 0 0 0 16 0 0 8 8

Β5 4 2 0 0 0 0 0 0 0 0 0 6 0 3 3

Β6 0 0 6 6 2 12 0 0 0 0 0 0 26 11 15

Γ1 9 2 21 18 4 14 8 24 10 20 8 3 11 76 0

Γ2 3 4 17 16 6 10 6 24 6 6 8 3 15 0 62

Κατασκευή Γενικευμένου Πίνακα Συμπτώσεων Κατασκευή Γενικευμένου Πίνακα Συμπτώσεων ((Burt)Burt)

Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/2009 - Ιωάννινα

12

Page 14: Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

Απλός Πίνακας Συμπτώσεων Δύο Μεταβλητών Απλός Πίνακας Συμπτώσεων Δύο Μεταβλητών

12

6

38

34

10

24

14

Μισθωτός

Ελ.Επαγγ.

Επιστημ.

Συνταξ.

Εργ.Τεχ.

Αγρ.

Εισοδημ.

Ελ.Επαγγ.

B1 B2 B3 B4 B5 B6

Ξενοδοχ. Α1 0 8 0 0 4 0Οργ.Εκδρ Α2 0 4 0 0 2 0Δωμάτια Α3 16 0 10 6 0 6Κάμπινγκ Α4 14 0 10 4 0 6Ελ.Κάμπ Α5 4 4 0 0 0 2

ΟΧΙ Α6 8 0 4 0 0 12Εξοχικό Α7 6 0 2 6 0 0

48 16 26 16 6 26

Περιθώρια γραμμή Περιθώρια

στήλη

«Είδος Διακοπών» ως προς «Επάγγελμα Πατέρα»

Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/2009 - Ιωάννινα

13

Page 15: Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

Κωδικοποίηση Δεδομένων (συνοπτικά)Κωδικοποίηση Δεδομένων (συνοπτικά)

Αρχικός Πίνακας Δεδομένων

Πίνακας BurtΛογικός Πίνακας (0-1)«αντικείμενα x μεταβλητές»

Απλός Πίνακας Συμπτώσεων

Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/2009 - Ιωάννινα

14

Page 16: Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

Η Παραγοντική Ανάλυση των ΑντιστοιχιώνΗ Παραγοντική Ανάλυση των Αντιστοιχιών

Η Παραγοντική Ανάλυση των Αντιστοιχιών (Correspondence Analysis, Analyse Factorielle des Corespondances) θεωρείται ως μία περιγραφική μέθοδος για τη διερεύνηση της σχέσης μεταξύ δύο ή περισσότερων κατηγορικών μεταβλητών χωρίς αυστηρές a priori υποθέσεις ή προϋποθέσεις.

Πρωταρχικός σκοπός της μεθόδου είναι η ανάδειξη και οπτικοποίηση της ενδογενούς δομής των δεδομένων η οποία δεν είναι άμεσα αντιληπτή, αλλά βρίσκεται σε λανθάνουσα μορφή και μάλιστα χωρίς τη χρήση στατιστικών ελέγχων σημαντικότητας για την απόρριψη ή όχι υποθέσεων σχετικά με αυτά.

Η μέθοδος χρησιμοποιείται για την ανάλυση ποιοτικών δεδομένων, τα οποία μπορούν να οργανωθούν σε απλούς και σύνθετους πίνακες συνάφειας ή διπλής εισόδου.

Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/2009 - Ιωάννινα

15

Page 17: Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

Ο πρώτος παραγοντικός άξοναςΟ πρώτος παραγοντικός άξονας* Εφαρμογή της ΠΑΑ στον Πίνακα Burt

Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/2009 - Ιωάννινα

16

Page 18: Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

Ο δεύτερος παραγοντικός άξοναςΟ δεύτερος παραγοντικός άξονας* Εφαρμογή της ΠΑΑ στον Πίνακα Burt

Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/2009 - Ιωάννινα

17

Page 19: Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

Το παραγοντικό επίπεδο 1x2Το παραγοντικό επίπεδο 1x2* Εφαρμογή της ΠΑΑ στον Πίνακα Burt

Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/2009 - Ιωάννινα

18

Page 20: Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

Το παραγοντικό επίπεδο 1x2Το παραγοντικό επίπεδο 1x2* Εφαρμογή της ΠΑΑ στον Απλό Πίνακα Συμπτώσεων 7x6

Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/2009 - Ιωάννινα

19

Page 21: Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

Άξονας Χαρακτ. τιμή

%Ερμηνείας

Αθρ. %Ερμηνείας

Ιστόγραμμα χαρακτ. ριζών

e1 λ1= 0.417 0.259 0.259 ****************************************

e2 λ2= 0.237 0.146 0.406 ***********************

e3 λ3= 0.194 0.120 0.526 ****************

e4 λ4= 0.158 0.097 0.624 ***************

e5 λ5= 0.139 0.086 0.710 ***********

e6 λ6= 0.112 0.069 0.780 ***********

e7 λ7= 0.110 0.068 0.849 ***********

e8 λ8= 0.091 0.051 0.905 ********

e9 λ9= 0.067 0.045 0.947 *******

e10 λ10= 0.051 0.022 0.979 ****

e11 λ11= 0.033 0.002 0.999 *

e12 λ12= 0.000 0.002 1.00 *

Πίνακας ΙδιοτιμώνΠίνακας Ιδιοτιμών* Εφαρμογή της ΠΑΑ στον Πίνακα Burt

Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/2009 - Ιωάννινα

20

Page 22: Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

#F1 COR CTR #F2 COR CTR #F3 COR CTR #F4 COR CTR

ΞΕΝΟΔ -2393 720 262 132 2 1 -430 23 21 118 1 1

ΟΡΓ.ΕΚ -2393 417 128 132 1 0 -430 13 10 118 1 0

ΔΩΜΑΤ 454 144 30 232 37 14 -159 17 9 -188 57 33

ΚΑΜΠ 453 124 26 55 1 0 -305 56 30 -554 186 110

ΕΛ.ΚΑΜ -646 60 15 -502 36 17 2018 588 392 -572 47 34

ΟΧΙ 424 65 16 -1219 535 242 -111 4 2 762 209 146

ΕΞΟΧΙΚΟ 474 44 11 1512 453 217 467 43 29 1073 228 168

ΜΙΣΘ 384 145 27 83 6 2 300 89 41 -259 65 33

ΕΛ.ΕΠ.ΕΠ -2087 737 264 -58 0 0 824 115 103 -321 17 17

ΣΥΝΤ 481 99 23 87 3 1 -717 221 129 -731 230 146

ΕΡ.ΤΕΧ.ΑΓ 492 55 14 1480 499 237 179 7 4 925 195 142

ΕΙΣΟΔ -2553 454 145 294 6 3 -1934 260 210 700 34 30

ΕΛ.ΕΠ 379 57 14 -1185 558 250 -11 0 0 673 180 124

Στατιστική Ανάλυση Δεδομένων

Συντεταγμένες και δείκτες ερμηνείας γραμμών/στηλών

Συντεταγμένες και δείκτες ερμηνείας γραμμών/στηλών

* Εφαρμογή της ΠΑΑ στον Πίνακα Burt

Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/2009 - Ιωάννινα

21

Page 23: Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

Με την εφαρμογή της Αυτόματης ή Ανιούσας Ιεραρχικής Ταξινόμησης (ΑΙΤ) σ’ έναν πίνακα δεδομένων καταφέρνουμε να διαμελίσουμε τον πληθυσμό σ’ έναν αριθμό ομάδων, τάξεων ή κλάσεων που είναι ομοιογενείς ως προς τις μεταβλητές που επιλέχθηκαν να τον περιγράφουν.

Ο διαμελισμός ενός πληθυσμού με την Ταξινόμηση διασφαλίζει μια συνοπτική και δομημένη εικόνα του φαινομένου που περιγράφει ο πίνακας δεδομένων που αναλύεται.

Το αποτέλεσμα της ΑΙΤ είναι το δενδρόγραμμα ιεράρχησης.

Ως μετρική της απόστασης μεταξύ των αντικειμένων χρησιμοποιείται η χ2 και ως κριτήριο συνένωσης των κλάσεων αυτό του Ward.

Η Ανιούσα Ιεραρχική Ταξινόμηση συμπληρώνει τα αποτελέσματα της Παραγοντικής Ανάλυσης των Αντιστοιχιών.

Η Ανιούσα Ιεραρχική ΤαξινόμησηΗ Ανιούσα Ιεραρχική Ταξινόμηση

Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/2009 - Ιωάννινα

22

Page 24: Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

Το δενδρόγραμμα ιεράρχησηςΤο δενδρόγραμμα ιεράρχησης

Το δενδρόγραμμα δημιουργείται με τις διαδοχικές συνενώσεις, αρχικά των δύο πιο όμοιων αντικειμένων και στη συνέχεια των κλάσεων, μέχρι να φτάσουμε στον αρχικό κόμβο, δηλαδή το μέσο αντικείμενο του κόμβου – κλάσης που περιλαμβάνει το σύνολο των αρχικών αντικειμένων.

Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/2009 - Ιωάννινα

23

Page 25: Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

Το δενδρόγραμμα ιεράρχησηςΤο δενδρόγραμμα ιεράρχησης

Στόχος της μεθόδου είναι να δημιουργήσει όσο το δυνατό πιο εσωτερικά συμπαγείς ομάδες και ταυτόχρονα ανομοιογενείς μεταξύ τους ομάδες.

Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/2009 - Ιωάννινα

24

Page 26: Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

ΚόμβοςA BΕπίπεδο εi

Εσωταξική αδράνεια

Διαταξική αδράνεια

% μεταβολής

8 1 2 0 0 1,1599 0

9 3 4 0,0027 0,0027 1,1571 0,0024

10 9 7 0,0822 0,085 1,0749 0,0709

11 5 6 0,1032 0,1882 0,9717 0,089

12 10 11 0,1633 0,3515 0,8083 0,1408

13 8 12 0,8083 1,1599 0 0,6969

Περιγραφή των Κόμβων της ΤαξινόμησηςΠεριγραφή των Κόμβων της Ταξινόμησης* Εφαρμογή στον Απλό Πίνακα Συμπτώσεων 7x6

Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/2009 - Ιωάννινα

25

Page 27: Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

Δείκτες ερμηνείας των αποτελεσμάτωνΔείκτες ερμηνείας των αποτελεσμάτων

Κόμβος   13    12    11A   8    10    5B   12    11    6Βάρος   1000    870    246Ιδιότητες X(13) COR(13) CTR(13) X(12) COR(12) CTR(12) X(11) COR(11)Μισθωτός 348 0 0 400 65 124 353 0Ελ.Επαγγ.Επ. 116 0 0 33 485 106 118 0Συνταξιούχος 188 0 0 217 35 59 118 59Εργ.Τεχ.Αγρ. 116 0 0 133 22 17 0 257Εισοδημ. 43 0 0 0 359 130 0 96Ελ.Επαγγ. 188 0 0 217 35 27 412 587

Κόμβος   13    12    11A   8    10    5B   12    11    6Βάρος   1000    870    246

ΙδιότητεςDX(13)

COD(13)

CTD(13)

DX(12)

COD(12)

CTD(12)

DX(11)

COD(11)

Μισθωτός -400 65 947 66 13 35 67 6Ελ.Επαγγ.Επιστήμ. 633 485 811 -118 129 38 400 684Συνταξιούχος -217 35 452 138 110 249 -167 73Εργ.Τεχ.Αγρ. -133 22 130 186 323 344 0 0Εισοδημ. 333 359 1000 0 0 0 0 0Ελ.Επαγγ. -217 35 209 -272 425 448 -300 237

Συμβολή των ιδιοτήτων – μεταβλητών στο χαρακτηρισμό των κόμβων

Συμβολή των ιδιοτήτων – μεταβλητών στη διάσπαση των κόμβων

* Εφαρμογή στον Απλό Πίνακα Συμπτώσεων 7x6

Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/2009 - Ιωάννινα

26

Page 28: Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

Ενδεικτική Βιβλιογραφία (1)Ενδεικτική Βιβλιογραφία (1)

Ξενόγλωσση

- Blasius, J. & Greenacre, M.J. (2006). Multiple Correspondence Analysis and Related Methods, London: Chapman and Hall.- Clausen, S.-E. (1998). Applied Correspondence Analysis: An Introduction. Sage University Papers Series on Quantitative Applications in the Social Sciences, 07-121, Thousand Oakes, CA: Sage.- Gifi, A. (1996). Non-Linear Multivariate Analysis. Chichester: John Willey & Sons Ltd.- Greenacre, M.J. (1984). Theory and Applications of Correspondence Analysis. London: Academic Press.- Greenacre, M.J. (1993, 2007). Correspondence Analysis in Practice. London: Academic Press.- Le Roux. B. & Rouanet, H. (2004). Geometric Data Analysis: From Correspondence Analysis to Structured Data Analysis. Dordrecht: Kluwer Academic Publishers.

Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/2009 - Ιωάννινα

27

Page 29: Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

Ενδεικτική Βιβλιογραφία (2)Ενδεικτική Βιβλιογραφία (2)

Ελληνόγλωσση

-Αθανασιάδης, Η. (1995). Παραγοντική Ανάλυση Αντιστοιχιών και Ιεραρχική Ταξινόμηση. Εκδόσεις Νέων Τεχνολογιών, Αθήνα.-Δρόσος, Γ. (2006). Στατιστική & Ανάλυση Δεδομένων. Εκδόσεις Ανικούλα, Θεσσαλονίκη.-Καραπιστόλης, Δ. (1999). Ανάλυση Δεδομένων και Έρευνα Αγοράς. Εκδόσεις Ανικούλα, Θεσσαλονίκη.-Μαυρομάτης, Γ. (1999). Στατιστικά Μοντέλα και Μέθοδοι Ανάλυσης Δεδομένων. University Studio Press, Θεσσαλονίκη.-Μπεχράκης, Θ. (1999). Πολυδιάστατη Ανάλυση Δεδομένων: Μέθοδοι και Εφαρμογές. Εκδόσεις Νέα Σύνορα – Α.Α. Λιβάνης, Αθήνα.-Παπαδημητρίου, Γ. (2007). Η Ανάλυση Δεδομένων. Εκδόσεις τυπωθήτω. Αθήνα.

Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/2009 - Ιωάννινα

28

Page 30: Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

Dendrogramme de 9 Obs.

Mˇth. de Ward

Carrˇ distances Euclidiennes

0,0 0,1 0,2 0,3 0,4

Dist. Agrˇgation

BUFFET

PELEG

ABSTEN

LAGU

BAY

LEPEN

SANTINI

COPE

HUCHON

Ευχαριστώ για την προσοχή σαςΕυχαριστώ για την προσοχή σας

#fin