Odigos-SPSS-Pramaggioulis

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ

___________ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ

Ο∆ΗΓΟΣ ΑΝΑΛΥΣΗΣ ∆Ε∆ΟΜΕΝΩΝ ΜΕ ΤΗ ΧΡΗΣΗ SPSS

Πραµαγγιούλης Παναγιώτης

ΙΟΥΛΙΟΣ 2008

1

2

ΠΕΡΙΕΧΟΜΕΝΑ

1. ΕΙΣΑΓΩΓΗ………………………………………………………………………………….4

2. ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ……………………………………………………….………10

2.1 ΟΝΕ-SAMPLE T-TEST…………………………………………..……………10

2.2 CHI-SQUARE (ΕΛΕΓΧΟΣ Χ2 )………………………………………………11

2.3 Τ-TEST ∆ΥΟ ∆ΕΙΓΜΑΤΑ ΑΝΕΞΑΡΤΗΤΑ……………………………….. 14

2.4 PAIRED T-TEST………………………………………………………………..16

2.5 ΕΛΕΓΧΟΣ ΚΑΝΟΝΙΚΟΤΗΤΑΣ……………………………………………….18

2.6 ΕΛΕΓΧΟΣ KRUSKAL-WALLIS………………………………………………20

2.7 ONE-WAY ANOVA…………………………………………………………….22

2.8 ΕΛΕΓΧΟΣ ΥΠΑΡΞΗΣ ΓΡΑΜΜΙΚΗΣ

ΣΥΣΧΕΤΙΣΗΣ ΜΕΤΑΞΥ ΜΕΤΑΒΛΗΤΩΝ…………………………………..25

3. ΑΝΑΛΥΣΗ ΣΥΝΕΧΩΝ ΜΕΤΑΒΛΗΤΩΝ……………………………………………..29

3.1 ΓΕΝΙΚΑ ΣΤΟΙΧΕΙΑ……..…………………………………………………….29

3.2 ΠΕΡΙΓΡΑΦΙΚΑ ΜΕΤΡΑ………………………………………………………30

3.3 ΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ∆ΡΟΜΗΣΗ……………………………………32

3.4 ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ∆ΡΟΜΗΣΗ……………………………43

3.5 ΑΝΑΛΥΣΗ ∆ΙΑΚΥΜΑΝΣΗΣ (ANOVA)……………………………………66

3.5.1 ΑΝΑΛΥΣΗ ∆ΙΑΚΥΜΑΝΣΗΣ

ΚΑΤΑ ΕΝΑ ΠΑΡΑΓΟΝΤΑ……………………………………………….66

4. ΑΝΑΛΥΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ∆Ε∆ΟΜΕΝΩΝ……………………………………….84

1.1 ΓΕΝΙΚΑ ΣΤΟΙΧΕΙΑ……………………………………………………………84

2.2 ΠΕΡΙΓΡΑΦΙΚΑ ΜΕΤΡΑ ΓΙΑ ΚΑΤΗΓΟΡΙΚΑ

∆Ε∆ΟΜΕΝΑ……………………………………….…………………………….85

3.3 ΕΛΕΓΧΟΣ ΑΝΕΞΑΡΤΗΣΙΑΣ ΜΕ

ΤΗΝ ΚΑΤΑΝΟΜΗ Χ2 ………………………………………………………….88

4.3.1 ΕΛΕΓΧΟΣ ΑΝΕΞΑΡΤΗΣΙΑΣ Χ2

ΤΟΥ PEARSON…………………………………………………………….88

4.4 RELATIVE RISK………………………………………….……………………91

4.5 ΣΥΓΚΡΙΣΗ ΕΞΑΡΤΗΜΕΝΩΝ ΠΟΣΟΣΤΩΝ……………………………….95

4.6 ΛΟΓΙΣΤΙΚΗ ΠΑΛΙΝ∆ΡΟΜΗΣΗ…………………………………………….98

5. ΠΟΛΥΜΕΤΑΒΛΗΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ………………………………….105

5.1 ΠΑΡΑΓΟΝΤΙΚΗ ΑΝΑΛΥΣΗ………………………………………………..105

1.1.1 ΤΟ ΟΡΘΟΓΩΝΙΟ ΜΟΝΤΕΛΟ……………………….…………………105

3

2.1.2 ΥΠΟΘΕΣΕΙΣ ΟΡΘΟΓΩΝΙΟΥ ΜΟΝΤΕΛΟΥ……..…………………106

3.1.3 ΕΛΕΓΧΟΣ ΣΥΣΧΕΤΙΣΕΩΝ……………………………………………..107

4.1.4 ΑΡΙΘΜΟΣ ΚΑΙ ΕΚΤΙΜΗΣΗ ΠΑΡΑΓΟΝΤΩΝ………………………108

5.1.5 ΚΡΙΤΗΡΙΑ ΕΠΙΛΟΓΗΣ ΜΟΝΤΕΛΟΥ………………………………..111

6.1.6 ΠΕΡΙΣΤΡΟΦΗ…………………………………………………………….111

7.1.7 ΥΠΟΛΟΓΙΣΜΟΣ ΤΩΝ SCORES ΤΩΝ ΠΑΡΑΓΟΝΤΩΝ……………112

8.1.8 ΜΗ ΟΡΘΟΓΩΝΙΑ ΠΑΡΑΓΟΝΤΙΚΗ ΑΝΑΛΥΣΗ……………………113

9.1.9 ΤΕΛΙΚΑ ΣΥΜΠΕΡΑΣΜΑΤΑ…………………………………………….114

6. ΠΟΛΥΜΕΤΑΒΛΗΤΕΣ ΣΤΑΤΙΣΤΙΚΕΣ ΤΕΧΝΙΚΕΣ……………………………….131

6.1 ∆ΙΑΧΩΡΙΣΤΙΚΗ ΑΝΑΛΥΣΗ (DISCRIMINANT ANALYSIS)…..….131

1.1.1 ΑΛΛΕΣ ΜΕΘΟ∆ΟΙ ΠΑΡΟΜΟΙΕΣ

ΜΕ ΤΗ ∆ΙΑΧΩΡΙΣΤΙΚΗ ΑΝΑΛΥΣΗ…………………………………148

6.1.1.1 ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ∆ΡΟΜΗΣΗ……………………………..148

6.1.1.2 Η ΜΕΘΟ∆ΟΣ ΚΟΝΤΙΝΟΤΕΡΟΥ

ΓΕΙΤΟΝΑ (Κ-NEAREST NEIGHBORS)……………………149

6.1.1.3 ΛΟΓΙΣΤΙΚΗ ΠΑΛΙΝ∆ΡΟΜΗΣΗ………….………………….149

6.1.1.4 ∆ΕΝ∆ΡΑ ΑΠΟΦΑΣΕΩΝ (CART)……………………………150

6.1.1.5 ΝΕΥΡΩΝΙΚΑ ∆ΙΚΤΥΑ…………………………………………151

6.1.1.6 PROBIT REGRESSION……………………………………….151

6.2 ΑΝΑΛΥΣΗ ΚΑΤΑ ΣΥΣΤΑ∆ΕΣ (CLUSTER ANALYSIS)………………152

6.2.1 ΠΡΟΒΛΗΜΑΤΑ ΠΟΥ ΠΡΕΠΕΙ

ΝΑ ΑΝΤΙΜΕΤΩΠΙΣΕΙ Ο ΕΡΕΥΝΗΤΗΣ……………………………..153

6.2.2 ΑΝΑΛΥΣΗ ΜΕΘΟ∆ΩΝ CLUSTERING………………………………155

6.3 ΑΝΑΛΥΣΗ ΑΝΤΙΣΤΟΙΧΕΙΩΝ

(CORRESPONDENCE ANALYSIS)………………………………………174

6.3.1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ…………………………..………………………..177

7. ΜΟΝΤΕΛΑ ∆ΕΙΓΜΑΤΟΛΗΠΤΙΚΩΝ ΕΡΕΥΝΩΝ………………………………..187

7.1 ΕΙΣΑΓΩΓΙΚΑ…………………………………………………………………..187

7.2 ΤΥΠΟΙ ∆ΕΙΓΜΑΤΟΛΗΨΙΑΣ……………………………………………….187

7.2.1 ΤΥΧΑΙΑ ∆ΕΙΓΜΑΤΟΛΗΨΙΑ

(RANDOM SAMPLING)……………………………………………….188

7.3 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΤΥΧΑΙΑΣ ∆ΕΙΓΜΑΤΟΛΗΨΙΑΣ………………..188

7.4 ΠΙΘΑΝΟΤΗΤΕΣ ΕΠΙΛΟΓΗΣ ΤΩΝ ΜΟΝΑ∆ΩΝ

(INCLUSION PROBABILITIES)…………………………………………189

7.5 ΣΦΑΛΜΑΤΑ ∆ΕΙΓΜΑΤΟΛΗΠΤΙΚΗΣ ΕΡΕΥΝΑΣ………………………191

4

7.6 ΠΛΑΙΣΙΟ ∆ΕΙΓΜΑΤΟΛΗΨΙΑΣ (SAMPLING FRAME)………………193

7.6.1 Ι∆ΙΟΤΗΤΕΣ ΠΛΑΙΣΙΟΥ……………………………………….……….194

7.6.2 ΚΥΡΙΕΣ ΑΤΕΛΕΙΕΣ ΠΑΛΙΣΙΩΝ………………………….…………..195

7.6.3 ΚΡΙΤΗΡΙΑ ΕΠΙΛΟΓΗΣ ΠΛΑΙΣΙΟΥ………………………………….195

7.7 ΣΧΕ∆ΙΑΣΜΟΣ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ……………………………..……196

7.7.1 ΕΙΣΑΓΩΓΙΚΑ…………………………………………………….……….196

7.7.2 ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ ΣΤΟΝ ΣΧΕ∆ΙΑΣΜΟ

ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ………………………………………………….196

7.7.3 ΤΙ ΠΡΕΠΕΙ ΝΑ ΑΠΟΦΕΥΘΧΕΙ

ΣΕ ΕΝΑ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ…………………………………………197

7.7.4 ΤΟ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΩΣ ΣΥΝΟΛΟ……………………………..198

7.7.5 ∆ΟΚΙΜΕΣ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ……………………………………198

7.8 ΣΧΕ∆ΙΑΣΜΟΙ ∆ΕΙΓΜΑΤΟΛΗΨΙΑΣ……………………………………..199

7.8.1 ΑΠΛΗ ΤΥΧΑΙΑ ∆ΕΙΓΜΑΤΟΛΗΨΙΑ

(SIMPLE RANDOM SAMPLING)……………………………………199

7.8.2 ΣΤΡΩΜΑΤΙΚΗ ∆ΕΙΓΜΑΤΟΛΗΨΙΑ

(STRATIFIED SAMPLING)…………………………………………..205

8. ΠΡΟΒΛΕΨΕΙΣ………………………………………………………………………….214

ΒΙΒΛΙΟΓΡΑΦΙΑ

5

1. Εισαγωγή

Σκοπός του παρόντος οδηγού είναι να παρουσιάσουµε βήµα-βήµα πώς να

αντιµετωπίζουµε µε βασικές στατιστικές µεθόδους χρησιµοποιώντας το στατιστικό

πακέτο SPSS την αρχική ανάλυση ενός αρχείου που περιέχει κατηγορικές και/ ή

ποσοτικές µεταβλητές (είτε ένα ερωτηµατολόγιο, είτε ένα αρχείο που να ταξινοµεί

περιστατικά σε κατηγορίες κ.α.). Επίσης, ο οδηγός περιγράφει µε σαφή πρακτικά

βήµατα, πως µπορούµε να βρίσκουµε συσχετίσεις µεταξύ µεταβλητών µε απλούς ή

σύνθετους ελέγχους υποθέσεων και τι άλλες σχετικές µεθοδολογίες µπορούµε να

εφαρµόσουµε.

Επιπλέον, στο τέλος κάθε ενότητας, στην οποίο έχει αναλυθεί µία µέθοδος, περιέχει

και ένα σχετικό παράδειγµα, µια εφαρµογή µε αναλυτική περιγραφή το πώς γίνεται

βήµα-βήµα η ανάλυση της µεθόδου που έχει αναλυθεί µε χρήση του SPSS.

Ο οδηγός ξεκινάει περιγράφοντας τους στοιχειώδεις ελέγχους που κάνουµε σε µια

ανάλυση δεδοµένων(είτε κατηγορικών, είτε ποσοτικών). Πιο συγκεκριµένα,

αναφέρουµε τους ελέγχους:

One Sample T-test

Chi-square Test (έλεγχος Χ2 )

T-test δύο δείγµατα ανεξάρτητα

Paired Sample T-test

Έλεγχος Κανονικότητας καταλοίπων

Έλεγχος Kruskal-Wallis

One-way ANOVA

Έλεγχος ύπαρξης γραµµικής συσχέτισης µεταξύ µεταβλητών

Μετά από κάθε ανάλυση ακολουθεί και ένα παράδειγµα.

Στο επόµενο κεφάλαιο, θα ασχοληθούµε µε το τι µεθόδους µπορούµε να

χρησιµοποιήσουµε στην ανάλυση συνεχών/ ποσοτικών µεταβλητών. Πιο

συγκεκριµένα στο παρόν κεφάλαιο γίνεται λόγος για το πια περιγραφικά µέτρα

µπορούµε να εξάγουµε γα ποσοτικά δεδοµένα, καθώς και για την ανάλυση απλής και

πολλαπλής γραµµικής παλινδρόµησης, επισηµαίνοντας τις στοιχειώδεις υποθέσεις του

γραµµικού µοντέλου (Κανονικότητα καταλοίπων, Ανεξαρτησία καταλοίπων,

Οµοσκεδαστικότητα στα κατάλοιπα), καθώς και το πώς µπορούµε να τις ελέγξουµε µε

την χρήση SPSS. Ακόµη, γίνεται λόγος για την ανάλυση µοντέλων µη γραµµικής

6

παλινδρόµησης, τα οποία εφαρµόζονται µόνο στην περίπτωση που δεν ισχύουν οι

υποθέσεις του γραµµικού µοντέλου αλλά και την πρόταση κάποιων µετασχηµατισµών

(λογάριθµος, εκθετικός µετασχηµατισµός κ.α.) σε περίπτωση που έχουµε πρόβληµα

µε τις υποθέσεις του πολλαπλού γραµµικού µοντέλου. Εν συνεχεία, περιγράφεται η

µεθοδολογία της Ανάλυσης ∆ιακύµανσης (ANOVA), όπως και το ποιες είναι οι

υποθέσεις που απαρτίζουν το µοντέλο της ανάλυσης διακύµανσης (Κανονικότητα

καταλοίπων, Ανεξαρτησία καταλοίπων, Οµοσκεδαστικότητα στα κατάλοιπα). Τέλος,

γίνεται αναφορά τι κάνουµε σε περίπτωση που ισχύουν οι υποθέσεις του γραµµικού

µοντέλου, εκτός από της Κανονικότητα. Στην ουσία αναλύουµε µη παραµετρικές

µεθόδους που αφορούν τον έλεγχο ισότητας διαµέσων (Kruskal-Wallis).

Στο αµέσως επόµενο κεφάλαιο, γίνεται µια περιγραφή για το τι µεθόδους

χρησιµοποιούµε στην ανάλυση κατηγορικών δεδοµένων. Το κεφάλαιο ξεκινάει

µιλώντας γενικά για τις κατηγορίες των κατηγορικών δεδοµένων (διατεταγµένες και

ονοµαστικές) και για το τι περιγραφικά µέτρα µπορούµε να εξάγουµε για κατηγορικά

δεδοµένα. Συνεχίζουµε, µιλώντας για τον έλεγχο ανεξαρτησίας Χ2 , τον έλεγχο

ανεξαρτησίας G2 που βασίζεται στην µέθοδο µεγίστης πιθανοφάνειας, καθώς και για

τους έλεγχους σύγκρισης ποσοστών (σύγκριση εξαρτηµένων ποσοστών, Relative

Risk). Τέλος, γίνεται λόγος τι είδους µεθοδολογία µπορούµε να χρησιµοποιήσουµε για

να αναλύσουµε κατηγορικά δεδοµένα (Λογιστική Παλινδρόµηση, Λογαριθµικά

Μοντέλα).

Στο 5ο κεφάλαιο, γίνεται λόγος για Πολυµεταβλητή Στατιστική Ανάλυση. ∆ύο είναι οι

βασικές µέθοδοι Πολυµεταβλητής Στατιστικής Ανάλυσης, η ανάλυση σε κύριες

συνιστώσες (Principal Components Analysis) και η παραγοντική ανάλυση (Factor

Analysis). Στον παρόντα οδηγό θα αναφερθούµε µόνο στην παραγοντική ανάλυση

µιας και η ανάλυση σε κύριες συνιστώσες δεν υποστηρίζεται από το SPSS

(υποστηρίζεται από το MINITAB, S-plus και R). Στο τέλος του κεφαλαίου υπάρχει

σχετικό παράδειγµα.

Στο επόµενο κεφάλαιο, περιγράφονται τεχνικές οµαδοποίησης και κατάταξης

Πολυµεταβλητών Dataset. Πιο συγκεκριµένα θα αναφερθούµε στις Οµαδοποίηση κατά

συστάδες (Cluster Analysis), ∆ιαχωριστική Ανάλυση (Discriminant Analysis) και

Ανάλυση Αντιστοιχιών (Correspondence Analysis).

7

Στο 7ο κεφάλαιο, θα αναφερθούµε σε µοντέλα δειγµατοληπτικών µοντέλων.

Ειδικότερα από τις τεχνικές δειγµατοληψίας που υπάρχουν εµείς θα ασχοληθούµε

µόνο µε την Απλή Τυχαία ∆ειγµατοληψία (Simple Random Sampling) και την

Στρωµατική ∆ειγµατοληψία (Stratified Sampling). Επιπλέον, στο εν λόγω κεφάλαιο

αναλύουµε βασικές έννοιες καθώς και τα βασικά βήµατα που χαρακτηρίζουν µια

σωστή τυχαία δειγµατοληψία, τι πρέπει να προσέχουµε καθώς και ποια είναι τα

δειγµατοληπτικά σφάλµατα. Τέλος, µια ενότητα αυτού του κεφαλαίου αφιερώθηκε στο

πως πρέπει να φτιάχνουµε ένα σωστό ερωτηµατολόγιο.

Τέλος, θα κλείσουµε αυτόν τον οδηγό µιλώντας για προβλέψεις, το που χρησιµεύουν,

καθώς και πως µπορούµε να δούµε µε ένα οπτικό τρόπο το πια από τα Y, δηλαδή

ποιες παρατηρήσεις της εξαρτηµένης µεταβλητής αναµένεται να έχουν µεγαλύτερες

προβλεπόµενες τιµές. Σε αυτό το κεφάλαιο, το παράδειγµα που θα χρησιµοποιήσουµε

θα έχει να κάνει µε την επιλογή κάποιων παιχτών του ΝΒΑ για µεταγραφή µε βάση

κάποιες επιδόσεις (Rebound, Assist, Πόντους ανά αγώνα κ.α.). Αυτό που θα κάνουµε

στην ουσία είναι να προτείνουµε ποιοι παίχτες αναµένεται να είναι χρήσιµοι για την

δική µας οµάδα σύµφωνα µε κάποιες συγκεκριµένες επιδόσεις.

Τέλος, παραθέτονται FAQs σχετικά µε την ανάλυση δεδοµένων:

1. Όταν έχω ερωτηµατολόγια και γενικότερα datasets µε κατηγορικά δεδοµένα

τις θα µπορούσα να κάνω?

Απάντηση:

Correspondence Analysis (βλέπε κεφ. 6, ενότητα 6.3)

∆ιαχωριστική Ανάλυση (βλέπε κεφ. 6, ενότητα 6.1)

Λογιστική Παλινδρόµηση (βλέπε κεφ. 3)

2. Όταν έχω συνεχή δεδοµένα, τι ανάλυση µπορώ να κάνω?

Απάντηση:

Ανάλυση Απλής Παλινδρόµησης (βλέπε κεφ. 3, ενότητα 3.3)

Ανάλυση Πολλαπλής Παλινδρόµησης (βλέπε κεφ.3, ενότητα 3.4)

Ανάλυση Μη Γραµµικής Παλινδρόµησης (βλέπε κεφ.3, ενότητα 3.3)

8

5. Όταν έχω πολλές συνεχείς µεταβλητές, µε αποτέλεσµα να υπάρχει σύγχυση

αποτελεσµάτων ή να µη εξάγεται κανένα αποτέλεσµα τι µπορώ να κάνω?

Απάντηση:

Ανάλυση Κατά Συστάδες (βλέπε κεφ. 6, ενότητα 6.2)

Παραγοντική Ανάλυση (βλέπε κεφ. 5, ενότητα 5.1)

4. Όταν θέλω να κάνω οµαδοποίηση ενός πληθυσµού σύµφωνα µε κάποιο

κριτήριο, τι θα κάνω?

Απάντηση:

Ανάλυση Κατά Συστάδες (βλέπε κεφ. 6, ενότητα 6.2)

6. Όταν έχω πολλές κατηγορικές µεταβλητές (π.χ. ερωτηµατολόγια κλειστού

τύπου), µε αποτέλεσµα να υπάρχει σύγχυση αποτελεσµάτων ή να µη εξάγεται

κανένα αποτέλεσµα τι µπορώ να κάνω?

Απάντηση:

Correspondence Analysis (βλέπε κεφ. 6, ενότητα 6.3)

6. Όταν έχω κατηγορικές µεταβλητές και θέλω να ελέγξω την συσχέτιση µεταξύ

τους ποιο συντελεστή να χρησιµοποιήσω?

Απάντηση:

Έλεγχος Ανεξαρτησίας Χ2 (βλέπε κεφ. 2, ενότητα 2.2)

Έλεγχος Γραµµικής Συσχέτισης µεταξύ µεταβλητών κατά Spearman

(βλέπε κεφ. 2, ενότητα 2.8)

7. Όταν έχω συνεχείς µεταβλητές και θέλω να ελέγξω την συσχέτιση µεταξύ

τους ποιο συντελεστή να χρησιµοποιήσω?

Απάντηση:

Έλεγχος Γραµµικής Συσχέτισης µεταξύ µεταβλητών κατά Pearson

(βλέπε κεφ. 2, ενότητα 2.8)

9

8. Όταν έχω κατηγορικά δεδοµένα, τι περιγραφικά µέτρα µπορώ να εξάγω για τις

µεταβλητές µου?

Απάντηση:

Περιγραφικά Μέτρα για Κατηγορικά ∆εδοµένα (βλέπε κεφάλαιο 3,

ενότητα 4.2)

9. Όταν έχω συνεχή δεδοµένα, τι περιγραφικά µέτρα µπορώ να εξάγω για τις

µεταβλητές µου?

Απάντηση:

Περιγραφικά Μέτρα για Συνεχή ∆εδοµένα (βλέπε κεφ. 3, ενότητα 3.2)

10. Όταν τα δεδοµένα µου δεν πληρούν της προϋποθέσεις του Γραµµικού

Υποδείγµατος και έχω να τρέξω απλή παλινδρόµηση, τι µπορώ να κάνω?

Απάντηση:

Απλή Γραµµική Παλινδρόµηση-Μη γραµµική Παλινδρόµηση (βλέπε

κεφ. 3, ενότητα 3.3)

11. Όταν τα δεδοµένα µου δεν πληρούν της προϋποθέσεις του Γραµµικού

Υποδείγµατος και έχω να τρέξω πολλαπλή παλινδρόµηση, τι µπορώ να κάνω?

Απάντηση:

Πολλαπλή Γραµµική Παλινδρόµηση (βλέπε κεφ. 3, ενότητα 3.4)

12. Όταν έχω µια συνεχή µεταβλητή και µία κατηγορική σαν dataset και θέλω να

τρέξω ένα µοντέλο ANOVA, πως µπορώ να το κάνω αυτό?

Απάντηση:

Ανάλυση ∆ιακύµανσης κατά ένα Παράγοντα (ANOVA) (βλέπε κεφ. 3,

ενότητα 3.4.1)

13. Όταν έχω µια συνεχή µεταβλητή και µία κατηγορική σαν dataset και θέλω να

τρέξω ένα µοντέλο ANOVA αλλά δεν µου πληρείται η υπόθεση της

κανονικότητας των καταλοίπων, τι µπορώ να το κάνω αυτό?

10

Απάντηση:

Ανάλυση ∆ιακύµανσης κατά ένα Παράγοντα (ANOVA)-Μη

παραµετρικές µέθοδοι ANOVA (βλέπε κεφ. 3, ενότητα 3.4.1)

14. Όταν έχω κατηγορικά δεδοµένα των οποίων οι παρατηρήσεις των µεταβλητών

έχουν προέλθει από το ίδιο δείγµα (π.χ. αν ένα ερωτηµατολόγιο έχει

συµπληρωθεί από ένα δείγµα 400 ατόµων και αν ένα άλλο ερωτηµατολόγιο

διαφορετικό µε το πρώτο έχει συµπληρωθεί από το ίδιο δείγµα των 400

ατόµων) και θέλω να συγκρίνω ποσοστά, τι ανάλυση θα πρέπει να

χρησιµοποιήσω για να κάνω αυτή τη σύγκριση?

Απάντηση:

Σύγκριση Εξαρτηµένων Ποσοστών (βλέπε κεφ. 4, ενότητα 4.5)

15. Όταν έχω κατηγορικά δεδοµένα των οποίων οι παρατηρήσεις των µεταβλητών

έχουν προέλθει διαφορετικό δείγµα (π.χ. αν ένα ερωτηµατολόγιο έχει

συµπληρωθεί από ένα δείγµα 400 ατόµων και αν ένα άλλο ερωτηµατολόγιο

διαφορετικό µε το πρώτο έχει συµπληρωθεί από διαφορετικό δείγµα 400

ατόµων) και θέλω να συγκρίνω ποσοστά, τι ανάλυση θα πρέπει να

χρησιµοποιήσω για να κάνω αυτή τη σύγκριση?

Απάντηση:

Relative Risk (βλέπε κεφάλαιο 4, ενότητα 4.4)

16. Πως θα κάνω προβλέψεις?

Απάντηση:

Προβλέψεις (βλέπε κεφάλαιο 8)

17. Πως µπορώ να κάνω δειγµατοληψία?

Απάντηση:

Μοντέλα ∆ειγµατοληπτικών Ερευνών (βλέπε κεφάλαιο 7)

11

2. ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ Στο παρών κεφάλαιο θα αναφερθούµε στους στοιχειώδεις ελέγχους υποθέσεων που

απαρτίζουν µια ανάλυση δεδοµένων (συνεχών και κατηγορικών δεδοµένων).

2.1 One-Sample T-test

Χρησιµοποιείται για να ελέγξουµε το µέσο του δείγµατος ως προς µία ισότητα. Στην

ουσία ελέγχουµε εάν ο µέσος κάποιας µεταβλητής ισούται µε κάποια τιµή.

0

1

::

H cH c

µµ=≠

όπου c είναι ένας σταθερός αριθµός.

Σε περίπτωση που το p-value<0.05 (ή αλλιώς sig.<0.05) τότε απορρίπτουµε την Η0.

Προϋπόθεση: Τα δεδοµένα µας θα πρέπει να ακολουθούν την κανονική κατανοµή

Με χρήση SPSS:

Analyze> Compare Means> One Sample T-test

Βάζουµε στο κουτί Test Variable(s) τη µεταβλητή για την οποία θέλουµε να ελέγξουµε

αν ο µέσος της ισούται µε κάποια συγκεκριµένη τιµή.

12

Στην επιλογή Test Value εισάγουµε την τιµή µε την οποία θέλουµε να ελέγξουµε αν

ισούται ο µέσος της µεταβλητής που θέλουµε να µελετήσουµε. Το SPSS έχει σαν

default τιµή το 0.

Μετά πατάµε ΟΚ και το αποτέλεσµα θα είναι το παρακάτω πινακάκι:

One-Sample Test

36,647 999 ,000 3271,248 3096,08 3446,41Amount of credit in"Deutsche Mark" (metric)

t df Sig. (2-tailed)Mean

Difference Lower Upper

95% ConfidenceInterval of the

Difference

Test Value = 0

Από το παραπάνω πίνακα βλέπουµε ότι εφόσον p-value=0.000<0.05 η µηδενική

υπόθεση απορρίπτεται εποµένως ο µέσος της υπό µελέτης µεταβλητής δεν ισούται µε

0.

2.2 Chi-square test (Έλεγχος Χ2 )

Ο έλεγχος Χ2 είναι ένα πολύ χρήσιµο στατιστικό κριτήριο, καθώς µπορεί να

χρησιµοποιηθεί για να κρίνει ένα µεγάλο αριθµό υποθέσεων οι οποίες σχετίζονται µε

κατηγορικού τύπου δεδοµένα και έχει την µορφή:

0

1

: (:

H ά έ ά ύ έ ή ί άH ά έ ά ύ έ

)εν υπ ρχει σχ ση αν µεσα στις δ ο µεταβλητ ς δηλαδ ε ναι ανεξ ρτητεςπ ρχει σχ ση αν µεσα στις δ ο µεταβλητ ς

∆Υ

ή

0

1

::

H ί ό ί ί ό όH ά ά ά έ ώ ό

οι παρατηρηθε σες συχν τητες ε ναι σες µε τις αναµεν µενες συχν τητεςυπ ρχει διαφορ αν µεσα στιςπραγµατικ ς και τις εκτιµ µενες συχν τητες

Ο έλεγχος αυτός µπορεί να χρησιµοποιηθεί ως:

Έλεγχος καλής προσαρµογής: σε αυτή την περίπτωση ο Χ2 έλεγχος

προσδιορίζει αν η απόκλιση ανάµεσα στις πραγµατικές και τις εκτιµώµενες

τιµές παρατηρήσεων είναι στατιστικά σηµαντική.

Έλεγχος ανεξαρτησίας: σε αυτή την περίπτωση µε απλά λόγια το να γνωρίζεις

τις τιµές για µια µεταβλητή, δεν σου λέει τίποτα για τις τιµές της άλλης. Για

παράδειγµα, αν κάποιος είναι παντρεµένος και αν κάποιος είναι ευτυχισµένος

είναι ανεξάρτητες, δηλαδή αν κάποιος είναι ευτυχισµένος δεν έχω καµία

πληροφορία για το αν είναι παντρεµένος.

13


Στο µενού πάνω στο SPSS επιλέγουµε:

Analyze>Descriptive Statistics>Crosstabs

Και τοποθετούµε τις µεταβλητές όπως παρακάτω

µετά πηγαίνουµε και επιλέγουµε το µενού Statistics και εκεί βάζουµε τικ στην επιλογή

Chi-Square όπως παρακάτω:

Πατάµε Continue και µετά ΟΚ.

14

Στο Output θα έχει δηµιουργηθεί ο πίνακας συνάφειας

Trauma * TH Crosstabulation

Count

3201 926 4127215 361 576

3416 1287 4703

OXINAI

Trauma

Total

OXI NAITH

Total

Το οποίο µας δείχνει ότι δεδοµένου ότι το νοσοκοµείο δεν έχει πτέρυγα

αποκατάστασης τραυµάτων τα νοσοκοµεία τα οποία δεν είναι πανεπιστηµιακά είναι

3201, ενώ τα νοσοκοµεία τα οποία είναι πανεπιστηµιακά είναι 926 σε αριθµό. Οµοίως

ερµηνεύεται και η περίπτωση που κάποιο νοσοκοµείο διαθέτει πτέρυγα

αποκατάστασης τραυµάτων.

Το επόµενο πινακάκι που εξάγεται είναι το πινακάκι που µας δείχνει αν υπάρχει ή όχι

ανεξαρτησία µεταξύ των δύο µεταβλητών.

Κοιτάζοντας το p-value του ελέγχου Pearson Chi-Square βλέπουµε ότι είναι πολύ

µικρό (0.000<0.05 επίπεδο σηµαντικότητας που έχουµε ορίσει) εποµένως

απορρίπτεται η µηδενική υπόθεση, δηλαδή οι µεταβλητές ΤΗ και Trauma είναι

εξαρτηµένες µεταβλητές.

Σε περίπτωση, όπου η συνθήκη 5nIJ

> δεν ικανοποιείται θα πάµε στο µενού Exact

15

και θα επιλέξουµε Monte Carlo όπως παρακάτω:

Αυτό το κάνουµε γιατί όταν δεν ισχύει η συνθήκη 5nIJ

> τότε ο έλεγχος Χ2 δεν είναι

ισχυρός.

2.3 T-test ∆ΥΟ ∆ΕΙΓΜΑΤΑ ΑΝΕΞΑΡΤΗΤΑ

Μια στατιστική τεχνική είναι η σύγκριση µέσων τιµών. Το T-test για ανεξάρτητα

δείγµατα δίνει την δυνατότητα στον χρήστη να εξετάσει αν υπάρχουν διαφορές στους

µέσους ανά επίπεδο µια κατηγορικής µεταβλητής.

16

Το T-test αποτελεί γενίκευση του One Sample T-test. Στο One Sample T-test είναι

γνωστό το µέτρο σύγκρισης ενώ τώρα έχουµε να κάνουµε µε σύγκριση των

διακυµάνσεων των µέσων των δύο ανεξάρτητων δειγµάτων. Το τυπικό σφάλµα του

µέσου πλέον υπολογίζεται από την διακύµανση και το µέγεθος του δείγµατος από τα

δύο ανεξάρτητα δείγµατα.

Η λογική είναι ακριβώς η ίδια µε το One Sample T-test, µόνο που τώρα έχουµε να

εκτιµήσουµε και το τυπικό σφάλµα της διαφοράς των µέσων και βασιζόµαστε στις

διακυµάνσεις και το µέγεθος και των δύο ανεξάρτητων δειγµάτων.

Προϋπόθεση: Θα πρέπει να ισχύει κανονικότητα και για τις δύο οµάδες.


Analyze> Compare Means> Independent-Samples T-test

Τοποθετούµε τις µεταβλητές για τις οποίες θέλουµε να ελέγξουµε αν οι µέσοι για κάθε

επίπεδο της κατηγορικής Ηλικίας είναι ίσοι:

Στην επιλογή Define Groups θα καθορίσουµε την ελάχιστη και µέγιστη τιµή της

κατηγορικής µεταβλητής Ηλικίας (εδώ η ελάχιστη είναι το 1 και η µέγιστη το 4).

Πατάµε ΟΚ και το αποτέλεσµα θα είναι το παρακάτω πινακάκι:

17

Στο παραπάνω πινακάκι ο έλεγχος T-test εξάγεται για την περίπτωση που οι

διακυµάνσεις είναι ίσες και σε περίπτωση που διακυµάνσεις είναι άνισες. Και στις 2

περιπτώσεις και για τις δύο µεταβλητές για τα τέσσερα επίπεδα της κατηγορικής

µεταβλητής Ηλικία οι µέσοι φαίνεται να είναι ίσοι αφού τα p-values (sig.) είναι

µεγαλύτερα από το 0.05. Εποµένως δεν απορρίπτεται η µηδενική υπόθεση ότι οι µέσοι

ανά επίπεδο της κατηγορικής Ηλικίας είναι ίσοι.

2.4 PAIRED SAMPLES T-test

Ο έλεγχος αυτός χρησιµεύει για να µελετήσουµε αν η διαφορά των µέσων δύο

µεταβλητών ισούται µε µηδέν ή είναι διάφορη του µηδενός. Ο έλεγχος έχει την

µορφή:

0 1

1 1 2

::

HH

2µ µµ µ

=≠

ή 0 1 2

1 1 2

: 0: 0

HH

µ µµ µ

− =− ≠


Analyze> Compare Means> Paired Samples T-test

Επιλέγουµε το/α ζεύγος/η των µεταβλητών που θέλουµε να µελετήσουµε αν ισχύει ότι

οι µέσοι των δύο µεταβλητών είναι ίσοι ή διαφορετικά αν η διαφορά των µέσων είναι

ίση µε το µηδέν ή όχι.

18

Πατάµε ΟΚ και το αποτέλεσµα θα είναι τα παρακάτω πινακάκια:

Paired Samples Correlations

69 ,280 ,020

Πόντοι ανα λεπτό τωναγώνων των Αθλητώνπου αξίζουν γιαµεταγραφή & Assist αναλεπτό των Αθλητών πουαξίζουν για µεταγραφή

Pair1

N Correlation Sig.

αυτό πινακάκι υπολογίζει τον συντελεστή συσχέτισης για να δούµε κατά πόσο οι

µεταβλητές είναι συσχετισµένες µεταξύ τους. Εδώ βλέπουµε ότι συγκεκριµένες

µεταβλητές δεν φαίνεται να έχουν ισχυρή συσχέτιση µεταξύ τους αφού R=0.280. Αν

είχαν ισχυρή σχέση το Correlation θα ήταν κοντά στο 1. Επίσης, βλέπουµε ότι το sig.

(p-value) για τον έλεγχο:

0

1

: 0: 0

H RH R

=≠

είναι µικρότερο από 0.05 εποµένως απορρίπτεται η µηδενική υπόθεση ότι δεν υπάρχει

καµία συσχέτιση.

Paired Samples Test

,00432825 ,00276538 ,00033291 ,00366393 ,00499257 13,001 68 ,000

Πόντοι ανα λεπτό τωναγώνων των Αθλητώνπου αξίζουν γιαµεταγραφή - Assist αναλεπτό των Αθλητών πουαξίζουν για µεταγραφή

Pair1

Mean Std. DeviationStd. Error

Mean Lower Upper

95% ConfidenceInterval of the

Difference

Paired Differences

t df Sig. (2-tailed)

19

Από τον παραπάνω πίνακα βλέπουµε ότι οι µέσοι των δύο µεταβλητών φαίνεται να

διαφέρουν αφού (sig.<0.000) απορρίπτεται η µηδενική υπόθεση που θέλει οι µέσοι να

είναι ίσοι, ή η διαφορά των δύο µέσων να είναι µηδενική.

2.5 ΕΛΕΓΧΟΣ ΚΑΝΟΝΙΚΟΤΗΤΑΣ

Μία από τις προϋποθέσεις που θα πρέπει να ισχύουν για να µπορέσουµε να

εκτιµήσουµε σωστά ένα γραµµικό µοντέλο είναι η υπόθεση ότι τα κατάλοιπα

ακολουθούν κανονική κατανοµή µε µέσο 0 και διακύµανση γνωστή.


Πρώτα από όλα θα παράγουµε τα κατάλοιπα (Residuals) από το µοντέλο.

Πηγαίνουµε στο µενού του SPSS και πατάµε:

Analyze> Regression> Linear

Και τοποθετούµε τις µεταβλητές ανάλογα στα κουτάκια, όπως παρακάτω:

20

Μετά πηγαίνουµε στο µενού Save και πατάµε την επιλογή


Μετά πηγαίνουµε Analyze> Descriptive Statistics> Explore

Στο πρώτο κουτάκι βάζουµε τα Residuals τα οποία έχουν αποθηκευτεί στην

τελευταία στήλη των δεδοµένων µας στο SPSS, όπως παρακάτω

και µετά πηγαίνουµε στο µενού Plots και κάνουµε τις εξής επιλογές

21

Μετά πατάµε Continue και ΟΚ.

Παίρνουµε ένα πίνακα, ο οποίος περιέχει τον έλεγχο κανονικότητας Kolmogorov-

Smirnov αλλά και τον έλεγχο Shapiro-Wilks.

Tests of Normality

,299 105 ,000 ,437 105 ,000Standardized ResidualStatistic df Sig. Statistic df Sig.

Kolmogorov-Smirnova Shapiro-Wilk

Lilliefors Significance Correctiona.

Η µηδενική υπόθεση απορρίπτεται και από τους δύο ελέγχους αφού p-

value=0.000<0.05. Άρα παραβιάζεται η υπόθεση της κανονικότητας.

2.6 ΕΛΕΓΧΟΣ KRUSKAL-WALLIS

Ο έλεγχος Kruskal-Wallis έχει να κάνει µε τον έλεγχο ισότητας διαµέσων και όχι

ισότητας µέσων. Στην ουσία αποτελεί µια µη παραµετρική εκδοχή της ανάλυσης

διακύµανσης (ANOVA). Εφαρµόζεται µόνο στην περίπτωση που δεν ισχύει η

κανονικότητα καταλοίπων.

Analyze> Nonparametric Tests> K Independent samples….

Και θα κάνουµε τις εξής επιλογές:

22

Στο µενού Define Range θα δηλώσουµε το πόσα επίπεδα έχει η κατηγορική µεταβλητή

Ηλικία. Εφόσον έχουµε 4 επίπεδα θα βάλουµε:

Πατάµε Continue και OK.

To το αποτέλεσµα θα είναι το πινακάκι

23

Σύµφωνα µε το οποίο οι διάµεσοι δεν φαίνεται να διαφέρουν (αφού p-

value=0.473>0.05 άρα δεν απορρίπτεται η µηδενική υπόθεση).

2.7 One-way ANOVA

Η One-Way ANOVA είναι απλή µορφή της ανάλυση διακύµανσης. Το µοντέλο που

χρησιµοποιείται είναι το απλό µοντέλο µε την επίδραση µιας µόνο µεταβλητής, δηλαδή

η µορφή του µοντέλου είναι:

1,....,,

1,....,ij i ij

i ay

j nµ τ ε

=⎧= + + ⎨ =⎩

Όπου µ: ο συνολικός µέσος του µοντέλου

iτ : το πόσο επιδρά το i-επίπεδο στο µοντέλο( ισχύει πάντα ) 1

0a

iiτ

=

=∑

ijε : τα σφάλµατα τα οποία είναι ανεξάρτητα και ακολουθούν κανονική

κατανοµή µε µέση τιµή 0 και διακύµανση σ2 σταθερή αλλά άγνωστη.

Αυτό που κάνουµε είναι να ελέγχουµε την ισότητα µέσων. Απλά βασικές προϋποθέσεις

είναι :

Κανονικότητα Οµοσκεδαστικότητα Ανεξαρτησία καταλοίπων

Για να µπορέσουµε να εφαρµόσουµε την One-Way ANOVA θα πρέπει να ισχύουν τα

παραπάνω.


Analyze> Compare Means> One-way ANOVA

Τοποθετούµε τις µεταβλητές µας όπως παρακάτω:

24

και θα πάρουµε ως αποτέλεσµα το παρακάτω πινακάκι:

ANOVA

Πόντοι ανα αγώνα

610,297 3 203,432 6,419 ,0013200,973 101 31,6933811,270 104

Between GroupsWithin GroupsTotal

Sum ofSquares df Mean Square F Sig.

Στο οποίο βλέπουµε ότι το µοντέλο φαίνεται να είναι στατιστικά σηµαντικό αφού p-

value=0.001<0.05 εποµένως απορρίπτουµε την µηδενική υπόθεση ότι το µοντέλο δεν

προσαρµόζεται καλά στα δεδοµένα µας.

Επιπλέον, σε περίπτωση που θέλουµε να ελέγξουµε ισότητα ζευγών µέσων ανά

επίπεδο της κατηγορικής µεταβλητής Ηλικία θα πάµε στο µενού Post Hoc και θα

κάνουµε τις εξής επιλογές:

25

Συνήθως αυτοί οι έλεγχοι χρησιµοποιούνται διότι είναι πιο αξιόπιστοι. Το αποτέλεσµα

που θα έχουµε είναι το παρακάτω πινακάκι:

Αν κοιτάξουµε την στήλη Sig. Θα δούµε ότι όσα από τα ζεύγη έχουν sig. µεγαλύτερο

από 0.05 τότε οι µέσοι των επιπέδων της κατηγορικής Ηλικίσ ανά δύο είναι ίσοι.

2.8 ΕΛΕΓΧΟΣ ΥΠΑΡΞΗΣ ΓΡΑΜΜΙΚΗΣ ΣΥΣΧΕΤΙΣΗΣ ΜΕΤΑΞΥ

ΜΕΤΑΒΛΗΤΩΝ

Ο έλεγχος που χρησιµοποιείται για να ελέγξουµε αν υπάρχει γραµµική συσχέτιση

µεταξύ συνεχών µεταβλητών είναι ο έλεγχος Pearson, που έχει την µορφή:

0

1

: 0: 0

HH

ρρ=≠

∆ηλαδή, ελέγχει την µηδενική υπόθεση ότι δεν υπάρχει συσχέτιση έναντι ότι η

συσχέτιση είναι διάφορη του µηδενός.

26

Πέρα από τον συντελεστή συσχέτισης του Pearson, υπάρχει και ο συντελεστής του

Spearman, ο οποίος αποτελεί µία µη παραµετρική µορφή του συντελεστή συσχέτισης

του Pearson και αντικαθιστά τις πραγµατικές τιµές των δεδοµένων µε την σειρά

κατάταξης. (στην ουσία εφαρµόζεται µόνο σε διατεταγµένα δεδοµένα).

Η τιµή και των δύο συντελεστών κυµαίνονται µεταξύ -1 και 1.


Για συνεχή δεδοµένα θα εφαρµόσουµε Pearson έλεγχο:

Analyze> Correlate> Bivariate

Και βάζουµε τις µεταβλητές όπως παρακάτω:


27

Βλέπουµε ότι απορρίπτεται η µηδενική υπόθεση ότι δεν υπάρχει συσχέτιση µεταξύ

των δύο µεταβλητών αφού p-value=0.000<0.05. Αυτό µπορούµε να το καταλάβουµε

και από την τιµή του συντελεστή Pearson που είναι της τάξεως του 56,4%.

Για διατεταγµένα δεδοµένα θα χρησιµοποιήσουµε τον συντελεστή Spearman:

Analyze> Descriptive Statistics> Crosstabs

Και αφού βάλουµε τις µεταβλητές όπως παρακάτω:

θα πάµε στο µενού Statistics και θα κάνουµε την εξής επιλογή:

28

Και το αποτέλεσµα θα είναι το παρακάτω πινακάκι:

Βλέπουµε ότι το p-value είναι µικρότερο από 0.05 οπότε απορρίπτεται η µηδενική

υπόθεση ότι τα δεδοµένα δεν είναι συσχετισµένα γραµµικά. Αυτό µπορούµε να το

καταλάβουµε και από την τιµή του συντελεστή Spearman που είναι της τάξεως 12,6%

(όχι µεγάλο αλλά διάφορο του µηδενός).

29

3. ΑΝΑΛΥΣΗ ΣΥΝΕΧΩΝ ∆Ε∆ΟΜΕΝΩΝ 3.1 ΓΕΝΙΚΑ ΣΤΟΙΧΕΙΑ Στην ανάλυση συνεχών δεδοµένων (π.χ. ηλικία, χρόνος, επίδοση κ.α.)

χρησιµοποιούµε µοντέλα απλής γραµµικής παλινδρόµησης (µε µία µόνο

επεξηγηµατική µεταβλητή Χ), µοντέλα πολλαπλής γραµµικής παλινδρόµησης (δηλαδή

µε παραπάνω από µια επεξηγηµατική µεταβλητή Χ στο µοντέλο), καθώς και µε

µοντέλα ανάλυσης διακύµανσης που εκφράζουν την επίδραση κάθε επιπέδου µιας ή

περισσοτέρων επεξηγηµατικών στην εξαρτηµένη Y. Για παράδειγµα, έστω ότι θέλουµε

να ελέγξουµε την επίδραση που θα είχε κάποιο φάρµακο (φάρµακο Α, φάρµακο Β,

φάρµακο Γ, δηλαδή 3 επίπεδα στην µεταβλητή Φάρµακο) σε ένα άνθρωπο ανάλογα µε

την ηλικία του. Εδώ η εξαρτηµένη είναι η ηλικία του ανθρώπου (Υ) και η

επεξηγηµατική είναι του Φάρµακο (Χ).

Και στις τρεις αυτές αναλύσεις, επειδή ακριβώς στηρίζονται στο γραµµικό υπόδειγµα,

για να είναι οι εκτιµήσεις συνεπείς, οπότε και σωστές θα πρέπει να πληρούνται

κάποιες προϋποθέσεις.

• Κανονικότητα: τα κατάλοιπα θα πρέπει να ακολουθούν κανονική κατανοµή µε

µέσο 0 και διακύµανση γνωστή ( ( )20,Nε σ ). Η Κανονικότητα µπορεί να

ελεγχθεί µέσω του ελέγχου Kolmogorov-Smirnov και Shapiro-Wilks µε

µηδενική υπόθεση Ho : τα κατάλοιπα ακολουθούν κανονική κατανοµή

και Η1 : τα κατάλοιπα δεν ακολουθούν κανονική κατανοµή. Όταν το p-value

του ελέγχου είναι µεγαλύτερο από 0.05 τότε απορρίπτουµε την µηδενική

υπόθεση. Ο Shapiro-Wilks έλεγχος είναι πιο αξιόπιστος, ιδιαίτερα όταν έχουµε

µικρά δείγµατα.

• Οµοσκεδαστικότητα: ισότητα διακυµάνσεων ( ( , ) 0,i jCov i jε ε = ∀ = ). Στην

περίπτωση απλής γραµµικής παλινδρόµησης κάνουµε ένα διάγραµµα σηµείων

(Scatter Plot) των καταλοίπων µε την επεξηγηµατική. Αν τα σηµεία είναι

τυχαία και δεν παρουσιάζουν κάποια τάση τότε υπάρχει Οµοσκεδαστικότητα.

Στην περίπτωση πολλαπλής παλινδρόµησης θα πρέπει να κάνουµε το ίδιο µε

την απλή παλινδρόµηση αλλά για όλες τις επεξηγηµατικές. Τέλος στην

περίπτωση της ανάλυσης διακύµανσης θα κάνουµε ένα Spread vs Level with

Levene Test όπου θα κάνει έλεγχο ισότητας διακυµάνσεων για καθένα από τα

επίπεδα της επεξηγηµατικής. ( πιο κάτω ακολουθεί παράδειγµα)

30

• Ανεξαρτησία καταλοίπων ( ( , ) 0,i jCov i jε ε = ∀ ≠ ). Κάνουµε ένα διάγραµµα

σηµείων µεταξύ των προβλεπόµενων τιµών (Predicted values) και των

καταλοίπων (Residuals). Αν είναι τυχαία τα σηµεία τότε έχουµε ανεξαρτησία.

Επίσης µια άλλη λύση είναι να κάνουµε ένα Runs-test. Αλλά δεν θα

ασχοληθούµε µε αυτό στον παρόντα οδηγό.

• Γραµµικότητα θα κάνουµε ένα διάγραµµα σηµείων (Scatter Plot)

προβλεπόµενων τιµών (Unstandardized Predicted Values) έναντι καταλοίπων

(Standardized Residuals).

Στην περίπτωση της πολλαπλής γραµµικής παλινδρόµησης θα πρέπει επιπλέον να

ελέγχουµε και την πολυσυγγραµµικότητα, η οποία υφίσταται όταν υπάρχει συσχέτιση

µεταξύ των επεξηγηµατικών µεταβλητών. Αυτό µπορούµε να το διαγνώσουµε µε ένα

µέτρο που ονοµάζεται VIF και ισούται µε 1

1 iR−, όπου Ri είναι ο συντελεστής

συσχέτισης για κάθε ζεύγος επεξηγηµατικών. Όταν VIF>10 τότε έχουµε πρόβληµα

πολυσυγγραµµικότητας.

Πριν κάνουµε όµως οποιαδήποτε ανάλυση και οποιοδήποτε έλεγχο υποθέσεων καλό

θα ήταν να κάνουµε ένα διάγραµµα σηµείων (Scatter Plot) για να δούµε αν υπάρχει

κάποια τάση στα δεδοµένα.


Στο µενού SPSS

Graphs> Scatter> Simple (αν έχουµε µια επεξηγηµατική)

Graphs> Scatter> Simple (αν έχουµε περισσότερες επεξηγηµατικές)

3.5 ΠΕΡΙΓΡΑΦΙΚΑ ΜΕΤΡΑ

Σε συνεχή δεδοµένα τα περιγραφικά µέτρα µπορούµε να εξάγουµε είναι ο µέσος, η

διακύµανση, η τυπική απόκλιση, η µέγιστη τιµή, ελάχιστη τιµή, κύρτωση και

ασυµµετρία. Όσον αφορά την κύρτωση όταν ξεπερνάει το 3 τότε έχουµε σοβαρό

πρόβληµα κύρτωσης.

31


Analyze> Descriptive Statistics> Descriptives

Βάζουµε στο κουτάκι τις µεταβλητές γα τις οποίες θέλουµε να βγάλουµε περιγραφικά

µέτρα, όπως παρακάτω

µετά πηγαίνουµε στο µενού Options και κάνουµε τις εξής επιλογές


Έχοντας µιλήσει για αυτά θα µπορούσαµε να ξεκινήσουµε µιλώντας για την απλή

γραµµική παλινδρόµηση.

32

3.3 ΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ∆ΡΟΜΗΣΗ

Στην απλή γραµµική παλινδρόµηση το γραµµικό µοντέλο αποτελείται από την

εξαρτηµένη µεταβλητή και µια µόνο ανεξάρτητη Χ και έχει την µορφή:

y a xβ ε= + +

όπου β είναι η µεταβολή της Y όταν η Χ µεταβληθεί κατά µια µονάδα, ενώ το α είναι η

τιµή που θα πάρει η Υ αν Χ=0. Το ε είναι τα κατάλοιπα για τα οποία ισχύει Ε(ε)=0.

Όπως αναφέρθηκε στην ενότητα 3.1 για να έχουµε εκτιµήσει σωστά το απλό µοντέλο

θα πρέπει να πληρούνται οι προϋποθέσεις της Κανονικότητας, της

Οµοσκεδαστικότητας και της Ανεξαρτησίας.

Σε περίπτωση που δεν πληρούνται οι προϋποθέσεις θα πρέπει να χρησιµοποιήσουµε

ένα µη γραµµικό µοντέλο (εκθετικό, λογαριθµικό κ.α.), εφόσον το γραµµικό δεν θα

προσαρµόζεται καλά στα δεδοµένα µας (για αυτό θα µιλήσουµε παρακάτω).

Εφόσον λύσουµε το πρόβληµα µε τις υποθέσεις του µοντέλου, ένα άλλο πρόβληµα

που καλούµαστε να λύσουµε είναι η στατιστική σηµαντικότητα των µεταβλητών του

µοντέλου. Όταν εφαρµόσουµε σε κάποια δεδοµένα στο SPSS γραµµική παλινδρόµηση

στο τέλος του Output εξάγει ένα πινακάκι που ονοµάζεται Coefficients που στην

ουσία είναι ο πίνακας εκτίµησης των παραµέτρων του µοντέλου αλλά και ελέγχου

στατιστικής σηµαντικότητας καθεµίας µεταβλητής. Για τον έλεγχο στατιστικής

σηµαντικότητας των µεταβλητών χρησιµοποιείται ο έλεγχος t-test µε

Η0 : η µεταβλητή δεν είναι στατιστικά σηµαντική

Η1 : η µεταβλητή είναι στατιστικά σηµαντική

Η µηδενική υπόθεση απορρίπτεται όταν p-value<0.05. ∆ηλαδή εµείς στο πινακάκι των

Coefficient θέλουµε να έχουµε όσο το δυνατόν µικρά P-value, εποµένως µεγάλες τιµές

του t-statistic. Αν κάποια µεταβλητή έχει µεγάλο p-value τότε κρίνεται ακατάλληλη

για το µοντέλο µας.

Ένα από τα εναποµείναντα πινακάκια που εξάγει το SPSS για την γραµµική

παλινδρόµηση είναι αυτό της ANOVA. Στον πίνακα αυτό χρησιµοποιείται το F-test το

οποίο ελέγχει την καλή προσαρµογή του µοντέλου στα δεδοµένα. Ο έλεγχος αυτός

έχει την µορφή:

33

0 1 2

1

: ..... 0:

n

i

HH ά έ ό ί ά ό

β β βτουλ χιστον να απ τα β ε ναι δι φορο του µηδεν ς

= = = =

Η µηδενική υπόθεση απορρίπτεται όταν p-value<0.05 ή για µεγάλες τιµές του F-

statistic. ∆ηλαδή, αν το p-value είναι µεγάλο τότε το µοντέλο µας δεν προσαρµόζεται

καλά εποµένως είναι στατιστικά µη σηµαντικό. Εµείς θέλουµε µικρές τιµές p-value και

µεγάλες τιµές του F-statistic.

Τέλος, το τελευταίο πινακάκι που εξάγεται είναι το επονοµαζόµενο Model Summary

στην πρώτη στήλη του οποίου υπολογίζεται ο συντελεστής συσχέτισης (παίρνει τιµές

µεταξύ -1 και 1) των επεξηγηµατικών µεταβλητών µε την εξαρτηµένη. Μας

ενδιαφέρουν µεγάλα ποσοστά. Στην ουσία υπολογίζεται η συνολική συσχέτιση των

επεξηγηµατικών (σε περίπτωση πολλαπλής παλινδρόµησης) µε την εξαρτηµένη. Στην

τρίτη στήλη, υπολογίζεται ο συντελεστής προσδιορισµού (παίρνει τιµές από 0 έως 1)

που δείχνει το ποσοστό διακύµανσης που εξηγείται από το µοντέλο. Καλό είναι το

ποσοστό αυτό να είναι µεγάλο (από πάνω από 60%).


Θέλουµε να βρούµε ένα µοντέλο που να µας δείχνει κατά πόσο η ποσοτική µεταβλητή

ηλικία επηρεάζει την επίδοση των αθλητών ΝΒΑ όσον αφορά τους πόντους ανά λεπτό.

∆εδοµένου λοιπόν των παραπάνω το µοντέλο θα είναι:

0 1y x1β β= +

Όπου x1 αντιπροσωπεύει την ποσοτική µεταβλητή «Ηλικία»

Πριν προχωρήσουµε σε οποιαδήποτε ανάλυση θα ελέγξουµε αν ισχύουν οι

προϋποθέσεις του γραµµικού µοντέλου η οποίες είναι:

• Κανονικότητα καταλοίπων, δηλαδή τα κατάλοιπα να ακολουθούν κανονική

κατανοµή µε µέση τιµή 0 και διακύµανση σ2 σταθερή,


Πρώτα από όλα θα παράγουµε τα κατάλοιπα (Residuals) από το µοντέλο.




34


35


Μετά πηγαίνουµε Analyze> Descriptive Statistics> Explore

Στο πρώτο κουτάκι βάζουµε τα Residuals τα οποία έχουν αποθηκευτεί στην

τελευταία στήλη των δεδοµένων µας στο SPSS, όπως παρακάτω

και µετά πηγαίνουµε στο µενού Plots και κάνουµε τις εξής επιλογές


Παίρνουµε ένα πίνακα, ο οποίος περιέχει τον έλεγχο κανονικότητας Kolmogorov-

Smirnov αλλά και τον έλεγχο Shapiro-Wilks.

36

Tests of Normality

,299 105 ,000 ,437 105 ,000Standardized ResidualStatistic df Sig. Statistic df Sig.

Kolmogorov-Smirnova Shapiro-Wilk


Η µηδενική υπόθεση απορρίπτεται και από τους δύο ελέγχους αφού p-

value=0.000<0.05. Άρα παραβιάζεται η υπόθεση της κανονικότητας.

• Οµοσκεδαστικότητα, δηλαδή έχουµε ίσες διακυµάνσεις, αυτό το ελέγχουµε

κάνοντας διάγραµµα των καταλοίπων έναντι της επεξηγηµατικής


Πηγαίνουµε στο µενού του SPSS:

Graphs> Scatter> Simple

Και βάζουµε τα δεδοµένα ως εξής:

37

και πατάµε ΟΚ.

6,000005,000004,000003,000002,000001,000000,00000-1,00000

Standardized Residual

35,00

30,00

25,00

Ηλικία

Από το διάγραµµα καταλαβαίνουµε ότι έχουµε πρόβληµα ετεροσκεδαστικότητας,

αφού υπάρχει κάποιο pattern (γραµµικό). Άρα παραβιάζεται η υπόθεση της

Οµοσκεδαστικότητας.

• Ανεξαρτησία καταλοίπων, θα κάνουµε ένα διάγραµµα µεταξύ προβλεπόµενες

τιµές και τα κατάλοιπα ή θα υπολογίσουµε την ανεξαρτησία των καταλοίπων µε

την βοήθεια του Durbin-Watson µέτρο. Για τιµές πολύ κοντά στο 2 σηµαίνει ότι

υπάρχει ανεξαρτησία, ενώ τιµές που αποκλίνουν αρκετά από το 2 η

ανεξαρτησία δεν ισχύει.


Πρώτα από όλα θα πρέπει να παράγουµε τις προβλεπόµενες τιµές. Θα κάνουµε την

ίδια διαδικασία µε την οποία εξάγαµε τα Residuals.




38


39

και µετά κάνουµε ένα διάγραµµα σηµείων µε τις προβλεπόµενες τιµές στον άξονα των

Υ και τα Residuals στον άξονα των Χ.

Graphs> Scatter> Simple

Μετά πατάµε ΟΚ.

Από το διάγραµµα καταλαβαίνουµε ότι υπάρχει κάποιο pattern στα δεδοµένα µας.

Εποµένως παραβιάζεται και η ανεξαρτησία.

40

6,000005,000004,000003,000002,000001,000000,00000-1,00000


0,01100

0,01000

0,00900

0,00800

0,00700

0,00600

0,00500

0,00400

Unsta

ndar

dized

Pre

dicted

Valu

e

Από το παραπάνω διάγραµµα παρατηρούµε ότι παραβιάζεται η υπόθεση της

γραµµικότητας, αφού δεν βλέπουµε να υπάρχει κάποια γραµµική τάση στα σηµεία.

Για να υπολογίσουµε τον δείκτη Durbin-Watson:


Και στο µενού Statistics επιλέγουµε το Durbin-Watson και πατάµε Continue και

ύστερα ΟΚ.

Βλέπουµε πως η τιµή του δείκτη Durbin-Watson δεν είναι κοντά στο 2 άρα

παραβιάζεται η υπόθεση της ανεξαρτησίας καταλοίπων.

Το ότι το µοντέλο µας δεν είναι καθόλου µπορούµε να το δούµε και από το πινακάκι

ANOVA που βγαίνει από το Analyze> Regression> Linear

41

και µετά ΟΚ.

Στο πινακάκι ANOVA βλέπουµε ότι το P-value του ελέγχου είναι µεγάλο (0.169>0.05)

άρα η µηδενική υπόθεση δεν απορρίπτεται, εποµένως το µοντέλο µας δεν

προσαρµόζεται καλά στα δεδοµένα µας.

ANOVAb

,000 1 ,000 1,915 ,169a

,010 103 ,000,011 104

RegressionResidualTotal

Model1


Predictors: (Constant), Ηλικίαa.

Dependent Variable: Πόντοι ανα λεπτόb.

Αν είχαµε πολλαπλή παλινδρόµηση θα προσπαθούσαµε να κάνουµε ένα

µετασχηµατισµό έτσι ώστε πλέον να µην έχουµε γραµµικό µοντέλο, αλλά κάποιου

είδους άλλο µοντέλο (µη γραµµικό) έτσι ώστε να µην χρειάζεται να ελέγξουµε καµία

υπόθεση, διότι οι παραπάνω υποθέσεις αφορούν µόνο το γραµµικό υπόδειγµα (θα

µιλήσουµε παρακάτω).

42

Εδώ στην απλή γραµµική παλινδρόµηση πάλι θα κάνουµε µετασχηµατισµό αλλά µε µια

εντολή που υπάρχει στο SPSS:

Analyze> Regression> Curve Estimation

Και τοποθετούµε τις µεταβλητές όπως παρακάτω:

και διαλέγουµε πιο µη γραµµικό µοντέλο θέλουµε να παράγουµε. Για λόγους ευκολίας

θα χρησιµοποιούµε µόνο τα µοντέλα τα οποία βρίσκονται µέσα στα πλαίσια, γιατί για

τα υπόλοιπα η ερµηνεία είναι δύσκολη και µερικές φορές αδύνατη.

Εµείς στην ανάλυσή µας θα χρησιµοποιήσουµε το εκθετικό µοντέλο (exponential

model)

Η ερµηνεία αυτού µοντέλου είναι ότι καθώς το Χ µεταβάλλεται κατά µία µονάδα τότε

ο λογάριθµος του Υ µεταβάλλεται κατά β, και όταν το Χ=0 τότε η τιµή του

λογαρίθµου θα ισούται µε τον λογάριθµο της σταθεράς του µοντέλου.

43

Όµοια ερµηνεύονται και τα υπόλοιπα µοντέλα. Μόνο που στα µοντέλα Inverse και S

το Χ δεν µπορεί να πάρει την τιµή µηδέν.

Εµείς θα χρησιµοποιήσουµε το εκθετικό µοντέλο που δεν περιέχει την σταθερά.

ΠΡΟΣΟΧΗ: Την σταθερά θα την αφαιρούµε µόνο όταν το µοντέλο δεν µας βγαίνει

στατιστικά σηµαντικό αλλιώς καλό είναι µην την βγάζουµε.

Έτσι το µοντέλο µας είναι

ln( )Y bX=

Το πινακάκι της ANOVA µας δείχνει ότι το p-value είναι 0.000<0.05 εποµένως

απορρίπτεται η µηδενική υπόθεση, άρα το µοντέλο µας προσαρµόζεται καλά στα

δεδοµένα µας.

ANOVAa

1750,886 1 1750,886 4828,069 ,00024,660 68 ,363

1775,546 69

RegressionResidualTotal


The independent variable is Ηλικία Αθλητών που αξίζουν για µεταγραφή.The equation was estimated without the constant term.a.

Model Summarya

,989 ,977 ,977 ,756R R Square

AdjustedR Square

Std. Error ofthe Estimate

The independent variable is Ηλικία.The equation was estimated without the constant term.a.

Επιπλέον βλέπουµε ότι από το µοντέλο εξηγείται το 97,7% (πολύ καλό ποσοστό) της

συνολικής διακύµανσης.

Η ερµηνεία του µοντέλου µας είναι ότι όσο αυξάνεται η ηλικία κατά µία µονάδα, ο

λογάριθµος των πόντων ανά λεπτό θα µεταβάλλεται κατά β.

44

3.5 ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ∆ΡΟΜΗΣΗ

Η πολλαπλή παλινδρόµηση αποτελεί µια γενίκευση της απλής γραµµικής

παλινδρόµησης. Το µοντέλο της είναι:

0 1 1 2 2

01

...... n n

n

i ii

y x x xή

y x

β β β β

β β ε=

= + + + + +

= + +∑

ε

Όπως και στην απλή γραµµική παλινδρόµηση έτσι και εδώ πρέπει να ισχύουν οι ίδιες

υποθέσεις: τα κατάλοιπα πρέπει να ακολουθούν κανονική κατανοµή µε µέσο 0 και

γνωστή διακύµανση γνωστή, να υπάρχει ισότητα διακυµάνσεων

(Οµοσκεδαστικότητα), ανεξαρτησία καταλοίπων και επιπλέον θα πρέπει να

προσέξουµε ώστε να µην υπάρχει πολυσυγγραµµικότητα, δηλαδή να µην υπάρχει

γραµµική συσχέτιση µεταξύ των επεξηγηµατικών. Αυτό µπορούµε να το ελέγξουµε µε

ένα δείκτη που ονοµάζεται VIF και ισούται µε 2

11 iR−

, όπου Ri2 είναι το ποσοστό της

µεταβλητότητας που ερµηνεύει το µοντέλο και i ο αριθµός των µεταβλητών που

χρησιµοποιήσαµε στις παλινδροµήσεις των µοντέλων που έχουµε

Σε αυτή την περίπτωση υπάρχουν 2 τρόποι για να µπορέσουµε να αντιµετωπίσουµε

την πολυσυγγραµµικότητα.

• Να κάνουµε πίνακα συσχετίσεων µε τις επεξηγηµατικές για να δούµε ποιες

µεταβλητές έχουν µεγάλο συντελεστή συσχέτισης. Ο συντελεστής συσχέτισης,

όπως ειπώθηκε παραπάνω, παίρνει τιµές από -1 έως 1, οπότε τιµές κοντά στο

-1 και στο 1 υποδεικνύουν µεγάλη συσχέτιση. Όταν ανιχνευτεί ζεύγος

επεξηγηµατικών µεταβλητών µε µεγάλο συντελεστή συσχέτισης, τότε

αφαιρούµε την µια από αυτές αφού στην ουσία δίνουν την ίδια πληροφορία

στον µοντέλο. Ένας πιο απτός τρόπος, από τον παραπάνω είναι να κάνουµε

έναν πίνακα διαγραµµάτων σηµείων (Matrix Scatter Plot) µε όλες τις

επεξηγηµατικές. Αν στα διαγράµµατα φαίνεται να είναι υπάρχει κάποια

γραµµική τάση σε κάποιο ζεύγος από τις επεξηγηµατικές τότε αφαιρούµε την

µία από αυτές.


Για τον πίνακα συσχέτισης:

45


Βάζουµε τις επεξηγηµατικές που έχουµε χρησιµοποιήσει στο πολλαπλό

γραµµικό µοντέλο που έχουµε δηµιουργήσει και έχουµε εντοπίσει πιθανή

ύπαρξη πολυσυγγραµµικότητας (µε το µέτρο VIF που αποτελεί επιλογή στο

Analyze> Regression> Linear στο µενού Statistics επιλέγουµε Colinearity

diagnosis):

Και µετά πατάµε ΟΚ.

Το αποτέλεσµα είναι

46

Στον πίνακα των συσχετίσεων παραπάνω βλέπουµε ότι υπάρχουν κάποιες

µεταβλητές οι οποίες συσχετίζονται µεταξύ τους. Βλέπουµε όµως η µεταβλητή

που σχετίζεται µε αρκετές µεταβλητές είναι η Assist ανά αγώνα. Οπότε ίσως

αφαιρούσαµε αυτή την µεταβλητή από το υπόδειγµα µας.

Για να έχουµε και µια οπτική επαφή καλό θα ήταν να κάνουνε και ένα πίνακα

διαγραµµάτων σηµείων:

Graph> Scatter> Matrix

47

Βλέπουµε ότι όντως η µεταβλητή Assist ανά αγώνα συσχετίζεται γραµµικά µε

τις µεταβλητές Rebound ανά αγώνα και το Ύψος των παιχτών. Ίσως θα

µπορούσαµε να την αφορούσαµε.

ΠΡΟΣΟΧΗ: Όταν έχουµε πολλές µεταβλητές το Matrix Scatter Plot δεν θα

µπορέσει να το εξάγει το SPSS λόγω έλλειψης µνήµης.

• Ένας δεύτερος τρόπος είναι χρησιµοποιήσουµε την µέθοδο της κεντροποίησης,

δηλαδή να αφαιρέσουµε τον µέσο των παρατηρήσεων κάθε µεταβλητής από

κάθε παρατήρησή της. Για παράδειγµα, έστω ότι θέλουµε να κεντροποιήσουµε

την µεταβλητή Assist ανά αγώνα. Θα βρούµε τον µέσο αυτής της µεταβλητής

µέσω των περιγραφικών µέτρων που περιγράψαµε στην ενότητα 3.2 και µετά

από κάθε παρατήρηση της µεταβλητής Assist ανά αγώνα θα αφαιρέσουµε τον

µέσο.


Transform> Compute

48

Αφού βρήκαµε τον µέσο της µεταβλητής Assist ανά αγώνα (4.0133) θα γράψουµε

τον τύπο της αφαίρεσης στο κουτάκι Numeric Expression όπως παραπάνω και θα

γράψουµε την ονοµασία της κετροποιηµένης πλέον µεταβλητής στο κουτάκι

Target Variable. Προσοχή στο κουτάκι Target Variable δεν µπορούµε να

χρησιµοποιήσουµε κενό ούτε παύλα, µόνο κάτω παύλα (_) και τελεία, και στο

κουτάκι Numeric Expression όταν έχουµε δεκαδικό, όπως ο µέσος παραπάνω δεν

θα χρησιµοποιήσουµε το κόµµα για το διαχωρισµό των δεκαδικών στοιχείων,

δηλαδή όχι 4,0133 αλλά 4.0133.

Μετά πατάµε ΟΚ και ξανατρέχουµε την πολλαπλή παλινδρόµηση αλλά πλέον µε τις

κετροποιηµένες (πρώην γραµµικά συσχετισµένες) µεταβλητές.

Στην περίπτωση που τα δεδοµένα µας αποτελούν χρονοσειρές µια επιπλέον µέτρο που

θα πρέπει να εξετάσουµε είναι η ύπαρξη Αυτοσυσχέτιση των Καταλοίπων. Εµείς

επιθυµούµε να µην υπάρχει Αυτοσυσχέτιση στα κατάλοιπα. Ο έλεγχος είναι της

µορφής:

49

0

1

::

H ά ίH ά ί έ

έτα κατ λοιπα δεν ε ναι αυτοσυσχετισµ νατα κατ λοιπα ε ναι αυτοσυσχετισµ να

Η στατιστική συνάρτηση που χρησιµοποιείται κάτω από την µηδενική υπόθεση είναι το

Box-Ljung Statistic. Θέλουµε p-value>0.05 επιπέδου σηµαντικότ6ητας που έχουµε

ορίσει.


Το πρώτο πράγµα που θα κάνουµε είναι να βρούµε τα κατάλοιπα:


Θα χρησιµοποιήσουµε ως εξαρτηµένη τις µηνιαίες αποδόσεις κάποιων µετοχών, ενώ

ως ανεξάρτητες κάποιους χρηµατιστηριακούς δείκτες των µετοχών αυτών. Επιπλέον

θα χρησιµοποιήσουµε µια Stepwise διαδικασία (για την οποία θα µιλήσουµε παρακάτω

εκτενέστερα) για να κρατήσουµε στο µοντέλο µόνο εκείνες τις µεταβλητές που είναι

στατιστικά σηµαντικές για την ανάλυσή µας.

50

Το επόµενο βήµα θα είναι:

Graph> Time Series> Autocorrelations

51

Το αποτέλεσµα θα είναι το παρακάτω πινακάκι µε το διάγραµµα:

Autocorrelations

Series: Standardized Residual

,350 ,097 13,078 1 ,000,107 ,096 14,316 2 ,001

-,108 ,096 15,580 3 ,001,024 ,095 15,646 4 ,004,183 ,095 19,376 5 ,002,178 ,094 22,932 6 ,001,046 ,094 23,176 7 ,002

-,044 ,093 23,399 8 ,003-,081 ,093 24,160 9 ,004,025 ,092 24,236 10 ,007,113 ,092 25,761 11 ,007,156 ,091 28,692 12 ,004,065 ,091 29,204 13 ,006,052 ,090 29,541 14 ,009

-,057 ,090 29,940 15 ,012-,067 ,089 30,496 16 ,016

Lag12345678910111213141516

Autocorrelation Std.Errora Value df Sig.b

Box-Ljung Statistic

The underlying process assumed is independence (whitenoise).

a.

Based on the asymptotic chi-square approximation.b.

Βλέπουµε πως όλα τα p-value είναι µικρότερα από το 0.05 επίπεδο σηµαντικότητας

που ορίσαµε, εποµένως φαίνεται να υπάρχει πρόβληµα Αυτοσυσχέτισης Κ

Καταλοίπων. Το διάγραµµα παρακάτω φαίνεται να συµφωνεί για το πρώτο lag που

φαίνεται να είναι εκτός των ορίων του διαστήµατος εµπιστοσύνης.

52

Αυτό που θα κάνουµε για να διορθώσουµε το πρόβληµα είναι προσθέσουµε µια

χρονική υστέρηση (την πρώτη χρονική υστέρηση, δηλαδή RETURN-1) της

εξαρτηµένης. Αφού ξανά παράγουµε τα κατάλοιπα όπως είπαµε παραπάνω και µετά

κάνουµε τον έλεγχο Αυτοσυσχέτισης Καταλοίπων θα έχουµε τα παρακάτω

αποτελέσµατα:

53

Autocorrelations

Series: Standardized Residual

,178 ,097 3,386 1 ,066,060 ,096 3,771 2 ,152,033 ,096 3,892 3 ,273

-,006 ,095 3,896 4 ,420-,044 ,095 4,107 5 ,534-,029 ,094 4,199 6 ,650,008 ,094 4,206 7 ,756

-,106 ,093 5,502 8 ,703,046 ,093 5,747 9 ,765

-,054 ,092 6,093 10 ,807,026 ,092 6,170 11 ,862

-,002 ,091 6,171 12 ,907-,020 ,091 6,218 13 ,938,086 ,090 7,132 14 ,929

-,020 ,090 7,183 15 ,952-,075 ,089 7,887 16 ,952

Lag12345678910111213141516

Autocorrelation Std.Errora Value df Sig.b

Box-Ljung Statistic

The underlying process assumed is independence (whitenoise).

a.

Based on the asymptotic chi-square approximation.b.

Παρατηρούµε ότι όλα πλέον τα P-value είναι µεγαλύτερα από το 0.05. Εποµένως δεν

υπάρχει πρόβληµα Αυτοσυσχέτισης καταλοίπων πλέον. Και το διάγραµµα παρακάτω

φαίνεται να συµφωνεί, αφού όλα τα Lags φαίνεται να είναι εντός των ορίων του

διαστήµατος εµπιστοσύνης.

54

Σε περίπτωση τώρα που δεν ισχύουν οι υποθέσεις του πολλαπλού γραµµικού

υποδείγµατος θα χρησιµοποιήσουµε κάποιου είδους µετασχηµατισµό.

Επιπλέον, αφού διορθώσουµε τις υποθέσεις του µοντέλου, σε περίπτωση που δεν

πληρούνται, το πρώτο πράγµα που θα κάνουµε είναι να δούµε κάποιες µεταβλητές

δεν είναι στατιστικά σηµαντικές. Αυτό θα το καταλάβουµε βλέποντας τα p-value στο

πινακάκι Coefficients που εξάγεται από το µενού Analyze> Regression> Linear

για την γραµµική παλινδρόµηση. Αν τα p-value για κάθε µεταβλητή είναι µικρότερα

από 0.05 δηλαδή το 5% επίπεδο σηµαντικότητας που έχουµε ορίσει τότε οι

µεταβλητές είναι στατιστικά σηµαντικές. Στην περίπτωση που p-value>0.05 τότε οι

µεταβλητές κρίνονται ακατάλληλες για το µοντέλο µας, οπότε εφαρµόζουµε µια

µέθοδο επιλογής κατάλληλων µεταβλητών για το µοντέλο µας. Αυτές οι µέθοδοι είναι

οι Backward, Forward και Stepwise.

Στη Backward όλες οι µεταβλητές που διαθέτουµε που περιέχονται ήδη στην εξίσωση

αξιολογούνται σύµφωνα µε τα κριτήρια επιλογής για απαλοιφή (π.χ. ένα κριτήριο είναι

55

η µεγιστοποίηση της πιθανοφάνειας). Εκείνες που είναι ακατάλληλες απαλείφονται

µία-µία µέχρι να µην υπάρχει άλλη ακατάλληλη.

Στη Forward όλες οι µεταβλητές που διαθέτουµε που δεν περιέχονται στην εξίσωση

αξιολογούνται σύµφωνα µα τα κριτήρια επιλογής για προσθήκη (π.χ. η µεγιστοποίηση

πιθανοφάνειας). Εκείνες που είναι κατάλληλες προστίθενται µία-µία µέχρι να µην

υπάρχει άλλη κατάλληλη.

Στη Stepwise, η οποία είναι και η πιο αξιόπιστη, η επιλογή των µεταβλητών στον σετ

των µεταβλητών που διαθέτουµε προχωράει κατά βήµατα. Σε κάθε βήµα

αξιολογούνται οι µεταβλητές που περιλαµβάνονται ήδη στην εξίσωση σύµφωνα µε τα

κριτήρια επιλογής για απαλοιφή. Στην συνέχεια, οι µεταβλητές που δεν

περιλαµβάνονται στην εξίσωση αξιολογούνται για προσθήκη. Αυτή η διαδικασία

επαναλαµβάνεται µέχρι να µην είναι κατάλληλη για προσθήκη ή απαλοιφή καµία

µεταβλητή του σετ.

Με χρήση SPSS:΅


56

Αν τρέξουµε όµως την παλινδρόµηση (µε την µέθοδο Stepwise εφόσον κάποιες από

τις µεταβλητές είχαν µεγάλο P-value στο πίνακα των Coefficients οπότε δεν είναι

κατάλληλες για το µοντέλο µας) και ελέγξουµε τις υποθέσεις του µοντέλου

(Κανονικότητα, Οµοσκεδαστικότητα, Ανεξαρτησία, Πολυσυγγραµµικότητα και

Γραµµικότητα) θα δούµε ότι παραβιάζονται οι υποθέσεις της κανονικότητας (και δύο

έλεγχοι Kolmogorov-Smirnov και Shapiro-Wilks δίνουν p-value 0.000<0.05 οπότε

απορρίπτεται η µηδενική υπόθεση που υποστηρίζει ότι τα κατάλοιπα του µοντέλου

ακολουθούν κανονική κατανοµή) και της Οµοσκεδαστικότητας (αφού τα διαγράµµατα

σηµείων των καταλοίπων έναντι των επεξηγηµατικών φαίνεται να έχουν κάποιο

pattern και να µην είναι τυχαία, ένα σύννεφο σηµείων).

Αυτό που µπορούµε να κάνουµε για να διορθώσουµε τις δύο υποθέσεις που µας

προβληµατίζουν είναι να χρησιµοποιήσουµε κάποιους µετασχηµατισµούς είτε στην

εξαρτηµένη, είτε στις επεξηγηµατικές, είτε και στα δύο είδη µεταβλητών. Μετά από

δοκιµές στον υπό µελέτη µοντέλο µας βρήκαµε ότι το καλύτερο είναι να

µετασχηµατίσουµε και την εξαρτηµένη αλλά και κάποιες από τις επεξηγηµατικές. Σαν

µετασχηµατισµό εδώ χρησιµοποιήσαµε τον λογάριθµο. Εποµένως πλέον η εξαρτηµένη

µας είναι ο λογάριθµος των Πόντων ανά λεπτό των παιχτών και οι επεξηγηµατικές που

µετασχηµατίσαµε παίρνοντας τον λογάριθµό τους είναι Rebound ανά λεπτό και Assist

ανά λεπτό.

Toν µετασχηµατισµό στο SPSS µπορούµε να το κάνουµε µε το µενού:

Transform> Compute

Και κάνουµε τα εξής:

57

Θα προσέξουµε οπωσδήποτε να βάλουµε την ονοµασία της νέας µετασχηµατισµένη

µεταβλητής στο κουτάκι Target Variable, µετά θα επιλέξουµε την µεταβλητή που

θέλουµε να µετασχηµατίσουµε, εδώ τους Πόντους ανά λεπτό των παιχτών µετά θα

πάµε στο κουτάκι Function group και θα επιλέξουµε All και µετά στο ακριβώς στο από

κάτω κουτάκι θα ψάξουµε να βρούµε την συνάρτηση του λογαρίθµου Ln.

Και µετά πατάµε ΟΚ και στην τελευταία στήλη του dataset µας θα έχει δηµιουργηθεί η

νέα µετασχηµατισµένη µεταβλητή.

Το ίδιο θα κάνουµε και για τις επεξηγηµατικές µεταβλητές που θέλουµε να

µετασχηµατίσουµε.

Τρέχοντας την παλινδρόµηση θα δούµε ότι κάποιες από τις µεταβλητές δεν φαίνεται

να είναι στατιστικά σηµαντικές.

58

Εποµένως θα χρησιµοποιήσουµε την µέθοδο Stepwise

59

Από το νέο πινακάκι των Coefficients παρατηρούµε ότι οι µόνες µεταβλητές που

φαίνεται να είναι στατιστικά σηµαντικές για το µοντέλο είναι logRebound, %ποσοστό

καλαθιών εντός περιοχής, %ευστοχία ελευθέρων βολών. Βέβαια από τον έλεγχο

υπάρχει µια αµφιβολία για την σηµαντικότητα της σταθεράς στο µοντέλο, επειδή όµως

η σταθερά του µοντέλου είναι πολύ χρήσιµη στην εκτίµηση του µοντέλου αλλά και

στην εξαγωγή συµπερασµάτων, την σταθερά θα την αφαιρούµε µόνο όταν είναι

αναγκαστικό. Και επιπλέον από το πίνακα της ANOVA φαίνεται πως το µοντέλο µας

είναι στατιστικά σηµαντικό αφού p-value=0.000<0.05 εποµένως η µηδενική υπόθεση

απορρίπτεται που θέλει 0 1 2: ..... 0nH β β β= = = = .

60

Αν ξανά ελέγξουµε της υποθέσεις του γραµµικού µοντέλου µε τον τρόπο που έχουµε

αναφέρει πιο πάνω, θα έχουµε:

Κανονικότητα

Τα p-value είναι µεγάλα (>0,05) εποµένως δεν απορρίπτεται η µηδενική υπόθεση ότι

τα κατάλοιπα ακολουθούν κανονική κατανοµή. Αυτό µπορούµε να το δούµε και από

το ιστόγραµµα:

61

2,000000,00000-2,00000


12

10

8

6

4

2

0

Freq

uenc

y

Mean = 9,322404E-15Std. Dev. = 0,98547138N = 105

Histogram

Οµοσκεδαστικότητα:

Όπως είπαµε θα κάνουµε ένα πίνακα διαγραµµάτων σηµείων (Matrix Scatter Plot) των

καταλοίπων µε τις επεξηγηµατικές που είναι στατιστικά σηµαντικές για το µοντέλο

µας.


62

Και το αποτέλεσµα που θα πάρουµε είναι

63

Εµάς µας ενδιαφέρει να δούµε µόνο την γραµµή που αφορά τα Standardized

Residuals σε σχέση µε τις επεξηγηµατικές µεταβλητές. Από τα διαγράµµατα παραπάνω

παρατηρούµε ότι τα σηµεία είναι τυχαιοποιηµένα, δηλαδή σύννεφο (δεν είναι τόσο

καθαρό αλλά δεν φαίνεται να έχουµε κάποιο πρόβληµα).

Γραµµικότητα

Για τον έλεγχο της γραµµικότητας, όπως ειπώθηκε παραπάνω αυτό που µπορούµε να

κάνουµε είναι ένα διάγραµµα των προβλεπόµενων τιµών έναντι των καταλοίπων.


και κάνουµε τις εξής επιλογές

64

Πατάµε Continue και µετά OK.

Το αποτέλεσµα θα είναι το διάγραµµα σηµείων παρακάτω:

420-2-4

Regression Standardized Residual

5

4

3

2

1

0

-1

-2

Regr

essio

n St

anda

rdize

d Pr

edict

edVa

lue

Dependent Variable: Pontoi_log

Scatterplot

65

Αναµένεται 0.05*105 παρατηρήσεις εκτός του [-2,2], δηλαδή το πολύ 5

παρατηρήσεις έξω από τον διάστηµα παραπάνω. Εδώ βλέπουµε 2 σηµεία έξω από ο

διάστηµα οπότε είµαστε καλά και δεν παραβιάζεται η υπόθεση της γραµµικότητας.

Ανεξαρτησία

Θα κάνουµε την διαδικασία που είπαµε στην αρχή του κεφαλαίου, ώστε να εξάγουµε

τον δείκτη Durbin-Watson.

Αν κάνουµε την διαδικασία θα έχουµε:

Βλέπουµε ότι η τιµή είναι κοντά στο 2 οπότε δεν έχουµε πρόβληµα ανεξαρτησίας

καταλοίπων. Επιπλέον από αυτό το πινακάκι βλέπουµε ότι από το µοντέλο εξηγείται το

72,4% της συνολική διακύµανσης. (αρκετά καλό ποσοστό).

Πολυσυγγραµµικότητα

Όπως και στην αρχή της ενότητας, το µέτρο µου χρησιµοποιούµε για να ελέγξουµε

αν υπάρχει πολυσυγγραµµικότητα είναι το VIF. Για τιµές µεγαλύτερες από 10 έχουµε

σοβαρό πρόβληµα πολυσυγγραµµικότητας.

Κάνοντας την διαδικασία που αναφέραµε στην αρχή της ενότητας για την πολλαπλή

παλινδρόµηση, θα έχουµε

66

Βλέπουµε ότι καµία από τις µεταβλητές δεν φαίνεται να έχει VIF πάνω από 10 οπότε

όλα καλά και δεν υπάρχει πολυσυγγραµµικότητα.

Οπότε όλες οι υποθέσεις µας διορθώθηκαν.

Εποµένως όλες οι εκτιµήσεις µας είναι συνεπείς πλέον, άρα και σωστές.

67

3.5 ΑΝΑΛΥΣΗ ∆ΙΑΚΥΜΑΝΣΗΣ (ANOVA)

3.5.1 ΑΝΑΛΥΣΗ ∆ΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΠΑΡΑΓΟΝΤΑ

Η ανάλυση διακύµανσης στηρίζεται στον έλεγχο:

0 1 2

1

: ...:

n

i j

HH

µ µ µµ µ= = =≠

Όπου iµ είναι ο µέσος του i επιπέδου.

Αν χρησιµοποιήσουµε έλεγχο υποθέσεων ανά δύο, δηλαδή i jµ µ≠ τότε ξέρουµε ότι

κάθε έλεγχος υπόθεσης έχει επίπεδο σηµαντικότητας α. Άρα επειδή αυτοί οι έλεγχοι

θα πρέπει να ισχύουν ταυτόχρονα τότε το επίπεδο σηµαντικότητας αυξάνεται (είναι

δηλαδή (1-α)(1-α)…(1-α)). Για αυτό το λόγο χρησιµοποιείται η ανάλυση

διακύµανσης.

Ένα µοντέλο που περιγράφει καλά τα δεδοµένα µας είναι:

ij i ijy µ τ ε= + +

Όπου,

iτ : το πόσο επιδρά το επίπεδο i στο µοντέλο όπου i=1,2,..,α. Για τις επιδράσεις των

επιπέδων ισχύει 1

0a

ii

τ=

=∑

µ : σταθερό

ijε : τα σφάλµατα τα οποία είναι ανεξάρτητα και ακολουθούν 2(0, )N σ

Έτσι προχωράµε στον έλεγχο:

0 1 2

1

: ...: 0

a

i

HH ά έ i

τ τ ττ για τουλ χιστον να= = =

≠

Οι βαθµοί ελευθερία είναι:

• ∆ιασπορά ανάµεσα (between) στα επίπεδα: α-1

• ∆ιασπορά µέσα (within) στα επίπεδα: α(n-1)=an-a=N-a

• Οι συνολικοί βαθµοί ελευθερίας είναι αn-1=N-1

68

H ελεγχοσυνάρτηση F0 του παραπάνω ελέγχου ακολουθεί την κατανοµή , 1,a N aFα − −

Αν F0 είναι µεγάλος αριθµός τότε τα iτ διαφέρουν στατιστικά σηµαντικά µεταξύ

τους.

Αν F0 είναι µικρός αριθµός τότε τα iτ δεν διαφέρουν στατιστικά σηµαντικά

µεταξύ τους.

Αυτό που αξίζει να αναφέρουµε εδώ είναι ο καλύτερος εκτιµητής, ο οποίος είναι και

αµερόληπτος, της διακύµανσης είναι το MSError και ότι οι εκτιµήσεις των παραµέτρων

του µοντέλου γίνονται µε την µέθοδο των ελαχίστων τετραγώνων.

Οι έλεγχοι των υποθέσεων που περιγράφτηκαν στις ενότητας της απλής και

πολλαπλής παλινδρόµησης (Κανονικότητα, Οµοσκεδαστικότητα, Ανεξαρτησία)

περιστρέφονται γύρω από τα κατάλοιπα.

Η παραβίαση αυτών των υποθέσεων καθώς και η καταλληλότητα του µοντέλου

παραπάνω µπορούν ανιχνευθούν από την µελέτη των καταλοίπων.

îj ij ije y y= −

Για τον έλεγχο της κανονικότητας των µπορούν να γίνουν διάφοροι έλεγχοι

(P-P plot ή ιστόγραµµα). Εάν υπάρχουν ακραίες τιµές (outliers) οι οποίες

επηρεάζουν την κανονικότητα των καταλοίπων, τότε κάνουµε έλεγχο για να

διαπιστώσουµε εάν όντως είναι πραγµατικές ή προήλθαν από κάποιο σφάλµα

(π.χ. σφάλµα µέτρησης). Αν είναι απόρροια κάποιου σφάλµατος τότε τις

αφαιρούµε, αν είναι πραγµατικές τιµές τότε κάνουµε δύο αναλύσεις των

δεδοµένων µας, µια λαµβάνοντας υπόψη µας τις τιµές αυτές και µια

αφαιρώντας τις.

ije

Για τον έλεγχο της ανεξαρτησίας των κάνουµε ένα διάγραµµα Plot ofije

Residuals in Time Sequence. Αν µελετώντας το διάγραµµα παρατηρήσουµε

κάποια σχέση ανάµεσα στα κατάλοιπα, τότε υπάρχει πρόβληµα συσχέτισης. Για

να υπάρχει πρόβληµα συσχέτισης θα πρέπει, όπως αναφέρθηκε και στην απλή

παλινδρόµηση, τα σηµεία να εµφανίζονται τυχαιοποιηµένα.

69

Για τον έλεγχο ισότητας διακυµάνσεων των χρησιµοποιούµε το Plot ofije

Residuals vs Fitted Values. Στο διάγραµµα αυτό σε κάθε fitted value (µέσος

κάθε επιπέδου) τοποθετούµε τις διακυµάνσεις του αντίστοιχου επιπέδου. Αν οι

διακυµάνσεις αυτές παραµένουν σταθερές από επίπεδο σε επίπεδο τότε δεν

έχουµε πρόβληµα, αν µεταβάλλονται τότε προσπαθούµε να λύσουµε το

πρόβληµα µετασχηµατίζοντας τα δεδοµένα µας.

Για να ελέγξουµε την ισότητα διακυµάνσεων υπάρχουν διάφορα test. Ένα τέτοιο test

είναι αυτό του Barlett:

2 20 1 2

2 21

: ...

: ,i j

H

H i

2

jασ σ σ

σ σ

= = =

≠ ∀ ≠

Απορρίπτουµε την µηδενική υπόθεση σε επίπεδο σηµαντικότητας α όταν 2 20 ,aX Xα 1−> ,

όπου 20X η τιµή της ελεγχοσυνάρτησης.

Σύγκριση ζευγαριών µέσων των διαφόρων επιπέδων

Υπάρχουν αρκετοί έλεγχοι που κάνουν σύγκριση ζευγών µεσών των διαφόρων

επιπέδων. Η λογική όλων αυτών των ελέγχων στηρίζεται στον έλεγχο:

0

1

:

:i j

i j

H

H

µ µ

µ µ

=

≠

Οι έλεγχοι που ασχολούνται µε την παραπάνω υπόθεση είναι:

1. Μέθοδος LCD

2. Duncan’s Multiple Range Test

3. Newman Keul’s Test

4. Tukey’s Test

∆εν θα αναλύσουµε θεωρητικά αυτές τις µεθόδους εκτενέστερα. Ο έλεγχος που

θεωρείται ο πιο αξιόπιστος είναι αυτός του Duncan, επειδή η διαδικασία του ελέγχου

είναι αποτελεσµατική στο να βρίσκει διαφορές µεταξύ των µέσων όταν πραγµατικά

υπάρχουν.

70

Μη παραµετρικές µέθοδοι στην ANOVA

Ένα σηµαντικό ερώτηµα που προκύπτει τι µπορούµε να κάνουµε σε περίπτωση που

δεν ισχύει η υπόθεση της κανονικότητας. Μια λύση σε αυτή την περίπτωση είναι η

χρήση µη παραµετρικών µεθόδων. Μια τέτοια µέθοδος είναι η Kruskal-Wallis. Με την

οποία ελέγχουµε ισότητα διαµέσων πλέον και όχι ισότητα µέσων. ∆ηλαδή,

0 1 2

1

: ...: i j

HH

αδ δ δδ δ

= = =≠

Όπου iδ η διάµεσος στο i επίπεδο

jδ η διάµεσος στο j επίπεδο

Η ελεγχοσυνάρτηση του παραπάνω ελέγχου ακολουθεί X2 κατανοµή µε α-1 βαθµούς

ελευθερίας. Όταν Κ0 > , τότε απορρίπτουµε την µηδενική υπόθεση σε επίπεδο

σηµαντικότητας α.

2, 1aX α−

Σε αυτό το σηµείο αξίζει να αναφέρουµε ότι υπάρχουν κάποιες υποπεριπτώσεις

ανάλυσης διακύµανσης, όπως Ανάλυσης Συνδιακύµανσης (ANCOVA), Ανάλυση

∆ιακύµανσης Κατά Blocks, Ανάλυσης ∆ιακύµανσης µε Αλληλεπιδράσεις κ.α., µε τα

οποία δεν θα ασχοληθούµε.


Θέλουµε ένα µοντέλο που να µας δίνει την δυνατότ6ητα να εξετάσουµε κατά πόσο

κάθε επίπεδο ηλικίας επηρεάζει την επίδοση των αθλητών που είναι ενδιαφέρον για

µεταγραφή. Χωρίζουµε την Ηλικία µε την βοήθεια των percentiles σε τέσσερα

επίπεδα-κλάσεις <26, 27-28, 29-30, 31<. Αλλά καλό είναι να δηµιουργήσουµε τα

ποσοστιαία σηµεία, τα οποία θα µας βοηθήσουν να δηµιουργήσουµε τις κλάσεις

ηλικίας. Αυτή η µεθοδολογία είναι πολύ χρήσιµη όταν έχουµε πολλές παρατηρήσεις σε

µια µεταβλητής που θέλουµε να κατηγοριοποιήσουµε.

Analyze> Descriptive Statistics> Explore

Και τοποθετούµε την µεταβλητή που θέλουµε να κατηγοριοποιήσουµε στο κουτάκι

Dependent και µετά πηγαίνουµε στο µενού Statistics και κάνουµε τις εξής επιλογές:

71

Και το αποτέλεσµα θα είναι:

Οπότε οι κλάσεις µας θα είναι <26, 27-28, 29-30, 31<

72

Ορίζοντας το πώς θα παραχθούν οι κλάσεις µας θα προχωρήσουµε στην µετατροπή

της συνεχούς µεταβλητής Ηλικία. Στο παρακάτω µενού χρησιµοποιούµε την επιλογή

Into Different Variables διότι αν χρησιµοποιήσουµε την επιλογή Into Same Variable

θα µας σβηστεί η αρχική (συνεχής) µεταβλητή Ηλικία και θα αντικατασταθεί από την

κατηγορική, κάτι που δεν θέλουµε. Έτσι,

Transform> Recode> Into Different Variables

Στο µεγάλο κουτάκι βάζουµε την µεταβλητή που θέλουµε να κατηγοριοποιήσουµε. Και

στο Ακριβώς δίπλα κουτάκι βάζουµε την ονοµασία της µεταβλητή και µετά πατάµε

Change. Μετά πηγαίνουµε στο µενού Old and New Values

73

Θα αρχίσουµε να δηµιουργούµε τις κλάσεις ηλικίας που αναφέραµε παραπάνω. Για

την κλάση >26 θα πάµε και θα κάνουµε τις επιλογές όπως παραπάνω και µετά θα

πατήσουµε την επιλογή Add. Αυτό που δείχνει η παραπάνω εικόνα έιναι ότι για την

κλάση >26 στο SPSS θα δηµιουργηθεί µια νέα µεταβλητή που θα περιέχει αριθµούς

από το 1 έως 4. Όπου θα εντοπίζει ένα παίχτη που είναι κάτω από 26 χρονών θα έχει

την τιµή 1. Για τις υπόλοιπες κλάσεις θα κάνουµε:

Εδώ λέµε ότι όταν κάποιος παίχτης βρίσκεται µεταξύ 27 µε 28 χρονών βάλε την τιµή

2. Το ίδιο κάνουµε και για την τρίτη κλάση. Για την τέταρτη και τελευταία κλάση θα

κάνουµε:

74

Αφού φτιάξουµε όλες τις κλάσεις πατάµε Continue και µετά ΟΚ.

Μετά από αυτή τη διαδικασία εύλογο θα ήταν να κάνουµε ένα πίνακα συχνοτήτων και

ένα pie-chart ή ένα bar-chart.

Μετά θα πάµε στο µενού Charts και θα κάνουµε την εξής επιλογή


Τα αποτέλεσµα θα είναι:

Ηλικία(Κατηγοριοποιηµένη)

35 33,3 33,3 33,322 21,0 21,0 54,326 24,8 24,8 79,022 21,0 21,0 100,0

105 100,0 100,0

1234Total

ValidFrequency Percent Valid Percent

CumulativePercent

75

Στην πρώτη στήλη βλέπουµε τις συχνότητες στην πρώτη κατηγορία <26 ανήκουν 35

παίχτες του ΝΒΑ, στην δεύτερη κατηγορία που αντιστοιχεί στο διάστηµα ηλικίας 27-28

ανήκουν 22 παίχτες κ.ο.κ. Τις συχνότητες θα µπορούσαµε να τις δούµε καλύτερα µε

ένα διάγραµµα (Pie-chart ή Bar-Chart). Εδώ επιλέξαµε να κάνουµε ένα διάγραµµα

πίτας (Pie-chart):

4321

Ηλικία(Κατηγοριοποιηµένη)

∆εδοµένου των παραπάνω το µοντέλο µας θα είναι: ij i ijy µ τ ε= + + , i=1,…,4

Όπου µ: ο συνολικός µέσος του µοντέλου

iτ : το πόσο επιδρά το i-επίπεδο της ηλικίας στο µοντέλο( ισχύει πάντα

) 1

0a

iiτ

=

=∑

ijε : τα σφάλµατα τα οποία είναι ανεξάρτητα και ακολουθούν κανονική

κατανοµή µε µέση τιµή 0 και διακύµανση σ2 σταθερή αλλά άγνωστη.

Για να µπορέσουµε όµως να συνεχίσουµε στην ανάλυση θα πρέπει πρώτα να

ελέγξουµε αν ισχύουν οι προϋποθέσεις του µοντέλου οι οποίες όπως έχουµε ξανά

αναφέρει είναι:

• Τα κατάλοιπα να είναι ανεξάρτητα, αυτό θα το ελέγξουµε κάνοντας ένα

διάγραµµα σηµείων µεταξύ των µη τυποποιηµένων καταλοίπων και των µη

τυποποιηµένων προβλεπόµενων τιµών.

76

Αυτό που πρέπει να κάνουµε είναι να υπολογίσουµε τα κατάλοιπα και τις

προβλεπόµενες τιµές. Έτσι:

Analyze> General Linear Model> Univariate

Μετά θα πάµε στο µενού Save και θα σώσουµε τα Unstandardized Residuals και

τα Unstandardized.

77

και µετά κάνουµε ένα διάγραµµα των Unstandardized Residuals έναντι των

Unstandardized Predicted.

Graph> Scatter> Simple

Και πατάµε ΟΚ.

Από το διάγραµµα δεν φαίνεται να έχουµε πρόβληµα µε την ανεξαρτησία, µιας και

φαίνεται τα σηµεία να είναι τυχαιοποιηµένα.

0,0110,010,0090,0080,007

Predicted Value for ΠόντοιΛεπτα

0,06

0,05

0,04

0,03

0,02

0,01

0,00

-0,01

Resid

ual f

or ΠόντοιΛεπ

τα

78

∆εν φαίνεται να υπάρχει κοινή διάταξη των σηµείων καθενός επιπέδου σε σχέση µε

κάποια από τα άλλα τρία.

• Οµοσκεδαστικότητα των καταλοίπων κατά επίπεδο. Θα κάνουµε ένα Levene

test για την ισότητα των διακυµάνσεων των καταλοίπων.


Θα βάλουµε τα Residuals στο κουτάκι που λέγεται Dependent List και την

κατηγοριοποιηµένη µεταβλητή Ηλικία στο κουτάκι Factor List:

µετά πηγαίνουµε στο µενού Plots και κάνουµε τις εξής επιλογές:


79

Το πινακάκι που παράγεται είναι το παραπάνω και µας ενδιαφέρει η πρώτη γραµµή.

Από το p-value(=0.124>0.05) δεν απορρίπτουµε την µηδενική υπόθεση που

αντιπροσωπεύει την ισότητα διακυµάνσεων. Εποµένως έχουµε οµοσκεδαστικότητα.

• Τα κατάλοιπα να ακολουθούν κανονική κατανοµή µε µέση τιµή 0 και

διακύµανση σ2 σταθερή αλλά άγνωστη

Θα κάνουµε ακριβώς την ίδια διαδικασία όπως και στον έλεγχο Οµοσκεδαστικότητας

µόνο που στο κουτί του Factor List δεν θα υπάρχει η κατηγοριοποιηµένη Ηλικία και

στο µενού Plots θα έχουµε κάνει τις εξής επιλογές:


Παρατηρούµε ότι και οι δύο έλεγχοι απορρίπτουν την υπόθεση της κανονικότητας.

Εποµένως αυτό που µπορούµε να κάνουµε είναι να εφαρµόσουµε µία µη παραµετρική

ανάλυση. Όπως αναφέρθηκε παραπάνω µια καλή λύση είναι να χρησιµοποιήσουµε την

80

ανάλυση Kruskal-Wallis, η οποία κάνει έλεγχο ισότητας διαµέσων και όχι ισότητας

µέσων.

Analyze> Nonparametric Tests> K Independent samples….

Και θα κάνουµε τις εξής επιλογές:

Στο µενού Define Range θα δηλώσουµε το πόσα επίπεδα έχει η κατηγορική µεταβλητή

Ηλικία. Εφόσον έχουµε 4 επίπεδα θα βάλουµε:

Πατάµε Continue και OK.

To το αποτέλεσµα θα είναι το πινακάκι

81

Σύµφωνα µε το οποίο οι διάµεσοι δεν φαίνεται να διαφέρουν (αφού p-

value=0.473>0.05 άρα δεν απορρίπτεται η µηδενική υπόθεση).

Τώρα σε περίπτωση που δεν είχαµε το πρόβληµα παραβίασης της υπόθεσης της

κανονικότητας θα αναφέρουµε τι θα κάναµε.

Στο µενού SPSS:

Analyze> General Linear Model> Univariate

Μετά θα πάµε στο µενού Option και θα κάνουµε τις εξής επιλογές:

82

Πατάµε Continue. Μετά πηγαίνουµε στο µενού Post-Hoc για να συγκρίνουµε ζεύγη

µέσων των διαφόρων επιπέδων την κατηγοριοποιηµένης µεταβλητής Ηλικίας .

Θα πάµε στο κουτί Factors και θα επιλέξουµε την κατηγορική µας Ηλικία και µετά θα

πατήσουµε το βελάκι για να περάσει η µεταβλητή στο απέναντι κουτάκι Τέλος, θα

κάνουµε τις επιλογές παραπάνω, θα πατήσουµε Continue και µετά ΟΚ.

83

Τα αποτελέσµατα που θα πάρουµε είναι τα εξής:

Το p-value µας είναι γνώριµο µιας και αυτό το πινακάκι είναι ακριβώς το ίδιο µε αυτό

που εξάγαµε στο έλεγχο υπόθεσης για ισότητα διακυµάνσεων (Οµοσκεδαστικότητα)

Σε αυτό το πινακάκι βλέπουµε κατά πόσο το µοντέλο µας είναι κατάλληλο για την

ανάλυση που θέλουµε να κάνουµε. Εδώ βλέπουµε ότι οι µέσοι κάθε επιπέδου της

κατηγορικής µεταβλητής φαίνεται να είναι ίσοι.

Parameter Estimates

Dependent Variable: Πόντοι ανα λεπτό

,007 ,002 3,267 ,001 ,003 ,011 ,096,003 ,003 1,269 ,207 -,002 ,009 ,016,002 ,003 ,752 ,454 -,004 ,008 ,006,000 ,003 -,051 ,960 -,006 ,006 ,000

0a . . . . . .

ParameterIntercept[ΗλικίαΚατηγορίες=1][ΗλικίαΚατηγορίες=2][ΗλικίαΚατηγορίες=3][ΗλικίαΚατηγορίες=4]

B Std. Error t Sig. Lower Bound Upper Bound95% Confidence Interval Partial Eta

Squared

This parameter is set to zero because it is redundant.a.

Σε αυτό το πινακάκι βλέπουµε από την στήλη των B ότι αν µετακινηθούµε από το

επίπεδο 3 (ΗλικίαΚατηγορίες=3) στο επίπεδο 1 (ΗλικίεςΚατηγορίες=1) ο µέσος θα

µεταβληθεί κατά 0.003. Αν µετακινηθούµε από το επίπεδο 3 (ΗλικίαΚατηγορίες=3)

στο επίπεδο 2 (ΗλικίεςΚατηγορίες=2) ο µέσος θα µεταβληθεί κατά 0.002. Αν όµως

κοιτάξουµε τα p-value των επιπέδων θα δούµε ότι είναι αρκετά µεγάλα (>0.05),

δηλαδή δεν φαίνονται να είναι στατιστικά σηµαντικά τα επίπεδα της κατηγορικής

84

Ηλικία. Μην ξεχνάµε όµως ότι εµείς υποθέσαµε ότι ισχύει η κανονικότητα ενώ στην

ουσία δεν ισχύει. Εποµένως δικαιολογηµένα συµβαίνει αυτό.

Στο πινακάκι παραπάνω γίνεται η σύγκριση ζευγών µέσων των διαφόρων επιπέδων

της Κατηγορικής Ηλικίας. Βλέπουµε ότι τα p-value είναι µεγάλα εποµένως οι µέσοι

κάθε ζεύγους φαίνεται να είναι ίσοι.

Για την παραµετρική µέθοδο και γνωρίζοντας ότι οι υποθέσεις που αναφέραµε στην

αρχή του κεφαλαίου ισχύουν, τότε µπορούµε να χρησιµοποιήσουµε την επιλογή One-

Way ANOVA στο µενού

Analyze> Compare Means> One-Way ANOVA

Και θα πάρουµε τα ίδια αποτελέσµατα µε τα παραπάνω.

85

4. ΑΝΑΛΥΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ∆Ε∆ΟΜΕΝΩΝ 4.1 ΓΕΝΙΚΑ ΣΤΟΙΧΕΙΑ Η ανάλυση κατηγορικών δεδοµένων αποτελεί ένα κοµµάτι της στατιστικής ανάλυσης

δεδοµένων. Οι τυχαίες µεταβλητές που χρησιµοποιούνται σε µια τέτοια ανάλυση,

αποτελούνται από δεδοµένα τα οποία µπορεί να είναι µετρήσιµα (π.χ. ηλικία) αλλά και

µη µετρήσιµα (π.χ. φύλο) και έχουν κατηγοριοποιηθεί σε οµάδες. Για παράδειγµα,

τέτοιες τυχαίες µεταβλητές θα µπορούσαν να είναι απαντήσεις που έχουν δώσει

ερωτώµενοι σε ερωτήσεις κάποιου ερωτηµατολογίου και υποδεικνύουν τη θέση των

ερωτώµενων για κάποιο εξεταζόµενο χαρακτηριστικό.

Οι µετρήσεις που προκύπτουν µέσα από τέτοιες διαδικασίες ονοµάζονται ποιοτικές

µετρήσεις. Όσον αφορά τέτοιου είδους µετρήσεις, µπορούµε να ξεχωρίσουµε δύο

ειδών κατηγορικές µεταβλητές:

• Ονοµαστικές (nominal), όπου η κάθε µέτρηση αντιπροσωπεύει την

κατηγορία στην οποία ανήκει το υποκείµενό µας (π.χ. ερωτώµενος). Οι αριθµοί

που θα χρησιµοποιηθούν για την αναπαράσταση των τιµών ( π.χ. 0,1,2,…)

λειτουργούν σαν ετικέτες που περιγράφουν τις κατηγορίες. Για παράδειγµα,

φύλο, θρήσκευµα κ.α.

• ∆ιατεταγµένες (ordinal), όπου κάθε µέτρηση δείχνει την σειρά και την

διάταξη των οµάδων. Εδώ οι που αντιπροσωπεύουν τις οµάδες θα πρέπει να

διατηρούν την διάταξη των διαφορετικών κατηγοριών. Για παράδειγµα, το

χαρακτηριστικό θερµοκρασία θα µπορούσε να έχει τέσσερις κατηγορίες: ‘πολύ

ζεστό’, ‘ζεστό’, ‘κρύο’ και ‘πολύ κρύο’, οι οποίες θα µπορούσαν να

αναπαρασταθούν από τους αριθµούς 1,2,3 και 4 αντίστοιχα.

Το βασικό ερώτηµα που προκύπτει εδώ είναι πώς σε τέτοιου τύπου αναλύσεις

εξαρτηµένες µεταβλητές επηρεάζονται από άλλες ανεξάρτητες µεταβλητές.

Τα µοντέλα κατηγορικών µεταβλητών καλύπτουν την ανάλυση ονοµαστικών και

διατεταγµένων µετρήσεων. Το µεγαλύτερο µέρος των µετρήσεων συλλέγονται στις

κοινωνικές και οικονοµικές επιστήµες, στο τοµέα του Marketing κ.α.

86

4.2 ΠΕΡΙΓΡΑΦΙΚΑ ΜΕΤΡΑ ΓΙΑ ΚΑΤΗΓΟΡΙΚΑ ∆Ε∆ΟΜΕΝΑ

Σε αντίθεση µε τα συνεχή δεδοµένα, στα κατηγορικά δεν έχει νόηµα να υπολογίσουµε

των µέσο, την διακύµανση και γενικότερα τα µέτρα που υπολογίσαµε στην περίπτωση

των συνεχών µεταβλητών.

Στην περίπτωση των κατηγορικών δεδοµένων αυτό που µπορούµε να κάνουµε είναι

υπολογίσουµε την επικρατούσα τιµή, η οποία αποτελεί την κατηγορία µε την

µεγαλύτερη συχνότητα ή να εξάγουµε έναν πίνακα συχνοτήτων, το οποίο θα µας

βοηθήσει να δούµε πόσες φορές εµφανίζεται η κάθε κατηγορία µιας µεταβλητής στα

δεδοµένα µας.

Μια καλή απεικόνιση των συχνοτήτων θα µπορούσε να γίνει µε ένα διάγραµµα πίτας

(pie-chart) ή ένα ραβδόγραµµα (bar-plot).


Για την διευκόλυνση της παρουσίασης του ελέγχου ανεξαρτησίας µεταξύ 2

κατηγορικών µεταβλητών στην ανάλυση κατηγορικών δεδοµένων µε χρήση του SPSS

θα χρησιµοποιήσουµε ένα σετ δεδοµένων µε δύο µεταβλητές (ΤΗ: αν ένα νοσοκοµείο

είναι πανεπιστηµιακό 0/1:ΟΧΙ/ΝΑΙ, Trauma: αν έχει το νοσοκοµείο µονάδα

αποκατάστασης τραυµάτων 0/1:ΟΧΙ/ΝΑΙ).

Για να εξάγουµε ένα πίνακα συχνοτήτων απλά πάµε πάνω στο µενού του SPSS και

κάνουµε τα παρακάτω:

Analyze> Descriptive Statistics> Frequencies

Τοποθετούµε τις κατηγορικές µεταβλητές στο κουτάκι που ονοµάζεται Variables και

µετα πατάµε Statistics και επιλέγουµε το Mode

87

και πατάµε Continue.

Μετά πηγαίνουµε στο µενού Charts και επιλέγουµε είτε το Pie είναι το Bar. Εµείς εδώ

θα επιλέξουµε το Pie

και πατάµε Continue και τέλος ΟΚ.

Οι πίνακες συχνότητας των δύο µεταβλητών που παίρνουµε είναι:

TH

3416 72,6 72,6 72,61287 27,4 27,4 100,04703 100,0 100,0

OXINAITotal


CumulativePercent

88

Trauma

4127 87,8 87,8 87,8576 12,2 12,2 100,0

4703 100,0 100,0

OXINAITotal


CumulativePercent

Στην πρώτη στήλη και στα δύο πινακάκια είναι οι συχνότητας σε κάθε ένα επίπεδο

των µεταβλητών στην δεύτερη στήλη είναι το ποσοστό ως προς το σύνολο του κάθε

επιπέδου των µεταβλητών ενώ η τελευταία στήλη είναι η αθροιστική συχνότητα των

επιπέδων κάθε µεταβλητής.

Η απεικόνιση των περιεχοµένων των παραπάνω πινάκων γίνεται µε την χρήση Pie-

Chart ή/ και Bar-Chart.

NAIOXI

TH

89

NAIOXI

Trauma

4.3 ΕΛΕΓΧΟΣ ΑΝΕΞΑΡΤΗΣΙΑΣ ΜΕ ΤΗΝ ΚΑΤΑΝΟΜΗ Χ2

4.3.1 Έλεγχος Ανεξαρτησίας Χ2 του Pearson

Όταν θέλουµε να ελέγξουµε γενικότερα την ισότητα πιθανότητας εµφάνισης ενός

χαρακτηριστικού/ ενδεχοµένου µεταξύ δύο κατηγορικών µεταβλητών µε πολλά

επίπεδα τότε χρησιµοποιούµε τον έλεγχο ανεξαρτησίας του Pearson.

Ας υποθέσουµε ότι έχουµε Χ και Υ κατηγορικές µεταβλητές µε I και J επίπεδα. Αυτό

που θέλουµε να ελέγξουµε την υπόθεση:

Ηο: Ανεξαρτησία µεταξύ Χ και Υ

Η1: Εξάρτηση µεταξύ Χ και Υ

Η ελεγχοσυνάρτηση για τον παραπάνω έλεγχο δίνεται από το τύπο:

( )2

2

1 1

ˆˆ

I Jij ij

i j ij

n mX

m= =

−=∑∑

όπου

. .

..

ˆ i jij

n nm

n=

90

µε : συχνότητα στο κελί ij ijn

: οι αναµενόµενες συχνότητες κάτω από την υπόθεση της ανεξαρτησίας îjm

.: περιθώρια συχνότητα για το επίπεδο i της µεταβλητής Χ in

.jn : περιθώρια συχνότητα για το επίπεδο j της µεταβλητής Y

: σύνολο δείγµατος ..n

Η µηδενική υπόθεση Ηο απορρίπτεται όταν ( )( )2 20 1 1 ,1I J aX X − − −> ή όταν p-value<α όπου

α και στις δύο περιπτώσεις είναι το επίπεδο σηµαντικότητας που έχουµε ορίσει

(συνήθως α=5%)

Ένας άλλος έλεγχος ανεξαρτησίας είναι αυτός που στηρίζεται στον λόγο

πιθανοφανειών και δίνεται από τον τύπο:

2 2 logîj

iji j ij

nG n

m= − ∑∑

για 5nIJ

≥ ισχύει 2 2( 1)( 1),1I J aG X − − − ασυµπτωτικά.

Είναι ένα µέτρο το οποίο δεν θα ασχοληθούµε λόγω του ότι στο SPSS δεν µπορεί α γίνει. Με χρήση SPSS:

Για την διευκόλυνση της παρουσίασης του ελέγχου ανεξαρτησίας µεταξύ 2

κατηγορικών µεταβλητών στην ανάλυση κατηγορικών δεδοµένων µε χρήση του SPSS

θα χρησιµοποιήσουµε πάλι το σετ δεδοµένων µε δύο µεταβλητές (ΤΗ: αν ένα

νοσοκοµείο είναι πανεπιστηµιακό 0/1:ΟΧΙ/ΝΑΙ, Trauma: αν έχει το νοσοκοµείο

µονάδα αποκατάστασης τραυµάτων 0/1:ΟΧΙ/ΝΑΙ), που χρησιµοποιήσαµε πιο πάνω.

Για να µπορέσουµε να κάνουµε έλεγχο ανεξαρτησίας το πρώτο που πρέπει να κάνουµε

είναι να φτιάξουµε ένα πίνακα συνάφειας όπου στις γραµµές θα τοποθετήσουµε την

ανεξάρτητη µεταβλητή Trauma και στις στήλες την εξαρτηµένη µεταβλητή TH. Έτσι,


91


Και τοποθετούµε τις µεταβλητές όπως παρακάτω


Chi-Square όπως παρακάτω:


Στο Output θα έχει δηµιουργηθεί ο πίνακας συνάφειας

92


Count

3201 926 4127215 361 576

3416 1287 4703

OXINAI

Trauma

Total

OXI NAITH

Total

Το οποίο µας δείχνει ότι δεδοµένου ότι το νοσοκοµείο δεν έχει πτέρυγα

αποκατάστασης τραυµάτων τα νοσοκοµεία τα οποία δεν είναι πανεπιστηµιακά είναι

3201, ενώ τα νοσοκοµεία τα οποία είναι πανεπιστηµιακά είναι 926 σε αριθµό. Οµοίως

ερµηνεύεται και η περίπτωση που κάποιο νοσοκοµείο διαθέτει πτέρυγα


Το επόµενο πινακάκι που εξάγεται είναι το πινακάκι που µας δείχνει αν υπάρχει ή όχι

ανεξαρτησία µεταξύ των δύο µεταβλητών.

Κοιτάζοντας το p-value του ελέγχου Pearson Chi-Square βλέπουµε ότι είναι πολύ

µικρό (0.000<0.05 επίπεδο σηµαντικότητας που έχουµε ορίσει) εποµένως

απορρίπτεται η µηδενική υπόθεση, δηλαδή οι µεταβλητές ΤΗ και Trauma είναι

εξαρτηµένες µεταβλητές.

4.4 RELATIVE RISK

Ένα χρήσιµο µέτρο σύγκρισης πιθανοτήτων µπορεί να είναι ο λόγος των δύο

πιθανοτήτων ο οποίος ονοµάζεται Relative Risk. Για παράδειγµα, έστω ότι θέλουµε να

συγκρίνουµε τις δεσµευµένες πιθανότητες Π1|1 και Π1|2 , τότε το rιelative risk θα

93

υπολογίζεται από τον λόγο 1|1

1|2

RRΠ

=Π

. Για να µπορέσουµε να υπολογίσουµε το RR

παίρνουµε τις εκτιµήσεις των πιθανοτήτων που τις συµβολίζουµε µε p. Οπότε για το

και το θα έχουµε 1|1Π 1|2Π

111|1

1.

211|2

2.

npnnpn

=

=

Αν τα δύο ποσοστά που συγκρίνονται είναι ίσα τότε RR=1.

Για να µπορέσουµε να δώσουµε µια ερµηνεία σε αυτό το µέτρο θα χρησιµοποιήσουµε

ένα µικρό παράδειγµα.

Στον πίνακα παρακάτω δίνεται δείγµα 419 γυναικών ταξινοµηµένο ως προς το αν

πάσχουν από κατάθλιψη και αν είχαν κάποια τραυµατική εµπειρία στη ζωή τους. Είναι

το ποσοστό των γυναικών µε κατάθλιψη το ίδιο για τις γυναίκες µε τραυµατική

εµπειρία και χωρίς;

Κατάθλιψη, Υ

Τραυµατική

Εµπειρία, Χ

Οχι Ναι

Ναι 131 33 164

Όχι 251 4 255

382 37 419

12

2|1 1.

222|2

2.

0.201 12.830.0156

np nRR np

n

= = = =

Ερµηνεία: Η αναλογία των γυναικών που πάσχουν από κατάθλιψη είναι κατά 12.83

φορές µεγαλύτερη στις γυναίκες µε τραυµατική εµπειρία σε σχάση µε γυναίκες που

δεν είχαν τραυµατική εµπειρία ή η αναλογία στο δείγµα καταθλιπτικών γυναικών είναι

1183% υψηλότερη σε γυναίκες που είχανε κάποια τραυµατική εµπειρία.

ΠΡΟΣΟΧΗ: είναι µια µέθοδος που εφαρµόζεται µόνο για 2x2 πίνακες συνάφειας.

94


Θα χρησιµοποιήσουµε πάλι το σετ δεδοµένων µε δύο µεταβλητές (ΤΗ: αν ένα

νοσοκοµείο είναι πανεπιστηµιακό 0/1:ΟΧΙ/ΝΑΙ, Trauma: αν έχει το νοσοκοµείο

µονάδα αποκατάστασης τραυµάτων 0/1:ΟΧΙ/ΝΑΙ), που χρησιµοποιήσαµε πιο πάνω.

Για να µπορέσουµε να συγκρίνουµε ποσοστό, το πρώτο που πρέπει να κάνουµε είναι

να φτιάξουµε ένα πίνακα συνάφειας όπου στις γραµµές θα τοποθετήσουµε την

ανεξάρτητη µεταβλητή Trauma και στις στήλες την εξαρτηµένη µεταβλητή TH. Έτσι,




Risk όπως παρακάτω:

95

Μετά πατάµε Continue και µετά ΟΚ.

Ο πρώτος πίνακας που παίρνουµε είναι ο πίνακας συνάφειας και η ερµηνεία είναι

παρόµοια µε αυτή που δόθηκε στο παράδειγµα της ενότητας 4.3 .


Count

3201 926 4127215 361 576

3416 1287 4703

OXINAI

Trauma

Total

OXI NAITH

Total

Το δεύτερο πινακάκι αφορά τα αποτελέσµατα για το Relative Risk:

Risk Estimate

5,804 4,829 6,977

2,078 1,867 2,313,358 ,329 ,390

4703

Odds Ratio forTrauma (OXI / NAI)For cohort TH = OXIFor cohort TH = NAIN of Valid Cases

Value Lower Upper

95% ConfidenceInterval

96

Η ερµηνεία όταν το ΤΗ=ΟΧΙ είναι παρόµοια µε αυτή που δώσαµε πιο πάνω.

Όσον αφορά την ερµηνεία όταν ΤΗ=ΝΑΙ είναι ότι η αναλογία των νοσοκοµείων που

είναι πανεπιστηµιακά είναι κατά 0.742 (=1-0.358) φορές µικρότερη όταν δεν

περιέχουν πτέρυγα αποκατάστασης τραυµάτων σε σχέση µε το όταν υπάρχουν αυτές

οι πτέρυγες ή η αναλογία στο δείγµα πανεπιστηµιακών νοσοκοµείων είναι 74.2%

µειωµένη σε πανεπιστηµιακά νοσοκοµεία τα οποία δεν διέθεταν πτέρυγα


4.5 ΣΥΓΚΡΙΣΗ ΕΞΑΡΤΗΜΕΝΩΝ ΠΟΣΟΣΤΩΝ

Ζεύγη θα µπορούσαν να είναι δύο υποκείµενα τα οποία µοιράζονται ένα κοινό

χαρακτηριστικό. Η σύγκριση εξαρτηµένων ποσοστών βρίσκει εφαρµογή σε

προβλήµατα στα οποία έχει χρησιµοποιηθεί αρκετές φορές το ίδιο δείγµα. Για

παράδειγµα, η µέτρηση του ποσοστού έγκρισης του έργου του πρωθυπουργού µιας

χώρας σε δύο χρονικές στιγµές διαφοράς 12 µηνών, έγινε µε δύο δηµοσκοπήσεις που

χρησιµοποίησαν το ίδιο δείγµα 1750 πολιτών. Τα δείγµατα στις δύο δηµοσκοπήσεις

είναι εξαρτηµένα.

Έστω ότι διαθέτουµε ταιριασµένα ζεύγη τα οποία απαντούν θετικά ή αρνητικά σε

µια ερώτηση κάτω από δύο πειραµατικές συνθήκες . Ορίζουµε τις πιθανότητες π

..nij να

πάρουµε το ενδεχόµενο i από την πρώτη παρατήρηση και το ενδεχόµενο j από την

δεύτερη παρατήρηση i,j=0,1.

Απάντηση στην

πειραµατική

συνθήκη 2

Απάντηση στην

πειραµατική

συνθήκη 1 1 0

1 Π11 Π10 Π1.

0 Π01 Π00 Π0.

Π.1 Π.0 1

Συγκρίνουµε τα δύο εξαρτηµένα δείγµατα συγκρίνοντας τις περιθώριες πιθανότητές

Π1. και Π.1 . Η µηδενική υπόθεση Ηο: Π1. =Π.1 ονοµάζεται οµοιογένεια περιθωρίων,

µπορεί να γραφτεί και ως Ηο: Π10 =Π01 . Επιπλέον n*=n10+n01. Κάτω από την

µηδενική υπόθεση η συχνότητα n10 ακολουθεί δυωνυµική κατανοµή Bin(n*, 0.5).

97

Όταν ωστόσο το n*>10 τότε η δυωνυµική προσεγγίζεται πολύ καλά από την κανονική

κατανοµή οπότε κάτω από την Ηο η στατιστική συνάρτηση

10 10 01

10 01

0.5 * (0,1)* 0.5 0.5n n n nz Nn n n

− −= =

× × +

Ο έλεγχος αυτός ονοµάζεται McNemar.


Θα χρησιµοποιήσουµε ένα σετ δεδοµένων που αποτελείται από 2 µεταβλητές

(∆ηµοσκόπηση Ι 1/0=ΝΑΙ/ΟΧΙ, ∆ηµοσκόπηση ΙΙ 1/0=ΝΑΙ/ΟΧΙ). Η µέτρηση του

ποσοστού έγκρισης του έργου του πρωθυπουργού µιας χώρας σε δύο χρονικές

στιγµές διαφοράς 12 µηνών, έγινε µε δύο δηµοσκοπήσεις που χρησιµοποίησαν το ίδιο

δείγµα 50 πολιτών. Το Πρώτο που θα κάνουµε είναι να δηµιουργήσουµε ένα πίνακα

συνάφειας και στην περίπτωση που n*= n10+n01>10 θα εφαρµόσουµε τον έλεγχο

McNemar. Έτσι πηγαίνοντας στο µενού του SPSS

Analysze> Descriptive Statistics> Crosstabs

Τοποθετούµε σωστά τις µεταβλητές όπως παρακάτω

98

Μετά πηγαίνουµε στο µενού Statistics, αφαιρούµε την επιλογή Chi-Square και

επιλέγουµε McNemar, και πατάµε Continue και µετά OK.

Ο πίνακας συσχετίσεων που θα πάρουµε θα είναι

∆ηµοσκόπηση_Ι * ∆ηµοσκόπηση_ΙΙ Crosstabulation

Count

20 32 5227 21 4847 53 100

1ο Κοµµα2ο Κόµµα

∆ηµοσκόπηση_Ι

Total

1ο Κοµµα 2ο Κόµµα∆ηµοσκόπηση_ΙΙ

Total

όπου η ερµηνεία είναι παρόµοια µε αυτή του παραδείγµατος της ενότητας 4.3.1

Το τελευταίο πινακάκι είναι αυτό του ελέγχου του McNemar:

Επειδή το P-value=0.603>0.05 δεν απορρίπτουµε την µηδενική υπόθεση, εποµένως

υπάρχει οµοιογένεια περιθωρίων.

99

4.6 ΛΟΓΙΣΤΙΚΗ ΠΑΛΙΝ∆ΡΟΜΗΣΗ

Στην περίπτωση που η εξαρτηµένη µεταβλητή (Υ) παίρνει µόνο δύο τιµές (‘επιτυχία’

και ‘αποτυχία’) ένα από τα πιο γνωστά µοντέλα παλινδρόµησης είναι αυτό της

λογιστικής παλινδρόµησης.

Η Λογιστική Παλινδρόµηση αναφέρεται στην περίπτωση που µας ενδιαφέρει να

εξετάσουµε πώς η αναµενόµενη τιµή της εξαρτηµένης δίτιµης µεταβλητής επηρεάζεται

από ένα αριθµό παραγόντων.

Η λογική της λογιστικής Παλινδρόµησης στηρίζεται στα Odds που ισούνται µε 1ππ−

,

όπου π είναι η πιθανότητα εµφάνισης ενός ενδεχοµένου. Επειδή όµως αυτός ο λόγος

είναι θετικός και χωρίς πάνω όριο, όσο το π πηγαίνει στο 1 ο παραπάνω λόγος

πηγαίνει στο άπειρο και όσο το π πηγαίνει στο 0 ο λόγος πηγαίνει στο µηδέν. Για να

αντιµετωπίσουµε αυτό το πρόβληµα παίρνουµε το λογάριθµο του λόγου. Εποµένως,

το µοντέλο της λογιστικής παλινδρόµησης παίρνει τη µορφή:

01

( )log1 ( )

p

kx Xx κ

κ

π β βπ =

= +− ∑

Από την παραπάνω σχέση προκύπτει ότι:

01

01

01

exp ( )

1 exp

11 ( )1 exp

p

kk

p

kk

p

kk

Xx

X

xX

κ

κ

κ

β βπ

β β

πβ β

=

=

=

+=

+ +

− =+ +

∑

∑

∑

Όσον αφορά την ερµηνεία, βασίζεται όχι πλέον στον συντελεστή β όπως στη

γραµµική παλινδρόµηση αλλά στο γινόµενο eβ. ∆ηλαδή, ο λόγος 1ππ−

αυξάνεται σε

σχέση µε το γινόµενο eβ για κάθε αύξηση του x κατά µία µονάδα. Για παράδειγµα, αν

για ένα µοντέλο ο λόγος 1ππ−

=2 και το eβ=1.5, τότε µια αύξηση του x κατά µία

µονάδα θα αυξήσει τον αρχικό λόγο κατά 50%(=1.5-1).

100

Άλλων ειδών µοντέλα που µπορούν να χρησιµοποιηθούν σε µια ανάλυση κατηγορικών

δεδοµένων είναι τα Λογαριθµικά Μοντέλα και τα Ιεραρχικά. ∆εν θα ασχοληθούµε

όµως µε αυτά µοντέλα.


Θα χρησιµοποιήσουµε ένα παράδειγµα ανάλυσης πιστωτικών κινδύνων (Credit Risk

Analysis). Το σετ των δεδοµένων που θα χρησιµοποιήσουµε στην εφαρµογή µας,

απαρτίζεται από 1000 πελάτες από µια γερµανική τράπεζα. Για κάθε ένα πελάτη είναι

διαθέσιµη η πληροφόρηση για τον αν είναι άξιος ή όχι να του δοθεί κάποιου είδους

πίστωση (Creditability). Επιπροσθέτως, παραθέτονται 20 συµµεταβλητές που θα µας

βοηθήσουνε στην οµαδοποίηση των πελατών σε φερέγγυους και επισφαλείς για την

παροχή αυτής της πίστωσης. Στην αναφορά µας θα χρησιµοποιήσουµε 2 µεθόδους

ανάλυσης των πιστωτικών κινδύνων: της Discriminant Analysis και της Λογιστικής

Παλινδρόµησης. Και για τις δύο αυτές αναλύσεις θα χρησιµοποιήσουµε τις ίδιες

µεταβλητές. Ως εξαρτηµένη θα χρησιµοποιήσουµε την δίτιµη µεταβλητή Creditability

και ως ανεξάρτητες τη συνεχής µεταβλητή Amount of credit in "Deutsche Mark" (x)

και τις διατάξηµες Value of savings or stocks (in DM) (k), Has been employed by

current employer for (years) (l), Installment in % of available income(m), καθώς

και τις ψευδοµεταβλητές (dummies) Runnig Credits at other banks(t), Running

credits at department store or mail order house(h), Not available/ not assets (g),

Car/ other(v), Savings contract with a building society / Life insurance(w), hesitant

payment of previous credits (d), problematic running account / there are further

credits running but at other banks (p), no previous credits / paid back all previous

credits (q) και την no problems with current credits at this bank (f).

Πηγαίνουµε στο µενού του SPSS:

Analyze> Regression> Binary Logistic

Και εισάγουµε τις µεταβλητές όπως παρακάτω:

101

Μετά πηγαίνουµε στο µενού Optionsκαι επιλέγουµε τα εξής


Θα ξεκινήσουµε την ανάλυση µας µε την µέθοδο Enter της Λογιστικής Παλινδρόµησης.

102

Πίνακας 1

∆ιεξάγοντας την ανάλυση µε την µέθοδο Enter Πίνακας 1, παρατηρούµε ότι κάποιες

από τις µεταβλητές (Running Credits_z1, Running Credits_z2, Assets_z2 και

Assets_z3) που χρησιµοποιήσαµε στην ανάλυση δεν είναι στατιστικά σηµαντικές, αφού

τα p-value τους είναι µικρότερα από το 0,05 επίπεδο στατιστικής σηµαντικότητας που

έχουµε ορίσει . Για να διορθώσουµε αυτό το πρόβληµα, θα χρησιµοποιήσουµε µια

διαδικασία Backward (µε την µέθοδο του Wald).

103

Και πατάµε ΟΚ.

Πίνακας 2

Στον πίνακα 2 βλέπουµε ποιες µεταβλητές χρησιµοποιήθηκαν τελικά στην ανάλυση

(όλες εκτός από τις µεταβλητές που στην Enter φαινόταν να µην είναι στατιστικά

σηµαντικές). Επίσης στο παρακάτω πινακάκι βλέπουµε ότι το µοντέλο µας είναι

στατιστικά σηµαντικό αφού το p-value που αντιστοιχεί στο µοντέλο µας είναι

0.000<0.05 οπότε απορρίπτεται η µηδενική υπόθεση ότι όλοι οι συντελεστές β είναι ίσοι

µε µηδέν.

Η ερµηνεία που θα µπορούσαµε να δώσουµε για να δικαιολογήσουµε την απουσία των

εν λόγω µεταβλητών από την ανάλυση είναι ότι στο διαχωρισµό των πελατών δεν παίζει

ρόλο το αν ο κάθε πελάτης έχει πέραν από την εν λόγω τράπεζα, για την οποία

104

διεξάγεται η ανάλυση, κάποιες πιστώσεις ( ή κάποια υποχρέωση αποπληρωµής κάποιου

στεγαστικού δανείου) σε κάποιες άλλες τράπεζες. Επίσης, δεν παίζει ρόλο αν κάθε

πελάτης έχει στην ιδιοκτησία του κάποιο µεταφορικό µέσο (όχηµα οποιουδήποτε τύπου)

ή αν έχει κάνει οποιαδήποτε συµφωνία µε κάποια ασφαλιστική εταιρία µε στόχο την

παροχή κάποιας ασφάλειας ζωής. Αντιθέτως, σηµαντικό ρόλο στο διαχωρισµό των

πελατών παίζει το ποσό που θέλει κάθε πελάτης να δανειστεί (σε γερµανικά Μάρκα), το

να έχει κάποιο λογαριασµό στην εν λόγω τράπεζα ή το αν είναι κάτοχος κάποιων

µετοχών. Επιπλέον, κάποια χαρακτηριστικά του κάθε πελάτη που φαίνεται να είναι

χρήσιµα στην διαδικασία του διαχωρισµού είναι το κατά πόσα χρόνια εργαζόταν σε

κάποιο τοµέα, το ποσοστό του ετήσιου εισοδήµατός του, καθώς και από το αν ήταν

συνεπείς στις υποχρεώσεις του απέναντι στην εν λόγω τράπεζα σε προηγούµενες

πιστώσεις.

Το µοντέλο της λογιστικής παλινδρόµησης, πάνω στο οποία θα βασιστούµε για να

κάνουµε την ανάλυση των πιστωτικών κινδύνων είναι:

0( )log

1 ( )x x l m g d p qx

fπ β β βκ β β β β β β βπ

= + + + + + + + + +−

Τέλος από τον πίνακα 4, που αφορά τον τελικό διαχωρισµό των πελατών σε άξιους για

την παροχή πίστωσης και σε µη άξιους. Η οµάδα των πελατών που θα πάρει κάποια

πίστωση αποτελείται από 700(=53+647) άτοµα, ενώ η οµάδα που αφορά αυτούς που

δεν θα λάβουν πίστωση από 300(=214+86) άτοµα. Αυτοί που φαίνεται ότι θα πάρουν

πίστωση δεδοµένου ότι δεν την αξίζουν ανέρχονται σε 53, ενώ αυτοί που θα πάρουν

κάποιου είδους πίστωση δεδοµένου ότι την αξίζουν ανέρχονται σε 647. Ανάλογα

ερµηνεύουµε και τους πελάτες που δεν θα πάρουν κάποιου είδους πίστωσης. Ο

διαχωρισµός των πελατών έγινε µε ποσοστό σωστού διαχωρισµού ίσο µε 73,3%

(αρκετά υψηλό).

105

Πίνακας 4

Ολοκληρώνοντας την Λογιστική Παλινδρόµηση ολοκληρώθηκε και η εφαρµογή στην

ανάλυση των πιστωτικών κινδύνων.

106

5. ΠΟΛΥΜΕΤΑΒΛΗΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ 5.1 ΠΑΡΑΓΟΝΤΙΚΗ ΑΝΑΛΥΣΗ

Η παραγοντική ανάλυση είναι µια στατιστική µέθοδος που έχει σκοπό να βρει ύπαρξη

παραγόντων κοινών ανάµεσα σε µια οµάδα µεταβλητών. Με αυτή την µεθοδολογία

καταφέρνουµε:

Να µειώσουµε τις διαστάσεις του προβλήµατος

Να δηµιουργήσουµε καινούργιες µεταβλητές, τους παράγοντες, τις οποίες

µπορούµε να τις θεωρήσουµε ως κάποιες µη µετρήσιµες µεταβλητές, όπως

ελκυστικότητα ενός προϊόντος στο Marketing κ.α.

Να εξηγήσουµε τις συσχετίσεις που υπάρχουν στα δεδοµένα, για τις οποίες

έχουµε υποθέσει ότι οφείλονται αποκλειστικά στην ύπαρξη κάποιων κοινών

παραγόντων που δηµιούργησαν τα δεδοµένα.

Το αξιοσηµείωτο σε αυτού του είδους την ανάλυση είναι, ότι προσπαθεί να εξηγήσει

περισσότερο τη δοµή παρά την µεταβλητότητα (ποσοστό διακύµανσης).

Βέβαια σαν µέθοδος έχει δεχτεί πολλές κριτικές, παρ’ όλα αυτά η ανάλυση αυτή είναι

πολύ χρήσιµη σε επιστήµες όπως η έρευνα αγοράς και η Ψυχοµετρία. Και ο λόγος

είναι ότι η παραγοντική ανάλυση καταφέρνει να ποσιτικοποιήσει µη µετρήσιµες

ποσότητες.

5.1.1 ΤΟ ΟΡΘΟΓΩΝΙΟ ΜΟΝΤΕΛΟ

Στο ορθογώνιο µοντέλο της παραγοντικής ανάλυσης υποθέτουµε ότι οι όποιες

συσχετίσεις µεταξύ των µεταβλητών οφείλονται αποκλειστικά στην ύπαρξη αυτών των

κοινών παραγόντων τους οποίους δεν γνωρίζουµε και θέλουµε να εκτιµήσουµε.

Έστω ότι έχουµε m µεταβλητές και έστω ότι αυτές οι µεταβλητές µπορούν να

γραφτούν σαν γραµµικός συνδυασµός των k παραγόντων:

X LFµ ε− = +

Όπου,

Χ: είναι το διάνυσµα των αρχικών µεταβλητών µεγέθους m x 1

µ: είναι το διάνυσµα των µέσων µεγέθους m x 1

L: είναι ένας πίνακας m x k όπου ijL είναι η επιβάρυνση (loading) του παράγοντα Fj

στην µεταβλητή Xi .

107

F: είναι ένα k x 1 διάνυσµα µε τους παράγοντες

ε: είναι τα σφάλµατα. Είναι το µέρος το οποίο δεν µπορεί να εξηγηθεί από τους

παράγοντες.

Μπορούµε να υποθέσουµε ότι όλες οι µεταβλητές έχουν µέσο 0, οπότε το διάνυσµα µ

δεν χρειάζεται στο παραπάνω µοντέλο. Επιπλέον, ο αριθµός των παραγόντων πρέπει

να είναι µικρότερος από τον αριθµό των µεταβλητών.

Από τα παραπάνω καταλαβαίνουµε ότι κάθε µεταβλητή θα είναι της µορφής:

1 11 1 12 2 1 1

2 21 1 22 2 2 2

1 1 2 2

......

...

k k

k k

m m m mk k

X L F L F L FX L F L F L F

X L F L F L F m

εε

ε

= + + + +

= + + + +

= + + + +M

Πρέπει να σηµειωθεί ότι:

Το παραπάνω µοντέλο αν και µοιάζει µε γραµµικό µοντέλο, δεν είναι διότι τα Xi

δεν είναι παρατηρήσεις αλλά µεταβλητές και επιπλέον το δεξί µέλος της

εξίσωσης δεν είναι παρατηρήσιµο και είναι αυτό που θέλουµε να εκτιµήσουµε.

Οι παράγοντες έχουν την ίδια διακύµανση. Αυτό υποδηλώνει πως οι

παράγοντες που δηµιουργούνται δεν είναι απαραιτήτα σε κάποια σειρά.

5.1.2 ΥΠΟΘΕΣΕΙΣ ΤΟ ΟΡΘΟΓΩΝΙΟΥ ΜΟΝΤΕΛΟΥ

Ένα πολύ βασικό κοµµάτι αυτής της ανάλυσης είναι οι υποθέσεις που πρέπει να

γίνουν. Αυτές είναι:

Ε(F)=0

Cov(F)=I, όπου ο µοναδιαίος πίνακας

1

1

0

0I

⎛ ⎞⎜ ⎟

= ⎜⎜ ⎟⎝ ⎠

O ⎟

0

Ε(ε)=0

Cov(ε)=Ψ, όπου Ψ είναι ένας διαγώνιος πίνακας της µορφής

1

2

31 32

0 0 00 0

0 ma a

ψψ

ψ

⎛ ⎞⎜ ⎟⎜ ⎟Ψ =⎜ ⎟⎜ ⎟⎝ ⎠

O

108

Cov(εi , Fj )=0 για κάθε i j≠

Από τις παραπάνω υποθέσεις µπορεί να δειχθεί ότι

( ) ( ) ( ) ' ( ) 'Cov X Cov LF LCov F L Cov LLε εΣ = = + = + = + Ψ

Στην παραγοντική ανάλυση σκοπός µας είναι να εκτιµήσουµε τους πίνακες L και Ψ, να

αναπαραστήσουµε δηλαδή τον πίνακα διακύµανσης του πληθυσµού. Για να το

πετύχουµε αυτό, έχουν αναπτυχθεί διάφορες µέθοδοι εκτίµησης.

Τα βήµατα για να κάνουµε παραγοντική ανάλυση, είναι τα εξής:

Έλεγχος για το αν υπάρχουν συσχετίσεις ικανοποιητικές για να κάνουµε

παραγοντική ανάλυση.

Εύρεση του αριθµού των παραγόντων και εκτίµηση των παραµέτρων του

µοντέλου

Περιστροφή του µοντέλου µε σκοπό να αυξήσουµε την ερµηνευτική του

ικανότητα

Εκτίµηση των score των παραγόντων για περαιτέρω στατιστική χρήση

5.1.3 ΕΛΕΓΧΟΣ ΣΥΣΧΕΤΙΣΕΩΝ

Στην παραγοντική ανάλυση είναι σηµαντικό να υπάρχουν µεγάλες συσχετίσεις

ανάµεσα στις µεταβλητές, καθώς αυτές τις συσχετίσεις θα προσπαθήσουµε να

εξηγήσουµε.

Τι σηµαίνει όµως µεγάλες συσχετίσεις; Σε καµιά περίπτωση δεν σηµαίνει στατιστικά

σηµαντικές συσχετίσεις, δηλαδή συσχετίσεις διάφορες του µηδέν. Είναι γνωστό στη

στατιστική, ότι όσο αυξάνει το µέγεθος του δείγµατος, τότε συσχετίσεις κοντά στο

µηδέν τείνουν να είναι στατιστικά σηµαντικά διάφορες του µηδενός, αν και πολύ

µικρές σε απόλυτη τιµή. Συνεπώς, αυτό που µας ενδιαφέρει είναι να υπάρχουν

µεγάλες συσχετίσεις τουλάχιστον σε µεγάλο ποσοστό του πίνακα συσχετίσεων.

Μερικός Συντελεστής συσχέτισης

Ο απλός συντελεστής συσχέτισης υπολογίζει την συσχέτιση µεταξύ δύο µεταβλητών

αγνοώντας τις υπόλοιπες. Έτσι µπορεί να εµφανίσει συσχετισµένες κάποιες

µεταβλητές απλά και µόνο επειδή κάποιες άλλες έχουν µεγάλη συσχέτιση µε αυτές και

όταν ακυρώσουµε την επίδραση τους, οι αρχικές µεταβλητές να µην εµφανίσουν

109

καµία συσχέτιση. Για αυτό είναι χρήσιµος ένας συντελεστής ο οποίος θα υπολογίζει

την συσχέτιση, αφού αφαιρέσει την επίδραση των υπόλοιπων µεταβλητών.

Για να προχωρήσουµε σε παραγοντική ανάλυση µας ενδιαφέρει οι µερικοί συντελεστές

συσχέτισης να είναι µικροί.

Αυτό που αξίζει να αναφέρουµε είναι ότι, οι µερικοί συντελεστές συσχέτισης

αποτελούν εκτιµήσεις των συσχετίσεων µεταξύ των µοναδικών παραγόντων και θα

πρέπει να είναι κοντά στο µηδέν, όταν οι υποθέσεις του παραγοντικού µοντέλου

ισχύουν.

Ένα µέτρο για να συγκρίνουµε το σχετικό µέγεθος των συντελεστών συσχέτισης

σχετικά µε τους µερικούς συντελεστές συσχέτισης είναι το Kaiser-Meyer-Olkin

στατιστικό που υπολογίζεται ως

2

2 2

iji j

ij iji j i j

rKMO

r a≠

≠ ≠

=+

∑∑∑∑ ∑∑

Όπου και είναι οι δειγµατικοί συντελεστές συσχέτισης και µερικής συσχέτισης

αντίστοιχα.

ijr ija

Αν η τιµή του ΚΜΟ είναι µεγάλη, τότε τα δεδοµένα µας είναι κατάλληλα για

παραγοντική ανάλυση. Τιµές κάτω από 0.5 είναι πολύ κακές και αναµένεται η

παραγοντική ανάλυση να µην µας δώσει ικανοποιητικά αποτελέσµατα. Στην πράξη

τιµές γύρω στο 0.8 θεωρούνται αρκετά καλές για να προχωρήσουµε την ανάλυση.

Τέλος, ένα άλλο µέτρο που µας επιτρέπει να εξετάσουµε µια-µια τις µεταβλητές και

κατά πόσο είναι κατάλληλες για να χρησιµοποιηθούν στην ανάλυση, είναι το µέτρο

της δειγµατικής καταλληλότητας, το οποίο υπολογίζεται για την i µεταβλητή ως

2

2 2

ijj

ij ijj j

rMSA

r a=

+

∑∑ ∑

Τιµές κοντά στο 1 είναι ενδείξεις ότι η µεταβλητή είναι πολύ καλή για να

χρησιµοποιηθεί στην ανάλυση. Παρατηρούµε ότι, ενώ το ΚΜΟ αφορά όλα τα

δεδοµένα, το MSA υπολογίζεται για κάθε µεταβλητή ξεχωριστά.

5.1.4 ΑΡΙΘΜΟΣ ΚΑΙ ΕΚΤΙΜΗΣΗ ΠΑΡΑΓΟΝΤΩΝ

Ένα από τα βασικά ερωτήµατα στην Παραγοντική Ανάλυση είναι ο καθορισµός του

αριθµού των παραγόντων που θα χρησιµοποιήσουµε. Για να βρεθεί ο αριθµός των

110

παραγόντων, ο ερευνητής µπορεί να χρησιµοποιήσει κάποιες τεχνικές που θα τον

βοηθήσουν να επιλέξει, όπως µε βάση τις τιµές των ιδιοτιµών του πίνακα

διακύµανσης-συναδιακύµανσης, µε βάση τις τιµές που εξηγούν κάποιο ποσοστό

διακύµανσης ή το λεγόµενο Scree Plot, το οποίο είναι ένα γράφηµα που έχει στον

οριζόντιο άξονα των x τη σειρά και στον κάθετο άξονα των y την τιµή κάθε ιδιοτιµής.

Το κριτήριο αυτό προτείνει να πάρουµε τόσες συνιστώσες µέχρι το γράφηµα να

αρχίσει να γίνεται περίπου επίπεδο, στην ουσία µέχρι να διαπιστώσουµε ότι αρχίζει να

αλλάζει κλείσει το γράφηµα.

Παρατηρούµε ότι στο πρώτο γράφηµα θα κρατήσουµε 2 παράγοντες αφού στο

δεύτερο σηµείο φαίνεται το γράφηµα να αλλάζει κλίση. Τα διαγράµµατα γ και δ είναι

πολύ δύσκολο να καταλάβουµε πόσους παράγοντες. Το πόσους παράγοντες θα

επιλέξουµε να κρατήσουµε είναι καθαρά υποκειµενικό, για αυτό και η συγκεκριµένη

µέθοδος έχει δεχτεί αρκετές κριτικές.

111

Μια ακόµη δυσκολία που συναντάµε στη παραγοντική ανάλυση είναι ότι ο αριθµός

των παραγόντων χρειάζεται να καθοριστεί πριν γίνει η εκτίµησή τους. Εποµένως

κάποιος θα µπορούσε να δουλέψει µε διαδοχικά αυξανόµενο αριθµό παραγόντων και

να κρατήσει το µοντέλο µε βάση κάποιο κριτήριο καλής προσαρµογής. Τέτοια κριτήρια

είναι:

Από τον πίνακα των επιβαρύνσεων µπορεί κάποιος να εκτιµήσει τον πίνακα Σ.

Οι αποκλίσεις του πραγµατικού πίνακα µε τον εκτιµηµένο θα πρέπει να είναι

µικρές. ∆υστυχώς δεν υπάρχει ένα κριτήριο του πόσο µικρές.

Έλεγχος πιθανοφανειών, αν οι εκτιµήσεις έχουν γίνει µε την µέθοδο µεγίστης

πιθανοφάνειας. Τέτοιοι έλεγχοι στηρίζονται στις υποθέσεις για την κατανοµή

του πληθυσµού.

Οι δύο βασικές µέθοδοι εκτίµησης που χρησιµοποιούνται στην πράξη είναι η µέθοδος

των κυρίων συνιστωσών και η µέθοδος µεγίστης πιθανοφάνειας. Συγκριτικά έχουµε:

Όταν εκτιµούµε το µοντέλο µε την µέθοδο των κυρίων συνιστωσών,

προσθέτοντας παράγοντες δεν αλλάζουν οι επιβαρύνσεις των παραγόντων

που είχαµε πριν, κάτι το οποίο δεν ισχύει µε την µέθοδο µεγίστης

πιθανοφάνειας.

Με την µέθοδο µέγιστης πιθανοφάνειας µπορούµε να κάνουµε ελέγχους καλής

προσαρµογής του µοντέλου βασισµένη στον κλασσικό έλεγχο του λόγου

πιθανοφανειών.

Η µέθοδος των κυρίων συνιστωσών δεν βάζει περιορισµούς στον αριθµό των

παραγόντων που µπορούµε να εκτιµήσουµε.

Όταν η µέθοδος µεγίστης πιθανοφάνειας δεν δουλεύει, αυτό είναι µα ένδειξη

ότι υπάρχει πρόβληµα µε το µοντέλο. Αντίθετα, η µέθοδος κυριών

συνιστωσών, επειδή στην ουσία είναι ένα µαθηµατικός µετασχηµατισµός των

δεδοµένων δεν δουλεύει πάντα, χωρίς όµως να µας δίνει ένδειξη αν καλώς

δουλεύει ή όχι.

Με την µέθοδο µέγιστης πιθανοφάνειας τα score των παραγόντων δεν

µπορούν να υπολογιστούν ακριβώς, όπως συµβαίνει µε την µέθοδο κυρίων

συνιστωσών.

Άλλες µέθοδοι εκτίµησης είναι:

• Μέθοδος ελαχίστων τετραγώνων

• Γενικευµένη µέθοδος ελαχίστων τετραγώνων

• Μέθοδος κυρίων αξόνων

112

5.1.5 ΚΡΙΤΗΡΙΑ ΕΠΙΛΟΓΗΣ ΜΟΝΤΕΛΟΥ

Εκτός από τα κριτήρια καλής προσαρµογής, η µέθοδος µεγίστης πιθανοφάνειας µας

επιτρέπει να κάνουµε και επιλογή µοντέλου, δηλαδή πόσοι παράγοντες µου δίνουν το

καλύτερο αποτέλεσµα. Σε αυτή τη διαδικασία, µπορούµε να χρησιµοποιήσουµε

πληροφοριακά κριτήρια (information criteria), όπως χρησιµοποιούµε και σε άλλες

στατιστικές µεθόδους. Έτσι για κάθε µοντέλο µε p παράγοντες υπολογίζουµε το

Akaike Information Criterion (AIC) ή το κριτήριο του Schwarz (SIC). Επιλέγουµε για

κάθε κριτήριο το µοντέλο µε την µικρότερη τιµή.

Η λογική των δύο κριτηρίων είναι να επιβάλουν κάποια ποινή για κάθε µοντέλο µε

περισσότερες παραµέτρους. Εποµένως, αυτή η ποινή αποζηµιώνει για τις παραπανίσιες

παραµέτρους. Το κριτήριο του Schwarz λαµβάνει υπόψη του στη ποινή τόσο τον

αριθµό των παραπανίσιων παραµέτρων αλλά και το µέγεθος του δείγµατος κάτι το

οποίο δεν συµβαίνει στην περίπτωση του AIC.

5.1.6 ΠΕΡΙΣΤΡΟΦΗ

Με την περιστροφή των παραγόντων προσπαθούµε να κάνουµε τους παράγοντες πιο

ερµηνεύσιµους. Με αυτή την µέθοδο δεν αλλάζον κάποια από τα χαρακτηριστικά του

µοντέλου, όπως η καλή προσαρµοστικότητα και το ποσό διακύµανσης-

συνδιακύµανσης που ερµηνεύεται από το µοντέλο, παρά µόνο οι τιµές των

επιβαρύνσεων.

Κάνοντας περιστροφή, ελπίζουµε ότι οι επιβαρύνσεις κάποιων παραγόντων θα είναι

µεγάλες σε απόλυτη κλίµακα µόνο για κάποιες από τις µεταβλητές και έτσι, βλέποντας

ποιες µεταβλητές εξαρτώνται µε ποιους παράγοντες, να µπορέσουµε να δώσουµε

ερµηνεία σε αυτούς.

Οι βασικές µέθοδοι περιστροφής είναι:

Varimax: Προσπαθεί να ελαχιστοποιήσει των αριθµό των µεταβλητών που

έχουν µεγάλες επιβαρύνσεις για κάθε παράγοντα.

Quartimax: Προσπαθεί να ελαχιστοποιήσει των αριθµό των παραγόντων που

εξηγούν µια µεταβλητή

Equimax: Συνδυασµός των δύο παραπάνω

Oblique: Μη ορθογώνια περιστροφή, οι άξονες που προκύπτουν δεν είναι πια

ορθογώνιοι (και άρα οι παράγοντες δεν είναι ανεξάρτητοι). Η ερµηνεία των

113

αποτελεσµάτων είναι πιο δύσκολη. Στη πράξη την χρησιµοποιούµε όταν δεν

θέλουµε οι παράγοντες που προκύπτουν να είναι ασυσχέτιστοι.

5.1.7 ΥΠΟΛΟΓΙΣΜΟΣ ΤΩΝ SCORE ΤΩΝ ΠΑΡΓΟΝΤΩΝ

Όπως είπαµε και προηγουµένως, οι παράγοντες µπορούν να εκφραστούν σαν

γραµµικός συνδυασµός των επεξηγηµατικών. Οπότε κάθε παράγοντας µπορεί να

γραφτεί ως:

1 11 1 12 2 1

2 21 1 22 2 2

1 1 2 2

......

...

m m

m m

k k k km m

F a X a X a XF a X a X a X

F a X a X a X

= + + +

= + + +

= + + +K

Οι συντελεστές είναι το σκορ της µεταβλητής iija X στον παράγοντα iF και δεν

πρέπει να συγχέονται µε τις επιβαρύνσεις. Όταν το µοντέλο έχει εκτµηθεί µε την

µέθοδο των κυρίων συνιστωσών, οι παράγοντες είναι ακριβείς, δηλαδή µπορούν να

υπολογιστούν χωρίς σφάλµα, κάτι που δεν υφίσταται όταν χρησιµοποιείται η µέθοδος

µεγίστης πιθανοφάνειας. Πρέπει να σηµειωθεί ότι οι νέες µεταβλητές θα έχουν µέση

τιµή 0 και θα είναι ασυσχέτιστες δεδοµένου ότι το µοντέλο είναι ορθογώνιο.

Έχοντας εκτιµήσει ένα παραγοντικό µοντέλο και έστω L ˆκαι Ψ οι εκτιµήσεις µας για

τις παραµέτρους αυτού, τότε µπορούµε να βρούµε τα factor scores, δηλαδή τις τιµές

των καινούργιων µεταβλητών για κάθε µεταβλητή. Οι µέθοδοι που προσφέρονται

είναι αρκετές. Αυτές που τα περισσότερα πακέτα και ανάµεσα τους το SPSS

προσφέρουν είναι οι εξής:

Regression method: Το διάνυσµα F των καινούργιων µεταβλητών

υπολογίζεται ως εξής

( ) 1ˆ ˆ ˆ' 'F L L L X−

=

Η µέθοδος στηρίζεται στην µέθοδο ελαχίστων τετραγώνων ανάµεσα στις

πραγµατικές τιµές και αυτές που το παραγοντικό µοντέλο προβλέπει.

Bartlett method: Σε σχέση µε την παραπάνω µέθοδο ο Bartlett πρότεινε,

αντί να χρησιµοποιήσει κάποιος την απλή µέθοδο ελαχίστων τετραγώνων, να

χρησιµοποιήσει γενικευµένα ελάχιστα τετράγωνα, καθώς η διακύµανση δεν

114

είναι η ίδια για όλες τις παρατηρήσεις. Εποµένως, η µέθοδος εκτίµησης εκτιµά

τους παράγοντες ως

( ) 11 1ˆ ˆ ˆ ˆ ˆ' 'F L L L−

− −= Ψ Ψ X

Anderson method: Η µέθοδος αυτή χρησιµοποιεί τον τύπο

( )( )1 1ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ' ' 'F L L I L L L X− −= Ψ + Ψ Ψ 1−

Και οι τρεις µέθοδοι δίνουν παράγοντες µε µέση τιµή 0. Η µέθοδος Anderson

οδηγεί πάντα σε ασυσχέτιστους παράγοντες, ακόµα και αν εξαιτίας µη ορθογώνιας

περιστροφής οι παράγοντες θα έπρεπε να είναι συσχετισµένοι. Η µέθοδος της

παλινδρόµησης µπορεί να οδηγήσει σε πίνακα διακύµανσης των παραγόντων οποίος

δεν είναι ο µοναδιαίος, δηλαδή τα διαγώνια στοιχεία του να µην είναι 1 και να

υπάρχουν συσχετίσεις.

5.1.8 ΜΗ ΟΡΘΟΦΩΝΙΑ ΠΑΡΑΓΟΝΤΙΚΗ ΑΝΑΛΥΣΗ

Το ορθογώνιο µοντέλο βασίστηκε στην υπόθεση πως οι παράγοντες είναι ορθογώνιοι

µεταξύ τους. Πολλές φορές όµως µια τέτοια υπόθεση δεν είναι καθόλου ρεαλιστική

και πρέπει να επιτρέψουµε στους παράγοντες να συσχετίζονται µεταξύ τους. Σε αυτή

την περίπτωση υποθέτουµε ότι Cov(F)=Ω όπου Ω είναι ένας οποιοσδήποτε πίνακας

διακύµανσης. Σε αυτή την περίπτωση έχουµε πως:

( ) ( ) ( ) ' ( ) 'Cov X Cov LF LCov F L Cov L Lε εΣ = = + = + = Ω + Ψ

Όσον αφορά την εκτίµηση των παραµέτρων του µοντέλου , έχουµε να εκτιµήσουµε

περισσότερες παραµέτρους, καθώς χρειαζόµαστε και τα στοιχεία του πίνακα Ω.

Μπορούµε να παρατηρήσουµε ότι ο πίνακας Ω είναι ένας πίνακας διακύµανσης-

συνδιακύµανσης και οπότε µπορεί να γραφτεί στην µορφή 'Ω = Β Β όπου Β ένας

κατάλληλος πίνακας. Όπότε έχουµε:

' ' ' * *'L L LB BL L LΣ = Ω +Ψ = +Ψ = +Ψ

Αυτό που καταφέραµε είναι να καταλήξουµε σε ένα ορθογώνιο µοντέλο, όπου τώρα ο

πίνακας επιβαρύνσεων είναι ο *L . Στην πράξη, αν θέλουµε να εκτιµήσουµε συσχετισµένους παράγοντες, αυτό µπορεί να

γίνει χρησιµοποιώντας µια µη ορθογώνια περιστροφή που θα οδηγήσει σε παράγοντες

µε συσχέτιση µεταξύ τους.

115

5.1.9 ΤΕΛΙΚΑ ΣΥΜΠΕΡΑΣΜΑΤΑ

Η παραγοντική ανάλυση από τον ορισµό του µοντέλου της έχει να κάνει µε συνεχή

δεδοµένα και οι παράγοντες που υποθέτουµε ότι υπάρχουν είναι και αυτοί συνεχείς.

Άλλες µέθοδοι σχετικές µε την παραγοντική ανάλυση ανάλογα µε την µορφή των

δεδοµένων είναι:

Μεταβλητές Παράγοντες Μέθοδος

Συνεχείς Συνεχείς Παραγοντική Ανάλυση

∆ιακριτές Συνεχείς Latent Trait Analysis

Συνεχείς ∆ιακριτές Latent Profile Analysis

∆ιακριτές ∆ιακριτές Latent Class Analysis

Ένα πολύ καλό και χρήσιµο πλεονέκτηµα της µεθόδου, είναι ότι µας δίνει την

δυνατότητα να εφαρµόσουµε παραγοντική ανάλυση έχοντας µόνο τον πίνακα

διακύµανσης-συνδιακύµανσης και όχι τα πλήρη δεδοµένα. Αυτό µας επιτρέπει να

κάνουµε παραγοντική ανάλυση µε κατηγορικά δεδοµένα και χρήση κάποιου

αντίστοιχου πίνακα συνδιακύµανσης. Σε αυτή την περίπτωση η µέθοδος µεγίστης

πιθανοφάνειας δεν πρέπει να χρησιµοποιείται, αφού είναι δεδοµένο ότι τα δεδοµένα

δεν είναι κανονικά….

Μία άλλη µέθοδος που θα µπορούσε να χρησιµοποιηθεί εδώ είναι η µέθοδος κυρίων

συνιστωσών (Principal Components).


Analyze> Data Reduction> Factor Analysis

116

Αφού βάλουµε τις µεταβλητές που θέλουµε να χρησιµοποιήσουµε στην παραγοντική

ανάλυση, θα πάµε σε κάθε ένα από τα µενού από κάτω και θα κάνουµε τις ανάλογες

επιλογές:

Επιλογή Αποτέλεσµα

Statistics

Univariate ∆ιάφορα περιγραφικά στατιστικά µέτρα για κάθε µεταβλητή

Initial Solution Η αρχική λύση. Αν διαλέξουµε την µέθοδο κυρίων συνιστωσών παίρνουµε µια στήλη µονάδες. Αυτό δεν ισχύει στην περίπτωση της µεθόδου µεγίστης πιθανοφάνειας όπου οι αρχικές τιµές είναι ο συντελεστής παλινδρόµησης της κάθε µεταβλητής µε επεξηγηµατικές

117

µεταβλητές όλες τις υπόλοιπες. Correlation Matrix

Coefficients Ο πίνακας συσχετίσεων

Significant Levels Ο πίνακας µε τη στατιστική σηµαντικότητα κάθε συσχέτισης ξεχωριστά.

Determinant Η ορίζουσα του πίνακα συσχετίσεων. Τιµές κοντά στο 0 σηµαίνουν την ύπαρξη συσχετίσεων.

KMO and Bartlett’s test of Sphericity Ο έλεγχος σφαιρικότητας του Bartlett και η Kaiser-Meyer-Olkin στατιστική συνάρτηση για την καταλληλότητα των δεδοµένων.

Inverse Ο αντίστροφος του πίνακα συσχετίσεων

Reproduced Ο εκτιµώµενος πίνακας συσχετίσεων σύµφωνα µε το µοντέλο. Τα διαγώνια στοιχεία είναι οι εταιρκότητες (communalities) ενώ τα στοιχεία κάτω από την διαγώνιο εκφράζουν την διαφορά της εκτιµηµένης συσχέτισης µε την πραγµατική

Anti-image Περιέχει τις αρνητικές τιµές του πίνακα µερικών συσχετίσεων, ενώ τα διαγώνια στοιχεία του πίνακα είναι τα MSA των µεταβλητών.

Πατάµε Continue.

Σε περίπτωση που εφαρµόσουµε την µέθοδο τω κυρίων συνιστωσών το πρώτο

πράγµα που πρέπει να κάνουµε είναι να ένα πίνακα διακύµανσης για να δούµε αν

µπορούµε να χρησιµοποιήσουµε τον πίνακα διακύµανσης στην ανάλυση µας ή των

πίνακα των συσχετίσεων. Σε περίπτωση που οι διακυµάνσεις έχουν µεγάλες

αποκλίσεις (π.χ. αν η διακύµανση µιας µεταβλητής είναι 5.32 και µια άλλης

µεταβλητής 0.23, µεγάλη η διαφορά τους), ο πίνακας διακύµανσης πλέον δεν είναι

κατάλληλος για την ανάλυση µας, οπότε και θα ρησιµοποιήσουµε τον πίνακα των

συσχετίσεων (correlation matrix). Οπότε το πρώτο που θα ελέγξουµε τον πίνακα

συσχετίσεων:


118

πατάµε Continue και ΟΚ και το αποτέλεσµα που θα πάρουµε είναι

119

Τα νούµερα που µας ενδιαφέρουν σε αυτό τον πίνακα είναι αυτά που βρίσκονται µέσα

σε πλαίσιο. Στα κόκκινα πλαίσια είναι οι συνδιακυµάνσεις, ενώ στα µπλε οι

διακυµάνσεις. Αν κοιτάξουµε τις διακυµάνσεις θα δούµε ότι υπάρχουν µεγάλες

αποκλίσεις από µεταβλητή σε µεταβλητή. Οπότε ο πίνακας διακύµανσης δεν είναι

κατάλληλος για την ανάλυση µας. Εποµένως, θα χρησιµοποιήσουµε το πίνακα των

συσχετίσεων (correlation matrix).

Έτσι γυρνώντας πάλι στο µενού


Και πηγαίνοντας στο µενού Extraction θα κάνουµε τις εξής επιλογές:

120

Πηγαίνοντας στο µενού Scores αυτό που θα κάνει είναι να σώσει τα λεγόµενα factor

scores σε µια στήλη στο SPSS (κάτι πολύ χρήσιµο). Αν χρησιµοποιήσουµε την µέθοδο

των κυρίων συνιστωσών, τα factor scores µπορούν να υπολογιστούν µε ακρίβεια.

∆ηλαδή όποια και από τις τρεις µεθόδους που µας προσφέρονται να διαλέξουµε θα

πάρουµε το ίδιο αποτέλεσµα. Σε περίπτωση όµως διαφορετικής ανάλυσης θα πρέπει

να διαλέξουµε µια από τις τρεις µεθόδους (Regression, Bartlett και Anderson-Rubin).

Τέλος η επιλογή Display factor score coefficient matrix θα µας εµφανίζει τον πίνακα

µε τους συντελεστές.

ΠΡΟΣΟΧΗ: Αυτός ο πίνακας περιέχει τους συντελεστές µε τους οποίους µπορούµε να

εκφράσουµε ένα παράγοντα ως γραµµικό συνδυασµό των µεταβλητών.

Επιπλέον η επιλογή των παραγόντων µπορεί να γίνει είτε από τον χρήστη µε την

επιλογή Number of factors και να πληκτρολογήσει ο χρήστης τον αριθµό των

παραγόντων που θέλει να κρατήσει, είτε κρατώντας τόσους παράγοντες όσους και οι

ιδιοτιµές του πίνακα (διακύµανσης ή συσχετίσεων) που χρησιµοποιήσαµε, οι οποίες

είναι µεγαλύτερες από την µέση τιµή όλων των ιδιοτιµών. Τώρα που χρησιµοποιήσαµε

τον πίνακα των συσχετίσεων η µέση τιµή όλων των ιδιοτιµών είναι 1. Στην πράξη

είναι πολύ δύσκολο να γνωρίσουµε πόσους παράγοντες θα κρατήσουµε από την αρχή.

Σε αυτό µπορεί να µας βοηθήσει ένα Scree Plot ή το ποσοστό διακύµανσης που

εξηγείται από το µοντέλο ανάλογα µε τον αριθµό των παραγόντων που θα

κρατήσουµε. Ένα καλό ποσοστό είναι από 80% και πάνω. Βέβαια αυτό είναι

υποκειµενικό.

Μετά πατάµε Continue.

121

Descriptive Statistics

23,45 7,805 392

193,65 104,937 392

104,21 38,233 3922967,38 852,294 392

15,52 2,778 392

Miles per GallonEngine Displacement(cu. inches)HorsepowerVehicle Weight (lbs.)Time to Acceleratefrom 0 to 60 mph (sec)

Mean Std. Deviation Analysis N

Είναι ο πίνακας των βασικών περιγραφικών στατιστικών µέτρων για κάθε µία µεταβλητή.

Είναι ο πίνακας συσχετίσεων. Βλέπουµε ότι κατά απόλυτη τιµή οι συσχετίσεις είναι

ικανοποιητικά µεγάλες. Οπότε άνετα µπορούµε να προχωρήσουµε σε παραγοντική

ανάλυση. Αν δεν υπήρχαν ισχυρές συσχετίσεις η παραγοντική ανάλυση δεν θα

ενδεικνύονταν.

Το αν οι µεταβλητές είναι κατάλληλες για παραγοντική ανάλυση µπορούµε να το

δούµε και από το ΚΜΟ test. Επειδή η τιµή του ΚΜΟ είναι κοντά στο 1 σηµαίνει ότι οι

µεταβλητές µας είναι κατάλληλες για παραγοντική ανάλυση. Μην ξεχνάµε όµως ότι το

ΚΜΟ αφορά όλες τις µεταβλητές. Καλό λοιπόν είναι δούµε ξεχωριστά κάθε µεταβλητή

αν είναι κατάλληλη για παραγοντική ανάλυση. Αυτό µπορούµε να το ελέγξουµε από

τον πίνακα

123

Του οποίου τα διαγώνια στοιχεία είναι τα MSA. Το κοµµάτι που µας αφορά είναι τα

MSA για τον πίνακα των Correlation, αφού αυτόν χρησιµοποιήσαµε από την αρχή

στην ανάλυσή µας. Εµάς µας ενδιαφέρουν τα MSA να είναι µεγαλύτερα από το 0,8. Αν

εξαιρέσουµε τα MSA που αφορούν τις µεταβλητές Vehicle Weight και time to

Accelerate from 0 to 60 mph (sec). Ιδιαίτερα µικρή βέβαια είναι η τιµή του MSA της

τελευταία (0.629), το οποίο σηµαίνει ότι η συγκεκριµένη µεταβλητή δεν σχετίζεται

τόσο πολύ µε τις άλλες. Παρόλο αυτά οι µεταβλητές µας κρίνονται κατάλληλες για την

ανάλυση µας.

Communalities

1,000 ,759

1,000 ,913

1,000 ,9241,000 ,861

1,000 ,453


Initial Extraction

Extraction Method: Principal Component Analysis.

Στον παραπάνω πίνακα, αν αφαιρέσουµε την δεύτερη στήλη από την µονάδα (και όχι

από την στήλη initial που απλά τυχαίνει να είναι 1, επειδή χρησιµοποιούµε την µέθοδο

των κυρίων συνιστωσών) έχουµε εκτιµήσεις των ιδιαιτεροτήτων ψi για κάθε

µεταβλητή, δηλαδή του κοµµατιού εκείνου της διακύµανσης κάθε µεταβλητής που δεν

µπορεί να εξηγήσει το παραγοντικό µοντέλο. Έτσι, από το παραπάνω πινακάκι

βλέπουµε πως η ιδιαιτερότητα για την µεταβλητή κατανάλωση είναι 0.241(=1-0.759).

Όµοια εκτιµάµε και τις ιδιαιτερότητες και των άλλων µεταβλητών.

124

Στο παραπάνω πινακάκι µας βοηθάει στο να αποφασίσουµε το πόσους παράγοντες

τελικά θα επιλέξουµε για να κρατήσουµε. Η στήλη στο κόκκινο πλαίσιο µας δείχνει

ανάλογα µε τον αριθµό των παραγόντων που θα κρατήσουµε το πόσο (σε ποσοστό

πάντα) της διακύµανσης που θα εξηγείται από το µοντέλο. Εδώ βλέπουµε ότι

κρατώντας 2 παράγοντες εξηγείται το 92,3% της συνολικής διακύµανσης, ένα πάρα

πολύ καλό ποσοστό. Υπενθυµίζουµε ότι το ποιο είναι το ποσοστό της διακύµανσης που

θέλουµε να ερµηνεύεται από το µοντέλο είναι καθαρά υποκειµενικό. ∆εν υπάρχει

στάνταρ όριο.

Το παραπάνω µπορούµε να το δούµε και από το Scree plot που φαίνεται να επιλέγει

και αυτό δύο παράγοντες, αφού το γράφηµα αρχίζει να αλλάζει κλίση

(«οριζοντιοποιείται») από το δεύτερο σηµείο και µετά:

125

Component Matrixa

-,871 -,243

,956 ,125

,962 -,108,928 ,287

-,673 ,732


1 2Component

Extraction Method: Principal Component Analysis.2 components extracted.a.

Από τον παραπάνω πίνακα µπορούµε να δούµε πως εκφράζεται κάθε µεταβλητή µε

την χρήση των 2 παραγόντων που χρησιµοποιήσαµε. Έτσι έχουµε:

1 2

1 2

1 2

1 2

1 2

0,871 0, 2430, 956 0,125

0, 962 0,1080, 928 0, 287

0, 673 0, 732

ά F Fέ ή F F

ύ F Fά ή F F

ά F F

αταν λωσηγεθος ηχαν ς

πποδ ναµηρος χ µατος

πιτ χυνση

Κ = − −Μ Μ = +Ι = −Β Ο = +Ε = − +

Κοιτάζοντας τις σχέσεις των µεταβλητών και των παραγόντων µπορεί κάποιος να δει

ότι οι µεταβλητές Κατανάλωση και Επιτάχυνση έχουν αρνητικές τιµές για τον πρώτο

παράγοντα, εποµένως θα µπορούσε κάποιος να διακινδυνεύσει µια ερµηνεία για τον

πρώτο παράγοντα µε βάση αυτή την παρατήρηση. Για παράδειγµα µια ερµηνεία για

τον πρώτο παράγοντα θα µπορούσε να είναι:

«Η κατανάλωση ανά γαλόνι ανάλογα µε την επιτάχυνση που θα είχε ένα αµάξι»

Μην ξεχνάµε ότι οι ερµηνείες είναι από τα πιο δύσκολα κοµµάτια της παραγοντικής

ανάλυσης και εποµένως είναι καθαρά υποκειµενικές.

126

Ο παραπάνω πίνακας περιλαµβάνει στο πρώτο κοµµάτι του τον εκτιµηµένο πίνακα

συσχετίσεων σύµφωνα µε το µοντέλο. Στην διαγώνιο του βρίσκονται οι εταιρικότητες.

Αν το µοντέλο ήταν τέλειο, τότε δεν θα έπρεπε να υπάρχουν διαφορές (κατάλοιπα)

ανάµεσα στον πραγµατικό και τον εκτιµηµένο πίνακα. Στο κάτω µέρος του πίνακα

µπορεί κανείς να δει αυτά τα κατάλοιπα, δηλαδή την διαφορά του πραγµατικού πίνακα

µείον τον εκτιµηµένο. ∆εν υπάρχει σαφές κριτήριο µε βάση το οποίο να αποφασίζει

κανείς αν οι εκτιµήσεις ήταν καλές. Παρ’ όλα αυτά, ανάµεσα σε δύο διαφορετικά

µοντέλα µπορεί κανείς να πάρει κάποια συνάρτηση των καταλοίπων (π.χ. άθροισµα

τετραγώνων) και να κρίνει ποιο από τα δύο µοντέλα είναι καλύτερο.

Factor Score Coefficient Matrix

-,024 ,032

,110 -,218

,148 -1,146,740 1,576

-,020 ,573


1 2Factor

Extraction Method: Maximum Likelihood. Factor Scores Method: Bartlett.

Το τελευταίο πινακάκι που εξάγεται από το SPSS είναι το παραπάνω. Περιέχει τις

εκτιµήσεις των παραµέτρων των επεξηγηµατικών µεταβλητών. Στην ουσία αυτός ο

127

πίνακας εκφράζει τους παράγοντες ως γραµµικούς συνδυασµός των αρχικών

επεξηγηµατικών, δηλαδή

1 0,024 0.110 _ 0,148 0,740 0,020F ά έ ή ύ ά άαταν λωση γεθος ηχαν ς πποδ ναµη ρος πιτ χυνση= − Κ + Μ Μ + Ι + Β − Ε

Αν τώρα χρησιµοποιήσουµε την µέθοδο µεγίστης πιθανοφάνειας θα κάποια από τα

πινακάκια θα αλλάξουµε, ένα από αυτά είναι και ο πίνακας των Communalities όπου

πλέον η στήλη των initials δεν είναι άσσοι.

Communalitiesa

,675 ,680

,908 ,920

,894 ,943,909 ,988

,638 ,766


Initial Extraction

Extraction Method: Maximum Likelihood.One or more communalitiy estimates greater than1 were encountered during iterations. The resultingsolution should be interpreted with caution.

a.

Ένα άλλο πινακάκι που θα αλλάξει είναι ατό του Reproduced Correlations. Αλλάζουν

κυρίως οι τιµές των καταλοίπων, τα οποία, όπως είπαµε, αντιπροσωπεύουν τις

διαφορές του εκτιµώµενου πίνακα συσχετίσεων από των πραγµατικό.

Reproduced Correlations

,680b -,790 -,765 -,808 ,448

-,790 ,920b

,898 ,933 -,542

-,765 ,898 ,943b ,859 -,701-,808 ,933 ,859 ,988b -,415

,448 -,542 -,701 -,415 ,766b

,002 -,006 ,001 -,013

,002 -,001 ,000 -,003

-,006 -,001 -4,66E-005 8,24E-005,001 ,000 -4,66E-005 -5,30E-005

-,013 -,003 8,24E-005 -5,30E-005

Miles per GallonEngine Displacement(cu. inches)HorsepowerVehicle Weight (lbs.)Time to Acceleratefrom 0 to 60 mph (sec)Miles per GallonEngine Displacement(cu. inches)HorsepowerVehicle Weight (lbs.)Time to Acceleratefrom 0 to 60 mph (sec)

Reproduced Correlation

Residual a

Miles perGallon

EngineDisplacement(cu. inches) Horsepower

VehicleWeight (lbs.)

Time toAccelerate

from 0 to 60mph (sec)

Extraction Method: Maximum Likelihood.Residuals are computed between observed and reproduced correlations. There are 0 (,0%) nonredundant residuals withabsolute values greater than 0.05.

a.

Reproduced communalitiesb.

128

ΠΡΟΣΟΧΗ: Μόνο όταν χρησιµοποιήσουµε την µέθοδο µεγίστης πιθανοφάνειας µπορούµε να

αξιολογήσουµε το µοντέλο ως καλού ή µη καλού. Γιατί µόνο αυτή η µέθοδος µας δίνει την

δυνατότητα να αξιολογήσουµε τα µοντέλο µε τη χρήση στατιστικής συµπερασµατολογίας.

Χρήση των σκορ:

Τα σκορ που έχουµε αποθηκεύσει σε καινούργιες µεταβλητές µπορούν

χρησιµοποιηθούν, για να συνεχίσει κανείς την ανάλυση. Στην ουσία έχουµε

ποσιτικοποιήσει τους παράγοντες που υποθέσαµε ότι εξηγούν τις συσχετίσεις των

αρχικών µεταβλητών µας. Για τα δεδοµένα µας αποθηκεύσαµε τους δύο παράγοντες

των µεταβλητών για όλες τις παρατηρήσεις. Από το αρχείο δεδοµένων γνωρίζουµε για

κάθε αυτοκίνητο την ήπειρο προέλευσής του. Τα αυτοκίνητα είναι ταξινοµηµένα σε

Αµερικάνικα, Ευρωπαϊκά και Γιαπωνέζικα. Στα γραφήµατα που θα ακολουθήσουν

βλέπουµε Box-Plots για τις τρεις οµάδες αυτοκινήτων και τις τιµές στους δύο

παράγοντες. Είναι ξεκάθαρη η διαφορά στον πρώτο παράγοντα όπου τα αυτοκίνητα

από την Αµερική έχουν αρκετά µεγάλες τιµές.

Έτσι για τον πρώτο παράγοντα:

Graph> Box-Plot> Simple


129

JapaneseEuropeanAmerican

Country of Origin

3,00000

2,00000

1,00000

0,00000

-1,00000

-2,00000

BART

fact

or s

core

1

for a

naly

sis

7

403

Αν τρέξουµε την ίδια διαδικασία και για τον δεύτερο παράγοντα, θα έχουµε:


Country of Origin

4,00000

2,00000

0,00000

-2,00000

-4,00000

BA

RT fa

ctor

sco

re

2 fo

r ana

lysi

s 7

307

162

404

130

Ακόµη, στο δεύτερο διάγραµµα βλέπουµε ότι υπάρχουν κάποια ακραία σηµεία. Ακόµη

και στα δύο διαγράµµατα φαίνεται να υπάρχει µία µικρή ανοµοιογένεια.

Για να έχουµε µια εικόνα της κατανοµής των παρατηρήσεων των παραγόντων σε

σχέση µε την χώρα προέλευσης των αυτοκινήτων, καλό θα ήταν να κάνουµε και ένα

διάγραµµα σηµείων (scatter plot):

Graph> Scatter> Simple

Και θα βάλουµε τις µεταβλητές ως εξής:

Και το αποτέλεσµα που θα πάρουµε είναι:

131

4,000002,000000,00000-2,00000-4,00000

BART factor score 2 for analysis 7

3,00000

2,00000

1,00000

0,00000

-1,00000

-2,00000

BA

RT

fact

or s

core

1

for a

naly

sis

7


Country of Origin

Από το γράφηµα παραπάνω βλέπουµε ότι τα αµερικάνικά αµάξια φαίνεται να είναι

πολύ περισσότερα από τα υπόλοιπα. Αυτά που φαίνεται να έχουν µικρότερο ποσοστό

του συνόλου είναι τα ευρωπαϊκά. Επιπλέον, βλέπουµε πως χρησιµοποιώντας την

παραγοντική ανάλυση η πληροφορία που συµπυκνώνουν οι 2 πρώτοι παράγοντες

είναι αρκετοί για να καταφέρουµε να ξεχωρίσουµε τα αυτοκίνητα.

132

6. ΠΟΛΥΜΕΤΑΒΛΗΤΕΣ ΣΤΑΤΙΣΤΙΚΕΣ ΤΕΧΝΙΚΕΣ

6.1 ∆ΙΑΧΩΡΙΣΤΙΚΗ ΑΝΑΛΥΣΗ (DISCRIMINANT ANALYSIS) Η βασική ιδέα της διαχωριστικής ανάλυσης είναι να κατατάξει δεδοµένα (συνήθως

πολυδιάστατα) σε γνωστούς πληθυσµούς µε γνωστές κατανοµές για κάθε πληθυσµό.

Ας υποθέσουµε ότι έχουµε Κ πληθυσµούς (οµάδες) 1 2, ,..., ΚΠ Π Π µε . Τότε για

κάθε πληθυσµό έχουµε και µία κατανοµή

2Κ ≥

ΚΠ ( )Kf x . Σκοπός της διαχωριστικής

ανάλυσης είναι να διαχωρίσεις ή να κατανείµει κάθε παρατήρηση στους Κ γνωστούς

πληθυσµούς-οµάδες. Προφανώς, ψάχνουµε για ένα διαχωριστικό κανόνα που µπορεί

να κατατάξει σωστά όσο το δυνατόν περισσότερες παρατηρήσεις.

Οι εφαρµογές της µεθόδου είναι ποικίλες. Το αξιοσηµείωτο µε αυτή την µέθοδο είναι

ότι σε πολλές επιστήµες αναφέρεται και µε άλλες ονοµασίες, όπως για παράδειγµα

αναγνώριση προτύπων (pattern recognition) στην επιστήµη της πληροφορικής.

Μερικά παραδείγµατα εφαρµογών της µεθόδου είναι τα εξής:

Στην Ιατρική συνήθως το ενδιαφέρον είναι να διαγνώσουµε την ασθένεια

κάποιου ασθενή. ∆εδοµένου ότι για κάθε αρρώστια είναι γνωστά τα

συµπτώµατά της θέλουµε να κατασκευάσουµε ένα κανόνα, ο οποίος

λαµβάνοντας υπόψη τα συµπτώµατα αλλά και την γνώση µας για τα

συµπτώµατα ενός σύνολο ασθενειών να κάνει διάγνωση για τον καινούργιο

ασθενή.

Στα χρηµατοοικονοµικά οι τράπεζες ενδιαφέρονται να εντοπιστούν «καλούς»

και «κακούς» πελάτες πριν την χορήγηση δανείου ή πιστωτικής κάρτας (credit

scoring). Ως «καλούς» και «κακούς» µπορούµε να θεωρήσουµε αυτούς που

πληρώνουν κανονικά τις δόσεις τους και αυτούς που δεν πληρώνουν,

αντίστοιχα. Συνεπώς, µε την χρήση ιστορικών στοιχείων σχετικά µε άτοµα που

έλαβαν δάνειο από την τράπεζα, η τράπεζα µπορεί να δηµιουργήσει κανόνες

ώστε να κατατάξει έναν καινούργιο πελάτη σε µία από τις δύο κατηγορίες και

πιθανότατα να αρνηθεί χορήγηση δανείου είτε να χορηγήσει το δάνειο µε

όρους σύµφωνους µε το επίπεδο κινδύνου (risk) που έχει διαγνώσει για τον

νέο πελάτη.

κ.α.

133

Αυτό που πρέπει να τονίσουµε σε αυτό το σηµείο είναι ότι ενώ η διαχωριστική

ανάλυση µοιάζει µε την ανάλυση κατά οµάδες (συστάδες), που θα δούµε

παρακάτω, στην ουσία έχει σηµαντικές διαφορές από αυτή. Η πιο σηµαντική από

τις διαφορές είναι ότι ενώ στην διαχωριστική ανάλυση οι οµάδες είναι γνωστές ,

στην ανάλυση κατά οµάδες σκοπός µας είναι να βρούµε αυτές τις οµάδες.

Επιπλέον, στην διαχωριστική ανάλυση σκοπός µας είναι να δηµιουργήσουµε ένα

κανόνα που θα µας βοηθήσει να λάβουµε αποφάσεις στο µέλλον, ενώ στην

ανάλυση κατά οµάδες ο κύριος στόχος µας είναι να δηµιουργήσουµε οµοειδείς

οµάδες µε σκοπό την κατανόηση των ήδη υπαρχόντων στοιχείων και την µείωση

της διασποράς σε επιµέρους οµάδας.

Με χρήση SPSS

Θα χρησιµοποιήσουµε ένα παράδειγµα ανάλυσης πιστωτικών κινδύνων (Credit Risk

Analysis). Το σετ των δεδοµένων που θα χρησιµοποιήσουµε στην εφαρµογή µας,

απαρτίζεται από 1000 πελάτες από µια γερµανική τράπεζα. Για κάθε ένα πελάτη είναι

διαθέσιµη η πληροφόρηση για τον αν είναι άξιος ή όχι να του δοθεί κάποιου είδους

πίστωση (Creditability). Επιπροσθέτως, παραθέτονται 20 συµµεταβλητές που θα µας

βοηθήσουνε στην οµαδοποίηση των πελατών σε φερέγγυους και επισφαλείς για την

παροχή αυτής της πίστωσης. Στην αναφορά µας θα χρησιµοποιήσουµε 2 µεθόδους

ανάλυσης των πιστωτικών κινδύνων: της Discriminant Analysis και της Λογιστικής

Παλινδρόµησης. Και για τις δύο αυτές αναλύσεις θα χρησιµοποιήσουµε τις ίδιες

µεταβλητές. Ως εξαρτηµένη θα χρησιµοποιήσουµε την δίτιµη µεταβλητή Creditability

και ως ανεξάρτητες τη συνεχής µεταβλητή Amount of credit in "Deutsche Mark" (x)

και τις διατάξηµες Value of savings or stocks (in DM) (k), Has been employed by

current employer for (years) (l), Installment in % of available income(m), καθώς

και τις ψευδοµεταβλητές (dummies) Runnig Credits at other banks(t), Running

credits at department store or mail order house(h), Not available/ not assets (g),

Car/ other(v), Savings contract with a building society / Life insurance(w), hesitant

payment of previous credits (d), problematic running account / there are further

credits running but at other banks (p), no previous credits / paid back all previous

credits (q) και την no problems with current credits at this bank (f).

Η πρώτη µέθοδος που θα χρησιµοποιήσουµε είναι η Discriminant analysis ή αλλιώς

διαχωριστική ανάλυση.

134

Αρχικά και πριν κάνουµε οποιαδήποτε ανάλυση, καλό θα ήταν να ελέγξουµε την

κανονικότητα των συνεχών µας µεταβλητών, λόγω του ότι για να είναι έγκυρη η

διαχωριστική ανάλυση θα πρέπει να ισχύει η υπόθεση της κανονικότητας.


Και τοποθετούµε τις συνεχείς µεταβλητές (εδώ µόνο η µεταβλητή Amount είναι

συνεχής) ως εξής:

Πηγαίνουµε στο µενού plots και κάνουµε τις εξής επιλογές:


135

Και το αποτέλεσµα που θα πάρουµε είναι το παραπάνω πινακάκι:

Tests of Normality

,165 1000 ,000 ,793 1000 ,000Amount of credit in"Deutsche Mark" (metric)

Statistic df Sig. Statistic df Sig.Kolmogorov-Smirnova Shapiro-Wilk


Βάσει του παραπάνω πίνακα δεν ισχύει η υπόθεση της κανονικότητας µιας και η

συνεχής µεταβλητή µας Amount of credit in "Deutsche Mark" δεν ακολουθεί κανονική

κατανοµή (p-value=0.000 κάτω από το επίπεδο στατιστικής σηµαντικότητας α=0.05

που έχουµε ορίσει). Αυτό βέβαια µπορούµε να το παρατηρήσουµε και από το

ιστόγραµµα και το QQ Plot (τα σηµεία απέχουν σηµαντικά από την ευθεία).

150001000050000

Amount of credit in "Deutsche Mark" (metric)

200

150

100

50

0

Freq

uenc

y

Mean = 3271,25Std. Dev. = 2822,752N = 1.000

Histogram

136

20.00015.00010.0005.0000-5.000-10.000

Observed Value

4

2

0

-2

-4

Expe

cted

Nor

mal

Normal Q-Q Plot of Amount of credit in "Deutsche Mark" (metric)

Παρόλο αυτά εµείς θα συνεχίσουµε την ανάλυση µας, γνωρίζοντας πως δεν ισχύει η

υπόθεση της κανονικότητας. Κάνοντας τα παραπάνω προχωράµε στην ανάλυσή µας.

Analyze> Classify> Discriminant

137

Grouping Variable: Εδώ ζητείται η µεταβλητή που καθορίζει τις οµάδες. Εµείς

τοποθετήσαµε την µεταβλητή Creditability η οποία χωρίζει του πελάτες της τράπεζας

σε άξιους να λάβουν κάποιου είδους πίστωσης από την τράπεζα και σε µη άξιος για µια

πίστωση. Επιπλέον πρέπει να ορίσουµε το εύρος τον οµάδων στην επιλογή Define

Range. Εδώ ορίζουµε σαν ελάχιστη τιµή (minimum) το 0 και σαν µέγιστη τιµή

(maximum) το 1.

Independents: Σε αυτή τη θέση τοποθετούµε τις ανεξάρτητες µεταβλητές µε βάση

τις οποίες θα γίνει η ταξινόµηση της κάθε παρατήρησης. Οι µεταβλητές πρέπει να

ποσοτικές.

Οι υπόλοιπες επιλογές περιλαµβάνουν την χρήση όλων των ανεξάρτητων µεταβλητών

(Enter Independents Together) ή εναλλακτικά την χρήση κλιµακωτών µεθόδων

επιλογής ανεξάρτητων µεταβλητών (Use Stepwise Method). Η δεύτερη επιλογή

είναι πολύ χρήσιµη στην πράξη γιατί εντοπίζει βήµα-βήµα τις ασήµαντες µεταβλητές

για το διαχωρισµό και τις αφαιρεί από την διαχωριστική συνάρτηση. Επειδή εµείς εδώ

έχουµε παραπάνω από δύο µεταβλητές καλό θα ήταν να χρησιµοποιήσουµε την

επιλογή Use Stepwise Method.

Αφού βάλουµε τις µεταβλητές όπως παραπάνω πηγαίνουµε στο µενού Statistics.

Στο υποµενού Statistics έχουµε τις εξής επιλογές:

Καταρχάς παρατηρούµε ότι το υποµενού Statistics χωρίζεται σε τρία µέρη:

138

Descriptives : Επιλέγοντας να το Means εξάγονται µέσες τιµές, επιλέγοντας το

Univariate ANOVAs θα γίνει ανάλυση διακύµανσης κατά ένα παράγοντα, ενώ

επιλέγοντας Box’s M διεξάγουµε έναν έλεγχο ισότητας πινάκων διακύµανσης-

συνδιακύµανσης.

Για το πρώτο επίπεδο της µεταβλητής Creditability έχουµε τα εξής περιγραφικά:

Βέβαια επειδή µόνο η µεταβλητή Amount of Credit in Deutsch Mark είναι ποσοτική τα

παραπάνω περιγραφικά µέτρα δεν έχουν νόηµα για τις υπόλοιπες µεταβλητές που

είναι κατηγορικές.

Το πινακάκι της Ανάλυσης ∆ιακύµανσης µας δείχνει

139

Από τον παραπάνω πίνακα βλέπουµε ότι για τις µεταβλητές που είναι µέσα στο

κόκκινο πλαίσιο οι µέσοι για τα δύο επίπεδα της µεταβλητής Creditability είναι ίδιοι

αφού τα p-value είναι µεγαλύτερα από το 0.05 επίπεδο σηµαντικότητας που ορίσαµε

στην αρχή της ανάλυσής µας, οπότε και δεν απορρίπτεται η µηδενική υπόθεση ότι οι

µέσοι των δύο επιπέδων της µεταβλητής Creditability για τις εν λόγω µεταβλητές είναι

ίσοι.

Εφαρµόζοντας δε την µέθοδο Stepwise και πηγαίνοντας στο µενού Method και

επιλέγοντας την επιλογή Wilks θα δούµε πως οι µεταβλητές που είναι µέσα στο

κόκκινο πλαίσιο αφαιρούνται από την διαχωριστική συνάρτηση.

140

Variables in the Analysis

Step Tolerance F to Remove Wilks'

Lambda 1 Value of savings or stocks

(in DM) 1,000 33,014

2 Value of savings or stocks (in DM) ,991 38,015 ,976

Amount of credit in "Deutsche Mark" (metric) ,991 29,451 ,968



problematic running account / there are further credits running but at other banks

,998 20,040 ,940




,998 19,152 ,924

Installment in % of available income ,914 16,432 ,922




,994 21,003 ,912


hesitant payment of previous credits ,976 15,103 ,907




,920 31,158 ,904



no previous credits / paid back all previous credits ,871 18,875 ,893



141


,917 29,025 ,894




Has been employed by current employer for (years)

,957 8,635 ,876




,917 28,399 ,889



no previous credits / paid back all previous credits

,859 15,506 ,878


,955 9,209 ,872

Not available/ not assets ,931 5,542 ,869 9 Value of savings or stocks

(in DM) ,972 35,152 ,891



,882 31,500 ,888





,952 8,474 ,868

Not available/ not assets

,931 5,303 ,865

no problems with current credits at this bank ,825 3,902 ,864

142

Στο 9 και τελευταίο βήµα της µεθόδου Stepwise φαίνονται οι µεταβλητές που τελικά

θα χρησιµοποιηθούν στην διαδικασία του διαχωρισµού. Παρατηρούµε ότι σε αυτές τις

µεταβλητές δεν συµπεριλαµβάνονται οι µεταβλητές που βρίσκονταν στο κόκκινο

πλαίσιο παραπάνω στο πινακάκι τις ANOVA.

Αν τώρα επιλέξουµε να γίνει ο έλεγχος Box’s Μ ο οποίος ελέγχει

0 1 2: ... ΚΗ Σ = Σ = = Σ

Αν τα P-value>0.05 τότε δεν απορρίπτεται η µηδενική υπόθεση. Εµείς θέλουµε να

µην απορρίπτεται. Αξίζει να αναφέρουµε ότι ο έλεγχος αυτός είναι ευαίσθητος στην

κανονικότητα. Από αυτό καταλαβαίνουµε ότι επειδή στα δεδοµένα µας παρατηρήσαµε

ότι δεν ισχύει η κανονικότητα ενδέχεται ο έλεγχος να απορρίψει την µηδενική

υπόθεση πράγµα που όντως συµβαίνει αφού το p-value=0.000<0.05:

Test Results

497,31910,920

451187502

,000

Box's MApprox.df1df2Sig.

F

Tests null hypothesis of equal population covariance matrices.

Αξίζει να αναφέρουµε ότι σε πραγµατικά δεδοµένα είναι σπάνιο να βρούµε ότι

πληρείται η υπόθεση της κανονικότητας και πόσο µάλλον η υπόθεση ης ισότητας των

πινάκων διακύµανσης-συνδιακύµανσης. Και αυτός βέβαια είναι ο λόγος που οι

ερευνητές εφαρµόζουν την διαχωριστική ανάλυση ακόµα και όταν δεν ισχύουν οι

υποθέσεις.

Η δεύτερη κατηγορία ορίζει τον υπολογισµό για την εµφάνιση των

συντελεστών της διαχωριστικής ανάλυσης (Function Coefficients).

Για κάθε οµάδα υπολογίζοµε ένα σκορ µε βάση κάποια συνάρτηση. Στην περίπτωσή

µας οι συναρτήσεις είναι γραµµικές ως προς τις ανεξάρτητες. Η επιλογή Fisher’s

υπολογίζει συντελεστές των γραµµικών συναρτήσεων των σκορ µε την µέθοδο του

Fisher και για το παράδειγµα µας δίνει:

143

Classification Function Coefficients

,326 ,610

2,088 2,272

2,981 2,670

3,020 3,417

6,118 4,138

2,954 1,928

1,762 1,507

1,050 ,907

,001 ,001

-13,238 -12,367

Value of savings or stocks(in DM)Has been employed bycurrent employer for(years)Installment in % ofavailable incomeNot available/ not assetshesitant payment ofprevious creditsproblematic runningaccount / there are furthercredits running but atother banksno previous credits / paidback all previous creditsno problems with currentcredits at this bankAmount of credit in"Deutsche Mark" (metric)(Constant)

not creditworthy credit worthy

Creditability

Fisher's linear discriminant functions

Τώρα το µοντέλο για την πρώτη κατηγοριοποίηση θα είναι:

1 13,238 0.326 2.088 2.981 3,02 6.118 2.954 1.762 1,05 0.001w k l m g d p q f= − + + + + + + + + + x

2

όµοια εκφράζεται και το µοντέλο ( ) της δεύτερης κατηγορίας. 2w

Αυτό το πινακάκι µας βοηθάει στο να κατατάξουµε κάθε νέο πελάτη της τράπεζας που

ζητάει κάποιου είδους πίστωσης σε µία από τις δύο κατηγορίες της µεταβλητής

Creditability.

Αν τότε κατατάσσουµε τον πελάτη στην πρώτη κατηγορία δηλαδή ότι δεν

είναι άξιος για να το δώσει η τράπεζα κάποιου είδους πίστωσης, αλλιώς τον

κατατάσσουµε στην 2

1w w>

η κατηγορία.

Στην τρίτη κατηγορία των επιλογών του υποµενού Statistics δίνει την επιλογή

του υπολογισµού συνδυασµένων πινάκων συνδιακύµανσης και συσχέτισης.

Και την επιλογή υπολογισµού του πίνακας συνδιακύµανσης για κάθε οµάδα αλλά και

του συνόλου των οµάδων.

144

Στο υποµενού Classify θα κάνουµε τις εξής επιλογές:

Το υποµενού αυτό χωρίζεται σε τέσσερις οµάδες κατηγοριών:

Prior Probabilities: Μπορούµε να διαλέξουµε ανάµεσα σε ίσες πιθανότητες ή

σε υπολογισµό από το µέγεθος του δείγµατος. ∆υστυχώς αν έχουµε κάποια

άλλου είδους πληροφόρηση δεν µπορούµε να την χρησιµοποιήσουµε στο

SPSS. Για το λόγο αυτό, αν το SPSS είναι το µοναδικό στατιστικό πακέτο που

διαθέτουµε, καλό θα ήταν όταν έχουµε κάποια πληροφόρηση για τα

πραγµατικά ποσοστά των οµάδων στον πραγµατικό πληθυσµό τότε και στο

δείγµα διατηρείται και η ίδια αναλογία έτσι ώστε να επιλέξουµε Compute from

group sizes.

Use Covariance Matrix: µπορούµε να επιλέξουµε αν η λύση θα γίνει µε ίσες

ή µε άνισε διακυµάνσεις. Αυτό προϋποθέτει να κάνουµε πρώτα τον έλεγχο

Box’s M το οποίο στον δικό µας παράδειγµα απορρίπτει την υπόθεση της

ισότητας πινάκων διακυµάνσεων-συνδιακυµάνσεων, οπότε επιλέγουµε χρήση

του συνδυασµένου πίνακα συνδιακυµάνσεων (Within-groups).

Display: περιλαµβάνει εµφάνιση αποτελεσµάτων ανά παρατήρηση (casewise

results). Αν έχουµε πολλές παρατηρήσεις µπορούµε να περιορίσουµε την

εµφάνιση των αποτελεσµάτων στις πρώτες n παρατηρήσεις (limit cases to

first..). Επιπλέον µπορούµε να δούµε πως κατατάσσεται η κάθε παρατήρηση αν

κάνουµε διαχωριστική ανάλυση χωρίς συγκεκριµένη παρατήρηση και µετά να

την κατατάξουµε µε βάση την διαχωριστική συνάρτηση των άλλων

παρατηρήσεων (Leave-one-out classification). Τέλος η επιλογή του Summary

table µας δίνει ένα πολύ σηµαντικό πίνακα:

145

Classification Resultsb,c

201 99 300215 485 70067,0 33,0 100,030,7 69,3 100,0198 102 300220 480 70066,0 34,0 100,031,4 68,6 100,0

Creditabilitynot credit worthycredit worthynot credit worthycredit worthynot credit worthycredit worthynot credit worthycredit worthy

Count

%

Count

%

Original

Cross-validateda

not creditworthy credit worthy

Predicted GroupMembership

Total

Cross validation is done only for those cases in the analysis. In crossvalidation, each case is classified by the functions derived from all cases otherthan that case.

a.

68,6% of original grouped cases correctly classified.b.

67,8% of cross-validated grouped cases correctly classified.c.

Ο οποίος είναι χρήσιµος για τον υπολογισµό της επιτυχίας της διαχωριστικής

ανάλυσης µας. Πιο συγκεκριµένα εδώ βλέπουµε ότι έχουµε 68,6% ποσοστό σωστού

διαχωρισµού για την συνολική διαχωριστική ανάλυση και 67,8% για την προσέγγιση

της διασταυρωµένης επικύρωσης. Τα ποσοστά δεν είναι µεγάλα, είναι όµως

ικανοποιητικά. Αυτό θα πρέπει να το περιµένουµε σε πραγµατικά δεδοµένα.

Tο ποσοστό του επιτυχηµένου διαχωρισµού µπορούµε να το µετρήσουµε µε το

ποσοστό των σωστά καταχωρηµένων παρατηρήσεων (68,6%) όπως παραπάνω αλλά

και µε τον υπολογισµό του δείκτη συµφωνίας Κappa αφού αποθηκεύσουµε τις

προβλεπόµενες οµάδες. Αυτό µπορούµε να το κάνουµε κάνοντας τον αντίστοιχο

πίνακα συνάφειας (Crosstabs) όπως είδαµε στο κεφάλαιο 4

Analyze> Descriptive Statistics> Crosstabs

µόνο που στο υποµενού Statistics θα επιλέξουµε µόνο την επιλογή Kappa. Αυτό που

θέλουµε τιµές κοντά στο 1.

Το τέταρτο και τελευταίο υποµενού είναι αυτό του Save.

Η οµάδα επιλογών αποθήκευσης τις προβλεπόµενες µε βάση την ανάλυση οµάδες

(predicted group memberships), τα σκορ διαχωρισµού (Discriminant scores) και τις

πιθανότητες να ανήκουν σε µια οµάδα (probabilities of group memberships).

146

Συνήθως µιας ενδιαφέρει η αποθήκευση της προβλεπόµενης οµάδας για κατάταξη των

παρατηρήσεων των οποίων η οµάδα δεν είναι γνωστή και για έλεγχο της επιτυχίας

του διαχωρισµού µέσα από τον υπολογισµό του δείκτη συµφωνίας Κ.

Αφήσαµε το δεύτερο µενού Method λόγω της ιδιοµορφίας του.

Αυτό το µενού µπορούµε να το χρησιµοποιήσουµε µόνο στην περίπτωση που

χρησιµοποιήσουµε την µέθοδο Stepwise.

Στην κλιµακωτή µέθοδο επιλογής µεταβλητών (Stepwise method), ξεκινάµε χωρία

καµία µεταβλητή στο µοντέλο και συνεχίζουµε προσθέτοντας τη µεταβλητή µε τον

καλύτερο δείκτη ανάλογα µε την µέθοδο που διαλέγουµε στην υπό-οµάδα method ή

το αντίστοιχο καλύτερο F)δεδοµένου ότι ικανοποιείται το όριο εισόδου της µεταβλητής

που θέτουµε στο criteria. Παράλληλα σε κάθε βήµα ελέγχουµε αν κάποια από τις

µεταβλητές που είναι ήδη στο µοντέλο πρέπει να αφαιρεθεί στις επιλογές criteria. Αν

κάποια µεταβλητή πρέπει να αφαιρεθεί θα είναι αυτή µε το µικρότερο F.

Η πρώτη οµάδα των επιλογών αναφέρεται στην επιλογή της µεθόδου επιλογής των

µεταβλητών (method):

Wilks’ Lambda: Σε κάθε βήµα επιλέγουµε ποια µεταβλητή θα εισάγουµε στο

µοντέλο µα βάση την µείωση του λάµδα του Wilks. Για κάθε µεταβλητής

υπολογίζεται ένα F το οποίο βασίζεται στην διαφορά µεταξύ των λάµδα του

Wilks για τα µοντέλα µε και χωρίς την µεταβλητή. Μη ξεχνάµε ότι ο δείκτης

Wilks µετράει το ποσοστό της µη ερµηνεύσιµης από το µοντέλο διακύµανσης.

Unexplained Variance: εδώ επιλέγουµε σαν δείκτη απόδοσης της κάθε

µεταβλητής το άθροισµα της ερµηνεύσιµης διακύµανσης ανάµεσα στα ζευγάρια

των οµάδων.

147

Mahalanobis Distance: η µέθοδος αυτή βασίζεται στον υπολογισµό της

απόστασης Mahalanobis των δύο πιο κοντινών οµάδων. Σε κάθε βήµα

εισάγεται η µεταβλητή που µεγαλώνει αυτή την απόσταση.

Smallest F-ratio: η µέθοδος αυτή βασίζεται στον υπολογισµό του F για όλα

τα ζευγάρια των τιµών και από αυτές τις τιµές επιλέγουµε το µικρότερο F. Σε

κάθε βήµα επιλέγεται εκείνη η µεταβλητή που µεγιστοποιεί αυτό το µικρότερο

F.

Rao’s V: η µέθοδος αυτή βασίζεται στον υπολογισµό της απόστασης

Mahalanobis µεταξύ της κάθε οµάδας και του συνολικού δείγµατος. Σε κάθε

βήµα εισάγεται εκείνη η µεταβλητή που µεγιστοποιεί την απόσταση αυτή.

Η οµάδα επιλογών εµφάνισης λεπτοµερειών (display) µας δίνει την δυνατότητα να

παρακολουθήσουµε περιληπτικά την εισαγωγή και απαλοιφή των µεταβλητών από το

µοντέλο (summary of steps) και να δούµε τους δείκτες F για όλες τις συγκρίσεις

ανά ζεύγη (F for pairwise distances).

Σε αυτό το σηµείο καλό θα ήταν δώσουµε και την ερµηνεία κάποιων επιπλέον

πινάκων που εξάγει η διαχωριστική ανάλυση.

Wilks' Lambda

,861 149,068 9 ,000Test of Function(s)1

Wilks'Lambda Chi-square df Sig.

Ο πίνακας παραπάνω υπολογίζει το λάµδα του Wilks, το οποίο όπως είπαµε

αντιπροσωπεύει το ποσοστό της διακύµανσης που δεν εξηγεί το µοντέλο. Μπορούµε

να χρησιµοποιήσουµε το λάµδα για να ελέγξουµε την υπόθεση ότι οι µέσοι όλων των

µεταβλητών ανά οµάδα είναι ίσοι. Αυτό το τεστ µπορεί να µας δώσει καλά

αποτελέσµατα σε περίπτωση που οι µεταβλητές µας δεν είναι κατάλληλες για

διαχωρισµό. Εδώ απορρίπτουµε την ισότητα των µέσων (p-value=0.000<0.05), άρα

δεν φαίνεται να υπάρχει πρόβληµα µε την εφαρµογή της διαχωριστικής ανάλυσης

µας.

Ο πίνακας structure matrix µας δίνει τους δείκτες συσχέτισης κάθε ανεξάρτητης

µεταβλητής µε κάθε µια διαχωριστική συνάρτηση και µας βοηθάει στο να

148

αξιολογήσουµε πόσο σηµαντική είναι κάθε µεταβλητή για την κατασκευή της

διαχωριστικής συνάρτησης. Θέλουµε τιµές πάνω από 0,5.

Structure Matrix

-,452

,389

,364

,337

-,299

-,290

,180

,149

,131

,109

,104

,031

,020

Value of savings or stocks(in DM)Amount of credit in"Deutsche Mark" (metric)hesitant payment ofprevious creditsproblematic runningaccount / there are furthercredits running but atother banksNot available/ not assetsHas been employed bycurrent employer for(years)Installment in % ofavailable incomeSavings contract with abuilding society / Lifeinsurance

a

Runnig Credits at otherbanks

a

no previous credits / paidback all previous creditsRunning credits atdepartment store or mailorder house

a

no problems with currentcredits at this bankCar/ other a

1Function

Pooled within-groups correlations between discriminatingvariables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function.

This variable not used in the analysis.a.

Σε αυτό το dataset οι µεταβλητές δεν φαίνεται να είναι και οι καλύτερες για την

εφαρµογή του εν λόγω διαχωρισµού σε άξιους και µη για χορήγηση κάποιου είδους

πίστωσης, παρ’ όλα αυτά είχαµε, όπως είδαµε παραπάνω, ένα καλό ποσοστό σωστού

διαχωρισµού (68.6%).

Τέλος ο πίνακας κεντροειδών µας δίνει την µέση τιµή της κάθε κανονικοποιηµένης

διαχωριστικής συνάρτησης για κάθε µία οµάδα.

Functions at Group Centroids

,614-,263

Creditabilitynot credit worthycredit worthy

1Function

Unstandardized canonical discriminantfunctions evaluated at group means

Εδώ έχουµε δύο οµάδες άρα µια συνάρτηση και µέσους ίσους µε 0,614 για τους

πελάτες που δεν αξίζουν να πάρουν κάποιου είδους πίστωση και -0,263 για αυτούς

που αξίζουν.

149

6.1.1 ΑΛΛΕΣ ΜΕΘΟ∆ΟΙ ΠΑΡΟΜΟΙΕΣ ΜΕ ΤΗΝ ∆ΙΑΧΩΡΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

Η διαχωριστική ανάλυση, όµως, δεν είναι η µοναδική µέθοδος που προσπαθεί και

µπορεί να κατατάξει τις παρατηρήσεις σε οµάδες. Υπάρχουν και πολλές άλλοι µέθοδο

που µπορούν να φέρουν σε πέρας µια τέτοια διαδικασία. Πολλές από αυτές τις

µεθόδους αναπτύχθηκαν σε ένα διαφορετικό περιβάλλον από στατιστικό για αυτό και

δεν διαθέτουν σηµαντικό στατιστικό υπόβαθρο. Παρόλο αυτά τα αποτελέσµατά τους

φαίνονται να είναι ικανοποιητικά.

Σε τοµέα που αφορά στην ανάλυση των πιστωτικών κινδύνων, οι τεχνικές και οι

προσεγγίσεις που µπορούν να χρησιµοποιηθούν στο να καθοδηγήσουν αναλύσεις µε

µοναδικό σκοπό την πρόβλεψη είναι:

• Γραµµική Παλινδρόµηση

• Μέθοδος κοντινότερων γειτόνων (K-nearest neighbors)

• Λογιστική παλινδρόµηση (logistic regression)

• Τα δέντρα παλινδρόµησης και ταξινόµησης (CART: Classification and

Regression Trees ή ∆ένδρα Αποφάσεων

• Τα νευρωνικά δίκτυα (neural networks)

• Probit Regression

6.1.1.1 Γραµµική Παλινδρόµηση

Η πιο απλή µέθοδος που µπορούµε να χρησιµοποιήσουµε για πετύχουµε ένα

διαχωρισµό σε δύο οµάδες είναι τα γραµµικώς παλίνδροµα µοντέλα, τα οποία

αναλύουν την σχέση µεταξύ µιας εξαρτηµένης µεταβλητής, η οποία θα παίρνει την

τιµή 1 όταν η παρατήρηση ανήκει στην πρώτη οµάδα και 0 αν όχι, µε ένα σετ

ανεξάρτητων. Η σχέση αυτή µπορεί να εκφραστεί µε µια εξίσωση µεταξύ της

εξαρτηµένης και ενός σετ ανεξάρτητων µεταβλητών. Εκτιµώντας τις παραµέτρους του

µοντέλου µπορούµε να πάρουµε ικανοποιητικές προβλέψεις για την εξαρτηµένη

µεταβλητή, που µας ενδιαφέρει. Γενικότερα, σκοπός αυτής της ανάλυσης είναι να

µειώσουµε όσο µπορούµε τα αθροίσµατα των τετραγώνων των καταλοίπων κάνοντας

τις εκτιµήσεις που αναφέραµε..

Στην περίπτωση τώρα που έχουµε περισσότερες από δύο οµάδες, πάλι µπορούµε να

χρησιµοποιήσουµε κάτι ανάλογο γενικεύοντας την πολλαπλή παλινδρόµηση σε

πολυµεταβλητή(δηλαδή ένα µοντέλο το οποίο έχει περισσότερες από µια

εξαρτηµένες). Με αυτή την γενίκευση αυτή, έχουµε το πλεονέκτηµα του ότι η

150

συγκεκριµένη µέθοδος (Πολυµεταβλητή παλινδρόµηση) µας επιτρέπει να λάβουµε

υπόψη την συνδιακύµανση που έχουν οι µεταβλητές, κάτι που στην περίπτωση που

χρησιµοποιούσαµε πολλά µονοµεταβλητά µοντέλα θα το αγνοούσαµε.

6.1.1.2 Η Μέθοδος των κοντινότερων γειτόνων (K-nearest neighbors)

Η µέθοδος κοντινότερου γείτονα είναι µια γενική µέθοδος µε εφαρµογές στην

κατασκευή µοντέλων πρόβλεψης νέων τιµών που µπορεί να χρησιµοποιηθεί και για

την κατάταξη παρατηρήσεων. Η βασική ιδέα είναι πως έχουµε ένα δείγµα και θέλουµε

για µια νέα παρατήρηση µε γνωστές τιµές και για ένα διάνυσµα µεταβλητών x, να

προβλέψουµε την τιµή µια µεταβλητής y. Τότε χρησιµοποιούµε για την πρόβλεψή

µας την πληροφορία που περιέχουν οι τιµές δείγµατος που µοιάζουν περισσότερο µε

την νέα παρατήρηση για την οποία θέλουµε να κάνουµε πρόβλεψη. Η εκτίµηση αυτή

δίνεται από τον τύπο:

Στην ουσία βρίσκουµε ποιες παρατηρήσεις είναι πιο κοντά στην τιµή για την οποία

θέλουµε να κάνουµε πρόβλεψη και προβλέπουµε παίρνοντας το µέσο όρο των τιµών

των κοντινότερων παρατηρήσεων. Μια παραλλαγή της µεθόδου, θα µπορούσε να

ήταν κάλλιστα η στάθµιση µε την απόσταση, δηλαδή πιο όµοιες παρατηρήσεις µε

µικρή απόσταση να λαµβάνονται περισσότερο υπόψη.

Στην περίπτωση κατάταξης σε διάφορους πληθυσµούς (όπως και στην περίπτωση της

Πολυµεταβλητή παλινδρόµησης) δεν µπορούµε να χρησιµοποιήσουµε τον µέσο όρο.

Συνήθως αυτό που χρησιµοποιούµε ως πρόβλεψη είναι η τιµή µε την µεγαλύτερη

συχνότητα στις κοντινότερες παρατηρήσεις, ∆ηλαδή, βρίσκουµε σε ποιες οµάδες

ανήκουν οι κοντινότερες παρατηρήσεις και κατατάσσουµε την παρατήρηση µας στην

οµάδα στην οποία ανήκουν οι περισσότερες. Ένας άλλος τρόπος θα ήταν να

χρησιµοποιήσουµε τις συχνότητες για κάθε οµάδα ως µέτρο κατάταξης µε πιθανότητα

ανάλογη της σχετικής συχνότητας που βρήκαµε στις κοντινότερες.

6.1.1.3 Λογιστική Παλινδρόµηση

Η Λογιστική Παλινδρόµηση στην ουσία είναι γενίκευση της απλής γραµµικής

παλινδρόµησης για την περίπτωση που η εξαρτηµένη µεταβλητή Υ είναι δίτιµη ( π.χ.

0=αποτυχία και 1=επιτυχία). Σε αυτή την περίπτωση έχουµε:

( , )i i iY Binomial p N , µε [ ] 0 1 1log /(1 ) ...i i i p pip p β β β− = + Χ + + Χ

όταν τα δεδοµένα δίνονται ως αριθµός επιτυχιών Yi σε σύνολο Ni πειραµάτων ή

( )i iY Bernouli p µε [ ] 0 1 1log /(1 ) ...i i i pp p β β β pi− = + Χ + + Χ

151

όταν η Yi υποδεικνύει σε ποια οµάδα ανήκει η i παρατήρηση. Από τα παραπάνω

µπορούµε να υπολογίσουµε την πιθανότητα για κάθε παρατήρηση να ανήκει στην 1η ή

στην 2η οµάδα, η οποία περιγράφεται από τον τύπο:

0 1 1

0 1 1

...

...1

i p pi

i p piepe

β β β

β β β

+ Χ + + Χ

+ Χ + + Χ=+ i

Η σχέση λογιστικής παλινδρόµησης και διαχωριστικής ανάλυσης είναι αρκετά µεγάλη.

Ειδικά για την περίπτωση που έχουµε δύο οµάδες τα αποτελέσµατα είναι αρκετά όµοια

(εξαρτάται βέβαια και από τις υποθέσεις που έχουν γίνει για τον πληθυσµό). Τα

µοντέλα λογιστικής παλινδρόµησης έχουν το πλεονέκτηµα να υπολογίζουν αυτόµατα

τις πιθανότητες κάθε οµάδας, κάτι που έµµεσα µπορεί να γίνει και µε την διαχωριστική

ανάλυση. Η λογιστική παλινδρόµηση, όπως και οι άλλες µεθόδους παραπάνω µπορεί

να γενικευθεί για την περίπτωση περισσότερων σπό δυο πληθυσµούς-οµάδες µε τη

χρήση της µεθόδου Multinomial Logistic Regression. Βασικά το µοντέλο αυτό,

υποθέτει ότι κάθε παρατήρηση Υi είναι µια παρατήρηση από µια πολυωνυµική

κατανοµή µε πιθανότητες pj , j=1,…,k, 1

1k

jj

p=

=∑ . Η µεταβλητή Υi , δηλαδή

περιέχει την τιµή που καθορίζει την οµάδα, στην οποία η παρατήρηση ανήκει. Στη

συνέχεια συνδέουµε τις πιθανότητες, µε την χρήση του Logit µετασχηµατισµού, µε τις

µεταβλητές που θα χρησιµοποιήσουµε για την κατασκευή του κανόνα κατάταξης. Με

την χρήση αυτού του µοντέλου εκτιµάµε τις πιθανότητες κάθε οµάδας και εποµένως

µπορούµε να κατατάξουµε τις παρατηρήσεις µε βάση τη µεγαλύτερη πιθανότητα.

6.1.1.4 ∆ένδρα Αποφάσεων (CART)

Αποτελεί µια µη παραµετρική µέθοδο που παράγει παλίνδροµα δέντρα ή δέντρα

οµαδοποιήσεων ανάλογα από το αν η εξαρτηµένη µεταβλητή είναι συνεχής ή

κατηγορική.

Τα δένδρα αποφάσεων χωρίζονται σε δύο µεγάλες κατηγορίες µε πολλά κοινά

χαρακτηριστικά:

• Τα δέντρα ταξινόµησης (classification trees)

• Τα δέντρα παλινδρόµησης (regression trees)

Η βασική διαφορά είναι ότι στα δέντρα ταξινόµησης καταλήγουµε σε κάποια απόφαση

που κατατάσσει την παρατήρηση σε κάποια οµάδα, ενώ στα δέντρα παλινδρόµησης

152

καταλήγουµε σε µια τιµή που είναι η τιµή πρόβλεψης που έχουµε για την παρατήρησή

µας.

Τα δένδρα παλινδρόµησης και κατάταξης συνδέονται περισσότερο µε την ανάλυση σε

οµάδες παρά µε την διαχωριστική ανάλυση. Η µέθοδος ξεκινάει µε όλες τις

παρατηρήσεις σε µια οµάδα και «σπάει» το δείγµα σε οµάδες ανάλογα µε τα

χαρακτηριστικά τους. Η διαδικασία γίνεται µέχρι ο κανόνας παύσης ικανοποιηθεί.

6.1.1.5 Νευρωνικά ∆ίκτυα (Neural Networks)

Τα νευρωνικά δίκτυα είναι µια εντατική υπολογιστικά προσέγγιση, η οποία µετατρέπει

εισερχόµενη πληροφορία σε επιθυµητή εξερχόµενη πληροφορία. Η επεξεργασία της

πληροφορίας βασίζεται σε συνδυασµένα δίκτυα µικρών επεξεργαστικών οµάδων, οι

οποίες λέγονται νευρώνες ή κόµβοι. Τα νευρωνικά δίκτυα αποτελούν µια

απλοποιηµένη εφαρµογή του τρόπου λειτουργίας του ανθρώπινου µυαλού. Τρία είναι

τα βασικά συστατικά ενός νευρωνικού δικτύου: οι κόµβοι, ο τρόπος σύνδεσης τους

και ο αλγόριθµος µε τον οποίο βρίσκουµε τις τιµές των παραµέτρων του δικτύου. Τα

νευρωνικά δίκτυα µπορούν να χρησιµοποιηθούν για διαχωρισµό οµάδων µε επιδόσεις

ανάλογες µε αυτές της λογιστικής παλινδρόµησης και της διαχωριστικής ανάλυσης.

6.1.1.6 Probit Regression

Υπάρχει, τέλος, και η µέθοδος της Probit Regression, η οποία αποτελεί µια

παραλλαγή της λογιστικής παλινδρόµησης για την µοντελοποίηση κατηγορικών

εξαρτηµένων µεταβλητών. Παρόλο που τα αποτελέσµατα µεταξύ των δύο αυτών

µεθόδων τείνουν να είναι ίδια, οι υποκείµενες κατανοµές διαφέρουν.

Ολοκληρώνοντας µε την Probit Regression, ολοκληρώθηκε και το κοµµάτι που αφορά

στις µεθόδους που µπορούµε να χρησιµοποιήσουµε στον κλάδο των πιστωτικών

κινδύνων.

153

6.2 ΑΝΑΛΥΣΗ ΚΑΤΑ ΣΥΣΤΑ∆ΕΣ (CLUSTER ANALYSIS)

Η ανάλυση κατά συστάδες σκοπό έχει να κατατάξει σε οµάδες τις υπάρχουσες

παρατηρώντας χρησιµοποιώντας την πληροφορία που υπάρχει σε κάποιες µεταβλητές.

Με άλλα λόγια αυτή η µέθοδος εξετάζει πόσο όµοιες είναι κάποιες παρατηρήσεις ως

προς κάποιον αριθµό µεταβλητών µε σκοπό να δηµιουργήσει οµάδες από

παρατηρήσεις που µοιάζουν µεταξύ τους.

Μια επιτυχηµένη ανάλυση θα πρέπει να καταλήξει σε οµάδες για τις οποίες οι

παρατηρήσεις µέσα σε κάθε οµάδα να είναι όσο γίνεται πιο οµοιογενείς, αλλά

παρατηρήσεις διαφορετικών οµάδων να διαφέρουν όσο γίνεται περισσότερο

Η cluster analysis βρίσκει εφαρµογή σε πολλές επιστήµες. Μερικά παραδείγµατα:

Οι βιολόγοι ενδιαφέρονται να κατατάξουν διαφορετικά ήδη ζώων σε οµάδες µε

βάση κάποια χαρακτηριστικά τους.

Στο Marketing το ενδιαφέρον είναι πως µπορούν να οµαδοποιηθούν οι πελάτες

σύµφωνα µε τα στοιχεία που υπάρχουν σχετικά µε τις αγοραστικές τους

συνήθειες και τα δηµογραφικά χαρακτηριστικά τους. Κάτι τέτοιο είναι πολύ

χρήσιµο, κυρίως για διαφηµιστικούς λόγους, για παράδειγµα κάποια προϊόντα

απευθύνονται σε συγκεκριµένη αγοραστική οµάδα.

κ.α.

∆ύο βασικές έννοιες για την ανάλυση κατά οµάδες, αλλά όχι µόνο, είναι οι έννοιες της

απόστασης και της οµοιότητας. Μπορούµε εύκολα να διαπιστώσουµε ότι αυτές οι δύο

έννοιες είναι αντίθετες µεταξύ τους, αφού παρατηρήσεις που είναι όµοιες θα έχουν

µεγάλη οµοιότητα και µικρή απόσταση. Το συµπέρασµα είναι ότι στην ανάλυση κατά

συστάδες σκοπός µας είναι να δηµιουργήσουµε οµάδες µέσα στις οποίες οι

παρατηρήσεις απέχουν λίγο, ενώ παρατηρήσεις διαφορετικών οµάδων απέχουν

µεταξύ τους αρκετά.

Σε αυτό το σηµεία καλό θα ήταν να αναφέρουµε ότι υπάρχουν αρκετές διαφορετικές

προσεγγίσεις για το πώς µπορούµε να οµαδοποιήσουµε τα δεδοµένα µας. Οι

βασικότερες και πιο διαδοµένες προσεγγίσεις είναι:

Ιεραρχικές µέθοδοι: Ξεκινάµε µε κάθε παρατήρηση να είναι από µόνη της µια

οµάδα. Σε κάθε βήµα ενώνουµε τις δύο παρατηρήσεις που έχουν πιο µικρή

απόσταση. Αν δύο παρατηρήσεις έχουν ενωθεί σε προηγούµενο βήµα,

ενώνουµε µια υπάρχουσα οµάδα µε µια παρατήρηση µέχρι να φτιάξουµε µια

154

οµάδα. Κοιτώντας τα αποτελέσµατα, διαλέγουµε πόσες οµάδες τελικά

προκύπτουν.

K-means: Ο αριθµός των οµάδων είναι γνωστός από πριν. Με ένα

επαναληπτικό αλγόριθµο µοιράζουµε τις παρατηρήσεις στις οµάδες ανάλογα µε

το ποια οµάδα είναι πιο κοντά στην παρατήρηση.

Στατιστικές µέθοδοι: Και οι δύο µέθοδοι που είπαµε στηρίζονται καθαρά σε

αλγοριθµικές λύσεις και δεν προϋποθέτουν κάποιο µοντέλο. Υπάρχουν αρκετές

µέθοδοι στατιστικές ξεκινώντας από κάποιες υποθέσεις κατατάσσουµε τις

παρατηρήσεις. ∆υστυχώς αυτές οι µέθοδοι έχουν αρκετά υπολογιστικά

προβλήµατα και για αυτό δεν προσφέρονται από πολλά στατιστικά πακέτα.

Τελειώνοντας, θα πρέπει να τονίσουµε ότι µερικές φορές η ανάλυση σε οµάδες µπορεί

να έχει και άλλους σκοπούς εκτός από την απλή οµαδοποίηση των δεδοµένων. Έτσι, η

ανάλυση µπορεί να χρησιµοποιηθεί για:

Τη διερεύνηση σχέσεων στα δεδοµένα

Την µείωση των διαστάσεων του προβλήµατος

∆ηµιουργία και έλεγχο υποθέσεων σχετικά µε τα δεδοµένα

Πρόβλεψη καινούριων τιµών. Έχοντας δηµιουργήσει οµάδες από παρατηρήσεις

σε πολλές εφαρµογές, ενδιαφερόµαστε να κατατάξουµε καινούριες

παρατηρήσεις. Για παράδειγµα, µία τράπεζα έχει κατατάξει τους πελάτες της σε

καλούς µέτριους και κακούς και θέλει να κατατάσσει και τους καινούργιους

πελάτες σε αυτές τις κατηγορίες µε βάσης κάποια χαρακτηριστικά τους.

6.2.1 ΠΡΟΒΛΗΜΑΤΑ ΠΟΥ ΠΡΕΠΕΙ ΝΑ ΑΝΤΙΜΕΤΩΠΙΣΕΙ Ο ΕΡΕΥΝΗΤΗΣ

Πριν προχωρήσουµε στην περιγραφή των συγκεκριµένων µεθόδων ανάλυσης, θα

πρέπει να αναφερθούµε σε κάποια προβλήµατα που αφορούν όλες της µεθόδους

ανάλυσης κατά συστάδες.

Τα πιο σηµαντικά προβλήµατα είναι:

Ποιες µεταβλητές πρέπει να χρησιµοποιηθούν

Στην πραγµατικότητα δεν υπάρχει κάποιος τρόπος για να οδηγήσει στην επιλογή

µεταβλητών πριν από την ανάλυση. Στην πράξη η επιλογή των µεταβλητών αυτών αν

και είναι πολύ σηµαντική δεν αντιµετωπίζεται συνήθως µε την δέουσα σοβαρότητα.

155

Αν λοιπόν δεν υπάρχει κάποια σχετική εµπειρία ή κάποιος θεωρητικός λόγος για να

επιλέξουµε κάποιες συγκεκριµένες από τις µεταβλητές µας για να χρησιµοποιήσουµε

στην ανάλυσή µας, τότε αφού κάνουµε την ανάλυση µπορούµε να δούµε εκ των

υστέρων αν κάποιες από τις µεταβλητές ήταν τελικά µη στατιστικά σηµαντικές στην

ανάλυση µας, αν δηλαδή η τιµή τους είναι ίδια για όλες τις οµάδες που

δηµιουργήσαµε και εποµένως δεν έχουν καµία διακριτική ικανότητα.

Ένα άλλο πρόβληµα που σχετίζεται µε τις µεταβλητές µας έχει να κάνει µε τυχόν

µετασχηµατισµό των δεδοµένων µας. Ένας µετασχηµατισµό θα ήταν να

τυποποιήσουµε τα δεδοµένα µας, αλλά κάνοντας κάτι τέτοιο θα κατασκευάζαµε έτσι

τα δεδοµένα µας ώστε να έχουν ίδια µεταβλητότητα. Αυτό όµως θα µπορούσε να

οδηγήσει σε χάσιµο πληροφορίας, αφού οι διαφορές στην κλίµακα µπορεί να είναι

σηµαντικές.

Ποια απόσταση/ οµοιότητα να χρησιµοποιήσουµε

Η επιλογή της απόστασης έχει να κάνει µε την µέθοδο που θα χρησιµοποιήσουµε αλλά

και τον τύπο των δεδοµένων µας. Επίσης, είναι σηµαντικό να γνωρίζουµε το σκοπό

της ανάλυσης αλλά και κάποια επιµέρους χαρακτηριστικά. Συνεπώς, το πρόβληµα

επιλογής είναι αρκετά πολύπλοκο.

Πόσες οµάδες θα φτιάξουµε

Η ανάλυση σε συστάδες, όπως είπαµε, σκοπό έχει να φτιάξει οµοιογενείς οµάδες.

Πόσες όµως είναι αυτές; Όπως θα δούµε αργότερα, κάποιες από τις µεθόδους

απαιτούν ο αριθµός των οµάδων να είναι γνωστός εκ των προτέρων. Πως εποµένως

θα βρούµε τον αριθµό αυτό; Πιο κάτω θα δούµε µε ποιους τρόπους θα µπορούσαµε

να προσδιορίσουµε τον αριθµό των οµάδων. Αξιοσηµείωτο και εδώ είναι ότι και πάλι ο

τρόπος εκτίµησης εξαρτάται και από την µορφή των δεδοµένων.

Ποια µέθοδο να χρησιµοποιήσουµε

Γενικά οι ιεραρχικές µέθοδοι δεν είναι καλή επιλογή για να χρησιµοποιούνται για

µεγάλο πλήθος δεδοµένων, καθώς απαιτούν πολύ χρόνο και υπολογιστική ισχύ.

Επίσης, υπάρχει η τάση να δηµιουργούνται οµάδες µε ανοµοιογενές µέγεθος. Από

Την άλλη µέθοδος K-means, ενώ αποφεύγει αυτά τα προβλήµατα, δουλεύει

156

ικανοποιητικά µε µεγάλα δείγµατα και δηµιουργεί οµάδες παραπλήσιου µεγέθους,

εξαρτάται πολύ από τις αρχικές τιµές που θα χρησιµοποιήσουµε..

6.2.2 ΑΝΑΛΥΣΗ ΜΕΘΟ∆ΩΝ CLUSTERING

Η µέθοδος K-Means

Η µέθοδος θεωρεί πως ο αριθµός των οµάδων που θα προκύψουν είναι γνωστός εκ

των προτέρων. Αποτελεί έναν περιορισµό της µεθόδου, καθώς είτε πρέπει να

τρέξουµε τον αλγόριθµο µε διαφορετικές επιλογές ως προς το πλήθος των οµάδων

είτε πρέπει µε κάποιον άλλο τρόπο να έχουµε καταλήξει στον αριθµό των οµάδων.

Ο αλγόριθµος Κ-means ανήκει σε µία µεγάλη κατηγορία αλγορίθµων οµαδοποίησης

που είναι γνωστοί ως αλγόριθµοι διαµέρισης (portioning algorithms).

Η µέθοδος δουλεύει επαναληπτικά. Χρησιµοποιεί την έννοια του κέντρου (centroid)

της οµάδας και στην συνέχεια κατατάσσει τις παρατηρήσεις ανάλογα µε την απόσταση

τους από τα κέντρα όλων των οµάδων. Το κέντρο κάθε οµάδας δεν είναι τίποτα άλλο

από την µέση τιµή για κάθε µεταβλητή όλων των παρατηρήσεων της οµάδας, δηλαδή

αντιστοιχεί στο διάνυσµα των µέσων.

Στην συνέχεια για κάθε παρατήρηση υπολογίζουµε την ευκλείδεια απόσταση της από

τα κέντρα των οµάδων που έχουµε και κατατάσσουµε κάθε παρατήρηση στην οµάδα

που είναι πιο κοντά. Αφού κατατάξουµε όλες τις παρατηρήσεις, τότε υπολογίζουµε

από την αρχή τα κέντρα, απλώς ως διάνυσµα των µέσων για τις παρατηρήσεις που

ανήκουν στην κάθε οµάδα. Η διαδικασία επαναλαµβάνεται µέχρις ότου δεν υπάρχουν

διαφορές ανάµεσα σε δύο διαδοχικές επαναλήψεις.

Η παραπάνω διαδικασία αλγοριθµικά αποτυπώνεται ως:

Βήµα 1ο: Βρες τα αρχικά κέντρα

Βήµα 2ο: Κατάταξε κάθε παρατήρηση στην οµάδα της οποίας το κέντρο έχει τη

µικρότερη απόσταση από την παρατήρηση.

Βήµα 3ο: Από τις παρατηρήσεις που είναι µέσα στην οµάδα υπολόγισε τα νέα κέντρα.

Βήµα 4ο: Αν νέα κέντρα δε διαφέρουν από τα παλιά σταµάτα αλλιώς πήγαινε στο

βήµα 2.

157

Ο αλγόριθµος ουσιαστικά ελαχιστοποιεί το άθροισµα των τετραγωνικών αποστάσεων

των παρατηρήσεων από τα κέντρα των οµάδων που ανήκουν. Συνήθως η λύση

περιέχει οµάδες µε περίπου όµοιο αριθµό παρατηρήσεων.

Το µεγάλο µειονέκτηµα του αλγορίθµου είναι ότι εξαρτάται από τις αρχικές τιµές , οι

οποίες αν δεν βρεθούν µε καλό τρόπο, µπορεί να οδηγήσουν σε πολύ διαφορετική

οµαδοποίηση.

Ένα άλλο πρόβληµα έχει να κάνει µε τον αριθµό των οµάδων που θα επιλέξουµε. Μια

τακτική είναι η οµαδοποίηση µε διαφορετικό κάθε φορά αριθµό οµάδων και στο τέλος

τη επιλογή της οµάδας που είναι κατά κάποιο τρόπο βέλτιστη.

Ένας τρόπος να αποφύγουµε την υλοποίηση µεγάλου αριθµού διαφορετικών

οµαδοποιήσεων είναι να µελετάµε την λύση που ήδη έχουµε , προσπαθώντας να

ενώσουµε ή να διαλύσουµε οµάδες που θα µπορούσαν α µας βελτιώσουν την µέση

απόσταση των παρατηρήσεων από το κέντρο της οµάδας που ανήκουν.

Η µέθοδος K-means βασίζεται στην ευκλείδεια απόσταση, αλλά µπορεί να

χρησιµοποιηθεί κάθε είδους απόσταση (city-block, Minkowski απόσταση κ.α.). Για µη

συνεχή δεδοµένα υπάρχει το πρόβληµα ότι δεν µπορούµε να υπολογίσουµε τους

µέσους των οµάδων. Έτσι θα χρησιµοποιήσουµε κάποιο άλλο µέτρο, π.χ. για

κατηγορικά δεδοµένα µε κατάταξη µπορούµε να χρησιµοποιήσουµε το διάνυσµα

διαµέσων ενώ για ονοµαστικά δεδοµένα την επικρατούσα τιµή (mode).


To βασικό πριν κάνουµε οποιαδήποτε ανάλυση είναι να βγάλουµε περιγραφικά µέτρα

για κάθε µια από τις µεταβλητές (για τις συνεχείς περιγραφικά και για τις κατηγορικά

συχνότητες). Αν δούµε µεγάλες αποκλίσεις στα περιγραφικά χαρακτηριστικά των

δεδοµένων µας, π.χ. όπως θα δούµε στα δεδοµένα που θα χρησιµοποιήσουµε οι µέσοι

έχουν µεγάλες αποκλίσεις µε την έννοια σε κάποιες µεταβλητές ο µέσος είναι τις

τάξεως του 1000 και σε άλλες του 10), τότε µια καλή τεχνική για να απαλείψουµε

αυτό το πρόβληµα είναι να τυποποιήσουµε τα δεδοµένα µας. Έτσι, αφού βρούµε

πρώτα τα περιγραφικά µέτρα για τις συνεχείς µεταβλητές µας:

Analyze> Descriptive Statistics> Descriptives

158


Από το οποίο βλέπουµε ότι οι µέσοι έχουν µεγάλη απόκλιση οπότε αυτό που θα

κάνουµε είναι να τυποποιήσουµε τα δεδοµένα µας. Είναι µια απλή διαδικασία που θα

γίνει από το µενού Transform> Compute. Γνωρίζουµε ότι ο τύπος της τυποποίησης

είναι:

x xzs−

=

όπου x: είναι οι τιµές της µεταβλητής που θέλουµε να τυποποιήσουµε

x : είναι ο µέσος της µεταβλητής x που θέλουµε να τυποποιήσουµε

: είναι η τυπική απόκλιση των παρατηρήσεων της µεταβλητής x s

159

Αφού στο κουτάκι Target Variable βάλουµε το όνοµα της νέας (τυποποιηµένης πια

µεταβλητής) στον κουτάκι Numeric Expression εισάγουµε τον παραπάνω τύπο

τυποποίησης και πατάµε ΟΚ. Στο SPSS θα έχει δηµιουργηθεί µια νέα µεταβλητή µε το

όνοµα ZBeds. Το ίδιο θα κάνουµε και για τις υπόλοιπες συνεχείς µεταβλητές.

Αφού κάνουµε την τυποποίηση των συνεχών µεταβλητών θα προχωρήσουµε στην

διεξαγωγή της Cluster Analysis.

Analyze> Classify> K-means

Και αφού τοποθετήσουµε τις µεταβλητές (τις τυποποιηµένες) όπως παρακάτω:

Θα πάµε να κάνουµε τις απαραίτητες ρυθµίσεις στα τρία υποµενού κάτω κάτω. Το

πρώτο µενού θα µας δώσει το παρακάτω παράθυρο:

Στο οποίο δεν θα αλλάξουµε τίποτα. Το υποµενού Save θα µας δώσει το παρακάτω

πινακάκι και θα επιλέξουµε την επιλογή Cluster Membership:

160

Ενώ στο τρίτο µενού θα κάνουµε τις εξής επιλογές:


Οι διάφορες επιλογές που κάναµε αφορούν τα παρακάτω πινακάκια που εξάγαµε µε

την διαδικασία της ανάλυσης σε οµάδες:

Initial Cluster Centers: Περιέχει τα αρχικά κέντρα των οµάδων, αυτά δηλαδή από

όπου ξεκινάει ο αλγόριθµος.

Initial Cluster Centers

3,81 ,00 -,0934,07 -,29 6,82

3,06 -,52 ,08-,40 -,40 18,16-,36 -,36 20,64-,74 19,72 -,74-,62 11,87 -,62-,74 18,59 -,74-,64 10,48 -,64-,96 1,94 -,96

ZbedsZRBedsZOUTVZSalesyZSales12ZHip95ZKnee95ZHip96ZKnee96ZFemur96

1 2 3Cluster

161

Iteration History: Περιέχει πληροφορίες για το πώς µετακινείται ο αλγόριθµος σε

κάθε επανάληψη. Η τιµή που εµφανίζεται είναι η απόσταση ανάµεσα στο κέντρο της

οµάδας στην τρέχουσα επανάληψη µε το κέντρο της οµάδας κατά την προηγούµενη.

Όταν η απόσταση αυτή µηδενιστεί, σταµατά ο αλγόριθµος.

Iteration Historya

21,563 26,368 28,3761,459 1,598 ,2552,472 ,583 ,1051,616 ,399 ,0761,732 ,194 ,042

,900 ,121 ,0261,034 ,054 ,0211,098 ,035 ,032

,567 ,017 ,024,517 ,004 ,028

Iteration12345678910

1 2 3Change in Cluster Centers

Iterations stopped because the maximum number ofiterations was performed. Iterations failed toconverge. The maximum absolute coordinate changefor any center is ,449. The current iteration is 10. Theminimum distance between initial centers is 39,396.

a.

Final Cluster Centers: Περιέχει τα κέντρα των οµάδων που βρέθηκαν, αφού

σταµάτησε ο αλγόριθµος.

Final Cluster Centers

-,40 1,31 -,263,38 ,08 -,19-,35 ,53 -,09,20 1,01 -,22,17 ,97 -,21

-,69 1,62 -,31-,58 1,56 -,30-,70 1,64 -,31-,60 1,60 -,31-,91 1,59 -,29


1 2 3Cluster

162

ANOVA: Ο πίνακας περιέχει την ανάλυση διακύµανσης για το αν διαφέρουν οι µέσες

τιµές ανάµεσα στις οµάδες. Μεταβλητές µε καλή ικανότητα να ξεχωρίζουν τις

παρατηρήσεις πρέπει να είναι στατιστικά σηµαντικές. Πρέπει να ληφθεί υπόψη πως

αυτές οι τιµές της στατιστικής σηµαντικότητας έχουν µάλλον περιγραφικό σκοπό, για

να συγκρίνουµε µεταβλητές µεταξύ τους, καθώς ο αλγόριθµος έχει κατάλληλα

σχεδιαστεί να µεγιστοποιεί την ελεγχοσυνάρτηση F και εποµένως η χρήση του είναι

µάλλον ενδεικτική.

ANOVA

813,001 2 ,654 4700 1242,231 ,0001188,461 2 ,495 4700 2402,219 ,000

137,456 2 ,942 4700 145,929 ,000496,123 2 ,789 4700 628,553 ,000456,895 2 ,806 4700 566,865 ,000

1261,075 2 ,464 4700 2718,985 ,0001161,614 2 ,506 4700 2295,082 ,0001282,211 2 ,455 4700 2819,299 ,0001220,695 2 ,481 4700 2537,986 ,0001223,925 2 ,480 4700 2551,990 ,000


Mean Square dfCluster

Mean Square dfError

F Sig.

The F tests should be used only for descriptive purposes because the clusters have beenchosen to maximize the differences among cases in different clusters. The observed significancelevels are not corrected for this and thus cannot be interpreted as tests of the hypothesis that thecluster means are equal.

Εδώ βλέπουµε ότι οι µεταβλητές είναι στατιστικά σηµαντικές για την ανάλυσή µας

εποµένως οι µεταβλητές αυτές έχουν καλή ικανότητα να ξεχωρίζουν τις

παρατηρήσεις. (Σε περίπτωση που κάποιες από τις µεταβλητές µας φαίνονταν µη

στατιστικά σηµαντικές ή θα τις αφαιρούσαµε από την ανάλυσή µας ή απλά θα

αυξάναµε τον αριθµό των cluster στην επιλογή Number of Clusters).

Number of Cases in each Cluster: Ο πίνακας αυτός µα δείχνει πόσες παρατηρήσεις

περιέχει κάθε οµάδα τελικά.

Number of Cases in each Cluster

195,000787,000

3721,0004703,000

,000

123

Cluster

ValidMissing

163

Επειδή όµως µία εικόνα αξίζει χίλιες λέξεις καλό θα ήταν να παρουσιάσουµε σε ένα

Error Bars που κάνει ένα γράφηµα διαστηµάτων εµπιστοσύνης ανάλογα µε κάθε

Cluster:

Graph> Error Bar> Clustered και Summaries of separate variables

Και τοποθετούµε την στήλη των Cluster Membership που είχαµε σώσει τρέχοντας

Cluster Analysis στο κουτί Category Axes και τις µεταβλητές που τρέξουµε την Cluster

Analysis όπως παρακάτω:

Πατάµε ΟΚ και το αποτέλεσµα θα είναι το παρακάτω διάγραµµα:

164

Όπου βλέπουµε τις οµάδες που έχουν δηµιουργηθεί.

Ιεραρχική Οµαδοποίηση

Στην ιεραρχική οµαδοποίηση ο αριθµός των οµάδων δεν είναι γνωστός από πριν. Οι

µέθοδοι λειτουργούν ιεραρχικά µε την έννοια ότι ξεκινούν χρησιµοποιώντας κάθε

παρατήρηση σαν µια οµάδα και σε κάθε βήµα ενώνουν σε οµάδες τις παρατηρήσεις

που βρίσκονται κοντά.

Την µέθοδο αυτή αλγοριθµικά θα µπορούσαµε να την αποτυπώσουµε:

Βήµα 1:∆ηµιούργησε τον πίνακα αποστάσεων για όλες τις οµάδες

Βήµα 2:Βρες τη µικρότερη απόσταση και ένωσε τις δύο παρατηρήσεις µε την

µικρότερη απόσταση. ∆ηλαδή δηµιουργούµε µια οµάδα µε τις παρατηρήσεις

που είναι πιο κοντά. Αν η µικρότερη απόσταση αφορά µια ήδη δηµιουργηθείσα

165

οµάδα και µια παρατήρηση, απλώς βάζουµε αυτή τη παρατήρηση σε αυτή την

οµάδα ή αν αφορά δύο οµάδες που ήδη υπάρχουν τις ενώνουµε.

Βήµα 3: Αν δεν έχουν όλες οι παρατηρήσεις µπει σε µια οµάδα, πήγαινε στο

βήµα 1, αλλιώς σταµάτα.

Υπάρχουν µερικά σηµαντικά σηµεία για τον αλγόριθµο που ο ερευνητής πρέπει να

αποφασίσει.

Αρχικά, θα πρέπει να αποφασιστεί το είδος της απόστασης που θα χρησιµοποιηθεί.

Ένα άλλο σηµαντικό σηµείο για τον αλγόριθµο είναι ότι θα υπολογίσουµε την

απόσταση της οµάδας που φτιάξαµε σε σχέση µε µια άλλη οµάδα. Υπάρχουν πολλές

µέθοδοι, µερικές από αυτές είναι:

Nearest Neighbor: Η µέθοδος του κοντινότερου γείτονα, υπολογίζει την

απόσταση ανάµεσα σε δύο οµάδες ως την µικρότερη απόσταση από µια

παρατήρηση µέσα σε µια οµάδα µε κάποια παρατήρηση στην άλλη οµάδα. Η

µέθοδος έχει κάποιες χρήσιµες µαθηµατικές ιδιότητες, αλλά παράγει οµάδες

που δεν είναι συµπαγείς και συνήθως δηµιουργεί µερικές πολύ µεγάλες οµάδες

και κάποιες πολύ µικρές.

Furthest Neighbor: Σε αυτή την περίπτωση συµβαίνει το αντίθετο. ∆ηλαδή,

η µέθοδος του µακρύτερου γείτονα υπολογίζει την απόσταση ανάµεσα σε δύο

οµάδες ως την µεγαλύτερη απόσταση από µια παρατήρηση µέσα στη µια οµάδα

µε κάποια παρατήρηση στην άλλη οµάδα. Οι οµάδες που δηµιουργούνται είναι

συνήθως συµπαγείς, αλλά αποτυγχάνει να δηµιουργήσει κάποιες µικρές µα

πολύ συµπαγείς οµάδες.

Average between groups: Σε αυτή τη περίπτωση η απόσταση είναι ο µέσος

της απόστασης ανάµεσα σε όλες τις αποστάσεις της µιας οµάδας µε τα στοιχεία

της άλλης. Αν, για παράδειγµα, η οµάδα περιλαµβάνει τις παρατηρήσεις 1,2

και η άλλη τις παρατηρήσεις 3,4,5, τότε η απόσταση είναι ο µέσος των

αποστάσεων d(1,3), d(1,4), d(1,5), d(2,3), d(2,4) και d(2,5).

Average within groups: Στην περίπτωση αυτή η απόσταση είναι ο µέσος

όλων των αποστάσεων που προκύπτουν, όταν ενώσουµε τις δύο οµάδες.

∆ηλαδή, στην περίπτωση των οµάδων που είχαµε πριν, η νέα απόσταση θα

είναι ο µέσος των αποστάσεων d(1,2), d(1,3), d(1,4), d(1,5), d(2,3), d(2,4),

d(2,5), d(3,4), d(3,5), d(4,5).

166

Centroid: Η απόσταση υπολογίζεται ως η απόσταση των κέντρων των

οµάδων. Μέθοδος αυτή έχει µερικές καλές ιδιότητες και παράγει συνήθως

οµάδες συµπαγείς και ελλειπτικές.

Ward method: Αυτή η µέθοδος διαφέρει από τις άλλες και είναι σχεδιασµένη

να ελαχιστοποιεί τη διακύµανση µέσα σε οµάδες. Για κάθε παρατήρηση

µπορούµε να υπολογίσουµε την απόσταση της από το κέντρο της οµάδας. Αν

αθροίσουµε για όλες τις οµάδες, έχουµε µια τιµή που είναι το συνολικό

άθροισµα. Αρχικά, αυτό το άθροισµα είναι 0, αφού κάθε παρατήρηση είναι και

µια οµάδα, άρα η απόσταση από το κέντρο της είναι 0. Σε κάθε βήµα ενώνουµε

τις οµάδες τις οποίες, αν ενωθούν, οδηγούν στην µικρότερη αύξηση του

συνολικού αθροίσµατος αποστάσεων. Η µέθοδος έχει µερικές πολύ καλές

ιδιότητες και συνήθως δηµιουργεί οµάδες µε παρόµοιο αριθµό παρατηρήσεων.

Για αυτό και πολύ συχνά χρησιµοποιείται στην πράξη.

Συγκρίνοντας τις µεθόδους µεταξύ τους, θα πρέπει να γνωρίζουµε ότι από

πειράµατα προσοµοίωσης οι µέθοδοι µε την καλύτερη επίδοση είναι η µέθοδος του

Ward και η Average Between Groups. Η µέθοδος Nearest Neighbor είναι αυτή µε

την χειρότερη επίδοση. Αυτό που θα πρέπει να έχει ο ερευνητής πάντα στο µυαλό

του είναι ότι, αν οι οµάδες είναι αρκετά διαφορετικές µεταξύ τους, κάθε µέθοδος

θα βρει σωστή οµαδοποίηση. Επιπλέον, κάθε µέθοδος δουλεύει καλύτερα µε

συγκεκριµένη µορφή δεδοµένων.

Ένα καλό που έχει η ιεραρχική οµαδοποίηση είναι ότι εξάγει δενδροδιαγράµµατα.

Το δενδροδιάγραµµα αποτελεί ένα πολύτιµο οπτικό εργαλείο για την ιεραρχική

οµαδοποίηση την ιστορία της οµαδοποίησης και βοηθάει την επιλογή της λύσης

που τελικά θα κρατήσουµε, αλλά εµφανίζει και τη δυναµική της µεθόδου. Κατά τα

άλλα η ιεραρχική οµαδοποίηση δεν αποτελεί την καλύτερη µέθοδο οµαδοποίησης.


Σε αυτή την ανάλυση θα χρησιµοποιήσουµε τα δεδοµένα του προηγούµενου

παραδείγµατος χρησιµοποιώντας µόνο τις 80 πρώτες παρατηρήσεις για κάθε

µεταβλητή, επειδή όπως αναφέραµε παραπάνω η ιεραρχική δεν µπορεί να τρέξει

όταν έχουµε µεγάλο αριθµό παρατηρήσεων (π.χ. πάνω από 100 παρατηρήσεις για

κάθε µεταβλητή). Όπως και στη περίπτωση της µεθόδου K-means, τo βασικό πριν

κάνουµε οποιαδήποτε ανάλυση είναι να βγάλουµε περιγραφικά µέτρα για κάθε µια

167

από τις µεταβλητές (για τις συνεχείς περιγραφικά και για τις κατηγορικά

συχνότητες). Ακολουθώντας την ίδια διαδικασία µε το παράδειγµα για την µέθοδο

K-means, θα δούµε µεγάλες αποκλίσεις στα περιγραφικά χαρακτηριστικά (στον

µέσο κυρίως) των δεδοµένων µας, εποµένως θα χρησιµοποιήσουµε και εδώ

τεχνική της τυποποίησης των συνεχών δεδοµένων µας για να απαλείψουµε αυτό

το πρόβληµα.

Θα ακολουθήσουµε ακριβώς την ίδια διαδικασία µε το προηγούµενο παράδειγµα.

Αφού τυποποιήσουµε θα συνεχίσουµε µε την ανάλυση ιεραρχικής οµαδοποίησης:

Analyze> Classify> Hierarchical Cluster

Τοποθετούµε τις µεταβλητές µας όπως παρακάτω:

Στο παραπάνω παράθυρο βλέπουµε ότι µας δίνονται πολλές επιλογές που

µπορούµε να κάνουµε. Καταρχάς, το SPSS µας επιτρέπει να κάνουµε και

οµαδοποίηση ως προς τις µεταβλητές. Κάτι τέτοιο όµως θα ήταν αρκετά

επικίνδυνο, αφού η διαδικασία είναι χωρίς νόηµα. Χρειάζεται µεγάλη προσοχή, αν

δοκιµαστεί κάτι τέτοιο και γενικά πρέπει να αποφεύγεται. Αυτά µε τα οποία πρέπει

να ασχοληθούµε και να διαλέξουµε είναι ποια απόσταση θα χρησιµοποιήσουµε, τι

γραφήµατα θα φτιάξουµε, µε ποιο τρόπο θα υπολογίσουµε τις αποστάσεις ανάµεσα

στις οµάδες, ποιες λύσεις θέλουµε να σώσουµε για περαιτέρω επεξεργασία και

διάφορα άλλα για το οποία θα µιλήσουµε παρακάτω.

Αυτό που θα κάνουµε είναι αναλύσουµε ένα-ένα τα υποµενού που βρίσκονται στο

κάτω µέρος του παραθύρου:

168

Το δενδροδιάγραµµα και το γράφηµα Icicle είναι δύο γραφήµατα που, όπως είπαµε

και παραπάνω, µπορούν να µας δώσουν γραφικά την σειρά µε την οποία οι

παρατηρήσεις ενώνονται γα να δηµιουργήσουν οµάδες. Από το παράθυρου του

υποµενού παραπάνω µπορούµε να επιλέξοµε αυτά τα γραφήµατα. Επειδή αυτά θα

περιγράψουν όλη την διαδικασία, αν ο αριθµός των παρατηρήσεων είναι πολύ

µεγάλος, τα γραφήµατα δεν θα είναι ιδιαίτερα ευκολοδιάβαστα. Για αυτό,

µπορούµε να διαλέξουµε το εύρος του αριθµού των οµάδων για τις οποίες θα

εµφανιστεί το γράφηµα. Επίσης, µπορούµε να καθορίσουµε αν το διάγραµµα θα

φαίνεται οριζόντια ή κάθετα. * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 42 45 8 4 22 40

169

29 46 21 31 11 32 1 48 49 20 30 12 19 3 6 44 39 43 33 37 50 16 23 28 38 17 18 35 5 36 47 2 14 9 41

10 * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 7 13 24 34 15

170

25

26

27

Από το δενδροδιάγραµµα παραπάνω βλέπουµε ότι τελικά θα διαλέξουµε 2 οµάδες.

Το έξω-έξω κουτάκι που δηµιουργείται έχει δύο παρακλάδια που υποδηλώνουν

την επιλογή 2 οµάδων. Ξεκινάµε διαβάζοντας το δενδροδιάγραµµα από τα

αριστερά προς τα δεξιά. Αν στα αριστερά δούµε να υπάρχουν παρατηρήσεις οι

οποίες αποτελούν από µόνες του µία οµάδα τότε θα προχωρήσουµε λίγο πιο δεξιά

στον αµέσως επόµενο κόµβο. Αν και σε αυτό το κόµβο υπάρχουν παρατηρήσεις

που αποτελούν από µόνες τους µια οµάδα τότε πάµε πιο δεξιά στον επόµενο

κόµβο. Αυτό το συνεχίζουµε µέχρι να βρούµε ένα κόµβο που τα παρακλάδια του

να αποτελούνται από οµάδες παρατηρήσεων. Όσα είναι τα παρακλάδια του κόµβου

τόσες είναι και οι οµάδες που σχηµατίζονται.

Από την άλλη το γράφηµα Icicle µας περιγράφει ακριβώς την ίδια διαδικασία µε το

δενδροδιάγραµµα, αλλά λόγω του ότι έχει χειρότερα γραφικά, όταν υπάρχει η

δυνατότητα να πάρουµε δενδροδιάγραµµα, η επιλογή του µπορεί να αποφευχθεί.

Παραπάνω είναι το παράθυρο του υποµενού Statistics. Οι δυνατές επιλογές έχουν

να κάνουν µε τις πληροφορίες που θα εµφανιστούν. Έτσι, µε την επιλογή

Proximity Matrix εµφανίζουµε των πίνακα των αποστάσεων όλων των

παρατηρήσεων, ενώ µε την επιλογή Agglomeration Schedule εµφανίζονται κάποιες

ποσότητες που, όπως θα δούµε είναι χρήσιµες για να βρούµε τον αριθµό των

171

οµάδων που θα κρατήσουµε. Επίσης στο κάτω µέρος του παραθύρου µπορούµε να

επιλέξουµε (και όχι να σώσουµε σαν µια ξεχωριστή µεταβλητή) σε ποια οµάδα

ανήκει κάθε παρατήρηση τόσο για συγκεκριµένο αριθµό οµάδων όσο και για

διάφορα πλήθη οµάδων.

Agglomeration Schedule

Cluster Combined Stage Cluster First

Appears

Stage Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2 Next Stage 1 42 45 ,171 0 0 9 2 33 37 ,272 0 0 8 3 39 43 ,272 0 0 10 4 20 30 ,313 0 0 7 5 29 46 ,328 0 0 11 6 6 44 ,336 0 0 26 7 12 20 ,364 0 4 18 8 33 50 ,402 2 0 10 9 8 42 ,475 0 1 25 10 33 39 ,557 8 3 14 11 21 29 ,610 0 5 13 12 17 18 ,629 0 0 30 13 21 31 ,727 11 0 20 14 16 33 ,772 0 10 16 15 4 22 ,779 0 0 25 16 16 23 ,910 14 0 22 17 28 38 ,980 0 0 22 18 12 19 1,014 7 0 24 19 11 32 1,052 0 0 20 20 11 21 1,334 19 13 28 21 1 48 1,508 0 0 28 22 16 28 1,545 16 17 26 23 13 24 1,639 0 0 38 24 3 12 1,663 0 18 27 25 4 8 2,079 15 9 29 26 6 16 2,207 6 22 27 27 3 6 2,378 24 26 33 28 1 11 2,612 21 20 32 29 4 40 2,922 25 0 32 30 17 35 2,991 12 0 33 31 5 36 3,015 0 0 37 32 1 4 3,200 28 29 34 33 3 17 4,422 27 30 35 34 1 49 5,092 32 0 35 35 1 3 5,463 34 33 40 36 9 41 7,349 0 0 42 37 5 47 8,137 31 0 39

172

38 13 34 11,012 23 0 43 39 2 5 19,442 0 37 40 40 1 2 21,191 35 39 44 41 25 26 21,604 0 0 48 42 9 10 22,667 36 0 45 43 13 15 23,970 38 0 47 44 1 14 32,820 40 0 46 45 7 9 40,986 0 42 46 46 1 7 48,010 44 45 47 47 1 13 66,374 46 43 49 48 25 27 67,009 41 0 49 49 1 25 171,896 47 48 0

Τον πίνακα λόγω µεγέθους πίνακα δεν µπορούµε να τον εισάγουµε στην σελίδα

word.

Και ερχόµαστε, ίσως στο πιο σηµαντικό παράθυρο. Σε αυτό θα πρέπει να

καθορίσουµε την µέθοδο µε την οποία θα υπολογίσουµε την απόσταση ανάµεσα σε

δύο οµάδες καθώς και την απόσταση που θα χρησιµοποιήσουµε. ∆είτε ότι τα µέτρα

είναι οµαδοποιηµένα έτσι ώστε ανάλογα µε τον τύπο των δεδοµένων ο χρήστης

µπορεί να διαλέξει το κατάλληλο µέτρο. Προσέξτε ότι στο κάτω µέρος εµφανίζεται

ένα πλήθος µετασχηµατισµών των δεδοµένων, ώστε να µπορεί κάποιος να

µεγαλώσει τις δυνατές επιλογές. Στην ουσία αντί να κάναµε εµείς την τυποποίηση

θα µπορούσαµε να επιλέξουµε αυτήν επιλογή και να µας τυποποιήσει το SPSS τις

µεταβλητές (συνεχείς) που χρειάζονται τυποποίηση.

173

Τέλος και πάλι µπορούµε να δηµιουργήσουµε µεταβλητές που να µας δείχνουν, για

την συγκεκριµένη λύση µε το συγκεκριµένο αριθµό οµάδων, που ανήκει κάθε

παρατήρηση από το παραπάνω παράθυρο. Τώρα όµως ο αριθµός διαφέρει και άρα οι

επιλογές µας είναι περισσότερες. Έτσι, επιθυµούµε µπορούµε να δηµιουργήσουµε

µεταβλητές για πολλές δυνατές λύσεις ανάλογα µε τον αριθµό των οµάδων.

Μια καλή απεικόνιση των οµάδων θα ήταν µε ένα παρόµοιο Error Bar µε αυτό που

κάναµε στο παράδειγµα της µεθόδου K-means.

Graph> Error Bar

και µετά

174

Και το αποτέλεσµα είναι το παρακάτω διάγραµµα, στο οποίο φαίνονται ξεκάθαρα οι

οµάδες:

175

6.3 ΑΝΑΛΥΣΗ ΑΝΤΙΣΤΟΙΧΙΩΝ (CORRESPODENCE ANALYSIS)

176

Η ανάλυση αντιστοιχιών (Correspondence Analysis) είναι µια δηµοφιλής στατιστική

τεχνική κατάλληλη για κατηγορικά δεδοµένα. Η µέθοδος αυτή βρίσκει µεγάλη

εφαρµογή στις κοινωνικές επιστήµες.

Ο βασικός σκοπός της ανάλυσης αντιστοιχιών είναι η «µετατροπή» ενός πίνακα

δεδοµένων (συνήθως πρόκειται για ένα πίνακα συχνοτήτων) σε µια γραφική

αναπαράσταση, έτσι ώστε να γίνονται εµφανείς οι συσχετισµοί ανάµεσα στα «κελιά»

του αρχικού πίνακα και κυρίως ανάµεσα στα «χαρακτηριστικά» στα οποία στηρίζεται ο

πίνακας.

Η µέθοδος αυτή έχει κυρίως περιγραφικό και όχι επαγωγικό χαρακτήρα. ∆ηλαδή,

βοηθάει τον ερευνητή να απεικονίσει µε ένα αποτελεσµατικό τρόπο ένα µεγάλο πίνακα

συχνοτήτων, του οποίου η µελέτη δεν είναι εύκολη, αλλά από την γραφική του

απεικόνιση µπορούµε να αποκτήσουµε αρκετά περισσότερη πληροφορία.

Η ανάλυση µπορεί να αναλύσει πίνακες 2 ή και περισσότερων διαστάσεων, οι οποίοι

εµπεριέχουν κάποιο µέτρο «αντιστοιχίας» µεταξύ γραµµών και στηλών. Οι πίνακες

συχνοτήτων και συνάφειας αποτελούν κλασσικές περιπτώσεις πινάκων που µπορούν

να µελετηθούν µε την χρήση της ανάλυσης αντιστοιχιών.

Στην περίπτωση κατάταξης 2 διαστάσεων, µιλάµε για απλή ανάλυση

αντιστοιχιών

Ενώ στην περίπτωση κατάταξης σε περισσότερες από 2 διαστάσεις, µιλάµε για

πολλαπλή ανάλυση αντιστοιχιών

Τα αποτελέσµατα τη ανάλυσης αντιστοιχιών παρέχουν πληροφορίες ανάλογες µε

αυτές που προκύπτουν από την παραγοντική ανάλυση και την ανάλυση κυρίων

συνιστωσών και µας επιτρέπουν να διερευνήσουµε την δοµή των κατηγορικών

µεταβλητών που περιλαµβάνονται στον υπό ανάλυση πίνακα. Για αυτό το λόγο η

ανάλυση αντιστοιχιών αποτελεί το αντίστοιχο της µεθόδου ανάλυσης σε κύριες

συνιστώσες στην περίπτωση κατηγορικών δεδοµένων.

Η βασική ιδέα της ανάλυσης αντιστοιχιών έχει ως εξής:

Κάθε γραµµή και στήλη των δεδοµένων αποτελεί ουσιαστικά ένα σηµείο σε ένα

πολυδιάστατο χώρο

Έτσι προσπαθούµε να µειώσουµε το πρόβληµα µεταφέροντας το σε ένα χώρο

λιγότερων διαστάσεων

Το ζητούµενο είναι πως µπορούµε να αναπαραστήσουµε µε βέλτιστο τρόπο τα

σηµεία σε ένα χώρο λιγότερων διαστάσεων έτσι ώστε η αναπαράσταση αυτών

177

στον χώρο λιγότερων διαστάσεων να προσφέρει ουσιαστικότερη πληροφόρηση

από την αναπαράσταση αυτών στον αρχικό χώρο περισσότερων διαστάσεων.

Ποια είναι όµως τα αποτελέσµατα που αναµένουµε από την ανάλυση αντιστοιχιών;

Πρώτα από όλα αναµένουµε να δείξει συσχετισµούς που υπάρχουν µεταξύ

γραµµών και στηλών των δεδοµένων. Σε µια γραφική αναπαράσταση της

ανάλυσης αντιστοιχιών, σηµεία γειτονικά µεταξύ τους υποδηλώνουν και

συσχετισµό ανάµεσα στις αντίστοιχες γραµµές/ στήλες.

Επίσης, περιµένουµε να αναδείξει κάποιο είδος διάταξης µεταξύ γραµµών και

µεταξύ στηλών. Κάτω από το πρίσµα, µπορούµε να δούµε αν υπάρχει είτε

κάποια φυσική διάταξη είτε κάποιο είδος επικάλυψης µεταξύ των διάφορων

κατηγοριών των δεδοµένων.

Ένα άλλο ερώτηµα στο οποίο µπορεί να απαντήσει η ανάλυση αντιστοιχιών

είναι αν υπάρχουν διαφορές µεταξύ γραµµών και στηλών, ή καλύτερα, αν τα

ποσοστά στηλών διαφοροποιούνται µεταξύ των γραµµών και αντιστρόφως.

Αυτό το ερώτηµα συνδέεται ουσιαστικά µε το θέµα της ανεξαρτησίας. Η

ανάλυση αντιστοιχιών επιτρέπει τη γραφική απεικόνιση και διερεύνηση του

συχνά χρησιµοποιούµενου ελέγχου ανεξαρτησίας Χ2 και εποµένως επιτρέπει να

δούµε κατά πόσο οι γραµµές και οι στήλες είναι ανεξάρτητες.

Πέρα από τη γραφική απεικονίσει και τις ερµηνείες που προσφέρει, η ανάλυση

αντιστοιχιών παρέχει την δυνατότητα δηµιουργίας καινούργιων µεταβλητών οι

οποίες συνοψίζουν σηµαντικό µέρος της αρχική πληροφόρησης. Αυτές οι

µεταβλητές είναι ανάλογες µε τις κύριες συνιστώσες, που κατασκευάζονται στο

πλαίσιο της ανάλυσης κυρίων συνιστωσών και µπορούν να χρησιµοποιηθούν

για περαιτέρω στατιστικές αναλύσεις. ∆ηλαδή, ενώ ξεκινήσαµε µε κατηγορικές

µεταβλητές, καταλήγουµε σε ένα µικρό αριθµό συνεχών µεταβλητών. Ένα

χαρακτηριστικό παράδειγµα στο οποίο θα είχε πολύ καλή εφαρµογή η ανάλυση

αντιστοιχιών είναι η Ανάλυση Αποκάλυψης Εταιρικών Χαρακτηριστικών

(Disclosure Performance Analysis), στην οποία έχουµε ένα dataset το

οποίο περιέχει κατηγορικά δεδοµένα που αποτελούν κάποια χαρακτηριστικά

εταιριών λογιστικής και οργανωσιακής φύσης, όπως π.χ. έχει προφίλ η εταιρία

ή όχι, έχει δηµοσιεύσει ισολογισµό η εταιρία ή όχι κ.α. και εµείς αυτό που

θέλουµε είναι να τρέξουµε κάποιες παλινδροµήσεις µε κάποιες συγκεκριµένες

µεταβλητές ως επεξηγηµατικές και την µεταβλητή Disclosure Performance ως

εξαρτηµένη. Εφαρµόζοντας λοιπόν correspondence ανάλυση στα κατηγορικά

178

χαρακτηριστικά καταφέρνουµε να δηµιουργήσουµε νέες ποσοτικές πλέον

µεταβλητές οι οποίες θα αντιπροσωπεύουν κάποια χαρακτηριστικά των

εταιριών που οµαδοποιήθηκαν σε αυτές τις νέες µεταβλητές (ποσοτικές). Έτσι

όσες νέες µεταβλητές (ποσοτικές) δηµιουργηθούν τόσες παλινδροµήσεις θα

πρέπει να εφαρµοστούν. Η χρησιµότητα της µετάβασης από κατηγορικές σε

συνεχείς µεταβλητές γίνεται προφανής αν αναλογιστούµε ότι η πλειοψηφία

των στατιστικών τεχνικών είναι προσανατολισµένες στην ανάλυση συνεχών

µεταβλητών.

6.3.1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

Προφίλ

Στην ανάλυση αντιστοιχιών µπορούµε να δουλέψουµε µε πίνακες συνάφειας, οι οποίοι

περιλαµβάνουν πληροφορία είτε µε την µορφή απόλυτων συχνοτήτων είτε µε την

µορφή σχετικών συχνοτήτων. Μάλιστα, προτιµότερο είναι να δουλεύουµε µε σχετικές

συχνότητες, καθώς αυτό επιτρέπει την άµεση σύγκριση πινάκων ανεξάρτητα από

µεγέθη δείγµατος.

Από ένα δεδοµένο πίνακα απόλυτων συχνοτήτων υπάρχει η δυνατότητα να

κατασκευάσουµε 2 διαφορετικούς πίνακες συχνοτήτων, ανάλογα µε το αν ου

ενδιαφερόµαστε για τις γραµµές ή τις στήλες του πίνακα.

Τα προφίλ γραµµών είναι οι σχετικές συχνότητες ανά γραµµή (προκύπτουν ως

συχνότητα κελιού/ σύνολο γραµµής).

Τα προφίλ γραµµών επιτρέπουν την άµεση σύγκριση µεταξύ γραµµών. Τα προφίλ

στηλών, αντίστοιχα, επιτρέπουν την άµεση σύγκριση µεταξύ στηλών.

Ένα πλεονέκτηµα που χαρακτηρίζει τα προφίλ είναι ότι χρησιµοποιώντας τα

διανύσµατα των προφίλ µπορούµε να µετρήσουµε την απόσταση µεταξύ 2 χώρων. Για

παράδειγµα, έστω ότι έχουµε τα διανύσµατα προφίλ [0.041 0.082 0.381 0.495] και

[0.041 0.072 0.489 0.398] τότε η απόσταση θα µπορούσε να υπολογιστεί ως:

( ) ( ) ( ) ( )2 2 2 20.041 0.041 0.082 0.072 0.381 0.489 0.495 0.398 0.1453− + − + − + − =

Με ανάλογο τρόπο µπορούµε να υπολογίσουµε οποιαδήποτε απόσταση ανάµεσα στα

επίπεδα κατηγορικών δεδοµένων.

Αξιοσηµείωτο βέβαια είναι ότι αυτό το µέτρο απόστασης έχει το σοβαρό µειονέκτηµα

ότι δεν λαµβάνει υπόψη τον αριθµό των παρατηρήσεων σε κάθε κελί και έτσι οι

διαφορές σε κελιά µε µικρές συχνότητες έχουν την ίδια βαρύτητα, στον τελικό

179

υπολογισµό της απόστασης µε διαφορές σε κελιά µε µεγάλες συχνότητες. Μια λύση σε

αυτό το πρόβληµα θα ήταν να σταθµίζουµε κάθε κελί.

Μάζες

Οι µάζες σε κάθε κελί είναι τα αντίστοιχα περιθώρια προφίλ, δηλαδή τα προφίλ του

συνόλου κάθε γραµµής και στήλης αντίστοιχα και προκύπτουν απλά σαν την διαίρεση

του συνολικού αριθµού απαντήσεων για την γραµµή (ή την στήλη) προς το συνολικό

µέγεθος του δείγµατος.

Μέτρα απόστασης

Τώρα µπορούµε να υπολογίσουµε εκ νέου την απόσταση µεταξύ οποιουδήποτε

ζεύγους χωρών, χρησιµοποιώντας τις µάζες των στηλών σαν βάρη. Πιο συγκεκριµένα,

τα βάρη, οι συντελεστές στάθµισης, είναι το αντίστροφο των µαζών των στηλών.

Έστω ότι έχουµε προφίλ [0.041 0.082 0.381 0.495] και [0.041 0.072 0.489

0.398] ενώ [0.039 0.054 0.412 0.494] ως µάζες. Τότε η απόσταση θα υπολογιστεί

ως:

( ) ( ) ( ) ( )2 2 2 20.041 0.041 0.082 0.072 0.381 0.489 0.495 0.3980.2218

0.039 0.054 0.0412 0.494− − − −

+ + + =

Αυτό το µέτρο απόστασης ονοµάζεται χ2 απόσταση καθώς µοιάζει στη γνωστή χ2

ελεγχοσυνάρτηση για έλεγχο ανεξαρτησίας µεταξύ δύο µεταβλητών.

Αδράνεια

Τώρα πλέον είµαστε σε θέση να µετρήσουµε τις διαφορές ανάµεσα σε κάθε ζεύγος

σηµείων, οπότε χρειάζεται να ορίσουµε ένα συνολικό µέτρο ανοµοιογένειας ή

ετερογένειας των προφίλ, το οποίο δείχνει πόσο διαφέρουν τα προφίλ µεταξύ τους.

Ένα τέτοιο µέτρο είναι η αδράνεια που θα τη συµβολίζουµε µε Ι. Ο όρος αυτός

προέρχεται από την Μηχανική και ορίζεται ως:

2

1

r

i ii

I rd=

= ∑

όπου είναι η µάζα ir

είναι η απόσταση 2id

180

Κάποια σηµαντικά θέµατα είναι τα εξής:

1. Όσο µεγαλύτερη είναι τιµή της αδράνειας τόσο εντονότερη είναι η

διαφοροποίηση µεταξύ γραµµών.

2. Η έννοια της αδράνειας είναι παρόµοια µε την έννοια της διακύµανσης, σε

ορισµένα βιβλία οι δύο όροι χρησιµοποιούνται ως ταυτόσηµοι.

3. Αν όλα τα προφίλ ήταν τα ίδια για όλες τις γραµµές, η αδράνεια θα ήταν

µηδέν.

4. Η αδράνεια συνδέεται µε απλή σχέση µε το γνωστό έλεγχο ανεξαρτησίας χ2 .

Γενικά για οποιοδήποτε πίνακα ισχύει ότι,

2

Inχ

=

Ο πίνακας καταλοίπων

Τελειώνοντας την παρουσίαση των βασικών εννοιών, θα κάνουµε λόγο για τον πίνακα

καταλοίπων Α, ο οποίος έχει στοιχεία αij που ορίζονται ως εξής:

, 1,..., 1,...,ij i jij

i j

p rca i r j

rcc

−= = =

όπου ijij

xp

n= , δηλαδή η σχετική συχνότητα του κελιού, ενώ η ποσότητα που

βασίζεται στις µάζες των γραµµών και των στηλών, µπορεί κανείς να δει ότι είναι

εκτίµηση της πιθανότητας του κελιού κάτω από την υπόθεση της ανεξαρτησίας

γραµµών και στηλών. Οι διαστάσεις του πίνακα Α είναι ίδιες µε τον αρχικό πίνακα

συνάφειας. Κάθε στοιχείο του πίνακα είναι η διαφορά της πραγµατικής σχετικής

συχνότητας µε την σχετική συχνότητα που υποθέτει το µοντέλο ανεξαρτησίας

διαιρεµένη µε την ρίζα θεωρητικής αυτής σχετικής συχνότητας.

i jrc

Ο πίνακας καταλοίπων σχετίζεται άµεσα µε την αδράνεια και γενικότερα τη διασπορά

του πίνακα συνάφειας. Αν τα στοιχεία του πίνακα είναι µικρά σε απόλυτη τιµή, τότε

αυτό µαρτυρά ότι η υπόθεση της ανεξαρτησίας είναι µάλλον ισχυρή και εποµένως η

αδράνεια το πίνακα µικρή. Το αξιοσηµείωτο είναι ότι η αδράνεια είναι το άθροισµα των

στοιχείων του πίνακα. Η µέθοδος της ανάλυσης αντιστοιχιών βασίζεται σε αυτόν το

πίνακα.


181

Για να κάνουµε την ανάλυση Correspondenceτο πρώτο πράγµα που πρέπει να

κάνουµε είναι να συµπεριλάβουµε στον πίνακα συνάφειας τις συχνότητες που έχουµε

στo dataset. Αυτό θα το κάνουµε:

Data> Weighted Cases

και πατάµε ΟΚ.

Το επόµενο βήµα θα είναι να τρέξουµε

Analyze> Data Reduction> Correspondence

Αρχικά πρέπει να προσδιορίσουµε τις µεταβλητές που ορίζουν τις γραµµές και τις

στήλες του πίνακα που πρόκειται να αναλυθεί. Έπειτα από την επιλογή κάθε

µεταβλητής, το όνοµα αυτής εµφανίζεται ακολουθούµενο από (?,?). Αυτό που πρέπει

να κάνουµε σε αυτή την περίπτωση θα πρέπει αν ορίσουµε το εύρος των τιµών που

θα ληφθούν υπόψη στους υπολογισµούς. Για το σκοπό αυτό επιλέγουµε το κουµπί

Define Groups όπως παρακάτω:

182

Εδώ ορίζουµε την µικρότερη και τη µεγαλύτερη τιµή, ενώ στο κάτω µέρος µπορούµε

να προσδιορίσουµε αν µια κατηγορία θα χρησιµοποιηθεί ως συµπληρωµατικό σηµείο

και όχι για την κατασκευή των αξόνων, καθώς και να επιβάλουµε κάποιους

περιορισµούς. Το ίδιο θα κάνουµε και για την άλλη µεταβλητή.

Από το βασικό µενού υπάρχουν 3 επιλογές:

Model menu

Σε αυτό το µενού αρκεί να ορίσουµε:

1. Το µέτρο που θα χρησιµοποιηθεί για τον υπολογισµό των αποστάσεων

και την µέθοδο τυποποίησης. Η default επιλογή είναι «Row and Column

means are removed».

2. Τέλος, στο κάτω µέρος του µενού µπορούµε να επιλέξουµε την µέθοδο

κανονικοποίησης. Αυτό συνδέεται µε τις ποσότητες που

χρησιµοποιούνται για τη τυποποίηση των αποστάσεων και στην ορίζει

τα βάρη τα οποία δίνονται σε κάθε γραµµή ή στήλη.

Η default επιλογή είναι συµµετρική κανονικοποιήση:

183

Το αποτέλεσµα θα είναι:

Summary

,112 ,012 ,880 ,880 ,045 -,027,041 ,002 ,120 1,000 ,043

,014 6,952 ,325a 1,000 1,000

Dimension12Total

SingularValue Inertia Chi Square Sig. Accounted for Cumulative

Proportion of Inertia

StandardDeviation 2

Correlation

Confidence SingularValue

6 degrees of freedoma.

Από αυτό πινακάκι βλέπουµε ότι και για τις δύο διαστάσεις τα ποσοστά δεν φαίνεται

να είναι ανεξάρτητα, αλλά να έχουν κάποια σχέση µεταξύ τους (αφού p-value>0.05,

βλέπε κεφ. 2)

Statistics menu

Αυτό το µενού επιτρέπει τον προσδιορισµό των ποσοτήτων που θα παρουσιαστούν

στα outputs των αποτελεσµάτων. Με τις επιλογές που µας προσφέρονται σε αυτό το

παράθυρο µπορούµε να εξάγουµε:

1. το αρχικό αναλυτικό πίνακα συνάφειας

2. το προφίλ γραµµών και στηλών

184

3. διάφορα στατιστικά για συµπερισµατολογία που όµως είναι βασισµένα σε

ασυµπτωτικά αποτελέσµατα και συγκεκριµένες υποθέσεις.

Τα αποτελέσµατα που θα πάρουµε είναι:

Correspondence Table

45 45 41 34 16539 32 46 44 16133 37 47 48 165

117 114 134 126 491

PaxisarkialowmiddlehighActive Margin

<ενα ενα-δυο τρια-πεντε παραπανω-εξι Active MarginAlcohol

Row Profiles

,273 ,273 ,248 ,206 1,000,242 ,199 ,286 ,273 1,000,200 ,224 ,285 ,291 1,000,238 ,232 ,273 ,257

PaxisarkialowmiddlehighMass

<ενα ενα-δυο τρια-πεντε παραπανω-εξι Active MarginAlcohol

Column Profiles

,385 ,395 ,306 ,270 ,336,333 ,281 ,343 ,349 ,328,282 ,325 ,351 ,381 ,336

1,000 1,000 1,000 1,000

PaxisarkialowmiddlehighActive Margin

<ενα ενα-δυο τρια-πεντε παραπανω-εξι MassAlcohol

185

Overview Row Pointsa

,336 -,465 ,039 ,008 ,651 ,013 ,997 ,003 1,000,328 ,178 -,270 ,002 ,094 ,579 ,541 ,459 1,000,336 ,291 ,224 ,004 ,255 ,409 ,820 ,180 1,000

1,000 ,014 1,000 1,000

PaxisarkialowmiddlehighActive Total

Mass 1 2

Score in Dimension

Inertia 1 2

Of Point to Inertia ofDimension

1 2 TotalOf Dimension to Inertia of Point

Contribution

Symmetrical normalizationa.

Overview Column Pointsa

,238 -,335 -,282 ,004 ,239 ,460 ,791 ,209 1,000,232 -,350 ,302 ,004 ,255 ,513 ,784 ,216 1,000,273 ,188 -,049 ,001 ,087 ,016 ,975 ,025 1,000,257 ,427 ,042 ,005 ,419 ,011 ,997 ,003 1,000

1,000 ,014 1,000 1,000

Alcohol<εναενα-δυοτρια-πεντεπαραπανω-εξActive Total

Mass 1 2

Score in Dimension

Inertia 1 2

Of Point to Inertia ofDimension

1 2 TotalOf Dimension to Inertia of Point

Contribution

Symmetrical normalizationa.

Plots menu

Τέλος µπορούµε να επιλέξουµε τα γραφήµατα που επιθυµούµε να εµφανίσουµε στα

αποτελέσµατα της ανάλυσης. To SPSS παρέχει µόνο συµµετρικά biplot καθώς και

µονοδιάστατα dotplot για τα scores γραµµών και στηλών. Υπάρχει επίσης επιλογή για

ένα line plot που οι κατηγορίες της ίδιας µεταβλητής συνδέονται µεταξύ τους µε

γραµµές. Τέλος, περιέχει άλλη µια επιλογή που αφορά τις διαστάσεις του

γραφήµατος:

186

Τα αποτελέσµατα που θα πάρουµε είναι:

Στο οποίο είναι προφανής η οµαδοποίηση των επιπέδων των 2 κατηγορικών

µεταβλητών.

187

0,20,0-0,2-0,4

Dimension 1

0,3

0,2

0,1

0,0

-0,1

-0,2

-0,3

Dim

ensi

on 2

high

middle

low

Symmetrical Normalization

Row Points for Paxisarkia

0,40,20,0-0,2-0,4

Dimension 1

0,4

0,3

0,2

0,1

0,0

-0,1

-0,2

-0,3

Dim

ensi

on 2

παραπανω-εξι

τρια-πεντε

ενα-δυο

<ενα

Symmetrical Normalization

Column Points for Alcohol

188

7. ΜΟΝΤΕΛΑ ∆ΕΙΓΜΑΤΟΛΕΙΠΤΙΚΩΝ ΕΡΕΥΝΩΝ 7.1 ΕΙΣΑΓΩΓΙΚΑ

Πριν αρχίσουµε να µιλάµε για τα βασικά βήµατα µια δειγµατοληψίας καλό θα ήταν να

δώσουµε τον ορισµό της δειγµατοληπτικής έρευνας.

∆ειγµατοληπτική έρευνα (survey planning) είναι η στατιστική έρευνα

χαρακτηριστικών ενός πεπερασµένου πληθυσµού η οποία βασίζεται σε πληροφορίες

που συλλέγονται από µέρος (δείγµα) αυτού του πληθυσµού.

Το κύριο χαρακτηριστικό των δειγµατοληπτικών ερευνών ως κάδου της στατιστικής

είναι ότι, έχουν ως αντικείµενο πεπερασµένους (πραγµατικούς) πληθυσµούς, σε

αντιδιαστολή µε άλλους κλάδους της στατιστικής που έχουν ως αντικείµενο έρευνας

άπειρους (υποθετικούς) πληθυσµούς. (Εδώ η έννοια του πληθυσµού είναι γενική και

συµπεριλαµβάνει ανθρώπινους και µη πληθυσµούς.)

Οι συλλεγόµενες πληροφορίες µπορεί να είναι ποσοτικές και αντικειµενικές, π.χ. όταν

περιγράφουν οικονοµικά χαρακτηριστικά ή ποιοτικές όταν έχουν µορφή γνώµης ή

διάθεσης, π.χ. δηµοσκοπήσεις σε πολιτικό επίπεδο.

7.2 ΤΥΠΟΙ ∆ΕΙΓΜΑΤΟΛΗΨΙΑΣ

Η επιδίωξη της δειγµατοληψίας είναι η επιλογή αντιπροσωπευτικού δείγµατος που να

δίνει εκτιµήσεις χαρακτηριστικών του πληθυσµού µε όση ακρίβεια επιτρέπουν οι

χρονικοί, οικονοµικοί και άλλοι περιορισµοί της έρευνας.

Οι δύο βασικοί τύποι της δειγµατοληψίας είναι:

Η µη τυχαία δειγµατοληψία

Η πιθανοθεωρητική ή τυχαία δειγµατοληψία

Η κύρια διαφορά µεταξύ τους είναι ότι στην τυχαία δειγµατοληψία κάθε µέλος του

πληθυσµού έχει µια υπολογίσιµη και µη µηδενική πιθανότητα επιλογής.

Εµείς δεν θα ασχοληθούµε µε την µη τυχαία δειγµατοληψία σε αυτό τον οδηγό.

189

7.2.1 ΤΥΧΑΙΑ ∆ΕΙΓΜΑΤΟΛΗΨΙΑ (RANDOM SAMPLING)

H τυχαία δειγµατοληψία βασίζεται στην αρχή της τυχαιοποίησης (randomization),

σύµφωνα µε την οποία το δείγµα επιλέγεται µε χρήση κάποιου τυχαίου-

πιθανοθεωριτικού, όχι αυθαίρετου µηχανισµού, που ονοµάζεται σχέδιο ή τεχνική

δειγµατοληψίας (sampling design/technique). Το δείγµα που επιλέγεται έτσι

ονοµάζεται τυχαίο δείγµα (random sample).

Με αυτή την µέθοδο, κάθε µονάδα του πληθυσµού έχει µια υπολογίσιµη µη µηδενική

πιθανότητα να περιληφθεί στο δείγµα, και αποφεύγεται συστηµατική µεροληψία στην

επιλογή του δείγµατος , εξασφαλίζοντας έτσι την αντιπροσωπευτικότητα του

δείγµατος. Αυτό περιέχει την θεωρητική βάση για την αξιόπιστη αναγωγή των

αποτελεσµάτων από το δείγµα στον πληθυσµό.

Επιπλέον για καλά σχεδιασµένες δειγµατοληψίες, το δειγµατοληπτικό σφάλµα είναι

µικρότερο από ότι στις µη τυχαίες δειγµατοληψίες και µπορεί να υπολογιστεί.

Τα κύρια στάδια µια τυχαίας δειγµατοληψίας είναι:

1. Καθορισµός αντικειµένου και των σκοπών της δειγµατοληψίας

2. ∆ηµιουργία πλαισίου της δειγµατοληψίας

3. Σχεδιασµός του ερωτηµατολογίου

4. Καθορισµός του σχεδίου της δειγµατοληψίας και επιλογή δείγµατος

5. Συλλογή στοιχείων

6. Επεξεργασία των στοιχείων

7. Εκτίµηση παραµέτρων

8. Ανάλυση

9. ∆ηµοσίευση αποτελεσµάτων

7.3 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΤΥΧΑΙΑΣ ∆ΕΙΓΜΑΤΟΛΗΨΙΑΣ

Πληθυσµός-στόχος (target population): Ο συνολικός ερευνώµενος πληθυσµός

Πληθυσµός δειγµατοληψίας (sampling population): Ο πληθυσµός από τον οποίο

γίνεται η δειγµατοληψία. Μερικές φορές είναι υποσύνολο του πληθυσµού στόχου. Ο

πληθυσµός στόχος είναι αυτός που θέλουµε να ερευνήσουµε, ενώ ο πληθυσµός

δειγµατοληψίας είναι αυτός που µπορούµε να ερευνήσουµε.

190

Υποπληθυσµός (sub-population, domain): Υποσύνολο του πληθυσµού, ειδικού

στατιστικού ενδιαφέροντος.

∆είγµα (sample): Υποσύνολο του πληθυσµού δειγµατοληψίας από το οποίο

συλλέγονται οι ζητούµενες πληροφορίες.

Πλαίσιο ∆ειγµατοληψίας (sample frame): Το µέσο πρόσβασης τον πληθυσµό

δειγµατοληψίας για επιλογή δείγµατος.

∆ειγµατική µονάδα (sampling unit): Μονάδα του πλαισίου που επιλέγεται κατά τη

δειγµατοληψία

Μονάδα Απόκρισης (reporting unit): Μονάδα από την οποία προέρχονται οι

πληροφορίες

Μονάδα ανάλυσης (analysis unit): Μονάδα για την οποία παρέχονται οι πληροφορίες

και για την οποία εξάγονται συµπεράσµατα της έρευνας.

Παράµετρος του πληθυσµού (population parameter): Χαρακτηριστικό του πληθυσµού.

7.4 ΠΙΘΑΝΟΤΟΤΗΤΕΣ ΕΠΙΛΟΓΗΣ ΤΩΝ ΜΟΝΑ∆ΩΝ (INCLUSION

PROPABILITIES)

Η συµπερίληψη µιας µονάδας i σε ένα δείγµα s είναι ένα τυχαίο ενδεχόµενο που

εκφράζεται από την τυχαία µεταβλητή (δείκτρια µεταβλητή)

1,( )

0,i

i sI s

i sαναν

∈⎧= ⎨ ∉⎩

Η πιθανότητα να συµπεριληφθεί η µονάδα i σε ένα δείγµα s συµβολίζεται µε πi και

δίνεται από την σχέση

( )( ) ( ) 1 ( ), 1,....,i is i

P i s P I s p s i Nπ∋

= ∈ = = = =∑

Η διαδικασία της τυχαίας δειγµατοληψίας απαιτεί πi >0 για κάθε i.

Η πιθανότητα από κοινού επιλογής των µονάδων i και j σε ένα δείγµα s συµβολίζεται

µε πij και δίνεται από την σχέση

191

( ).

( ) 1 ( ) 1 ( ) ( ) 1 ( )ij i j i js i j

P I s I s P I s I s p sπ και∋

⎡ ⎤= = = = = =⎣ ⎦ ∑

Είναι χαρακτηριστικό των δειγµατοληπτικών ερευνών ότι οι µονάδες του πληθυσµού

µπορεί να έχουν άνισες πιθανότητες επιλογής στο δείγµα. Αυτό είναι αποτέλεσµα

δειγµατοληψίας που στηρίζεται σε γνώση της δοµής του πληθυσµού για περιορισµό

του δειγµατοληπτικού σφάλµατος στις εκτιµήσεις παραµέτρων. Άνισες πιθανότητες

επιλογής συνεπάγεται διαφορετική κατανοµή του δείγµατος από την κατανοµή του

πληθυσµού ως προς τα ερευνώµενα χαρακτηριστικά. Η αντιπροσωπευτικότητα του

δείγµατος αποκαθίσταται µε την χρήση των αναγωγικών συντελεστών.

Ο αναγωγικός συντελεστής ή συντελεστής στάθµισης ή βάρος της µονάδας i του

πληθυσµού ορίζεται ως

( )1 ) ,iw I i s iιπ

U= ∈ ∈

Ο αναγωγικός συντελεστής µιας πληθυσµιακής µονάδας είναι τυχαία µεταβλητή και σε

περίπτωση που δεν έχει επιλεγεί στο δείγµα είναι εξ’ ορισµού ίσος µε το µηδέν.

Η ερµηνεία το : Είναι ο αριθµός των µονάδων του πληθυσµού

(συµπεριλαµβανοµένης της µονάδας i) που αντιπροσωπεύονται από την δειγµατική

µονάδα i. Για παράδειγµα, µια µονάδα που έχει µία πιθανότητα επιλογής στο δείγµα

ίση µε το 100, αντιπροσωπεύει άλλες ενενήντα εννέα µονάδες του πληθυσµού από

τον οποίο επιλέχθηκε.

iw

Επειδή ο αναγωγικός συντελεστής µιας επιλεγµένης µονάδας είναι αντιστρόφως

ανάλογος της πιθανότητας επιλογής της, όσο µεγαλύτερη είναι αυτή η πιθανότητα

τόσο λιγότερες µονάδες του πληθυσµού αντιπροσωπεύονται από την συγκεκριµένη

µονάδα του δείγµατος.

Οι «ανηγµένες» δειγµατικές τιµές µια µεταβλητής διορθώνουν την

δυσαναλογικότητα του δείγµατος, ως προς τον πληθυσµό δειγµατοληψίας, όταν οι

πιθανότητες επιλογής των δειγµατικών µονάδων είναι άνισες.

i iw y iy

Οι αναγωγικοί συντελεστές χρησιµεύουν στην αναγωγή των δειγµατικών

χαρακτηριστικών στα αντίστοιχα πληθυσµιακά χαρακτηριστικά.

192

7.5 ΣΦΑΛΜΑΤΑ ∆ΕΙΓΜΑΤΟΛΗΠΤΙΚΗΣ ΕΡΕΥΝΑΣ

Τα σφάλµατα µιας δειγµατοληπτικής έρευνας διακρίνονται σε δειγµατοληπτικά και µη

δειγµατοληπτικά σφάλµατα.

∆ειγµατοληπτικό Σφάλµα: Είναι το σφάλµα στην εκτίµηση των παραµέτρων που

οφείλονται στο ότι µόνο ένα µέρος (δείγµα) του πληθυσµού παρατηρείται, αντί για

ολόκληρο τον πληθυσµό (απογραφική έρευνα). Συγκεκριµένα, το σφάλµα αυτό είναι

η διαφορά µεταξύ της εκτίµησης µιας παραµέτρου, που προκύπτει από ένα δείγµα, και

της τιµής της παραµέτρου που θα προέκυπτε από την απογραφή του πληθυσµού

δειγµατοληψίας υπό τις ίδιες συνθήκες. Το δειγµατοληπτικό σφάλµα µιας εκτιµήτριας

µετράται µε το τυπικό σφάλµα της ή µε τον συντελεστή µεταβλητότητας της.

Πηγές δειγµατοληπτικού Σφάλµατος:

Μέγεθος δείγµατος: Γενικά αύξηση µεγέθους του δείγµατος έχει ως

αποτέλεσµα την µείωση του δειγµατοληπτικού σφάλµατος Η µείωση αυτή

ωστόσο, είναι δυσανάλογα µικρή σε σχέση µε την αύξηση του µεγέθους του

δείγµατος. Αν ένας από τους σκοπούς της έρευνας είναι η παρατήρηση

υποπληθυσµών ή σπάνιων χαρακτηριστικών, τότε γενικά απαιτείται

µεγαλύτερο δείγµα.

Μέγεθος ερευνώµενου πληθυσµού: Για πολύ µικρούς πληθυσµούς η επιρροή

είναι µεγάλη, και σχετικά µεγάλο δείγµα απαιτείται για ένα επιθυµητό επίπεδο

τυπικού σφάλµατος.

Πληθυσµιακή ∆ιακύµανση: Γενικά όσο µεγαλύτερη είναι η διαφορά µεταξύ των

µονάδων του πληθυσµού ως προς ερευνώµενα χαρακτηριστικά , τόσο

µεγαλύτερο είναι το δειγµατοληπτικό σφάλµα για δεδοµένο µέγεθος δείγµατος.

Για παράδειγµα, σε µια έρευνα ατοµικού εισοδήµατος, το δειγµατοληπτικό

σφάλµα θα ήταν µεγαλύτερο σε ένα πληθυσµό όπου τα εισοδήµατα θα

κυµαίνονταν από €30.000 µέχρι €50.000 απ’ ότι θα ήταν σε πληθυσµό όπου τα

εισοδήµατα θα κυµαίνονταν από €5.000 µέχρι €1.000.000µε το ίδιο µέγεθος

δείγµατος και στις δύο περιπτώσεις. Ισοδύναµα, για δεδοµένο µέγεθος

δειγµατοληπτικού σφάλµατος θα χρειαζόταν, µεγαλύτερο δείγµα στο δεύτερο

πληθυσµό απ’ ότι στον πρώτο.

Σχέδιο δειγµατοληψίας και εκτιµήτρια: Ο συνδυασµός σχεδίου δειγµατοληψίας

και τύπου εκτιµήτριας σχετίζεται άµεσα µε το µέγεθος του δειγµατοληπτικού

σφάλµατος. Ο σχετικός όρος «αποτελεσµατικότητα» ενός σχεδίου

193

δειγµατοληψίας ή µιας εκτιµήτριας αναφέρεται στην εκτίµηση παραµέτρων µε

µικρό δειγµατοληπτικό σφάλµα για δεδοµένο µέγεθος δείγµατος.

Μη δειγµατοληπτικά σφάλµατα: Είναι όλα τα άλλα σφάλµατα στην διεξαγωγή της

δειγµατοληπτικής έρευνας που µειώνουν την ακρίβεια των εκτιµήσεων.

∆ιακρίνονται δε σε:

Σφάλµατα παρατήρησης:

a) Κάλυψη πληθυσµού: Αυτά είναι σφάλµατα που οφείλονται κυρίων

στις παραλείψεις (υποκάλυψη), λανθασµένες περιλήψεις

(υπερκάλυψη) και διπλογραφές µονάδων στο πλαίσιο

δειγµατοληψίας. Σφάλµα κάλυψης µπορεί και να γίνει και στην

διεξαγωγή της έρευνας, π.χ. µε την παράλειψη συλλογής στοιχείων

από µερικές δειγµατικές µονάδες. Τα σφάλµατα κάλυψης µπορεί να

προκαλέσουν µεροληψία στις εκτιµήσεις παραµέτρων και για αυτό

πρέπει να γίνονται κατάλληλοι έλεγχοι ποιότητας για την αποφυγή

τους.

b) Μη απόκριση µερικών δειγµατικών µονάδων: Η µη απόκριση µπορεί

να είναι ολική, αν δεν συλλέγεται καµία πληροφορία για µερικές

µονάδες, ή µερική, αν συλλέγονται ελλιπείς πληροφορίες για

µερικές µονάδες. Αιτίες ολικής µη απόκρισης µπορεί να είναι η

απουσία του αποκρινόµενου, καθώς και η αδυναµία ή η άρνηση του

να αποκριθεί/ Η ολική µη απόκριση µπορεί να έχει ως αποτέλεσµα

την µεροληψία των εκτιµήσεων, επειδή τα χαρακτηριστικά των µη

αποκρινόµενων µπορεί να διαφέρουν από εκείνα των

αποκρινόµενων. Επί πλέον, η µείωση του µεγέθους του δείγµατος

λόγω ολικής µη απόκρισης έχει ως αποτέλεσµα την αύξηση του

δειγµατοληπτικού σφάλµατος. Αιτίες µερικής µη απόκρισης µπορεί

να είναι η δυσκολία να καταλάβει ο αποκρινόµενος κάποιες από τις

ερωτήσεις του ερωτηµατολογίου, καθώς και η παράληψη ή η

άρνηση του να απαντήσει σε αυτές. Το ενδεχόµενο µεροληψίας

λόγω µερικής µη απόκρισης πρέπει να µειωθεί όσο είναι δυνατό µε

εξάλειψη των αιτιών της, ή µπορεί να αντιµετωπισθεί κατά την

επεξεργασία των στοιχείων.

194

Σφάλµατα παρατήρησης:

a) Σφάλµατα µέτρησης: Αυτό το σφάλµα είναι η διαφορά µεταξύ

καταχωρηθείσας απάντησης σε µία ερώτηση και του πραγµατικού

στοιχείου που αντιστοιχεί στην ερώτηση. Τέτοιου είδους σφάλµατα

µπορεί να προκληθούν από το ερωτηµατολόγιο, από τους

αποκρινόµενους, από τους συλλέκτες των στοιχείων, καθώς και από

τον τρόπο συλλογής των στοιχείων. Τα σφάλµατα µέτρησης µπορεί

να έχουν σαν αποτέλεσµα την αύξηση της διακύµανσης των

διαφόρων εκτιµητριών αλλά και µεροληψία τους. Καλός σχεδιασµός

και επιµεληµένη διεξαγωγή της έρευνας βοηθούν στην

ελαχιστοποίηση των σφαλµάτων µέτρησης.

b) Σφάλµατα επεξεργασίας δεδοµένων: Τέτοια σφάλµατα µπορεί να

προκύψουν σε όλα τα στάδια χειρωνακτικής και αυτοµατοποιηµένης

επεξεργασίας των στοιχείων µετά την συλλογή τους, όπως για

παράδειγµα, στο στάδιο κωδικοποίησης των απαντήσεων που

υπάρχουν στα ερωτηµατολόγια. Καλές µέθοδοι επεξεργασίας αλλά

και έλεγχος ποιότητας αυτής µπορούν να µειώσουν πολύ συτό το

είδος σφαλµάτων.

7.6 ΠΛΑΙΣΙΟ ∆ΕΙΓΜΑΤΟΛΗΨΙΑΣ (SAMPLING FRAME)

Το πλαίσιο δειγµατοληψίας, όπως είπαµε και πιο πάνω, είναι το µέσο πρόσβασης στον

πληθυσµό δειγµατοληψίας και αποτελείται από διακριτές δειγµατικές µονάδες.

Στην απλούστερη περίπτωση οι δειγµατικές µονάδες είναι τα µέλη του πληθυσµού

δειγµατοληψίας. Αυτό επιτρέπει άµεση δειγµατοληψία µελών αυτού του πληθυσµού.

Συχνά το πλαίσιο είναι πιο αδροµερής διαίρεση του πληθυσµού, ώστε κάθε δειγµατική

µονάδα να περιέχει ένα σύνολο διακριτών µελών του πληθυσµού και κάθε µέλος του

πληθυσµού να ανήκει σε µία µόνο µονάδα.

∆ύο είναι οι βασικοί τύποι πλαισίου:

1. Πλαίσιο Κατάλογος (list frame):

Πραγµατικός Κατάλογος, π.χ. κατάλογος νοσοκοµείων, κατάλογος

επιχειρήσεων, κατάλογος φοιτητών ενός πανεπιστηµίου κ.α. Παρέχει άµεση

πρόσβαση στα µέλη του πληθυσµού.

195

Νοητός κατάλογος, π.χ. όλα τα αυτοκίνητα που διέρχονται από συγκεκριµένο

σηµείο κατά τη διάρκεια κάποιου χρονικού διαστήµατος.

2. Πλαίσιο γεωγραφικής επιφάνειας

Ειδική περίπτωση πλαισίου καταλόγου όπου οι µονάδες αντιστοιχούν σε

γεωγραφικές περιοχές. Οι γεωγραφικές µονάδες έχουν καλά ορισµένα φυσικά ή

τεχνητά όρια που αναγνωρίζονται σε χάρτη και στο πεδίο. Το µέγεθος των

γεωγραφικών µονάδων καθώς και ο αριθµός µελών των πληθυσµού που

περιέχουν ποικίλει από µονάδα σε µονάδα.

Παρέχει έµµεση πρόσβαση στα µέλη του πληθυσµού, γιατί πρώτα ένας κατάλογος

γεωγραφικών µονάδων πρέπει να επιλεγεί και µετά πρέπει να σχηµατιστεί

κατάλογος µονάδων δειγµατοληψίας.

Πολλαπλά πλαίσια (Multiple frames)

Πλαίσια που χρησιµοποιούνται όταν ένα µόνο πλαίσιο δεν επαρκεί για την πλήρη

κάλυψη του πληθυσµού. Αυτά τα πλαίσια καλύπτουν διαφορετικά µέρη πληθυσµού, ή

επικαλύπτονται.

7.6.1 Ι∆ΙΟΤΗΤΕΣ ΠΟΥ ΠΡΕΠΕΙ ΝΑ ΕΧΕΙ ΕΝΑ ΠΛΑΙΣΙΟ

Απαραίτητες Ιδιότητες

1. Οι µονάδες του πλαισίου να µπορούν να αναγνωριστούν µε κάποιο κωδικό

2. Όλες οι µονάδες µπορούν να εντοπιστούν, αν επιλεγούν στο δείγµα, µε

διεύθυνση ή αριθµό τηλεφώνου ή τοποθεσία σε χάρτη ή µε άλλο τρόπο.

Επιθυµητές Ιδιότητες

3. Το πλαίσιο να περιλαµβάνει βοηθητικές πληροφορίες για αποτελεσµατική

δειγµατοληψία, ορισµό υποπληθυσµών και µέθοδο εκτίµησης. Αυτές οι

βοηθητικές πληροφορίες αναφέρονται σε βοηθητικές µεταβλητές (auxiliary

variables) που µπορεί να είναι συνεχείς ή κατηγορικές, π.χ. γεωγραφική

τοποθεσία, φύλλο, ηλικία κ.α.

196

4. Όταν εκτιµήσεις πρέπει να γίνουν και για υποπληθυσµούς, το πλαίσιο καθορίζει

τον υποπληθυσµούς, το πλαίσιο να καθορίζει τον υποπληθυσµό στον οποίο

ανήκει κάθε µονάδα

5. Κάθε µέλος του πληθυσµού-στόχου είναι παρών στο πλαίσιο µόνο µια φορά

6. Το πλαίσιο δεν περιλαµβάνει µέλη που δεν ανήκουν στον πληθυσµό-στόχο

7. Όλες οι πληροφορίες που περιέχει το πλαίσιο είναι σωστές και επίκαιρες.

7.6.2 ΚΥΡΙΕΣ ΑΤΕΛΕΙΕΣ ΠΛΑΙΣΙΩΝ

Υποκάλυψη: Μερικά µέλη του πληθυσµού-στόχου δεν περιλαµβάνονται στο πλαίσιο,

π.χ. τηλεφωνικός κατάλογος µε µη καταχωρηµένους τηλεφωνικούς αριθµούς

Υπέρ-κάλυψη: Το πλαίσιο περιλαµβάνει περισσότερα µέλη από αυτά το πληθυσµού-

στόχου. Για παράδειγµα, το πλαίσιο το οποίο δεν έχει ενηµερωθεί για µετακινήσεις,

θανάτους και αποχωρήσεις µονάδων του.

Πολυεγγραφές: Μερικές µονάδες είναι καταχωρηµένες περισσότερε από µια φορές.

Συνήθως είναι αποτέλεσµα δηµιουργίας πλαισίου µε συνένωση πολλών πηγών

πληροφοριών

Λανθασµένη Ταξινόµηση: Κάποιες µονάδες είναι ταξινοµηµένες µε υποπληθυσµό

άλλον από αυτό στον οποίο ανήκουν. Το πρόβληµα αυτό απαντά µόνο σε πλαίσια που

περιέχουν µεταβλητές που ορίζουν υποπληθυσµούς.

7.6.3 ΚΡΙΤΗΡΙΑ ΕΠΙΛΟΓΗΣ ΠΛΑΙΣΙΟΥ

Καταλληλότητα, πληρότητα και επικαιρότητα

Ευκολία συλλογής των απαιτούµενων πληροφοριών για τις µονάδες που

απαρτίζουν το πλαίσιο.

Φύση των συµπληρωµατικών/ βοηθητικών πληροφοριών και αν µια

αποτελεσµατική δειγµατοληψία µπορεί να βασιστεί σε αυτές.

Ευκολία διαχείρισης και ενηµέρωσης του πλαισίου για επαναλαµβανόµενες

δειγµατοληψίες.

Κόστος δηµιουργίας του πλαισίου

197

7.7 ΣΧΕ∆ΙΑΣΜΟΣ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ

7.7.1 ΕΙΣΑΓΩΓΙΚΑ

Το ερωτηµατολόγιο παίζει τον σηµαντικότερο ρόλο στην διαδικασία συλλογής των

στοιχείων. Ο σκοπός στον σχεδιασµό του είναι συλλεχθούν αν όχι όλες όσες το

δυνατό περισσότερες από τις απαιτούµενες πληροφορίες µε όσο το δυνατόν

µικρότερο σφάλµα, µε την µικρότερη δυνατή ενόχληση των ερωτηθέντων και σε

µορφή κατάλληλη για ευχερή περαιτέρω επεξεργασία στοιχείων.

Ένα προβληµατικό ερωτηµατολόγιο µπορεί να έχει ως αποτέλεσµα ηµιτελή,

λανθασµένα ή παραπλανητικά στοιχεία, άρνηση σε µερικά ερωτήµατα, ή ακόµα και

άρνηση συµπλήρωσης του ερωτηµατολογίου.

Πριν από το σχεδιασµό του ερωτηµατολογίου πρέπει να ληφθούν υπόψη οι σχετικές

προδιαγραφές του προγραµµατισµού της έρευνας. Αρχικά, χρειάζεται ένα περίγραµµα

των σκοπών της έρευνας που περιλαµβάνει τα απαιτούµενα στοιχεία και ένα

πρόγραµµα ανάλυσής τους. Αυτό θα καθορίζει ακριβώς το τι πληροφορίες χρειάζονται

και από ποιους, τις µεταβλητές της έρευνας, πως συνδέεται κάθε ζητούµενο στοιχείο

µε συγκεκριµένες ερωτήσεις και πως αυτές θα τεθούν.

7.7.2 ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ ΣΤΟΝ ΣΧΕ∆ΙΑΣΜΟ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ

Το ερωτηµατολόγια θα πρέπει να περιέχει κατατοπιστική εισαγωγή που να

εξηγεί στον αποκρινόµενο το περιεχόµενο της έρευνας. Συγκεκριµένα, η

εισαγωγή πρέπει να

• αναγράφει τον τίτλο ή το αντικείµενο της έρευνας

• αναγράφει ταυτότητα του φορέα που διεξάγει την έρευνα

• εξηγεί τον σκοπό της έρευνας

• ζητάει την συνεργασία των αποκρινόµενων

• πληροφορεί τους ερωτηθέντες σχετικά µε τα ζητήµατα

απορρήτου, το υποχρεωτικό ή µη της απόκρισης και όποιες

συµφωνίες συνιδιοκτησίας των δεδοµένων της έρευνας µε

άλλους φορείς.

Για τον σχεδιασµό καλής ερώτησης οι επί µέρους λέξεις να είναι απλές και

οικίες σε όλους τους αποκρινόµενους.

198

Οι ερωτήσεις πρέπει να είναι σαφείς, όσο το δυνατόν συγκεκριµένες,

εύκολες να απαντηθούν, και ενδιαφέρουσες για τους αποκρινόµενους.

Οι ερωτήσεις πρέπει να είναι εφαρµόσιµες σε όλους τους

αποκρινόµενους.

Η ερώτηση θα πρέπει να καθορίζει πλαίσιο και χρόνο αναφοράς. Για

παράδειγµα, στην ερώτηση «Ποιο είναι το εισόδηµά σας;» η λέξη «σας»

µπορεί να αναφέρεται στο ατοµικό ή οικογενειακό εισόδηµα του

αποκρινόµενου. Η λέξη εισόδηµα µπορεί να αναφέρεται σε µισθό ή να

περιλαµβάνει εισόδηµα από άλλες πηγές. Επίσης, δεν αναφέρεται

συγκεκριµένα σε εβδοµαδιαίο, µηνιαίο ή ετήσιο εισόδηµα.

Γενικά, δύο είναι βασικοί τύποι ερωτήσεων: (1) Ανοιχτές ερωτήσεις, που

δίνουν στους αποκρινόµενους την ευκαιρία να απαντήσουν µε δικά τους

λόγια. (2) Κλειστές ερωτήσεις, που δίνουν την δυνατότητα εναλλακτικών

απαντήσεων από τις οποίες ο αποκρινόµενος αναµένεται να επιλέξει µία.

Η ερώτηση να έχει την απαιτούµενη ακρίβεια. Όταν ετοιµάζεται µια

ερώτηση είναι σηµαντικό να διευκρινιστεί από πριν το επίπεδο ακρίβειας

που αναµένεται από τον αποκρινόµενο. Π.χ. «Πόσο συχνα;» ή «Πόσες

φορές;».

7.7.3 ΤΙ ΠΡΕΠΕΙ ΝΑ ΑΠΟΦΕΥΘΧΟΥΝ ΣΤΟ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ

Στο ερωτηµατολόγιο πρέπει να αποφευχθούν:

Συντοµογραφίες και αρκτικόλεξα

∆υσνόητες λέξεις και δυσνόητη ορολογία

Ερωτήσεις διπλής σηµασίας, π.χ. ∆ανείζεστε βιβλία και περιοδικά από την

βιβλιοθήκη;

Τέτοιες ερωτήσεις επιδέχονται πολλαπλή ερµηνεία και η οποία απόκριση επίσης

δεν είναι µονοσήµαντη στην κωδικοποίηση της.

Ερωτήσεις µεροληπτικές και φορτισµένες. Π.χ. Είστε υπέρ προτεραιότητες των

λεωφορείων κατά τις ώρες αιχµής;» Τέτοια διατύπωση της ερώτησης µπορεί να

προκαλέσει περισσότερες θετικές απαντήσεις απ’ όσες πραγµατικά

αντιπροσωπεύουν την ανεπηρέαστη διάθεση των αποκρινόµενων.

Ερωτήσεις που περιέχουν διπλή άρνηση. Π.χ. Είστε υπέρ ή κατά να µην

επιτρέπεται το κάπνισµα σε δηµόσιους χώρους;» Τέτοιες ερωτήσεις µπορεί να

199

προκαλέσει περισσότερες θετικές αποκρίσεις απ’ όσες πραγµατικά

αντιπροσωπεύουν την ανεπηρέαστη διάθεση των ερωτηθέντων.

Ερωτήσεις που απαιτούν ισχυρή µνήµη

Ερωτήσεις για λεπτοµερείς που δεν θα είχαν ποτέ να καταχωρηθεί στην µνήµη

Ερωτήσεις για ευαίσθητες ή ενοχοποιητικές πληροφορίες (π.χ. χρήση

ναρκωτικών ή εφοριακή απάτη). Τέτοιες ερωτήσεις µπορεί να περιληφθούν σε

ειδικά αυτοσυµπληρούµενα (ερωτηµατολόγια που αποστέλλονται στον

αποκρινόµενο µε FAX, ταχυδροµείο κ.α.) ερωτηµατολόγια που πειστικά

κατοχυρώνουν την ανωνυµία του αποκρινόµενου.

7.7.4 ΤΟ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΩΣ ΣΥΝΟΛΟ

Μετά από την διαµόρφωση των επί µέρους ερωτήσεων, το ερωτηµατολόγιο πρέπει να

ιδωθεί ως σύνολο:

Πρέπει να έχει καλή εισαγωγή που να µεταφέρει στον αποκρινόµενο το

περιεχόµενο της έρευνας.

Πρέπει να δηλώνει γιατί γίνονται οι ερωτήσεις

Χρειάζεται ενδιαφέρουσες και εύκολα απαντήσιµες ερωτήσεις στην αρχή.

Πρέπει οι ερωτήσεις να έχουν ροή από την µία στην επόµενη

Πρέπει να ληφθεί υπ’ όψη η σειρά των ερωτήσεων και η επιρροή τους σε

επόµενες ερωτήσεις.

Πρέπει να περιέχει κατατοπιστικές οδηγίες συµπλήρωσής του.

Πρέπει να τελειώνει µε ευχαριστήριο µήνυµα προς τον αποκρινόµενο για την

συµπλήρωση του ερωτηµατολογίου.

7.7.5 ∆ΟΚΙΜΕΣ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ

Απαραίτητη διαδικασία στην σύνταξη ενός ερωτηµατολογίου. Με τις δοκιµές:

Ανακαλύπτεται κακό λεκτικό ή κακή διάταξη των ερωτήσεων

Αναγνωρίζονται λάθη στην µορφή του ερωτηµατολογίου και στις οδηγίες

συµπλήρωσής του

Ανακαλύπτονται προβλήµατα που προκαλούνται από την αδυναµία ή την

άρνηση του αποκρινόµενου να απαντήσει σε κάποιες ερωτήσεις.

Υποδεικνύονται πρόσθετες κατηγορίες απόκρισης που πρέπει να

κωδικοποιηθούν στο ερωτηµατολόγιο.

200

Παρέχεται προκαταρκτική ένδειξη της διάρκειας της συνέντευξης και όποιων

προβληµάτων άρνησης.

Η δοκιµή µπορεί να περιλαµβάνει όλο το ερωτηµατολόγιο ή ένα µόνο συγκεκριµένο

τµήµα του.

7.8 ΣΧΕ∆ΙΑΣΜΟΙ ∆ΕΙΓΜΑΤΟΛΗΨΙΑΣ (SAMPLING DESIGNS)

Υπάρχουν πολλές µέθοδοι µε τις οποίες µπορεί να επιλεχθεί ένα τυχαίο δείγµα. Η

επιλογή εξαρτάται από διάφορους παράγοντες όπως οι σκοποί και προδιαγραφές της

έρευνας, το διαθέσιµο πλαίσιο δειγµατοληψίας, η γεωγραφική διασπορά του

πληθυσµού, οι επιχειρησιακοί περιορισµοί της έρευνας και ο τρόπος ανάλυσης των

στοιχείων της έρευνας από τους χρήστες.

Στην επιλογή µεθόδου τυχαίας δειγµατοληψίας, σκοπός πρέπει να είναι η

ελαχιστοποίηση του δειγµατοληπτικού σφάλµατος των εκτιµητριών για τις πιο

σηµαντικές µεταβλητές της έρευνας, ελαχιστοποιώντας ταυτόχρονα τον χρόνο και το

κόστος διεξαγωγής της έρευνας.

Οι πιο σηµαντικές µέθοδοι δειγµατοληψίας είναι:

Απλή Τυχαία ∆ειγµατοληψία (Simple Random Sampling)

Συστηµατική ∆ειγµατοληψία (Systematic Sampling)

∆ειγµατοληψία µε Πιθανότητα αναλογική του Μεγέθους (Sampling with

probability proportional to size)

Στρωµατική ∆ειγµατοληψία (Stratified Sampling)

∆ειγµατοληψία κατά Οµάδες-Πολυσταδιακή ∆ειγµατοληψία (Cluster Sampling-

Multistage Sampling)

Εµείς στον παρών οδηγό θα ασχοληθούµε µόνο µε την απλή τυχαία δειγµατοληψία

και την στρωµατική δειγµατοληψία.

7.8.1 ΑΠΛΗ ΤΥΧΑΙΑ ∆ΕΙΓΜΑΤΟΛΗΨΙΑ (SIMPLE RANDOM SAMPLING)

Στην απλή τυχαία δειγµατοληψία χωρίς επανάθεση κάθε δείγµα ίδιου µεγέθους έχει

ίση πιθανότητα επιλογής και κάθε οµάδα του πληθυσµού έχει ίση πιθανότητα να

περιληφθεί στο δείγµα. Ας σηµειωθεί ότι γενικά στους σχεδιασµούς δειγµατοληψίας

δεν ισχύει ότι ίδια πιθανότητα περίληψης σε δείγµα συγκεκριµένου µεγέθους για όλες

201

τις µονάδες του πληθυσµού συνεπάγεται ίδια πιθανότητα επιλογής για κάθε δείγµα

αυτού του µεγέθους.

Για την επιλογή ενός απλού τυχαίου δείγµατος είναι αναγκαίο ένα πλαίσιο-κατάλογος

όλων των µελών του πληθυσµού δειγµατοληψίας.

Ο αριθµός όλων των µη διατεταγµένων δειγµάτων µεγέθους n είναι

( )!

! !N Nn n N n⎛ ⎞

=⎜ ⎟ −⎝ ⎠ Κάθε δείγµα µεγέθους n έχει την ίδια πιθανότητα επιλογής

1( )p sNn

=⎛ ⎞⎜ ⎟⎝ ⎠

. Αν µια µονάδα i είναι σταθερή, οι υπόλοιπες n-1 µονάδες µπορούν

επιλεγούν από Ν-1 µονάδες µε 1

1Nn−⎛ ⎞

⎜ −⎝ ⎠⎟ τρόπους. Τότε:

111( ) 1i

s i s i

Nn np s

N N Nn n

π∋ ∋

−⎛ ⎞⎜ ⎟−⎝ ⎠= = = =

⎛ ⎞ ⎛ ⎞⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠

∑ ∑

Το nfN

= ονοµάζεται κλάσµα δειγµατοληψίας. Το 1-f είναι το ποσοστό του

πληθυσµού που δεν περιλαµβάνεται στο δείγµα.

Ο αναγωγικός συντελεστής είναι ίδιος για όλες τις µονάδες του πληθυσµού, δηλαδή

1 ( ), 1,...,ii

w I i s iπ

= ∈ = N

ώστε για κάθε µονάδα του δείγµατος s έχουµε

1i

i

Nwnπ

= =

Μηχανισµοί (αλγόριθµοι) επιλογής απλού τυχαίου δείγµατος χωρίς επανάθεση

Η επιλογή απλού τυχαίου δείγµατος µπορεί να γίνει εύκολα ακόµη και από µεγάλους

πληθυσµούς µε χρήση υπολογιστή και µε πλαίσιο δειγµατοληψίας που έχει µορφή

ηλεκτρονικού αρχείου. Οι µονάδες του δείγµατος επιλέγονται από το πλαίσιο

202

διαδοχικά, µια κάθε φορά, χωρίς επανάθεση, έτσι ώστε σε κάθε στάδιο επιλογής κάθε

εναποµείνασα µονάδα του πληθυσµού να έχει την ίδια πιθανότητα επιλογής. ∆ύο

αλγόριθµοι τέτοιας επιλογής είναι οι εξής:

Αλγόριθµος 1

Ανεξάρτητοι τυχαίοι αριθµοί 1 2, ,...ε ε εξάγονται από την οµοιόµορφη κατανοµή στο

διάστηµα (0,1). Έστω ο αριθµός των επιλεγµένων µονάδων µεταξύ των πρώτων kn

k-1 µονάδων στον κατάλογο του πληθυσµού. Ισχύει 1 0n ≡ .

Αν

1k

kn nN k

ε −<

− +

τότε η µονάδα k επιλέγεται, αλλιώς δεν επιλέγεται. Η διαδικασία σταµατάει όταν

kn n=

Με χρήση MATLAB:

function mat=algorithmos01(N,n);

%O algorithmos01 αναφέρεται στην τυχαία δειγµατοληψία

%N: είναι το µέγεθος του πληθυσµού

%n: το µέγεθος του δείγµατος.

enum=rand(N,1);

mat=[];

nk=length(mat);

k=1;

while nk~=n

if enum(k) < (n-nk)/(N-k+1)

mat=[mat enum(k)];

end

nk=length(mat);

k=k+1;

end

203

Αλγόριθµος 2

Ταυτόχρονη επιλογή πολλών µη επικαλυπτόµενων απλών τυχαίων δειγµάτων.

Ν ανεξάρτητοι τυχαίοι αριθµοί 1 2, ,...,ε ε εΝ εξάγονται από την οµοιόµορφη κατανοµή

στο διάστηµα (0,1) και το kε αντιστοιχίζεται µε την µονάδα k. Αυτοί οι αριθµοί

διατάσσονται κατά σειρά µεγέθους

1 2( ) ( ) ( )...Nk k kε ε ε< < <

Οι n µικρότερες τιµές ε αντιστοιχούν σε ένα σύνολο µονάδων 1,..., nk k το οποίο

απαρτίζει ένα απλό τυχαίο δείγµα µεγέθους n. Οι επόµενες n µικρότερες τιµές ε

καθορίζουν ένα δεύτερο δείγµα, µη επικαλυπτόµενο µε τον πρώτο και ούτω κα’ εξής.

Με χρήση MATLAB:

function mat=algorithmos02(N,n);

%O algorithmos02 αναφέρεται σε ταυτόχρονη επιλογή µη επικαλυτπόµενων

%τυχαίων δειγµάτων

%N: είναι το µέγεθος του συνολικού πληθυσµού

%n: το µέγεθος του δείγµατος

enum=rand(N,1);

enum=sort(enum,'ascend');

mat=[];

while ~isempty(enum)

mat=[mat;enum(1:n)'];

enum(1:n)=[];

end

204

Εκτίµηση παραµέτρων

Για την µεταβλητή y, µια αµερόληπτη εκτιµήτρια της διακύµανσης του πληθυσµού

είναι:

( )22

1

11

N

ii

S yN =

= −− ∑ Y

που υπολογίζεται από το δείγµα 1,..., Ns y y= , δίνεται από την δειγµατική

διακύµανση του y

( )22

1

1ˆ1

n

ii

S yn =

= −− ∑ y

όπου 1

ni

i

yyn=

= ∑

Προσοχή: εκτίµηση της διακύµανσης είναι δυνατή µόνο όταν . Όταν n=2

τότε

2S 2n ≥2

2 1 2( )2

y yS −=

Η αµερόληπτη Horvitz-Thompson εκτιµήτρια του ολικού Υ δίνεται από την

1 1

1ˆn n

i ii ii

NY ynπ= =

= = y∑ ∑

Η διακύµανση της δίνεται από την σχέση Y

( )2

2ˆ (1 ) NV Y f Sn

= −

Μια αµερόληπτη εκτιµήτρια του ( )ˆV Y που υπολογίζεται από το δείγµα 1,..., Ns y y=

δίνεται από την

22ˆˆ ˆ( ) (1 ) NV Y f S

n= −

Καθορισµός του µεγέθους του απλού τυχαίου δείγµατος

Συνήθως το δειγµατικό µέγεθος καθορίζεται έτσι ώστε το σχετικό τυπικό σφάλµα

(συντελεστής µεταβλητότητας CV) της εκτιµήτριας συγκεκριµένης παραµέτρου για την

σπουδαιότερη µεταβλητή της έρευνας να µην υπερβαίνει ένα προκαθορισµένο

αποδεκτό όριο. Για παράδειγµα, το ανώτατο αποδεκτό όριο του σχετικού τυπικού

σφάλµατος της εκτιµήτρια ενός ολικού για κάποια έρευνα µπορεί να είναι 2%. Ο

καθορισµός του ορίου αυτού µπορεί να λαµβάνει υπ΄ όψη και το συνεπαγόµενο

205

κόστος, την διάρκεια διεξαγωγής της έρευνας, καθώς και το ενδεχόµενο ποσοστό µη

απόκρισης.

Αν το δειγµατικό µέγεθος n καθορίζεται µε κριτήριο το σχετικό τυπικό σφάλµα της

εκτιµήτριας του ολικού , τότε το n καθορίζεται από τον περιορισµό Y

ˆ( )V Yc

Y≤

όπου c είναι το ανώτατο όριο επιτρεπόµενου σχετικού τυπικού σφάλµατος. Εύκολα

προκύπτει ότι

12 2

21 c Yn NnS

−⎡ ⎤

≥ +⎢ ⎥⎣ ⎦

Όταν το κριτήριο είναι το σχετικό τυπικό σφάλµα µιας αναλογίας P, τότε εύκολα

προκύπτει ότι το ελάχιστο απαιτούµενο µέγεθος n δίνεται από την σχέση

121 ( 1)

1Pn N c NP

−⎡ ⎤≥ + −⎢ ⎥−⎣ ⎦

Σε αυτή τη περίπτωση το ελάχιστο απαιτούµενο n είναι η συνάρτηση εκτιµητέας

παραµέτρου P, µια προσεγγιστική τιµή της οποίας µπορεί να χρησιµοποιηθεί για

προσεγγιστικό υπολογισµό του n.

Είναι αξιοσηµείωτο ότι για πολύ µικρό P το απαιτούµενο n είναι µεγάλο (όταν το Ρ

τείνει στο 0 το n τείνει στο Ν) και για επίσης πολύ µικρό c το n προσεγγίζει το Ν.

Εναλλακτικά, το δειγµατικό µέγεθος µπορεί να καθοριστεί έτσι ώστε το περιθώριο

σφάλµατος της εκτιµήτριας γύρω από το Ρ να µην υπερβαίνει d ποσοστιαίες

µονάδες µε πιθανότητα 1-α. Ισοδύναµα, αυτό σηµαίνει ότι το αποδεκτό ρίσκο Ρ να

βρίσκεται έξω από τα όρια είναι α. Ο τύπος που δίνει το απαιτούµενο µέγεθος

δείγµατος είναι:

P

P d±

12

21

11 ( 1)(1 )a

dn N Nz P P

−

−

⎡ ⎤≥ + −⎢ ⎥−⎣ ⎦

(1)

όπου είναι η τιµή της τυπικής κανονικής κατανοµής που ορίζει περιοχή 1-α γύρω

από το µηδέν στην καµπύλη κανονικής κατανοµής. Το 1-α ονοµάζεται επίπεδο

εµπιστοσύνης. Συνήθως 1-α=0.95 µε αντίστοιχο

1 az −

1 az − =1.96.

206

Το δειγµατικό µέγεθος n που καθορίζεται µε κριτήριο το σχετικό τυπικό σφάλµα c

είναι το ίδιο µε αυτό που καθορίζεται µε κριτήριο το περιθώριο σφάλµατος d όταν

1 ad cPz −=

Για πολύ µικρό δείγµα ο τύπος (1) απλοποιείται σε

21

2 (1 )azn Pd− P= −

7.8.2 ΣΤΡΩΜΑΤΙΚΗ ∆ΕΙΓΜΑΤΟΛΗΨΙΑ (STRATIFIED SAMPLING)

Στην στρωµατική δειγµατοληψία, ο πληθυσµός διαµερίζεται σε µη επικαλυπτόµενους

υποπληθυσµούς που ονοµάζονται στρώµατα. Ένα τυχαίο δείγµα προκαθορισµένου

µεγέθους επιλέγεται µε κάποια µέθοδο δειγµατοληψίας από κάθε στρώµα, σαν να

ήταν τα στρώµατα διαφορετικοί πληθυσµοί. Οι επιλογές δείγµατος στα διαφορετικά

στρώµατα είναι ανεξάρτητες.

Η στρωµάτωση ενός πληθυσµού µπορεί να γίνει µε βάση ένα ή περισσότερα

χαρακτηριστικά του πληθυσµού που σχετίζονται µε τις µεταβλητές της

δειγµατοληπτικής έρευνας. Η στρωµάτωση είναι δυνατή αν οι βοηθητικές αυτές

πληροφορίες για τα µέλη του πληθυσµού είναι διαθέσιµες, µε την µορφή µιας ή

περισσότερων βοηθητικών στο πλαίσιο δειγµατοληψίας.

Για παράδειγµα, πληθυσµός επιχειρήσεων µπορεί να στρωµατωθεί κατά περιοχή,

κλάδο, µέγεθος τζίρου ή αριθµό απασχολούµενων.

Λόγοι στρωµάτωσης

Η στρωµάτωση ενός πληθυσµού µπορεί να βελτιώσει την αποτελεσµατικότητα της

δειγµατοληψίας, αν οι τιµές των µεταβλητών της έρευνας για τις µονάδες κάθε

στρώµατος είναι πιο όµοιες από ότι για τις µονάδες στο πληθυσµό ως σύνολο. Όσο πιο

οµοιογενή είναι τα στρώµατα τόσο πιο αποτελεσµατική είναι η δειγµατοληψία. Για την

αποτελεσµατικότητα της στρωµάτωσης είναι απαραίτητος ο ισχυρός συσχετισµός των

µεταβλητών στρωµάτωσης µε τις κύριες µεταβλητές της έρευνας.

Ας υποθέσουµε ότι σε ένα πληθυσµό µεγέθους Ν=20 οι τιµές της µεταβλητής y είναι

6,3,4,4,5,3,6,2,3,2,2,6,5,3,5,2,4,6,4,6,5

207

Τότε 4Y = και 2 4019

S = . Η εκτίµηση του µέσου Y που βασίζεται σε απλό τυχαίο

µεγέθους ν=5 έχει διακύµανση ˆˆ( ) 6 /19V Y = . Αν προσέξουµε όµως την δοµή του

πληθυσµού, παρατηρούµε ότι αυτός µπορεί να διαταχθεί ως

2,2,2,2,3,3,3,3,4,4,4,4,5,5,5,5,6,6,6,6

Σε πολλές περιπτώσεις δειγµατοληπτικών ερευνών πρέπει να γίνουν χωριστές

εκτιµήσεις για συγκεκριµένους πληθυσµούς. Για παράδειγµα, σε δειγµατοληψίες

νοικοκυριών µπορεί να χρειάζονται εκτιµήσεις και κατά γεωγραφικό διαµέρισµα, ενώ

σε δειγµατοληψίες επαγγελµατικής απασχόλησης µπορεί αν χρειάζονται χωριστές

εκτιµήσεις κατά επαγγελµατικό κλάδο. Αν η πληροφορία αναγνώρισης αυτών των

υποπληθυσµών υπάρχει στο πλαίσιο, τότε στον σχεδιασµό της δειγµατοληψίας οι

υποπληθυσµοί συνιστούν στρώµατα, ώστε επαρκές δείγµα να επιλεγεί για κάθε ένα

από αυτά.

Στρωµάτωση του πληθυσµού µπορεί αν γίνει για διευκόλυνση του σχεδιασµού και της

διεξαγωγής της έρευνας. Πρακτικοί περιορισµοί κόστους και κατανοµής του έργου

συλλογής των στοιχείων συχνά απαιτούν την στρωµάτωση του πληθυσµού κατά

περιοχές διεξαγωγής της έρευνας.

Βασικοί ορισµοί και συµβολισµοί

Έστω ότι ο πληθυσµός U διαµερίζεται σε Η στρώµατα 1 2, ,..., HU U U µεγέθους

1 2, ,..., HN N N , αντίστοιχα, ώστε

''

11

, ,h

H H

h hhhh

U U U U h h N Nγια και==

= = ∅ ≠ =∑U I

όπου είναι ο πληθυσµός στο κάθε στρώµα. hN

Οι βασικές παράµετροι Y και Y

Y

του πληθυσµού U εκφράζονται ως γραµµικές

συναρτήσεις των αντίστοιχων στρωµατικών παραµέτρων, ως εξής:

1 1

N H

i hi h

Y y= =

= =∑ ∑

όπου , Y είναι το άθροισµα των χαρακτηριστκών και είναι η τιµή της

µεταβλητής υ για την µονάδα i του στρώµατος h.

1

hN

hi

Y=

=∑ hiy hiy

208

1 1

1 H Hh

h hh h

NY YN N= =

= =∑ ∑ Y

Στην γενική περίπτωση στρωµατικής δειγµατοληψίας, ένα τυχαίο δείγµα µεγέθους

επιλέγεται από το στρώµα h µε κάποιο δειγµατοληπτικό σχέδιο

hs

hn ( )hp s , ανεξάρτητα

από την επιλογή δείγµατος σε άλλα στρώµατα, ώστε

11

,H H

h hhh

s s n n==

= =∑U

και λόγω ανεξαρτησίας επιλογής δείγµατος στα στρώµατα

1

( ) ( )H

hh

p s p s=

=∏

Η εκτιµήτρια του ολικού Y δίνεται από την

1

ˆ ˆH

hh

Y Y=

= ∑

µε διακύµανση

1

ˆ ˆ( ) ( )H

hh

V Y V Y=

= ∑

Η εκτιµήτρια του µέσου όρου δίνεται από την

1

ˆ ˆHh

hh

NY YN=

= ∑


2

1

ˆ ˆ( ) ( )H

hh

h

NV Y V YN=

⎛ ⎞= ⎜ ⎟⎝ ⎠

∑

Στρωµατική απλή τυχαία δειγµατοληψία

Συχνά στο ίδιο σχέδιο δειγµατοληψίας χρησιµοποιείται για όλα τα στρώµατα. Η πιο

σπουδαία περίπτωση στρωµατικής δειγµατοληψίας είναι η στρωµατική απλή τυχαία

δειγµατοληψία. Τότε µε κλάσµα δειγµατοληψίας hh

h

nfN

= για το στρώµα h,

1 1

ˆhnH

hhi

h ih

NY yn= =

=∑ ∑


209

22

1

ˆ( ) (1 )H

hh h

h h

NV Y f Sn=

= −∑

που είναι γραµµική συνάρτηση των ενδοστρωµατικών διακυµάνσεων . Άρα, η 2hS

αποτελεσµατική στρωµάτωση είναι εκείνη για την οποία οι διακυµάνσεις 2hS είναι

µικρές.

Επίσης

1

1

ˆ

hn

hiHh i

h h

yNYN n

=

=

=∑

∑

µια διακύµανση

2 2

21

ˆ( ) (1 )H

h hh

h h

N SV Y fN n=

= −∑

όταν το κλάσµα δειγµατοληψίας είναι το ίδιο για όλα τα στρώµατα, δηλαδή

hh

h

n nfN N

= = , τότε η εκτιµήτρια είναι ταυτοτικά ίδια στις περιπτώσεις στρωµατικής

απλής τυχαίας δειγµατοληψίας και απλής τυχαίας δειγµατοληψίας. Αυτό που πρέπει να

σηµειωθεί εδώ είναι, ότι η διακύµανση στις δύο αυτές περιπτώσεις είναι

διαφορετική επειδή είναι διαφορετικός ο τρόπος επιλογής του δείγµατος.

Συγκεκριµένα, ενώ στην απλή τυχαία δειγµατοληψία η επιλογή γίνεται ενιαία από τον

συνολικό πληθυσµό, στην στρωµατική απλή τυχαία δειγµατοληψία η επιλογή γίνεται

ανεξάρτητα και µε καθορισµένο δειγµατικό µέγεθος από διαφορετικά στρώµατα. Το

ίδιο ισχύει και για την εκτιµήτρια

Y

ˆ( )V Y

Y .

Καταµερισµός δείγµατος στην στρωµατική απλή τυχαία δειγµατοληψία

Πριν από την επιλογή δείγµατος σε κάθε στρώµα, πρέπει να καθοριστούν τα

δειγµατικά µεγέθη (h=1,….,H). Για δεδοµένη στρωµάτωση του πληθυσµού, ο

καταµερισµός του συνολικού δειγµατικού µεγέθους n µπορεί να γίνει µε

διαφορετικούς τρόπους, ανάλογα µε την περίσταση.

hn

210

Βέλτιστος καταµερισµός

Ο καταµερισµός του δείγµατος που ελαχιστοποιεί την διακύµανση δίνεται από

τον τύπο

ˆ( )V Y

1

h hh H

h hh

N Sn nN S

=

=

∑

Ο βέλτιστος καταµερισµός απαιτεί γνώση των στρωµατικών τυπικών αποκλίσεων .

Στην πράξη, µόνο προσεγγιστικές τιµές των που βασίζονται σε προηγούµενη

εµπειρία µπορούν να χρησιµοποιηθούν για προσεγγιστικό υπολογισµό των βέλτιστων

µεγεθών . Οι τυπικέ αποκλίσεις δεν διαφέρουν πολύ από στρώµα σε στρώµα για

µερικούς τύπους στρωµάτωσης, όπως τα γεωγραφικά στρώµατα ή τύπο επιχείρησης.

Για δυαδική y οι διαφορές είναι µικρές. Για συνεχείς όµως µεταβλητές το αυξάνει

µε το µέγεθος της µεταβλητής.

hS

hS

hn

hS

Αυτό που πρέπει να τονιστεί εδώ είναι ότι ο ανωτέρω καταµερισµός είναι βέλτιστος για

αποτελέσµατα σε επίπεδο συνολικού πληθυσµού, ενώ για µερικά στρώµατα µπορεί να

δώσει ανεπαρκές , αν απαιτούνται εκτιµήσεις προκαθορισµένης ακρίβειας και για τα

επί µέρους στρώµατα.

hn

Χ-Βέλτιστος Καταµερισµός

Ο καταµερισµός αυτός, που έχει την δοµή του βέλτιστου καταµερισµού,

χρησιµοποιείται όταν µια βοηθητική µεταβλητή x µε ισχυρό συσχετισµό µε την

µεταβλητή y είναι διαθέσιµη κατά τον σχεδιασµό της δειγµατοληψίας, οπότε και οι

αντίστοιχες στρωµατικές τυπικές αποκλίσεις µπορούν να υπολογιστούν. Ο xhS

καταµερισµός αυτό ελαχιστοποιεί την διακύµανση και δίνεται από τον τύπο ˆ( )V X

1

h xhh H

h xhh

N Sn nN S

=

=

∑

Αν ο συσχετισµός των µεταβλητών x και y είναι τέλειος (δηλ. , 1,....,i iy a bx i N= + = )

211

τότε ο καταµερισµός αυτός είναι βέλτιστος. Αν ο συσχετισµός είναι ισχυρός αλλά όχι

τέλειος, τότε ο καταµερισµός αυτός είναι σχεδόν βέλτιστος και για αυτό

χρησιµοποιείται στην πράξη µε καλά αποτελέσµατα.

Αναλογικός καταµερισµός

Με τον αναλογικό καταµερισµό του δείγµατος στα στρώµατα τα δειγµατικά µεγέθη

καθορίζονται αναλογικά των στρωµατικών µεγεθών ,

hn

hN

1

hh H

hh

Nn nN

=

=

∑

∆εδοµένου ότι ο αναλογικός καταµερισµός είναι ανεξάρτητος των τυπικών

αποκλίσεων και στα στρωµατικά µεγέθη είναι γνωστά, τα δειγµατικά µεγέθη

µπορούν πάντα να υπολογιστούν.

hS hN

hn

Με τον αναλογικό καταµερισµό τα κλάσµατα δειγµατοληψίας hh

h

n nfN N

= = είναι τα

ίδια για όλα τα στρώµατα. Κατά συνέπεια, οι αναγωγικοί συντελεστές είναι ίδιοι για

όλες τις µονάδες πληθυσµού.

Όταν οι τυπικές αποκλίσεις είναι ίδιες για όλα τα στρώµατα, ο αναλογικός

καταµερισµός έχει ως αποτέλεσµα µεγαλύτερη διακύµανση .

hS

ˆ( )V Y

Καταµερισµός Αναλογικός του ολκού Χ

Η παραλλαγή του αναλογικού καταµερισµού, τα δειγµατικά µεγέθη καθορίζονται

αναλογικά των στρωµατικών ολικών

hn

hX , όταν αυτοί είναι γνωστοί δηλ.

1

hh H

hh

Xn nX

=

=

∑

ο εύχρηστος αυτός καταµερισµός δεν υπολείπεται πολύ του βέλτιστου όταν ο

συσχετισµός των µεταβλητών x και y είναι ισχυρός και ο συντελεστής µεταβλητότητας

h

h

SCVY

= είναι περίπου ίδιος σε όλα τα στρώµατα.

212

Καθορισµός του µεγέθους του στρωµατικού απλού τυχαίου δείγµατος

Ο σκοπός του βέλτιστου καταµερισµού είναι να δώσει τα πιο ακριβή αποτελέσµατα

από ένα δείγµα δεδοµένου µεγέθους ή να ελαχιστοποιεί το συνολικό µέγεθος

δείγµατος που απαιτείται για αποτελέσµατα δεδοµένης ακρίβειας.

Για κάθε τρόπο καταµερισµού του δείγµατος στα στρώµατα, τα δειγµατικά µεγέθη

έχουν ίδια µορφή όπου είναι η αναλογία του συνολικού δείγµατος που

αντιστοιχεί στο στρώµα h, ώστε

hn nb= h

1hb

hb

1

0 1H

hh

b και=

< < ∑ = . Το συνολικό δειγµατικό

µέγεθος n µπορεί να καθοριστεί από τον περιορισµό ˆ( )V Y

cY

≤ όπου c είναι το

ανώτατο όριο επιτρεπόµενου σχετικού τυπικού σφάλµατος της εκτιµήτριας . Για

στρωµατική απλή τυχαία δειγµατοληψία, γράφοντας την διακύµανση µε την

µορφή

Yˆ( )V Y

2 22

1 1

ˆ( )H H

h hh h

h hh

N SV Y N Sn= =

= −∑ ∑

αντικαθιστώντας , h hn nb= 2 2ˆ( )V Y c Y= και λύνοντας ως προς n, εύκολα προκύπτει

ότι

2 2

1

2 2 2

1

/H

h h hh

H

h hh

N S bn

c Y N S

=

=

=+

∑

∑

και εποµένως

2 2

1

2 2 2

1

/H

h h hh

h h H

h hh

N S bn b

c Y N S

=

=

=+

∑

∑

213

Αλγόριθµος για Στρωµατική ∆ειγµατοληψία

function [stocks ret]=algorithmos03(data,nc,sel);

% o algorithmos03 αναφέρεται στην στρωµατική δειγµατοληψία. Σε αυτή την

% περίπτωση, καταρχάς πρέπει να επιλέξουµε ένα κριτήριο για να χωρίσουµε το

% συνολικό δείγµα µας σε έναν αριθµό υποδειγµάτων. Το κριτήριο κατασκευής

% στρωµάτων είναι υποκειµενικό και µπορεί να ποικίλει σε κάθε περίπτωση.

% enum: είναι ο συνολικός πληθυσµός

% nc:είναι το συνολικό δειγµατικό µέγεθος που θα επιλεχτεί από τα στρώµατα

% sel=1 το µέγεθος του δείγµατος καθορίζεται από τον χρήστη

% sel=2 το µέγεθος του δείγµατος ορίζεται από τον βέλτιστο καταµερισµό

N=cols(data);

ret=log(data(2:end,:)./data(1:end-1,:));

aux_mat=[];

for i=1:N

aux_mat=[aux_mat std(ret(:,i))];

end

ind1=find(aux_mat<=0.015);

ind2=find(aux_mat>0.015 & aux_mat<=0.025);

ind3=find(aux_mat>0.025);

l=[length(ind1) length(ind2) length(ind3)];

s=[std(mean(ret(:,ind1))) std(mean(ret(:,ind2))) std(mean(ret(:,ind3)))];

switch sel

case 1

nc=round(nc/3);

for i=1:3

mat=[];

214

while length(mat)~=nc

index=round(1+(l(i)-1)*rand(1));

if ~ismember(indi(index),mat);

mat=[mat indi(index)];

end

end

stocksi=mat;

end

case 2

for i=1:3

nh(i)=round(nc*((l(i)*s(i))/sum(l.*s)));

mat=[];

while length(mat)~=nh(i)

index=round(1+(l(i)-1)*rand(1));

if ~ismember(indi(index),mat);

mat=[mat indi(index)];

end

end

stocksi=mat;

end

end

215

8. ΠΡΟΒΛΕΨΕΙΣ

Σε αυτό το κεφάλαιο θα ασχοληθούµε µε την περαιτέρω ανάλυση των

προβλεπόµενων τιµών που εξάγονται τρέχοντας κάποια παλινδρόµηση. Στην ουσία οι

προβλεπόµενες τιµές είναι τα . Υ

Για να θυµηθούµε λίγο την διαδικασία θα χρησιµοποιήσουµε το παράδειγµα των

παιχτών NBA. Αυτό που θέλουµε έχοντας για dataset τις επιδόσεις 105 αθλητών του

NBA στο Πόντους ανά αγώνα, Rebound, Assist, %καλάθια εντός περιοχής,

%ευστοχίας ελεύθερων βολών.


Αν τρέξουµε όµως την παλινδρόµηση (µε την µέθοδο Stepwise εφόσον κάποιες από

τις µεταβλητές είχαν µεγάλο P-value στο πίνακα των Coefficients οπότε δεν είναι

κατάλληλες για το µοντέλο µας) και ελέγξουµε τις υποθέσεις του µοντέλου

(Κανονικότητα, Οµοσκεδαστικότητα, Ανεξαρτησία, Πολυσυγγραµµικότητα και

Γραµµικότητα) θα δούµε ότι παραβιάζονται οι υποθέσεις της κανονικότητας (και δύο

216

έλεγχοι Kolmogorov-Smirnov και Shapiro-Wilks δίνουν p-value 0.000<0.05 οπότε

απορρίπτεται η µηδενική υπόθεση που υποστηρίζει ότι τα κατάλοιπα του µοντέλου

ακολουθούν κανονική κατανοµή) και της Οµοσκεδαστικότητας (αφού τα διαγράµµατα

σηµείων των καταλοίπων έναντι των επεξηγηµατικών φαίνεται να έχουν κάποιο

pattern και να µην είναι τυχαία, ένα σύννεφο σηµείων).

Αυτό που µπορούµε να κάνουµε για να διορθώσουµε τις δύο υποθέσεις που µας

προβληµατίζουν είναι να χρησιµοποιήσουµε κάποιους µετασχηµατισµού είτε στην

εξαρτηµένη, είτε στις επεξηγηµατικές, είτε και στα δύο είδη µεταβλητών. Μετά από

δοκιµές στον υπό µελέτη µοντέλο µας βρήκαµε ότι το καλύτερο είναι να

µετασχηµατίσουµε και την εξαρτηµένη αλλά και κάποιες από τις επεξηγηµατικές. Σαν

µετασχηµατισµό χρησιµοποιήσαµε τον λογάριθµο. Εποµένως πλέον η εξαρτηµένη µας

είναι ο λογάριθµος των Πόντων ανά λεπτό των παιχτών και οι επεξηγηµατικές που

µετασχηµατίσαµε παίρνοντας τον λογάριθµό τους είναι Rebound ανά λεπτό και Assist

ανά λεπτό.

Toν µετασχηµατισµό στο SPSS µπορούµε να το κάνουµε µε το µενού:

Transform> Compute

Και κάνουµε τα εξής:

217

Θα προσέξουµε οπωσδήποτε να βάλουµε την ονοµασία της νέας µετασχηµατισµένη

µεταβλητής στο κουτάκι Target Variable, µετά θα επιλέξουµε την µεταβλητή που

θέλουµε να µετασχηµατίσουµε, εδώ τους Πόντους ανά λεπτό των παιχτών µετά θα

πάµε στο κουτάκι Function group και θα επιλέξουµε All και µετά στο ακριβώς στο από

κάτω κουτάκι θα ψάξουµε να βρούµε την συνάρτηση του λογαρίθµου Ln.

Και µετά πατάµε ΟΚ και στην τελευταία στήλη του dataset µας θα έχει δηµιουργηθεί η

νέα µετασχηµατισµένη µεταβλητή.

Το ίδιο θα κάνουµε και για τις επεξηγηµατικές µεταβλητές που θέλουµε να

µετασχηµατίσουµε.

Τρέχοντας την παλινδρόµηση θα δούµε ότι κάποιες από τις µεταβλητές δεν φαίνεται

να είναι στατιστικά σηµαντικές.

218

Εποµένως θα χρησιµοποιήσουµε την µέθοδο Stepwise

219

Από το νέο πινακάκι των Coefficients παρατηρούµε ότι οι µόνες µεταβλητές που

φαίνεται να είναι στατιστικά σηµαντικές για το µοντέλο είναι logRebound, %ποσοστό

καλαθιών εντός περιοχής, %ευστοχία ελευθέρων βολών. Βέβαια από τον έλεγχο

υπάρχει µια αµφιβολία για την σηµαντικότητα της σταθεράς στο µοντέλο, επειδή όµως

η σταθερά του µοντέλου είναι πολύ χρήσιµη στην εκτίµηση του µοντέλου αλλά και

στην εξαγωγή συµπερασµάτων, την σταθερά θα την αφαιρούµε µόνο όταν είναι

αναγκαστικό. Και επιπλέον από το πίνακα της ANOVA φαίνεται πως το µοντέλο µας

είναι στατιστικά σηµαντικό αφού p-value=0.000<0.05 εποµένως η µηδενική υπόθεση

απορρίπτεται που θέλει 0 1 2: ..... 0nH β β β= = = = .

220

Αν ξανά ελέγξουµε της υποθέσεις του γραµµικού µοντέλου µε τον τρόπο που έχουµε

αναφέρει πιο πάνω, θα έχουµε:

Κανονικότητα

Τα p-value είναι µεγάλα (>0,05) εποµένως δεν απορρίπτεται η µηδενική υπόθεση ότι

τα κατάλοιπα ακολουθούν κανονική κατανοµή. Αυτό µπορούµε να το δούµε και από

το ιστόγραµµα:

221

2,000000,00000-2,00000


12

10

8

6

4

2

0

Freq

uenc

y

Mean = 9,322404E-15Std. Dev. = 0,98547138N = 105

Histogram

Οµοσκεδαστικότητα:

Όπως είπαµε θα κάνουµε ένα πίνακα διαγραµµάτων σηµείων (Matrix Scatter Plot) των

καταλοίπων µε τις επεξηγηµατικές που είναι στατιστικά σηµαντικές για το µοντέλο

µας.


222

Και το αποτέλεσµα που θα πάρουµε είναι

223

Εµάς µας ενδιαφέρει να δούµε µόνο την γραµµή που αφορά τα Standardized

Residuals σε σχέση µε τις επεξηγηµατικές µεταβλητές. Από τα διαγράµµατα παραπάνω

παρατηρούµε ότι τα σηµεία είναι τυχαιοποιηµένα, δηλαδή σύννεφο (δεν είναι τόσο

καθαρό αλλά δεν φαίνεται να έχουµε κάποιο πρόβληµα).

Γραµµικότητα

Για τον έλεγχο της γραµµικότητας, όπως ειπώθηκε παραπάνω αυτό που µπορούµε να

κάνουµε είναι ένα διάγραµµα των προβλεπόµενων τιµών έναντι των καταλοίπων.


και κάνουµε τις εξής επιλογές

224

Πατάµε Continue και µετά OK.

Το αποτέλεσµα θα είναι το διάγραµµα σηµείων παρακάτω:

420-2-4

Regression Standardized Residual

5

4

3

2

1

0

-1

-2

Regr

essio

n St

anda

rdize

d Pr

edict

edVa

lue

Dependent Variable: Pontoi_log

Scatterplot

225

Αναµένεται 0.05*105 παρατηρήσεις εκτός του [-2,2], δηλαδή το πολύ 5

παρατηρήσεις έξω από τον διάστηµα παραπάνω. Εδώ βλέπουµε 2 σηµεία έξω από ο

διάστηµα οπότε είµαστε καλά και δεν παραβιάζεται η υπόθεση της γραµµικότητας.

Ανεξαρτησία

Θα κάνουµε την διαδικασία που είπαµε στην αρχή του κεφαλαίου, ώστε να εξάγουµε

τον δείκτη Durbin-Watson.

Αν κάνουµε την διαδικασία θα έχουµε:

Βλέπουµε ότι η τιµή είναι κοντά στο 2 οπότε δεν έχουµε πρόβληµα ανεξαρτησίας

καταλοίπων. Επιπλέον από αυτό το πινακάκι βλέπουµε ότι από το µοντέλο εξηγείται το

72,4% της συνολική διακύµανσης. (αρκετά καλό ποσοστό).

Πολυσυγγραµµικότητα

Όπως και στην αρχή της ενότητας, το µέτρο µου χρησιµοποιούµε για να ελέγξουµε

αν υπάρχει πολυσυγγραµµικότητα είναι το VIF. Για τιµές µεγαλύτερες από 10 έχουµε

σοβαρό πρόβληµα πολυσυγγραµµικότητας.

Κάνοντας την διαδικασία που αναφέραµε στην αρχή της ενότητας για την πολλαπλή

παλινδρόµηση, θα έχουµε

226

Βλέπουµε ότι καµία από τις µεταβλητές δεν φαίνεται να έχει VIF πάνω από 10 οπότε

όλα καλά και δεν υπάρχει πολυσυγγραµµικότητα.

Οπότε όλες οι υποθέσεις µας διορθώθηκαν.

Εποµένως όλες οι εκτιµήσεις µας είναι συνεπείς πλέον, άρα και σωστές.

Έχοντας κρατήσει τις προβλεπόµενες τιµές θα κάνουµε ένα διάγραµµα σηµείων

(scatter plot) που στον άξονα των Υ θα είναι οι προβλεπόµενες τιµές και στον άξονα Χ

θα είναι οι τιµές των Υ. Το σηµείο (παίχτης) που θα έχει την ψηλότερη προβλεπόµενη

τιµή στο διάγραµµα τότε ο παίχτης που αντιπροσωπεύει αυτό το σηµείο θα είναι και

αυτός που θα προτείνουµε. Έτσι:

Graph> Scatter Plot> Simple

227

Το επιπλέον που κάνουµε εδώ είναι να εισάγουµε στο κουτάκι Set Markers by την

στήλη µε τα ονόµατα των παιχτών ώστε κάθε σηµείο να έχει διαφορετικό χρώµα.

Όπως παρακάτω. Για να καταλάβουµε τώρα σε ποιον παίχτη αντιστοιχεί το σηµείο µε

την µεγαλύτερη προβλεπόµενη τιµή, απλά έτσι όπως µας έχει εξαγάγει το SPSS το

διάγραµµα σηµείων θα διπλοπατήσουµε πάνω του και θα ανοίξει το διάγραµµα σε ένα

άλλο παράθυρο. Αν πατήσουµε µία φορά πάνω στο σηµείο µε την ψηλότερη

προβλεπόµενη τιµή και µετά ξανά πατήσουµε άλλη µία φορά πάνω στο σηµείο θα

εµφανιστεί σε πλαίσιο το όνοµα του παίχτη στον οποίο αναφέρεται το σηµείο.

228

Εδώ βλέπουµε ότι ο παίχτης που θα προτείναµε σαν καλύτερο αναµενόµενο παίχτη

στους πόντους ανά αγώνα είναι ο Μ. Jordan.

Όλα τα παραπάνω είναι εφαρµόσιµα στην περίπτωση που το δείγµα, το οποίο θα

εφαρµόσουµε την γραµµική παλινδρόµηση ώστε να εξάγουµε (εκτιµήσουµε) τις

προβλεπόµενες τιµές, είναι µικρό (µέχρι 80 παρατηρήσεις για κάθε µεταβλητή).

Τώρα στην περίπτωση που έχουµε περισσότερες από 80 παρατηρήσεις για κάθε

µεταβλητή θα παρουσιαστεί «σύγχυση» στο διάγραµµα µας µε συνέπεια να µην είναι

ευδιάκριτο το ποίο Υ φαίνεται να έχει την µεγαλύτερη προβλεπόµενη τιµή. Για αυτό

µια καλή λύση είναι να χρησιµοποιήσουµε το «View Editor» που προσφέρει το SPSS

για τα διαγράµµατα, αφού πρώτα κάνουµε την εξής επιλογή στην εξαγωγή του

διαγράµµατος.

229

3,503,002,502,001,501,000,50

Pontoi_log

3,00000

2,00000

1,00000

0,00000

Uns

tand

ardi

zed

Pred

icte

d Va

lue

230

Όταν εξάγουµε το διάγραµµα απλά διπλοκλικάρουµε πάνω του και βγαίνει το View

Editor µε το οποίο µπορούµε να επεξεργαστούµε το διάγραµµα:

Θα κάνουµε ένα κλικ πάνω στο σηµείο που βρίσκεται πιο ψηλά στο διάγραµµα και

µετά ξανακλικάρουµε. Το αποτέλεσµα θα είναι το συγκεκριµένο σηµείο να περικλείεται

από ένα µπλε κύκλο όπως παραπάνω. Μετά κάνουµε δεξί κλικ πάνω σε αυτό το

σηµείο:

231

Αυτό που συµβαίνει είναι να βγει ένα µενού όπως παραπάνω. Οι πιο σηµαντικές από

τις παραπάνω επιλογές είναι «Add X Axis Reference Line», η οποία βάζει µια γραµµή

οριζόντια στο διάγραµµα την οποία µπορούµε να εµείς να ρυθµίσουµε που θέλουµε να

την τοποθετήσουµε µέσα στο διάγραµµα, η «Add Y Axis Reference», η οποία κάνει

ακριβώς το ίδιο µε την προηγούµενη επιλογή µόνο που η γραµµή πλέον είναι κάθετη

και όχι οριζόντια και η επιλογή «Show Data Labels».

Εµείς θα διαλέξουµε το µενού Show Data Labels. Αυτή η επιλογή µας δίνει την

δυνατότητα να δούµε σε ποιο Y αντιστοιχεί η συγκεκριµένη η προβλεπόµενη τιµή,

όπως παρακάτω:

232

Η ερµηνεία θα είναι ίδια µε την ερµηνεία που δώσαµε παραπάνω.

Αντίστοιχη ερµηνεία µπορούµε να δώσουµε και για τις µικρότερες προβλεπόµενες

τιµές.

Οι προβλέψεις, γενικά, µας δίνουν την δυνατότητα, ιδιαίτερα σε χρηµατοοικονοµικά

χαρακτηριστικά εταιριών (Disclosure Performance), να δούµε την πορεία που

πιθανότατα να έχει κάποια εταιρία στο µέλλον, ενώ παράλληλα θα µπορούσαµε να

χρησιµοποιήσουµε τις προβλέψεις για να συγκρίνουµε τις πορείες κάποιων εταιριών.

233

ΒΙΒΛΙΟΓΡΑΦΙΑ

∆ηµήτρης, Καρλής 2005, Πολυµεταβλητή Στατιστική Ανάλυση,

Εκδόσεις Αθ. Σταµούλη, Αθήνα

Marija J. Norusis 2005, Οδηγός Ανάλυσης ∆εδοµένων µε το SPSS

12.0, Εκδόσεις Κλειδάριθµος, Αθήνα

Βασίλης Βασδέκης και Ειρήνη Μουστάκη, Ανάλυση Κατηγορικών

δεδοµένων, Πανεπιστηµιακές Σηµειώσεις, Οικονοµικό Πανεπιστήµιο

Αθηνών, Τµήµα Στατιστικής

Ευδοκία Ξεκαλάκη 2001, Μη Παραµετρική Στατιστική,

Εκδόσεις Οικονοµικό Πανεπιστήµιο Αθηνών, Αθήνα

Μερκούρης Παναγιώτης, Μοντέλα ∆ειγµατοληπτικών Ερευνών,

Πανεπιστηµιακές Σηµειώσεις, Οικονοµικό Πανεπιστήµιο Αθηνών,

Τµήµα Στατιστικής

Βασίλης Βασδέκης- Στέλιος Ψαράκης, Ανάλυση ∆ιακύµανσης και

Σχεδιασµός Πειραµάτων, Πανεπιστηµιακές Σηµειώσεις, Οικονοµικό

Πανεπιστήµιο Αθηνών, Αθήνα 2005

Ντζούφρας Ιωάννης 2005, Ανάλυση ∆εδοµένων, Πανεπιστηµιακές

Σηµειώσεις, Οικονοµικό Πανεπιστήµιο Αθηνών, Τµήµα Στατιστικής

234

Documents

Odigos-SPSS-Pramaggioulis