61
Περιγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 16 Περιγραφική Στατιστική Όπως, ήδη έχουμε αναφέρει, στόχος της Περιγραφικής Στατιστικής είναι, «η ανάπτυξη μεθόδων για τη συνοπτική και την αποτελεσματική παρουσίαση των δεδομένων». Για το σκοπό αυτό, έχουν αναπτυχθεί, 1. Μέθοδοι πινακοποίησης των δεδομένων 2. Μέθοδοι γραφικής παρουσίασης των δεδομένων 3. Αριθμητικά περιγραφικά μέτρα 1 Οι μέθοδοι παρουσίασης-περιγραφής δεδομένων αλλά και γενικότερα οι στατιστικές μέθοδοι, δεν εφαρμόζονται όλες σε όλους τους τύπους μεταβλητών. Για παράδειγμα, στον Πίνακα-1 που ακολουθεί, παρουσιάζονται 20 παρατηρήσεις για καθένα από τέσσερα χαρακτηριστικά είκοσι οικογενειών που επελέγησαν τυχαία από το σύνολο των οικογενειών μιας μικρής ελληνικής επαρχιακής πόλης. Όπως, θα διαπιστώσουμε στη συνέχεια, οι δυνατότητες που έχουμε για την περιγραφή αυτών των δεδομένων δεν είναι ίδιες και για τα τέσσερα χαρακτηριστικά/μεταβλητές (επάγγελμα πατέρα, επίπεδο εκπαίδευσης πατέρα, μηνιαίο εισόδημα πατέρα και αριθμός παιδιών οικογένειας). Επίσης, η μέση τιμή π.χ. της μεταβλητής κατεύθυνση του ίχνους της κίνησης πάγων του Πίνακα-2, ως έννοια είναι ανάλογη της μέσης τιμής της μεταβλητής μηνιαίο εισόδημα πατέρα του Πίνακα-1, όμως η μέθοδος υπολογισμού της διαφοροποιείται σημαντικά. Πίνακας-1 Οικογένεια Επάγγελμα πατέρα Επίπεδο εκπαίδευσης πατέρα 2 Μηνιαίο εισόδημα πατέρα σε Αριθμός παιδιών Οικογένειας 1 Εργάτης 1 1400 0 2 Οδηγός 3 1500 1 3 Εργάτης 2 1600 0 4 Δημ. Υπάλληλος 3 1400 2 5 Δημ. Υπάλληλος 3 1600 2 6 Δημ. Υπάλληλος 2 1000 2 7 Δάσκαλος 3 1800 3 8 Ιδιωτ. Υπάλληλος 4 2000 2 9 Οδηγός 2 1200 4 10 Εργάτης 2 1200 1 11 Δάσκαλος 3 1400 1 12 Δάσκαλος 3 1200 2 13 Δάσκαλος 3 1600 3 14 Δημ. Υπάλληλος 2 1400 4 15 Ιδιωτ. Υπάλληλος 3 1800 1 16 Δάσκαλος 3 2000 2 17 Εργάτης 1 1800 2 18 Δημ. Υπάλληλος 3 1300 2 19 Δάσκαλος 3 1500 2 20 Δημ. Υπάλληλος 4 1600 2 1 Τα αριθμητικά περιγραφικά μέτρα είναι αριθμητικά μεγέθη τα οποία βοηθούν στην περιγραφή της κατανομής των δεδομένων. Πολλά από αυτά χρησιμοποιούνται και στη στατιστική συμπερασματολογία. Τα αριθμητικά περιγραφικά μέτρα για τον πληθυσμό ονομάζονται παράμετροι (parameters) ενώ για το δείγμα ονομάζονται στατιστικά (summary statistics). 2 1= Πρωτοβάθμια Εκπαίδευση, 2= Δευτεροβάθμια Εκπαίδευση, 3= Τριτοβάθμια Εκπαίδευση και 4=Μεταπτυχιακές Σπουδές

Περιγραφική Στατιστική - aua.gr · Περιγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

  • Upload
    others

  • View
    11

  • Download
    0

Embed Size (px)

Citation preview

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 16

Περιγραφική Στατιστική

Όπως, ήδη έχουμε αναφέρει, στόχος της Περιγραφικής Στατιστικής είναι, «η ανάπτυξη μεθόδων για τη συνοπτική και την αποτελεσματική παρουσίαση των δεδομένων». Για το σκοπό αυτό, έχουν αναπτυχθεί, 1. Μέθοδοι πινακοποίησης των δεδομένων 2. Μέθοδοι γραφικής παρουσίασης των δεδομένων 3. Αριθμητικά περιγραφικά μέτρα1 Οι μέθοδοι παρουσίασης-περιγραφής δεδομένων αλλά και γενικότερα οι στατιστικές μέθοδοι, δεν εφαρμόζονται όλες σε όλους τους τύπους μεταβλητών. Για παράδειγμα, στον Πίνακα-1 που ακολουθεί, παρουσιάζονται 20 παρατηρήσεις για καθένα από τέσσερα χαρακτηριστικά είκοσι οικογενειών που επελέγησαν τυχαία από το σύνολο των οικογενειών μιας μικρής ελληνικής επαρχιακής πόλης. Όπως, θα διαπιστώσουμε στη συνέχεια, οι δυνατότητες που έχουμε για την περιγραφή αυτών των δεδομένων δεν είναι ίδιες και για τα τέσσερα χαρακτηριστικά/μεταβλητές (επάγγελμα πατέρα, επίπεδο εκπαίδευσης πατέρα, μηνιαίο εισόδημα πατέρα και αριθμός παιδιών οικογένειας). Επίσης, η μέση τιμή π.χ. της μεταβλητής κατεύθυνση του ίχνους της κίνησης πάγων του Πίνακα-2, ως έννοια είναι ανάλογη της μέσης τιμής της μεταβλητής μηνιαίο εισόδημα πατέρα του Πίνακα-1, όμως η μέθοδος υπολογισμού της διαφοροποιείται σημαντικά.

Πίνακας-1 Οικογένεια Επάγγελμα

πατέρα Επίπεδο

εκπαίδευσης πατέρα2

Μηνιαίο εισόδημα πατέρα σε €

Αριθμός παιδιών

Οικογένειας

1 Εργάτης 1 1400 0 2 Οδηγός 3 1500 1 3 Εργάτης 2 1600 0 4 Δημ. Υπάλληλος 3 1400 2 5 Δημ. Υπάλληλος 3 1600 2 6 Δημ. Υπάλληλος 2 1000 2 7 Δάσκαλος 3 1800 3 8 Ιδιωτ. Υπάλληλος 4 2000 2 9 Οδηγός 2 1200 4

10 Εργάτης 2 1200 1 11 Δάσκαλος 3 1400 1 12 Δάσκαλος 3 1200 2 13 Δάσκαλος 3 1600 3 14 Δημ. Υπάλληλος 2 1400 4 15 Ιδιωτ. Υπάλληλος 3 1800 1 16 Δάσκαλος 3 2000 2 17 Εργάτης 1 1800 2 18 Δημ. Υπάλληλος 3 1300 2 19 Δάσκαλος 3 1500 2 20 Δημ. Υπάλληλος 4 1600 2

1 Τα αριθμητικά περιγραφικά μέτρα είναι αριθμητικά μεγέθη τα οποία βοηθούν στην περιγραφή της κατανομής των δεδομένων. Πολλά από αυτά χρησιμοποιούνται και στη στατιστική συμπερασματολογία. Τα αριθμητικά περιγραφικά μέτρα για τον πληθυσμό ονομάζονται παράμετροι (parameters) ενώ για το δείγμα ονομάζονται στατιστικά (summary statistics). 2 1= Πρωτοβάθμια Εκπαίδευση, 2= Δευτεροβάθμια Εκπαίδευση, 3= Τριτοβάθμια Εκπαίδευση και 4=Μεταπτυχιακές Σπουδές

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 17

Πίνακας-2 Κατεύθυνση του ίχνους της κίνησης πάγων

(σε μοίρες από το βορρά και κατά τη φορά των δεικτών του ωρολογίου)

23 93 121 128 137 155 186 27 99 123 128 144 157 190 53 100 125 129 145 163 212 58 105 126 132 145 165 64 113 126 132 146 171 83 113 126 132 153 172 85 114 127 134 155 179 88 117 127 135 155 181

Στη συνέχεια, θα παρουσιάσουμε συνοπτικά τις δυνατότητες που μας προσφέρει η Περιγραφική Στατιστική ανά τύπο μεταβλητής.

Έστω nxxx ...,,, 21 , οι τιμές μιας μεταβλητής X σε n δειγματοληπτικές ή πειραματικές μονάδες και ( )ν≤kyyy k...,,, 21 οι k διαφορετικές, μεταξύ τους, τιμές από τις

nxxx ...,,, 21 .

Έστω, επίσης, kfff ,...,, 21 οι σχετικές συχνότητες, kννν ,...,, 21 οι απόλυτες συχνότητες, kFFF ,...,, 21 οι σχετικές αθροιστικές συχνότητες και kNNN ,...,, 21 οι αθροιστικές συχνότητες των kyyy ...,,, 21 . Ποσοτικές Μεταβλητές Για τις ποσοτικές μεταβλητές, η Περιγραφική Στατιστική προσφέρει, μεταξύ άλλων, τις ακόλουθες δυνατότητες:

Κατασκευή Πίνακα Συχνοτήτων Ο πίνακας συχνοτήτων μιας ποσοτικής μεταβλητής περιλαμβάνει τις συχνότητες, τις σχετικές συχνότητες, τις αθροιστικές συχνότητες και τις σχετικές αθροιστικές συχνότητες των τιμών της. Παράδειγμα-1: Ο πίνακας συχνοτήτων των τιμών της μεταβλητής αριθμός παιδιών οικογένειας στο δείγμα του Πίνακα-1, είναι:

iy iν if iN iF 0 2 0.1 2 0.1 1 4 0.2 6 0.3 2 10 0.5 16 0.8 3 2 0.1 18 0.9 4 2 0.1 20 1.0

Σύνολα 20 1.0

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 18

Ο πίνακας συχνοτήτων των τιμών της μεταβλητής μηνιαίο εισόδημα πατέρα στο δείγμα του Πίνακα-1, ομαδοποιημένων σε 6 κλάσεις, πλάτους 200€ η κάθε μια, είναι:

Εισόδημα iy iν if iN iF

≤ 900 - 0 0 0 0 (900 1100] 1000 1 0.05 1 0.05 (1100 1300] 1200 4 0.2 5 0.25 (1300 1500] 1400 6 0.3 11 0.55 (1500 1700] 1600 4 0.2 15 0.75 (1700 1900] 1800 3 0.15 18 0.9 (1900 2100] 2000 2 0.1 20 1.0

>2100 - 0 0 20 1.0 Σύνολα 20 1.0

Κατασκευή διαγραμμάτων • Διάγραμμα και Πολύγωνο Συχνοτήτων, Σχετικών Συχνοτήτων, Αθροιστικών

Συχνοτήτων και Σχετικών Αθροιστικών Συχνοτήτων (για διακριτές) • Ιστόγραμμα και Πολύγωνο Συχνοτήτων, Σχετικών Συχνοτήτων, Αθροιστικών

Συχνοτήτων και Σχετικών Αθροιστικών Συχνοτήτων (για συνεχείς κυρίως) • Φυλλογράφημα • Θηκόγραμμα

Το ιστόγραμμα και τα πολύγωνα συχνοτήτων και σχετικών συχνοτήτων των τιμών της μεταβλητής μηνιαίο εισόδημα πατέρα στο δείγμα του Πίνακα-1 είναι3:

Επισημαίνουμε ότι κάθε ορθογώνιο του ιστογράμματος σχεδιάζεται έτσι, ώστε, το εμβαδόν του να ισούται με τη συχνότητα (ή τη σχετική συχνότητα) της αντίστοιχης κλάσης4. Επομένως το συνολικό εμβαδόν των ορθογωνίων είναι ίσο με το πλήθος των παρατηρήσεων n (ή είναι ίσο με 1). Επίσης, το εμβαδόν που περικλείεται μεταξύ του πολυγώνου συχνοτήτων ή σχετικών συχνοτήτων και του οριζόντιου άξονα είναι ίσο με n ή με 1 αντίστοιχα. Οποιοδήποτε τμήμα αυτού του εμβαδού μπορεί να υπολογισθεί (ακριβέστερα, να εκτιμηθεί), δίνοντάς μας το ποσοστό των παρατηρήσεων που βρίσκονται μεταξύ δύο τιμών της μεταβλητής ή αριστερά μιας τιμής ή δεξιά μιας τιμής. Όσο το μέγεθος του δείγματος αυξάνεται και το πλάτος των κλάσεων μειώνεται, το πολύγωνο συχνοτήτων παίρνει μορφή λείας καμπύλης η οποία ονομάζεται καμπύλη συχνοτήτων. 3 Είναι προφανές ότι η μορφή του ιστογράμματος επηρεάζεται δραστικά από την επιλογή των κλάσεων. 4 Αν όλες οι κλάσεις έχουν ίδιο πλάτος, τότε προφανώς και τα ύψη των ορθογωνίων θα είναι ίσα με τις αντίστοιχες συχνότητες ή σχετικές συχνότητες. Αν όμως οι κλάσεις δεν έχουν ίδιο πλάτος τότε, ίσα με τις αντίστοιχες συχνότητες ή τις σχετικές συχνότητες είναι μόνο τα εμβαδά και όχι τα ύψη.

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 19

Οι καμπύλες συχνοτήτων, πέραν της προφανούς χρησιμότητάς τους στο πλαίσιο της Περιγραφικής Στατιστικής, έχουν μεγάλη σπουδαιότητα στη Θεωρία Πιθανοτήτων και στη Στατιστική Συμπερασματολογία5. Οι καμπύλες συχνοτήτων μπορεί να έχουν διάφορες μορφές όπως:

Όταν μια καμπύλη συχνοτήτων είναι συμμετρική ως προς τον κατακόρυφο άξονα που διέρχεται από την κορυφή της κατανομής, όπως η πρώτη από τις παραπάνω, τότε η κατανομή είναι συμμετρική. Τα δύο άκρα της καμπύλης λέγονται ουρές της κατανομής και πλησιάζουν ασυμπτωτικά τον άξονα των τιμών. Προφανώς, σε μια συμμετρική κατανομή, δεξιά και αριστερά του άξονα συμμετρίας βρίσκεται το ίδιο ποσοστό παρατηρήσεων (50%). Όταν η καμπύλη συχνοτήτων δεν είναι συμμετρική, δηλαδή, όταν δεξιά και αριστερά του κατακόρυφου άξονα που περνάει από την κορυφή δε βρίσκεται το ίδιο ποσοστό παρατηρήσεων, τότε η κατανομή είναι ασύμμετρη. Υπάρχουν δύο είδη ασυμμετρίας: Θετική ασυμμετρία και αρνητική ασυμμετρία. Μια καμπύλη συχνοτήτων παρουσιάζει 5 Γιατί είναι μαθηματικά μοντέλα

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 20

θετική ασυμμετρία όταν οι περισσότερες παρατηρήσεις βρίσκονται δεξιά της κορυφής, ενώ, παρουσιάζει αρνητική ασυμμετρία όταν οι περισσότερες παρατηρήσεις βρίσκονται αριστερά της κορυφής. Περισσότερα για το νόημα και την ερμηνεία του είδους της ασυμμετρίας αναφέρουμε στα επόμενα (σελ. 31).

Θετική ασυμμετρία

Αρνητική ασυμμετρία Τέλος, οι καμπύλες συχνοτήτων, ανάλογα με το βαθμό συγκέντρωσης των παρατηρήσεων στο μέσο και στα άκρα της κατανομής, διακρίνονται σε μεσόκυρτες, λεπτόκυρτες, και πλατύκυρτες:

Μεσόκυρτη Λεπτόκυρτη Πλατύκυρτη Όταν η καμπύλη συχνοτήτων μιας κατανομής είναι συμμετρική και έχει κωδωνοειδές σχήμα η κατανομή ονομάζεται κανονική.

Η κανονική κατανομή είναι η πλέον χρησιμοποιούμενη κατανομή στη Θεωρία Πιθανοτήτων και στη Στατιστική Συμπερασματολογία. Στο επόμενο κεφάλαιο θα εξηγήσουμε γιατί συμβαίνει αυτό.

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 21

Το ιστόγραμμα και το πολύγωνο σχετικών αθροιστικών συχνοτήτων της μεταβλητής μηνιαίο εισόδημα πατέρα του παραδείγματος-1, είναι:

Το εμβαδόν (και το ύψος) κάθε ορθογωνίου είναι ίσο με τη σχετική αθροιστική συχνότητα iF της αντίστοιχης κλάσης (ή με την αθροιστική συχνότητα iN ). Για παράδειγμα, μέχρι 1500€ μηνιαίο εισόδημα έχει το 55% των πατεράδων (όσο το εμβαδόν (και το ύψος) του ορθογωνίου που αντιστοιχεί στο διάστημα με δεξί άκρο την τιμή 1500). Ερώτηση: Στα δύο σχήματα που ακολουθούν, φαίνονται τα πολύγωνα σχετικών συχνοτήτων και τα πολύγωνα σχετικών αθροιστικών συχνοτήτων δύο κατανομών δεδομένων. Σχολιάστε τη σχετική θέση των αντίστοιχων πολυγώνων στα δύο σχήματα. Απάντηση: Η κατανομή της οποίας το πολύγωνο συχνοτήτων και το πολύγωνο σχετικών αθροιστικών συχνοτήτων βρίσκονται δεξιότερα είναι στοχαστικά μεγαλύτερη (σκεφθείτε τι μπορεί να σημαίνει αυτό).

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 22

Είναι προφανές, ότι με την ομαδοποίηση των παρατηρήσεων, χάνουμε σε πληροφορία αφού τόσο το ιστόγραμμα όσο και ο πίνακας συχνοτήτων δε διατηρούν τις αρχικές παρατηρήσεις. Αυτό το πρόβλημα μπορεί να αντιμετωπισθεί με την κατασκευή του φυλλογραφήματος (steam-leaf plots)6 των παρατηρήσεων. Για τη μεταβλητή μηνιαίο εισόδημα πατέρα, του παραδείγματος μας, μπορούμε να κατασκευάσουμε το φυλλογράφημα:

1 10|0 1 11| 4 12|000 5 13|0 9 14|0000 (2) 15|00 9 16|0000 5 17| 5 18|000 2 19| 2 20|00 Ως steam θεωρήσαμε τις εκατοντάδες και ως leaf τις δεκάδες. Δηλαδή, η τιμή 1200 αναπαρίσταται με 12|0 και η τιμή 1230 με 12 | 3. Είναι φανερό ότι από ένα φυλλογράφημα μπορεί κανείς, αμέσως, να διαπιστώσει αν μια συγκεκριμένη τιμή ανήκει (και πόσες φορές) στο δείγμα κάτι το οποίο δεν είναι δυνατόν να γίνει από ένα ιστόγραμμα. Για παράδειγμα, από το παραπάνω φυλλογράφημα εύκολα διαπιστώνουμε ότι η τιμή 1230 δεν υπάρχει στο δείγμα ενώ η τιμή 1600 υπάρχει και μάλιστα τέσσερις φορές. Το φυλλογράφημα, επηρεάζεται δραστικά από την επιλογή των steams όπως και το ιστόγραμμα επηρεάζεται δραστικά από την επιλογή των κλάσεων. Αξίζει, επίσης, να σημειώσουμε ότι η εικόνα-μορφή ενός φυλλογραφήματος είναι ανάλογη με αυτήν του αντίστοιχου ιστογράμματος (αν στραφεί κατά 900). Σημείωση: Στην πρώτη από αριστερά στήλη του φυλλογραφήματος φαίνονται οι αθροιστικές συχνότητες από πάνω προς τα κάτω και από κάτω προς τα πάνω μέχρι το steam στο οποίο περιλαμβάνεται η διάμεσος (στο παράδειγμά μας μέχρι το steam 15). Ας δούμε ένα ακόμη παράδειγμα: Με steam τις μονάδες και leaf τα δέκατα, το φυλλογράφημα των παρατηρήσεων: 7.4, 6.7, 12.7, 7.1, 7.8, 8.8, 6.1, 5.3, 8.1, 6.4 και 5.7, σε 5 steams είναι:

2 5|37 5 6|147 (3) 7|148 3 8|18 HI|12.7 Σημείωση: Με ΗΙ συμβολίζεται ένα steam που περιλαμβάνει μια «ασυνήθιστα μεγάλη τιμή».

6 Είναι μια από τις μεθόδους-τεχνικές της διερευνητικής ανάλυσης δεδομένων.

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 23

Μέτρα θέσης-κεντρικής τάσης (location measures-central tendency measures) Τα μέτρα θέσης-κεντρικής τάσης μας δίνουν πληροφορίες για τη θέση της κατανομής των παρατηρήσεων. Τα πλέον χρησιμοποιούμενα είναι η μέση τιμή, η διάμεσος, η κορυφή και τα ποσοστημόρια.

Μέση τιμή ή Αριθμητικός μέσος (mean) Η μέση τιμή ενός πληθυσμού συμβολίζεται με μ και η μέση τιμή ενός δείγματος με x .

∑∑

∑=

=

=

===k

iii

k

iii

ii yf

n

yx

nx

1

1

1

1νν

Από τον ορισμό της μέσης τιμής, είναι φανερό ότι αν οι τιμές nxxx ...,,, 21 είναι όλες μεταξύ τους ίσες, θα είναι ίσες με τη μέση τιμή τους. Φαίνεται, δηλαδή, ότι με τη μέση τιμή επιδιώκεται να ορισθεί ένας «τυπικός εκπρόσωπος» των παρατηρήσεων. Το γεγονός, όμως, ότι στον υπολογισμό της συμμετέχει το άθροισμα όλων των παρατηρήσεων, την καθιστά ευαίσθητη σε ακραίες-έκτροπες (outlying ή unusual) παρατηρήσεις7. Κατά συνέπεια, η μέση τιμή αποκρύπτει (από τον ανυποψίαστο) τις έκτροπες παρατηρήσεις. Δηλαδή, όταν υπάρχουν έκτροπες παρατηρήσεις, η μέση τιμή δίνει παραπλανητική εικόνα αν θεωρηθεί «τυπικός εκπρόσωπος» των παρατηρήσεων. Βέβαια, αν πάρουμε τις διαφορές των παρατηρήσεων από τη μέση τιμή τους, οι ακραίες τιμές αποκαλύπτονται. Παράδειγμα-2: Ο ιδιοκτήτης μιας μικρής επιχείρησης που απασχολεί πέντε εργαζομένους ισχυρίσθηκε σε δημοσιογράφο τοπικής εφημερίδας ότι οι εργαζόμενοι στην επιχείρησή του είναι πολύ καλά αμειβόμενοι αφού ο μέσος μισθός τους είναι 2.000€. Ο «υποψιασμένος» δημοσιογράφος ερεύνησε λεπτομερέστερα το θέμα και βρήκε ότι οι μισθοί των εργαζομένων ήταν 400, 400, 500, 700 και 8.000 € αντίστοιχα!8 Ο υπολογισμός της δειγματικής μέσης τιμής είναι πολύ απλός. Στα επόμενα θα δούμε σχετικά παραδείγματα. Ιδιότητες της μέσης τιμής Η μέση τιμή έχει, μεταξύ άλλων, τις παρακάτω ενδιαφέρουσες ιδιότητες:

♦ 0)()(11

=−=− ∑∑==

i

k

ii

n

ii xyxx ν

Δηλαδή, το άθροισμα των αποστάσεων (αποκλίσεων) των παρατηρήσεων nxxx ...,,, 21 από τη μέση τιμή τους x , είναι 0. Δηλαδή, η μέση τιμή είναι το σημείο

ισορροπίας της κατανομής των δεδομένων. Παράδειγμα-3: Για την κατανομή,

iy iν 2 1 3 5 4 3 6 1

Σύνολο 10

7 Στο πλαίσιο όμως της Θεωρίας Πιθανοτήτων και της Στατιστικής Συμπερασματολογίας, αυτό είναι το μεγάλο της πλεονέκτημα! (βλ. Κεντρικό Οριακό Θεώρημα στο επόμενο κεφάλαιο) 8 Ο μισθός των 8.000 € ήταν του manager και συνιδιοκτήτη!

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 24

προφανώς, είναι 5.3=x που σημαίνει ότι, αν στις θέσεις iy ενός άξονα τοποθετήσουμε ως βάρη τις αντίστοιχες συχνότητες iν τότε ο άξονας θα έχει σημείο ισορροπίας τη θέση 3.5.

Επίσης, αυτή η ιδιότητα μας λέει ότι αν από τις n διαφορές xxi − γνωρίζουμε τις

1−n , τότε μπορούμε να υπολογίσουμε και τη n-οστή. Επομένως, μπορούμε να

υπολογίσουμε το άθροισμα ∑=

−n

ii xx

1

2)( αν γνωρίζουμε τους 1−n από τους n όρους

του. Στη συνέχεια του μαθήματος θα επανέλθουμε στη σημασία αυτής της ιδιότητας.

♦ λλ ∀−<− ∑∑==

,)()( 2

11

2n

ii

n

ii xxx

Δηλαδή, το άθροισμα των τετραγώνων των αποκλίσεων των παρατηρήσεων

nxxx ...,,, 21 από τη μέση τιμή τους x , είναι μικρότερο από το άθροισμα των τετραγώνων των αποκλίσεών τους από οποιαδήποτε άλλη τιμή λ . Ή αλλιώς, το

άθροισμα ∑=

−n

iix

1

2)( λ γίνεται ελάχιστο αν και μόνο αν x=λ .

♦ Αν βω += ii x τότε βω += x . Δηλαδή, αν στις παρατηρήσεις nxxx ...,,, 21 προσθέσουμε μια σταθερή ποσότητα β (θετική ή αρνητική), τότε ο αριθμητικός μέσος τους θα αυξηθεί (ή θα μειωθεί) κατά την ίδια ποσότητα.

♦ Αν ii χαω ⋅= τότε χαω ⋅= . Δηλαδή, αν οι παρατηρήσεις nxxx ...,,, 21 , πολλαπλασιασθούν με την ίδια ποσότητα α , τότε ο αριθμητικός μέσος τους θα πολλαπλασιασθεί με την ίδια ποσότητα.

♦ Γενικά, αν βαω +⋅= ii x τότε βαω +⋅= x Συνοπτικά, η μέση τιμή έχει τα ακόλουθα πλεονεκτήματα και μειονεκτήματα:

Πλεονεκτήματα Μειονεκτήματα • Για τον υπολογισμό της χρησιμοποιούνται όλες οι τιμές.

• Είναι μοναδική για κάθε σύνολο δεδομένων.

• Είναι εύκολα κατανοητή. • Ο υπολογισμός της είναι σχετικά εύκολος.

• Αξιοποιείται στη στατιστική συμπερασματολογία

• Επηρεάζεται πολύ από ακραίες τιμές.

• Μπορεί να μην αντιστοιχεί σε δυνατή τιμή της μεταβλητής.

• Δεν υπολογίζεται για ποιοτικά δεδομένα.

• Είναι δύσκολος ο υπολογισμός της σε ομαδοποιημένα δεδομένα με ανοικτές τις ακραίες κλάσεις.

Σταθμικός αριθμητικός μέσος (weighted mean) Ο Σταθμικός αριθμητικός μέσος χρησιμοποιείται στις περιπτώσεις που τα nxxx ...,,, 21 έχουν διαφορετική αξία (διαφορετικό βάρος) νwww ...,,, 21 , αντίστοιχα. Δίνεται από τον τύπο:

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 25

=

== n

ii

n

iii

w

w

xwx

1

1

Ο σταθμικός αριθμητικός μέσος διατηρεί τις ιδιότητες του αστάθμητου αριθμητικού μέσου. Παράδειγμα-4: Ένας οδηγός φορτηγού διανομής τροφίμων, αγόρασε σε μια ημέρα πετρέλαιο από τρία διαφορετικά πρατήρια. Από το πρώτο αγόρασε 6 λίτρα προς 0.75 € το λίτρο, από το δεύτερο 12 λίτρα προς 0.84 € το λίτρο και από το τρίτο 5 λίτρα προς 0.76 € το λίτρο. Προφανώς, για να υπολογισθεί το μέσο ποσό που πλήρωσε ανά λίτρο ο οδηγός πρέπει να χρησιμοποιηθεί ο σταθμικός μέσος:

799.05126

76.0584.01275.06

1

1 =++

⋅+⋅+⋅==

=

=n

ii

n

iii

w

w

xwx € ανά λίτρο

Ο αριθμητικός μέσος των αριθμητικών μέσων k δειγμάτων μεγέθους knnn ...,,, 21 , αντίστοιχα, είναι,

=

== k

ii

k

iii

n

xnx

1

1 .

Ουσιαστικά πρόκειται για σταθμικό αριθμητικό μέσο. Παράδειγμα-5: Αν το μέσο ύψος 10 φοιτητών είναι 170 cm και το μέσο ύψος 5 φοιτητριών είναι 160 cm τότε το μέσο ύψος φοιτητών και φοιτητριών είναι

7.16615

1605170102

1

2

1 =⋅+⋅

==

=

=

ii

iii

n

xnx cm

Ερώτηση: Στην έκδοση της αμερικανικής κυβέρνησης “Science Indicators” του 1980, αναφέρεται ότι ο μέσος μισθός των γυναικών σε όλους τους επιστημονικούς τομείς είναι μόνο το 77% του μέσου μισθού των ανδρών επιστημόνων. Στην ίδια πηγή όμως, αναφέρεται ότι σε κάθε επιστημονικό τομέα ξεχωριστά, ο μέσος μισθός των γυναικών είναι τουλάχιστον το 92% του μέσου μισθού των ανδρών. Εξηγήστε πώς εμφανίζεται αυτή η φαινομενική διαφορά. Απάντηση: Οι γυναίκες είναι συγκεντρωμένες στους τομείς που αμείβονται λιγότερο. Έτσι, για τις γυναίκες, ο μέσος μισθός συνολικά θα είναι χαμηλότερος των ανδρών ακόμη και αν κερδίζουν το ίδιο ποσό με τους άνδρες σε κάθε τομέα ξεχωριστά. Παρατηρήσεις: 1. Αν θέλουμε να παραλείψουμε τις ακραίες τιμές από τον υπολογισμό της μέσης τιμής,

μπορούμε να δημιουργήσουμε έναν ισοσταθμισμένο μέσο (trimmed mean) θέτοντας στον σταθμικό μέσο, βάρος 0 για τις ακραίες τιμές που θέλουμε να παραληφθούν και βάρος 1 για όλες τις υπόλοιπες.

2. Παρότι η μέση τιμή, ως μέτρο θέσης-τάσης δεν είναι πάντα το καταλληλότερο για την περιγραφή των δεδομένων (μάλιστα, μπορεί και να παραπλανήσει), εντούτοις, έχει μεγάλη σημασία και χρησιμοποιείται ευρέως στη Στατιστική Συμπερασματολογία. Ένας από τους λόγους που συμβαίνει αυτό, είναι το γεγονός

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 26

ότι ελαχιστοποιεί το άθροισμα ∑=

−n

iix

1

2)( λ . Αυτή η ιδιότητα της μέσης τιμής είναι

«πολύ καλή» μαθηματική ιδιότητα9 και γι΄ αυτό έχει επηρεάσει τον ορισμό και άλλων στατιστικών μέτρων. Στη συνέχεια του μαθήματος θα αναφερθούμε και σε άλλους λόγους που δικαιολογούν τη μεγάλη χρησιμότητα της μέσης τιμής στη Στατιστική Συμπερασματολογία.

Κορυφή ή Επικρατούσα τιμή (mode) Η κορυφή του δείγματος συμβολίζεται με 0M . Είναι η τιμή που εμφανίζεται στο δείγμα με την μεγαλύτερη συχνότητα και έχει τα ακόλουθα πλεονεκτήματα και μειονεκτήματα:

Πλεονεκτήματα Μειονεκτήματα • Υπολογίζεται εύκολα • Είναι εύκολα κατανοητή. • Υπολογίζεται και από ελλιπή δεδομένα.

• Δεν επηρεάζεται από ακραίες τιμές.

• Υπολογίζεται και για ποιοτικά δεδομένα.

• Δε χρησιμοποιούνται όλες οι τιμές για τον υπολογισμό της.

• Στη στατιστική συμπερασματολογία έχει περιορισμένη σημασία

• Δεν ορίζεται πάντα μονοσήμαντα. Δηλαδή, μπορεί να υπάρχουν περισσότερες από μία ή και καθόλου.

Για τον υπολογισμό της σε ομαδοποιημένες παρατηρήσεις μπορεί να χρησιμοποιηθεί ο τύπος:

21

10 Δ+Δ

Δ⋅+= i

ic

LM

όπου, iL είναι το κάτω άκρο της επικρατούσας κλάσης10, ic είναι το πλάτος της επικρατούσας κλάσης, 11 −−=Δ ii νν η διαφορά της συχνότητας της προηγούμενης κλάσης από τη συχνότητα της επικρατούσας κλάσης και 12 +−=Δ ii νν η διαφορά της συχνότητας της επόμενης κλάσης από τη συχνότητα της επικρατούσας κλάσης. Παρατήρηση: Πρέπει να επισημάνουμε ότι η κορυφή είναι, βέβαια, η τιμή με τη μεγαλύτερη συχνότητα, δηλαδή η πιο «δημοφιλής» τιμή, αλλά αυτό δε σημαίνει ότι είναι κατ’ ανάγκη και «πλειοψηφούσα» τιμή. Μπορεί, μάλιστα, να αποτελεί ένα μικρό ποσοστό των παρατηρήσεων.

Διάμεσος (median) Η διάμεσος του δείγματος συμβολίζεται με δ . Είναι η τιμή x, για την οποία ισχύει ότι: το 50% των παρατηρήσεων είναι μικρότερες από αυτή και το υπόλοιπο 50% των παρατηρήσεων είναι μεγαλύτερες από αυτή. Εκφράζει την κεντρική θέση της κατανομής των παρατηρήσεων και γι΄ αυτό στη βιβλιογραφία συναντάται και ως μέσος θέσης (position average).

Αν το πλήθος n των παρατηρήσεων είναι αριθμός περιττός τότε )( 21+= nxδ ενώ, αν

είναι άρτιος τότε 2

)1()( 22 ++=

nn xxδ (με )(nx συμβολίζουμε τη n-οστή παρατήρηση, σε

αύξουσα διάταξη των παρατηρήσεων). Παρατηρείστε ότι ο αριθμός )1(5.0 +⋅ n δίνει τη θέση της διαμέσου (εφόσον είναι ακέραιος). Αν δεν είναι ακέραιος, τότε η 9 Ικανοποιεί το κριτήριο των ελαχίστων τετραγώνων 10 Επικρατούσα κλάση είναι η κλάση με τη μεγαλύτερη συχνότητα.

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 27

διάμεσος είναι ίση με το ημιάθροισμα των δύο τιμών που οι θέσεις τους είναι οι πλησιέστερες στον αριθμό )1(5.0 +⋅ n . Ας δούμε δύο παραδείγματα. α) Έστω οι παρατηρήσεις, 5, 2, 9, 6, 11. Τις διατάσσουμε σε αύξουσα σειρά: 2, 5, 6, 9, 11. Η διάμεσος τιμή είναι αυτή που βρίσκεται στη θέση 3)15(5.0 =+⋅ , άρα 6=δ . β) Έστω οι παρατηρήσεις, 2, 5, 6, 27, 11, 9. Τις διατάσσουμε σε αύξουσα σειρά: 2, 5, 6, 9, 11, 27. Επειδή ο αριθμός 5.3)1(5.0 =+⋅ n δεν είναι ακέραιος, η διάμεσος είναι το ημιάθροισμα της 3ης και της 4ης παρατήρησης, δηλαδή, 5.72)96( =+=δ . Για τον υπολογισμό της διαμέσου σε ομαδοποιημένες παρατηρήσεις, χρησιμοποιείται το πολύγωνο σχετικών αθροιστικών συχνοτήτων ή ο τύπος:

ii

in

i cN

L ⋅−

+= −

νδ 12

όπου, iL είναι το κάτω άκρο της μεσαίας κλάσης11, ic είναι το πλάτος της μεσαίας κλάσης, iν είναι η συχνότητα της μεσαίας κλάσης και 1−iN είναι η αθροιστική συχνότητα της προηγούμενης από τη μεσαία κλάσης. Στην επόμενη παράγραφο θα δώσουμε ένα παράδειγμα υπολογισμού της διαμέσου ομαδοποιημένων παρατηρήσεων. Η διάμεσος έχει, μεταξύ άλλων, και την ακόλουθη ιδιότητα:

♦ λλδ ∀−<− ∑∑==

,11

n

ii

n

ii xx

Δηλαδή, το άθροισμα των απόλυτων αποκλίσεων των παρατηρήσεων nxxx ...,,, 21 από τη διάμεσό τους δ , είναι μικρότερο από το άθροισμα των απολύτων αποκλίσεών

τους από οποιαδήποτε άλλη τιμή λ . Ή αλλιώς, το άθροισμα ∑=

−n

iix

1

λ γίνεται

ελάχιστο αν και μόνο αν δλ = . Επίσης, έχει τα ακόλουθα πλεονεκτήματα και μειονεκτήματα:

Πλεονεκτήματα Μειονεκτήματα • Είναι εύκολα κατανοητή. • Δεν επηρεάζεται από ακραίες τιμές.

• Υπολογίζεται και στην περίπτωση που οι ακραίες κλάσεις είναι ανοικτές.

• Ο υπολογισμός της είναι απλός. • Είναι μοναδική σε κάθε σύνολο δεδομένων.

• Δε χρησιμοποιούνται όλες οι τιμές για τον υπολογισμό της.

• Είναι δύσκολη η αξιοποίησή της στη στατιστική συμπερασματολογία.

• Δεν υπολογίζεται για κατηγορικά δεδομένα .

• Για τον υπολογισμό της μπορεί να χρειαστεί παρεμβολή.

Παρατήρηση: Η διάμεσος δεν επηρεάζεται ιδιαιτέρως από ακραίες τιμές. Έτσι, για την περιγραφή παρατηρήσεων που εμφανίζουν ακραίες τιμές προτιμάται ως μέτρο θέσης από τη μέση τιμή η οποία επηρεάζεται πολύ από ακραίες τιμές. Εξηγείται, έτσι, γιατί ο ΟΗΕ διακρίνει τις αναπτυσσόμενες από τις αναπτυγμένες χώρες, μεταξύ άλλων, από τη διάμεσο της ηλικίας των κατοίκων και όχι από τη μέση τιμή της ηλικίας. Δηλαδή, γιατί ως μέτρο γήρανσης του πληθυσμού χρησιμοποιεί τη διάμεσο και όχι τη μέση τιμή. Έτσι, μπορούμε, επίσης, να εξηγήσουμε γιατί στις διαπραγματεύσεις των συνδικαλιστών με τους εργοδότες για το ύψος των αποδοχών, συνήθως, οι συνδικαλιστές χρησιμοποιούν τη διάμεσο των αποδοχών ενώ οι εργοδότες τη μέση τιμή. 11 Μεσαία κλάση είναι η κλάση στην οποία ανήκει η διάμεσος.

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 28

Ποσοστιαία σημεία ή Ποσοστημόρια (quantiles) Τα ποσοστημόρια του δείγματος συμβολίζονται με αp . Αποτελούν γενίκευση της έννοιας της διαμέσου και βοηθούν στην πληρέστερη περιγραφή της θέσης της κατανομής παρατηρήσεων.

Το ποσοστημόριο αp είναι η τιμή x, για την οποία ισχύει ότι: το α% των παρατηρήσεων είναι μικρότερες από αυτή και το υπόλοιπο (1-α)% των παρατηρήσεων είναι μεγαλύτερες από αυτή. Τα ποσοστημόρια διακρίνονται σε: Εκατοστημόρια (percentiles) 9921 ...,,, ppp Δεκατημόρια (deciles) αν 902010 ...,,, ppp Τεταρτημόρια (quartiles) 375250125 ,, QpQpQp ==== δ Τα ποσοστημόρια σε ομαδοποιημένες παρατηρήσεις μπορούν να υπολογισθούν από τον τύπο:

ii

ia

ia cNn

Lp ⋅−⋅

+= −

ν1100

όπου, iL είναι το κάτω άκρο της κλάσης στην οποία βρίσκεται το αp , ic είναι το πλάτος της, iν είναι η συχνότητά της και 1−iN είναι η αθροιστική συχνότητα της προηγούμενης κλάσης. Το αp βρίσκεται στην κλάση που βρίσκεται η τιμή με σχετική αθροιστική συχνότητα

100α .

Παράδειγμα-1 (συνέχεια): Θα υπολογίσουμε τη διάμεσο και το ποσοστημόριο 95p της κατανομής της μεταβλητής μηνιαίο εισόδημα πατέρα.

Εισόδημα iy iν if iN iF

≤ 900 - 0 0 0 0 (900 1100] 1000 1 0.05 1 0.05 (1100 1300] 1200 4 0.2 5 0.25 (1300 1500] 1400 6 0.3 11 0.55 (1500 1700] 1600 4 0.2 15 0.75 (1700 1900] 1800 3 0.15 18 0.9 (1900 2100] 2000 2 0.1 20 1.0

>2100 - 0 0 20 1.0 Σύνολα 20 1.0

Για να υπολογίσουμε τη διάμεσο, ,502 pQ ==δ των παρατηρήσεων εργαζόμαστε ως εξής: η διάμεσος βρίσκεται στην κλάση [1300, 1500) γιατί όπως φαίνεται στη στήλη των σχετικών αθροιστικών συχνοτήτων του πίνακα συχνοτήτων, σε αυτή την κλάση βρίσκεται η τιμή με σχετική αθροιστική συχνότητα 0.50. Επομένως,

7.14662006

52050.01300110050

50 ≈⋅−⋅

+=⋅−⋅

+== −i

i

ii c

NnLp

νδ .

Ομοίως, υπολογίζουμε το ποσοστημόριο 95p . Προφανώς, το 95p ανήκει στην κλάση [1900, 2100)12και επομένως,

20002002

182095.01900110095

95 =⋅−⋅

+=⋅−⋅

+= −i

i

ii c

NnLp

ν.

Παράδειγμα-6: Στον παρακάτω πίνακα συχνοτήτων δίνεται η κατανομή της βαθμολογίας 50 μαθητών Λυκείου. Αν στο 5% των μαθητών με την υψηλότερη βαθμολογία δοθεί υποτροφία, τι βαθμό πρέπει να έχει ένας μαθητής για να πάρει υποτροφία; 12 Γιατί σε αυτή την κλάση βρίσκεταιι η τιμή με σχετική αθροιστική συχνότητα 0.95

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 29

Βαθμοί iy iν iN iF

[10 12) 11 5 5 0.1 [12 14) 13 10 15 0.3 [14 16) 15 20 35 0.7 [16 18) 17 10 45 0.9 [18 20) 19 5 50 1.0

Προφανώς, ζητούμενο είναι το ποσοστημόριο,

1925

455095.018110095

95 =⋅−⋅

+=⋅−⋅

+= −i

i

ii c

NnLp

ν.

Σημείωση: Προφανώς, τα ποσοστημόρια μπορούν να υπολογισθούν και γραφικά, από το πολύγωνο ή το ιστόγραμμα σχετικών αθροιστικών συχνοτήτων. Δείτε στο πολύγωνο σχετικών αθροιστικών συχνοτήτων του παραπάνω παραδείγματος πώς προκύπτει γραφικά ότι 1995 =p . Σε ότι αφορά στον υπολογισμό των ποσοστημορίων, σημειώνουμε, τέλος, ότι σε μη ομαδοποιημένα δεδομένα, υπολογίζονται με τρόπο ανάλογο του τρόπου υπολογισμού της διαμέσου για μη ομαδοποιημένα δεδομένα. Ας δούμε ένα παράδειγμα. Παράδειγμα-7: Θα υπολογίσουμε τα τεταρτημόρια της κατανομής των παρατηρήσεων α) 6, 1, 5, 9, 6, 8, 1, 9, 2. β) 15, 11, 11, 11, 22, 9, 11, 7, 11, 12, 12, 16, 8, 11, 15, 9, 10, 14, 9, 10, 11, 10, 6, 17, 11, 10, 8, 11 α) Διατάσσουμε τις παρατηρήσεις σε αύξουσα σειρά: 1, 1, 2, 5, 6, 6, 8, 9, 9. Η θέση του 1Q είναι, 5.2)19(25.0 =+⋅ και επομένως, 5.1)12(5.011 =−⋅+=Q . Αντίστοιχα, η θέση του 3Q είναι, 5.7)19(75.0 =+⋅ και επομένως, 5.8)89(5.083 =−⋅+=Q . β) Για διευκόλυνσή μας, κατασκευάζουμε τον πίνακα συχνοτήτων (οι παρατηρήσεις στον πίνακα συχνοτήτων καταγράφονται σε αύξουσα διάταξη).

iy iν iN if iF 6 1 1 0.0357 0.0357 7 1 2 0.0357 0.0714 8 2 4 0.0714 0.1428 9 3 7 0.1071 0.2500

10 4 11 0.1428 0.3928 11 9 20 0.3214 0.7143 12 2 22 0.0714 0.7857 14 1 23 0.0357 0.8214 15 2 25 0.0714 0.8928 16 1 26 0.0357 0.9286 17 1 27 0.0357 0.9643 22 1 28 0.0357 1.000

Σύνολα 28 1.000

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 30

Η θέση του 1Q είναι, 25.7)128(25.0 =+⋅ και επειδή ο αριθμός αυτός δεν είναι ακέραιος, βρίσκουμε το 1Q με παρεμβολή μεταξύ της 7ης και της 8ης θέσης ως εξής:

25.9)910(25.091 =−⋅+=Q . Αντίστοιχα, η θέση του 3Q είναι, 75.21)128(75.0 =+⋅ και επειδή ο αριθμός αυτός δεν είναι ακέραιος, βρίσκουμε το

3Q με παρεμβολή μεταξύ της 21ης και της 22ης θέσης ως εξής: 12)1212(75.0123 =−⋅+=Q . Ομοίως βρίσκουμε ότι 112 == δQ .

Επισημαίνουμε ότι στην περίπτωση που ο αριθμός που δίνει τη θέση του τεταρτημορίου δεν είναι ακέραιος, το πρόβλημα αντιμετωπίζεται και με άλλους τρόπους όπως, η συνήθης στρογγυλοποίηση ή το πρώτο τεταρτημόριο υπολογίζεται ως διάμεσος του πρώτου μισού του συνόλου των παρατηρήσεων και το τρίτο ως η διάμεσος του δεύτερου μισού του συνόλου των παρατηρήσεων. Όμως δε θα επεκταθούμε περισσότερο σε θέματα υπολογισμού των ποσοστημορίων. Θα επικεντρωθούμε στην ερμηνεία και τη χρησιμότητά τους. Προσοχή: Τα τεταρτημόρια υποδιαιρούν την κατανομή των παρατηρήσεων σε «ίσα» τμήματα, όχι με όρους απόστασης, αλλά με όρους ποσοστών. Δηλαδή, τα τμήματα αυτά είναι «ίσα» με την έννοια ότι περιέχουν ίσα ποσοστά παρατηρήσεων. Έτσι, ίσες αποστάσεις μπορεί να περιέχουν διαφορετικά ποσοστά παρατηρήσεων και αντίστροφα, άνισες αποστάσεις μπορεί να περιέχουν ίδια ποσοστά παρατηρήσεων. Τα τεταρτημόρια (γενικότερα, τα ποσοστημόρια) είναι μέτρα σχετικής θέσης και όχι σχετικής απόστασης. Παρατηρείστε το σχήμα στο παράδειγμα-7. Μεταξύ των άνισων αποστάσεων 6 έως 9.25, 9.25 έως 11, 11 έως 12 και 12 έως 22, βρίσκονται ίσα ποσοστά παρατηρήσεων (25%). Ερώτηση: Αν σε ένα σύνολο παρατηρήσεων η μικρότερη τιμή είναι 20 και η μεγαλύτερη 80, γιατί η διάμεσος δεν είναι, κατ΄ ανάγκη, 2)8020(50 += ;

Παρατηρήσεις: 1. Τα ποσοστημόρια είναι μέτρα θέσης ιδιαιτέρως χρήσιμα στη μελέτη οικονομικών,

κοινωνικών, δημογραφικών κ.α. φαινομένων γιατί, μεταξύ άλλων, μας επιτρέπουν να απαντήσουμε σε ερωτήσεις που αφορούν συγκεκριμένες παρατηρήσεις. Για παράδειγμα: μια συγκεκριμένη παρατήρηση, βρίσκεται κοντά στα άκρα ή κοντά στο κέντρο της κατανομής; ή πόσες παρατηρήσεις είναι μικρότερες από μια συγκεκριμένη παρατήρηση; Έτσι, αν σε μια κατανομή βαθμολογίας φοιτητών, είναι

5.795 =p τότε, για έναν φοιτητή που έχει βαθμό π.χ. 8 μπορούμε να συμπεράνουμε ότι ανήκει στο 5% των φοιτητών με τη μεγαλύτερη βαθμολογία.

2. Τα ποσοστημόρια, όπως θα δούμε και στη συνέχεια, είναι χρήσιμα και για την περιγραφή της μορφής της κατανομής των παρατηρήσεων. Αν τα ποσοστημόρια αp και α−100p , δηλαδή, τα 20p και 80p , τα 30p και 70p , τα 25p και 75p κ.ο.κ., βρίσκονται σε ίση απόσταση από το κέντρο της κατανομής (τη διάμεσο), τότε η κατανομή είναι συμμετρική.

3. Τα ποσοστημόρια μπορούν να βοηθήσουν και στην αντιμετώπιση κάποιων πρακτικών προβλημάτων που μπορεί να αντιμετωπίζουν οι ερευνητές όπως, π.χ. αν συμβεί να μη γνωρίζουν τις κατώτερες ή τις ανώτερες τιμές των παρατηρήσεων. Για παράδειγμα, αν ένας ερευνητής θέλει να υπολογίσει το χρόνο ζωής μιας ομάδας πειραματόζωων, πρέπει να περιμένει να πεθάνει και το τελευταίο πειραματόζωο προκειμένου να υπολογίσει το μέσο χρόνο ζωής τους. Για να υπολογίσει, όμως, τη διάμεσο του χρόνου ζωής ή κάποιο άλλο ποσοστημόριο, δεν απαιτείται να περιμένει

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 31

μέχρι να πεθάνουν όλα και έτσι κερδίζει χρόνο που μπορεί να είναι κρίσιμος για την εξέλιξη της έρευνάς του.

Σύγκριση της μέσης τιμής, της κορυφής και της διαμέσου Αν συγκρίνουμε αυτά τα τρία μέτρα θέσης με μαθηματικούς όρους, τότε, εύκολα μπορούμε να αποφανθούμε για το καλύτερο. Δηλαδή, αν για παράδειγμα, θέσουμε ως

κριτήριο την ελαχιστοποίηση του αθροίσματος ∑=

−n

iix

1

2)( λ τότε το καλύτερο είναι η

μέση τιμή ενώ αν θέσουμε ως κριτήριο την ελαχιστοποίηση του αθροίσματος

∑=

−n

iix

1

λ τότε το καλύτερο είναι η διάμεσος. Αν, όμως, τα συγκρίνουμε με κριτήριο

την καταλληλότητα περιγραφής της θέσης της κατανομής, τότε, φαίνεται να υπερέχει η διάμεσος. Όμως, κάθε μέτρο θέσης, έχει την ιδιαίτερη αξία του για την περιγραφή της κατανομής των παρατηρήσεων, και επομένως, πρέπει όλα να μπορούμε να τα ερμηνεύουμε σωστά ώστε αφενός, να τα χρησιμοποιούμε σωστά και αφετέρου, να μην πέφτουμε θύματα πλάνης επιτηδείων ή ημιμαθών. Παράδειγμα-8: Το ύψος της βροχής (σε mm) στην Αθήνα για τις ημέρες από 1-12-61 έως 31-12-61 ήταν:

0 0 0 0 0 0 1.2 28.6 1.2 0 0 0 0 0 0 0 1.1 2.9 1,5 0.4 0 2.8 0 0 0 0 1.2 3 0.1 0 8.5

Εύκολα διαπιστώνεται, ακόμη και με μια πρόχειρη ματιά στις παρατηρήσεις, ότι η μέση τιμή 7.1=x παρέχει ελάχιστη πληροφορία για την εικόνα της κατανομής του ύψους της βροχής. Όμως, τα ποσοστημόρια 2.1,0,0 321 ==== QQQ δ δίνουν πληρέστερη εικόνα για την πραγματική εικόνα της κατανομής που είναι η μεγάλη συγκέντρωση τιμών στο 0. Σχετική θέση της μέσης τιμής, της κορυφής και της διαμέσου Για τη σχετική θέση της μέσης τιμής, της κορυφής και της διαμέσου μιας κατανομής, ισχύει, εν γένει, ο εξής κανόνας: ♦ Όταν η καμπύλη συχνοτήτων της κατανομής είναι συμμετρική ισχύει: 0Mx == δ . ♦ Όταν η καμπύλη συχνοτήτων της κατανομής παρουσιάζει θετική ασυμμετρία ισχύει:

0Mx >> δ ♦ Όταν η καμπύλη συχνοτήτων της κατανομής παρουσιάζει αρνητική ασυμμετρία

ισχύει: 0Mx << δ

Επισημαίνουμε ότι υπάρχουν περιπτώσεις κατανομών που αυτός ο κανόνας δεν ισχύει. Εξαιρέσεις αυτού του κανόνα μπορεί, για παράδειγμα, να παρουσιασθούν σε κατανομές με πολύ «μακριά» ουρά, π.χ. προς τα αριστερά, αλλά με πολύ «παχιά» ουρά προς τα δεξιά. Σε τέτοιες περιπτώσεις ενώ η κατανομή παρουσιάζει εμφανώς αρνητική ασυμμετρία, εντούτοις η μέση τιμή μπορεί να είναι μεγαλύτερη (να βρίσκεται δεξιά) της διαμέσου. Ένα τέτοιο παράδειγμα κατανομής δίνεται στην άσκηση-11. Επίσης, εξαιρέσεις του κανόνα μπορούν να εμφανισθούν σε κατανομές που δεν είναι μονοκόρυφες καθώς και σε περιπτώσεις διακριτών κατανομών. Ένα τέτοιο παράδειγμα διακριτής κατανομής δίνεται στην άσκηση-21.

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 32

Ερώτηση: Έστω ότι η κατανομή των μισθών (μηνιαίων) των εργαζομένων μιας επιχείρησης παρουσιάζει θετική ασυμμετρία (όπως η τρίτη από τις παραπάνω κατανομές) με μέση τιμή 2000€ και διάμεσο 1500€. Σε μια συνάντηση των εκπροσώπων των εργαζομένων με τον εργοδότη, ο εργοδότης αναφέρεται στον υψηλό μέσο μισθό (2000€). Τι αντεπιχειρήματα, που να προκύπτουν από το είδος της ασυμμετρίας της κατανομής, έχουν οι εργαζόμενοι; Απάντηση: Ο μέσος μισθός είναι πράγματι 2000€, όμως, ποσοστό εργαζομένων μεγαλύτερο από το 50%, έχει μισθό μικρότερο από τον μέσο μισθό. Μάλιστα το 50% έχει μισθό μικρότερο από 1500€. Είναι φανερό ότι, ακόμη και αν κάποιος μπορεί να ερμηνεύσει σωστά τα μέτρα θέσης, απαιτείται αρκετή εμπειρία για να μπορεί να συνοψίζει, να συνδυάζει και να συμπυκνώνει όλες τις πληροφορίες που αυτά δίνουν για την κατανομή. Η διερευνητική ανάλυση δεδομένων με μια έξυπνη και πολύ απλή τεχνική μας βοηθάει να παρουσιάσουμε τα κυριότερα μέτρα θέσης με τέτοιο τρόπο που να διευκολύνεται πολύ η εξαγωγή συμπερασμάτων για την κατανομή. Αναφερόμαστε στην κατασκευή θηκογράμματος (box plot). Το θηκόγραμμα είναι γνωστό και ως το διάγραμμα των πέντε αριθμών. Πρόκειται για ένα ορθογώνιο με δύο κεραίες (whiskers) το οποίο κατασκευάζεται ως εξής: η κάτω βάση του ορθογωνίου βρίσκεται στο 1Q και η πάνω στο 3Q . Η διάμεσος δ αναπαριστάνεται με ένα οριζόντιο ευθύγραμμο τμήμα μέσα στο ορθογώνιο. Το μήκος των βάσεων του ορθογωνίου λαμβάνεται αυθαίρετα. Η πάνω και η κάτω κεραία, έχουν τη μορφή Τ και ανεστραμμένου Τ αντίστοιχα και εκτείνονται μέχρι τις οριακές τιμές που μπορεί να είναι: α) η μέγιστη και η ελάχιστη παρατήρηση β) η μεγαλύτερη παρατήρηση που είναι μικρότερη ή ίση από το ανώτερο εσωτερικό φράγμα )(5.1 133 QQQ −⋅+ και η μικρότερη παρατήρηση που είναι μεγαλύτερη ή ίση από το κατώτερο εσωτερικό φράγμα )(5.1 131 QQQ −⋅− γ) η μεγαλύτερη παρατήρηση που είναι μικρότερη ή ίση από το ανώτερο εξωτερικό φράγμα )(3 133 QQQ −⋅+ και η μικρότερη παρατήρηση που είναι μεγαλύτερη ή ίση από το κατώτερο εξωτερικό φράγμα )(3 131 QQQ −⋅− . Παράδειγμα-7 (συνέχεια): Για την κατανομή του δείγματος του παραδείγματος-7 βρήκαμε, 12,25.9 31 == QQ και 11=δ . Αν για τον υπολογισμό των οριακών τιμών χρησιμοποιήσουμε τα εσωτερικά φράγματα έχουμε: Το ανώτερο εσωτερικό φράγμα είναι

125.16)25.912(5.112)(5.1 133 =−⋅+=−⋅+ QQQ άρα η πάνω οριακή τιμή είναι η παρατήρηση που είναι ίση με 15 (η μεγαλύτερη παρατήρηση που είναι ίση ή μικρότερη από 16.125). Το κατώτερο εσωτερικό φράγμα είναι

125.5)25.912(5.125.9)(5.1 131 =−⋅−=−⋅− QQQ άρα η κάτω οριακή τιμή είναι η παρατήρηση που είναι ίση με 6 (η μικρότερη παρατήρηση που είναι ίση ή μεγαλύτερη από 5,125).

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 33

6

10

14

18

22

Ας δούμε τι πληροφορίες μας δίνει το θηκόγραμμα για την κατανομή του παραδείγματος. Η κατανομή παρουσιάζει μια μικρή αρνητική ασυμμετρία διότι η διάμεσος βρίσκεται πιο κοντά στην πάνω πλευρά του ορθογωνίου. Το 50% των παρατηρήσεων βρίσκεται σε ένα διάστημα ίσο με το ύψος του ορθογωνίου το οποίο είναι αρκετά «συμπιεσμένο» και, επιπλέον, τοποθετείται περίπου στη μέση του εύρος των παρατηρήσεων (εξαιρουμένων των ακραίων). Η κατανομή παρουσιάζει δυο ακραίες13 τιμές και μια εξαιρετικά ακραία14 τιμή (είναι οι τιμές 16, 17 και 22). Παράδειγμα-8 (συνέχεια): Το θηκόγραμμα του ύψους της βροχής, που φαίνεται παρακάτω, είναι φανερό ότι συνοψίζει με παραστατικό τρόπο τα συμπεράσματα που σχολιάσαμε στο παράδειγμα-8 και, επιπλέον, αναδεικνύει τις ακραίες τιμές του δείγματος.

0

5

10

15

20

25

30

Διευκρίνηση: Το ανώτερο εσωτερικό φράγμα είναι =−⋅+ )(5.1 133 QQQ

3)02.1(5.12.1 =−⋅+= , άρα η πάνω οριακή τιμή είναι η παρατήρηση που είναι ίση με 3 (η μεγαλύτερη παρατήρηση που είναι ίση ή μικρότερη από 3). Το κατώτερο εσωτερικό φράγμα είναι 8.1)02.1(5.10)(5.1 131 −=−⋅−=−⋅− QQQ άρα η κάτω οριακή τιμή είναι η παρατήρηση που είναι ίση με 0 (η μικρότερη παρατήρηση που είναι ίση ή μεγαλύτερη από –1.8). Το θηκόγραμμα προσφέρεται ιδιαιτέρως για την ανίχνευση ακραίων τιμών και για την αναγνώριση της συμμετρίας ή του είδους της ασυμμετρίας της κατανομής. Αν το ευθύγραμμο τμήμα που αναπαριστά τη διάμεσο βρίσκεται στο μέσο του ορθογωνίου, η κατανομή είναι συμμετρική, αν βρίσκεται προς την κάτω πλευρά του ορθογωνίου, η κατανομή παρουσιάζει θετική ασυμμετρία και τέλος, αν βρίσκεται προς την πάνω πλευρά του ορθογωνίου, η κατανομή παρουσιάζει αρνητική ασυμμετρία. Επίσης, τα θηκογράμματα είναι εξαιρετικά χρήσιμα για τη σύγκριση των κατανομών δύο ή περισσοτέρων δειγμάτων (θα δούμε σχετικό παράδειγμα στη συνέχεια). Σημειώνουμε, τέλος, ότι το θηκόγραμμα μπορεί να σχεδιασθεί και οριζόντια αντί κατακόρυφα.

13 Μια τιμή χαρακτηρίζεται ακραία αν βρίσκεται εκτός των εσωτερικών φραγμάτων 14 Μια τιμή χαρακτηρίζεται εξαιρετικά ακραία αν βρίσκεται εκτός και των εξωτερικών φραγμάτων

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 34

Μέτρα διασποράς (dispersion measures) Στον παρακάτω πίνακα δίνονται τέσσερα διαφορετικά δείγματα μεγέθους πέντε το καθένα.

Πίνακας 3 Δείγμα Ι Δείγμα ΙΙ Δείγμα ΙΙΙ Δείγμα IV

8 4 1 1 9 7 5 3

10 10 10 10 11 13 15 17 12 16 19 19

Εύκολα διαπιστώνεται ότι καθένα από τα τέσσερα δείγματα έχει μέση τιμή 10 και διάμεσο επίσης 10. Όμως, αν παρατηρήσουμε τα αντίστοιχα θηκογράμματα, αβίαστα προκύπτει ότι οι κατανομές τους διαφέρουν. Πιο συγκεκριμένα, οι αποκλίσεις των παρατηρήσεων από τη μέση τιμή τους, έχουν πολύ διαφορετική μεταβλητότητα στα τέσσερα δείγματα. Τα μέτρα διασποράς ορίσθηκαν για να περιγράφουν με αριθμητικά μεγέθη αυτή τη μεταβλητότητα.

I II III IV0

4

8

12

16

20

Τα πλέον χρησιμοποιούμενα μέτρα διασποράς είναι το εύρος, η ενδοτεταρτημοριακή απόκλιση, η τυπική απόκλιση και η διασπορά15.

Εύρος (range) και Ενδοτεταρτημοριακή Απόκλιση (interquantile deviation) Ορίζεται ως η διαφορά της μικρότερης από τη μεγαλύτερη παρατήρηση ( minmax xxR −= ) του δείγματος. Είναι το πιο απλό μέτρο διασποράς και έχει τα ακόλουθα πλεονεκτήματα και μειονεκτήματα:

Πλεονεκτήματα Μειονεκτήματα • Είναι πολύ απλό στον υπολογισμό. • Χρησιμοποιείται αρκετά στον έλεγχο ποιότητας.

• Μπορεί να χρησιμοποιηθεί για την εκτίμηση της τυπικής απόκλισης.

• Δε θεωρείται αξιόπιστο μέτρο διασποράς, επειδή βασίζεται μόνο στη μικρότερη και στη μεγαλύτερη παρατήρηση και συνεπώς είναι ευαίσθητο σε έκτροπες τιμές .

• Δε χρησιμοποιείται για περαιτέρω στατιστική ανάλυση.

Αν χρησιμοποιήσουμε το εύρος για την αριθμητική περιγραφή της μεταβλητότητας στα τέσσερα δείγματα του παραπάνω παραδείγματος, βλέπουμε ότι ενώ ανιχνεύει τη διαφορά στη μεταβλητότητα μεταξύ π.χ. των δειγμάτων Ι και ΙΙ (το Ι έχει εύρος 12-8 = 4 ενώ το ΙΙ έχει εύρος 16-4 = 12) εντούτοις, δεν ανιχνεύει τη διαφορά που υπάρχει στη μεταβλητότητα μεταξύ των δειγμάτων ΙΙΙ και ΙV (και το III και το ΙV έχουν εύρος 19-1 = 18). Δηλαδή, υπάρχουν κατανομές που έχουν ίσες μέσες τιμές, ίσες διαμέσους και ίδιο εύρος και εντούτοις, διαφέρουν. Δεν αρκεί επομένως το εύρος για να αποτυπωθεί αριθμητικά η μεταβλητότητα μιας κατανομής. Είναι φανερό ότι αυτό οφείλεται στο ότι στον υπολογισμό του εμπλέκονται μόνο δυο παρατηρήσεις. Για να αντιμετωπίσουμε αυτό το πρόβλημα μπορούμε να χρησιμοποιήσουμε ως μέτρο της μεταβλητότητας τη διαφορά 13 QQ − για τον υπολογισμό της οποίας συμμετέχουν σαφώς περισσότερες παρατηρήσεις (όσες συμμετέχουν στον υπολογισμό των 1Q και

15 Ένα ακόμη μέτρο διασποράς είναι η μέση απόκλιση (mean deviation): ∑

=

−=n

ii xx

nMD

1

1

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 35

3Q ). Η διαφορά αυτή ονομάζεται ενδοτεταρτημοριακή απόκλιση (interquantile deviation)16. Επειδή μεταξύ των 1Q και 3Q βρίσκεται το 50% των παρατηρήσεων είναι φανερό ότι όσο μικρότερη είναι η ενδοτεταρτημοριακή απόκλιση τόσο μικρότερη είναι η μεταβλητότητα των παρατηρήσεων17. Επίσης, σε αντίθεση με την τυπική απόκλιση και τη διασπορά (που θα δούμε στη συνέχεια), η ενδοτεταρτημοριακή απόκλιση δεν επηρεάζεται από ακραίες τιμές. Αν χρησιμοποιήσουμε την ενδοτεταρτημοριακή απόκλιση για την αριθμητική περιγραφή της μεταβλητότητας στα τέσσερα δείγματα του παραδείγματός μας, βλέπουμε ότι πλέον ανιχνεύονται όλες οι υπάρχουσες διαφορές μεταξύ των τεσσάρων δειγμάτων. Επισήμανση: Αξίζει να επισημάνουμε, ότι το εύρος, σε αντίθεση με την ενδοτεταρτημοριακή απόκλιση, είναι πολύ ευαίσθητο σε αλλαγές στο μέγεθος του δείγματος. Δηλαδή, είναι δυνατόν, αύξηση του μεγέθους του δείγματος ακόμη και κατά μια μονάδα να προκαλέσει δυσανάλογη αύξηση του εύρους. Αν για παράδειγμα, οι παρατηρήσεις 1, 3, 3, 4, 4, 4 και 5 συμπληρωθούν με την παρατήρηση 10, το εύρος του δείγματος από 4 γίνεται 9!

Τυπική απόκλιση (standard deviation) και Διασπορά (variance) Η τυπική απόκλιση του πληθυσμού συμβολίζεται με σ και του δείγματος με s .

⎟⎠

⎞⎜⎝

⎛⋅−

−=−

−= ∑∑

==

2

1

2

1

2

11)(

11 xnx

nxx

ns

n

ii

n

ii

ή

⎟⎠

⎞⎜⎝

⎛⋅−⋅

−=⋅−

−= ∑∑

==

2

1

2

1

2

11)(

11 xny

nxy

ns

k

iii

k

iii νν

Εύκολα αποδεικνύεται ότι η τυπική απόκλιση έχει τις ακόλουθες ιδιότητες: ♦ Αν οι παρατηρήσεις είναι μεταξύ τους ίσες τότε η τυπική απόκλιση τους είναι μηδέν (γιατί;). ♦ Αν βω += ii x τότε ss =ϖ . Δηλαδή, αν στις παρατηρήσεις νxxx ...,,, 21 προσθέσουμε μια σταθερή ποσότητα β (θετική ή αρνητική), τότε η τυπική τους απόκλιση δεν μεταβάλλεται. ♦ Αν ii x⋅= αω τότε ss ⋅= αϖ . Δηλαδή, αν οι παρατηρήσεις νxxx ...,,, 21 πολλαπλασιασθούν με την ίδια ποσότητα α , τότε η τυπική απόκλισή τους θα πολλαπλασιασθεί με την ποσότητα α .

♦ Γενικά, αν βαω +⋅= ii x τότε ss ⋅= αϖ . Είναι φανερό ότι η τυπική απόκλιση απαντά στο ερώτημα: πόσο μακριά από τη μέση τιμή τους βρίσκονται οι παρατηρήσεις; Έτσι, όταν οι παρατηρήσεις δε διαφέρουν πολύ από τη μέση τιμή τους, η τυπική απόκλιση είναι μικρή, ενώ αντίθετα, η τυπική απόκλιση μεγαλώνει, όσο περισσότερο «διασκορπίζονται» οι παρατηρήσεις γύρω από τη μέση τιμή τους. Δηλαδή, η τυπική απόκλιση μας δίνει ένα μέτρο της μέσης απόστασης-απόκλισης των παρατηρήσεων από τη μέση τιμή τους. Συνεπώς, έχει νόημα να χρησιμοποιείται, μόνο σε συνδυασμό με τη μέση τιμή. Πρακτικά, όμως, τι σημαίνει «μεγάλη» ή «μικρή» τυπική απόκλιση; Ας προσπαθήσουμε να απαντήσουμε μέσα από συγκεκριμένα προβλήματα. 1) Αν για καθένα από τα τέσσερα δείγματα του Πίνακα-3, υπολογίσουμε την τυπική απόκλισή του, παίρνουμε, 1.6, 4.7, 7.3 και 8.1 αντίστοιχα. Μπορούμε να

16 Ανάλογα ορίζεται η ενδοδεκατημοριακή απόκλιση 1090 pp − 17 Η ενδοτεταρτημοριακή απόκλιση αποτελεί την «καρδιά» της κατανομής.

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 36

ισχυρισθούμε ότι η μεταβλητότητα, π.χ. του δείγματος IV είναι μεγαλύτερη από τη μεταβλητότητα του δείγματος I επειδή είναι 8.1>1.6; Η απάντηση είναι ναι, γιατί τα δείγματα έχουν την ίδια μέση τιμή. Αν, όμως, επιχειρήσουμε να συγκρίνουμε τις μεταβλητότητες δύο ή περισσοτέρων δειγμάτων που έχουν άνισες μέσες τιμές, με βάση μόνο τις τυπικές αποκλίσεις τους, τότε είναι πολύ πιθανό να οδηγηθούμε σε λάθος συμπεράσματα. Το ίδιο θα συμβεί αν συγκρίνουμε, με βάση μόνο τις τυπικές αποκλίσεις τους, τις μεταβλητότητες δύο ή περισσοτέρων δειγμάτων που μετρώνται σε διαφορετικές μονάδες.

Παράδειγμα-9: Έστω δύο δείγματα με, 1,5 == sx και 12,150 == sx , αντίστοιχα. Μπορούμε να ισχυρισθούμε ότι το δεύτερο δείγμα παρουσιάζει μεγαλύτερη μεταβλητότητα από το πρώτο, επειδή 12>1; Φυσικά όχι, αφού «άλλο 1 στα 5 και άλλο 12 στα 150». Είναι, επομένως, λογικό να αναζητήσουμε ένα μέτρο το οποίο να εκφράζει την τυπική απόκλιση των παρατηρήσεων ως ποσοστό της μέσης τιμής τους. Δηλαδή, ένα μέτρο σχετικής μεταβλητότητας. Ένα τέτοιο μέτρο, είναι ο συντελεστής μεταβλητότητας (coefficient of variation):

%100⋅=xsCV .

Έτσι, αν συγκρίνουμε τις τυπικές αποκλίσεις των δύο δειγμάτων, αφού προηγουμένως κάθε μια τη δούμε ως ποσοστό της μέσης τιμής με βάση την οποία υπολογίσθηκε, δηλαδή, αν υπολογίσουμε τους συντελεστές μεταβλητότητας CV, παρατηρούμε ότι: για το πρώτο δείγμα είναι %20%10051 =⋅=CV και για το δεύτερο δείγμα είναι

%8%10015012 =⋅=CV . Δηλαδή, στο πρώτο δείγμα η τυπική απόκλιση είναι το 20% της μέσης τιμής του ενώ στο δεύτερο δείγμα η τυπική απόκλιση είναι το 8% της μέσης τιμής του. Συνεπώς, η μεγαλύτερη μεταβλητότητα παρουσιάζεται στο πρώτο και όχι στο δεύτερο δείγμα (μάλιστα είναι 5.28

20 = φορές μεγαλύτερη!). Από τα παραπάνω, είναι φανερό, ότι ο CV μπορεί να χρησιμοποιηθεί: • Ως μέτρο σύγκρισης της μεταβλητότητας δύο ή περισσοτέρων δειγμάτων που έχουν

διαφορετικές μέσες τιμές ή διαφορετικές μονάδες μέτρησης. • Ως μέτρο ομοιογένειας ενός δείγματος (αν σε ένα δείγμα είναι CV<10% τότε το

δείγμα θεωρείται ομοιογενές). 2) Ας δούμε ένα ακόμη πρακτικό πρόβλημα. Παράδειγμα-10: Ένας φοιτητής, βαθμολογήθηκε στις εξετάσεις του Ιουνίου 2002 στο μάθημα της Στατιστικής με 8. Ένας άλλος φοιτητής βαθμολογήθηκε στο ίδιο μάθημα στις εξετάσεις του Ιουνίου 2003 με 7. Με κριτήριο το βαθμό στις εξετάσεις, ποιος από τους δύο φοιτητές είναι καλύτερος στη Στατιστική; Αν δε βιαστούμε να απαντήσουμε, διαπιστώνουμε ότι, ουσιαστικά, μας ζητούν να συγκρίνουμε «ανόμοια πράγματα», αφού πρέπει να συγκρίνουμε δυο τιμές η κάθε μια από τις οποίες ανήκει σε διαφορετική κατανομή. Η τιμή 8 ανήκει στην κατανομή βαθμολογίας των εξετάσεων του Ιουνίου 2002 ενώ η τιμή 7 ανήκει στην κατανομή της βαθμολογίας των εξετάσεων του Ιουνίου 2003. Για να συγκριθούν επομένως οι δύο τιμές, πρέπει να προσδιορισθεί πρώτα η θέση της κάθε μίας μέσα στην κατανομή της. Έτσι, αν οι βαθμολογίες των φοιτητών τον Ιούνιο 2002 είχαν μέση τιμή 7.5 και τυπική απόκλιση 0.6 και τον Ιούνιο του 2003 είχαν μέση τιμή 5.5 και τυπική

απόκλιση 1.1 τότε είναι προφανές ότι το κλάσμα 8.06.05.0

6.05.78

+==− εκφράζει την

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 37

απόσταση-απόκλιση της τιμής 8 από τη μέση τιμή της κατανομής της, σε μονάδες τυπικής απόκλισης. Δηλαδή, δείχνει «πόσες φορές χωράει η τυπική απόκλιση 0.6

στην απόσταση 5.78 − ». Ομοίως, το κλάσμα 4.11.15.1

1.15.57

+==− δείχνει «πόσες

φορές χωράει η τυπική απόκλιση 1.1 στην απόσταση 5.57 − ». Είναι, πλέον, φανερό ότι ο βαθμός 7 είναι καλύτερος από το βαθμό 8 με την έννοια ότι απέχει από τη μέση τιμή της κατανομής του +1.4 τυπικές αποκλίσεις ενώ ο βαθμός 8 απέχει από τη μέση τιμή της δικής του κατανομής +0.8 τυπικές αποκλίσεις. Δηλαδή, ο βαθμός 7 είναι 1.4 τυπικές αποκλίσεις μεγαλύτερος από τη μέση τιμή της κατανομής του ενώ ο βαθμός 8 είναι 0.8 τυπικές αποκλίσεις μεγαλύτερος από τη μέση τιμή της δικής του κατανομής. Η τυπική απόκλιση των παρατηρήσεων μπορεί, επομένως, να χρησιμοποιηθεί ως μονάδα μέτρησης της απόστασης των παρατηρήσεων από τη μέση τιμή τους.

Αν μετασχηματίσουμε κάθε τιμή ix , σε s

xxi − , δημιουργούμε μια νέα κατανομή,

sxx

sxx

sxx −−− ν...,,, 21 .

Ας συμβολίσουμε τις νέες τιμές με iz , δηλαδή, s

xxz i

i−

= . Οι iz -τιμές έχουν τις

ακόλουθες, πολύ ενδιαφέρουσες, ιδιότητες:

• Η iz -τιμή μιας τιμής ix , εκφράζει, σε μονάδες τυπικής απόκλισης, την απόσταση της ix από τη μέση τιμή x .

• Αν μια iz -τιμή είναι θετική αυτό σημαίνει ότι η τιμή ix είναι μεγαλύτερη από τη μέση τιμή ενώ αν είναι αρνητική σημαίνει ότι η τιμή ix είναι μικρότερη από τη μέση τιμή.

• Η μέση τιμή των iz -τιμών είναι πάντα 0 και η τυπική τους απόκλιση είναι πάντα 1. Δηλαδή, 0=z και 1=zs . (Η απόδειξη είναι προφανής αν παρατηρήσουμε ότι ο

μετασχηματισμός s

xxz i

i−

= είναι της γνωστής μας μορφής βα +⋅= ii xz με

s1

=α και sx−

=β ).

• Ίσες αποστάσεις iz -τιμών μιας κατανομής, έχουν ταυτόσημο νόημα. Για παράδειγμα, η διαφορά μεταξύ των z-τιμών 2 και 2.5 είναι ταυτόσημη με τη διαφορά μεταξύ των z-τιμών 3 και 3.5. Και οι δύο διαφορές δείχνουν μια απόσταση μισής τυπικής απόκλισης.

• Στις z-τιμές το 0 έχει νόημα, δηλαδή, δεν ορίζεται συμβατικά-αυθαίρετα. Η z-τιμή 0 σημαίνει «έλλειψη απόστασης», δηλαδή, η τιμή ix συμπίπτει με τη μέση τιμή x .

• Η μορφή της κατανομής των iz -τιμών είναι όμοια με τη μορφή της κατανομής των ix τιμών (διατηρούνται π.χ. οι ασυμμετρίες ή η συμμετρία). Έτσι, αν η κατανομή των ix τιμών έχει μορφή κανονικής κατανομής, τότε και η κατανομή των iz -τιμών θα έχει μορφή κανονικής κατανομής.

• Οι z-τιμές μπορούν να χρησιμοποιηθούν για την ανίχνευση ακραίων τιμών. Στη συνέχεια θα δούμε σχετικά παραδείγματα.

• Τέλος, οι z-τιμές μπορούν να χρησιμοποιηθούν για τη σύγκριση τιμών που ανήκουν σε διαφορετικές κατανομές. Ας δούμε ένα ακόμη παράδειγμα.

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 38

Παράδειγμα-11: Στην Ελλάδα, ως γνωστόν, η βαθμολογία των αποφοίτων δευτεροβάθμιας εκπαίδευσης δίνεται σε κλίμακα από 1 μέχρι 20. Στις Η.Π.Α., συνήθως δίνεται σε μια κλίμακα από 1 μέχρι 4. Σε πολλές άλλες χώρες δίνεται σε κλίμακα από 1 μέχρι 100. Σε ένα σχολείο των Η.Π.Α. η κατανομή της βαθμολογίας των αποφοίτων έχει μέση τιμή 3,2 και τυπική απόκλιση 0.2, σε ένα ελληνικό σχολείο έχει μέση τιμή 14.2 και τυπική απόκλιση 2.1 και σε ένα ολλανδικό έχει μέση τιμή 76 και τυπική απόκλιση 7. Πώς μπορούμε να συγκρίνουμε το βαθμό 3.6 ενός μαθητή του σχολείου των Η.Π.Α. με το βαθμό 18.4 ενός μαθητή του ελληνικού σχολείου και με το βαθμό 90 ενός μαθητή του ολλανδικού σχολείου;

Οι αντίστοιχες z-τιμές των βαθμών είναι: 22.0

2.36.3+=

− , 21.2

2.144.18+=

− και

27

7690+=

− . Συνεπώς, οι τρεις μαθητές πήραν τα απολυτήριά τους με βαθμούς που

βρίσκονται σε ίσες αποστάσεις πάνω από τη μέση βαθμολογία του σχολείου τους. Παρατήρηση: Οι z-τιμές είναι ένα μέτρο σχετικής απόστασης. Επομένως, όταν χρησιμοποιούνται για τη σύγκριση τιμών που ανήκουν σε διαφορετικές κατανομές, θα πρέπει οι κατανομές αυτές να έχουν παραπλήσιες μορφές. Διαφορετικά, η πληροφορία που θα πάρουμε από τη σύγκριση z-τιμών θα είναι διφορούμενη-ασαφής (θυμηθείτε ότι με όρους ποσοστών, ίσες αποστάσεις μπορεί να περιέχουν πολύ διαφορετικά ποσοστά παρατηρήσεων). Ας δούμε ένα παράδειγμα. Παράδειγμα-12: Στον παρακάτω πίνακα φαίνονται οι τιμές που πήραμε από δύο δείγματα μεγέθους 11.

Δείγμα Ι 7.46 6.77 12.74 7.11 7.81 8.84 6.10 5.39 8.15 6.42 5.73 Δείγμα ΙΙ 9.14 8.14 874 8.77 9.26 8.10 6.10 3.10 9.13 7.26 4.74

Ακόμη και με μια πρόχειρη ματιά στις τιμές, εύκολα διαπιστώνουμε ότι οι δύο κατανομές διαφέρουν σημαντικά αφού στην Ι οι τιμές κατανέμονται μεταξύ 4.5 και 9.5 με μια ακραία τιμή προς τα δεξιά, ενώ στη ΙΙ υπάρχει μεγάλη συγκέντρωση τιμών μεταξύ 8.5 και 9.5 και οι υπόλοιπες κλάσεις έχουν από μία μόνο τιμή (εκτός από μια που έχει δύο τιμές). Παρόλα αυτά, οι δύο κατανομές έχουν ίσες μέσες τιμές και ίσες τυπικές αποκλίσεις ( 5.7=x και 93.1=s ). Η τιμή 6.1 ανήκει και στα δύο δείγματα

και επομένως θα έχει ίδια z-τιμή και στα δύο δείγματα 73.093.1

5.71.6−=

−=z .

Δηλαδή, η τιμή 6.1 και στα δύο δείγματα βρίσκεται 0.73 τυπικές αποκλίσεις αριστερά της μέσης τιμής. Αυτό όμως δεν «εμποδίζει» καθόλου να είναι η πραγματικότητα για

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 39

την τιμή 6.1 πολύ διαφορετική στις δύο κατανομές. Αν παρατηρήσουμε τα αντίστοιχα ιστογράμματα των κατανομών βλέπουμε ότι στην κατανομή Ι η τιμή 6.1 έχει «δεσπόζουσα θέση» (βρίσκεται στο mainstream της κατανομής) ενώ στην ΙΙ βρίσκεται μόνη της και περιβάλλεται από κλάσεις με μια μόνο τιμή! Η σύγκριση, επομένως, δύο z-τιμών από διαφορετικές κατανομές, δεν αποδίδει την πραγματική εικόνα αν οι κατανομές έχουν διαφορετική μορφή. 3) Άραγε μπορούμε, με βάση την τυπική απόκλιση, να καθορίσουμε διαστήματα γύρω από τη μέση τιμή εντός των οποίων να βρίσκεται συγκεκριμένο ποσοστό παρατηρήσεων18; Η απάντηση είναι ότι μπορούμε. Η ανισότητα του Chebyshev μας λέει ότι: το ποσοστό των παρατηρήσεων που βρίσκεται π.χ. στο διάστημα

)2,2( sxsx +− είναι τουλάχιστον 75%. Άρα, όσο πιο «στενό» είναι αυτό το διάστημα (δηλαδή όσο πιο μικρή είναι η τυπική απόκλιση), τόσο πιο κοντά στη μέση τιμή είναι οι παρατηρήσεις και κατά συνέπεια τόσο πιο μικρή είναι η μεταβλητότητα των παρατηρήσεων. Γενικότερα, η ανισότητα του Chebyshev μας λέει ότι: το ποσοστό των παρατηρήσεων που βρίσκονται στο διάστημα ),( ksxksx +− είναι τουλάχιστον )1(1 2k− για κάθε 1>k ή αλλιώς, η πιθανότητα μια τυχαία επιλεγμένη τιμή της μεταβλητής να ανήκει στο διάστημα ),( ksxksx +− είναι τουλάχιστον

)1(1 2k− για κάθε 1>k . Ειδική περίπτωση:19 Αν η κατανομή του δείγματος είναι κανονική τότε ισχύει ο ακόλουθος κανόνας, γνωστός στη βιβλιογραφία ως εμπειρικός κανόνας (empirical rule) γιατί πολύ συχνά επαληθεύεται εμπειρικά σε διάφορα φαινόμενα και πειράματα (και όχι γιατί δε μπορεί να αποδειχθεί θεωρητικά, αφού όπως θα δούμε, μπορεί να αποδειχθεί): Στο διάστημα ),( sxsx +− βρίσκεται περίπου το 68% των παρατηρήσεων. Στο διάστημα )2,2( sxsx +− βρίσκεται περίπου το 95% των παρατηρήσεων. Στο διάστημα )3,3( sxsx +− βρίσκονται όλες σχεδόν οι παρατηρήσεις (99.7%).

18 Δηλαδή κάτι ανάλογο με τα διαστήματα που καθορίζουμε με βάση τα ποσοστημόρια. Π.χ. γνωρίζουμε ότι στο διάστημα 1090 pp − βρίσκεται το 80% των παρατηρήσεων. 19 Καθόλου «ειδική περίπτωση», όπως θα δούμε στο επόμενο κεφάλαιο.

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 40

Ας δούμε, με ένα παράδειγμα, πώς αξιοποιούνται αυτές οι πληροφορίες (για το ποσοστό των παρατηρήσεων που βρίσκονται σε ένα διάστημα πλάτους ks2 γύρω από τη μέση τιμή). Παράδειγμα-13: Μια αυτόματη μηχανή συσκευασίας τροφίμων έχει προγραμματισθεί να συσκευάζει δημητριακά σε φακελάκια των 13 γραμμαρίων. Ζυγίσαμε 15 τέτοια φακελάκια (ακριβέστερα, το περιεχόμενό τους) τα οποία είχαμε επιλέξει τυχαία από το σύνολο της παραγωγής μιας ημέρας και βρήκαμε μέσο βάρος 12.9 γραμμάρια με τυπική απόκλιση 0.1 γραμμάρια. α) Ποιο ποσοστό συσκευασιών αναμένεται να περιέχει ποσότητα δημητριακών μεταξύ 12.7 και 13.1 γραμμαρίων; β) Μια συσκευασία από τις 15 που επελέγησαν για να ελεγχθούν, έχει βάρος 13.21 γραμμάρια και μια άλλη έχει βάρος 12.75 γραμμάρια. Τι μπορούμε να πούμε για τη θέση αυτών των τιμών στην κατανομή του δείγματος; γ) Αν είναι γνωστό ότι η κατανομή των βαρών των συσκευασιών είναι κανονική, πώς απαντάμε στα ερωτήματα (α) και (β);

α) Το διάστημα )1.13,7.12( έχει πλάτος ks2 με 2=k , αφού 13.1-12.7 = 0.4 = 22.04.01.02 =⇒⋅=⇒⋅⋅ kkk . Από την ανισότητα του Chebyshev γνωρίζουμε ότι

μεταξύ ksx − και ksx + , δηλαδή, σε ένα διάστημα πλάτους ks2 γύρω από τη μέση τιμή, βρίσκεται τουλάχιστον το 2

11k

− των παρατηρήσεων. Άρα, στο διάστημα

)1.13,7.12( αναμένουμε να βρίσκεται τουλάχιστον το 75.01 221 =− (ή το 75%) των

παρατηρήσεων.

β) Η z-τιμή της τιμής 12.75 είναι, 5.11.0

9.1275.12−=

−=z , άρα η τιμή 12.75

βρίσκεται αριστερά της μέσης τιμής της κατανομής του δείγματος και σε απόσταση ίση με 1.5 φορά την τυπική απόκλιση του δείγματος. Πρόκειται, δηλαδή, για μια όχι σπάνια/ακραία τιμή αλλά για μια συχνά εμφανιζόμενη τιμή αφού ανήκει σε ένα διάστημα γύρω από τη μέση τιμή της κατανομής στο οποίο ανήκει τουλάχιστον το 75% των παρατηρήσεων. Αντίστοιχα, η z-τιμή της τιμής 13.21 είναι,

1.31.0

9.1221.13+=

−=z , άρα η τιμή 13.21 βρίσκεται δεξιά της μέσης τιμής της

κατανομής του δείγματος και σε απόσταση ίση με 3.1 φορές την τυπική απόκλιση του δείγματος. Δηλαδή, η τιμή 13.21 απέχει από τη μέση τιμή του δείγματος περισσότερο από 3 τυπικές αποκλίσεις και επομένως, σύμφωνα με την ανισότητα του Chebyshev, ανήκει στο 11.11%, το πολύ, των παρατηρήσεων που απέχουν από τη μέση τιμή περισσότερο από τρεις τυπικές αποκλίσεις. Πρόκειται, δηλαδή, για μια τιμή που βρίσκεται μακριά από τη μέση τιμή της κατανομής του δείγματος και δεν εμφανίζεται συχνά, είναι «σπάνια/ακραία». Βέβαια, το «σπάνιο/ακραίο» πρέπει να ορίζεται με σαφήνεια/ακρίβεια. Θα το κάνουμε στα επόμενα, στη Στατιστική Συμπερασματολογία. γ) Αν γνωρίζουμε ότι η κατανομή του βάρους των συσκευασιών είναι κανονική, τότε, στο διάστημα )1.13,7.12( αναμένουμε να βρίσκεται το 95% (περίπου) των παρατηρήσεων του δείγματος. Σε ό,τι αφορά τις θέσεις των τιμών 12.75 και 13.21, αν γνωρίζουμε ότι η κατανομή του βάρους των συσκευασιών είναι κανονική, οι απαντήσεις που δώσαμε στο ερώτημα (β) ισχυροποιούνται. Η τιμή 12.75 είναι μια συχνά εμφανιζόμενη τιμή αφού βρίσκεται σε ένα διάστημα γύρω από τη μέση τιμή του δείγματος στο οποίο ανήκει το 95% (περίπου) των παρατηρήσεων του δείγματος (αντί «τουλάχιστον 75%» που αναμέναμε σύμφωνα με την ανισότητα του Chebyshev). Αντίστοιχα, η τιμή 13.21, τώρα μπορεί ασφαλέστερα να χαρακτηρισθεί «σπάνια/ακραία» αφού γνωρίζουμε ότι ανήκει μόλις στο 0.3% (περίπου) των παρατηρήσεων που βρίσκονται πέραν των τριών τυπικών αποκλίσεων από τη μέση τιμή. Και όχι μόνο αυτό. Λόγω συμμετρίας της κανονικής κατανομής, η τιμή 13.21 ανήκει σε ακόμη πιο μικρό ποσοστό, στο 0.15% των παρατηρήσεων που βρίσκονται πέραν των τριών τυπικών αποκλίσεων δεξιότερα (προς μεγαλύτερες τιμές) της μέσης τιμής (δείτε την κανονική καμπύλη στην προηγούμενη σελίδα).

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 41

Το τετράγωνο της τυπικής απόκλισης των παρατηρήσεων ονομάζεται διασπορά και συμβολίζεται με 2σ για τον πληθυσμό και με 2s για το δείγμα. Δηλαδή η διασπορά δίνεται από τον τύπο:

⎟⎠

⎞⎜⎝

⎛⋅−

−=−

−= ∑∑

==

2

1

2

1

22

11)(

11 xx

nxx

ns

n

ii

n

ii ν ή

⎟⎠

⎞⎜⎝

⎛⋅−⋅

−=⋅−

−= ∑∑

==

2

1

2

1

22

11)(

11 xny

nxy

ns

k

iii

k

iii νν

Η διασπορά, ως μέτρο μεταβλητότητας, δε διαφέρει ουσιαστικά από την τυπική απόκλιση. Παρότι, έχει το μειονέκτημα ότι δεν εκφράζεται στις ίδιες μονάδες με την μεταβλητή της οποίας τη μεταβλητότητα μετράει, εντούτοις, χρησιμοποιείται ευρύτατα στη Στατιστική Συμπερασματολογία για τις καλές της μαθηματικές ιδιότητες. Αυτός είναι και ο βασικός λόγος που επέβαλε τον ορισμό της. Συνοπτικά, η διασπορά και η τυπική απόκλιση έχουν τα ακόλουθα πλεονεκτήματα και μειονέκτηματα:

Πλεονεκτήματα Μειονεκτήματα • Για τον υπολογισμό τους, λαμβάνονται υπόψη όλες οι παρατηρήσεις.

• Έχουν μεγάλη εφαρμογή στη στατιστική συμπερασματολογία

• Με βάση την τυπική απόκλιση και τη μέση τιμή, μπορούν να ορισθούν διαστήματα στα οποία βρίσκεται γνωστό ποσοστό παρατηρήσεων

• Το κυριότερο μειονέκτημα της διασποράς είναι ότι δεν εκφράζεται στις ίδιες μονάδες με τη μεταβλητή. Το μειονέκτημα αυτό παύει να υπάρχει με τη χρησιμοποίηση της τυπικής απόκλισης

• Απαιτούνται περισσότερες αλγεβρικές πράξεις για τον υπολογισμό τους απ’ ότι στα άλλα μέτρα.

Παρατήρηση: Ίσως δημιουργεί απορίες το γεγονός, ότι στον τύπο της τυπικής απόκλισης του δείγματος, και κατ’ επέκταση και της διασποράς του, διαιρούμε το

άθροισμα ∑=

−n

ii xx

1

2)( με 1−n αντί με n. Αυτό γίνεται διότι μπορεί να αποδειχθεί ότι,

όταν διαιρούμε με 1−n , η δειγματική διασπορά 2s είναι αμερόληπτη εκτιμήτρια της πληθυσμιακής διασποράς 2σ . Δηλαδή, αν πάρουμε όλα τα δυνατά δείγματα μεγέθους n και υπολογίσουμε τις διασπορές τους, 2s , τότε η μέση τιμή τους (των 2s ) θα είναι ίση με τη διασπορά 2σ του πληθυσμού20!! Ας ολοκληρώσουμε την ενότητα με τον υπολογισμό των μέτρων θέσης και διασποράς των μεταβλητών, αριθμός παιδιών οικογένειας και μηνιαίο εισόδημα πατέρα του Πίνακα-1. Παράδειγμα-1 (συνέχεια): α) Θα υπολογίσουμε τα μέτρα θέσης και διασποράς της μεταβλητής αριθμός παιδιών οικογένειας. Ο πίνακας συχνοτήτων της κατανομής του δείγματος είναι:

20 Το «μυστικό» της απόδειξης βρίσκεται στην ιδιότητα 0)(

1=−∑

=

n

ii xx της μέσης τιμής. Αυτή η σχέση

μας λέει ότι αν από τις n διαφορές xxi − γνωρίζουμε τις 1−n , τότε μπορούμε να υπολογίσουμε και

τη n-οστή. Επομένως, μπορούμε να υπολογίσουμε το άθροισμα ∑=

−n

ii xx

1

2)( αν γνωρίζουμε τους 1−n

από τους n όρους του. Δηλαδή οι «βαθμοί ελευθερίας» που έχουμε είναι 1−n και όχι n.

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 42

iy iν if iN iF 0 2 0.1 2 0.1 1 4 0.2 6 0.3 2 10 0.5 16 0.8 3 2 0.1 18 0.9 4 2 0.1 20 1.0 Σύνολα 20 1.0

Για ευκολία στον υπολογισμό της μέσης τιμής και της διασποράς, συμπληρώνουμε τον πίνακα ως εξής:

iy iν if iN iF ii y⋅ν 2ii y⋅ν

0 2 0.1 2 0.1 0 0 1 4 0.2 6 0.3 4 4 2 10 0.5 16 0.8 20 40 3 2 0.1 18 0.9 6 18 4 2 0.1 20 1.0 8 32

Σύνολα 20 1.00 38 94

Δειγματική μέση τιμή: 9.120381 ===

∑=

n

yx

k

iiiν

παιδιά.

Δειγματική διασπορά: ( ) 147.19.12094191

11 22

1

22 =⋅−=⎟⎠

⎞⎜⎝

⎛⋅−⋅

−= ∑

=

xnyn

sk

iii ν παιδιά2.

Δειγματική τυπική απόκλιση: 071.1147.1 ==s παιδιά.

Συντελεστής μεταβλητότητας του δείγματος: %37.56%1009.1

071.1=⋅==

xsCV .

Κορυφή του δείγματος: 20 =M (η τιμή 2 εμφανίσθηκε στο δείγμα με τη μεγαλύτερη συχνότητα).

Διάμεσος του δείγματος: 22

222

)11()10( =+

=+

=xx

δ .

Πρώτο τεταρτημόριο του δείγματος: Το 1Q βρίσκεται στην 25.5)120(25.0)1(25.0 =+⋅=+⋅ n θέση, άρα,

1)11(25.01)(25.0 )5()6()5(1 =−⋅+=−⋅+= xxxQ . Τρίτο τεταρτημόριο του δείγματος: Το 3Q βρίσκεται στην 75.15)120(75.0)1(75.0 =+⋅=+⋅ n θέση, άρα,

2)22(75.02)(75.0 )15()16()15(3 =−⋅+=−⋅+= xxxQ . Ενδοτεταρτημοριακό εύρος του δείγματος: 11213 =−=−QQ . Κατασκευή του θηκογράμματος: Το ανώτερο εσωτερικό φράγμα είναι, 5.315.12)(5.1 133 =⋅+=−⋅+ QQQ άρα το όριο της άνω κεραίας είναι το 3 (η μεγαλύτερη παρατήρηση που είναι μικρότερη ή ίση του 3.5). Το κατώτερο εσωτερικό φράγμα είναι, 5.015.11)(5.1 131 −=⋅−=−⋅− QQQ άρα το όριο της κάτω κεραίας είναι το 0 (η μικρότερη παρατήρηση που είναι μεγαλύτερη ή ίση του 0). Το θηκόγραμμα και το διάγραμμα συχνοτήτων του δείγματος είναι,

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 43

Συμπέρασμα: Η κατανομή του δείγματος του αριθμού των παιδιών παρουσιάζει μεγάλη συγκέντρωση τιμών στην τιμή 2 έχει όμως μεγάλη μεταβλητότητα και μια ακραία τιμή, την τιμή 4. β) Θα υπολογίσουμε τα μέτρα θέσης και διασποράς της μεταβλητής μηνιαίο εισόδημα πατέρα. Εφόσον έχουμε στη διάθεσή μας τα αρχικά/πρωτογενή δεδομένα θα εργασθούμε με αυτά. Στη συνέχεια θα δούμε πώς υπολογίζονται τα μέτρα θέσης και διασποράς αν τα δεδομένα δίνονται ομαδοποιημένα σε κλάσεις. Ο πίνακας συχνοτήτων των αρχικών δεδομένων είναι:

iy iν if iN iF 1000 1 0.05 1 0.05 1200 3 0.15 4 0.20 1300 1 0.05 5 0.25 1400 4 0.20 9 0.45 1500 2 0.10 11 0.55 1600 4 0.20 15 0.75 1800 3 0.15 18 0.90 2000 2 0.10 20 1.00

20 1.00 Για ευκολία στον υπολογισμό της μέσης τιμής και της διασποράς, συμπληρώνουμε τον πίνακα συχνοτήτων ως εξής:

iy iν if iN iF ii y⋅ν 2ii y⋅ν

1000 1 0.05 1 0.05 1000 1000000 1200 3 0.15 4 0.20 3600 4320000 1300 1 0.05 5 0.25 1300 1690000 1400 4 0.20 9 0.45 5600 7840000 1500 2 0.10 11 0.55 3000 4500000 1600 4 0.20 15 0.75 6400 10240000 1800 3 0.15 18 0.90 5400 9720000 2000 2 0.10 20 1.00 4000 8000000

Σύνολα 20 1.00 30300 47310000

Δειγματική μέση τιμή: 151520

303001 ===∑=

n

yx

k

iiiν

€.

Δειγματική διασπορά: ( ) 7.7397315152047310000191

11 22

1

22 =⋅−=⎟⎠

⎞⎜⎝

⎛⋅−⋅

−= ∑

=

xnyn

sk

iii ν €2.

Δειγματική τυπική απόκλιση: 98.2717.73973 ==s €.

Συντελεστής μεταβλητότητας του δείγματος: %95.17%1001515

98.271=⋅==

xsCV .

Η κορυφή του δείγματος δεν ορίζεται μονοσήμαντα (υπάρχουν δύο τιμές με τη μεγαλύτερη συχνότητα, η 1400 και η 1600)

Διάμεσος του δείγματος: 15002

150015002

)11()10( =+

=+

=xx

δ €.

Πρώτο τεταρτημόριο του δείγματος: Το 1Q βρίσκεται στη θέση,

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 44

25.5)120(25.0)1(25.0 =+⋅=+⋅ n , άρα, 1325)13001400(25.01300)(25.0 )5()6()5(1 =−⋅+=−⋅+= xxxQ .

Τρίτο τεταρτημόριο του δείγματος: Το 3Q βρίσκεται στη θέση, 75.15)120(75.0)1(75.0 =+⋅=+⋅ n θέση, άρα,

1750)16001800(75.01600)(75.0 )15()16()15(3 =−⋅+=−⋅+= xxxQ . Ενδοτεταρτημοριακό εύρος του δείγματος: 4251325175013 =−=−QQ . Κατασκευή του θηκογράμματος: Το ανώτερο εσωτερικό φράγμα είναι, 5.23874255.11750)(5.1 133 =⋅+=−⋅+ QQQ άρα το όριο της άνω κεραίας είναι το 2000 (η μεγαλύτερη παρατήρηση που είναι μικρότερη ή ίση του 2387.5). Το κατώτερο εσωτερικό φράγμα είναι, 5.6874255.11325)(5.1 131 =⋅−=−⋅− QQQ άρα το όριο της κάτω κεραίας είναι το 1000 (η μικρότερη παρατήρηση που είναι μεγαλύτερη ή ίση του 687.5). Το θηκόγραμμα και το διάγραμμα συχνοτήτων του δείγματος είναι,

Συμπέρασμα: Η κατανομή του δείγματος των μηνιαίων εισοδημάτων πατέρα είναι (περίπου) συμμετρική γύρω από το μέσο μηνιαίο εισόδημα που είναι 1515€. Δεν παρουσιάζει μεγάλη μεταβλητότητα ούτε έχει ακραίες τιμές. Το 50% των μηνιαίων εισοδημάτων του δείγματος βρίσκεται μεταξύ 1325 και 1750€. Ποσοστό 25% των πατεράδων του δείγματος, έχει μηνιαίο εισόδημα πάνω από 1750€. Επίσης, ποσοστό 25%, έχει μηνιαίο εισόδημα κάτω των 1350€. Ας δούμε πώς εργαζόμαστε αν τα δεδομένα δοθούν ομαδοποιημένα. Τώρα, ο πίνακας συχνοτήτων είναι ο εξής:

Εισόδημα iy iν if iN iF ii y⋅ν 2

ii y⋅ν (900 1100] 1000 1 0.05 1 0.05 1000 1000000 (1100 1300] 1200 4 0.20 5 0.25 4800 5760000 (1300 1500] 1400 6 0.30 11 0.55 8400 11760000 (1500 1700] 1600 4 0.20 15 0.75 6400 10240000 (1700 1900] 1800 3 0.15 18 0.90 5400 9720000 (1900 2100] 2000 2 0.10 20 1.00 4000 8000000

Σύνολα 20 1.00 30000 46480000

Δειγματική μέση τιμή: 150020

300001 ===∑=

n

yx

k

iiiν

€.

Δειγματική διασπορά:

( ) 74.7789415002046480000191

11 22

1

22 =⋅−=⎟⎠

⎞⎜⎝

⎛⋅−⋅

−= ∑

=

xnyn

sk

iii ν €2.

Δειγματική τυπική απόκλιση: 1.27974.77894 ==s €. Συντελεστής μεταβλητότητας του δείγματος: %6.18%100)15001.279( =⋅== xsCV . Η επικρατούσα κλάση είναι προφανώς η κλάση (1300, 1500], επομένως ως κορυφή του δείγματος μπορούμε, σύμφωνα με όσα έχουμε αναφέρει, να κάνουμε παρεμβολή

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 45

και ως κορυφή του δείγματος να θεωρήσουμε την τιμή,

1400200)46()46(

4613000 =⋅−+−

−+=M €.

Διάμεσος του δείγματος: έχει υπολογισθεί στα προηγούμενα (σελ. 28) και βρέθηκε, 7.1466=δ

Πρώτο τεταρτημόριο του δείγματος: Το 1Q βρίσκεται στην κλάση (1100, 1300] γιατί όπως φαίνεται στη στήλη των σχετικών αθροιστικών συχνοτήτων του πίνακα συχνοτήτων, σε αυτή την κλάση βρίσκεται η τιμή με σχετική αθροιστική συχνότητα 0.25. Επομένως,

13002004

12025.01100110025

251 =⋅−⋅

+=⋅−⋅

+== −i

i

ii c

NnLpQ

ν.

Τρίτο τεταρτημόριο του δείγματος: Το 3Q βρίσκεται στην κλάση (1500, 1700] γιατί όπως φαίνεται στη στήλη των σχετικών αθροιστικών συχνοτήτων του πίνακα συχνοτήτων, σε αυτή την κλάση βρίσκεται η τιμή με σχετική αθροιστική συχνότητα 0.75. Επομένως,

17002004

112075.01500110075

753 =⋅−⋅

+=⋅−⋅

+== −i

i

ii c

NnLpQ

ν.

Ενδοτεταρτημοριακό εύρος του δείγματος: 4001300170013 =−=−QQ . Το ιστόγραμμα και το πολύγωνο συχνοτήτων και των σχετικών συχνοτήτων, της κατανομής του δείγματος είναι:

Τέλος, ας υπολογίσουμε ένα ακόμη ποσοστημόριο, το 80p . Βρίσκεται στην κλάση (1700, 1900] γιατί όπως φαίνεται στη στήλη των σχετικών αθροιστικών συχνοτήτων του πίνακα συχνοτήτων, σε αυτή την κλάση βρίσκεται η τιμή με σχετική αθροιστική συχνότητα 0.80. Επομένως,

7.17662003

152080.01700110080

80 =⋅−⋅

+=⋅−⋅

+= −i

i

ii c

NnLp

ν

Τις τιμές των ποσοστημορίων μπορούμε να τις πάρουμε και από το πολύγωνο σχετικών αθροιστικών συχνοτήτων, όπως φαίνεται παρακάτω.

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 46

Ποιοτικές Μεταβλητές Για τις ποιοτικές μεταβλητές, η Περιγραφική Στατιστική προσφέρει, μεταξύ άλλων, τις ακόλουθες δυνατότητες: α) Ποιοτικές Μεταβλητές Κατηγορίας Κατασκευή Πίνακα Συχνοτήτων Ο πίνακας συχνοτήτων των τιμών της ποιοτικής μεταβλητής κατηγορίας, επάγγελμα πατέρα, στο δείγμα του πίνακα-1, είναι:

iy iν if Δάσκαλος 6 0.3 Δημ. Υπάλληλος 6 0.3 Εργάτης 4 0.2 Ιδιωτ. Υπάλληλος 2 0.1 Οδηγός 2 0.1 Σύνολα 20 1.0

Σημειώνουμε ότι σε ποιοτικές μεταβλητές κατηγορίας δεν έχουν νόημα οι αθροιστικές και οι σχετικές αθροιστικές συχνότητες.

Ραβδόγραμμα

Κυκλικό Διάγραμμα

Κορυφή ή Επικρατούσα τιμή Η μεταβλητή επάγγελμα πατέρα έχει δύο κορυφές: την τιμή Δάσκαλος και την τιμή Δημ. Υπάλληλος. Άλλα αριθμητικά περιγραφικά μέτρα δεν υπολογίζονται (δεν έχει νόημα) σε ποιοτικές μεταβλητές κατηγορίας. β) Ποιοτικές Μεταβλητές Διάταξης Κατασκευή Πίνακα Συχνοτήτων Ο πίνακας συχνοτήτων των τιμών της ποιοτικής μεταβλητής διάταξης, επίπεδο εκπαίδευσης πατέρα, στο δείγμα του πίνακα-1, είναι:

iy iν if iN iF 1 2 0.10 2 0.10 2 5 0.25 7 0.35 3 11 0.55 18 0.90 4 2 0.10 20 1.00

Σύνολα 20 1.00 Σε ποιοτικές μεταβλητές διάταξης έχουν νόημα οι αθροιστικές και οι σχετικές αθροιστικές συχνότητες. Για παράδειγμα, έχει νόημα να πούμε ότι επίπεδο εκπαίδευσης μέχρι και τριτοβάθμια εκπαίδευση έχουν 18 άτομα.

Ραβδόγραμμα

Κυκλικό Διάγραμμα

Κορυφή ή Επικρατούσα τιμή Η κορυφή της κατανομής της μεταβλητής επίπεδο εκπαίδευσης πατέρα, είναι η τιμή 3 (τριτοβάθμια εκπαίδευση). Σε ποιοτικές μεταβλητές διάταξης μπορούμε επίσης να υπολογίσουμε και τη διάμεσο (και γενικότερα ποσοστημόρια) παρότι δεν αντιστοιχεί πάντα σε τιμή της μεταβλητής.

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 47

Προβλήματα και Ασκήσεις

1. Στο κατάστημα ενός αγροτοτουριστικού συνεταιρισμού, πωλείται μέλι τεσσάρων ειδών (ανθέων, ελάτης, θυμαριού και ανάμεικτο), παραγωγής τριών ντόπιων μελισσοκόμων (Α, Β και Γ), σε γυάλινα βάζα τριών μεγεθών (μικρού, μεσαίου και μεγάλου). Επιλέγουμε τυχαία από τα ράφια του καταστήματος 25 βάζα μελιού και για κάθε ένα καταγράφουμε τον μελισσοκόμο που το παρήγαγε. Τα αποτελέσματα που πήραμε είναι τα εξής:

A B B Γ Α Α Α Γ Γ Γ Α Β Α Β Β Α Β Γ Α Β Γ Γ Γ Β Α

α) Ποια είναι η δειγματοληπτική μονάδα; β) Ποιας μεταβλητής καταγράφονται οι τιμές; Είναι ποσοτική ή ποιοτική; γ) Από ποιον πληθυσμό πήραμε το τυχαίο δείγμα; δ) Να κατασκευάσετε το ραβδόγραμμα και το κυκλικό διάγραμμα της κατανομής του δείγματος ε) Ποιο ποσοστό βάζων μελιού του δείγματος παράγεται από τον μελισσοκόμο Γ; στ) Ποια είναι η κορυφή του δείγματος;

2. (Συνέχεια της Άσκησης-1): Επιλέγουμε τυχαία από τα ράφια του καταστήματος

25 βάζα μελιού και καταγράφουμε α) το είδος του μελιού β) το μέγεθος της συσκευασίας (μικρό, μεσαίο, μεγάλο) γ) την περιεκτικότητα του μελιού σε σάκχαρα δ) το βάρος του περιεχόμενου κάθε βάζου. Για κάθε μια από αυτές τις περιπτώσεις, να απαντήσετε στα ερωτήματα (α), (β) και (γ) της Άσκησης-1.

3. Είναι γνωστό ότι η πετρελαϊκή ρύπανση των θαλασσών προκαλεί, μεταξύ άλλων, την ανάπτυξη ενός συγκεκριμένου τύπου βακτηρίων. Μια ομάδα ερευνητών, προκειμένου να μελετήσει αυτό το φαινόμενο σε μια θαλάσσια περιοχή που έχει πληγεί από πετρελαϊκή ρύπανση, πήρε νερό από 10 διαφορετικά σημεία αυτής της περιοχής και έκανε σχετικές μετρήσεις. Συγκεκριμένα, μέτρησε τον αριθμό, έστω Χ, αυτών των βακτηρίων ανά 100 milliliters νερού. Οι τιμές, 1021 ...,,, xxx , της μεταβλητής, Χ, στα δέκα σημεία ήταν: 49, 70, 54, 67, 59, 40, 61, 69, 71, 52. α) Ποιον πληθυσμό μελετούν οι ερευνητές; β) Να υπολογίσετε και να ερμηνεύσετε τα μέτρα θέσης και διασποράς της κατανομής του δείγματος. γ) Να κατασκευάσετε το θηκόγραμμα του δείγματος και με βάση αυτό να περιγράψετε την κατανομή του.

4. Ένας φοιτητής του Τμήματος Επιστήμης και Τεχνολογίας Τροφίμων του

Γεωπονικού Πανεπιστημίου Αθηνών, στο πλαίσιο της πτυχιακής του εργασίας, μελέτησε μεταξύ άλλων, την ποσότητα νατρίου, έστω Χ, που περιέχεται στο κασέρι συνήθους τύπου (όχι light) που παράγει μια γνωστή γαλακτοβιομηχανία. Τα αποτελέσματα εννέα σχετικών μετρήσεων που έκανε ο φοιτητής σε κασέρι που επέλεξε τυχαία από εννέα παρτίδες παραγωγής της γαλακτοβιομηχανίας, ήταν (σε milligrams/100gr): 340, 300, 340, 320, 320, 290, 330, 320, 310. α) Να υπολογίσετε και να ερμηνεύσετε τα μέτρα θέσης και διασποράς της κατανομής του δείγματος. β) Να κατασκευάσετε το θηκόγραμμα της κατανομής του δείγματος.

5. (Συνέχεια της άσκησης-4): Ο φοιτητής, επίσης μελέτησε, την ποσότητα νατρίου στο κασέρι τύπου light της ίδιας γαλακτοβιομηχανίας. Τα αποτελέσματα οκτώ σχετικών μετρήσεων ήταν: 300, 300, 310, 290, 280, 280, 285, 275. Να συγκρίνετε την κατανομή αυτού του δείγματος με την κατανομή του προηγούμενου δείγματος (ως προς τη λοξότητα, τη θέση και τη μεταβλητότητά τους).

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 48

6. Ένας φοιτητής του Τμήματος Φυτικής Παραγωγής του Γεωπονικού Πανεπιστημίου Αθηνών, στο πλαίσιο της πτυχιακής του εργασίας, μέτρησε σε 115 άνθη της ίδιας οικογένειας, τον αριθμό των πετάλων τους, έστω Χ. Τα αποτελέσματα, 11521 ...,,, xxx , αυτών των μετρήσεων ήταν τα εξής:

7 5 8 7 5 5 6 6 5 7 5 5 5 9 6 8 5 5 5 6 6 5 5 6 5 9 6 5 5 7 6 6 7 5 7 5 5 6 6 5 6 5 6 5 5 5 5 6 6 5 5 8 5 5 5 5 6 5 5 5 6 5 5 6 5 5 5 6 7 5 7 5 5 8 5 5 5 6 5 10 5 6 5 5 6 5 7 5 5 5 9 5 5 7 5 5 5 5 6 7 5 5 6 5 6 5 7 5 10 5 6 5 5 5 8

α) Ποια μεταβλητή μελετάει ο φοιτητής, ποια είναι η δειγματοληπτική μονάδα και ποιος ο πληθυσμός; β) Να υπολογίσετε και να ερμηνεύσετε τα μέτρα θέσης και διασποράς της κατανομής του δείγματος. γ) Να κατασκευάσετε το θηκόγραμμα του δείγματος. Τι συμπεραίνετε για την κατανομή του δείγματος; δ) Για κάποιο άνθος βρέθηκε 7=x . Τι μπορούμε να πούμε για τη θέση αυτής της τιμής στην κατανομή του δείγματος; ε) Αν 68.998 =p , τι μπορούμε να πούμε για τη θέση της τιμής 10=x στην κατανομή του δείγματος; στ) Να κατασκευάσετε το θηκόγραμμα των z-τιμών, 11521 ...,,, zzz , των τιμών 11521 ...,,, xxx της Χ. Τι συμπεραίνετε για την κατανομή των z-τιμών;

7. Σε μια περιοχή του Μαινάλου αιχμαλωτίσθηκαν από μια ομάδα ερευνητών, με βάση ένα σχέδιο τυχαίας δειγματοληψίας, 100 αλεπούδες για να ελεγχθούν ως προς το αν έχουν προσβληθεί από παράσιτα (ενός συγκεκριμένου τύπου). Στη συνέχεια οι ερευνητές κατέγραψαν τον αριθμό, έστω Χ, των παράσιτων που βρέθηκαν ανά αλεπού. Στον πίνακα που ακολουθεί φαίνονται οι συχνότητες όλων των τιμών x της μεταβλητής Χ που εμφανίσθηκαν στο δείγμα (μηδέν παράσιτα σε κάθε μία από 69 αλεπούδες, ένα παράσιτο σε κάθε μια από 17 αλεπούδες, 2 παράσιτα σε κάθε μία από 6 αλεπούδες, κ.τλ.).

Αριθμός παράσιτων 0 1 2 3 4 5 6 7 8 Αριθμός αλεπούδων 69 17 6 3 1 2 1 0 1

α) Να υπολογίσετε και να ερμηνεύσετε τα μέτρα θέσης και διασποράς της κατανομής του δείγματος. β) Να κατασκευάσετε το θηκόγραμμα του δείγματος. Τι συμπεραίνετε για την κατανομή του δείγματος; γ) Να υπολογίσετε τα ποσοστημόρια 95p και 98p . Τι μπορούμε να πούμε για τη θέση των τιμών, 4=x και 6=x στην κατανομή του δείγματος;

8. Σε 50 φύλλα πορτοκαλιάς, τυχαία επιλεγμένα, από έναν πορτοκαλεώνα στον κάμπο της Αργολίδας, μετρήθηκε ο αριθμός, έστω Χ, ζωυφίων ανά φύλλο. Στον πίνακα που ακολουθεί φαίνονται οι συχνότητες όλων των τιμών x της μεταβλητής Χ που εμφανίσθηκαν στο δείγμα.

Αριθμός ζωυφίων 0 1 2 3 4 5 6 7 Αριθμός φύλλων 2 5 9 11 10 7 4 2

α) Να υπολογίσετε και να ερμηνεύσετε τα μέτρα θέσης και διασποράς της κατανομής του δείγματος. β) Να κατασκευάσετε το θηκόγραμμα του δείγματος. Τι συμπεραίνετε για την κατανομή του δείγματος;

9. Στον πίνακα που ακολουθεί φαίνεται ο αριθμός σταφίδων που περιέχονται σε

καθένα από 14, τυχαία επιλεγμένα, μικρά φακελάκια (της μισής ουγκιάς) παραγωγής μιας μεγάλης εταιρείας συσκευασίας τροφίμων και αντίστοιχα, σε 14

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 49

τυχαία επιλεγμένα φακελάκια, της μισής επίσης ουγκιάς, οικοτεχνικής παραγωγής.

Παραγωγής Εταιρείας Τροφίμων Οικοτεχνικής Παραγωγής 25 26 25 28 26 25 29 24 24 28 28 28 27 26 27 24 28 22 25 28 24 25 26 26 30 27 28 24

Να συγκρίνετε τις κατανομές των δύο δειγμάτων ως προς τη θέση και τη μεταβλητότητά τους.

10. Ένας ερευνητής, σχεδίασε και εκτέλεσε ένα πείραμα για να μελετήσει το χρόνο,

έστω Χ (σε ημέρες), που απαιτείται για την αποδόμηση μιας συγκεκριμένης χημικής ουσίας από το μέλι (η ουσία αυτή χρησιμοποιείται για την καταπολέμηση των ακάρεων). Στον πίνακα που ακολουθεί φαίνονται 50 σχετικές παρατηρήσεις.

38 47 32 55 42 40 36 35 45 45 40 35 34 39 50 48 41 40 42 38 30 34 41 33 37 36 43 30 41 46 35 43 30 32 39 31 48 46 36 36 39 41 46 32 33 36 40 37 50 31

α) Να υπολογίσετε τη μέση τιμή, την τυπική απόκλιση, την κορυφή και τη διάμεσο του δείγματος. β) Να ομαδοποιήσετε τις παρατηρήσεις σε 6 κλάσεις με πλάτος 5 ημέρες η κάθε μια και αριστερό άκρο της πρώτης κλάσης τις 30 ημέρες. Να υπολογίσετε και πάλι τη μέση τιμή, την τυπική απόκλιση, την κορυφή και τη διάμεσο του δείγματος χρησιμοποιώντας τώρα τις ομαδοποιημένες παρατηρήσεις και να συγκρίνετε τα αποτελέσματα με αυτά του ερωτήματος (α). γ) Να κατασκευάσετε το ιστόγραμμα συχνοτήτων της κατανομής με βάση την ομαδοποίηση που κάνατε στο (β). Τι συμπεραίνετε για τη μορφή της; δ) Να σχολιάσετε τη θέση της κορυφής, της διαμέσου και της μέσης τιμής του δείγματος σε σχέση με τη μορφή της κατανομής που προκύπτει από το (γ). ε) Να υπολογίσετε τα ποσοστά των παρατηρήσεων που βρίσκονται, αντίστοιχα, εντός των διαστημάτων ),( sxsx +− , )2,2( sxsx +− , )3,3( sxsx +− και να τα συγκρίνετε με τα αντίστοιχα ποσοστά που αναμένονται από το θεώρημα του Chebyshev και από τον εμπειρικό κανόνα.

11. Προκειμένου μια βιομηχανία παραγωγής χάλυβα να εκτιμήσει τη μέση περιεκτικότητα του χάλυβα που παράγει σε μαγγάνιο, έκανε με βάση ένα σχέδιο τυχαίας δειγματοληψίας, 40 μετρήσεις με τα ακόλουθα αποτελέσματα (η περιεκτικότητα, έστω Χ, εκφράζεται ως ποσοστό, %):

1.50 1.28 1.54 1.50 1.58 1.40 1.34 1.46 1.52 1.70 1.54 1.46 1.62 1.72 1.38 1.58 1.46 1.44 1.36 1.08 1.60 1.34 1.18 1.44 1.46 1.52 1.58 1.62 1.42 1.34 1.58 1.12 1.56 1.42 1.36 1.44 1.38 1.52 1.58 1.64

α) Να ομαδοποιήσετε τις παρατηρήσεις σε 8 κλάσεις με πλάτος 0.1 η κάθε μια και αριστερό άκρο της πρώτης κλάσης το 1. β) Να κατασκευάσετε το ιστόγραμμα συχνοτήτων της κατανομής με βάση την ομαδοποίηση που κάνατε στο (α). Τι συμπεραίνετε για τη λοξότητα της κατανομής; γ) Να υπολογίσετε τη μέση τιμή, τη διάμεσο και την κορυφή του δείγματος και να σχολιάσετε τη θέση τους σε σχέση με τη μορφή της κατανομής που προκύπτει από το (β). δ) Να κατασκευάσετε το θηκόγραμμα των παρατηρήσεων.

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 50

12. Στον πίνακα που ακολουθεί φαίνεται το ποσοστό (%) οξειδίου του αργιλίου (aluminum oxide) σε καθένα από 24 κεραμικά αγγεία που βρέθηκαν σε αρχαιολογικές ανασκαφές που έγιναν σε δύο διαφορετικές περιοχές (Α και Β).

Α Β

14.4 11.6 13.8 11.1 14.6 18.3 18.0 17.7 14.8 11.5 12.4 13.8 13.1 10.9 15.8 18.0 18.3 10.1 12.5 13.4 12.7 20.8 19.1 16.7

α) Να κατασκευάσετε το ιστόγραμμα και το πολύγωνο σχετικών συχνοτήτων των 24 παρατηρήσεων. Παρατηρείτε κάτι «αξιοσημείωτο»; β) Να κατασκευάσετε το πολύγωνο σχετικών συχνοτήτων και το θηκόγραμμα των παρατηρήσεων από την περιοχή Α και αντίστοιχα από την περιοχή Β. Μπορείτε τώρα να εξηγήσετε γιατί συμβαίνει αυτό που παρατηρήσατε στο (α);

Για καθένα από τα παρακάτω δείγματα, α) να υπολογίσετε τα μέτρα θέσης και διασποράς, β) να κατασκευάσετε το ιστόγραμμα και το πολύγωνο συχνοτήτων (ή σχετικών συχνοτήτων) και το πολύγωνο σχετικών αθροιστικών συχνοτήτων, γ) να κατασκευάσετε το θηκόγραμμα και γ) να ελέγξετε αν υπάρχουν ακραίες τιμές. Τέλος, να συνοψίσετε τα ευρήματά σας στα (α), (β) και (γ), σε ένα σύντομο συμπέρασμα για τη θέση, τη μεταβλητότητα και τη μορφή της κατανομής του αντίστοιχου δείγματος. 13. Μια ομάδα ερευνητών, στο πλαίσιο ενός πειράματος, ράντισε μια καλλιέργεια

σέλινου με παραθείο με σκοπό να εκτιμήσει το υπόλοιπο παραθείου, έστω Χ, στο σέλινο, μετά ορισμένο χρονικό διάστημα από το ράντισμα. Στον πίνακα που ακολουθεί φαίνονται ομαδοποιημένες σε πέντε κλάσεις οι μετρήσεις (σε milligrams ) που έκανε η ερευνητική ομάδα σε 100 τυχαία επιλεγμένα φυτά.

Ποσότητα παραθείου (σε mgrs) Αριθμός φυτών [0, 20) 10

[20, 40) 10 [40, 60) 20 [60, 80) 40

[80, 100) 20 14. Ένας φοιτητής του Τμήματος Φυτικής Παραγωγής του Γεωπονικού

Πανεπιστημίου Αθηνών, στο πλαίσιο της πτυχιακής του εργασίας, επέλεξε τυχαία 100 φύλλα από φυτά της ίδιας οικογένειας που καλλιεργούνται στο θερμοκήπιο του Πανεπιστημίου και μέτρησε το μήκος τους, έστω Χ (σε cm). Τα αποτελέσματα των μετρήσεων αυτών φαίνονται, ομαδοποιημένα σε πέντε κλάσεις, στον πίνακα που ακολουθεί.

Μήκος φύλλου (σε cm) Αριθμός φύλλων

[0, 4) 51 [4, 8) 20 [8, 12) 16

[12, 16) 4 [16, 20) 9

15. Στον πίνακα που ακολουθεί φαίνεται η ποσότητα D.N.A. που βρέθηκε στο

συκώτι καθενός από 52 ποντίκια.

3.4 13.2 6.7 1.4 1.3 3.8 3.9 2.9 13.2 3.9 2.7 4.4 3.6 1.4 2.4 3.6 3.1 7.5 2.9 7.8 2.7 3.9 3.3 1.7 2.0 4.4 3.3 0.7 3.9 1.6 5.6 3.0 3.4 1.4 3.5 2.8 1.4 1.9 2.3 2.9 2.8 1.5 4.1 5.9 3.1 8.7 2.8 3.8 13.0 3.0 3.0 4.1

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 51

16. Μετρήθηκε ο χρόνος ζωής, έστω Χ, πενήντα εξαρτημάτων, τυχαία επιλεγμένων, από την αποθήκη του εργοστασίου παραγωγής τους. Οι μετρήσεις αυτές έδωσαν τα εξής αποτελέσματα (σε ώρες):

46 104 94 114 35 214 15 272 118 193 48 97 37

126 64 5 27 26 57 56 236 72 46 73 38 184 23 85 122 43 159 102 14 73 17 314 143 9 171

120 8 146 117 35 14 263 4 64 113 25 17. Στον πίνακα που ακολουθεί, δίνονται ομαδοποιημένες σε οκτώ κλάσεις, 200

παρατηρήσεις, 20021 ...,,, xxx , για το ύψος της ετήσιας βροχόπτωσης, έστω Χ (σε cm), που ελήφθησαν από 200 μετεωρολογικούς σταθμούς μιας χώρας.

Ύψος βροχόπτωσης (σε cm) Αριθμός σταθμών

[20, 30) 11 [30, 40) 14 [40, 50) 31 [50, 60) 48 [60, 70) 41 [70, 80) 30 [80, 90) 15

[90, 100) 10 18. Τα τελευταία χρόνια παρατηρείται συνεχώς αυξανόμενο ενδιαφέρον για τη

μελέτη της συγκέντρωσης τοξικών στοιχείων στον οργανισμό των θαλάσσιων θηλαστικών. Στο πλαίσιο μιας σχετικής μελέτης για τη συγκέντρωση, έστω Χ, υδραργύρου στο συκώτι ενός είδους αρσενικών δελφινιών, έγιναν σχετικές μετρήσεις σε ένα τυχαίο δείγμα 28 αρσενικών δελφινιών αυτού του είδους με τα εξής αποτελέσματα (σε micrograms/gram):

1.70 101 168 481 252 278 397 1.72 85.40 218 485 329 286 209 8.80 118 180 221 316 315 314 5.90 183 264 406 445 241 318

19. Στον πίνακα που ακολουθεί φαίνεται για καθένα από 50 τυχαία επιλεγμένα ζώα

που έχουν προσβληθεί από μια δύσκολα αντιμετωπίσιμη ασθένεια, ο χρόνος Χ (σε μήνες), από την πρώτη εκδήλωση της ασθένειας μέχρι την επανεμφάνισή της.

2.1 9.0 14.7 19.2 4.1 7.4 14.1 8.7 1.6 3.7 4.4 2.0 9.6 6.9 18.4 0.2 1.0 24.0 3.5 12.6 2.7 6.6 16.7 4.3 0.2 8.3 2.4 1.4 11.4 23.1 32.3 3.9 7.4 3.3 6.1 0.3 2.4 8.2 18.0 5.6 9.9 1.6 8.2 1.2 13.5 1.3 18.0 5.8 26.7 0.4

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 52

20. Τα παρακάτω διαγράμματα παρουσιάζουν την κατανομή του μηνιαίου βιοτικού

επιπέδου, έστω Χ, των μελών ενός αντιπροσωπευτικού δείγματος 2051 οικογενειών του Νομού Αττικής21 για το έτος 2008. Για την κατανομή αυτή, δίνεται επίσης, ο δειγματικός μέσος, 12.923=x € και η δειγματική τυπική απόκλιση, 01.538=s €.

α) Ποια μεταβλητή μελετάμε, ποια είναι η δειγματοληπτική μονάδα και ποιος είναι ο πληθυσμός; β) Να υπολογίσετε (κατά προσέγγιση) και να ερμηνεύσετε τη διάμεσο και το 1ο και 3ο τεταρτημόριο της κατανομής του δείγματος. γ) Τι

21 Το μηνιαίο βιοτικό επίπεδο μιας οικογένειας είναι ίδιο για όλα τα μέλη της οικογένειας και προκύπτει από τη διαίρεση του συνολικού καθαρού μηνιαίου εισοδήματος της οικογένειας με ένα σταθμικό άθροισμα των μελών της. Το σταθμικό άθροισμα προκύπτει ως εξής: για τον πρώτο ενήλικα βάρος 1, για κάθε άλλο ενήλικα και κάθε παιδί άνω των 14 ετών βάρος 0.5 και για κάθε παιδί κάτω των 14 ετών βάρος 0.3. Για παράδειγμα, το μηνιαίο βιοτικό επίπεδο μιας οικογένειας με συνολικό καθαρό μηνιαίο εισόδημα 2800€ που αποτελείται από τον πατέρα, τη μητέρα, τη γιαγιά, ένα παιδί 8 ετών και ένα παιδί 16 ετών είναι, 1000)5.03.05.05.01(2800 =++++ €.

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 53

ποσοστό (περίπου) των οικογενειών του δείγματος έχει μηνιαίο βιοτικό επίπεδο πάνω από 2000€; δ) Αν είστε εκπρόσωπος των εργαζομένων, ποιες πληροφορίες από την κατανομή του δείγματος θα χρησιμοποιούσατε ως επιχειρήματα σε μια συνάντηση με τον υπουργό οικονομικών; ε) Τι ποσοστό (περίπου) των οικογενειών του δείγματος βρίσκεται κάτω από το όριο της φτώχιας (το όριο της φτώχιας ορίζεται ως το 60% του διάμεσου μηνιαίου βιοτικού επιπέδου). στ) Αν η z-τιμή του μηνιαίου βιοτικού επιπέδου των μελών μιας οικογένειας του δείγματος είναι -1.3, ποια είναι η θέση του μηνιαίου βιοτικού επιπέδου των μελών αυτής της οικογένειας στην κατανομή του δείγματος; ζ) Αν το μηνιαίο βιοτικό επίπεδο των μελών μιας οικογένειας του δείγματος είναι 1500€, ποια είναι η θέση αυτής της τιμής στην κατανομή του δείγματος; η) Τι ποσοστό (κατά προσέγγιση) των οικογενειών του δείγματος έχει μηνιαίο βιοτικό επίπεδο που βρίσκεται στο διάστημα )2,2( sxsx +− ; Συμφωνεί αυτό το ποσοστό με αυτό που αναμένουμε από το θεώρημα του Chebyshev;

21. Στο παρακάτω διάγραμμα φαίνεται η κατανομή του αριθμού, έστω Χ, των ενηλίκων μελών (18 ετών και άνω), ενός αντιπροσωπευτικού δείγματος 2660 οικογενειών μιας πολιτείας των Η.Π.Α. Επίσης δίνεται ο πίνακας συχνοτήτων της κατανομής του δείγματος.

Αριθμός ενηλίκων 1 2 3 4 5 Αριθμός οικογενειών 1020 1300 250 70 20

α) Να επαληθεύσετε ότι οι θέσεις που έχουν σημειωθεί στο διάγραμμα συχνοτήτων, αντιστοιχούν πράγματι στη μέση τιμή, τη διάμεσο και την κορυφή της κατανομής του δείγματος. β) Μπορείτε να εξηγήσετε γιατί, ενώ η κατανομή εμφανώς παρουσιάζει θετική ασυμμετρία, η μέση τιμή βρίσκεται αριστερά της διαμέσου και της κορυφής;

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 54

Απαντήσεις 1. ………………….. 2. ………………….. 3. β) 25.51,60,37.10,51.107,2.59 1

2 ===== Qssx δ , ,25.693 =Q %51.17=CV . Δεν έχει κορυφή ούτε ακραίες τιμές. Παρουσιάζει ελαφρά

αρνητική ασυμμετρία.

4. α) 335,305,320,91.16,11.286,89.318 31

2 ====== QQssx δ %3.5,3200 == CVM . Δεν έχει ακραίες τιμές και δεν παρουσιάζει κάποιου

είδους προφανή ασυμμετρία. 5. 300,280,5.287,25.12,150,290 31

2 ====== QQssx δ , %22.4=CV . Κορυφή δεν έχει. Οι δύο κατανομές δεν έχουν ακραίες τιμές, έχουν μικρή μεταβλητότητα και δεν παρουσιάζουν κάποιου είδους ασυμμετρία. Η δεύτερη κατανομή είναι μετατοπισμένη προς τα αριστερά (προς μικρότερες τιμές).

6. β) %79.19,5,6,5,5,14.1,3.1,76.5 031

2 ======== CVMQQssx δ . γ) Παρουσιάζει θετική ασυμμετρία. Οι τιμές, 8, 9 και 10 είναι ακραίες. δ) Βρίσκεται μια περίπου τυπική απόκλιση δεξιότερα της μέσης τιμής. ε) ανήκει στο 2% των ανθέων με τα περισσότερα πέταλα. στ) Έχει ίδια μορφή με τη μορφή της κατανομής των 11521 ...,,, xxx .

7. α) %6.210,0,1,0,0,39.1,94.1,66.0 031

2 ======== CVMQQssx δ β) Παρουσιάζει θετική ασυμμετρία και πέντε ακραίες τιμές (3, 4, 5, 6 και 8) γ) 98.5,95.3 9895 == pp . Η τιμή 4=x ανήκει στο 5% των αλεπούδων με τα περισσότερα παράσιτα και η 6=x , στο 2% με τα περισσότερα παράσιτα.

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 55

8. α) %51,3,5,2,3,725.1,975.2,38.3 0312 ======== CVMQQssx δ β)

παρουσιάζει ελαφρά θετική ασυμμετρία. Δεν έχει ακραίες τιμές.

9. Έχουν ίδια διάμεσο και μέση τιμή, είναι και οι δύο συμμετρικές χωρίς ακραίες

τιμές, όμως οι συσκευασίες οικοτεχνικής προέλευσης παρουσιάζουν μεγαλύτερη μεταβλητότητα (έχουν CV, αντίστοιχα, 4.77% και 9.23%,).

10. α) .36,39,99.5,83.35,08.39 02 ===== Mssx δ

β) .5.37,3.39,24.6,02.39,1.40 02 ===== Mssx δ (φυσικά, διαφέρουν)

γ) Παρουσιάζει θετική ασυμμετρία

δ) Ισχύει 0Mx >> δ . Η διάταξη αυτή είναι σύμφωνη με τον κανόνα που, εν γένει, ισχύει στις περιπτώσεις θετικής ασυμμετρίας. ε) Στο διάστημα )82.41,84.29( ανήκει ποσοστό ίσο με 70.05035 = ή 70% Στο διάστημα )81.47,85.23( ανήκει ποσοστό ίσο με 90.05045 = ή 90% Στο διάστημα )80.53,86.17( ανήκει ποσοστό ίσο με 98.05049 = ή 98%. Διαφέρουν από τα ποσοστά που αναμένονται από τον εμπειρικό κανόνα αφού η κατανομή δεν έχει κωδωνοειδή μορφή. Φυσικά συμφωνούν με το θεώρημα του Chebyshev.

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 56

11. β) Παρουσιάζει αρνητική ασυμμετρία.

γ) 58.1,46.1,464.1 0 === Mx δ . Παρότι υπάρχει αρνητική ασυμμετρία, δεν ισχύει δ<x . Αυτό συμβαίνει γιατί υπάρχουν λίγες μικρές τιμές που προκαλούν την αρνητική ασυμμετρία όμως η δεξιά ουρά είναι «παχιά» (μεγάλη συγκέντρωση μεγάλων τιμών που «τραβούν» τη μέση τιμή προς τα δεξιά). δ) .5583.1,375.1 31 == QQ

12. α) Η κατανομή φαίνεται να είναι δικόρυφη.

β) Είναι πολύ πιθανό, τα δείγματα να προέρχονται από διαφορετικούς πληθυσμούς.

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 57

13. %4,70,5.55,45,65,20.24,86.585,60 0312 ======== CVMQQssx δ

14. %8.85,49.2,14.9,94.1,9.3,1.5,5.26,6 0312 ======== CVMQQssx δ

15. Αν οι υπολογισμοί γίνουν μετά από ομαδοποίηση σε 7 κλάσεις πλάτους 2:

%88.75,9.2,4,2.2,1.3,86.2,18.8,769.3 0312 ======== CVMQQssx δ .

Αν οι υπολογισμοί γίνουν με τα πρωτογενή δεδομένα: %83.71,05.4,48.2,2.3,82.2,987.7,9346.3 31

2 ======= CVQQssx δ .

16. Αν οι υπολογισμοί γίνουν μετά από ομαδοποίηση σε 8 κλάσεις πλάτους 40:

,124,25.31,72.72,09.73,69.5342,6.89 312 ====== QQssx δ

%57.81,48.300 == CVM . Αν οι υπολογισμοί γίνουν με τα πρωτογενή δεδομένα: %07.83,123,33,5.72,11.76,22.5793,62.91 31

2 ======= CVQQssx δ

17. ,67.71,06.48,16.59,33.17,412.300,7.59 312 ====== QQssx δ

%29,08.570 == CVM 18. Αν οι υπολογισμοί γίνουν μετά από ομαδοποίηση σε 6 κλάσεις πλάτους 90:

255,28.334,150,5.247,7.132,18.17617,28.244 0312 ======= MQQssx δ

Αν οι υπολογισμοί γίνουν με τα πρωτογενή δεδομένα: %8.59,5.317,5.130,5.246,548.141,8.20035,73.236 31

2 ======= CVQQssx δ

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 58

19. Αν οι υπολογισμοί γίνουν μετά από ομαδοποίηση σε 7 κλάσεις πλάτους 5:

.67.3,5.11,84.2,07.6,1.7,19.49,3.8 0312 ======= MQQssx δ

Αν οι υπολογισμοί γίνουν με τα πρωτογενή δεδομένα: %67.91,825.12,33.2,35.6,67.7,84.48,368.8 31

2 ======= CVQQssx δ

20. α) Το μηνιαίο βιοτικό επίπεδο των μελών των οικογενειών του Νομού Αττικής για το έτος 2008. Η οικογένεια. Όλες οι τιμές του μηνιαίου βιοτικού επιπέδου των μελών των οικογενειών του Νομού Αττικής για το έτος 2008, μια για κάθε οικογένεια του Νομού Αττικής. β) 1167,543,833 31 === QQδ . γ) 5% . δ) Θα αναφερθούν στοιχεία που ερμηνεύουν τη θετική ασυμμετρία της κατανομής (π.χ. κάτω από το μέσο βιοτικό επίπεδο βρίσκεται ποσοστό μεγαλύτερο του 50%, βιοτικό επίπεδο πάνω από 1550€ έχει μόνο το 10% ή το 25% έχει βιοτικό επίπεδο μέχρι 543€) κ.τλ.. ε) Όριο φτώχιας 50083360.0 =⋅= €, άρα περίπου το 22% των οικογενειών. στ) Βρίσκεται 1.3 τυπικές αποκλίσεις αριστερά (δηλαδή κάτω) του μέσου βιοτικού επιπέδου. ζ) Βρίσκεται 1.07 τυπικές αποκλίσεις δεξιά (δηλαδή πάνω) του μέσου βιοτικού επιπέδου. η) Στο διάστημα

)14.1999,9.152(− βρίσκεται περίπου το 95% των βιοτικών επιπέδων του δείγματος. Το ποσοστό αυτό συμφωνεί με το θεώρημα του Chebyshev αφού είναι μεγαλύτερο από 75%.

21. α) 2,2,79.1 0 === Mx δ β) Υπάρχουν λίγες μεγάλες τιμές που προκαλούν τη θετική ασυμμετρία όμως η αριστερή ουρά είναι «παχιά» (μεγάλη συγκέντρωση μικρών τιμών που «τραβούν» τη μέση τιμή προς τα αριστερά).

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 59

Μεταβλητές Διεύθυνσης και Κατεύθυνσης (κυκλικά δεδομένα) Όπως ήδη έχουμε αναφέρει (σελ. 9-11), οι μεταβλητές που εκφράζουν χαρακτηριστικά διεύθυνσης ή κατεύθυνσης μετρώνται σε κυκλική κλίμακα. Ένας κύκλος διαιρείται σε 360 ίσα μέρη. Ως μονάδα μέτρησης ορίζεται η μία μοίρα (10). Οι μηδέν μοίρες (00) αντιστοιχίζονται στο βορρά και στο βορρά, επίσης, αντιστοιχίζονται οι 3600. Επομένως, στις μεταβλητές κατεύθυνσης ή διεύθυνσης αποδίδονται τιμές γωνιών σε μοίρες22. Οι γωνίες μετρώνται από το βορρά και κατά τη φορά των δεικτών του ωρολογίου. Όπως δείξαμε με αντιπαραδείγματα (σελ. 9-11), οι μέθοδοι παρουσίασης, περιγραφής και ανάλυσης κυκλικών δεδομένων, διαφέρουν από τις αντίστοιχες που εφαρμόζονται σε δεδομένα κλίμακας διαστήματος ή κλίμακας αναλογίας (παρότι, ως έννοιες, είναι ανάλογες). Ας δούμε, μέσω συγκεκριμένων παραδειγμάτων, ποιες μέθοδοι χρησιμοποιούνται για τη γραφική αναπαράσταση κυκλικών δεδομένων και πώς ορίζονται και υπολογίζονται τα αριθμητικά περιγραφικά μέτρα της κατανομής τους.

22 Οι γωνίες μετρώνται και σε βαθμούς (radians). Ένας βαθμός ορίζεται ως μια γωνία που βαίνει σε τόξο ίσο με την ακτίνα r του κύκλου. Επειδή ο κύκλος έχει μήκος (περιφέρεια) 2πr, οι 3600 αντιστοιχούν σε 2π βαθμούς και επομένως, ένας βαθμός ισούται με 3600/2π =1800 /π, δηλαδή, περίπου με 570.

3600

00

900

1800

2700

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 60

Γραφική παρουσίαση κυκλικών δεδομένων Παράδειγμα-14: Στον πίνακα που ακολουθεί δίδονται οι κατευθύνσεις (directions) των ιχνών της κίνησης των πάγων (glacial striations) σε μια έκταση 35 Km2 στη νότια Φιλανδία.

Κατεύθυνση του ίχνους της κίνησης πάγων (σε μοίρες από το βορρά και κατά τη φορά των δεικτών του

ωρολογίου) 23 93 121 128 137 155 186 27 99 123 128 144 157 190 53 100 125 129 145 163 212 58 105 126 132 145 165 64 113 126 132 146 171 83 113 126 132 153 172 85 114 127 134 155 179 88 117 127 135 155 181

Πρόκειται για δεδομένα κατεύθυνσης. Δηλαδή, τα δεδομένα αυτά ορίζουν και διεύθυνση και φορά. Για παράδειγμα, οι 530 και οι 2330 ορίζουν την ίδια διεύθυνση 530-2330 αλλά ταυτόχρονα ορίζουν και δύο αντίθετες κατευθύνσεις: την κατεύθυνση 530 και την κατεύθυνση 2330. Η γραφική παρουσίαση των δεδομένων μπορεί να γίνει: α) Με κυκλικό διάγραμμα διασποράς

0

90

180

270

β) Με ροδόγραμμα (rose diagram) Το ροδόγραμμα είναι αντίστοιχο του γραμμικού ιστογράμματος. Τα δεδομένα ομαδοποιούνται σε κλάσεις και αντίστοιχα ο κύκλος διαιρείται σε κυκλικούς τομείς. Δηλαδή, αν για παράδειγμα, ως πλάτος της κλάσης επιλεγούν οι 300, ο κύκλος διαιρείται σε 12 τομείς των 300. Η συχνότητα κάθε κλάσης αναπαρίσταται είτε με την ακτίνα (σχήμα Ι) είτε με το εμβαδόν (σχήμα ΙΙ) του αντίστοιχου κυκλικού τομέα.

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 61

(Ι)

25 25

25

25

20 20

20

20

15 15

15

15

10 10

10

10

5 5

5

5

0

90

180

270

(ΙΙ)

25 25

25

25

16 16

16

16

9 9

9

9

4 4

4

4

1 1

1

1

0

90

180

270

Επειδή η οπτική εντύπωση που δημιουργεί ένας κυκλικός τομέας διαμορφώνεται πρωτίστως από το εμβαδόν του και δευτερευόντως από την ακτίνα του, το ροδόγραμμα Ι μπορεί να παρασύρει σε λάθος συμπεράσματα αφού υπερτονίζει (οπτικά) τις μεγάλες συχνότητες και υποβαθμίζει τις μικρές. Έτσι, μπορεί να δημιουργηθεί η εντύπωση ότι κάποια κατεύθυνση «ξεχωρίζει» ιδιαίτερα έναντι των άλλων, ενώ τα δεδομένα μπορεί να μην υποστηρίζουν ένα τέτοιο συμπέρασμα. Για το λόγο αυτό, στη βιβλιογραφία προτείνεται οι συχνότητες (ή οι σχετικές συχνότητες) των κλάσεων να αναπαρίστανται με τα εμβαδά και όχι με τις ακτίνες των αντίστοιχων τομέων. Δηλαδή, η ακτίνα κάθε τομέα προτείνεται να είναι ανάλογη με την τετραγωνική ρίζα της αντίστοιχης συχνότητας και όχι με τη συχνότητα (γιατί;). Είναι προφανές ότι στο ιστόγραμμα μη κυκλικών δεδομένων δε δημιουργείται ανάλογο πρόβλημα (γιατί;). Είναι, επίσης, προφανές ότι το ροδόγραμμα, όπως και το ιστόγραμμα μη κυκλικών δεδομένων, επηρεάζεται δραστικά από το πλάτος των κλάσεων (συγκρίνετε το ροδόγραμμα ΙΙΙ που σχεδιάσθηκε σε τομείς 100 με το ροδόγραμμα ΙΙ που σχεδιάσθηκε σε τομείς 300). (ΙΙΙ)

16 16

16

16

9 9

9

9

4 4

4

4

1 1

1

1

0

90

180

270

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 62

γ) Με κυκλικό ιστόγραμμα (circular histogram) Στο κυκλικό ιστόγραμμα οι συχνότητες ή οι σχετικές συχνότητες αναπαρίστανται με ράβδους αντίστοιχου μήκους που σχεδιάζονται από την περιφέρεια ενός κύκλου. Το παρακάτω κυκλικό ιστόγραμμα είναι το αντίστοιχο του ροδογράμματος ΙΙΙ. Τα κυκλικά ιστογράμματα χρησιμοποιούνται ευρέως για τη γραφική παρουσίαση της φοράς ανέμων.

12.5 12.5

12.5

12.5

10 10

10

10

7.5 7.5

7.5

7.5

5 5

5

5

2.5 2.5

2.5

2.5

0

90

180

270

Αν για την αναπαράσταση των συχνοτήτων ή των σχετικών συχνοτήτων χρησιμοποιηθούν διανύσματα, το κυκλικό ιστόγραμμα παίρνει τη μορφή: δ) Με γραμμικό ιστόγραμμα Πρόκειται για το σύνηθες γραμμικό ιστόγραμμα. Ένα μειονέκτημά του είναι ότι η οπτική εντύπωση που δημιουργεί διαφοροποιείται σημαντικά, ανάλογα με την επιλογή της αρχής των αξόνων. Γι’ αυτό, όταν το εύρος των τιμών είναι μεγάλο (πάνω από 1800) δεν προτείνεται για την αναπαράσταση κυκλικών δεδομένων. Το παρακάτω γραμμικό ιστόγραμμα είναι το αντίστοιχο του ροδογράμματος ΙΙΙ

12.5

10

7.5

5

2.5

0360270180900

0

90

180

270

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 63

Ας δούμε ένα ακόμη παράδειγμα. Παράδειγμα-15: Στον πίνακα που ακολουθεί δίδονται οι διευθύνσεις (orientations) των κύριων (μεγαλύτερων) αξόνων 99 ελλειπτικών γεωλογικών σχηματισμών στις νότιες ακτές του Ατλαντικού σε μια περιοχή της North Carolina.

Πίνακας Διεύθυνση του κύριου άξονα ελλειπτικών γεωλογικών σχηματισμών

(σε μοίρες από το βορρά και κατά τη φορά των δεικτών του ωρολογίου) 218 42.8 225.3 50.9 234.8 54 229.6 40.8 231.9 49.4 217.9 42.7 226.8 50.9 234.7 51.8 230 44.9 227.3 46.1 218.8 43.8 227.4 51.4 238.3 51.9 229.3 45.8 221.9 47 219.4 43.9 228.6 51.7 246.8 50.9 228.8 46.6 221.3 44.9 219.8 43.8 228.9 51.9 246.8 50.9 227.9 48 219.4 51.9 220.1 44.8 230 52.4 238.9 51 227 49.9 231.9 54.1 220.8 45.8 229.9 53.7 235.8 50.5 225.8 53 233.7 46.1 220.8 45.8 229.7 53.9 235.8 49.9 225.9 50 235 46 222 46.1 229.9 53.9 233.9 49.8 226 47.9 236 50.8 221.9 45.8 231.3 54.9 232.9 50 222 49.9 229.9

Πρόκειται για δεδομένα διεύθυνσης. Δηλαδή, δεν ενδιαφέρει η φορά αλλά μόνο η διεύθυνση. Πρακτικά, αυτό σημαίνει ότι παρατηρήσεις που διαφέρουν κατά 1800 προσδιορίζουν μια τιμή της μεταβλητής «διεύθυνση του κύριου άξονα ελλειπτικών γεωλογικών σχηματισμών». Για παράδειγμα, η παρατήρηση 500 προσδιορίζει τη διεύθυνση 500-2300. Ομοίως, η παρατήρηση 2300 προσδιορίζει την ίδια διεύθυνση 500-2300. Δηλαδή, η τιμή 500-2300 της μεταβλητής «διεύθυνση του κύριου άξονα ελλειπτικών γεωλογικών σχηματισμών» μπορεί να αποδοθεί είτε με τις 500 είτε με τις 2300. Με βάση όσα ήδη έχουμε αναφέρει για τις μεταβλητές διεύθυνσης (σελ. 10-11), η κατανομή δεδομένων διεύθυνσης είναι προφανές ότι αναπαρίσταται σε ημικύκλιο (ή σε κύκλο ως δύο συμμετρικά ως προς το κέντρο του κύκλου γραφήματα). Έτσι για τα δεδομένα του παραδείγματος-15 έχουμε τα γραφήματα: α) Κυκλικό διάγραμμα διασποράς

0

90

180

270

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 64

β) Ροδόγραμμα (σε τομείς 100)

64 64

64

64

36 36

36

36

16 16

16

16

4 4

4

4

0

90

180

270

γ) Κυκλικό ιστόγραμμα (σε τομείς 100)

60 60

60

60

50 50

50

50

40 40

40

40

30 30

30

30

20 20

20

20

10 10

10

10

0

90

180

270

δ) Γραμμικό ιστόγραμμα (σε κλάσεις 100)

60

50

40

30

20

10

0360270180900

Ερώτηση: Δείτε το επόμενο ροδόγραμμα. Αφορά στα ίδια δεδομένα και σχεδιάσθηκε σε ίδιους τομείς 100, όπως το παραπάνω ροδόγραμμα (β). Τι μπορεί να συνέβη και άλλαξε;

36 36

36

36

25 25

25

25

16 16

16

16

9 9

9

9

4 4

4

4

1 1

1

1

0

90

180

270

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 65

Μέτρα θέσης και διασποράς της κατανομής κυκλικών δεδομένων Όπως ήδη έχουμε αναφέρει, τα μέτρα θέσης και διασποράς της κατανομής κυκλικών δεδομένων ενώ είναι ανάλογα (εννοιολογικά) με τα αντίστοιχα μέτρα της κατανομής μη κυκλικών δεδομένων, εντούτοις, τα περισσότερα από αυτά ορίζονται και υπολογίζονται διαφορετικά. Για παράδειγμα, η διασπορά της κατανομής κυκλικών δεδομένων εκφράζει, όπως και η διασπορά της κατανομής μη κυκλικών, το βαθμό συγκέντρωσης των δεδομένων γύρω από τη μέση τιμή τους. Όμως, υπολογίζεται διαφορετικά. Ας δούμε πώς ορίζονται και πώς υπολογίζονται τα βασικότερα μέτρα θέσης και διασποράς της κατανομής κυκλικών δεδομένων. Μέσος κυκλικών δεδομένων α) Μέση κατεύθυνση Έστω nϑϑϑ ...,, 21 , n τιμές μιας μεταβλητής κατεύθυνσης. Θα προσπαθήσουμε να ορίσουμε τη μέση κατεύθυνση των nϑϑϑ ...,, 21 , δηλαδή, έναν «τυπικό εκπρόσωπό» τους, ϑ . Επειδή τιμές σε μεταβλητές κατεύθυνσης αποδίδονται με γωνίες (σε μοίρες ή βαθμούς), είναι προφανές ότι πρέπει να ανατρέξουμε στα αντίστοιχα μαθηματικά εργαλεία. Δηλαδή, στον τριγωνομετρικό κύκλο23 και τις τριγωνομετρικές συναρτήσεις. Μια γωνία ϑ , αναπαριστάνεται στην περιφέρεια του τριγωνομετρικού κύκλου με το πέρας ενός μοναδιαίου διανύσματος ),( ημϑσυνϑ . Είναι, επομένως, λογικό, να ορίσουμε τη μέση τιμή γωνιών μέσω της συνισταμένης μοναδιαίων διανυσμάτων.

Έτσι, ως μέση κατεύθυνση των nϑϑϑ ...,, 21 , ορίζεται η κατεύθυνση ϑ της συνισταμένης rr των μοναδιαίων διανυσμάτων ),( 11 ημϑσυνϑ ,

),( 22 ημϑσυνϑ ,…, ),( nn ημϑσυνϑ 24. Αν ryrx , είναι οι συντεταγμένες της συνισταμένης rr των μοναδιαίων διανυσμάτων

),( 11 ημϑσυνϑ , ),( 22 ημϑσυνϑ , … , ),( nn ημϑσυνϑ , τότε, από τον ορισμό του

αθροίσματος διανυσμάτων, έχουμε: ∑=

=n

iirx

1συνϑ και ∑

==

n

iiry

1ημϑ .

23 Ο τριγωνομετρικός κύκλος είναι ένας προσανατολισμένος κύκλος που έχει ακτίνα ένα. Η αρχή (00) ορίζεται στο θετικό ημιάξονα Οχ, και ως θετική φορά η αντίθετη φορά των δεικτών του ωρολογίου. 24 και φυσικά, όχι ο αριθμητικός μέσος τους

nnϑϑϑ +++ ...21 .

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 66

Επομένως, η μέση κατεύθυνση ϑ , των nϑϑϑ ...,, 21 , υπολογίζεται από τη σχέση:

∑∑

=

== ni i

ni i

1

1

συνϑ

ημϑτοξεφϑ

σε συνδυασμό με το πρόσημο των rx και ry (αφού οι τιμές της εφαπτομένης

επαναλαμβάνονται ανά 1800). Στη Γεωλογία , στη Μετεωρολογία και σε άλλες επιστήμες, έχει καθιερωθεί, οι 00 να ορίζονται στο θετικό ημιάξονα Οy, δηλαδή στο βορρά, και η θετική φορά να ορίζεται ως η φορά των δεικτών του ωρολογίου. Στην περίπτωση αυτή, το μοναδιαίο διάνυσμα που αντιστοιχεί στη γωνία ϑ έχει συντεταγμένες ),( συνϑημϑ (γιατί;) και συνεπώς

∑=

=n

iirx

1ημϑ και ∑

==

n

iiry

1συνϑ .

Η μέση κατεύθυνση υπολογίζεται και πάλι από τη σχέση ∑∑

=

== ni i

ni i

1

1

συνϑ

ημϑτοξεφϑ σε

συνδυασμό με το πρόσημο των rx και ry .

Ας υπολογίσουμε τη μέση κατεύθυνση των κατευθύνσεων τριών ανέμων, 700, 1600 και 800 αντίστοιχα. Οι κατευθύνσεις αυτές μετρήθηκαν από το βορρά και κατά τη διεύθυνση των δεικτών του ωρολογίου. Γραφικά, η μέση κατεύθυνση μπορεί να βρεθεί με το γνωστό κανόνα του παραλληλογράμμου ως η συνισταμένη rr των τριών μοναδιαίων διανυσμάτων

)70,70( 00 συνημ , )160,160( 00 συνημ και )80,80( 00 συνημ .

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 67

Ας υπολογίσουμε τις συντεταγμένες rx και ry της rr . Έχουμε:

ϑ συνϑ ημϑ 700 0.34202 0.939693 1600 -0.93969 0.34202 800 0.173648 0.984808

Αθροίσματα -0.42402 2.266521 Άρα,

0266521.23

1>=∑

==

iirx ημϑ

042402.03

1<−=∑

==

iiry συνϑ

και )3453.5(42402.0

266521.2−=

−= τοξεφτοξεφϑ .

Συνεπώς, =ϑ –79.40 ή =ϑ 1800 + (–79.40) = 100.60.

Όμως, επειδή 0>rx και 0<ry η μέση κατεύθυνση των τριών ανέμων είναι

=ϑ 100.60 και όχι –79.40, δηλαδή, είναι περίπου ανατολική και όχι περίπου δυτική! Παρατήρηση: Στο προηγούμενο σχήμα, οι συντεταγμένες rr yx , της συνισταμένης rr , έχουν διαιρεθεί με το μέγεθος του δείγματος n (έχουν τυποποιηθεί). Δηλαδή, το πέρας της

rr βρίσκεται στο σημείο ⎟⎟

⎜⎜

⎛ ∑∑ ==

nn

n

i in

i i 11 ,συνϑημϑ , δηλαδή, στο σημείο ⎟

⎠⎞

⎜⎝⎛

ny

nx rr , και

όχι στο ( )rr yx , . Έτσι, το rr στο σχήμα, δεν έχει σχεδιασθεί με μήκος ίσο με το

μέτρο του 22ryrxrr +==

r , αλλά, με μήκος ίσο με nr

nrx

nrx

r =⎟⎟

⎜⎜

⎛+

⎟⎟

⎜⎜

⎛=

22.

Το nrr = ονομάζεται μέσο μέτρο της rr . Ποια σκοπιμότητα εξυπηρετεί ο ορισμός

του nrr = θα φανεί στη συνέχεια όταν ορίσουμε τα μέτρα διασποράς.

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 68

β) Μέση διεύθυνση Έστω nϑϑϑ ...,, 21 , n τιμές μιας μεταβλητής διεύθυνσης. Η μέση διεύθυνση, ϑ , των

nϑϑϑ ...,, 21 , ορίζεται όπως και η μέση κατεύθυνση, όμως, υπολογίζεται αφού προηγουμένως οι τιμές μετασχηματισθούν. Στην ενότητα για τις κλίμακες απόδοσης τιμών σε μεταβλητές (σελ. 9-11), εξηγήσαμε ότι σε μια διεύθυνση αποδίδουμε τιμή επιλέγοντας την τιμή μιας οποιασδήποτε από τις δύο αντίθετες κατευθύνσεις που ορίζει. Εξηγήσαμε, επίσης, ότι η ανάλυση δεδομένων που αφορούν μεταβλητές διεύθυνσης γίνεται αφού προηγουμένως αυτά μετασχηματισθούν. Ας δούμε ένα παράδειγμα. Παράδειγμα-16: Τρεις γραμμώσεις σε μια εικόνα Landsat έχουν διευθύνσεις: 700-2500, 800-2600 και 1600-3400. Οι διευθύνσεις των γραμμώσεων μετρήθηκαν από το βορρά και κατά τη διεύθυνση των δεικτών του ωρολογίου.

Θα υπολογίσουμε τη μέση διεύθυνση των τριών γραμμώσεων. Επιλέγουμε ως τιμές των διευθύνσεων των γραμμώσεων τις 700, 800 και 1600 αντίστοιχα. Διπλασιάζουμε τις τιμές αυτές και εργαζόμαστε όπως στο προηγούμενο παράδειγμα που αφορούσε μεταβλητή κατεύθυνσης. Υπολογίζουμε τις συντεταγμένες rx και ry της rr . Έχουμε:

ϑ ϑ2 )2( ϑσυν )2( ϑημ 700 1400 -0.76604 0.642788 800 1600 -0.93969 0.34202

1600 3200 0.766044 -0.64279 Αθροίσματα -0.93969 0.34202

Άρα,

0342020.03

1)2( >=∑

==

iirx ϑημ

093969.03

1)2( <−=∑

==

iiry ϑσυν

και )36397.0(93969.0

34202.02 −=−

= τοξεφτοξεφϑ .

Συνεπώς, =ϑ2 –200 ή =ϑ2 180 + (–200) = 1600 και επειδή 0>rx και 0<ry είναι

=ϑ2 1600.

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 69

Έτσι, η μέση διεύθυνση των τριών γραμμώσεων είναι =ϑ 800, δηλαδή, η διεύθυνση 800 - 2600.

Σχόλιο: Είναι φανερό, ότι αν ως τιμές των διευθύνσεων 700-2500, 800-2600 και 1600-3400, αντί των 700, 800 και 1600 επιλέγαμε π.χ. τις 2500, 800 και 3400, θα είχαμε το ίδιο αποτέλεσμα αφού για τον υπολογισμό της μέσης διεύθυνσης θα χρησιμοποιούσαμε και πάλι τις ίδιες τιμές: 2.(2500) – 3600 = 1400, 2.(800) = 1600 και 2.(3400)-3600 = 3200. Ερωτήσεις: 1) Πότε η μέση κατεύθυνση ή η μέση διεύθυνση δεν ορίζεται25;

2) Το μέτρο 22ryrxr += και το μέσο μέτρο

nrr = του διανύσματος rr , τι εκφράζουν

άραγε26; Παρατηρήσεις • Η μέση κατεύθυνση ϑ , όπως ορίσθηκε, έχει το εξής μειονέκτημα: Όταν το μέτρο

του rr είναι πολύ μικρό, τότε, μικρή αλλαγή σε κάποιο από τα μοναδιαία διανύσματα (δηλαδή σε κάποια κατεύθυνση) μπορεί να προκαλέσει μεγάλη αλλαγή στη μέση κατεύθυνση ϑ .

• Όπως συμβαίνει και με τη μέση τιμή μη κυκλικών δεδομένων (βλ. σελ. 23-24), ο μέσος κυκλικών δεδομένων είναι το κέντρο ισορροπίας (το κέντρο βάρους) της κατανομής τους. Έτσι, αν σε ένα κυκλικό δίσκο αμελητέου βάρους όπως, για παράδειγμα, ο παρακάτω, θεωρήσουμε ότι στα σημεία ),( ii συνϑημϑ βρίσκονται ίσα βάρη, τότε, το κέντρο ισορροπίας (το κέντρο βάρους) του δίσκου βρίσκεται

στο πέρας του rr , δηλαδή, στο σημείο ⎟⎠⎞

⎜⎝⎛

ny

nx rr , (το rr έχει σχεδιασθεί με μήκος

r ).

25 Σκεφθείτε τι συμβαίνει όταν 0

rr=r

26 Η απάντηση στη συνέχεια!

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 70

Διασπορά κυκλικών δεδομένων α) Διασπορά δεδομένων κατεύθυνσης Έστω nϑϑϑ ...,, 21 , n τιμές μιας μεταβλητής κατεύθυνσης. Θα προσπαθήσουμε να ορίσουμε τη διασπορά των nϑϑϑ ...,, 21 , δηλαδή, ένα μέτρο που να εκφράζει πόσο διασκορπισμένες είναι οι τιμές nϑϑϑ ...,, 21 γύρω από τη μέση τιμή τους, δηλαδή, γύρω από τη μέση κατεύθυνση, ϑ . Θεωρούμε, πάλι, τρεις κατευθύνσεις ανέμων: 1400, 3300 και 200. Εύκολα υπολογίζεται ότι η μέση κατεύθυνση αυτών των ανέμων είναι ϑ = 250. Πόσο διασκορπισμένες είναι οι κατευθύνσεις των ανέμων γύρω από την τιμή αυτή;

Με μια πρώτη ματιά, φαίνεται ότι οι τιμές 1400, 3300 και 200 είναι σαφώς περισσότερο διασκορπισμένες γύρω από τη μέση κατεύθυνσή τους ϑ = 250, από όσο είναι οι τιμές 700, 1600 και 800 των κατευθύνσεων των ανέμων του προηγούμενου παραδείγματος από τη μέση κατεύθυνσή τους ϑ = 100.60 (δες το αντίστοιχο σχήμα στη σελ. 66). Επίσης, αν παρατηρήσουμε το μέσο μέτρο r της συνισταμένης rr στις δύο ομάδες δεδομένων, διαπιστώνουμε ότι η ομάδα δεδομένων που είναι περισσότερο συγκεντρωμένη γύρω από τη μέση κατεύθυνσή της, που έχει δηλαδή μικρότερη διασπορά, έχει συνισταμένη rr με μεγαλύτερο μέσο μέτρο. Η ίδια διαπίστωση, αβίαστα, προκύπτει και από τα παρακάτω παραδείγματα όπου όλες οι ομάδες δεδομένων έχουν την ίδια μέση κατεύθυνση 050=ϑ , όμως, οι κατανομές τους είναι διαφορετικές. Στις περισσότερο διασκορπισμένες (γύρω από τη μέση κατεύθυνση 050=ϑ ) ομάδες δεδομένων, αντιστοιχεί μικρότερο r (στην περίπτωση a) 1=r , στην b) 99.0=r , στην c) 90.0=r στην d) 60.0=r , στην e)

30.0=r και στην f) 00.0=r .

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 71

Φαίνεται, δηλαδή, ότι το μέτρο r (και φυσικά και το μέσο μέτρο r ) της συνισταμένης rr των μοναδιαίων διανυσμάτων που αντιστοιχούν στις κατευθύνσεις nϑϑϑ ...,, 21 , περιέχει πληροφορία για τη διασπορά των nϑϑϑ ...,, 21 γύρω από τη μέση κατεύθυνσή τους ϑ .

Έτσι, είναι λογικό, ως ένα μέτρο διασποράς των n κατευθύνσεων nϑϑϑ ...,, 21 , να ορισθεί π.χ. η ποσότητα r−1 ή η ποσότητα r−1 . Όμως, για να είναι δυνατή η σύγκριση των διασπορών δύο ή περισσοτέρων δειγμάτων διαφορετικού μεγέθους, είναι προφανές ότι πρέπει να χρησιμοποιηθεί η ποσότητα r−1 , αφού, το μέτρο του rr δεν επηρεάζεται μόνο από τη διασπορά του δείγματος αλλά προφανώς και από το μέγεθός του, n.

Έτσι, ως ένα μέτρο διασποράς των n κατευθύνσεων nϑϑϑ ...,, 21 γύρω από τη μέση κατεύθυνσή τους ϑ , ορίζουμε την ποσότητα

rS −= 12

όπου, n

yxnrr rr

22 +== το μέσο μέτρο της συνισταμένης rr .

Ως μέτρα διασποράς κυκλικών δεδομένων ορίζονται, με βάση επίσης το μέσο μέτρο r , και τα παρακάτω:

)1(22 rs −⋅= rs ln22

0 ⋅−=

Η τυπική απόκλιση των nϑϑϑ ...,, 21 ορίζεται ως η τετραγωνική ρίζα της διασποράς 2s ή της διασποράς 2

0s . Δηλαδή, )1(2 rs −⋅= ή rs ln20 ⋅−= .

Παρατηρήσεις • Τα τρία μέτρα διασποράς 2

022 ,, ssS , όπως ορίσθηκαν παραπάνω, δίνουν τη

διασπορά σε βαθμούς στο τετράγωνο (rad2). Για να πάρουμε την τιμή της διασποράς σε μοίρες στο τετράγωνο αρκεί να πολλαπλασιάσουμε με 20180

⎟⎟⎠

⎞⎜⎜⎝

⎛π

.

Έτσι, οι αντίστοιχοι τύποι γίνονται:

)1(18020

2 rS −⎟⎟⎠

⎞⎜⎜⎝

⎛=

π

)1(180220

2 rs −⎟⎟⎠

⎞⎜⎜⎝

⎛⋅=

π και )1(21800

rs −⋅⋅=π

)ln2(18020

20 rs ⋅−⎟⎟

⎞⎜⎜⎝

⎛=

π και rs ln21800

0 ⋅−=π

.

• Η διασπορά rS −= 12 παίρνει τιμές από 0 μέχρι 1. Η τιμή 0 σημαίνει ότι όλες οι κατευθύνσεις είναι συγκεντρωμένες σε μία κατεύθυνση ενώ η τιμή 1 σημαίνει ότι οι παρατηρήσεις έχουν τη μέγιστη διασπορά. Όμως προσοχή! Η τιμή 1 δε σημαίνει ότι οι παρατηρήσεις (κατευθύνσεις) είναι, κατ’ ανάγκη, ομοιόμορφα κατανεμημένες στην περιφέρεια του κύκλου.

• Η διασπορά )1(22 rs −⋅= παίρνει τιμές από 0 μέχρι 2 ενώ η rs ln220 ⋅−=

παίρνει τιμές από 0 μέχρι ∞+ . Για μεγάλα r , οι τιμές των τυπικών αποκλίσεων 0, ss δεν διαφέρουν πολύ ενώ για μικρές τιμές του r δεν συμβαίνει το ίδιο. Στα

παραδείγματα του προηγούμενου σχήματος έχουμε: στο παράδειγμα a) 1=r , 0

00 0,0 == ss , στo b) 99.0=r , 0

00 12.8,10.8 == ss , στo c) 90.0=r ,

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 72

00

0 30.26,62.25 == ss , στo d) 60.0=r , 00

0 91.57,25.51 == ss , στo e) 30.0=r , 0

00 91.88,79.67 == ss και στo f) 00.0=r , ∞== 0

0 ,03,81 ss . • Σε ομαδοποιημένες παρατηρήσεις, για τον υπολογισμό της διασποράς, στη

βιβλιογραφία προτείνεται να γίνεται «διόρθωση» του r . Έτσι, αντί του r

προτείνεται να χρησιμοποιείται το rrd

d

c ⋅=)( 2

0360

ημ

π

, όπου, d το πλάτος των

κλάσεων σε μοίρες. Για πλάτος κλάσεων μικρότερο των 300, η διόρθωση αυτή είναι αμελητέα.

Στο παράδειγμα της σελίδας 49, βρήκαμε ότι η μέση κατεύθυνση των τριών κατευθύνσεων 700, 1600 και 800 είναι =ϑ 100.60 και, επίσης, ότι οι συντεταγμένες

rr yx , του rr είναι:

266521.23

1=∑

==

i irx ημϑ

42402.03

1−=∑

==

i iry συνϑ .

Ας υπολογίσουμε τη διασπορά και την τυπική απόκλιση των κατευθύνσεων αυτών γύρω από τη μέση τιμή τους. Το μέσο μέτρο του rr είναι:

77.033.2

3)42.0(27.2

3

22

==−+

==rr .

Άρα, 23.077.0112 =−=−= rS rad2.

46.0)77.01(2)1(22 =−⋅=−⋅= rs rad2 και 68.046.0 ==s rad = 38.960. 523.0)77.0ln(2ln22

0 =⋅−=⋅−= rs rad2 και 723.0523.00 ==s rad = 41.420. β) Διασπορά δεδομένων διεύθυνσης Έστω nϑϑϑ ...,, 21 , n τιμές μιας μεταβλητής διεύθυνσης. Η διασπορά και η τυπική απόκλισή τους γύρω από τη μέση διεύθυνσή τουςϑ , ορίζονται όπως η διασπορά και η τυπική απόκλιση δεδομένων κατεύθυνσης. Όμως, υπολογίζονται αφού προηγουμένως οι τιμές μετασχηματισθούν. Στο παράδειγμα-16, βρήκαμε ότι η μέση διεύθυνση των τριών διευθύνσεων 700-2500,

800-2600 και 1600-3400 είναι =ϑ 800 και, επίσης, ότι οι συντεταγμένες rr yx , του rr , για τα μετασχηματισμένα δεδομένα, είναι:

342020.03

1)2( =∑

==

i irx ϑημ

93969.03

1)2( −=∑

==

i iry ϑσυν

Ας υπολογίσουμε τη διασπορά και την τυπική απόκλιση των διευθύνσεων αυτών γύρω από τη μέση τιμή τους. Το μέσο μέτρο του rr , για τα μετασχηματισμένα δεδομένα, είναι:

333.03999.0

3)94.0(34.0

3

22

==−+

==rr .

Άρα, για τα μετασχηματισμένα δεδομένα είναι, 666.0333.0112 =−=−= rS rad2

33.1)333.01(2)1(22 =−⋅=−⋅= rs rad2 και 15.133.1 ==s rad = 66.080 199.2)333.0ln(2ln22

0 =⋅−=⋅−= rs rad2 και 48.1199.20 ==s rad = 84.9680

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 73

και για τα αρχικά δεδομένα, αντίστοιχα, είναι

333.02666.02 ==S .

665.0233.12 ==s rad2 και 575.0

215.1

==s rad = 330.

099.12199.22

0 ==s rad2 και 74.0248.1

0 ==s rad = 42.40.

Ερώτηση: Πώς σχολιάζετε τις διαφορές μεταξύ των τιμών των 0, ss στα παραπάνω παραδείγματα; Στις κατανομές κυκλικών δεδομένων, ορίζονται και άλλα γνωστά μέτρα θέσης και διασποράς όπως η διάμεσος, τα ποσοστημόρια, η κορυφή, το εύρος, καθώς και μέτρα συμμετρίας και κύρτωσης. Ως έννοιες, όλα ορίζονται ανάλογα με τα αντίστοιχα της κατανομής μη κυκλικών δεδομένων, όμως, υπολογίζονται διαφορετικά. Επίσης, κάποια υπολογίζονται απλά, αλλά, απαιτείται προσοχή γιατί εύκολα μπορεί να γίνουν λάθη. Για παράδειγμα, το εύρος ορίζεται ως το μικρότερο τόξο του κύκλου που περιλαμβάνει όλα τα δεδομένα. Έτσι, οι κατανομές που φαίνονται παρακάτω, έχουν εύρος: η (a) 00, η (b) 220 (μεταξύ 380 και 600), η (c) 830 (μεταξύ 100 και 930) η (d) 1730 (μεταξύ 3220 και 1350) και όχι 3220 - 1350 = 1870! η (e) 2460 (μεταξύ 2850 και 1710) και όχι 2850 - 1710 = 1140!, και η (f) 3000 (γιατί;).

Άλλα μέτρα απαιτούν πολύπλοκους υπολογισμούς, αλλά πλέον, το πρόβλημα αυτό μπορεί να αντιμετωπισθεί με κατάλληλο λογισμικό. Το λογισμικό, μας απαλλάσσει από τους πολύπλοκους και χρονοβόρους αριθμητικούς υπολογισμούς, όμως, όπως τονίσαμε και στην εισαγωγή (βλ. σελ. 13), για τη σωστή ερμηνεία των αποτελεσμάτων των αριθμητικών υπολογισμών, απαιτείται να έχουμε κατανοήσει το νόημα και τη σημασία των αντίστοιχων εννοιών. Από την «υποχρέωση» αυτή, το λογισμικό δε μας απαλλάσσει! (παρότι, αν είναι κατάλληλα σχεδιασμένο, μπορεί επιπλέον να βοηθήσει και στην κατανόηση των εννοιών γιατί διευκολύνει εναλλακτικές προσεγγίσεις, πολλαπλές αναπαραστάσεις, πολλαπλές δοκιμές, διερεύνηση κτλ.).

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 74

Προβλήματα Με τη βοήθεια κατάλληλου λογισμικού, να εφαρμόσετε τις καταλληλότερες, κατά περίπτωση, μεθόδους (Πίνακες Συχνοτήτων, Γραφικές Μέθοδοι Παρουσίασης, Αριθμητικά Περιγραφικά Μέτρα) για την πληρέστερη παρουσίαση και περιγραφή των παρακάτω δειγμάτων:

α) Σε κοιλάδες τρίτης τάξης μετρήθηκαν α) ο αριθμός των ρυακιών πρώτης τάξης β) η πυκνότητα αποστράγγισης27 γ) το εμβαδόν κάθε κοιλάδας δ) η υψομετρική διαφορά του υψηλότερου και του χαμηλότερου σημείου της λεκάνης κάθε κοιλάδας και ε) το σχήμα κάθε κοιλάδας28. Τα αποτελέσματα των μετρήσεων φαίνονται στον πίνακα που ακολουθεί. Κοιλάδα Αριθμός

ρυακιών Υ

Πυκνότητα αποστράγγισης

Χ1 (Km/Km2 )

Εμβαδόν Χ2

(Km2 )

Υψομετρική διαφορά

Χ3 (m)

Σχήμα Χ4

1 25 7.16 0.968 998 0.42 2 7 8.28 0.198 562 0.53 3 12 11.73 0.254 542 0.33 4 59 11.47 1.018 817 0.25 5 5 14.62 0.117 635 0.17 6 12 10.53 0.339 332 0.41 7 6 14.76 0.126 275 0.65 8 23 10.57 0.564 786 0.73 9 6 11.62 0.154 695 0.47 10 7 11.28 0.218 885 0.45 11 5 7.32 0.254 690 0.71 12 10 9.43 0.332 592 0.36 13 9 7.76 0.595 735 0.66 14 6 7.06 0.306 548 0.42 15 5 12.14 0.098 576 0.38 16 9 11.76 0.272 713 0.25 17 11 12.52 0.440 805 0.31 18 7 12.44 0.156 384 0.39 19 17 8.46 0.766 910 0.32 20 5 9.55 0.179 507 0.42

β) Στο πλαίσιο μιας εδαφολογικής μελέτης, μια ερευνητική ομάδα πήρε δείγματα από 227 διαφορετικούς τομείς μιας περιοχής. Σε κάθε τομέα πήρε δείγματα από τρία διαφορετικά βάθη (ένα δείγμα από κάθε βάθος). Οι μετρήσεις, μεταξύ άλλων, αφορούσαν τα ποσοστά σε άργιλο, ιλύ και άμμο καθώς και το PΗ. Επίσης, οι ερευνητές κατέταξαν τα δείγματα σε κλάσεις ως προς την κοκκομετρική τους σύσταση. Τα αποτελέσματα των μετρήσεων βρίσκονται στο αρχείο edaf.sf3. Μέρος των αποτελεσμάτων φαίνεται στον πίνακα που ακολουθεί.

27Η πυκνότητα αποστράγγισης της κοιλάδας ορίζεται ως το πηλίκο του συνολικού μήκους όλων των ρυακιών της κοιλάδας προς το εμβαδόν της κοιλάδας. 28 Ως σχήμα της κοιλάδας ορίζεται το πηλίκο του πλάτους προς το μήκος της κοιλάδας.

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 75

γ) Στον πίνακα που ακολουθεί δίδονται οι κατευθύνσεις (directions), σε μοίρες από το βορρά και κατά τη φορά των δεικτών του ωρολογίου, των σταυρωτών στρωματώσεων σε ένα σχηματισμό ψαμμίτη.

Κατεύθυνση των διασταυρούμενων στρωματώσεων σε ένα σχηματισμό ψαμμίτη

(σε μοίρες από το βορρά και κατά τη φορά των δεικτών του ωρολογίου) 121 113 97 113 100 118 354 256 220 192 283 128 145 335 333 6 342 45 54 169 172 160 146 177 179 169 33 14 25 4 338 321 335 22 338 128 44 59 199 208 28 30 24 58 199 208 175 197 328 339 215 176 85 295 299 1 16 334

ε) Στον πίνακα που ακολουθεί δίδονται οι κατευθύνσεις (directions), σε μοίρες από το βορρά και κατά τη φορά των δεικτών του ωρολογίου, των αμμορυτίδων δύο σχηματισμών ψαμμίτη.

Σχηματισμός Α΄ 216 118 223 305 242 198 172 222 155 233 269 238 189 219 111 217 141 201 260 276 182 212 245 221 177 248 192 210 222 251 214 228 217 262 280 234 244 218 208 191 201 Σχηματισμός Β΄ 72 216 255 217 341 222 257 278 242 148 171 251 190 196 290 288 313 300 275 135 255 227 163 96 35 93 106 320 349 215 333 237 15 105 118 179 205 180 271 223 123

στ) Στον πίνακα που ακολουθεί δίδονται οι χρόνοι προσπέλασης δύο μονάδων δίσκων.

Χρόνος προσπέλασης δύο μονάδων δίσκων ( σε msec)

Μονάδα δίσκων Ι Μονάδα δίσκων ΙΙ 59 73 74 61 71 63 40 34 49 92 60 84 58 38 47 60 71 54 73 47 70 40 56 53 68 108 75 33 49 39 80 72 50

Άργιλος (%)

Ιλύς (%)

Άμμος (%)

Κοκκομετρική Σύσταση

PH

Βάθος 1

Βάθος 2

Βάθος 3

Βάθος 1

Βάθος 2

Βάθος 3

Βάθος 1

Βάθος 2

Βάθος 3

Βάθος 1

Βάθος 2

Βάθος 3

Βάθος 1

Βάθος 2

Βάθος 3

31 33 37 40 38 35 29 29 28 CL CL CL 7.6 7.6 7.6 35 61 61 44 27 27 21 12 12 CL C C 7.6 7.5 7.5 58 59 59 31 31 30 11 10 11 C C C 7.5 7.6 7.6 . . .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 52 49 53 29 26 30 19 25 17 C C C 7.3 7.4 7.5

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 76

ζ) Στον πίνακα που ακολουθεί δίδονται οι διευθύνσεις (orientations), σε μοίρες από το βορρά και κατά τη φορά των δεικτών του ωρολογίου, των αξονικών επιπέδων των αντικλίνων καθώς και οι γραμμώσεις από τις δορυφορικές εικόνες Landsat στο ανατολικό Μπανγκλαντές.

Διεύθυνση των αξονικών επιπέδων των αντικλίνων (σε μοίρες από το βορρά και κατά τη φορά των δεικτών του ωρολογίου)

Διεύθυνση των Landsat γραμμώσεων

(σε μοίρες από το βορρά και κατά τη φορά των δεικτών

του ωρολογίου) 12 16 14 5 350 32 15 8 192 202 169 163 214 192 16 26 186 186 24 344 356 218 198 221 343 346 161 341 350 18 221 342 339 150 169 336 160 205 35 337 351 156 159 352 2 171 196 14 152 150 341 181 184 246 175 25 348 156 156 354 213 26 212 330 162 20 42 354 13 202