24
ΓΕΩΠΟΝΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Τμήμα Επιστήμης Φυτικής Παραγωγής Πανεπιστημιακές Σημειώσεις ΣΤΑΤΙΣΤΙΚΗ (Κωδ. 105) Σημειώσεις Παραδόσεων 1 ο Τεύχος Γιώργος Κ. Παπαδόπουλος Επίκουρος Καθηγητής Αθήνα, 2014

Πανεπιστημιακές Σημειώσεις - aua.gr · Πανεπιστημιακές Σημειώσεις ΣΤΑΤΙΣΤΙΚΗ (Κωδ. 105) Σημειώσεις Παραδόσεων

  • Upload
    others

  • View
    16

  • Download
    0

Embed Size (px)

Citation preview

ΓΕΩΠΟΝΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Τμήμα Επιστήμης Φυτικής Παραγωγής

Πανεπιστημιακές Σημειώσεις

ΣΤΑΤΙΣΤΙΚΗ (Κωδ. 105)

Σημειώσεις Παραδόσεων 1ο Τεύχος

Γιώργος Κ. Παπαδόπουλος Επίκουρος Καθηγητής

Αθήνα, 2014

Αυτές οι Σημειώσεις Παραδόσεων γράφτηκαν, ακριβέστερα γράφονται, για τους φοιτητές του Τμήματος Βιοτεχνολογίας και του Τμήματος Επιστήμης Τροφίμων & Διατροφής του Ανθρώπου του Γεωπονικού Πανεπιστημίου Αθηνών στο πλαίσιο του μαθήματος Στατιστική (Κωδικός: 105), με στόχο να μην υπάρχει ανάγκη να κρατούν λεπτομερείς σημειώσεις κατά τη διάρκεια των παραδόσεων στο αμφιθέατρο και έτσι να διευκολύνεται η ενεργός συμμετοχή τους στο μάθημα και η διδασκαλία να γίνεται πιο αποδοτική. Το μάθημα διδάσκεται τέσσερις ώρες την εβδομάδα (συνολικά δεκατρείς εβδομάδες) και κύριο σκοπό έχει «να κατανοήσουν οι φοιτητές βασικά θέματα της Θεωρίας Πιθανοτήτων και της Στατιστικής ώστε να μπορούν να εφαρμόζουν σωστά βασικές Στατιστικές Μεθόδους».

Οι Ενότητες Περιεχομένου του μαθήματος και το πώς αυτές κατανέμονται στις δεκατρείς εβδομάδες διδασκαλίας φαίνονται στον πίνακα που ακολουθεί. Στην τελευταία στήλη του πίνακα γίνεται παραπομπή στις αντίστοιχες σελίδες των σημειώσεων (τα αποσιωπητικά, (...), κάτω από τους αριθμούς σελίδων, όπου αυτά υπάρχουν, δηλώνουν ότι για την αντίστοιχη ενότητα δεν έχει ολοκληρωθεί η συγγραφή).

Α΄ Μέρος: Στοιχεία Θεωρίας Πιθανοτήτων

Εβδ. Ενότητα Περιεχομένου Περιεχόμενο Σελίδες

• Στατιστική Προσέγγιση Προβλημάτων

• Πώς Απαριθμούμε

Αιτιοκρατικά και Στοχαστικά φαινόμενα και πειράματα, Σχέση Θεωρίας Πιθανοτήτων και Στατιστικής, Τυχαίο Δείγμα, Δειγματοληπτικά και μη Δειγματοληπτικά Σφάλματα. Πολλαπλασιαστική Αρχή, Απαρίθμηση Διατάξεων, Μεταθέσεων, Συνδυασμών.

9-24

25-52

• Η Έννοια και Βασικές Ιδιότητες της Πιθανότητας

Δειγματικός Χώρος Πειράματος Τύχης, Ενδεχόμενα και Πράξεις μεταξύ Ενδεχομένων, Στατιστικός και Αξιωματικός Ορισμός της Πιθανότητας, Ιδιότητες της Πιθανότητας. Πεπερασμένοι Δειγματικοί Χώροι με Ισοπίθανα Απλά Ενδεχόμενα, Κλασικός Ορισμός της Πιθανότητας.

53-92

• Δεσμευμένη Πιθανότητα

Ορισμός Δεσμευμένης Πιθανότητας, Πολλαπλασιαστικός Τύπος, Θεώρημα Ολικής Πιθανότητας, Τύπος του Bayes, Ανεξάρτητα Ενδεχόμενα και Πειράματα.

93-138

• Τυχαίες Μεταβλητές

Διακριτές και Συνεχείς Τυχαίες Μεταβλητές, Συνάρτηση Πιθανότητας Διακριτής Τυχαίας Μεταβλητής, Συνάρτηση Πυκνότητας Συνεχούς Τυχαίας Μεταβλητής, Συνάρτηση Κατανομής, Μέση Τιμή και Διακύμανση Διακριτής και Συνεχούς Τυχαίας Μεταβλητής.

139-170 (...)

5η • Βασικές Διακριτές Κατανομές

Κατανομή Bernoulli, Διωνυμική Κατανομή, Κατανομή Poisson και Πολυωνυμική Κατανομή. 171-189

• Βασικές Συνεχείς Κατανομές και Κεντρικό Οριακό Θεώρημα

Κανονική Κατανομή. Κεντρικό Οριακό Θεώρημα, Προσέγγιση Διωνυμικής και Poisson από την Κανονική. Κατανομές 2χ , t και F.

190-226

Β΄ Μέρος: Περιγραφική Στατιστική και Στατιστική Συμπερασματολογία

Εβδ. Ενότητα Περιεχομένου Περιεχόμενο Σελίδες

• Από τις Πιθανότητες στη Στατιστική

• Περιγραφική

Στατιστική

Σχέση Θεωρίας Πιθανοτήτων και Στατιστικής. Πίνακας Κατανομής Συχνοτήτων, Αριθμητικά Περιγραφικά Μέτρα, Ραβδόγραμμα, Κυκλικό Διάγραμμα, Θηκόγραμμα, Ιστογράμματα.

229-232

233-310

• Κατανομές Δειγματοληψίας

• Εκτιμητική

Στατιστικές Συναρτήσεις και Κατανομές Δειγματοληψίας. Σημειακή Εκτίμηση και Ιδιότητες Εκτιμητριών, Εκτίμηση με Διάστημα Εμπιστοσύνης α) του μέσου ενός πληθυσμού β) της διαφοράς των μέσων δύο πληθυσμών με ανεξάρτητα δείγματα και με ζευγαρωτές παρατηρήσεις γ) του ποσοστού ενός (διωνυμικού) πληθυσμού δ) της διαφοράς δύο ποσοστών.

311-318

319-348

9η • Στατιστικοί

Έλεγχοι Στατιστικοί Έλεγχοι α) για τον μέσο ενός πληθυσμού β) για τη σύγκριση των μέσων δύο πληθυσμών με ανεξάρτητα δείγματα.

10η

• Στατιστικοί Έλεγχοι

Στατιστικοί Έλεγχοι α) για τη σύγκριση των μέσων δύο πληθυσμών με ζευγαρωτές παρατηρήσεις β) για το ποσοστό ενός (διωνυμικού) πληθυσμού και γ) για τη σύγκριση δύο ποσοστών.

349-416

11η • Ανάλυση Διακύμανσης

Ανάλυση Διακύμανσης με έναν Παράγοντα.

12η • Ανάλυση Διακύμανσης

Ανάλυση Διακύμανσης με δύο Παράγοντες με και χωρίς Αλληλεπίδραση.

417-470

13η • Έλεγχος Χ2 Έλεγχος 2X (καλής προσαρμογής και ανεξαρτησίας).

471-515 Σημείωση: Η εκτύπωση, για τεχνικούς λόγους, έγινε σε τρία Τεύχη. Στο 1ο Τεύχος περιλαμβάνονται οι πέντε πρώτες ενότητες του Α΄ Μέρους του περιεχομένου του μαθήματος (δηλαδή μέχρι και τις Τυχαίες Μεταβλητές), στο 2ο Τεύχος οι δύο τελευταίες ενότητες του Α΄ Μέρους και οι τέσσερις πρώτες ενότητες του Β΄ Μέρους (δηλαδή, μέχρι και την Εκτιμητική) και στο 3ο Τεύχος όλες οι υπόλοιπες ενότητες του Β΄ Μέρους. Γιώργος Κ. Παπαδόπουλος Επίκουρος Καθηγητής Email: [email protected] Ιστοσελίδα: www.aua.gr/gpapadopoulos

Βιβλιογραφία 1. Κούτρας, Μ. Β., Εισαγωγή στη Θεωρία Πιθανοτήτων και Εφαρμογές, Εκδόσεις

Σταμούλης, 2012. 2. Χαραλαμπίδης, Χ. Α., Θεωρία Πιθανοτήτων και Εφαρμογές, Εκδόσεις

Συμμετρία, 1990. 3. Freedman, D., Pisani, R. and Purves, R., Statistics. WW Norton & Co., 2007. 4. Larsen, R. J. and Marx, M. R., An Introduction to Mathematical Statistics and its

Applications, Pearson Prentice Hall, Fourth Edition, 2006. 5. Pagano, M. and Gauvreau, K., Principles of Biostatistics, Duxbury Press, 2000.

Για την ελληνική έκδοση, Αρχές Βιοστατιστικής, Μετάφραση Ουρανία Δαφνή, Εκδόσεις Έλλην, 2002.

6. Zar, J.H., Biostatistical Analysis, Prentice Hall, Fifth Edition, 2010.

Α΄ Μέρος

Πιθανότητες

Στατιστική Προσέγγιση Προβλημάτων: Μια Γενική Επισκόπηση

Γεωπονικό Πανεπιστήμιο Αθηνών/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 9

1. Στατιστική Προσέγγιση Προβλημάτων: Μια Γενική Επισκόπηση Τα διάφορα προβλήματα (επιστημονικά, κοινωνικά, οικονομικά πολιτικά, κτλ.) συνδέονται με φαινόμενα ή με πειράματα1 τα οποία ταξινομούνται σε δύο γενικές κατηγορίες: Στα αιτιοκρατικά ή προσδιοριστικά και στα τυχαία ή στοχαστικά. Για παράδειγμα, αν γνωρίζουμε το κεφάλαιο, το χρόνο και το επιτόκιο τότε γνωρίζουμε με βεβαιότητα και τον τόκο που πρέπει να εισπράξουμε στο συγκεκριμένο χρόνο ή αν γνωρίζουμε την κατανάλωση νερού και το κόστος ανά μονάδα κατανάλωσης τότε γνωρίζουμε με βεβαιότητα και το ποσό που πρέπει να πληρώσουμε. Μια ασφαλιστική εταιρεία, όμως, δε γνωρίζει με βεβαιότητα ούτε τον αριθμό ούτε το ύψος των αποζημιώσεων που θα πληρώσει τον επόμενο μήνα. Επίσης, δε γνωρίζουμε με βεβαιότητα τον αριθμό των γεννήσεων που θα συμβούν την ερχόμενη εβδομάδα στην Κρήτη ή το αποτέλεσμα της θεραπείας ασθενών ηλικίας 30-40 ετών με ένα συγκεκριμένο φάρμακο ή την απόδοση μιας καλλιέργειας ή το ύψος των πωλήσεων μιας αυτοκινητοβιομηχανίας το επόμενο εξάμηνο. Ένα αιτιοκρατικό-προσδιοριστικό φαινόμενο είναι δυνατόν να περιγραφεί με ένα μαθηματικό μοντέλο δηλαδή με ένα μαθηματικό ανάλογο/μίμηση/ομοίωση του πραγματικού. Για παράδειγμα, η προσδιοριστική σχέση Κεφάλαιο-Επιτόκιο-Χρόνος-Τόκος μπορεί να περιγραφεί από ένα μαθηματικό τύπο (μοντέλο) ο οποίος μας επιτρέπει να προβλέψουμε με βεβαιότητα το αποτέλεσμα (τόκος) όταν γνωρίζουμε το κεφάλαιο, το επιτόκιο και το χρόνο. Όμως, ένα τυχαίο-στοχαστικό φαινόμενο όπως, για παράδειγμα, η σχέση Τιμή-Ζήτηση ενός προϊόντος δε μπορεί να περιγραφεί πλήρως με ένα μαθηματικό τύπο αφού η ζήτηση ενός προϊόντος οφείλεται, εκτός από την τιμή του, και σε άλλους παράγοντες-αιτίες όπως οι τιμές ομοειδών προϊόντων, το ύψος του εισοδήματος των καταναλωτών αλλά και σε άλλους που δε μπορούν να 1 Ένα πείραμα διαφέρει από την παρατήρηση ενός φαινομένου κατά το ότι ο ερευνητής που εκτελεί το πείραμα παρεμβαίνει ενεργά, επιβάλλοντας μια συγκεκριμένη μεταχείριση στα άτομα ή στα αντικείμενα (γενικότερα στα υποκείμενα) επί των οποίων εξελίσσεται το πείραμα. Αντιθέτως, κατά την παρατήρηση ενός φαινομένου, μετράμε ή παρατηρούμε την κατάσταση των ατόμων ή των αντικειμένων (γενικότερα των υποκειμένων) επί των οποίων συμβαίνει το φαινόμενο χωρίς να προσπαθούμε να αλλάξουμε αυτή την κατάσταση με κάποια ειδική μεταχείριση.

Αιτιοκρατικά-Προσδιοριστικά Ένα φαινόμενο/πείραμα θεωρείται αιτιοκρατικό-προσδιοριστικό όταν οι συνθήκες κάτω από τις οποίες εμφανίζεται/εκτελείται καθορίζουν σύμφωνα με την αρχή της αιτιότητας το αποτέλεσμα.

Τυχαία-Στοχαστικά Ένα φαινόμενο/πείραμα θεωρείται τυχαίο-στοχαστικό όταν οι συνθήκες κάτω από τις οποίες εμφανίζεται/ εκτελείται δεν καθορίζουν το αποτέλεσμα σύμφωνα με την αρχή της αιτιότητας. Το αποτέλεσμα αποδίδεται στην «τύχη». Η έννοια του «τυχαίου» συνδέεται με το πολυσύνθετο και το περιορισμένο της γνώσης των αιτίων που προκαλούν το αποτέλεσμα.. Υπάρχει, δηλαδή, «έλλειμμα» αιτιότητας.

Φαινόμενα - Πειράματα

Στατιστική Προσέγγιση Προβλημάτων: Μια Γενική Επισκόπηση

Γεωπονικό Πανεπιστήμιο Αθηνών/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 10

προσδιορισθούν με ακρίβεια. Επίσης, η σχέση απόδοση μιας καλλιέργειας –ποσότητα λιπάσματος είναι στοχαστική και όχι προσδιοριστική αφού η απόδοση της καλλιέργειας δεν επηρεάζεται/εξαρτάται μόνο από την ποσότητα λιπάσματος αλλά και από άλλους παράγοντες όπως οι καιρικές συνθήκες, ο προσανατολισμός του αγρού, το έδαφος του αγρού, ο χρόνος σποράς αλλά και από άλλους που είτε δε γνωρίζουμε, είτε γνωρίζουμε αλλά δε μπορούμε να προσδιορίσουμε επακριβώς πώς επιδρούν στην απόδοση της καλλιέργειας. Συνεπώς, το «πολυσύνθετο» και το «περιορισμένο της γνώσης των αιτίων» που χαρακτηρίζουν τα τυχαία-στοχαστικά φαινόμενα και πειράματα απαιτούν επιστημονικά εργαλεία διαφορετικά από τα «συνήθη». Ο κλάδος των Μαθηματικών που έχει ως αντικείμενο την έρευνα των νόμων που διέπουν τα τυχαία-στοχαστικά φαινόμενα και πειράματα ονομάζεται Θεωρία Πιθανοτήτων. Η σπουδαιότερη εφαρμογή της Θεωρίας Πιθανοτήτων είναι η ανάπτυξη Στατιστικών Μεθόδων. Οι στατιστικές μέθοδοι μας επιτρέπουν να βγάλουμε συμπεράσματα για όσα δε γνωρίζουμε ενώ η Θεωρία Πιθανοτήτων μας επιτρέπει να υπολογίσουμε πόσο βέβαιοι πρέπει να είμαστε για τα συμπεράσματά μας. Σχόλιο 1.1: Σπάνια η πραγματικότητα (φυσικά, κοινωνικά, οικονομικά, πολιτικά, κ.ά φαινόμενα και πειράματα) μπορεί να περιγραφεί με προσδιοριστικά μαθηματικά μοντέλα. Όμως, πολλές φορές, προκειμένου πραγματικά προβλήματα να μελετηθούν στο πλαίσιο των «κλασικών» Μαθηματικών, γίνονται παραδοχές και απλουστεύσεις ώστε να «παρακάμπτεται» το τυχαίο και έτσι να είναι δυνατή η κατασκευή μαθηματικών προσδιοριστικών μοντέλων. Για παράδειγμα, η βολή πυροβόλου υπό ορισμένη γωνία και ορισμένη αρχική ταχύτητα, ενώ στο πλαίσιο των Μαθηματικών και της Φυσικής μελετάται ως αιτιοκρατικό πείραμα, στην πραγματικότητα είναι στοχαστικό αφού η τροχιά του βλήματος δεν επηρεάζεται μόνο από την αρχική ταχύτητα και τη γωνία βολής αλλά και από άλλους αστάθμητους παράγοντες. Η πραγματική τροχιά και το πραγματικό σημείο πτώσης, φυσικά, διαφέρουν από τα αντίστοιχα θεωρητικά. Επίσης, είναι φανερό ότι ερωτήματα όπως τα παρακάτω δε μπορούν να απαντηθούν από το προσδιοριστικό μαθηματικό μοντέλο που προκύπτει μετά από «απλούστευση» της πραγματικότητας μέσω παραδοχών.

Ποιο ποσοστό βλημάτων κατά μέσο όρο πλήττει το στόχο; Πόσα βλήματα πρέπει να χρησιμοποιηθούν για να πληγεί ο στόχος με ικανοποιητική ακρίβεια;

Τι μέτρα πρέπει να ληφθούν για να περιορισθεί η διασπορά των σημείων πτώσης των βλημάτων;

Ένα φαινόμενο ή πείραμα δε συμβαίνει/εκτελείται αφηρημένα αλλά σε ένα σύνολο υποκειμένων (ατόμων, αντικειμένων, τόπων ή άλλων οντοτήτων) που έχουν ένα ή περισσότερα κοινά χαρακτηριστικά. Μετρώντας ή παρατηρώντας τα χαρακτηριστικά των υποκειμένων στα οποία συμβαίνει ή εκτελείται το φαινόμενο ή το πείραμα, δηλαδή, αποδίδοντας τιμές σε αυτά, παίρνουμε ένα σύνολο δεδομένων-παρατηρήσεων2 από τα οποία προσπαθούμε να κατανοήσουμε/εξηγήσουμε το φαινόμενο ή το πείραμα και να οδηγηθούμε στην κατασκευή ενός μοντέλου που θα το περιγράφει. Όμως, δεν είναι πάντοτε δυνατό να έχουμε στη διάθεσή μας όλες τις τιμές των χαρακτηριστικών του φαινομένου ή του πειράματος που μελετάμε. Συνήθως, μέρος μόνο των τιμών των χαρακτηριστικών έχουμε στη διάθεσή μας. 2 Δεδομένα/Παρατηρήσεις: Στοιχεία που καταγράφονται κατά τη διάρκεια ενός φαινομένου ή κατά την εκτέλεση ενός πειράματος

Στατιστική Προσέγγιση Προβλημάτων: Μια Γενική Επισκόπηση

Γεωπονικό Πανεπιστήμιο Αθηνών/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 11

Επίσης, λόγω του πολυσύνθετου της πραγματικότητας δεν έχουμε πλήρη εικόνα όλων των «χαρακτηριστικών». Στην αντιμετώπιση αυτών των δυσκολιών συνεισφέρουν η Θεωρία Πιθανοτήτων και η Στατιστική. Ειδικότερα, η διαδικασία μετάβασης από το «όλο» στο «μέρος» (από τον πληθυσμό3 στο δείγμα) και αντίστροφα, γίνεται, σε γενικές γραμμές, ως εξής: κάθε υποτιθέμενο μοντέλο για τον πληθυσμό συνεπάγεται, σύμφωνα με τη Θεωρία Πιθανοτήτων, ορισμένη συμπεριφορά για το δείγμα. Δηλαδή, η Θεωρία Πιθανοτήτων μας λέει τι πρέπει να περιμένουμε στο δείγμα. Η Στατιστική (με πιθανοθεωρητικούς συλλογισμούς και αξιοποιώντας αποτελέσματα της Θεωρίας Πιθανοτήτων!!) μας προσφέρει μεθόδους για να ελέγξουμε αν η συμπεριφορά του δείγματος διαφέρει σημαντικά από το αναμενόμενο με βάση τη Θεωρία Πιθανοτήτων. Αν αυτή η διαφορά, μεταξύ αναμενόμενου από τη θεωρία και παρατηρούμενου στο δείγμα, είναι σημαντική τότε πρέπει να αναζητηθεί άλλο μοντέλο για την περιγραφή του πληθυσμού.

Αξίζει να επισημανθεί ότι κατά τη διαδικασία ελέγχου της συμφωνίας θεωρίας και εμπειρίας, όπως περιγράφηκε στην προηγούμενη παράγραφο, εφαρμόζεται τόσο η παραγωγική όσο και η επαγωγική αποδεικτική μέθοδος. Σε πρώτη φάση εφαρμόζεται η παραγωγική μέθοδος, δηλαδή, γίνεται μετάβαση από το όλο στο μέρος: υποθέτουμε κάποιο μοντέλο για τον πληθυσμό (το όλο) και μέσω της Θεωρίας Πιθανοτήτων συμπεραίνουμε για το δείγμα (το μέρος). Σε δεύτερη φάση εφαρμόζεται η επαγωγική μέθοδος, δηλαδή, γίνεται μετάβαση από το μέρος στο όλο: από τη συμπεριφορά του δείγματος, μέσω της Στατιστικής, συμπεραίνουμε για τον πληθυσμό. Δηλαδή, στη στατιστική προσέγγιση των προβλημάτων, συνυπάρχει ο παραγωγικός χαρακτήρας της Μαθηματικής επιστήμης με τον επαγωγικό χαρακτήρα των άλλων επιστημών. Το γεγονός αυτό εξηγεί την εφαρμοσιμότητα και τη χρησιμότητα αυτής της προσέγγισης σε ευρύτατο φάσμα επιστημών. Είναι επομένως φανερό ότι η Στατιστική μπορεί να συνεισφέρει σημαντικά σε οποιαδήποτε ερευνητική προσπάθεια που παράγει δεδομένα. Οι στατιστικές μέθοδοι προσφέρουν πολύτιμη υποστήριξη στις προσπάθειες που γίνονται για την ερμηνεία και την κατανόηση φαινομένων και καταστάσεων (φυσικών, κοινωνικών, οικονομικών, πολιτικών, κ.ά.), ανεξαρτήτως επιστημονικού/γνωστικού πεδίου. Κατ’ επέκταση, η Στατιστική επηρεάζει τις διαδικασίες λήψης αποφάσεων και συνεπώς επηρεάζει ένα ευρύτατο φάσμα της ανθρώπινης δραστηριότητας. Ερευνητές, επαγγελματίες, επιχειρηματίες, πολιτικοί, κυβερνήσεις αλλά και κάθε πολίτης, συχνά αντιμετωπίζουν προβλήματα που σχετίζονται τόσο με τη συλλογή και την παρουσίαση δεδομένων όσο και με την ανάλυσή τους και την εξαγωγή συμπερασμάτων και πληροφορίας από αυτά ή απλά

3Πληθυσμός (Population): Στη Στατιστική με τον όρο πληθυσμός ή στατιστικός πληθυσμός (statistical population) εννοούμε όλες τις τιμές που μπορεί να πάρει ένα κοινό χαρακτηριστικό μιας ομάδας υποκειμένων (ατόμων, αντικειμένων, τόπων και γενικότερα οποιονδήποτε οντοτήτων) το οποίο μεταβάλλεται από υποκείμενο σε υποκείμενο (ή και στο ίδιο υποκείμενο π.χ. ως προς το χρόνο) και ενδιαφερόμαστε να το μελετήσουμε. Κάθε υποκείμενο επί του οποίου μετράμε/παρατηρούμε το κοινό χαρακτηριστικό λέγεται δειγματοληπτική/πειραματική μονάδα και το κοινό χαρακτηριστικό τους, μεταβλητή. Μάλιστα, όταν ένα κοινό χαρακτηριστικό παίρνει τιμές με βάση μια τυχαία διαδικασία (ένα τυχαίο πείραμα ή φαινόμενο), δηλαδή όταν η τιμή που κάθε φορά παίρνει καθορίζεται από το αποτέλεσμα ενός τυχαίου πειράματος ή φαινομένου, τότε ονομάζεται τυχαία μεταβλητή. Δείγμα (Sample) είναι ένα μέρος του πληθυσμού.

Στατιστική Προσέγγιση Προβλημάτων: Μια Γενική Επισκόπηση

Γεωπονικό Πανεπιστήμιο Αθηνών/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 12

τους δημιουργούνται ερωτήματα σχετικά με την ερμηνεία και την κατανόηση αυτών των συμπερασμάτων και πληροφοριών. Δεδομένα και συμπεράσματα που συνάγονται από αυτά και σχετίζονται, για παράδειγμα, με την ανεργία, τις τιμές προϊόντων, τα ημερομίσθια, την παραγωγικότητα, τη γνώμη των πολιτών, τη συμπεριφορά των πολιτών, τις προτιμήσεις των καταναλωτών, την αποτελεσματικότητα μιας θεραπευτικής αγωγής, τη σεισμικότητα μιας περιοχής, έχουν άμεση ή έμμεση επίδραση στη ζωή μας. Σημείωση: Η στατιστική προσέγγιση που περιγράψαμε, σε γενικές γραμμές παραπάνω, δεν είναι η μοναδική. Υπάρχουν και άλλες, όπως, η προσέγγιση της πιθανοφάνειας ή η Μπεϋζιανή προσέγγιση στις οποίες δε θα αναφερθούμε. Θα σημειώσουμε μόνο ότι, σχετικά πρόσφατα, έχουν αναπτυχθεί τεχνικές για τη Διερευνητική Ανάλυση Δεδομένων (Exploratory Data Analysis) αφετηρία των οποίων δεν είναι ο πληθυσμός αλλά τα δεδομένα. Δηλαδή, δεν αναζητούμε απαντήσεις σε ερωτήματα που θέτουμε εκ των προτέρων (μοντέλα που υποθέτουμε ότι ισχύουν στον πληθυσμό) αλλά αφήνουμε τα δεδομένα “να μιλήσουν”. Αυτές οι τεχνικές είναι ιδιαιτέρως χρήσιμες όταν τα δεδομένα προϋπάρχουν των ερωτημάτων, όπως για παράδειγμα, δεδομένα από κρατικά αρχεία. Όμως, οι τεχνικές της Διερευνητικής Ανάλυσης Δεδομένων είναι πολύ χρήσιμες και απαραίτητες ακόμη και στις πιο καλοσχεδιασμένες έρευνες γιατί μπορεί να αποκαλύψουν λάθη ή μια σημαντική επίδραση που δεν αναμενόταν ή να αναδείξουν ερωτήματα που δεν είχαμε σκεφθεί. Η Στατιστική είναι η επιστήμη των δεδομένων. Μπορεί να ορισθεί ως «η επιστήμη που έχει αντικείμενο την ανάπτυξη μεθόδων για τη συλλογή, παρουσίαση, ανάλυση και ερμηνεία δεδομένων» (Fisher). Οι στατιστικές μέθοδοι, με κριτήριο τους στόχους που εξυπηρετούν, ταξινομούνται σε τρεις γενικές κατηγορίες: 1. Μέθοδοι για το σχεδιασμό της διαδικασίας συλλογής των δεδομένων 2. Μέθοδοι για τη συνοπτική και την αποτελεσματική παρουσίαση των δεδομένων 3. Μέθοδοι για την εξαγωγή συμπερασμάτων Με βάση αυτή την ταξινόμηση, η Στατιστική διαρθρώνεται σε τρεις κλάδους: 1. Πειραματικός Σχεδιασμός (Experimental Design) και Θεωρία Δειγματοληψίας

(Sampling Theory) Είναι κλάδοι της Στατιστικής που, σε γενικές γραμμές, έχουν ως αντικείμενο την ανάπτυξη μεθόδων για τη συλλογή δεδομένων μέσω της εκτέλεσης πειραμάτων ή μέσω δειγματοληψιών αντίστοιχα.

2. Περιγραφική Στατιστική (Descriptive Statistics) Είναι ο κλάδος της Στατιστικής που έχει ως αντικείμενο την ανάπτυξη μεθόδων για τη συνοπτική και εύληπτη παρουσίαση δεδομένων που προέρχονται από κάποιον πληθυσμό που μελετάμε ώστε να μπορέσουμε να περιγράψουμε και να κατανοήσουμε την κατανομή τους.

3. Στατιστική Συμπερασματολογία (Statistical Inference) Είναι ο κλάδος της Στατιστικής που έχει ως αντικείμενο την ανάπτυξη μεθόδων για την ανάλυση των δεδομένων και την εξαγωγή συμπερασμάτων για τον πληθυσμό από τον οποίο προέρχονται.

Στατιστική Προσέγγιση Προβλημάτων: Μια Γενική Επισκόπηση

Γεωπονικό Πανεπιστήμιο Αθηνών/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 13

Πληθυσμός, Δείγμα και Στατιστική Συμπερασματολογία Για την εφαρμογή μεθόδων της Στατιστικής Συμπερασματολογίας ο πληθυσμός πρέπει να είναι καλά ορισμένος. Πρέπει, δηλαδή, να μπορούμε να αποφανθούμε με σαφήνεια επί ποίων μονάδων μετράμε/παρατηρούμε το χαρακτηριστικό που μελετάμε. Για παράδειγμα, αν ενδιαφερόμαστε να μελετήσουμε την επίδοση των μαθητών Γυμνασίου, ο πληθυσμός είναι καλά ορισμένος μόνο αν μπορούμε να απαντήσουμε με σαφήνεια (μονοσήμαντα) σε ερωτήσεις όπως: μας ενδιαφέρει η μέτρηση της επίδοσης των μαθητών των ιδιωτικών Γυμνασίων; της Β΄ τάξης Γυμνασίου; νυχτερινών Γυμνασίων; ειδικών σχολείων; κτλ. Επίσης, αν ενδιαφερόμαστε να μελετήσουμε το ποσοστό ανεργίας στη χώρα, πρέπει να ορισθεί με απόλυτη σαφήνεια ποιοι πολίτες θεωρούνται άνεργοι (ποιες ομάδες ηλικιών περιλαμβάνονται; οι αλλοδαποί περιλαμβάνονται; οι φυλακισμένοι; ποιο είναι το χρονικό διάστημα αναφοράς; κτλ.). Η κλινική δοκιμή ενός φαρμάκου για τη θεραπεία του έλκους πρέπει, επίσης, να αφορά ένα καλά ορισμένο πληθυσμό (όλα τα άτομα που έχουν έλκος; θα περιορίζεται σε όσα άτομα έχουν ένα συγκεκριμένο τύπο έλκους; μόνο σε όσους χρειάζονται νοσηλεία; κτλ.). Οι πληθυσμοί διακρίνονται σε πεπερασμένους και σε άπειρους. Με κριτήριο το πλήθος των μονάδων επί των οποίων μετράμε/παρατηρούμε το κοινό χαρακτηριστικό που μελετάμε, φυσικά, άπειροι πληθυσμοί δεν υπάρχουν. Όμως, επειδή ως πληθυσμό θεωρούμε όλες τις δυνατές τιμές της υπό μελέτη μεταβλητής και δεδομένου ότι η παρατήρηση ενός φαινομένου ή ένα πείραμα μπορεί, θεωρητικά τουλάχιστον, να επαναληφθεί άπειρες φορές, τότε η έννοια «άπειρος πληθυσμός» έχει νόημα. Ένας τρόπος για να μελετήσουμε ένα φαινόμενο είναι να εξετάσουμε όλες τις μονάδες επί των οποίων συμβαίνει. Αυτή η μέθοδος συλλογής δεδομένων, η εξέταση δηλαδή όλων των μονάδων επί των οποίων συμβαίνει το φαινόμενο που μελετάμε, ονομάζεται ολική απογραφή ή απογραφή. Για παράδειγμα, η Ελληνική Στατιστική Αρχή κάνει κάθε δέκα χρόνια απογραφή του πληθυσμού ως προς διάφορα χαρακτηριστικά. Όμως, σε πολλές περιπτώσεις, η απογραφή είναι δύσκολη ή οικονομικά ασύμφορη ή και αδύνατη. Σε αυτές τις περιπτώσεις, όπως ήδη έχουμε αναφέρει, ο ερευνητής εξετάζει ένα μέρος των μονάδων που μελετάει, δηλαδή, παίρνει ένα δείγμα τιμών/μετρήσεων/παρατηρήσεων, και στη συνέχεια γενικεύει τα συμπεράσματά του για ολόκληρο τον πληθυσμό. Πώς μπορούμε όμως να επιλέξουμε ένα δείγμα αντιπροσωπευτικό του πληθυσμού από τον οποίο προέρχεται; Η απάντηση σε αυτό το ερώτημα δεν είναι εύκολη ούτε μπορεί να είναι απόλυτη. Απαντήσεις σε ερωτήματα σχετικά με τη διαδικασία επιλογής του δείγματος και με το μέγεθος του δείγματος δίνει η Θεωρία Δειγματοληψίας. Στο πλαίσιο αυτών των σημειώσεων θα αναφερθούμε μόνο στο νόημα της τυχαίας και της απλής τυχαίας δειγματοληψίας. Όλοι έχουμε δοκιμάσει μια κουταλιά σούπα για να κρίνουμε ως προς τη γεύση της όλη τη σούπα που βρίσκεται σε ένα πιάτο. H σούπα, όμως, είναι ομοιογενής. Η γεύση μιας κουταλιάς αντιπροσωπεύει όλη την υπόλοιπη. Αλλά όταν πρόκειται για τη ζήτηση ενός προϊόντος, για τον αριθμό των ατυχημάτων, για το φόβο που αισθάνονται οι πολίτες απέναντι στο έγκλημα, για την επίδραση ενός φαρμάκου, για την απόδοση μιας καλλιέργειας ή για τη φορά του ίχνους της κίνησης των πάγων, υπάρχουν πολλοί παράγοντες που επιδρούν στο αποτέλεσμα που ποικίλουν από άτομο σε άτομο ή από περιοχή σε περιοχή (γενικά, από υποκείμενο σε υποκείμενο). Η αναζήτηση και η κατανόηση των αιτίων αυτής της διαφορετικότητας/μεταβλητότητας είναι η κεντρική

Στατιστική Προσέγγιση Προβλημάτων: Μια Γενική Επισκόπηση

Γεωπονικό Πανεπιστήμιο Αθηνών/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 14

λειτουργία και η ουσία της Στατιστικής. Η Στατιστική δεν θα είχε λόγο ύπαρξης αν δεν υπήρχε ποικιλομορφία/διαφορετικότητα/μεταβλητότητα. Σε έναν κόσμο ... «σούπα» με πανομοιότυπα χαρακτηριστικά και συμπεριφορές θα αρκούσε η μελέτη ενός μόνο υποκειμένου. Ένα κριτήριο επιλογής δείγματος θα μπορούσε να είναι η ευκολία. Για παράδειγμα, απευθυνόμαστε σε άτομα που βρίσκονται κοντά μας ή σε άτομα που περνούν από ένα πολυσύχναστο σημείο. Άλλα κριτήρια θα μπορούσαν να είναι η εθελοντική ανταπόκριση, δηλαδή, αυτοί που συμμετέχουν να επιλέγουν τους εαυτούς τους, η φιλικότητα, η ασφάλεια κτλ. Τέτοια όμως δείγματα προκαλούν μεροληψίες δηλαδή, συστηματικές διαφορές μεταξύ των αποτελεσμάτων που παίρνουμε από το δείγμα και της πραγματικότητας στον πληθυσμό διότι σε τέτοια δείγματα κατά κανόνα περιλαμβάνονται μετρήσεις/παρατηρήσεις από άτομα συγκεκριμένων κατηγοριών και αποκλείονται μετρήσεις/παρατηρήσεις από άτομα όλων των άλλων. Για παράδειγμα, μπορεί να αισθανόμαστε πιο ασφαλείς να πλησιάσουμε άτομα που δείχνουν ευγενικά και φιλικά αλλά έτσι οδηγούμαστε στο να αποκλείσουμε από το δείγμα μετρήσεις/παρατηρήσεις από άτομα μη φιλικά. Επίσης, σε μια τηλεφωνική έρευνα που πραγματοποιείται κατά τη διάρκεια μιας τηλεοπτικής εκπομπής, κατά κανόνα, ανταποκρίνονται άτομα με έντονα συναισθήματα, συνήθως αρνητικά. Έτσι, όταν ο εκφωνητής ρωτά τους τηλεθεατές αν φοβούνται να βγουν έξω τη νύχτα λόγω της εγκληματικότητας, κατά κανόνα θα τηλεφωνήσουν αυτοί που είναι εξαγριωμένοι με το έγκλημα παρά αυτοί που είναι πιο ψύχραιμοι.

Μεροληψίες ή συστηματικά σφάλματα: Είναι συστηματικά σφάλματα προς την ίδια κατεύθυνση. Μαζί με τα μη συστηματικά ή τυχαία σφάλματα αποτελούν τα μη δειγματοληπτικά σφάλματα. Πηγές μη δειγματοληπτικών σφαλμάτων είναι, μεταξύ άλλων, η λάθος επιλογή δείγματος, τα λάθη στα ερωτηματολόγια, τα λάθη συνέντευξης, τα λάθη επεξεργασίας κ.ά. Τέτοιου είδους σφάλματα εμφανίζονται και στις απογραφές. Από αυτά, τα μη συστηματικά (τυχαία) αλληλοαναιρούνται (ιδιαίτερα στα μεγάλα δείγματα). Για τις μεροληψίες, δεν υπάρχει κάποιος γενικός κανόνας εκτίμησης του μεγέθους τους. Η προσωπική επιλογή είναι μια συνηθισμένη αιτία μεροληψίας. Για να μειωθεί επομένως η μεροληψία πρέπει να μειώσουμε την προσωπική επιλογή. Η απάντηση της Θεωρίας Δειγματοληψίας σε αυτό το πρόβλημα είναι η ανάπτυξη μεθόδων επιλογής τυχαίων δειγμάτων. Οι μέθοδοι αυτές ονομάζονται σχέδια τυχαίας δειγματοληψίας. Υπάρχουν πολλά σχέδια τυχαίας δειγματοληψίας. Το πιο απλό είναι αυτό σύμφωνα με το οποίο ένα δείγμα μεγέθους ν λαμβάνεται με τέτοιο τρόπο ώστε κάθε δυνατό δείγμα μεγέθους ν να έχει την ίδια πιθανότητα να εκλεγεί. Ένα δείγμα που επιλέγεται με τέτοιο τρόπο λέγεται απλό τυχαίο δείγμα. Η τυχαία δειγματοληψία μπορεί να εξαλείψει τη μεροληψία που οφείλεται στη λάθος επιλογή δείγματος αλλά δεν εξαλείφει τη μεταβλητότητα. Η μεταβλητότητα από δείγμα σε δείγμα σε επαναλαμβανόμενα τυχαία δείγματα είναι αναπόφευκτη συνέπεια της μεταβλητότητας που υπάρχει στον πληθυσμό από τον οποίο αυτά προέρχονται. Πώς μπορούμε επομένως να εμπιστευθούμε τα αποτελέσματα ενός τυχαίου δείγματος, ξέροντας ότι ένα δεύτερο τυχαίο δείγμα από τον ίδιο πληθυσμό θα έδινε διαφορετικό αποτέλεσμα; Πώς μπορούμε να βασίσουμε οικονομικές και πολιτικές αποφάσεις για

Στατιστική Προσέγγιση Προβλημάτων: Μια Γενική Επισκόπηση

Γεωπονικό Πανεπιστήμιο Αθηνών/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 15

την ανεργία, στο ποσοστό ανεργίας που δίνει ένα τυχαίο δείγμα, ξέροντας ότι το ποσοστό αυτό θα διαφέρει αν η δειγματοληψία επαναληφθεί; Και όμως, στην πραγματικότητα μπορούμε να εμπιστευθούμε τα τυχαία δείγματα. Στο πλαίσιο της Θεωρίας Δειγματοληψίας έχει αναπτυχθεί μια μεγάλη ποικιλία σχεδίων τυχαίας δειγματοληψίας τα οποία καλύπτουν ένα ευρύ φάσμα περιπτώσεων. Από τα πιο γνωστά είναι η στρωματοποιημένη δειγματοληψία (stratified sampling), η συστηματική (systematic sampling), η κατά συστάδες (cluster sampling) και η δισταδιακή κατά συστάδες δειγματοληψία (two stages cluster sampling). Όλα έχουν πλεονεκτήματα αλλά και μειονεκτήματα. Όμως, όλα έχουν ως κοινή βασική αρχή την απλή τυχαία δειγματοληψία γεγονός που εξασφαλίζει την πιθανοθεωρητική4 εκτίμηση του μεγέθους των δειγματοληπτικών σφαλμάτων αλλά και τον περιορισμό τους.

Δειγματοληπτικά σφάλματα: Είναι αναπόφευκτα σφάλματα που συνδέονται με την επιλογή σχεδίου δειγματοληψίας και με το μέγεθος και τη μεταβλητότητα του δείγματος. Η μεταβλητότητα μεταξύ τυχαίων δειγμάτων, όπως ήδη αναφέραμε, δεν εξαλείφεται, αλλά η Θεωρία Πιθανοτήτων μας επιτρέπει να την περιγράψουμε, ανακοινώνοντας ένα περιθώριο σφάλματος με επιθυμητή πιθανότητα. Έτσι, αν το δείγμα δείξει ότι ένα ποσοστό 45% φοβάται να βγει έξω τη νύχτα και το περιθώριο σφάλματος με πιθανότητα 95% είναι 2% αυτό σημαίνει ότι: με πιθανότητα (εμπιστοσύνη) 95%, το διάστημα μεταξύ 43% και 47% περιέχει το ποσοστό στον πληθυσμό αυτών που φοβούνται να βγουν έξω τη νύχτα5. Για προβληματισμό:

Στη Νομική Eπιστήμη η Στατιστική θεωρείται prima facie, δηλαδή νομικά ικανή να στηρίξει θεωρία. Ή αλλιώς, για να την αντικρούσεις ως αποδεικτική διαδικασία, πρέπει να χρησιμοποιήσεις αντίστοιχα επιχειρήματα και αντίστοιχες διαδικασίες.

Το 1936 έγινε στις Η.Π.Α. (από το περιοδικό Literary Digest) μια έρευνα με στόχο την πρόβλεψη του αποτελέσματος των επικείμενων προεδρικών εκλογών. Η έρευνα βασίσθηκε στην επιλογή ενός δείγματος 10.000.000 πολιτών από τους τηλεφωνικούς καταλόγους των διαφόρων πολιτειών. Στο ερωτηματολόγιο που ταχυδρομήθηκε απάντησε περίπου το 25%. Η ανάλυση των αποτελεσμάτων έδειξε ότι νικητής των εκλογών θα είναι ο υποψήφιος του Ρεπουμπλικανικού κόμματος. Η ημέρα των εκλογών, όμως, επιφύλαξε μια πολύ δυσάρεστη έκπληξη τόσο για τους ερευνητές όσο και για τους οπαδούς του Ρεπουμπλικανικού κόμματος. Ο υποψήφιος του Δημοκρατικού κόμματος (Ρούσβελτ) επικράτησε με ιστορική πλειοψηφία 60%!! Είχε πει ψέματα η Στατιστική ή μήπως κάτι άλλο συνέβη με την έρευνα;

Ένα περιοδικό υγιεινής διατροφής θέλει να αποδείξει ότι μεγάλες δόσεις βιταμινών βελτιώνουν την υγεία. Ζήτησε από τους ενήλικες αναγνώστες του που έπαιρναν τακτικά βιταμίνες σε μεγάλες δόσεις, να γράψουν στο περιοδικό περιγράφοντας τις εμπειρίες τους. Από τους 2.754 ενήλικες αναγνώστες που απάντησαν το 93% ανέφερε κάποιο όφελος από τη λήψη των βιταμινών. Το ποσοστό αυτό, είναι πιθανόν μεγαλύτερο, μικρότερο ή περίπου το ίδιο με το ποσοστό όλων των ενηλίκων που θα παρατηρούσαν κάποιο όφελος από μεγάλη λήψη βιταμινών;

Πώς σχολιάζετε τις φράσεις: «Εφόσον ένας νόμος των Μαθηματικών αναφέρεται στην πραγματικότητα δε μπορεί να είναι βέβαιος και αν είναι βέβαιος δε μπορεί να αναφέρεται στην πραγματικότητα».

4 Η έννοια της πιθανότητας συνδέεται με φαινόμενα ή πειράματα που είναι μεν μεταβλητά αλλά μακροπρόθεσμα παρουσιάζουν σταθερή συμπεριφορά. Η επιλογή τυχαίου δείγματος είναι τέτοιο φαινόμενο (ανάλογο της ρίψης ενός νομίσματος πολλές φορές). 5 Καθόλου ευκαταφρόνητη συνεισφορά από «τα Μαθηματικά της τύχης»! Δε συμφωνείτε;

Στατιστική Προσέγγιση Προβλημάτων: Μια Γενική Επισκόπηση

Γεωπονικό Πανεπιστήμιο Αθηνών/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 16

«Αβέβαιη γνώση + Γνώση του μεγέθους της αβεβαιότητας σε αυτή = Χρησιμοποιήσιμη γνώση». «Τα πιο σπουδαία ερωτήματα στη ζωή είναι, στο μεγαλύτερο μέρος τους, προβλήματα πιθανοτήτων». Μετριούνται όλα;6 Αναφερθήκαμε, ήδη, στην έννοια της μεταβλητής. Σε αυτήν την παράγραφο θα αναφερθούμε στη «μέτρηση» των μεταβλητών. Ένα βασικό θέμα κατά τη διαδικασία της μελέτης ενός φαινομένου (ή πειράματος) είναι αυτό του προσδιορισμού των μεταβλητών που θα αποτελέσουν το αντικείμενο έρευνας. Πρέπει, δηλαδή, να προσδιοριστεί ποιες από τις πιθανές αιτίες που το προκαλούν θα ελεγχθούν. Φυσικά, με βάση όσα έχουμε, ήδη, αναφέρει για τη φύση των τυχαίων φαινομένων/πειραμάτων (το πολυσύνθετο και το περιορισμένο της γνώσης των αιτίων που τα προκαλούν) γίνεται εύκολα αντιληπτό ότι τέτοια ερωτήματα δεν επιδέχονται απόλυτες απαντήσεις. Αν, για παράδειγμα, αποφασίσουμε να μελετήσουμε τη μεταβλητότητα της ζήτησης ενός προϊόντος, ως προς την τιμή του προϊόντος και ως προς το επίπεδο της σχετικής διαφημιστικής δαπάνης, αυτό δε σημαίνει ότι μόνο αυτές οι μεταβλητές επηρεάζουν τη μεταβλητότητα της ζήτησης του προϊόντος και ότι άλλες αιτίες όπως η οικονομική κατάσταση των καταναλωτών, οι τιμές ομοειδών προϊόντων ή η εποχή του έτους δεν επηρεάζουν το συγκεκριμένο οικονομικό φαινόμενο. Απλώς, σημαίνει ότι, στο πλαίσιο της έρευνας, θα διερευνηθεί η επίδραση μόνο των δύο συγκεκριμένων πιθανών αιτίων διότι αυτά κρίνονται ως τα πιο σημαντικά ή ως τα πλέον ενδιαφέροντα ή για κάποιους άλλους λόγους που συνδέονται με τους σκοπούς της έρευνας. Είναι αυτονόητο, ότι σε αυτό το στάδιο, ο ρόλος του ειδικού/ειδικών επί του αντικειμένου της έρευνας, είναι καθοριστικός. Για κάθε μεταβλητή που επιλέγεται για να μελετηθεί, πρέπει να υπάρχει δυνατότητα να της αποδοθούν τιμές. Η απόδοση τιμών σε μια μεταβλητή δε σημαίνει κατ΄ ανάγκη ποσοτικοποίηση, δηλαδή, μέτρηση ή απαρίθμηση. Υπάρχουν μεταβλητές όπως το βάρος, η θερμοκρασία ή ο αριθμός των μελών μιας οικογένειας που χαρακτηρίζονται ποσοτικές7 και οι οποίες, πράγματι, είναι μετρήσιμες ή απαριθμήσιμες. Υπάρχουν όμως άλλες, όπως το άγχος, η στάση ως προς κάποιο θέμα, η οικογενειακή κατάσταση ή οι πολιτικές πεποιθήσεις που χαρακτηρίζονται ποιοτικές8 και στις οποίες μπορούν να αποδοθούν τιμές, όμως, οι τιμές αυτές δεν εκφράζουν κάτι το μετρήσιμο ή απαριθμήσιμο αλλά κατηγοριοποίηση ή διάταξη. Για παράδειγμα, η μεταβλητή στάση ως προς κάποιο θέμα μπορεί να πάρει τιμές όπως, θετική, αδιάφορη, αρνητική. Σε μια άλλη κλίμακα απόδοσης τιμών θα μπορούσε να πάρει και άλλες τιμές όπως πολύ θετική, πολύ αρνητική. Είναι αναπόφευκτο, οι κλίμακες και τα όργανα που χρησιμοποιούνται για την απόδοση τιμών στις ποιοτικές μεταβλητές, να έχουν μεγάλο βαθμό υποκειμενισμού. Πώς, εξάλλου, θα ήταν δυνατόν να μετρηθεί αντικειμενικά9 η ποιότητα10; Τα ερωτηματολόγια και τα τεστ, τα κατ’

6 Ευτυχώς όχι… 7 Μια μεταβλητή λέγεται ποσοτική, αν παίρνει μόνο αριθμητικές τιμές. Οι ποσοτικές μεταβλητές, ανάλογα με το σύνολο τιμών τους, διακρίνονται σε συνεχείς (μετρήσιμες) και διακριτές (απαριθμήσιμες). 8 Μια μεταβλητή λέγεται ποιοτική, αν δεν παίρνει αριθμητικές τιμές. 9 Ένα όργανο μέτρησης είναι αντικειμενικό όταν δίνει το ίδιο αποτέλεσμα για τη μέτρηση της ίδιας τιμής οποιοσδήποτε και αν το χρησιμοποιήσει 10 Η ποιότητα αναγνωρίζεται εύκολα, ορίζεται δύσκολα, είναι, όμως, αδύνατον να μετρηθεί αντικειμενικά..

Στατιστική Προσέγγιση Προβλημάτων: Μια Γενική Επισκόπηση

Γεωπονικό Πανεπιστήμιο Αθηνών/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 17

εξοχήν εργαλεία «μέτρησης» ποιοτικών μεταβλητών, είναι υποκειμενικά εργαλεία «μέτρησης». Αντίθετα, στις ποσοτικές μεταβλητές η μέτρηση ή η απαρίθμηση μπορεί να γίνει αντικειμενικά χωρίς αυτό να σημαίνει ότι στις μετρήσεις ποσοτικών μεταβλητών δεν υπεισέρχονται σφάλματα. Επιδίωξή μας πρέπει να είναι η λήψη μέτρων για τον περιορισμό των σφαλμάτων μέτρησης γιατί αποτελούν πηγή μεροληψίας. Για παράδειγμα, αν τα όργανα μέτρησης είναι απλά, δηλαδή, εύκολα στη χρήση τους, αυτό συμβάλλει στον περιορισμό των σφαλμάτων μέτρησης. Σε ότι αφορά στις κλίμακες απόδοσης τιμών σε ποιοτικές μεταβλητές, υπάρχουν δύο, ευρέως χρησιμοποιούμενες. 1. Κλίμακες κατηγορίας (nominal)

Στις κλίμακες κατηγορίας, η μόνη σχέση μεταξύ διαφορετικών τιμών, είναι η ύπαρξη διαφοράς. Δηλαδή, μια κλίμακα κατηγορίας, επιτρέπει μόνο την κατηγοριοποίηση των υποκειμένων (π.χ. διαφορετική κατηγορία χρώματος, διαφορετική κατηγορία πολιτικής προτίμησης).

2. Κλίμακες διάταξης (ordinal) Στις κλίμακες διάταξης, μεταξύ διαφορετικών τιμών υπάρχει σχέση διάταξης. Δηλαδή, μια κλίμακα διάταξης, δεν επιτρέπει μόνο την κατηγοριοποίηση των υποκειμένων αλλά και μια σχέση διάταξης-ιεράρχησής τους. Για παράδειγμα, στη μεταβλητή στάση ως προς κάποιο θέμα, μπορούν να αποδοθούν τιμές με βάση την κλίμακα: πολύ θετική, θετική, αδιάφορη, αρνητική, πολύ αρνητική. Επίσης, στη μεταβλητή θέση στην ιεραρχία μιας υπηρεσίας, μπορούν να αποδοθούν τιμές με βάση την κλίμακα: υπάλληλος, προϊστάμενος τμήματος, προϊστάμενος διεύθυνσης, γενικός διευθυντής. Τέλος, στη μεταβλητή αποτελέσματα σε ένα αγώνισμα, μπορούν να αποδοθούν τιμές με βάση την κλίμακα: 1ος, 2ος, 3ος,…Προφανώς, ίσες διαφορές μεταξύ τιμών δε συνεπάγονται και ίσες διαφορές στο χαρακτηριστικό που εκφράζει η μεταβλητή αφού, οι τιμές αυτές δεν ποσοτικοποιούν το χαρακτηριστικό. Η διάταξη εκφράζει π.χ. το «καλύτερο» ή το «προτιμότερο» όχι όμως το «πόσο καλύτερο» ή το «πόσο προτιμότερο». Δηλαδή, 1ος-2ος δεν είναι ίσο με 5ος-6ος.

Σε ότι αφορά τις κλίμακες απόδοσης τιμών σε ποσοτικές μεταβλητές, υπάρχουν επίσης δύο, ευρέως χρησιμοποιούμενες. 1. Κλίμακες διαστήματος (interval)

Στις κλίμακες διαστήματος, γίνεται ποσοτικοποίηση του χαρακτηριστικού που εκφράζει η μεταβλητή. Έτσι, μια κλίμακα διαστήματος επιτρέπει, όχι μόνο τη διάταξη-ιεράρχηση των υποκειμένων, αλλά και τον προσδιορισμό επακριβώς της διαφοράς τους. Ίσες διαφορές μεταξύ τιμών συνεπάγονται και ίσες διαφορές στο χαρακτηριστικό που εκφράζει η μεταβλητή. Όμως, δεν έχουν νόημα οι αναλογίες. Αυτό συμβαίνει, διότι στις κλίμακες διαστήματος μετράμε μεταβλητές στις οποίες δεν εμφανίζεται παντελής έλλειψη του χαρακτηριστικού που εκφράζουν. Δηλαδή, το μηδέν δεν εμφανίζεται εγγενώς στο διάστημα τιμών τους (όπως εμφανίζεται για παράδειγμα στις τιμές της μεταβλητής απόσταση δύο σημείων όπου μηδέν σημαίνει ταύτιση των σημείων δηλαδή ότι δεν υπάρχει απόσταση), αλλά ορίζεται συμβατικά-αυθαίρετα. Για παράδειγμα, θερμοκρασία 900C δε συνεπάγεται τριπλάσια αποτελέσματα από θερμοκρασία 300C γιατί 00C δε συνεπάγονται παντελή έλλειψη θερμοκρασίας. Έτσι, αν ως μηδέν ορίζαμε τους 273− 0C, τότε οι 900C στη νέα κλίμακα αντιστοιχούν σε 3630 και οι 300C σε 3030. Τώρα οι ίδιες θερμοκρασίες δεν έχουν λόγο τρία προς ένα. Όμως, έχει

Στατιστική Προσέγγιση Προβλημάτων: Μια Γενική Επισκόπηση

Γεωπονικό Πανεπιστήμιο Αθηνών/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 18

νόημα και στις δυο κλίμακες να πούμε ότι οι δύο θερμοκρασίες διαφέρουν κατά 600. Μια ειδική περίπτωση κλίμακας διαστήματος είναι η κυκλική κλίμακα. Ένας κύκλος διαιρείται σε 360 μοίρες και οι μηδέν μοίρες ορίζονται αυθαίρετα11 στο βορρά. Στο βορρά, επίσης, αντιστοιχίζονται οι 360 μοίρες. Σε κυκλική κλίμακα μπορούν να αποδοθούν τιμές π.χ. στις ώρες της ημέρας, στις ενδείξεις της πυξίδας και στους μήνες του έτους12.

Επίσης, σε κυκλική κλίμακα μετρώνται μεταβλητές που εκφράζουν χαρακτηριστικά κατεύθυνσης-φοράς (directional). Τέτοιες μεταβλητές συναντώνται σε πολλές επιστήμες όπως στη Γεωλογία, τη Μετεωρολογία και την Οικολογία (π.χ. η κατεύθυνση του ανέμου, η πορεία των πτηνών, η κατεύθυνση του ίχνους της κίνησης των πάγων (δες το σχήμα που ακολουθεί), η κατεύθυνση των πτυχώσεων ενός γεωλογικού σχηματισμού π.χ. ψαμμίτη).

Σε κυκλική κλίμακα μετρώνται, επίσης, μεταβλητές που εκφράζουν χαρακτηριστικά διεύθυνσης (oriented, axial) όπως η διεύθυνση Landsat γραμμώσεων και η διεύθυνση των αξονικών επιπέδων αντικλίνων (δες το σχήμα

11 Δεν υπάρχει δηλαδή «φυσική» αιτιολογία 12 x μονάδες του μεγέθους που μετράμε αντιστοιχίζονται (σε κυκλική κλίμακα) σε γωνία

kxo ⋅

=360α μοιρών

(όπου k ο αριθμός των ίσων διαστημάτων στα οποία διαιρείται ο κύκλος π.χ. 24 για τις ώρες της ημέρας ή 365 για τις ημέρες του έτους). Έτσι, η ώρα 06:15 σε κυκλική κλίμακα αντιστοιχίζεται σε 75.93

2425.6360

=⋅o

μοίρες και η

ώρα 06:00 σε 9024

6360=

⋅o μοίρες.

Στατιστική Προσέγγιση Προβλημάτων: Μια Γενική Επισκόπηση

Γεωπονικό Πανεπιστήμιο Αθηνών/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 19

που ακολουθεί), η διεύθυνση γεωλογικών στρωμάτων ή η διεύθυνση των φύλλων των δένδρων. Στις περιπτώσεις αυτές δεν έχει νόημα (ή δεν ενδιαφέρει) η φορά (κατεύθυνση) άλλα μόνο η διεύθυνση.

Για παράδειγμα, μπορεί να μας ενδιαφέρει μόνο αν η διεύθυνση-προσανατολισμός ενός φύλλου είναι 100-1900 και όχι αν η άκρη του φύλλου που στηρίζεται στο μίσχο έχει κατεύθυνση-φορά 100 ή 1900. Είναι προφανές ότι σε κυκλική κλίμακα, μπορούν να αποδοθούν τιμές στη διεύθυνση ενός χαρακτηριστικού με δύο τρόπους. Για παράδειγμα, η διεύθυνση 100-1900 μπορεί να αποδοθεί είτε ως κατεύθυνση100 είτε ως κατεύθυνση 1900. Δηλαδή, μια διεύθυνση σε κυκλική κλίμακα μπορεί να αποδοθεί ως μια από δύο αντίθετες κατευθύνσεις. Επειδή, το ποια κατεύθυνση επιλέγεται για να αποδοθεί τιμή στην αντίστοιχη διεύθυνση μπορεί να επηρεάσει τα συμπεράσματα της στατιστικής μελέτης (π.χ. μπορεί να διογκωθεί τεχνητά-εσφαλμένα η διασπορά των διευθύνσεων) έχει προταθεί ο εξής μετασχηματισμός των δεδομένων: Η τιμή φ0 της κατεύθυνσης που επιλέγεται (οποιαδήποτε και αν είναι από τις δύο αντίθετες) διπλασιάζεται. Αν η νέα τιμή 2φ0 βρίσκεται στο διάστημα 00-3600 τότε αυτή η τιμή χρησιμοποιείται για τη στατιστική επεξεργασία. Αν όχι χρησιμοποιείται η 2φ0-3600. Στη συνέχεια τα αποτελέσματα της επεξεργασίας μετασχηματίζονται αντίστροφα (υποδιπλασιάζονται). Για παράδειγμα, αν για τη διεύθυνση 100-1900 επιλεγεί να της αποδοθεί η τιμή 100 τότε για τη στατιστική ανάλυση χρησιμοποιείται η τιμή 200. Αν επιλεγεί η τιμή 1900 τότε χρησιμοποιείται η τιμή 3800-3600 = 200. Έτσι, ανεξάρτητα από την κατεύθυνση που κάθε φορά επιλέγεται, για τη διεύθυνση χρησιμοποιείται η ίδια τιμή.

Παρατηρείστε ότι: φφ⋅=

⋅ 2180

3600

o.

Σημείωση 1.2: Επειδή ο κύκλος είναι κλειστή γραμμή (η αρχή – η όποια αρχή- και το τέλος συμπίπτουν), οι συνήθεις μέθοδοι επεξεργασίας δεδομένων, στην πλειονότητά τους, δε μπορούν να εφαρμοσθούν σε δεδομένα κυκλικής κλίμακας γιατί απαιτείται άλλη προσέγγιση (διανυσματική). Για παράδειγμα, η μέση κατεύθυνση των κατευθύνσεων 100 και 3500, φυσικά, δε μπορεί να είναι

000 1802)35010( =+ . Δηλαδή, δύο βόρειες κατευθύνσεις δεν είναι δυνατόν να έχουν μέση κατεύθυνση νότια! Επίσης, η κατεύθυνση 2700 δε μπορεί να χαρακτηρισθεί «μεγαλύτερη» από την κατεύθυνση 900.

Στατιστική Προσέγγιση Προβλημάτων: Μια Γενική Επισκόπηση

Γεωπονικό Πανεπιστήμιο Αθηνών/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 20

2. Κλίμακες αναλογίας (ratio) Στις κλίμακες αναλογίας, όπως και στις κλίμακες διαστήματος, γίνεται ποσοτικοποίηση του χαρακτηριστικού που εκφράζει η μεταβλητή. Όμως, οι κλίμακες αναλογίας επιτρέπουν, όχι μόνο τη σύγκριση διαφορών αλλά και τη σύγκριση αναλογιών διότι στο διάστημα τιμών τους το μηδέν περιλαμβάνεται εγγενώς και όχι με αυθαίρετο ορισμό. Έτσι, σε μια κλίμακα αναλογίας, έχει νόημα, δηλαδή απεικονίζει μια πραγματική κατάσταση, τόσο η ισότητα

121536 −=− όσο και η ισότητα 25250 ⋅= . Για παράδειγμα, αν το κατάστημα Α έχει τζίρο 15.000 € και το κατάστημα Β έχει τζίρο 5.000 € τότε έχει νόημα να πούμε και ότι το κατάστημα Α έχει 10.000 € τζίρο περισσότερο από το τζίρο του καταστήματος Β και ότι ο τζίρος του καταστήματος Α είναι τριπλάσιος από τον τζίρο του καταστήματος Β.

Ερωτήσεις: α) Η κλίμακα θερμοκρασίας Kelvin είναι κλίμακα διαστήματος ή κλίμακα αναλογίας; β) Σε τι κλίμακα μπορούν να αποδοθούν τιμές στις μεταβλητές, αριθμός μητρώου, δαπάνη, άγχος, Δείκτης Τιμών Καταναλωτή, νομός, χρόνος, επίπεδο εκπαίδευσης, βαθμολογία μαθήματος, ηλικία. Υπάρχουν ψέματα, μεγάλα ψέματα και η Στατιστική!!! Ο τίτλος αυτής της Ενότητας έχει χρησιμοποιηθεί ως τίτλος βιβλίου13. Ο συγγραφέας χρησιμοποιεί τη λέξη Στατιστική ως τον υπερθετικό βαθμό της λέξης ψέμα! Φυσικά, δεν κυριολεκτεί. Υπαινίσσεται, όμως, ένα αδιαμφισβήτητο γεγονός. Τη διαστρέβλωση, πολλές φορές, της πραγματικότητας που γίνεται από κακή χρήση της Στατιστικής. Δυστυχώς, από άγνοια ή από σκοπιμότητα, ολοένα και πιο συχνά, γίνεται εσφαλμένη χρήση των στατιστικών μεθόδων παρουσίασης, ανάλυσης και ερμηνείας δεδομένων με αποτέλεσμα να δημιουργείται ψευδής και στρεβλή εικόνα για την πραγματικότητα14. Τα σχετικά παραδείγματα είναι πολλά. Ας δούμε τρία από αυτά που συναντάμε συχνά στη βιβλιογραφία ως παραδείγματα κακής χρήσης των στατιστικών μεθόδων.

• Στον Πίνακα 1.1 που ακολουθεί, φαίνεται η κατανομή των ετήσιων εισοδημάτων των οικογενειών στις Η.Π.Α. το έτος 1973.

Ετήσιο εισόδημα σε χιλιάδες δολάρια

Ποσοστό οικογενειών (σχετική συχνότητα %if )

0 - 1 1 - 2 2 - 3 3 - 4 4 - 5 5 - 6 6 - 7 7 - 10 10 - 15 15 - 25 25 – 50

1 2 3 4 5 5 5 15 26 26 8

Πίνακας 1.1

13 There are lies, big lies and statistics 14 Είναι γνωστή εξάλλου η φράση “figures do not lie, but liars figure” (οι αριθμοί δεν ψεύδονται αλλά οι ψεύτες αριθμούν)

Στατιστική Προσέγγιση Προβλημάτων: Μια Γενική Επισκόπηση

Γεωπονικό Πανεπιστήμιο Αθηνών/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 21

Για τη γραφική αναπαράσταση της κατανομής αυτών των εισοδημάτων, κατασκευάσθηκαν τα παρακάτω ιστογράμματα. Όμως, το ιστόγραμμα (α) είναι παραπλανητικό διότι δημιουργεί την εντύπωση ότι η οικονομική κατάσταση των οικογενειών στις Η.Π.Α. το έτος 1973 είναι πολύ καλύτερη από την πραγματική. Σύμφωνα με αυτό το ιστόγραμμα, οι οικογένειες που έχουν εισόδημα μεγαλύτερο από 25000 δολάρια είναι πολύ περισσότερες από αυτές που έχουν εισόδημα μικρότερο από 7000 δολάρια. Βέβαια, τα πραγματικά δεδομένα (που καταγράφονται στον πίνακα) λένε ακριβώς το αντίθετο (8% και 25% αντίστοιχα). Οι εντυπώσεις όμως μένουν! Φυσικά, δεν ευθύνεται η Στατιστική. Ο δημιουργός αυτού του ιστογράμματος είτε δε γνώριζε, είτε γνώριζε, αλλά σκοπίμως αγνόησε το στοιχειώδες ότι στην κατασκευή ενός ιστογράμματος τα εμβαδά των ορθογωνίων και όχι τα ύψη αντιστοιχούν στις συχνότητες (απόλυτες ή σχετικές αναλόγως). Το σωστό ιστόγραμμα είναι το (β) που αποδίδει και τη σωστή εικόνα της κατανομής.

0

5

10

15

20

25

30

0 5 10 15 20 25 30 35 40 45 50 (α)

0

2

4

6

0 5 10 15 20 25 30 35 40 45 50 (β)

• Στο πλαίσιο των ερευνών για τα αίτια που προκαλούν την εμφάνιση κρουσμάτων πολιομυελίτιδας, είχε παρατηρηθεί ότι υπάρχει ισχυρή θετική συσχέτιση μεταξύ του αριθμού νέων περιστατικών πολιομυελίτιδας και του αριθμού αναψυκτικών που πουλήθηκαν την αντίστοιχη χρονική περίοδο. Είχε δηλαδή παρατηρηθεί ότι όταν υπήρχε μεγάλη κατανάλωση αναψυκτικών, είχαν εκδηλωθεί και πολλά νέα περιστατικά πολιομυελίτιδας. Όταν η

Στατιστική Προσέγγιση Προβλημάτων: Μια Γενική Επισκόπηση

Γεωπονικό Πανεπιστήμιο Αθηνών/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 22

κατανάλωση των αναψυκτικών ήταν μειωμένη, υπήρχαν λιγότερα νέα περιστατικά πολιομυελίτιδας. Προκαλούν λοιπόν τα αναψυκτικά εμφάνιση πολιομυελίτιδας; Προφανώς η απάντηση είναι αρνητική. Η επιδημία της πολιομυελίτιδας παρουσιάζει έξαρση το καλοκαίρι, που συμβαίνει να έχουμε και αύξηση της κατανάλωσης των αναψυκτικών. Έτσι εντοπίστηκε ένας τρίτος παράγοντας, η εποχή του έτους που είναι καθοριστικός και για τη μεταβλητή κατανάλωση αναψυκτικών και για τη μεταβλητή εμφάνιση κρούσματος πολιομυελίτιδας. Αν βέβαια οι ερευνητές είχαν συμπεράνει ότι η κατανάλωση αναψυκτικών προκαλεί πολιομυελίτιδα δε θα έφταιγε η Στατιστική. Απλώς οι ερευνητές θα παρέβλεπαν (ή θα αγνοούσαν) ότι η συσχέτιση δε συνεπάγεται κατ΄ ανάγκη αιτιώδη σχέση και ότι τα αιτιολογικά συμπεράσματα απαιτούν πειραματισμό. Δεν αρκεί η παρατήρηση.

• Αν οι αριθμοί 000.1... 10021 ==== xxx και 000.000.10101 =x δείχνουν το εισόδημα 101 φορολογουμένων σε € και κάποιος ισχυρισθεί ότι το μέσο εισόδημα τους ανέρχεται σε 100.000 € προφανώς προσπαθεί να παραπλανήσει λέγοντας μέρος της «αλήθειας των αριθμών». Σκόπιμα ή από άγνοια αποκρύπτει τη διάμεσο των εισοδημάτων (που είναι 1.000 €). Όμως, από τη Στατιστική είναι γνωστό ότι η μέση τιμή ως περιγραφικό μέτρο έχει το μειονέκτημα ότι είναι πολύ ευαίσθητη σε ακραίες τιμές και γι’ αυτό πρέπει να χρησιμοποιείται σε συνδυασμό με άλλα περιγραφικά μέτρα όπως η διάμεσος.

Τα τελευταία χρόνια έχει γίνει πολύ εύκολη η πρόσβαση σε προγράμματα υπολογιστών που διευκολύνουν την επεξεργασία δεδομένων και την εφαρμογή στατιστικών μεθόδων. Ο χειρισμός, μάλιστα, αυτών των προγραμμάτων είναι πολύ εύκολος. Το γεγονός αυτό, σε συνδυασμό με το ότι πολλοί νομίζουν ότι η Στατιστική αποτελεί εφαρμογή διαδικασιών-συνταγών, έχει ως αποτέλεσμα την όξυνση του προβλήματος της κακής χρήσης της Στατιστικής. Είναι μεγάλη πλάνη να πιστεύει κάποιος ότι μπορεί να κάνει Στατιστική επειδή έχει πρόσβαση σε ισχυρά υπολογιστικά εργαλεία και δυνατότητα να δημιουργεί με ευκολία π.χ. εντυπωσιακά γραφήματα. Είναι αυτονόητο ότι η σωστή εφαρμογή στατιστικών μεθόδων, πρώτα απ΄ όλα, απαιτεί την καλύτερη δυνατή γνώση του υπό μελέτη φαινομένου. Απαιτεί, επίσης, καλή θεωρητική γνώση ώστε αφενός να επιλεγεί η πλέον κατάλληλη μέθοδος δειγματοληψίας ή να γίνει ο καλύτερος σχεδιασμός του πειράματος και αφετέρου να επιλεγούν οι καταλληλότερες μέθοδοι παρουσίασης και ανάλυσης των δεδομένων. Κυρίως απαιτεί, σχολαστικό έλεγχο για το αν ικανοποιούνται οι προϋποθέσεις εφαρμογής των στατιστικών μεθόδων που επιλέγονται. Πώς μπορεί να αντιμετωπισθεί το πρόβλημα; Κατά τη γνώμη μας, το πρόβλημα της κακής χρήσης της Στατιστικής, μπορεί να αντιμετωπισθεί, κυρίως, με τη βελτίωση της ποιότητας της παρεχόμενης παιδείας, εκπαίδευσης και κατάρτισης.

Στατιστική Προσέγγιση Προβλημάτων: Μια Γενική Επισκόπηση

Γεωπονικό Πανεπιστήμιο Αθηνών/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 23

Στατιστική και Δεοντολογία Όπως ήδη έχουμε αναφέρει, είναι πλέον αδιαμφισβήτητο, ότι η Στατιστική επηρεάζει πολλές πτυχές της ζωής μας. Είναι επομένως φυσικό, με τη χρήση της Στατιστικής, να εγείρονται πολλά ηθικά και νομικά ζητήματα. Τα ζητήματα αυτά σχετίζονται τόσο με τη συλλογή των δεδομένων όσο και με την επεξεργασία τους και με τον τρόπο παρουσίασης των αποτελεσμάτων. Ας αναφερθούμε σε κάποια από αυτά.

Τα δεδομένα δειγματοληπτικών ή πειραματικών ερευνών επιτρέπεται να δημοσιοποιούνται; Για παράδειγμα, δεδομένα που σχετίζονται με την υγεία, τις πεποιθήσεις, την οικονομική κατάσταση, τις συνήθειες κτλ. των πολιτών επιτρέπεται να δημοσιοποιούνται; Επιτρέπεται, δηλαδή, να είναι διαθέσιμα στον οποιονδήποτε για οποιαδήποτε χρήση και εκμετάλλευση; Στη χώρα μας, όπως συμβαίνει στις περισσότερες πολιτισμένες χώρες, τα δεδομένα δειγματοληπτικών ή πειραματικών ερευνών είναι απόρρητα (π.χ. αρθρ. 40 του Ν.Δ. 3627/56).

Στα τυχαία συγκριτικά πειράματα (randomized comparative experiments) που γίνονται στο πλαίσιο ερευνών για την αποτελεσματικότητα π.χ. κάποιου νέου φαρμάκου, συγκρίνονται δύο ή περισσότερες μεταχειρίσεις-επεμβάσεις (θεραπευτικές αγωγές) με την εξής, σε γενικές γραμμές, μέθοδο. Επιλέγονται με μια τυχαία διαδικασία δύο ομάδες ασθενών και οι ασθενείς της μιας ομάδας υποβάλλονται σε θεραπευτική αγωγή με το νέο φάρμακο ενώ της άλλης ομάδας όχι (ή υποβάλλονται σε «θεραπεία» με ένα εικονικό φάρμακο). Οι ασθενείς που δεν υποβάλλονται στη θεραπεία αποτελούν την ομάδα ελέγχου. Υπάρχει μια λεπτή ισορροπία μεταξύ του αν πρέπει να κάνουμε ή να μην κάνουμε μια τέτοια πειραματική έρευνα. Από τη μια μεριά, πρέπει να υπάρχει επαρκής πίστη στην αξία του νέου φαρμάκου ώστε να δικαιολογείται η έκθεση των ασθενών της μιας ομάδας στη δράση αυτού του φαρμάκου. Από την άλλη μεριά, πρέπει να υπάρχει επαρκής αμφιβολία για τη δραστικότητά του ώστε να δικαιολογείται η στέρηση της θεραπείας από τους ασθενείς της ομάδας ελέγχου (φυσικά, το ηθικό δίλημμα είναι πολύ μεγάλο όταν πρόκειται για σοβαρές ασθένειες ή όταν το νέο φάρμακο προκαλεί ισχυρές παρενέργειες). Επιπλέον, για την απόκτηση βάσιμης ιατρικής μαρτυρίας, είναι εξίσου σημαντικά τόσο τα θετικά όσο και τα αρνητικά αποτελέσματα. Οι περισσότερες πειραματικές έρευνες αρχίζουν με 50% πιθανότητα επιτυχίας. Αν η πιθανότητα επιτυχίας ήταν πολύ μεγαλύτερη, θα ανησυχούσαμε για τη μη εφαρμογή της θεραπείας σε όλους τους ασθενείς ενώ αν ήταν πολύ μικρότερη θα ανησυχούσαμε για την έκθεση των ασθενών στη δράση της θεραπευτικής αγωγής. Το δίλημμα είναι μεγάλο και το πρόβλημα παραμένει ανοιχτό.

Πώς πρέπει να ανακοινώνονται τα αποτελέσματα μιας στατιστικής έρευνας; Μπορεί ο τρόπος παρουσίασής τους να οδηγήσει σε παραπλανητικές ερμηνείες; Αρκεί η παράθεση κάποιων αριθμητικών αποτελεσμάτων; Επιτρέπεται η μερική/ελλιπής/μονομερής/μεροληπτική ανακοίνωση αποτελεσμάτων; Τα ερωτήματα αυτά και άλλα ανάλογα οδήγησαν τα αναπτυγμένα κράτη στην δημιουργία κωδίκων δεοντολογίας για τον τρόπο ανακοίνωσης των ευρημάτων στατιστικών ερευνών. Έτσι, ταυτόχρονα με την ανακοίνωση των ευρημάτων μιας στατιστικής έρευνας επιβάλλεται, για παράδειγμα, να ανακοινώνονται το δειγματοληπτικό πλαίσιο, η μέθοδος δειγματοληψίας, ο χρόνος διεξαγωγής της έρευνας, το μέγεθος του δείγματος, τα δειγματοληπτικά σφάλματα και άλλες πληροφορίες που συνιστούν την ταυτότητα της έρευνας.

Στατιστική Προσέγγιση Προβλημάτων: Μια Γενική Επισκόπηση

Γεωπονικό Πανεπιστήμιο Αθηνών/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 24

Πώς εξασφαλίζεται η επαγγελματική επάρκεια, η διαφανής λειτουργία, η αντικειμενικότητα και η ανεξαρτησία από πολιτικές ή άλλες σκοπιμότητες των κρατικών στατιστικών υπηρεσιών (όπως η Ελληνική Στατιστική Αρχή); Η σοβαρότητα αυτού του ερωτήματος είναι προφανής αν λάβουμε υπόψη μας ότι οι κρατικές στατιστικές υπηρεσίες συγκεντρώνουν, αναλύουν και ερμηνεύουν δεδομένα με βάση τα οποία λαμβάνονται και τεκμηριώνονται σημαντικές αποφάσεις.

Κλείνουμε αυτή τη σύντομη, και κατά το δυνατόν, γενική επισκόπηση της στατιστικής προσέγγισης των φαινομένων, με ένα απόσπασμα από άρθρο-ομιλία του καθηγητή Θεόφιλου Κάκουλλου:

«Οι στατιστικές μέθοδοι απηχούν την προσπάθεια του ανθρώπου να κατανοήσει και να εκφράσει τη γενικότητα των φαινομένων, τα οποία υποπίπτουν στην αντίληψή του και επηρεάζουν κατά το μάλλον ή ήττον τη ζωή του. Μέσα από τον κυκεώνα και το χάος των μεμονωμένων γεγονότων και παρατηρήσεων αναζητούμε συνεχώς κάποια τάξη, όπως αυτή αντανακλάται στη μέση συμπεριφορά, στον ρου των πραγμάτων. Μέσα στην απέραντη ποικιλία και σωρεία των ατομικών χαρακτηριστικών, αναζητούμε τυπικά χαρακτηριστικά, μια καθολική εικόνα του πληθυσμού στον οποίο ανήκουν τα άτομα. Η γενική αυτή εικόνα δεν είναι απλή περίληψη των ατόμων που την απαρτίζουν, αλλά προχωράει πέραν των ατόμων, και αποκτάει νόημα το οποίο δεν θα μπορούσαμε να συλλάβουμε ούτε με την πιο ενδελεχή μελέτη οποιουδήποτε ατόμου».