203
1 Carte de Statistică Reţete încercate Robert D. Reisz Cuprins Cuvînt înainte 1. Introducere. a. Ce este statistica? b. Cum cunoaşte statistica? c. Cauzalitate şi statistica. d. Foarte scurt istoric al statisticii. 2. Ingredientele statisticii. Tipuri de date. a. Date nominale b. Date ordinale c. Date intervalice d. Date raţionale 3. Culegerea datelor statistice. Sondajul de opinie. a. Statistici de lot si statistici de sondaj. Generalizarea statistică şi limitele ei. b. Cum facem un sondaj de opinie simplu şi corect? Eşantionare, chestionar, aplicare. 4. Aperitive. Primii paşi în descrierea datelor statistice a. Imagini de ansamblu asupra datelor. i. Frecvenţe simple. ii. Reprezentări grafice b. Indicatori agregaţi i. Tendinţa centrală ii. Distribuţia datelor

Carte de Statistica

Embed Size (px)

Citation preview

Page 1: Carte de Statistica

1

Carte de Statistică

Reţete încercate

Robert D. Reisz

Cuprins

Cuvînt înainte

1. Introducere.

a. Ce este statistica?

b. Cum cunoaşte statistica?

c. Cauzalitate şi statistica.

d. Foarte scurt istoric al statisticii.

2. Ingredientele statisticii. Tipuri de date.

a. Date nominale

b. Date ordinale

c. Date intervalice

d. Date raţionale

3. Culegerea datelor statistice. Sondajul de opinie.

a. Statistici de lot si statistici de sondaj. Generalizarea statistică şi limitele ei.

b. Cum facem un sondaj de opinie simplu şi corect? Eşantionare, chestionar,

aplicare.

4. Aperitive. Primii paşi în descrierea datelor statistice

a. Imagini de ansamblu asupra datelor.

i. Frecvenţe simple.

ii. Reprezentări grafice

b. Indicatori agregaţi

i. Tendinţa centrală

ii. Distribuţia datelor

Page 2: Carte de Statistica

2

5. Supe, ciorbe şi teste statistice simple.

a. Distribuţia normală

b. Teste statistice t pentru medii şi Z pentru proporţii.

c. Calculul erorii unui sondaj si interpretarea ei.

6. Feluri principale şi garnituri sau relaţia dintre mai multe variabile

a. Grafice pentru mai multe variabile.

b. Tabele de relaţionare.

c. Analiza de varianță. Testul ANOVA unifactorial.

d. Corelaţia simplă şi parţială. Coeficienţii de corelaţie.

e. Regresia liniară simplă şi multiplă.

7. Pentru vegetarieni. Analiza datelor nenumerice.

a. Testul Chi2

b. Testele Wilcoxon, Mann-Whitney şi Kruskal Wallis

c. Regresia categorială.

8. Analiza seriilor de timp

a. Ce e o serie de timp? Identificarea de patternuri în serii de timp

b. Trend şi sezonalitate

c. Regresii cu serii de timp

d. Analiza de supravieţuire

9. Clasificarea datelor.

a. Clustere ierarhice

b. Clustering cu centre de clustere

10. Deserturi.

Page 3: Carte de Statistica

3

Cuvînt înainte

La primul curs de statistică pe care l-am ţinut la facultatea de ştiinţe politice de la

Universitatea de Vest din Timişoara o studentă mi-a spus pe un ton cît se poate de tranşant:

habar nu are de matematică, nici nu vrea să înveţe aşa ceva şi oricum a venit la facultatea de

ştiinţe politice tocmai ca să scape de matematică şi alte asemenea ştiinţe exacte. Sunt convins

că această experienţă a mea e departe de a fi unică. Am încercat pe parcursul celor două

semestre să o conving pe ea şi pe colegii ei, de obicei de aceiaşi părere cu ea, de utilitatea

statisticii şi de simplitatea ei. Sunt convins că nu am reuşit sau nu întru totul, dar ştiu de

asemenea că am reuşit să îi familiarizez cu conceptele de bază ale statisticii şi modul cum

acestea funcţionează în logica cercetării sociale.

Cartea aceasta se adresează tocmai celor ce se tem de calculul matematic sau sunt doar

neexersaţi in el, precum şi celor ce fac primii paşi în lucrul cu metode ştiinţifice cantitative in

cunoaşterea socială. Cartea mea vrea să fie uşor de citit, dar în primul rînd uşor de învăţat şi

de aplicat. Voi prezenta în paginile ce urmează principalele metode folosite în statistică,

metode utilizate în cercetările din ştiinţele sociale şi nu numai; reţetarul de bază pentru

lucrările de cercetare din sociologie, psihologie, ştiinţe politice, economice dar şi medicină şi

alte ştiinţe ce se bazează pe cunoaşterea empirică a realităţii.

Voi insista pe interpretarea rezultatelor precum şi pe ipotezele metodelor statistice, elemente

ale cunoaşterii statistice ce stau la interfaţa dintre teorie si metodă şi definesc în cele din urmă

limitele cunoaşterii prin statistică. În opinia mea, renumele uneori negativ pe care îl are

statistica în mass-media romanească, şi mă refer aici la scepticismul foarte răspîndit faţă de

cercetările bazate pe sondaje de opinie, se datorează pe lîngă existenţa reală a unor cercetări

cel puţin dubioase, şi unei neînţelegeri ale limitelor cunoaşterii statistice. Desigur cunoaşterea

statistică este prin felul ei imperfectă, inexactă, probabilă şi nu certă, dar puterea ei rezidă

tocmai în posibilitatea de a delimita cu siguranţă uneori destul de mare intervalul în care se

află realitatea. Să fiu mai explicit, statistica nu va da niciodată răspunsuri simple şi exacte.

Dar astfel de răspunsuri, în măsura în care există în cunoaşterea lumii reale, nu ne sunt utile.

Răspunsurile care ne sunt utile fie nu sunt simple, fie nu sunt exacte, fie nu sunt nici simple,

nici exacte. Cu toate acestea, cunoaşterea statistică este cunoaştere, adevărul statistic chiar

dacă nu este absolut este un adevăr pragmatic atît timp cît îi înţelegem limitele.

Page 4: Carte de Statistica

4

Mai există un motiv pentru care scriu această carte. Căutarea mea a unui manual de statistică

introductiv publicat în limba romană a fost pînă acum încununată de eşec. Deşi există multe

manuale de acest tip în spaţiul anglofon şi nu numai, la noi pînă în prezent manualele de

statistică bune au ţinut să se prezinte la un nivel ştiinţific prea ridicat pentru începătorii fără

interes şi aplecare faţă de cele matematice. Poate şi de aceea statistica nu a devenit ca în alte

părţi, un bun comun a celor ce cercetează lumea politică, socială sau economică şi putem

întîlni atît de des prostii monumentale în presa romanească atunci cînd aşa-zişi analişti se

apropie de datele unor sondaje de opinie (e drept, nu numai atunci). Voi încerca, de fapt, să

exemplific pe parcursul cărţii cîteva din erorile cele mai uzuale ale comentatorilor politici dar

şi ale politicienilor din ţara noastră. Uneori înclin să cred că o mai bună înţelegere a felului

cum cunoaşte statistica şi a cum trebuie interpretate sondajele de opinie ar fi putut chiar salva

partide de la dispariţie.

Nu voi merge prea departe cu ideea de a produce o carte de reţete de statistică, totuşi ea este

într-un fel justificată. Toate metodele din carte sunt într-adevăr încercate, şi vor să fie

exemple de metode ce se pot aplica cu succes în cercetare. De asemenea toate interpretările

pot fi utilizate ca exemple de interpretare. Voi atrage de asemenea atenţia asupra unor erori ce

apar adesea, voi atenţiona faţă de prea mult scepticism în egală măsură ca şi faţă de un

optimism exagerat. Deci condimentaţi cu măsură şi, precum cei mai buni bucătari, aplicaţi

reţetele mele cu înţelegere, în spiritul şi nu numai în litera lor.

Page 5: Carte de Statistica

5

Capitolul 1. Introducere.

Să începem uşor, cu începutul. În acest capitol aş vrea să definesc conceptul de statistică şi

felul cum poate statistica cunoaşte lumea. Voi vorbi despre raţionamentul statistic, despre

eroare şi greşeală în statistică, precum şi despre cauzalitate şi statistică.

a. Ce este statistica?

Statistica se defineşte de obicei ca un subdomeniu al matematicii dedicat culegerii, analizării,

interpretării şi prezentării datelor. Definiţia aceasta mi se pare însă cît se poate de

nesatisfăcătoare pentru că, pe de o parte nu spune nimic despre felul cum acţionează statistica

lăsînd prin urmare orice metodă ca fiind acceptabilă, şi mai apoi foloseşte un concept mult

prea general si ambiguu, acela de “dată”. În acest concept este probabil ascuns chiar ceea ce

eu consider a fi genul proxim în cadrul căruia ar trebui definită statistica. Anume faptul că ea

este o metodă de cunoaştere. Statistica este o metodă de cunoaştere a unor obiecte sau

fenomene bazată pe interpretarea rezultatelor de măsurare. Mie definiţia aceasta îmi place mai

mult, deşi probabil sună încă destul de criptic. Anume, mută ambiguitatea de la conceptul de

“dată” la felul cum se obţine aceasta, adică prin măsurarea unor obiecte sau fenomene. Ei

bine, eu înclin să cred că măsurarea în cauză se poate face chiar cu orice aparat de măsură atît

timp cît acesta este de încredere, adică nu face erori sistematice. Totuşi, nişte exemple ar fi

utile aici, nu-i aşa?

Deci, aparate de măsură sunt desigur cîntarul şi metrul croitorului sau ale constructorului, ca

şi şublerul sau micrometrul, dar pînă la urmă orice funcţie care face univoc legătura dintre un

obiect sau fenomen şi o valoare fie ea numerică sau nu, este o măsurare. Sper că nu am speriat

încă pe nimeni folosind termenul de funcţie în sens matematic. O funcţie este o relaţie între

două mulţimi, în cazul nostru o mulţime de obiecte sau fenomene de acelaşi tip pe care dorim

să o cunoaştem mai bine şi o mulţime de valori statistice pe care le putem analiza. Punem de

fapt în relaţie ceva ce nu putem folosi nemijlocit în calculele noastre cu ceva ce putem folosi.

Măsurăm de exemplu greutatea unor cîini, poate pentru a analiza efectul unor alimentaţii

specifice. Folosim un cîntar, desigur, dar de fapt definim prin aceasta o funcţie pe domeniul

cîinilor studiaţi luînd valori în domeniul numerelor reale. Şi de ce facem asta? Pentru că

dorim să interpretăm, să calculăm, să comparăm şi, în fine, să prezentăm cît mai simplu şi

Page 6: Carte de Statistica

6

coerent rezultatele cercetării noastre. Şi nu ştim să calculăm cu cîini, însă ştim să facem asta

cu numere. Această problemă este mereu prezentă în cunoaştere. Nu putem “calcula” cu

obiectele reale, fenomene aşa cum sunt ele. Aşa cum nu putem face calcule cu cîini, nu putem

face nici cu opiniile politice şi nici cu comportamentele economice ale unor oameni adevăraţi.

Trebuie să le transformăm în lucruri cu care putem calcula, în valori numerice sau

nenumerice, oricum valori care sunt simple şi în primul rînd complet definite prin ele însele.

Să mă explic: este practic imposibil să definesc complet un obiect sau un fenomen real. Orice

definiţie a cîinelui meu ar fi incompletă, ar omite un fir de blană sau chiar o caracteristică

comportamentală pe care poate încă nu o cunosc. Iar de ar fi, prin absurd, posibilă o definiţie

completă a lui Garu, aşa îl cheamă (ştiu, e aiurea, dar e o poveste mai lungă), ar fi de o

complexitate ce ar face să fie absolut inutilă pentru orice interpretare sau analiză. Pe de altă

parte rezultatul măsurării greutăţii lui este 30kg ceea ce este desigur un model cît se poate de

inexact pentru un cîine dar este o valoare utilă şi calculabilă atît timp cît ştim exact ce

înseamnă şi nu îi conferim o mai mare importanţă decît are, anume greutatea lui Garu.

Completînd această măsurătoare cu altele, precum vîrsta, rasa şi genul, obţinem un model, o

definiţie incompletă şi utilă, atît incompletitudinea cît şi utilitatea ei rezultînd pînă la urmă din

simplitatea ei.

La fel se întîmplă şi în cazul opiniilor politice ale unei persoane, de exemplu ale colegului

meu Ionică. Opiniile lui Ionică sunt complexe, anumite teme îl interesează şi este informat

asupra lor avînd opinii nuanţate. Alte teme nu îl interesează şi nu are opinii asupra lor sau are

opinii superficiale formate rapid. Mai mult, opiniile lui Ionică, precum a oricărei persoane

inteligente sunt schimbătoare, reacţionează la schimbările din mediu, la noi informaţii şi noi

evenimente. Nu avem cum efectua calcule cu opiniile lui Ionică, putem însă să măsurăm

elemente ale acestor opinii cu un chestionar la un anumit moment dat. De exemplu, îl putem

întreba ce părere are despre un anumit politician şi îi putem oferi 5 variante de răspuns. Avem

atunci o măsurătoare, care este în acelaşi timp o simplificare şi o datare. Acest rezultat de

măsurare va fi legat de momentul la care am pus întrebarea (şi va rămîne neschimbat, deşi

opinia lui se poate schimba ulterior) şi va încerca să includă opinia lui Ionică într-o schemă

simplă care nu îl poate descrie evident întru totul dar care îl poate face comparabil cu alţi

oameni care au răspuns la aceiaşi întrebare.

Şi aici este chiar principala problemă a statisticii. Statistica nu calculează cu cîini, oameni sau

partide. Statistica calculează cu rezultatele unor măsurători ale acestora. Cunoaşterea în

Page 7: Carte de Statistica

7

general nu poate opera cu obiectele ei, ci cu modele ale acestor obiecte. Statistica construieşte

astfel de modele prin măsurare. Cum măsoară de obicei statistica? Ei bine, oricum. Sau mai

exact, depinde de temă. Statistica medicală măsoară cu aparate sofisticate dar a căror

exactitate ar trebui să nu depindă de cel ce efectuează cercetarea, statistica socială sau politică

este însă de obicei nevoită să-şi dezvolte propriile aparate de măsură, chestionarele. Vom

reveni în capitolul al treilea la felul cum se scriu, şi cum nu se scriu chestionare. Pînă atunci

să continuăm însă să discutăm cum metoda de măsurare cu chestionarul influenţează chiar

conceptual cunoaşterea statistică.

Un aparat de măsură trebuie să aibă două principale caracteristici pentru a fi util. Trebuie să

dea un rezultat şi unul singur, şi mai mult decît atît, la repetarea măsurării să producă acelaşi

rezultat sau unul foarte apropiat. Presupunînd că reuşim să-l urcăm pe Garu (cîinele meu, vă

aduceţi aminte) pe un cîntar, vom citi un rezultat oarecare. Pentru cine a uitat deja, era o

valoare apropiată de 30kg. Daca reuşim acest efort de persuasiune şi îndemînare în repetate

rînduri într-un scurt interval de timp, utilizînd mai multe cîntare, acestea vor fi bune în măsura

în care ne vor da aproximativ acelaşi rezultat. Pe de altă parte însă, greutatea lui Garu nu se va

schimba de pe urma faptului ca a fost măsurată. Chiar daca Garu ar fi priceput ceva din cele

ce i s-au întîmplat tot nu şi-ar fi schimbat greutatea ca urmare a acestui fapt. Acest mod de a

testa aparatele de măsură pentru coerenţa lor nu ne este însă accesibil în cazul chestionarului.

Daca dorim să repetăm chestionarea lui Ionică suficient de curînd pentru ca opinia lui să nu se

fi schimbat prea mult, el îşi va aduce desigur aminte de chestionar şi va răspunde probabil la

fel măcar pentru a se arăta consecvent, caracteristică pe care societatea noastră o valorizează

în sine. Există chestionare special elaborate, în special în cercetări de psihologie care rezolvă

această problemă într-o oarecare măsură prin punerea a foarte multe întrebări şi repetarea

unora dintre ele în forme mai mult sau mai puţin modificate. Una peste alta problema rămîne

însă deschisă pentru majoritatea cercetărilor. Chestionarele nu se pot de obicei calibra atît de

bine ca şi cîntarele. Soluţia la această dilemă nu este decît recunoaşterea unei alte limitări a

cunoaşterii prin statistică socială. O cercetare care foloseşte o metodă de măsurare nu poate fi

comparată cu o altă cercetare ce foloseşte altă metodă de măsurare. “Cîntarele” cercetării

sociale nu sunt comparabile. Ca atare măsurarea depinde nu numai de obiectul măsurat ci şi

de aparatul de măsură. În cercetarea statistică socială rezultatul este dependent şi specific

aparatului şi metodei de măsurare. Deci, metodologia este parte din rezultat. Putem spune că

rezultatul măsurării are sens, este interpretabil, există numai împreună cu metoda de măsurare.

Revenind la conceptul de model pe care l-am introdus mai sus, nu numai că statistica nu

Page 8: Carte de Statistica

8

calculează cu cîini, sau oameni, sau fenomene, ea nu calculează de fapt nici cu greutatea,

opinia sau comportamentul ci cu rezultatul măsurătorii acestora aşa cum ne-o permit aparatele

de măsură. Mai simplu, dacă întrebăm un elev cît de des ridică mîna în clasă, nu vom prelucra

statistic elevul (bineînţeles, doamne fereşte), dar nici măcar gradul lui de participare în clasă

(ceea ce unii ar putea spera), ci o măsură de moment a opiniei lui faţă de gradul lui de

participare în clasă. Şi această măsură va depinde de felul cum e construit chestionarul, de

întrebările anterioare, dar şi de evenimentele din ziua în care am efectuat chestionarea sau din

zilele precedente. Aceasta pentru că măsurarea se face într-un moment anume şi cu un aparat

anume. Mai mult, măsurătoarea nu se aplică participării în clasă ci opiniei elevului asupra

acestei participări, opinie care depinde de părerea pe care o are despre şcoala lui, învăţătorul

lui, despre sine însuşi respectiv despre dezirabilitatea de a fi activ în clasă. Toate acestea nu

fac măsurarea inutilă sau cunoaşterea obţinută de pe urma ei mai puţin sigură, pur şi simplu

sunt elemente ce trebuie luate în seamă.

Dacă aparatul de măsură este parte din rezultatul măsurat, de aici decurge imediat faptul că nu

este posibilă vreo măsurare fără o teorie ce stă la baza ei. Aparatul de măsură a fost desigur

dezvoltat pe baza unei teorii, fie că a fost un cîntar fie că a fost un chestionar. Atît timp cît

rezultatul măsurării nu depinde de metoda de măsurare am putea la o adică să neglijăm teoria

care a produs aparatul, aceasta însă nu e nici o dată cazul în cercetarea statistică. Chiar dacă

măsurarea a avut loc cu cîntarul, ideea de a măsura cu cîntarul a avut la bază o decizie şi

această decizie o teorie legată de rezultatele dorite de pe urma cercetării. Cu atît mai mult în

cazul în care aparatul de măsură este parte integrantă din rezultatul măsurii. În unele nefericite

situaţii e posibil ca însuşi cel ce dezvoltă chestionarul şi proiectează cercetarea să nu fie pe

deplin conştient de teoriile ce stau la baza metodelor aplicate de el. Ei bine, chiar şi atunci

acestea influenţează cercetarea precum o pot influenţa şi prejudecăţile celor ce o proiectează.

Acestea sunt încă alte limite ale cunoaşterii pe care un bun interpret al calculelor statistice

trebuie sa le aibe în faţa ochilor. Nu este posibilă măsurare fără teorie şi ca atare teoria ce stă

la baza unei cercetări trebuie cît mai exact enunţată şi cît mai consecvent aplicată.

Să ne întoarcem deci la definiţia noastră: spuneam că statistica se ocupă cu interpretarea

rezultatelor unor măsurători. Am discutat puţin despre măsurători în sine, să vedem acum ce

înţelegem prin interpretări şi care anume sunt metodele de interpretare pe care le numim

statistice. Rezultatele de măsurare ne dau de obicei o multitudine de caracteristici, date

numerice sau nenumerice, ale unor obiecte, persoane sau fenomene. Acestea trebuie

Page 9: Carte de Statistica

9

prezentate într-un fel pentru a fi de vreun folos. Chiar şi o dată prezentate, de exemplu sub

forma unei liste cu greutatea a 1000 de cîini, ele cel mai adesea nu permit o utilizare, sau o

înţelegere a ansamblului problematicii. Ce vrea şi ce poate de fapt face statistica cu grămada

de date pe care le culege prin măsurători?

b. Cum cunoaşte statistica?

Există două probleme mari ale statisticii, descrierea unor date măsurate si extragerea din date

măsurate a unor concluzii ce se extind şi asupra altor date, care nu au fost măsurate din

motive ce ţin cel mai adesea de economie de timp şi bani. Prima dintre acestea este problema

statisticii descriptive, cea de a doua cea a statisticii inferenţiale.

Statisticile descriptive se multumesc să spună ceva despre obiectele, indivizii sau

fenomenele care au fost măsurate. Într-un fel şi statistica descriptivă generalizează, vrînd să

spună ceva despre obiecte pe care le cunoaşte doar prin rezultatele unor măsurători. Totuşi, de

obicei nu o considerăm ca fiind generalizatoare. Primii paşi în orice cercetare statistică sînt

descriptivi. Încercăm să prezentăm cît mai clar şi concis şi, pe cît posibil, fără a pierde din

acurateţe datele măsurate. Reprezentările grafice şi tabelare, precum şi valorile agregate pe

care le vom descrie în capitolul al patrulea al acestei cărţi sunt metodele cele mai obişnuite ale

statisticii descriptive. Ele nu prelucrează prea mult datele însă caută să ofere imagini mai uşor

inteligibile decît o listă lungă de valori. Imaginile grafice pot fi în acelaşi timp şi indicatori

buni pentru a recunoaşte trenduri, adică pentru a decide ce calcule se pot face în continuare,

cu ce statistici inferenţiale să se continue analiza datelor.

Valorile agregate calculate în contextul statisticilor descriptive au un grad de prelucrare puţin

mai avansat. De obicei se includ aici formule de calcul ce încearcă să găsească o tendinţa

centrală sau medie a datelor şi formule ce încearcă să sintetizeze în ce măsură datele sunt

dispersate în jurul acestei tendinţe centrale. Desigur nu întotdeuna aceste valori sunt

interesante şi nu întotdeauna merită calculate. Sînt însă cazuri în care ele ne dau o imagine

bună despre un fenomen. Să luăm calculul mediei, de exemplu. Media greutăţii unor cîini de

aceiaşi vîrstă, gen şi rasă poate reprezenta o bună bază de comparaţie între rase sau genuri sau

vîrste. Ne poate deci spune ceva atît timp cît este utilizată ceteris paribus. Conceptul de

ceteris paribus înseamnă, “păstrînd toate celelalte caracteristici egale” şi adesea nu este uşor

Page 10: Carte de Statistica

10

de pus în practică. Totuşi este esenţial atunci cînd vrem să efectuăm comparaţii şi să

determinăm legături dintre caracteristici, cum ar fi, de exemplu greutatea şi genul cîinilor.

Desigur media greutăţii tutoror cîinilor de la o expoziţie chinologică poate fi în ansamblu prea

puţin relevantă. Poate însemna totuşi ceva pentru cei care trebuie sa facă curăţenie a doua zi!

De aici, încă o concluzie importantă: de tema de cercetare depinde metoda cea mai adecvata şi

nu de repertoarul de metode. Nu stiu de unde provine zicala “daca singura scula pe care o ai

este un ciocan totul începe să semene a cui” dar în cazul statisticii sociale se confirmă din

păcate foarte des. Dacă tot ce ştii e să calculezi medii, o să calculezi medii indiferent ce temă

de cercetare şi ce date ai!

Cum şi cît de mult sunt distribuite datele în jurul tendinţei centrale este o altă temă esenţială în

statistica descriptivă. Aţi auzit cu toţii butada cu individul care stă cu un picior într-un lighean

cu apă rece ca gheaţa şi cu unul într-un lighean cu apă clocotită şi zice că în medie îi este bine.

Există multe feluri de a calcula cît de distribuite sunt datele. În exemplul dat probabil ar fi de

ajuns să calculăm diferenţa de temperatură dintre cele două lighene, în marea majoritate a

cazurilor avem însă de a face cu un fel de miriapod care are fiecare din mia lui de picioare în

ligheane cu ape de temperaturi diferite!

Statisticile inferenţiale sau inductive sunt tehnici complexe, bazate cel mai adesea pe teorii

matematice despre cum sunt datele şi au ca principal scop testarea unor ipoteze despre

populaţii de individizi sau obiecte. Inferenţa statistică este de fapt formarea unor păreri

justificate despre o întreagă populaţie bazîndu-ne pe măsurarea unei părţi a acesteia. Exemplul

care ne este cel mai familiar este cel al sondajului de opinie politic. Institute de sondare a

opiniei publice pun întrebări unui eşantion de vreo mie de persoane şi vor să ne convingă pe

noi, şi binenînţeles şi pe nişte clienţi plătitori de asemenea, cum că pot spune ceva despre

opinia a peste 21 de milioane de persoane. La baza acestui tupeu se află inferenţa statistică

adică posibilitatea de a generaliza statistic de la măsurarea unui eşantion la descrierea unei

întregi populaţii. Există teorii matematice care justifică aceasta. Şi dacă cercetarea e făcută cît

mai aproape de presupunerile acelor teorii atunci rezultatele pot fi foarte aproape de realitate.

Bineînţeles şi în acest caz pentru interpretarea lor trebuie sa ne punem cît mai clar întrebările:

ce am măsurat, pe cine am măsurat şi cu ce acurateţe.

Principiul fundamental al statisticii este conţinut într-o teoremă matematică numită adesea şi

“teorema fundamentală a statisticii”. Ea ne asigură de faptul că rezultatele măsurătorilor ce se

Page 11: Carte de Statistica

11

fac pe un eşantion se pot, în anumite condiţii generaliza la nivelul întregii populaţii. Vom

reveni în cel de-al treilea capitol al cărţii la această teoremă fără însă a face o prezentare a ei

pe placul matematicienilor. O înţelegere a consecinţelor acestei teoreme pentru întreaga

metodă statistică este însă necesară pentru a evalua la adevărata lor importanţă mai micile sau

mai marile devieri de la idealul matematic pe care le întîlnim vrînd nevrînd în cercetările

empirice. Înţelegerea fundamentelor matematice ale statisticii ne vor permite apoi să

înţelegem de ce este necesară o alegere foarte bine gîndită a persoanelor pe care le

intervievăm pe parcursul unui sondaj de opinie şi de asemenea de ce este necesară o

construcţie bună a chestionarului pe care dorim să-l aplicăm.

Testarea statistică înbogăţeşte cunoaşterea într-un mod foarte apropiat principiului respingerii

ipotezelor. Pe cît de scurtă este, această propoziţie necesită o explicaţie destul de detaliată. La

baza ei se află concepţia despre cunoaştere ştiinţifică a lui Karl Popper (). În logica

raţionalismului critic, cum şi-a numit Popper însuşi teoria, principiul cunoaşterii ştiinţifice s-

ar putea exprima simplu în felul următor: cunoaşterea umană nu se bazează pe certitudini şi

demostraţii ale unor adevăruri; ea nu progresează pe baza coroborărilor ipotezelor ci pe baza

contraexemplelor. Cunoaşterea ştiinţifică dezvoltă ipoteze. Acestea sînt acceptate dacă nu se

pot respinge. Dar ele nu sînt prin aceasta propriu-zis “adevărate”. Doar că ele încă nu au putut

fi respinse. Deci regula cunoaşterii nu este demonstraţia ci respingerea. Nu putem de obicei

ştii dacă ceva este adevărat, putem însă recunoaşte cu oarecare probabilitate dacă ceva este

fals.

O teorie este ştiinţifică în măsura în care se poate imagina un experiment practic ce are

puterea să o contrazică. Dacă acest experiment nu reuşeşte respingerea teoriei, aceasta este

pentru moment acceptată. Ea nu este “adevărată” ci acceptabilă conjunctural atît timp cît nu a

fost respinsă. Ştiinţa are deci ca şi scop construirea şi punerea în practică a unor experimente

care încearcă să respingă teorii, sau mai exact ipoteze. În statistică ca şi în teoria Popperiană a

raţionalismului critic, spre deosebire de multe domenii ale matematicii, prin termenul ipoteză

înţelegem o propoziţie care se supune analizei. În logica clasică o ipoteză este o propoziţie din

care decurge o concluzie. Acolo nu se studiază, de regulă, valoarea de adevăr a ipotezei, ci

felul cum decurge din ea o concluzie. În statistică însă, tocmai ipoteza este presupunerea

supusă testării.

Page 12: Carte de Statistica

12

O ipoteză o dată respinsă duce la o nouă interpretare a realităţii şi ca atare la noi ipoteze.

Există aici o asimetrie între verificarea şi respingerea teoriilor care este esenţială şi pentru

felul cum cunoaşte statistica. Statistica foloseşte principiul contraexemplului într-un sens

probabilist. Să explic. Statistica poate măsura o valoare, de exemplu media greutăţii cîinilor

de la o expoziţie chinologică şi o poate compara cu o valoare teoretică ipotetică, de exemplu o

ipotetică medie a greutăţii tuturor cîinilor din lume. Pe baza acestor valori, şi a unor foarte

importante presupuneri despre cum sunt în general distribuite datele şi cum au fost ele

măsurate practic, statistica poate calcula care este şansa ca ipoteza să fie corectă în lumina

datelor măsurate.

Statistica va pune deci întrebarea în felul următor. Fie următoarea ipoteză: media greutăţii

tuturor cîinilor din lume este de 50kg. Daca media greutăţii cîinilor din expoziţie este de 20kg

poate fi oare media greutăţii tuturor cîinilor din lume fi 50kg? Dacă această şansă este foarte,

foarte mică există un bun motiv de a respinge ipoteza. Vom spune atunci că, dacă cîinii din

expoziţie reprezintă un bun eşantion al cîinilor din întreaga lume, iar printre aceştia greutatea

este distribuita normal, ipoteza cum că media de greutate a cîinilor din întreaga lume este de

50kg este aproape sigur greşită. Statistica nu ne spune cît ar fi adevărata valoare a greutăţii

medii a cîinilor din lume, ne poate însă spune cît nu este şi prin consecinţă ne poate da o

imagine despre cam cît ar putea fi aceasta.

Deci statistica lucrează oarecum după principiul popperian. Nu poate demonstra, poate însă

respinge ipoteze. O bună cercetare statistică, ca şi o cercetare ştiinţifică în sensul lui Popper

este o cercetare care construieşte ipoteze ce pot fi respinse şi experimente care au puterea de a

respinge aceste ipoteze.

Orice cercetare statistică bine construită porneşte de la o serie de ipoteze mai mult sau mai

puţin explicite pe care le supune testării statistice. Evident, cel mai bine este atunci cînd aceste

ipoteze sunt explicite şi ştiinţifice, adică refutabile. Deorece însă, aşa cum am văzut deja, nu

este posibilă măsurare fără a accepta în prealabil anumite teorii, întotdeuna vor exista şi

presupoziţii teoretice care nu se supun testării. Acestea reprezintă cadrul teoretic al cercetării

şi tot ce putem face este să le conştientizăm şi să ni le asumăm căci ele determină ce şi cum

cunoaştem. Însăşi acceptarea metodei statistice ca şi cale de cunoaştere este o astfel de

premisă teoretică, nu neapărat acceptată de către toată lumea.

Page 13: Carte de Statistica

13

c. Cauzalitate şi statistica.

O mare parte din cercetarea statistică încearcă să pună în relaţie mai multe rezultate de

măsurare care reprezintă caracteristici diferite ale unor individizi, obiecte sau fenomene.

Astfel, ca să revenim la cîinii noştrii, un cercetător ingenios poate măsura greutatea şi genul

cîinilor şi conchide de exemplu, cum că, păstrîndu-ne în cadrul oricărei rase şi grupe de vîrstă,

pe măsură ce un cîine are greutate mai mare el are şanse mai mari de a fi mascul. Un astfel de

raţionament este statistic absolut corect şi ne arată cît se poate de clar faptul că conceptul de

cauzalitate este un concept teoretic şi nu unul statistic.

Una din greşelile de interpretare cel mai curent întîlnite în citirea datelor statistice este

presupunerea de cauzalitate. Foarte adesea ne este convenabil să citim rezultatul unui calcul

statistic ca o dovadă de cauzalitate. Aceasta este fals chiar din două motive. Pe de o parte, aşa

cum am spus-o mai sus, statistica nu dovedeşte nimic ci eventual nu respinge o ipoteză, iar

mai apoi, nici un model statistic nu poate conclude asupra vreunei cauzalităţi. Este însă cît se

poate de adevărat că există modele statistice ce presupun cauzalitate, cum sunt regresiile. În

acest caz cauzalitatea este inclusă în model, face parte din teoria ce a stat la baza construirii

modelului şi desigur, ca în orice formă de cunoaştere statistică, ea ar putea fi eventual

respinsă. Caz în care am avea un bun motiv să excludem o relaţie cauzală. Dacă însă nu putem

respinge cauzalitatea nu avem un motiv mult mai puternic de a o presupune decît am avut în

momentul în care teoria ne-a permis să o considerăm pentru a fi modelată.

Deci cauzalitatea este în teorie, în ipoteză şi nu în calcul. De aceea exemplul de interpretare

de mai înainte ni s-a părut imediat greşit. Face parte din simţul comun faptul că genul unui

cîine este neschimbat toată viaţa lui, pe cînd greutatea poate varia. De aici “teoria” noastră

despre cîini nu acceptă cauzalitatea dintre greutate şi gen ci pe cea inversă. Deci, ipoteza pe

care nu o putem respinge este: “cîinii masculi sunt mai grei” şi nu “cîinii mai grei sunt

masculi”. Din păcate nu este întotdeauna aşa simplu. Să luăm un exemplu clasic, relaţia dintre

nivelul de educaţie al unei naţiuni şi bunăstarea ei. Se ştie foarte bine că există o legătură

puternică între aceste două caracteristici aproape indiferent cum le-am măsura (de ex: procent

din populaţie cu studii superioare şi produs intern brut pe cap de locuitor), există însă teorii

convingătoare pentru ambele direcţii de cauzalitate şi testele statistice nu au reuşit să respingă

nici una dintre ele. Decizia asupra direcţiei de cauzalitate este deci un apanaj al teoriei.

Page 14: Carte de Statistica

14

Și totuși, statistica poate construi anumite raționamente cauzale. Acestea se bazează pe o

observație cât se poate de simplă: efectul nu poate să preceadă cauza. Aceasta se poate numi

„asimetria temporală a cauzalității”. Raționamentul logic e foarte simplu: dacă evenimentul A

a avut loc după evenimentul B, atunci evenimentul A nu poate fi cauza lui B. Simplu, dar

relativ puțin util pentru că foarte rar datele noastre statistice se referă la evenimente singulare,

clar databile temporar. Când avem de a face cu informații databile, adică în cazul seriilor de

timp, urmărim de regulă dezvoltarea unor fenomene în timp. Atunci punem față în față

dezvoltarea unor serii de timp. Varianta cea mai simplă este să legăm dezvoltarea unei

variabile, de ex. nivelul de bunăstare într-o țară, de o alta, de ex. așteptarea de viață în

respectiva țară. Până și informații absolut nesistematice ne pot convinge că între acestea există

o relație.

Cum ar funcționa însă raționamentul asimetriei temporale? Pentru a înțelege aceasta ar trebui

sa putem separa mecanismul individual care stă la baza statisticii; să desfacem datele rezultate

din agregare în fenomene individuale. În cazul de față, raționamentul ar fi următorul: dacă o

persoană are un nivel de bunăstare ridicat, va putea investi mai mult în sănătatea sa, prin

adresare la medic, alimentație și igienă, și va trăi în consecință mai mult. Există însă și

raționamente alternative. De exemplu, se poate presupune că nivelul de bunăstare nu mai

contează dacă un anumit prag al sărăciei extreme e depășit. Oamenii nu fac economii la

adresarea la medic, la alimentație și igienă. Sau că, deși bunăstarea are un anumit efect, de

fapt acesta e doar colateral. Ceea ce contează este nivelul de educație și cultură care are efect

asupra obiceiurilor alimentare, igienice și de adresare la medic. Cele trei variante acopera

situațiile unei cauzalități relativ directe, ale lipsei cauzalității și a unui lanț cauzal complex

fără relație directă între variabilele studiate.

Cum raționăm statistic? Orice cauzalitate trebuie să se regăsească la nivel individual. Deci,

dacă în forma agregată bunăstarea medie crește sau scade aceasta s-a întâmplat prin creșterea

sau scăderea bunăstării individuale a unor persoane. Pentru simplitate putem presupune că o

creștere a agregatului este reflectarea unei creșterii la nivelul indivizilor. Desigur în realitate

situația poate fi mai complexă, o parte din indivizi putând cunoaște creșteri și o altă parte

scăderi. La nivelul fiecărui individ a cărui bunăstare crește, condițiile de viață pot produce o

viață mai lungă. De aici deducem următoarele: dacă creșterea bunăstării e mai mare atunci

creșterea așteptării de viață va fi mai mare. Adică, cauzalitatea se reflectă mai bine în relația

dintre creșteri decât în relația dintre valori. Creșterile se calculează simplu ca diferențe de la

Page 15: Carte de Statistica

15

un punct temporar (de ex. un an) la altul. A doua observație imediată este că trebuie să lăsăm

timp fenomenului să se dezvolte (asimetria temporală), adică va trebui să relaționăm valori ale

creșterii bunăstării de la un anumit moment cu valori ale așteptării de viață ulterioare. Cât e

bine să fie această întârziere depinde de situația modelată. Termenul statistic pentru această

întârziere vine din engleză și se numește lag. În fine, a treia observație este că o valoarea

unică, o creștere a bunăstării într-un singur an, eventual ca efect al unui venit mare accidental

care dispare foarte repede, nu trebuie neapărat să aibă consecințe esențiale asupra așteptării de

viață. Deci ar trebui să nu lucrăm cu o singură valoare ci să luăm în considerare fenomene

stabile de creștere, respectiv scădere. Acest raționament stă la baza unei serii întregi de

metode de testare a cauzalității dintre care cele mai convingătoare sunt, după părerea mea

metodele dezvoltate de Clive Granger. Acesta a primit în 2003 și un premiu Nobel pentru

economie pentru ele. Raționamentul care definește cauzalitatea la Granger este însă complex.

Ca atare mulți îl consideră restrictiv și susțin că nu acoperă toate situațiile pe care simțul

comun le consideră ca fiind cauzale. De aceea se folosește pentru definiția aceasta termenul

de cauzalitate Granger în loc de cel general de cauzalitate. În capitolul dedicat seriilor de timp

voi reveni asupra unor metode de testare a cauzalității. Aceastea pot lua desigur numai forma

unor respingeri de ipoteze, însă există metode care permit respingerea unor ipoteze de non-

cauzalitate.

Un alt caz interesant care apare în statistică uneori este cel al falsei cauzalităţi, sau într-o

formă atenuată, a falsei corelaţii. Variabile par a fi legate şi nu ar trebui să fie. Vreau să atrag

aici atenţie asupra necesarei precauţii în a defini o legătură ca fiind o falsă relaţie dintre

variabile. Eu pînă în momentul de faţă nu am întîlnit false relaţii ci doar relaţii cu explicaţii

teoretice complexe sau neimediate. Sunt aceste explicaţii corecte? Nu întotdeuna, dar nu pot fi

imediat respinse şi sunt ca atare mai fertile decît presupunerea unei false cauzalităţi.

Exemplul clasic este cel al foarte bunei corelaţii empirice dintre numărul de berze şi indicele

conjunctural al fertilităţii, calculat ca număr de copii născuţi unei femei pe parcursul vieţii

fertile, calculate pe regiune. Rezultatul, des verificat în practică ar putea fi o dovadă cum că

“berzele aduc copiii”. Cei ce au citit cuminţi pînă aici vor observa că nu este aşa. Pe de altă

parte s-ar putea să fie de acord cu faptul că, experimentul în cauză nu poate respinge o

legătură dintre numărul de berze şi natalitate. Să oferim însă o teorie alternativă. O teorie cît

se poate de acceptabilă chiar de către simţul comun spune că numărul de berze, dar şi numărul

de naşteri ale unei femei pe parcursul vieţii fertile este mai mare în zona rurală decît în cea

Page 16: Carte de Statistica

16

urbană. Gradul de urbanizare (sau industrializare) al regiunii studiate ar reprezenta deci o

variabilă care le influenţează pe amîndouă variabilele din studiul nostru. Şi mai mult, le

influenţează în acelaşi sens creind astfel o relaţie pozitivă între ele. Nu era deci vorba despre o

cauzalitate directă, dar nici despre o eroare. Pur şi simplu, relaţia cauzală trebuia explicată

teoretic acceptabil. Adică, testul statistic nu poate alege care din cele două teorii alternative,

“barza aduce copiii” respectiv “urbanizarea reduce numărul de berze şi numărul de naşteri a

unei femei” este mai bună. Adecvarea cu ansamblul de teorii şi ipoteze ale cercetării are însă

această sarcină.

Închei aici, repetînd: testele statistice pot da indicaţii despre relaţii dintre variabile dar numai

teoria poate construi în termenii unor relaţii cauzale şi tot teoria trebuie să fie atentă la

posibilele determinări cauzale complexe, ce implică nu numai variabilele măsurate explicit ci

eventual şi altele, poate uneori chiar nemăsurabile.

d. Foarte scurt istoric al statisticii.

Probabil că au existat rapoarte “statistice” încă din vremurile imperiilor antice legate de

impozite şi preţuri, fapt este că termenul actual de statistică provine din latina nouă folosită în

administraţia germană şi italiană a secolului al 18-lea, şi mai exact din termenul statisticum

collegium, ce avea sensul de colegiu de stat, colegiu director. Mai mult, în Italia vremii,

statista chiar însemna om de stat, politician. Se pare că primul care a folosit cuvîntul statistică

a fost Gottfried Achenwall în 1749, şi anume în limba germană, sub forma de Statistik şi cu

sensul de analiză a datelor despre stat sau chiar de “ştiinţă despre stat”. Achenwall (1719-

1772) a fost unul din creatorii statisticii, pe parcursul carierei sale fiind atît universitar la

Marburg şi Göttingen, cît şi consilier de curte al principilor electori de Braunschweig-

Lüneburg.

Termenul de statistică a fost preluat în alte limbi şi, în fine generalizat, cu un sens apropiat

celui pe care îl dăm astăzi acestei metode, pe parcursul secolului al 19-lea.

Practica de a culege şi analiza date despre stat exista însă deja în Anglia şi era acolo numită

aritmetică politică. Termenul avea o vechime de cel puţin un secol cînd Achenwall a inventat

noul nume şi pare a i se fi datorat lui William Petty (1623 - 1687) fiind chiar titlul unei cărţi

ce i s-a publicat postum. William Petty nu a fost statistician în sensul metodelor pe care le

Page 17: Carte de Statistica

17

înţelegem astăzi ca fiind statistice. A fost însă statistician prin multe dintre temele ce l-au

interesat. Petty a fost şi politician, economist, inventator, antreprenor şi multe altele şi a

folosit tot felul de tehnici ingenioase, chiar dacă nu întotdeuna corecte, pentru a estima, de

exemplu, populaţia Londrei.

Pentru ca statistica să fie cea de acum a trebuit însă să se lege mai întîi de teoria

probabilităţilor. Acest domeniu al matematicii, iniţial legat mai mult de jocuri de noroc şi

divertismente matematice, îşi are originile tot în secolul al 17-lea, deşi primele scrieri despre

jocuri de noroc se găsesc într-o operă postumă a lui Girolamo Cardano (1501-1576), Liber de

ludo aleae. Cartea a fost însă publicată abia în 1663, în anii în care apăreau şi lucrările unor

Pierre de Fermat (1601-1665) sau Blaise Pascal (1623-1662). Aceştia din urmă sunt creditaţi

că au moşit de fapt teoria probabilităţilor prin corespondenţa pe care au purtat-o asupra

celebrei probleme a Cavalerului de Méré. Problema era: cum trebuie să împartă doi jucători

miza totală a unui joc de noroc dacă nu vor să joace pînă la capăt, dar vor ca această impărţire

să fie proporţională cu şansa fiecăruia de a cîştiga jocul. Pe Pascal se pare că la convins în aşa

măsură metoda probabilistă găsită încît a folosit-o şi pentru a argumenta existenţa lui

Dumnezeu, cu un succes mai de grabă incert.

Destul de repede s-a observat că, deşi un joc de noroc este determinat de situaţii aleatoare,

repetarea unui astfel de eveniment aleator poate duce la o anumite regularitate şi această

repetare este de fapt baza a ceea ce acum numim observaţie statistică. Ideea de observaţie

repetată apare deja în prima carte de teorie a probabilităţilor publicată de Christiaan Huygens

(1629-1695) în 1657. Ca ştiinţă matematică următorii paşi au fost făcuţi de doi celebri

matematicieni Jakob Bernoulli (1654-1705) tot într-o lucrare postumă, intitulată Ars

Conjectandi şi Abraham de Moivre (1667-1754) în Doctrines of Chance (publicată în

Anglia). Această din urmă carte pune şi bazele statisticii în sensul modern al ştiinţei. În a doua

ediţie a cărţii (1738) apare pentru prima oară o formă a distribuţiei normale de probabilitate

despre care vom vorbi pe larg şi în cartea de faţă, dar şi un caz particular al teoremei limită

centrală, o clasă de teoreme foarte importantă pentru statistică, pe care va trebui să o tratăm şi

noi măcar un pic pentru a înţelege diferite fenomene legate de erorile statistice.

Şi teoria erorilor de observaţie se găseşte deja în scrieri de la începutul secolului al 18-lea, şi

anume în cîteva note postume ale lui Roger Cotes (1682-1716), dar cel ce a legat probabil

Page 18: Carte de Statistica

18

statistica, cu sensul de observaţie asupra statului de teoria probabilităţilor a fost Pierre-Simon

Laplace (1749-1827).

Laplace a fost un om de ştiinţă deosebit de prolific, ceea ce ne interesează însă acum este

dezvoltarea de către el a unei aşa-zise teorii analitice a probabilităţilor. Într-o lucrare din 1812

Laplace descrie mai exact distribuţia normală, şi, pe lîngă multe altele, demonstrează şi o

formă a metodei celor mai mici pătrate, încă metoda noastră de preferinţă pentru calculul

ecuaţiilor de regresie, precum vom vedea în capitolul al şaselea.

Probabil celălalt mare creator al ştiinţei statisticii a fost Carl Friedrich Gauss (1777-1855).

Considerat uneori cel mai mare matematician al tuturor timpurilor, deşi mie personal nu îmi

este cunoscută înălţimea lui fizică şi nu cred că cea intelectuală se poate cu adevărat măsura,

Gauss a contribuit la aproape toate domeniile matematicii. Şi el a contribuit la descrierea

distribuţiei normale, de aici şi numele de curbă a lui Gauss ce se dă de obicei graficului

distribuţiei normale. Tot Gauss a clarificat şi ipotezele metodei celor mai mici pătrate. În acest

caz există însă o anumite dispută de primordialitate cu Adrien-Marie Legendre (1752-1833)

care a publicat aceleaşi rezultate, se pare independent de Gauss. Legendre le-a publicat de fapt

înaintea lui Gauss, acesta însă susţinea că le ştie de mult.

Deja pe parcursul primei părţi a secolului al 19-lea rezultatele ştiinţifice legate de metoda de

cercetare statistică s-au înmulţit considerabil. Multe metode au fost dezvoltate, principalele

tehnici puse la punct. Dezvoltarea mare a domeniului a venit însă spre sfîrşitul secolului al 19-

lea şi apoi în secolul al 20-lea o dată cu interesul crescut pentru studiul societăţii, apariţia

ştiinţelor economice moderne şi a sociologiei. Atunci apar marile şcoli statistice cărora le

datorăm arsenalul actual de metode. Pe de o parte este vorba despre şcoala engleză. Principalii

ei exponenţi au fost: Karl Pearson (1857-1936) care a contribuit esenţial la teoria corelaţiei şi

a regresiei şi a dezvoltat coeficientul de corelaţie r dar şi coeficientul Chi2, şi Ronald Fischer

(1890-1962) iniţiator de fapt al întregului domeniu al testelor non-parametrice, creator al

distribuţiei şi testului F şi a unei serii întregi de rezultate esenţiale pentru statistica de astăzi,

dar şi Charles Spearman (1863-1945) care a dezvoltat principalele metode de analiză

factorială dar şi coeficientul de corelaţie ρ (rho) pentru valori ordinale, numit şi coeficient

Spearman, William Sealey Gosset (1876-1937) cunoscut sub pseudonimul Student, care a

dezvoltat metode de verificare a ipotezelor, distribuţia Student şi testul t, şi alţii.

Page 19: Carte de Statistica

19

Dacă şcoala engleză de statistică a fost la originea multora dintre metodele statisticii aplicate,

la celălalt capăt al continentului, în Rusia, au apărut lucrări esenţiale pentru justificarea

ştiinţifică, matematică a calculului statistic. Principalele teoreme ce stau la baza statisticii au

fost demonstrate de matematicienii ruşi Pafnuty Chebyshev (1821-1894) cu inegalitatea ce îi

poartă numele şi ca o consecinţă a acesteia, teorema slabă a numerelor mari, Andrey Markov

(1856-1922) creatorul lanţurilor Markov şi în general unul dintre creatorii teoriei proceselor

stochastice, Aleksandr Lyapunov (1857-1918) care a demonstrat o formă generală a teoremei

limită centrală, Andrey Kolmogorov (1903-1987) unul din principalii contribuitori la

demonstrarea teoremei tari a numerelor mari şi autorul unui criteriu suficient ce îi poartă

numele, şi alţii.

Dezvoltarea statisticii a continuat pe parcursul secolului trecut şi ca ştiinţă. Mai impresionant

poate însă, statistica a pătruns în conştiinţa publică o dată cu utilizarea ei pe scară largă în

cercetările sociale şi cvasi-generalizarea sondajului de opinie ca metodă de culegere de

informaţii despre societate, ca metodă de măsurare a societăţii. Primul sondaj de opinie a fost

efectuat în Statele Unite de revista Literary Digest în 1916 pentru a prevede rezultatul

alegerilor prezidenţiale. Fără vreo bază teoretică statistică, revista a cerut cititorilor să

returneze redacţiei o carte postală - chestionar. Pentru patru alegeri prezidenţiale la rînd,

metoda a dat rezultate corecte.

Un pas important spre fundamentarea ştiinţifică a sondajului de opinie l-a făcut George H.

Gallup (1901-1984) care în teza lui de doctorat din 1928 a dezvoltat metoda ce stă la baza

sondajului de opinie statistic. Primul mare succes al lui Gallup a fost în 1936 cînd a reuşit să

prevadă corect victoria lui F.D. Roosevelt în alegerile prezidenţiale, spre deosebire de Digest

care a greşit folosind un eşantion incomparabil mai mare. Celebru atît pentru încrederea mare

pe care a produs-o de la început cît şi pentru cîteva eşecuri memorabile, lui Gallup trebuie să-i

recunoaştem meritul de a fi creatorul instituţiei sondajului de opinie statistic.

Page 20: Carte de Statistica

20

Capitolul 2. Tipuri de date

Voi prezenta aici principalele tipuri de date, sau nivele de măsurare, cum se mai numeşte

această clasificare. Deşi criticată pentru diverse motive aceasta împărţire a datelor permite o

înţelegere simplă a felului cum se apropie statistica de fenomene.

În 1946, psihologul american Stanley Smith Stevens a propus într-un articol mult citat, lăudat

şi criticat apoi, o teorie a nivelelor de măsurare care avea să fie apoi repetată în aproape toate

manualele introductive de statistică (Stevens, 1946). Nu am vrut să mă abat de la regulă.

Prima dată să vedem totuşi la ce bun şi cum adică?

Este absolut evident că măsuratorile pe care se bazează statistica nu sunt toate la fel. Din

exemplele mai mult întîmplătoare din capitolul capitolul precedent (greutatea şi genul unui

animal, opinia despre un politician) este evident că aparate diferite de măsură dau rezultate

care fac parte din categorii cît de poate de diferite de cunoaştere. Dacă greutatea se exprimă în

valori numerice cu care se pot face calcule aritmetice, genul e un fel de etichetă, nu nume dat

unei categorii, iar opinia despre politician poate fi exprimată în mai lungi sau mai scurte

propoziţii, eventual chiar în grade de genul, mai bună – mai puţin bună dar nu în valori

numerice concrete. Deci, Stevens a intuit cît se poate de corect, e necesară o clarificare şi o

categorisire a acestor “nivele de măsurare”. Tehnic o astfel de categorisire ajută la a stabili ce

metode anume se potrivesc a fi folosite cu ce fel de variabile. Poate părea inutil, dar un

exemplu sper să ajute aici. Am vorbit despre opiniile despre politicieni. Destul de des acestea

sunt exprimate în note. Fie întrebarea de chestionar chiar cere notarea, ca la şcoala, a

activităţii unui politician, sau a unui guvern sau minister în întregul lui, fie răspunsurile sînt

transformate în note de către cercetător într-o activitate pe care o numim de regula codare a

răspunsurilor. Răspunsurile la întrebările de opinie în final ajung să nu se distingă de

rezultatele, eventual rotunjite, ale cîntăririi unui cîine. Şi totuşi diferenţele acestea sunt

esenţiale şi nu trebuie uitate1.

Prezentarea nivelelor de măsurare în cărţile introductive de statistică mai are un avantaj.

Permite o exemplificare structurată a datelor cu care lucrează statistica şi o prezentare

coerentă a principalelor proprietăţi ce sunt necesare pentru a putea lucra cu ele.

1 Confuzia dintre date de aceste tipuri e pe larg analizată în foarte reuşita carte a lui Darrel Huff “How to Lie

with Statistics” (1954) care a apărut între timp în peste 30 de ediţii.

Page 21: Carte de Statistica

21

a. Date nominale

Datele nominale, numite uneori şi categoriale, sunt nume date unor proprietăţi ale obiectelor,

indivizilor sau fenomenelor studiate care nu pot fi reprezentate prin cantităţi şi nici nu au o

ordine implicită. Din exemplele de pînă acum, genul este o dată nominală. Indiferent cît de

complexă cultural, biologic, comportamental şi aşa mai departe ar fi categorisirea pe genuri,

dezvoltarea caracteristicilor de gen sau alte probleme despre care sunt alţii chemaţi să scrie, ca

tip de dată genul nu e altceva decît un cuvînt desemnînd o categorie. Nu putem face nici

socoteli aritmetice cu genuri, nici comparaţii. Masculin nu e mai mare decît feminim, şi nici

sume sau medii nu putem face. Chiar daca am codifica la o adică genurile, la modul feminin =

2 şi masculin = 1, ca la codurile numerice personale din Romania, o declaraţie de forma:

genul mediu ar participanţilor la sondaj a fost 1,56 este ilară.

Totuşi şi datele nominale trebuie sa se supună unor reguli, e drept puţine şi simple, pentru a

putea fi folosite ca date statistice. Acestea sunt:

Excluderea mutuală: Categoriile unei date nominale trebuie să se excludă reciproc.

Un cîine măsurat de noi nu poate fi în acelaşi timp şi mascul şi femelă, un cetăţean

interogat într-un sondaj de opinie nu poate fi în acelaşi timp şi căsătorit şi

necăsătorit.

Completitudinea: Orice individ măsurat în cadrul cercetării trebuie să găsească o

categorie ce i se potriveşte în lista de valori posibile. Eventual se include varianta

“altceva”, “altfel” dar lista de valori trebuie să poate acomoda orice situaţie.

Condiţiile de mai sus nu sunt întotdeuna uşor de pus în practică. Deşi cred că par a fi de bun

simţ, sunt situaţii în care întrebările şi listele de răspunsuri trebuie formulate cu grijă pentru a

nu întîmpina probleme în analiza ulterioară a datelor. De multe ori cercetătorii chiar preferă să

pună întrebările astfel încît să pară cît mai naturale celor ce trebuie să răspundă la ele şi să

codifice apoi ei înşişi datele în aşa fel încît să corespundă cerinţelor prelucrării statistice.

Exemple tipice de date nominale sunt genul, starea civilă, naţionalitatea, apartenenţa

religioasă. Toate acestea au în comun faptul că pe lîngă caracterul lor nenumeric nu au nici o

Page 22: Carte de Statistica

22

ordine acceptată a valorilor. Asta chiar dacă unii pot fi de părere că “românii sunt mai

superiori decît bulgarii”!

Cu toate că datele nominale pot părea sărace din punctul de vedere al posibilităţilor

calculatorii ele sunt importante în multe fenomene sociale, economice, etc. şi au fost

dezvoltate multe metode statistice care să permită analiza lor sau, mai adesea, să permită

analiza altor date în relaţia lor cu categorii nominale. Voi discuta pe larg astfel de metode în

special în capitolul al şaptelea al cărţii.

b. Date ordinale

O a doua grupă de date sunt cele care, deşi nu sunt numerice, au o ordine bine definită a

valorilor. Sensul de “bine definit” al unei ordini nu este nicidecum trivial. Matematicienii

înţeleg printr-o ordine bine definită o ordine care poate fi recunoscută pentru orice două

valori şi mai mult, este şi tranzitivă.

Pentru simplificare voi folosi expresia “mai mare” pentru a descrie ordinea. Atunci o ordine

este bine definită dacă între oricare dintre valorile de răspuns este clar care este “mai mare”.

Tranzitivitatea înseamnă că daca o valoare este “mai mare” decît alta, iar aceasta “mai mare”

decît o a treia, prima valoare va fi în consecinţă “mai mare” decît cea de a treia.

În plus faţă de condiţia de ordine, datele ordinale trebuie să se supună şi condiţiilor pe care le-

am specificat în cazul datelor nominale, să permită deci numai valori mutual exclusive şi lista

acestor valori să fie completă.

Diferenţa esenţială dintre datele ordinale şi valorile numerice este aceea că nu are sens

calculul distanţei dintre două valori, respectiv distanţele dintre valori consecutive nu se pot

presupune a fi egale. Un exemplu va face mai clară această distincţie. O întrebare tipică

pentru un răspuns ordinal este cea legată de încrederea într-un politician. Să presupunem că

răspunsurile posibile sunt: “foarte puţină”, “puţină”, “nici puţină, nici multă”, “multă”, “foarte

multă”. Se vede imediat că lista de valori este ordonată bine, între orice două valori ordinea e

evidentă şi tot evidentă este şi proprietatea de tranzitivitate. Tot atît de clar este că fiecare

intervievat va trebui sa decidă de fapt care e opinia lui, foarte probabil fiind că pînă în

momentul interogării el să nu-şi fi pus problema încrederii în termenii întrebării. Această

Page 23: Carte de Statistica

23

nevoie de a decide îî diferenţiază pe cei chestionaţi de cei ce nu sunt chestionaţi şi pune

probleme în generalizarea rezultatelor la nivelul populaţiei adică şi asupra celor ce nu au fost

de fapt chestionaţi şi nu au trebuit să se decidă în contact cu întrebarea pusă în forma dată. Un

mod de a conştientiza aceasta este de a nu conferi valorilor de răspuns un sens absolut

matematic, ci de a le considera interpretări personale ale celor ce au răspuns. Asta înseamnă

că pentru doi intervievaţi diferiţi sensul unei valori de răspuns poate fi oarecum diferit, de

exemplu, pragul de la “foarte puţină” la “puţină” încredere să fie diferit, distanţa dintre două

categorii să fie diferită. Intervievatul care alege un răspuns nu face altceva decît să îşi

poziţioneze opinia într-o ordine şi numai caracterul de ordine al valorilor de răspuns poate fi

presupus în analiză. În ansamblu nu se poate deci presupune că există distanţe între valori

într-un sens matematic. Deşi se face des, traducerea valorilor de răspuns în cifre, de exemplu

de la 1 la 5 în cazul nostru, este riscantă şi duce la greşeli importante. Calculul unor medii

aritmetice a răspunsurilor este una din greşelile cele mai uzuale pe care le fac cercetătorii în

ştiinţe sociale, de multe ori chiar conştienţi de abuzul implicat. Scuza uzuală pentru această

greşeală este aceea că însumînd opinii ale unui număr mare de persoane, distanţele dintre

variantele de răspuns, într-adevăr diferite de la o persoană la alta, se însumează şi dau o medie

statistică egală. Din păcate însă nu este aşa. Există devieri sistematice de la această distanţă

presupusă egală între variantele de răspuns. Şi anume, valorile extreme, de tipul “foarte puţină

încredere” sau “foarte multă încredere” sînt adesea mai “îndepărtate” de valorile proxime

“puţină încredere”, respectiv “multă încredere” decît sînt acestea de valoarea mediană, neutră.

Mai grav încă, în cazul în care o anumită întrebare este receptată ca fiind legată de o presiune

socială, distanţele din scală se defazează în sensul acestei presiuni.

Ca şi în exemplul anterior, majoritatea întrebărilor care produc răspunsuri ordinale se bazează

pe aşa zise scalograme, adică liste standardizate de răspunsuri. Cele mai obişuite, mai des

folosite, sunt scalele Likert, dezvoltate deja în 1932. Scala Likert este o scală a nivelului de

acord cu o propoziţie. Un exemplu simplu ar fi următorul:

Sunteţi de acord cu faptul că Traian Băsescu este un politician dedicat binelui ţării noastre?

a. Nu sunt deloc de acord

c. Nu sunt de acord

d. Nici de acord, nici nu

e. Sunt de acord

f. Sunt absolut de acord.

Page 24: Carte de Statistica

24

Formulările pot diferi, de regulă însă este vorba despre o scală ordinală cu un număr impar de

valori. Cel mai adesea sunt 5 valori, unii cercetători din domeniul psihologiei în special,

preferă totuşi scale cu 7 valori. Valoarea mediană, adică cea din mijlocul scalei este

întotdeuna o valoare neutră. Acordul sau dezacordul sunt exprimate verbal în forme cît mai

clare şi simple de grade diferite de radicalitate. Uneori se alege conştient eliminarea valorii

mediane. În acest caz se vorbeşte de o scală Likert cu opţiune forţată. Intervievaţii sunt atunci

obligaţi să adopte o poziţie chiar daca ar prefera neutralitatea.

Un alt tip important de scalograme, sunt cele de tip Guttman sau cumulative, dezvoltate iniţial

de sociologul şi psihologul Louis Guttman într-un articol din 1944. Guttman pune cîteva

condiţii simple pentru ceea ce este o scală Guttman perfectă, şi anume:

O scală Guttman este o listă ordonată de propoziţii cu care intervievatul poate fi de

acord sau nu.

Să presupunem că avem 10 astfel de întrebări. Dacă intervievatul este de acord cu

propoziţia 7, dar nu şi cu propoziţia 8, logica scalei presupune că el este de acord cu

toate propoziţiile 1-7 şi nu cu propoziţiile 8-10. În aceste condiţii “scorul” lui va fi 7.

Modelul lui Guttman este desigur ideal prin caracterul lui determinist. O variantă mai

permisivă şi mai apropiată de realitate este modelul lui Rasch care presupune o scală de tip

Guttman probabilistă, adică în care relaţiile dintre răspunsuri au un caracter probabilist.

Un exemplu celebru de scală de tip Guttman este des folosit în analiza relaţiilor dintre grupuri

etnice, religioase, naţionale, etc. Aceasta este scala Bogardus (după sociologul american care

a dezvoltat-o), numită şi scală a distanţei sociale, care se bazează pe o lista de întrebări de

următoarea formă:

Aţi fi de acord ca un .......... (aici se completează categoria faţă de care se estimează distanţa

socială, de exemplu “maghiar”, “rrom”, “baptist”, “homosexual”):

Să vă devină rudă prin alianţă (răspunsul “da” – valoare 1).

Să vă fie prieten apropiat (2)

Să locuiască pe aceiaşi strada (3)

Să vă fie coleg de servici (4)

Page 25: Carte de Statistica

25

Să fie cetăţean al ţării noastre (5)

Să fie doar turist în ţara noastră (6)

Să fie expulzat din ţara noastră (7)

Valori ordinale se pot însă obţine şi în alte situaţii. De fapt cazul cel mai cunoscut de valoare

ordinală este cel al notelor şi calificativelor date elevilor şi studenţilor. Şi este şi cel mai

cunoscut abuz de utilizare a unor valori ordinale. Deşi probabil o mare parte a profesorilor ar

fi de acord, cel puţin eu aş fi, că “distanţa” dintre un 4 şi un 5 nu este aceiaşi cu distanţa dintre

un 7 şi un 8, sau dintre un 9 şi un 10, medii aritmetice ale notelor se calculează în mod uzual

şi se mai şi folosesc pentru a lua decizii importante pentru viaţa celor notaţi. Problema

utilizării mediei aritmetice pentru date ordinale este însă o problemă care a produs multe

controverse. După părerea mea principalul motiv este prezenţa atît de răspîndită a datelor

ordinale, probabil cele mai des întîlnite în cercetările sociale, şi frustrarea de a renunţa la o

formă de prezentare atît de simplă de calculat şi înţeles cum este media aritmetică. Trebuie

însă menţionat că există o serie întreagă de metode puternice care lucrează cu date ordinale şi

nu fac presupuneri suplimentare despre distanţele dintre valori.

Alte exemple de date ordinale sînt: nivelul de educaţie (dacă formularea răspunsurilor este

bine ordonată), respectiv topurile de preferinţe (nu şi cele de vînzări, la care se poate calcula o

diferenţă între poziţii clar exprimată în unităţi vîndute).

c. Date intervalice

Ultimele două categorii ale clasificării lui Stevens se referă la date numerice şi diferenţierea

pe care a impus-o între datele intervalice şi cele raţionale este şi una dintre cele mai

controversate ale teoriei nivelelor de măsurare. Cu toate acestea, să vedem despre ce e vorba.

În definiţia iniţială, datele intervalice sunt date numerice care au punct zero convenţional. Mai

simplu spus, zero-ul intervalic nu înseamnă o “lipsă” a caracteristicii ci este o valoare ca

oricare alta. Un cîine care are greutatea zero nu este un cîine, cel puţin după părerea mea. Ca

atare greutatea nu este o valoare intervalică. Dacă însă cineva s-a născut la ora zero, nu

înseamnă că nu s-a născut de loc. Ora zero este convenţională şi nu înseamnă absenţa

indicaţiei de timp. Deci datele calendaristice, sau de oră sunt date intervalice. Ele evident sunt

altfel decît celelalte date numerice de măsurare.

Page 26: Carte de Statistica

26

Datele intervalice au toate caracteristicile datelor ordinale, sunt mutual exclusive, complete şi

bine ordonate. Chiar şi caracterul convenţional al notării numerice este prezent. Diferenţa este

însă distanţa calculabilă între două valori intervalice. Între două momente în timp se poate

calcula o distanţă, fie ea în minute, secunde sau alte unităţi de măsură şi o distanţă de o

anumită mărime, de exemplu 5 minute, este aceiaşi indiferent pentru ce valori de timp a fost

calculată. Păstrînd toate celelalte condiţii egale, dacă un ou fierbe în 5 minute la ora 14, el va

ajunge la fel de tare după 5 minute de fierbere şi la ora 7. Atenţie însă, chiar dacă momentele

“ora 14” şi “ora 7” sînt indicaţii intervalice, nu astfel este şi durata de “5 minute”. Aceasta

este o dată numerică raţională, cum vom vedea că se numesc acestea. Adică, un ou care fierbe

zero minute chiar nu fierbe de loc!

Alte date intervalice sunt gradul de longitudine şi latitudine geografic, fusul orar, temperatura

precum şi alte date convenţionale.

Deoarece datele intervalice au distanţe corect calculabile între ele, pot fi folosite în aproape

orice calcule matematice. Problematică rămîne utilizarea lor în împărţiri şi înmulţiri, deorece

ele nu au sensul de cantitate pe care il acordăm de obicei datelor numerice. Astfel un cîine de

40kg cîntăreşte într-adevăr cît doi cîini de cîte 20kg. Pe de altă parte, ora 14 nu este cît două

ore 7 din nici un punct de vedere. De asemenea, de 4 ori cate o halbă de bere sunt 2 litri de

bere, însă de patru ori deşteptarea la ora 3 dimineaţa nu face cît o trezire la ora 12.

d. Date raţionale

Din prezentarea de pînă acum nu am avut cum exclude referiri la datele raţionale. Acestea

sunt datele numerice, cantitative, obişnuite. Ele apar des în cercetarea socială sau economică,

şi cu atît mai mult în ecologie sau medicină şi sunt cele pentru care s-au dezvoltat cele mai

multe dintre tehnicile şi testele statistice. Absolut orice calcule matematice se pot face cu

aceste valori.

Greutatea cîinilor, banii din portofel, valoarea produsului intern brut, numărul de locuitori ai

unui oraş sau de restanţe al unui student sunt toate valori raţionale. Ele sunt rezultate ale unor

măsurători cantitative, sau adesea al unor numărători. Valoarea zero nu este o convenţie, un

student cu zero restanţe este chiar un student cu o vacanţă lungă şi relaxantă.

Page 27: Carte de Statistica

27

De obicei caracterul discret sau continuu al valorilor unor date raţionale nu se tematizează la

nivelul statisticii aplicate introductive. Deşi unele metode presupun date continue, cum este

cazul metodelor de regresie, se face cel mai adesea abstracţie de la această presupoziţie.

Există rezultate matematice suficient de bine fundamentate care permit o atare abordare fără

pericolul de a greşi semnificativ. Şi apoi continuitatea datelor nu înseamnă statistic mai mult

decît că valoarea măsurată poate fi oricît şi nu numai anumite valori, de exemplu numere

întregi. O asemenea condiţie nu este de fel restrictivă.

Page 28: Carte de Statistica

28

Capitolul 3. Culegerea datelor statistice. Sondajul de opinie

Datele statistice pot proveni din surse oficiale, cum sunt institutele naţionale de statistică sau

organizaţiile internaţionale, şi atunci se referă de obicei la un ansamblu complet de obiecte,

indivizi sau fenomene sau pot proveni din aşa-zise sondaje statistice. În primul caz, deşi

culegerea datelor este de obicei laborioasă, ştiinţific justificarea utilizării lor nu pune

probleme deosebite pentru statistician. Pe de altă parte, tehnica sondajului este una mult mai

pretenţioasă şi matematic mai complicată. Cu atît mai mult cu cît unii care fac sondaje şi

majoritatea celor ce le citesc uită de principalele probleme implicate în validitatea lor.

1. Statistici de recensămînt si statistici de sondaj. Generalizarea statistică şi limitele ei.

Cum am mai scris şi mai sus, metoda specifică de culegere a datelor în statistică este sondajul.

Acesta se bazează pe o serie de teoreme matematice care permit, în condiţii foarte bine

specificate, care în realitate nu sînt niciodată perfect îndeplinite, generalizarea rezultatelor de

la nivelul eşantionului, adică a mulţimii celor chestionaţi la nivelul populaţiei, adică a

mulţimii care reprezintă ţinta cercetării.

Prima definiţie necesară pentru a continua este cea a populaţiei. În orice cercetare statistică

populaţia este ansamblul tuturor indivizilor (sau a obiectelor) care sunt subiecte ale cercetării,

asupra cărora se referă ipotezele şi teoriile ei. Dacă de exemplu, vrem să facem o cercetare

legată de consumul de apă minerală în România, populaţia studiului va fi întreaga populaţie a

ţării, de vrea 21 de milioane, cîtă e ea. Dacă însă cercetarea are caracter politic, probabil aş

dori să restrîng populaţia la persoanele cu drept de vot, electoratul român, adică numai vreo

17,5 milioane. De la caz la caz, populaţia unei cercetări poate fi mulţimea locuitorilor unui

oraş, mulţimea jucătorilor de fotbal sau a studenţilor unei facultăţi, dar există şi cercetări cu

alte nivele de agregare la care populaţia poate fi mulţimea intreprinderilor mici şi mijlocii

dintr-o regiune, mulţimea judeţelor Romaniei sau chiar a ţărilor europene. Stabilirea

populaţiei cercetate este un prim pas în orice studiu statistic. Este de fapt răspunsul la

întrebarea: despre cine am dori să putem spune ceva? Şi de aici decurge alegerea celor care

vor fi măsuraţi (adică vor răspunde la întrebări) dar şi felul cum se fac măsuratorile (adică se

pun întrebările) şi interpretarea rezultatelor. Alegerea populaţiei este o decizie ce ţine de

substratul teoretic al studiului dar în acelaşi timp determină teoriile ce vor fi folosite în

continuare pe parcursul proiectării cercetării.

Page 29: Carte de Statistica

29

Nu toate cercetările statistice sunt bazate pe date culese prin sondaj. O mare parte dintre

metodele folosite atît pentru descrierea datelor cît şi pentru testarea unor teorii se aplică, cu la

fel de mult succes, şi pe alte tipuri de date. Este vorba despre ceea ce numim date de

recensămînt. Suntem obişnuiţi cu acest termen ca desemnînd o chestionare periodică, dar

totuşi rară, a întregii populaţii a ţării pe teme legate mai mult de statutul social-economic.

Conceptul are însă o definiţie ceva mai largă. Un recensămînt este o cercetare care presupune

intervievarea (sau mai general, măsurarea) tuturor membrilor populaţiei studiate. Deci tehnic

un studiu care tratează statele europene folosind date culese din toate aceste state este un

recensămînt la fel cum tot recensămînt este un studiu care intervievează toţi studenţii unei

anumite facultăţi atît timp cît rezultatele nu se doresc a fi generalizate pentru alte grupuri de

studenţi. Deşi în cazul recensămîntului inducţia statistică nu are rolul pe care i l-am pomenit

în introducere, există aşa cum am mai spus şi aici un anumit nivel de generalizare. Anume,

prin faptul că folosim modele mai mult sau mai puţin simple pentru indivizii studiaţi şi

încercăm totuşi să tragem concluzii despre comportamentul lor sau despre opiniile lor.

Tot ce am putea ştii, de exemplu, despre studenţii facultăţii de ştiinţe politice din Timişoara

sunt răspunsurile pe care aceştia le dau la un chestionar. Am putea totuşi să încercăm să

verificăm dacă pentru aceştia se poate susţine faptul că cei ce lucrează în perioada studenţiei

sunt mai puţin interesaţi de problemele legate de organizarea academică. Este posibilă o astfel

de cercetare? Desigur. Este sigur că se poate răspunde la întrebare? Evident, nu. Întrebarea

este o ipoteză de lucru, s-ar putea să poată fi respinsă, s-ar putea însă să nu se poată face acest

lucru. Indiferent însă de aceasta, rezultatele se vor referi numai la studenţii chestionaţi şi nu se

vor putea generaliza, după regulile statisticii cel puţin, la alţi studenţi, din alte facultăţi sau

alte oraşe.

În unele cazuri, probabil pentru a evita confuzia curentă cu recensămintele naţionale

menţionate, statisticile de acest tip se mai numesc statistici de lot. Prin lot înţelegîndu-se de

fapt populaţia care este în acelaşi timp şi “eşantion” al cercetării.

În general un eşantion este mulţimea aleasă prin vreo metodă oarecare, a celor ce vor fi

chestionaţi (sau măsuraţi) în cadrul unei cercetări. Dacă de exemplu, la o fabrică de ciorapi

trebuie făcut un studiu statistic al egalităţii lungimii ciorapului stîng cu ciorapul drept,

probabil că s-ar decide că este suficientă măsurarea unui eşantion şi nu al întregii populaţii

Page 30: Carte de Statistica

30

ciorăpeşti. S-ar putea alege, şi ar fi chiar cea mai bună metodă, de pe banda de producţie tot a

o mia pereche de ciorapi pînă cînd se ajunge la un număr dorit, de exemplu tot o mie de

perechi. Perechile de ciorapi măsuraţi vor forma eşantionul, producţia ce are loc în perioada în

care se aleg perechile de ciorapi e populaţia cercetată. Există multe metode de a alege un

eşantion, unele mai bune, altele mai puţin, unele mai simple, altele mai puţin. Vom reveni la

acestea în partea a două a acestui capitol.

Pentru moment să încerc să explic de ce putem face asta. De ce e suficient să măsurăm o mie

de ciorapi ca să spunem ceva despre cîteva sute de mii, sau de ce un institut de sondare a

opiniei publice e suficient să întrebe nu mult mai mult de o mie de oameni pentru a prevedea

suficient de bine rezultatul unor alegeri prezidenţiale? Explicaţia stă în cîteva teoreme

matematice. Ele sînt în general cunoscute ca fiind “legile numerelor mari”, “teorema

fundamentală a statisticii” şi “teorema limită centrală”. Nu cred că aş fi de prea mare folos

cititorilor acestei cărţi dacă le-aş enunţa matematic corect. Voi încerca deci numai să le

povestesc.

Legile numerelor mari sînt o serie întregă de teoreme, probabil prima fiind enunţată de

Bernoulli în 1713. Toate aceste teoreme spun lucruri asemănătoare. Ele de fapt vorbesc despre

repetarea unor experimente, de exemplu aruncarea unui zar. Esenţial este ca repetarea această

să se facă în aşa fel încît fiecare aruncare de zar (sau ce experiment ar fi) să fie independentă

de celelalte. Dacă e aşa şi notăm rezultatele, pe măsură ce numărul de experimente creşte felul

cum se distribuie rezultatele observate se apropie din ce în ce mai mult de felul cum sunt

distribuie toate rezultatele posibile. În cazul unui zar bine echilibrat, pe măsură ce repetăm

aruncarea cu zarul ne apropiem din ce în ce mai mult de o distribuţie în care fiecare faţetă

apare de un număr egal de ori. Traducerea în statistică e simplă. Fie o informaţie oarecare de

interes pentru cercetarea noastră, o dată statistică cum i-am spus pînă acum, sau o variabilă

cum i se mai spune. Ea este cumva distribuită în populaţie (de exemplu genul e distribuit cam

jumătate – jumătate, perechile de ciorapi inegali sunt cam 5% din producţie, etc.). Ei bine

legile numerelor mari ne asigură de faptul că dacă alegem să chestionăm (măsurăm) un număr

de indivizi (perechi de ciorapi) atunci atît timp cît alegerea unui individ este independentă de

celelalte alegeri, pe măsură ce numărul celor aleşi creşte, distribuţia rezultatelor de măsurare

se aproprie de distribuţia valorilor în întreaga populaţie. Simplu spus asta înseamnă că un

eşantion mai mare e mai bun decît unul mai mic. Dar mai spune două lucruri esenţiale. O

dată, faptul că adăugînd la eşantion în mod corect nu ne îndepărtăm de la distribuţia pe care

Page 31: Carte de Statistica

31

dorim să o aflăm ci ne tot apropiem de ea şi în al doilea rînd, mai important, ne spune cum

trebuie să alegem eşantionul. Anume astfel încît fiecare alegere să fie independentă. Din

păcate, aşa cum vom vedea asta nu este chiar aşa uşor în statistică ca la aruncarea cu zaruri.

O formă a legii numerelor mari, cunoscută şi ca teorema Glivenko-Cantelli a fost adesea

numită teorema fundamentală a statisticii. Ea ne asigură incă mai bine de apropierea aceasta a

distribuţiei valorilor observate de cele existente în populaţie, apropiere ce în matematică se

numeşte convergenţă. Teorema Glivenko-Cantelli ne spune că această convergenţă este

uniformă pe măsură ce creşte volumul eşantionului. Bun, deci, din cele de pînă acum ştim că

măsurînd un eşantion din ce în ce mai mare ne apropiem din ce în ce mai mult şi uniform de

felul cum variabilele ce ne interesează sunt distribuite în populaţie, atîta timp cît fiecare

element din eşantion l-am ales independent de celelalte (vom spune în general că eşantionul e

ales aleator, la nimereală). Pare de bun simţ, cred. Întrebarea mare ce se pune acum este, cît

de mare trebuie să fie eşantionul astfel încît apropierea să fie suficient de bună? Altfel,

desigur, dacă pentru o populaţie de 21 de milioane, distribuţia din eşantion se apropie de

distribuţia din populaţie pe măsură ce se adună milioanele de chestionare nu am rezolvat prea

mare lucru.

Aici intervine teorema limită centrală. Şi ea face parte dintr-un grup de teoreme numită în

general teoreme limită centrală. Pentru a deosebi teorema cea mai importantă dintre acestea, o

teorema enunţată şi demonstrată de Lyapunov la începutul secolului 20, ea se scrie adesea cu

litere mari (Teorema Limită Centrală!). Ea ne spune că în anumite condiţii, importante pentru

matematicieni, o sumă de variabile aleatoare necunoscute, dar independente tinde la o

distribuţie normală cînd numărul acestor variabile tinde la infinit. Condiţiile pomenite nu sunt

de fapt foarte restrictive, ele spun că variabilele însumate trebuie chiar să fie “oricum”, “la

nimereala” şi faptul că trebuie să aibă aceiaşi medie şi dispersie. Aceasta, a doua condiţie nu

este de fapt chiar atît de restrictivă, deşi poate părea. De fapt ea nu este restrictivă pentru că

orice variabilă aleatoare poate fi “împinsă” spre stînga sau dreapta graficului ei prin simpla

adunare sau scădere a unei valori numerice. Nu se schimbă cu nimic caracteristicile variabilei,

pur şi simplu graficul se împinge încoace sau încolo. Deci orice variabilă poate fi adusă la

aceiaşi valoare medie fără a schimba mare lucru. Cu dispersia e ceva mai complicat, dar nu

mult, aşa că nu o mai comentăm aici. Bun, deci, le insumăm şi iese ceva numit distribuţie

normală, o distribuţie despre care vom mai vorbi. Precum vedem ea este foarte importantă în

statistică. Nu e foarte simplă matematic, dar pentru majoritatea utilizatorilor de statistică e

Page 32: Carte de Statistica

32

suficient să cunoască cîteva din principalele ei proprietăti. Şi pe moment cel mai important

este că e cunoscută. E foarte important. Să reluăm de fapt ideea. Avem un număr de tot felul

de variabile despre care nu ştim mai nimic şi dacă le adunăm toate iese ceva cunoscut. Asta e

foarte confortabil pentru că la urma urmei în orice cercetare ce presupune studierea

comportamentului unor oameni putem să fim destul de siguri că sunt o gramadă de variabile

pe care nu le-am putut măsura şi încă şi mai multe la care nu ne-am putut nici măcar gîndi. Ei

bine, astea toate însumate în efectele lor produc ceva cunoscut. Deci, grija mare că sunt atîtea

şi atîtea care nu pot fi luate în seamă nu e chiar aşa de justificată.

Această grămadă de variabile sunt de fapt eroarea care trebuie luată în seamă cînd încercăm să

estimăm o valoare. Prin faptul că se poate estima corect forma sumei variabilelor care nu le

luăm în seamă în mod explicit se obţine şi formula care permite estimarea erorii. Cum am

văzut din teoremele numerelor mari această eroare este legată de volumul eşantionului. Deci

aici putem estima volumul unei eşantion pentru a obţine cu probabilitate mare o anumită

precizie a cercetării statistice.

Page 33: Carte de Statistica

33

2. Cum facem un sondaj de opinie simplu şi corect?

1. Eşantionarea aleatoare

Din considerentele (aproape) matematice din secţiunea precedentă putem să extragem o

concluzie esenţială pentru tehnica sondajului de opinie. Anume, garanţia matematică pentru

posibilitatea unei estimări statistice corecte este ca alegerea eşantionului studiat să fie pur

aleatoare, adică să nu depindă chiar de nimic.

Modelul pe care matematicienii il prefera pentru alegerea aleatoare este modelul urnei.

Premisele sunt următoarele. Avem o urnă din care se pot extrage bile şi în care se găsesc un

număr de bile de diverse categorii. De exemplu, bile albe şi negre. Extragem din urnă cîte o

bilă, notăm culoarea ei şi o introducem la loc. Legea numerelor mari ne asigură că repetînd

operaţia asta de multe ori vom obţine o bună estimare a distribuţiei bilelor în urnă. Modelul

acesta se numeşte “schema bilei reîntoarse” şi introducerea bilei la loc în urnă este esenţială

pentru că astfel şansa de a alege o bilă de o anumită culoare rămîne cea de la început pentru

fiecare extragere. Dacă ne-am imagina o urnă cu un număr foarte mare de bile din care

extragem un număr relativ mic, am putea presupune că distribuţia rămîne aproape

neschimbată chiar dacă bila nu se introduce la loc, adică dacă aceiaşi bilă nu mai poate fi

extrasă de mai multe ori. Aceasta este situaţia unui sondaj real.

Ideal ar fi deci să avem un recipient mare de tot în care stau cuminţi toţi membrii populaţiei

pe care dorim să o studiem şi să extragem de acolo rînd pe rînd cîte unul, să-l interogăm şi să-

l punem la loc. Aceasta este însă posibil numai parţial. Să vedem ce corecturi sunt necesare

pentru a putea să ne apropiem cît mai mult de acest modelul teoretic.

În primul rînd, în oala noastră nu va sta chiar toată populaţia pe care vrem să o cercetăm. (Îi

spun oală, pentru că urnă mi se pare prea morbid, şi recipient prea pretenţios.) Există două

feluri de aborda problema asta. Pe de o parte, e normal să încercăm să luăm o oală cît mai

cuprinzătoare, pe de altă parte e la fel de normal să redefinim populaţia în funcţie de oala

aleasă. Hai să dau cîteva exemple.

Să zicem că dorim să aflăm ceva despre populaţia oraşului Timişoara. Să alegem recipientul

din care “extragem” subiecţii cercetării. De exemplu, Piaţa Operei. Punem operatori de sondaj

Page 34: Carte de Statistica

34

în piaţă şi îi învăţăm să abordeze cetăţeni în mod aleator. Indiferent cîte ore ar sta operatorii

noştrii în piaţă şi indiferent în ce zile ar sta acolo, recipientul acesta nu va conţine toată

populaţia Timişorii în nici un caz. Mai mult, cei ce trec prin piaţă vor fi probabil persoane

care au anumite caracteristici diferite de cei ce nu trec. E probabil, de exemplu, să fie în

special persoane care nu sunt angajate în muncă: studenţi, elevi, pensionari, amatori de fotbal,

actori şi statisticieni. Pur şi simplu, faptul de a trece în Timişoara prin Piaţa Operei e deja un

anumit mod de comportament şi ar putea influenţa şi alte comportamente şi opţiuni ale celor

aleşi să răspundă la chestionar. Un astfel de eşantion nu va fi reprezentativ pentru întreaga

populaţie a oraşului. Oala e pur şi simplu prea mică. Pe de altă parte, nu ştiu dacă clientul

cuiva ar fi mulţumit cu aserţiuni de genul: “o treime din cei ce trec prin Piaţa Operei ziua în

amiaza mare ar cumpăra detergentul ...”.

Bun, e preferabil deci să alegem altă oală. O opţiune care se oferă este cartea de telefon. Fie

deci, cartea de telefon, oala din care se aleg la nimereală numere de telefon. Intervievarea prin

telefon are şi avantajul de a fi rapidă şi confortabilă. Este însă oala asta destul de mare?

Depinde. Practic punînd astfel problema redefinim populaţia de la “populaţia oraşului

Timişoara” la “populaţia oraşului Timişoara abonată la Romtelecom”. Această populaţie

poate fi o mai bună sau mai proastă aproximare a populaţiei iniţiale dar nu va fi în nici un caz

o aproximare statistică pentru că apartenenţa la cea de a doua populaţie nu este una aleatoare

faţă de prima populaţie. Mai simplu, populaţia celor care au telefon în Timişoara nu a fost

aleasă în mod întîmplător din toată populaţia oraşului, persoanele cu pricina au avut de făcut

paşi administrativi clari care au presupus un interes pentru a avea telefon, un anumit venit

minim, poate chiar un efort logistic. Deci putem linistit presupune că cei ce au telefon sunt

altfel decît cei ce nu au. Deci, cele două populaţii nu sunt interşanjabile. Posesorii de telefon

vor avea probabil în medie un venit mai mare, vor fi localizaţi în anumite cartiere, etc. Totuşi,

clientul nostru s-ar putea să fie mulţumit de rezultate obţinute pe populaţia restrînsă atît timp

cît volumul ei este suficient de apropiat de volumul populaţiei iniţial considerate. La începutul

anilor 1990 aş fi fost clar împotriva intervievării telefonice. Pe vremea respectivă foarte multe

familii nu aveau telefon deşi ar fi dorit să aibă, iar cei ce aveau telefon aveau în mod clar

caracteristici particulare, de obicei de natură profesională. Deşi aceasta poate să fie teoretic

adevărat în continuare, deoarece numărul de abonamente telefonice în mediul urban se

apropie foarte mult de numărul total de gospodării, redefinirea populaţiei nu este una care să

deranjeze prea mult. Discrepanţa dintre mediul urban şi cel rural rămîne însă atît de mare încît

Page 35: Carte de Statistica

35

un sondaj pe o populaţie ce include şi mediul rural, ca de exemplu, populaţia unui judeţ, nu se

poate în nici un caz efectua telefonic.

O alternativă similară cu cartea de telefon dar, cel puţin teoretic mai bună este folosirea

listelor de alegători. Din păcate, aşa cum s-a văzut la alegeri, migraţia populaţiei intern şi

internaţional a făcut ca listele electorale să fie destul de greu practicabile, adresele de pe liste

nepotrivindu-se adesea situaţiei din realitate. Apoi, obţinerea listelor electorale pentru o

cercetare oarecare nu este ceva chiar aşa de uşor. Important de notat că listele cu toată

populaţia, cum sunt listele electorale sau cărţile de telefon, se numesc cadre de eşantionare

şi au marele avantaj de a uşura alegerea. Alegerea aleatoare, chiar matematic vorbind, dintr-

un cadru de eşantionare este posibilă.

Să revenim însă la alegerea recipientului. Daca nici cadre de eşantionare bune nu sunt ce se

poate face? Se poate, de fapt, defini oala astfel încît să cuprindă chiar pe toată lumea?

Probabil nu. Aproximaţia cea mai bună este de a considera oraşul, judeţul sau ţara în

distribuţia ei teritorială ca fiind chiar oala şi a alegere de aici pe baza adreselor gospodăriilor.

Alegerea unei adrese va fi de fapt o metaforică extragere din urnă. Evident, nici aşa nu avem

chiar urna teoretică în care se află toate bilele. Lipsesc cei ce nu se află la domiciliul stabil sau

nu au un domiciliu stabil, fie ei nomazi prin modul lor de viaţă, plecaţi în concedii sau la

muncă în străinătate. Aşa cum ştim, în cazul Romaniei de astăzi numărul acestora este

important şi redefinirea populaţiei este esenţială în acest caz, dar de obicei ea este întru totul

acceptabilă. “Oala” geografică va însemna parcurgerea oraşului pe baza unui itinerariu.

Operatorul va parcurge străzile - locuinţele şi va alege - extrage dintre ele. Bineînţeles, din

motive practice va trebui ales un punct de unde porneşte operatorul în itinerariul lui. Pentru că

se lucrează cu mai mulţi operatori şi pentru că există prejudecata cum că o distribuţie

geografică uniformă ar înbunătăţi relevanţa sondajului, se aleg de obicei puncte de pornire pe

cartiere. Ideal ar fi ca aceste puncte să fie alese chiar aleator, de exemplu aruncînd cu un dart

pe un plan al oraşului. Pe de altă parte, distribuţia uniformă a punctelor de pornire, deşi nu

este justificată matematic elimina riscul ca doi operatori să ajungă la aceiaşi familie!

Am văzut problemele legate de metaforica noastră urnă, să vedem cum arată alegerea din

urnă, extragerea aleatoare. În forma teoretică atunci cînd experimentatorul bagă mîna în urnă

el nu simte nici o diferenţă între bile. Toate sunt la fel, alegerea nu are loc pe baza unei

caracteristici, tocmai prin aceasta este aleatoare. Bilele negre nu sunt mai calde decît cele

Page 36: Carte de Statistica

36

albe. Regula esenţială a alegerii aleatoare, se poate exprima astfel: fiecare membru al

populaţiei trebuie să aibă aceiaşi şansă să fie ales în eşantion. Pare simplu, nu e. Numai

dacă avem un cadru de eşantionare aceasta se poate face (aproape) perfect. Atunci un

generator de numere aleatoare pe calculator ne poate alege un eşantion cît de mare vrem.

Aceasta ar fi o eşantionare aleatoare perfectă. Mai există o variantă la fel de bună, dar mai

puţin laborioasă. Dat fiind construcţia listelor, fie electorale, fie telefonice, care se face

alfabetic, poziţia unei persoane în listă nu e legată de anumite caracteristici. De aceea se poate

folosi o metodă mai simplă, aşa-zisa alegere pseudo-aleatoare. Se alege aleator atunci un prim

nume. Apoi se aplică un pas de eşantionare. Acesta se calculează ca raport dintre volumul

populaţiei şi volumul eşantionului. De exemplu, în Timişoara sunt aproximativ 140.000 de

abonamente telefonice. Daca dorim un eşantion de 1000 de persoane, pasul de eşantionare va

fi de 140. Punem în eşantion, de exemplu, primul număr telefonic din carte, apoi numărul al

141-lea, apoi al 281-lea, şi aşa mai departe. Şansa unui număr de a fi ales depinde de alegerea

primului număr, aceste se alege din valori între 1 şi 140. Oricum toate numerele de telefon au

aceiaşi şansă de a fi alese independent cui aparţin, şi în mod evident, ceea ce e cel mai

important, nu contează nici un fel de caracteristici social-economice, etnice sau

comportamentale ale celor aleşi.

Să ne gîndim la varianta pe care am considerat-o cea mai bună pentru alegerea “urnei”, anume

parcurgerea geografică a localităţii. În acest caz avantajul de a lucra cu situaţia reală a

adreselor este şi motivul principalului dezavantaj. Anume, nu există un cadru de eşantionare

ceea ce face alegerea simplă aleatoare sau pseudo-aleatoare imposibilă. Cum alegem

locuinţele ca să dăm tuturor aceiaşi şansă, şi o dată aleasă o locuinţă cum dăm tuturor

locatarilor aceiaşi şansă? Esenţial este desigur ca alegerea să nu fie influenţată de calităţi ale

locuirii şi persoanelor. Adică, casele mai drăguţe să nu fie favorizate faţă de cele mai

neîntreţinute, persoanele mai primitoare faţă de cele mai puţin primitoare, eventual chiar

unele etnii faţă de altele! Metoda care se foloseşte este construirea unui itinerariu-algoritm. E

ca şi cum am face o alegere pseudo-aleatoare în care pasul de eşantionare nu mai e un număr

de rînduri pe o foaie de carte de telefon ci un număr de case pe o stradă sau un număr de

locuinţe într-un bloc. Ce contează este ca metoda să includă toate cazurile posibile astfel încît

argumente care ţin într-adevăr de condiţiile de locuire să nu conteze. Cel mai rău este ca

operatorul să aleagă după argumente de genul: “s-a terminat strada, acum pot să o iau la stînga

sau la dreapta, dar la stînga e noroi!”. Poate părea nesemnificativ, dar prin repetare, dacă

astfel de alegeri sunt posibile ele pot duce la un caracter nealeatoriu al eşantionului şi la

Page 37: Carte de Statistica

37

situaţia în care apartenenţa la o categorie social-economică dezavantajată să scadă

probabilitatea de a face parte din eşantion.

Apoi mai există o situaţie asemănătoare de defazare a eşantionului care e foarte periculoasă.

Aceasta este cunoscută ca autoselecţie. Evident, dacă numai cei ce se autopropun, răspund la

un chestionar, cum e de exemplu, cazul chestionarelor ce apar în reviste, eşantionul nu are

nici o relevanţă statistică. Am văzut că aşa au dat greş sondajele din revista americana

“Literary Digest” puse faţă în faţă cu metoda lui Gallup care presupune alegerea aleatoare.

Există însă o situaţie perversă în care o aproape similară, chiar dacă ceva mai benignă,

autoselecţie apare ca efect pervers al unei eşantionări şi selecţii cît se poate de corecte. Astfel,

dacă numărul celor ce refuză să răspundă la chestionar e foarte mare, cei ce acceptă pot fi

consideraţi a fi (aproape) autoselectaţi. E clar că aici rolul operatorului este esenţial, el/ea

trebuie să fie potrivit de politicos-insistent astfel încît cel intervievat să trebuiască să ia

evident o decizie pentru a refuza şi varianta implicită, lipsită de efortul de a decide, să fie

aceea de a răspunde. Din păcate nu avem o metodă mai bună de a reduce ponderea refuzului

de a răspunde la chestionare. În anii de imediat după 1990 ponderea celor care refuzau

interviurile operatorilor de sondaj era foarte mică. Această pondere a crescut destul de mult

devenind în multe cazuri semnificativă. Cîteva reguli simple reduc totuşi puţin ponderea non-

răspunsurilor. Operatorul de interviu trebuie să înceapă prin a se prezenta cît mai clar şi

trebuie să se refere fie la institutul care efectuează sondajul, fie la clientul sondajului. Esenţial

este ca potenţialul intervievat să priceapă cît de repede despre ce e vorba, adică să nu creadă

că operatorul vrea să-i vîndă sau să-i ceară ceva. Apoi el trebuie să se simtă valorizat pentru

faptul că părerea lui contează, respectiv că a fost ales să-şi spună părerea.

2. Eşantionarea stratificată

Stratificarea este o variantă de înbunătăţire a eşantionării luînd în seamă caracteristici ale

populaţiei care sunt de tip categorial. Matematic nu se poate calcula cu cît e mai bună o astfel

de eşantionare faţă de una simplă aleatoare, şi nici măcar dacă e mai bună. Ea are totuşi

avantajul de a ne asigura posibilitatea unor teste statistice care pot fi importante în cercetare.

Aici însă trebuie să expun întîi metoda pentru a fi mai explicit.

Orice populaţie se poate împărţi în categorii diferite. Genuri, religii, zone de rezidenţă, tipuri

de locuire, etc. Unele dintre acestea sunt cunoscute la nivelul populaţiei din date statistice

Page 38: Carte de Statistica

38

oficiale. De exemplu, dacă avem de făcut un sondaj într-un anume judeţ putem afla din

anuarul statistic cîţi locuitori sînt în mediul urban şi cîţi în mediul rural, cîţi în oraşul reşedinţă

de judeţ, cîţi în alte oraşe. Mai mult, unele din aceste categorii se pot cunoaşte chiar înainte de

intervievare, se pot lua în seamă în eşantionare şi selecţie. Astfel prin simple proporţii se pot

calcula eşantioane stratificat.

Un exemplu simplu pentru judeţul Timiş ar fi următorul. În tabel am trecut populaţia totală

urbană şi rurală din 2006 conform Institutului National de Statistică. Am calculat apoi

procentele faţă de totalul populaţional al judeţului şi, în fine cîte chestionare dintr-un total de

1000 ar trebui aplicate în mediul rural şi cîte în mediul urban pentru a păstra volumele

straturilor.

Număr locuitori Procent Număr chestionare

Urban 414.680 62,9% 629

Rural 244.619 37,1/ 371

Total 659.299 100% 1000

Această metodă este folosită cel mai adesea pentru a crea eşantioane pentru o populaţie mare

şi distribuită, cum ar fi populaţia unei ţări, de obicei eşantionarea nu este doar stratificată ci şi

multistadială. Aceasta presupune mai mulţi paşi de stratificare şi alegere aleatoare. Cel mai

simplu ar fi să vedem cum se face aceasta pentru o populaţie cum ar fi cea a Romaniei.

Primul pas, sau primul stadiu, este împărţirea după tehnica stratificării pe care am văzut-o mai

înainte a eşantionului în funcţii de regiuni de dezvoltare. Romania este împărţită, mai mult sau

mai puţin administrativ în opt astfel de regiuni de dezvoltare. Ele nu sunt propriu-zis unităţi

administrativ-teritoriale cum sunt judeţele, dar sunt suficient de bine particularizate socio-

economic. În mare, cele opt regiuni se potrivesc pe regiuni istorice ale Romaniei, deşi sunt

criticate tocmai pentru că nu se potrivesc şi mai bine cu acestea. Oricum, ceea ce contează

pentru statistician este faptul că regiunile de dezvoltare sunt folosite de Institutul National de

Statistică ca unităţi de raportare. Adică, toate datele statistice teritoriale sunt disponibile şi la

nivel de regiune. În plus, evident cele opt regiuni sunt mai potrivite ca straturi decît foarte

multele judeţe ale ţării. Romania are 41 de judeţe. Dat fiind un eşantion obişnuit, care aşa cum

ştim depăşeşte cu puţin 1000 de chestionare, numărul de chestionare care s-ar aplica într-un

judeţ ar fi ilar de mic şi de greu de distribuit în consecinţă. Hai să fiu puţin mai explicit.

Page 39: Carte de Statistica

39

Împărţind chestionarele pe judeţe rezultă în medie vreo 25 de chestionare pe fiecare judeţ.

Dacă luăm în seamă numai costurile de transport care apar împărţite pe fiecare chestionar e

clar că merita căutată o metodă mai bună.

Să vedem cum arată tabelul cu distribuţia chestionarelor după primul stadiu.

Număr locuitori Procent Număr chestionare

Nord-Est 3.781.932 16,3% 163

Sud-Est 2.980.559 12,8% 128

Sud Muntenia 3.619.796 15,6% 156

Sud-Vest Oltenia 2.461.463 10,6% 106

Vest 2.198.504 9,5% 95

Nord-Vest 2.983.614 12,9% 129

Centru 2.860.490 12,3% 123

Bucureşti Ilfov 2.325.037 10,0% 100

Total 23.211.395 100% 1000

Al doilea stadiu este, de obicei, distribuirea pe medii de reşedinţă. Aceasta se poate face pe o

simplă împărţire rural – urban, cum am văzut deja în exemplul precedent, sau pe o ceva mai

complexă împărţire în trei zone, rural – localităţi urbane mici (sub 100.000 de locuitori) –

localităţi urbane mare. Aceasta este împărţirea pe care o folosesc majoritatea institutelor de

sondare a opiniei publice de pe la noi. Împărţirea aceasta duce în fine la o distribuţie a

chestionarelor prin care se află cîte chestionare trebuie făcute pe fiecare regiune şi fiecare tip

de localitate. Atunci apare primul pas de selecţie aleatoare, dintr-o listă de localităţi pe regiuni

şi tipuri de localităţi se aleg, în mod teoretic aleator, localităţi care le vor reprezenta pe toate

celelalte din aceiaşi regiune şi acelaşi tip. Deci, ar trebui alese măcar o localitate urbană mare,

una mică şi o localitate rurală pentru fiecare regiune. În realitate se aleg de obicei mai multe

localităţi din cîte o categorie, aşa cum vom vedea şi din exemplul următor.

Să dezvoltăm o regiune oarecare, de exemplu regiunea Nord-Est în forma mai simplă a

distribuţiei rural - urban.

Număr locuitori Procent Număr chestionare

Rural 2.105.562 56,4% 92

Page 40: Carte de Statistica

40

Urban 1.629.384 43,6% 71

Total 3.734.946 100% 163

Deci vor trebui aplicate 71 de chestionare în oraşe din regiunea Nord-Est şi 92 chestionare în

sate şi comune din regiune. Cel mai probabil se vor alege din listele de localităţi două oraşe şi

trei sau patru comune pentru intervievare, dar numărul localităţilor alese este de fapt la

latitudinea celui care organizează sondajul şi are cel mai adesea motivaţii legate de costuri.

Desigur pentru a fi statistic în regulă alegerea localităţilor trebuie să fie aleatoare, sau măcar

independentă de consideraţii legate de caracteristici socio-economice ale localităţilor.

De obicei aici se opreşte stadializare unei astfel de eşantionări. Numai dacă numărul de

chestionare este mai mare se mai poate merge un pas mai departe şi se mai pot împărţi în

continuare localităţile în categorii, de exemplu localităţi de şes vs. de deal, etc.

La finalul metodei stratificate, fie ea multistadială sau nu, rămîne tot o alegere aleatoare a

celor ce vor fi intervievaţi, fie cu ajutorul cărţii de telefon, a listelor electorale sau a

itinerariului pe teren. De fapt, privind puţin în urmă alegerea punctelor de pornire a unei

eşantionări pseudo-aleatoare cu itinerariu este tot un fel de eşantionare multistadială. Dacă

numărul de chestionare pentru fiecare din aceste puncte se stabileşte luînd în seamă volumul

populaţional al cartierului în cauză eşantionarea este chiar stratificată.

Am spus pe undeva la începutul acestei secţiuni că, matematic vorbind eşantionarea

stratificată nu este mai bună decît cea simplă aleatoare. Ea se foloseşte mai des însă pentru că

are alte avantaje. Anume, un sondaj de opinie se face cel mai adesea pentru a testa ipoteze şi a

descrie comportamente populaţionale. Ipotezele statistice de obicei compară comportamente

şi opţiuni între subgrupuri din populaţie. Eşantionarea stratificată ne asigură că o parte din

categorisile populaţiei se vor regăsi cu necesitate în eşantion. Astfel, suntem în acest caz

siguri că vom putea compara regiunile între ele, zonele de reşedinţă, etc. Din motive similare

de multe ori la selecţia partenerilor de interviu se verifică (statistic se spune că se controlează)

şi distribuţia pe genuri. De obicei se face prin alternanţă simplă. Operatorului i se indică să

intervieveze alternativ o femeie – un bărbat. Desigur, teoremele matematice pe care se

bazează statistica ne promit că aceste distribuţii vor ieşi bine şi prin alegerea simplă aleatoare.

Însă în condiţiile în care numărul chestionarelor nu este foarte mare, un control asupra

anumitor variabile populaţionale ne poate asigura în faţa unor eventuale probleme.

Page 41: Carte de Statistica

41

O altă problemă care trebuie menţionată pe undeva şi care ţine în cele din urmă de eşantionare

este alegerea unei ore cît mai potrivite pentru interviuri. Aici necazul este că o fereastră de

timp prea mică, de exemplu între orele 18 – 20, deşi ar putea surprinde pe majoritatea celor

aleşi pentru a fi intervievaţi disponibili, duce la prelungirea timpului afectat operării

sondajului şi ca atare şi la creşterea costurilor. Una peste alta, în cazul intervievării la

domiciliu se alege de obicei un interval orar între orele 16 şi 21. Vara se poate profita un pic

mai mult deoarece pe lumină şansa ca operatorul să fie refuzat este ceva mai mică! Important

pentru alegerea intervalului orar al chestionării este însă să nu faci gafe prea mari. Dacă de

exemplu pornim prin sat duminică înainte de masă vom nimeri pe multă lume la biserică, iar

cei pe care îi vom găsi acasă vor avea un alt profil comportamental şi valoric decît cei pe care

nu îi găsim acasă. Aşa putem da peste cap o eşantionare altfel onorabilă.

3. Eşantionări ne-aleatoare

Există şi metode de alegere a celor intervievaţi care nu au nimic de a face cu statistica. Ca

atare, astfel de metode nu au o relevanţă matematică pe care să o putem calcula şi nu se

bazează în vreun fel pe regulile statisticii. Totuşi se folosesc pentru că sunt simple, ieftine,

pentru că uneori sunt inevitabile şi pentru că de multe ori aşa-zise sondaje nu sunt neapărat

făcute de specialişti sau comandate de clienţi bine informaţi.

Cea mai des folosită metodă de eşantionare ne-aleatoare este metoda de eşantionare pe cote.

Aceasta seamănă cu metoda stratificată. Dacă însă la eşantionarea stratificată se determină un

număr relativ mic de straturile în aşa fel încît să lase loc şi unei alegeri aleatoare, cotele se

construiesc mai exact. Straturile de obicei se fac în aşa fel încît să nu includă caracteristici ale

persoanelor intervievate. Cotele conţin tocmai astfel de caracteristici. De exemplu, din date

statistice oficiale se deduce ponderea din populaţie pe grupe de vîrstă şi genuri şi se

calculează, întocmai ca la eşantionarea stratificată, numărul de persoane de fiecare categorie

care trebuie intervievat.

Fiecare operator primeşte atunci un număr din chestionare şi o matrice de genul:

Femei Bărbaţi

18 – 35 ani 4 chestionare 5 chestionare

35 – 50 ani 5 chestionare 6 chestionare

Page 42: Carte de Statistica

42

50 – 65 ani 5 chestionare 4 chestionare

Peste 65 ani 4 chestionare 3 chestionare

De multe ori numărul de caracteristici cotate e chiar mai mare şi poate include întrebări filtru

de genul “consumaţi bere?” sau “locuiţi în această localitate?”. Bineînţeles folosind

eşantionarea pe cote nu se mai pot alege cei intervievaţi aleator, fie din cartea de telefon, lista

electorală sau cu itinerariu, pentru că în nici care din aceste liste şi pseudo-liste persoanele nu

apar cu specificarea unor caracteristici ale lor. Operatorul alege partenerii de interviu conform

cotelor prin orice metodă doreşte, pe stradă, dintre vecini, şi aşa mai departe. Astfel nu se mai

exclude nici auto-selecţia, nici subiectivitatea alegerii operatorului.

O altă metodă de eşantionare ne-aleatoare este inevitabilă în cazul populaţiilor rare. Ea se

numeşte metoda bulgărelui de zăpadă. Imaginaţi-vă că populaţia cercetată ar fi populaţia

amatorilor de jazz sau a cetăţenilor italieni stabiliţi în Banat. Astfel de populaţii nu apar în

listele electorale, nu sunt de discernut din cartea de telefon, iar folosirea itinerariului ar duce

la atît de multe eşecuri încît ar dura şi costa enorm de mult. Nu poţi bate din uşă în uşă în

căutarea iubitorilor de bonsai pînă aduni suficiente interviuri! Dacă nu poţi asimila un astfel

de grup rar cu o asociaţie formală tot ce poţi face este să recunoşti faptul că persoane din

astfel de grupuri sunt de obicei legate între ele în reţele sociale. Persoanele din grupuri rare se

cunosc între ele. Aşa funcţionează metoda bulgărelui de zăpadă. Se porneşte de la un număr

de persoane care aparţin populaţiei şi care au fost identificate în vreun mod oarecare. Apoi

fiecare dintre acestea este rugată să specifice alte persoane din aceiaşi populaţie pe care le

cunosc. Din aproape în aproape se poate ajunge la un număr rezonabil de mare de interviuri.

Desigur relevanţa matematic-statistică a aceastei metode nu poate fi calculată.

În fine, unele posturi de televiziune sau ziare folosesc termenul de sondaj de opinie pentru un

număr oarecare de interviuri scurte efectuate cel mai adesea pe stradă. Aceasta nu este o

eşantionare ne-aleatoare, pur şi simplu nu e nici un fel de eşantionare şi răspunsurile nu pot şi

nu trebuie să fie considerate a fi vreun sondaj de vreun fel.

4. Chestionarul

Ei, am ajuns faţă în faţă cu cel pe care dorim să-l intervievăm. Acum, ce? Acum chestionarul!

Page 43: Carte de Statistica

43

Spuneam că statistic vorbind fiecare din membrii populaţiei trebuie să aibă aceiaşi şansă să

facă parte din eşantion. Tot atît de important, metoda de măsurare – chestionarul – trebuie

să aibă un efect cît mai mic asupra opiniilor măsurate. Dacă eu vreau să cîntăresc

ciobăneşti mioritici, şi aleg prin cea mai bună metodă posibilă un eşantion, iar apoi înainte de

a-i cîntări, îi tund pe căţeii din eşantion ca să fie mai drăguţi, nu prea am gîndit bine. Toţi

membrii eşantionului vor avea o greutate mai mică prin pierderea de blană ce le-am cauzat-o.

Greutatea lor nu va mai putea fi generalizată la nivelul populaţiei din care au fost aleşi.

Exemplul pare extrem, dar în realitate interviul în sine şi felul cum este construit chestionarul

nu au cum să nu îi diferenţieze pe cei intervievaţi de cei ce nu sînt intervievaţi. Dacă dorim să

putem generaliza rezultatele trebuie să ne străduim să scriem chestionare care să influenţeze

cît mai puţin răspunsurile celor chestionaţi.

Această carte nu are scopul de aprofunda nici teoretic, nici aplicativ scrierea de chestionare.

Şi totuşi, este cît se poate de important să nu se neglijeze partea aceasta a designului unei

cercetări. Degeaba am folosi cele mai moderne metode de cercetare şi am proceda cu maximă

precauţie la interpretarea rezultatelor, daca chestionarul e prost conceput, prost va fi şi

rezultatul. Există multe capcane în scrierea unui chestionar, unele pot fi folosite chiar şi

intenţionat. Avantajul de a scrie o carte este că te poţi erija în înţelept şi da sfaturi. Avantajul

de a o citi este că poţi sări pasajele de genul acesta. Deci, atenţie, urmează sfaturi bine

intenţionate!

1. Cele mai grave denaturări ale rezultatelor se obţin prin ceea ce în engleză se numesc

“leading questions”. Sunt întrebări care forţează un anumit răspuns sau măcar favorizează

un anumit răspuns. Întrebări de acest gen leagă de obicei unul dintre răspunsurile posibile

de un concept foarte indezirabil sau, mai puţin eficient, de unul foarte dezirabil. Pentru a

construi astfel de întrebări se folosesc construcţii discursive puternic încărcate valoric

negativ sau pozitiv. O întrebare pusă pare-se într-un sondaj efectuat în oraşul Cluj suna

astfel “Sînteţi de acord cu reînfiinţarea în oraşul nostru a universităţii de limbă maghiară

care a existat in perioada Horthistă?”. În întrebare se face legătura dintre universitatea de

limbă maghiară şi fascismul maghiar forţîndu-se astfel un răspuns negativ. Se crează chiar

senzaţia că a susţine reînfiinţarea universităţii de limbă maghiară ar fi o formă de a susţine

sau chiar a readuce Horthismul. Sigur astfel de întrebări nu prea se pun din greşeală. Se

poate însă întîmpla şi aşa ceva. De exemplu, se poate întreba cu mai mult sau mai puţină

candoare: “Consideraţi că ar trebui pedepsite crimele comunismului?”. În formularea

Page 44: Carte de Statistica

44

aceasta apare perechea de cuvinte “crimă” şi “pedeapsă”. Un răspuns negativ dat acestei

asocieri devine aproape imposibil, astfel încît din întrebare nu aflăm cu adevărat mai

nimic despre opinia celui întrebat faţă de crimele comunismului. O altă formă de creştere

a probabilităţii unui anumit răspuns se poate obţine prin adăugarea unei propoziţii

explicative înaintea întrebării, propoziţie care să favorizeze anumite interpretări.

2. Uneori, ce e drept destul de rar, se întîlnesc şi întrebări la care lista de răspunsuri permite

numai anumite aprecieri, sau scade posibilitatea unor opinii prin trecerea lor implicită la

categoria altele. Iată un frumos exemplu cules de mine de curînd:

“Ce părere aveti despre MBA-ul AMERICAN al UNIVERSITATII DESALES2?

1. Excelentă !

2. Foarte bine - dar e prea scump

3. Bună - păcat că e doar în limba engleză

4. E un lucru bun dar nu mă interesează acum

5. Nu mă interesează subiectul”

Evident scala nu este numai incompletă ci şi tendenţioasă. Nu există nici o variantă de

răspuns negativă! Dacă cumva te interesează subiectul părerea pe care o poţi avea poate fi

numai de la bine în sus.

3. O altă formă de denaturare a răspunsurilor se poate obţine prin formularea prea

pretenţioasă a întrebării sau a posibilelor răspunsuri. Aceasta are efectele cele mai

devastatoare în cazul în care completarea chestionarului se face prin interviu cu un

operator. În caz de autoadministrare şansele ca cel ce completează chestionarul să sară

peste întrebările pe care nu le înţelege sau la care nu ştie să răspundă sunt mai mari. Dacă

însă este întrebat de către un operator, cel chestionat tinde să prefere să dea un răspuns

oarecare decît să-şi recunoască lacuna de înţelegere. În special bărbaţii se simt obligaţi să

răspundă ceva. Există şi un nume pentru treaba asta, se numeşte “sindromul răspunsului

masculin” (male answer syndrom) şi termenul se pare că a fost folosit prima dată în 1986

de către Sam Hunt într-o caricatură. Fapt este că atît eu cît şi mulţi alţii ne-am lovit de

această problemă şi de preponderenţa masculină a celor care răspund fără să înţeleagă

întrebarea. Problema poate să apară la formularea întrebării, ca de exemplu: “în ce măsură

vă afectează personal implementarea aquis-ului comunitar?”. Pot apărea însă astfel de

probleme şi la conţinutul întrebării. Am văzut un chestionar, de exemplu, care fusese

aplicat unui eşantion al populaţiei unui judeţ întreg şi conţinea întrebarea: “Ce tip de balet

2 Majusculele şi semnele de punctuaţie apar astfel în original.

Page 45: Carte de Statistica

45

preferaţi? 1. clasic, 2. modern, 3. contemporan, etc.”. Cred că este cît se poate de evident

că ponderea celor care au într-adevăr preferinţe formate la acest nivel este neglijabil de

mică, majoritatea celor chestionaţi neavînd nu numai preferinţe dar nici măcar o imagine

foarte clară a acestor diferenţe. Bineînţeles răspunsuri se găsesc, ce înseamnă însă ele nu

prea se poate spune. Probabil interpretarea cea mai rezonabilă este că s-a obţinut un fel de

preferinţă generală a conceptelor de clasic, modern şi contemporan, independent de felul

cum arată baletul cu pricina.

4. Problemele din punctele precedente par a fi destul de uşor de evitat. Există însă şi situaţii

mai complicate. Una dintre acestea este efectul de serie ce se crează cînd apar una după

alta mai multe întrebări de acelaşi tip, cu aceleaşi posibilităţi de răspuns. O serie de acest

tip ar putea avea forma: “ce părere aveţi despre? (foarte bună, bună, nici bună nici proastă,

proastă, foarte proastă)” urmată de o listă lungă de politicieni sau instituţii. Dacă

intervievatul nu are o opinie foarte bine conturată el va tinde să repete acelaşi răspuns, cel

puţin de la un moment încolo. Aici efectul e mai prezent la autoadministrare şi se poate

evita cît de cît la interviul cu operator recitind întreaga întrebare “ce părere aveţi despre

A?” “ce părere aveţi despre B?” şi aşa mai departe.

5. O altă problemă, tot legată într-un fel de liste, apare cînd o întrebare are un număr mare de

răspunsuri posibile. Parcurgerea sau audierea acestora poate fi greoaie, astfel primele

răspunsuri din listă fiind alese preferenţial. La intervievare orală este de preferat să nu se

citească de loc lista de răspunsuri şi operatorul să aleagă ulterior din listă pe baza

răspunsului spontan al celui intervievat.

6. Listele de răspunsuri care se citesc mai pun o problemă. Ele trebuie să fie complete, adică

să poată acomoda toate opiniile posibile. Soluţia confortabilă de a adăuga întotdeuna şi un

caz “altceva” sau “altfel” pe cît este de necesară pe atît este uneori de insuficientă.

Alternative care ar aduna un număr considerabil de opţiuni vor fi menţionate mult mai rar

dacă rămîn în categoria “altceva”. Problema listelor de răspunsuri este deci una de

echilibrare. Prea puţine variante de răspuns nu recunosc bine opiniile, prea multe de

asemenea, iar lipsa lor totală poate face ca răspunsurile să fie de a dreptul incomensurabile

şi foarte greu analizabile.

7. În fine, mai vreau să atrag atenţia asupra problemei estimărilor. Foarte des în chestionare i

se cere celui intervievat să estimeze cantităţi de consum sau valori. “cît cheltuiţi lunar

pentru produse nealimentare?”, “cîte ore pe săptămînă vă uitaţi la televizor la un anumit

program?”, etc. Unele din aceste întrebări pot părea acceptabile, la altele nimeni nu poate

estima răspunsul în mod cît de cît corect. Cei ce construiesc astfel de întrebări, fie nu îşi

Page 46: Carte de Statistica

46

dau seama de imposibilitatea estimărilor de acest gen, fie mizează pe o echilibrarea a

răspunsurilor prin efectul de masă. Ei gîndesc cam în genul următor, sigur e greu să te

apropii mult de valoarea reală, dar unii spun mai mult, alţii mai puţin şi iese cam ce

trebuie. Ei bine, nu există nici un motiv statistic să iasă cam ce trebuie. Mai mult, este

foarte posibil, dar de nedovedit, că tocmai anumite categorii, de exemplu cei cu venituri

mai mari, să-şi exagereze estimările iar alţii să subestimeze valorile. Un test statistic care

nimereşte peste caracteristici cu efect asupra direcţiei de denaturare a estimării va fi în

acest caz total eronat şi nu avem nici un mod de recunoaşte aceasta. Cel mai bine este să

acceptăm faptul că punem întrebări la care intervievaţii chiar pot răspunde corect în

măsura propriei lor conştiinţe.

8. Există şi alte capcane ale chestionarelor. Regula cea mai bună este pînă la urmă

verificarea chestionarului prin administrarea explorativă pe un număr de persoane, rude,

prieteni, studenţi. Şi nu uitaţi, puneţi întrebări la care voi înşivă aţi fi în stare să

răspundeţi.

Din toate cîte le-am enumerat mai sus cred că s-a putut deduce că un chestionar care nu

influenţează de loc intervievatul nu e posibil. Tot ce rămîne de făcut este să scriem

chestionare care impun cît mai puţin intervievaţilor şi lasă părerile acestora să transpară. Asta

bineînţeles dacă dorim cu adevărat să aflăm ceva despre opiniile celor chestionaţi.

În fine, încă un sfat legat de scrierea de chestionare. Ordinea întrebărilor din chestionar

trebuie de asemenea gîndită. Principalul argument ţine aici de oboseala intervievatului. De

obicei la primele întrebări se răspunde cu ceva mai mare atenţie, pe măsură ce trece timpul

răspunsurile devin din ce în ce mai automate. De aceea e de obicei preferabil să se înceapă cu

întrebările mai grele, care necesită o atenţie mai mare la formulare. La sfîrşit se lasă

întrebările care culeg aşa-zisele variabile independente. Acestea sunt informaţii care ţin de

obicei de statutul socio-economic al celor intervievaţi (se şi numesc adesea variabile SES,

după prescurtarea de la englezescul Socio-Economical Status) şi includ vîrsta, ocupaţia,

statutul marital şi alte întrebări la care chiar răspunsuri date neatent sunt de regulă corecte.

5. Aplicarea chestionarului

Am văzut din sfaturile de mai sus şi faptul că alegerea unui anumit mod de aplicare a

chestionarului are repercursiuni asupra completării lui, asupra răspunsurilor pe care le primim.

Page 47: Carte de Statistica

47

Însăşi cercetarea sociologică are repercursiuni. Comportamentul diferit al subiectului

cercetării ca urmare al activităţii de cercetare la care e supus a fost numit efect Hawthorne.

Efectul îşi are numele de la legendarele studii Hawthorne conduse de sociologul şi psihologul

american Elton Mayo (1880 - 1949) la fabrica Hawthorne a Western Electric Company,

undeva pe lîngă Chicago, în anii dintre 1924 şi 1932. Mayo care s-a ocupat în special de

cercetări industriale a vrut să studieze efectul schimbărilor de la locul de muncă asupra

productivităţii muncii. De exemplu, a schimbărilor legate de iluminat. Printre altele, a

observat cu această ocazie o înbunătăţire iniţială a productivităţii muncii independent ce

schimbare se făcea. După o vreme productivitatea scădea din nou la valoarea de bază. Mayo a

ajuns la concluzia că anumite modificări comportamentale tranzitorii au loc pur şi simplu din

cauza experimentului şi nu a condiţiilor modificate. Astfel productivitatea a crescut atît cînd a

crescut iluminatul din hală cît şi cînd a scăzut iluminatul, şi aşa mai departe. Oamenii tind să

se comporte altfel dacă sunt observaţi. Această observaţie poate destul de banală este de o

importanţă foarte mare în tehnica sondajului de opinie. Aşa cum am mai spus, pune sub

semnul întrebării însăşi logica generalizării statistice pentru că cei ce au fost aleşi pentru a

face parte din eşantion se vor comporta diferit, vor da poate răspunsuri diferite tocmai pentru

că fac parte din eşantion. E chiar posibil ca opinia lor să fie sincer şi remanent modificată prin

chestionare şi răspunsurile corecte şi sincere pe care le dă să nu mai fie astfel generalizabile.

Este însă posibil ca din motive legate de felul cum cel intervievat percepe dezirabilitatea

socială să-şi schimbe răspunsurile. Adică să considere că deşi el personal ar avea o părere mai

degrabă proastă despre o anumită persoană mult lăudată (ştiu eu, de exemplu Corneliu

Coposu sau Papa Ioan Paul al II-lea, sau cine ştie cine) să prefere un răspuns neutru sau chiar

moderat pozitiv pentru a fi în ton cu discursul public.

Efectul aplicării chestionarului poate fi mai mare sau mai mic, dar nu poate fi exclus cu totul.

Să începem cu diferenţa esenţială. Chestionările pot fi auto-aplicate sau realizate prin interviu

cu operator. Cum am văzut cea de a doua variantă are o serie de avantaje legate de designul

chestionarului. De asemenea, garantează un număr mai mic de chestionare nereturnate sau

necompletate şi poate ajuta în condiţii ideale şi la o mai bună înţelegere a chestionarului. Pe

de altă parte efectele legate de aplicarea chestionarului sunt mai mari în cazul prezenţei unui

operator decît în cazul auto-aplicării.

Să vedem totuşi cum pot fi ele atenuate. În primul rînd mediul în care are loc chestionarea

este bine să fie cît mai familiar celui chestionat. Ideal este deci să fie intervievat sau să

Page 48: Carte de Statistica

48

completeze chestionarul acasă. Cel mai rău este dacă e intervievat sau pus să completeze

chestionarul undeva unde nu se simte la locul lui, unde se consideră în inferioritate şi este ca

atare tentat să se adapteze situaţiei, de exemplu, într-o instituţie publică, într-un spital, etc. în

cazul interviurilor cu operator este importantă şi relaţia spontană ce se crează cu acesta. Există

adesea, în special la persoane în vîrstă confruntate cu operatori tineri, o tendinţă de simpatie.

Combinînd aceasta cu lipsa unor opinii ferme pe anumite teme se poate uşor ajunge la

răspunsuri de complezenţă, care au în substrat dorinţa de a fi în acord cu operatorul sau de

face o impresie pozitivă. Efecte similare apar şi atunci cînd cel intervievat se simte în

inferioritate evidentă faţă de operator din punct de vedere al educaţiei sau veniturilor. În

special femeile sunt tentate să caute răspunsuri adecvate opiniilor pe care le proiectează

asupra celor ce le intervievează. Apoi mai apare uneori şi o dorinţă de “a ieşi bine”, de a da

răspunsul corect sau adecvat.

Operatorul ideal este deci un fel de roboţel, nici prea antipatic ca să nu fie refuzat, nici prea

simpatic ca să nu denatureze răspunsurile, şi în plus total lipsit de părere proprie în felul cum

citeşte întrebările, dă din cap sau zîmbeşte la răspunsuri. Unii preferă operatorii empatici, care

aprobă opiniile celui intervievat, alţii operatori inerţi. Fapt este că operatorii empatici pot crea

o anumită dezinhibare care facilitează sinceritatea intervievatului.

Capitolul acesta rămîne dator cu o importantă parte calculatorie. Aşa cum am pomenit de mai

multe ori pentru sondajele efectuate cu eşantionare statistică aleatoare se poate calcula o aşa-

zisă marjă de eroare, adică o eroare acceptabilă a estimărilor statistice. Pentru a putea prezenta

modul de calcul al acestei marje de eroare este însă necesară o prezentare mai amănunţită a

distribuţiei normale. În fine, însăşi calculul marjei de eroare este legat de testul t pe care îl

vom prezenta în prima parte a capitolului 5 al acestei cărţi împreună cu distribuţia normală.

Am decis să grupez elementele mai matematizate separat de cele discursive pentru a facilita o

parcurgere graduală a materialului şi reduce riscul abandonului lecturii de către cei care resimt

un disconfort la prima întîlnire a unei formule matematice. Sper să fi reuşit măcar în parte.

Page 49: Carte de Statistica

49

Capitolul 4. Aperitive. Primii paşi în descrierea datelor statistice

În precedentele două capitole am văzut ce tipuri de date foloseşte statistica şi cum le adună. În

acest capitol voi prezenta cele mai simple şi des folosite metode de reprezentare a datelor.

Indiferent cit de departe s-ar merge cu analiza datelor şi cît de sofisticate ar fi metodele

folosite în cele din urmă, o analiză exploratorie a datelor se face întotdeuna. În acest capitol

vom vedea cum punem prima dată mîna pe un set de date, cum ne apropiem de el, cum îl

facem inteligibil.

Seturile de date culese prin sondaj sau referendum fie că le-am produs noi înşine, le-am

preluat de la instituţii oficiale sau de la alţi cercetători se pot înţelege şi uneori chiar vizualiza

sub forma unor tabele. Fiecare linie corespunde de obicei unui individ şi fiecare coloană unei

variabile. Uneori chiar se culeg datele pe teren folosind astfel de tabele numite fişe de

răspuns. Pe de altă parte, toate programele pe calculator care lucrează cu date statistice le

reprezintă sub această formă, fie că e vorba de Excel, folosit uneori şi pentru prelucrări

statistice primare, fie că e vorba de soft-uri specializate ca SPSS, Stata, Statistica, Gauss sau

altele. În imaginea de mai jos se vede un fragment al unui set de date în Stata.

Page 50: Carte de Statistica

50

O astfel de tabelă are în mod curent peste 1000 de linii şi zeci sau chiar sute de coloane.

Afişarea în sine a tabelei nu permite ca atare o citire prea facilă şi nu prea poate duce la vreun

fel de consideraţii inteligente. E pur şi simplu prea mare, plină de cifre şi lipsită de sensuri.

Deci, ce facem?

a. Imagini de ansamblu asupra datelor. Frecvenţe şi reprezentări grafice.

Prima idee este de a prezenta în vreun mod simplu şi concis cîte o variabilă, adică o coloană a

tabelei de date.

Să presupunem că respectiva coloană conţine răspunsuri legate de frecvenţa gătitului în

familiile din Baia Mare3. 1051 de intervievaţi au răspuns la întrebarea: “Cît de des se găteşte

la dumneavoastră în familie?”. Răspunsurile posibile au fost “zilnic”, “de mai multe ori pe

3 Valorile sunt reale şi provin dintr-un sondaj efectuat în 2003. Populaţia a fost populaţia oraşului Baia Mare,

eşantionarea a fost multistadială aleatoare cu itinerariu cu luarea în considerare a cartierului de reşedinţă,

densitatea de locuire a acestuia si a genului intervievatului. Interviurile s-au efectuat la domiciliul subiecţilor

între orele 16 şi 21 asigurîndu-se prezenţa majorităţii celor angajaţi în cîmpul muncii.

Page 51: Carte de Statistica

51

săptămînă”, “săptămînal” şi “mai rar”. Tabelul cu rezultate ar avea 1051 de linii şi nu da o

imagine prea clară asupra distribuţiei datelor. Modul de a reprezenta inteligibil şi scurt

valorile ar fi să număr apariţiile fiecărei valori şi să le prezint sintetic aşa cum apar în tabelul

de mai jos. Numărul de apariţii ale unei anumite valori se numeşte frecvenţă. De aceia un

astfel de tabel se numeşte de obicei tabel de frecvenţe sau uneori tabel de frecvenţe simple

pentru că se referă la o singură variabilă.

Valoare Frecvenţă Procent Procent cumulat

Zilnic 547 52,0% 52,0%

de mai multe ori pe săptămînă 476 45,3% 97,3%

Săptămînal 26 2,5% 99,8%

mai rar 2 0,2% 100,0%

Total 1051 100%

Cum interpretăm, sau mai exact cum citim o astfel de tabelă? Să observăm întîi că variabila în

cauză este ordinală, chiar dacă forma ei are un caracter total nenumeric există o ordine bine

definită. Prima coloană de valori numerice, sub titlul de frecvenţă prezintă numărul de

persoane intervievate care au ales acest răspuns, a doua coloană ne dă ponderea procentuală a

răspunsului iar a treia cumulează acest procentaj cu procentajele din categoriile cu valoare

mai mică. Frecvenţa şi procentajul simplu se pot calcula pentru orice tip de variabilă, ele nu

fac calcule cu variabila în sine ci cu frecvenţa ei de apariţie. Procentajul cumulat are sens

numai la variabile care au o ordine definită, astfel un procentaj cumulat pentru variabile

nominale, deşi poate fi calculat, are mai puţin sens.

Ce aflăm din tabela de mai sus? În primul rînd faptul că răspunsurile s-au grupat în zona “cu

gătit frecvent”. Peste jumătate din cei întrebaţi susţin că la ei în familie se găteşte zilnic.

Numărul celor care susţin că la ei se găteşte mai rar decît săptămînal este foarte foarte mic,

numai două persoane din eşantion au răspuns astfel. Observăm de asemenea că peste 97%

dintre intervievaţi declară că la ei în familie se găteşte de mai multe ori pe săptămînă.

Paragraful de mai sus este o simplă transcriere a principalelor rezultate ale tabelei de

frecvenţe. Strategia ei este simplă şi se foloseşte des. Ea începe cu prezentarea valorii cel mai

des întîlnite. În cazul nostru este valoarea “zilnic”, apoi se trece la valoarea cea mai rară. La

Page 52: Carte de Statistica

52

variabile ordinale se obişnuieşte eventual o prezentare a capetelor scalei. În cazul de mai sus

este vorba despre aceleaşi valori. Apoi se prezintă rezultate cumulative, dacă au sens. O

precuaţie mare trebuie avută la menţionarea valorilor numerice. Aici se poate induce în eroare

destul de mult. Un obicei bun este de a nu se specifica valorile procentuale de după virgulă.

După dorinţă se poate trunchia sau rotunji. Statistica este o estimare cu o anumită eroare.

Prezentarea unor valori cu tot cu zecimale produce impresia unei exactităţi pe care nu o putem

promite cu conştiinţa curată.

O a două regulă legată de prezentarea procentajelor se referă la valorile rare. În cazul unor

categorii cu număr mic de cazuri valorile procentuale pot induce în eroare. Aceasta se

întîmplă în special atunci cînd procentajele se calculează pe volumuri populaţionale care

oricum sunt mici. Deci, spuneţi numărul de cazuri şi nu procentajul aferent unei valori cand

acest număr e mic. Ce înseamnă mic depinde de decizia fiecăruia dar este de bun simţ să

considerăm o opţiune rară una care nu are mai mult de 10-15 cazuri. Pe de altă parte în

general statistic se consideră un lot mic, un lot cu mai puţin de 30 de cazuri. Cum spuneam,

conştiinţa fiecăruia şi particularităţile cercetării trebuie să decidă în cele din urmă.

Tabelele de frecvenţe sunt adesea însoţite de grafice. O prezentare grafică este pentru mulţi

cititori mai confortabilă, permite de obicei o înţelegere mai rapidă a unor trenduri sau

distribuţii. Există însă multe feluri de prezentări grafice şi nu toate se potrivesc pentru orice

situaţie.

Graficele cele mai simple şi generale, valabile în aproape toate situaţiile sunt graficele cu

bare. Ele pot fi folosite şi în cazul variabilelor nominale şi nici nu depind prea mult de

numărul de valori pe care variabila le poate lua. Iata mai jos un exemplu pentru variabila

prezentată deja.

Page 53: Carte de Statistica

53

zilnic de mai multe ori pe saptamana

saptamanal mai rar

27. Cat de des se gateste la dvs. in familie?

0,0%

10,0%

20,0%

30,0%

40,0%

50,0%

60,0%

Pro

ce

nt

52,05%

45,29%

2,47%0,19%

Dimensiunea barelor trebuie să fie proporţională cu valoarea variabilei. Iată un frumos

exemplu din presă cum nu se face un grafic simplu:

În exemplu, valorile de pe bare nu au nici o legătură cu dimensiunea barelor. Exemplul cel

mai flagrant este la graficul din mijloc: bara cu valoarea dată de 82 este mai mare decît cea cu

valoarea 98, la rîndul ei mai mare decît cea de 108. Una peste alta trendul crescător este

anulat, chiar inversat. Mai mult, bara cu salariul mediu din 1990, valoarea 153 USD este mult

mai mare decît bara cu salariul mediu din 2005, valoare 257 USD. Exceptînd că datele nu

prea au legătură cu cele oficiale, dimensiunea greşită a barelor crează impresia unui nivel

salarial din 1990 neatins în prezent. Părea simplu de făcut un grafic cu bare. Uite că se poate

da în bară şi aici.

În graficele cu bare pot apărea valorile pe baza căruia a fost construit fie procentual fie ca şi

frecvenţe. Dimensiunea barelor va fi desigur aceiaşi fie că s-a ales reprezentarea pe baza

Page 54: Carte de Statistica

54

valorilor absolute sau procentuale. Tot ce se schimbă este scala axei verticale. Forma şi

culoarea barelor pot fi desigur diverse. Clar este că vizualizarea oferă un acces mai direct la

informaţie şi permite aceasta şi unor cititori care preferă să nu aibă de a face cu valori

numerice dacă nu este neapărat necesar.

Pe lîngă graficele cu bare mai sunt şi alte variante care însă se potrivesc mai degrabă unor

situaţii particulare. De exemplu, graficul de tip plăcintă (sau tort, cum preferaţi) prezintă

valorile ca şi felii dintr-o arie de disc. Un asemenea grafic este deosebit de potrivit pentru

reprezentarea procentajelor pentru că transmite bine faptul că valorile împart un tot, o

populaţie, în categorii.

52,05%45,29%

2,47%

27. Cat de des se gateste la dvs. in

familie?

zilnic

de mai multe ori pe saptamana

saptamanal

mai rar

Graficul plăcintă de mai sus într-adevăr ne dă o imagine mai clară cît de puţin reprezintă din

ansamblu procentajul de 0,2% şi chiar cel de 2,5%. Un alt avantaj al graficului plăcintă este

posibilitatea de evidenţiere a unei felii considerate importante. De exemplu:

Page 55: Carte de Statistica

55

52,05%45,29%

2,47%

0,19%

27. Cat de des se gateste la dvs. in

familie?

zilnic

de mai multe ori pe saptamana

saptamanal

mai rar

Pe de altă parte dacă variabila ar fi avut un număr mare de valori folosirea unei diagrame

plăcită ar fi fost mai degrabă menită să inducă în eroare. Iată un exemplu comparativ cu un

grafic cu bare şi unul plăcintă pentru o altă întrebare din acelaşi sondaj.

Page 56: Carte de Statistica

56

piata agro-alimentara

supermarket

buticCenter

chiosc

magazin specializat

centru comercial

depozit en-gros

Metro

Hoffer

Profi

nu am loc preferat

Mol

moldova

2. De unde va place cel mai mult sa va faceti cumparaturile?

0,0%

10,0%

20,0%

30,0%

Pro

ce

nt

2. De unde va place cel mai mult sa va

faceti cumparaturile?

piata agro-alimentara

supermarket

butic

Center

chiosc

magazin specializat

centru comercial

depozit en-gros

Metro

Hoffer

Profi

nu am loc preferat

Mol

moldova

Graficul plăcită transmite poate o imagine de ansamblu interesantă dar nu prea poate fi citit

atunci cînd sîntem interesaţi şi de opţiunile mai rare.

O altă problemă a graficului plăcintă este că se pretează în special variabilelor nominale. Dacă

în graficul cu bare, precum şi în alte forme de grafice o ordine a valorilor este vizibilă la un

grafic plăcintă o astfel de ordine nu se percepe. Evident, în cazul variabilelor nominale nici nu

ne dorim o asemenea ordine.

Al treilea tip de grafic foarte răspîndit este graficul linie. Acesta seamănă cel mai mult cu

graficele de funcţii matematice aşa cum se învaţă la şcoală. Crează deci senzaţia unei ordini a

valorilor şi chiar unei continuităţi. Ca atare nu merge la variabile nominale în nici un caz, dar

nu e de dorit nici la variabile ordinale. Este însă ideal pentru valori numerice fie ele

intervalice, fie raţionale şi în special cînd numărul valorilor e mare. Ca în exemplul de mai

jos.

Page 57: Carte de Statistica

57

7 17

19

21

23

25

27

29

31

33

35

37

39

41

43

45

47

49

51

53

55

57

59

61

63

65

67

69

71

73

75

77

80

83

59. Cati ani aveti?

0

10

20

30

40

valo

ri a

bso

lute

Graficul reprezintă distribuţia pe vîrste a eşantionului din cercetarea din care am tot dat

exemple în acest capitol. Pe axa orizontală se găsesc vîrstele celor ce au răspuns la întrebări,

pe verticală e numărul persoanelor de o anumită vîrstă.

Pe scurt deci: graficele cu bare merg în aproape orice situaţie, plăcintele sunt perfecte pentru

variabile nominale şi în special dacă au un număr mic de valori, graficele linie se potrivesc la

variabile raţionale şi intervalice şi în special dacă au un număr mare de valori.

Pe lîngă aceste trei tipuri, care sunt într-adevăr cele mai răspîndite, există o serie de alte

variante, grafice suprafaţă, diagrame de puncte, histograme, precum şi o serie întreagă de

grafice care sunt legate de anumite prelucrări statistice cum ar fi graficele de regresie, de

cluster, şi altele. Unele le vom pomeni la momentul oportun, altele nu.

Încă un comentariu. Nu am pomenit de felul cum se pot analiza graficele, pur şi simplu pentru

că părerea mea este că nu trebuie analizate graficele, ci datele care se află în spatele lor. Un

grafic este o prezentare vizuală, desigur confortabilă şi deosebit de utilă, dar nu conţine mai

mult decît tabelul pe baza căruia a fost creat. Poate însă induce în eroare mult mai mult. Luînd

prea de bune ce vedem pe grafic putem să supraevaluăm, de exemplu, tendinţe care statistic

nu sunt relevante. Un grafic simplu, precum cele din exemplele de mai sus nu spune cu nimic

mai mult decît un tabel de frecvenţe. Totuşi privind graficul există o tentaţie de a spune, de a

vedea mai mult. Aceasta este desigur benefică dacă ne ajută să alegem testele de care avem

nevoie în continuare, dar total malefică dacă ne duce la concluzii fără să mai calculăm nici un

Page 58: Carte de Statistica

58

fel de teste, cum de altfel se mai întîmplă. Deci, precauţie şi sfatul meu este, prezentaţi

graficele dar analizaţi rezultatele de calcul.

Toate graficele din exemplele din această secţiune s-au referit la prezentarea unei singure

variabile. Există desigur diferite moduri de a prezenta mai multe variabile pe acelaşi grafic. În

capitolul 6. al acestei cărţi voi încerca să dau ceva amănunte despre cum se lucrează statistic

cu relaţia dintre mai multe variabile. Voi începe cu tabelele de relaţionare care într-un fel sunt

similare tabelelor de frecvenţe pentru cazul a două (sau arareori trei) variabile. Atunci voi

prezenta şi graficele aferente acestor tabele, aşa cum acum am pus unele lîngă altele tabele de

frecvenţe şi graficele simple în acest capitol.

b. Indicatori agregaţi

Indicatorii statistici agregaţi sunt valori calculate pe baza uneia sau mai multor variabile şi

care ne oferă informaţii despre ansamblul valorilor variabilei sau despre valorile variabilei

privite ca un grup de date. De obicei se identifică, mai mult sau mai puţin forţat, întreg

domeniul statisticii descriptive cu indicatorii statistici.

Care sînt însă aceşti indicatori? Vrînd, nevrînd fiecare dintre noi ne-am lovit de mediile

aritmetice dacă nu şi de alţi indicatori. În secţiunea aceasta o să prezint indicatorii principali

pentru analiza tendinţei centrale şi distribuirii datelor, apoi în capitolul 6. voi reveni la cîţiva

indicatori care ne ajută să analizăm relaţia dintre mai multe variabile.

I. Tendinţa centrală.

Sub numele acesta un pic pretenţios se ascund diferite feluri de a calcula media unor variabile.

Ca atare s-ar putea să fie aparent uşor de înţeles ce este tendinţa centrală a unei variabile, aşa

cum desigur este uşor de înţeles şi de ce este ea atît de criticată ca şi mod de a descrie un grup

de date. De aceea, cred că pot să scap fără să mai dau şi o definiţie.

Principalul indicator pentru tendinţa centrală este media aritmetică simplă. Pe lîngă faptul că

destul de rar calculul unei medii dă informaţii relevante despre o variabilă trebuie să

menţionăm şi faptul că uneori calculul mediei este chiar greşit conceptual. Pentru

corectitudine să prezentăm însă un exemplu şi, bineînţeles, prima formulă din această carte.

Page 59: Carte de Statistica

59

Să presupunem că am cules numărul de la pantofi a studentelor din seminarul nostru de

statistică. Rezultatul ar putea fi sintetizat într-o tabelă în felul următor.

Nume Număr

Ana 37

Ioana 36

Oana 38

Simona 38

Olivia 39

Angela 39

Carla 37

Nadina 39

Media 37,88

Media = ( NumărAna + NumărIoana + NumărOana

+ NumărSimona + NumărOlivia +

NumărAngela + NumărCarla +

NumărNadina ) / 8

Page 60: Carte de Statistica

60

Media a fost calculată astfel: s-au adunat toate valorile din coloana Număr aferente numerelor

de pantofi şi apoi suma s-a împărţit la numărul fetelor, adică la 8. Valoarea finală, care apare

şi pe ultima linie a tabelei este media aritmetică a numerelor la pantofi a fetelor din grupa de

seminar. Şi această medie este 37,88. Ne spune asta ceva? Sigur. Anume că media numerelor

la pantofi ale fetelor din această grupă de seminar este 37,88. Ne poate spune mai mult decît

atît? Nu, în nici un caz. Ne poate fi de vreun folos? Depinde.

În general media unei variabile x se notează cu xˉ, μ(x), μx sau cu E(x), unde E provine din

engleză de la expectancy. De altfel, media se mai numeşte şi în limba romană uneori,

aşteptare statistică. Originea acestei denumire vine de la media măsurătorilor repetate ale

aceluiaşi reper. Media măsurătorilor reprezintă, statistic vorbind, apropierea cea mai bună de

valoarea reală care se măsoară, de aceea media este valoarea “aşteptată” a măsurătorii.

Calculul simplu al mediilor este arareori util în sine. Poate, de exemplu, dacă se face design-ul

unui ascensor, o informaţie despre greutatea medie a unei persoane dintr-o anumită populaţie

poate fi importantă pentru că ar sta la baza specificării numărului maxim de persoane care pot

călătorii de o dată cu ascensorul. Pe de altă parte, media poate fi un bun indicator comparativ.

De exemplu, dacă greutatea medie a unui student de la facultatea de litere e mai mică decît

greutatea medie a unui student de la facultatea de mecanica (ceea ce este desigur adevărat!)

această informaţie poate avea o anumită valoare în contextul unei cercetări. Aşa cum vom

vedea există teste statistice care compară medii ale unor variabile pe eşantioane diferite pentru

a avea indicii dacă populaţiile din care s-au ales aceste eşantioane diferă din prisma

variabilelor studiate. Deci, media aritmetică poate fi o apropiere facilă, deşi superficială

pentru a vedea dacă două, sau mai multe populaţii diferă. Să luăm de exemplu ipoteza

următoare: “nu există diferenţe între studenţii de la mecanică şi cei de la litere.” Un test poate

respinge această ipoteză dovedind că există o diferenţă de greutate medie relevantă între

aceste două populaţii. Deci ceva diferenţe trebuie să existe între cele două populaţii. Pentru

cei ce încă nu s-au prins, diferenţa de greutate vine din faptul că ponderea fetelor este

incomparabil mai mare la facultatea de litere decît la facultatea de mecanică şi fetele sînt, în

medie mai uşoare decît băieţii.

Sigur, butada cu omul care stă cu un picior într-un lighean cu apă clocotită şi cu unul într-un

lighean cu apă cu gheaţă dar în medie ar trebui să-i fie bine, este strict matematic corectă.

Page 61: Carte de Statistica

61

Totuşi, media este un indicator comparativ valoros tocmai pentru ca este simplu şi induce în

eroare doar atunci cînd îi conferim un conţinut informaţional mai mare decît are.

Cea mai mare problemă legată de medii este calculul acestora atunci cînd variabilele nu

permit aceasta. Principial matematic este corect să calculăm medii atît pentru variabile

raţionale cît şi pentru variabile intervalice. Astfel media greutăţii sau a înălţimii (care sunt

variabile raţionale) sunt conceptual la fel de corecte ca şi media temperaturilor sau a orelor de

deşteptare (care sunt variabile intervalice). În toate aceste cazuri media are sens pentru că

calculul diferenţelor este consistent. Adică, dacă din 5 kg de orez vindem 3 kg ne rămîne la fel

de mult ca atunci cînd vindem dintr-un stoc de 60 kg, 58 kg. Şi de asemenea dacă am dormit

de la ora 5 dimineaţa pînă la ora 12 înainte de masă am dormit tot atîtea ore ca şi de la 10

seara pînă la 5 dimineaţa, atîta doar că poate sînt mai mahmur în primul caz. Deci sumele şi

diferenţele precum şi împărţirea la scalar (adică la numere şi nu la variabile aleatoare) este

consistentă atît pentru variabile raţionale cît şi pentru variabile intervalice.

Pe de altă parte nimeni nu cred că intenţionează să calculeze media unor variabile nominale,

chiar dacă ele au reprezentare numerică, cum sunt de exemplu numerele de pe tricourile unor

jucatori de fotbal. Astfel de valori, deşi sunt formal numere, sunt esenţial nume date unor

indivizi şi media lor nu are nici un sens.

Greşeala care se face însă adesea este calculul mediilor unor variabile ordinale. Este o

greşeală care este foarte adesea acceptată pentru că extinde de fapt calculul mediilor şcolare la

cercetarea socială. Nici notele de la şcoală nu sunt mai mult decît variabile ordinale. Cum am

mai spus, mulţi profesori ar accepta faptul că diferenţa dintre o notă de 7 şi una de 8 este mai

mică decît diferenţa dintre un 4 şi un 5. Totuşi, suntem învăţaţi cu mediile şcolare şi nu ne

punem problema unei posibile incorectitudini rezultate din procedura de mediere în sine.

Mediile oricăror variabile ordinale sunt desigur similare ca şi relevanţă cu acest caz. Atunci,

de ce să nu acceptăm astfel de calcule? Ei bine, departe de mine gîndul cum că o decizie

asupra vieţii unui elev e mai puţin importantă decît o cercetare ştiinţifică. Este însă un fapt că

medierea notelor este un fapt acceptat cu tot cu defectele pe care le are ca indicator pentru

nivelul de pregătire a unui elev pe o durată mai mare de timp sau chiar pentru un grup de

domenii ale cunoaşterii. Media şcolară greşeşte desigur atunci cînd aduce la egalitate o medie

de 7 rezultată dintr-un 10 şi un 4 cu o medie care s-a obţinut dintr-un 8 şi un 6. Probabil mai

greşeşte şi atunci cînd face media dintre note date de cadre didactice diferite. Ştim cu toţii că

Page 62: Carte de Statistica

62

anumiţi profesori înclină să dea note mai mici decît alţii. Astfel, pentru un 7 la un anumit

profesor s-ar putea să fie necesare cunoştiinţe mai multe decît pentru aceiaşi notă la un alt

profesor. Toate aceste consideraţii sunt cunoscute şi fac parte din bunul simţ comun pentru

oricine a trecut prin învăţămînt. Nu este însă aşa în cazul unei cercetări sociale. Variabilele

care se mediază acolo nu sunt atît de discutate ca şi notele noastre de la şcoală, ca să nu

pomenesc de notele copiilor noştrii! Ca atare relaţiile care se maschează prin calcul nu sunt

atît de evidente ca cele pe care le maschează media şcolară. Mai mult decît atît, relaţiile s-ar

putea să nici nu fie cunoscute. Aceasta e suficient pentru ca în cazul mediilor variabilelor

ordinale dintr-o cercetare statistică să fim cu adevărat induşi în eroare.

Alţi indicatori ale tendinţei centrale sunt modul şi mediana.

Modul unei variabile statistice este pur şi simplu valoarea care apare cel mai des printre datele

culese. De exemplu, în exemplul de mai sus, numărul la pantof 39 apare de 3 ori, mai des

decît oricare altă valoare. 39 va fi deci modul sau, cum se mai spune “modul distribuţiei”.

Determinarea modului nu presupune nici un calcul, ba mai mult nici măcar o ordine a

valorilor. Se poate deci stabili care e modul religiei sau cetăţeniei într-un grup de persoane,

deşi aceste variabile sunt nominale. Nu există nici o restricţie pentru folosirea modului. Pe de

altă parte spunînd că modul distribuţiei religiei în populaţia Timişorii este “creştin-ortodox”

nu spunem decît că în Timişoara sunt mai mulţi creştin-ortodoxi decît membrii ai oricărei alte

religii. Bineînteles folosind termenul de mod, propoziţia este mai greu de înţeles şi sună mai

ştiinţific. Deşi eu aş sfătui împotriva unei exprimări criptice inutile, sunt situaţii în care poate

fi de folos în contactul cu clienţi mai snobi!

Dezavantajul esenţial al modului este că ne spune chiar mai puţin decît media. Practic aflînd

care e valoarea care apare cel mai des în eşantion eliminăm din informaţia transmisă o mare

parte a datelor culese. Dacă media se calcula totuşi din toate datele culese, modul nu reflecta

decît o parte a datelor culese. Ca atare determinarea şi raportarea modului au sens numai la

variabile nominale, unde altceva nu se poate folosi.

Mediana este un indicator al tendinţei centrale care este gîndit esenţialmente pentru variabile

ordinale. Mediana necesită existenţa unei ordini între valorile culese dar nu şi efectuerea unor

calcule. Să revenim deci la picioarele fetelor. Pentru a determina mediana valorile culese se

ordonează, aşa cum se vede din tabelul de mai jos:

Page 63: Carte de Statistica

63

Nume Număr

Ioana 36

Ana 37

Carla 37

Oana 38

Simona 38

Olivia 39

Angela 39

Nadina 39

Mediana 38

Mediana este valoarea care apare la mijlocul listei. În cazul nostru este 38, valoarea de pe

poziţia a 4-a şi a 5-a dintr-o listă de 8 cazuri. Dacă am fi cules 1001 de valori, valoarea de pe

poziţia 501 ar fi fost mediana. Precum se vede, mediana poate avea şi două valori diferite în

cazul în care lista are un număr par de elemente. Vorbim atunci de valorile mediane. Uneori

se calculează o medie artimetică între cele două valori mediane, aceasta însă este desigur un

fel de prostie pentru ca decizia de a folosi mediana se ia tocmai acolo unde nu este indicată

calcularea unei medii aritmetice.

II. Distribuţia datelor

Aşa cum am văzut şi din exemplele precedente, media este adesea desconsiderată pentru că

obturează distribuirea datelor. O medie de 7 poate rezulta dintr-un 4 şi un 10 la fel ca şi dintr-

un 8 şi un 6. O temperatura medie de 250 C poate rezulta dintr-o maximă diurna de 30

0 C şi o

minimă noctura de 200 C sau dintr-o maximă diurnă de 50

0 C şi o minimă nocturnă de 0

0 C.

De aceea atunci cînd se descrie statistic o variabilă, media se dublează întotdeuna de un

indicator care să ne transmită cît de departe sunt distribuite datele în jurul mediei.

Există mai multe metode de calcul ale distribuirii datelor. Am ales să le parcurg în ordinea

complexităţii calculului. Prima data însă o consideraţie. Distribuţia datelor implică un sens al

distanţei faţă de medie. Spunem că datele sunt mai îndepărtate sau mai apropiate de medie.

Aceasta presupune desigur o ordine şi nu se poate aplica unor variabile nominale. Ca atare

Page 64: Carte de Statistica

64

distribuţia datelor se poate măsură numai în cazul variabilelor care sunt măcar ordinale.

Precum vom vedea majoritatea indicatorilor necesită chiar variabile intervalice sau raţionale.

Variantele cele mai simple sunt desigur cele gîndite pentru variabile ordinale. Toate acestea se

bazează pe ordonarea valorilor din listă şi aplicare unei metode care se bazează pe conceptul

de interval. Hai să revedem lista cu numerele de pantofi.

Nume Număr

Ioana 36

Ana 37

Carla 37

Oana 38

Simona 38

Olivia 39

Angela 39

Nadina 39

Mediana 38

Intervalul este format întotdeuna din două valori. Intervalul simplu este perechea formată din

valoarea cea mai mică şi cea mai mare care au fost culese. În cazul nostru intervalul datelor

este (36, 39).

Am vazut că mediana împarte lista în două. O astfel de împărţire se poate face în continuare şi

în cele două jumătăţi astfel lista întreagă se împarte în patru părţi numite cvartile. Se obţin

două valori noi care sunt de fapt medianele jumătăţilor de listă. Perechea lor este intervalul

intercvartilic, în cazul nostru (37, 39).

Se preferă uneori intervalul intercvartilic intervalului simplu al tuturor datelor deorece astfel

se elimină valorile extreme. Se poate întîmpla ca într-un eşantion că apară cazuri extreme,

rare care să denatureze rezultatele. Evident astfel de cazuri vor fi însă puţine. La urma urmei,

dacă nu ar fi puţine nu ar mai denatura rezultatul, ci ar fi chiar parte esenţială a acestuia!

Utilizînd intervalul intercvartilic avem un termen de comparatie care nu ia în seamă cazurile

rare, extreme, cazurile outlier (periferice).

Page 65: Carte de Statistica

65

Reprezentarea de mai jos sper sa clarifice şi mai bine sensul intervalului intercvartilic.

Ioana Ana Carla Oana Simona Olivia Angela Nadina

36 37 37 38 38 39 39 39

Prima cvartilă A doua cvartilă A treia cvartilă A patra cvartilă

C0 C1 C2 C3 C4

Mediana

Valoarea care separă a doua de a treia cvartilă, valoarea C2, este Mediana. Intervalul (C0, C4)

este intervalul datelor, iar (C1, C3) este intervalul intercvartilic. Uneori se numeşte chiar

valoarea C1 prima cvartilă sau cvartila inferioară, C2 a doua cvartilă şi C3 a treia cvartilă sau

cvartila superioară.

Metoda pe care am prezentat-o mai sus poate desigur fi extinsă la un număr mai mare de

astfel de grupări. În general asemenea împărţiri ale datelor ordonate se numesc cvantile sau q-

cvantile unde q este numărul de intervale. Împărţirea cea mai uzuală rămîne cea în patru

grupuri, adică în cvartile (4-cvantilele), dar se mai găsesc prin literatură şi conceptele de

cvintile (împărţirea în 5 intervale de valori), decile (împărţirea în 10 intervale), percentile

(împărţirea în 100 de intervale) şi altele ale căror nume sunt construite analog.

Prezentarea intervalelor ca perechi de valori nu necesită nici un fel de calcule matematice.

Uneori intervalele se raportează însă ca diferenţe ale valorilor extreme, adică ca lungime a

intervalului. Aceasta poate fi puţin problematic în cazul variabilelor ordinale nu ridică însă

desigur nici un fel de probleme pentru variabile intervalice sau raţionale.

Folosind notaţiile de mai sus intervalul datelor (în engleză se foloseşte range) se calculează

astfel:

range = C4 – C0

adică diferenţa dintre cea mai mare şi cea mai mică valoare culeasă. Unele definiţii vorbesc în

acest context despre lungimea celui mai mic interval care conţine toate datele.

Intervalul intercvartilic, notat de multe ori IQR, este:

Page 66: Carte de Statistica

66

IQR = C3 – C1

O altă denumire utilizată uneori pentru intervalul intercvartilic este aceea de jumătate mediană

a datelor.

Cu aceste calcule am făcut deja un pas în direcţia indicatorilor distribuirii datelor intervalice şi

raţionale. În cazul acestor date posibilităţile de calcul fiind mult mai mare s-au căutat metode

mai compexe care să permită o descrierea cît mai completă a datelor într-o singură valoare.

Asta înseamnă că şi formulele vor fi puţin mai complicate. Există mulţi astfel de indicatori dar

am decis să mă concentrez numai pe cei ce se folosesc în mod uzual, anume abaterea standard

(numită în analogie cu termenul englezesc şi deviaţie standard) şi dispersia (numită din acelaşi

motiv şi varianţă).

Dispersia se calculează după următoarea formulă:

σ2 =

1/N ∑i=1,n (xi - xˉ)

2

Merită să comentez un pic formula de mai sus. Nucleul, miezul ei este o diferenţă, o abatere,

de aici şi numele indicatorului. Se scade din valoarea xi , adică valoarea variabilei x pentru

individul i media valorilor x, adică xˉ. Adică, pentru început se calculează cu cît se abate

fiecare valoare culeasă de la medie. Este şi normal să procedăm aşa, la urma urmei căutăm o

valoare care să exprime cît de distribuite sunt datele, adică cît de tare se abat ele de la medie.

Dorim însă o singură valoare pentru întreg setul de date. O idee ar fi să adunăm toate aceste

abateri. Ce s-ar întîmpla daca am face aşa. Ei bine, unele abateri sunt pozitive, altele sunt

negative pentru că unele valori sunt sub medie, altele evident peste medie. Dacă am aduna

toate abaterile, valorile pozitive s-ar atenua cu cele negative şi nu am mai afla cît de

distribuite sunt datele cu adevărat. De fapt, e chiar mai grav decît atît. Suma tuturor abaterilor

va fi întotdeuna 0, şi asta din motive pur şi simplu matematice de calcul al mediei aritmetice.

De aceea ridicăm la pătrat diferenţa, abaterea. Astfel se obţine o valoare care este întotdeuna

pozitivă şi abaterile pozitive nu se mai anulează cu abaterile negative. Aşa se ajunge la

formula (xi -x)2. Apoi adunăm toate aceste abateri pentru ca să obţinem o singură valoare care

să spună ceva despre abaterea totală. Aşa ajungem la ∑i=1,n (xi -x)2. Spune oare această sumă

Page 67: Carte de Statistica

67

cu adevărat ceva? Ei bine, da şi nu. Da, pentru că este într-adevăr o sumă de abateri. Totuşi

nu, pentru că un număr mare de valori chiar destul de apropiate pot da aceiaşi sumă totală ca

şi un număr mic de valori care sunt mult mai îndepărtate de medie. Deci trebuie să împărţim

acest rezultat la numărul datelor culese, la volumul populaţiei studiate. De aceea împărţim

suma la N.

Rezultă formula pe care am prezentat-o şi anume:

σ2 =

1/N ∑i=1,n (xi -x)

2

Unele lucrări de statistică preferă în locul dispersiei rădăcina ei pătrată σ, numită şi abatere

standard sau deviaţie standard. Ideea este că, deoarece abaterea s-a calculat cu ridicare la

pătrat, pentru a obţine un indicator care să exprime mai corect cu cît se abat cu adevărat

valorile de la medie ar trebui extras radical din valoarea rezultată din calcul. Aceasta se mai

numeşte şi abatere medie pătratică, o denumire care exprimă foarte bine modul de calcul.

Într-adevăr în calcule se face o medie, adică o sumă împărţită la numărul de valori adunate, a

abaterii ridicate la pătrat. Avantajul abaterii standard este deci acela că valoarea ei poate fi

foarte bine comparată cu media.

În viaţa reală avem însă problema de a nu putea culege toate datele unei variabile aleatoare, de

aceea şi abaterea standard sau dispersia pe care o calculăm va trebui tratată ca o estimare

bazată pe un eşantion a abaterii reale, adică a celei care există la nivelul întregii populaţii.

Atunci ceea ce vom face pentru a ne asigura că reducem riscul de a greşi, este să

supraestimăm puţin abaterea faţă de valoarea calculată prin formulă. Modul de calcul obişnuit

este înlocuirea valorii N, a volumului populaţiei cu N-1. O altă diferenţă, de astă dată pur

convenţională este notarea. Dacă de regulă dispersia calculată la nivel de populaţie ne notează

cu σ2, dispersia estimată pe baza unui eşantion se notează mai de grabă cu s

2. Formula este

deci:

s2 =

1/(N-1) ∑i=1,n (xi -x)

2

Analog se obţine şi abaterea standard estimată pe baza unui eşantion, s.

Page 68: Carte de Statistica

68

Am prezentat în acest capitol indicatorii statistici de bază pentru descrierea unei singure

variabile. Există desigur în statistică şi alţi indicatori, cum ar fi de exemplu cei de kurtosis sau

înclinare (în engleză, skewness), indicatori care se pot înţelege ca descriptivi pentru forma

distribuţiei unei variabile, adică chiar pentru felul cum arată graficul variabilei. Aceşti

indicatori sînt însă destul de rar utilizaţi în practica cercetărilor empirice, fie ele sociale sau

chiar din ştiinţele exacte. De asemenea există o serie de indicatori care descriu relaţia dintre

două sau mai multe variabile. La aceştie ne vom referi pe larg în capitolul 6.

Cum s-ar zice am terminat aperitivele, reci şi calde, grafice, frecvenţe simple şi indicatori

descriptivi. Vom trece acum, în capitolul care vine la temelia analizei statistice, supele şi

ciorbele statistice, esenţele, cum s-ar zice, adică testele statistice.

Page 69: Carte de Statistica

69

Capitolul 5. Supe, ciorbe şi teste statistice simple.

Testele statistice ar trebui să fie părţi obligatorii ale oricărei cercetări bazate pe statistică. Ele

sînt metodele de cunoaştere cele mai puternice în statistică. În capitolul introductiv al acestei

cărţi am discutat un pic despre felul cum cunoaşte statistica şi am prezentat conceptual şi cam

general ideea care stă în spatele testării statistice, ideea respingerii ipotezelor. În capitolul de

faţă vom vedea cum se poate face aceasta din punct de vedere tehnic, care sunt paşii,

algoritmul pentru o testare statistică.

Pentru a înţelege însă felul cum se calculează şi se analizează testele statistice e nevoie, pe

lîngă acea introducere teoretică ce ţine oarecum de filosofia metodei ştiinţifice, şi de cîteva

cunoştiinţe de matematică. Nu e mare lucru şi voi încerca să le formulez cît mai simplu.

a. Distribuţia normală

Cea mai mare parte a testelor statistice se bazează pe faptul că datele sînt distribuite “normal”.

Aşa cum am mai pomenit în capitolul introductiv, o atare presupunere este justificată prin

teorema limită centrală. Am lăsat însă complet în obscuritate ce înseamnă de fapt această

“normalitate” a distribuţiei datelor. Conceptul pe care îl vom discuta pe larg nu e chiar atât de

îndepărtat de ceea ce înțelegem prin normal în bunul simț comun. Anume cum e ceva ce e

distribuit normal? Pentru asta să ne aducem aminte ce este distribuția: sunt toate valorile pe

care le ia o variabilă, așa cum apar ele, de exemplu, într-o tabelă de frecvențe. Să zicem că

punem acolo greutățile măsurate pentru câinii de aceiași rasă de la o expoziție canină. Cum e

normal să fie greutățile? E normal ca ele să aibă o medie specifică rasei și majoritatea să aibă

greutatea apropiată mediei. Mai mult, e normal ca numărul câinilor de o anumită greutate să

fie cu atât mai mic cu cât greutatea e mai departe de medie. Media de greutate pentru un

mascul de Golden Retriever este pe undeva pe la 35 kg. Sigur vor fi câini cu greutate mai

mare sau mai mică, dar normal este ca aceștia să aibă totuși greutăți apropiate și numai puțini

să fie cu adevărat departe de medie. Mai mult, așa cum am mai spus, să fie cu atât mai puțini

de o anumită greutate cu cât aceasta e mai departe de medie, adică mai mare sau mai mică.

În continuare o să vă rog să aveți puțină răbdare. Urmează o parte de matematică destul de

ușoară care însă poate produce unora indigestie, urticarie sau alte efecte secundare. Totuși ar

fi bine să încercați, eventual în doze mai mici …

Page 70: Carte de Statistica

70

Ceea ce am reprezentat de fapt până acum într-o tabelă de frecvențe este o distribuţie

aleatoare sau probabilistă, adică o funcţie care leagă valorile unei variabile de probabilitatea

(sau frecvența, adică o aproximare a probabilității) cu care pot apărea aceste valori. Corect

matematic această funcţie se numeşte densitate de probabilitate. Pentru fiecare valoare pe care

o poate lua o variabilă, densitatea de probabilitate ne spune care e probabilitatea ca această

valoare să fie cu adevărat întîlnită. Fie de exemplu, aruncarea cu banul. Avem atunci două

valori, cap şi stemă şi fiecare are probabilitatea de a apărea de ½ ori. Adică ori e cap, ori e

stemă. Şi atît. Densitatea de probabilitate va fi deci o funcţie care nu are decît două argumente

posibile. Matematic definiţia asta se scrie cam aşa:

densitate : {cap, stemă} → (0, 1)

Funcţia densitate ia valori întotdeuna în intervalul (0, 1) pentru că valorile pe care le ia sunt

probabilităţi şi probabilităţile sunt întotdeuna între 0 şi 1. Probabilitate 0 înseamnă de fapt că

evenimentul în cauză este imposibil, 1 înseamnă că este sigur. Valorile funţiei densitate din

exemplul nostru vor fi:

densitate (cap) = ½

densitate (stemă) = ½

Desigur densităţile de probabilitate pot fi mult mai complicate decît atît dacă valorile care le

poate lua o variabilă devin mai multe. Rămîn însă cîteva reguli clare:

1. densitatea ia întotdeuna valori între 0 şi 1.

2. suma tuturor valorilor pe care le ia densitatea, adică pentru toate

valorile posibile ale variabilei, este 1.

Distribuţia normală, numită şi Gaussiană4 este de fapt o familie de mai multe distribuţii cel

mai bine caracterizabile prin funcţiile lor de densitatea care se pot descrie cu o singură

formulă dependentă de doi parametrii. Graficul acestor funcţii, numit şi Gaussiană, curba lui

Gauss sau clopotul lui Gauss este foarte cunoscut chiar dacă nu întotdeuna bine înţeles.

4 Atribuirea distribuţiei normale lui Gauss nu este întru totul corectă. Deşi Gauss a avut un rol important în

analiza distribuţiei normale nu el a fost cel ce a definit-o ci de Moivre în 1734, deci mulţi ani înainte de lucrările

lui Gauss pe această temă, publicate în 1809. De asemenea nu el a fost cel ce a denumit curba clopot. Aceasta i

se datorează lui Jouffret şi a avut loc mai tîrziu, în 1872.

Page 71: Carte de Statistica

71

Să aruncăm o privire la un astfel de clopot al lui Gauss înainte de a merge mai departe.

Ca pe orice grafic de funcţie pe desenul de sus avem reprezentate puncte care corespund unor

valori de pe două axe. Axa x a unei funcţii densitate de probabilitate reprezintă întotdeuna

valorile pe care le poate lua variabila descrisă. Aşa cum la variabila “aruncarea cu banul”

acestea erau “cap” şi “stema”, la o distribuţie normală valorile sînt toate numerele reale.

Distribuţia din grafic se mai numeşte şi distribuţia normală standard, dar vom mai reveni la

acest fapt. Să vedem prima dată ce ne mai poate spune graficul de mai sus. În primul rînd,

distribuţia normală este o distribuţie continuă. Adică funcţia de densitate are valori de

probabilitate pentru toate punctele de pe axa x, nu doar pentru anumite puncte. Mai simplu

spus, densitatea de probabilitate e o curbă continuă, fără întreruperi, orice valoare de pe axa x

are un corespondent pe curbă.

Mai mult, deşi din grafic nu rezultă foarte clar, va trebui să mă credeţi pe cuvînt că distribuţia

normală este şi nemărginită. Adică orice valoare poate fi atinsă, doar că unele se ating cu

probabilitate foarte, foarte mică.

Pe grafic, forma de clopot a curbei rezultă din faptul că valorile pe care le poate atinge

variabila se adună în jurul unui punct anume. În varianta standard, cea din desenul de mai sus,

Page 72: Carte de Statistica

72

acest punct este valoarea 0. Faptul că aici curba se ridică la punctul ei cel mai înalt înseamnă

de fapt că această valoare e atinsă în culegerea variabilei cu probabilitatea cea mai mare, de

aproape 0,4 sau 40%. Pe măsură ce ne îndepărtăm de acest punct central probabilitatea scade

continuu, astfel încît valori mai mici decît -4 sau mai mari decît +4 se ating cu probabilităţi

aproape nule, fiind aproape imposibil de întîlnit practic. Să nu uităm însă de cățeii noștrii.

Deci, cum ziceam, normal e să fie mulți cu greutate medie și apropiată de medie, iar cu cât

valoarea greutate e mai departe de medie, cu atât probabilitatea de a găsi căței cu greutatea

aceasta e mai mică. Dacă am reprezenta asta grafic, ar ieși ceva cam ca in imagine. Desigur

media nu ar fi zero și poate că forma graficului ar fi mai ascuțită sau mai aplatizată dar ar

semăna mult cu graficul de mai sus, și asta pentru că deși distribuția ar fi normală nu ar fi

normala standard.

Deci, dacă culegem date ale unei variabile distribuite normal standard avem cele mai multe

şanse să le găsim în apropierea punctului 0 şi mai mult decît atît, o valoare va avea şanse de

apariţie cu atît mai mici cu cît e mai departe de 0.

Clopotul este în plus simetric faţă de punctul central 0. Probabilitatea aferentă unei valori a

este aceaşi ca şi pentru –a. Această simetrie este un motiv suficient pentru a observa că

valoarea centrală, punctul 0 în cazul desenului de mai sus, este mediana distribuţiei, dar în

acelaşi timp şi media şi modul distribuţiei normale.

Spuneam că distribuţiile normale formează o familie. Există două caracteristici care determină

distribuţia normală: media şi abaterea standard (sau dispersia, e totuna de fapt). Dacă revenim

la grafic, o modificare a mediei va împinge pur şi simplu întregul grafic mai la stînga sau mai

la dreapta (de la 0 la 35 în cazul greutății pomenite). Pe de altă parte, o modificarea a abaterii

va face ca datele să fie distribuite mai larg. Adică, pe măsură ce creşte abaterea standard curba

devine mai plată, probabilitatea unor valori mai îndepărtate de medie crescînd şi bineînţeles

aducînd după sine scăderea probabilităţii aferente mediei. Aceasta are loc pentru că, aşa cum

am mai scris, suma tuturor probabilităţilor posibile ale unei densităţi de probabilitate trebuie

să rămînă 1. Dacă abaterea standard e mai mică, probabilitatea unor valori îndepărtate de

medie e desigur şi ea mai mică şi curba se ascute crescînd probabilitatea valorilor apropiate

mediei. Forma standard din graficul de mai sus se obţine pentru o medie 0 şi o abatere

standard 1.

Page 73: Carte de Statistica

73

În graficul de mai sus sunt reprezentate 4 distribuţii normale diferite, pe lîngă cea standard

avem o distribuţie cu media schimbată la o valoare mai mică, -2 şi dispersia micşorată la 0,5.

Avem pe grafic şi trei distribuţii cu media egală cu 0. Una este distribuţia standard, iar alte

două au dispersii schimbate, una cu o dispersie mai mare, de 5 şi una cu o dispersie mai mică,

de 0,2. Se vede cum distribuţia cu dispersie mare, adică cu valorile distribuite mai larg e mult

aplatizată, iar distribuţia cu dispersie mică e mai ascuţită decît varianta standard.

Am ocolit pînă acum formula funcţiei de densitate reprezentate aici. Formula este destul de

complexă, dar pot linişti pe oricine, o cunoaştere a ei nu este necesară pentru aplicarea, citirea

şi analiza corectă a unor teste statistice şi nici măcar pentru alte procedee statistice chiar mai

avansate.

Densitatenormală =

În formula de mai sus, s-a notat, ca de obicei, cu μ media şi cu σ abaterea standard. Distribuţia

normală de medie μ şi abatere standard σ, adica dispersie σ2 se notează în general N(μ, σ

2).

Aşa cum am văzut mai sus distribuţia normală standard este deci N(0, 1).

Page 74: Carte de Statistica

74

Înainte de a vedea cîteva proprietăţi importante ale distribuţiei normale, să mai luăm o pauza

de la partea prea tehnică ca să povestim despre frecvenţa de apariţie a distribuţiei normale.

Cum am mai pomenit în capitolul introductiv, distribuţia normală este esenţială în statistică

din cauza teoremei limită centrală. Să rememorăm puţin ce zice aceasta.

Dacă avem un număr mare de variabile aleatoare, despre care ştim foarte puţine, anume

numai că au aceiaşi medie şi dispersie, suma lor tinde la o distribuţie normală cînd numărul

lor tinde la infinit. Mai mult dacă aceste variabile aleatoare au media μ şi abaterea standard σ

atunci normala la care tinde suma lor este N(nμ, σ2n). Redefinind variabilele din sumă printr-

un procedeu numit standardizare acestă normală poate fi înlocuită cu distribuţia normală

standard N(0, 1). Acum sa vedem ce înseamnă toate acestea. Dacă avem un bun motiv să

credem că evenimentele pe care le studiem sunt determinate de o gramadă de variabile care se

însumează în efectele lor atunci e de bun simţ să considerăm tot ce nu am luat în seamă în

cercetarea noastră, adică acei factori de eroare ca fiind distribuţi normal. Pe o atare

presupunere se bazează aproape întreaga teorie a testelor statistice. Există deci o multitudine

de situaţii în care putem fi liniştiţi că aşa se întîmplă. Putem fi siguri că comportamentul uman

sau instituţional depinde de foarte mulţi factori pe care nu îi cunoaştem. Toţi aceşti factori vor

influenţa relaţiile dintre variabilele pe care le studiem ca un fel de distorsiuni, ca nişte erori

permanent prezente, inevitabile. Pe de altă parte aceste erori vor fi predictibile în forma lor.

Fiind normale ele vor arăta ca o curba clopot standardizată. Adică probabilitatea ca ele să fie 0

va fi mai mare decît oricare altă valoare pe care o pot lua. Mai mult probabilitatea ca eroarea

să aibă o valoare anume e cu atît mai mică cu cît această valoare e mai departe de 0. Deci

zgomotul care deranjează interpretarea datelor e destul de cuminte, pe măsură ce e mai mare

în valoare (adică mai depărtat de 0), deci ar influenţa mai mult rezultatul, şansa ca el să se

producă e mai mică.

Există totuşi şi situaţii în care distribuţia normală a factorilor neluaţi în seamă în cercetare nu

are loc. În primul şi în primul rînd se întîmplă aşa dacă nu am luat în seamă un factor esenţial

pentru cele cercetate. Există factori cauzali care sunt atît de importanţi în efectul lor asupra

variabilelor cercetate încît nu pot fi luaţi la grămadă. Hai să luăm un exemplu pentru a

clarifica lucrurile. Să presupunem că dorim să cercetăm relaţia dintre veniturile angajaţilor din

armata romană şi anii de şcoală pe care i-au absolvit. Ipoteza de bun simţ este că pe măsură ce

o persoană are mai multe studii va avea şi venituri mai mari. Necazul este că nu e aşa. De ce

oare? Ei bine tocmai pentru că o variabilă importantă, cu efect mare nu a fost luată în seamă.

Page 75: Carte de Statistica

75

Şi anume vechimea. Am luat exemplul cu armata tocmai pentru că acolo poate fi cel mai

evident. Pe măsură ce o persoană îmbătrîneşte în oaste are venituri din ce în ce mai mari. Şi

cum expansiunea învăţămîntului superior este la noi un fenomen relativ recent, cei mai în

vîrstă au în general (ca să nu vorbim de grade mai mici) mai puţini ani de şcoală. Deci, cu

vechime mai mare presupune de regulă mai puţin şcolit dar mai bine plătit. Dacă luăm însă în

calcul vechimea, o controlăm cum se spune în jargonul statistic, relaţia dintre venit şi educaţie

devine cea bănuită, pozitivă. La aceiaşi vechime, cei mai bine şcoliţi sunt mai bine plătiţi.

Ei bine, ce am învăţat? Dacă există variabile care au un efect esenţial asupra variabilelor pe

care le studiem, este bine să le găsim. Lăsîndu-le în factorii de eroare nu mai putem miza pe o

sumă de multe variabile cu efect individual mic. Aşa cum se spune nimic nu e mai practic

decît o bună teorie. Trebuie deci să putem identifica teoretic toate variabilele cu efect mare şi

să lăsăm în suma factorilor de eroare numai variabile care au efecte mici oarecum egale ca

importanţă.

Un alt caz interesant este cînd efectele variabilelor neluate în seamă nu este aditiv ci

multiplicativ. Asta ar însemna că efectele nu se adună pur şi simplu ci se potenţează reciproc,

se înmulţesc. Nu e uşor de găsit exemple pentru aşa ceva, evident situaţiile fiind de fapt destul

de rare. Totuşi, după mai multe căutări şi adîncă chibzuială, iată un caz: să presupunem că

avem de făcut un studiu statistic al unui mediu ecologic. Analizăm de exemplu efectul

festivalurilor de jazz şi rock asupra crapilor comparînd numărul de crapi pescuiţi an de an în

timpul festivalului de la Gărîna în relaţie cu programul muzical. Evident sunt o grămadă de

variabile ecologice care au efect (probabil incomparabil mai mare decît cine cîntă la festival)

asupra populaţiei de crapi din lac. Aici intră desigur volumul populaţiilor altor peşti, plante,

păsări, insecte, şi aşa mai departe. Ei bine, peştii şi plantele depinzînd unele de altele în lanţul

dezvoltării lor nu se pot considera ca efecte aditive. Ele sunt multiplicative5. Şi ca atare pentru

modelarea lor nu se poate recurge la teorema limită centrală în forma ei clasică.

În acestă situaţie teorema limită centrală se schimbă puţin dar nu esenţial din punctul nostru

de vedere. Se foloseşte o aşa zisă teoremă limită centrală multiplicativă. Diferenţa care apare

este că distribuţia limită la care tinde combinaţia variabilelor aleatoare nu este o distribuţie

5 Sincer, faptul că relaţiile dintre soiuri într-un mediu natural sînt mai degraba multiplicative decît aditive e un

exemplu clasic din literatura statistică pentru distribuţia log-normală. Alte cazuri clasice sunt concentrările de

poluanţi, sensibilitatea indiviziilor la substanţe chimice şi medicamente, timpul de supravieţuire după tratament

împotriva cancerului, şi altele.

Page 76: Carte de Statistica

76

normală ci una aşa-zis log-normală. Ecuaţia funcţiei de densitate log-normale diferă puţin de

funcţia de densitate normală:

Nu e cazul să ne batem capul prea mult cu această situaţie. Să ţinem doar minte că există

soluţii pentru aşa ceva dar e nevoie de alte teste. În fine, problema care este cea mai

importantă este că identificarea cazului în care efectele variabilelor neluate în seamă se

înmulţesc în loc să se adune este departe de a fi facilă.

Bun. Hai să revenim la consideraţiile esenţiale pentru testarea statistică. Am descoperit deci

că factorul de eroare într-o relaţie statistică poate fi adesea considerat ca fiind distribuit

normal şi în plus standardizat cu media 0 şi dispersia 1.

Pentru că distribuţia aceasta, N(0, 1) este complet cunoscută putem să observăm următoarele:

Într-un interval de o dispersie de la medie, adică de fapt într-un interval de la -1 la +1 se

găsesc 68,26% din toate cazurile unei distribuţii normale. Adică luînd la nimereală o valoare,

dacă o variabilă este distribuită normal, şansa ca valoarea aceasta să se afle în intervalul -1, +1

este de 68,26%. Aşa este şi cu factorii de eroare care se adaugă la estimările noastre, pentru că

Page 77: Carte de Statistica

77

acolo avem o distribuţie normală şi chiar nu ştim exact ce valoare e într-un caz anume. Ştim

însă că sunt 68,26% şanse să fie între -1 şi 1 a distribuţiei standardizate.

În intervalul de două dispersii, deci de la -2 la +2 sunt 95,44% dintre cazuri.

În intervalul de trei dispersii, de la -3 la +3 sunt 99,74% dintre cazuri!

Care e atunci logica unui test. Păi să presupunem că dorim să verificăm dacă media numărului

la pantof al femeilor din Romania este 36. În paranteză fie spus, faptul că numerele de la

pantofi sunt distribuite normal în cadrul unui gen este cu adevărat dovedit empiric. Alegem

deci un eşantion reprezentativ, le măsurăm pe toate la picioare şi calculăm media. Iese ceva,

să zicem 39. Acum trebuie să standardizăm această valoare, pentru că evident distribuţia

numerelor de la pantof cît o fi ea de naturală nu are cum avea media 0 şi dispersia 1. În urma

standardizării 36-ul devine evident 0, iar 39-le devine de exemplu 2. Atunci ne uităm pe grafic

şi vedem că şansa ca eroare statistică să adauge 2 la media standardizată este de 2,27%! Adică

există o probabilitate de 2,27% ca totul să fie corect, mediile în regulă, media populaţiei să fie

într-adevăr 36 şi aşa mai departe, dar din motive absolut normale ale erorii aleatoare nouă să

ne fi ieşit 39.

Hai să reluăm un pic ideea. Deci avem o distribuţie normală pe care o luăm de bună pentru

început, distribuţia numerelor de la pantofi cu o medie de 36 şi o dispersie σ2 şi o valoare

găsită empiric, media eşantionului de 39. Acum ne punem problema: cam care e şansa ca totul

să fie în regulă, adică diferenţa dintre cele două medii, cea teoretică (36) şi cea empirică (39)

să fie cauzată de eroarea acceptabilă a unui sondaj. Pentru aceasta standardizăm distribuţia. În

exemplul nostru găsim că există o şansă de 2,27% să fie aşa. Asta înseamnă că există o şansă

de 97,73% să nu fie aşa! Adică, dacă avem deplină încredere în sondajul efectuat de către noi,

putem să spunem că există o probabilitate de 97,8% ca media numărului la pantof al femeilor

din Romania să nu fie 36.

După această gustărică să vedem acum de-a amănuntul cum se face.

b. Teste statistice pentru medii şi proporţii.

Page 78: Carte de Statistica

78

Testarea statistică se descrie de obicei ca un algoritm, adică o serie de paşi care se întreprind

pentru a lua o decizie. Totul porneşte de la construirea unei ipoteze şi se termină cu

respingerea sau nerespingerea acesteia. Aşa cum am văzut şi mai de vreme, cunoaşterea

statistică este una negativă. Nu poate confirma nimic, dar poate infirma. Adică, aşa cum am

văzut din exemplu, dacă rezultatul empiric e suficient de aproape de cel teoretic nu avem

nimic de spus, decît eventual că nu putem respinge ipoteza. Dacă însă este improbabil de

îndepărtat atunci putem spune: asta chiar nu se poate! Ipoteza se poate respinge pentru că dat

fiind ce am cules noi din sondaj probabilitatea ca ceea ce am presupus la început să fie

adevărat este infimă.

Să vedem paşii. În primul rînd se defineşte o ipoteză. În cercetarea empirică acesteia i se

spune de obicei ipoteză nulă sau iniţială şi se notează cel mai adesea cu H0. Aceasta este

ipoteza pe care vom dori să o putem respinge. Construirea unei ipoteze necesită de obicei o

muncă importantă de abstractizare şi modelare. Testele statistice pot respinge numai ipoteze

foarte simple. Deci ceva de genul: “este viaţă pe Marte” cît o fi ea de ipoteză nu prea poate fi

testată statistic în această formulare. Ipotezele de cercetare care au bază teoretică şi

importanţă în cunoaştere trebuie traduse în relaţii matematice simple de genul “media

numărului la pantof al femeilor din Romănia este 36” sau “veniturile bărbaţilor şi ale femeilor

sunt egale” adică lucruri care cu adevărat se pot respinge. În general ipotezele statistice sunt

relaţii de egalitate sau de inegalitate care implică valorile unor variabile şi valori prestabilite.

Verificăm deci relaţii între grupuri sau populaţii şi relaţii dintre populaţii şi valori teoretice.

Trebuie să putem traduce teoriile noastre în astfel de relaţii pentru ca statistica să ne fie de

vreun folos.

O dată stabilită ipoteza nulă, în unele cercetări se propun şi una sau mai multe ipoteze

alternative, notate de obicei cu Ha. Aceste ipoteze se consideră ca ipoteze de urmat în

cercetarea viitoare în caz că se respinge ipoteza nulă. Ele nu sunt ipoteze confirmate nici

măcar dacă au fost construite ca negaţii logice ale ipotezei nule. În acest caz sunt pur şi

simplu ipoteze care nu au fost respinse. Adică pot fi considerate, în tradiţia popperiană despre

care am vorbit în introducere ca fiind “pe moment acceptabile”.

După stabilirea ipotezelor trebuie stabilită valoarea testată, numită uneori după obiceiul

englezesc şi statistică. Aceasta este o valoare agregată culeasă din date şi care intervine în test.

În exemplul cu pantofii este media numărului la pantof. Ar putea fi o medie, o proporţie, sau

Page 79: Carte de Statistica

79

diferenţa unor medii sau proporţii. Valoarea testată nu este altceva decît un rezultat al

operaţionalizării, adică al traducerii în formulă matematică a ipotezei.

După aceasta, în funcţie de valoarea pe care dorim să o testăm se determină distribuţia

statistică a acesteia. În esenţă e vorba de a stabili dacă se poate presupune că valoarea testată

este distribuită normal, iar dacă nu, dacă putem stabili cum o fi distribuită (de exemplu log-

normal) şi ce test avem pentru aşa ceva. De exemplu, dacă distribuţia este una normală se

poate aplica o metodă de standardizare, se aduce distribuţia la forma N(0, 1) şi se poziţionează

valoarea testată pe această distribuţie. Aşa putem spune ce şanse are o asemenea valoare să fie

atinsă (sau una mai mare sau mai mică, dacă ipoteza este o inegalitate).

O dată stabilită distribuţia statistică, se aplică un test statistic, adică o formulă de calcul

valorii testate. Se obţine un fel de indicator, numit adesea după numele testului sau mai

general valoare de test. Vom vedea în cele ce urmează valoarea t, valoarea Z, şi aşa mai

departe. Fiecare astfel de test nu este de fapt decît o formulă.

Apoi se determină zonele critice. Zonele critice, uneori numite şi zone de respingere sau

rejecţie sunt intervalele în care trebuie să se găsească valoarea calculată prin testul statistic

pentru ca ipoteza să fie respinsă. Aceste intervale ar trebui stabilite dinainte. Există de fapt

două moduri de lucru. Varianta obişnuită este de a calcula valoarea de test şi apoi a vedea

dacă se află în afara intervalului de probabilitate de 95% sau de 99%. Limitele acestor

intervale sunt cele care se numesc valori critice şi intervalele complementare intervalelor de

probabilitate de 95% respectiv 99% sunt chiar zonele critice. Dacă valoarea calculată este în

aceste zone critice, probabilitatea ca această valoare să fie atinsă în condiţiile validităţii

ipotezei este mai mică de 5% sau chiar de 1%. Dacă, de exemplu valoarea calculată este mai

mare decît valoarea de test pentru 95%, deci se află în afara intervalului de probabilitate de

95%, atunci probabilitatea ca ipoteza să fie corectă este de cel mult 5%, ceea ce este foarte

puţin şi ipoteza poate fi respinsă.

Multe din programele pe calculator care efectuează teste statistice calculează o aşa-zisă

significanţă a testului. Aceasta e chiar probabilitatea ca valoarea calculată să fie atinsă în

condiţiile ipotezei. Nu mai este atunci nevoie să comparăm cu valoarea critică. Putem spune,

chiar cît este probabilitatea ca ipoteza să fie adevărată. Şi bineînţeles putem decide pe baza

acestei probabilităţi dacă ipoteza se poate respinge sau nu.

Page 80: Carte de Statistica

80

În literatura de statistică aplicată se definesc în general două tipuri de erori care se pot

întîmpla în testarea statistică:

Eroarea de tip I, numită şi eroare α sau “fals pozitiv” are loc dacă se respinge o ipoteză

nulă care e de fapt adevărată. Probabilitatea de face o astfel de eroare este de fapt acea

significanţă a testului statistic.

Eroarea de tip II, numită şi eroare β sau “fals negativ” are loc dacă nu se respinge o

ipoteză falsă.

Există şi alte clasificări ale erorilor de decizie, dar aceasta este cea mai răspîndită. În

experienţa mea trebuie să recunosc că nu am găsit nici o dată vreun uz practic al faptului de a

fi ştiut care este diferenţa dintre cele două tipuri de erori. Este însă important să fim conştienţi

de faptul că erorile, fie ele de tip I sau tip II nu pot fi cu totul eliminate. Dacă se aplică corect

o metodologie statistică se poate însă determina probabilitatea ca ele să apară. În fapt,

probabilitatea care determină zona critică aşa cum am văzut mai sus este chiar probabilitatea

unei erori de tip I.

Dacă pînă acum am vorbit de teste la un mod cam general şi ceea ce am spus era în principiu

valabil pentru orice test statistic să trecem acum la lucruri practice. Cum se face de fapt, ce se

calculează şi cu ce se compară valoarea de fapt?

Testul t pentru media unei variabile aleatoare

Testul t (numit şi Student după pseudonimul autorului său, statisticianul englez W.S. Gossett)

este un test care verifică ipoteze în condiţii de normalitate a distribuţiei datelor şi cunoaştere a

dispersiei datelor. Gossett a fost, în vremea în care a dezvoltat testul, statistician la fabricile

Guiness din Dublin, Irlanda şi l-a dezvoltat pentru a verifica cît mai simplu calitatea berii.

Ideea era de a calcula cîtă încredere se poate acorda unor analize biochimice ale berii făcute

pe eşantioane relativ mici. Deşi am citit pe undeva că Gossett a folosit din modestie un

pseudonim, se pare că motivul adevărat pentru care Gossett şi-a publicat metoda în 1908 sub

pseudonim a fost faptul că vroia să ocolească contractul care îl lega de fabrica Guiness.

Testul se foloseşte şi acum pe scară largă, chiar şi acolo unde avem eşantioane mici. Cu

diversele forme ale testului t se pot analiza ipoteze legate de media unei variabile aleatore,

Page 81: Carte de Statistica

81

comparaţii între mediile unor variabile aleatoare pe două populaţii, precum şi ponderea unor

subgrupuri în populaţii şi comparaţii între ponderea unor subgrupuri în două populaţii. Să le

luăm însă pe îndelete.

În forma cea mai cunoscută testul t verifică o ipoteză exact ca în exemplul nostru. Adică

verifică ipoteza dacă media unei variabile la nivelul populaţiei este egală cu media aceleiaşi

variabile pe un eşantion. Sau altfel exprimat, este suficient de mare diferenţa între media

măsurată pe eşantion şi media presupusă ipotetic pe populaţie pentru a respinge presupunerea.

În exemplul nostru media presupusă pentru numărul la pantof al femeilor din Romania era 36

şi media găsită pe eşantion era 39. Testul t este cel ce ne spune dacă putem respinge ipoteza

nulă sau nu.

Testul t poate fi folosit dacă sînt îndeplinite cîteva precondiţii. În primul rînd trebuie să

cunoaştem media şi dispersia la nivelul populaţiei, apoi variabila trebuie să fie distribuită

normal şi eşantionul trebuie să fie aleator. În realitate situaţia e cam aşa: media o presupunem

teoretic pentru că la urma urmei pe asta dorim să o testăm. Distribuţia normală este o

problemă relativ mică, dacă avem un eşantion mare şi nu este un caz special în care distribuţia

este evident nenormală presupunem de obicei normalitatea fără să ne batem prea mult capul.

Cum am tot povestit teorema limită centrală ne dă aici o mînă serioasă de ajutor. Evident,

faptul că eşantionul trebuie să fie aleator nu poate fi însă ocolit. Oricare dintre metodele

statistice necesită aceasta. Nu înseamnă că nu se pot face testări şi în alte condiţii dar atunci

nu mai e vorba despre a verifica relaţia dintre media unei populaţie şi a unui eşantion, ca în

cazul clasic al testului t, ci între mediile a două loturi. Problema care este cea mai mare în

cazul testului t este însă faptul că de obicei nu avem cum să cunoaştem dispersia reală a

variabilei în populaţie. Aceasta se rezolvă de regulă prin introducerea unei presupuneri

suplimentare. Şi anume aceea că dispersia la nivelul populaţiei este aproximativ egală cu

dispersia la nivelul eşantionului.

Să vedem deci ce valori avem:

μ – media pe populaţie, pe care o presupunem şi o punem în ipoteză

s – abaterea standard pe eşantion care se poate calcula şi înlocuieşte de fapt σ, abaterea

standard la nivelul populaţiei pe care nu o putem calcula.

x – media pe eşantion care e uşor de calculat

n – volumul eşantionului.

Page 82: Carte de Statistica

82

Ipoteza va suna deci cam aşa “media variabilei este μ”. În exemplu era: media numerelor la

pantofi este 36.

Calculăm acum testul t astfel:

t = (x – μ) / (s/n½ )

Aceasta nu este altceva decît transformarea din N(μ, s2) în N(0, 1), adică standardizarea

distribuţiei normale. Valoarea t se va raporta la curba normală standard aşa cum se raportează

valoarea x la curba normală iniţială.

Să presupunem că valoarea de 39 la picior a fost obţinută pe un eşantion de 1000 de femei şi

abaterea standard la nivelul eşantionului a fost 2. Să vedem ce iese:

t = (39 – 36) / (2/10) = 15

Să ne aducem aminte de felul cum arată distribuţia normală standard şi cam unde s-ar afla

valoare 15 pe axa x a acesteia.

Precum se vede din grafic, probabilitatea ca într-o distribuţie normală standard valoarea să fie

mai mare de 3 este de 0,1%. 15 fiind mult mai mare decît 3, probabilitatea ca ipoteza să fie

adevărată este mult mai mică decît 0,1%. Avem deci 99,9% motive să respingem ipoteza.

Am ocolit însă zonele critice folosite în mod obişnuit. Să vedem care sunt acestea:

Page 83: Carte de Statistica

83

Intervalul de probabilitate de 95% este (-1,96, 1,96). Această înseamnă că într-o distribuţie

normală standard 95% dintre cazuri se găsesc în intervalul (-1,96, 1,96). Deci dacă avem o

valoare aflată în afara intervalului acesta, şansa ca valoarea să fie atinsă în condiţiile validităţii

ipotezei este mai mică decît 5%. Se mai spune şi că -1,96 şi 1,96 sunt valorile critice de

significanţă (sau probabilitate) de 95%.

În aceiaşi logică se defineşte şi intervalul de probabilitate de 99%. Acesta este (-2,57, 2,57).

Există de asemenea tabele ale valorilor t care dau exact probabilitatea ca o anumită valoare

calculată să fie atinsă. Să sistematizăm pentru o mai uşoară privire de ansamblu:

Ipoteze de forma “media = valoare” se pot respinge:

cu probabilitate de 95% dacă valoarea t < -1,96 sau t > 1,96.

cu probabilitate de 99% dacă valoarea t < -2,57 sau t > 2,57.

Deoarece 15 este în afara intervalului de probabilitate de 99%, de fapt cum am văzut chiar în

afara intervalului de 99,9% ipoteza se poate respinge cu o probabilitate mai mare decît 99%

(sau, de fapt 99,9%). La modul de analiză al rezultatelor nu am luat în seamă faptul că

rezultatul testului ne spune vrînd – nevrînd şi pe ce parte a intervalului se află rezultatul

aceasta înseamnă că de fapt putem să înbunătăţim un pic significanţa sesizînd faptul că de o

parte a distribuţiei normale avem de fapt o significanţă de 50% şi doar pe partea cealaltă

adăugăm la aceasta jumătate din significanţa datorată zonei critice. Deci dacă suntem în

varianta cu 95% putem de fapt considera că respingem ipoteza cu 97,5% iar în varianta cu

99% cu 99,5%.

Testul t pentru două medii

Adesea ipoteza care se pune nu conţine o valoare explicită, cum era în exemplul precedent.

Multe probleme statistice urmăresc de fapt să compare grupuri sau părţi ale unor eşantioane.

Ipoteza este în asemenea cazuri ceva de genul “femeile de la ţară au în medie acelaşi număr la

picior ca şi femeile de la oraş” sau “fotbaliştii romani dau în medie la fel de multe goluri ca şi

fotbaliştii germani” şi alte asemenea probleme cutremurătoare. Un fel de a pune întrebarea

care prezintă o gamă largă de probleme este următorul. Este oare posibil ca cele două

eşantioane să fie extrase din aceiaşi populaţie. Dacă ar fi aşa mediile calculate pe cele două

eşantioane ar trebui să fie suficient de apropiate. Dacă însă aceste medii diferă mult (în sensul

Page 84: Carte de Statistica

84

testului t) ipoteza că eşantioanele sînt extrase din aceiaşi populaţie se poate chiar respinge.

Aşa se poate stabili principial că două grupurie populaţionale diferă esenţial din punctul de

vedere al unei anumite variabile. Aşa se poate de exemplu stabili că femeile şi bărbaţii au

venituri diferite în Romania. Se iau două eşantioane aleatoare de valori salariale şi se testează

dacă acestea ar fi putut fi culese dintr-o singură populaţie. Multe probleme interesante pot fi

reduse la ipoteze de acest tip.

Avem în asemenea cazuri două grupuri de măsurători, putem să le spunem eşantioane dar nu

sunt din punctul de vedere al testului. Şi anume nu sunt eşantioane din punctul de vedere al

testului pentru că nu se urmăreşte relaţia dintre aceste date şi o populaţie mai generală ci

relaţia dintre cele două grupuri de măsurători. Ca şi în cazul precent, este necesar să avem o

distribuţie normală a variabilei testate. În plus cele două eşantioane trebuie să fie

independente ceea ce în cazul unei eşantionări corecte aleatoare ar trebui să fie cazul, şi

trebuie să cunoaştem următoarele:

s1 – abaterea standard pe primul eşantion.

x1 – media pe primul eşantion

n1 – volumul primului eşantionului.

s2 – abaterea standard pe al doilea eşantion.

x2 – media pe al doilea eşantion

n2 – volumul celui de-al doilea eşantionului.

Formula de test care se calculează este:

Analiza rezultatului se face la fel ca şi în cazul precedent. Valorile critice sînt aceleaşi,

interpretarea se face la fel. Să luăm deci un exemplu şi să-l calculăm.

Voi folosi date dintr-un sondaj de opinie efectuat pe populaţia IMM-urilor din mediul rural

din România în 2005. Ipoteza de testat este “vîrsta medie a patronilor de IMM-uri din mediul

rural nu diferă în funcţie de gen”. Avem deci două eşantioane, unul cu femei, un altul cu

bărbaţi. Volumul eşantionului total a fost de 1122 persoane, dintre acestea 1100 au răspuns la

Page 85: Carte de Statistica

85

întrebarea de vîrstă (genul a fost completat de operator). În calcule am putut lua 631 de

bărbaţi şi 479 de femei. Vîrsta medie a bărbaţilor a fost 45,6 ani, iar a femeilor 42,4. Abaterile

standard sînt 10,4 la vîrsta bărbaţilor şi 9,1 la vîrsta femeilor. Este oare diferenţa dintre cele

două medii relevantă? Sînt femeile care patronează IMM-uri din zona rurală într-adevăr mai

tinere decît bărbaţii? Pentru aceasta trebuie să aplicăm testul t pentru medii. Informaţiile pe

care le-am inclus în text sînt suficiente pentru a lua o decizie.

Programele de statistică fac prima dată un test de egalitate a dispersiilor, sau de

homoschedasticitate. Pentru aceasta se foloseşte testul F al lui Fischer. Testul va mai fi

discutat în relație cu metoda ANOVA. Testul F e de fapt un raport de dispersii (sau varianțe).

Ipoteza acestui test este: “dispersia pe primul eşantion e egală cu dispersia pe al doilea

eşantion”. Cu cât valoare F e mai departe de 1, cu atât significanța e mai bună. Și dacă

significanţa testului e bună, adică cît mai apropiată de 0, atunci ipoteza aceasta se poate

respinge. În funcţie de rezultatul testului, pentru dispersii care nu pot fi considerate egale se

foloseşte formula pe care am dat-o. Pentru dispersii egale se putea folosi o formulă

simplificată şi oarecum înbunătăţită prin faptul că se putea calcula dispersia pe întreg

eşantionului, ceea ce se presupune a fi o estimare mai bună a dispersiei la nivel populaţional.

În cazul din exemplu, valoarea testului F este 6,682 şi significanţa este 0,01. Pentru

interpretarea testului F se folosesc de regulă tabele, însă aşa cum am spus şi mai sus

significanţa este informaţia suficientă pentru analiză. În cazul significanţei de mai sus, care e

foarte bună, ipoteza de dispersii egale poate fi respinsă.

Se calculează atunci varianta de test t pentru dispersii diferite, adică exact formula de mai sus.

Rezultatul este:

t = 5,39 cu Sig = 0,000

Deci ipoteza de egalitate a mediilor se poate respinge cu o probabilitate de 99,9%. E aproape

sigur: femeile care patronează IMM-uri în mediul rural sînt mai tinere decît bărbaţii cu poziţii

similare. Pentru o explicaţie aş presupune de exemplu că printre persoanele de vîrstă mai

înaintată femeile sînt mai puţin înclinate spre poziţii patronale decît printre persoanele mai

tinere. Astfel distribuţia pe sexe e mai echilibrată la vîrste mai mici şi media de vîrsta a

Page 86: Carte de Statistica

86

femeilor patron rezultă ca fiind mai mică decît a bărbaţilor patron. Desigur interpretarea

aceasta trebuie coroborată cu alte rezultate statistice.

Ipotezele discutate pînă aici s-au referit întotdeuna la egalităţi. Testele au încercat să respingă

fie faptul că o medie are o anumită valoare exactă, fie faptul că două medii sunt egale.

Aceasta a făcut ca zonele critice să fie simetrice. La urma urmei se poate respinge ipoteza de

egalitate şi atunci cînd valoarea empirică e mult mai mare şi atunci cînd e mult mai mică decît

valoarea din ipoteză. Am menţionat deja că faptul că valoarea empirică e mai mare sau mai

mică ne apare ca un rezultat suplimentar şi poate înbunătăţi significanţa.

Există însă situaţii în care ipoteza este chiar construită ca o inegalitate. Astfel de ipoteze cer să

fie analizate doar prin prisma unei singure zone critice. Să mă explic. Dacă ipoteza era de

forma “media = valoare” atunci zonele critice de significanţă 99% sunt intervalele (-∞, 2,58)

respectiv (2,58, ∞), adică tot de se află în afara intervalului de probabilitate de 99% care este

(-2,58, 2,58). Dacă însă ipoteza este de forma “media > valoare” atunci ea respinge numai

dacă ceea ce ne dă testul e mult mai mic decît 0, deci numai un capăt de distribuţie normală

respinge ipoteza. Acest capăt e evident totdeuna cel opus semnului din ipoteză. Adică testăm

o inegalitate cu semnul > (mai mare) capătul care respinge va fi cel negativ (mai mic decît

media standard 0), dacă testăm o inegalitate cu < (mai mic) atunci se poate respinge ipoteza

cu intervalul critic pozitiv. Mai avem însă ceva, valorile critice devin mai mici la testele cu

inegalitate deoarece intervalul de 95% sau 99% va fi nelimitat pe un capăt. Deci:

Ipoteze de forma “media > valoare” se pot respinge:

cu probabilitate de 95% dacă valoarea t < 1,81.

cu probabilitate de 99% dacă valoarea t < 2,23.

Ipoteze de forma “media < valoare” se pot respinge:

cu probabilitate de 95% dacă valoarea t > 1,81

cu probabilitate de 99% dacă valoarea t > 2,23.

Page 87: Carte de Statistica

87

Testul Z pentru proporţii

În mare parte dintre cercetările empirice nu ne interesează însă testarea unor ipoteze legate de

medii. De fapt dacă ne gîndim la sondajele de opinie politice sau sociale pe care le mai vedem

din cînd în cînd în presă greu ne vine în minte o situaţie în care să ne fi interesat media unei

variabile. Cel mai adesea ceea ce ne interesează mai mult este să testăm ipoteze legate de

proporţii. Astfel de ipoteze ar fi de exemplu “Partidul Vieţii Romaneşti va trece pragul

electoral” sau “cetăţenii români de religie ortodoxă preferă manelele în mai mare măsură decît

cei de religie catolică”. Hai să vedem cum se traduc aceste ipoteze astfel încît să fie testabile.

În prima ipoteză menţionată “Partidul Vieţii Romaneşti va trece pragul electoral”, ceea ce

vrem să aflăm este de fapt dacă ponderea din electorat a celor care votează cu partidul în

cauză e mai mare decît 5%. Bineînţeles la această întrebare se poate răspunde corect într-un

exit-poll, adică un sondaj făcut chiar la ieşirea de la urne. În sondaje preelectorale se poate

însă face o previziune destul de bună la astfel de întrebări. Indiferent cum ar fi, în chestionar

va apărea o întrebare de genul “cu ce partid aţi votat?” sau “cu ce partid veţi vota?”. Dacă m

intervievaţi dintr-un eşantion total de volum n, răspund că vor vota cu PVR atunci avem de

verificat de fapt dacă m/n este cu adevărat mai mare decît 5%. Ipoteza se va scrie “m/n >

5/100”

În a doua ipoteză va trebui să dezvoltăm un chestionar care, pe lîngă alte întrebări, se

interesează şi de gusturile muzicale ale celor intervievaţi. Desigur întrebarea se poate pune în

multe feluri, în final însă vom determina că un anumit număr de persoane preferă manelele.

Acestea vor fi probabil de religii diverse. Să presupunem că dintre aceştia mo vor fi ortodocşi,

iar mc catolici. Să notam numărul total al ortodocşilor chestionaţi no, iar al catolicilor nc.

Atunci putem spune că dintre ortodoxi mo/no preferă manelele, iar dintre catolici mc/nc. Pentru

Page 88: Carte de Statistica

88

a testa dacă prima pondere e în mod relevant mai mare decît cea de a doua, ipoteza va avea

forma “mo/no > mc/nc”.

Perechea de ipoteze din exemplele de mai sus este analoagă celor două metode de testare pe

care le-am prezentat deja. Adică primul exemplu testează relaţia dintre o proporţie stabilită

empiric şi o valoare teoretică, iar a doua ipoteză relaţia dintre două proporţii, ambele stabilite

empiric, adică măsurate.

Pentru verificarea ipotezelor legate de proporţii se foloseşte de regulă testul Z. Logica lui este

însă aceiaşi ca a testului t discutat pînă acum.

Să vedem prima dată formula pentru teste privitoare la o proporţie. Pentru a calcula valoarea

de test avem nevoie de p – ponderea empirică (adică de exemplu ponderea celor ce au răspuns

că vor vota cu PVR), ^p – ponderea teoretică (adică de exemplu ponderea celor care ar fi

trebuit să răspundă pentru ca ponderea să fie exact 5%) şi n – volumul eşantionului. Cu

acestea se calculează Z.

Dacă avem două ponderi de comparat ca în exemplul al doilea, formula va avea forma

următoare:

Aici n1 este numărul de intervievaţi din primul eşantion (în exemplu, numărul total de

ortodocşi din eşantionul total), iar n2 este numărul de intervievaţi din al doilea eşantion (în

exemplu numărul total de catolici din eşantionul total). p1 şi p2 sunt ponderile persoanelor care

intră în categoriile ce se compară (adică p1 = mo/no ponderea celor care preferă manelele

dintre ortodocşi, respectiv p2 = mc/nc dintre catolici).

În ambele cazuri rezultatul testului, Z se compară cu zonele critice definite ca şi pînă acum.

Aceasta pentru că şi acest test face de fapt o transformare a valorilor pe o distribuţie normală

Page 89: Carte de Statistica

89

standard şi logica respingerii unei ipoteze rămîne aceiaşi, a depărtării faţă de valoarea 0,

media distribuţiei normale standard.

Iată regulile de decizie simplificate pentru cazul, mai general, al ipotezelor cu două proporţii

empirice

Ipoteze de forma “p1 = p2” se pot respinge:

cu probabilitate de 95% dacă valoarea Z < -1,96 sau Z > 1,96.

cu probabilitate de 99% dacă valoarea Z < -2,57 sau Z > 2,57.

Ipoteze de forma “p1 > p2” se pot respinge:

cu probabilitate de 95% dacă Z < 1,81.

cu probabilitate de 99% dacă Z < 2,23.

Ipoteze de forma “p1 < p2” se pot respinge:

cu probabilitate de 95% dacă Z > 1,81.

cu probabilitate de 99% dacă Z > 2,23.

Sumarul acesta de reguli se poate aplica uşor în practică. Tot ce trebuie făcut este să se

formuleze simplu ipoteza, apoi se calculează valoare t (sau Z), se aplică regula de decizie şi

gata: am făcut o cercetare empirică corectă statistic.

c. Calculul erorii unui sondaj si interpretarea ei.

Calculul erorii unui sondaj de opinie este de fapt o aplicaţie a testelor statistice simple. De

aceea am preferat să amîn discutarea acestei probleme pînă acum. Vom vedea deci ce

înseamnă acele erori pe care le raportează institutele de sondare a opiniei publice şi de

asemenea cum se stabileşte volumul unui eşantion.

În mod curent eroarea care se raportează la un sondaj de opinie este eroarea cea mai mare cu

care se poate estima o pondere cu o probabilitate de 95%. Am văzut pînă acum că estimarea

unei ponderi se poate face doar cu o anumită probabilitate. Nu există o stabilire prin sondaj a

unei valori exacte. Probabilitatea cu care se estimează ponderea dictează de fapt care e zona

Page 90: Carte de Statistica

90

critică. De aici rezultă respingerea unei ipoteze. La sondajele de opinie se foloseşte de regulă

intervalul de probabilitate de 95%.

Este vorba despre estimarea unei proporţii, folosim deci testul Z pentru o proporţie. Formula,

pe care am dat-o şi mai sus este:

Pe noi ne interesează în acest caz însă eroarea, adică cu cît diferă estimarea noastră de

valoarea adevărată, într-un sondaj aceasta se interpretează ca fiind diferenţa dintre ponderea

găsită în eşantion şi ponderea din populaţie, adică ponderea „reală“. Ca atare extragem din

formula de mai sus diferenţa dintre valoarea empirică şi valoarea din populaţie.

^p – p = Z * sqrt (p*(1-p)/n)

În această formulă trebuie înlocuit Z cu o valoare critică, astfel încît să se stabilească cu ce

probabilitate dorim să ne încadrăm în eroarea calculată. Astfel dacă dorim ca eroarea ^p – p să

nu fie depăşită cu o probabilitate de 95% vom lua Z = 1,96. Aceasta este varianta cea mai

obişnuită. Dacă dorim o precizie de 99% va trebui însă să calculăm folosind Z = 2,57.

Observăm că acestea sunt tocmai valorile critice, adică valorile de 95%, respectiv 99% din

distribuţia normală standard.

Există mai multe feluri de a folosi această formulă. Putem cu ajutorul ei să calculăm eroarea

pentru estimarea unei anumite proporţii în cazul unui sondaj de opinie cunoscut. Atunci

cunoaştem valorile p şi n şi stabilim cu o probabilitate de 95% în ce interval se poate afla ^p.

Putem de asemenea stabili care este cea mai mare eroare pe care o poate lua estimarea de

proporţii în cadrul unui anumit sondaj (ceea ce se numeşte de obicei marjă de eroare). Atunci

efectuăm acelaşi calcul dar în aşa fel încît să maximizăm eroarea pentru orice pondere

posibilă.

Putem să stabilim cu ajutorul aceleiaşi formule şi care e volumul eşantionului necesar pentru a

nu depăşi o anumită marjă de eroare. Atunci considerăm diferenţa ^p – p cunoscută. Aceasta

Page 91: Carte de Statistica

91

este marja de eroare pe care suntem de acord să o acceptăm, şi alegem p astfel încit eroarea să

fie maxim posibilă în cazul dat şi îl calculăm pe n, volumul eşantionului.

Estimarea marjei de eroare a unui sondaj de opinie

Începem cu această aplicaţie a formulei pentru că ea este probabil cea mai importantă. Aţi

văzut sau auzit desigur la (aproape) orice prezentare a unui sondaj de opinie specificari de

genul “marja de eroare a sondajului este 3% cu o probabilitate de 95%”. Ce înseamnă

aceasta?

Marja de eroare este abaterea cea mai mare de la valoarea “reală”, adică valoarea pe populaţie

pe care o poate avea valoarea calculată pe eşantion în cazul unui sondaj anume. În formula de

mai jos, notăm marja de eroare cu E. De fapt E = max (^p – p), adică înlocuind în formula de

mai sus:

E = max (Z * sqrt (p*(1-p)/n))

În această formulă Z este dat de precizia pe care o dorim, adică pentru precizia de 95% va fi

1,96. n este volumul eşantionului, deci o valoare cunoscută, din moment ce sondajul a avut

loc. Singura valoare care se poate alege astfel încît să se maximizeze formula este p. Pentru

aceasta observăm că trebuie de fapt să alegem p astfel încît produsul p*(1-p) să fie maxim.

Valoarea p este o pondere adică o valoare subunitară. Maximul produsul se atinge ca atare

pentru p = 0,5. Cine nu crede poate calcula matematic. Iese. De aici rezultă, că pentru o

precizie de 95% avem

E = 1,96

Deci marja de eroare a unui sondaj depinde numai şi numai de volumul eşantionului. Graficul

de mai jos ne arată cum arată forma distribuţiei normale centrate în jurul ponderii de 0,5

pentru diferite volume de eşantioane.

Page 92: Carte de Statistica

92

Dacă, de exemplu avem un eşantion de 1000 de persoane, un volum uzual, marja de eroare a

acestui eşantion va fi:

E = 0,98 / sqrt (1000) = 0,03099

Ceea ce se mai poate scrie ca fiind 3,1%.

Calcul de mai sus are desigur şi nişte premise matematice. Principala premisă este aceea că

eşantionul este aleator. Ştim deja că aceasta nu este chiar întotdeuna perfect îndeplinită, dar

un sondaj de opinie bine efectuat se apropie cît se poate de mult de acest deziderat tocmai

pentru a putea garanta marja de eroare promisă.

Să vedem acum, cum se citeşte de fapt un rezultat statistic prin prisma marjei de eroare. Fie de

exemplu un sondaj cu 1000 de interviuri, la care 500 de persoane, adică o pondere de 0,5 (sau

50%) au răspuns că ar vota Partidul Vieţii Romaneşti. Atunci statisticianul responsabil poate

spune cam aşa: “Există o probabilitate de 95% ca din ansamblul populaţiei studiate cei care ar

vota PVR să reprezinte un procentaj între 46,9% şi 53,1%.” Dacă ponderea pe care trebuie să

Page 93: Carte de Statistica

93

o estimeze este mai mică sau mai mare decît 0,5 ştim că eroarea poate fi calculată mai exact şi

va fi ceva mai mică. La urma urmei marja de eroare este eroarea cea mai mare la estimarea de

proporţii şi formula generală a erorii depinde de valoarea p.

Calculul volumul eşantionului pe baza marjei de eroare

De multe ori problema se pune invers. Avem de efectuat un sondaj de opinie şi clientul nostru

îşi doreşte o anumită marjă de eroare, de exemplu 2%, numai aşa ca să aibă el sondajul cel

mai tare din judeţ. Atunci vom folosi aceiaşi formulă:

E = 0,98 / sqrt (n)

Dar vom cunoaşte pe E, marja de eroare dorită şi va trebui să-l calculăm pe n, volumul

eşantionului. Dacă extragem pe n din formulă, iese:

n = 0,98 / E2

Înlocuind în formulă E = 0,02 obţinem n = 2400, pentru E = 0,03, n = 1067. Tabelul de mai

jos conţine şi alte perechi de marje de eroare şi volume de eşantioane:

Marja de eroare Volumul eşantionului

1% 9605

2% 2400

3% 1067

4% 600

5% 384

10% 96

Pe internet există pagini care oferă interfețe simple pentru calculul diferitelor valori statistice.

Astfel, de exemplu, universitatea Vassar din Statele Unite are o pagină unde se poate calcula

ușor marja de eroare, dar și alte valori statistice. Pagina se găsește la adresa

http://faculty.vassar.edu/lowry/VassarStats.html. Trebuie desigur specificate volumul

eșantionului, media și dispersia valorii estimate. Pentru marja de eroare a sondajului,

specificăm valorile pentru distribuția normală standard: media 0 și dispersia 1.

Page 94: Carte de Statistica

94

Calculul erorii pe estimare a unei anumite proporţii

Să continuăm cu aplicaţia cea mai simplă a formulei şi una din greşelile cele mai des întîlnite

în interpretarea sondajelor de opinie. Cum am văzut, marja de eroare este de fapt eroarea

maximă care se face la o estimare cu precizie de 95%. Aceasta e atinsă atunci cînd se

estimează valori apropiate de 0,5, adică de 50%. Cu toate acestea nu o dată citim interpretări

în care valoarea marjei de eroare este folosită pentru a da intervale de estimare pentru

procentaje mult mai mici.

De exemplu, iată un fragment de declaraţie a lui Alin Teodorescu, deputat PSD şi, pe

deasupra, sociolog: “16% în sondaje înseamnă 19 sau 13. Marja de eroare e de 3%.”6 Are sau

nu dreptate politicianul-sociolog. Bineînţeles nu, pentru că pentru estimarea unui procentaj de

16% eroarea este mai mică decît marja de eroare, care este atinsă atunci cînd se estimează

50%. Cu cît este însă mai mică?

Articolul de ziar nu ne dă cu exactitate volumul eşantionului, dar dnul Teodorescu ne dă un

indiciu foarte bun cînd declară că marja de eroare a sondajului a fost 3%. Deci, volumul

eşantionului trebuie să fi fost cam 1067 de persoane. Să înlocuim în formulă şi să calculăm:

eroarea = 1,96 * sqrt (p*(1-p)/n) = 1,96 * sqrt ((0,16 * 0,84)/1067) = 0,02199

Exprimată tot în procente eroarea la estimarea unui procentaj de 16% este 2,2%. Corect am

putea spune, valoarea procentuală de 16% din eşantion se traduce astfel “procentajul în

ansamblul populaţiei studiate este aflat cu o probabilitate de 95% între 13,8% şi 18,2%”.

Iată o exprimare de o candoare deosebită, legată de aceiaşi problemă: “Strict sociologic, ce-i

sub marja de eroare practic nu se ia in calcul.”7 Evident nu este aşa. Mai mult, valorile mici,

adică cele pe care ziaristul le numeşte “sub marja de eroare” se estimează mai exact decît

valorile în jur de 50%. Să calculăm puţin. Un procentaj de 3% se va estima într-un sondaj cu

marja de eroare de 3% cu o eroare de:

eroarea = 1,96 * sqrt ((0,03 * 0,97)/1067) = 0,010.

6 “Alin Teodorescu: PSD s-a comprimat din cauza integrarii in UE”, interviu în Cotidianul, 1.02.2007.

7 Pavel Lucescu “Chinurile lui Felix”, editorial în Cotidianul, 26.02.2007.

Page 95: Carte de Statistica

95

Deci, dacă s-a măsurat un procentaj de 3% pe eşantion, putem spune cu o probabilitate de

95% că ponderea în ansamblul populaţiei este între 2% şi 4%.

Factor de corecţie pentru populaţii finite

Iată un fragment de articol din ziarul Tricolorul: “Dar, iată, scorurile sondajului real efectuat

de IMAS, aşa cum le-am aflat chiar din interiorul PSD. Eşantion: 1.257 de persoane. Marjă de

eroare: ± 1,8%.”8

Este aşa ceva posibil de fapt? Am văzut că marja de eroare şi volumul eşantionului sunt legate

printr-o formulă cît se poate de simplă şi se poate uşor calcula: pentru 1257 de persoane se

obţine o marjă de eroare de 2,7%. Pentru 1,8% ar fi nevoie de un număr de 2963 de interviuri.

Şi totuşi ceea ce scrie ziarul nu este întru totul imposibil pentru că în toate exemplele şi

discuţiile de pînă acum am considerat că populaţia este foarte mare faţă de volumul

eşantionului. Practic am presupus că avem o populaţie infinită. Sau mai exact nu am făcut nici

un fel de presupunere despre volumul populaţiei. Este însă de bun simţ să ne gîndim că dacă

populaţia pe care o cercetăm e mică, de exemplu, de 1000 de oameni, cum ar fi la un studiu

despre elevii unei şcoli, marja de eroare nu poate fi 4% la un eşantion de 600, adică

cuprinzînd bine peste jumătate dintre toţi elevii. Trebuie să existe un factor de corecţie care

înbunătăţeşte marja de eroare în cazul în care populaţia studiată este mică. Acest factor de

corecţie este numit factor de corecţie pentru populaţii finite. El se foloseşte numai atunci cînd

volumul eşantionului este suficient de mare faţă de volumul populaţiei. Teoretic însă s-ar

putea calcula oricînd, doar că valoarea lui este de obicei foarte aproape de 1. Formula

factorului de corecţie este.

În formulă N este volumul populaţiei şi n volumul eşantionului. Factorul calculat astfel se

înmulţeşte cu marja de eroare pentru a da marja de eroare corectată.

8 “Presedintii PRM si PSD vor semna un protocol de colaborare!”, editorial nesemnat, Tricolorul, Anul III, Nr.

643 - 06.05.2006

Page 96: Carte de Statistica

96

Să vedem prima dată dacă ar merita calculat factorul pentru eşantioanele obişnuite, de 1067

de persoane, avînd ca populaţie, de exemplu, electoratul României, de aprox 18 milioane de

persoane.

F = sqrt (18000000 – 1067 / 18000000 – 1) = 0,9999

Ei bine, acest factor de corecţie ar trebui înmulţit cu marja de eroare, dar valoarea e atît de

apropiată de 1 încît este evident de ce nu se obişnuieşte aşa ceva.

În exemplul dat, raţionamentul este însă altul. Dacă la un eşantion de 1257 de persoane s-a

obţinut o marjă de eroare de 1,8% înseamnă că s-a folosit un factor de corecţie şi acest factor

a coborît marja de la valoarea de 2,7% care s-ar fi obţinut pentru o populaţie cît România la

valoarea de 1,8%. Acest factor de corecţie este de fapt uşor calculabil:

1,8 = F * 2,7

F = 1,8 / 2,7 = 0,67

Înlocuind în formula lui F această valoare precum şi n = 1257, rezultă:

0,67 = sqrt (N – 1257 / N – 1)

De aici rezultă:

N = (1257 – 0,672) / (1 – 0,67

2) = 2285.

În concluzie articolul din ziar poate avea dreptate doar în măsura în care populaţia din care s-a

ales eşantionul avea un volum de 2285 de persoane.

Page 97: Carte de Statistica

97

Capitolul 6. Feluri principale şi garnituri sau relaţia dintre mai

multe variabile

Voi încerca şi de astă dată să mă apropii de tema relaţiilor dintre variabile începînd cu ce e

mai simplu, reprezentările grafice, şi continuînd apoi cu tabele de frecvenţe, indicatori de

relaţionare şi în fine voi încheia capitolul acesta cu o tehnică ceva mai avansată, regresia

liniară.

Pînă acum în această carte m-am ocupat de o singură variabilă o dată. Am văzut cum se

reprezintă o variabilă, grafic sau tabelar, prin frecvenţele ei, am calculat indicatori care

descriu o variabilă şi am testat ipoteze referitoare la o variabilă. În cercetarea statistică

problemele care ni se pun se referă însă adesea la relaţia dintre două sau chiar mai multe

variabile. Multe ipoteze care se pun, se referă la efectul unor variabile asupra altora. Ne

interesează cum influenţează vîrsta opţiunile electorale, ce efect are educaţia asupra alegerii

unei anumite mărci de bere. Ne interesează ce categorii sociale ascultă anumite emisiuni de

radio, pentru a ştii ce tip de publicitate ar fi de interes pentru aceştia. Vrem să aflăm care

dintre studenţi vor cu adevărat să emigreze şi care vor să-şi continue studiile în străinătate.

Toate aceste întrebări necesită studierea unor relaţii dintre variabile. De multe ori, dar nu

întotdeuna, teoria pe care ne bazăm ca să construim ipotezele noastre separă variabilele în

cauze şi efecte. În statistică efectele le numim variabile dependente, iar cauzele variabile

independente.

Nu este întotdeuna simplu, există însă şi variabile care sînt aproape mereu tratate ca

independente. Aşa sînt genul, vîrsta, zona de reşedinţă (urban sau rural), statutul marital şi

altele care în puţine ipoteze sunt considerate efecte ale altor variabile. În general aceste

variabile se suprapun peste aşa-zisele variabile SES (socio-economic status). Genul sau vîrsta

celui intervievat, de exemplu, nu se prea pot considera efecte ale unor alte variabile. Pe de altă

parte, selecţia aleatoare poate evidenţia faptul că populaţia studiată are o distribuţie a

genurilor sau vîrstelor particulară. Aşa este de exemplu dacă populaţia noastră e formată din

cei ce îşi fac cumpărăturile într-un anumit magazin. În acest sens şi genul poate fi privit ca un

efect al opţiunii de a face aprovizionarea pentru familie. Alte variabile SES, ca de exemplu

venitul sînt chiar mai des variabile dependente.

Page 98: Carte de Statistica

98

Oricum ar fi, cel mai adesea, într-o cercetare statistică relaţionăm variabile numite generic

independente cu variabilele ţintă ale cercetării, numite de regulă variabile dependente.

a. Grafice pentru mai multe variabile.

Reprezentările grafice pentru mai multe variabile au o paletă mai restrînsă de opţiuni la

dispoziţie. O parte din reprezentările uzuale în cazul unei singure variabile nu sunt potrivite în

cadrul graficelor cu mai multe variabile. Astfel, graficele plăcintă nu se adaptează prea bine la

mai multe variabile. Nici graficele de linii nu se pretează la prezentarea relaţiilor dintre

variabile. Ele se pot însă folosi pentru a prezenta mai multe variabile una alături de cealaltă.

Reprezentările folosite cel mai des sunt graficele de bare, care permit chiar vizualizarea

relaţiilor.

Cel mai simplu mod de grafic pentru mai multe variabile prezintă dezvoltarea paralelă a unor

variabile. În exemplul de mai jos avem o reprezentare liniară a două variabile. Acestea sînt

numărul de studenţi la 10.000 de locuitori pe ansamblul Europei de Est şi de Vest în perioada

1950 – 2000 (dintr-o cercetare proprie, Reisz, Stock, 2007).

Graficul se pretează la compararea celor două trenduri dar nu vizualizează cu adevărat relaţia

dintre cele două variabile. Le pune doar una lîngă cealaltă. Dar e frumos oricum, nu?

Page 99: Carte de Statistica

99

Există grafice similare şi cu bare. Să luăm şi aici un exemplu.

dumineca sambata

ziua

0,00

1,00

2,00

3,00

4,00

Mit

telw

ert

1. Cate beri ati baut?

7. Cat de des v-ar place sa fie Festivalul Berii?

În graficul de mai sus se prezintă un rezultat de la o cercetare efectuată la festivalul berii

Timisoara în anul 2003. Barele albastre reprezintă media de beri băute, iar barele verzi un

indicator al frecvenţei medii dorite de către intervievaţi pentru festivalul berii. Întrebarea se

punea la ieşirea din arealul festivalului. Cele două medii sunt prezentate diferenţiat pentru

cele două zile ale festivalului. Totuşi graficul nu ne spune nimic despre felul cum au răspuns

la întrebarea a doua cei ce au băut mai multe beri faţă de cei ce au băut mai puţine beri. Pentru

asta e nevoie de o altă abordare a relaţiei reprezentate pe grafic.

Graficele care prezintă cu adevărat relaţii sunt grafice de bare, în care una dintre variabile este

o variabilă categorială, sau tratată ca şi variabilă categorială. Această variabilă are rolul de

variabilă independentă. Ea se trece pe axa x, iar variabila sau variabilele dependente apar pe

axa y. De fapt chiar şi graficul de mai sus prezenta o relaţie. Variabila independentă era ziua

de festival. Dar să revenim la problema enunţată mai sus, cum e relaţia dintre consumul de

bere şi frecvenţa dorită a festivalului

Page 100: Carte de Statistica

100

Nici o bere 1 - 2 beri 3 - 4 beri 5 beri si mai mult

Bautori

0,00

1,00

2,00

3,00

4,00

7.

Ca

t d

e d

es

v-a

r p

lac

e s

a f

ie F

es

tiv

alu

l B

eri

i?

În grafic sunt prezentate medii ale frecvenţei dorite ale festivalului în funcţie de numărul de

beri consumate, număr care a fost recodat pe categorii de către mine (întrebarea nu era pe

categorii, ci deschisă). S-ar fi putut folosi şi alte valori în loc de medie, cum ar fi dispersia,

suma, procentajul peste o anumită valoare, etc. De asemenea valoarea exactă se poate

reprezenta sau nu pe grafic, dependent de forma ei, numerică sau nu.

Pe lîngă faptul că frecvenţa dorită a festivalurilor berii creşte cu numărul de beri băute se mai

observă două lucruri care ţin de reprezentările grafice în general . Anume, că numărul de

categorii de pe axa x este relativ mic şi că acestea se citesc într-o formă ordonată pur şi simplu

din obiceiul nostru de a parcurge de la stînga la dreapta orice text şi de a impune mental o

ordine chiar şi acolo unde aceasta nu există.

Prima dintre aceste două observaţii este doar parţial restrictivă. Acolo unde numărul de valori

este foarte mare într-adevăr citirea graficului devine anevoioasă dar totuşi numărul de

categorii poate fi crescut destul de mult. Aceasta totuşi nu prea se face pentru că graficul

construieşte de regulă barele fără să raporteze numărul de cazuri folosite şi ca atare anumite

bare pot fi calculate pe un număr foarte mic de cazuri şi pot induce în eroare cititorul. Acest

risc există desigur şi la un număr mai mic de categorii dar este mult diminuat. Să vedem un

exemplu de grafic de relaţionare cu bare cu un număr mare de categorii:

Page 101: Carte de Statistica

101

13,0

0

15,0

0

17,0

0

19,0

0

21,0

0

23,0

0

25,0

0

27,0

0

29,0

0

31,0

0

33,0

0

35,0

0

37,0

0

39,0

0

41,0

0

43,0

0

45,0

0

47,0

0

49,0

0

51,0

0

53,0

0

55,0

0

57,0

0

59,0

0

61,0

0

63,0

0

70,0

0

73,0

0

76,0

0

78,0

0

8. Varsta:

0,00

1,00

2,00

3,00

4,00

5,00

1. C

ate

beri

ati

bau

t?

1

2

2

0

4

3

22

1

3

4

3

2

3

3

2

2

1

2

1

2

1

4

2

1

2

1

2

3

2

3

2

3

2 2

4

3

2

0

2

2

3

2

1

2

1

1 1

3

4

1 1

Graficul conţine media de beri băute pe vîrste. Informaţia prea detaliată şi incertitudinea

numărului de cazuri pe categorii fac graficul foarte greu de citit. Recodarea vîrstei pe categorii

mai mari duce la următorul rezultat, mult mai citibil:

pana la 20 21 - 35 36 - 50 51 - 65 peste 65

Varsta pe categorii

0,00

0,50

1,00

1,50

2,00

2,50

1. C

ate

beri

ati

bau

t?

Page 102: Carte de Statistica

102

Relaţia existentă dintre vîrstă şi consumul de bere la festival devine astfel mult mai clară şi

poate produce o ipoteză statistică care merită verificată. Evident graficul nu trebuie însă

considerat ca fiind suficient pentru a trage concluzia “la festivalul berii, cu cît un vizitator e

mai bătrîn bea mai puţină bere”. Această ipoteză merită însă testată. Pentru o declaraţie de

genul “tinerii beau mai multă bere decît bătrînii” nu există oricum nici o bază. Nu trebuie nici

o clipă uitat că studiul s-a ocupat de festivalul berii, într-un an dat, în condiţii meteo aşa cum

au fost, cu muzica aşa cum a fost, şi aşa mai departe. Toate aceste condiţii de mediu fac total

imposibilă generalizarea la un consum de bere sau chiar alcool în condiţii nespecificate. Ca să

nu mai spunem că de fapt ce am aflat mai exact este nu este că cei tineri au băut mai multă

bere ci că vizitatorii mai tineri declară că au băut mai multă bere.

Cea de a doua observaţie, cea legată de ordinea implicită sau explicită a categoriilor

reprezentate necesită de asemenea o anumită atenţie. Bineînţeles, dacă variabila de pe axa x,

cea considerată categorială, este o variabilă ordinală sau chiar intervalică sau raţională, trebuie

să fim atenţi ca ordinea reprezentată a categoriilor să corespundă ordinii matematice a

acestora. Dacă însă variabila categorială nu are o anume ordine, este o variabilă nominală

reprezentarea devine problematică atunci cînd numărul de categorii e mare. La un număr mic

de categorii tentaţia de a le privi ca o serie e mult mai mică. În fine, tot ce putem şi trebuie să

facem în asemenea cazuri este să atenţionăm cititorul rezultatelor noastre, respectiv să nu ne

lăsăm noi înşine prinşi în capcana automatismelor de gîndire.

Să lăsăm acum berea şi să trecem şi la un alt tip de grafic de relaţionare cu bare. Cu ajutorul

graficelor cu bare se poate reprezenta şi mai bine relaţia dintre două variabile, e drept poate

ceva mai dificil citibil. Mă refer la grafice care suprapun bare cu dimensiuni proporţionale cu

categoriile unor variabile definite de o altă variabilă. Să vedem însă cum arată aşa un grafic

pentru a îl putea descrie mai bine.

Page 103: Carte de Statistica

103

agricultura

autoconstructii

contabilitate

industrie

invatamant

servicii

silvicultura

tricotaje

1. In ce domeniu ati lucrat inainte de a intra in somaj?

0

50

100

150

200

250

29

0

83

0

16 17 11

40

0

29

26

19

50

34

48

31

1

0

0

0

0

58

17

0

19

25.1. Grupe de varsta

Intre 20 - 29

Intre 30 si 39

Intre 40 si 49

Intre 50 si 59

Peste 60

Graficul face parte dintr-o cercetare care a inclus un sondaj de opinie efectuat pe şomeri din

mediul rural din Romania în 2005. În imagine avem relaţionarea dintre domeniul în care

persoana a lucrat înainte de a intra în şomaj şi grupa de vîrstă. Valorile trecute pe grafic sunt

valori absolute, adică exact numărul de persoane din fiecare categorie. Se vede nu numai cît

de mare este o categorie a axei x, dar şi cum se distribuie ea pe grupele de vîrstă. Un astfel de

graf se numeşte “stacked bar graph”, adică grafic de bare stivuite.

O altă formă a barelor stivuite reprezintă distribuţia procentual, extinzînd fiecare categorie a

axei x la 100% şi prezentînd subcategoriile definite de cea de a doua variabilă în procentaje.

Graficul, care ar putea fi mai uşor de citit, obturează bineînţeles dimensiunea categoriilor.

Totuşi aceasta poate fi intuită, prin afişarea procentajelor subcategoriilor din ansamblul

eşantionului aşa cum se vede în exemplul de mai jos.

Page 104: Carte de Statistica

104

agricultura

autoconstructii

contabilitate

industrie

invatamant

servicii

silvicultura

tricotaje

1. In ce domeniu ati lucrat inainte de a intra in somaj?

0,0

0,2

0,4

0,6

0,8

1,0

5,18%

0,0%

14,82%

0,0%

2,86%

3,04%

1,96%

7,14%

0,0%

5,18%

4,64%3,39%

0,0%

0,54%

8,93%

2,14%

6,07%

2,86%

8,57%

5,54%

0,18%

0,0% 0,0%0,0% 0,0%

10,36%

3,04%

0,0%

3,39%

0,0%25.1. Grupe de

varsta

Intre 20 - 29

Intre 30 si 39

Intre 40 si 49

Intre 50 si 59

Peste 60

Am prezentat graficele de relaţionare cele mai uzuale, nu există însă restricţii, orice grafice

corecte matematic se pot la o adică folosi. Vreau sa repet însă un comentariu pe care l-am

făcut legat de graficele referitoare la o singură variabilă. Se zice că o imagine spune mai mult

decît 1000 de cuvinte. Tot ce se poate, dar o imagine este şi mult mai puţin exactă decît cele

1000 de cuvinte, ca atare: prezentaţi grafice, dar analizaţi valorile care stau la baza acestora.

b. Tabele de relaţionare, Teste de relaţionare

Tabelele de relaţionare sunt de fapt tabelele care stau la baza graficelor stivuite. Astfel de

tabele au fost gîndite iniţial pentru variabile categoriale, şi sînt practice într-adevăr numai

pentru variabile cu un număr relativ mic de valori, de indiferent ce tip de variabilă.

Iată în tabela de mai jos tocmai datele care stau la baza graficelor stivuite prezentate mai

înainte.

Page 105: Carte de Statistica

105

1. In ce domeniu ati lucrat inainte de a intra in somaj? * 25.1. Grupe de varsta

Valori absolute

25.1. Grupe de varsta

Total

Intre 20 -

29

Intre 30 si

39

Intre 40 si

49

Intre 50 si

59

Peste

60

1. In ce domeniu ati lucrat inainte de a

intra in somaj?

agricultura 29 29 34 0 0 92

auto 0 0 16 0 0 16

constructii 83 26 48 58 19 234

functionar 0 0 1 17 0 18

Industrie 16 19 31 0 0 66

invatamant 17 0 0 0 0 17

servicii 11 3 1 0 0 15

silvicultura 40 50 0 0 0 90

tricotaje 0 12 0 0 0 12

Total 196 139 131 75 19 560

Tabela conţine numărul de cazuri care corespund fiecărei corespondenţe a celor două

variabile. Aşa cum se vede, o celulă e definită de categoriile pe rînduri şi coloane. Un

exemplu va clarifica cel mai bine aceasta. Dacă dorim de exemplu să aflăm cîţi din eşantion

care au lucrat în construcţii înainte de a intra în şomaj sunt din categoria de vîrstă între 20 şi

29 de ani, vom căuta coloana aferentă acestei categorii de vîrstă apoi o vom parcurge pentru a

găsi linia care conţine valorile celor ce au lucrat în construcţii. Valoarea din celula cu pricina

este 83. Deci 83 de persoane din această subcategorie au fost intervievate în cadrul cercetării.

Linia şi coloana de total sunt şi mai uşor de citit. Astfel ultima linie, cea marcată “Total”

conţine numărul de intervievaţi pe categoriile specificate în capetele de coloană. De exemplu,

196 de persoane pentru categoria “între 20 şi 29 ani”, 139 în categoria “între 30 şi 39 ani” şi

aşa mai departe. Ultima coloană, marcată de asemenea “Total” conţine valorile aferente

categoriilor definite în capetele de linii. De exemplu, pentru “construcţii” valoarea este 234.

Volumul total al eşantionului se va găsi în colţul din dreapta jos al tabelului, la intersecţia

liniei şi coloanei de total. În cazul cercetării din care am extras tabelul de mai sus s-au

efectuat 560 de interviuri.

O astfel de tabelă ne permite să comparăm uşor categoriile şi subcategoriile. Urmărind numai

coloana şi linia de total putem spune astfel că “cei mai mulţi şomeri au lucrat în domeniul

construcţiilor” şi “cei mai mulţi şomeri sunt între 20 şi 29 de ani”. De asemenea putem spune

că “numărul şomerilor scade pe măsură ce categoria de vîrstă e mai mare”. Dacă comparăm

Page 106: Carte de Statistica

106

diferitele coloane sau linii între ele mai putem face şi observaţii de forma “între 20 şi 39 de

ani numărul şomerilor proveniţi din silvicultură îl depăşeşte pe cel al celor ce provin din orice

alt domeniu cu excepţia construcţiilor”9 sau “în categoria de vîrstă între 50 si 59 de ani există

şomeri proveniţi din functionari, probabil din foste CAP-uri şi SMA-uri, o categorie care nu

apare la alte grupe de vîrstă”. De asemenea putem stabili cea mai mare categorie, numită şi

categorie modală, după indicatorul de tendinţă centrală pentru variabile nominale – modul

care e valoarea care apare cel mai des într-o distribuţie. În exemplul nostru este tocmai cea a

“şomerilor care au lucrat în construcţii şi au între 20 şi 29 de ani”.

Toate observaţiile de mai sus le-am bazat pe valorile absolute din tabel. Pentru a putea avea

însă o bază de comparaţie cel mai adesea tabelele de relaţionare conţin procentaje pe rînduri şi

coloane. Mai jos se află tabela recalculată conţinînd aceste procentaje.

1. In ce domeniu ati lucrat inainte de a intra in somaj? * 25.1. Grupe de varsta

25.1. Grupe de varsta Total

Intre 20 -

29

Intre 30 si

39

Intre 40 si

49

Intre 50 si

59

Peste

60

1. In ce domeniu ati lucrat

inainte de a intra in somaj?

agricultura Nr. 29 29 34 0 0 92

% linie 31,5% 31,5% 37,0% ,0% ,0% 100,0%

% coloană 14,8% 20,9% 26,0% ,0% ,0% 16,4%

auto Nr. 0 0 16 0 0 16

% linie ,0% ,0% 100,0% ,0% ,0% 100,0%

% coloană ,0% ,0% 12,2% ,0% ,0% 2,9%

constructii Nr. 83 26 48 58 19 234

% linie 35,5% 11,1% 20,5% 24,8% 8,1% 100,0%

% coloană 42,3% 18,7% 36,6% 77,3% 100,0% 41,8%

functionar Nr. 0 0 1 17 0 18

% linie ,0% ,0% 5,6% 94,4% ,0% 100,0%

% coloană ,0% ,0% ,8% 22,7% ,0% 3,2%

industrie Nr. 16 19 31 0 0 66

% linie 24,2% 28,8% 47,0% ,0% ,0% 100,0%

% coloană 8,2% 13,7% 23,7% ,0% ,0% 11,8%

invatamant Nr. 17 0 0 0 0 17

% linie 100,0% ,0% ,0% ,0% ,0% 100,0%

% coloană 8,7% ,0% ,0% ,0% ,0% 3,0%

servicii Nr. 11 3 1 0 0 15

% linie 73,3% 20,0% 6,7% ,0% ,0% 100,0%

% coloană 5,6% 2,2% ,8% ,0% ,0% 2,7%

silvicultura Nr. 40 50 0 0 0 90

% linie 44,4% 55,6% ,0% ,0% ,0% 100,0%

9 Populaţia studiului a fost cea a şomerilor din mediul rural din Romania.

Page 107: Carte de Statistica

107

% coloană 20,4% 36,0% ,0% ,0% ,0% 16,1%

tricotaje Nr. 0 12 0 0 0 12

% linie ,0% 100,0% ,0% ,0% ,0% 100,0%

% coloană ,0% 8,6% ,0% ,0% ,0% 2,1%

Total Nr. 196 139 131 75 19 560

% linie 35,0% 24,8% 23,4% 13,4% 3,4% 100,0%

% coloană 100,0% 100,0% 100,0% 100,0% 100,0% 100,0%

Să vedem cum se citesc asemenea tabele. Primele indicii sînt poziţiile celulelor de 100% de

pe ultima linie şi ultima coloană. Să căutăm aceiaşi celulă ca şi în exemplul cu valori absolute,

“şomeri proveniţi din domeniul construcţiilor cu vîrste între 20 şi 29 de ani”. Găsim

următoarea configuraţie de celule:

Nr. 83

% linie 35,5%

% coloană 42,3%

Valoarea Nr. este desigur cea pe care am ştiut-o deja. Cele două procentaje de citesc astfel:

35,5% dintre şomerii care au lucrat în construcţii au între 20 şi 29 de ani.

42,3% dintre şomerii cu vîrste între 20 şi 29 de ani au lucrat în construcţii.

Acestă citire este cel mai uşor de reţinut în relaţie cu poziţia valorii de 100%. Dacă această

valoare este pe linie, cum e în cazul “% linie”, evident procentajul e o parte din categoria ce

apare pe linie. Şi anume partea care e definită de către coloana în care apare valoarea.

Valoarea de pe linie este “construcţii”. Deci e vorba de 35,5% dintre cei care au lucrat în

construcţii. Ei bine, ce e cu ei? Ei fac parte din categoria care e definită pe coloană, adică au

între 20 şi 29 de ani.

Procentaje fac categoriile comparabile. Abia prin compararea procentajelor se poate spune ce

e mult şi ce e puţin în rezultatele statistice ale unui sondaj. Pe de altă parte, procentajele pot

induce în eroare dacă sunt calculate pentru categorii foarte mici. Să privim şi un alt tabel de

relaţionare. Tabelul provine dintr-o cercetare efectuată pe populaţia intreprinderilor mici şi

mijlocii din mediul rural din Romania în 2005. În tabel găsim relaţia dintre nivelul de

pregătire şi genul patronilor de IMM-uri din mediul rural.

Care este nivelul cel mai inalt de pregatire pe care l-ati absolvit? * Genul

Page 108: Carte de Statistica

108

Genul

Total masculin feminin

Care este nivelul cel mai inalt de pregatire pe care l-ati

absolvit?

Fara pregatire scolara Nr. 4 0 4

% linie 100,0% ,0% 100,0%

%

coloana ,6% ,0% ,4%

Scoala primara Nr. 7 0 7

% linie 100,0% ,0% 100,0%

%

coloana 1,1% ,0% ,6%

Scoala generala Nr. 16 9 25

% linie 64,0% 36,0% 100,0%

%

coloana 2,6% 1,9% 2,3%

Scoala profesionala /

Liceu

Nr. 298 194 492

% linie 60,6% 39,4% 100,0%

%

coloana 48,0% 41,1% 45,0%

Colegiu / Universitate Nr. 251 208 459

% linie 54,7% 45,3% 100,0%

%

coloana 40,4% 44,1% 42,0%

Studii post-universitare Nr. 45 61 106

% linie 42,5% 57,5% 100,0%

%

coloana 7,2% 12,9% 9,7%

Total Nr. 621 472 1093

% linie 56,8% 43,2% 100,0%

%

coloana 100,0% 100,0% 100,0%

Un exemplu de citire al tabelului ar fi cam aşa:

“Majoritatea patronilor de IMM-uri din mediul rural sînt bărbaţi, aceştia reprezentînd 56,8%

din total. Există totuşi o categorie educaţională, a celor cu studii post-universitare, unde

femeile sunt preponderente, reprezentînd 57,5%”.

Să vedem cum am găsit valorile din fragmentul de interpretare al tabelului. Am prezentat linia

de total, apoi am găsit că una singură dintre categorii prezintă o altă distribuţie a genurilor

decît aceasta. Am ales deci pentru raportare “% linie” pentru categorie “Studii post-

universitare” şi am prezentat în text una dintre valori, cealaltă e bineînţeles complementară

faţă de 100% fiimd vorba de distribuţia genurilor. Tot aceiaşi relaţie linie / coloană se putea

citi şi astfel: “Din ansamblul patronilor de IMM-uri intervievaţi 9,7% au studii post-

Page 109: Carte de Statistica

109

universitare, categoria aceasta este însă suprareprezentată printre femeile patroni, unde

reprezintă 12,9% faţă de numai 7,2% dintre bărbaţii patroni.” Pentru această prezentare am

folosit procentajele de pe coloane pentru total, femei şi bărbaţi aferente categoriei “Studii

post-universitare”. Mai jos, fragmentul de tabelă cu datele:

Nr. 45 61 106

% linie 42,5% 57,5% 100,0%

% coloana 7,2% 12,9% 9,7%

Pentru cine e curios cum de se poate aşa ceva, şi ce caută oricum aşa mulţi patroni cu studii

post-universitare, iată pe scurt explicaţia. În mediul rural sînt puţine firme, ca atare dintre

acestea cabinetele medicale şi farmaciile au o pondere relativ mare. Medicii şi farmaciştii au

adesea studii post-universitare, rezidenţiate, specializări, şi alte cursuri. De asemenea aceste

profesii includ un număr mare de femei, chiar o preponderenţă a femeilor, în special la nivelul

mediciilor de familie.

Ca o regulă simplă dar nu obligatorie, analiza unui tabel se face în următorii paşi:

Primele informaţii pe care le dăm de obicei despre un tabel se referă la linia şi/sau

coloana de total.

Apoi dăm valorile modale, celulele care conţin cele mai multe cazuri.

Urmează categoriile distribuite altfel decît cele de total. Acestea se prezintă

comparativ cu coloana sau linia de total.

În fine, dacă dorim, putem face comparaţii între linii sau coloane alese.

Aşa cum am făcut şi în exemplu, cînd prezentăm distribuţia pe o anumită linie sau coloană

trebuie să o comparăm cu distribuţia pe linia, respectiv coloana de total. Altfel păţim ca acela

care aflînd că 80% dintre cei răniţi în accidente de circulaţie nu au cartea de identitate la ei, a

hotărît să îşi ia întotdeuna cartea de identitate cu el. A socotit el că are de 4 ori mai puţine

şanse să fie rănit într-un accident! Ce a greşit individul de fapt? Păi nu a luat în seamă că avea

de a face cu două variabile: rănit în accident sau nu, cu cartea de identitate la el sau nu. Numai

dacă am ştii cîţi dintre toţi participanţii la trafic au cartea de identitate la ei, adică distribuţia

de total, am putea trage o concluzie, comparînd cu datele din categoria “accidentat”. Am

putea atunci descoperi prin comparaţie dacă persoanele care nu au acte de identitate la ei au

un profil care îi predispune la a deveni victimele unul accidente. Şi bineînţeles nici atunci

decizia de nu lua actele la el nu îi foloseşte la nimic şi asta pentru că posesia actului de

Page 110: Carte de Statistica

110

identitate şi accidentarea sînt evenimente totuşi independente. Modificînd unul dintre ele de

fapt nu îl influenţăm pe celălalt. S-ar putea însă amîndouă să fie efecte ale unor caracteristici

comportamentale comune. S-ar putea să fie. Sau nu.

Încă două reguli, de astă dată aproape obligatorii, dacă nu vreţi să fiţi acuzaţi de ageamie

statistică. Nici o dată nu raportaţi într-un sondaj procentaje cu mai mult decît o zecimală. Şi

aşa valorile sunt supuse unor erori, prezentînd mai multe zecimale daţi impresia că aveţi nişte

informaţii mai exacte sau nu înţelegeţi sensul statistic al rezultatelor. De fapt, mai bine ar fi să

nu se raporteze nici o zecimală. Totuşi cutuma de a raporta o zecimală există pentru că

rotunjirea sau trunchierea poate obtura o valoare de 0,5 ceea ce e deja destul de mult.

A doua regulă: nu prezentaţi procentaje acolo unde numărul cazurilor e mic. De exemplu, în

cercetarea din care provine tabelul de mai sus s-au nimerit doar patru patroni de IMM-uri care

au declarat că nu au nici o pregătire şcolară. Faptul că toţi aceştia sînt bărbaţi nu este relevant

şi nu e cazul să ascundem numărul mic scriind ceva de genul “100% dintre patronii de IMM

fără pregătire şcolară sînt bărbaţi”.

Toate observaţiile pe care le-am făcut pe baza tabelelor au un caracter de ipoteze. Ele nu sunt

confirmate în relevanţa lor statistică. Aceasta însă se poate face. Există o serie de teste de

relaţionare care sunt specifice diferitelor tipuri de variabile şi care verifică în general ipoteze

de dependenţă. Astfel de ipoteze au forma generală “valorile variabilei 1 sînt independente de

valorile variabilei 2”. Dacă reuşim să respingem această ipoteză avem bune motive să

considerăm variabilele ca fiind relaţionate, dependente una de alta. De obicei putem face chiar

mai mult. Putem, pe baza rezultatelor de test să spunem cam cît de “tare” este această relaţie.

Pentru a ajunge însă acolo cred că ar merita să vorbesc puţin despre conceptul de

“independenţă” statistică. Am pomenit de cîteva ori pe parcursul acestei cărţi despre

independenţă. Am vorbit despre independenţă în special cînd am vorbit despre eşantionare,

dar a trebuit să menţionăm conceptul şi cînd am comentat istoria statisticii şi principalele legi

statistice. De asemenea, vreau să elimin o confuzie din capul locului, conceptul de variabilă

independentă în relaţia cu o variabilă dependentă se referă la o relaţie unde nu există

“independenţă” între variabile. Variabilele se influenţează între ele, şi care este cea pe care o

considerăm independentă şi care dependentă ţine de construcţia modelului, adică de partea ne-

Page 111: Carte de Statistica

111

statistică din teorie. Denumirile de “independenţă” sînt întîmplător aceleaşi, conceptele nu au

nici o legătură.

Ce e deci “independenţa” evenimentelor aleatoare? Fie prima dată o definiţie simplă din teoria

probabilităţilor apoi o voi comenta. Un eveniment este independent de un altul dacă

probabilitatea ca evenimentul să aibă loc nu se schimbă dacă are loc sau nu cel de-al doilea

eveniment.

Să începem comentariul iar cu prietenul nostru care umblă fără acte la el. După ce a aflat că

probabilitatea ca pe avion să fie o bombă este de 1 la 10.000 iar probabilitatea ca pe avion să

fie două bombe e 1 la 100.000.000 a hotărît să plece el cu o bombă în concediu.

În exemplul de mai sus avem un eveniment repetat: o bombă pe avion. Probabilitatea de a

avea două bombe se calculează atunci aşa:

p2 = p1 * p1

unde p1 este probabilitatea de a avea o bombă pe avion, deci

p2 = 1/10.000 * 1/10.000 = 1/100.000.000

Această regulă de înmulţire este regula de compunere a probabilităţii evenimentelor

independente. Adică dacă existenţa unei bombe este independentă de existenţa celei de a doua

bombe, deci nici unul din terorişti nu ştie de celălalt atunci probabilitatea de a avea două

bombe pe avion e produsul probabilităţilor celor două evenimente luate separat. Dacă tot am

început, ce a greşit din nou amicul nostru? Păi dacă a luat cu el o bombă probabilitatea ca

aceasta să fie pe avion este 1, evident dacă trece prin verificare, dar dacă e găsită, oricum nici

omul nu ajunge pe avion ci în altă parte. Atunci însă probabilitatea de a avea două bombe

devine aceiaşi cu probabilitatea de a avea o bombă pe avion.

p’2 = p1 * 1 = p1

Page 112: Carte de Statistica

112

Regula de înmulţire a probabilităţilor este valabilă la compunerea unor evenimente

independente. Regula generală e puţin mai complicată. Fie două evenimente A şi B, atunci

probabilitatea ca ele să aibă loc de o dată este:

P(A şi B) = P(A) * P(B | A)

Unde P(B | A) este probabilitatea evenimentului B condiţionat de A, adică probabilitatea să

aibă loc B dacă are loc şi A. Evident, dacă A şi B sînt independente, adică nu se influenţează

reciproc atunci P(B | A) = P(B) adică probabilitatea că să aibă loc B nu se schimbă dacă are,

sau nu are, loc A.

Conceptul pe care l-am descris mai sus este cel de independenţă a evenimentelor probabiliste.

În testele statistice lucrurile nu stau însă aşa de simplu şi aşa de transparent. Variabilele

statistice culese empiric nu prezintă nici o dată o independenţă atît de perfectă ca variabilele

teoretice din probabilităţi. Datele pe care le culegem sînt întotdeuna dependente de o grămadă

de factori care mai de care mai greu de prevăzut. În fine, rezultatul este că orice este legat de

orice în mai mare sau mai mică măsură. Testul trebuie să determine dacă legătura poate fi

considerată întîmplătoare, un zgomot sau factor de eroare, sau este esenţială şi necesită

explicaţii teoretice.

Principiul de bază al acestei verificări este în majoritatea cazurilor unul care se poate înţelege

cel mai bine prin conceptul de tabelă de relaţionare. Faptul că două variabile sînt

independente înseamnă de fapt că modificarea uneia nu afectează modificarea celei de a doua.

Asta înseamnă că în tabela care le relaţionează faptul că o variabilă se distribuie într-un fel nu

poate avea efect pe felul cum se distribuie cealaltă variabilă. Şi de aici decurge faptul că

rîndurile, respectiv coloanele aferente diferitelor categorii ale uneia din variabile sunt

proporţionale, sau pentru că trebuie să gîndim statistic, nu se abat prea mult de la

proporţionalitate. Deci independenţa statistică a două variabile se testează de fapt tot prin

testarea egalităţii între nişte proporţii, anume proporţiile determinate de apartenenţa la

categoriile unei variabile pe distribuţia celeilalte variabile. O să dau un exemplu teoretic

pentru că mi se pare mai simplu: Fie variabila x cu categoriile x1 şi x2 şi variabila y cu

categoriile y1 şi y2. O tabelă de relaţionare ar arăta cam aşa:

x

Page 113: Carte de Statistica

113

x1 x2 total

y y1 C11 C12 C1t

y2 C21 C22 C2t

total Ct1 Ct2 Ctt

În tabel C11 este numărul de indivizi care au valoarea x1 la variabila x şi valoarea y1 la

variabila y. C1t este numărul total de indivizi care au valoarea 1 la variabila y şi orice valoare

la variabila x şi aşa mai departe. Faptul că x şi y sînt independente ar însemna, cum am spus

că distribuţia lui x nu o influenţează pe cea a lui y, deci ipoteza de independenţă se traduce

astfel:

C11 / C12 = C21 / C22 = Ct1 / Ct2

sau

C11 / C21 = C12 / C22 = C1t / C2t

Testele care au fost dezvoltate pentru aceste ipoteze depind de tipul variabilelor. Aşa cum am

formulat ipoteza mai sus ea e posibilă pentru orice tip de variabilă, dar metodele calculatorii

permit o mai mare complexitate şi rezultate mai diferenţiate pe măsură ce tipul de variabilă

este mai numeric (iertată-mi fie folosirea abuzivă a comparativului, dar sper că se înţelege ce

vreau să spun).

Principalele teste care verifică significanţa relaţionării dintre două variabile depind de tipul

acestora:

Pentru variabile nominale: Testele Phi şi Cramer, coeficientul de contingenţă

Pentru variabile ordinale: Testele Gamma şi Kendall, Coeficienţii de corelaţie ρ (rho)

al lui Spearman şi τ (tau) al lui Kendall.

Pentru variabile intervalice şi raţionale: Testele Eta, Coeficientul de corelaţie r al lui

Pearson, dar şi ρ al lui Spearman şi τ al lui Kendall.

Pentru orice tip de variabilă: Coeficientul χ2 (Chi

2) al lui Pearson.

Page 114: Carte de Statistica

114

Cei mai importanţi dintre cei de mai sus sînt coeficienţii de corelaţie şi coeficientul χ 2

.

Următoarea secţiune ne vom preocupa de coeficienţii de corelaţie, iar apoi în capitolul viitor

vom discuta mai pe larg coeficientul χ 2

.

Cît despre celelalte teste, următoarea regulă simplă facilitează citirea rezultatelor acestora.

Orice program de statistică care calculează astfel de teste le raportează împreună cu un

rezultat de significanţă care este o valoare cu atît mai bună cu cît e mai aproape de 0. Practic

trebuie să citim acest rezultat care este de obicei notat Sig sau S sau chiar “significance” sau

ceva similar. Acest rezultat este probabilitatea de a face o eroare de tip I, adică să respingem

ipoteza de independenţă în condiţiile în care aceasta este adevărată. Mai simplu spus cu cît

significanţa testului e mai aproape de 0, ipoteza de independenţă se poate respinge mai sigur.

Există aici o problemă care nu trebuie însă neglijată. Testele de relaţionare pot fi influenţate

disproporţioat de mult de diferenţe pe anumite categorii. Aceasta se întîmplă în special cînd

eşantionul e suficient de mare dar variabilele testate au un număr mare de categorii. În acest

caz o diferenţă pe o anumită categorie poate duce la respingerea unei ipoteze care este

adevărată. E o situaţie în care o relaţie dintre cele două variabile face ca rapoartele din ipoteză

să fie aproape egale cu excepţia unuia care însă se abate mult de la celelalte. Rămîne în

asemenea cazuri de obicei să continuăm testarea şi prelucrarea eventual separînd una dintre

cele două variabile în două astfel încît valoarea care se abate de la regulă să fie modelată de

către o variabilă de sine stătătoare, numită de regulă variabilă filtru.

c. Analiza de varianță. Testul ANOVA unifactorial.

În capitolul precendent am prezentat teste care verificau ipoteze de egalitate sau inegalitate a

unor medii sau proporții. Întrebarea de bază era de regulă aceiași: sunt două grupe de

măsurători egale? Putem presupune că diferențele ce apar între ele sunt întâmplătoare? Cât de

mare trebuie să fie o diferență dintre medii pentru ca să putem spune cu o oarecare siguranță

că o valoare e mai mare decât alta în mod semnificativ? La începutul capitolului precedent am

prezentat ceva mai pe larg și distribuția normală. Am văzut atunci că ea este caracterizată de

două valori: media și dispersia (numită și varianță). Ca atare, două grupuri de măsurători care

dau aceiași medie nu sunt neapărat egale. Ele ar putea avea dispersii diferite. De aici pornește

principiul analizei de varianță (pe scurt ANOVA de la ANalysis Of VAriance). Cum mai

spuneam, cuvântul varianță e un sinonim al cuvântului dispersie rezultat din barbarizarea

termenului din engleză, variance.

Page 115: Carte de Statistica

115

Similar testelor t sau Z, analiza de varianță testează dacă două sau mai multe grupuri de date

se pot considera că fiind eșantioane extrase din aceiași populație. Puterea metodei vine și de la

faptul că poate verifica egalitatea de varianță pentru mai multe grupe. La testele t sau Z am

putut verifica dacă sunt egale anumite caracteristici pentru două grupe de date. Apare însă

suficient de des problema de a verifica dacă sunt egale valori pentru mai multe grupuri. O

întrebare de cercetare care se pretează pentru analiza de varianță trebuie atunci să se refere la

o variabilă caracteristică și la un mod de a împărți datele în grupuri, adică o a doua variabilă,

care este de obicei nominală sau are oricum un număr mic de valori diferite. De ex: primesc

studenții universității noastre la fel de mulți bani de la părinți independent de facultatea la care

studiază? Sau independent de anul de studiu? Sunt alegătorii diferitelor partide din Romania

egali din perspectiva nivelului de studii sau a veniturilor realizate? Avem aici de fapt patru

întrebări. Să luăm ultimul exemplu. Aici caracteristica de verificat este venitul realizat (în

România se calculează de regulă lunar), iar grupurile care se compară între ele sunt

determinate de opțiunea de vot. Analiza de varianță poate fi considerată ca atare și ca o

metodă de a testa relația dintre două variabile, una cantitativă și una nominală (sau ordinală,

ca în exemplul cu anii de studiu). Ea are sens, în general când variabila nominală are mai mult

de două valori. Altfel se suprapune în mare măsură peste testul t (de fapt valoarea de test a

ANOVA, numită F este în acest caz egală cu t2).

Ca de obicei, există premise necesare pentru a putea aplica analiza de varianță. Metoda nu

poate fi folosită chiar oricum. Principial orice formă de ANOVA se referă la o variabilă

distribută normal. Verificarea normalității se poate face, de exemplu, cu testul Shapiro-Wilk.

A doua condiție este cea de homoschedasticitate pe grupuri, care va fi explicată mai pe larg la

pag. 128. Dacă aceste condiții nu sunt îndeplinite este mai bine să folosim metode non-

parametrice, cum ar fi testele Wilcoxon sau Mann-Whitney dacă vrem să comparăm două

grupuri de variabile sau testul Kruskal-Wallis pentru mai multe grupuri de variabile. Aceste

teste vor fi prezentate pe larg în capitolul 7. Trebuie însă spus că ANOVA este o metodă

foarte robustă, adică nu depinde foarte mult de distribuție atât timp cât aceasta nu se abate

prea tare de la normalitate. ANOVA dă rezultate bune chiar dacă normalitatea este încălcată

în oare care măsură. Pe de altă parte absența homoschedasticității este mai gravă și trebuie

tratată cu grijă, așa cum se face și la testul t.

Page 116: Carte de Statistica

116

În cele ce urmează o să discutăm varianta cea mai obișnuită și simplă: ANOVA unifactorială.

Aici variabila care determină grupurile se mai numește și factor, fără prea mare legătură cu

folosirea cuvântului în alte metode statistice, cum ar fi analiza factorială, de exemplu.

Principiul calculatoriu este următorul: se calculează media variabilei pentru fiecare grup

determinat de către variabila factor, adică venitul mediu pentru fiecare grup de alegători, de

exemplu. Apoi se calculează două metode de estimare a varianței totale, una numită externă și

una numită internă. Valorile obținute se folosesc pentru a calcula testul F (testul lui Fischer),

raportul dintre ele. Am mai pomenit testul F la testarea homoschedasticității pentru testul t.

Dacă grupurile pot fi considerate eșantioane independente extrase din aceiași populație

varianța externă (a mediei între grupuri) trebuie să fie mai mică decât varianța internă a

mediei în grupuri. Aceasta este o consecință a teoremei limită centrală pe care am mai

pomenit-o în această carte. Un exemplu simplu va face metoda mai inteligibilă.

Fie trei grupuri de studenți la ciclul de licență împărțite după factorul „an de studii”. Pentru

fiecare considerăm banii de buzunar primiți de la familie în sute de lei. Rezultă următoarea

tabelă de date:

An 1. An 2. An 3.

6 5 3

5 10 2

6 6 4

8 8 8

9 3 5

1. Prima dată calculăm media pentru fiecare grup. Obținem:

M1 = 6.8

M2 = 6.4

M3 = 4.4

2. Calculăm apoi media generală:

M = 5.87

3. Calculăm „suma pătratelor externă”, care e de fapt o formă de varianță a mediilor pe

grupuri înmulțită cu numărul de cazuri. Formula este:

SSB = n1 (M1 – M)2 + n2 (M2 – M)

2 + n3 (M3 – M)

2 = 16,53

Page 117: Carte de Statistica

117

unde notația SSB vine din engleză de la Sum of Squares Between, iar valorile n1, n2 și n3 sunt

numărul de cazuri din fiecare grup. Calculăm și numărul de grade de libertate df (tot din

engleză, degrees of freedom) care e numărul de grupuri minus unul. Aici dfB = 3 – 1 = 2.

4. Calculăm „suma pătratelor internă”, care este suma tuturor abaterilor de la medie

calculate pe grupuri. Daca variabila noastra o notăm cu An1, An2 și An3 rezultă:

SSW = Σi (An1i – M1)2 + Σi (An2i – M2)

2 + Σi (An3i – M3)

2 = 61,2

SSW vine de la Sum of Squares Within. Calculăm și un nou număr de grade de libertate dfW

care este numărul de grupuri ori numărul de cazuri pe grup minus unul. dfW = 3 (5 - 1) = 12

5. Împărțim fiecare sumă de pătrate cu gradele de libertate aferente.

SSB / dfB = 16,53 / 2 = 8,265

SSW / dfW = 61,2 / 12 = 5,1

6. Valoarea de test F (Fischer) este raportul acestor două valori F = 8,265 / 5,1 = 1,621.

Ca regulă generală, e bine de repetat, valorea testului F are significanță cu atât mai bună cu

cât e mai îndepărtat de valoarea 1. Valoarea critică de significanță 0,05 este 3,68 iar cea de

significanță 0,01 este 9,27. Deci, dacă F e mai mare decât 9,27 se poate respinge ipoteza de

egalitate cu significanță de 0,01 dacă valoarea F e mai mare decât 3,68 cu o significanță de

0,05. În cazul nostru nu se poate respinge ipoteza nulă.

Am introdus datele de mai sus și într-un software statistic. Tabela de rezultate reproduce exact

valorile calculate mai sus. Ea arată astfel:

ONEWAY ANOVA

VAR00001

Suma pătratelor df Media pătratelor F Significanta

Între grupuri 16,533 2 8,267 1,621 ,238

În cadrul grupurilor 61,200 12 5,100

Total 77,733 14

Observăm că apar sumele de pătrate, apoi gradele de libertate, rezultatele împărțirii sumelor

de pătrate la gradele de libertate și valoarea testului F. Soft-ul ne ajută oferind imediat și

significanța exactă. Aceasta este 0,238 o valoare insuficientă pentru a respinge ipoteza. Care e

deci concluzia? Nu putem respinge ipoteza de egalitate a grupurilor din perspectiva variabilei

testate. În cazul nostru: datele pe care le avem nu sunt suficiente ca să putem stabili că

studenții din ani diferiți de studii primesc sume de bani diferite de la familiile lor.

Page 118: Carte de Statistica

118

Cum am văzut ANOVA e în practică ușor de folosit și robust. Soft-ul dă toate valorile

necesare, se citește valorea de significanță și se poate stabili dacă grupurile pot sau nu pot fi

considerate ca fiind eșantioane independente obținute din aceiași populație. Adică dacă

variabila testată diferă esențial în funcție de variabila factor. Putem consideră testul și ca o

metodă de verificare a relației dintre două variabile, una normal distribuită, alta nominală.

d. Corelaţia simplă şi parţială

Corelaţia Pearson

Corelaţia Pearson este o metodă de testare a relaţiei dintre două variabile raţionale sau

intervalice. Din păcate se foloseşte uneori în mod abuziv şi la variabile ordinale.

Coeficientul de corelaţie este o valoare numerică care indică gradul de dependenţă şi direcţia

dependenţei între două variabile statistice. Deşi în general identificată cu matematicianul

britanic Karl Pearson care a analizat şi descris metoda pe larg, coeficientul a fost prima dată

introdus de către Francis Galton, un statistician (şi nu numai) britanic dintr-o generaţie

anterioară.

Dat fiind două variabile x şi y, valorile pe care le iau acestea pentru un individ i, xi şi yi,

coeficientul de corelaţie rxy “al lui Pearson” se calculează astfel:

Formula nu e foarte simplă, există însă bineînţeles tot felul de programe pe calculator care ştiu

să o calculeze astfel încît bătaia noastră de cap nu este să înmulţim şi să ridicăm la pătrat ci să

interpretăm rezultatele.

Există însă şi cîteva precondiţii ale utilizării coeficientului de corelaţie care sînt foarte

importante:

Cele două variabile care se relaţionează trebuie să fie raţionale şi distribuite normal,

dacă aceasta nu e cazul trebuie folosit un alt indicator de relaţionare, de ex. Chi2

Page 119: Carte de Statistica

119

Cele două variabile aleatoare trebuie să aibă dispersii finite şi nenule. Această condiţie

e relativ slabă fiind considerată practic îndeplinită întotdeuna.

Coeficientul de corelaţie verifică numai relaţii liniare între variabile. Două variabile

aflate într-o relaţie neliniară, de exemplu x = sin y, deşi se determină complet una pe

alta, vor ieşi ca fiind necorelate.

Să vedem însă ce valori dă coeficientul de corelaţie şi cum se interpretează acestea:

Intervalul de valori al coeficientului de corelaţie este (-1, +1).

rxy = -1 determinare complet negativă. Atunci cînd x creşte, y scade.

rxy între -1 şi -0,7 corelaţie negativă puternică.

rxy între -0,7 şi -0,3 corelaţie negativă medie

rxy între -0,3 şi 0 corelaţie negativă slabă

rxy = 0 înseamnă că cele două variabile nu sunt relaţionate

rxy între 0 şi 0,3 corelaţie pozitivă slabă

rxy între 0,3 şi 0,7 corelaţie pozitivă medie

rxy între 0,7 şi 1 corelaţie pozitivă puternică

rxy = 1 determinare completă pozitivă

Criteriile din tabelul de mai sus sînt cele care se folosesc de regulă în sociologie. În psihologie

se preferă adesea intervale mai apropiate de origine, o corelaţie fiind considerată puternică

chiar de la un coeficient de 0,5 în sus. Oricum trebuie observat că intervalele sînt în mare

măsură arbitrare şi trebuie privite mai mult ca nişte indicaţii decît ca regulă. În practica de

cercetare e mai bine să se analizeze corelaţiile comparativ cu ansamblul valorilor de corelare

din cadrul cercetării. Aceasta este adevărat şi referitor la indicatorii de regresie care au o

semnificaţie înrudită cu coeficienţii de corelaţie.

Un exemplu de interpretare cred că este oricum necesar. În tabelul de mai jos se găseşte

corelaţia dintre vîrstă patronilor de IMM-uri din Transilvania şi cifra de afaceri a firmei,

conform unei alte cercetări efectuate în 2006:

Page 120: Carte de Statistica

120

12. Care a fost cifra de afaceri a firmei

in 2005?

48. Ce varsta

aveti?

12. Care a fost cifra de afaceri a firmei

in 2005?

Corelaţia Pearson 1 ,096(*)

Significanţă

(bilaterală) ,028

N 539 530

48. Ce varsta aveti? Corelaţia Pearson ,096(*) 1

Significanţă

(bilaterală) ,028

N 530 980

* Corelatia este significantă cu nivelul de 0,05 (bilateral).

Tabelul prezintă valorile coeficientului de corelaţie, significanţa acestuia şi numărul de valori

utilizate pentru calcul. Prima observaţie ce trebuie făcută în cazul acestui tabel e discrepanţa

mare în număr de răspunsuri la întrebări. Astfel, se vede că la întrebarea “12. Care a fost cifra

de afaceri a firmei in 2005?” au răspuns 539 persoane, iar la întrebarea “48. Ce vîrstă aveţi?”

au răspuns 980 de persoane. Pentru corelaţie s-au putut folosi 530 de cazuri, cei ce au răspuns

la ambele întrebări. De altfel, eşantionul final a avut exact 1000 de persoane.

Faptul că puţin peste jumătate au răspuns numai la întrebarea 12. poate duce la bănuiala unei

selecţii defazate. Adică, cei ce au răspuns la întrebare au ceva aparte, o caracteristică

diferenţiatoare faţă de cei care nu au răspuns. Chiar şi aşa, putem testa dacă pentru ei există o

legătură cu între vîrstă şi cifra de afaceri a firmei. Valoarea coeficientului de corelaţie este

0,096 deci o valoare foarte mică. Aceasta înseamnă că putem liniştiţi considera că cifra de

afaceri a firmei şi vîrsta patronului nu au o legătură statistică. Bine, bine, dar ce ne facem cu

significanţa? Am spus doar că aceasta este probabilitatea de a face o eroare de tip I. Adică de

a respinge o ipoteză de independenţă adevărată. Şi în cazul de mai sus significanţa este sub

0,05 deci şansa ca să respingem o ipoteză adevărată e foarte mică. Ca să înţelegem corect cele

două valori trebuie să separăm două concepte: Cît de tare sînt relaţionate cele două variabile?

respectiv Cît de siguri putem fi de această relaţionare?

Coeficientul de corelaţie ne răspunde la prima dintre aceste întrebări, significanţa lui la cea de

a doua. Să mai luăm un exemplu din aceiaşi cercetare, relaţia dintre cifra de afaceri şi profitul

net al firmei:

Page 121: Carte de Statistica

121

12. Care a fost cifra de afaceri a

firmei in 2005?

13. Care a fost profitul net al

firmei in 2005?

12. Care a fost cifra de afaceri a

firmei in 2005?

Corelaţia Pearson 1 ,045

Significanţă

(bilaterală) ,394

N 539 368

13. Care a fost profitul net al

firmei in 2005?

Corelaţia Pearson 0,045 1

Significanţă

(bilaterală) 0,394

N 368 399

Din tabela de sus se vede că nici între cifra de afaceri şi profitul net al IMM-urilor nu există o

corelaţie, dar că nici significanţa nu e prea grozavă. Deci şansa de a face o eroare de tip I,

adică de a respinge o ipoteză adevărată este mare, de vreo 40%. Asta înseamnă că în primul

caz putem spune că există o corelaţie foarte slabă între cele două variabile, pe cînd în acest al

doilea caz nu putem respinge ipoteza de independenţă a variabilelor. Există în practică vreo

diferenţă între aceste două interpretări? Da şi nu. Ambele ne încurajează să considerăm

variabilele ca fiind în mare măsură independente. Dacă însă significanţa e bună, adică

apropiată de 0, avem o mai mare încredere în rezultat, rezultatul e mai sigur.

Alţi coeficienţi de corelaţie

Am văzut mai înainte că coeficientul de corelaţie al lui Pearson presupune variabile raţionale

sau intervalice. Există însă şi coeficienţi care permit relaţionarea de variabile ordinale. Cei

mai uzuali sînt coeficientul ρ (rho) al lui Spearman şi coeficienţii τ (tau) ai lui Kendall, din

care există trei variante a, b şi c. Aceşti coeficienţi nu fac presupuneri asupra distribuţiei

datelor, aşa că pot fi folosiţi nu numai atunci cînd datele nu sînt intervalice sau raţionale ci şi

atunci cînd, deşi sînt intervalice sau raţionale, ele nu sînt distribuite normal sau relaţia dintre

ele nu este liniară.

Ne vom ocupa acum numai de coeficientul ρ al lui Spearman, numit şi coeficientul de ordine

de rang (rank-order), care are avantajul de a avea o formă şi ca atare şi o interpretare foarte

asemănătoare cu coeficientul r al lui Pearson.

Să vedem formula prima dată, deşi şi în acest caz este foarte puţin probabil să o calculăm de

mînă:

Page 122: Carte de Statistica

122

În formulă n este numărul de perechi pentru care se calculează corelaţia. d este diferenţa

dintre rangul lui x şi rangul lui y pentru cîte o pereche. Rangul este poziţia pe care o are o

valoare x sau y în lista ordonată a tuturor valorilor culese. De fapt, coeficientul lui Spearman

este exact coeficientul lui Pearson la care valorile variabilei sînt înlocuite cu rangurile lor. Aşa

se elimină problema caracterului lor nenumeric şi se foloseşte numai faptul că sînt ordonate.

Rangurile elimină problema diferenţei inegale între valorile ordonate consecutiv ale

variabilelor ordinale.

Deoarece am văzut că metoda de calcul poate fi interpretată ca un coeficient de tip Pearson al

rangurilor şi interpretarea valorilor rezultate din calcul se face la fel. Să vedem deci un

exemplu. În tabelul de mai jos avem corelaţia dintre “viteza” de acomodare cu locul de muncă

şi gradul de satisfacţie cu acesta la un grup de absolvenţi ai secţiei de informatică a

Universităţii de Vest din Timişoara. Ambele variabile sînt ordinale. Deşi numărul de cazuri e

mic se observă o corelaţie cu o significanţă foarte bună. Ipoteza de independenţă dintre cele

două variabile se poate respinge cu o certitudine mai mare de 99%. Nivelul de corelaţie nu

este însă foarte puternic, valoarea coeficientului fiind 0,509. Cît de mare este de fapt această

valoare ar trebui determinat prin comparaţie cu alţi coeficienţi de corelaţie din acelaşi studiu.

Cât de repede

s-a acomodat

cu jobul

(1,…,5)

Este

satisfacut de

jobul actual?

Spearman-Rho Cât de repede s-a

acomodat cu jobul

(1,…,5)

Coeficient 1,000 ,509(**)

Sig. (bilateral) . ,000

N 54 54

Este satisfacut de

jobul actual?

Coeficient ,509(**) 1,000

Sig. (bilateral) ,000 .

N 54 54

** Corelatia este significanta cu nivelul de 0,01 (bilateral).

Corelaţia parţială

Page 123: Carte de Statistica

123

O problemă importantă a coeficienţilor de corelaţie aşa cum i-am prezentat pînă acum este

influenţa pe care o pot avea alte variabile asupra relaţiei studiate. Din cele văzute pînă acum

nu am putut aplica principiul ceteris paribus. Adică nu am putut studia efectul unei variabile

asupra alteia păstrînd factorii de mediu constanţi.

Corelaţia parţială este o metodă de a studia relaţia dintre două variabile controlînd efectul unei

de a treia. Ca de obicei, devine mai uşor de înţeles cu un exemplu. Mă voi folosi de un sondaj

de opinie făcut în judeţul Arad, atît în mediul rural cît şi urban, pentru a studia consumul

cultural. În următorul tabel apare corelaţia (Pearson) dintre numărul de cărţi cumpărate anual

şi vîrstă:

I2. vârsta:

Q15. În

medie, câte

carti

cumparati

pe an?

Corelaţie Pearson I2. vârsta: Coeficient 1,000 -,212(**)

Sig. (bilateral) . ,000

N 594 594

Q15. În medie, câte

carti cumparati pe

an?

Coeficient -,212(**) 1,000

Sig. (bilateral) ,000 .

N 594 595

** Corelatia este significanta cu nivelul de 0,01 (bilateral).

Corelaţia dă un rezultat cît se poate de clar: cu cît vîrsta e mai mică numărul de cărţi

cumpărate anual e mai mare. Analizînd valorile din tabelă găsim o corelaţie negativă, de

putere mică, dar significanţă foarte bună. Întrebarea pe care putem să ne-o punem în acest caz

este însă dacă efectul e dat chiar de vîrstă sau există variabile mediatoare în acest lanţ cauzal.

Fiind vorba de o temă de consum cultural este normal să studiem care e de fapt influenţa

nivelului de pregătire, variabila care are de regulă efectul cel mai mare asupra consumului

cultural.

Variabile de control

I2. vârsta:

Q15. În

medie, câte

carti

cumparati

pe an?

I4. nivel de pregatire: I2. vârsta: Corelatie 1,000 -,087

Sig. (bilateral) . ,034

Page 124: Carte de Statistica

124

Grade de libertate 0 591

Q15. În medie, câte

carti cumparati pe an?

Corelatie -,087 1,000

Sig. (bilateral) ,034 .

Grade de libertate 591 0

Într-adevăr controlînd efectul nivelului de pregătire, efectul vîrstei se diminuează de la o

corelaţie de peste -0,2 se ajunge la un nivel de sub -0,1. Deci efectul sesizat al vîrstei nu este

independent de nivelul de pregătire. Faptul că significanţa a rămas bună ne asigură importanţa

rezultatului. Tinerii avînd în general mai multă educaţie decît vîrstnicii, efect al expansiunii

învăţămîntului în ultimele două decenii, ajung să şi cumpere mai multe cărţi. Pe de altă parte

discrepanţa dintre rezultate nu este atît de mare încît să nu putem totuşi spune că tinereţea are

un efect, foarte mic dar semnificativ, asupra cumpăratului de cărţi chiar în condiţiile

controlării nivelului de pregătire.

Am analizat corelaţiile parţiale după aceiaşi metodologie pe care o folosim şi pentru

corelaţiile simple, fie ele Pearson sau Spearman. Şi e corect aşa. Corelaţiile parţiale sînt

corelaţii de tip Pearson, aceasta înseamnă că ele verifică de regulă relaţii liniare între variabile

intervalice sau raţionale (în general variabile cantitative) distribuite normal. De aici provine o

premisă importantă, corelaţia parţială trebuie analizată în relaţie cu corelaţia Pearson şi nu cu

alte forme de corelaţii.

Ca atare, în exemplu am forţat un pic metoda. Şi anume, am folosit o variabilă de control

ordinală. Celelalte două variabile în cauză sînt raţionale şi se pot presupune a fi distribuite mai

mult sau mai puţin normal. Verificarea normalităţii se poate face de fapt cu un test, testul

Kolmogorow-Smirnow, dar de regulă nu este necesară pentru a accepta rezultatele unei

analize corelaţionale. Variabila de control are însă un cu totul alt rol în felul în care se

calculează corelaţia parţială. Corelaţia parţială nu este o “corelaţie de trei variabile”.

Utilizarea variabilelor ordinale pe post de variabile de control, deşi nu întru totul corectă este

foarte des făcută şi de fapt acceptabilă.

e. Regresia liniară simplă şi multiplă

Analiza de regresie este o metodă statistică considerată în general a fi ceva mai avansată. Şi

aceasta, în special pentru că presupune o serie de condiţii ce se impun datelor. În sine metoda

este destul de uşor de aplicat şi de analizat fiind practic un pas mai departe în ordinea

lucrurilor pornind de la corelaţia Pearson. Regresia liniară analizează de asemenea relaţii

Page 125: Carte de Statistica

125

liniare între variabile cantitative distribuite normal, dar pe lîngă puterea relaţiei încearcă să

traseze de fapt chiar forma acesteia. Modelul regresiei liniare presupune existenţa unei relaţii

de cauzalitate între o variabilă aşa-zis dependentă şi una, sau mai multe, variabile

independente care o influenţează pe cea dependentă. Metoda încearcă să găsească cît de mult

determină modificarea unei variabile modificarea celeilalte şi cît din modificarea unei

variabile e explicabilă prin modificarea celeilalte.

Pentru a ne apropia cît mai corect de problema ce şi-o pune analiza de regresie, cel mai bine

ar fi să luăm un set de date şi să urmăm pas cu pas construirea regresiei liniare. Vom

exemplifica bineînţeles pentru început întregul demers pentru regresia liniară simplă, adică cu

o singură variabilă independentă. Vom folosi o relaţie cît se poate de clară, cea dintre numărul

de studenţi la 10.000 de locuitori şi produsul intern brut pe cap de locuitor. Datele provin din

diferiţi ani (de fapt anii 1950 - 2000) din aproape toate ţările europene (25 de ţări) şi au fost

colectate pentru un studiu bazat tocmai pe diverse tipuri de ecuaţii de regresie (Reisz, Stock,

2006).

Primul pas într-o analiză de regresie, numit uneori excesiv de pretenţios şi “metoda grafică”

este reprezentarea relaţiei dintre cele două variabile ca un nor de puncte şi încercarea de a

construi ipoteze pe baza efectului pur vizual. Graficul de mai jos este acest “nor de puncte”

pentru cazul nostru.

Page 126: Carte de Statistica

126

0 5000 10000 15000 20000 25000 30000

GDP

0,00

100,00

200,00

300,00

400,00

500,00

600,00

stu

dp

er1

000

0

Ce putem observa este că valori mai mari ale numărului de studenţi la 10.000 locuitori par a

se asocia cu valori mai mari ale produsului intern pe cap de locuitor. Asocierea se poate

presupune a fi oarecum liniară. Graficul e dominat de un grup compact de puncte care se

grupează asemănător cu o linie. Pe lîngă acest grup există însă şi multe puncte care se prezintă

oarecum disparat de rest. Rolul modelului de regresie este să descrie matematic linia

principală şi să determine cam cît din relaţie dintre cele două variabile se regăseşte în aceasta

şi cît e de fapt cuprins în cazurile “excepţionale”. Altfel, metoda încearcă să determine cît e

regularitate liniară în relaţia dintre cele două variabile.

Ideea e de a trasa o dreapta pe graficul de puncte de mai sus astfel încît ea să fie cît mai

apropiată de toate punctele reprezentate. Această apropiere de “toate” punctele e tocmai

problema majoră pe care o ridică regresia.

Page 127: Carte de Statistica

127

5000 10000 15000 20000 25000

GDP

0,00

100,00

200,00

300,00

400,00

500,00

stu

dp

er1

0000

În graficul de mai sus apare acelaşi nor de puncte, de astă dată cu o linie trasată pe poziţia

dreptei de regresie. Ca orice dreaptă şi aceasta are o ecuaţie de forma următoare:

S = b0 + b1 * GDP

GDP e desigur valoarea x a dreptei, iar S este valoarea de pe axa y pentru dreaptă. Valoarea S

se doreşte să fie un fel de aproximare a valorii studper10000. Este o aproximare pentru ca aşa

cum spuneam, S se determină astfel încit să fie cît mai aproape de punctele norului.

Desigur punctele de pe dreaptă aferente valorilor variabilei GDP nu au cum sa fie egale cu

punctele potrivite cu valorile Studper10000. Dacă ar fi egale, ar ieşi tocmai norul de puncte şi

nu o dreaptă. Fiecare din punctele din nor diferă de punctele de pe dreaptă printr-o abatere.

Deci

Studper10000 – S = abatere, adică, înlocuind formula dreptei care determină S avem

Studper10000 – (b0 + b1 * GDP) = abatere

Page 128: Carte de Statistica

128

Studper10000 = b0 + b1 * GDP + abatere

Dat fiind că ecuaţia de mai sus trebuie să fie satisfăcută pentru toate valorile măsurate ea se

traduce de fapt într-un număr atît de mare de ecuaţii cîte perechi de măsurători există. Dacă

notăm cu indici i aceste perechi rezultă formula:

Studper10000i = b0 + b1 * GDPi + abaterei

Această ultimă formă este ceea ce în general numim ecuaţia de regresie. În această ecuaţie

Studper10000, GDP şi abatere sînt variabile aleatoare, iar b0 şi b1 pur şi simplu numere, adică

aşa-numite valori scalare. Studper10000 se numeşte de obicei variabilă ţintă sau variabilă

dependentă, GDP este pe poziţia numită regresor, variabilă explicativă sau independentă.

Modelul presupune de fapt că variabila independentă se repercutează cauzal asupra variabilei

dependente şi felul cum ea o cauzează pe aceasta este unul modelabil liniar, adică în practică,

apropiat de o linie. Abaterea se mai numeşte uneori şi reziduu sau eroare.

În cazul unei cercetări, valorile variabilelor, atît cea dependentă cît şi cea independentă sînt

cunoscute. Ele rezultă din măsurători, indiferent de ce tip ar fi acestea. Ceea ce trebuie

calculat sînt coeficienţii ecuaţiei, adică coeficienţii dreptei de regresie, valorile b0 şi b1.

Coeficienţii aceştia trebuie găsiţi în aşa fel încît abaterea să fie cît mai mică.

Abaterea care se minimizează trebuie să se refere la toate punctele. De aceea prima idee ar fi

să minimizăm suma tuturor abaterilor. Ştim deja că asta nu e o idee bună, de cînd am calculat

dispersia. Şi anume, nu e o idee bună pentru că abateri pozitive şi negative se atentuează şi

ceea ce dorim noi este ca abaterile să fie cît mai mici în valoare absolută. De aceea cel mai

bine este să încercăm să minimizăm suma pătratelor abaterilor. Metoda care se bazează pe

acest principiu este una dintre cele mai importante în statistică şi se numeşte de regulă

metoda celor mai mici pătrate. În engleză se zice ordinary least squares şi de aceea cel mai

adesea se prescurtează cu OLS. Metoda e surpinzător de veche, fiind publicată la începutul

secolului al nouăsprezecelea în mod independent de către americanul Robert Adrain (1808),

Gauss (1809) şi Legendre (1805). Gauss a fost însă cel care a enunţat teorema care ne asigură

de faptul că estimarea dată de metoda celor mai mici pătrate este cea mai bună estimare

liniară nebiasată a dreptei de regresie. O asemenea estimare se mai numeşte BLUE (best liniar

Page 129: Carte de Statistica

129

unbiased estimate). Deoarece teorema a fost demonstrată mai tîrziu de către statisticianul rus

Andrei Markov, ea poartă în general numele de teorema Gauss-Markov.

Metoda OLS este însă destul de pretenţioasă din punct de vedere al condiţiilor necesare pentru

ca ea să fie aplicabilă şi eficientă. Condiţiile, care se numesc de regulă condiţiile Gauss-

Markov sînt următoarele:

Variabilele aleatoare abaterei au media 0.

Variabilele aleatoare abaterei au o dispersie finită egală pentru toţi indicii i. Aceasta se

numeşte homoschedasticitate (sau omogenitate a dispersiei).

Variabilele aleatoare abaterei sînt necorelate între ele. Condiţia se mai numeşte absenţa

autocorelaţiei.

Prima dintre condiţii este nesemnificativă. La urma urmei dacă media variabilelor abaterei are

fi nenulă s-ar putea adăuga această valoare la termenul liber al ecuaţiei şi abaterile s-ar aduce

astfel la media nulă. Celelalte două condiţii pot fi uneori greu de îndeplinit în cercetări cu date

reale. Cu toate acestea, metodă OLS se foloseşte chiar şi în cazurile în care condiţiile Gauss-

Markov nu sînt perfect îndeplinite.

Condiţia de homoschedasticitate se poate testa cu testul Breusch-Pagan. Dacă se aplică OLS

în condiţii de heteroschedasticitate de obicei coeficientul de corelaţie r al lui Pearson (şi

coeficientul de determinare R2 despre care vom vorbi în curînd) pot fi subestimaţi. Aceasta e

mai puţin grav decît supraestimarea. În practică s-ar putea să nu recunoaştem nişte relaţii

existente dar e puţin probabil să găsim ceva acolo unde nu e nimic. Altfel spus ipoteza de

independenţă între variabilele din ecuaţia de regresie este mai greu de respins în condiţii de

heteroschedasticitate decît ar trebui să fie.

Condiţia de absenţă a autocorelaţiei se testează cu testul Durbin-Watson10

. Problema

autocorelaţiei abaterilor este cel mai adesea prezentă în cercetările cu serii de timp, adică cu

valori ale unor variabile care sînt măsurători ale aceluiaşi fenomen în diferite momente de

timp. Abaterile care rezultă din ecuaţii cu valori pentru aceiaşi indivizi în diverse momente de

10

Ca şi în cazul Breusch-Pagan şi pentru testul Durbin-Watson, consider că modul de calcul şi interpretare a

acestor teste depăşeşte cadrul unui manual introductiv de statistică. Importantă este cunoaşterea numelui testului

pentru ca la nevoie să fie posibilă documentarea. Iar ca regulă generală, citirea valorii de significanţă a testului

pe care o dau aproape toate soft-urile statistice poate da o indicaţie bună de interpretare.

Page 130: Carte de Statistica

130

timp au toate şansele să prezinte autocorelaţii. Autocorelaţia duce de obicei la supraevaluarea

significanţei testelor, de exemplu al testului t. Există o serie întreagă de variante de rezolvare

ale acestei probleme. Fiecare dintre ele are însă dezavantaje. Cercetări recente au ajuns la

concluzia că folosirea metodei OLS rămîne de preferat multor variante mai complicate de

definire sau/şi rezolvare a regresiei liniare. Pentru a avea încredere în rezultatele date de

metoda OLS în condiţii de autocorelaţie a abaterilor, se impun o serie de alte condiţii asupra

variabilelor.

Să vedem deci care sînt rezulatatele regresiei liniare şi cum se citesc ele. Fie deci ecuaţia de

regresie pe care am prezentat-o mai sus. Să vedem rezultatele metodei OLS şi apoi să le

explic pas cu pas.

Model R R-Patrat Eroarea standard a estimatorului

1 ,728(a) ,530 78,75713

Coeficienti

Model

Coeficienti nestandardizati Coeficienţi standardizati

T Significanta B Eroarea standard Beta

1 (Constanta) -7,664 5,143 -1,490 ,136

GDP ,016 ,000 ,728 35,052 ,000

a Variabila dependenta: studper10000

Tabelele de mai sus sînt o parte a rezultatelor metodei OLS. De obicei se mai raportează şi

valori intermediare cum ar fi chiar sumele de pătrate calculate şi altele.

Prima tabelă ne precizează cît de puternică este legătura dintre cele două variabile din ecuaţie.

Coeficientul R este chiar coeficientul de corelaţie al lui Pearson. Valoarea este în cazul nostru

o valoare care desemnează o corelaţie destul de puternică, 0,728. Acest coeficient se ridică la

pătrat şi se obţine R2 = 0,530, coeficientul de determinare. Coeficientul acesta reprezintă

procentul din modificarea variabilei ţintă care se poate explica prin modificare variabilei

regresor. În cazul nostru am citi cam aşa: 53% din variaţia numărului de studenţi la 10,000 de

Page 131: Carte de Statistica

131

locuitori se explică prin variaţia produsului intern brut pe cap de locuitor11

. Deci, cu cît R2 e

mai mare, regresorii au un efect mai mare asupra variabilei dependente. Ca efect al

intervalelor de evaluare a coeficientului de corelaţie, o regresie este puternică dacă R2 e mai

mare decît 0,5 (corespunzător unui R mai mare de 0,7 ridicat la pătrat). De fapt, valorile

trebuie şi de această dată privite în contextul cercetării practice. Dacă în general în teme de

natură psihologică chiar şi un R2 de 0,3 e considerat bun, în econometrie, unde relaţiile dintre

indicatori se supun unor reguli mai simple, valori mari, de peste 0,9 nu sînt chiar o raritate.

Al doilea tabel conţine coeficienţii de regresie, numiţi adesea b sau B. Coeficienţii b sînt cei

din ecuaţia de regresie propriu-zisă. Deci pe baza tabelei putem spune că:

Studper10000i = -7,664 + 0,012 GDPi + abaterei

sau, că

Si = -7,664 + 0,012 GDPi

este ecuaţia dreptei de regresie. Pentru fiecare dintre aceşti coeficienţi se propune şi o ipoteză

de forma: “coeficientul b este nul” ceea ce echivalează cu a spune “regresorul nu are nici un

efect asupra variabilei ţintă”. Pentru această ipoteză se efectuează testul t şi se dă în tabel

valoarea testului şi significanţa lui. Vedem că significanţa coeficientului lui GDP este foarte

bună (testul t dă peste 35), însă significanţa coeficientului termenului liber nu e aşa grozavă (t

= -1,49). Deci acest coeficient al termenului liber este ceva mai nesigur.

Coeficientul lui GDP se poate citi astfel. Dacă valoarea GDP creşte cu o unitate, numărul

studenţilor la 10000 de locuitori creşte cu 0,012 unităţi. Desigur exprimarea aceasta sună

foarte mecanicist şi nu trebuie înţeleasă altfel decît ca o modelare, sau poate chiar mai vag, ca

o metaforă a relaţiei dintre variabile. Totuşi vom vedea că interpretarea coeficienţilor de

regresie, precum şi a coeficientului de determinare, ne poate da indicaţii despre puterea cu

care influenţează diferite variabile independente variabila dependentă a unei cercetări.

11

În cercetările mele pe această temă, rezultatul a fost pînă la urmă mai nuanţat, varianta de mai sus neluînd în

seamă eterogenităţi locale existente în felul cum variabilele educaţionale şi economice se influenţează reciproc.

Am ales să prezint aici însă forma cea mai simplă, scopul fiind la urma urmei unul educaţional. Deci, nu mă

citaţi cu rezultatul din exemplu, legătura dintre numărul de studenţi şi produsul intern brut e mai complicată decît

pare aici!

Page 132: Carte de Statistica

132

Coeficientul Beta din tabel este o valoare standardizată care ia în seamă valoarea medie şi

dispersia variabilei independente. Aceasta va fi interesant, cum vom vedea, în special la

regresia multiplă pentru că va permite compararea efectelor mai multor variabile

independente care evident au medii diferite.

Regresia multiplă extinde metoda prezentată mai sus la un număr mai mare de variabile

independente care se repercutează asupra aceleiaşi variabile ţintă. Voi descrie în continuare şi

aceasta pentru ca apoi să vedem în continuare cum se pot analiza acestea.

Pentru a exemplifica regresia multiplă o să folosesc o extindere a aceleiaşi probleme. Regresia

multiplă diferă de cea simplă prin numărul regresorilor. Deci, dacă în exemplul precedent am

avut un singur regresor al cărei efect asupra variabilei ţintă ne interesa, în cazul unei regresii

multiple numărul regresorilor va fi mai mare. Pentru a păstra lucrurile cît mai simple posibil

să luăm doi regresori. În exemplul simplu, ţinta era numărul de studenţi la 10.000 de locuitori

şi regresorul era produsul intern brut pe cap de locuitor. Să luăm acum un al doilea regresor,

numărul de organizaţii neguvernamentale internaţionale active în anul studiat în ţara cu

pricina.

Motivaţia acestei extinderi a modelului este următoarea: teoriile globalizării ale şcolii neo-

instituţionaliste de la Stanford (John Meyer, Francesco Ramirez, şi alţii) găsesc că

expansiunea învăţămîntului are loc peste tot în lume indiferent de nivelul de dezvoltare

economică. Mai mult, ei găsesc că în a doua jumătate a secolului 20, expansiunea

educaţională a avut loc peste tot în lume, indiferent dacă economia era în creştere sau în

descreştere. De aici ei ajung la concluzia că dezvoltarea învăţămîntului nu are legătură cu

dezvoltarea economică. Ipoteza lor este însă aceea că dezvoltarea învăţămîntului este un

epifenomen al globalizării şi ca atare ar trebui să depindă de un indicator care măsoară nivelul

de globalizare al unei ţări. Tot ei propun numărul de organizaţii non-guvernamentale

internaţionale active la un moment dat într-o ţară ca un astfel de indicator. Acest indicator este

notat de regulă cu ingo (de la international non-governmental organizations).

Am avea atunci o ecuaţie de regresie în care avem doi regresori, unul indicînd dezvoltarea

economică şi un altul gradul de globalizare. Ecuaţia este următoarea:

Studper10000i = b0 + b1 * GDPi + b2 * ingoi + abaterei

Page 133: Carte de Statistica

133

Observăm că logica formulei rămîne aceiaşi, apare un termen în plus, cu coeficientul de

regresie b2 şi variabila de regresie ingoi. Statistic vorbind, pînă acum efectul pe care îl avea

ingo asupra variabilei ţintă nu era evidenţiat separat, deci făcea parte din ansamblul de efecte

care se adună în abatare pentru a forma o variabilă aleatoare. Desigur, aşa cum vom vedea o

parte a efectului variabilei ingo era de asemenea inclus implicit în efectul produsului intern

brut pe cap de locuitor. Deci abaterea din noua ecuaţie de regresie nu mai conţine aceiaşi

lucru ca şi abaterea din ecuaţia simplă, ea este “curăţată” de efectul pe care l-ar putea avea

ingo. Cît de mare este acest efect ne poate spune o comparaţie între ecuaţia de regresie simplă

şi cea multiplă.

Pînă acolo, cîteva remarci. Condiţiile pe care le-am specificat pentru ca metoda celor mai mici

pătrate să fie funcţională rămîn aceleaşi. Apare însă un fel de condiţie suplimentară. Aceasta

nu influenţează eficienţa metodei dar schimbă modul cum se citesc rezultatele. Ea se referă la

coliniaritatea regresorilor, adică independenţa lor. În esenţă este de preferat ca regresorii să fie

independenţi. Dacă sînt independenţi efectele lor asupra variabilei ţintă sînt pur şi simplu

însumate. Dacă însă nu este aşa, şi de obicei în lumea reală nu este aşa, atunci efectul sumei

regresorilor este cu atît mai mic faţă de suma efectelor regresorilor cu cît regresorii sînt mai

corelaţi între ei. Poate sună puţin neclar, ce vreau eu să zic de fapt. Fiecare regresor ar putea

apărea într-o regresie simplă, de exemplu, una cu produsul intern brut, ca şi în exemplu, şi una

cu organizaţiile non-guvernamentale internaţionale. Fiecare dintre acestea două ar da un

anume nivel de explicare a variaţiei numărului de studenţi, o valoare specifică a R2. În

exemplul nostru, această valoare este ceva peste 50% pentru ambii regresori (vezi Reisz,

Stock, 2006). Dacă cei doi regresori ar fi independenţi, sau aproape independenţi, regresia

multiplă ar trebuie să dea o valoare R2 de 100%!. Este însă de bun simţ să observăm că o ţară

este cu atît mai încadrată în societatea globală cu cît este mai dezvoltată economic. Deci cei

doi indicatori trebuie să fie corelaţi destul de puternic. De fapt, coeficientul de corelaţie este

de 0,83 şi relevant cu o significanţă de 0,000. Fiind o corelaţie atît de mare e de bănuit că

adăugînd la regresia simplă ce verifică efectul produsului intern brut şi efectul globalizării

ţării nu se schimbă mare lucru. O astfel de situaţie se numeşte multicoliniaritate sau, dacă

corelaţia e aproape perfectă, redundanţă.

Să vedem rezultatele ecuaţiei noastre de regresie multiplă:

Page 134: Carte de Statistica

134

Model R R-Patrat Eroarea standard a estimatorului

1 ,753 ,566 76,00829

Coeficienti

Model

Coeficienti nestandardizati Coeficienti standardizati

T Significanta B Standardfehler Beta

1 (constanta) -4,468 5,123 -,872 ,383

GDP ,009 ,001 ,413 11,559 ,000

ingo ,059 ,006 ,376 10,528 ,000

a Variabila dependenta: studper10000

Să analizăm acum rezultatele. Prima tabelă ne dă indicatorii de corelaţie (R) şi determinare

(R2) dintre variabila ţintă şi grupul de regresori luat în ansamblu. Importantă este aici citirea

coeficientului de determinare. Exact ca şi în cazul regresiei simple coeficientul de determinare

ne spune ce procent din modificarea variabilei ţintă se explică prin modificarea variabilelor de

regresie. În cazul nostru observăm că R2-ul regresiei simple era de 0,530, iar cel al regresiei

multiple cu adăugarea indicatorului de globalizare este de 0,566. Diferenţă, numită uneori şi

R2

c sau modificare a coeficientului de determinare (c vine de la change, modificare sau

schimbare) este foarte mică, de 0,036. Pentru a analiza această modificare este însă

obligatorie analiza corelaţiei regresorilor. În cazul nostru, cum am mai spus, regresorii sînt

puternic corelaţi. Dacă regresorii ar fi fost independenţi, valoarea R2

c ar fi fost interpretabilă

ca efect al indicatorului de globalizare. Dat fiind corelaţia existentă valoarea R2

c este cîştigul

de informaţie pe care îl adaugă regresorul suplimentar.

Să mergem mai departe şi să studiem mai de aproape tabela a doua, cea cu coeficienţii de

regresie. Din ea rezultă că ecuaţia de regresie are forma:

Studper10000i = -4,468 + 0,009 GDPi + 0,059 * ingoi + abaterei

Valoarea coeficientului GDP nu diferă radical de valoarea pe care acest coeficient o avea în

cazul regresiei simple, aceasta fiind explicabil tot prin corelaţia mare dintre regresori. Din

ecuaţia de mai sus putem extrage următoarele două declaraţii:

Page 135: Carte de Statistica

135

Dacă produsul intern brut pe cap de locuitor creşte cu un dolar, numărul studenţilor la

10.000 de locuitori creşte cu 0,009.

Dacă numărul organizaţiilor non-guvernamentale internaţionale active într-o ţară

creşte cu una, numărul studenţilor la 10.000 de locuitori creşte cu 0,059.

Desigur, cum am mai scris şi mai sus, exprimate aşa relaţiile par imposibil de simple şi

directe. Şi desigur o citire atît de naivă ar fi greşită. Totuşi pînă la urmă, considerînd

cauzalităţi complexe şi reţele de influenţă evident indirecte şi complicate rezultatul acesta

este. Un produs intern brut pe cap de locuitor mai mare cu un dolar e legat de un număr de

studenţi la 10,000 de locuitori mai mare cu 0,009.

Ne-am dori să comparăm coeficienţii de regresie între ei. Este într-adevăr 0.059 mai mare

decît 0,009? Care dintre cele două variabile de regresie are efectul mai mare în realitate?

Pentru aceasta se poate folosi un indicator numit puterea unui regresor care se calculează

foarte simplu ca produs la coeficientului de regresie cu media variabilei regresor. La urma

urmei, ne interesează care e valoarea medie numerică ce se repercutează asupra variabilei

ţintă. În exemplu avem:

Media Coeficientul Puterea

GDP 9740,97 0,009 87,66

Ingo 1139,7700 0,059 67,24

Observăm că citirea pur şi simplu a coeficienţilor de regresie b ne-ar fi dus puţin în eroare.

Coeficientul indicatorului de globalizare era de vreo 6 ori mai mare decît coeficientul

indicatorului economic. Aceasta ar fi putut să ne ducă cu gîndul la un efect mult mai mare al

acestuia. Pentru a putea însă compara cu adevărat efectele nu trebuie uitată valoarea în sine a

indicatorilor. Şi într-adevăr media indicatorului economic este de aproape 9 ori mai mare

decît media indicatorului de globalizare. Înmulţind, rezultă puterile relative şi rezultă că

numărul de studenţi este determinat în mai mare măsură de creşterea economică decît de

globalizare. Trebuie să observăm şi faptul că cele două puteri sînt totuşi destul de apropiate.

Ele au acelaşi ordin de mărime. Diferenţa dintre ele se poate da, de exemplu, procentual.

Astfel putem spune că efectul creşterii economice este cu aproape 30% mai mare decît efectul

globalizării în modelul de regresie liniară de mai sus sau invers, puterea efectului globalizării

Page 136: Carte de Statistica

136

asupra expansiunii învăţămîntului superior este aproximativ trei-sferturi din puterea efectului

creşterii economice. Evident, modelul în sine, explică, aşa cum am văzut, numai jumătate din

variaţia variabilei ţintă.

Tabelele ecuaţiei de regresie ne oferă şi ele un indicator comparativ apropiat de puterea unei

variabile independente, valorile Beta. Aceste valori reprezintă coeficienţi standardizaţi pentru

variabilele aleatoare, coeficienţi care iau în considerare valoarea medie a variabilelor

independente, dar şi dispersia lor. În exemplul nostru valorile Beta au fost: 0,412 pentru GDP

şi 0,376 pentru ingo reproducînd destul de îndeaproape calculele noastre de mai sus. Desigur

o decizie rapidă asupra importanţei regresorilor într-o ecuaţie de regresie multiplă este mai

uşor de luat folosind ceea ce raportează softul statistic. Pe de altă parte “puterea regresorului”

aşa cum am calculat-o mai sus este un concept mai simplu şi poate duce ca atare la mai puţine

confuzii.

Să rezumăm acum avantajele şi dezavantajele regresiei multiple. Regresia multiplă are ca

principal avantaj posibilitatea comparării efectelor unor variabile (definite în model ca

regresori) asupra variabilei ţintă. Pentru asta luăm în seamă gradul lor de corelare reciprocă,

să calculăm modificarea coeficientului de determinare şi puterile regresorilor.

Al doilea mare avantaj este că regresia multiplă poate “curăţa” abaterile de efecte care nu pot

fi considerate pur şi simplu aleatoare. Dacă avem un singur regresor tot ce mai are efect

asupra variabilei ţintă este împins în factorul abatere (sau eroare). Aceasta poate duce la

neîndeplinirea condiţiilor Gauss-Markov, cele cu lipsa autocorelării şi a heteroschedasticităţii.

Deci o regresie multiplă poate avea efecte benefice asupra modelului. Îl poate face mai exact,

prin creşterea coeficientului de determinare, şi îl poate face şi mai uşor rezolvabil matematic.

Atunci ar trebui să tot adăugăm regresori pînă ajungem să descriem toată variaţia variabilei

ţintă şi gata: am descris complet problema! Din păcate aşa ceva în lumea reală nu se prea

poate şi în plus regresia multiplă are şi anumite dezavantaje care ne determină să o folosim cu

oarecare măsură.

Necazul cel mai mare cu regresia multiplă este supraspecificarea modelului. Nu e chiar tragic

dar poate duce la anumite incurcături dacă nu este interpretată cu grijă. Supraspecificarea

înseamnă de fapt includerea unui număr prea mare de regresori. În astfel de situaţii analiza

Page 137: Carte de Statistica

137

relaţiilor dintre regresori nu se mai poate face atît de simplu ca în cazul exemplului nostru în

care deşi exista multicoliniaritate, erau numai doi regresori.

Un efect al supraspecificării este desigur creşterea şanselor de multicoliniaritate. Pe de o

parte, avînd mulţi regresori există şanse mai mari ca unii dintre ei să fie puternic corelaţi cu

alţii. Pe de altă parte, mai apare şi posibilitatea ca un regresor să fie foarte apropiat de o

combinaţie liniară a altor regresori. Ce se întîmplă în astfel de cazuri este că acelaşi obiect sau

fenomen apare în ecuaţia de regresie de mai multe ori prin mai multe măsurători diferite între

ele. Pericolul supraspecificării nu apare deci, atunci cînd fenomene diferite, bine-definite

teoretic (ca în exemplu, creşterea economică şi globalizarea) sînt în mod dovedit corelate, ci

atunci cînd folosim mai multe variabile care măsoară acelaşi fenomen. De ce? Ei bine, pentru

că estimarea efectului fenomenului în sine devine problematică. Utilizînd mai multe

măsurători pentru fiecare din fenomenele studiate, compararea efectelor acestor fenomene

devine incertă. Fiecare dintre măsurătorile fenomenului vor avea un impact subestimat prin

prezenţa celorlalte măsurători. Suma impactelor variabilelor care aparţin aceluiaşi complex

teoretic trebuie de asemenea tratată cu grijă pentru că poate fi influenţată de relaţii diferite cu

celelalte variabile ale modelului. Desigur, aşa cum am mai spus, multicoliniaritatea nu este o

problemă care să facă modelul inutil sau metoda inexactă. Multicoliniaritatea cu un număr

mare de regresori complică însă semnificativ analiza modelului.

A doua problemă a supraspecificării este legată de alegerea variabilelor. Incluzînd în model

un număr mare de variabile, multe dintre acestea vor avea un impact redus asupra variabilei

ţintă. Astfel de efecte, care ajung să fie de a dreptul neglijabile nu fac decît să complice

modelul şi să acorde unor variabile o nemeritată atenţie. Variabile care au fost incluse în

model şi au un efect foarte mic au probabil acelaşi impact cu o gramadă de alte variabile care

nu au fost incluse în model. Prezenţa lor acolo face însă ca ele să fie interpretate, discutate şi

să li se atribuie, chiar fără a supraevalua valorile, o importanţă mai mare decît altor variabile.

Să discutăm în încheierea acestui capitol puţin despre felul cum ar fi bine să se facă

specificarea modelului de regresie liniară. În general se consideră modelul de regresie ideal,

un model cu un număr minim de variabile, cît mai puţin dependente între ele şi cu un impact

individual cît mai mare. Nu întotdeuna există aşa ceva, şi chiar dacă există, în majoritatea

cercetărilor nu avem cum să găsim un asemenea model. Mai mult decît atît, găsind variabile

de impact maxim asupra variabilei ţintă s-ar putea să nu găsim altceva decît o măsură a

Page 138: Carte de Statistica

138

aceluiaşi fenomen. Oricum, dezideratul fiind găsirea unui număr mic de variabile

independente de impact mare, cercetătorul trebuie să îşi dea silinţa să determine variabilele

care au efectul cel mai mare asupra variabilei ţintă. Pentru asta bineînţeles trebuie să-şi

folosească cît de mult posibil bunul simţ ştiinţific şi cultura de specialitate. Trebuie să

modelez creşterea numărului de studenţi, ce regresori iau? Trebuie să pornesc de la un soi de

repertoar al fenomenelor pe care teoria le-a pus în legătură cu fenomenul ţintă al modelării.

Apoi trebuie să verific prin regresii simple efectul acestor regresori asupra variabilei ţintă şi

prin analiză de corelaţie gradul de multicoliniaritate dintre regresori.

De obicei în finalul acestui demers se dezvoltă mai multe modele concurente la explicarea

fenomenului ţintă. Acestea se calculează, iar rezultatele se compară între ele.

Page 139: Carte de Statistica

139

Capitolul 7. Pentru vegetarieni. Analiza datelor nenumerice.

În acest capitol mă voi referi la modurile cum statistica se poate apropia de date care nu au

caracter numeric, cantitativ. Datele acestea, numite de regulă calitative nu permit utilizarea

oricăror metode statistice. Ele sînt mai pretenţioase, se pot face mai multe greşeli la

“prepararea” lor. Pe de altă parte, datele calitative ne pot oferi o pătrundere în subiect la un

nivel mult mai amănunţit. Ele permit trecerea dincolo de mult criticata superficialitate a

cantitativului.

Aşa cum am văzut deja astfel de date sînt prezente foarte des în cercetările sociale,

economice, şi nu numai. Din experienţa mea aceste variabile sînt chiar majoritare în

cercetările de acest tip. Arareori avem nevoie de valori simple cantitative în studii legate de

comportamentul oamenilor, fie el social, economic sau politic. Cu excepţia vîrstei, aproape că

nu avem date raţionale în studiile de piaţă, de exemplu. Nici măcar informaţiile legate de

venituri nu sînt cu adevărat raţionale, pentru că nu avem la dispoziţie statele de plată ale celor

intervievaţi, ci o auto-estimare a venitului lunar, de obicei pe categorii. Ce să mai spun,

greutatea sau înălţimea persoanelor intervievate interesează prea puţini clienţi ai marketing

research-ului. Chiar dacă acestea ar avea vreo legătură, de exemplu, cu consumul de bere al

celui intervievat, atîta timp cît nu au relevanţă din punct de vedere al planificării şi designului

publicităţii sau distribuţiei, interprinderile producătoare sînt prea puţin interesate de ele. Deci,

majoritatea întrebărilor de interes pentru cercetările statisticii sociale se dovedesc a fi

categoriale, uneori chiar nominale, dar cel mai adesea ordinale. A nu se înţelege de aici că

datele cantitative sînt chiar irelevant de rare. Ele apar adesea în cercetări medicale, geografice,

economice, uneori în studii politice comparative internaţional, în sociologie organizaţională şi

ecologie.

În capitolele precedente am trecut în revistă o serie întreagă de metode care nu erau gîndite a

fi utilizate pentru variabile fără caracter cantitativ. Cu toate acestea, o parte dintre ele îşi

păstrează validitatea şi atunci cînd sînt aplicate unor date calitative. Problema esenţială legată

de alegerea metodei este simplă: cu date calitative nu se fac calcule. Aceasta însă nu înseamnă

că nu se pot calcula frecvenţele de apariţie a lor. Deci, de exemplu, nu se poate face o

corelaţie simplă Pearson cu date cu care nu se poate calcula. Am văzut însă că se poate face o

corelaţie Spearman, pentru că acolo calculele nu se fac cu valorile variabilelor în sine ci cu

poziţiile lor într-o listă ordonată de ranguri. Un alt exemplu. Desigur nu se pot efectua teste

Page 140: Carte de Statistica

140

legate de media unor variabile calitative (chiar dacă ele sînt reprezentate prin valori

numerice), pe de altă parte se pot foarte bine efectua teste cu frecvenţele de apariţie a unor

astfel de variabile. Hai să fiu mai clar, fie o întrebare de opinie, de genul: “Sunteţi de acord cu

...?” şi răspunsurile sînt “1. Da; 2. Nu”. Calculul mediei răspunsurilor este total lipsit de sens

pentru că presupune adunarea de valori 1 şi 2 adică adunarea de Da şi Nu şi împărţirea la

numărul lor. Pe de altă parte testarea faptului că frecvenţa de apariţie a unui Da este relevant

diferită de 50% este absolut corectă. E vorba despre un test similar la urma urmei, diferenţa

este că în primul caz se fac calcule cu valorile variabilei iar în al doilea caz cu frecvenţele de

apariţie a acestor valori.

Tot ce am discutat pănă acum legat de prezentări tabelare, grafice, indicatori, teste, etc. are

valabilitate şi în cazul variabilelor calitative atît timp cît metoda nu presupune calcule cu

valorile variabilelor.

În cele ce urmează o să adaug la reţaterul nostru de metode cîteva care au fost gîndite special

pentru variabile calitative. Cel mai adesea ele se evidenţiază printr-un număr mai mic de

restricţii sau presupuneri legate de variabile. De aceea ele se folosesc adesea şi în cazul unor

variabile raţionale sau intervalice despre care avem mai puţine informaţii. De exemplu,

variabile despre care nu putem presupune că ar fi distribuite normal. Astfel de metode sînt

adesea numite şi metode non-parametrice sau cu distribuţie liberă. Denumirea de non-

parametric poate să inducă în eroare de-a binelea. Şi eu am fost multă vreme convins că aşa se

numesc metode care pur şi simplu nu au parametrii. Ei bine, nu e aşa. Metodele non-

parametrice sînt metode la care nu se fac presupuneri a-priori despre parametrii. E mult mai

simplu să le numim metode fără distribuţii presupuse a-priori, sau metode libere de

distribuţie. Din păcate e bine să ţinem minte şi denumirea inducătoare în eroare pentru că ea e

folosită în diverse programe statistice (de ex. în SPSS) şi în multe cărţi de statistică. Cea mai

utilă şi răspîndită metodă non-parametrică este testul Chi2.

a. Testul Chi2

De fapt există o întreagă familie de teste numite Chi2. Ele efectuează testarea folosindu-se de

o familie de distribuţii de probabilitate numită Chi2. Familia aceasta este mai largă decît

familia de distribuţii normale şi o include pe aceasta din urmă ca o limită a ei.

Page 141: Carte de Statistica

141

Cel mai important dintre testele Chi2 este testul Chi

2 al lui Pearson. Simplu, puternic, fără

presupuneri greu de îndeplinit, testul se poate folosi cu încredere aproape peste tot. E aproape

un panaceu universal. De obicei se foloseşte la variabile calitative pentru că nu presupune

efectuarea de calcule cu variabilele testate. Cu toate acestea se poate folosi liniştit şi în cazul

variabilelor raţionale sau intervalice şi este chiar indicat în cazul în care acestea nu au o

distribuţie normală sau log-normală. Singura condiţie practică este ca numărul de valori pe

care le ia variabila să nu fie prea mare. Să vedem însă ce testăm.

Ipoteza pe care o testează testul Chi2 al lui Pearson este că distribuţia unei variabile nu diferă

semnificativ de o distribuţie teoretică dată. Adică frecvenţele de apariţie a valorilor unei

variabile corespund unei reguli, unei distribuţii cunoscute. De exemplu, această distribuţie ar

putea fi uniformă, adică fiecare valoare să apară de un număr egal de ori, sau ar putea fi orice

altă distribuţie fie că are vreo relevanţă teoretică sau e pur şi simplu propusă de cercetător.

Hai să luăm un exemplu pentru a clarifica felul cum se pune o ipoteză pentru testul Chi2. Să

luăm de exemplu o cercetare pe care am mai folosit-o pe parcursul acestei cărţi. E vorba

despre un studiu de piaţă efectuat în Baia Mare în 2003. În tabelul de mai jos apare distribuţia

pe frecvenţe a unei întrebări simple cu răspunsurile organizate sub forma unei scale ordonate.

Evident, variabila răspuns este o variabilă ordinală:

10. Cat de des se fac cumparaturile la dvs. in familie?

Frecvenţă Procent

zilnic 446 42,4

de mai multe ori pe saptamana 370 35,2

saptamanal 168 16,0

mai rar 67 6,4

Total 1051 100,0

Ipoteza tipică pentru un test Chi2 va compara distribuţia valorilor cu o distribuţie uniformă.

Distribuţia de mai sus este de fapt lista de frecvenţe ce apare pe a doua coloană a tabelului:

446 - 370 - 168 - 67. Distribuţia uniformă ar fi atinsă dacă toate valorile ar fi la fel de

probabile, adică am avea o listă care se obtine împărţind volumul populaţiei (aici 1051) la

numărul valorilor posibile (aici patru), deci: 263 – 263 – 263 – 263. Testul verifică dacă cele

două liste diferă semnificativ una de alta. Poate nu pare foarte interesant. Hai să luăm însă

Page 142: Carte de Statistica

142

puţin altfel problema. Să considerăm un subgrup din populaţia noastră. De exemplu, cei care

au studii superioare. Pentru ei frecvenţa cumpărăturilor arată astfel:

10. Cat de des se fac cumparaturile la dvs. in familie?

Frecvenţă Procent

Zilnic 102 36,6

de mai multe ori pe saptamana 118 42,3

Saptamanal 55 19,7

mai rar 4 1,4

Total 279 100,0

Lista de frecvenţe este de 102 – 118 – 55 – 4. Diferă oare cu adevărat această listă de

distribuţia celor care nu au studii superioare, vizibilă în tabela de mai jos:

10. Cat de des se fac cumparaturile la dvs. in familie?

Frecvenţă Procent

Zilnic 344 44,6

de mai multe ori pe saptamana 252 32,6

Saptamanal 113 14,6

mai rar 63 8,2

Total 772 100,0

Ipoteza de egalitate ar suna atunci cam aşa: “fie că au sau nu studii superioare, locuitorii din

Baia Mare fac cumpărăturile la fel de des“. Asta e mult mai interesant pentru o firmă de

marketing. De o asemenea observaţie sau observaţii de acest gen poate depinde modul cum se

organizează o campanie de publicitate sau de promovare a unui produs. Observăm că este o

ipoteză de acelaşi tip ca şi în primul caz. Avem două liste de frecvenţe: 102 – 118 – 55 – 4 şi

344 – 252 – 113 – 63. “La ochi” ele diferă. Valorile procentuale pentru primele două categorii

par a se inversa, iar a patra categorie care e nesemnificativă pentru prima listă e considerabil

mai mare în cea de a doua. Totuşi sînt oare aceste diferenţe suficiente ca să respingem

ipoteza, adică să spunem că între cele două grupuri existe diferenţe semnificative în frecvenţa

cu care îşi fac cumpărăturile.

Să vedem deci cum se calculează. Valoarea de test Chi2 se obţine astfel:

Page 143: Carte de Statistica

143

În formulă Oi sînt frecvenţele observate ale valorilor variabilei, Ei frecvenţele aşteptate, sau

teoretice. i ia valori de la 1 la 4, adică are atîtea valori cîte valori poate lua variabila noastră.

Avem de comparat doua liste de frecvenţe de lungime i, unele vor lua locul valorilor Oi,

celelalte vor sta la baza calcului valorilor Ei. O sa luăm acum valorile pentru intervievaţii cu

studii superioare ca fiind valorile Oi. Valorile Ei vor fi valorile care s-ar găsi în grupul celor

cu studii superioare dacă distribuţia ar fi aceiaşi ca şi în grupul celor fără studii superioare.

Pentru a găsi valorile Ei trebuie să proiectăm procentajele aşa cum apar în tabela de referinţă

la numărul total de cazuri din tabela testată. Mai clar, dacă distribuţia ar fi aceiaşi atunci

procentele aşa cum apar la cei fără studii superioare ar trebui să apară şi la cei cu studii

superioare. Atunci 44,6% ar trebui să fie în categoria “zilnic”. Adică numărul aşteptat de

cazuri este pentru această categorie 44,6% din volumul eşantionului de test, adică 279.

Calculul e deci foarte simplu, o regulă de trei simplă aplicată volumului total, sumei de valori

Oi pentru procentajul fiecărei frecvenţe din cel de-al doilea grup:

E1 = 279 * 44,6 / 100 = 124,4.

Valoarea 124,4 diferă faţă de 102, cîte cazuri sînt de fapt în eşantion. Calculînd şi celelalte

procente rezultă o listă de frecvenţe astfel: 124,4 – 91,0 – 40,7 – 22,9. Valorile nu sînt întregi

pentru că se obţin aplicînd procentajele aşa cum am explicat. Să exemplificăm acum calculul

valorii Chi2:

Chi2 = (102 – 124,4)

2/124,4 + (118 – 91)

2/91 + (55 – 40,7)

2/40,7 + (4 – 22,9)

2/ 22,9

Valoarea calculată este Chi2 = 32,66. Programele statistice ne-ar da şi o significanţă. În cazul

de faţă ar fi 0,000, deci foarte bună. Dacă însă nu am folosi un soft statistic ar trebui să

folosim o tabelă de valori. Astfel de tabele pentru valorile Chi2 se găsesc de obicei la capătul

cărţilor de statistică (inclusiv în această carte), dar există şi pe internet, de exemplu la adresa

http://www.statsoft.com/textbook/sttable.html unde se găsesc tabele de valori şi pentru alte

teste foarte des utilizate, testele t, Z şi F (tabelele pentru t şi Z se găsesc şi în cartea de faţă).

Page 144: Carte de Statistica

144

Să studiem puţin tabela de la pagina ***. Pentru a citi această tabelă de valori Chi2 avem

nevoie de încă un termen numit grad de libertate, prescurtat df, din engleză, de la “degrees of

freedom”. În cazul testelor Chi2 acest grad de libertate nu este altceva decît numărul valorilor

pe care le-a luat variabila testată minus 1. Adică, în exemplul nostru unde aveam patru valori

posibile, 4 – 1 = 3 grade de libertate.

Căutăm în tabel pe linia potrivită numărului de grade de libertate pînă dăm de prima valoare

care e mai mare decît valoarea Chi2 obţinută prin calcul. Significanţa, adică probabilitatea de

a face o eroare de tip I, va fi atunci valoarea din capul de tabel a coloanei precedente.

Observăm că pe măsură ce creşte valoarea Chi2, se înbunătăţeşte, adică scade ca valoare

significanţa. În exemplul nostru valoarea calculată e mai mare decît oricare din valorile de pe

linia pentru 3 grade de libertate. Deci significanţa e mai bună decît cea mai bună significanţă

din tabel. Deci şansa de a respinge o ipoteză corectă, căci aceasta era eroarea de tip I, este

foarte, foarte mică, de fapt mai mică decît 0,001. Putem ca atare respinge liniştit ipoteza.

În concluzie, testul Chi2 din exemplu permite respingerea ipotezei de egalitate între cele două

distribuţii. Adică datele noastre sînt suficiente pentru a putea spune că cei cu studii superioare

au o distribuţie a frecvenţei de a face cumpărături semnificativ diferită de cei ce nu au

asemenea studii.

Exact la fel ca şi în exemplu se pot compara orice două liste de valori de frecvenţe. Fie că una

este empirică şi una teoretică, fie că ambele sînt empirice.

b. Testele Wilcoxon, Mann-Whitney şi Kruskal Wallis

Vom continua cu alte teste non-parametrice. Testul Wilcoxon este o alternativă non-

parametrică la testul t al lui Student pentru două medii, pe care l-am descris în capitolul 5.

Deşi testul Wilcoxon a fost propus pentru un nivel de măsurare a datelor cel puţin intervalic,

nu se fac nici un fel de presupuneri despre distribuţia datelor. Ca atare testul este potrivit de

cîte ori nu sînt satisfăcute condiţiile testului t, care presupune normalitate.

Să rememorăm scurt ipoteza testului t pentru două medii. Testul t pentru două medii verifica o

ipoteză de egalitate sau inegalitate a două valori care se obţineau ca medii ale unei variabile

Page 145: Carte de Statistica

145

aleatoare. Mediile se calculează pentru două eşantioane. Cele două eşantioane trebuie să

prezinte o distribuţie normală de aceiaşi dispersie a variabilei a cărei medie se testează şi pot

fi independente sau dependente. Ipoteza de normalitate cu dispersie egală este destul de tare,

în multe situaţii o asemenea presupunere restricţionînd mult posibilitatea de folosire a testului.

Aici intervine testul Wilcoxon.

Pe de altă parte, trebuie să observăm că testul t presupune întotdeuna un calcul de medie, deci

testul se poate referi numai la variabile cantitative. Şi aici e nevoie de o generalizare care să

facă metoda folositoare şi în alte cazuri. Testul Wilcoxon face o asemenea generalizare

folosind în locul valorilor poziţiile într-o ierarhie de frecvenţe. De fapt, testul Wilcoxon

transformă testul t într-un mod analog cu felul cu corelaţia Spearman transformă corelaţia

Pearson. Ca atare, variabilele testate prin testul Wilcoxon trebuie să fie ordinale, dar nu

neapărat intervalice sau raţionale. Deşi se efectuează nişte diferenţe între valori în cazul

Wilcoxon scopul acestora este doar de a stabili care valori sînt mai îndepărtate sau mai

apropiate de o cvasi-medie. Testul se foloseşte frecvent pentru întrebări de opinie. Să vedem

însă ce şi cum calculează.

Ipoteza testului de defineşte astfel. Fie două eşantioane, care pot fi total independente, dar cel

mai adesea sînt rezultate din reinterogarea aceluiaşi eşantion. Pe cele două eşantioane se

identifică o aceiaşi variabilă. Ipoteza este că distribuţia acestei variabile este egală în cele

două eşantioane. Un exemplu simplu: să presupunem că am efectuat un tratament oarecare şi

dorim să vedem dacă se repercutează asupra unei variabile. Ştiu eu, am tuns un preşedinte şi

vrem să vedem dacă aceasta a dus la creşterea sau scăderea popularităţii lui. Variabila de

popularitate va fi atunci culeasă o dată înainte de tundere, o dată după. Deoarece această

variabilă nu este de fapt cantitativă nu se poate stabili cu un test t dacă diferenţa medie

sesizată este relevantă statistic sau nu. Se pot folosi evident teste Z pentru a stabili dacă a

crescut relevant procentul simpatizanţilor sau nu, testul Wilcoxon ne oferă însă o singură

testare de ansamblu a diferenţei distribuţiei. Pentru această se acţionează astfel:

1. Să notăm cele două valori ale variabilei, simpatia înainte de tuns – x, şi simpatia după

tuns – y. Pentru fiecare individ i chestionat vom avea două valori xi şi yi.

2. Calculăm modulul diferenţei zi = | xi –yi |

3. Ordonăm valorile zi, eliminăm valorile nule şi acordăm fiecărei valori o valoare rang

în funcţie de poziţia pe care o ocupă în lista ordonată. Dacă două sau mai multe valori

Page 146: Carte de Statistica

146

z sînt egale punem rangul mediu. De exemplu dacă valorile de pe poziţia 5 şi poziţia 6

sînt egale, ambele primesc rangul 5,5.

4. Calculăm acum suma rangurilor care corespund abaterilor pozitive şi suma rangurilor

care corespund abaterilor negative12

. Valoarea cea mai mică dintre acestea două este

valoarea de test.

Valoarea de test se numeşte uneori T, alteori S sau chiar W. Valorile critice pentru testul

Wilcoxon se găsesc de asemenea în tabele organizate în funcţie de significanţă şi numărul de

cazuri. O regulă simplă este: cu cît valoare e mai mare cu atît significanţa e mai bună, dar

evident trebuie verificată tabela pentru a decide într-un caz particular. Soft-urile statistice care

efectuează testul Wilcoxon raportează desigur şi significanţa rezultatului care se citeşte cum

ne-am obişnuit deja, ca probabilitate de a efectua o eroare de tip I. Deci cu cît valoarea

significanţei e mai mică cu atît putem respinge ipoteza de nemodificare a variabilei cu un risc

de eroare mai mic. O significanţă bună este, de regulă, una cu valoare sub 0,05.

O dezvoltare interesantă a testului Wilcoxon este testul U, numit şi Mann-Whitney, Mann-

Whitney-Wilcoxon sau Wilcoxon-Mann-Whitney. Am văzut că testul Wilcoxon se putea

folosi acolo unde aveam un design de tip înainte-după, adică valori înperecheate. Trebuia să

avem două eşantioane în care să construim perechi. Aceasta este o situaţie care apare desigur

la anumite tipuri de cercetări dar testul de tip rang merită extins şi la alte situaţii. De aici ideea

testului U. Idee pe care de altfel tot Frank Wilcoxon a propus-o şi încă în acelaşi articol din

1945 cînd a definit şi testul numit de obicei testul Wilcoxon, cel pe care l-am prezentat

anterior. Şi asta cu toate că era chimist şi nu statistician.

Ipoteza testului U este că două eşantioane provin din aceiaşi populaţie, adică au o distribuţie

egală a variabilei testate. O asemenea ipoteză poate fi de folos în multe întrebări de cercetare.

Să vedem nişte exemple.

Situaţia de cercetare pe care am folosit-o pentru a prezenta testul Chi2 se pretează şi pentru

utilizarea testului U. Verificarea faptului că frecvenţele de a face cumpărături ale celor cu sau

fără studii superioare sînt sau nu diferite se poate traduce şi în limbajul ipotezei testului U.

Avem în acest caz o populaţie de ansamblu cu anumite obiceiuri legate de frecvenţa de a face

cumpărături. Dacă am alege aleator două eşantioane din această populaţie ele ar putea diferi

12

De fapt ajunge dacă calculăm una dintre aceste sume.Cealaltă rezultă uşor pentru că suma tuturor rangurilor

este oricum n(n+1)/2 unde n este numărul de valori.

Page 147: Carte de Statistica

147

doar întîmplător din punctul de vedere al variabilei frecvenţă de cumpărare. Să presupunem

însă că alegerea se face pe baza unei caracteristici, cum ar fi prezenţa studiilor superioare.

Atunci, dacă această caracterististică nu are nici o relevanţă asupra variabilei “frecvenţă a

cumpărăturilor” cele două eşantioane rămîn din perspectiva acestei variabile ca eşantioane

aleatoare provenite din aceiaşi populaţie. Dacă însă testul ne permite să respingem această

ipoteză înseamnă că variabila de selecţie, prezenţa studiilor superioare, are un efect

semnificativ asupra variabilei testate, frecvenţa cumpărăturilor. Deci cele două eşantioane nu

se pot considera ca aparţinînd aceleiaşi populaţii.

În mod similar orice situaţie în care o variabilă categorială binară se repercutează pe o

variabilă ordinală se poate testa cu testul U. Regula de ansamblu este următoarea. Variabila

categorială care împarte eşantionul nostru în două defineşte de fapt două eşantioane. Testul

verifică faptul că cele două eşantioane nu diferă din punctul de vedere al distribuţiei unei

variabile ordinale. Hai să mai luăm un exemplu tipic. Să presupunem că cele două eşantioane

sînt determinate de gen. Avem deci un eşantion de bărbaţi şi unul de femei şi o variabilă de

test care este răspunsul la întrebarea: Care este venitul lunar al familiei dumneavoastră?

Evident răspunsul la o astfel de întrebare este o estimare a venitului lunar familial. Dacă am

obţine o diferenţă semnificativă am putea deduce că cele două genuri estimează diferit

veniturile lor familiale. De exemplu, nu m-aş mira dacă bărbaţii ar avea o tentaţie de a

supraevalua venitul şi femeile de a-l subevalua. Dacă ambele grupuri evaluează corect, sau se

abat în aceiaşi direcţie, ar trebui să nu avem nici o diferenţă statistic semnificativă. Deci, am

putea conclude că nu se poate respinge ipoteza cum că estimările făcute de bărbaţi şi femei

fac parte din aceiaşi distribuţie, sînt eşantioane ce provin din aceiaşi populaţie.

De altfel, aplicînd testul U pentru întrebarea de mai sus, folosind date din sondajul la care m-

am mai referit, cel din Baia Mare, din 2003. obţinem următorul rezultat:

Rang

61. Genul N Rang mediu

Suma

rangurilor

66. Venitul lunar

familiar?

feminin 553 504,28 278865,00

masculin 474 525,34 249013,00

Total 1027

Statistica de test

Page 148: Carte de Statistica

148

66. Venitul

lunar

familiar?

Mann-Whitney-U 125684,000

Significanţă (două

capete) ,229

a Variabila de grupare: 61. Genul

Cel mai uşor putem să analizăm acest rezultat citind significanţa. După cum se vede ea nu e

suficient de bună pentru a respinge ipoteza. Deci, nu putem spune că femeile şi bărbaţii

estimează în mod diferit veniturile lor familiale.

Metoda de calcul a testului U este foarte simplă.

1. Se ordonează toate valorile variabilei testate (venitul lunar familial), indiferent dacă

fac parte din grupul 1 (la noi, femeile), sau grupul 2 (bărbaţii).

2. Fiecărei valori i se asociază rangul ei în lista ordonată. Ca şi în cazul testului

Wilcoxon, valori egale vor primi un rang mediu.

3. Se calculează suma rangurilor pentru grupul 1 (R1) şi suma rangurilor pentru grupul 2

(R2).

4. Valoarea de test U este valoarea mai mică dintre U1 şi U2 unde acestea se calculează

asfel: U1 = R1 – (n1* (n1+1))/2 şi U2 = R2 – (n2* (n2+1))/2.

Există desigur tabele care dau valorile critice pentru testul U. În aceste tabele valorile sînt

specificate în relaţie cu volumele celor două eşantioane, n1 şi n2.

Un pas mai departe pe acelaşi fir logic îl face testul Kruskal-Wallis. Anume, dacă în testul

Mann-Whitney comparaţie se face între două grupuri, testul Kruskal-Wallis permite

comparaţii între mai multe grupuri, sau mai multe eşantioane ca să folosim chiar limbajul

testului.

Ipoteza testului Kruskal-Wallis este analogă ipotezei Mann-Whitney: Un număr oarecare de

eşantioane au fost extrase din aceiaşi populaţie. Ca şi în cazul Mann-Whitney de fapt

eşantioanele le definim printr-o variabilă de categorisire, cel mai adesea o variabilă nominală,

şi testarea o facem pe o variabilă care este cel puţin ordinală. Ca şi în cazul precedentelor teste

Page 149: Carte de Statistica

149

non-parametrice nu există presupuneri de normalitate a distribuţiilor sau alte restricţii

similare. Aceasta permite utilizarea şi acestui test cu o varietate foarte mare de date.

De fapt putem înţelege testul Kruskal-Walis ca un test de relaţionare între două variabile, una

categorială, posibil chiar nominală şi una cel puţin ordinală. Testul verifică dacă prima

variabilă are repercursiuni asupra distribuţiei celei de a doua.

Metoda de calcul se bazează pe aceiaşi idee ca şi în cazul precedentelor două teste. Toate

valorile, independent de grupul din care fac parte se ordonează şi fiecărei valori i se asignează

rangul ei. Apoi se efectuează următorul calcul:

Unde:

g este numărul grupurilor.

N este suma volumurilor eşantioanelor, adică N = n1 + n2 + ... ng

ni este volumul eşantionului i, adică corespunzător categoriei i a variabilei de selecţie

rij este rangul observaţiei j din grupul i

, adică media tuturor rangurilor din grupul i

, adică media tuturor rangurilor.

Uneori valoarea calculată la testul Kruskal-Wallis se notează H, alteori K. Cu toate că formula

poate părea ceva mai complicată ea nu este decît o extindere logică a formulei U pentru un

număr mai mare de grupuri. Merită de observat că toate calculele care se fac se fac cu ranguri

şi nu cu valorile propriu-zise ale variabilelor. Aşa se elimină de fapt presupunerile asupra

distribuţiei variabilei testate. Tot ce ne trebuie este să existe o ordine a valorilor pentru a putea

atribui ranguri.

Există o metodă mai confortabilă de a analiza testul Kruskal-Wallis care simplifică şi mai

mult lucrurile. Varianta pe care o prefer şi eu şi v-o propun şi vouă reduce testul la un test

Chi2 în următorul fel. Se calculează pentru fiecare grup de valori, sau eşantion rangul mediu şi

Page 150: Carte de Statistica

150

apoi se aplică pur şi simplu un Chi2 pentru ipoteza de egalitate a tuturor rangurilor medii.

Adică, dacă eşantioanele sînt provenite din aceiaşi populaţie, deci aproximează aceiaşi

distribuţie a datelor, diferenţele dintre rangurile medii trebuie să fie pur aleatoare,

întîmplătoare. Atunci însă ele nu vor fi în mod relevant diferite de o distribuţie uniformă.

Astfel am tradus ipoteza testului Kruskal-Wallis la o ipoteză de tip Chi2 cu distribuţie

uniformă. Majoritatea soft-urilor statistice pe care le cunosc abordează testul Kruskal-Wallis

în acest fel.

Să vedem un exemplu de aplicaţie, de astă dată folosind un alt set de date. Populaţia cercetării

este populaţia intreprinderilor mici şi mijlocii din mediul rural din Transilvania. Am testat

dacă numărul de proprietari ai intreprinderii depinde de domeniul principal de activitate.

Domeniul de activitate este evident o variabilă nominală. Nu există o ordine între

“agricultură” şi “transporturi”! Pe de altă parte domeniul de activitate defineşte pe populaţia

firmelor subgrupuri care pot fi înţelese ca eşantioane diferite. Variabila “număr de proprietari”

este raţională, dar probabil nu este distribuită normal, nici măcar cu aproximaţie.

Rang

5. Care este domeniul

principal de activitate? N Rang mediu

3. Care este numarul de

proprietari ai firmei?

Agricultura 16 423,50

Comert - en detail 454 488,43

Comert - en gros 45 497,28

Productie 76 495,32

Servicii - profesiuni 147 381,39

Servicii - turism 107 417,61

Servicii - consultanta 39 381,00

Servicii - agricole 5 313,00

Constructii 33 599,50

Total 922

Statistica pentru Testul(a,b)

3. Care este

numarul de

proprietari ai

firmei?

Chi-patrat 55,822

Df 8

Significanta asimptotica ,000

Page 151: Carte de Statistica

151

a Kruskal-Wallis-Test

b variabila de grupare: 5. Care este domeniul principal de activitate?

Valoarea Chi2 şi significanţa testului sînt cît se poate de concludente. Ipoteza că firmele din

grupurile definite de domeniul principal de activitate au la fel de mulţi proprietari poate fi

respinsă cu o probabilitate de a greşi de 0.000.

Să închei acest capitol în care am trecut în revistă cîteva teste printr-o înţelepciune simplă dar

utilă. În esenţă, tot ce e variabilă raţională sau intervalică trebuie să se poată testa cu t sau Z

(ceea ce e cam acelaşi lucru), iar tot ce e variabilă ordinală sau nominală se poate testa într-un

fel sau altul folosind Chi2. Există desigur şi variante mai complicate şi multe, multe alte teste

gîndite pentru diferite ipoteze, dar pentru multe din lucrările mai mult sau mai puţin ştiinţifice

şi utilizarea acestor teste simple ar fi deja un cîştig extraordinar pentru cunoaştere.

c. Regresia categorială.

În capitolul precedent am prezentat analiza de regresie liniară atît în forma ei simplă cît şi

multiplă. În toate aceste variante datele implicate în ecuaţiile de regresie erau date numerice

cu care se efectuau calcule. Această restricţie limita desigur utilizarea metodei regresiei la un

anume tip de cercetări. Există însă şi tipuri de regresie care au fost gîndite să analizeze relaţii

între variabile care pot avea diferite forme, chiar şi variabile nominale. Aceste modele de

regresie nu sînt utile numai pentru luarea în considerare a unor variabile nominale, ci şi în

cazul unor variabile care pur şi simplu nu se supun pretenţiilor metodelor de rezolvare ale

regresiei liniare.

Regresia categorială nu este un singur tip de regresie. Mai mult, putem să o considerăm ca o

clasă de modele care în forma generală a ecuaţiei de regresie, aceiaşi ca şi în capitolul

precedent includ variabile care nu se supun regulilor obişnuite. Principalele modele care

implică variabile nenumerice în ecuaţii de regresie sînt:

Regresia liniară cu utilizarea variabilelor dummy, care permite modelarea efectelor

variabilelor nominale.

Regresia logistică binară sau multinomială (ambele pot avea formele logit şi probit),

care permite definirea unor variabile nominale ca variabile ţintă a regresiei.

Regresia logit sau probit ordonată, care permite utilizarea variabilelor ţinte ordinale.

Page 152: Carte de Statistica

152

Unele soft-uri de statistică oferă şi o aşa-zisă regresia categorială cu scalare optimală care

permite definirea scalei pentru fiecare variabilă din ecuaţia de regresie în parte. Aceasta este o

alternativă generală la care utilizatorul nu trebuie să-şi bată prea tare capul cu modelul folosit

şi primeşte rezultatele sub o formă interpretabilă uşor, la fel ca la o regresie liniară obişnuită.

În această secţiunea nu doresc mai mult decît să clarific primul dintre modelele enumerate

mai sus, modelarea variabilelor nominale cu ajutorul variabilelor dummy.

Variabilele dummy sînt variabile care au două valori, de obicei codate 0 şi 1. De fapt, modul

de codificare nici nu prea are vreo importanţă, sensul acestuia fiind mai mult unul logic decît

numeric. Adică 0 înseamnă fals sau absent, 1 înseamnă adevărat sau prezent. În mod

tradiţional variabilele dummy au apărut în cercetările economice pentru a modela

sezonalitatea. E foarte simplu. Să considerăm o ecuaţie de regresie liniară cu două variabile

regresor din care una dummy:

yi = a + b1 xi + b2 di + ei

unde yi este variabila ţintă, xi variabila regresor, di variabila dummy şi ei eroarea pentru

fiecare caz i la care s-au cules date. Să zicem, de exemplu că dorim să modelăm relaţia dintre

consumul de bere (y) şi consumul de alune (x). Să zicem că am cules date de la buticuri,

reprezentînd vînzări zilnice. Observaţiile ne-au dus însă la gîndul că această relaţie depinde

cumva de anotimp. Faptul că iarna se bea mai puţină bere decît vara nu ar trebui neapărat să

modifice relaţia dintre cantităţile de bere şi cele de alune. Dar observaţiile ne duc cu gîndul că

iarna se mănîncă mai multe alune la aceiaşi cantitate de bere. Deci s-ar putea dependenţa să

fie cumva diferită. Pentru a putea lua aceasta în considerare am putea să modelăm relaţia cu

două ecuaţii una pentru vară şi una pentru iarnă. Sau am putea folosi o variabilă dummy, o

variabilă cu două valori. În modelul din exemplu aceasta este variabila d. Luăm ca atare d = 1

pentru acei i pentru care valorile x (alune) şi y (bere) au fost culese vara şi d = 0 pentru acei i

pentru care valorile au fost culese în alte anotimpuri. De fapt am împărţit eşantionul şi avem:

pentru d = 1:

yi = a + b1 xi + b2 + ei = (a + b2) + b1 xi + ei

Page 153: Carte de Statistica

153

iar pentru d = 0:

yi = a + b1 xi + ei

Cele două ecuaţii diferă prin termenul liber, în primul caz acesta este a + b2, iar în al doilea

caz a. Deci, dacă am reprezenta grafic cele două drepte ele ar fi paralele. Altfel spus, efectul

sezonalităţii modelat cu variabile dummy presupune că relaţia dintre consumul de alune şi

consumul de bere nu diferă prin cantitatea de bere care se consumă la o creştere a consumului

de alune de o alună ci pur şi simplu consideră că sezoanele pornesc de la un nivel diferit al

relaţiei dintre consumul de bere şi cel de alune. Faptul că efectul sezonalităţii este dat la aceste

modele de o valoare scalară, valoarea b2 şi nu de o variabilă aleatoare face ca astfel de modele

să se mai numească modele cu efecte fixe.

Cu o asfel de extindere a modelului regresiei liniare putem lua în calcul nu numai efecte de

sezonalitate ci şi orice efecte care sînt modelabile cu variabile cu două valori. Pe parcursul

cărţii am mai avut ca exemple de astfel de variabile, genul sau prezenţa studiilor superioare.

Interesant este că o foarte simplă generalizare ne permite să includem în ecuaţii de regresie

variabile nominale cu oricîte valori.

Să luăm o variabilă nominală cu mai multe valori, de exemplu, religia. Mai jos este o tabelă

de frecvenţe care reprezintă religiile locuitorilor judeţului Arad conform unui sondaj de

opinie:

I8. religie:

Frecventa Procent

adventist 5 ,8

baptist 30 5,0

catolic 76 12,8

evanghelic 1 ,2

fara religie 5 ,8

grecocatolic 2 ,3

martor al lui iehova 1 ,2

neoprotestant 4 ,7

Page 154: Carte de Statistica

154

ortodox 437 73,4

penticostal 28 4,7

reformat 6 1,0

Total 595 100,0

Datele culese prezintă 11 categorii, pentru o modelare corectă probabil diversele rituri

neoprotestante ar trebui reunite, ca şi cele protestante, obţinîndu-se astfel un număr mai mic

de categorii: ortodox, catolic, greco-catolic, protestant şi neoprotestant şi fără religie.

Modelarea cu variabile dummy presupune construirea cîte unei variabile pentru fiecare dintre

aceste valori. Deci în locul variabilei “religie” cu valorile din listă vom avea o variabilă

“ortodox” cu valorile “da” şi “nu”, o variabilă “catolic” cu valorile “da” şi “nu” şi aşa mai

departe. În total modelarea cu variabile dummy presupune înlocuirea unei variabile nominale

cu atîtea variabile dummy cîte valori poate lua variabila nominală. Să considerăm relaţia de

regresie care modelează dependenţa dintre numărul de cărţi cumpărate anual şi vîrstă.

Cartei = a + b1 Virstai + ei

Modelul rezolvat cu metoda celor mai mici pătrate dă:

Cartei = 2,146 – 0,026 Virstai + ei

Relaţia este deci negativă, cei cu vîrsta mai mică cumpără mai multe cărţi. Significanţele

coeficienţilor sînt bune, dar coeficientul de determinare este mic (0,098) deci vîrsta explică în

mică măsură cumpărarea de carte. Să vedem dacă nu cumva religia, care este la urma urmei o

caracteristică culturală, are şi ea un efect asupra obiceiului de a cumpăra cărţi. Pentru aceasta

redefinim religia sub forma unor variabile dummy. Considerăm deci 6 variabile şi rezultă

modelul următor:

Cartei = a + b1 Virstai + b2 Ortodoxi + b3 Catolici + b4 Greco-Catolici + b5 Protestanti + b6

Neoprotestanti + b7 FaraReligiei + ei

Rezolvarea cu metoda celor mai mici pătrate ne dă următorul rezultat prezentat ca şi tabelă:

Page 155: Carte de Statistica

155

Model Coeficienti T Significanta

B Eroare standard

1 (constanta) 1,899 ,604 3,142 ,002

I2. vârsta: -,025 ,003 -7,891 ,000

ortodox ,252 ,579 ,436 ,663

catolic ,187 ,593 ,315 ,753

grecocatolic -,120 1,074 -,112 ,911

protestant -,051 ,778 -,065 ,948

neoprotestant ,255 ,596 ,427 ,669

a Variabilă dependentă: Q15. Cate carti cumparati pe an?

În tabela de mai sus sînt coeficienţii ecuaţiei de regresie, împreună cu rezultatele unor teste de

significanţă. Testele verifică ipoteza că variabila regresor nu are efect asupra variabilei ţintă.

Altfel spus verifică ipoteza că coeficientul variabilei este semnificativ diferit de 0.

Tabela arată că deşi significanţa efectului vîrstei rămîne bună şi coeficientul vîrstei este stabil

faţă de regresia simplă, significanţa variabilelor dummy aferente diferitelor grupuri religioase

este foarte proastă. Practic nu putem respinge ipoteza generală: “apartenenţa religioasă nu are

efect asupra numărului de cărţi cumpărate anual”. În acest context o discuţie a semnelor

coeficienţilor diferitelor variabile dummy este lipsită de sens, ar reprezenta chiar o greşeală

gravă, deşi acesta ar fi fost următorul pas dacă significanţele ar fi fost bune. Am fi observat

atunci că anumite religii au efect pozitiv, adică coeficienţi pozitivi, altele efect negativ asupra

numărului de cărţi cumpărate.

Să alegem acum o altă variabilă calitativă, nivelul de pregătire. Am recodat nivelul de

pregătire pe patru categorii: şcoală generală sau mai puţin, studii liceale, studii postliceale,

studii superioare. Pentru fiecare am construit o variabilă dummy exact ca în exerciţiul

precedent şi am calculat ecuaţia de regresie. Rezultatul tabelar este mai jos:

Model Coeficienti T Significanta

B Standardfehler

1 (constanta) 1,747 ,466 3,746 ,000

I2. vârsta: -,016 ,003 -4,759 ,000

generala -,580 ,461 -1,260 ,208

Page 156: Carte de Statistica

156

liceu -,109 ,454 -,239 ,811

postliceala ,851 ,489 1,738 ,083

superioare ,906 ,468 1,936 ,053

a Variabila dependenta: Q15. Cate carti cumparati pe an?

Efectul variabilei “nivel de pregătire” este mult mai clar. Pentru a analiza tabela ne uităm la

semnul şi valoarea coeficienţilor precum şi la significanţa lor. Se observă că efectul este mai

significant pentru treptele de pregătire mai înalte. Astfel efectul studiilor superioare este

singurul clar semnificativ. Ipoteza de independenţă a numărului de cărţi cumpărate anual de

nivelul de pregătire poate fi respinsă cu o probabilitate de 95% pentru cei cu studii superioare.

De asemenea efectul este evident pozitiv. O influenţă pozitivă ceva mai mică şi mai puţin

semnificativă au şi studiile postliceale. Pe de altă parte efectul studiilor liceale sau generale

este negativ asupra numărului de cărţi cumpărat, dar în acelaşi timp mai puţin significativ. În

special în cazul celor care au numai studii liceale este greu să vedem vreun efect asupra

numărului de cărţi cumpărate. O citire corectă ar fi de fapt: cei cu studii liceale par a cumpăra

mai puţine cărţi, dar acest rezultat este insuficient de sigur.

Interesant este şi faptul că coeficientul de determinare al ecuaţiei de regresie care era de sub

10% creşte la 23% prin introducerea variabilei “nivel de pregătire”.

Am putea lua în seamă variabila ordinală “nivel de pregătire” şi altfel. Am putea să o recodăm

numeric, de genul “şcoală generală” este 1, “studii liceale” este 2, etc. şi să o considerăm ca

variabilă numerică. O asemenea abordare ar fi însă mult mai brutală, în esenţa ei incorectă şi

mult mai puţin nuanţată pentru că nu ar putea determina efecte individuale ale diferitelor

nivele de pregătire. Pe de altă parte abordarea efectelor individuale ale nivelelor de pregătire

este o utilizare nominală a variabilei şi omite faptul că aceste nivele au de fapt o ordine bine

definită.

Page 157: Carte de Statistica

157

Capitolul 8. Analiza seriilor de timp

Foarte des analiza statistică caută să afle cate ceva despre derularea unor evenimente în timp

sau dezvoltarea în timp a unor caracteristici. Însăşi modul nostru de a cunoaşte conţine adesea

intrinsec o raportare la timp. Vorbim despre “o vară calduroasă” implicit comparand-o cu alte

veri; observăm o relaţie între evenimente şi o identificăm ca pe o cauzalitate, asumand evident

o relaţie de consecutivitate temporală; spunem că, de exemplu, “preţurile astea cresc mereu”

sau că “e din ce in ce mai greu să găseşti un meşter zilele astea!” considerand existenţa unor

trenduri temporale. Tocmai astfel de declarații necesită o verificare critică statistică. Cât e de

fapt de greu să găsești un meșter, sau mai exact ce ar putea însemna aceasta, sau chiar cresc

prețurile mereu. Să luăm acest al doilea exemplu, e mai simplu. Să presupunem că alegem o

serie de produse, cum se face când se consideră acel coș standard folosit pentru calculul

inflației. Apoi verificăm săptămânal prețurile și descoperim că uneori cresc, alteori scad câte

puțin sau mai mult. Cum stabilim ce e întâmplare și ce e deja un proces de dezvoltare, un

trend? Iata in graficul de mai jos dezvoltarea indicelui prețurilor de consum din 1971 până în

2009. Fiecare valoare reprezintă o creștere a prețurilor de consum față de anul precedent. Ce

observăm? Într-adevăr indicele a tot scăzut an de an începând cu 1997, dar nici o dată nu a

fost sub 100% adică sub valoarea anului precedent. Deci, e corect: prețurile au crescut mereu,

dacă socotim anualizat. Adică, calculând an după an, pentru coșul de produse utilizat de

Institutul Național de Statistică, nu a existat vreun an începând din 1971 în care prețurile să fie

mai mici decât în anul precedent.

Page 158: Carte de Statistica

158

Grafic. Indicele prețurilor de consum 1971 – 2009

Sursa: reprezentare proprie pe baza datelor de la Institutul Național de Statistică,

http://www.insse.ro/cms/rw/pages/ipc.ro.do;jsessionid=0a02458c30d5be9a701c852c431abc6

58ac44e50bd88.e38QbxeSahyTbi0LaN4Ne0

Dacă analizăm graficul mai în amănunt mai observăm insă și faptul că ritmul de creștere a

fost foarte diferit de la un an la altul. Astfel, putem identifica perioada de inflație mare dintre

1990 și 1998, apoi scăderea lentă a inflației până în anul 2009. De asemenea putem observa

pe grafic și nenatural de lunga perioadă de stabilitate a prețurilor din 1971 până în 1990 care

denotă o economie neliberă.

a. Ce e o serie de timp? Identificarea de patternuri în serii de timp

Primul pas care trebuie făcut în orice modelare cu serii de timp este definirea acestora. Există

aici o condiție esențială, foarte simplă dar nu totdeuna ușor de îndeplinit.

Seriile de timp sunt șiruri de valori ale unei și aceleiași variabile culese la momente diferite. O

serie de timp trebuie deci să conțină valori ale unei variabile în momente bine definite și de

preferință echidistante de timp. Pentru aceasta se definește pe lângă variabila „serie de timp” o

variabilă companion „timp” conținând momentele de culegere a datelor și având o unitate de

măsură temporală adecvată problemei modelate: ani, luni, zile, secunde, etc.

Page 159: Carte de Statistica

159

Deci, spre deosebire de forma uzuală a unei variabile care este un șir de valori culese de la

diferite persoane, obiecte, fenomene, la o serie de timp avem un șir de valori pentru un singur

obiect sau o singură persoană, dar la diferite momente de timp. Dacă avem valori culese atât

la diferite momente de timp cât și pentru diferite obiecte spunem că avem un panel. Seriei de

timp i se adaugă atunci încă o variabilă companion, un identificator al obiectului la care se

referă informația. Tabela de mai jos exemplifică o serie de timp cu valori ale produsului intern

brut al Romaniei pe ani selectati:

An PIB per capita (in USD cu metoda GK PPP)

1990 3525

1995 3083

2000 2797

Următoarea tabelă prezintă un panel de date, produsele interne brute ale unor țări din estul

Europei în aceiași ani:

An Țară PIB per capita (in USD cu metoda GK PPP)

1990 Romania 3525

1995 Romania 3083

2000 Romania 2797

1990 Ungaria 6471

1995 Ungaria 5778

2000 Ungaria 6780

1990 Bulgaria 5552

1995 Bulgaria 5197

2000 Bulgaria 4726

1990 Cehia 8464

1995 Cehia 7831

2000 Cehia 8386

În exemplul de panel de mai sus numărul de ani este aproape egal cu numărul de țări. Situația

uzuală este însă de regulă alta. Avem două tipuri de astfel de date:

Page 160: Carte de Statistica

160

Panelurile sunt de regulă intervierări repetate ale unui eșantion reprezentativ la

diferite momente de timp. Rezultă un set de date cu un număr mare de intervievați, de

obicei peste o mie, dar cu un număr mic de puncte temporale, câte reintervievări au

avut loc (uzual 3 – 4 intervievări). Astfel de intervievări se fac, de exemplu cu

generații de absolvenți ai unei facultăți pentru a trasa carierele lor în timp sau cu

pacienți pentru a studia efectul unor tratamente.

Seturile de date CSTS (cross-sectional time series) conțin de regulă un număr mai

mare de puncte temporale dar pentru un număr mult mai mic de cazuri: de exemplu:

valorile PIB pentru toate țările din estul Europei în anii 1950 – 2000 sau temperatura

si tensiunea pacienților dintr-o secție de reanimare din oră în oră timp de câteva zile.

Seturile de date din prima categorie se tratează ca niște eșantioane uzuale folosind în plus

metodele de tip înainte – după, în special testul Wilcoxon pe care l-am prezentat deja. Seturile

de date CSTS se prelucrează ca și serii de timp genuine și le vom discuta spre sfârșitul

capitolului de față.

Am văzut cum se definește seria de timp, am văzut ce înseamnă ea. Primul pas în analiza unei

serii de timp este cât se poate de simplu și predictibil. Începem întotdeuna cu o reprezentare

grafică. De exemplu mai jos este graficul cu numărul de studenți la 10.000 de locuitori

calculat pe Europa de est și Europa de vest.

Page 161: Carte de Statistica

161

Graficul permite deja anumite analize și comentarii care însă nu au un caracter propriu-zis

statistic. Se vede faptul că numărul de studenți din vestul Europei a crescut aproape constant

pe când cel din estul Europei a cunoscut și perioade de stagnare, ba chiar de recesiune.

În cazul graficelor cu serii de timp se fac întotdeuna grafice de tip linie, având pe axa

orizontală punctele temporale astfel încât distanțele dintre ele să corespundă distanțelor în

timp. Dacă de exemplu avem valori pentru anii 1990, 1995, 1997, 2000 va trebuie sa fim

atenți ca distanțele din grafic să nu fie egale ci proporționale distanțelor temporale. De

asemenea, punctele graficului nu vor corespunde unor frecvențe sau procentaje ca în cazul

graficelor prezentate în capitolele precedente ci chiar valorilor variabilei serie de timp.

Principalul scop al graficelor este definirea informată a unor ipoteze. Acestea pot apoi fi

testate prin metode statistice. Desigur facem grafice și pentru a prezenta și a face datele mai

accesibile. Principalele patternuri care pot fi identificate grafic și testate apoi sunt trendul

(respectiv absența lui, staționaritatea) și sezonalitatea.

Page 162: Carte de Statistica

162

b. Trend şi sezonalitate

Cuvântul englezesc trend care s-a încetățenit și în limba română înseamnă tendință. Vorbim

adesea de un trend ascendent sau descendent și ne referim la o dezvoltare crescătoare sau

descrescătoare a unui șir de date, sau sesizăm o schimbare de trend atunci cănd de exemplu

creșterea economică se termină și începe o perioadă de recesiune. În graficele precedente, de

exemplu, se observa un trend crescător al numărului de studenți la 10.000 de locuitori în

vestul Europei sau un trend descrescător al Indicelui anual al Prețurilor de Consum în

România după 1997.

Statistica se apropie de problematica trendurilor în serii de timp prin testarea staționarității și

apoi a staționarității de trend.

În sens matematic, un proces stochastic este staționar dacă distribuția lui de probabilitate nu

se schimbă în timp, adică dacă lipsește un trend. Aceasta face ca media și dispersia

procesului, acolo unde se pot defini, să rămână stabile în timp. Definiția aceasta este însă

destul de criptică, pornind de la conceptul de proces stochastic pe care nu l-am discutat până

acum și continuînd cu cel de distribuție de probabilitate care poate nu este suficient de

explicit. Am să incerc să povestesc pe cât se poate de nematematic și de simplu despre ce e

vorba. Nu vă faceți însă griji, mulți dintre sociologii și politologii care analizează în mod

competent trenduri statistice nu știu exact cum funcționează testele de staționaritate pe care le

aplică.

Totuși o scurtă prezentare a conceptului de proces stochastic nu e complicată și poate da o

privire mai flexibilă și informată asupra ansamblului metodelor statistice pentru serii de timp.

Procesul stochastic este matematic vorbind o funcție care leagă momente de timp de

distribuții ale datelor. Adică, un șir de distribuții organizate în timp. Am mai vorbit în această

carte despre distribuții. Le-am pomenit când am vorbit despre distribuția unei variabile într-o

populație, cand am spus că scopul sondajului de opinie este a aproxima aceste distribuții la

nivelul populației cu distribuții la nivelul eșantionului. Atunci o distribuție a fost definită ca

fiind un grup de perechi (valoare, probabilitate) sau pentru cazul particular al eșantionului

(valoare, frecvență). Hai sa luăm de exemplu o variabilă oarecare. Să zicem, opțiunea de vot

la alegerile prezidențiale. Distribuția la nivel de populație ar fi dependentă de opțiunea

fiecărui membru al populației. Am putea scrie această distribuție sub forma:

Page 163: Carte de Statistica

163

Candidat A – 20%

Candidat B – 30%

Candidat C – 30%

Nehotarâți – 10%

Desigur pentru a determina distribuția nu vom avea cum întreba toată populația țării. De aceea

se fac sondaje. Dar adesea când se vorbește despre sondajele pre-electorale se mai discută și

de factorul temporal. Distribuția aceasta nu este neschimbată în timp. Ea e de fapt un proces

stochastic. Adică pentru fiecare moment în timp diferă un pic. Diverse evenimente, campania

electorală, opinii și poziții ale candidaților dar și ale jurnaliștilor sau ale altor persoane

influențează alegerea indivizilor și duc la modificarea distribuției. Dacă simplificăm un pic

lucrurile matematice, staționaritatea înseamnă că distribuția rămâne în esență neschimbată. Nu

înseamnă în mod necesar că nu se schimbă nimic, ci înseamnă că schimbările nu modifică

esențial situația. Hai să mai luăm un alt exemplu. Să zicem că adunăm distribuția greutății

persoanelor dintr-o localitate. Pe măsură ce trece timpul, unii slăbesc, alții se îngrașă, unii se

nasc, alții mor. Cu toate acestea, e posibil ca în fiecare moment distribuția greutăților să nu

difere prea mult. Fiind vorba despre date raționale aceasta se poate traduce, așa cum am

prefigurat deja, prin păstrarea mediei și a dispersiei. Dacă se întâmplă astfel, procesul se

numește staționar. Dacă însă media crește sau scade pentru o anumite perioadă de timp

vorbim despre existanța unui trend ascendent sau descendent.

Problema practică nu se poate însă de regulă atât de complex pentru că o serie de timp cel mai

adesea nu o avem sub forma completă a unui proces stochastic, adică a unui șir de distribuții

ci sub forma unui șir de valori singulare pe care le considerăm de fapt instanțe ale acestor

distribuții. Este ca și cum am avea pentru fiecare moment un experiment de tipul aruncării cu

zarul, dar nu cu distribuția clasică, adică distribuția uniformă cu 6 valori, ci cu distribuția

specifică cazului modelat. Avem atunci culese pentru fiecare moment rezultatele

experimentului aleator, a aruncatului cu acest zar inegal și multifațetat. Bun, atunci ce mai e

staționaritatea?

Ipoteza de staționaritate sună în consecință cam așa: dacă avem acest șir de valori consecutive

în timp, este posibil ca ele să fi rezultat din alegerea aleatoare conform unei distribuții

neschimbate. Dacă se respinge această ipoteză înseamnă că distribuția a fost schimbătoare,

Page 164: Carte de Statistica

164

seria de timp nu e staționară. Există diferite teste de staționatitate. Cel mai popular la ora

actuală este probabil testul KPSS (Kwiatkowski, Phillips, Schmidt, Shin 1992).

KPSS testează o serie de ipoteze de staționaritate de nivele consecutive, adică pe lângă

staționaritatea seriei de timp propriu-zise verifică și staționaritatea seriilor de timp

considerând o întârziere de o unitate de timp (lag 1), două unități de timp (lag 2) și așa mai

departe până la lag 9. Mai jos este rezultatul unui test KPSS așa cum apare la unul din

pachetele de soft statistic, Stata. Am verificat staționaritatea seriei de timp a Indicelor

Prețurilor de Consum (IPC) așa cum apare în primul grafic din acest capitol.

. kpss IPC KPSS test for IPC Maxlag = 9 chosen by Schwert criterion Autocovariances weighted by Bartlett kernel Critical values for H0: IPC is trend stationary 10%: 0.119 5% : 0.146 2.5%: 0.176 1% : 0.216 Lag order Test statistic 0 .338 1 .199 2 .154 3 .135 4 .128 5 .126 6 .127 7 .129 8 .133 9 .137

Să vedem cum se analizează rezultatul de mai sus. În primul rând să observăm că ipoteza H0

este faptul că IPC este de trend-staționar (soft-ul ne spune ”H0: IPC is trend stationary”).

Apoi ne sunt date valorile critice ale testului și în fine valorile testului pentru forma simplă și

apoi pentru un număr din ce în ce mai mare de valori în urmă (lag-uri), până la 9 valori. Prima

valoare de test, deci fără lag, este 0.338. Observăm că este mai mare decât valoarea critică

pentru 1%. Deci ipoteza H0 se poate respinge cu o probabilitate de a greși mai mică decât 1%.

Adică putem liniștit considera că seria este nestaționară. Ca de obicei, ceea ce căutăm este

deci o significanță cât mai mică. Aici ea nu este raportată direct ci prin valorile de test. Cu cât

sunt acestea mai mari cu atât e significanța mai bună. Ca să aflăm cât de bună trebuie să

stabilim unde se potrivește valoarea de test printre valorile critice. Să mai încercăm o dată

pentru al doilea rând: valoarea de test pentru lag 1 este 0.199. E mai mică decât valoarea

critică pentru o significanță de 1%, care e 0.216 dar e mai mare decât valoarea pentru o

significanță de 2.5%, adică 0.176. Deci se poate respinge ipoteza nulă pentru lag 1: ”IPC este

Page 165: Carte de Statistica

165

staționar față de o valoare cu un an întârziere” cu o probabilitate de a greși de 2.5%. Ceea ce e

de asemenea bine. Ar fi de fapt o significanță de 0.025 dacă s-ar folosi un alt mod de

raportare. Ce a rămas neclar este sensul acestei staționarități cu întârziere.

Pentru aceasta trebuie să clarificăm incă un barbarism englezesc. Lag înseamnă întârziere.

Dacă considerăm o serie de timp precum cea a IPC, pentru orice valoare curentă, să zicem

valoarea din 2009 valoarea cu un lag (o întârziere) este cea anterioară, deci din 2008. Acesta

ar fi sensul cuvântului. În cazul staționarității însă conceptul de lag trebuie legat de cel de

staționaritate de trend. Adică, nu se verifică doar staționaritatea seriei propriu-zise ci și a

seriei de trend. Adică, nu ne interesează numai staționaritatea seriei ci și staționaritatea

trendului. Adică, nu numai creșterea sau scăderea ci și viteza de creștere sau scădere. Dacă

calculăm diferențele de la un moment la altul al seriei de timp obținem o serie a creșterilor sau

scăderilor. Scăzând valoarea precedentă, calculăm de fapt o serie nouă, cea de lag 1, adică o

serie a creșterilor. În termeni matematici această serie se numește seria primelor diferențe sau

a diferențelor de ordinul întâi, într-o analogie fizică ar fi seria vitezelor. Aplicănd pe această

serie încă o dată aceiași metodă obținem statistic vorbind seria de lag 2, matematic sunt

diferențele de ordinul doi, în analogia fizică: accelerațiile. Să ne imaginăm o mașină a cărei

poziție se notează din oră în oră. Dacă seria rezultată din această culegere de date este

staționară de lag 0 (adică pur și simplu staționară) atunci mașina de fapt stă pe loc, dacă e

staționară de lag 1, atunci are viteză constantă, dacă e staționară de lag 2, are accelerație

constantă, adică e probabil în cădere liberă. Analogia aceasta este desigur simplă și destul de

explicită, însă nu este statistică, ea se referă la un caz determinist cunoscut complet. În

cercetarea statistică avem de a face cu o mașină care ”aproape că stă pe loc” sau care ”are

viteza aproape constantă”.

Conceptul de sezonalitate este mult mai simplu și se referă la faptul că adesea seriile de timp

se comportă după legi diferite pe perioade diferite. Cu mai mare sau mai mică regularitate ele

trec de la un mod de comportament la altul, cunosc sezoane. Denumirea vine desigur de la

anotimpuri și într-adevăr cele mai clare exemple se leagă de anotimpuri. Astfel, recunoaștem

sezonalitate la consumul de bere lunar, la costurile de încălzire sau consumul de apă caldă

menajeră. Aceste sezonalități sunt foarte simplu de văzut grafic și de explicat dar nu mai puțin

importante. Identificarea sezonalității se face cel mai adesea grafic fără a mai recurge la alte

metode statistice. Graficele liniare ale seriei de timp pot ajuta aici, dar mai bine se vede din

grafice suprapuse ale fragmentelor sezonale ale seriei de timp. Astfel se pot suprapune de

Page 166: Carte de Statistica

166

exemplu linii reprezentând ani, pentru seriile de timp cu date cu frecvență lunară. Există însă

și alte metode. De menționat ar fi corelația de fragmente de serii de timp pentru intervalele de

sezonalitate. Astfel se construiește un set de date care pune unele lângă altele valorile pentru

aceleași luni ale unui an (sau aceleași ore ale unei zile, etc.) și se calculează corelația.

Mai jos, un grafic cu sezonalitate reprezentând temperaturile culese din oră în oră de către

stația de monitorizare a energiei solare a Universității de Vest din Timișoara. Datele sunt

pentru toate zilele lunii mai a anului 2010.

Pe următorul grafic vom suprapune zilele, fiecare linie corespunde unei singure zile. Orele

corespunzătoare apar la aceiași valoare de pe axa abscisei. Pe acest al doilea grafic

sezonalitatea este poate chiar mai ușor de văzut.

Page 167: Carte de Statistica

167

Să mai dau un exemplu simplu din care să rezulte și scopul identificării sezonalității. Știm

astfel că există sezonalitate în activitatea în construcții și agricultură ceea ce face ca veniturile

populației cu angajare sezonieră să crească, chiar cu o creștere a unui anumit produs intern

nedeclarat. Aceasta face ca pentru o serie întregă de indicatori economici și nu numai, o lună

de vară să nu poată fi comparată cu o lună de iarnă. Culegerea unor informații cu scopul

comparării lor va trebui să țină cont de efectele de sezonalitate chiar și când ele se referă la

obiceiurile de consum cultural, la cumpărături sau opinii. De regulă modelarea datelor cu

sezonalitate se face simplu prin separare sau prin introducerea în model a unor variabile

dummy (adică având valorile 0 și 1) care să indice ”sezon” și ”extrasezon”. Aceasta se poate

de exemplu face la modele de regresie de orice tip. Există și modele mai complexe care

tratează conceptul de sezonalitate. Nu ne vom ocupa de ele aici. Pentru cei interesați sunt de

căutat modele ciclostaționare sau sinusoidale. De asemenea există studii legate de estimarea

densității spectrale care pot ajuta la modelarea seriilor de timp cu sezonalitate.

c. Cointegrare

Page 168: Carte de Statistica

168

Un alt concept important în analiza seriilor de timp este cel de cointegrare. Relativ ușor de

explicat după cel de staționaritate, cointegrarea spune ceva despre relația mai multor serii de

timp. Anume spunem că mai multe serii de timp sunt cointegrate dacă există o combinație

lineară a lor care este staționară. De regulă cointegrarea se calculează pentru două serii de

timp. Dacă modelul se aplică la mai multe serii vorbim despre multicointegrare. De asemenea

există și un sens mai general al termenului de cointegrare care se leagă de integrarea seriilor

de timp de nivel k, o teorie pe care nu o voi mai descrie aici. Integrarea de ordin k este de fapt

aproape același lucru ca și staționaritatea de lag k. Atunci două serii de timp sunt cointegrate

dacă există o combinație liniară care are un ordin de integrare mai mic decât ordinele de

integrare ale celor două serii de timp. Sună puțin complicat, deși conceptual e simplu, sau e

simplu măcar în varianta mai puțin generală. Fie deci, t si s două variabile serie de timp, o

combinație liniară este atunci orice variabilă care se poate calcula după o formulă de forma: at

+ bs, unde a și b sunt pur și simplu numere oarecare (în matematică le-am zice scalari pentru

că nu sunt variabile statistice, aleatoare). Dacă variabila care rezultă din calcul e staționară

cele două variabile inițiale sunt cointegrate. Două întrebări se pun atunci. Una e: de unde să

știm asta? A doua: și ce dacă?

Pentru prima întrebare răspunsul e destul de simplu. Există teste de cointegrare. Cele mai

cunoscute sunt testul Engle-Granger si testul Johansen, cu varianta Johansen-Juselius. Testul

lui Johansen este mai general si mai simplu. Testul Engle-Granger necesită egalitate a

ordinelor de integrare a celor două variabile testate. Testul Johansen sau Johansen-Juselius nu

ne mai cere să problematizăm aceasta. Ipoteza lui este pur și simplu că seriile de timp sunt

cointegrate. Testul de regulă raportează valorile critice și valoarea de test. Dacă valoarea de

test e mai mare decât valoarea critică se poate respinge ipoteza, adică se poate decide că cele

două serii de timp nu sunt cointegrate.

Pentru a doua întrebare trebuie să revenim la o temă pe care am tratat-o deja, cea a corelației

sau regresiei false. Poate își mai aduce cineva aminte de exemplul cu ”berzele care aduc

copii”. Problema este și mai serioasă și mai complexă în cazul seriilor de timp: pe de o parte

pentru că decurgerea temporală este singurul mod de a ne apropia statistic de cauzalitate, iar

apoi pentru că seriile de timp sunt mult mai adesea supuse problemei autocorelației decât alte

seturi de date (despre aceasta însă în secțiunea următoare a acestui capitol). Pe paginile 14-15

ale acestei cărți am dezvoltat puțin conceptul de ”asimetrie temporală a cauzalității”. Să ne

Page 169: Carte de Statistica

169

aducem pe scurt aminte despre ce era vorba: este pur și simplu transcrierea faptului că o cauză

trebuie să preceadă efectul ei. Cum statistica formulează adesea cam ciudat, de fapt definiția

corectă ar fi: dacă un eveniment A are loc după un eveniment B, A nu poate fi cauza lui B.

Observăm că această transcriere de fapt formulează idea in mod negativ. Adică spune când un

eveniment nu poate fi cauza altuia. Respinge deci o ipoteză, aceea că ”A cauzează B”. Tot in

paginile menționate, am discutat și despre cum acest principiu duce la o analiză a primelor

diferențe ale seriilor de timp. Atunci încă nu le-am spus astfel, dar între timp am introdus

conceptul și ne putem referi la el astfel. Principiul este legat de relația de cauzalitate dintre

variabile și nu dintre evenimente punctuale. Rar ne interesează relația dintre evenimente, mult

mai des cea dintre caracteristici populaționale. În exemplul de pe pagina 14 am povestit

despre relația dintre bunăstare și așteptarea de viață. Relația este statistic validă în multe

populații, dar felul cum are loc cauzalitatea poate avea diferite explicații. Modelarea statistică

poate să mai elimine dintre acestea respingându-le.

Hai să luăm un alt exemplu pentru a-l discuta acum după ce avem mai multe cunoștiințe

despre seriile de timp. În primul rând doresc să tematizez relația dintre cauzalitate și

cointegrare. Fie atunci următoarele două serii de timp: numărul celor care vor să studieze la

facultate ingineria și numărul absolvenților de inginerie care sunt șomeri. Ar putea să existe o

relație între aceste două serii de timp așa cum s-ar putea să nu fie nici o legătură intre ele. Să

vedem prima dată cum ambele direcții cauzale au sens. Numărul de ingineri șomeri ar putea

să depindă de numărul de absolvenți de inginerie care la rândul lui ar putea să depindă de

numărul studenților în inginerie, care la rândul lui ar putea depinde de numărul celor ce vor să

studieze științele inginerești. Nici care din aceste trei relații cauzale nu este o dependență

totală, deși ar putea părea. Numărul de ingineri șomeri nu trebuie neapărat să depindă de

numărul de absolvenți. Astfel, absolventul de inginerie ar putea fi mai bine echipat pentru

piața muncii decât alți absolvenți (de litere sau filosofie, și oricum decât cei fără studii13

) și ca

atare numărul de absolvenți de inginerie să se răsfrângă pozitiv pe piața muncii, independent

de conjunctura economică. Tot așa numărul celor care vor să studieze inginerie nu a avut nici

o influență asupra numărului de studenți în inginerie în toți anii comunismului, deoarece

numărul de locuri era fixat birocratic și oricum mai mic decât numărul celor care vroiau să

studieze. În fine, nici numărul de absolvenți nu trebuie neapărat să fie o funcție directă a

numărului de studenți. Totuși nici care dintre cele trei relații din acest lanț cauzal nu poate fi

13

Deși poate surprinde, ponderea șomerilor este mai mică pentru absolvenții oricăror studii academice decât

pentru cei fără studii. Acest rezultat se regăsește în toate cercetările, indiferent de țară și ani.

Page 170: Carte de Statistica

170

una de independență. Ca atare o cauzalitate statistică este probabilă. Trebuie însă găsită o cale

pentru a vedea cât de puternică este această relație.

Mai interesantă este probabil relația în sens invers. Are vreo legătură numărul celor care vor

să studieze inginerie cu numărul de ingineri șomeri? Pentru a decide plauzibilitatea teoretică a

acestei cauzalități trebuie să gândim puțin la nivelul deciziei individuale de studiu. Elevul,

absolvent de liceu, familia lui, prieteni, rude, vecini, toți sunt intr-un fel sau altul implicați,

explicit sau implicit în luarea deciziei. Ce să studieze copilul? Motive și motivații sunt

diverse, de la oportunități și costuri, la distanțe și tentații. Existe argumente legate de o

potențială carieră și argumente legate de o anumită activitate văzută ca tentantă. Există (rar)

curiozități științifice și tradiții familiale. Oare contează și numărul de șomeri? Poate pentru

unii contează și pentru alții nu. Este însă disponibilă o astfel de informație? Știați când v-ați

început studiile câți sociologi sau politologi șomeri sunt în România? Știți acum? Și totuși,

poate pentru ingineri e altfel. Sau, mai plauzibil, se poate răspândi o opinie, chiar și inexactă,

prin mass-media. O astfel de opinie de genul ”vai de noi, e plină țara de ingineri șomeri” ar

putea inhiba alegerea unei anumite discipline de studiu. Pe astfel de lanțuri cauzale numărul

de șomeri real (și reprezentarea lui în media) ar putea avea efect asupra numărului celor care

vor să studieze. Deci motivațiile teoretice există pentru ambele direcții. Dacă numărul celor

care vor să studieze ar avea efect pe numărul de șomeri, o schimbare radicală s-ar repercuta

după mai mulți ani. Să presupunem că numărul celor ce vor/pot să studieze crește foarte tare,

cum a fost în anul 1990, de exemplu, până ca aceasta să se repercuteze asupra numărului de

șomeri vor trece cel puțin vreo 5 ani (durata normală a studiilor din anii aceia). Deci ar trebui

sa relaționăm numărul celor care încep studiile în 1990 cu numărul de șomeri în 1995 sau

chiar 1996. Invers relația e mai imediată, numărul șomerilor din 1995, de exemplu, ar avea

efect asupra numărului celor ce și-ar începe studiile în toamna din același an. Deoarece

ambele direcții cauzale sunt plauzibile ceea ce se produce este un sistem circular de cauzalități

cu diverse nivele de întârziere, de lag, în termeni statistici. Fiind vorba despre puterea cu care

o variabilă o determină pe alta, aici cel mai potrivit ar fi un model de regresie, așa cum am

discutat deja și cum vom discuta în următoarea secțiune. Unii își aduc desigur aminte de

coeficientul de determinare R2 care putea să spună tocmai cât de puternică este o relație de

dependență modelată cu o regresie. Dar de unde am putea știi că ceea ce modelăm nu este o

relație falsă, aparentă. Un răspuns simplu este: pentru că avem un bun motiv teoretic. Un

răspuns mai puțin simplu, dar pentru unii mai convingător este următorul: dacă cele două serii

de timp sunt staționare sau cointegrate relația identificată între ele nu este un falsă. Pentru a

Page 171: Carte de Statistica

171

stabili puterea relației se poate folosi atunci un alt model, de regulă o regresie. Formulat puțin

altfel: să presupunem că am identificat o corelație (sau regresie) între două variabile serii de

timp. Dacă cele două serii de timp sunt staționare relația este sigur genuină, dacă nu sunt

ambele staționare, însă sunt cointegrate relația este de asemenea genuină. Dacă nu sunt nici

staționare nici cointegrate nu putem știi dacă relația identificată nu este cumva falsă. Nu mă

pot însă abține să nu repet: după părerea mea relațiile false sunt foarte rare, poate chiar

inexistente și maschează doar lanțuri cauzale mai complexe sau lenea de a identifica lanțul

cauzal.

d. Regresii cu serii de timp

Nu există motive generale teoretice pentru ca regresiile cu serii de timp să nu poată fi

calculate ca orice alte regresii. Problema ce apare este însă faptul că premisele Gauss-Markov

necesare aplicării metodei celor mai mici pătrate sunt mult mai adesea neîndeplinite în cazul

seriilor de timp decât în cazul altor date statistice și pentru aceasta există bune motive.

Să ne reamintim prima dată, care sunt condițiile acestea:

Variabilele aleatoare abaterei au media 0.

Variabilele aleatoare abaterei au o dispersie finită egală pentru toţi indicii i. Aceasta se

numeşte homoschedasticitate (sau omogenitate a dispersiei).

Variabilele aleatoare abaterei sînt necorelate între ele. Condiţia se mai numeşte absenţa

autocorelaţiei.

Tipică pentru seriile de timp este prezența autorcorelației. Motivul este următorul: Într-un set

de date uzual fiecare linie reprezintă informații despre un membru al populației: un om, o

intreprindere, o pisică, etc. Putem de regulă să considerăm liniștit că informațiile sunt mai

mult sau mai puțin independente. Greutatea unei pisici nu trebuie să aibă vreo legătură cu a

alteia, opinia politică a unui intervievat poate fi mai mult sau mai puțin independentă de cea a

altuia, obiectul de activitate al unei intreprinderi nu are legătură cu cel al altei intreprinderi din

eșantion. În cazul seriei de timp liniile setului de date sunt valori consecutive ale unei

variabile pentru același subiect al cercetării. Numărul de studenți dintr-un an depinde puternic

de numărul din anul precedent. Rata de schimb dintr-o zi depinde puternic de rata din ziua

precedentă și așa mai departe. De aici rezultă autocorelația.

Page 172: Carte de Statistica

172

Ca atare, regresia lineară simplă merită încercată și cu serii de timp, dar întotdeuna trebuie

efectuate testele de homoschedasticiate (Breusch-Pagan) și autocorelație (Durbin-Watson).

Am prezentat pe scurt aceste teste în capitolul dedicat regresiei lineare. În cazul în care aceste

condiții nu sunt îndeplinite trebuie sa căutăm soluții alternative de analiză a datelor.

Varianta cea mai simplă este regresia primelor diferențe. Se mai folosesc însă și alte metode,

cum ar fi modelele AR, ARMA, ARIMA și VAR.

Regresia primelor diferențe construiește logic pe principiul asimetriei cauzale și, în loc să

analizeze relația dintre variabile, analizează relația dintre creșterile variabilelor, adică

diferențele față de momentul precedent al seriei de timp. Daca regresia simplă ar fi pentru

fiecare punct de date:

yt = a + b xt + et

regresia primelor diferențe se scrie:

yt – yt-1 = a + b (xt – xt-1)+ et

Observăm că variabilele au fost înlocuite cu diferențele față de valorile precedente. Matematic

aceasta se scrie și astfel:

Δy = a + b Δx + et

Semnul Δ este litera grecească delta și înseamnă diferență. Regresia primelor diferențe este în

general considerată un mai bun indicator al unei relații cauzale și, în plus reușește de regulă să

elimine problema autocorelației. Dacă aceasta nu s-a întâmplat trebuie căutat un alt model.

Problema mai spinoasă a regresiei primelor diferențe este însă faptul că este un model foarte

restrictiv. Adică foarte multe relații care par puternice pentru regresia simplă și sunt și teoretic

plauzibile sunt respinse de către regresia primelor diferențe. În aceste cazuri consider că cel

mai corect este să continuăm să incercăm și alte modele, cel mai la îndemână fiind modelul

VAR. În fine, dacă aceasta nu este posibil sau rezultatele rămân neconcludente, rezultatul bun

al regresiei simple necorelat însă de un rezultat al regresiei primelor diferențe se citește de

regulă ca fiind un paralelism nesusținut de o relație cauzală directă dar care nu e neapărat o

falsă relație. Este de exemplu posibilă existența unui lanț cauzal complex, sau mai plauzibil a

Page 173: Carte de Statistica

173

unui arbore cauzal în care cele două variabile au cauze comune. Aici devin utile pentru o

analiză mai amănunțită testele de staționaritate și cointegrare, precum desigur și o serioasă

considerare a caracterului teoretic al datelor. Întotdeuna trebuie să ne punem problema ce am

măsurat de fapt și ce însemnătate au variabilele pentru ceea ce dorim să aflăm.

Modelele de regresie avansate cu serii de timp (AR, VAR, ARMA și ARIMA) se mai

numesc uneori și modele Box-Jenkins și extind în mare conceptul de diferență din mai

simplul model prezentat anterior. Modele AR, ARMA și ARIMA analizează dezvoltare unei

serii de timp. Aceasta are loc prin inluderea în model a unei componente AR. Observați

literele în toate denumirile de mai sus. AR desemnează un proces autoregresiv, adică ia în

seamă exact principala problemă a regresiei seriilor de timp. Variantele mai complexe

consideră modele vector-autoregresive, adică analizând mai multe variabile (VAR), cu medie

glisantă (autoregressive moving average - ARMA) sau cu medie glisanta integrată

(autoregressive integrated moving average - ARIMA). Modelele se găsesc implementate în

practic toate pachetele de soft-ware statistic și se analizează aproape ca și regresiile obișnuite.

Definirea modelului necesită însă câteva considerații suplimentare:

Componenta AR: trebuie specificat câte valori anterioare (lag-uri) dorim să luăm în

seamă. Dacă am făcut în prealabil o analiză de staționaritate de trend se alege numărul

de lag-urile astfel încât să se elimine trend-ul. Astfel dacă seria de timp era staționară

nici nu e nevoie de componentă AR se alege valoarea 0, dacă seria era trend staționară

de lag 1, luăm AR = 1 și așa mai departe. Alegerea se face astfel pentru ca să ne

asigurăm că eliminăm autocorelația. Dacă nu am efectuat testul de staționaritate luăm

de regulă AR = 1. Modelele care au numai componenta AR au următoarea formă:

Valoarea n este numărul de lag-uri ales.

Componenta MA: se consideră că există o perioadă de echilibrare a mecanismului de

dezvoltare a variabilei, ca atare se face media de o perioadă de câțiva ani și se

analizează această medie care glisează. Un exemplu: dacă analizăm sistemul școlar

merită să considerăm seria de timp ca medie glisantă de durata școlarizării. Problema

teoretică este însă cea care trebuie să dicteze aici alegerea modelului și a numărului de

ani care intervin în media glisantă. Modelele care au numai componenta MA au

forma:

Page 174: Carte de Statistica

174

Modelele ARMA reunesc cele două componente de mai sus:

Modelele ARIMA includ în plus și componenta I care permite descrierea unor modele

cu trend cunoscut. Pe lângă specificarea valorilor pentru AR și MA, aici se mai adaugă

așa-zisa valoare pentru I care poate fi 0 pentru absența de trend (staționaritate), 1

pentru un trend linear și 2 pentru un trend pătratic. De regulă modelele ARIMA se

specifică printr-un triplet (p, d, q) unde p reprezintă partea AR, d partea I și q partea

MA. Astfel avem și următoarele echivalențe ARIMA (1, 0, 0) = AR (1) sau ARIMA

(0, 0, 4) = MA (4).

Modelele VAR permit folosirea tehnicii AR pentru a analiza mai multe serii de timp

una lângă alta creind astfel posibilitatea analizei relațiilor dintre ele. Modelarea VAR

este adesea urmată de analiza cauzalității Granger. Testul de cauzalitate a lui Granger,

menționat deja, se bazează în calcul pe rezultatele modelului VAR și este cea mai

puternică metodă pe care o avem până acum la dispoziție pentru a verifica relații de

cauzalitate între serii de timp.

Pentru o introducere în analiza seriilor de timp cred că am povestit destule, desigur pentru

utilizarea lor ar mai fi loc de ceva informare. Există cărți foarte bune de statistica seriilor de

timp, din păcate însă nu știu să se fi publicat careva în traducere română. Până când să apară

ceva și la noi găsiți la bibliografie câteva propuneri în limba engleză.

Page 175: Carte de Statistica

175

e. Analiza de supravieţuire

Analiza de supraviețuire este desigur rezultată din cercetarea statistică medicală în special și

biologică în general, dar în ultimii ani a fost folosită în multe studii din domeniul ecologiei, a

economiei, a sociologiei, etc.

Cred că cel mai ușor aș putea explica analiza de supraviețuire chiar pornind de la problema

medicală pentru care a fost dezvoltată. Avem deci un lot de persoane care ia un anumit

tratament și un lot, așa zis martor, care nu ia respectivul tratament. Întrebarea care se pune

este dacă a folosit la ceva tratamentul, adică a schimbat șansele de supraviețuire. Culegem

date în serie de timp despre pacienți și notăm momentul în care are loc decesul (sau revenirea

bolii). Metoda trebuie să ne poată spune dacă tratamentul a crescut șansa de supraviețuire sau

nu, și pe cât posibil și cu cât a crescut șansele. De la această construcție de bază a problemei

se pot face apoi diverse variante fără a schimba metoda. De exemplu: poate să nu fie un

tratament ci pur și simplu o caracteristică care separă cele două grupuri: adică putem compara

riscurile de deces pentru femei și bărbați, sau pentru fumători și nefumători, sau blonzi și

bruneți, și așa mai departe. Sau putem să nu urmărim decesul pacienților ci orice alt

eveniment care se poate fixa pe axa timpului, astfel am putea analiza riscul de a căsători a

celor cu ochi albaștrii față de cei cu ochi căprui, sau riscul de a cumpăra o carte a celor cu

studii medii față de cei cu studii superioare. În fine, cu o dezvoltare ceva mai complexă a

metodologiei putem să facem chiar mai mult decât să comparăm două grupe. Anume, să

vedem cum este influențat riscul de înbolnăvire (sau de a se căsători, totuna) de către o

variabilă numerică, de exemplu vârsta sau venitul sau numărul de la pantofi.

Tot așa metoda va putea analiza nu numai situații legate de persoane, ci și populații de

întreprinderi sau asociații sau chiar de animale sau echipe de fotbal.

Să vedem prima dată cum trebuie să arate datele de care avem nevoie. În primul rând avem

nevoie de un eșantion sau un lot. În cercetarea medicală în special nu avem decât foarte rar

posibilitatea de a construi eșantioane statistic relevante. Culegem datele de la pacienții care

vin cu o anumită boală într-o anumită secție, ei se reprezintă pe sine și nu sunt în vreun fel

reprezentativi pentru o populație mai mare. Dacă acesta e cazul vorbim despre un lot. Nu are

prea mare relevanță cât de mare e lotul, rezultatele oricum nu se extrapolează. Astfel, ca să ne

exprimăm corect, va trebui să formulăm ceva de genul: în lotul studiat tratamentul cu X scade

riscul de reapariție a bolii cu 5%. Totuși nu putem să nu implicăm în oarecare măsură

Page 176: Carte de Statistica

176

generalizarea și pentru aceasta este de dorit ca măcar să nu avem o culegere biasată a datelor,

adică să luăm toate cazurile care apar și să nu ocolim cele care nu ne plac, indiferent de

motive. Pentru fiecare dintre pacienți vom culege apoi datele la momente regulate de timp: de

exemplu, din lună în lună, sau din an în an. Intervalul de culegere al datelor depinde desigur

de punerea problemei. Definim o variabilă specială pe care o numim de exemplu DECES sau

RELAPS sau cum o fi cazul, NUNTA de exemplu. Această variabilă va avea mereu valoarea

0 cu excepția culegerii de date la care se constată apariția evenimentului. Atunci punem

valoarea 1. Vom avea desigur și o variabilă care descrie timpul și o variabilă care identifică

subiectul, pacientul. Astfel datele vor avea o structură asemănătoare datelor de tip panel.

Diferența esențială este faptul că nu avem un panel complet, o matrice completă. Date pot

lipsi fie pentru că a intervenit evenimentul fie pentru că anumiți pacienți au dispărut din

urmărire. Aceste situații se numesc în analiza de supraviețuire cazuri cenzurate.

În esență pentru analiza de supraviețuire folosim trei tehnici: tabele de supraviețuire, numite și

tabele de timp de viață (life-time tables), teste de comparație între loturi (cel mai des testele

Cox sau generalizări ale deja cunoscutului test Wilcoxon) și regresia Cox care estimează

modificarea riscului în funcție de valori ale unor variabile.

Tabele de timp de viață

Majoritatea soft-urilor statistice oferă această posibilitate sub numele de life-time tables.

Pentru calcul se specifică lotul cu variabila timp, variabila care definește subiecții și variabila

binară care definește evenimentul. Rezultatul, de astă dată din Stata, arată astfel:

. ltable year failure if control_recoded == "Private non profit", survival

Beg. Std.

Interval Total Deaths Lost Survival Error [95% Conf. Int.]

-------------------------------------------------------------------------------

1980 1981 36908 0 1409 1.0000 0.0000 . .

1984 1985 35499 11 1639 0.9997 0.0001 0.9994 0.9998

1985 1986 33849 89 1496 0.9970 0.0003 0.9963 0.9975

1986 1987 32264 19 1235 0.9964 0.0003 0.9957 0.9970

1987 1988 31010 39 1523 0.9951 0.0004 0.9943 0.9958

1988 1989 29448 36 1714 0.9939 0.0004 0.9929 0.9947

1989 1990 27698 35 1731 0.9926 0.0005 0.9915 0.9935

1990 1991 25932 29 1818 0.9914 0.0005 0.9903 0.9924

1991 1992 24085 26 1859 0.9903 0.0006 0.9891 0.9914

1992 1993 22200 59 1937 0.9875 0.0007 0.9861 0.9888

1993 1994 20204 33 1984 0.9859 0.0007 0.9843 0.9872

1994 1995 18187 46 1969 0.9832 0.0008 0.9815 0.9848

1995 1996 16172 47 2057 0.9802 0.0009 0.9782 0.9819

1996 1997 14068 40 2114 0.9771 0.0011 0.9750 0.9791

1997 1998 11914 29 2030 0.9745 0.0012 0.9722 0.9767

2000 2001 9855 286 3985 0.9391 0.0023 0.9343 0.9435

2002 2003 5584 86 1804 0.9219 0.0029 0.9159 0.9274

2003 2004 3694 0 1867 0.9219 0.0029 0.9159 0.9274

2004 2005 1827 0 1827 0.9219 0.0029 0.9159 0.9274

Page 177: Carte de Statistica

177

Datele din tabelă se referă la supraviețuirea universităților private din Statele Unite în

intervalul de timp 1980 – 2005. Să vedem ce e de citit din tabelă. Primele două coloane dau

intervalele de timp în care au loc evenimente, apoi urmează numărul total de date (adică nu

numărul de subiecți, ci subiecți ori ani de viață). Numărul de decese ce au loc în fiecare an

apar în coloana Deaths, apoi ne mai interesează coloana Survival care ne dă rata cumulată de

supraviețuire. Tabela este de obicei acompaniată de o reprezentare grafică.

.92

.94

.96

.98

1

Pro

port

ion S

urv

ivin

g

1980 1985 1990 1995 2000 2005year

Graficul reprezintă tocmai modificarea în timp a valorii Survival din tabelă. Aceasta dă riscul

de deces cumulat de la începutul perioadei până la momentul specificat. Astfel valoarea

0,9802 pentru anul 1996 înseamnă că șansa ca o universitate privată americană care exista în

1980 să mai existe și în 1996 era de 0,9802. Pentru toată perioada studiată, deci de la 1980 la

2005 șansa unei universități private americane să supraviețuiască este de 0,9219. Tabela și

graficul nu spun poate mare lucru. Se observă doar o catastrofă pentru anul 2000, când au

dispărut mult mai multe universități private (286) decât în alți ani. Aceasta ar trebui studiată

mai în amănunt pentru că ar putea avea motive administrativ birocratice. De exemplu

organizațiile cu pricina s-ar putea să dispară numai din statisticile oficiale și să nu se închidă

cu adevărat. Tabela (și desigur graficul aferent) devin interesante când sunt folosite

comparativ. De exemplu dacă lângă datele pentru universitățile private punem datele pentru

Page 178: Carte de Statistica

178

universitățile de stat. Atunci rata de supraviețuire devine o informație interesantă. Întra-

adevăr, știind că rata de supraviețuire pentru universitățile de stat americane pentru exact

aceiași perioadă de timp este de 0,9810, rata de supraviețuire a celor private pare deja foarte

mică.

. ltable year failure if control_recoded == "Public", survival

Beg. Std.

Interval Total Deaths Lost Survival Error [95% Conf. Int.]

-------------------------------------------------------------------------------

1980 1981 13522 0 639 1.0000 0.0000 . .

1984 1985 12883 2 716 0.9998 0.0001 0.9994 1.0000

1985 1986 12165 62 615 0.9946 0.0007 0.9931 0.9958

1986 1987 11488 4 470 0.9943 0.0007 0.9927 0.9955

1987 1988 11014 9 635 0.9934 0.0007 0.9918 0.9947

1988 1989 10370 7 616 0.9927 0.0008 0.9910 0.9941

1989 1990 9747 3 602 0.9924 0.0008 0.9906 0.9939

1990 1991 9142 2 655 0.9922 0.0008 0.9904 0.9937

1991 1992 8485 2 655 0.9919 0.0008 0.9901 0.9934

1992 1993 7828 0 663 0.9919 0.0008 0.9901 0.9934

1993 1994 7165 2 657 0.9917 0.0009 0.9898 0.9932

1994 1995 6506 3 655 0.9912 0.0009 0.9892 0.9928

1995 1996 5848 0 666 0.9912 0.0009 0.9892 0.9928

1996 1997 5182 4 692 0.9904 0.0010 0.9882 0.9921

1997 1998 4486 8 698 0.9884 0.0012 0.9858 0.9906

2000 2001 3780 8 1388 0.9859 0.0015 0.9826 0.9885

2002 2003 2384 10 736 0.9810 0.0021 0.9763 0.9848

2003 2004 1638 0 845 0.9810 0.0021 0.9763 0.9848

2004 2005 793 0 793 0.9810 0.0021 0.9763 0.9848

Mai mult putem contribui cu informații relevante legate de comparația universităților private

și de stat din Statele Unite. Se dovedește că universitățile de stat sunt mai solide, mai

rezistente, mai puțin supuse riscului de a se închide. Putem chiar spune că nu este adevărat că

universitățile private sunt mai adecvate condițiilor pieței educației superioare din Statele Unite

decât cele de stat, ceea ce respinge o ipoteză destul de des vehiculată. Care sunt motivele

pentru acest fapt este desigur de discutat: probabil contează faptul că universitățile private

sunt foarte diverse, de calități foarte diferite, dar și faptul că cele de stat sunt sprijinite chiar

dacă sunt mai mici, sau au doar o relevanță locală.

Teste de comparație a ratei de supraviețuire

Comparația făcută mai sus este însă una care nu ia în considerare vreun calcul de relevanță

statistică pentru a putea calcula mai corect ce diferență de rată de supraviețuire este cu

adevărat semnificativă ar trebui să folosim un test statistic. Testele cele mai uzuale sunt testul

Wilcoxon (Breslow) care este o adaptare a lui Brelow la testul deja prezentat al lui Wilcoxon,

precum și testul Cox, bazat pe analiza regresiei Cox despre care vom vorbi puțin mai încolo.

Ambele teste au ipoteze similare și dau rezultate similare. Ipoteza H0 este întotdeuna:

grupurile care se compară au aceiași rată de supraviețuire. Pentru aceasta se iau în seamă:

numărul de decese pentru fiecare grup și se compară cu o metodă tip Chi2 cu valorile care se

Page 179: Carte de Statistica

179

prezic dacă ratele de supraviețuire ar fi egale și nu ar conta diferențele dintre grupuri. Ca de

obicei testul ne dă o significanță. Cu cât e aceasta mai mică cu atât mai sigur putem să

respingem ipoteza nulă. Iată de exemplu rezultatele pentru ambele teste pentru datele despre

universități americane:

Wilcoxon (Breslow) test for equality of survivor functions

| Events Events Sum of

Control | observed expected ranks

-------------------+--------------------------------------

Private for profit | 163 138.45 61080

Private non profit | 786 696.03 269765

Public | 107 221.52 -330845

-------------------+--------------------------------------

Total | 1056 1056.00 0

chi2(2) = 65.29

Pr>chi2 = 0.0000

Cox regression-based test for equality of survival curves

| Events Events Relative

Control | observed expected hazard

-------------------+--------------------------------------

Private for profit | 163 138.45 1.2392

Private non profit | 786 696.03 1.1886

Public | 107 221.52 0.5081

-------------------+--------------------------------------

Total | 1056 1056.00 1.0000

LR chi2(2) = 88.66

Pr>chi2 = 0.0000

Se observă faptul că testele seamănă extrem de mult. Valorile prezise sunt aceleași pentru

ambele teste. De exemplu: dacă șansele de supraviețuire ar fi egale pentru toți ar fi trebuit să

se închidă 221 de universități de stat, în realitate s-au închis numai 107, și așa mai departe.

Diferențele dintre teste apar numai la ultima coloană a tabelei de rezultate: la Wilcoxon, care

e test non-parametric, se calculează o transformare în ranguri a funcției de supraviețuire

pentru subiecți și se adună rangurile pentru fiecare grup în parte similar cu metoda Wilcoxon

generală despre care am discutat în capitolul 7. Metoda este deci adecvată pentru orice

distribuții, așa cum era și testul Wilcoxon în general. La testul Cox se calculează riscurile

relative care sunt de fapt mai ușor de înțeles. Dacă la egalitate de șanse trebuiau să se închidă

221,52 universități de stat și de fapt s-au închis 107, riscul relativ este de 107 împărțit la

221,52 și normalizat, adică transformat astfel încât suma tuturor riscurilor să dea 1. Deci

riscul relativ este numărul de evenimente întâlnite împărțit la numărul de evenimente prezise

și apoi transformat în probabilitate.

Una peste alta, metoda Wilcoxon se poate aplica oricând, dar dă o valoare de Chi2 mai mică,

așa încât unele situații care pot fi significant diferite conform testului Cox să nu iasă

significante la testul Wilcoxon. Metoda Cox este deci mai puternică dar nu poate fi folosită în

Page 180: Carte de Statistica

180

orice condiții. Din listarea de mai sus, fie ea a testului Wilcoxon, fie a testului Cox citim

valoarea significanței, adică valoare care e specificată cu Pr>chi2. În exemplul de mai sus ea

este foarte bună atât la unul cât și la celălalt dintre teste (valorile sunt ambele 0,0000). Deci

ratele de supraviețuire pentru universități publice, private non-profit și private profit sunt

statistic significant diferite. Ipoteza că ratele ar fi nesemnificativ diferite se poate respinge cu

o probabilitate de a greși de mai puțin de 0,0000!

Cum se schimbă riscul de deces sub impactul unei variabile numerice

Uneori nu dorim doar să comparăm două sau mai multe grupuri, cum apărea în cazul testelor

de mai sus. Un pas mai departe este să vedem cum influențează șansele de supraviețuire o

caracteristică care are caracter numeric. Continuând cu exemple din aceiași cercetare, nu doar

să comparăm universități private cu universități publice, ci să vedem cum influențează

supraviețuirea variabile cum ar fi vârsta unei universități, numărul de studenți și de cadre

didactice sau veniturile universității. Ca să dau și un exemplu medical: uneori nu ajunge să

comparăm riscurile de deces la fumători și nefumători ci dorim să analizăm modificarea

riscului în funcție de numărul de țigări fumate pe zi. Pentru astfel de calcule se folosește o

variantă a regresiei, numită regresie Cox. Regresia Cox analizează cum se schimbă o funcție

h, numită și funcție hazard (sau risc) la schimbări ale unor variabile. Formula este:

Formala în sine nu e prea importantă de reținut dar are totuși două caracteristici esențiale: în

primul rând să observăm că se bazează pe riscul relativ calculat față de o funcție h0. Aceasta

se numește și baseline hazard, sau funcție hazard de bază și teoretic se consideră cunoscută.

În realitate nu trebuie sa ne batem prea tare capul cu ea. Funcția de bază se calculează pentru

supraviețuirea indivizilor fără a lua în seama caracteristica studiată. Aceasta intervine apoi în

forma exponențială din a doua parte a formulei. Caracteristica studiată (de ex: numărul de

țigări pe zi, sau vârsta) este valoarea zi iar coeficientul ei este β. Atât z cât și β pot fi

multidimensionali, dacă vrem să analizăm impactul mai multor variabile asupra supraviețuirii.

Să vedem însă partea cea mai importantă: cum se citesc rezultatele. Mai jos am introdus un

fragment din listingul rezultat dintr-o regresie Cox pentru supraviețuirea universităților

particulare din Statele Unite în funcție de vârsta lor:

Cox regression -- Breslow method for ties

No. of subjects = 2644 Number of obs = 32879

No. of failures = 786

Page 181: Carte de Statistica

181

Time at risk = 4692312.979

LR chi2(1) = 1068.44

Log likelihood = -5467.6987 Prob > chi2 = 0.0000

------------------------------------------------------------------------------

_t | Haz. Ratio Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

age | .9438219 .0035411 -15.41 0.000 .9369069 .9507879

------------------------------------------------------------------------------

Am colorat galben fondul valorilor care ne interesează pentru interpretarea testului. Ca și în

exemplele precedente căutăm prima dată significanța modelului. Ea apare sub forma Prob >

chi2 = 0.0000, deci o valoare deosebit de bună. Adică putem respinge cu un grad foarte mare

de siguranță faptul că supraviețuirea este independentă de vârstă. Cu cât contribuie însă vârsta

la modificarea riscului? Pentru a stabili aceasta căutăm valoarea hazard ratio, care apare Haz.

Ratio și este egală cu .9438219.

Valoarea se citește astfel: valoarea baseline este întotdeuna socotită ca fiind 1. Orice rată de

hazard mai mare decât 1 înseamnă că valori mai mari ale variabilei studiate duc la un risc

crescut, o rată mai mică decât 1 înseamnă că valori mai mari ale variabilei studiate duc la un

risc mai mic. În exemplul nostru rata de hazard este 0,94, o valoare mai mică decât 1. Aceasta

înseamnă că vârsta mai mare a universității reduce riscul de închidere al ei. Este un rezultat

așteptat, de altfel, știm că orice organizație e mai fragilă până este mai nouă. Apoi se

stabilizează și găsește mai ușor resurse de supraviețuire. Este însă important și cu cât poate

contribui vârsta la reducerea riscului de închidere. Pentru aceasta calculăm diferența dintre

valoarea standard 1 și riscul calculat 0,94. Rezultă 0,06 sau altfel spus 6%. Nu pare mult, dar

nici nu este atât de important în sine cât este comparativ cu alte valori din aceiași cercetare.

Astfel putem decide care factori de risc sunt mai importanți sau putem compara efectele unor

tratamente. Desigur în situația unor cercetări medicale concrete deciziile nu se iau cu ușurință,

se folosesc eșantioane extraordinar de mari și se efectuează cercetări de mare durată cu

multiple culegeri de date. Metodele nu sunt însă altele. Ceea ce diferă este în primul rând

calitatea datelor și nu metodele de prelucrare a lor.

Page 182: Carte de Statistica

182

Capitolul 9. Clasificarea datelor

De obicei, clasificarea datelor nu este considerată ca fiind o sarcină a statisticii. Suntem

obișnuiți să grupăm obiecte în categorii pe criterii mai mult sau mai puțin explicite și

transparente, dar de regulă pentru a face aceasta nu punem la lucru metode de calcul. De altfel

însă, gruparea informațiilor sau obiectelor de orice fel în clase, tipuri, soiuri sau categorii este

poate cea mai importantă cale de a simplifica realitatea. Știința naturală tradițională a fost prin

excelență clasificatorie. Fie că era vorba despre rase de câini, de oameni sau de soiuri de

pomi, secole de-a rândul principala preocupare a științei era de a identifica clasa din care fac

parte.

Altfel spus, atunci când suntem confruntați cu complexitate, când nu știm cum să abordăm o

temă, clasificăm. Căutăm adică să grupăm informația. Vedem un obiect, îl identificăm cu o

clasă de obiecte, un om, cu o categorie socială. O facem nu numai atunci când dorim să

abordăm o problemă în mod științific, o facem tot timpul, fie că suntem conștienți sau nu, fie

că identificăm variabilele pe care le folosim ca să clasificăm, fie nu. Stăm de vorbă cu un om,

poate chiar fără a fi conștienți îi „măsurăm” anumite variabile și clasificăm: dupa accent,

vocabular, îmbrăcăminte, tunsoare, etc. Apoi cândva, pe baza observațiilor, decidem: bărbat,

român, vârstă medie, posibil inginer, bine situat, conservator sau ceva similar. Și gata, o dată

interlocutorul nostru clasificat, comportamentul nostru e mai simplu, ne putem baza pe

prejudecăți. Scade imprevizibilitatea, nu mai trebuie sa fim foarte atenți la ceea ce spunem,

costurile de acomodare comportamentală au scăzut semnificativ. Sigur, șansele de a greși sunt

considerabile, dar și efortul clasificator este de obicei mai mult sau mai puțin proporțional cu

importanța consecințelor unei greșeli. Unul este efortul pe care îl depunem studiind oamenii

cu care stăm la coadă la ieșirea de la super-market, altul efortul pentru interlocutorul de la un

interviu de job.

Diferența dintre acest tip de clasificare spontană și clasificarea științifică rezidă cel mai mult

în conștientizarea variabilelor folosite. Clasificarea științifică este conștientă, sau trebuie

măcar să fie. Argumentele clasificatorii sunt explicite și esențiale pentru a determina categoria

din care face parte un lucru. Un câine este dog german pentru că are caracteristicile rasei, o

organizație este un întreprindere economică pentru că este înscrisă la registrul comerțului, și

așa mai departe. Clasificarea este până la urmă un fel de verificare de definiție, se stabilește

un gen proxim, adică un ansamblu cuprinzător care conține toate clasele înrudite: câini,

Page 183: Carte de Statistica

183

organizații sociale, etc. și o diferență specifică, adică o caracteristică sau mai multe care

împart genul în categorii. O clasificare bine făcută trebuie să se supună unor reguli similare cu

cele ale variabilelor statistice nominale (poate cineva își mai aduce aminte). Adică: orice lucru

bine definit trebuie să poate fi incadrat într-o clasă (completitudine) și într-una singură

(disjunctivitate). De regulă condițiile acestea sunt suficient de simplu de îndeplinit, dar nu

întotdeuna și atunci intervine statistica! Să luăm un exemplu: e ușor să împarți organizațiile în

organizații formale și informale, apoi pe cele formale în întreprinderi și organizații non-profit.

În fine și întreprinderile se pot apoi subclasifica după diferite criterii simple.

Ce ne facem însă dacă criteriile pe care vrem să le urmărim nu sunt tocmai simple? Fie avem

mai multe criterii, fie variabila criteriu are foarte multe valori. Dacă vrem să clasificăm

intreprinderile după personal, de exemplu, am avea mii de categorii: intreprinderi cu un

angajat, cu doi, cu trei, și tot așa până la zeci de mii. Desigur variabila ar trebui recodată,

astfel încât să avem un grup de întreprinderi cu mai puțin de 10 angajați, un grup cu între 11 și

100 de angajați și așa mai departe. Dar unde punem punctele de separație? Cum decidem să

facem grupurile? Ei bine, aici poate interveni statistica. Tot statistica poate interveni când

dorim să folosim mai multe criterii, de exemplu: număr de angajați, cifră de afaceri și profit.

Pare de-a dreptul caraghios sa adunăm valorile celor trei variabile cu sau fără a pune

coeficienți, dar așa ceva fac de exemplu topurile de universități.

Statistica poate rezolva luarea în considerare a mai multor criterii de clasificare fără a fi

nevoie să le adune în vreun fel, folosind metode multidimensionale. Matematic acestea nu

sunt foarte simple, dar atât aplicarea lor cât și interpretarea rezultatelor este deosebit de

ușoară. În fine, al treilea și ultimul motiv pentru a folosi clasificarea statistică este acela că

permite construirea unor categorii în situații de apartenență imperfectă. Ce înseamnă asta? Să

folosim exemplul precedent. Avem întreprinderi și vrem să construim cinci categorii:

microîntreprinderi, întreprinderi mici, mijlocii, mari și foarte mari. Clasificarea se va baza pe

mai multe criterii: personal, cifră de afaceri și profit, de exemplu. Am putea împărți fiecare

scală a unei variabile în intervale. De aici până aici e intreprindere mică, de aici până aici

mijlocie, și așa mai departe. Problema este că vor fi suficient de multe intreprinderi care după

un criteriu vor fi mari, după un altul mici sau mijlocii. Clasificarea nu ar fi univocă. Statistica

permite găsirea categoriei „celei mai apropiate” sau „celei mai potrivite”. De asemenea

statistica permite o mai corectă alegere a categoriilor găsind felul cum intreprinderile se

grupează în funcție de cele trei variabile. Poate nu cele cinci clase menționate descriu cel mai

Page 184: Carte de Statistica

184

bine populația intreprinderilor, ci altele. De exemplu: intreprinderi mici neprofitabile,

intreprinderi mici profitabile, intreprinderi mari neprofitabile și intreprinderi mari profitabile.

Prima clasificare presupunea o corelație între numărul de angajați, cifra de afaceri și profit,

cea de a doua clasificare nu.

a. Clustere ierarhice

Principala metodă de clasificare a datelor statistice poartă denumirea de clustering sau analiză

cluster. Analiza cluster include mai multe tehnici care au toate ca scop gruparea unor obiecte

de studiu pe baza unor variabile. Metoda considerată o metodă de cercetare exploratorie e

folosită pe larg în special în data mining, adică acea area de cercetare care leagă informatica și

în special bazele de date cu statistica. E vorba despre cantități mare de date care trebuie

simplificate prin clasificare. Datele pot fi însă din orice domeniu, de la economie și sociologie

la medicină și biologie.

Principiul de bază al aproape oricărei metode de clustering este acela de definire al unei

distanțe pe baza variabilelor care sunt criteriile de clasificare, și apoi gruparea obiectelor

„apropiate” conform acestei distanțe. În matematică conceptul de distanță este unul bine

definit și destul de simplu. În principiu ne putem imagina că este vorba despre o distanță

geometrică. Nu e doar o metaforă. Dacă avem o singură variabilă și aceea este, în plus, și

numerică, putem reprezenta obiectele ca puncte pe o dreaptă. Mai jos avem reprezentarea

grafică a patru întreprinderi, A, B, C și D pe „axa” numărului de angajați

10 18 40 50

+-----------------+-------------+-----------------------------+------------------+------------------>

0 A B C D

Distanța care se poate defini pe această axă este atunci diferența de poziție, adică diferența de

număr de angajați: între A și B este o distanță de 8, între B și C de 22. Dacă avem două

variabile ne putem încă destul de ușor imagina o reprezentare în plan, cu două axe, apoi un

calcul geometric al distanței între punctele definite de valorile pe cele două axe, adică pentru

cele două variabile. La trei variabile folosite pentru clasificare analogia ar fi cu distanțele din

spațiul tridimensional. Matematicienii nu au nici un fel de rețineri în a gândi mai departe la

spații cu oricâte dimensiuni și a defini distanțe și pentru aceste spații. Regulile pentru o

Page 185: Carte de Statistica

185

distanță sunt destul de simple. Dacă avem trei puncte A, B și C, distanța se poate calcula între

două puncte d(A, B) și ea este un număr real pozitiv care are proprietățile:

d(A, B) = 0 dacă și numai dacă A = B.

d(A, B) = d(B, A) (simetria)

d(A, B) ≤ d(A, C) + d(C, A) (inegalitatea triunghiului)

Cele trei proprietăți sunt foarte simple și de bun simț. Prima spune ca dintr-un loc până în

același loc distanța e zero. A doua că distanța e aceiași indiferent în ce direcție parcurgem

drumul, iar a treia că distanța cea mai mică dintre două puncte e linia dreaptă. Esențial este nu

faptul că acestea sunt proprietăți ale distanței. Asta e simplu. Esențial este că nu e nevoie de

nimic în plus pentru ca o funcție să fie e o distanță, căci există multe distanțe și nu una

singură.

Revenind deci la clusterele noastre. Avem niște date referitoare la anumite obiecte. Fiecare

astfel de obiect îl modelăm cu un număr de variabile numite criterii de clasificare (număr de

angajați, cifră de afaceri, profit). Obținem niște „puncte” tridimensionale și între ele se pot

calcula distanțe. De exemplu, dacă întreprinderea A are 100 de angajați, cifră de afaceri de

1000 de milioane de lei și profit de 1 milion de lei reprezentarea ei se va putea scrie astfel:

(100, 1000, 1). Pentru întreprinderea B cu 2000 angajați, 230 milioane cifra de afaceri și 20

milioane profit iese: (2000, 230, 20). Ca o regulă generală vom putea nota pentru A valorile

(A1, A2, A3), iar pentru B (B1, B2, B3). Dacă numărul de criterii e mai mare avem pentru A

(Ai)i=1,n și pentru B (Bi)i=1,n unde n este numărul de criterii.

Metodele de clustering folosesc diferite distanțe. Voi enumera mai jos formulele pentru cele

mai obișnuite dintre acestea:

Distanța euclidiană d(A, B) = ( Σi (Ai - Bi)2 )

1/2

Pătratul distanței euclidiene d(A, B) = Σi (Ai - Bi)2

Distanța Manhattan d(A, B) = Σi | Ai - Bi |

Distanța Chebyshev d(A, B) = max | Ai - Bi |

Distanța putere d(A, B) = ( Σi (Ai - Bi)p )

1/r

Discordanța procentuală d(A, B) = (numărul de perechi Ai ≠ Bi) / i

Fiecare dintre distanțe este potrivită pentru diferite situații. Cele mai importante sunt probabil

prima și ultima. Prima, distanța euclidiană, este tocmai sensul comun al termenului distanță și

Page 186: Carte de Statistica

186

o putem folosi cu succes de câte ori avem de a face cu clasificarea pe baza unor valori

cantitative, raționale. Apoi e importantă și ultima din listă, discordanța procentuală pentru că

nu presupune nici un fel de calcule cu valorile variabilelor și ca atare se poate folosi pentru

clustering cu variabile nominale sau ordinale.

Pe lângă diferitele distanțe care pot fi folosite, există și diferite metode de clustering.

Principial toate metodele de cluster ierarhic pornesc de la situația în care fiecare obiect este un

grup, apoi reunesc obiectele în grupuri din ce în ce mai mari folosind diferite metode de

includere în grup. Voi enumera doar pe cele mai simple și obișnuite. Ideea este de a decide,

date fiind distanțele dintre obiecte, ce obiecte intră în aceiași categorie. Metodele acestea se

numesc de obicei metode de linkage, adică metode de formare a legăturilor dintre obiecte.

Soft-urile statistice ne permit alegerea metodei de linkage. SPSS oferă de exemplu 7 astfel de

metode la alegere. Două dintre acestea sunt cele mai obișnuite.

Cel mai apropiat vecin: Se grupează întotdeuna elementele aflate cel mai aproape unul

de altul.

Linkage în interiorul grupurilor: se include câte un element în grup astfel încât distanța

medie dintre elementele unui grup să fie minimă.

În toate celelalte variante gruparea se face astfel încât distanța dintre clustere să fie maximă.

Se folosesc atunci diferite metode de calcul a distanței dintre clustere.

Cel mai îndepărtat vecin: se ia distanța dintre cele mai îndepărtate puncte ale celor

două grupuri.

Linkage între grupuri: se ia distanța medie dintre un punct dintr-un grup și unul din

celălalt grup.

Clustering centroid: se ia distanța dintre mediile pe grup pentru fiecare criteriu.

Clustering median: se ia distanța dintre medianele pe grup pentru fiecare criteriu.

Aceasta variantă e utilă dacă se folosesc criterii ordinale, nenumerice.

Metoda lui Ward: se calculează mediile pe criterii în interiorul fiecărui grup. Apoi se

calculează distanțele de la fiecare element din grup până la medie cu pătratul distanței

euclidiene. Distanțele acestea se însumează pe grupuri. Se alege astfel extinderea

grupului încât suma totală să fie minimă.

Page 187: Carte de Statistica

187

După ce metoda de clustering ierarhic formează grupurile, le reprezintă grafic sub forma unui

arbore orizontal numit și dendrogramă, ca în exemplul următor.

* * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * *

Dendrogram using Average Linkage (Between Groups)

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+

H 559 -+-+

PL 865 -+ +---------------------------------------------+

BG 151 -+-+ |

R 916 -+ |

P 814 -+ |

SP 1069 -+-----------+ |

GR 508 -+ | |

BE 100 -+ | |

F 457 -+ | |

NL 763 -+ +---------+ |

BRD 202 -+ | | |

IT 661 -+-+ | | |

S 967 -+ | | | |

UK 1171 -+ | | | |

A 49 -+ +---------+ +-------------------------+

SF 1018 -+ | |

IR 610 -+ | |

CH 253 -+ | |

DK 406 -+-+ |

N 712 -+ |

US 1222 -----------------------+

În exemplu s-a calculat clustering-ul ierarhic pentru o serie de țări, folosind date din 1998.

Criteriile de clasificare au fost produsul intern brut pe cap de locuitor, un indicator al

sistemului politic și un indicator al nivelului de globalizare14

. Urmărind de la stânga la dreapta

graficul vedem ce țări se aseamănă cel mai mult. Primul nivel de asemănare leagă Ungaria de

Polonia, Bulgaria de România, Portugalia de Spania și Grecia, Elveția de Danemarca și

Norvegia și așa mai departe. Apoi la un nivel următor se grupează țările est-europene și cele

vestice, însă fără grupul Portugalia, Spania, Grecia. Acestea se grupează tot cu cele vestice

dar la un nivel de asemănare mai mic. Statele Unite sunt cele mai diferite de restul țărilor

occidentale, totuși mai asemănătoare cu acestea decât cu grupul estic. Practic graficul de mai

sus ne permite să decidem în mai bună cunoștiință de cauză asupra felului cum vrem să

clasificăm țările. Decizia trebuie să rămână desigur una susținută teoretic. Metoda de

clustering ierarhic nu construiește grupele per se, dar ne oferă o unealtă analitică chiar mai

importantă prin reprezentarea distanțelor.

14

Pentru a indica sistemul politic am folosit indicatorul Polity IV dezvoltat la Universitatea Maryland din Statele

Unite, pentru nivelul de globalizare am folosit numărul de organizații non-guvernamentale internaționale active

în respectiva țară.

Page 188: Carte de Statistica

188

b. Clustering cu centre de clustere

Metoda se mai numește și k-means clustering, sau clustering cu k-centre.

Metoda de clustering cu centre de clustere ne oferă tocmai ceea ce clustering-ul ierarhic nu

făcea: stabilește apartenența elementelor pe care le dorim clasificate la grupuri bine definite.

După ce am stabilit în câte grupe dorim să facem clasificarea, metoda calculează niște

„centre”, face împărțirea specificând pentru fiecare element de care centru aparține și

calculează și distanțele dintre elemente și centrele aferente.

Logica metodei este destul de simplă, chiar dacă destul de diferită de clustering-ul ierarhic.

Metoda de calcul este una iterativă, asemănătoare metodelor de analiză numerică. Se pornește

cu centre alese mai mult sau mai puțin aleator. Apoi se calculează pentru fiecare element

distanța până la fiecare cluster și se asignează elementul centrului cel mai apropiat. Acest pas

se tot repetă după mutări ale centrelor astfel încât distanțele din interiorul grupului să fie cât

mai mici și distanțele dintre grupuri cât mai mari. Altfel spus se caută ca grupurile să adune

elemente cât mai asemănătoare, iar grupurile să fie cât mai diferite între ele.

Metoda va fi cu atât mai bună cu cât va alege mai bine centrele inițiale și va știi să mute apoi

aceste centre astfel încât să reducă numărul de iterații. Centrele inițiale se pot fixa pe

considerente teoretice sau putem lăsa metoda să le calculeze. Una peste alta partea

matematică implicată aici e destul de complexă și depășește cadrul acestei cărți pe care o

intenționam cât mai puțin matematică.

Analiza rezultatelor va trebui desigur să înceapă printr-o analiză a semnificației teoretice a

centrelor stabilite. Are sens să impărțim astfel sau nu? Nu orice clasificare e rezonabilă.

Metoda ne găsește cele k grupuri cel mai similare în interiorul grupului și diferite între

grupuri. Asta însă nu garantează că rezultatul are semnificație teoretică. O dată stabilit faptul

că are sens clasificarea, se verifică puterea de separație a clusterelor, adică diferența de

distanțe din interiorul clusterelor și distanțele dintre clustere. Pentru clustere cu două criterii

se pot realiza grafice destul de sugestive. Iată un exemplu bazat pe aceiași statistică a țărilor,

clasificate de această dată numai pe baza produsului intern brut pe cap de locuitor, notat în

grafic GDP, și a nivelului de globalizare, notat în grafic ingo (indicatorul politic oricum dădea

valori asemănătoare pentru toate țările):

Page 189: Carte de Statistica

189

Am decis să clasific în patru grupe, am folosit pe grafic puncte diferite pentru a identifica mai

ușor clusterele și le-am și încercuit. Observăm că sunt grupate țările est-europene, notate cu

steluțe (Bulgaria, Polonia, România, Ungaria), apoi cele sud-europene – romburi (Grecia,

Portugalia și Spania). Un grup aparte e format din Statele Unite ale Americii și Norvegia

(notate cu pătrate). Restul țărilor clasificate fac parte toate din același grup. Este desigur

plăcut faptul că metoda statistică a clasificat țările conform așteptărilor noastre. Nu întotdeuna

se întâmplă ca grupurile care ni se propun să aibă și un sens teoretic. Avantajul reprezentării

grafice este acela că pe lângă grupare se observă și poziționarea elementelor care au fost

clasificate. Se vede, de exemplu, cum Irlanda deși a fost inclusă în grupul vest-european și

avea în 1998 o valoare de PIB perfect compatibilă cu celelalte țări din grup, avea un nivel de

incadrare în societatea globală mult inferior restului grupului. Se vede de asemenea cum

Spania, deși era ca valoare de PIB clar asemănătoare mai de grabă cu Portugalia sau Grecia

decât cu Germania sau Franța, ca incluziune globală prezenta valori mult superioare celorlalte

țări din grup (cel mai probabil din cauza poziției pe care o are între țările hispanice). Oricum,

Page 190: Carte de Statistica

190

există până la urmă o singură alegere oarecum neașteptată. Din cauza caracterului excepțional

al Statelor Unite s-a creat un centru de cluster pentru ele, și Norvegia s-a dovedit mai

apropiată de acest centru decât de cel al grupului vest-european. Graficul arată că această

clasificare nu este neapărat evidentă. Dacă s-ar fi folosit alt algoritm de calcul al grupurilor

poate s-ar fi ajuns la alt rezultat. Această dependență de metodă este de fapt prezentă mai

mereu, ca atare e bine să o conștientizăm. Alegerea pe care o face metoda este evident un

rezultat al metodei, și nu o clasificare „naturală” a obiectelor, care decurge adică strict din

natura lor.

Pentru trei criterii graficele sunt ceva mai greu de citit, pentru patru sau mai multe nu se pot

face oricum.

Aș încheia acest capitol spunând că metode de clustering există mai multe, am ales doar două

dintre ele. Acestea răspund printre altele unei cerințe importante, anume evaluarea și gruparea

unor obiecte pe baza unui număr mai mare de criterii, fără a trebui să decidem care criteriu

este mai important și fără să depindem de calculul unui singur punctaj sau a unei singure note.

Page 191: Carte de Statistica

191

Capitolul 10. Deserturi şi cum putem să le stricăm sau cum se

poate greşi în statistică

După ce Darrel Huff a publicat celebra şi deja pomenita lui carte “Cum să minţi cu statistici”,

multe cărţi de statistică introductivă au inclus capitole de genul “cele mai frecvente 10 erori”

sau greşeli care se fac în statistică. Nu vreau să mă sustrag de la această plăcută sarcină deşi

pînă acum am pomenit multe dintre greşelile tipice şi pe ici pe colo am dat şi exemple de cum

se fac ele, dacă cineva ar dori să se inspire. Oricum în acest capitol de final o să reiau cu noi

exemple o parte din ele, cele care mi se par cele mai frecvente şi cele mai dăunătoare.

Aşa cum observa şi Huff, argoul statistic, precum şi al altor ştiinţe, presupune nu numai un

scriitor atent şi precaut, dar şi un cititor avizat. Declaraţiile bazate pe statistici induc în eroare

cel mai adesea prin omisiuni. Iar cititorul neavizat este tocmai acela care nu sesizează ce

lipseşte în informaţia publicată.

Omisiunile fatale

Anumite ingrediente nu au voie să lipsească din meniul pe care statistica îl pune pe masa

cititorului, fie el avizat, fie nu. Pentru ca o informaţie de natură statistică să aibă sens şi

valoare de cunoaştere, o serie de informaţii colaterale sînt necesare. De exemplu, la un sondaj

trebuie să ştim populația, volumul eşantionului, metoda de eşantionare, şi aşa mai departe.

Majoritatea mass mediei, precum şi a cercetătorilor au aflat aceasta şi ne raportează cu

sinceritate şi volumul eşantionului şi marja de eroare. Ceea ce e desigur foarte bine. Mai

există şi excepţii memorabile, în care omisiunile sînt atît de multe, încît nu mai ştim de fapt de

ce ni s-a comunicat ceva. Iata ştire din ziarul Libertatea, Nr. 3392, sâmbãtã 22 septembrie

2001 pe care o reproduc în întregime (!).

“Potrivit rezultatelor unui sondaj de opinie, 53% din cetatenii rusi nu cred in existenta

unei a doua vieti. In cadrul aceluiasi sondaj, 36% dintre subiecti au declarat ca sunt

convinsi in existenta vietii dupa moarte. 11% dintre participantii la sondaj au declarat

ca nu pot raspunde la aceasta intrebare.”

Aici nu ştim volumul eşantionului, şi bineînţeles nici marja de eroare. Aici trebuie să recunosc

că Libertatea este în general consecvent în a omite asemenea informaţii. Ce e mai interesant e

Page 192: Carte de Statistica

192

felul cum par a fi formulate răspunsurile la întrebare. Dacă adunăm procentajele iese exact

100%. De unde rezultă că scala de opţiuni nu a permis “cetăţenilor ruşi” din sondaj nici un fel

de dileme. Fie “nu cred”, fie sînt “convinşi”. E încă bine că s-a acceptat că unii chiar nu pot

răspunde. Cam puţini după experienţa mea. Oricum, astfel de informaţii cu tentă statistică

chiar nu au nici o valoare de informare.

Să trecem însă la treburi mai serioare. Mai rar decît neprezentarea volumului eşantionului se

evită o altă omisiune. Cînd ni se prezintă o valoare procentuală trebuie să ştim pe cîte cazuri

s-a obţinut acel procentaj. Aceasta este obligatoriu dacă numărul de cazuri este deosebit de

mic. Nu este de regulă nici o problemă la procentaje care se calculează din ansamblul

eşantionului, pentru că volumul acestuia este cel mai adesea cunoscut. Necazul apare cînd, de

exemplu într-o tabelă de relaţionare, apar procentaje ale unor categorii subordonate. În

asemenea cazuri procentajul nu se mai referă la întreg eşantionul. E vorba de cazuri de genul

“25% dintre bărbaţii de sub 25 de ani sînt de părere că ...”. La astfel de propoziţii precizarea

volumulului e esenţială. O opinie împărtăşită de către un sfert dintr-o categorie populaţională

este desigur importantă. Ceea ce totuşi nu e cazul dacă în eşantion întreaga categorie e

reprezentată de 12 persoane, din care un sfert sînt abia 4 oameni. Ştim că matematic vorbind,

ceea ce contează sunt la urma urmei numerele mari.

Cazul de mai jos nu e chiar o “infracţiune statistică” pentru că informaţia din articol este pînă

la urmă suficientă dacă dorim să refacem noi calculele. Dar pe cititorul neavizat tot îl induce

în eroare, ceea ce putem liniştit incadra la “contravenţii”. Astfel de omisiuni apar cel mai

adesea în lucrări cu pretenţii ştiinţifice. Exemplul de mai jos provine dintr-o teză de doctorat

în pedagogie de la Universitatea de Stat din Moldova15

:

“În funcţie de gen, înregistrăm recunoaşterea unei palete mai largi de forme de

instruire la bărbaţi: (3% dintre bărbaţii chestionaţi şi-au exprimat opţiune pentru lucrul

în bibliotecă, faţă de 0% la femei; 4% dintre bărbaţi şi-au exprimat opţiunea pentru

mass-media).”

Ce a vrut autorul să ne spună de fapt? Ei bine, a vrut să compare genurile din perspectiva

modurilor de instruire recunoscute şi a conchis că bărbaţii menţionează mai multe astfel de

forme. Pentru a susţine aceasta ni se exemplifică două forme de instruire (folosesc termenul

15

Am decis să nu dau mai multe amănunte bibliografice.

Page 193: Carte de Statistica

193

autorului) menţionate într-o chestionare de către bărbaţi în mai mare măsură decît de către

femei. Prima omisiune este cea a procentajului de femei care declară mass-media ca fiind o

formă de instruire. Din tabelele din document se poate afla însă că acest procentaj este de 1%.

Problema cea mare este însă că nu se specifică volumul asociat acestor procentaje. Nici în

tabelele care apar pe lîngă fragmentul citat mai sus nu apar frecvenţe, ci numai procentaje.

Căutînd un pic prin teză găsim pînă la urmă volumul eşantionului. Aici surpiză maximă,

pentru mine, cel puţin:

“Populaţia investigată: Subiecţii studiului au fost 175 de adulţi, participanţi la diferite

seminarii (...), dintre care 116 femei şi 79 de bărbaţi”

Din cele de mai sus eşantionul nu pare a fi aleator. Mai departe: Hai să nu fiu cîrcotaş şi să nu

adun 116 cu 79. Observ însă că 3% dintre bărbaţi sînt probabil 2 persoane, iar 4% probabil 3.

persoane. 1% dintre femei este 1 persoană. Ei bine, nu numai că omisiunea este nepermisă la

numere aşa mici, dar concluzia din studiu este absolut hazardată.

O altă omisiune foarte des întîlnită se referă la formularea întrebării. De multe ori un concept

complex şi chiar ambiguu este prezentat ca fiind rezultat direct dintr-un sondaj de opinie. Iată

un exemplu tipic din Evenimentul Zilei Nr. 4892, 31 Mai 2007. Prezentînd un sondaj de

opinie cu informaţiile de rigoare (“Sondajul a fost efectuat pe un esantion de 1.244 de

persoane si are o marja de eroare de 2,8%”) se face în text remarca:

“Sondajul IMAS constată modificari substantiale si la capitolul increderii in

personalitatile politice: Traian Basescu, 60%, inregistrand un plus de 11 procente:

Theodor Stolojan (32%), Gigi Becali (30%), Calin Popescu-Tariceanu (19%), Mircea

Geoana (16%).”

Nu ni se spune desigur ce este acea “încredere” şi, ceea ce e şi mai grav, nu ni se spune ce

reprezintă procentajele raportate. Putem doar bănui răspunsul la prima întrebare, dar la a doua

întrebare nu avem nici un indiciu. Întrebarea pe care o pun de obicei sondajele de opinie la

acest subiect este ceva de genul “Cîtă încredere aveţi în următoarele personalităţi politice?”.

Răspunsurile posibile sînt de obicei “Foarte multă”, “Multă”, “Puţină”, “Foarte puţină”

eventual cu o opţiune la mijlocul scalei. Prima omisiune este absenţa specificării răspunsurilor

care au fost incluse în procentajul de încredere. E oare vorba despre suma categoriilor “foarte

Page 194: Carte de Statistica

194

multă” şi “multă” încredere? Probabil. Dar exista oare o categorie medie sau nu? Şi dacă da,

cum a fost formulată? Şi unde intră ea, la încredere sau la absenţa încrederii? Apoi, problema

esenţială: cum au interpretat intervievaţii conceptul de încredere? Încercaţi să răspundeţi la

întrebare. Cîtă încredere aveţi într-un anume politician? La ce vă gîndiţi cînd trebuie să

răspundeţi? Vă gîndiţi la încrederea că va face se spune, sau la încrederea că va spune ce

crede, sau la încrederea că ceea ce spune vă va conveni. Poate că e vorba despre o senzaţie

mai generală de simpatie sau de familiaritate mai de grabă decît de predictibilitate. Faptul că

conceptul de încredere este un concept destul de larg face ca răspunsul să fie dependent de

contextul în care se pune întrebarea. Contextul poate face ca încrederea să fie interpretată într-

un anumit fel. Dacă înainte de întrebarea de încredere se discută despre acţiuni politice sau

anumite declaraţii politice aceasta poate induce o anumită înţelegere şi poate duce la o

evaluare de un anumit fel. Bineînţeles un articol de ziar nu poate şi nu trebuie să dea întregul

chestionar, dar astfel de consideraţii fac discutabilă comparabilitatea rezultatelor la “cote de

încredere”. Aşa că aserţiunea din articol, cum că Traian Băsesc înregistrează “un plus de 11

procente” nu prea înseamnă mare lucru.

Omisiunile pe care le-am menţionat, volumul eşantionului, volumul unei categorii, formularea

întrebărilor şi a răspunsurilor, nu au de obicei intenţia de a induce în eroare. Totuşi în unele

cazuri ele o fac pentru că încurajează implicit o citire mai generală a rezultatelor decît ar fi

permis. Ele pot implica, în special pentru cititorul neavizat, generalizări sau comparaţii care

sînt nesusţinute. O altă problemă care este conexă omisiunii formulării întrebării este

confunzia legată de variabila măsurată. Aşa cum am văzut din întrebarea despre încredere nu

este întotdeuna evident ce se măsoară. O eroare gravă este confuzia de variabilă.

Ce măsurăm de fapt?

De multe ori cercetările ştiinţifice, şi în special cele din domeniul social şi economic

conceptualizează la un nivel teoretic abstract. Apoi statisticianul este pus în situaţia de a

operaţionaliza teoria, adică de a găsi ceva suficient de măsurabil şi suficient de apropiat de

formularea teoretică astfel încît ipotezele de cercetare să poată fi testate. Atunci cînd un

concept teoretic este prea vag pentru a putea fi măsurat direct, statisticianul trebuie să

găsească o variabilă care să ţină locul acestui concept în cercetarea empirică. Metoda se

numeşte de regulă analiză cu variabile proxy după cuvîntul englezesc pentru înlocuitor. Cît de

bine se pretează o variabilă proxy pentru a ţine locul unui concept nemăsurabil este de obicei

Page 195: Carte de Statistica

195

nedecidabil. Totuşi o doză de bun simţ ştiinţific există în modul cum se pot face astfel de

definiţii. O altă cale de abordare a aceleiaşi probleme este utilizarea analizei de cale (sau,

iarăşi englezeşte, analiză path). În acest caz variabila nemăsurabilă este inclusă într-o cale

logică deductivă, şi înlocuită în cercetare printr-o variabilă care îi este precursor logic.

Desigur determinarea logică a variabilei care este oricum nemăsurabilă printr-o altă variabilă

nu poate fi completă şi oricum nu poate fi determinată prea clar. Sigur înlocuiri de acest tip se

pot face, dar nu trebuie nici o clipă uitat că înlocuirea e valabilă foarte limitat şi doar la

nivelul conceptual al respingerii de ipoteze, al contraexemplului deci. După introducerea

aceasta puţintel cam filosofică, ce e de spus, de fapt? O mare grijă trebuie avută de cîte ori în

cercetare sau în prezentarea unor rezultate apar concepte ce par a fi greu de măsurat. Textul

nostru trebuie să spună exact ce am măsurat de fapt şi de ce. Hai să dau un exemplu autocritic.

Într-o serie de cercetări am avut nevoie să măsor ceva ce teoria numea “gradul de globalizare”

sau de “includere în societatea globală” a unei ţări într-un moment anume. Am mai dat

exemple din aceste cercetări aşa că unii poate îşi amintesc că am folosit numărul de

organizaţii non-guvernamentale active în ţara respectivă pentru a măsură globalizarea. Este

evident o variabilă proxy. Cît e de bună? Nu pot spune decît că am decis după o cumpănire

destul de serioasă a alternativelor pe care le propune literatura din domeniu. Ce pot spune în

apărarea mea? Faptul că am prezentat în articolele ştiinţifice rezultate din aceste cercetări, ce

este de fapt variabila şi nu am pretins că ar fi mai mult decît un indicator posibil al gradului de

globalizare.

Erorile cele mai frecvente legate de obiectul unei măsurători se fac în studii de marketing în

care adesea consumul este identificat cu estimarea consumului, cheltuieli cu estimarea

cheltuielilor. Întrebări de genul “cît cheltuiţi lunar pe preparate din peşte?” pot cu greu fi

interpretate ca reprezentînd un indicator cît de cît fidel al consumului. Ţin minte primul

sondaj pe care le-am condus în România. Printre altele am întrebat atunci locuitori ai

Timişorii cu ce partid au votat la alegerile precedente, de la care trecuse mai bine de un an.

Am regăsit un rezultat care e descris şi în literatura de statistică politică. Anume că oamenii

uită ce au ales şi sînt mulţi care identifică partidul cîştigător al alegerilor cu opţiunea lor, deşi

în realitate au votat la vremea respectivă cu un alt partid. Sondajul meu avea rezultate bune de

test, adică eşantionarea avea caracteristicile unei eşantionări aleatoare. Totuşi proporţiile

voturilor pe partide nu corespundeau de fel rezultatelor reale de la alegerile precedente.

Variabila culeasă de mine nu era deci “opţiunea politică de la precedentele alegeri”, ceea ce

de fapt îmi doream să măsor, ci “impresia de la momentul chestionării asupra opiniei politice

Page 196: Carte de Statistica

196

de la precedentele alegeri”. Diferenţa e mare, pentru că ne împiedică să avem un indicator al

schimbărilor de opţiune.

Raportarea selectivă a rezultatelor

O altă eroare tipică pentru mass media, dar şi pentru politicieni şi universitari sau cercetători

care se transformă în politicieni prin partizanat, este raportarea selectivă a rezultatelor.

Desigur un context restrictiv cum ar fi cel al unui articol de ziar sau al unei declaraţii de presă

nu poate acomoda toate rezultatele unei cercetări, cu toate acestea uneori nu avem cum să nu

suspectăm intenţie în asemenea situaţii.

Pe la începutul anilor 1990 am auzit de la un cunoscut sociolog român, nu spui cine, persoană

importantă, o declaraţie televizată care m-a minunat puţintel. Încerc să o reproduc cît de exact

pot: “în Statele Unite, în anii 50 sectorul universitar privat includea jumătate dintre instituţii,

dar s-a ajuns ca în 1990 numai 20% dintre studenţi să studieze la universităţi private”.

Negreşit ambele valori sînt corecte, ceea ce se omite este că şi în 1990 ponderea

universităţilor private era tot de vreo 50% din ansamblul universităţilor americane. Declaraţia

pune faţă în faţă două valori care nu sînt direct comparabile, o pondere de instituţii din 1950 şi

o pondere a studenţilor din 1990 creind astfel senzaţia unui trend. Adevărul este că un astfel

de trend există şi ponderea studenţilor din sistemul privat a scăzut cu adevărat, deoarece

sistemul universitar american public a expandat mult mai mult decît cel privat. Cu toate

acestea, felul cum a fost făcută declaraţia a fost evident manipulator. Şi aceasta şi prin faptul

că a prezumat o scădere a sistemului privat ceea ce nu a avut de fapt loc. Ceea ce s-a întîmplat

a fost o creştere mai accentuată a sistemului public.

Prezentarea numai a acelor rezultate care convin din punctul de vedere al cercetării, fie ea

ştiinţifică sau mai puţin, este o boală care nu prea are leac. În multe cercetări de natură

politică se pun, pe lîngă întrebările “pe bune” şi anumite întrebări special pentru a obţine

rezultate publicabile sau care să susţină decizii gata luate.

Se poate raporta selectiv şi altfel, poate ceva mai puţin manipulativ, dar totuşi. Iată un

fragment din ziarul Cotidianul, din 3 August 2007:

Page 197: Carte de Statistica

197

“(...) 44% dintre romani considera ca premierul Tăriceanu nu trebuia să demisioneze

ca urmare a rezultatului referendumul pentru demiterea preşedintelui Băsescu.”

Nu ni se spune ce consideră ceilalţi 56% dintre români. Că premierul trebuia să demisioneze?

Probabil că nu, sigur există şi foarte mulţi care nu au o opinie pe această temă. Şi totuşi cîţi

cred că trebuia să demisioneze? Felul cum e formulată propoziţia ne face să presupunem că

procentul celor care consideră că premierul trebuia să demisioneze a fost mai mic decît 44%.

Şi totuşi contează cu cît a fost mai mic. A fost 10% sau 40%? Sau poate nici nu a fost mai

mic? Matematic este cît se poate de posibil.

Uneori prezentarea selectivă a rezultatelor nu pare a avea nici un scop. Un text a fost scurtat şi

a ieşit ce a ieşit. Iată un exemplu din Evenimentul Zilei, Nr. 4892, din 6 Iulie 2006. Restul

articolului îl face să fie şi mai criptic.

“36% dintre români şi-ar dori sa lucreze acasă, în timp ce doar 11% preferă să meargă

la birou, deşi au posibilitatea de a lucra din incinta propriului cămin, potrivit unui

sondaj realizat de portalul de recrutare on-line bestjobs.neogen.ro.”

Senzaţional, dar ce au spus de fapt? Cine sînt aştia, ce vor ei, şi ce au fost întrebaţi, şi ce au

răspuns, şi cîţi şi de ce scrie la ziar? Asta ca să nu spun că nu e clar dacă cei 36% şi cei 11%

provin din aceiaşi întrebare sau nu, şi ce părere au restul de nici nu ştiu şi nici nu pot şti cîţi.

Eşantioane nealeatoare şi biasate

O altă eroare frecventă este “înnobilarea” unei chestionări oarecare cu titlul de sondaj de

opinie. Am discutat deja că regulile unei eşantionări au ca scop posibilitatea de generalizare

de la eşantion la ansamblul populaţiei. Deci, ca să putem spune, ca într-unul din exemplele de

mai sus “românii consideră” trebuie ca populaţia studiului să fie “românii” şi eşantionarea să

fie aleatoare sau o aproximare cît mai bună posibil a unei eşantionări aleatoare. Regula de

bază pe care nu obosesc să o repet şi studenţilor mei e simplă: fiecare individ din populaţia de

bază trebuie să aibă aceiaşi şansă să fie parte din eşantion. Sigur acesta e un ideal nici o dată

atins. Există nomazi, şi există oameni bolnavi şi încarceraţi şi alte diverse categorii care nu

prea au aceleaşi şanse să fie parte din eşantion ca şi restul populaţiei. Aceasta însă nu trebuie

Page 198: Carte de Statistica

198

să ducă a renunţarea la principiu ci la redefinirea populaţiei. Adică nu toţi “românii

consideră”, ci numai românii cu domiciliul stabil, etc.

Un caz interesant este cel în care eşantionul este în principiu aleator dar totuşi din cauza unei

greşeli de proiectare a cercetării sau a unei particularităţi pe care cercetătorul nu a luat-o în

seamă eşantionul diferă printr-o anumită caracteristică faţă de populaţia dorită a fi studiată.

Asemenea eşantioane se numesc biasate. Cuvîntul “bias” înseamnă în engleză ceva gen

prejudecată, dar sensul lui statistic este de defazare, eroare sistematică. Dacă se foloseşte

cuvîntul în sensul de prejudecată, s-ar zice că o opinie este biasată dacă ea este necondiţionat

negativă sau pozitivă. În statistică un eşantion este biasat dacă valorile unei variabile sînt

defazate către o valoare sau o parte a scalei de răspunsuri. Dacă, de exemplu, pentru un studiu

de piaţă legat de consumul de detergenţi se fac interogări la domiciliu înainte de masă,

eşantionul va prinde o pondere anormal de mare de studenţi, gospodine şi pensionari.

Eşantionul va fi defazat către anumite categorii ocupaţionale. Vor fi subreprezentate tocmai

persoanele angajate în muncă, eşantionul altfel produs va putea fi de fapt aleator. Totuşi nu va

fi reprezentativ pentru ca va fi biasat. Am mai dat pe parcursul cărţii şi exemplul chestionării

duminică înainte de masă. Acolo biasarea e şi mai clară pentru că cei ce nu vor fi interogaţi

sînt cei ce merg la biserică adică persoane care evident au o caracteristică particulară care le

poate influenţa opinia pe multe teme. În acest caz eşantionul chiar va avea un fel de

prejudecată, adică va elimina din start anumite opinii.

Institutele serioase de sondare a opiniei publice nu fac greşeli de acest tip. Eşantionări

nealeatoare sau biasate se regăsesc însă la aşa-zise sondaje efectuate de organe de presă sau

site-uri de internet, dar adesea şi în cercetări ştiinţifice din domenii în care o eşantionare este

greu de întreprins. Să mai las puţin în pace presa, hai să mai dau un exemplu dintr-o teză de

doctorat în psihologie, tot de la Universitatea de Stat din Moldova.

“... trebuie să menţionăm că 75% dintre copiii cercetaţi proveneau din mediul rural,

faţă de 25% - care erau din mediul urban. Acest procentaj este cu atît mai semnificativ

cu cît este peste nivelul mediu de urbanizare pe ţară a populaţiei Republicii Moldova:

în mediul rural – circa 60%, iar în mediul urban – circa 40%. Aşa că repartizarea (...)

denotă o tendinţă de răspîndire a (...), mai cu seamă la populaţia din mediul rural”

Page 199: Carte de Statistica

199

Evident procentajele pe eşantion nu sînt peste, ci sub nivelul mediu de urbanizare din

Republica Moldova, dar aceasta e probabil o scăpare neesenţială, o eroare de exprimare. În

text se generalizează apoi de la distribuţia pe eşantion la răspîndirea caractisticii investigate în

ansamblul populaţional. Ceea ce se poate desigur face dacă este reprezentativ. De fapt este

însă vorba despre 30 (treizeci!) de interviuri. Acum că aceşti 30 erau dintribuiţi între mediile

rural şi urban 75% - 25% faţă de ansamblul populaţiei care se distribuie 60% - 40% este

departe de a permite orice fel de concluzii. La urma urmei 25% din eşantion sînt 7-8 persoane,

iar dacă ar fi fost 40% ar fi fost 12 persoane. În plus, eşantionul nefiind oricum reprezentativ,

generalizarea la nivel populaţional nu e acceptabilă.

Tipice pentru astfel de situaţii sînt cercetări din medicină, ştiinţe ale educaţiei sau psihologie.

Şi aceasta deorece multe dintre aceste cercetări se ocupă de populaţii rare, populaţii la care o

eşantionare aleatoare este fie imposibilă, fie foarte problematică. Bine atunci ce trebuie să

facă sărmanii oameni? Ei bine, trebuie să nu pretindă că rezultatele lor sînt generalizabile

statistic la nivel populaţional.

Corelaţii şi regresii prost interpretate

Interpretarea corelaţiilor şi a regresiilor este problematică în special atunci cînd se caută relaţii

cauzale. Cum am mai spus calculele statistice pot respinge anumite cauzalităţi nu pot însă

propune cauzalităţi. Aceasta stă numai în puterea unor teorii. Totuşi cînd sîntem puşi în faţa

faptului că există o relaţie între două variabile, sau că se poate respinge independenţa a două

variabile, sîntem şi tentaţi şi nevoiţi să propunem explicaţii pentru acest fapt. Deci, nu numai

teoria naşte testare statistică ci şi invers. Cercetarea statistică produce ipoteze teoretice prin

interpretările rezultatelor. Deci trebuie să avem grijă cum interpretăm ceea ce găsim pentru ca

paşii pe care îi intreprindem în continuarea cercetărilor noastre să nu o ia pe cîmp prea departe

de potecă.

Din păcate aici reguli nu prea există. Interpretările proaste nu sînt neapărat interpretări greşite.

Prostiile rezultă cel mai adesea nu din citirea greşită a rezultatelor de test ci din incultură sau

nerăbdare ştiinţifică. Nu este vorba despre neglijarea significanţei şi a valorii de test. Astfel de

situaţii nu necesită prea multe comentarii. Se întîmplă însă ca citirea unei relaţii ca şi

cauzalitate directă să fie suficient de absurdă ca cercetătorul să abandoneze o cale care ar

putea fi fertilă. Am menţionat pe undeva ipoteza “berzele aduc bebeluşii”. Tot aşa

Page 200: Carte de Statistica

200

interpretarea corelaţiei şi regresiei ca şi cauzalitate directă poate duce la abandonarea căutării

unor relaţii cauzale mai complexe dar posibil interesante de studiat, care ar putea fi ipoteze

pentru cercetări viitoare.

Uite o situaţie similară cu povestea berzelor şi a natalităţii. Este cunoscută şi testată de mai

multe ori relaţia dintre înălţime fizică şi venit individual. Persoanele înalte au venituri mai

mari. Relaţia, care a fost observată prima oară în Statele Unite (), s-a dovedit valabilă aproape

în orice populaţie. Dacă privim corelaţia ca pe o cauzalitate directă ea nu prea are sens. La

urma urmei condiţiile salariale sînt negociabile liber pentru destul de puţine locuri de muncă

şi nu cred că la asemenea negocieri înălţimea fizică are vreo importanţă. Mai mult, uneori

salariile se negociază telefonic. Totuşi corelaţia există. Prima ipoteză de cercetare este

includerea în lanţul cauzal al variabilei gen. Genul are efect asupra înălţimii şi asupra

venitului mediu. Bărbaţii sînt în medie mai înalţi şi au în medie venituri mai mari. Aceste

două determinări sînt bine cunoscute. Dintre ele cel puţin cea de a doua a fost mult cercetată.

Determinările au ca efect o corelaţie între înălţime şi venit. Explicaţia aceasta e deja

acceptabilă. Deci, în primul rînd, corelaţia dintre înălţime fizică şi venit nu trebuie respinsă ca

fiind o “falsă corelaţie” (în engleză le zice spurious correlations), pentru că există o explicaţie

bună. Explicaţia aceasta este însă insuficientă. Dacă refacem calculele pe genuri obţinem

următoarea surpiză. La femei corelaţia nu există, femeile mai înalte nu au venituri mai mari

decît cele mai puţin înalte. La bărbaţi însă corelaţia rămîne. Cu cît e un bărbat mai înalt, are

un venit mai mare, statistic vorbind. Deci, trebuie săpat în continuare. O explicaţie care

funcţionează este faptul că bărbaţii înalţi au o şansă mai mare să deţină funcţii de conducere şi

să beneficieze ca atare de sporuri la venit din acest motiv. Înălţimea e receptată ca prestanţă,

sau chiar e prestanţă (poate v-aţi prins, eu sînt mai de grabă mic!) şi duce la obţinerea mai

uşoară a unor poziţii de decizie. Această caracteristică se regăseşte la toate palierele de

pregătire şi este chiar mai importantă la nivele de pregătire mai reduse. Controlînd, pe lîngă

gen, şi influenţa poziţiei decizionale asupra corelaţiei, aceasta se reduce şi mai mult şi devine

foarte slabă. Asta a fost deci. Se pare, cel puţin. E de observat că cele două variabile pe care

le-am introdus în schemă au poziţii cauzale diferite. Genul se repercutează asupra înălţimii şi,

printr-un lanţ cauzal mai complex şi controversat, determină şi venitul. Poziţia decizională

este însă interpusă între înălţime şi venit. Poziţia decizională determină direct venitul şi este

determinată, iarăşi probabil printr-un lanţ cauzal mai complex şi printre multe alte

caracteristici, de către înălţime.

Page 201: Carte de Statistica

201

Am dat un exemplu de corelaţie care putea fi respinsă uşor ca fiind o prostiem deși nu era. Hai

să dau şi un exemplu în care interpretarea unei corelaţii a fost într-adevăr o prostie. Într-un

articol dintr-o revistă de altfel bună, un cercetător american (Kuh, 1999) construieşte

următoarea corelaţie: există o relaţie puternică negativă între beneficiile auto-declarate

obţinute din învăţămîntul superior şi ponderea disciplinelor ocupaţionale în sistemul de

învăţămînt superior. El extrage această concluzie dintr-o corelaţie efectuată pe serii de timp

între 1960 şi 1990. Adică, pe măsură ce ponderea disciplinelor care pregătesc studenţi pentru

meserii bine definite a crescut, a scăzut beneficiul auto-declarat obţinut de pe urma studiilor

universitare. Şi corelaţia aşa este. De aici autorul ajunge la concluzia că studiile cu caracter

ocupaţional aduc de fapt mai puţine beneficii absolvenţilor. E vorba aici de discipline precum

medicina, ingineria, arhitectura, etc. care sînt strict legate de meserii, faţă de discipline

precum filosofia, fizica sau matematica care sînt legate de domenii ale cunoaşterii, de ştiinţe.

Problema este că autorului îi scapă o variabilă esenţială, volumul total al absolvenţilor, adică

gradul de cuprindere al învăţămîntului superior. Acesta a crescut foarte mult în Statele Unite

în anii studiaţi, deci între 1960 şi 1990. Crescînd numărul de absolvenţi de învăţămînt

superior are loc un soi de “inflaţie” de diplome. Poziţiile sociale înalte nu devin neapărat mai

multe, dar absolvenţii de învăţămînt superior se înmulţesc foarte tare. Astfel o diplomă

universitară nu mai garantează o poziţie socială şi economică aşa bună cum garanta în anii

1960. Deci expansiunea învăţămîntului superior e principala cauză pentru reducerea

beneficiilor obţinute de pe urma studiilor. Pe de altă parte creşterea ponderii disciplinelor cu

caracter ocupaţional este, măcar parţial, influenţată tot de expansiune. Aici mecanismele sînt

mai complexe şi includ schimbarea rolului învăţămîntului superior de la cel de legitimare a

unei elite sociale la cel de pregătire profesională, precum şi intrarea în învăţămîntul superior a

din ce în ce mai mulţi studenţi proveniţi din medii sociale mai joase şi cu interese mai de

grabă profesionale decît academice. În concluzie, interpretarea cum că disciplinele

ocupaţionale dau beneficii mai mici e o prostie. Corelaţie e determinată de efectele pe care le-

a avut expansiunea învăţămîntului superior asupra celor două variabile şi nu de o relaţie dintre

ele. Ar fi trebuit studiată măcar o corelaţie parţială controlînd efectul volumului total de

studenţi sau de absolvenţi, fiind însă vorba despre serii de timp metodele de cercetare ar fi

trebuit să includă şi alte calcule pe care nici nu le mai pomenesc aici.

Page 202: Carte de Statistica

202

În loc de încheiere

“- Statistica ne spune că astfel de crime sînt comise de către rude.

- Dar vă jur, nu am fost eu!

- Statistica nu minte. Criminalii însă da.“ (The District, serial TV, 2000)

Dialogul de mai sus este desigur memorabil de inept. Şi tot ce sper de la această carte este să

vă fi făcut să înţelegeţi de ce. Poliţistul din fragmentul de dialog, a cărui încredere în statistică

ne bucură desigur, nu pare să priceapă felul cum funcţionează statistica. Pe parcursul acestei

cărţi am încercat să arăt că statistică poate să nu mintă şi în acelaşi timp să nu spună adevărul,

sau în orice caz să nu spună un adevăr care să fie valabil în justiţie. Adevărul statisticii nu este

unul simplu, nu este univoc şi exact. Dar cu toate acestea este un adevăr dacă ştim cum să-l

citim. Am încercat în paginile de pînă acum să descriu cît mai bine am putut cum “gîndeşte”

metoda statistică şi cum trebuie noi să interpretăm rezultatele ei.

Bine, bine, dar dacă adevărul statistic nu e un adevăr simplu, univoc şi exact şi în plus pentru

a îl înţelege trebuie să ne şi batem capul sau, doamne fereşte, să şi calculăm cîte ceva, atunci

de ce mai folosim statistica? Ei bine, pentru că statistică este o metodă de cunoaştere care îşi

asumă imperfecţiunea ei şi de obicei chiar ne permite să determinăm această imperfecţiune, să

o delimităm. Cu ajutorul statisticii nu putem spune exact care e adevărul. Putem să ne

apropiem de el şi, ce e cel mai important, putem spune ceva de genul, “nu e ăsta adevărul dar

există o probabilitate destul de mare astfel ca adevărul să fie pe undeva pe aproape”. Sună

foarte slab? Poate, dar e mai mult decît ne pot oferi multe alte metode de cunoaştere.

Statistica nu ne oferă certitudini, dar ne oferă garanţii suficiente pentru a lua decizii.

Certitudinile sînt oricum supraevaluate. Puţinele propoziţii din ştiinţă despre care putem

spune cu certitudine că sînt adevărate sunt truisme. Ele nu ne interesează în cercetarea

ştiinţifică reală16

. Statistica ne poate spune despre o propoziţie, care nu este o certitudine, cam

care ar fi şansele să greşim dacă o declarăm falsă. Şi astfel statistica ne poate ajuta să decidem

atît în ştiinţă cît şi în alte domenii ale activităţii umane, în economie, în politică, şi aşa mai

departe.

16

Matematica s-ar putea să fie o excepţie, dar încă nu sînt sigur.

Page 203: Carte de Statistica

203

Anexe. Tabele pentru testele t, Z şi Chi2 (de adăugat pentru publicare)