53
Capitolul 7 Testele în analiza statistică aplicată Analiza statistică presupune aplicarea unor metode de calcul datelor sau şirurilor de date statistice în vederea: testării anumitor calităţi, caracteristici ale acestora stabilirii existenţei unei relaţii între acestea determinarea tipului de relaţii dintre acestea determinarea semnificaţiei relaţiei dintre date Aminteam la sfârşitul capitolului precedent faptul că în statisică există două categorii de teste: parametrice şi neparametrice. Testele parametrice sunt teste care se utilizează mai ales în ştiinţele exacte , aplicându-se în general dalor intervale cu frecvenşe absolute. Datele cărora li se aplică trebuie să aibă o distribuţie normală. Sunt cunoscute ca fiind teste foarte riguroase, cu “greutate” ştiinţifică. Datorită acurateţii privind calitatea datelor aceste teste se utilizează mai rar în ştiinţele sociale şi deci şi în turism sau geografia umană. Testele neparametrice. Acestea se aplică tuturor categoriilor de caracteristici (nominale, ordinale sau intervale). Distribuţia normală a datelor nu este o condiţie pentru a putea fi utilizate în testele non parametrice. Aceste teste sunt mai puţin pretenţioase în ceea ce pviveşte calitatea datelor ca cele parametrice dar sunt mult mai ‚robuste’ şi flexibile.

Analiza Statistica

Embed Size (px)

Citation preview

Page 1: Analiza Statistica

Capitolul 7

Testele în analiza statistică aplicată

Analiza statistică presupune aplicarea unor metode de calcul datelor sau şirurilor de date

statistice în vederea:

testării anumitor calităţi, caracteristici ale acestora

stabilirii existenţei unei relaţii între acestea

determinarea tipului de relaţii dintre acestea

determinarea semnificaţiei relaţiei dintre date

Aminteam la sfârşitul capitolului precedent faptul că în statisică există două categorii de

teste: parametrice şi neparametrice. Testele parametrice sunt teste care se utilizează mai ales

în ştiinţele exacte , aplicându-se în general dalor intervale cu frecvenşe absolute. Datele cărora

li se aplică trebuie să aibă o distribuţie normală. Sunt cunoscute ca fiind teste foarte riguroase,

cu “greutate” ştiinţifică. Datorită acurateţii privind calitatea datelor aceste teste se utilizează

mai rar în ştiinţele sociale şi deci şi în turism sau geografia umană.

Testele neparametrice. Acestea se aplică tuturor categoriilor de caracteristici (nominale,

ordinale sau intervale). Distribuţia normală a datelor nu este o condiţie pentru a putea fi

utilizate în testele non parametrice. Aceste teste sunt mai puţin pretenţioase în ceea ce

pviveşte calitatea datelor ca cele parametrice dar sunt mult mai ‚robuste’ şi flexibile.

În turism aproape toate metodele aplicate sunt neparametrice.

Cu alte cuvinte în acest curs de statistică aplicată se vor utiliza numai metode şi tehnici

neparametrice

7.1. Corelaţia

7.1.1. Introducere

Definiţii.

“Corelaţia... reprezintă un test utilizat pentru exprimarea gradului de asociere sau a

intensităţii unei relaţii existente între două valori sau mai multe variabile”(Goodall 1987)

“Corelaţia ... este o metodă... de descriere a gradului de asociere dintre 2 seturi de valori

pereche” (Hammond and McCullagh 1982)

Corelaţia este o metodă eficientă de a detecta şi însuma relaţiile dintre două variabile.

Aspectul cel mai important privind corelaţia este acela privind „citirea” lor, adică

interpretarea rezultatului obţinut. Acest rezultat, de fapt , măsoară legătura dintre variabile;

stabileşte gradul de legătură dintre ele. Această măsurătoare sau grad se numeşte , coeficient.

Page 2: Analiza Statistica

Există un număr mare de coefcienţi de corelaţie în statistică, în funcţie de natura

variabilelor , a legăturii, a modului de colectare a datelor etc. Toţi coeficienţii de corelaţie în

final detectează dacă valorile unor variabile co-variază (variază împreună). Adică indică dacă

diferenţele apărute la nivelul valorilorilor unei variabile tind să se asocieze cu diferenţele

apărute la nivelul alteia. Odată stabilită corelaţia, această NU presupune automat, faptul că o

variabilă este determinată sau cauzată de cealaltă. Corelaţia stabileşte prezenţa de relaţii

cauzale, dar nu este suficintă pentru a demonstra cauzalitatea unei relaţiI. Cu alte cuvinte

corelaţia poate indica prezenţa unei relaţii de cauzalitate dar nu o demonstrează.

În afară de faptul că prin corelaţie se stabileşte co-variaţia, coeficienţii de corelaţie pot

furniza trei tipuri de informaţie asupra relaţiei descoperite:

1. intensitatea relaţiei, indicată de valoarea coeficentului de corelaţie; cu cât acesta

este mai mare cu atât relaţia este mai puternică

2. direcţia relaţiei (mai ales pentru datele ordinale şi intervale), pozitivă sau

negativă

3. linearitatea, tendinţa de distribuţia a datelor variabile, liară sau non-lineară

Mai concret: în statistică corelaţia are un înţeles, semnificaţie, specific/ă. Presupune

automat faptul că , spre exemplu ,”în timp ce o variabilă creşte sau descreşte ca valoare a doua

variabilă creşte sau descreşte şi ea”. Pentru exemplificare priviţi figura de mai jos. ( Fig. 7.1.)

Ea reprezintă un exemplu de distribuţie a două variabile A şi B. Vizual, se poate detecta vreo

relaţie, corelaţie între ele? Adică putem spune că se întâmplă ceva cu A în timp ce cu B se

întâmplă ceva sau altceva? Există o relaţie de covariaţie?

Fig. 7.1.

Page 3: Analiza Statistica

Răspuns corect: nu !

Dar în figura de mai jos?

Fig. 7.2.

Răspuns corect: da! Mai mult observăm că atunci când una creşte, cealaltă creşte şi ea. În

limbaj statistic avem de a face cu o corelaţie pozitivă între cele 2 variabile.

Page 4: Analiza Statistica

Repetăm jocul observaţei şi cu figura de mai jos! (Figura 7.3.) Există vreo relaţie,

corelaţie între variabilele de mai jos?

Fig. 7.3.

Răspuns corect: da! Mai mult observăm că atunci când una scade, cealaltă scade şi ea. În

limbaj statistic avem de a face cu o corelaţie negativă între cele 2 variabile.

Până în acest stadiu am putut determina doar vizual existenţa sau inexistenţa unei co-

variaţii şi direcţia. Fireşte pentru a determina aspecte privind intensitatea relaţiei şi

linearitatea ei este nevoie de mult mai mult decât o observaţie vizuală. Este nevoie de

obţinerea prin calcul a coeficientului de corelaţie.

Corelaţia ca şi metodă de calcul statistic va avea întotdeauna ca rezultat o valoare

numerică cuprinsă între -1 şi +1

Acesta poartă denumirea de coeficient de corelaţie şi se notează cu r şi va avea precum

aminteam mai sus valori ce se pot înscrie/reprezenta pe axa de mai jos

-1____________ 0 ___________+1

Ca urmare în funcţie de valorile înregistrate de r, în teoria modelelor de corelare apar

situaţiile ideale şi anume: corelaţia perfect negativă şi cea perfect pozitivă, cu distribuţie

perfect lineară ; adică valorile ambelor variabile se distribuie perfect linear ascendent sau

descendent (cu inclusiv situaţia exccepţională când cele două variabile se suprapun ca

valoare). Priviţi figurile 7.4a, 7.4b.

Page 5: Analiza Statistica

Fig. 7.4a : Corelaţia perfect negativă (r = -1)

Fig .7.4b: Corelaţie perfect pozitivă (r = +1)

Ele reprezintă modelele ideale, perfecte de corelare. Acestea sunt evident situaţiile de

exccepţie, în realitate, relaţia dintre variabile înregistrând intensităţi, direcţii şi linearităţi

diferite comportându-se ca atare!

Aşa cum aminteam anterior, există un număr foarte mare de metode statistice de corelare !

Cele mai cunoscute şi utilizate sunt:

Page 6: Analiza Statistica

1) Coeficientul de corelaţie produs-moment, Person (Pearson’s Product Moment

Correlation Coefficient). Acesta este un coeficient de corelaţie parametric, adică mai rar

utilizat în ştiinţele sociale şi deci şi în turism (prezentat în capitolul anterior, vezi capitolul 6).

2) Coeficientul de corelaţie cu rang, Spearman (Spearman’s rank Correlation

Coefficient). Formula acestuia ca variantă simplă lineară este:

7.1.2. Coeficientul de corelaţie cu rang, Spearman: condiţii de aplicare

- date (variante) pentru 2 variabile.

- acelaşi număr de valori pentru ambele variabile.

- minimum 4 perechi de valori.

- date ordinale sau intervale.

Calculul formulei coeficientului de corelaţie presupune 12 stadii !

Studiu de caz

Râmania, perioada 1991 - 2000

Variabila 1: PNB (per cap loc.)

Variabila 2: Număr vizitatori străini

An PNB(US$) Număr vizitatori străini

1991 1243 5,359,000

1992 859 6,401,000

1993 1159 5,786,000

1994 1323 5,898,000

1995 1564 5,445,000

1996 1563 5,205,000

1997 1565 5,149,000

1998 1872 4,831,000

1999 1585 5,224,000

Page 7: Analiza Statistica

2000 1645 5,264,000

Dorim să vedem dacă există vreo relaţie/corelaţie între PNB şi numărul de vizitatori

străini, adică dorim să stabilim dacă cele două variabile co-variază.

Stadiul 1

Se întocmeşte reprezentarea grafică de distribuţie a valorilor celor 2 variabile pentru

analiză vizuală.

Dacă distribuţia nu pare să ia o formă corelativă înseamnă că nu există o corelaţie şi

calculul nu se mai justifică. Adică : dacă aparent nu putem stabili că cele 2 variabile co-

variază, că dezvoltă vreo relaţie atunci calculul coeficientului de corelaţie este inutil!

Pentru studiul nostru de caz distribuţia valorilor se prezintă ca în figura (fig. 7.5.) de mai

jos:

Fig. 7.5.

Aparent ele co-varieză, având o tendinţă descendentă, direcţie negativă. adică pare să existe o

relaţie între cele două, o relaţie cu tendinţă neativă, descrescătoare.

Stadiul 2

Page 8: Analiza Statistica

Observând datele şi distribuţia acestora situaţia este aparentă şi neclară. În acest caz, se

formulează o ipoteză. aceasta de regulă se bazează pe observaţia efectuată. se numeşte ipoteză

iniţială şi se notează cu Hi. În cazul de faţă o ipoteză H i , evidentă. ar putea fi : „Există o

relaţie între PNB şi numărul de vizitatori străini în România în perioada 1991 – 2000’”

Conform convenţiei statistice în rigoare această ipoteză se exprimă întotdeauna negativ.

Adică invers decât pare să fie situaţia. .

Aceasta ipoteză se numeşte ipoteza nulă şi se notează cu HO. Şi dacă aparent există o

relaţie între cele două, ipoteza nulă se va exprima: ‘ Nu există nici un fel de relaţie între

PNB şi numărul de vizitatori străini în România în perioada 1991 – 2000’

Stadiul 3

Se construieşte un tabel cu 6 coloane în care se înscriu mai întâi datele exsitente,

utilizându-se primele 2 coloane (1 şi 2)

Variabila 1

(PNB)

Variabila 2

(vizitatori)

1243 5,359,000

859 6,401,000

1159 5,786,000

1323 5,898,000

1564 5,445,000

1563 5,205,000

1565 5,149,000

1872 4,831,000

1585 5,224,000

1645 5,264,000

Stadiul 4

Se acordă rang de mărime valorilor variabilei 1 (i.e. cea mai mare valoare =1, următoarea

= 2 etc). Înscrieţi rangul fiecărei valori în coloana 3.

Stadiul 5

Page 9: Analiza Statistica

În mod similar acordaţi rang de mărime valorilor variabilei 2. Înscrieţi rangul fiecărei

valori în coloana 4.

Tabelul va arăta acum aşa!

Variabila 1

(PNB)

Variabila 2 (număr

vizitatori)

Rang

Variabila 1

Rang

Variabila 2

1243 5,359,000 8 5

859 6,401,000 10 1

1159 5,786,000 9 3

1323 5,898,000 7 2

1564 5,445,000 5 4

1563 5,205,000 6 8

1565 5,149,000 4 9

1872 4,831,000 1 10

1585 5,224,000 3 7

1645 5,264,000 2 6

Stadiul 6

Se calculează diferenţa dintre ranguri (rang 1 – rang 2). Adică din coloana 3 se scade

coloana 4. Diferenţa de rang se notează cu d şi se înscrie în coloana 5.

Variabila 1

(PNB)

Variabila 2 (număr

vizitatori)

Rang

Variabila 1

Rang

Variabila 2

d

1243 5,359,000 8 5 3

859 6,401,000 10 1 9

1159 5,786,000 9 3 6

1323 5,898,000 7 2 5

1564 5,445,000 5 4 1

1563 5,205,000 6 8 -2

1565 5,149,000 4 9 -5

1872 4,831,000 1 10 -9

Page 10: Analiza Statistica

1585 5,224,000 3 7 -6

1645 5,264,000 2 6 -4

Stadiul 7

Se ridică la pătrat d (diferenţa de rang). Aceasta se notează cu d2 şi se înscrie în coloana

6.

Variabila 1

(PNB)

Variabila 2 (număr

vizitatori)

Rang

Variabila 1

Rang

Variabila 2

d d2

1243 5,359,000 8 5 3 9

859 6,401,000 10 1 9 81

1159 5,786,000 9 3 6 36

1323 5,898,000 7 2 5 25

1564 5,445,000 5 4 1 1

1563 5,205,000 6 8 -2 4

1565 5,149,000 4 9 -5 25

1872 4,831,000 1 10 -9 81

1585 5,224,000 3 7 -4 16

1645 5,264,000 2 6 -4 16

Stadiul 8:

Se calculează d2 adică suma tuturor valorilor d2.

d2 = 294

Stadiul 9:

Utilizaţi datele obţinute în formula următoare:

unde

rs = este coeficientul de corelaţie)

n = numărul de perechi ale variabilelor 1şi 2 (sau A şi B)

Page 11: Analiza Statistica

rs = - 0.78 (aceasta este Coeficientul de de corelaţie)

Stadiul 10:

Se analizează semnificaţia coeficientului de corelaţie. Analiza semnificaţiei presupune în

primul rând testarea semnificaţiei. Testarea semnificaţiei presupune siguranţa, corectidunea,

încrederea în rezultatul obţinut. Aceasta se exprimă prin gradul de confidenţă al coeficientului

de corelaţie.

De regulă în ştiinţele sociale este nevoie de un grad de confidenţă de cel puţin 95%

înainte să se accepte un coeficient. În statistică gradul de confienţă este notat cu p. El este pre

calculat şi se găseşte în tabele consacrate. Un grad de confidenţă de 95% se notează în aceste

tabele sub forma de p = 0.05. Gradul de confidenţă este menţionat întotdeauna în

interpretare şi analiză şi înscris obligatoriu în forma p = 0.05

Pentru o siguranţă şi o rigoare ştiinţifică mai mare se poate merge la 99% grad de

confidenţă asupra rezultatului. Acesta se notează cu p = 0.01 Cu cât valoarea lui p este mai

mică cu atât gradul de confidenţă este mai mare ceea ce implică o siguranţă mai mare şi

rigoare de calcul mai mare. Gradul de confidenţă cu care se lucrează se stabileşte încă din

stadiile incipiente de calcul în funcţie de natura variabilelor şi numărul de perechi de date

disponibile. În general pentru studiul proceselor, fenomene sociale cu caracter amplu,

general când sunt disponibile puţine perechi de date şi ne raportăm la perioade de timp

mari, se lucrează cu p = 0,05. Când se studiază procese, fenomene de detaliu cu număr

mare de perechi de date,pe perioade mici de timp se lucrează că cu p = 0,01.

Tabelul de mai jos reprezintă o variantă simplificată a unui tabel consacrat cu grade de

confidenţă.

Pentru stabilirea semnificaţiei din studiul nostru de caz se utilizează coloana 1 în care se

află N = numărul de perechi de variabile. În studiul nostru de caz am utilizat 10 perechi.

Astfel urmărim pentru N = 10, valorea de semnificaţie pentru p = 0.05.

N

(număr de

perechi de

95%

(p = 0.05)

99%

(p= 0.01)

Page 12: Analiza Statistica

variabile)

5 1.000 -

6 0.886 1.000

7 0.786 0.929

8 0.738 0.881

9 0.683 0.833

10 0.648 0.794

12 0.591 0.777

14 0.544 0.715

16 0.506 0.665

Se raportează valoarea lui r la valorile p = 0.05 pentru N =10.

Dacă coeficientul de corelaţie r este egal sau mai mare decât valoarea lui p [se ignoră

semnul lui r (plus sau minus)] SE RESPINGE IPOTEZA NULĂ.

Coeficientul de corelaţie r, este 0.78, mai mare decât valorea lui p = 0,05 ( de 95%)

aceasta fiind de0.648. În concluzie se respinge ipoteza nulă (Nu există nici un fel de relaţie

între PNB şi numărul de vizitatori străini în România în perioada 1991 – 2000’) şi se acceptă

ipoteza iniţială, (Există o relaţie între PNB şi numărul de vizitatori străini în România în

perioada 1991 – 2000’”)

Dacă s-ar fi ales ca grad de confidenţă p = 0,01 situaţia ar fi fost coplect diferită. S-a

stabilit ca grad de confidenţă p = 0,05 deoarece: variabilele se referă la indicatori destul de

ampli, la nvel de ţară pe o perioadă destul de limitată de timp cu valori la nivel anual.

În concluzie se poate spune că cele două variabile sunt corelate cu un grad de confidenţă

de 95%

Stadiul 11

Cel mai important lucru din punct de vedere al ştiinţelor sociale şi deci şi al turismului

este interpretarea şi analiza rezultatelor. Ce înseamnă valoarea lui rs şi faptul că am acceptat

Hi ?

În final oricine poate calcula un coeficient de corelaţie. Important este cum este interpretat

rezultatul şi ce înseamnă el!

Page 13: Analiza Statistica

Până aici s-a stabilit (ce-i drept, ştiinţific) faptul că există o relaţie. Care este, însă natura

relaţiei dintre PNB şi numărul vizitatorilor străini din România în perioada 1991-2000?

De ce numărul turiştilor străini pare să scadă în timp ce al PNB-ului să crească?

Ce putem spune despre contribuţia turismului la PNB-ul României?

Stadiul 12:

Se scriu intepretările. Aici este locul şi momentul în care se foloseşte coeficientul de

corelaţie, pentru interpretarea rezultatelor

De regulă se foloseşte formula:

“Există o puternică corelaţie negativă între PNB şinumărul de vizitatori străini în România

în perioada 1991 – 2000 (rs = -0.78, p = 0.05). Acest fapt se datorează …”

7.2. Testele neparametrice de semnificaţie. Semnificaţia statistică .

Definiţie

Semnificaţia statistică reprezintă una dintre cele patru funcţii de baza ale statisticii. În

literatura de specialitate această tema se mai găseşte şi sub denumirea de „testarea

semnificaţiei statistice” sau „testarea diferenţei la nivel de set de date”

7.2.1. Introducere

Pentru a pune întreaga temă într-un context clar şi logic este necesară în acest moment o

trecere în revistă a teoriei funcţiilor statisticii.

Din punctul de vedere al ştiinţelor sociale (inclusiv a turismului şi ) statistica devine utilă

prin cele 4 funcţii de bază ale sale:

funcţia descriptivă

funcţia deductivă

funcţia semnificaţiei

funcţia prognozării

În primele capitole ale cursului s-a insistant în mod deosebit asupra teoriei datelor şi

operaţiilor statistice elementare sau a primelor stadiile de operare statistică. La o privire mai

atentă se poate concluziona că acestea reprezintă de fapt „instrumente” ale funcţiei

descriptive. Ele nu fac altceva decât să descrie într-o măsură mai mică sau mai mare, mai

Page 14: Analiza Statistica

superficial sau mai profund elemente, componente, procese sau fenomene ale activităţii

sociale sau .turistice în cazul nostru.

A fost prezentat anterior şi o metodă de determinare şi stabilrea existenţei unei relaţii între

două variabile care nu a reprezentat altceva decât un exemplu aplicativ al funcţiei deductive .

Astfel de metode se mai numesc şi metode statistice deductive sau pur şi simplu statistici

deductive ca urmare a faptului că pornesc de la o supoziţie (deducţie) stabilită (demonstrată)

ulterior şi verificată printr-un rezultat. În turism ca şi în geografie, specialiştii lucrează

preponderent cu date selective (obţinute prin generare) şi care nu sunt exhaustive. Adică

aceste date reprezintă eşantioane (sunt obţinute eşantionat) dintr-o populaţie întreagă;

sunt şiruri finite; ”incomplete” deoarece totalitatea lor absoluta este imposibil a fi obţinută.

Exemplu: ‚ comportamentul decizional în alegerea destinaţiei de vacanţă pentru o anume

grupă de vârstă de turişti sau grupă socială”. A obţine datele statistice pentru întreaga

populaţie , adică toţi potenţialii turişti fie şi ai unui oraş este aproape imposibil. Se selectează

astfel un eşantion reprezentativ asupra căruia se generează datele statistice necesare iar cu

datele respective se fac aprecieri, deducţii, în funcţie de anumiţi factori sau situaţii luate în

calcul, pentru a se demonstra comportamentul decizional. Acest comportament poate fi

corelat în evoluţia sau desfăşurarea sa cu anumiţi alţi factori etc (co-variaţia).

Selectarea, eşantionarea presupune obligatoriu probabilitatea existenţei unui anumit grad

de eroare în măsurătoare şi în deducţia finală (a se revedea toată teoria cu gradul de

confidenţă). Probabilitatea este conceptul statistic care deosebeşte datele selective, (finite,

obţinute prin eşantionare) de cele exhaustive (absolute, complete, obţinute în ştiinţele exacte

din măsurătorile de laborator şi care reprezintă toată populaţia nu un eşantion). Prin urmare

datele selective, eşantioanele, includ o probabilitate de eroare în timp ce cele exhaustive NU

(acestea fiind cele folosite în metodele parametrice). Metodele de analiză statistică precum

coeficienţii de corelaţie stabilesc o relaţie şi serie de caracteristici dar nu dau posibilitatea

aprofundării cauzalităţii sau a altor aspecte relaţionale. În concluzie funcţia deductivă

presupune că: în condiţii specifice, probabilitatea unei presupuneri/ipoteze (deducţii)

efectuate pe baza unor eşantioane de populaţie , să fie validă.

Profunzimea analizei statistice este dată în continuare de îndeplinirea funcţiei

semnificaţiei.

7.2.2 Semnificaţia statistică

Page 15: Analiza Statistica

Aspectele privind semnificaţia statistică a unor mărimi, valori, variabile sau – mai

frecvent – cea a semnificaţiei diferenţei dintre două mărimi, valori, variabile atunci când se

compară , presupune că cel puţin una dintre ele se obţine prin eşantionare. Acest ultim fapt

presupune la rândul său ideea de probabilitate de eroare.

Semnificaţia statistică reprezintă una dintre cele mai puternice funcţii din punct de vedere

al ştiinţelor socio-geografice şi deci şi turistice. Aceasta stabileşte dacă diferenţa sau relaţia

dintre două seturi de date selective (eşantioane) este semnificativă.

Ea presupune în primul rând comparaţia între valori (cel puţin una) determinate la nivel de

eşantion, adică acele valori care nu reproduc perfect şi absolut caracteristicile populaţiei

statistice. Aceste valori presupun prin natura lor o marjă de variaţie adică un interval pe care

se găsesc valorile efective ale populaţiei. Undeva apare o diferenţă!

Pentru a fi siguri că diferenţa dintre valorile în eşantion reflectă o diferenţă reală de

valori în populaţii, distanţa dintre mărimile comparate trebuie să depăşească mărimea

intervalului pe care se află , cu o anumită probabilitate, valorile din populaţie. Cu alte

cuvinte o diferenţă este semnificativă dacă depăşeşte eroarea maximă admisă, adică ea nu

poate fi pusă (integral) pe seama fluctuaţiilor fireşti de eşantionare.

În caz contrar se va spune că diferenţa nu este semnificativă (exclus a se folosi

nesemnificativă). O diferenţă care nu este semnificativă reflectă o deosebire despre care nu se

poate spune cu o probabilitate suficient de mare că este reală, acesta nu înseamnă că ea nu

este reală.

7.2.3. Testele de semnificaţie sau testarea diferenţei la seturi de

date/eşantioane

Ce presupun testele de semnificaţie sau testarea unei diferenţe la seturi de

date/eşantioane? Obiectivul final al acestora este acela de a explica diferenţa aparentă. Înainte

de a se căuta explicaţii cauzale, se doreşte a se determina cât de mare este această diferenţă

cât de semnificativă este ea.

În domeniul turismului şi al studiilor privind recreerea, în mod frecvent şi de regulă se

folosesc date relevante pentru comparaţie ca de exemplu : locaţii diferite, ori asupra unor

grupe umane diferite sau înainte şi după un anume eveniment.

Page 16: Analiza Statistica

În astfel de situaţii apare necesitatea determinării semnificaţiei diferenţelor dintre valori,

mărimi, variabile; adică a se testa diferenţele presupuse, (incluse, implementate ori induse) de

seturile respective de eşantioane de date.

Exemple de eşantioane de date utilizate:

Preţul mediu hotelier la cazare în 2 staţiuni diferite.

Comportamentul decizional asupra destinaţiei de vacanţă a 2 grupe sociale

diferite.

Grupele de vârstă ale vizitatorilor unui obiectiv din zilele ‚cu eveniment’ sau

‚fără eveniment’.

Atitudini ale turiştilor privind destinaţia de vacanţă înainte şi după vizitarea

acesteia.

Practic avem date asupra a 2 locaţii diferite sau grupe umane, diferenţele presupuse de

acestea pot fi evidente strict valoric numeric dar nu indică nimic despre semnificaţia diferenţei

dintre ele prin prisma intervalului de raport la valorile probabile ale populaţiilor respective

(total necunoscute în cazul de faţă şi total lipsite de altfel de relevanţă) în limitele maxime

acceptabile de eroare. Cu alte cuvinte dorim să testăm această diferenţa dintre ele şi din punct

de vedere al semnificaţiei statistice (cuantificarea calităţii diferenţei).

Există 3 teste de semnificaţie statistică mai bine cunoscute:

Testul „T”, un test parametric

Testul „U” sau Mann Whitney, un test neparametric

Testul Wilcoxen sau testul ‚perechilor legate’ de asemenea un test neparametric

sau neparametric

7.2.4. Testul ‚U’sau Mann Whitney

Fiind un test de semnificaţie statistică va presupune automat compararea a două

eşantioane de date, probabilitatea unei erori datorate de presupusa diferenţă dintre

caracteristicile acestora şi cele ale populaţiilor respective, diferenţă arbitrată de o marjă de

eroare maximă, acceptată. Include în calcul mediile aritmetice sau medianele seturilor de

date. Varianta cea mai cunoscută de formulă pentru testul U este:

Page 17: Analiza Statistica

nanb +

Condiţii de aplicare:

a) Date ordinale sau intervale

b) 2 seturi de date necesar a fi comparate ( nu este necesar un număr egal de

perechi de variabile)

c) Minimum 4 valori din fiecare set de variabilă

d) IPOTEZE, Ho - ca punct de pornire, în replică pentru Hi. Ipoteza nulă (H0)

presupune întotdeauna că; ‚nu există nici o diferenţă între cele 2 seturi de date’. Cu

alte cuvinte, diferenţa dintre cele 2 seturi de date nu este semnificativă. Obiectivul

final al testului este acela de a respinge H0. în ideea acceptării Hi care presupune

existenţa unei diferenţe semnificative, acceptabilă în raport cu marja maxim

acceptabilă de eroare.

Studiu de caz aplicativ pentru testul „U” sau Mann-Whitney

Studiul de caz presupune testarea semnificaţiei diferenţei pentru numărul de turişti români

cazaţi în Băile Herculane şi Drobeta Turnu Severin din 1991 până în 2000

Dorim deci să testăm dacă din punct de vedere statistic există o diferenţă semnificativă la

nivelul numărului de vizitatori din cele 2 locaţii în aceeaşi perioadă de timp.

Atenţie, nu este vorba despre diferenţă ca operaţie aritmetică, aceasta nu are nici o

semnificaţie, în afara celei pur matematice. Semnificaţia statistică presupune la un loc ideea

de eşantion, de perioadă de timp ,de locaţii diferite ce pot implica la nivelul raportării în

populaţia statistică respectivă anumite aspecte cu caracter social.

Observaţi tabelul de mai jos !

Sunt îndeplinite condiţiile de aplicare? Da iar aplicarea testului poate continua chiar şi

condiţiile absenţei unei valori la ultima valoare a variabile 2, respectiv „turiştii români cazaţi

la Drobeta Turnu Severin”.

Anul Turişti români cazaţi la Băile

Herculane

Turişti români cazaţi la Drobeta Turnu

Severin

Page 18: Analiza Statistica

1991 72211 64537

1992 42968 56566

1993 72352 39182

1994 113242 40989

1995 95085 46227

1996 96631 47271

1997 66268 48885

1998 75441 32293

1999 100606 31515

2000 110286 -

Stadiul 1:

În funcţie de tipul de date pe care le deţinem se calculează media aritmetică sau mediana.

În studiul de caz de mai sus dispunem de date intervale; se calculează media aritmetică

pentru fiecare dintre cele două variabile.

Dacă

Am dispune de date ordinale se va calcula, mediana pentru fiecare coloană de date.

Rezultatele se compară. În mod evident, dacă diferenţa dintre medii/mediane nu este

semnificativă continuarea testului este inutilă.

Astfel:

Pentru variabla A (B. Herculane): media aritmetică = 84.509

Pentru variabla B (D.T.Severin): media aritmetică = 45.274

Diferenţă valorică semnificativă!

Stadiul 2:

Se stabileşte ipoteza nulă pe baza inversării uneia iniţiale care presupune existenţa unei

diferenţe semnificative. Astfel:

Ipoteza nulă este „nu există o diferenţă semnificativă între numărul turiştilor cazaţi la

Băile Herculane şi cei cazaţi la D.T. Severin în perioada 1991 – 2000”

Stadiul 3:

Page 19: Analiza Statistica

Se întocmeşte un tabel cu 4 coloane. Variabila A se înscrie în coloana 1 iar variabila B în

coloana 3, după cum urmează:.

Variabla A

(Turişti români cazaţi la Băile

Herculane)

Variabla B

(Turişti români cazaţi la

Drobeta Turnu Severin)

72211 64537

42968 56566

72352 39182

113242 40989

95085 46227

96631 47271

66268 48885

75441 32293

100606 31515

110286

Stadiul 4:

Acordaţi ranguri de importanţă tuturor valorilor, în ordine crescătoare. Pentru acordarea

rangului de importanţă se iau în consideraţie valorile ambelor variabile. Cu alte cuvinte rangul

NU se acorda separat pe coloane ci la ambele împreună. Astfel valoarea cea mai mică va

primi rangul 1, următoarea ca mărime va primi rangul 2 ...şamd.

Rangurile acordate pentru valorile variabilei A se plasează în coloana 2. Acesta se notează

cu ra

Rangurile acordate pentru valorile variabilei B se plasează în coloana 4. Acesta se notează

cu rb.

Variabla A

(Turişti români cazaţi la

Băile Herculane)

ra Variabla B

(Turişti români cazaţi la

Drobeta Turnu Severin)

rb

72211 12 64537 10

Page 20: Analiza Statistica

42968 5 56566 9

72352 13 39182 3

113242 19 40989 4

95085 15 46227 6

96631 16 47271 7

66268 11 48885 8

75441 14 32293 2

100606 17 31515 1

110286 18

În cazul în care apar valori identice se procedează la calcularea mediei rangurilor

acestora indiferent de numărul lor. Vezi tabelul de mai jos (caz didactic ipotetic, nu are nici o

legătură cu studiul de caz, este folosit ca exemplu). Valoarea 45 apare de 2 ori şi ar primi

rangul 3 ca mărime de importanţă. Rangul următor, 4, nu se înscrie niciunde şi se foloseşte la

calculul mediei rangurilor. (3 + 4) : 2 = 3,5

VA ra VB rb

30 1 45 3,5

35 2 50 5,5

45 3,5 58 7

50 5,5 62 8

75 11 69 9

80 12 70 10

Stadiul 5:

Se calculează separat suma ranguilor variabilei A, notată cu ra.

ra = 140

Stadiul 6:

În mod similar se calculează suma rangilor variabilei B, notată cu rb.

Page 21: Analiza Statistica

rb = 50

Stadiul 7:

Formula pentru testul U este:

nanb +

unde: na este numărul de valori al variabile A,

nb este numărul de valori al variabile B

Ea se aplică fiecărei variabile în parte!

În cazul nostru, pentru variabila A:

Stadiul 8:

Variabila B:

nanb +

Stadiul 9:

Dintre cele două valori U se alege prin convenţie valoarea cea mai mică. În cazul studiului

de caz de mai sus, este vorba despre Ua = 5

Stadiul 10:

Page 22: Analiza Statistica

Se decide nivelul gradului de confidenţă la care dorim să avem rezultatul. De regulă în

ştiinţele sociale se lucrează cu cel puţin 95% adică p = 0.05

Stadiul 11:

Se face apel la tabelele consacrate cu valori critice ale gradului de confidenţă pentru testul

U în vederea stabilirii acestora la p = 0.05 (95%)

nbna 1 2 3 4 5 6 7 8 9 10 11 12

1

2 0 0 0 0 1

3 0 1 1 2 2 3 3 4

4 0 1 2 3 4 4 5 6 7

5 0 1 2 3 5 6 7 8 9 11

6 1 2 3 5 6 8 10 11 13 14

7 1 3 5 6 8 10 12 14 16 18

8 0 2 4 6 8 10 13 15 17 19 22

9 0 2 4 7 10 12 15 17 20 23 26

10 0 3 5 8 11 14 17 20 23 26 29

11 0 3 6 9 13 16 19 23 26 30 33

12 1 4 7 11 14 18 22 26 29 33 37

Valoarea critică pentru un test cu 10 variante în variabile unde p ‚ 005 = 20

Stadiul 12:

Dacă valoarea de test U aleasă (cea mai mică dintre cele două calculate) este mai mică

sau egală cu valoarea critică a gradului de confidenţă stabilit, p = 0,05 atrage după sine

RESPINGEREA ipotezei nule.

Page 23: Analiza Statistica

În acest caz valoarea critică este 20 iar valoarea de test U = 5.

Ipoteza nulă = nu există o diferenţă semnificativă între numărul turiştilor cazaţi la Băile

Herculane şi cei cazaţi la Dr.Tr. Severin în perioada 1991 – 2000’; se respinge.

Se acceptă ipoteza iniţială, conform căreia există o diferenţă semnificativă între numărul

turiştilor cazaţi la Băile Herculane şi cei cazaţi la Dr.Tr. Severin în perioada 1991 – 2000’

Stadiul 13:

Iportant! Interpretarea rezultatului final este mai important decât faptul că după o serie de

calcule am respins o ipoteză nulă şi am acceptat una iniţială. În cazul de faţă rezultatul final

este există o diferenţă între cele două seturi de date.

Ce semnificaţie are această diferenţă? De ce există această diferenţă semnificativă?

Stadiul 14

Interpretarea şi analiza rezultatului includ întotdeauna argumente sau explicaţii.

Exprimarea acestora se face de regulă prin formula de debut: “Există o diferenţă statistică

semnificativă între numărul turiştilor români cazaţi la Băile Herculane şi cei cazaţi la Drobeta

Turnu Severin (U = 5, p = 0,05), fapt datorat.......spre exemplu faptului că cele două locaţii

reprezintă atracţii diferite în care se practică două tipuri diferite de turism: turimul balnear şi

respectiv cel de tranzit, de conferinţă şi week end.

În analiză şi argumentare se utilizează informaţie cât mai exactă asupra celor două locaţii.

Testul U sau Mann Whitney mai este cunoscut şi sub denumirea de test al nivelului de

semnificaţie.

7.2.5. Testul Wilcoxen sau testul ‚perechilor legate’

Acest test se aplică doar datelor intervale, fapt pentru care este privit ca un test mai

special. El se deosebeşte şi prin condiţiile pe care le pune la nivelul datelor intervale ce

urmează a fi testate.

Constituie o metodă statistică utilă în testarea diferenţelor la nivel de serii de date,

deseori folosit în ştiinţele sociale. Acest test este la fel de important ca cel anterior mai ales

prin faptul că testează semnificaţia eşantionului. Pentru turism el este adesea crucial ca

importanţa, cu precădere în situaţiile de sondaje la scară medie şi mică.

Page 24: Analiza Statistica

Condiţii de aplicare:

Obligatoriu numai date intervale.

Cel puţin 6 perechi de date.

Între cele două şiruri de date (sau variabile) trebuie să existe o anume (presupusă,

dedusă) ‚legătură’, ‚tendinţă’. Cu alte cuvinte să formeze un anume tip de ‚pereche’, să

se cupleze conform unui criteriu comun.

Între seriile de date sau între datele aceleiaşi variabile trebuie să existe, cel puţin aparent,

un anume gen de relaţie, legătură.

Exemple:

Ex 1: Vizitatori europeni în România în anii 1999 şi 2000

1999 2000

Austria 63,000 66,000

Belgia 18,000 19,000

Danemarca 9,000 10,000

În acest caz relaţia este stabilită de cei 2 ani, caz în care dacă pentru o ţară numărul de

vizitatori a fost redus în 1999 este probabil să fie redus şi în 2000.

Ex 2 Gradul de ocupare al hotelurile de pe litoralul românesc al Mării Negre (%)

2000 2001

Ianuarie 25 20

Februarie 30 29

Martie 50 48

Dacă gradul de ocupare a fost redus în ianuarie al unui an este foarte probabil să fie

redus şi în alt an – relaţia aparentă dintre seturile de date, suficientă pentru a forma perechi.

Dacă

Page 25: Analiza Statistica

a) Între date nu există o relaţie aparentă prin prisma căreia ele să poată forma perechi

dintr-un anumit punct de vedere sau de un anume tip

sau

b) Datele sunt nominale sau ordinale

Testul Wilcoxen NU se poate aplica şi se apelează în schimb la testul Mann-Whitney

sau U

În aplicarea acestui test analiza teoretică a relaţiei aparente dintre variabile este foarte

imoprtantă. Semnificaţia aparentă a relaţiei este ceea ce se cere de la la testul U şi ce fel de

diferenţă privim acolo în antiteză cu perechea de la Wilcoxen. Astfel se poate concluziona că

felul datelor sau mai bine spus a relaţiilor aparente dintre ele, dinamismul şi tendinţa evoluţiei

acesteia determină într-o oarecare măsură alegerea testului ce urmează a fi utilizat.

Mod de calcul

Studiu de caz: serii de date privind gradul de ocupare (%) al hotelurilor din Băile

Herculane şi Drobeta Turnu Severin în perioada 1991-2000

Băile Herculane Drobeta Turnu

Severin

1991 36 45

1992 31 30

1993 38 24

1994 41 38

1995 43 32

1996 35 32

1997 29 54

1998 37 49

1999 41 44

2000 45 43

Page 26: Analiza Statistica

Există o relaţie aparentă între datele de aici? Evident! Fiind vorba de 2 localităţii

situate în aceeaşi zonă turistică şi gradul de ocupare al hotelurilor acestora se presupune că

gradul de ocupare la nivelul amândurora are cam acelaşi comportament pentru aceeaşi

perioadă de timp. Gradul de ocupare (în această situaţie) pentru aceeaşi categorie de

unitate de cazare, este criteriul de „împerechere”

Presupusa relaţie de reprezintă punctul de plecare în stabilirea ipotezei nule pe baza

căreia se poate trece la calculul acestui test

Stadiul 1:

Se formulează ipoteza nulă (Ho) asupra seriilor de date în concordanţă cu o ipoteză

iniţială (.Hi). ( Ho întotdeauna exprimă negativul/inversul ipotezei iniţiale Hi ):

Ex. Nu există o diferenţă semnificativă în gradul de ocupare al hotelurilor din Băile

Herculane şi Drobeta Turnu Severin în perioada 1991-2000

Stadiul 2:

Se construieşte un tabel cu 6 coloane. În coloanele 1 şi respectiv 2 se introduc seriile

de date (denumite pentru convenienţă variabile: A=Băile Herculane şi respectiv B=Drobeta

Turnu Severin)

A

(Herculane)

B

(Turnu Severin)

36 45

31 30

38 24

41 38

43 32

35 32

29 54

37 49

Page 27: Analiza Statistica

41 44

45 43

Stadiul 3

Se calculează diferenţa aritmetică dintre A şi B (A-B). Rezultatul obţinut amplasează

în coloana 3 ignorând semnul (+;-)

A B A - B

36 45 9

31 30 1

38 24 14

41 38 3

43 32 11

35 32 3

29 54 25

37 49 12

41 44 3

45 43 2

Stadiul 4

Dacă în coloana (A-B) avem valori egale cu 0, acestea se exclud din analiză (se exclud

şi perechile cu totul, utilizându-se restul perechilor). Cu menţiunea că în acest caz se reduce

numărul de perechi luat în calcul!

În studiul de caz nu există astfel de situaţii, calculul continuându-se fără alte

modificări de condiţii.

Stadiul 5

Page 28: Analiza Statistica

Se acordă rang de importanţă valorilor din coloana (A-B) pornindu-se de la valoarea

cea mai mică căreia i se atribuie rangul 1. Valorile rangurilor se înscriu în coloana 4.

În cazul valorilor identice se procedează la calcularea mediei rangurilor valorilor

variabilor identice ca valoare indiferent de numărul acestora.

A B (A – B) Rang de (A-B)

36 45 9 6

31 30 1 1

38 24 14 9

41 38 3 4

43 32 11 7

35 32 3 4

29 54 25 10

37 49 12 8

41 44 3 4

45 43 2 2

Stadiul 6

Se compară pe rând valorile din perechile variabilelor A şi B. Acolo unde valoarea lui A este

mai mare decât a lui B se înscrie rangul atribuit diferenţei (A-B) în coloana 5. Unde valoarea

lui B este mai mare decât a lui A rangul atribuit diferenţei (A-B ) se înscrie în coloana 6.

A B A - B Rang de A-B A>B B>A

36 45 9 6 6

31 30 1 1 1

38 24 14 9 9

41 38 3 4 4

43 32 11 7 7

35 32 3 4 4

Page 29: Analiza Statistica

29 54 25 10 10

37 49 12 8 8

41 44 3 4 4

45 43 2 2 2

Stadiul 7

Se calculeazăi suma rangurilor pe fiecare coloană în parte (A>B şi B>A din coloanele

5 şi 6).

A B A - B Rank of A-B A>B B>A

36 45 9 6 6

31 30 1 1 1

38 24 14 9 9

41 38 3 4 4

43 32 11 7 7

35 32 3 4 4

29 54 25 10 10

37 49 12 8 8

41 44 3 4 4

45 43 2 2 2

Suma din coloana A>B (5) = 27

Suma din coloana B>A (6)= 28

Stadiul 8

Se selectează valoarea cea mai mică dintre cele 2 sume şi se noteză cu T

T = 27

Page 30: Analiza Statistica

Stadiul 9

Se decide cu ce grad de confidenţă se lucrează (95% sau 99%) pentru stabilirea

semnificaţiei rezultatului.

Se continuă făcând apel la tabelele consacrate, ale valorilor critice pentru testul

Wilcoxen. În cazul în care a fost redus numărul de perechi în timpul calcului el se reduce şi la

interpretare. Exempl daca au fosrt eliminate 2 perechi din calcul la interpretare în loc de 10

perechi se va urmări valoarea critică pentru 8 perechi.

Nr perechi A şi B P=0.05 P=0.01

6 0 -

7 2 -

8 4 0

9 6 2

10 8 3

11 11 5

12 14 7

13 17 10

14 21 13

15 25 16

16 30 20

17 35 23

18 40 28

19 46 32

20 52 38

Dacă valoarea obţinută pentru T este mai mică decât valoarea critică (pentru

numărul corect de perechi şi la gradul de confidenţă ales) se respinge ipoteza nulă. În orice

altă situaţie aceasta se acceptă.

Page 31: Analiza Statistica

Conform studiului de caz T = 27, valoare critică = 8 (95%) sau 3 (99%):

IPOTEZA NULĂ SE ACCEPTĂ! Adică nu există o diferenţă semnificativă în gradul de

ocupare al hotelurilor celor 2 locaţii.

Stadiul 9

Interpretarea rezultatului obţinut:

În studiul de caz de mai sus s-a demonstrat statistic faptul că nu există o

‚diferenţă’, semnificativă, în gradul de ocupare al hotelurilor din Băile Herculane şi Drobeta

Turnu Severin în perioada .... (în ciuda faptului că aparent exista o diferenţă valorică).

De ce?

Stadiul 10

Analiza şi exprimarea rezultatului final:

Dacă ar fi existat o diferenţă semnificativă analiza ar fi fost exprimată începându-se cu

formularea:

“Există o diferenţă (relaţie) semnificativă între gradul de ocupare din Băile

Herculane şi Drobeta Turnu Severin; T = 2, p = 0.01. Aceasta se datorează......

În cazul nostru nu există o diferenţă semnificativă între cele două pentru T = 2, p =

0.01. Această realitate se datorează faptului că în calcul este luat gadul de ocupare şi deşi cele

două locaţii sunt diferite ca destinaţie turistică, caracterizându-se prin tipuri dierite de turism

ele se află în aceeaşi zonă turistică, la distanţă relativ mica una de cealaltă. Factorul care însă

determină inexistenţă diferenţei semnificative este raportul număr locuri cazare – destinaţie

turistică.

7.2.6. Testarea semnificaţiei diferenţei la nivel de set de date absolut independente.

Testul Χ2

Page 32: Analiza Statistica

Aminteam anterior faptul că testarea semnificaţiei statistice presupune în primul rând

procesul de comparaţie. Testele precedente de semnificaţie statistică au stabilit semnificaţia

diferenţei la nivelul datelor selective (eşantioane) asemănătoare sau parte din aceeaşi mare

categorie. În general a fost vorba despre date „asemănătoare”. Cu alte cuvinte s-a pornit de la

ideea comparării unor date asemănătoare (unii autori le denumesc dependente) pentru a se

determina diferenţa de semnificaţie statistică dintre ele (în final demonstrată sau nu prin

acceptarea sau respingerea ipotezei nule).

Acelaşi proces de comparaţie statistică (atât de util în îndeplinirea funcţiei de

semnificaţie statistică) mai presupune şi situaţia inversă: se compară/testează semnificaţia

statistică la nivelul datelor „ne asemănătoare” sau independente pentru a se determina

asemănarea lor. Cu alte cuvinte pentru a se determina în ce măsură ele au ceva în comun, şi ce

presupune acest lucru (în final fapt demonstrat sau nu prin acceptarea sau respingerea ipotezei

nule). Acest proces se efectuează prin ceea ce este cunoscut şi sub denumirea de:

Testul de contingenţă

Ce este contingenţa?

Contingenţa

Contingenţa măsoară gradul de relaţionare sau intensitatea legăturii dintre două

elemente, fenomene, procese,în final dintre variabile/seturi de date selective/eşantioane.

Cu alte cuvinte fiind vorba de date independente, contingenţa măsoară modul în care

un aspect, o variabilă, un set de date influenţează sau este influenţat de un altul/a.

Astfel în limbajul de specialitate apar formulări de genul: unele variabile sunt

contingente cu altele sau deţin un contingent asupra altora.

EX:

Clasa socială are contingent asupra numărului de vacanţe pe care o familie şi le poate

permite.

Sezonalitatea este contingenţă cu gradul de ocupare al unui hotel.

Contingenţa însă nu este acelaşi lucru cu corelaţia.

Reamintim ce exprimă corelaţia şi aume o co-variaţie. Aceasta indică pur şi simplu faptul că o

variabilă prezintă o anumită tendinţă sau are un anumit comportament iar cealaltă sau celălalte

prezintă şi ele o anumită tendinţă sau are un anumit comportament.Corelaţia nu spune nimic

despre cauzalitate sau cum se determină ori se influenţează variabilele între ele.

Page 33: Analiza Statistica

Cel mai cunoscut test pentru investigarea/cunatificarea contingenţei este „testul chi2”

sau testul Χ2

Testul Χ2

Condiţii de utilizare:

În cazul necesităţii investigării tipului de relaţie între două aspecte, fenomene, indici,

indicatori INDEPENDENŢI etc… (adică a modului în care ceva/cum ceva, se leagă de

altceva, influenţează.

În cazul în care avem la dispoziţie 2 variabile independente.

Avem la dispoziţie date nominale, ordinale sau intervale.

Testul Χ2 sau Chi2 este un test non-parametric ale cărui câteva caracteristici implică

aspecte precum:

Datele exprimă categorii numărabile de elemente.

Chi2 este foarte util mai ales în analiza statistică a datelor chestionarelor (unde sunt

necesare cel puţin 100 de chestionare pentru relevanţa analizei)

Mod de aplicare

Chi2 porneşte întotdeauna de la ipoteza iniţială, Hi, conform căreia există o relaţie

între datele analizate fapt pentru care ipoteza nulă, Ho, va avea întotdeauna forma conform

căreia NU există nici o relaţie între variabile analizate.

Îşi clasifică datele utilizate în: OBSERVATE (notate cu O) – reprezintă datele

prezente, aflate la dispoziţie; şi PRESUPUSE (notate cu P) - determinate pe baza celor

observate.

Datele presupuse reprezintă datele la care se aşteaptă testul , sau pe care testul le

prognozează în cazul în care nu ar exista nici o legătură între ele sau cu alte cuvinte în

cazul în care ipoteza nulă ar fi adevărată.

Comparând datele, testul X2 stabileşte în final dacă cele între cele două variabile există

sau nu o relaţie şi care este ea.

Page 34: Analiza Statistica

Elemente necesare pentru aplicarea testului X2

1) Date pentru 2 variabile.

2) Datele trebuie să exprime categorii de elemente numărabile. NUMERE REALE.

3) Indiferent de forma în care se află datele acestea se introduc într-un

tabel de contingenţă.

4) Datele nu pot avea formă de procente

Studiu de caz

Date provenite de la Comisia Naţională pentru Statistică privind numărul vizitatorilor

străini în România pentru anii 1985 şi respectiv 1995, în funcţie de motivaţia vizitei.

În acest caz se poate discuta despre o posibilă relaţie existentă între date: dinamica

motivelor pentru care străinii doresc să viziteze România în perioada respectivă.

Datele sunt:

Mii turişti străini în vacanţă:

1985 = 2498

1995 = 2274

Mii turişti străini sosiţi în România pentru alte motive:

1985 = 2607

1995 = 2838

Testul Χ2 sau Chi2 presupune pentru aplicare12 stadii

Stadiul 1

Formularea ipotezelor iniţială şi respectiv nule (Hi, Ho) pentru datele luate ca bază de

studiu. Reamintim ca : Ipoteza nulă Ho exprimă întotdeauna negativul, inversul ipotezei

iniţiale Hi

În cazulacestui studiu de caz Ho este :”nu există nici relaţie (din punct de vedere al

semnificaţiei statistice aceasta este tot o diferenţă, diferenţa dintre date chemată să arate o

asemănare, aceeaşi dinamică a motivelor vizitei) între numărul turiştilor străini veniţi în

România pentru o vacanţă şi cei sosiţi pentru alte motive atât în timpul perioadei comuniste

cât şi după încheierea acesteia.

Page 35: Analiza Statistica

Stadiul 2

Construirea tabelului de contingenţă pentru cele două variabile prin simpla introducere

a datelor prezente şi calcularea totalurilor coloanelor şi rândurilor tabelului obţinut.

1985 1995 Total

Vizite pentru vacanţă 2498 2274 4772

Vizite pentru alte motive 2607 2838 5445

Total 5105 5112 10217

Aceste date se numesc datele cu valori OBSERVATE

Stadiul 3

Se examinează valorile observate. În cazul în care există valori egale cu 0 întregul test

devine invalid!

Stadiul 4

Se calculează valorile PRESUPUSE. (adică valorile AŞTEPTATE sau presupuse de

test în cazul în care nu ar exista nici o relaţie între cele 2 variabile)

În calculul valorilor presupuse se porneşte întotdeauna de la valorile observate. Pentru

fiecare dată observată se calculează echivalentul presupus după cum urmează :

Valoarea presupusă =

(Total rând) x (Total coloană )

Total general

1985 1995 Total

O P O P

Vizite pentru 2498 2384.4 2274 2387.6 4772

Page 36: Analiza Statistica

vacanţă

Vizite pentru alte

motive

2607 2720.6 2838 2724.4 5445

Total 5105 5112 10217

Stadiul 5

Se examinează valorile presupuse. În cazul în care există valori mai mici decât 5,

testul devine invalid şi se abandonează.

Stadiul 6

Se calculează X2 după formula:

X2 =

Practic pentru fiecare valoare observată:

Se calculează diferenţa (O – P)

Se ridică la pătrat fiecare rezultat

Acesta se împarte la valoarea presupusă respectivă

Se calculează suma tuturor rezultatelor obţinute

1985 1995

O P 2 O P 2 Total

Vizite pentru vacanţă 2498 2384.4 5.4 2274 2387.6 5.4 4772

Vizite pentru alte motive 2607 2720.6 4.7 2838 2724.4 4.7 5445

Total 5105 5112 10217

Valoarea totală 2 = 5.4 + 4.7 + 5.4 + 4.7 = 20.2

Stadiul 7

Page 37: Analiza Statistica

Se calculează gradul de libertate (gf), revenindu-se la stadiul 2 (tabelul de

contingenţă), ignorând totalurile.

Formula gradului de libertate este:

gf = (nr) - 1 x (nc) – 1

Unde : nr = număr de rânduri

nc = număr de coloane

Pentru acest studiu de caz :gf = (2-1) x (2-1) = 1

Stadiul 8

Se alege gradul de confidenţă.

95% (p= 0.05)

99% (p=0.01)

99.9%(p=0.001)

95% reprezintă gradul minim de confidenţă acceptat în ştiinţele sociale .

Stadiul 9

Se face apel la tabelul valorilor critice al gradului de confidenţă pentru testul X2.

Grad de libertate

95%

(p=0.05)

99%

(p=0.01)

99.9%

(p=0.001)

1 3.84 6.64 10.83

2 5.99 9.21 13.82

3 7.82 11.34 16.27

4 9.49 13.28 18.46

5 11.07 15.09 20.52

6 12.59 16.81 22.46

7 14.07 18.48 24.32

8 15.51 20.09 26.12

Page 38: Analiza Statistica

Stadiul 10

Dacă valoarea 2 este mai mare decât valoarea critică se respinge ipoteza nulă.

Dacă valoarea 2 este mai mică decât valoarea critică se acceptă ipoteza nulă

În acest studiul de caz - 2 = 20.2 pentru o valoare critică de 3,84 , l grad de libertate

1, cu grad de confidenţă 95%, fapt ce atrage după sine respingere ipotezei nule cu grad de

confidenţă 95%

Stadiul 11

Interpretarea rezultatului

Întotdeauna se face apel la tabelul cu valorile observate şi presupuse dar şi la toate

toate informaţiile colaterale venite de acolo.

Ex: În 1985 numărul vizitatorilor străini pentru alte motive, a fost mai mare decât al

celor (O=2607 , P = 2720.6) dar mai mic decât al celor sosiţi în vacanţă…

În 1995 numărul vizitatorilor străini sosiţi pentru o vacanţă a fost mai mare decât al

celor (O=2274 , P = 2387.6) şi mai mic decât al celor sosiţi pentru alte motive

Concluzia: odată cu căderea comunismului un număr mai mare de vizitatori străini au

sosit în România pentru vacanţă decât pentru alte motive.

Stadiul 12

Se argumentează concluzia anterioară utilizându-se ca bază de pornire expresii precum:

“Există o relaţie semnificativă între motivaţia vizitării României şi anul în care are loc vizita

(Χ2 = 20.2, p=0.001) deoarece...

Se poate observa că acest test este primul test cu o dimensiune de prognozare. Este o formă

incipientă şi insuficientă pentru îndeplinirea funcţiei statistice de prognoză. Această funcţie se

îndeplineşte odată cu trecerea la tehnici de regresie şi analiză factorială.