236
  PARTEA I “Acolo, totul nu e decât ordine  şi frumuse  ţ e,  Lux, calm  şi voluptate”  Baudelaire 1 Relaţiile funcţionale 1.1 Ipotezele statistice, erorile şi riscul gen I şi II 1.2 Riscul respingerii ipotezei nule 1.3 Testul asocierii  , χ  (Chi, Hi sau X 2  , teoretic)  2 t  

Relatiile Statistice Puternice Ascunse

  • Upload
    skyicon

  • View
    97

  • Download
    0

Embed Size (px)

Citation preview

PARTEA IAcolo, totul nu e dect ordine i frumusee, Lux, calm i voluptate Baudelaire 1 Relaiile funcionale 1.1 Ipotezele statistice, erorile i riscul gen I i II 1.2 Riscul respingerii ipotezei nule 1.3 Testul asocierii, 2 (Chi, Hi sau X2 , teoretic) t

Relaiile statistice puternice, ascunse, false i iluzorii

Relaiile funcionale

1.1 Ipotezele statistice, erorile i riscul gen I i II Trinicia relaiilor funcionale este dat de repetabilitatea lor. Un scop major n tiin este acela de a permite prognoza fenomenelor naturale. Atingerea acestui obiectiv se face prin descoperirea relaiilor sistematice ntre variabilele predictive (independente, exogene, extrinseci, cauzale, stimuli) i variabilele de ieire, rezultative (dependente, endogene, intrinseci, efect, reacie). Dac variaia datelor variabilei predictive corespunde n acelai mod sau simultan cu variaia datelor variabilei rezultative, atunci avem o relaie funcional potenial i putem prognoza rezultatul pe care nc nu l-am aflat (observat) cunoscnd doar valoarea variabilei independente. Din pcate, ne confruntm cu surse variate de eroare ce provin din mediul din care am extras datele, din greelile legate de identificarea unor relaii ntmpltoare, din greeli de calcul sau rotunjire, din existena i neluarea n calcul a mai multe surse de influen simultan i altele. Cteodat se realizeaz o relaie sistematic ntre dou variabile pur i simplu din ntmplare, cnd nimic, cu excepia Erorii, nu opereaz. Din aceast cauz, trebuie s fim permanent n poziia de a distinge ntre rezultatele experimentelor care se produc doar datorit ansei sau erorilor provenite din mediu i acelea care indic prin repetabilitate o relaie sistematic ntre variabile. ncrederea n datele furnizate de o relaie este dat de repetabilitate, aa nct trinicia unei relaii este repetabilitatea ei. Dac exist cu adevrat o relaie sistematic ntre variabile, atunci una dintre ele va prezice cu regularitate valorile celeilalte. Dac aceast relaie se datoreaz mai degrab Erorii sau ntmplrii, ori mediului care conine alte relaii ce se ntreptrund,

Relaiile statistice puternice, ascunse, false i iluzorii

ascund, accelereaz ori reduc sau falsific unele relaii asociate, atunci nu ne putem baza pe ea i nu ne este de folos n prognoze. Dar ce facem cu fenomenul socio-economic, unde sunt miriade de relaii ntre variabile, funcii compuse i compuneri de funcii? Cercettorul ori experimentatorul care caut s deslueasc aceaste fenomene trebuie s tind, poate, pentru nelegere ctre poetica lumii lui Eminescu. Acesta avnd o lume a lui, personal, secret, destinat unei experiene solitare. Plin de fulguraii i umbre, de strbateri uluitoare i de ciudate fracturi i stagnri, de struine i de renateri a cror lege interioar uneori se las regndit, alteori nu. Un labirint de miraje, ecouri i oglinzi, de uitri i de anamneze, de masive construcii i de paragini, n care i-au lsat urmele i clipele i eonii, i timpul din lume i cellalt.7 Sunt deja civa ani buni de cnd Luceafrul lui Eminescu ne-a incitat dintr-un cu totul alt unghi dect a fcut-o cu pasionaii de literatur, de istorie a culturii, cu filosofii sau cu absolvenii de liceu. Ne-a uimit ce surprinztoare simetrie luntric posed, echilibrul dintre individual i general, dintre analitic i holistic structura sa aprndu-ne ca un model cruia i se poate aplica instrumentaia statistic cu cele mai subtile experimente posibile. Poemul a aprut n prima ediie a poeziilor lui Eminescu n decembrie 1883, ediie tiprit de Titu Maiorescu, dup ce n aprilie acelai an fusese publicat n Almanahul Societii academice social-literare Romnia Jun din Viena. n timp a suferit modificri, unele datorate nsui poetului, altele puse pe seama lui Titu Maiorescu despre care se spune c ar fi scos prin voia lui patru strofe din discursul Demiurgului. Subiectul poemului poate fi interpretat fie ca o reluare a mitului Sfntului Soare, o dezvoltare a temei folclorice a Zburtorului, care se arat fetei de mprat, o determin s se ndrgosteasc de el i apoi dispare, fie ca drama omului de geniu, fie ca o poveste de dragoste n care este pus n valoare tema incompatibilitii. Poemul n sine este o sintez de inspiraie: basmul popular romnesc Fata n grdina de aur, cules de germanul Richard Kunisch n cltoria sa prin Oltenia i publicat la Berlin n anul 1861, motivul amintit al zburtorului din folclorul romnesc, filozofia lui Arthur Shopenhauer legat de problema geniului, izvoare mitologice etc.

7

Petru Creia, Testamentul unui eminescolog, Editura Humanitas, 1998, pag.36

Relaiile statistice puternice, ascunse, false i iluzorii

Mersul ideilor Demiurgului ctre Luceafr este pentru Petru Creia8 urmtorul: mi ceri s-i iau eternitatea ca s poi muri, ca s te poi ntoarce n vecinicul repaos dup care, cuprins de ispita iubirii, atta nsetezi. Dar eu: a) Nu pot s-i dau condiia de muritor pentru c, noi fiind cosubstaniali, ar nsemna s m neg pe mine nsumi, s tgduiesc adevrul care ne cuprinde pe amndoi n venicia lui b) Chiar dac te-a face muritor, te-a integra ntr-o lume n care moartea la care aspiri este pur aparen, de vreme ce entitile pieritoare din care este fcut umplu nite tipare, nite Forme inalterabile, pe veci nepieritoare, sustrase timpului i devenirii; i-ai pierde doar identitatea, fr s te poi stinge n repaos, pierind i renscndu-te mereu n neodihna venic a naterilor i pierderilor care se perind prin eternitatea formelor. Mai mult, pentru a-i face i mai evident teza aceasta, vorbete cu el ca i cum a devenit deja, sau pur i simplu ar fi, o fiin pieritoare. Petru Creia subliniaz juxtapoziia a dou teze exprimate n prima parte a vorbirii Demiurgului: a) cea a diferenei i incompatibilitii dintre ordinea eternului i cea a efemerului i b) cea a eternitii formelor sau a tiparelor efemerului. Avnd la ndemn acest gen de comentarii, fascinaia argumentrii induce n orice cititor dorina de a contribui cu argumente la acel ceva ce ntrete i succit noi abordri. De aceea Experimentatorul propune abordarea prin metode cantitative, fie de statistic, fie de probabiliti, algebr sau analiz matematic. Dar cum putem recunoate c relaia observat este datorat sau nu ntmplrii (erorii)? De cele mai multe ori, metoda pe care oamenii de tiin o ntrebuineaz este o versiune mai organizat a bunului sim. S ne reamintim poezia Luceafrul creat de genialul Mihai Eminescu. Ctlina: l vede azi, l vede mni/Astfel dorina-i gata/ El iar privind de sptmni,/i cade drag fata. (repetabilitatea ce justific trinicia relaiei). Cauza genereaz efectele, rezultatele, reacia: M dor de crudul tu amor/A pieptului meu coarde,/ i ochii mari i grei m dor,/Privirea ta m arde.

8

Petru Creia, op.cit., pag.126

Relaiile statistice puternice, ascunse, false i iluzorii

Consecina este cererea: Dar dac vrei cu crezmnt/S te-ndrgesc pe tine, / Tu te coboar pe pmnt, /Fii muritor ca mine. Situaia grea n care se afl Hyperion este aceea a unui experimentator. Ambii doresc s afle dac ceea ce s-a ntmplat (chemrile repetate, oaptele) se datoreaz unui ceva important. n ambele cazuri, ei trebuie s se ngrijoreze dac reaciile obinute (datele) sunt produse de fluctuaiile necontrolate ale unor factori neinteresani. Ar trebui s se ntrebe pe ei nii: Am primit un mesaj important sau acesta este datorat zgomotului din mediu ? (variabilitii mediului). Hyperion nu tie dac toate aceste chemri nu au fost alarme false, adic ceea ce experimentatorul va numi erori de tip I, eroarea lui fiind n acest caz renunarea la nemurire, cnd de fapt nu exist dragoste. Cu alte cuvinte, crede n existena variabilei independente (amor), cnd aceasta nu exist. Dar mai exist un tip de eroare. Ce se ntmpl dac El nu renun la nemurire i dragostea exist? Experimentatorul tie c este eroarea de tip II9. Prin impunerea interveniei Demiurgului i evidenierea comportamentului Ctlinei, Eminescu ne convinge c Hyperion iubete i noi tim c Luceafrul cade n primul tip de eroare. - Tu-mi cei chiar nemurirea mea /n schimb pe-o srutare,/ Dar voi s tii asemenea/Ct te iubesc de tare. Ctlina face eroarea de tip II, ea fiind convins c Hyperion nu va renuna la nemurire: Lucete c-un amor nespus /Durerea s-mi alunge,/ Dar se nal tot mai sus/Ca s nu-l pot ajunge. Eroarea de tip I este corectat, acel ceva important nu exist, se pare c reaciile obinute sunt produse de fluctuaiile necontrolate ale unor factori neinteresani (muritorii Ctlin i Ctlina). Prin urmare, El tremur ca alte di/n codri i pe dealuri,/Cluzind singurti/De mictoare valuri;, Dar nu mai cade ca-n trecut / n mri din tot naltul;/- Ce-i pas ie, chip de lut,/Dac-oi fi eu sau altul ?

9 Mihi N.V., Eseu privind incertitudinea i comunicarea, Sesiunea tiinific a cadrelor didactice, Univ.George Bariiu, Braov, mai, 2000.

Relaiile statistice puternice, ascunse, false i iluzorii

n analiza cazului de mai sus, ipotezele H0 i H1 pentru Luceafr, respectiv Ctlina, sunt urmtoarele: Luceafr H0 nu exist diferene semnificative n comportament la diferitele ntlniri, nu m iubete, decizia: voi rmne nemuritor; H1 exist diferene de la ntlnire la ntlnire, m iubete, renun la nemurire. Ctlina H0 nu exist diferene n comportamentul Luceafrului (se deprteaz constant), decizia va fi c voi accepta flirtul lui Ctlin; H1 exist diferene, vrea s fie muritor ca i mine, m iubete i face sacrificiul suprem. Cum am apreciat anterior, eroarea Luceafrului este de genul nti, respinge ipoteza Ho, dei n realitate ea este adevrat, n timp ce Ctlina face, o eroare de genul al doilea, accept Ho, cnd ipoteza e fals.Reacie \ Ipotez Resping Ho-Luceafrul Accept Ho - Ctlina H0 adevrat Eroare gen I 1- H0 fals 1- Eroare gen II

Probabilitatea erorii de genul 1 se numete risc de genul I, reprezint un prag de semnificaie notat cu (alfa) , iar probabilitatea erorii de genul doi se numete risc de genul 2 i se noteaz cu (beta). Notm P(eroare tip I) = (alfa) = P(H1/dac Ho adevrat); P(eroare tip II) = (beta) = P(Ho/dac H1 adevrat). O decizie just este luat pe baza seleciei de date (sau observaii ori informaii) atunci cnd: (1) acceptm Ho cnd este adevrat, evitnd eroarea de genul 1 cu probabilitatea 1- i (2) respingem Ho cnd este fals i astfel nu comitem o eroare de genul 2, cu probabilitatea 1- . Dac judecm n continuare la rece, statistic, reaciile celor doi, atunci ajungem la un punct fundamental din punct de vedere experimental i anume ncercarea de a detecta un semnal n prezena unui mediu zgomotos. oaptele naturii, mrii, pdurii, vntului trebuie difereniate de oaptele iubitei;

Relaiile statistice puternice, ascunse, false i iluzorii

apariiile misteriosului Luceafr trebuie discriminate (separate) de apariiile altor nbdioi tineri (Ctlin). Decidentul dorete s afle dac rezultatele obinute cu un tratament experimental difer destul de mult de ceea ce se ntmpl n lipsa acestuia, pentru a decide dac variabila experimental este eficient. n mod natural, avem ncredere n date dac variabilele independente produc reacii previzibile. Vom decide acest fapt prin compararea nivelului de zgomot, variaie, analiznd datele n i fr prezena tratamentului. Trebuie s discriminm ntre zgomotul de fond i cel produs atunci cnd semnalul este prezent. Trebuie s deosebim combinaia zgomot+semnal de zgomotul n sine, ntrebndu-ne ct de probabil este s se produc evenimentul dac este doar zgomot. Hyperion auzea un zgomot, la un nivel acceptat al larmei provenit de pe pmnt. Unele zgomote ori oapte puteau fi o chemare. oaptele ca zgomote erau puin peste zgomotul de fond i puteau fi chemri. Ne putem imagina ce s-ar fi putut ntmpla cnd Ctlina i-ar fi spus Tu eti iubirea mea. Atunci, cu mari anse, s-ar fi produs evenimentul dragoste, dar i eroarea, prezumtiv, de tip II: odat ajuns muritor, relaia acceptat de ctre Ctlina cea uuratic s fie temporar. Tehnic, suntem interesai de un raport algebric ntre oaptele auzite i fonetele naturale. Dac oaptele se confund sau au acelai nivel cu larma obinuit, atunci raportul este, algebric, 1. Dac zgomotul este altfel dect larma obinuit, raportul este mai mare, caz n care, dac depete un anumit nivel de contientizare, produce reacia, deci apariia frumosului Luceafr. Pentru experimentator raportul este observaie / eroarea estimat. Rezult o privire asupra diferenei ntre tratament i condiiile de control n contrast cu diferenele ce se observ fr tratament. Dac raportul (semnal + zgomot) / zgomot este destul de mare fa de raportul zgomot/zgomot, atunci exist acel ceva, semnalul. n cazul nostru oapte+larm. n practic, cum pot decide experimentatorii c rezultatele sunt de ncredere? n primul rnd prin observarea acestora. Uneori este att de evident distorsionarea datelor, nct este clar intervenia variabilei tratament doar prin analiza experimental a comportamentului acesteia. Alternativa tiinific presupune ns analiza statistic deoarece ochiul i judecata obinuit sunt relativ insensibile n identificarea pragului de ncredere. Nu trebuie uitat c rezolvm cu greutate, fr creion sau calculator, dou ecuaii cu dou necunoscute. Cu att mai mult dac lum n experiment mai multe variabile independente. Poate ajuta doar reducerea nivelului de

Relaiile statistice puternice, ascunse, false i iluzorii

zgomot prin mrirea gradat a controlului experimentului, ceea ce nseamn intervenie i artificializare. De aceea este preferat analiza statistic modern. Ideea fundamental n cadrul aplicaiilor statistice moderne este aceea c acestea amplific abilitatea de a discrimina efectele tratamentelor experimentale. 1.2 Riscul respingerii ipotezei nule Analiza tabelar bivariat este una dintre multele tehnici de determinare a asocierii ntre dou variabile. Procentele trebuie calculate n cadrul categoriilor variabilei independente. Ele trebuie comparate ntre categoriile variabilei independente. Nu se construiesc i nu se calculeaz tabele cu date lips dect n circumstane agreate de statistician. Tabele bivariate de procente pentru variabile ordinale sau interval (ratio) sugereaz direcia pozitiv ori negativ sau forma liniar ori neliniar a relaiei. Sunt opinii care relev c procentele nu pot fi calculate pentru un numr (N) mai mic de 30 de cazuri, iar dup unii autori acest numr este 50 de cazuri sau chiar 100. O asociere statistic ntre dou variabile nu nseamn c ele sunt legate cauzal, aa nct asocierea nu implic cauzalitate. Dac lum n calcul probabilitatea de 0.05 (o ncercare din douzeci), aceasta reprezint o probabilitate destul de mic pentru a gsi o relaie ntr-un eantion, dac ea nu exist n rndul populaiei din care am extras eantionul, aa c putem respinge ipoteza nul ce presupune c acea relaie nu exist. Faptul c semnificaia statistic se bazeaz pe o probabilitate nseamn c niciodat nu putem fi siguri dac avem dreptate cnd respingem sau greim c nu respingem ipoteza nul. Erori se pot ntmpla. Cnd respingem ipoteza nul i este adevrat, comitem ceea ce statisticienii numesc Tipul I de eroare. Nivelul de semnificaie este probabilitatea de a comite o eroare de Tip I dac respingem ipoteza nul. La nivelul de 5% vom grei o dat din douzeci. Dac nu respingem o ipotez nul cnd este fals, comitem Tipul II de eroare. Ce se ntmpl cnd dorim s aflm dac variabila independent are influen? Spre exemplu, Hyperion poate raiona astfel: independent de el, exist o mulime de zgomote pe Pmnt. Unul dintre ele, variabil independent, este oapta Ctlinei: Cobori. Statistica ncearc s rezolve acest dubiu, decizia de a rspunde la apel, prin cuantificarea probabilitii evenimentului ca parte a zgomotului de fond. S presupunem c Luceafrul

Relaiile statistice puternice, ascunse, false i iluzorii

are o baz de date cu toate sunetele, zgomotele, fonetele, chemrile ntmplate sear de sear. Pentru simplificare, s lum numrul de date egal cu 1000. Teoretic, orice nou sunet, chemare, oapt, le poate compara cu cele 1000. Dac chemarea Cobori s-a ntmplat s spunem de mai mult de 200 de ori, el poate conchide c este ceva normal, se ntmpl tot timpul i deci nu este o oapt de dragoste, pe care de altfel o dorete. S nu uitm c l vede azi, l vede mni, /Astfel dorina-i gata,/El iar, privind de sptmni, /i cade drag fata. . Cum nu s-a mai ntmplat s-l cheme, ansele s fie din mediu sunt de 1/1000 i aceasta poate presupune altceva (dorina ateptat). n experimente, aceasta nseamn s comparm descoperirile cu ateptrile (cunoaterea) provenite din fluctuaiile aleatoare sau erori. Pentru o bucat de vreme, presupunem c totul se produce dintr-o ntmplare, eroare, i cutm s aflm ct de des ne putem atepta ca evenimentul s se produc dac supoziia noastr este adevrat. Acest fapt este identic cu a presupune c variabila independent nu are efect, ceea ce n statistic se numete ipoteza nul. n secolul al XVII-lea, Blaise Pascal (1623-1662) a creat un model matematic pentru situaii de joc pentru a nu fi nevoii s repetm experimentul de 1000 de ori, cazul nostru ipotetic. Modelul se cheam distribuie binomial. Testul, pentru o valoare specificat po a parametrului legii binomiale10 ca test exact, are urmtorii pai:PROCEDURA BINOMIAL 1) Se consider un eantion de volum n obinut din n probe independente, n care se obin X = r realizri (succese). n fiecare prob probabilitatea de a obine un succeseste p. Proporia observat de succese este r/n; 2) X are legea binomial Bi (n, p) ; 3) Ho : p = po (valoarea specificat a proporiei), H1 : p po (test bilateral) ; 4) Se alege pragul de semnificaie al testului statistic: = 0,05, de exemplu; 5) Se calculeaz statistica: P = Cr p0 (1 p 0 ) nn r r=x n r

(1)r n r

Probabilitile binomiale: P(X = r / n, p0) = Cr p0 (1 p 0 ) n

se determin prin

calcul direct sau folosind tabele ale legii binomiale, iar P se obine prin adunarea acestora; 6) Se respinge ipoteza nul Ho cu pragul de semnificaie, dac: P < .

10

Marius Iosifescu, Costache Moineagu, Vladimir Trebici, Emilia Urseanu, Mic enciclopedie de statistic, Editura tiinific i Enciclopedic, Bucureti, 1985, pag.480.

Relaiile statistice puternice, ascunse, false i iluzorii

Presupunnd c Luceafrul coboar de 7 ori din cele 10 chemri, netiind dac este iubit sau nu, atunci probabilitatea este 0,172. Aceasta nseamn c ne putem atepta s coboare la orice oapt n 17% din cazuri fr s tie dac este realmente dorit sau nu. Considerm c sunt cam riscante att de multe teleportri fr efect. Calculul poate fi efectuat n trei variante astfel: a) cum Luceafrul nu cunoate rezultatul chemrii (Cobori n jos, luceafr blnd /Alunecnd pe-o raz, /Ptrunde-n cas i n gnd, /i viaa-mi lumineaz! ), ipoteza nul va fi: Ho : p = 1/2 (nedeterminare maxim) fa de alternana H1 : p 1/2. Se calculeaz:1 P = C r =7 210 r 10 r

1 2

10 r

=

1 210

(120 + 45 + 10 + 1) = 0,172

b) Utiliznd tabelele binomiale11 avem: 1 1 1 1 P = P X = 7 / 10, + P X = 8 / 10, +P X = 9 / 10, + P X = 10 / 10, = 2 2 2 2 = 0,117 + 0,044 + 0,010 + 0,001 = 0,172.Probabiliti binomiale pentru n = 10 r 0 1 2 3 4 5 6 7 8 9 10 0.1 0.349 0.387 0.194 0.057 0.011 0.002 0 0 0 0 0 0.2 0.107 0.268 0.302 0.201 0.088 0.026 0.006 0.001 0 0 0 0.3 0.028 0.121 0.234 0.267 0.200 0.103 0.037 0.009 0.001 0 0 p 0.4 0.006 0.040 0.121 0.215 0.251 0.201 0.112 0.043 0.011 0.002 0 0.5 0.001 0.010 0.044 0.117 0.205 0.246 0.205 0.117 0.044 0.010 0.001 0.6 0 0.002 0.011 0.043 0.112 0.201 0.251 0.215 0.121 0.040 0.006

11

Keller Gerald, Warrack, Essentials of Business Statistics A systematic approach, Wadsworth Publishing Company, 1991, pag.A11

Relaiile statistice puternice, ascunse, false i iluzorii

c) Calculul se poate face utiliznd pachetul de programe MicrosoftEXCEL, urmnd procedura urmtoare: 1) Selecteaz csua din foaia de calcul unde va aprea rezultatul, 2) Selecteaz din meniul afiat iconia funciilor f x , 3) Alege categoria de funcie Statistical, 4) Selecteaz numele funciei BINOMDIST i 5) Introdu argumentele numrul de succese ateptate, numrul de ncercri, probabilitatea de succes, un argument logic FALSE/TRUE pentru verificarea ipotezelor. Rezultatele vor fi nsumate i literal vor arta astfel: =BINOMDISTR(7,10,0.5,FALSE)+BINOMDISTR(8,10,0.5,FALSE)+ BINOMDISTR(9,10,0.5,FALSE) +BINOMDISTR(10,10,0.5,FALSE), rezultatul fiind P cu valoarea 0,172, nesemnificativ de vreme ce este mai mare dect pragul de semnificaie de 0,01 i dect cel de 0,05, acceptndu-se ipoteza nul, adic rezultatul este nc nebulos la oricare coborre a Lucreafrului pe Pmnt. Dar care este probabilitatea de acceptat pentru ca evenimentele cercetate s se produc doar datorit ansei? Din punct de vedere logic, decizia este arbitrar, dar n practic se accept 5% sau mai puin. Aceasta este probabilitatea de a respinge ipoteza nul i este cunoscut ca nivel (alfa). Mrimea acestei variabile ne spune proporia n care ne ateptm s greim n respingerea ipotezei nule. La nivelul de 5% ne ateptm s respingem, n mod fals (incorect), ipoteza nul n 5% din cazuri sau o dat n douzeci de experimente. Respingerea incorect a ipotezei nule este eroarea de gen I. Pentru muli decideni, a gndi att de des eronat este inacceptabil. Ei vor dori s aeze pragul probabilitii mai jos (3%, 1%), deci 3 n 100 de experimente ori chiar o dat n 1000 de experimente (nivel 0,001). Dar, cu ct se micoreaz nivelul alfa, cu att crete riscul de a identifica o variabil independent care lucreaz. Aceasta este eroarea de genul II. Probabilitatea acesteia este denumit beta i nu este un singur numr, ci un set de numere. Valoarea ei depinde de proprietile populaiei examinate pe care de obicei nu le cunoatem.

Relaiile statistice puternice, ascunse, false i iluzorii

1.3 Testul asocierii, 2 (Chi, Hi sau X2 , teoretic)12 t Testul a fost introdus de Karl Pearson (1857-1936) n anul 1900 i de cele mai multe ori presupune verificarea ipotezei de asociere ntre: (1) rspunsurile obinute ntr-un chestionar la alternativele unei ntrebri i (2), verificarea unui set particular de date ce pot urma o distribuie statistic cunoscut. n problemele domeniilor socio-economice se aplic dup alctuirea unor tabele de contingen n care datele sunt clasificate dup una, dou sau mai multe variabile de segmentare. Acest test permite punerea n eviden a existenei/inexistenei unei legturi de asociere ntre subcolectivitile create de variabilele de segmentare studiate. Spre exemplu, cnd analizm rezultatele intervievrii prin chestionar, primul pas este acela de a afla ct de multe rspunsuri exist pentru fiecare alternativ a unei ntrebri. Se pot obine apoi proporiile sau procentele celor care au anumite puncte de vedere sau dein informaii legate de scopul construirii chestionarului. n faza a doua, se produc tabele de contingen a rezultatelor prin ncruciarea rspunsurilor la dou ntrebri X cu alternativele Xi, unde i = 1,.., r aezate ca rnduri (r) ale tabelului, i Y cu alternativele Yj, cu j = 1,, c aezate n coloanele ( c ) ale aceluiai tabel. n mod obinuit, ntrebrile considerate variabile de segmentare (atribute independente, cauzale, extrinseci, exogene, stimuli) sunt aezate n coloanele tabelului. nsumrile la captul liniei presupun neluarea n considerare a variabilei din coloane sau a altor variabile-ntrebri reprezentnd ct de multe rspunsuri exist pentru fiecare alternativ i a unei ntrebri X ce depinde de respondent (atribut sau caracteristic dependent, efect, intrinsec, endogen); de aceea totalul parial este notat cu Ti., unde punctul este simbolul indiferenei.

12

Deoarece expresia testului 2 este obinut pe baza observaiilor, rezult c este o statistic i deci nu este un parametru. mai este numit i test statistic neparametric sau test liber de repartiie, adic un test care nu depinde de forma legii iniiale de baz. (Mic enciclopedie de statistic, pag.382).

Relaiile statistice puternice, ascunse, false i iluzorii

Yj1.j.. c 1 . . Ti.

Xi

i . . r

x ij

Ti.=

x ijj=1

c

(2)

T.j . T.j . T..

n acelai fel, T.. reprezint totalul (numrul ) celor ce rspund la cele dou ntrebri X, Y (i poate fi mai mic sau egal cu cel al colectivitii intervievate), indiferent de alternativele de rspuns i sau j :T.jr

= x iji =1c

r

(3) (4)

T..= x ij x iji =1j=1

Etapele care trebuie parcurse sunt urmtoarele:PROCEDURA IDENTIFICRII RELAIEI POTENIALE 1. Formularea ipotezei nule H0, care afirm c ntre cele dou variabile-ntrebri de segmentare nu exist legtur cauzal sau asociere; 2. Alegerea nivelului ori pragului de semnificaie i calcularea numrului de grade de libertate al tabelului dup formula (r-1)(c-1); pe baza acestor date, se preia din tabelul repartiiei 2 valoarea lui 2 , teoretic (indicele t); t 3. Se calculeaz frecvenele teoretice ateptate (sperate, n cazul unui test de omogenitate), ij , dup urmtoarea formul:

ij =

( total linia i x total coloana j ) Ti. * T . j ; = total general T ..

(5)

2 4. Calcularea lui c (indicele c) cu ajutorul formulei:

2 c =

r

c

( xij - ij )2 ij

i =1 j=1

(6)

Relaiile statistice puternice, ascunse, false i iluzorii2 5. Se compar c cu 2 obinut din tabelul repartiiei 2 astfel: t2 dac c > 2 , se respinge ipoteza nul i deci exist o asociere ori relaie t potenial ntre variabilele de segmentare studiate; 2 dac c 2 , se admite ipoteza nul i deci nu exist o asociere ori relaie t potenial ntre variabilele de segmentare studiate.

Pentru cazurile dihotomice (dicotomice, dichotomice), se prefer formula calculrii rapide, robuste a lui 2 r Spre exemplificare considerm c avem matricea de mai jos:Atribute x1 x2 Total y1 x11 x21 T.1 y2 x12 x22 T.2 Total T1. T2. T..2

T..(x11 x 22 x 21 x12 ) (7) T.1 T.2 T1. T2 . Dac se stabilete c exist asociere ntre cele dou variabile de segmentare, se pune problema ct de corelate sunt acestea. Pentru a verifica acest lucru, se va calcula coeficientul de contingen C, pentru a msura gradul de asociere ntre variabilele tabelului de contingen. El se calculeaz indiferent de natura variabilelor (continue sau discrete) i indiferent de natura repartiiei acestora (normal sau nu) n cadrul populaiei supus cercetrii, dup modelul matematic propus de 2 statisticianul Karl Pearson pentru a ajusta c :2 Atunci c =

2 c [0,1] (8) 2 N + c Cu ct valoarea lui C este mai aproape de 1 (dar nu ajunge niciodat s fie egal cu 1), cu att variabilele sunt mai strns corelate. Trebuie reinut faptul c valoarea lui C depinde de numrul de rnduri i coloane, deci doi coeficieni de contingen nu pot fi comparai dect dac provin din tabele de contingen de aceeai mrime. De altfel, C nu poate fi niciodat mai mare ca valoarea calculat prin: (9) Cmax = Min(r 1, c 1)

C=

Min(r, c)

unde r i c sunt numrul de linii i coloane ale tabelului de contingen, iar Min semnific alegerea celei mai mici valori dup calcul.

Relaiile statistice puternice, ascunse, false i iluzorii

n cele ce urmeaz, vom exemplifica pe tabele de dou linii i dou coloane, valoarea maxim va fi 0,707 provenind din radical de 2, adic SQRT[Min (1,1)/Min(2,2)], unde SQRT nseamn funcia utilizat ca radical de ordin doi (acronim, square root engl.). Vom utiliza n exemplele urmtoare versiunea lui Cramer, cunoscut sub forma Cramrs V, prescurtat V. V= ( N)Min ( r 1, c 1)2

(10)

Evident, pentru tabele de contingen cu dou linii i dou coloane, sub radical se va afla doar raportul dintre Chi ptrat i numrul de observaii (frecvene), iar acest nou coeficent este cunoscut ca msura de asociere . IF ( < 10 relaia nu exist; IF ( < 30, slab spre modest, IF( < 50, moderat spre puternic, puternic spre foarte puternic))). n cazul utilizrii pachetului de programe MicrosoftEXCEL, procedura este urmtoarea: 1. Construiete tabelul de contingen cu frecvenele ori datele reale xij la care se ataeaz datele ateptate (estimate) ij , n ipoteza independenei caracteristicilor (atributelor) din linii i coloane, Alege csua din foaia de calcul unde va aprea un rezultat intermediar, Selecteaz din meniul afiat iconia funciilor f x , Alege categoria de funcie Statistical, Selecteaz numele funciei CHIINV care are nevoie de probabilitatea de risc obinut ca rezultat al cererii CHITEST(valori reale x ij , valori ateptate, estimate, ij ) i drept urmare n csua rezervat rezultatului final se scrie = CHIINV (CHITEST (col NV-col SE valori reale, idem valori ateptate, numr grade de libertate) 6. Alege csua pentru coeficientul de contingen V, 7. mparte sub radical (SQRT) valoarea calculat la pct.5 la totalul general T..=N multiplicat de min (r-1), (c-1) ori Pentru tabelele de contingen dihotomice este de preferat calculul robust deoarece elimin o parte din etapele de mai sus, iar valorile ntoarse de MicrosoftEXCEL nu sunt adesea ilustrate sau sunt sub

2. 3. 4. 5.

Relaiile statistice puternice, ascunse, false i iluzorii

forma #NUM!, mai ales atunci cnd, n mod evident, se accept ipoteza H1 , deci sunt influene puternice. (Pentru valori > 30) Aa cum am subliniat, pentru c msura depinde de N, numrul de observaii sau Totalul general al tabelului, se calculeaz msura de asociere (fi).

PREMIRE PARTIEL, tout nest quordre et beaut, Luxe, calme et volupt Baudelaire 1 Relations fonctionnelles 1.1 Les hypothses statistiques, les erreurs et le risque genre I et II 1.2 Le risque du rejet de lhypothse nulle 1.3 Le test de lassociation, 2 (Chi, Hi OU X2 , thorique) t

Relations statistiques fortes, caches, fausses et illusoires

Relations fonctionnelles

1.1 Les hypothses statistiques, les erreurs et le risque genre I et II La solidit des relations fonctionnelles est donne par leur rptabilit. Un but majeur de la science est de permettre la prvision des phnomnes naturels. Pour atteindre ce but il faut dcouvrir les relations systmatiques entre les variables prdictives (indpendantes, exognes, causales, stimulus) et les variables de clture, rsultatives (dpendantes,endognes, intrinsques, effet, raction). Si la variation des donnes de la variable prdictive correspond de la mme manire et simultanment la variation des donnes de la variable rsultative, alors on a une relation fonctionnelle potentielle et on peut prvoir le rsultat quon na pas encore appris (observ) connaissant seulement la valeur de la variable indpendante. Malheureusement, on est confront des sources varies derreurs qui proviennent de lenvironnement do on a extrait les donnes, des erreurs rattaches lidentification des relations occasionnelles, des erreurs de calcul ou dapproximation, de lexistence et de lignorance dans le calcul de plusieurs sources dinfluence simultanne et al. Parfois on ralise une relation systmatique entre deux variables tout fait par hasard, au moment o rien, sauf lerreur ne fonctionne. Vu cela il faut toujours faire la distinction entre les rsultats des expriments qui se produisent seulement par hasard ou cause des erreurs dues lenvironnement et les rsultats qui indiquent par la rptabilit, une relation systmatique entre les variables. La confiance dans les donnes fournies par une relation est donne par la rptabilit, la solidit dune relation est donne par la rptabilit. Sil y a vraiment une relation systmatique entre les variables, alors une delles va prdire rgulirement les valeurs de lautre. Si cette relation est due plutt lErreur ou au hasard, ou lenvironnement qui contient ces

Relations statistiques fortes, caches, fausses et illusoires

relations qui sentrecroisent, cachent, accelrent ou rduisent, falsifient des relations associes, alors on ne peut pas compter sur cette relation et on ne peut pas lemployer dans des prvisions. Mais quoi faire avec le phnomne socio-conomique, o il y a des myriades de relations entre les variables, fonctions composes et compositions de fonctions? Le chercheur ou lexprimentateur qui cherchent dchiffrer ces phnomnes doivent, peut-tre, esprer comprendre la potique du monde de Mihai Eminescu. Celui-ci ayant un monde lui, personnel, secret, destin une exprience solaire. Plein de fulgurations et dombres, de parcours surprenants et dtranges fractures et stagnations, dinsistances et de renaissances dont la loi interne se laisse tantt remodele, tantt non. Un labyrinthe de mirages, dchos, de miroirs, doublis et danamnses, dnormes constructions et des constructions dlabres, o ont laiss leurs traces et instants et ons, le temps dici et celui dailleurs .7 Il y a dj quelques annes depuis que le clebre pome Luceafrul (LAstre/Gnie) de Mihai Eminescu nous a incit dun autre point de vue que celui des gens passionns par la littrature, la philosophie, ou les simples bacheliers obligs de linterprter devant les commissions dexamen. Nous avons t surpris par sa symtrie inhrente, lquilibre entre individuel et gnral, analytique et cholistique, sa structure nous apparaissant comme un modle auquel on peut appliquer linstrumentation statistique avec les expriments les plus subtiles. Le pome a paru dans la premire dition des posies de M. Eminescu en dcembre 1883, dition publie par Titu Maiorescu, aprs avoir t publi au mois davril de la mme anne dans lAlmanach de la Socit acadmique socio-littraire Romnia Jun de Vienne. Le pome a subi des modifications attribues soit Eminescu mme, soit Maiorescu auquel on attribue lenlvement de quatre strophes du discours du Dmiurge. Le sujet du pome peut tre interprt comme une reprise du mythe du Saint Soleil, un dveloppement du thme du Voleur duquel tombe amoureuse la fille du roi et qui disparat ensuite, ou bien le drame du gnie, ou lhistoire dun amour incompatible. Le pome en soi porte lempreinte de plusieurs sources dinspiration: le conte populaire roumain La jeune fille dans le jardin dor, recueilli par lallemand Richard Kunish lors de son voyage en Oltnie (le sud de la Roumanie) et publi Berlin en 1861, le thme folklorique roumain du Voleur, la philosophie de Shopenhauer concernant le Gnie, des sources mythologiques, etc.7

Petru Creia, Testamentul unui eminescolog, Editura Humanitas, 1998, pag.36.

Relations statistiques fortes, caches, fausses et illusoires

Lvolution des ides du Dmiurge vers lAstre/Gnie est pour Petru Creia8 la suivante: tu me demandes de tenlever lternit pour pouvoir mourir, pour pouvoir retourner dans lternel repos que tu, sduit par lamour, dsires ardamment. Mais moi: a) Je ne peux pas te rendre la condition de mortel parce que, tant cosubstanciels tous les deux, cela signifierait me nier moi-mme, nier la vrit qui nous comprend les deux dans son ternit... b) Mme si je te faisais mortel, je tintgrerais dans un monde o la mort laquelle tu aspires est pure apparence, puisque les entits mortelles qui la forment remplissent des moules, des Formes inaltrables, ternelles, soustraites au temps et au devenir; tu perdrais ainsi seulement ton identit, sans pouvoir mourir en paix, disparaissant et renaissant toujours dans le non-repos perptuel des naissances et des pertes qui se succdent par lternit des formes. Plus, pour lui faire mieux comprendre cette thse, il lui parle comme sil est dj ou comme sil avait dj t un tre mortel. Petru Creia souligne la juxtaposition de deux thses exprimes dans la premire partie du discours du Dmiurge: a) celle de la diffrence et de lincompatibilit entre lordre de lternel et celui de lphmre et b) celle de lternit des formes ou des moules de lphmre. Ayant la disposition ce genre de commentaires, la fascination de largumentation transmet au lecteur le dsir de contribuer avec ce qui renforce et suscite de nouvelles approches. Cest pourquoi lExprimentateur propose une approche par des mthodes quantitatives de statistique, de probabilits, dalgbre ou danalyse mathmatique. Mais comment peut-on voir si la relation observe est due ou non au hasard (erreur)? La plupart des fois la mthode utilise par les hommes de science est une version plus organise du bon sens. Rappelons-nous la posie Luceafrul (lAstre/Gnie)* cre par le grand pote Mihai Eminescu. Ctlina: Et le dsir, en elle, du jour/ Au lendemain, naquit/ de longues semaines aprs, lamour/ Pour elle sveille en lui. (la rptition qui justifie la solidit de la relation)**. La cause gnre les effets, les resultats, la raction: Car sans piti est ton amour,/ Met la douleur lme,/ Font mal tes yeux si grands et lourds,/ et ton regard est flamme.8

Petru Creia, op.cit., pag.126 * dans le texte, on appellera le pome de Mihai Eminescu Luceafrul (comme en roumain) et le hros principal du pome lAstre/Gnie ** la traduction en franais des vers est prise du volume Mihai Eminescu Poezii/Posies traduction Elisabeta Isanos, Editura Libra, Bucarest, 1994

Relations statistiques fortes, caches, fausses et illusoires

La consquence est la demande: Mais si tu veux que pour de vrai/ Je taime de toute ma foi,/ Descends sur terre, jamais,/ Sois mortel, comme moi. La situation difficile dans laquelle se trouve Hyprion est celle dun exprimentateur. Les deux dsirent apprendre si ce qui sest pass ( les appels rpts, les murmures) est d quelque chose dimportant. Dans les deux cas ils doivent sinquiter si les ractions obtenues (les donnes) sont produites par les fluctuations noncontroles de certains facteurs sans intrt. Ils devraient se demander eux-mmes Jai reu un message important, ou bien il est d au bruit de lenvironnement ( la variabilit de lenvironnement)? Hyprion ne sait pas si tous ces appels/messages nont pas t de fausses alarmes, cest--dire ce que lexprimentateur appellera erreurs de type l, son erreur tant dans ce cas le renoncement limmortalit quand en fait il ny a pas damour. Autrement dit il croit dans lexistence de la variable indpendante (amour), quand lamour nexiste pas. Mais il y a encore un autre type derreur. Quest-ce qui se passe sil ne renonce pas limmortalit, mais lamour existe? Lexprimentateur sait que cest une erreur de type ll9. Par lintervention du Dmiurge et la mise en vidence du comportement de Ctlina, Eminescu nous convainc que Hyprion aime et nous savons que lAstre/Gnie commet une erreur de type l. -Pour un baiser, en guise de prix,/Lternit elle-mme.../ Je te ferai savoir, aussi,/ Combien fort je taime Ctlina fait une erreur de type ll, convaincue que Hyperion ne renoncera pas limmortalit: Il brille avec amour, au moins/ Pour apaiser ma peine/ Mais je serai toujours loin/ De sa lumire hautaine. Lerreur de type l est corrige, ce quelque chose dimportant nexiste pas, et les ractions obtenues sont produites par les fluctuations incontroles de certains facteurs sans intrt (les mortels Ctlin et Ctlina). Par consquent, Il tremble comme auparavant,/ Au bois, sur les collines,/ Et guide les dserts mouvants/ Des vagues qui se ruinent; Mais, vers la mer, de la nuit,/ Maintenant, rien ne porte/ Son corps: - Si cest moi ou lui./ Argile, cela timporte ?9

Mihi N.V., Eseu privind incertitudinea i comunicarea, Sesiunea tiinific a cadrelor didactice, Univ.George Bariiu, Braov, mai, 2000.

Relations statistiques fortes, caches, fausses et illusoires

Dans lanalyse du cas ci-dessus, les hypothses H0 et H1 pour lAstre/Gnie et pour Ctlina sont les suivantes: LAstre/Gnie H0 il ny a pas de diffrences significatives dans le comportement aux diffrentes rencontres, elle ne maime pas, la dcision: je resterai immortel; H1 il y a des diffrences chaque rencontre, elle maime, je renonce limmortalit Ctlina H0 il ny a pas de diffrences dans le comportement de LAstre/Gnie (il sloigne constamment), la dcision sera que jaccepterai le flirt de Ctlin; H1 il y a des diffrences, il veut tre mortel comme moi, il maime et fait le sacrifice suprme. Comme nous lavons dj dit, lerreur de lAstre/Gnie est de premier genre, rejette lhypothse H0. bien quen ralit elle soit vraie tandis que Ctlina fait une erreur de deuxime genre, accepte H0 quand lhypothse est fausse.Reaction \ Hypothse Rejette Ho-Astre/Gnie Accepte Ho - Ctlina H0 vraie Erreur genre I 1- H0 fausse 1- Erreur genre II

La probabilit de lerreur de genre 1 sappelle risque de genre I, reprsente un un seuil de signification not avec (alfa) , et la probabilit de lerreur de genre deux sappelle risque de genre 2 et est not avec (beta). Notons P(erreur type I) = (alfa) = P(H1/si Ho vraie); P(erreurtip II) = (beta) = P(Ho/si H1 vraie). Une dcision juste est prise sur la base de la slection des donnes (observations ou informations) lorsque: (1) nous acceptons Ho comme vraie, vitant lerreur de genre l probabilit 1- , et (2) nous rejetons Ho quand elle st fausse et nous ne commettons pas ainsi une erreur de genre 2, probabilit 1- . Statistiquement, les ractions des deux nous mnent un lment fondamental du point de vue exprimental, cest--dire la tentative de trouver dans le signal la prsence d un environnement bruyant. Les bruits de la nature, de la mer, de la fort, du vent, doivent tre spars/diffrencis des

Relations statistiques fortes, caches, fausses et illusoires

chuchotements de la bien-aime; les apparitions du mystrieux Astre doivent tre spares des apparitions des autres jeunes foltres (Ctlin). Le dcideur dsire savoir si les rsultats obtenus par un traitement exprimental diffrent beaucoup de ce qui se passe en son absence pour dcider si la variable exprimentale est efficace. Dhabitude on a confiance dans les donnes si les variables indpendantes produisent des ractions prvisibles. Nous dcidons cela par la comparaison du niveau de bruit, variation, analysant les donnes en et sans la prsence du traitement. Il faut faire la diffrence entre le bruit de fond et celui produit en prsence du signal. Il faut diffrencier la combinaison bruit+signal du bruit en soi nous demandant quelle est la probabilit que cet vnement se produise sil y a seulement du bruit. Hyprion entendait un niveau prcis du vacarme du monde den bas. Certains bruits ou murmures pouvaient tre des appels. Les murmures comme bruitstaient un peu plus forts que le bruit de fond et pouvaient tre des appels. Nous pouvons nous imaginer ce qui pouvait se passer quand Ctlina aurait dit tu es mon amour. Il y a beaucoup de chances que lvnement amour se produise, mais aussi lerreur prsomptive, de type ll: une fois devenu mortel, la relation accepte par Ctlina la frivole serait temporaire. Techniquement parlant, nous sommes intresss par un rapport algbrique entre les murmures entendus et les bruits naturels. Si les murmures se confondent ou ont le mme niveau que le vacarme habituel, alors le rapport est, algbriquement, 1. Si le bruit est diffrent du vacarme habituel, le rapport est plus grand, et sil dpasse un certain niveau de conscientisation, produit la raction, donc lapparition du bel Astre/Gnie. Pour lexprimentateur, le rapport est observation/erreur estime. Il en rsulte une observation de la diffrence entre traitement et conditions de contrle en contraste avec les diffrences observables sans traitement. Si le rapport (signal+bruit) / bruit est assez grand en rapport avec bruit/bruit, alors il y a ce quelque chose, le signal. Dans notre cas, murmures+vacarme. Comment les exprimentateurs peuvent-ils dcider sur la validit des rsultats? Premirement en passant en revue ceux-ci. Parfois la distorsion des donnes est si vidente que lintervention de la variable traitement est saisissable seulement par lanalyse exprimentale du comportement de celleci. Lalternative scientifique suppose cependant lanalyse statistique car loeil et le raisonnement habituel sont relativement insaisissables dans lidentification du seuil de confiance. Il ne faut pas oublier aussi quon rsoud difficilement sans crayon ou ordinateur deux quations deux inconnues. Et encore plus difficilement si lexpriment a plusieurs variables indpendantes.

Relations statistiques fortes, caches, fausses et illusoires

Ce qui peut nous aider cest la rduction du niveau de bruit par la croissance graduelle du contrle de lexpriment, ce qui signifie intervention et artifice. Cest pourquoi lanalyse statistique moderne est prfrable. Lide fondamentale dans le cadre des applications statistiques modernes est quelle amplifie labilit de diffrencier les effets des traitements exprimentaux. 1.2 Le risque du rejet de lhypothse nulle Lanalyse tabulaire bivalente est une des multiples techniques de dtermination de lassociation entre deux variables. Les pourcentages doivent tre calculs dans le cadre des catgories de la variable indpendante. Ils doivent tre compars dans le cadre des catgories de la variable indpendante. On ne construit et on ne calcule des tableaux qui manquent de donnes que dans des circonstances agres par le statisticien. Les tableaux bivaris de pourcentages pour les variables ordinales ou intervalle (ratio) suggrent la direction positive ou ngative ou la forme lineaire ou non-linaire de la relation. Il y a des opinions selon lesquelles les pourcentages ne peuvent pas tre calculs pour un nombre (N) infrieur 30 cas, ou, daprs autres auteurs, pour moins de 50 ou 100. Une association statistique entre deux variables ne signifie pas quil y a une relation causale entre elles, donc lassociation nimplique pas la causalit. Si on prend en considration la probabilit de 0,05 (un sur vingt), celleci reprsente une probabilit assez rduite pour trouver une relation dans un chantillon si elle nexiste pas dans la population de laquelle on a extrait, donc on peut rejeter lhypothse nulle qui suppose que cette relation nexiste pas. Le fait que la signification statistique est base sur une probabilit signifie quon ne peut jamais tre sr davoir ou non raison quand on rejette ou quand on se trompe et on ne rejette pas lhypothse nulle. Des erreurs apparaissent. Quand nous rejetons lhypothse nulle et elle est vraie, nous commettons ce que les statisticiens appellent le Type l derreur. Le niveau de signification est la probabilit de commettre une erreur de type l si nous rejetons lhypothse nule. Au niveau de 5% nous allons nous tromper une fois sur vingt. Si nous ne rejetons pas une lhypothse nule quand elle est fausse, nous commettons le Type ll derreur. Quest-ce qui se passe quand nous dsirons savoir si la variable indpendante a une influence? Par exemple, Hyprion peut raisonner ainsi: indpendamment de lui il y a beaucoup de bruits sur la Terre. Une des variables indpendantes est le murmure de Ctlina: Descends.... La statistique essaie de rsoudre ce doute, la dcision de rpondre lappel, par la quantification de la probabilit de lvnement comme partie du bruit de fond.

Relations statistiques fortes, caches, fausses et illusoires

Supposons que lAstre/Gnie a une base de donnes avec tous les bruits, les sons, les bruissements, les appels faits soir aprs soir. Pour simplifier, prenons le nombre de donnes gal 1000. Thoriquement, tout nouveau son, appel, murmure peut tre compar avec les 1000 autres. Si lappel Descends...a t fait plus de 200 fois, il peut conclure que cest quelque chose de normal, que cela arrive toujours et que par consequent ce nest pas un mot damour, quil dsire dailleurs. Noublions pas que: Et le dsir, en elle, du jour/ Au lendemain, naquit/ de longues semaines aprs, lamour/ Pour elle sveille en lui. Comme elle ne la plus appel, les chances que ce soit quelque chose de lenvironnement sont de 1/1000 et il peut croire autre chose ( le dsir attendu). Dans les expriments, cela signifie comparer les dcouvertes avec les attentes (le savoir) provenues des fluctuations alatoires ou des erreurs. Pour quelque temps, nous supposons que tout se produit par hasard, erreur, et nous cherchons voir quelle frquence lobservation se produit si notre supposition est vraie. Cest la mme chose avec la supposition que la variable indpendante na pas deffet, appele dans la statistique lhypothse nulle. Au XVII-ime sicle, Blaise Pascal (1623-1662) a cr un modle mathmatique pour des situations de jeu pour ne pas tre obligs de rpter lexpriment 1000 fois, notre cas hypothtique. Le modle sappelle distribution binomiale. Le test pour une valeur spcifie p du paramtre de la loi binomiale10 comme test a les pas suivants:o

PROCEDURE BINOMIALE 1). On considre un chantillon de volume n obtenu de n preuves indpendantes, dans lesquelles on obtient X = r ralisations (succs). Dans chaque preuve la probabilit dobtenir un succsest p. La proportion observe de succs est r/n; 2) X a la loi binomiale Bi (n, p) ; 3) Ho : p = po (valeur specifie de la proportion, H1 : p po (test bilatral) ; 4) On choisit le seuil de signification du test statistique: = 0,05, par exemple; 5) On calcule la statistique: P = Cr p0 (1p0) nr r=x n n r

.n r

(1)on dtermine par

Probabilits binomiales:

r P (X = r / n , p0) = Crn p0 (1 p 0)

calcul direct ou en employant des tableaux de la loi binomiale et P sobtient par laddition de ceux-ci. 6) On rejte lhypothse nulle Ho avec le seuil de signification, si: P < .

10

Marius Iosifescu, Costache Moineagu, Vladimir Trebici, Emilia Urseanu, Mic enciclopedie de statistic, Editura tiinific i Enciclopedic, Bucureti, 1985, pag.480.

Relations statistiques fortes, caches, fausses et illusoires

Supposant que lAstre/Gnie descend 7 fois des 10 appels, ne sachant pas sil est aim ou non, alors la probabilit est de 0,172. Cela signifie quil pourrait descendre nimporte quel appel en 17 des cas sans savoir sil est rellement dsir ou non. Nous considrons que tellement de tlportations sans effet sont un peu trop risques. Le calcul peut tre effectu en trois variantes: a) comme lAstre/Gnie ne connat pas le rsultat de lappel (Par un rayon, doucement, tu puis/ Descendre de lespace,/ Viens illuminer ma vie,/Comme tu claires ma place!), lhypothse nulle sera: : p = 1/2 (nondtermination maximale) par rapport l alternance HoH1 : p10

1/2. On calcule:r 10 r r 10

1 1 P = C r =7 2 2

=

1 210

(120 + 45 + 10 + 1) = 0,172 .

b) Utilisant les tableaux binomiales11 on a: 1 1 1 1 P = P X = 7 / 10, + P X = 8 / 10, +P X = 9 / 10, + P X = 10 / 10, = 2 2 2 2 = 0,117 + 0,044 + 0,010 + 0,001 = 0,172.Probabilits binomiales pour n = 10 r 0 1 2 3 4 5 6 7 8 9 10 0.1 0.349 0.387 0.194 0.057 0.011 0.002 0 0 0 0 0 0.2 0.107 0.268 0.302 0.201 0.088 0.026 0.006 0.001 0 0 0 0.3 0.028 0.121 0.234 0.267 0.200 0.103 0.037 0.009 0.001 0 0 p 0.4 0.006 0.040 0.121 0.215 0.251 0.201 0.112 0.043 0.011 0.002 0 0.5 0.001 0.010 0.044 0.117 0.205 0.246 0.205 0.117 0.044 0.010 0.001 0.6 0 0.002 0.011 0.043 0.112 0.201 0.251 0.215 0.121 0.040 0.006

11

Keller Gerald, Warrack, Essentials of Business Statistics A systematic approach, Wadsworth Publishing Company, 1991,pag.A11

Relations statistiques fortes, caches, fausses et illusoires

c) Le calcul peut se faire utilisant le paquet de logiciels MicrosoftEXCEL suivant la procduresuivante: 1) Slecter la case de la fiche du calcul o apparatra le rsultat, 2) Slecter du menu affich licne des fonctions f x , 3) Choisir la catgorie de fonction Statistical, 4) Slecter le nom fonction BINOMDIST et 5) Introduire les arguments nombre de succs attendus, nombre dessais, probabilit de succs, un argument logique FALSE/TRUE pour vrifier les hypothses. Les rsultats seront additionns et littralement elles seront comme a: =BINOMDISTR(7,10,0.5,FALSE)+ BINOMDISTR(8,10,0.5,FALSE) +BINOMDISTR(9,10,0.5,FALSE) +BINOMDISTR(10,10,0.5,FALSE), le rsultat tant P valeur 0,172, pas significative tant quelle est plus grande que le seuil de signification de 0,01 de mme que de celui de 0,05 en acceptant lhypothse nulle, cest--dire le rsultat est encore nbuleux pour chaque descente de lAstre/Gnie sur Terre. Mais quelle est la probabilit accepter pour que les vnements tudis se produisent seulement par hasard? Du point de vue logique, la dcision est arbitaire, mais en pratique on accepte 5% ou moins. Celle-ci est la probabilit de rejeter lhypothse nulle et elle est connue comme niveau (alfa). La valeur de cette variable nous dit la proportion dans laquelle on attend faire une erreur quand on rejette lhypothse nulle. Au niveau de 5% nous attendons rejeter, incorrectement, lhypothse nulle en 5% des cas ou une fois sur vingt expriments. Rejeter incorrectement lhypothse nulle est lerreur de genre l. Pour beaucoup de dcideurs, faire si souvent cette erreur est inacceptable. Ils voudront placer le seuilde probabilit plus en bas (3%), donc 3 fois sur cent, sinon sur mille expriments (niveau 0,001). Mais plus ils rduisent le niveau alfa, plus grandit le risque didentifier une variable indpendante qui fonctionne. Cest lerreur de genre ll. Sa probabilit est appele beta et ce nest pas un seul nombre, mais un set de nombres. Sa valeur dpend des proprits de la population tudie que nous connaissons dhabitude.

Relations statistiques fortes, caches, fausses et illusoires

1.3 Le test de lassociation 2 (Chi, Hi ou X2 thorique) 12 t Le test a t introduit par Karl Pearson (1857-1936) en 1900 et pour la plupart des cas il suppose la vrification de lhypothse dassociation entre (1) les rponses obtenues dans un questionnaire aux alternatives dune question et (2), la vrification dun set particulier de donnes qui peuvent admettre une distribution statistique connue. Dans nos problmes il sapplique aprs la cration des tableaux de contingence dans lesquels les donnes sont classifies selon une, deux ou plusieurs variables de segmentation. Ce test permet la mise en vidence de lexistence/inexistence dun lien dassociation entre les sous-collectivits cres par les variables de segmentation tudies. Par exemple, lorsquon analyse les rsultats dun questionnaire, le premier pas est dapprendre combien de rponses existent pour chaque alternative dune question. On peut obtenir ainsi les proportions ou les pourcentages de ceux qui ont certains points de vue ou dtiennent des informations concernant le but de la cration du questionnaire. Dans la deuxime tape, on produit les tableaux de contingence des rsultats par le croisement des rponses deux questions X avec les alternatives Xi o i = 1,.., r places comme rangs (r) du tableau et Y aves les alternatives Yj, avec j = 1,, c places en colonnes ( c ) du mme tableau. Dhabitude, les questions considres variables de segmentation (attributs indpendants, de cause, extrinsques, exognes, stimulus) sont places en colonne dans le tableau. Les sommes du bout de la ligne supposent quon ne prend pas en considration la variable des colonne ou dautres variables-questions reprsentant combien de rponses existent pour chaque alternative i dune question X qui dpend du rpondant (attribut ou caractristique dpendante, effet, intrinsque, endogne), cest pourquoi le total partiel est not Ti., o le point est le symbole de lindiffrence.

12

Puisque lexpression du test est obtenue sur la base des observations, il rsulte que cest une statistique et donc pas un paramtre. Il est aussi appel test statistique nonparametrique, ou test libre de rpartition, cest--dire un test qui ne dpend pas de la forme de la loi initiale de base. (Mic enciclopedie de statistic, pag.382.).

2

Relations statistiques fortes, caches, fausses et illusoires

Yj1.j.. c 1 . .c

Ti.

Xi

i . . r

x ij

Ti.=

x ijj=1

(2)

T.j . T.j . T..

De la mme manire, T.. reprsente le total (nombre) de ceux qui rpondent aux deux questions X,Y ( et peut tre plus petit ou gal celui de la collctivite interroge), quelles que soient les alternatives de rponses i ou j.T.jr

= x iji =1c

r

(3) (4)

T..= x ij x iji =1j=1

Etapes parcourir:PROCEDURES D IDENTIFICATION DE LA RELATION POTENTIELLE 1. Enonciation de lhypothse nulle H0, qui affirme quentre les deux variablesquestions de segmentation il ny a pas de lien causal, ou association; 2. Choix du niveau ou du seuil de signification et calcul du nombre de degrs de libert du tableau selon la formule (r-1)(c-1); vu ces donnes on prend du tableau de la rpartition 2 la valeur du 2 , thorique (indice t); t 3. On calcule les frquences thoriques attendues (espres, dans le cas dun test dhomognit), ij , selon la formule suivante:

( total ligne i x total colonne j ) Ti. T. j = ; total general T.. 2 4. Calcul du c calcul (indic c) par la formule: ij =2 c = r c

(5)

( xij - ij )2 ij

i =1 j=1

(6)

Relations statistiques fortes, caches, fausses et illusoires2 5. On compare c avec 2 obtenu du tableau de la rpartition 2 ainsi: t

2 si c > 2 on rejte lhypothse nulle et donc il existe une association ou une t relation potentielle entre les variables de segmentation tudies; 2 si c 2 on admet lhypothse nulle et donc il nexiste pas une association t ou une relation potentielle entre les variables de segmentation tudies.

Pour les cas dichotomiques, on prfre la formule du calcul rapid, robuste 2 r Comme exemple, considrons le tableau ci-dessousAttributs x1 x2 Total2 Alors c =

y1 y1 x11 x21

y2 y2 x12 x22

Total Total T1. T2.2

T..(x11 x 22 x 21 x12 ) T.1 T.2 T1. T2 .

(7)

Si on tablit quil y a une association entre les deux variables de segmentation, on se demande quelle corrlation existe entre elles. Pour vrifier cela, on va calculer le coefficient de contingence C, pour mesurer le degr dassociation entre les variables du tableau de contingence. Il se calcule quelle que soit la nature des variables (continues ou discrtes) et la nature de la rpartition de celles-ci (normale ou non) dans le cadre de la population implique dans la recherche selon le modle mathmatique 2 propos par le statisticien Karl Pearson pour ajuster c :2 c [0,1] (8) 2 N + c Plus la valeur du C est proche de 1 (mais narrive pas tre gale 1), plus les variables sont en corrlation. Il faut retenir le fait que la valeur du C dpend du nombre de lignes et de colonnes, donc deux coefficients de contingence peuvent tre compars seulement sils proviennent des tableaux de contingence dune mme valeur. Dailleurs, C ne peut jamais tre plus grand que (9) Cmax = Min(r 1, c 1)

C=

Min(r, c)

o r et c sont le nombre de lignes et de colonnes du tableau de contingence, et Min (minimum) signifie le choix de la valeur la plus petite aprs le calcul.

Relations statistiques fortes, caches, fausses et illusoires

Comme on va lexemplifier sur des tableaux deux lignes et deux colonnes, la valeur maximale sera de 0,707, radical de 2, soit SQRT[Min(1,1)/Min(2,2)], o SQRT signifie la fonction utilise comme radical dordre deux(square root, angl). On va utiliser dans les exemples suivants la version de Cramer, connue sous la forme de Cramers V, abrg V.V= ( N)Min ( r 1, c 1)2

.

(10)

Evidemment, pour les tableaux de contingence deux lignes et deux colonnes, sous le radical se trouvera seulement le rapport entre Chi carr et le nombre dobservations (frquences), et ce nouveau coefficient est connu comme mesure dassociation association . IF ( < 10 la relation nexiste pas; IF ( < 30, rduite vers modre, IF( < 50, mo0064re vers forte, forte vers trs forte))). Dans le cas de lutilisation du paquet de logiciels Microsoft EXCEL la procdure est la suivante: 1. Construisez le tableau de contingence avec les frquences ou les donnes relles x ij auxquelles on attache les donnes attendues ij dans lhypothse de lindpendance des caractristiques (attributs) des lignes et des colonnes, 2. Choisissez la case de la feuille de calcul ou va apparatre un rsultat intermdiaire, 3. Slectez du menu affich l icne des fonctions f x , 4. Choisissez la catgorie de fonction Statistical, 5. Slectez le nom de la fonction CHIINV qui a besoin de la probabilit de risque obtenue comme rsultat de la demande CHITEST(valeurs relle x ij , valeurs attendues, estimes, ij ) et par la suite dans la case rserve au rsultat final scrit = CHIINV (CHITEST (coin NV-coin SE valeur relle, idem valeur attendue), nombre de degrs de libert) 6. Choisissez la case pour le coefficient de contingence V, 7. Divisez sous sub radical (SQRT) la valeur calcule du point 5 par le total gnral T..=N multipli de min (r-1), (c-1) fois. Pour les tableaux de contingence dichotomiques il est prfrable le calcul robuste car il limine une partie des tapes ci-dessus et les valeurs renverses de MicrosoftEXCEL ne sont pas toujours illustres, ou sont

Relations statistiques fortes, caches, fausses et illusoires

sous la forme #NUM!, surtout quand, videmment, on accepte lhypothse H1 , donc, il y a de fortes influences. (Pour valours > 30) Comme nous lavons dj soulign, parce que la mesure dpend de N, le nombre dobservations ou le Total gnral du tableau, on calcule la mesure dassociation (fi).

PARTEA a II-aIubii deci raiunea i pentru a voastre lire Din ea luai i frumosul i-a ei strlucire Boileau 2 Instrumentaia statistic a procentelor 2.1 Analiza statistic i probabilitile compuse, condiionate, marginale 2.2 Experimente utiliznd statistica bayesian 2.3 Analize statistice tabelare bivariate pentru un singur factor de influen 2.4 Instrumentaia statistic a procentelor pentru identificarea relaiilor false, ascunse, iluzorii 2.5 Instrumentaia statistic a procentelor pentru identificarea relaiilor poteniale

Relaiile statistice puternice, ascunse, false i iluzorii

Instrumentaia statistic a procentelor

2.1 Analiza statistic i probabilitile compuse, condiionate, marginale Vom utiliza n cele ce urmeaz aceeai abordare robust, spre exemplu frecvena relativ realizat dintr-un numr mare de observaii (evaluare statistic) drept probabilitate. De altfel13, se apreciaz c abordarea probabilitii ca un concept experimental i are temeiul n una din nsuirile fenomenelor aleatoare, anume stabilitatea frecvenelor relative la captul unei lungi serii de repetri ale probei; n acest mod este practic sigur c frecvena relativ a evenimentului va fi egal cu probabilitatea. Precursor al conceptului de probabilitate statistic acum numit inferena bayesian, trebuie considerat Thomas Bayes (1702-1761). Dar s revenim la poemul LUCEAFRUL care, n varianta iniial, eminescian, are 98 de strofe, iar Maiorescu public n alte apariii editoriale o versiune cu patru strofe mai puin (din discursul Demiurgului) i cu unele modificri pe versuri. Pentru construciile statistice i matematice de mai jos, vom utiliza urmtorul concept dintr-o nou paradigm14 i anume distih fiecare din paragrafele numerotate, ce conin cupluri de dou versuri cu structur metric deosebit, n care mprim poemul i care mpreun au un sens de sine stttor. Spre exemplu, distihurile cu numerele 25 i 26 sunt 25 Cobori n jos, luceafr blnd /Alunecnd pe-o raz, / 26 Ptrunde-n cas i n gnd, /i viaa-mi lumineaz!

13 14

Marius Iosifescu, op.cit. pag.33-34. Paradigm = totalitate a formelor flexionare ale unui cuvnt, sistem de concepte acceptat de un grup de specialiti pentru utilizare rapid, codat, tablou al formelor unui cuvnt, dat ca model pentru flexiunea unei pri de vorbire sau a unei clase din cadrul unei pri de vorbire, Dicionarul explicativ al limbii romne, Editura Academiei, 1975.

Relaiile statistice puternice, ascunse, false i iluzorii

Dac lum n calcul versurile, avem n varianta eminescian 392 de versuri, deci 196 de distihuri, o colectivitate reprezentativ att ca numr, ct i ca mulime de evenimente i posibile interpretri. nti se creeaz o baz de informaii n care se codific apariia unor evenimente, att n strofe, ct i n versurile geniale din Luceafrul. Experimentatorul poate codifica dicotomic existena n distih a personajelor principale sau secundare, a luminii ori comunicrii, precum i alte evenimente botezate Ei . Spre exemplu, el realizeaz tabelul 1 cu sinteza existenei sau nu n cadrul distihurilor din Luceafrul a celor dou personaje centrale n primele 49 de strofe, deci 98 de distihuri. Vom transforma frecvenele apariiilor ntr-un distih n probabiliti ce caracterizeaz gradul de posibilitate a producerii evenimentului n condiii bine determinate. Sinteza ntlnirilor din distih n prima parte a poemului Tabelul 1Primele 49 de strofe Luceafrul este Luceafrul nu este n distih n distih total

Ctlina este n distih Ctlina nu este n distih Total

43 26 69

18 11 29

61 37 98

Prin realizarea unor combinaii, cum sunt cele din tabelul 1, se pot calcula att probabilitile ca evenimentele (E1, E2, E3Ei) s apar (Luceafrul, Ctlina, Demiurgul, Ctlin, lumina, comunicarea dinamica, direcia), ct i probabilitile condiionate; spre exemplu P(E1/E2) probabilitatea ca evenimentul E1 (apariia n distih a Luceafrului) s apar este dat de apariia evenimentului E2 (apariia n distih a Catlinei). Din nmulirea probabilitii condiionate cu probabilitatea necondiionat (marginal) rezult probabilitatea compus15: (11) P (E1E2) = P (E1/E2)*P(E2) Aici, P (E1E2) arat probabilitatea ca E1 s apar mpreun cu E2 (Luceafrul i Ctlina n acelai distih).

15

M.C.Demetrescu, Metode cantitative n marketing, Editura tiinific, Bucureti, 1971, pag.72.

Relaiile statistice puternice, ascunse, false i iluzorii

n cazul special cnd evenimentele sunt independente, probabilitatea apariiei lor comune este: P (E1E2) = P (E1)*P(E2) (12) iar probabilitile condiionate sunt (13) P (E1/E2) = P (E1) iar P (E2/E1) = P(E2) Este exact ceea ce se ntmpl n prima parte a poemului, unde n procente, fa de variabila independent, apariia evenimentului E1 devine dependent de numrul de versuri scrise de Poet. Experimentatorul calculeaz: Probabilitile condiionate ale existenei/inexistenei n distih a Ctlinei de existena/inexistena n distih a Luceafrului n primele 49 de strofe Tabelul 2Luceafrul este Luceafrul nu este Primele 49 de strofe n distih n distih Ctlina este n distih 0.623 = P(E1/E2) 0.621 Ctlina nu este n distih 0.377 0.378 Total 1 1 total 0.622 = P(E2) 0.378 1

n cazul probabilitilor estimate pe baza frecvenelor distihurilor ce conin cele dou caracteristici, evident c n prima parte se reflect independena evenimentelor. Spre exemplu, Luceafrul rspunde chemrilor Ctlinei, dar versurile reflect un echilibru, structura fiind astfel interpretat: este evident verificarea relaiei (13), de independen a evenimentelor. Probabilitatea de a fi Ctlina n distih cnd n distih este i Luceafrul este de 0,623, cu diferene nesemnificative statistic fa de probabilitatea de fi n distih cnd nu este Luceafrul (0,621) i fa de probabilitatea marginal (0,622) care semnific existena Ctlinei n prima parte a poemului, indiferent c este sau nu altcineva n distih. Aceeai concluzie se trage i din calculele fcute n tabelul 3, i apelnd la MicrosoftEXCEL . Imaginea 1 este realizat n conformitate cu detalierile fcute n paragraful 1.3 TESTUL ASOCIERII, etapele descrise nPROCEDURA IDENTIFICRII RELAIEI POTENIALE.

Relaiile statistice puternice, ascunse, false i iluzorii

Rezultate oferite de MicrosoftEXCEL Imaginea 1Distihuri Ctlina este n distih nu este Total LUCEAFRUL este n distih 43 26 69 nu este 18 11 29 total 61 37 98Estimri

ij18.1 10.9

42.9 26.1

Probabilitatea de risc Valoarea Hi, robust Calculata prin CHIINV Exist

0.981 Calculata prin fx CHITEST 0.001 Valoarea Hi teoretica 3.841 0.001 Coef.conting.CramerV 0.002353 Relaia: nu este influen? Ho

Probabilitile condiionate ale existenei/inexistenei n distih a Luceafrului de existena/inexistena n distih a Ctlinei n primele 49 de strofe Tabelul 3Primele 49 de strofe Luceafrul este n Luceafrul nu este distih n distih total

Ctlina este n distih 0.71= P(E2/E1) Ctlina nu este n distih 0.69 Total 0.70 = P(E1)

0.29 0.31 0.30

1 1 1

Probabilitile compuse din tabelul 4, nmulite cu 100, sunt aproape identice ca numere cu cele ale distribuiilor frecvenelor distihurilor din tabelul 1, totalul de distihuri fiind 98. Probabilitile compuse ale existenei/inexistenei n distih a Luceafrului i existenei/inexistenei n distih a Ctlinei Tabelul 4Primele 49 de strofe Luceafrul este n Luceafrul nu este distih n distih total

Ctlina este n distih Ctlina nu este n distih Total

0.45 0.26 0.70

0.18 0.11 0.29

0.63 0.37 1

Relaiile statistice puternice, ascunse, false i iluzorii

Situaia se schimb n partea a doua a poemului. Tabelul 5 arat distribuii direcionate n sens contrar. Spre exemplu, Luceafrul este n 44 de distihuri fr prezena Ctlinei n acele distihuri, iar Ctlina are fr Luceafr 31 de prezene. Sinteza ntlnirilor din distih n ultima parte a poemului Tabelul 5Ultimele 49 de strofe Luceafrul este n Luceafrul nu este n distih distih total

Ctlina este n distih Ctlina nu este n distih Total

14 44 58

31 9 40

45 53 98

Situaia este mult schimbat i datorit faptului c doar n 9 distihuri nu figureaz n aceast a doua parte a poemului nici unul, nici altul. n prima parte, erau n distih de 44 de ori, iar n a doua parte, doar de 14 ori. Din punct de vedere al instrumentaiei statistice a procentelor, (i remarcnd c 98 ca numr este natural, aproape de 100), diferena de 30 de distihuri (pseudoprocente16, 44/98 =0,449 iar 14/98 = 0,143, aa c avem 44,9%-14,3% = 30,6%) semnaleaz o relaie puternic. Sunt violate i relaiile (2) i (3), dup cum se evideniaz n tabelele 6 i 7. Probabilitile condiionate ale existenei/inexistenei n distih a Ctlinei de existena/inexistena n distih a Luceafrului n ultimele 49 de strofe Tabelul 6Ultimele 49 de strofe Luceafrul este n distih Luceafrul nu este n distih total

Ctlina este n distih Ctlina nu este n distih Total

0.241 0.759 1

0.775 0.225 1

0.459 0.541 1

Este evident verificarea relaiei puternice ntre evenimente. Probabilitatea de a fi Ctlina n distih cnd n distih este i Luceafrul este de 0,241, cu diferene semnificative statistic fa de probabilitatea de fi n distih cnd nu este Luceafrul (o,775) i fa de probabilitatea marginal16

pentru a fi considerate procente trebuie s provin dintr-o populaie mai mare de 100 uniti, ca baz de raportare.

Relaiile statistice puternice, ascunse, false i iluzorii

(0,459) care semnific existena Ctlinei n ultima parte a poemului, indiferent c este sau nu altcineva n vers. n conformitate cu instrumentaia statistic a procentelor, diferena de 53,4% (din 77,4%-24,1%), impune existena unei puternice relaii. Aceeai concluzie se trage i din calculele fcute n tabelul 7 (83%-31%=52%, ori 69%-17%=52%). Probabilitile condiionate ale existenei/inexistenei n distih a Luceafrului de existena/inexistena n distih a Ctlinei n ultimele 49 de strofe Tabelul 7Ultimele 49 de strofe Luceafrul este n Luceafrul nu este distih n distih total

Ctlina este n distih Ctlina nu este n distih Total

0.311 0.830 0.592

0.689 0.170 0.408

1 1 1

Probabilitile compuse din tabelul 8 sunt de aceast dat, ca numere, puternic difereniate de cele ale distribuiilor frecvenelor distihurilor din tabelul 41; comparaia poate fi realizat att datorit totalurilor egale de distihuri, 98, ct i normalizrii ca probabiliti. Rezultate oferite de MicrosoftEXCEL Imaginea 2Versuri LUCEAFRUL total 45 53 98Estimri

este n distih nu este Ctlina este n distih 14 31 nu este 44 9 Total 58 40 Probabilitatea de risc Valoarea Hi, robust Calculat prin CHIINV Exist

ij

26.6 31.4

18.4 21.6

0.000 calculat Prin fx 27.145 Valoarea Hi teoretic #NUM! Coef.conting.CramerV influen?LUCEAFRUL Relaie:

CHITEST 3.841 0.526299 puternic

Relaiile statistice puternice, ascunse, false i iluzorii

Probabilitile compuse ale existenei/inexistenei n distih a Luceafrului i existenei/inexistenei n distih a Ctlinei Tabelul 8Ultimele 49 de strofe Luceafrul este n Luceafrul nu este distih n distih total

Ctlina este n distih Ctlina nu este n distih Total

0.143 0.449 0.592

0.316 0.092 0.408

0.459 0.541 1

Experimentatorul ncearc s verifice existena relaiei dintre evenimente pe ntregul poem, contient fiind de faptul c inversul detalierii, globalul, va ascunde ori estompa unele relaii semnificative. Tabelele 9-12 ilustreaz aceast impresie. Sinteza ntlnirilor din distih n ntregul poem Tabelul 9ntregul poem Luceafrul este n distih Luceafrul nu este n distih total

Ctlina este n distih Ctlina nu este n distih Total

57 70 127

49 20 69

106 90 196

Spre exemplu, tabelul 10 are probabiliti condiionate mai puin difereniate. Probabilitile condiionate ale existenei/inexistenei n distih a Ctlinei de existena/inexistena n distih a Luceafrului n 98 de strofe Tabelul 10ntregul poem de 98 strofe Luceafrul este Luceafrul nu este n distih n distih total

Ctlina este n distih Ctlina nu este n distih Total

0.449 0.551 1

0.710 0.290 1

0.541 0.459 1

Este evident verificarea relaiei moderate ntre evenimente. Probabilitatea de a fi a Ctlina n distih cnd n distih este i Luceafrul este de 0,449, cu unele diferene de probabilitatea de fi n distih cnd nu este Luceafrul (o,710) i fa de probabilitatea marginal (0,541) care semnific existena Ctlinei n ntregul poem, indiferent c este sau nu i altcineva n distih. n conformitate cu instrumentaia statistic a procentelor, diferena de 26,1% (din 71%-44,9%) impune existena unei relaii moderate.

Relaiile statistice puternice, ascunse, false i iluzorii

Aceeai concluzie se trage i din calculele fcute n tabelul 11 (77,8%-53,8%=24%, ori 46,2%-22,2%=24%). Probabilitile condiionate ale existenei/inexistenei n distih a Luceafrului de existena/inexistena n distih a Ctlinei n ntregul poem Tabelul 11ntregul poem Luceafrul este Luceafrul nu este n distih n distih Total

Ctlina este n distih Ctlina nu este n distih Total

0.538 0.778 0.648

0.462 0.222 0.352

1 1 1

Probabilitile compuse ale existenei/inexistenei n distih a Luceafrului i existenei/inexistenei n distih a Ctlinei n ntregul poem Tabelul 12ntregul poem Luceafrul este Luceafrul nu este n distih n distih Total

Ctlina este n distih Ctlina nu este n distih Total

0.291 0.357 0.648

0.250 0.102 0.352

0.541 0.459 1

Relaia moderat este reflectat i de ctre probabilitile compuse din tabelul 12 care variaz ntre minimum 0,102 i maximum 0,357 n tabelul 12 fa de cea mai mic valoare i cea mai mare valoare din tabelul 8, 0,092 i respectiv 0,449. Rezultate oferite de MicrosoftEXCEL Imaginea 3Distihuri Ctlina este n distih nu este Total LUCEAFRUL este n distih nu este 57 49 70 20 127 69 total 106 90 196Estimri

ij

68.7 58.3

37.3 31.7

Probabilitatea de risc Valoarea Hi, robust calculat prin CHIINV Exist

0.000 calculat prin fx 12.295 Valoarea Hi teoretic 12.294 Coef.conting.CramerV influen? LUCEAFRUL Relaia:

CHITEST 3.841 0.250458 moderat

Imaginea 3 reflect aceeai relaie moderat rezultat din calculele conforme paragrafului 1.3.TESTUL ASOCIERII.

Relaiile statistice puternice, ascunse, false i iluzorii

2.2 Experimente utiliznd statistica bayesian Formularea unei decizii privind analiza statistic a poeziei poate lua n considerare att informaia aprioric (anterioar, intrinsec), ct i informaia suplimentar (posterioar, extrinsec). Avnd aceste combinaii, se pot calcula att probabilitile ca evenimentele (E1, E2, E3) s apar (Luceafrul, Ctlina, comunicarea), ct i probabilitile condiionate spre exemplu P(E1/E2) probabilitatea ca evenimentul E1 (apariia n distih a Luceafrului) s existe, dat fiind apariia evenimentului E2 (apariia n distih a Ctlinei)17. Informaia suplimentar provine din studierea celor 196 de distihuri grupate dup trei caracteristici: c1 existena n distih a Luceafrului; c2 existena n distih a Ctlinei; c3 existena n distih a relaiei prin comunicare. n partea I a poeziei Luceafrul (primele 49 de strofe), Experimentatorul a estimat c sunt 11 distihuri, iar n partea a doua (ultimele 49 de strofe), 9 distihuri n care cei doi (Luceafrul i Ctlina) comunic (primul rnd din tabelul 13, comb.1, combinaia DA, DA, DA a caracteristicilor c1, c2, c3). Unele distihuri conin referiri doar la Luceafr sau Ctlina, n altele este prezent doar unul dintre ei n procesul de comunicare (cu cellalt, Demiurgul ori Ctlin), iar n altele nu este prezent nici una dintre caracteristicile considerate (existena n distih a Luceafrului, a Ctlinei ori a comunicrii). Experimentatorul constat c nu exist nici un distih n care s fie simultan cele dou personaje principale i s nu comunice (rndul 2 din tabelul 13, comb.2, combinaia DA, DA, NU a caracteristicilor c1, c2, c3). Deoarece fiecare caracteristic posed doar dou stri (exist-nu exist n distih), numrul de combinaii posibile este 8 (dou alternative, trei caracteristici, 2 la puterea a 3-a) i sunt redate n tabelul de mai jos (Comb.i, i = 1.8).

17

pentru informaii privind constituirea bazei de informaii i calcul al probabilitilor, sunt date explicaii n Partea a III-a, paragraful 3.1.

Relaiile statistice puternice, ascunse, false i iluzorii

Distribuiile distihurilor n cele dou pri ale poeziei Luceafrul n care apar (DA) sau nu apar (NU) personajele principale i relaia de comunicare din poem Tabelul 13n distih Comb. 1 Comb. 2 Comb. 3 Comb. 4 Comb. 5 Comb. 6 Comb. 7 Comb. 8 Luceafar DA DA DA DA NU NU NU NU Catalina Comunicare Partea I Partea a II-a Total DA DA 37 13 50 DA NU 7 1 8 NU DA 0 30 30 NU NU 25 14 39 DA DA 3 25 28 DA NU 15 6 21 NU DA 1 0 1 NU NU 10 9 19 98 98 196

Pe baza tabelului 13, experimentatorul poate calcula probabilitatea ca un distih s posede una dintre cele opt combinaii ale caracteristicilor. Spre exemplu, n acelai distih Ctlina s comunice cu Luceafrul, deci informaia primei linii din tabel, n prima parte a poeziei. Aceasta este o probabilitate compus : P (n distih comb. 1partea I) = P (n distih comb. 1/ partea I)*P(partea I) (14) Experimentatorul calculeaz partea stng a egalitii (14) sub forma 37 distihuri care sunt pe linia 1 a tabelului i n prima parte a poeziei, raportate la total numr de distihuri n poem, 196. El ajunge la rezultatul 0,189. Calculul n partea dreapt presupune produsul dintre P (n distih comb. 1/ partea I) = 37/98 = 0,378 i P(partea I) = 98 /196 = 0,5. Multiplicarea nseamn exact 0,189. Probabilitatea marginal P(partea I) este numit necondiional deoarece nu ine seama de existena caracteristicilor c1, c2 i c3, iar P(Comb. i) nu ia n considerare locul n poem. Probabilitile marginale P(partea j) se calculeaz prin nsumarea coloanelor i P(Comb.i) prin nsumarea rndurilor: P(partea j) = P (partea j n distih comb. i), nsumare dup i=1..8 (15) P(n distih comb.i) = P(n distih comb.i partea j), nsumare dup j=1,2 (16) Suma probabilitilor marginale din total rnduri i coloane este egal cu unitatea.

Relaiile statistice puternice, ascunse, false i iluzorii

n exemplul de mai sus, P(partea I) = 98/196=37/196+.10/196=0,5. Avnd noile informaii obinute prin prelucrarea celor 196 de distihuri eminesciene, se poate calcula probabilitatea ca un distih clasificat ntr-una din categoriile Ci s fac parte din prima parte sau din a doua parte a poeziei. Pentru a rspunde la aceast provocare, trebuie calculate probabilitile revizuite, deduse din noile informaii ale analizei probabilitilor posterioare.18 Probabiliti posterioare sunt probabiliti condiionate (un eveniment va aprea fiind dat apariia altui eveniment), n cazul de mai sus, odat clasificat un distih, care este probabilitatea ncadrrii lui n prima sau n a doua parte a poemului. Calculul utiliznd teorema lui Bayes este urmtorul: P(partea1) P(comb1/ partea1) . . . P(partea1/ comb1) = 2 . . . . . P(partea j) P(comb1/ partea j)j=1

=

(0,5) (0,378) 0,189 = = 0,744 (0,5) (0,378) + (0,5) (0,13) 0,254

(17)

Altfel, obinem acest rezultat din calculul direct P(partea 1/Comb.1)=37/50=0,74 iar P(partea 2/Comb.1)=13/50=0,26. n tabelul 14 este redat calculul probabilitilor posterioare pentru toate combinaiile 1-8. Calculul probabilitilor posterioare Tabelul 14n distih Col.1 Col.2 Col.3 Col.4 Col.5 Col.6 Col.7 Luceafar Catalina Comunicare

Comb. 1 Comb. 2 Comb. 3 Comb. 4 Comb. 5 Comb. 6 Comb. 7 Comb. 8

0.38 0.07 0.00 0.26 0.03 0.15 0.01 0.10 0.50

0.13 0.01 0.31 0.14 0.26 0.06 0.00 0.09 0.50

0.19 0.04 0.00 0.13 0.02 0.08 0.01 0.05 0.50

0.07 0.01 0.15 0.07 0.13 0.03 0.00 0.05 0.50

0.26 0.04 0.15 0.20 0.14 0.11 0.01 0.10 1

0.74 0.26 0.88 0.13 0.00 1.00 0.64 0.36 0.11 0.89 0.71 0.29 1.00 0.00 0.53 0.47

DA DA DA DA NU NU NU NU

DA DA NU NU DA DA NU NU

DA NU DA NU DA NU DA NU

18

M.C.Demetrescu, op.cit., pag 74

Relaiile statistice puternice, ascunse, false i iluzorii

LEGENDAColoana CONTINE PROBABILITILE

Col.1 Col.2 Col.3 Col.4 Col.5 Col.6 Col.7

P(Comb.i/partea I) P(Comb.i/partea II) P(Comb.i/partea I)* P(partea I) P(Comb.i/partea II)*P(partea II) P(Comb.i) P(partea I/Comb.i) P(partea II/Comb.i)

Experimentatorul posed acum informaii asupra caracteristicilor care trebuie avute n vedere pentru analiza poemului, avnd flexibil noiunea de parte a poeziei n sensul numrului de strofe (distihuri). Dac experimentatorul decide s nu utilizeze informaia obinut, el va estima c un nou distih are anse egale s intre n prima sau a doua parte a poemului, altfel va presupune c probabilitile estimate din eantionul de distihuri iniial se vor aplica i unor noi distihuri acum sosite. Desfurarea coloanelor din tabelul 1419 arat cum poate fi ameliorat aceast informaie veche prin utilizarea informaiei suplimentare privind caracteristicile distihurilor nou sosite. Experimentatorul tie c nsui Eminescu a suprimat un numr de distihuri i a schimbat unul dintre ele n poemul tiprit n diferite publicaii. Teorema lui Bayes este un alt mod de a privi probabilitatea condiionat, n cazul de fa probabilitatea condiionat a unei stri a naturii (pri ale poemului), dat fiind o informaie sau o serie de informaii, caracteristicile distihului. Aceste probabiliti condiionate sunt:P(partea1/ comb1) = . .P(partea2 / comb1) = . .

P(partea1) P(comb1/ partea1) 0,189 . . . = = 0,744 (18) P(comb1) . 0,254P(partea2) P(comb1/ partea2) 0,065 . . . = = 0,256 (19) P(comb1) . 0,254

Acum experimentatorul are probabilitile revizuite. n tabelul 14, n ultimele dou coloane au fost calculate probabilitile posterioare care schimb probabilitile apriorice (0,5 att pentru prima ct i pentru a doua parte, abordare subiectiv deoarece se dorea o repetiie perfect i o potenial simetrie a poemului).19

n tabel rezultatele calculelor au doar dou zecimale din motivele amintite (baza de calcul pentru prile poemului este de 98 de distihuri, dar i din motive grafice), procedndu-se n acest sens la rotunjiri.

Relaiile statistice puternice, ascunse, false i iluzorii

Calculul probabilitilor posterioare n varianta unui Luceafr nc pe pmnt Tabelul 15n distih Col.1 Col.2 Col.3 Col.4 Col.5 Col.6 Col.7. Luceafr Ctlina Comunicare

Comb. 1 Comb. 2 Comb. 3 Comb. 4 Comb. 5 Comb. 6 Comb. 7 Comb. 8

0.38 0.07 0.00 0.26 0.03 0.15 0.01 0.10 0.65

0.13 0.01 0.31 0.14 0.26 0.06 0.00 0.09 0.35

0.25 0.05 0.00 0.17 0.02 0.10 0.01 0.07 0.65

0.05 0.29 0.00 0.05 0.11 0.11 0.05 0.22 0.09 0.11 0.02 0.12 0.00 0.01 0.03 0.10 0.35 1

0.84 0.93 0.00 0.77 0.18 0.82 1.00 0.67

0.26 0.13 1.00 0.36 0.89 0.29 0.00 0.47

DA DA DA DA NU NU NU NU

DA DA NU NU DA DA NU NU

DA NU DA NU DA NU DA NU

Experimentatorul se ntoarce la poemul eminescian i identific realitatea n sensul numrului de distihuri ce conin cele 8 combinaii. Acum prima parte, cu Luceafrul nc pe pmnt, are 127 distihuri, iar partea a doua, 69 de distihuri. Distribuia distihurilor n varianta unui Luceafr pe pmnt Tabelul 16n distih Comb. 1 Comb. 2 Comb. 3 Comb. 4 Comb. 5 Comb. 6 Comb. 7 Comb. 8 Luceafr DA DA DA DA NU NU NU NU Ctlina DA DA NU NU DA DA NU NU Comunicare Partea I Partea a II-a Total DA 44 6 50 NU 7 1 8 DA 0 30 30 NU 25 14 39 DA 22 6 28 NU 17 4 21 DA 1 0 1 NU 11 8 19 127 69 196

Calculele arat diferenele semnificative experimentatorul i realitatea eminescian.

ntre

ce

atepta

Relaiile statistice puternice, ascunse, false i iluzorii

Calculul probabilitilor posterioare n varianta pe pmnt Tabelul 17n vers Col.1 Col.2 Col.3 Col.4 Col.5 Col.6 Col.7. Luceafr Ctlina Comunicare

Comb. 1 Comb. 2 Comb. 3 Comb. 4 Comb. 5 Comb. 6 Comb. 7 Comb. 8

0.35 0.06 0.00 0.20 0.17 0.13 0.01 0.09 0.65

0.09 0.01 0.43 0.20 0.09 0.06 0.00 0.12 0.35

0.22 0.04 0.00 0.13 0.11 0.09 0.01 0.06 0.65

0.03 0.01 0.15 0.07 0.03 0.02 0.00 0.04 0.35

0.26 0.04 0.15 0.20 0.14 0.11 0.01 0.10 1

0.88 0.88 0.00 0.64 0.79 0.81 1.00 0.58

0.12 0.13 1.00 0.36 0.21 0.19 0.00 0.42

DA DA DA DA NU NU NU NU

DA DA NU NU DA DA NU NU

DA NU DA NU DA NU DA NU

Experimentatorul ia n calcul o alternativ: ignorarea complet a existenei lui Ctlin n prima parte a poemului i ajunge la situaia de mai jos. Pentru aceasta schimb probabilitile apriorice calculate ca pri egale i rezult tabelul de mai jos: Calculul probabilitilor posterioare n varianta fr Ctlin Tabelul 18n distih Col.1 Col.2 Col.3 Col.4 Col.5 Col.6 Col.7. Luceafar Catalina Comunicare

Comb. 1 Comb. 2 Comb. 3 Comb. 4 Comb. 5 Comb. 6 Comb. 7 Comb. 8

0.38 0.13 0.07 0.01 0.00 0.31 0.26 0.14 0.03 0.26 0.15 0.06 0.01 0.00 0.10 0.09 0.43 0.57

0.16 0.03 0.00 0.11 0.01 0.07 0.00 0.04 0.43

0.08 0.24 0.01 0.04 0.17 0.17 0.08 0.19 0.15 0.16 0.03 0.10 0.00 0.00 0.05 0.10 0.57 1

0.68 0.84 0.00 0.57 0.08 0.65 1.00 0.46

0.32 0.16 1.00 0.43 0.92 0.35 0.00 0.54

DA DA DA DA NU NU NU NU

DA DA NU NU DA DA NU NU

DA NU DA NU DA NU DA NU

Relaiile statistice puternice, ascunse, false i iluzorii

Recalculat n varianta eminescian: Distribuia distihurilor n varianta eminesciann distih Luceafr Ctlina

Tabelul 19Total

Comunicare Partea I Partea a II-a

Comb. 1 Comb. 2 Comb. 3 Comb. 4 Comb. 5 Comb. 6 Comb. 7 Comb. 8

DA DA DA DA NU NU NU NU

DA DA NU NU DA DA NU NU

DA NU DA NU DA NU DA NU

37 7 0 24 0 11 1 5 85

13 1 30 15 28 10 0 14 111

50 8 30 39 28 21 1 19 196

Calculele arat diferenele semnificative experimentatorul i realitatea Eminescian.

ntre

ce

atepta

Calculul probabilitilor posterioare n varianta schimbrii probabilitilor apriorice Tabelul 20n distih Col.1 Col.2 Col.3 Col.4 Col.5 Col.6 Col.7 Luceafr Ctlina Comunicare

Comb. 1 Comb. 2 Comb. 3 Comb. 4 Comb. 5 Comb. 6 Comb. 7 Comb. 8

0.44 0.08 0.00 0.28 0.00 0.13 0.01 0.06 0.43

0.12 0.01 0.27 0.14 0.25 0.09 0.00 0.13 0.57

0.19 0.04 0.00 0.12 0.00 0.06 0.01 0.03 0.43

0.07 0.01 0.15 0.08 0.14 0.05 0.00 0.07 0.57

0.26 0.04 0.15 0.20 0.14 0.11 0.01 0.10 1

0.74 0.88 0.00 0.62 0.00 0.52 1.00 0.26

0.26 0.13 1.00 0.38 1.00 0.48 0.00 0.74

DA DA DA DA NU NU NU NU

DA DA NU NU DA DA NU NU

DA NU DA NU DA NU DA NU

La fel ca exemplul de mai sus, cele alte cteva exemple de aplicaie statistic ce vor fi ilustrate n aceast carte, prea puine pentru ceea ce dorim s artm c pot face att clasicele, dar mai ales modernele instrumente statistice, incitante totui pentru un cititor avizat i pasionat de literatur (vom continua cu o abordare statistic dup o idee oferit de Cpcunii anonimi de Pascal Bruckner aprut la Editura Trei), dar i de tiin (exemple clasice date de William Fox n Social Statistics Using Microcase20), poart n ele promisiunea c, ntr-o zi, rspunsurile la20

William Fox, Social Statistics Using MicroCase, MicroCase Corporation, Bellevue, Washington, 1992.

Relaiile statistice puternice, ascunse, false i iluzorii

ntrebri, nu doar de natur statistic, vor fi, dac nu elucidate, cel puin puse ntr-o manier prietenoas la dispoziia experimentatorului.

2.3 Analize statistice tabelare bivariate pentru un singur factor de influen S lum un exemplu banal. Ne intereseaz dac relurile de programe la posturile de televiziune sunt influenate de apartenena acestora la categoriile Televiziune de stat, Televiziune independent n reea, Televiziune independent. Experimentatorul valorific informaia publicat a celor mai cunoscute zece posturi TV i relurile lor din data de luni, 30 iunie 2003 spre mari i extrage urmtoarele date: 1. Romnia 1 (de stat): Surprize, surprize (ora 11.00), Teleenciclopedia (ora 13.00), Jurnal (ora 2.10). 2. TVR 2 (de stat): Miracole (ora 8.00), Film Puzzle (ora 10.00), Televiziunea, dragostea mea (ora 16.00), Saint Tropez Serial (ora 1.15), n jurul lumii (doc.ora 2.10), Cultura misterioas (doc.ora 2.40). 3. PRO TV (televiziune particular cu dou posturi): Teo (ora 7.00), Tnr i nelinitit (ora 9.00), Bundy (ora 22.30), nva engleza cu Victor (ora 2.45). 4. Acas (aparine PRO TV): Luz Maria (ora 6.00), Reeta de acas (ora 7.30), nva franceza cu Victor (ora 8.00), nva engleza cu Victor (ora 9.00), Pisica slbatic (ora 10.15), Rzbunarea (ora 12.15), Poveti adevrate (ora 0.00), nva franceza cu Victor (ora 0.30), Salome (ora 0.45), De 3 x femeie (ora 3.00). 5. Antena 1 (independent): MacGyver (ora 8.00), Calea misterelor (ora 10.00), Jur s te cuceresc (ora 12.00), Observator (ora 1.00), Milagros (ora 2.00), Yago (ora 4.00). 6. Prima (independent): Dog Show (ora 7.30), Clip Art (ora 0.25), Cltorii n lumi paralele (ora 1.00), Focus Plus (ora 1.30). 7. Tele 7abc (independent): Auto Motor Sport (ora 11.30), Cu farfuria plin (ora 12.00), Jurnal european (ora 12.30), Cenureasa (ora 13.00), Pe urmele lui Cordoba (ora 14.00), Info pescar (ora 16.00), Istoria artei (ora 17.00), Vacane de pomin (ora 22.30). 8. B1 TV (independent): Beverly Hills (ora 11.30), Duminica la prnz (ora 13.00), Documentar (ora 15.00), Vara etern (ora 16.30), Gala (ora

Relaiile statistice puternice, ascunse, false i iluzorii

20.30), Beverly Hills 90210 (ora 23.30), La Strada (ora 0.30), tirile naionale B1 TV (ora 1.00). 9. Atomic (independent): Haihui (ora 10.30), Romanian Top 100 (ora 16.00), File de poveste (ora 22.30). 10. Eurosport (independent): Motociclism (ora 9.30), Raliuri (ora 11.00), Fotbal: Cupa Confederaiilor, n Frana (ora 12.00), Rugby: Cupa Mondial U-21, n Anglia (ora 14.00), Snooker: CE, n Germania (ora 17.30), Fotbal: Cupa Confederaiilor, n Frana (ora 19.00), Fotbal (ora 21.00), K1 Marele Premiu Mondial, la Paris-Bercy (ora 22.00). Ipoteza nul, aa-numita ipotez Ho, presupune c Nu sunt diferene ntre posturile TV cu privire la reluri. Ipoteza