19
1 Liviu Dragomirescu 1 Elemente de Statistica Inductiva Lectie finala Eco2-11 Liviu Dragomirescu 2 STATISTICA INDUCTIVA (S.I.) pentru serii univariate cantitative (unidimensionale) S.I. extrapoleaza rezultatele de la esantioane la populatii prin: I. TESTAREA de “ipoteze statistice” (de ex. asupra parametrilor NECUNOSCUTI, pe baza statisticilor CUNOSCUTE) II. ESTIMAREA (de parametri prin statistici) Extrapolarile sunt INCERTE, dar cu grad de certitudine calculabil si verificabil experimental. Gradul de certitudine se numeste: I. Nivel de semnificatie, p – la testare II. (Grad / nivel) de (incredere / certitudine / confidenta), (1-p) la estimare Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only.

Elemente de Statistica Inductiva

  • Upload
    ledung

  • View
    299

  • Download
    10

Embed Size (px)

Citation preview

1

Liviu Dragomirescu 1

Elemente de Statistica Inductiva

Lectie finala Eco2-11

Liviu Dragomirescu 2

STATISTICA INDUCTIVA (S.I.) pentru serii univariate cantitative

(unidimensionale)

• S.I. extrapoleaza rezultatele de la esantioane la populatiiprin:

I. TESTAREA de “ipoteze statistice” (de ex. asupra parametrilorNECUNOSCUTI, pe baza statisticilor CUNOSCUTE)

II. ESTIMAREA (de parametri prin statistici)

• Extrapolarile sunt INCERTE, dar cu grad de certitudinecalculabil si verificabil experimental. Gradul de certitudine se numeste:

I. Nivel de semnificatie, p – la testare

II. (Grad / nivel) de (incredere / certitudine / confidenta), (1-p) –la estimare

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

2

Liviu Dragomirescu 3

I. TESTAREA STATISTICA

TESTARILE STATISTICE se fac prin TESTE STATISTICE.

TESTELE STATISTICE verifica IPOTEZE STATISTICE.

IPOTEZELE STATISTICE sunt afirmatii cu privire la una saumai multe POPULATII STATISTICE.

O IPOTEZA STATISTICA se formuleaza ca o asa-numitaIPOTEZA DE NUL, IPOTEZA NULA, IPOTEZA A NONDIFERENTEI / NONDIFERENTELOR, notata H0

Liviu Dragomirescu 4

• Un TEST STATISTIC ofera probablitatea p de a se obtine din pura intamplare (care apare doardaca s-a facut RANDOMIZARE) esantionulrespectiv si altele mai “excentrice”(in raport cu

ipoteza nula), daca ipoteza nula H0 ar fi adevarata.

• REGULA de DECIZIE:– Daca p < 0,05 RESPINGEM ipoteza nula, H0

– Daca p > 0,05 nu respingem H0 si spunem ca “esantionul nu ne-a dat motive sa respingem H0, deci ca ori H0 e adevarata ori nu avem suficientedate pentru ca sa o respingem”.

CONCLUZIE: RESPINGEREA e mai TARE(decat ACCEPTAREA)

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

3

Liviu Dragomirescu 5

• Cand respingem H0 spunem ca “am gasit o diferenta semnificativa”

• Cand nu respingem H0 spunem ca “nu am gasito diferenta semnificativa”. Deci, ori H0 esteadevatata ori nu am avut suficiente date pentruca sa o respingem”.

Liviu Dragomirescu 6

Cand nu se respinge H0 nu inseamnaca este adevarata, ci ca ori esteadevarata, ori ca nu s-au adunat

suficiente date care ar fi impotriva ei.

Cand nu se obtine condamnarea nu inseamana NEVINOVAT, ci “achitat

din lipsa de probe”.

Testul statistic trebuie sa aduca dovezibazate pe date experimentale care “contrazic statistic” ipoteza nula

Acuzarea trebuie sa aducadovezi materiale ale culpabititatii

H0: nici o diferenta (nimicnou)

Supect presupusNEVINOVAT

Verificarea unei ipotezestatistice

Proces juridic

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

4

Liviu Dragomirescu 7

Mai detaliat:

Teste statistice

Liviu Dragomirescu 8

Ipoteză ştiinţifică - Ipoteză statistică

Ipoteză ştiinţifică = tentativa de a explica una sau mai multe observaţii.

Trebuie să fie în concordanţă cu datele şi, - dacă e falsă, să permită dovedirea acestui lucru

prin experiment;- dacă e adevărată, nu se va putea dovedi

niciodată că este falsă, dar nici că este adevărată*.

= Deci, vom considera adevărată o ipoteză atât timp cât nu putem dovedi (prin experiment) că este falsă.

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

5

Liviu Dragomirescu 9

• O ipoteză ştiinţifică vizează, de regulă, generalităţi. • De aceea nu poate fi dovedită ca adevărată decât dacă sunt

verificate experimental toate cazurile.– De exemplu: “ipoteza că urna cutare contine numai bile albe”, devine

adevărată (cu certitudine) doar dacă verificăm toate bilele, “bob cu bob”.

• În ştiinţele experimentale “urnele” sunt infinite ori de volume uriaşe, “aproape infinite”. Deci nu se pot verifica “bob cu bob”.

• În consecinţă, aserţiunile generale (în particular, ipotezeleştiinţifice generalizatoare) nu pot fi dovedite cu certitudine, drept adevărate. Ele sunt doar ipoteze, credinţe impuse de practică ori imaginaţie, credinţe care se zdruncină la primulcontraexmplu şi se “volatilizează” odată cu adâncireacunoaşterii.

Liviu Dragomirescu 10

Exemplu de ipoteză ştiinţifică:

• Vom CONSIDERA că un anumit zar estenemăsluit dacă, făcând EXPERIMENTUL aruncării cu zarul respectiv de multe ori, vom obţine fiecare faţă cam de acelaşi număr de ori.

• În caz contrar, spunem că am demonstrat experimental că zarul este măsluit.

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

6

Liviu Dragomirescu 11

Ipoteză statistică

• Ipotezele ştiinţifice sunt emise întotdeauna din observaţii parţiale, dar vizează proprietăţi generale. Pentru susţinere au nevoie de verificări prin aşa-numitele ipoteze statistice.

• Ipoteză statistică = o aserţiune cu privire la una sau mai multe populaţii statistice.

Se prezintă întotdeauna sub forma unui cuplu

- ipoteză nulă (sau de nul) H0

- ipoteză alternativă HA.

Liviu Dragomirescu 12

Exemple de ipoteze statistice pentru una sau două populaţii statistice:

test unilateral dreaptatest bilateraltest unilateral

stânga

H0: 1 = 0

HA: 1 > 0

H0: 1 = 0

HA: 1 0

H0: 1 = 0

(sau 1 - 0 = 0)

HA: 1 < 0

în care 0 şi 1 sunt medii de populaţii din care s-au extras aleator unul sau două eşantioane.

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

7

Liviu Dragomirescu 13

Convenţii de limbaj şi notaţii standard

***diferenţă înalt semnificativăp < 0,001

**diferenţă foarte semnificativă0,001 p < 0,01

*diferenţă semnificativă0,01 p < 0,05

nsdiferenţă nesemnificativă0,05 p

codificatexplicit

Diagnostic statistic:

Praguri pentru

p

Liviu Dragomirescu 14

Tipuri de erori asociate unui test statistic şi riscurile acestora(p este notat aici )

1- (= )

riscul beneficiarului

(riscul de speţa a II-a)

H0 fals

riscul furnizorului

(riscul de speţa I)

1 - H0 adevărat

Resping H0NU resping H0

sn puterea testului.

[ 1 - este, în teoria estimaţiei, gradul de încredere. ]

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

8

Liviu Dragomirescu 15

Liviu Dragomirescu 16

Explicarea terminologiei "riscul furnizorului", "riscul beneficiarului"

• Acceptarea sau respingerea unui lot de produse se face după verificarea unui eşantion extras prin randomizare din acel lot. De regulă, furnizorul menţionează un standard minim de calitate (0).

• Astfel, ipoteza stiintifica poate fi I0: 1 0 (H0: 1 = 0). În consecinţă, riscul de respingere a ipotezei nule când aceasta este adevărată va fi riscul furnizorului, căci acesta este cel care pierde retrăgând de pe piaţă întregul lot când, de fapt acesta corespunde standardului afirmat în ipoteza nulă.

• Dacă, invers, este adevărată ipoteza alternativă (HA : 1 < 0), adică lotul nu corespunde standardului afirmat şi totuşi este acceptat, atunci riscul este al beneficiarului.

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

9

Liviu Dragomirescu 17

Justificarea nivelurilor de semnificaţie

utilizate în medicină şi ecologie

• Dacă admitem că, de regulă, ipoteza ştiinţifică devine, într-un test statistic, ipoteză alternativă atunci se consideră:

mic în medicină, biologie şi agricultură• este riscul de a declara bolnav un pacient sănătos şi în consecinţă

este riscul de a trata un individ sănătos, ceea ce îl poate îmbolnăvi din cauza efectelor secundare ale medicamentelor. Se ia mic (1) pentru a respecta principiul hypocratic "primo non nocere, deinde vindecare", (2) din considerente economice, (3) pentru că riscul chiar dacă ar fi mare afectează un număr mic de indivizi şi (4) se minimizează prin strategia aplicării mai multor teste sau prin consultarea mai multor medici. Se recomandă pragurile = 0,001 şi 0,01 pentru medicină şi 0,05 pentru agricultură.

mare în ecologie ( = 0,1 sau 0,2)• este riscul de a declara în pericol un ecosistem atunci când acest

lucru nu este adevărat. Se ia mare (1) pentru a se obţine un mic, reprezentând probabilitatea de a nu observa o degradare atunci când ea există, ceea ce poate fi dezastruos pentru o întreagă comunitate. trebuie să fie mic dintr-un singur test, pentru că (2) vinovaţii distrugerii respective limitează la maximum accesul la aplicarea mai multor teste.

Liviu Dragomirescu 18

Tipuri de teste

• Dup` modul de tratare a variabilelor cantitative:– Parametrice– Neparametrice

• Dup` pozi\ia zonei/lor de respingere:– Unilaterale

• Dreapta• Stanga

– Bilaterale

• Dup` tipul ipotezelor de verificat:– de conformitate– de concordan\` (ajustare)– de compara\ie (omogenitate,

egalitate)– de independen\` vs.

asociere

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

10

Liviu Dragomirescu 19

Test de conformitate

Liviu Dragomirescu 20

Recapituland P4: Indeplineste asistenta medicala in

sectia X standardul minim de calitate (de 7,77,7)?

Ex. 2: Cu RISC 2,5% (GRAD de Ex. 2: Cu RISC 2,5% (GRAD de CERTITUDINE 97,5%) CERTITUDINE 97,5%) putemputem afirmaafirmaca ca standardulstandardul minim de minim de calitatecalitate esteeste

indeplinitindeplinit ((poatepoate chiarchiar depasitdepasit))

Ex. 1: Cu RISC 2,5% (GRAD de Ex. 1: Cu RISC 2,5% (GRAD de CERTITUDINE 97,5%) CERTITUDINE 97,5%) putemputem afirmaafirmaca ca standardulstandardul minim de minim de calitatecalitate NU NU

esteeste indeplinitindeplinit..

SS--a a raspunsraspuns, , astfelastfel TRANSANT, TRANSANT, dardar cu GRAD de CERTITUDINE cu GRAD de CERTITUDINE cunoscutcunoscutsisi < 100%, la < 100%, la problemaproblema PP22:““DepasesteDepaseste sausau nu nu asistenta medicala standardul minim de calitate in asistenta medicala standardul minim de calitate in sectiasectia, , ……XX””

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

11

Liviu Dragomirescu 21

In situatia din Ex. 3 insa nu putem nici afirma, nicirespinge ipoteza indeplinirii standardului minim:

Ex. 3: m=7; s=7 er.std=1– Decizia statistica: Deoarece 7 e cuprins intre M-2s si M+2s, adica

intre 7,7-2 si 7,7+2 NU RESPINGEM (acceptam) ipoteza nula.– Exprimarea deciziei: datele esantionului nu ne dau motive sa

consideram ca standardul de 7,7 nu este indeplinit in toata sectia(populatia).

– Interpretarea deciziei: Ori standardul este indeplinit in toata sectia(populatia) ori nu avem suficiente date pentru a dovedi, eventual, contrariul.

Liviu Dragomirescu 22

ConcluziiConcluzii generalegenerale::

•• RESPINGEREA (RESPINGEREA (ipip. . nulenule) ) esteeste maimai““taretare”” decatdecat acceptareaacceptarea::–– RESPINGEREA (RESPINGEREA (ipip. . nulenule) ) esteeste sub control sub control

probabilistprobabilist: : putemputem calculacalcula RISCUL RISCUL eiei, in , in cazcazca ca esteeste adevarataadevarata..

–– GRADUL de CERTITUDINE = 1 GRADUL de CERTITUDINE = 1 –– RISCUL RISCUL respingeriirespingerii ipotezeiipotezei nulenule candcand esteeste adevarataadevarata..

•• PentruPentru acceptareacceptare nu nu putemputem calculacalculaGRADUL de CERTITUDINE.GRADUL de CERTITUDINE.

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

12

Liviu Dragomirescu 23

• Respingem ipoteza nula atunci cand este putin probabil sa se obtina un esantion de genul celui analizat dintr-o populatiestatistica cu caracteristica din ipoteza nula.

• Ex.: Respingem ipoteza nula a scorului mediu de 7,7 in populatie deoarece probalitatea de a obtine “din intamplare”dintr-o asemenea populatie un esantion cu media de 9,9 estefoarte mica (sub 2,5%).

• Practic, asimilam ideea de eveniment putin probabil cu cea de eveniment IMPOSIBIL in conditiile ipotezei nule, sauevenimenteveniment care CONTRAZICE care CONTRAZICE ipotezaipoteza nulanula.

• Daca, de exemplu, am presupune ca intr-o urna sunt numaibile albe (ipoteza nula), dar “intamplarea” ar extrage un esantion care are si bile negre, acest eveniment arCONTRAZICE ipoteza nula data. In acest caz contrazicereaeste CERTA (100%).

• In general, ““contrazicereacontrazicerea”” e incerta – STATISITCASTATISITCA -, cu un GRAD de CERTITUDINE apropiat de 100%, de exemplu, 97,5%.

Liviu Dragomirescu 24

Cand nu se respinge H0 nu inseamnaca este adevarata, ci ca, eventual, nu s-

au adunat suficiente date impotriva ei.

Cand nu se obtine condamnarea nu inseamana NEVINOVAT, ci “achitat

din lipsa de probe”.

Testul statistic trebuie sa aduca dovezibazate pe date experimentale care ““contraziccontrazic statisticstatistic”” ipoteza nula

Acuzarea trebuie sa aducadovezi materiale ale culpabititatii

H0: nici o diferenta (nimic nou) Supect presupus NEVINOVAT

Verificarea unei ipotezestatistice

Proces juridic

Analogie(Daudin J.J., Tapiero C.S. Les Outils et le control de la Qualite. ECONOMICA, Paris, 1996.)

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

13

Liviu Dragomirescu 25

Un rezultat putin probabil RESPINGE ipoteza (ca unul CONTRADICTORIU):

Liviu Dragomirescu 26

Altfel spus:

• Daca un rezultat s-ar obtine “DIN INTAMPLARE” cu o mica probabilitate, ilconsideram SEMNIFICATIV STATISTIC.

• Adica, vom considera ca a aparut nu accidental (din intamplare) dintr-o populatie cu caracteristicaspecificata in ipoteza nula, ci provine din altapopulatie, adica RESPINGEM ipoteza nula.

• Sau, echivalent, spunem ca: diferenta e prea mare fata de valoarea presupusa (in ipoteza nula) ca sa o atribuim doar intamplarii (fluctuatiilor de esantionaj).

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

14

Liviu Dragomirescu 27

Observatii:

• Asa se rezolva probleme de tipul 2, respectiv 4:

– P4:”Indeplineste asistenta medicala in sectia X standardul minim de calitate (de 7,77,7)?”,

• prin “test de conformitate”:

– compara (de ex.) media unui esantion cu media unei populatii.

Liviu Dragomirescu 28

Problema P3:

• P3. Este mai slaba asistenta medicala in sectia Xdecat in sectia Y?

• cere un “test de comparatie”:– compararea (de ex.) a doua sau mai multe medii:

• Ex. Compararea a 2 medii de esantioane prelevate independent (nu observatii perechi) se face:

– Prin testul t al lui Student (daca variabila e distribuita normal in fenomen) = ANOVA pt. ANOVA pt. douadoua esantioaneesantioane. . Test parametric

– Prin testul MannMann--WhitneyWhitney (daca nu stim distributia variabilei in fenomen). Test NEPARAMETRIC

•• IpotezaIpoteza nulanula esteeste: : ““celecele douadoua mediimedii nu nu diferadifera””..

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

15

Liviu Dragomirescu 29

II. ESTIMAREA STATISTICA

Liviu Dragomirescu 30

ESTIMARILE STATISTICE se fac prinINTERVALE de INCREDERE 95% sau alteprocente > 50%

Necesita 3 numere:

- Gradul de incredere (ex. 95%)

- Limita minima a intervalului.

- Limita maxima a intervalului.

sau

- Gradul de incredere

- Centrul intervalului (media esantionului)

- Marimea jumatatii intevalului (eroarea de estimare)

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

16

Liviu Dragomirescu 31

Exemplu:

• 7,3 0,5 este UN INTERVAL de INCREDERE 90%

• Media din populatie este in acest interval?

– Raspuns CORECT: Nu stim

– Stim doar ca daca repetam extragerea aleatoarede esantioane, cca 90% din acestea vor acoperimedia adevarata, dar nu vom sti care dintreacestea o acopera.

Liviu Dragomirescu 32

Estimareprin

intervalede

incredere90%

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

17

Liviu Dragomirescu 33

ESTIMARILE EMPIRICE (=nestatistice) se fac prin:

– Un singur numar (media esantionului nerandomizat)

sau

– Doua numere:- Limita minima a intervalului (centrat in media esantionului

nerandomizat)

- Limita maxima a intervalului (…)

gradul de incredere nefiind cuantificat (deci neverificabil)

ori

- Media esantionului nerandomizat

- Marja de eroare (de estimare) “din burta”

Liviu Dragomirescu 34

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

18

Liviu Dragomirescu 35

Liviu Dragomirescu 36

Compromiterea statisticii printratarea superficiala, astazi la moda

• Un ascultător: Ce este statistica ?Radio Erevan : Este ceva asemănător

costumului de baie: arată multe, dar ascundeesenţialul !

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.

19

Liviu Dragomirescu 37

Femeia perfectă - o combinaţie între Kate Middleton, Angelina Jolie şi altevedete (Monitorul de Suceava 07-01-2012)

Generated by Foxit PDF Creator © Foxit Softwarehttp://www.foxitsoftware.com For evaluation only.