12
a TESTE STATISTICE TESTAREA IPOTEZELOR Ipoteza de cercetare postuleaza existenta unei diferenţe intre grupuri sau a unei asocieri intre factori Testarea statistica a ipotezei permite cuantificarea riscului de eroare implicat in mecanismul inferenţei statistice PROCESUL RATIONAMENTULUI STATISTIC EXEMPLU 2: Studiu - medic cardiolog - daca barbatii cu varsta cuprinsa intre 40 si 60 de ani, cu infarct miocardic acut in antecedente au nivelul de colesterol in sange mai mare (in medie) decat al populatiei (in general)? nivelul mediu de colesterol in general μ = 242 mg/dl σ = 40 mg/dl A. IPOTEZE H 0 : "nu exista diferente intre nivelul de colesterol pentru cele doua populatii" H 0 : μ ΙΜ = 242 mg/dl H a : "populatia barbatilor cu un infarct miocardic in antecedente si cu varsta…. are nivelul mediu de colesterol in sange mai mare decat al populatiei obisnuite" H a : μ ΙΜ > 242 mg/dl B. OBTINEREA INFORMATIEI 100 barbati - Ym = 260 mg/dl

teste-2015

Embed Size (px)

Citation preview

  • a

    TESTE STATISTICE

    TESTAREA IPOTEZELOR Ipoteza de cercetare

    postuleaza existenta unei diferene intre grupuri sau a unei asocieri intre factori

    Testarea statistica a ipotezei permite cuantificarea riscului de eroare implicat in mecanismul inferenei statistice

    PROCESUL RATIONAMENTULUI STATISTIC

    EXEMPLU 2: Studiu - medic cardiolog - daca barbatii cu varsta cuprinsa intre 40 si 60 de ani, cu infarct miocardic acut in antecedente au nivelul de colesterol in sange mai mare (in medie) decat al populatiei (in general)? nivelul mediu de colesterol in general = 242 mg/dl = 40 mg/dl

    A. IPOTEZE H0:

    "nu exista diferente intre nivelul de colesterol pentru cele doua populatii"

    H0: = 242 mg/dl

    Ha: "populatia barbatilor cu un infarct miocardic in antecedente si cu varsta. are nivelul mediu de colesterol in sange mai mare decat al populatiei obisnuite"

    Ha: > 242 mg/dl

    B. OBTINEREA INFORMATIEI 100 barbati - Ym = 260 mg/dl

  • b

    C. MASURAREA DISPARITATII DINTRE PARAMETRII POPULATIEI SI STATISTICA CALCULATA

    Statistica testului masoara disparitatea dintre valoarea populatiei (teoretica) si statistica calculata pe baza esantionului studiat

    torstd.estima dev.ipotetica valoare-estimator

    teststatistica =

    statistica testYm - IM

    IM= =

    =

    n

    260 24240 100

    4 5.

    D. EVALUAREA DOVEZILOR PENTRU REJECTAREA H0

    Disparitatea poate explicata prin 2 cauze: Ha este adevarata H0 este adevarata - diferentele se datoreaza sansei

    p 0.0001

    E. CONCLUZIA Ha adevarata acceptata: rezultatul este semnificativ p =0.01 statistic pt. un prag de semnif. de 1%

    H0 falsa rejectata

  • c

    Formularea ipotezei de cercetare ce trebuie testata

    Formularea ipotezelor statistice

    Selectia unui esantion si colectarea datelor

    Calcularea statisticii testului

    Evaluarea dovezilor pt. rejectarea H0

    Formularea concluziei

    CUANTIFICAREA INCERTITUDINII IN TESTAREA IPOTEZELOR STATISTISTICE

    A. REZULTATELE POSIBILE ALE UNUI TEST STATISTIC

    Decizia statistica Realitatea

    Datele provin dintr-o populatie pt. care

    H0 adevarata H0 falsa si Ha adevarata

    NU rejectez H0

    Decizie corecta Decizie incorecta

    eroare tip II P(eroare tip II) =

    rejectez H0 Decizie incorecta

    eroare tip I P(eroare tip I) =

    Decizie corecta P(decizie corecta)=putere

  • d

    Eroarea de tip I = P(rejecteaza H0 | H0 adevarata) = P(eroare tip I) = prag de semnificatie (1-) = nivel de incredere

    Eroarea de tip II = P(accepta H0 | H0 falsa) = P(rejecteaza Ha | Ha adevarata) = P(eroare tip II) (1-) = puterea testului

    B. MANIPULAREA INCERTITUDINII 1. Efectul alterarii nivelului de semnificatie pentru n constant

  • e

    2. Efectul alterarii dimensiunii efectului cautat pt. si n constante

    (01) creste descreste puterea creste (01) descreste creste puterea descreste

    3. Efectul alterarii marimii esantionului - n

    C. TESTE UNIDIRECTIONALE SI TESTE BIDIRECTIONALE one-tailed test two-tailed test test unidirectional - diferenta care exista se refera la un anumit sens

    H0: = 242 mg/dl Ha: > 242 mg/dl

    test bidirectional - exista o diferenta semnificativa intre 2 sau mai multe categorii, dar nu intereseaza (sau nu se cunoaste) sensul acelei diferente

    H0: = 242 mg/dl Ha: 242 mg/dl

    > 242 mg/dl < 242 mg/dl

  • f

    test unidirectional - mai puternic tipul testului - inainte de colectarea datelor!

    DECIZIA STATISTICA

    p

    p>0.05 Diferente nesemnificative

    NU respingem H0

    = 0.05 5% p

  • g

    ALEGEREA TESTULUI STATISTIC POTRIVIT

    A. PUNCTE DE DECIZIE

    1. Natura ipotezei de cercetare (tipul intrebarii) Asociere intre 2 factori Diferente intre grupuri ce sunt comparate

    2. Tipul de date colectate in studiu Categorii (frecvente de aparitie)

    scara nominala

    Grupa sanguina

    Anemie prezenta

    Anemie absenta

    Total

    O 10 30 40 A 12 18 30 B 15 15 30

    AB 13 12 25

    scara ordinala

    Severitatea bolii Fumatori Nefumatori Stadiul 1 60 40 Stadiul 2 75 25 Stadiul 3 80 20

    scara de tip interval/proportionala

    Pres. art. sist. Tipul personalitatii (mm Hg) Tip A Tip B Total

    81-100 10 20 30 101-120 20 60 80 121-160 40 20 60

    >160 20 10 30 Total 90 110 200

    Date de tip continu (numeric)

  • h

    3. Tipul de studiu Studii observationale. Studii experimentale

    4. Numarul de grupuri ce sunt comparate 5. Esantioane pereche sau independente

    CLASE DE TESTE STATISTICE

    1. Teste de semnificatie 4 verifica egalitatea unui parametru estimat cu o valoare data, sau egalitatea a

    2 valori medii 4 testele t (student) 4 testul z

    2. Teste de omogenitate 4 verifica egalitatea parametrilor pt. doua sau mai multe esantioane (dispersii) 4 testul F (Fisher)

    3. Teste de concordanta 4 compara o distributie experimentala cu o distributie teoretica, sau 2

    distributii experimentale

    4. Teste de independenta 4 analizeaza asocierea sau diferentele dintre 2 sau mai multe serii

    experimentale 4 testul 2

    5. Teste pentru corelatii 4 analizeaza semnificatia coeficientului de corelatie

    TESTE STATISTICE - EXEMPLE

    A. TESTUL 2 analiza asocierilor ce implica date de tip categorie (frecventa de aparitie) diferenta intre proportii

    Exemplu Studiu - relatia dintre stadiul unor tumori ovariene maligne (la momentul diagnosticarii) si nivelul de stres al pacientelor =.05

  • i

    1. Ipoteze

    H0: "Severitatea cancerului ovarian si nivelul de stres sunt independente." (NU exista asociere)

    Ha: "Severitatea cancerului ovarian (la momentul diagnosticarii) este legata de nivelul de stres al pacientei."

    (exista asociere)

    2. Selectarea unui esantion si colectarea datelor

    Severitatea Nivel de stres bolii 1 2 3 4 TOTAL

    incipient 362 60 141 317 880 moderat 29 5 15 21 70

    sever 19 5 6 20 50 TOTAL 410 70 162 358 1000*

    3. Calculul statisticii testului

    ( ) 2

    2

    =

    O E

    Eij ij

    ijij Eij valori asteptate; Oij valori observate

    N = (rand-1)(col-1) = (3-1)(4-1) = 6 2 = 3.46

    4. Evaluarea rezultatelor si concluzia

    p > 0.10 H0 acceptata

    5. Consideratii tehnice

    a) Validitatea testul 2 NU este valid pentru Eij mici

    b) Interpretarea rezultatelor negative si puterea testului necunoscut eecul in a respinge H0 este neconcludent

    c) Valoare mica pt. p - dovezi in favoarea unei asocieri semnificative, NU corespunde marimii acelei asocieri

  • j

    B. TESTE t PERECHE SI NEPERECHE evalueaza diferente semnificative intre 2 grupuri de date de tip continu

    (numeric)

    B1. Test t nepereche

    Exemplu: Studiu - exercitii ce previn dezv. osteoporozei prin cresterea secretiei calcitoninei (hormon ce inhiba resorbtia osoasa) = .05

    1. Ipoteze

    H0: "Nivelul de calcitonina in randul populatiei indivizilor ce fac exercitii este egal cu cel in randul indivizilor ce nu fac exercitii."

    H0: = C ( - C = 0)

    Ha: "Nivelul mediu de calcitonina in randul populatiei indivizilor ce fac exercitii este mai mare decat cel in randul indivizilor ce nu fac exercitii."

    Ha: > C ( - C > 0)

    2. Selectarea unui esantion si colectarea datelor

    200 de femei intre 25 - 40 ani

    Grup E Grup C Vol. esantion n1=100 n2=100 Media esantion Ym1=0.58 Ym2=0.53 Dev. std. esantion s1=0.21 s2=0.19

    3. Calculul statisticii testului ( ) ( )

    ( )212121

    YmYms

    YmYmt

    =

    N = n1 + n2 - 2 = 198

    t = 1.78

  • k

    4. Evaluarea rezultatelor testului si concluzia

    p < 0.05 H0 rejectata

    test unidirectional t=1.78 p < 0.05 test bidirectional p < 0.1

    B2. Test t pereche

    Exemplu: Studiu - nivelul de digoxina in sange pt. 9 barbati sanatosi cu varsta cuprinsa intre 20 si 45 de ani, dupa injectarea intravenoasa.

    = .05

    Concentratia de digoxina in sange (mg/ml)

    Subiect 4 ore 8 ore Diferente (di) 1. 1.0 1.0 0.0 2. 1.3 1.3 0.0 3. 0.9 0.7 -0.2 4. 1.0 1.0 0.0 5. 1.0 0.9 -0.1 6. 0.9 0.8 -0.1 7. 1.3 1.2 -0.1 8. 1.1 1.0 -0.1 9. 1.0 1.0 0.0 Ymd=-0.067 sd=0.071

    H0: d = 0 Ha: d < 0 (d 0)

    tYmd

    sd n=

    =

    0 0 067 00 071 9

    .

    .

    .

  • l

    C. ANALIZA VARIANTEI ANOVA (Analysis Of Variance)

    Exemplu:

    H0: 1 = 2 = 3 = 4 = 5 Ha:.

    Teste t separate cu = .05

    = P(rejectez H0 | H0 adevarata)

    P(nu rejectez H0 | H0 adevarata) = 1 - = 1 - 0.05 = 0.95

    P(nu rejectez H0 pt. toate cele 10 teste | H0 adevarata) = (0.95)10 = 0.5987

    P(rejectez H0 pt. cel putin 1 test | H0 adevarata) = 1- (0.95)10 = 0.4013 = = P(eroare tip I pt. setul de 10 teste)

    Analiza variantei

    statistica test - F

    analiza unifactoriala (one-way analysis) - test t nepereche generalizat analiza bifactoriala (two-way analysis) - test t pereche generalizat

    Patratul latin - 4 tratamente

    A B C D C A D B D C B A B D A C