28
Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:15-9:00, 9:00-11:00 Előadások-gyakorlatok 2021-ben (13 alkalom) IX. 8, 15, 22, 29 X. 6, 13, 20 XI. 3, 10, 17, 24, XII. 1, 8. Előadók Podani János NRÖEB Tsz Kun Ádám NRÖEB Tsz Vajna Balázs Mikrobiol. Hegyi Gergely Állatrendsz. Ferdinándy Bence Etológia Horváth Gergely Állatrendsz.

Biometria, haladó biostatisztika EA+GY

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Biometria, haladó biostatisztika EA+GY

Biometria, haladó biostatisztika EA+GYbiometub17vm Szerda 8:15-9:00, 9:00-11:00

Előadások-gyakorlatok 2021-ben (13 alkalom)

IX. 8, 15, 22, 29X. 6, 13, 20XI. 3, 10, 17, 24,XII. 1, 8.

Előadók

Podani János NRÖEB Tsz Kun Ádám NRÖEB Tsz Vajna Balázs Mikrobiol. Hegyi Gergely Állatrendsz. Ferdinándy Bence EtológiaHorváth Gergely Állatrendsz.

Page 2: Biometria, haladó biostatisztika EA+GY

Tematika

Az alapok összefoglalása (valószínűségeloszlások, a hipotézisvizsgálatok alapelve, paraméteres módszerek)

Randomizációs módszerek, tesztek

Mintavételezés

Nemparaméteres próbák - megfigyelt változók elemzése és rangpróbák

Általános lineáris modellek: regresszió, variancia-analízis, többváltozósesetek

Adatok ábrázolása

Bevezetés a több(sok-)változós módszerekbe - biológiai alkalmazásokkal

Page 3: Biometria, haladó biostatisztika EA+GY

Ajánlott irodalom: Internet: egyéni tanuláshoz

https://www.mateking.hu/tantargyakELTEvalószínűségszámítás, statisztika

Biometria előadás anyagahttp://podani.web.elte.hu/lectures.htm

Többváltozós módszerek:- Könyv – fejezetenként PDF- SYN-TAX 2000 for WINDOWSpodani.web.elte.hu

"Under more recent Win systems: Download Zip file for SYNTAX 2000 Installed files.Just unpack and copy all files into the same folder of your computer. "

- Laptop elsősorban - kalkulátor, mobiltelefon- Órai feladatlap, mini-tanulmány- Terv: évközi (8.) és utolsó órai (13.) zh.

Page 4: Biometria, haladó biostatisztika EA+GY

Fontos definíciók:

Változó: A H eseménytér elemeihez rendelt érték : H

Diszkrét vagy folytonos eloszlású (l. később)

Paraméter: Elméleti érték, az eloszlás egy jellemzője,pl. testmagasság “átlaga”, jele: mKiszámítható a nevezetes eloszlások esetébenvagy teljes enumerációval kapható meg….Ez ritkán lehetséges…. –> mintavétel

Minta: A lehetséges adatok részhalmaza –vö. populáció (univerzumhalmaz)

Becslőfüggvény: Olyan formula, ami a mintából becslia paramétert. „Statisztika” Sxi/n

Becslés: A paraméter becsült értéke. x

Page 5: Biometria, haladó biostatisztika EA+GY

EloszlásokDiszkrét eloszlású v. v.

értékkészlete megszámlálható halmaz.

Legyen pk az a valószínűség, hogy éppen az xk értéket veszi fel. Ekkor az eloszlás a

{ pk, xk }

számpárok halmaza. Pl. kockadobásnál: { 1/6, xk }Grafikon: Az oszlopok „magasságainak” összege 1.0

1/6

1 2 3 4 5 6

I. Egyenletes eloszlás p

xk

Page 6: Biometria, haladó biostatisztika EA+GY

Az eloszlás fő paraméterei

Várható érték – köznapi értelemben az “átlag”, az azérték, ami körül a többi érték szóródik

M(x) = m = 1/n S xi = 3.5

A variancia a várható érték körüli átlagos eltérésnégyzetSzórás: a variancia négyzetgyöke

V(X) = 1/n S (xi – M(x))2 = 2.91

S(x) = V(X)0.5 = 1.71

M(...) egyik rövidítés

Page 7: Biometria, haladó biostatisztika EA+GY

A v.v. eloszlásfüggvényeMegadja, hogy egy v.v. milyen valószínűséggel vesz fel egy adott x-nél kisebb értéket:

F(x) = p ( < x)

Diszkrét v.v. ("lépcsős fv.") a kockadobás (egyenletes eloszlás) példájára:

p 1

0 1 2 3 4 5 6xk

Másik definíció:F(x) = p ( ≤ x)

Page 8: Biometria, haladó biostatisztika EA+GY

II. Binomiális eloszlás - urnamodell, visszatevéssel.

Általában: n esetből k darab "kedvező" esemény bekövetkezésének (x = k) avalószínűsége, ha p az esemény egyedi valószínűsége (q = 1 – p).

nk

P(x = k) = pkqn-k = n!/(n-k)!k! pkqn-k , k = 0, 1, 2,…, n

Példa: n=3, k=1, p=0.33. vagy vagy

P(x = 1) = 3 * (0.33 * 0.66 * 0.66) = 0.431

k

P

A binomiális coefficient szorozva a valószínűségekkel.

Page 9: Biometria, haladó biostatisztika EA+GY

Biológiai példák: mintavétel igen nagy (~végtelen) populációból

III. Hipergeometrikus eloszlás - urnamodell, visszatevés nélkül.

Általában: n esetből k darab "kedvező" esemény bekövetkezésének (x = k) avalószínűsége, ha a kedvező esetet N egyedből m képviseli a populációban

Biológiai példák: mintavétel kis populációból

- nemek: hím v. nőstény- magvak csírázása: csírázik vs nem csírázik

Page 10: Biometria, haladó biostatisztika EA+GY

1 km

Ritka események atér- vagy időbeli folytonosságban egymástól függetlenül,

véletlenszerűen következnek be --- Poisson e.o.

Page 11: Biometria, haladó biostatisztika EA+GY

!)(

kkpp

k

k e

IV. Poisson eloszlás

k darab tér- vagy időegységre eső bekövetkezés valószínűsége,l az „átlag” – azaz a várható érték

Siméon Denis Poisson

Page 12: Biometria, haladó biostatisztika EA+GY

Egy nevezetes példa (Ladislaus Bortkiewicz 1898)Porosz hadsereg, n = 200 (húsz hadtest, tíz éven át).

Lórúgásnak betudható halálesetek száma

Halálesetek száma/év/hadtest Megfigyelt Poisson

0 109 108.67 (+)1 65 66.29 (-)2 22 20.22 (+)3 3 4.11 (-)4 1 0.63 (+)>4 0 0.1 (-)

ahol a várható értéket, l-t, a mintából becsültük:

Halálesetek átlagos száma/év/hadtest == Össz. haláleset/össz 1 évig megfigyelt hadtest == (109*0 + 65*1 + 22*2 + 3*3 + 1*4) / 200 =(65 + 44 + 9 + 4)/200 = 122/200 = 0.61

k

Page 13: Biometria, haladó biostatisztika EA+GY

Folytonos eloszlású v. v.Értékkészlete nem megszámlálható halmaz. Az eloszlás ábrázolása a sűrűségfüggvénnyel történik.

I. Egyenletes eloszláspl. a telefonhívástól a kapcsolásig eltelt idő (mp) a központban.

Ez 1. és 41. mp között biztosan, bármelyik időpillanatban azonos valószínűséggel bekövetkezik.

Ekkor egy egyenletes eloszlású, folytonos v. v. az alábbi sűrűségfüggvénnyel ábrázolható:

p

1/40

1 31 41

A „görbe alatti terület”: 1.0. Mi a valószínűsége annak, hogy a kapcsolása 31-41 mp között történik meg?

Page 14: Biometria, haladó biostatisztika EA+GY

p1

Folytonos v.v. eloszlásfüggvénye a telefonhívás példájára:

0 1 31 41

Az eloszlásfüggvény alapján megtudhatjuk, hogy milyen valószínűséggel vesz fel egy [a,b] intervallumba tartozó értéket:

p ( a b) = F(b) - F(a)

a b

F(b)–F(a)

Page 15: Biometria, haladó biostatisztika EA+GY

nfp k

k ˆ

A sűrűségfv. közelítése:

a) az értékkészlet egységnyi intervallumokra osztása

b) sok megfigyelés (n)

(sűrűséghisztogram).

A téglalapok magasságainak összege 1.

1/40

1 2 3 4 5 6 … 39 40 41

Page 16: Biometria, haladó biostatisztika EA+GY

II. Normális eloszlásKét paraméter: m – várható érték, s2 – variancia (négyzetgyöke a szórás)

Sűrűségfüggvény:

Page 17: Biometria, haladó biostatisztika EA+GY

Sűrűségfüggvény – standard alak:

Sűrűség-hisztogram

Page 18: Biometria, haladó biostatisztika EA+GY

Példa: férfiak testmagassága az USA-ban, átlag: 177 cm, szórás 7,4 cm.

Pl. mi a valószínűsége, hogy egy véletlenszerűen kiválasztott férfi magasabb- 191.8 cm-nél?? - 199.2 cm-nél - max. egy szórásra az átlagtól??

154. 8 162.2 169.6 177 184.4 191.8 199.2

Page 19: Biometria, haladó biostatisztika EA+GY

Elsődleges fontosságú téma:

MINTAVÉTELEZÉS

Page 20: Biometria, haladó biostatisztika EA+GY

Bevezetés a hipotézisvizsgálatba

Nemcsak a mért, megfigyelt, vizsgált valószínűségiváltozóknak van eloszlása!!

Page 21: Biometria, haladó biostatisztika EA+GY

A mintavételi univerzumból (populációból) sokszor vehetünk mintát

Mindegyikre kapunk adott paraméterre egy becslést

A becsült értékek eloszlása – nézzük az átlagot, nagyon sokszor feldobva n kockát

1/6

1 2 3 4 5 6

f(x)

1 2 3 4 5 6x

n = 3

f(x)

1 2 3 4 5 6x

n = 6

átlag eloszlása - sampling distribution

Page 22: Biometria, haladó biostatisztika EA+GY

Pénzérme feldobása

x =

0, ha fej

1, ha írás

0 1

0.5

n = 6 n=10

f(x)

1 2 3 4 5 6

n = 3

0 1

f(x)

1 2 3 4 5 6

n = 6

0 1

Page 23: Biometria, haladó biostatisztika EA+GY

Tegyük fel, hogy csak egy mintát vehetünk, amit most úgy imitálunk, hogy egy érmét tízszer feldobunk

Nullhipotézis, Ho: az érme szabályos

f(x)

n = 6

0 1

n=10

legvalószínűbb megvalósulások

Page 24: Biometria, haladó biostatisztika EA+GY

f(x)

1 2 3 4 5 6

n = 6

Alternatív hipotézis, H1 : az érme nem szabályos

0 1

n=10

Ritka (szélsőséges) megvalósulások

Ritka (szélsőséges) megvalósulások

Page 25: Biometria, haladó biostatisztika EA+GY

Vagyis: ha a statisztika olyan eredményt ad, ami valószínű, akkor elfogadjuk, hogy a statisztika az adott eloszlásból származik.

Ha a statisztika olyan eredményt ad, ami nagyon valószínűtlen, akkorazt mondjuk, hogy NEM, a statisztika mégse ebből az eloszlásból származik!!

Bartlett-paradoxon!

Tévedés lehetősége: mégis abból származik, amit tehát “VALÓSZÍNŰTLEN”-nektekintünk, ezt rendszerint p = 0.05 vagy 5%-nakválasztjuk (szignifkancia-szint, jele a)

Általános munkamenet:

a. A minta alapján kiszámítunk egy statisztikát, megválasztjuk az a-tb. Megnézzük egy táblázatban, vagy kiszámítjuk, hogy a

statisztika adott értéke mennyire valószínűa. Eldöntjük, hogy az eredmény szignifikáns-e avagy sem….

Page 26: Biometria, haladó biostatisztika EA+GY

Hibalehetőségek:

1) "Elsőfajú" hiba (Type I error):Ho-t elvetjük, holott igaz. Mértéke a (hiszen éppen Ho igaz volta esetén ilyen a statisztika eloszlása: csak a valószínűséggel esik az elvetési tartományba).

a/2 a/2

kritikus tartomány kritikus tartomány

Page 27: Biometria, haladó biostatisztika EA+GY

2) "Másodfajú" hiba (Type II error):Elfogadjuk Ho-t, holott nem igaz! Ennek meghatározása csak az alternatív eloszlás ismeretében lehetséges. Valószínűségét jelöljük -val.

Ha az alternatív hipotézisben megjelölt várható érték közel van a Ho-ban megjelölt várható értékhez, akkor nagy az átfedés, nagy a .Ha az alternatív hipotézisben megjelölt várható érték távolabb esik a Ho-ban megjelölt várható értéktől, akkor kicsi az átfedés, kicsi a .A mintaelemszám növelése csökkenti a -t

Stat. eloszlása Alternatív eloszlás

a/2 a/2

Page 28: Biometria, haladó biostatisztika EA+GY

Ho-telfogadjuk elvetjük

igaz helyes I. hiba

Ho

hamis II. hiba helyes

a és összefüggése: minél kisebb a, annál nagyobb .

Összesítve: