Upload
clodia
View
41
Download
0
Embed Size (px)
DESCRIPTION
STATISZTIKA. Vargha András Eötvös Loránd Tudományegyetem Budapest, 2012. Vargha András: Matematikai statisztika pszichológiai, nyelvészeti és biológiai alkalmazásokkal (2. kiadás). Pólya Kiadó, Budapest, 2007. Kötelező irodalom a kurzushoz. www.ropstat.com - PowerPoint PPT Presentation
Citation preview
Vargha András Eötvös Loránd
TudományegyetemBudapest, 2012
2
Kötelező irodalom a kurzushoz
Vargha András: Matematikai statisztika pszichológiai, nyelvészeti és biológiai alkalmazásokkal (2. kiadás). Pólya Kiadó, Budapest, 2007.
3
Nélkülözhetetlen szoftver a kurzushoz: ROPstat
www.ropstat.comTöltse le és próbálja ki a magyar nyelvű demó
verziót!
4
A félév vázlata1) Statisztikai alapfogalmak, leíró statisztikák2) A következtetési statisztika alapfogalmai3) Két független minta összehasonlítása4) Két összetartozó minta összehasonlítása5) Változók kapcsolatának vizsgálata6) Csoportok és változók összehasonlítása
varianciaanalízissel7) Csoportok és változók sztochasztikus
összehasonlítása8) Gyakorisági táblázatok elemzése
5
1. Statisztikai alapfogalmak, leíró statisztikák
6
Tartalom Statisztikai alapfogalmak (adatok,
adattáblázat, esetek, változók) Populáció és minta Változók és típusaik Leíró statisztika alapfogalmai Középértékek és szóródási mutatók Standardizálás Normális eloszlás
7
Vágjunk bele!
8
Piaci szavak Karalábé Lilahagyma Padlizsán Cukkini Sárgarépa
Tök Paprika Dinnye Jégsaláta Póréhagyma
Memóriajáték
Írja be a füzetébe, hogy milyen szavak fordultak elő az iménti dián!
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
Mely szavakra emlékezett helyesen?
1. Karalábé2. Lilahagyma3. Padlizsán4. Cukkini5. Sárgarépa
6. Tök7. Paprika8. Dinnye9. Jégsaláta10. Póréhagyma
Egy személlyel kapcsolatban mi érdekelhet bennünket?
Emlékezeti teljesítmény Helyesen megjegyzett szavak száma Más?
Egyéb jellemzők Személy neme Más?
Pszichológiai változók
Pszichológusok által vizsgált egyedek,
személyek, házaspárok (megfigyelési
egységek) egyedi jellemzői
GYAK
Példák változókra (megfigyelési egység = egy házaspár)
• Mióta házasok• Mióta járnak együtt• Férj életkora• Feleség életkora• Korkülönbség• Gyerekeik száma• IQ(férj) - IQ(feleség)
GYAK
Más példák (megfigyelési egység = egy személy)
• Nem
• Életkor
• MAWI-IQ
• Diagnózis
• Iskolázottsági szint
• Végzett osztályok száma
GYAK
Mit várunk el egy pszichológiai változó meghatározásakor?
• Egyértelműen definiált értékkészlet
• Minden esetnél egyértelműen
eldönthető érték
GYAK
Mi a statisztika?
Akkor fordulunk hozzá, ha sok
egyedünk van és mindenkit
ugyanazon változó (vagy változók)
segítségével jellemzünk
Emberek, gyümölcsök
Virágok
Kavicsok
A statisztika segítségével
• Jellemezhetünk – leírhatunk – egy egész
csoportot, mintát. Hogyan?
• Különböző csoportokat összehasonlít-
hatunk (pl. férfiak és nők memóriája)
• Változók között összefüggéseket
kereshetünk (pl. van-e kapcsolat a kor és
az emlékezeti teljesítmény között?)
• Stb.
Hogy kell a statisztikai adatfeldolgozáshoz (elemzéshez)
előkészíteni az adatokat?
• Elsődlegesen egy személyek és változók szerint rendezett adattáblázatot (statisztikai adatállományt) kell létrehozni
• Ennek neve: eset-változó adattáblázat (adatmátrix)
• ROPstat illusztráció
GYAK
23
Eset-változó adattáblázat
EsetNem (X1)
Életkor (X2)
Magasság (X3)
…
1. Nő 18 170
2. Férfi 21 178
3. Nő 19 155…
Példák más adatállományokra
25
Pszichológia szakra jelentkezők, 1981
26
Gyerekek antropometriai adatai, 1993
27
Problémás és normál családok, 2005
A változóról• Eseteket (személyeket stb.) jellemzi
• Értékei vannak (pl. a személy neme változó
értékei mik? Kor, testmagasság, szemszín,
érettségi matek jegye értékei?)
• Ha egy változónak véges számú (2, 3, 4, …)
különböző értéke van, diszkrét változónak
nevezzük. Példa?
• Folytonos változók. Mi folytonos ezeknél?GYAK
29
Pszichometriai skálatípusok Osztályozás szempontja: milyen logikai,
illetve számtani műveletek végezhetők értelmesen a változó értékeivel?
Nominális skála Ordinális skála Intervallum-skála Arányskála Példák: GYAK
30
Kvantitatív és kvalitatív változók
Kvalitatív változók Nominális és ordinális skálájú változók
– Hangsúly: az értékek kategóriáján
Kvantitatív változók Intervallum- és arányskálájú változók
– Hangsúly: az értékek nagyságán
31
A változók eloszlása
Azt tudjuk meg a változó eloszlásából, hogy milyen értékből mennyi (% , darab) van.
Ha ismerjük egy változó eloszlását, ebből már minden jellemzőjét (pl. az átlagot is) ki lehet számítani, illetve meg lehet határozni.
GYAK
32NEM
NEM
nõférfi
Perc
ent
60
50
40
30
20
10
0
33
Hogy tetszik?
34EPIL3
EPIL3
4.003.002.001.00.00
Perc
ent
60
50
40
30
20
10
0
35ISK
ISK
181716151413121110987
Perc
ent
40
30
20
10
0
36ISKKOD
ISKKOD
16-2012-157-11
Perc
ent
50
40
30
20
10
0
37
Az iskolai végzettség eloszlása
Alsófokú végzettség
Középfokú végzettség
Felsőfokú végzettség
29% 40% 31%
38
Statisztikai alapfogalmako Megfigyelési egységek (esetek)
– személyek, egyedek, házaspároko Változók (megfigyelési egységek jellemzői)
– IQ, Nem, Kor, Megtanult tételek száma, Házasság időtartama
o Populáció (sokaság): esetek elvi (elméleti) összessége
o Minta: a populáció kiválasztott része
39
Populáció és minta
o A populáció nagyon nagy, ezért csak egy kis részét vizsgáljuk meg. Ez a MINTA (pl. 50 vagy 100 vagy 35 személy).
40
Minta
o Megfigyelési egységek csoportja, akiket bizonyos változók segítségével egy vizsgálat, kísérlet vagy megfigyelés során konkréten megvizsgálunk és adatokkal jellemzünk.
o E minta alapján nyert adatok együttese: az adatminta
41
Egy adatminta
személyNem Életkor Magasság …
1. Nő 18 170
2. Férfi 21 178
3. Nő 19 155…
42
Statisztikai elemzések két fő típusa
Leíró statisztikao Fókusz a konkrét mintán: milyen ez a minta?
(Pl. mi itt a fiúk és a lányok aránya?)
Következtetési statisztikao Következtetés a mintáról a populációra.
Fókusz a populáción. (Pl. ha a minta 20%-a fiú, akkor mekkora lehet az arányuk a populációban? Kijelenthető-e, hogy a fiúk a populációban is kisebbségben vannak?)
Kiknek jobb a verbális memóriája, a fiúknak, vagy a lányoknak?
44
Leíró statisztikao Milyen ez az évfolyam az emlékezeti
vizsgálat változói szempontjából?o Az elemzést lehet változónként,
változópáronként, vagy ennél is bonyolultabb változómintázatok segítségével végezni. o Nemi megoszláso Emlékezeti teljesítmény eloszlása
45
Leíró statisztikai elemzéseko Gyakorisági eloszláso Középértékeko Szóródási mutatóko Az eloszlás alakja
o Ferdeség o Csúcsosság
GYAK
46
Érték Gyak % Kum% Érték Gyak % Kum%
3 1 0,4 0,4 11 18 6,5 41,2
4 2 0,7 1,1 12 68 24,5 65,7
5 3 1,1 2,2 13 9 3,2 69,0
6 20 7,2 9,4 14 14 5,1 74,0
7 5 1,8 11,2 15 1 0,4 74,4
8 47 17 28,2 16 36 13 87,4
9 2 0,7 28,9 17 32 11,6 98,9
10 16 5,8 34,7 18 3 1,1 100
Az iskolázottság gyakorisági eloszlása (n = 277)
47
Mi olvasható ki a gyakorisági eloszlásból?
o Minimum, maximum o Milyen értékből mennyi van?o Relatív gyakoriság (százalékos)o Milyen értékből van a legtöbb? (módusz)o Kumulatív gyakoriság
GYAK
48
Kvantilisek
A mintát adott arányban két részre osztó pontok– Felezőpont: medián– Negyedelő pontok: kvartilisek
– K1: alsó 25%-ot levágó osztópont
– K3: alsó 75%-ot levágó osztópont
Percentilisek (centilisek): C1, C1, …, C100.
- Med = C50, K1 = C25, K3 = C75, GYAK
49
A kvantilisekről
A kum% segítségével határozhatók meg a legkönnyebben.
Folytonos változók esetén lehet leginkább használni őket, mert a meghatározásuk itt a legtisztább.
GYAK
50
0
2
4
6
8
10
12
14
25%
K3K1
50%
25%
51
Érték Gyak % Kum% Érték Gyak % Kum%
3 1 0,4 0,4 11 18 6,5 41,2
4 2 0,7 1,1 12 68 24,5 65,7
5 3 1,1 2,2 13 9 3,2 69,0
6 20 7,2 9,4 14 14 5,1 74,0
7 5 1,8 11,2 15 1 0,4 74,4
8 47 17 28,2 16 36 13 87,4
9 2 0,7 28,9 17 32 11,6 98,9
10 16 5,8 34,7 18 3 1,1 100
Itt mi az alsó és a felső kvartilis?
GYAK
52
Középértékek
53
Egy változó nagyságának jellemzéseegyetlen adattal
Legtipikusabb érték: Módusz
Eloszlás centruma: Átlag
Eloszlás közepe: C50 = Medián
54
Érték Gyak % Kum% Érték Gyak % Kum%
3 1 0,4 0,4 11 18 6,5 41,2
4 2 0,7 1,1 12 68 24,5 65,7
5 3 1,1 2,2 13 9 3,2 69,0
6 20 7,2 9,4 14 14 5,1 74,0
7 5 1,8 11,2 15 1 0,4 74,4
8 47 17 28,2 16 36 13 87,4
9 2 0,7 28,9 17 32 11,6 98,9
10 16 5,8 34,7 18 3 1,1 100
Medián = ?
GYAK
55
Mi az IQ mediánja?
56
Az IQ mediánja = 100
50% 50%
57
Mintajellemzők
n-elemű minta: (x1, x2, x3, ..., xn)
Mintaátlag: x = (xi)/n = (x1+x2+x3+...+xn)/n
Mintamedián: Adatok növekvő sorában a középső vagy a középső kettő átlaga
Minta: 2 < 4 < 5 < 7 < 8 Medián: M = 5
58
50
55
60
65
70
75
80
85
20 30 40 50 60 70
Férfiak
Nők
Férfiak és nők testsúlyátlagai különböző életkori szinteken
év
59
Szóródási mutatók
60
Miben különbözikaz alábbi két minta?
2 4 6 8
4
5
5 6
61
Három bizonyítvány
– Magatartás 3 5 2– Szorgalom 3 1 4– Magyar irodalom 3 5 2– Magyar nyelvtan 3 1 4– Matematika 3 5 2– Történelem 3 1 4– ÁTLAG: 3 3 3
62
Mennyire szóródnakaz adatok az átlag körül?
Átlagtól való négyzetes eltérés egyetlen személy esetén:
– Pl. IQ = 105 esetén (105 - – IQ = 80 esetén (80 -
Ezen négyzetes eltérések átlaga: variancia (Var) A variancia négyzetgyöke: szórás (, s)
63
Mintabeli szóródási mutatók
Négyzetes összeg: Q = xi -x)2
Variancia (korrigált): Var = Q/(n - 1) Szórás = a variancia négyzetgyöke:
s = Var = Q/(n-1)
– Szabadságfok: f = n - 1
GYAK
64
Szokásos jelölések
Mintabeli (tapasztalati) átlag: x (ejtsd: x-vonás) Populációbeli (elméleti) átlag: μ (ejtsd: mű) Mintabeli (tapasztalati) szórás: s Populációbeli (elméleti) szórás: σ (ejtsd: szigma)
65
Relatív szórás = Variációs együttható
Cél: dimenziómentes szóródási mutató
Mintában: VE = s/x
Populációban: VE = / Feltétel: X arányskálájú
Pl.: Ha s = 3 kg, x = 5 kg, akkor
VE = 3kg/5kg = 0,60 = 60% GYAK
66
Adatok nagysága
Milyen nagy egy 210 cm-es testmagasság (150-es IQ, 160-as vérnyomás)?
Milyen kicsi egy 145 cm-es testmagasság (65-ös IQ, 80-as vérnyomás)?
GYAK
67
Standard érték Az X változó x értékének standard értéke (z) azt
mutatja meg, hogy x hány szórásnyi távolságra van az átlagtól:
z = (x – átlag)/szórás Pl. 10-es átlag és 2-es szórás esetén 15 z-értéke
mennyi? A standard értékeknek mi a mértékegysége?
GYAK
68
Standardizálás Mintában: zx = (x – x)/s
Mi lesz az átlag standard értéke?
Mi lesz a standard értékek szórása?
A nagy hibák standard értéke kiugróan
nagy (vö. ROPstat)
69
Példák az IQ-val
= E(IQ) = 100, = D(IQ) = 15
Ha IQ = 130, z = ?
Ha z = -1, IQ =?
GYAK
70
Hogyan határozza megaz eloszlás alakját
a ferdeség és a csúcsosság?
71
Szimmetrikus, átlagos csúcsosságú eloszlás
72
Szimmetrikus, átlagosnál nagyobb csúcsosságú eloszlás
73
Hogy nézhet ki egy átlagosnál kisebb csúcsosságú (pl. lapos)
eloszlás?
?
74
Folytonos egyenletes eloszlás
75
Pozitív ferdeségű eloszlás
76
Negatív ferdeségű eloszlás
77
Szimmetrikus,kétcsúcsú (bimodális) eloszlás
78
Ferdeség és csúcsosság mérése
Ferdeségi együttható (skewness):
E(z3) Csúcsossági együttható (kurtosis):
E(z4) – 3
A normális eloszlás ferdeségi és csúcsossági együtthatója 0
79
A normális eloszlástípus
80
81
Milyen változó normális eloszlású?
Például a fejek száma 100-200-1000 dobásból
Sok apró hasonló, de független mennyiség összegeződése
Egy véletlen minta átlaga (vö. ROPstat) Kis minta? Nagy minta? GYAK
82
Változó: fejek száma 50 dobásból (gyakorisági eloszlás, n = 15000)
0
2
4
6
8
10
12
12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37
83
A normális eloszlás kiterjedtsége
84
A normális eloszlás kiterjedtsége
68%
95%
99,8%
85
Például = 100 és = 15 esetén
68%
95%
99,8%
GYAK
86
Példák normális és nem normális eloszlású változókra
Hisztogram és kum% megtekintése az alábbi adatfájlok változóira
Antr500.msw Új fájl 1000 esettel random normál
változóval
GYAK