Vargha András Eötvös Loránd Tudományegyetem Budapest, 2012

Preview:

DESCRIPTION

STATISZTIKA. Vargha András Eötvös Loránd Tudományegyetem Budapest, 2012. Vargha András: Matematikai statisztika pszichológiai, nyelvészeti és biológiai alkalmazásokkal (2. kiadás). Pólya Kiadó, Budapest, 2007. Kötelező irodalom a kurzushoz. www.ropstat.com - PowerPoint PPT Presentation

Citation preview

Vargha András Eötvös Loránd

TudományegyetemBudapest, 2012

2

Kötelező irodalom a kurzushoz

Vargha András: Matematikai statisztika pszichológiai, nyelvészeti és biológiai alkalmazásokkal (2. kiadás). Pólya Kiadó, Budapest, 2007.

3

Nélkülözhetetlen szoftver a kurzushoz: ROPstat

www.ropstat.comTöltse le és próbálja ki a magyar nyelvű demó

verziót!

4

A félév vázlata1) Statisztikai alapfogalmak, leíró statisztikák2) A következtetési statisztika alapfogalmai3) Két független minta összehasonlítása4) Két összetartozó minta összehasonlítása5) Változók kapcsolatának vizsgálata6) Csoportok és változók összehasonlítása

varianciaanalízissel7) Csoportok és változók sztochasztikus

összehasonlítása8) Gyakorisági táblázatok elemzése

5

1. Statisztikai alapfogalmak, leíró statisztikák

6

Tartalom Statisztikai alapfogalmak (adatok,

adattáblázat, esetek, változók) Populáció és minta Változók és típusaik Leíró statisztika alapfogalmai Középértékek és szóródási mutatók Standardizálás Normális eloszlás

7

Vágjunk bele!

8

Piaci szavak Karalábé Lilahagyma Padlizsán Cukkini Sárgarépa

Tök Paprika Dinnye Jégsaláta Póréhagyma

Memóriajáték

Írja be a füzetébe, hogy milyen szavak fordultak elő az iménti dián!

1.

2.

3.

4.

5.

6.

7.

8.

9.

10.

Mely szavakra emlékezett helyesen?

1. Karalábé2. Lilahagyma3. Padlizsán4. Cukkini5. Sárgarépa

6. Tök7. Paprika8. Dinnye9. Jégsaláta10. Póréhagyma

Egy személlyel kapcsolatban mi érdekelhet bennünket?

Emlékezeti teljesítmény Helyesen megjegyzett szavak száma Más?

Egyéb jellemzők Személy neme Más?

Pszichológiai változók

Pszichológusok által vizsgált egyedek,

személyek, házaspárok (megfigyelési

egységek) egyedi jellemzői

GYAK

Példák változókra (megfigyelési egység = egy házaspár)

• Mióta házasok• Mióta járnak együtt• Férj életkora• Feleség életkora• Korkülönbség• Gyerekeik száma• IQ(férj) - IQ(feleség)

GYAK

Más példák (megfigyelési egység = egy személy)

• Nem

• Életkor

• MAWI-IQ

• Diagnózis

• Iskolázottsági szint

• Végzett osztályok száma

GYAK

Mit várunk el egy pszichológiai változó meghatározásakor?

• Egyértelműen definiált értékkészlet

• Minden esetnél egyértelműen

eldönthető érték

GYAK

Mi a statisztika?

Akkor fordulunk hozzá, ha sok

egyedünk van és mindenkit

ugyanazon változó (vagy változók)

segítségével jellemzünk

Emberek, gyümölcsök

Virágok

Kavicsok

A statisztika segítségével

• Jellemezhetünk – leírhatunk – egy egész

csoportot, mintát. Hogyan?

• Különböző csoportokat összehasonlít-

hatunk (pl. férfiak és nők memóriája)

• Változók között összefüggéseket

kereshetünk (pl. van-e kapcsolat a kor és

az emlékezeti teljesítmény között?)

• Stb.

Hogy kell a statisztikai adatfeldolgozáshoz (elemzéshez)

előkészíteni az adatokat?

• Elsődlegesen egy személyek és változók szerint rendezett adattáblázatot (statisztikai adatállományt) kell létrehozni

• Ennek neve: eset-változó adattáblázat (adatmátrix)

• ROPstat illusztráció

GYAK

23

Eset-változó adattáblázat

EsetNem (X1)

Életkor (X2)

Magasság (X3)

1. Nő 18 170

2. Férfi 21 178

3. Nő 19 155…

Példák más adatállományokra

25

Pszichológia szakra jelentkezők, 1981

26

Gyerekek antropometriai adatai, 1993

27

Problémás és normál családok, 2005

A változóról• Eseteket (személyeket stb.) jellemzi

• Értékei vannak (pl. a személy neme változó

értékei mik? Kor, testmagasság, szemszín,

érettségi matek jegye értékei?)

• Ha egy változónak véges számú (2, 3, 4, …)

különböző értéke van, diszkrét változónak

nevezzük. Példa?

• Folytonos változók. Mi folytonos ezeknél?GYAK

29

Pszichometriai skálatípusok Osztályozás szempontja: milyen logikai,

illetve számtani műveletek végezhetők értelmesen a változó értékeivel?

Nominális skála Ordinális skála Intervallum-skála Arányskála Példák: GYAK

30

Kvantitatív és kvalitatív változók

Kvalitatív változók Nominális és ordinális skálájú változók

– Hangsúly: az értékek kategóriáján

Kvantitatív változók Intervallum- és arányskálájú változók

– Hangsúly: az értékek nagyságán

31

A változók eloszlása

Azt tudjuk meg a változó eloszlásából, hogy milyen értékből mennyi (% , darab) van.

Ha ismerjük egy változó eloszlását, ebből már minden jellemzőjét (pl. az átlagot is) ki lehet számítani, illetve meg lehet határozni.

GYAK

32NEM

NEM

nõférfi

Perc

ent

60

50

40

30

20

10

0

33

Hogy tetszik?

34EPIL3

EPIL3

4.003.002.001.00.00

Perc

ent

60

50

40

30

20

10

0

35ISK

ISK

181716151413121110987

Perc

ent

40

30

20

10

0

36ISKKOD

ISKKOD

16-2012-157-11

Perc

ent

50

40

30

20

10

0

37

Az iskolai végzettség eloszlása

Alsófokú végzettség

Középfokú végzettség

Felsőfokú végzettség

29% 40% 31%

38

Statisztikai alapfogalmako Megfigyelési egységek (esetek)

– személyek, egyedek, házaspároko Változók (megfigyelési egységek jellemzői)

– IQ, Nem, Kor, Megtanult tételek száma, Házasság időtartama

o Populáció (sokaság): esetek elvi (elméleti) összessége

o Minta: a populáció kiválasztott része

39

Populáció és minta

o A populáció nagyon nagy, ezért csak egy kis részét vizsgáljuk meg. Ez a MINTA (pl. 50 vagy 100 vagy 35 személy).

40

Minta

o Megfigyelési egységek csoportja, akiket bizonyos változók segítségével egy vizsgálat, kísérlet vagy megfigyelés során konkréten megvizsgálunk és adatokkal jellemzünk.

o E minta alapján nyert adatok együttese: az adatminta

41

Egy adatminta

személyNem Életkor Magasság …

1. Nő 18 170

2. Férfi 21 178

3. Nő 19 155…

42

Statisztikai elemzések két fő típusa

Leíró statisztikao Fókusz a konkrét mintán: milyen ez a minta?

(Pl. mi itt a fiúk és a lányok aránya?)

Következtetési statisztikao Következtetés a mintáról a populációra.

Fókusz a populáción. (Pl. ha a minta 20%-a fiú, akkor mekkora lehet az arányuk a populációban? Kijelenthető-e, hogy a fiúk a populációban is kisebbségben vannak?)

Kiknek jobb a verbális memóriája, a fiúknak, vagy a lányoknak?

44

Leíró statisztikao Milyen ez az évfolyam az emlékezeti

vizsgálat változói szempontjából?o Az elemzést lehet változónként,

változópáronként, vagy ennél is bonyolultabb változómintázatok segítségével végezni. o Nemi megoszláso Emlékezeti teljesítmény eloszlása

45

Leíró statisztikai elemzéseko Gyakorisági eloszláso Középértékeko Szóródási mutatóko Az eloszlás alakja

o Ferdeség o Csúcsosság

GYAK

46

Érték Gyak % Kum%   Érték Gyak % Kum%

3 1 0,4 0,4   11 18 6,5 41,2

4 2 0,7 1,1   12 68 24,5 65,7

5 3 1,1 2,2   13 9 3,2 69,0

6 20 7,2 9,4   14 14 5,1 74,0

7 5 1,8 11,2   15 1 0,4 74,4

8 47 17 28,2   16 36 13 87,4

9 2 0,7 28,9   17 32 11,6 98,9

10 16 5,8 34,7   18 3 1,1 100

Az iskolázottság gyakorisági eloszlása (n = 277)

47

Mi olvasható ki a gyakorisági eloszlásból?

o Minimum, maximum o Milyen értékből mennyi van?o Relatív gyakoriság (százalékos)o Milyen értékből van a legtöbb? (módusz)o Kumulatív gyakoriság

GYAK

48

Kvantilisek

A mintát adott arányban két részre osztó pontok– Felezőpont: medián– Negyedelő pontok: kvartilisek

– K1: alsó 25%-ot levágó osztópont

– K3: alsó 75%-ot levágó osztópont

Percentilisek (centilisek): C1, C1, …, C100.

- Med = C50, K1 = C25, K3 = C75, GYAK

49

A kvantilisekről

A kum% segítségével határozhatók meg a legkönnyebben.

Folytonos változók esetén lehet leginkább használni őket, mert a meghatározásuk itt a legtisztább.

GYAK

50

0

2

4

6

8

10

12

14

25%

K3K1

50%

25%

51

Érték Gyak % Kum%   Érték Gyak % Kum%

3 1 0,4 0,4   11 18 6,5 41,2

4 2 0,7 1,1   12 68 24,5 65,7

5 3 1,1 2,2   13 9 3,2 69,0

6 20 7,2 9,4   14 14 5,1 74,0

7 5 1,8 11,2   15 1 0,4 74,4

8 47 17 28,2   16 36 13 87,4

9 2 0,7 28,9   17 32 11,6 98,9

10 16 5,8 34,7   18 3 1,1 100

Itt mi az alsó és a felső kvartilis?

GYAK

52

Középértékek

53

Egy változó nagyságának jellemzéseegyetlen adattal

Legtipikusabb érték: Módusz

Eloszlás centruma: Átlag

Eloszlás közepe: C50 = Medián

54

Érték Gyak % Kum%   Érték Gyak % Kum%

3 1 0,4 0,4   11 18 6,5 41,2

4 2 0,7 1,1   12 68 24,5 65,7

5 3 1,1 2,2   13 9 3,2 69,0

6 20 7,2 9,4   14 14 5,1 74,0

7 5 1,8 11,2   15 1 0,4 74,4

8 47 17 28,2   16 36 13 87,4

9 2 0,7 28,9   17 32 11,6 98,9

10 16 5,8 34,7   18 3 1,1 100

Medián = ?

GYAK

55

Mi az IQ mediánja?

56

Az IQ mediánja = 100

50% 50%

57

Mintajellemzők

n-elemű minta: (x1, x2, x3, ..., xn)

Mintaátlag: x = (xi)/n = (x1+x2+x3+...+xn)/n

Mintamedián: Adatok növekvő sorában a középső vagy a középső kettő átlaga

Minta: 2 < 4 < 5 < 7 < 8 Medián: M = 5

58

50

55

60

65

70

75

80

85

20 30 40 50 60 70

Férfiak

Nők

Férfiak és nők testsúlyátlagai különböző életkori szinteken

év

59

Szóródási mutatók

60

Miben különbözikaz alábbi két minta?

2 4 6 8

4

5

5 6

61

Három bizonyítvány

– Magatartás 3 5 2– Szorgalom 3 1 4– Magyar irodalom 3 5 2– Magyar nyelvtan 3 1 4– Matematika 3 5 2– Történelem 3 1 4– ÁTLAG: 3 3 3

62

Mennyire szóródnakaz adatok az átlag körül?

Átlagtól való négyzetes eltérés egyetlen személy esetén:

– Pl. IQ = 105 esetén (105 - – IQ = 80 esetén (80 -

Ezen négyzetes eltérések átlaga: variancia (Var) A variancia négyzetgyöke: szórás (, s)

63

Mintabeli szóródási mutatók

Négyzetes összeg: Q = xi -x)2

Variancia (korrigált): Var = Q/(n - 1) Szórás = a variancia négyzetgyöke:

s = Var = Q/(n-1)

– Szabadságfok: f = n - 1

GYAK

64

Szokásos jelölések

Mintabeli (tapasztalati) átlag: x (ejtsd: x-vonás) Populációbeli (elméleti) átlag: μ (ejtsd: mű) Mintabeli (tapasztalati) szórás: s Populációbeli (elméleti) szórás: σ (ejtsd: szigma)

65

Relatív szórás = Variációs együttható

Cél: dimenziómentes szóródási mutató

Mintában: VE = s/x

Populációban: VE = / Feltétel: X arányskálájú

Pl.: Ha s = 3 kg, x = 5 kg, akkor

VE = 3kg/5kg = 0,60 = 60% GYAK

66

Adatok nagysága

Milyen nagy egy 210 cm-es testmagasság (150-es IQ, 160-as vérnyomás)?

Milyen kicsi egy 145 cm-es testmagasság (65-ös IQ, 80-as vérnyomás)?

GYAK

67

Standard érték Az X változó x értékének standard értéke (z) azt

mutatja meg, hogy x hány szórásnyi távolságra van az átlagtól:

z = (x – átlag)/szórás Pl. 10-es átlag és 2-es szórás esetén 15 z-értéke

mennyi? A standard értékeknek mi a mértékegysége?

GYAK

68

Standardizálás Mintában: zx = (x – x)/s

Mi lesz az átlag standard értéke?

Mi lesz a standard értékek szórása?

A nagy hibák standard értéke kiugróan

nagy (vö. ROPstat)

69

Példák az IQ-val

= E(IQ) = 100, = D(IQ) = 15

Ha IQ = 130, z = ?

Ha z = -1, IQ =?

GYAK

70

Hogyan határozza megaz eloszlás alakját

a ferdeség és a csúcsosság?

71

Szimmetrikus, átlagos csúcsosságú eloszlás

72

Szimmetrikus, átlagosnál nagyobb csúcsosságú eloszlás

73

Hogy nézhet ki egy átlagosnál kisebb csúcsosságú (pl. lapos)

eloszlás?

?

74

Folytonos egyenletes eloszlás

75

Pozitív ferdeségű eloszlás

76

Negatív ferdeségű eloszlás

77

Szimmetrikus,kétcsúcsú (bimodális) eloszlás

78

Ferdeség és csúcsosság mérése

Ferdeségi együttható (skewness):

E(z3) Csúcsossági együttható (kurtosis):

E(z4) – 3

A normális eloszlás ferdeségi és csúcsossági együtthatója 0

79

A normális eloszlástípus

80

81

Milyen változó normális eloszlású?

Például a fejek száma 100-200-1000 dobásból

Sok apró hasonló, de független mennyiség összegeződése

Egy véletlen minta átlaga (vö. ROPstat) Kis minta? Nagy minta? GYAK

82

Változó: fejek száma 50 dobásból (gyakorisági eloszlás, n = 15000)

0

2

4

6

8

10

12

12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37

83

A normális eloszlás kiterjedtsége

84

A normális eloszlás kiterjedtsége

68%

95%

99,8%

85

Például = 100 és = 15 esetén

68%

95%

99,8%

GYAK

86

Példák normális és nem normális eloszlású változókra

Hisztogram és kum% megtekintése az alábbi adatfájlok változóira

Antr500.msw Új fájl 1000 esettel random normál

változóval

GYAK

Recommended