Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Kansrekening en Statistiek

College 9

Dinsdag 18 Oktober

1 / 1

2 Statistiek

Vandaag:

• Centrale Limietstelling

• Correlatie

• Regressie

2 / 1

Centrale Limietstelling

3 / 1


St. (Centrale Limietstelling) Voor een stochast X met verwachtingswaarde µ enstandaardafwijking σ geldt voor elke a:

limn→∞

P(X n − µ

σ√n

≤ a) = Ps (z ≤ a).

Bij toenemende n benadert X n de normale verdeling met gemiddelde µ enstandaardafwijking σ√

n.

De Centrale Limietstelling is een versterking en precisering van de Wet van de GroteGetallen.

Def. σX = σ√n

is de standaardfout van het gemiddelde.

4 / 1

Wet van de Grote Getallen

Vb. Een wijnboer verkoopt wijn per doos en wil dat de kans dat het percentagebedorven flessen in een doos meer dan 0.4% afwijkt van gemiddelde µ hoogstens 0.2is. Hij weet µ niet en neemt voor de variantie 0.0005.

Hoeveel flessen wijn moeten de dozen minimaal bevatten?

Met Chebyshev:

P(|X n − µ| ≥ 0.004) ≤0.0005

n(0.004)2.

Dus P(|X n − µ| ≥ 0.004) ≤ 0.2 voor n ≥ 0.00052(0.004)2 = 15.625.

De dozen moeten minimaal 16 flessen bevatten.

Merk op: wanneer de variantie toeneemt , neemt n evenredig toe. Bijvoorbeeld, bijvariantie 0.05 wordt n gelijk aan 0.05

2(0.004)2 = 1562.5

5 / 1


Vb. Zij X een stochast met E(X ) = 3 en Var(X ) = 4 waarvoor de verdeling onbekendis of moeilijk te berekenen. Er wordt gevraagd naar de kans dat het steekproefgemiddelde van een willekeurige steekproef ter grootte n = 10.000 kleiner is dan 2.95.

Aangenomen wordt dat n voldoende groot is om de verdeling van X = X 10.000 als eennormale verdeling met verwachtingswaarde µ = 3 en standaardafwijking√

4√n

= 2100

= 0.02 te beschouwen.

Onder die aanname geldt:

P(X ≤ 2.95) = Ps (X − 3

0.02≤

2.95− 3

0.02) = Ps (

X − 3

0.02≤−0.05

0.02) =

Ps (X − 3

0.02≤ −2.25).

Wegens de symmetrie van de standaard normale verdeling rond 0 geldt

Ps (X − 3

0.02≤ −2.25) = Ps (

X − 3

0.02≥ 2.25).

Uit tabel C.1 blijkt dat Ps (z ≥ 2.25) = 0.0122. Dus P(X ≤ 2.95) = 0.0122.

6 / 1


Vb. Een onderzoeksbureau wil middels een steekproef vaststellen hoe groot hetpercentage Nederlanders is dat niet stemt. Aangenomen wordt dat hetsteekproefgemiddelde X n (het percentage niet-stemmers in de steekproef) normaalverdeeld is.

Het bureau kiest n zo dat de kans dat het steekproefgemiddelde meer dan 1% afwijktvan het ware percentage niet-stemmers niet groter dan 0.2 is. Die n kan als volgtberekend worden. Aangenomen wordt dat de variantie van de populatie 9% is.

Gezocht wordt een n zodat geldt

P(|X n − µ| ≥ 0.01) ≤ 0.2.

Dat kan zo berekend worden:

P(|X n−µ| ≥ 0.01) = 2P(X n ≥ 0.01+µ) = 2P(X n − µ

σ√n

≥0.01σ√

n

) = 2Ps (z ≥0.01√

n

0.3).

Uit tabel C.1 blijkt dat Ps (z ≥ 1.28) = 0.1. Dus 0.01√

n0.3

= 1.28, waaruit volgt dat

n = (128× 0.3)2 ≈ 1475.

7 / 1

Correlatie

8 / 1

Correlatie

Def. Een scatterplot op grond van een steekproef waarbij twee scores gemeten worden,stochasten X en Y , is een grafiek waarin de paren (Xi ,Yi ) voor elke element i in desteekproef weergegeven worden.

Voor scatterplots moeten de variabelen interval- of ratioschaal zijn.

9 / 1

Correlatie: lengte en schoenmaat

Vb. Lengte (x-as) tegen schoenmaat (y-as):

lengte 157 161 . . . 170 170 . . .schoenmaat 38 36 . . . 39 40 . . .

160 170 180 190 200

3638

4042

4446

stat6a

stat6c

10 / 1

Correlatie: carnaval en BMI

Vb. Aantal maal carnaval gevierd (x-as) tegen BMI (y-as):

carnaval 0 0 0 . . . 13BMI 17 18 19 . . . 24

0 2 4 6 8 10 12

1820

2224

2628

stat9a

stat9b

11 / 1

Correlatie

Def. Een correlatie tussen de variabelen betekent dat er op grond van de steekproefeen verband lijkt te zijn.

Een correlatie impliceert niet noodzakelijk een causaal verband (hidden variables).

12 / 1

Correlatie: lengte en hoogte kin

Vb. Lengte (x-as) tegen hoogte kin (y-as):

160 170 180 190 200

140

145

150

155

160

165

170

175

stat6a

stat6b

Er bestaat een sterke correlatie tussen lengte en de hoogte van de kin.

13 / 1


Vb. Schoenmaat (x-as) tegen hoogte kin (y-as):

36 38 40 42 44 46

140

145

150

155

160

165

170

175

stat6c

stat6b

Er bestaat een correlatie tussen schoenmaat en de hoogte van de kin.

14 / 1


Vb. BMI (x-as) tegen aantal vakken behaald in het eerste jaar (y-as):

18 20 22 24 26 28

34

56

78

9

stat9b

stat9c

Er bestaat geen correlatie tussen BMI en het aantal vakken behaald in het eerste jaar.

15 / 1

Correlatie: correlatiecoefficient

Def. Gegeven twee stochasten X en Y , waarbij (Xi ,Yi ) de score van element i is ineen steekproef ter grootte n, is de Pearson correlatiecoefficient:

rXY =

PzX zY

n − 1=

Pni=1 zXi

zYi

n − 1.

Waarbij zXi, zYi

de standaarscores van Xi ,Yi t.o.v. de steekproef zijn:

zXi=

Xi − X

sXzYi

=Yi − Y

sY.

Gebruikmakend van de notatie x = X − X :

rXY =

PxypP

x2P

y2=

Pni=1 xi yiqPn

i=1 x2i

Pni=1 y2

i

.

Ook geldt

rXY =n

PXY −

PX

PYp

(nP

X 2 − (P

X )2)(nP

Y 2 − (P

Y )2).

16 / 1

Correlatie

17 / 1

Correlatie

Merk op: −1 ≤ rXY ≤ 1.

De Pearson correlatiecoefficient is een maat voor het lineare verband tussen tweevariabelen.

Hoe homogener een van de variabelen over de populatie verdeeld is, hoe kleiner deabsolute waarde van de Pearson correlatiecoefficient wordt.

De Pearson correlatiecoefficient is ordinaal.

18 / 1

Correlatie: (facebook) vrienden

Vb. Goede vrienden (x-as) tegen aantal facebook vrienden (y-as).

Gemiddel aantal goede vrienden: 4.6. Gemiddeld aantal facebook vrienden: 108.8.

0 2 4 6 8 10 12

050

100

150

200

250

300

stat2a

stat2b

De Pearson correlatiecoefficient: 0.82.19 / 1

Correlatie: vrienden en zoenen

Vb. Goede vrienden (x-as) tegen aantal mensen waarmee gezoend (y-as).

Gemiddeld aantal mensen waarmee gezoend: 8.3.

0 2 4 6 8 10 12

010

2030

4050

60

stat2a

stat2c

De Pearson correlatiecoefficient: 0.56.20 / 1

Correlatie: (eerste) zoenen

Vb. Leeftijd eerste zoen (x-as) tegen aantal mensen waarmee gezoend (y-as).

0 5 10 15 20

010

2030

4050

60

stat3c

stat3a

De Pearson correlatiecoefficient: 0.08.

21 / 1

Correlatie: Studie versus vrij tijd

Vb. Aantal ECTS vorig jaar behaald (x-as) tegen aantal uren per week besteed aanhobbies/uitgaan/werk (y-as).

Gemiddeld aantal ECTS: 52.1. Gemiddeld aantal uren hobbies/uitgaan/werk: 36.71.

20 30 40 50 60 70 80

2040

6080

stat7a

stat7c

De Pearson correlatiecoefficient: -0.40.

22 / 1

Regressie

23 / 1

Regressie

Def. Op grond van twee variabelen X en Y worden constanten a en b bepaald zodatde lijn Y = bX + a zo goed mogelijk het lineare verband tussen X en Y weergeeft.

Met behulp van de regressielijn kunnen de scores voor elementen uit de populatie dieniet in de steekproef bevat zijn voorspeld worden.

De regressiecoefficient b is gedefinieerd als:

b = rsY

sX.

waarbij sX en sY de standaardafwijking van respectievelijk X en Y zijn.

De regressieconstante a is gedefinieerd als:

a = Y − bX .

St. Voor de regressielijn is de waarde vanP

(Y − Y ) minimaal.

24 / 1

Regressie: schoenmaat en elleboog

Vb. Schoenmaat (x-as) tegen de afstand van de binnenkant van de elleboog tot dehandpalm (y-as).

Pearson correlatiecoefficient r = 0.47, regressieconstante a = 7.11 enregressiecoefficient b = r sY

sX= 0.46.

36 38 40 42 44 46

2224

2628

30

stat8b

stat8c

25 / 1

Regressie: schoenmaat en elleboog

Vb. Schoenmaat (x-as) tegen de afstand van de binnenkant van de elleboog tot dehandpalm (y-as).

Pearson correlatiecoefficient r = 0.47, regressieconstante a = 7.11 enregressiecoefficient b = r sY

sX= 0.46.

36 38 40 42 44 46

2224

2628

30

stat8b

stat8c

26 / 1

Regressie: vingerkootjes

Vb. Lengte middelste vingerkootje (x-as) tegen lengte onderste vingerkootje (y-as).

Pearson correlatiecoefficient r = 0.73, regressieconstante a = −28.89 enregressiecoefficient b = r sY

sX= 2.27.

25 30 35 40

2030

4050

60

stat10b

stat10c

27 / 1

Regressie: vingerkootjes

Vb. Lengte middelste vingerkootje (x-as) tegen lengte onderste vingerkootje (y-as).

Pearson correlatiecoefficient r = 0.73, regressieconstante a = −28.89 enregressiecoefficient b = r sY

sX= 2.27.

25 30 35 40

2030

4050

60

stat10b

stat10c

28 / 1

Regressie: standaardscores

St. Laat Y = bX + a de regressielijn van (X ,Y ) zijn en r de Pearson

correlatiecoefficient. zY zijn de standaardscores van Y en zX van X . Dan geldt:

zY = rzX .

29 / 1

Regressie: standaardfout

Def. Wanneer er n scores zijn en de Pearson correlatiecoefficient is r , dan is destandaardfout van de schatting, sY ·X , gedefinieerd als de standaardafwijking van destochast (Y − Y ) bij n − 1 scores. D.w.z., voor Z = (Y − Y ):

sY ·X =

s P(Z − Z)2

n − 2.

St. Wanneer er n scores zijn en de Pearson correlatiecoefficient is r , dan geldt

sY ·X = sY

p1− r2

p(n − 1)/(n − 2).

Voor grote n geldt:

sY ·X ≈ sY

p1− r2.

30 / 1

Regressie: het quartet van Anscombe

Het quartet van Anscombe bestaat uit vier verzamelingen data die dezelfdestatistische eigenschappen hebben, maar die verschillend zijn wanneer ze grafischworden weergegeven.

In alle vier de verzamelingen data zijn voor X (x-as) gemiddelde en variantie gelijk.Evenzo voor Y . Voor alle vier is de correlatiecoefficient en regressielijn gelijk.

31 / 1

Finis

32 / 1

Documents

Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt