Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Kansrekening en Statistiek
College 9
Dinsdag 18 Oktober
1 / 1
2 Statistiek
Vandaag:
• Centrale Limietstelling
• Correlatie
• Regressie
2 / 1
Centrale Limietstelling
3 / 1
Centrale Limietstelling
St. (Centrale Limietstelling) Voor een stochast X met verwachtingswaarde µ enstandaardafwijking σ geldt voor elke a:
limn→∞
P(X n − µ
σ√n
≤ a) = Ps (z ≤ a).
Bij toenemende n benadert X n de normale verdeling met gemiddelde µ enstandaardafwijking σ√
n.
De Centrale Limietstelling is een versterking en precisering van de Wet van de GroteGetallen.
Def. σX = σ√n
is de standaardfout van het gemiddelde.
4 / 1
Wet van de Grote Getallen
Vb. Een wijnboer verkoopt wijn per doos en wil dat de kans dat het percentagebedorven flessen in een doos meer dan 0.4% afwijkt van gemiddelde µ hoogstens 0.2is. Hij weet µ niet en neemt voor de variantie 0.0005.
Hoeveel flessen wijn moeten de dozen minimaal bevatten?
Met Chebyshev:
P(|X n − µ| ≥ 0.004) ≤0.0005
n(0.004)2.
Dus P(|X n − µ| ≥ 0.004) ≤ 0.2 voor n ≥ 0.00052(0.004)2 = 15.625.
De dozen moeten minimaal 16 flessen bevatten.
Merk op: wanneer de variantie toeneemt , neemt n evenredig toe. Bijvoorbeeld, bijvariantie 0.05 wordt n gelijk aan 0.05
2(0.004)2 = 1562.5
5 / 1
Centrale Limietstelling
Vb. Zij X een stochast met E(X ) = 3 en Var(X ) = 4 waarvoor de verdeling onbekendis of moeilijk te berekenen. Er wordt gevraagd naar de kans dat het steekproefgemiddelde van een willekeurige steekproef ter grootte n = 10.000 kleiner is dan 2.95.
Aangenomen wordt dat n voldoende groot is om de verdeling van X = X 10.000 als eennormale verdeling met verwachtingswaarde µ = 3 en standaardafwijking√
4√n
= 2100
= 0.02 te beschouwen.
Onder die aanname geldt:
P(X ≤ 2.95) = Ps (X − 3
0.02≤
2.95− 3
0.02) = Ps (
X − 3
0.02≤−0.05
0.02) =
Ps (X − 3
0.02≤ −2.25).
Wegens de symmetrie van de standaard normale verdeling rond 0 geldt
Ps (X − 3
0.02≤ −2.25) = Ps (
X − 3
0.02≥ 2.25).
Uit tabel C.1 blijkt dat Ps (z ≥ 2.25) = 0.0122. Dus P(X ≤ 2.95) = 0.0122.
6 / 1
Centrale Limietstelling
Vb. Een onderzoeksbureau wil middels een steekproef vaststellen hoe groot hetpercentage Nederlanders is dat niet stemt. Aangenomen wordt dat hetsteekproefgemiddelde X n (het percentage niet-stemmers in de steekproef) normaalverdeeld is.
Het bureau kiest n zo dat de kans dat het steekproefgemiddelde meer dan 1% afwijktvan het ware percentage niet-stemmers niet groter dan 0.2 is. Die n kan als volgtberekend worden. Aangenomen wordt dat de variantie van de populatie 9% is.
Gezocht wordt een n zodat geldt
P(|X n − µ| ≥ 0.01) ≤ 0.2.
Dat kan zo berekend worden:
P(|X n−µ| ≥ 0.01) = 2P(X n ≥ 0.01+µ) = 2P(X n − µ
σ√n
≥0.01σ√
n
) = 2Ps (z ≥0.01√
n
0.3).
Uit tabel C.1 blijkt dat Ps (z ≥ 1.28) = 0.1. Dus 0.01√
n0.3
= 1.28, waaruit volgt dat
n = (128× 0.3)2 ≈ 1475.
7 / 1
Correlatie
8 / 1
Correlatie
Def. Een scatterplot op grond van een steekproef waarbij twee scores gemeten worden,stochasten X en Y , is een grafiek waarin de paren (Xi ,Yi ) voor elke element i in desteekproef weergegeven worden.
Voor scatterplots moeten de variabelen interval- of ratioschaal zijn.
9 / 1
Correlatie: lengte en schoenmaat
Vb. Lengte (x-as) tegen schoenmaat (y-as):
lengte 157 161 . . . 170 170 . . .schoenmaat 38 36 . . . 39 40 . . .
160 170 180 190 200
3638
4042
4446
stat6a
stat6c
10 / 1
Correlatie: carnaval en BMI
Vb. Aantal maal carnaval gevierd (x-as) tegen BMI (y-as):
carnaval 0 0 0 . . . 13BMI 17 18 19 . . . 24
0 2 4 6 8 10 12
1820
2224
2628
stat9a
stat9b
11 / 1
Correlatie
Def. Een correlatie tussen de variabelen betekent dat er op grond van de steekproefeen verband lijkt te zijn.
Een correlatie impliceert niet noodzakelijk een causaal verband (hidden variables).
12 / 1
Correlatie: lengte en hoogte kin
Vb. Lengte (x-as) tegen hoogte kin (y-as):
160 170 180 190 200
140
145
150
155
160
165
170
175
stat6a
stat6b
Er bestaat een sterke correlatie tussen lengte en de hoogte van de kin.
13 / 1
Correlatie: lengte en hoogte kin
Vb. Schoenmaat (x-as) tegen hoogte kin (y-as):
36 38 40 42 44 46
140
145
150
155
160
165
170
175
stat6c
stat6b
Er bestaat een correlatie tussen schoenmaat en de hoogte van de kin.
14 / 1
Correlatie: lengte en hoogte kin
Vb. BMI (x-as) tegen aantal vakken behaald in het eerste jaar (y-as):
18 20 22 24 26 28
34
56
78
9
stat9b
stat9c
Er bestaat geen correlatie tussen BMI en het aantal vakken behaald in het eerste jaar.
15 / 1
Correlatie: correlatiecoefficient
Def. Gegeven twee stochasten X en Y , waarbij (Xi ,Yi ) de score van element i is ineen steekproef ter grootte n, is de Pearson correlatiecoefficient:
rXY =
PzX zY
n − 1=
Pni=1 zXi
zYi
n − 1.
Waarbij zXi, zYi
de standaarscores van Xi ,Yi t.o.v. de steekproef zijn:
zXi=
Xi − X
sXzYi
=Yi − Y
sY.
Gebruikmakend van de notatie x = X − X :
rXY =
PxypP
x2P
y2=
Pni=1 xi yiqPn
i=1 x2i
Pni=1 y2
i
.
Ook geldt
rXY =n
PXY −
PX
PYp
(nP
X 2 − (P
X )2)(nP
Y 2 − (P
Y )2).
16 / 1
Correlatie
17 / 1
Correlatie
Merk op: −1 ≤ rXY ≤ 1.
De Pearson correlatiecoefficient is een maat voor het lineare verband tussen tweevariabelen.
Hoe homogener een van de variabelen over de populatie verdeeld is, hoe kleiner deabsolute waarde van de Pearson correlatiecoefficient wordt.
De Pearson correlatiecoefficient is ordinaal.
18 / 1
Correlatie: (facebook) vrienden
Vb. Goede vrienden (x-as) tegen aantal facebook vrienden (y-as).
Gemiddel aantal goede vrienden: 4.6. Gemiddeld aantal facebook vrienden: 108.8.
0 2 4 6 8 10 12
050
100
150
200
250
300
stat2a
stat2b
De Pearson correlatiecoefficient: 0.82.19 / 1
Correlatie: vrienden en zoenen
Vb. Goede vrienden (x-as) tegen aantal mensen waarmee gezoend (y-as).
Gemiddeld aantal mensen waarmee gezoend: 8.3.
0 2 4 6 8 10 12
010
2030
4050
60
stat2a
stat2c
De Pearson correlatiecoefficient: 0.56.20 / 1
Correlatie: (eerste) zoenen
Vb. Leeftijd eerste zoen (x-as) tegen aantal mensen waarmee gezoend (y-as).
0 5 10 15 20
010
2030
4050
60
stat3c
stat3a
De Pearson correlatiecoefficient: 0.08.
21 / 1
Correlatie: Studie versus vrij tijd
Vb. Aantal ECTS vorig jaar behaald (x-as) tegen aantal uren per week besteed aanhobbies/uitgaan/werk (y-as).
Gemiddeld aantal ECTS: 52.1. Gemiddeld aantal uren hobbies/uitgaan/werk: 36.71.
20 30 40 50 60 70 80
2040
6080
stat7a
stat7c
De Pearson correlatiecoefficient: -0.40.
22 / 1
Regressie
23 / 1
Regressie
Def. Op grond van twee variabelen X en Y worden constanten a en b bepaald zodatde lijn Y = bX + a zo goed mogelijk het lineare verband tussen X en Y weergeeft.
Met behulp van de regressielijn kunnen de scores voor elementen uit de populatie dieniet in de steekproef bevat zijn voorspeld worden.
De regressiecoefficient b is gedefinieerd als:
b = rsY
sX.
waarbij sX en sY de standaardafwijking van respectievelijk X en Y zijn.
De regressieconstante a is gedefinieerd als:
a = Y − bX .
St. Voor de regressielijn is de waarde vanP
(Y − Y ) minimaal.
24 / 1
Regressie: schoenmaat en elleboog
Vb. Schoenmaat (x-as) tegen de afstand van de binnenkant van de elleboog tot dehandpalm (y-as).
Pearson correlatiecoefficient r = 0.47, regressieconstante a = 7.11 enregressiecoefficient b = r sY
sX= 0.46.
36 38 40 42 44 46
2224
2628
30
stat8b
stat8c
25 / 1
Regressie: schoenmaat en elleboog
Vb. Schoenmaat (x-as) tegen de afstand van de binnenkant van de elleboog tot dehandpalm (y-as).
Pearson correlatiecoefficient r = 0.47, regressieconstante a = 7.11 enregressiecoefficient b = r sY
sX= 0.46.
36 38 40 42 44 46
2224
2628
30
stat8b
stat8c
26 / 1
Regressie: vingerkootjes
Vb. Lengte middelste vingerkootje (x-as) tegen lengte onderste vingerkootje (y-as).
Pearson correlatiecoefficient r = 0.73, regressieconstante a = −28.89 enregressiecoefficient b = r sY
sX= 2.27.
25 30 35 40
2030
4050
60
stat10b
stat10c
27 / 1
Regressie: vingerkootjes
Vb. Lengte middelste vingerkootje (x-as) tegen lengte onderste vingerkootje (y-as).
Pearson correlatiecoefficient r = 0.73, regressieconstante a = −28.89 enregressiecoefficient b = r sY
sX= 2.27.
25 30 35 40
2030
4050
60
stat10b
stat10c
28 / 1
Regressie: standaardscores
St. Laat Y = bX + a de regressielijn van (X ,Y ) zijn en r de Pearson
correlatiecoefficient. zY zijn de standaardscores van Y en zX van X . Dan geldt:
zY = rzX .
29 / 1
Regressie: standaardfout
Def. Wanneer er n scores zijn en de Pearson correlatiecoefficient is r , dan is destandaardfout van de schatting, sY ·X , gedefinieerd als de standaardafwijking van destochast (Y − Y ) bij n − 1 scores. D.w.z., voor Z = (Y − Y ):
sY ·X =
s P(Z − Z)2
n − 2.
St. Wanneer er n scores zijn en de Pearson correlatiecoefficient is r , dan geldt
sY ·X = sY
p1− r2
p(n − 1)/(n − 2).
Voor grote n geldt:
sY ·X ≈ sY
p1− r2.
30 / 1
Regressie: het quartet van Anscombe
Het quartet van Anscombe bestaat uit vier verzamelingen data die dezelfdestatistische eigenschappen hebben, maar die verschillend zijn wanneer ze grafischworden weergegeven.
In alle vier de verzamelingen data zijn voor X (x-as) gemiddelde en variantie gelijk.Evenzo voor Y . Voor alle vier is de correlatiecoefficient en regressielijn gelijk.
31 / 1
Finis
32 / 1