Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
R Statistiek II – 2016-2017
Inhoudstafel
BASIS ........................................................................................................................................................ 3
Centrummaten – p. 19 ........................................................................................................................ 4
R EN DE MEETNIVEAUS – P. 11 ................................................................................................................ 4
ORDENINGSTECHNIEKEN – P. 16 ............................................................................................................. 4
GRAFISCHE VOORSTELLINGEN – P. 17 ..................................................................................................... 5
SPREIDINGSMATEN – P. 21 ...................................................................................................................... 7
ASSOCIATIEMATEN – P. 24 ...................................................................................................................... 7
DE BIJZONDERE KANSVERDELINGEN ....................................................................................................... 7
1. De binomiale verdeling – p. 55 .................................................................................................... 7
2. De normale verdeling – p. 57 ...................................................................................................... 8
3. De χ²-verdeling – p. 59 ................................................................................................................ 8
4. De Student verdeling of t-verdeling – p. 61 ................................................................................. 8
5. De F-verdeling – p. 62 .................................................................................................................. 9
PUNTSCHATTINGEN – P. 74 ..................................................................................................................... 9
TOETSEN VAN HYPOTHESES .................................................................................................................... 9
Toetsen van hypothese betreffende een verwachting – p. 97 ........................................................... 9
Toetsen van hypothese betreffende twee verwachtingen – p. 98 ................................................... 10
Onafhankelijke steekproeven ........................................................................................................ 10
Afhankelijke steekproeven – p. 102 .............................................................................................. 10
Hypothese toetsen betreffende twee varianties – p. 104 ................................................................ 11
Hypothese toetsen betreffende een proportie - p. 107 ................................................................. 11
Het toetsen van de normaliteit – p. 108 ............................................................................................... 12
POWER – P. 117 ..................................................................................................................................... 12
Power bij het toetsen van een hypothese betreffende een proportie – p. 117 ............................... 12
Power bij het toetsen van een hypothese betreffende een verwachting – p. 123 ........................... 13
Power bij het toetsen van een hypothese betreffende twee verwachtingen – afhankelijke
steekproeven – p. 126 ....................................................................................................................... 13
Power bij het toetsen van een hypothese betreffende twee verwachtingen – onafhankelijke
steekproeven – p. 128 ....................................................................................................................... 13
Power van de toets van 𝐻0: 𝛽1= 0 – p. 157 ...................................................................................... 14
_
2
Om de power van een ANOVA test te berekenen – p. 183 ............................................................... 14
DE FUNCTIE lm – P. 146 ........................................................................................................................ 15
De R functie summary - p. 155 .................................................................................................... 16
Meervoudige lineaire regressie – p. 160 ........................................................................................... 16
DE FUNCTIE aggregate – P. 169 ....................................................................................................... 17
DE FUNCTIE aov – P.181 ....................................................................................................................... 17
Summary(myAOV) – p. 182 ............................................................................................................ 17
POST HOC MEERVOUDIGE VERGELIJKINGEN – P. 186 .......................................................................... 18
ENKELVOUDIGE VARIANTIE-ANALYSE ALS EEN LINEAIR MODEL – P. 194 ............................................. 18
PEARSON’S CHI-SQUARED TEST – P. 203 ............................................................................................... 19
EFFECTGROOTTE W – P. 206 ................................................................................................................. 19
_
3
BASIS Vector aanmaken: naamvector myData myData
score
iq
motivatie
geslacht
roken
opleiding
gewicht
lengte
1 16 127 4 V Neen psy 69 158
2 10 125 2 V Neen psy 64 170
… … … … … … …
29 16 139 2 M Neen ped 61 182 30 18 122 6 M Neen psy 69 158
Specifieke kolom (variabele) aanhalen: $ > myData$gewicht
[1] 69 64 96 76 78 75 74 51 80 76 88 73 83 86 73 67 53
[20] 67 48 59 46 59 80 104 53 82 61 69
Geslacht van de n-de persoon opvragen: [n] > myData$geslacht [10]
[1] M
Levels: M V
Grootte van het data frame opvragen: dim
30 staat voor steekproefgrootte en 8 staat voor aantal variabelen. > dim(myData)
[1] 30 8
Sommatie: sum
Vierkantswortel trekken: sqrt
Om een getal af te ronden: round
> pi [1] 3,141593
> round(pi, 4) [1] 3,1416
Voorwaarde geven: ==
Bv. Vector aanmaken met lengte van de mannen > lengteM length(lengteM)
[1] 94
Eerste zes regels van het data frame opvragen: head > head(myData)
score iq motivatie geslacht roken opleiding gewicht lengte 1 16 127 4 V Neen psy 69 158
2 10 125 2 V Neen psy 64 170
3 11 138 1 V Neen psy 96 180
4 14 104 6 M Neen psy 76 156
5 8 118 5 M Ja psy 78 176
6 18 132 5 V Neen
ped 75 174
_
4
Centrummaten – p. 19 Gemiddelde: mean
> mean(c(12, 13, 15, 7, 2, 200, 19, 15, 14, 16, 19)) [1] 30.18182
Mediaan: median > median(c(10, 15, 13, 17))
[1] 14
Modus: met table > table(myData$geslacht)
M V
14 16 “V” is de modus
R EN DE MEETNIVEAUS – P. 11 Zeggen dat de getallen als niet-numeriek beschouwd moeten worden: factor
> Tramnummer uitslag uitslag
[1] brons zilver goud zilver
Levels: brons < zilver < goud
Om niet-numerieke data om te zetten naar numerieke niveaus: as.numeric > as.numeric(uitslag)
[1] 1 2 3 2
ORDENINGSTECHNIEKEN – P. 16 Frequentieverdeling: table
> table(bloeddruk$dosis)
1 2 3 4 5 = de verschillende levels in de vector
18 19 21 21 21 = de frequentie van elk level
Relatieve frequentieverdeling: prop.table > prop.table(table(myData$opleiding))
ped psy soc
0.33333333 0.60000000 0.06666667
Bivariate frequentieverdeling: table
> table( myData$geslacht, myData$opleiding)
ped psy soc
M 7 7 0
V 3 11 2
_
5
GRAFISCHE VOORSTELLINGEN – P. 17 Taartdiagram: pie
> pie(x = c(10, 18, 2), labels = c(“ped”, “psy”, “soc”))
of
> pie(table(myData$opleiding))
Lijndiagram of staafdiagram: barplot
> barplot(table(myData$motivatie))
Histogram: hist
> hist(x = myData$gewicht)
Zelf aantal klassen bepalen van histogram: breaks
> hist(x = myData$gewicht, breaks = 4)
Spreidingsdiagram: plot
> plot(x = myData$gewicht, y = myData$lengte)
_
Zelf de lengte van de assen bepalen: xlim en ylim > plot(x = myData$gewicht, y = myData$lengte, xlim = c(0,100), ylim
=c(100, 200))
Boxplot: boxplot > boxplot(myData$iq)
of
> boxplot(myData)
_
SPREIDINGSMATEN – P. 21 Variatiebreedte: max(myData$x) – min(myData$x)
> max(myData$iq) - min(myData$iq)
[1] 63
Interkwartiele afstand: IQR > IQR(myData$iq)
[1] 21
ASSOCIATIEMATEN – P. 24 Correlatiecoëfficiënt van Pearson 𝑟𝑥𝑦: cor
> cor(myData$gewicht, myData$lengte)
[1] 0.4741137
Correlatiecoëfficiënt van Kendall of Kendall’s τ: cor Maar! duidelijk maken dat je Kendall wilt: method = “kendall” > cor(sportData$leeftijd, sportData$gewicht, method = "kendall")q
[1] 0.4305121
DE BIJZONDERE KANSVERDELINGEN
1. De binomiale verdeling – p. 55 X B(n, )
dbinom: P(X B(n, ) = x) = ?
x = k (aantal keer dat gebeurtenis A zich realiseert)
size = n (aantal herhalingen van het toevalsproces)
prob = (de kans dat A zich realiseert)
> dbinom(x=0, size=4, prob=1/3)
[1] 0.1975309
pbinom: P(X B(n, ) ≤ q) = ?
Sommeert alle kansen aan de linkerkant van 10, 10 inbegrepen
> pbinom(q=10, size=20, prob=1/3)
[1] 0.5623634
Wanneer je niet de linkerstaart, maar de rechterstaart wilt weten: lower.tail = FALSE
(10 uitgesloten) > pbinom(q=10, size=20, prob=1/3, lower.tail =
FALSE)
[1] 0.43763657
Dit is dus hetzelfde als > 1 - pbinom(q=10, size=20, prob=1/3)
[1] 0.43763657
_
10
10
qbinom: het omgekeerde van qbinom
P(X B(n, ) ≤ q) = p
Berekent welke waarde van k een bepaalde kans heeft aan zijn
linkerkant. > qbinom(p=0.90, size=20, prob=1/3)
[1] 15
2. De normale verdeling – p. 57 X ~ N(,²)
Functie is symmetrisch.
pnorm: P(X N(,²) ≤ x ) = ?
q = x (in 2.5)
mean =
sd = → pas op! In 2.5 gebruikt men ², dus dat moet eerst nog omgerekend worden
> pnorm(q=8, mean=10, sd=2)
[1] 0.1586553
qnorm: P(X N(,²) ≤ ? ) = p > qnorm(p=0.5, mean=10, sd=2)
[1] 10
3. De χ²-verdeling – p. 59
𝑋1 N(0,1), 𝑋2 N(0,1), ... , 𝑋𝑙 N(0,1) zijn onafhankelijke standaardnormale variabelen. 2 2 2 2 Y = 𝑋1 + 𝑋2 + … + 𝑋𝑙 𝜒𝑙 Functie is niet symmetrisch.
pchisq: P(Y χ2 ≤ x) = ?
> pchisq(q=5, df=10)
[1] 0.108822
qchisq: P(Y χ2 ≤ ? ) = p > qchisq(p=0.10, df=20)
[1] 12.44261
4. De Student verdeling of t-verdeling – p. 61 2
X N(0,1) en Y 𝜒𝑙
𝑋 T = 𝑡𝑙
√𝑌/𝑙
zijn twee onafhankelijke toevalsvariabelen.
Functie is symmetrisch.
pt: P(Y 𝑡10 ≤ x) = ?
> pt(q=1.3, df=10)
[1] 0.8886171
qt: P(Y 𝑡10 ≤ ? ) = p > qt(p=0.15, df=10)
[1] -1.09305
_
𝑥
𝑥
𝑥 𝑥
5. De F-verdeling – p. 62 2 2
X 𝜒𝑙1 en Y 𝜒𝑙2 zijn twee onafhankelijke toevalsvariabelen. 𝑋/𝑙1
F = 𝑌/𝑙2 𝐹𝑙1 ,𝑙2
Functie is niet symmetrisch.
pf: P(Y 𝐹10,3 ≤ x) = ? > pf(q=2, df1=10, df2=3)
[1] 0.6906222
qf: P(Y 𝐹10,3 ≤ ? ) = p > qf(p=0.2, df1=10, df2=3)
[1] 0.5372304
PUNTSCHATTINGEN – P. 74 var: om 𝑠2 te berekenen
Uitkomst is dus schatting van de variantie in de populatie, op basis van een steekproef (en niet
variantie in de steekproef =𝑠𝑛2) > var(myData$iq)
[1] 246.5471
𝑠2 = 𝑠𝑛2 ∗ 𝑛
𝑛−1
cov: om 𝐶̂ 𝑂𝑉𝑥𝑦 te berekenen
Uitkomst is dus schatting van de covariantie in de populatie, op basis van een steekproef (en niet
covariantie in de steekproef) > cov(myData$gewicht, myData$lengte)
[1] 76.85057
TOETSEN VAN HYPOTHESES
Toetsen van hypothese betreffende een verwachting – p. 97 is onbekend: t-toets voor één steekproef: t.test
> t.test(x = myData$iq, mu = 100, alternative = "greater", conf.level =
0.95)
One Sample t-test
data: myData$iq
t = 6.0231, df = 29, p-value = 7.475e-07
alternative hypothesis: true mean is greater than 100
95 percent confidence interval:
112.3957 Inf
sample estimates:
mean of x
117.2667
_
Toetsen van hypothese betreffende twee verwachtingen – p. 98
Onafhankelijke steekproeven
𝟏 en 𝟐 zijn gelijk maar onbekend:
T-toets voor twee onafhankelijke steekproeven: t-test met “var.equal = TRUE” > tijdV tijdM t.test(x=tijdM, y=tijdV, alternative = "two.sided", conf.level = 0.95,
var.equal = TRUE)
Two Sample t-test
data: tijdM and tijdV
t = -0.8943, df = 198, p-value = 0.3722
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-1.9074961 0.7172111
sample estimates:
mean of x mean of y
22.60957 23.20472
Geen hypothese m.b.t. 𝟏 en 𝟐 Welch t-toets voor twee onafhankelijke steekproeven: t.test met “var.equal = FALSE” > t.test(x=tijdM, y=tijdV, alternative = "two.sided", conf.level = 0.95,
var.equal = FALSE)
Welch Two Sample t-test
data: tijdM and tijdV
t = -0.89953, df = 197.89, p-value = 0.3695
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-1.8998569 0.7095718
sample estimates:
mean of x mean of y
22.60957 23.20472
Afhankelijke steekproeven – p. 102
Gewone one sample t-test, met verschil reeds uitgerekend (D = 𝑋1 - 𝑋2) > d t.test(x=d, mu=0, alternative = "greater", conf.level = 0.95)
One Sample t-test
data: d
t = 3.8545, df = 39, p-value = 0.000211
alternative hypothesis: true mean is greater than 0
95 percent confidence interval:
1.125761 Inf
sample estimates:
mean of x
2
of (nog eenvoudiger)
_
paired t-test met “paired = TRUE” > t.test(x = rijfoutenData$rijfoutenMet, y =
rijfoutenData$rijfoutenZonder, alternative = "greater", conf.level =
0.95, paired = TRUE)
Paired t-test
data: rijfoutenData$rijfoutenMet and rijfoutenData$rijfoutenZonder
t = 3.8545, df = 39, p-value = 0.000211
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
1.125761 Inf
sample estimates:
mean of the differences
2
Hypothese toetsen betreffende twee varianties – p. 104 F-toets: var.test
Om te testen of twee varianties identiek zijn. > var.test(x=tijdV, y=tijdM, alternative = "two.sided", conf.level =
0.95)
F test to compare two variances
data: tijdV and tijdM
F = 1.2145, num df = 105, denom df = 93, p-value = 0.3391
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.8146014 1.8020461
sample estimates:
ratio of variances
1.214521
Hypothese toetsen betreffende een proportie - p. 107 Enkel voor binomiale verdelingen.
Enkel eenzijdige toets.
Exacte binomiale toets: binom.test
x = geobserveerde waarde
n = aantal herhalingen van het proces
p = proportie onder 𝐻0
> binom.test(x=1, n=10, p=0.08, alternative = "greater")
Exact binomial test
data: 1 and 10
number of successes = 1, number of trials = 10, p-value = 0.5656
alternative hypothesis: true probability of success is greater than 0.08
95 percent confidence interval:
0.005116197 1.000000000
sample estimates:
probability of success
0.1
_
Het toetsen van de normaliteit – p. 108 Shapiro-Wilk toets: shapiro.test
> shapiro.test(myData$gewicht)
Shapiro-Wilk normality test
data: myData$gewicht
W = 0.98608, p-value = 0.9541
Met de Shapiro-Wilk toets gaan we na of het plausibel is dat de toevalsvariabele gewicht normaal
verdeeld is in de populatie, gezien de geobserveelde frequentieverdeling van gewicht in onze
steekproef.
POWER – P. 117
Power bij het toetsen van een hypothese betreffende een proportie – p. 117 Power van een exacte binomiale toets berekenen bij het toetsen van een hypothese betreffende
een proportie: powerBinom
p0 = proportie onder 𝐻0
p1 = proportie onder 𝐻1
> library("exactci")
Loading required package: ssanv
> powerBinom(n = 10, p0 = 0.08, p1 = 0.15, sig.level = 0.05, alternative
= "one.sided")
power and sample size for single binomial response
n = 10
p0 = 0.08
p1 = 0.15
power = 0.1798035
alternative = one.sided
sig.level = 0.05
NOTE: use rejections in correct direction only
Minimale steekproefgrootte om een power van 0.90 te bekomen? > powerBinom(power = 0.90, p0 = 0.08, p1 = 0.15, sig.level = 0.05,
alternative = "one.sided")
power and sample size for single binomial response
n = 177
p0 = 0.08
p1 = 0.15
power = 0.9017898
alternative = one.sided
sig.level = 0.05
NOTE: use rejections in correct direction only
_
Power bij het toetsen van een hypothese betreffende een verwachting – p. 123 power.t.test
delta = onder 𝐻0 - onder 𝐻1
sd = standaarddeviantie 𝑠𝑥
> power.t.test(n=100, delta=1.5, sd=7.4, sig.level=0.05, alternative =
"two.sided", type = "one.sample")
One-sample t test power calculation
n = 100
delta = 1.5
sd = 7.4
sig.level = 0.05
power = 0.5188946
alternative = two.sided
Power bij het toetsen van een hypothese betreffende twee verwachtingen –
afhankelijke steekproeven – p. 126 Paired t test power calculation: power.t.test met type = “paired”
> power.t.test(n=40, delta=3, sd=sd, sig.level = 0.05, alternative =
"one.sided", type = "paired")
Paired t test power calculation
n = 40
delta = 3
sd = 3.281651
sig.level = 0.05
power = 0.9999725
alternative = one.sided
NOTE: n is number of *pairs*, sd is std.dev. of *differences* within
pairs
Power bij het toetsen van een hypothese betreffende twee verwachtingen –
onafhankelijke steekproeven – p. 128 T-toets voor twee onafhankelijke steekproeven: t-test met “var.equal = TRUE”
Voorwaarde: 1 = 2
Zie pg. 8
Relevant verschil zoeken en specifieke alternatieve hypothese opstellen. Wat is de power van de
toets onder die specifieke alternatieve hypothese? pwr.t2n.test 1−2
d = schatting van de effectgrootte =
𝑠𝑝𝑜𝑜𝑙𝑒𝑑
> library("pwr")
> pwr.t2n.test(n1=length(con), n2=length(exp), d=1/2.1, sig.level = 0.05,
alternative = "greater")
t test power calculation
n1 = 56
n2 = 119
_
d = 0.4761905
sig.level = 0.05
power = 0.9001047
alternative = greater
Indien we twee steekproeven met dezelfde grootte willen trekken en we willen n weten:
type = “two.sample”:
> power.t.test(delta=1, sd=2.1, power = 0.95, sig.level = 0.05,
alternative = "one.sided", type = "two.sample")
Two-sample t test power calculation
n = 96.13595
delta = 1
sd = 2.1
sig.level = 0.05
power = 0.95
alternative = one.sided
NOTE: n is number in *each* group
Power van de toets van 𝐻0: 𝛽1= 0 – p. 157 Bij lineaire regressie.
pwr.r.test
r = waarde van de correlatiecoëfficient die je went te kunnen detecteren met een hoge kans
> pwr.r.test(n=252, r=0.04866528, sig.level=0.05)
approximate correlation power calculation (arctangh transformation)
n = 252
r = 0.04866528
sig.level = 0.05
power = 0.1200969
alternative = two.sided
Om de power van een ANOVA test te berekenen – p. 183 pwr.anova.test
k = aantal groepen
n = aantal individuen in elke groep
f = effectgrootte f
> pwr.anova.test(k=3, n=99, f=0.05400592, sig.level=0.05)
Balanced one-way analysis of variance power calculation
NOTE: n is number in each group
k = 3
n = 99
f = 0.05400592
sig.level = 0.05
power = 0.1201184
_
DE FUNCTIE lm – P. 146 Je gebruikt het argument formula om te zeggen welke variabelen je wilt analyseren.
Lm(formula = afhankelijke variabele Y onafhankelijke variabele X)
> lm(formula = gezondheid$uitgaven ~ gezondheid$duur)
Call:
lm(formula = gezondheid$uitgaven ~
gezondheid$duur)
Coefficients:
(Intercept) gezondheid$duur
97.204 2.001
Regressielijn:
(Intercept) = 𝑏0 gezondheid$duur= 𝑏1
De output is beperkt, maar achter de schermen heeft R veel andere dingen berekend. Om de uitkomst
van die berekeningen te kunnen raadplegen, moet je een naam toekennen aan het resultaat van de
berekeningen: > myLM coef(myLM)
(Intercept) gezondheid$duur
97.203900 2.000725
Om de predicties 𝑦 𝑖 op te vragen: fitted > fitted(myLM)
1 2 3 4 5 6 7
157.2257 147.2220 205.2431 155.2249 139.2191 153.2242 135.2177
241 242 243 244 245 246 247
115.2104 109.2083 115.2104 109.2083 113.2097 101.2054 115.2104
249 250 251 252 111.2090 131.2162 127.2148 121.2126
Om de residuen op te vragen: residuals > residuals(myLM)
1 2 3 4 5
-15.2256518 -52.2220266 -17.2430529 -39.2249268 -36.2191264
247 248 249 250 251
-18.2104258 -31.2082507 -49.2089757 -1.2162262 36.7852239
Betrouwbaarheidsintervallen voor 𝛽0 en 𝛽1: confint > confint(myLM, level = 0.95)
2.5 % 97.5 %
(Intercept) 84.88996 109.51784
gezondheid$duur 1.55357 2.44788
_
De R functie summary - p. 155 Informatie over de residuen, 𝛽0 en 𝛽1, modelselectie.
en de standaard en aangepaste R² en resultaat van de
> myLM summary(myLM)
Call:
lm(formula = gezondheid$uitgaven ~ gezondheid$duur)
Residuals:
Min 1Q Median 3Q Max
-98.220 -27.461 -1.725 26.538 108.774
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 97.204 6.252 15.547 |t|)
(Intercept) 18.824785 8.688771 2.167 0.0393 * = 𝛽0
myData$iq 0.003209 0.062642 0.051 0.9595 = 𝛽1
myData$gewicht -0.109157 0.069138 -1.579 0.1260 = 𝛽2 ---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 5.29 on 27 degrees of freedom
Multiple R-squared: 0.08455, Adjusted R-squared: 0.01674
F-statistic: 1.247 on 2 and 27 DF, p-value: 0.3034
_
DE FUNCTIE aggregate – P. 169 De personen in het data frame microbusiness zijn onderverdeeld in drie groepen: GeenMB,
MBMetSteun en MBZonderSteun.
> head(microbusiness)
groep inkomenWijziging
1 GeenMB 8940.664
2 GeenMB -5798.128
3 GeenMB 19239.644
4 GeenMB -9745.702
5 GeenMB 3023.336
6 MBMetSteun 8199.519
Om gemiddelde van elke groep te berekenen: FUN = mean > aggregate(formula=microbusiness$inkomenWijziging ~ microbusiness$groep,
FUN = mean)
microbusiness$groep microbusiness$inkomenWijziging
1 GeenMB 8652
2 MBMetSteun 5708
3 MBZonderSteun 6455
Om schatting van de variantie te berekenen: FUN = var
Om mediaan te berekenen: FUN = median
DE FUNCTIE aov – P.181 Om alle berekeningen m.b.t. de ANOVA in één keer uit te voeren.
Net zoals bij de functie lm, berekent aov heel veel achter de schermen, maar je ziet ze niet allemaal.
Je gebruikt het argument formula om R te zeggen welke variabelen je wil analyseren: > aov(formula = microbusiness$inkomenWijziging ~ microbusiness$groep)
Call:
aov(formula = microbusiness$inkomenWijziging ~ microbusiness$groep)
Terms:
microbusiness$groep Residuals
Sum of Squares 493586939 67200630937
Deg. of Freedom 2 294
Residual standard error: 15118.65
Estimated effects may be unbalanced
Summary(myAOV) – p. 182 > myAOV summary(myAOV)
Df Sum Sq Mean Sq F value Pr(>F)
microbusiness$groep 2 4.936e+08 246793469 1.08 0.341
Residuals 294 6.720e+10 228573575
_
POST HOC MEERVOUDIGE VERGELIJKINGEN – P. 186 Pairwise.t.test om de techniek van de meervoudige vergelijkingen te gebruiken. Het aantal
paarsgewijze vergelijkingen is 6, maar in plaats van 6 t-toetsen uit te voeren gebruiken we de functie
pairwise.t.test die alle vergelijkingen in één keer doet.
> pairwise.t.test(depressie$reactietijd, depressie$behandeling, p.adj =
"bonf")
Pairwise comparisons using t tests with pooled SD
data: depressie$reactietijd and depressie$behandeling
A B C
B 0.2765 - -
C 1.0e-07 2.8e-05 -
D 0.0269 1.0000 0.0018
P value adjustment method: bonferroni
ENKELVOUDIGE VARIANTIE-ANALYSE ALS EEN LINEAIR MODEL – P. 194 Als we een variantie-analyse willen uitvoeren met behulp van lineaire regressie hoeven we eigenlijk
niet zelf de hulpveranderlijken te definiëren. R doet het allemaal voor ons. Als we het commando
lm(formula = depressie$reactietijd ~ depressie$behandeling) typen dan
gaat R zien dat behandeling een factor is en R gaat dus automatisch hulpveranderlijken definieren.
R gaat ervan uit dat je de GLM-restrictie wenst te gebruiken, met het eerste niveau als referentie, en
R gaat dus Dummy-codering gebruiken, ook met het eerste niveau als referentie.
> myAOV summary(myAOV)
Call:
lm(formula = depressie$reactietijd ~ depressie$behandeling)
Residuals:
Min 1Q Median 3Q Max
-0.15812 -0.04550 -0.01611 0.05889 0.13050
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.91111 0.02744 33.207 < 2e-16 ***
depressie$behandelingB 0.07839 0.03782 2.073 0.04608 *
depressie$behandelingC 0.27939 0.03782 7.387 1.74e-08 ***
depressie$behandelingD 0.12201 0.04000 3.051 0.00448 **
--- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.08231 on 33 degrees of freedom
Multiple R-squared: 0.6418, Adjusted R-squared: 0.6093
F-statistic: 19.71 on 3 and 33 DF, p-value: 1.674e-07
_
PEARSON’S CHI-SQUARED TEST – P. 203 Om de Pearson’s chi-squared test in een keer uit te voeren: chisq.test
x = een tabel met de geobserveerde frequenties
p = een vector met theoretische proporties
> kans chisq.test(x=table(dobbelsteen), p=kans)
Chi-squared test for given probabilities
data: table(dobbelsteen)
X-squared = 6.2, df = 5, p-value = 0.2872
EFFECTGROOTTE W – P. 206 ES.w1
Staat in package “pwr”
> dagen kans kans1 library("pwr")
> ES.w1(P0 = kans, P1 = kans1)
[1] 0.3827301