Statistiek A + B: Overzicht voor tentamen

Statistiek A + B: Overzicht voor tentamen

SIG KLEINER DAN ALPHA : H0 VERWERPEN!!!!!!!!

Meetniveau’s

Kwantitatieve gegevens (numerieke schaal) kunnen worden onderverdeeld in interval en ratio.

Interva

l

Willekeurig 0-punt: 0 °C, tijdstip 0:00, jaar 0. (niet vermenigvuldigen en delen)

Ratio Natuurlijk 0-punt: aantal uren per week, leeftijd zonder categorieën, 0 minuten, kindtal, 0

gram, 0 personen () (wel vermenigvuldigen en delen). Als je 0 kunt zeggen.

Kwalitatieve gegevens kunnen worden onderverdeeld in nominaal en ordinaal.

Nominaal Zonder rangorde: geslacht, burgerlijke staat, regio waar je woont, respnr, kerklid.

Ordinaal Met rangorde (alles in categorieën): opleidingsniveau, sterren van restaurant, maar

ook leeftijd in categorieën.

Centrummaten (maten van centrale tendentie)

Omschrijving Meetniveau Grafische weergave

Mean Rekenkundig gemiddelde Interval/ratio Histogram

Median Middelste waarneming Ordinaal Staafdiagram

Modus Meest voorkomende waarde Alle meetschalen Staafdiagram

Spreidingsmaten (beeld van de spreiding van de verdeling)

Standaarddeviatie

(Std.deviation)

(interval/ratio vereist) maat voor de afwijking van alle waarnemingen t.o.v. het

rekenkundig gemiddelde.

Variantie (Variance) (interval/ratio vereist) De wortel uit de variantie is de standaarddeviatie. R

square

Bereik (Range) Het verschil tussen de hoogste en de laagste waarde. Maximum-minimum

Standaardfout

(S.E. mean)

Standard Error. (fout) van het gemiddelde: standaarddeviatie gedeeld door de

wortel uit het aantal waarnemingen.

Betekenis van de standaarddeviatie (p. 47 McClave)

Empirische

regel

Frequentieverdeling is heuvelvormig

en symmetrisch. (ook skewness!)

Regel van

Tsjebysjev

De vorm van de frequentieverdeling

maakt niet uit.

Z-Score (Standaardiseren van een interval/ratio variabele)

hoeveel eenheden standaarddeviatie een

waarneming boven of onder het gemiddelde ligt.

Z = waarde (X) - rekenkundig gemiddelde (µ) standaarddeviatie (σ)

x-xgemiddeld/standaardafwijking = z

Boxplot (Spreiding van een verdeling, (p.145 de Vocht, p. 56 McClave)

Een rechthoek (box) met de einden (hinges) ter

hoogte van het eerste en het derde kwartiel (Q1

en Q3). De mediaan wordt meestal met een lijn

aangegeven.

De horizontale strepen/uiteinden (whiskers/inner fences) zijn de hoogst en laagst voorkomende

waarde binnen een afstand van 1,5 IQR tot aan de box. De rondjes (outliers) liggen tussen de 1,5 en

3 IQR en de * op meer dan 3 IQR. (Vaak incorrect of behoort niet tot de populatie.)

IQR = interkwartielafstand = Q3 – Q1 = spreiding in de middelste 50%.

P-waarde (probability-waarde)

Bij elke toets berekent SPSS de overschrijdingskans of significantie (in kolom Sig.) Dit wordt de p-

waarde genoemd.

Intervalschatting

Het berekenen van de lower en de upper bound.

- Bij een 90% betrouwbaarheidsinterval dien je de

standaardfout te vermenigvuldigen met 1.65.

- Bij een 95% “ “ “ “ met 1.96

- Bij een 99% “ “ “ “ met 2.58.

Deze trek je af aan de ene zijde (van het

gemiddelde) en aan de andere kant tel je het op.

Het betrouwbaarheidsniveau is een betere indicator voor het vaststellen van de populatiewaarde van als deze laag is omdat dan beter zichtbaar is waar ergens de komt te liggen.

Hypothese Een voorlopig (theoretisch) antwoord op een onderzoeksvraag over 1

kenmerk of de relatie tussen 2 of meer kenmerken in een populatie.

Nul-

hypothese

Representeert de huidige situatie. Heeft altijd een gelijkheidsteken: =

Specificatie: H0: µ = een getal. (Er is geen verschil in…)

Alternatieve-

Hypothese

Tegenovergestelde van de nul-hypothese. Heeft altijd een ongelijkheidsteken:

<> (= met een streep erdoor). Ha: µ = < een getal. (…is lager, hoger, niet gelijk

aan…)

Eenzijdig de score op 1 moment, of de verandering van de score in de tijd.

< = linkszijdig. > = rechtszijdig

Tweezijdig de relatie tussen variabele op 1 moment, of de veranderingen van de relaties

in de tijd. (= met een streep erdoor.) (Er wordt geen richting aangegeven.)

Alpha ά (vaak ,01; ,05; ,10)

Type 1 fout Ten onrechte wordt de nul-hypothese verworpen. Hij is dus juist maar is toch

buiten het betrouwbaarheidsinterval gekomen.

Type 2 fout De nul-hypothese wordt ten onrechte juist bevonden. Hij valt dus binnen het

betrouwbaarheidsinterval terwijl dat in werkelijkheid niet zo is.

Stappen bij het toetsen van H0

1. Bepaal H0 4. Kies n 7. verzamel data

2. Bepaal HA 5. Kies test 8. bereken toetswaarde

3. Kies ά 6. Bepaal de kritieke waarden

(betrouwbaarheidsinterval)

9.Trek en verwoord

statistische conclusie.

Compare means - H0 = Er is geen verschil tussen het landelijk gemiddelde

maatschappijkritiek en de maatschappijkritiek van PvdA stemmers.

- H1 = Er is wel verschil “ ” ” ”.

One-Sample T

Test

- H0 = Er is geen verschil tussen het landelijk gemiddelde

maatschappijkritiek en de maatschappijkritiek van SGP stemmers.

- H1 = SGP –stemmers hebben een lager gemiddelde op de variabele

maatschappijkritiek dan het landelijk gemiddelde.

Independent

Samples T test

- H0 = Er is geen verschil tussen lager en hoger opgeleiden wat betreft

de traditionele man/vrouw rolopvatting in Suriname in 1992.

- H1 = Lager opgeleiden hebben een meer traditionele man/vrouw

rolopvatting dan hoger opgeleiden in Suriname in 1992.

Uit het betrouwbaarheidsinterval blijkt dat je voor 95% zeker kunt zijn dat het

het gemiddeld verschil ligt tussen Lower en Upper. De significantie ligt niet in

dit interval, daarom moet de H0 worden verworpen.

Paired-Samples

T test

- H0 = Er is geen verschil tussen het belang dat mensen hechten aan

economische/burgerlijke- en aan maatschappijkritische waarden.

- H1 = Er is wel verschil tussen “ “ “ “.

Z-toets (of T)

Kijk of de berekende Z-waarde

binnen de genoemde waarden

valt. Als deze er buiten valt,

moet de nul-hypothese worden

verworpen.

Betrouwbaarheid ά (alpha) ά/2 z

1001(1 – ά)

90% 0.10 0.05 1.645

95% 0.05 0.025 1.96

99% 0.01 0.005 2.575

T-toets (Steekproefgemiddelden vergelijken) (al of niet een significant verschil?)

T-waarde Berekenen (test-variable) Mean difference/standaardfout

Vrijheids-

Graden (df)

‘Degrees of freedom’ De werkelijke hoeveelheid variatie in de

steekproefverdeling van t hangt af van de steekproefomvang van n. Deze

afhankelijkheid wordt uitgedruk door te zeggen dat de t-verdeling (n - 1)

vrijheidsgraden heeft. (Des te kleiner = variabeler.)

Sig. (2 tailed) De significantie van de t-waarde.

(Overschrijdingskans p) (Bij

eenzijdig toetsen delen door 2.)

Kijk of deze significantie onder de alpha

blijft. Wanneer dit niet zo is, wordt H0

verworpen.

Mean

difference

Het verschil tussen de het steekproefgemiddelde (x met streep erboven) en

het theoretisch gemiddelde µ0.

Betrouwbaar-

heidsinterval

Het interval is het verschil tussen het theoretisch- (Test value) en

steekproefgemiddelde. Interval geeft aan dat de Mean difference in ?% van de

gevallen tussen de Lower & Upper zal liggen. Het populatiegemiddelde µ ligt

tussen (Test value + Lower) en (Test value + Upper)

Regressie

R Regressie- of B-coëfficiënt. Dit

is de hellingshoek van de lijn.

Geeft weer met hoeveel

eenheden Y verandert als X met

één eenheid toeneemt.

Tabel Coëfficiënt; onder constant (de X)

staat de schatting van B-coëfficiënt van

X.

Bij positief: X neemt toe, Y ook.

Bij negatief: X neemt toe, Y neemt af.

Intercept Het snijpunt van de lijn met de Tabel Coëfficiënt; onder

Y-as. De voorspelde waarde van

Y als X = 0.

Unstandardized Coefficients; Onder B

en achter Constant; hier staat de

kleinste schatting van het intercept.

SSE Som van kwadraten van de fouten. (Sum of Square for Error.)

s² Standard Error of the Estimate

(Steekproefvariantie?)

SSE Voor SSE en df: kijk bijs² = n – 2 ‘Residual’.

s = √s Standard Error of the Regression model.

Scatterplot

Spreidingsdiagram

2 of 3 interval- of ratiovariabelen

tegen elkaar afzetten. Vooral bij

correlatie en regressie om een lineair

verband op te sporen tussen de

variabelen.

Graphs; Scatter/Dot; Simple; Define;

Selecteer variabelen Y Axis; X Axis;

Paste; Ok.

Enkelvoudige

regressie

Het causale verband tussen X en Y

wordt uitgedrukt in een lineaire

regressievergelijking. (Waarden van Y

voorspellen aan de hand van X.)

Analyze; Regression; Linear;

Dependent en Indepedent: vul

variabele in; Paste; Ok.

Partiele

Correlaties

Testen Multicollineariteit: correlaties

van r > = 0.9. Zo ja, moet je de beide

variabelen buiten je model houden.

Correlatie Geeft de sterkte en de richting van een verband tussen twee variabelen

weer.

Pearson’s

Correlatiecoëfficiënt

Is een maat voor het lineaire verband tussen twee interval/ratio variabelen.

(Als er ook sprake is van een derde variabele = partiële correlatie.

Positief verband: X stijgt, Y ook. Negatief verband: X stijgt, Y neemt af.

Eigenschappen

Pearson

- de waarde van r ligt altijd tussen -1 en +1.

- Als r = 0 is er geen correlatie tussen beide variabelen.

- Correlatie tussen X en Y = correlatie Y en X = r is symmetrisch

- Hoe hoger de absolute waarde van r, des te sterker het verband.

- r² (deter.co.)= het aandeel verklaarde variantie van Y door X.

Vooronderstellingen - het verband is lineair (controleren met een scatterplot)

- Bivariate normale verdeling.

Tabellen bij (enkelvoudige) regressie

Model Summary

R Correlatie (coefficient) van X met Y.

R Square

(R²)

Determinantiecoëfficiënt: geeft het

percentage verklaarde variantie in Y

door X aan;

R square in tabel = .450. 45% van de variantie

‘winkelen’ wordt dus verklaard door ‘afstand’.

R square = 1 = perfect model,

R square = 0= geen linear verband.

Std. Error of

the Estimate

s²

Standaarddeviatie van de residuen.

(residuen zijn verschillen tussen de

voorspelde en echte Y-waarden.) Is

gelijk aan de wortel uit de variantie

(Mean Square) van de residuen.

SSE Voor SSE en df: kijk bijs² = n – 2 ‘Residual’.

ANOVA (variantie-analyse: toetsen of het hele model significant is: als sig: <=0.05.)

Regression en Residual Verklaarde variantie en onverklaarde variantie

Sum of Squares

Kwadraat sommen

Bij Total: totale variatie. Het aandeel verklaarde variantie is wat bij SofS

achter Regression staat / totaal. Dit komt overeen met R Square.

Df. (vrijheidsgraden) Het aantal vrijheidsgraden van de residuen (Residual) is gelijk aan het

aantal cases min het aantal onafhankelijke variabelen min 1.

Total – Regression -1 = Residual.

Het aantal df. In Regression is gelijk aan het aantal Y.

Mean square Variantie. De Sum of Squares gedeeld door df.

F Toont of het regressiemodel significant is. F = de mean squares op elkaar

delen. (verklaarde op onverklaarde varianties.)

Coefficients (componenten voor regressievergelijking)

B0 (Constant) Staan beide met St. Error in de kolom Undstandardized Coefficients. De

intercept B0 (linkerbovenhoek!). Bv. winkelen = 7 – 0.5 x afstand. Een

toename van de afstand 1 km. een afname van het aantal bezoekers met

0,5 betekent.

B1 (Regressiecoëfficiënt)

Beta Bij enkelvoudige regressie gelijk aan R, heeft hier geen verdere betekenis.

T-waarde Je toetst de nulhypothese dat de B1 gelijk is aan 0. (t-waarde: B/St. Error)

Multipele regressie Er wordt een lineair regressiemodel gemaakt tussen afhankelijke variabele Y

en meerdere onafhankelijke variabelen (regressors) X.

Veronderstellingen - Y = interval/ratio; X = interval/ratio of ordinal

- Verband tussen Y en X is causaal.

- Multipele regressie is lineair. (Kun je controleren met residuen.)

- Geen multicollineariteit.

- Normale verdeling (met dezelfde variantie) van de Y-waarden.

(Residuen normaal verdeeld en evenwichtig gespreid.)

Regressievergelijking Voorspelde Y = Bo x X1 + Bo + X1 + Bk x Xk.

Elke onafhankelijke variabele X heeft een eigen B1. (regressiecoëfficiënt.)

Residuen De verschillen tussen de voorspelde Y-waarden en de ‘echte’ Y-waarden.

Multicollineariteit Er mogen geen onafhankelijke variabelen in het model zijn, die ongeveer

hetzelfde meten. Dit kun je vooraf controleren door de bivariate correlatie-

coëfficiënten van alle paren onafhankelijke variabelen te berekenen.

Multicollineariteit = als er correlaties van r > = 0.9. In dat geval moet je de

beide variabelen buiten je model houden.

Standaard methode Alle onafhankelijke variabelen, (ook de niet significante) tegelijk in het model

brengen. In één keer berekenen.

Stapsgewijze

methoden

Stap voor stap een onafhankelijke variabele in het model opnemen, op

volgorde van de relatieve invloed op de afhankelijke Y (hoogste F-waarde en

laagste significantie). Dit proces stopt als alle significante X-en zijn verwerkt.

Beta-coefficient Geeft een indicatie van het relatieve belang van iedere X.

Regressieanalyse De residuen zijn de verschillen tussen de waargenomen Y-waarden en de

voorspelde Y-waarden.

Residuenanalyse Hiermee kun je nagaan of aan een aantal vooronderstellingen van regressie (en

correlatie) zijn voldaan. De residuen geven een beeld van de kwaliteit van het

regressiemodel. Hoe dichter de punten bij de lijn liggen, des te kleiner zijn de

residuen en des te sterker is het verband en des te beter is de kwaliteit van het

regressiemodel.

Zijn de residuen

normaal verdeeld?

Analyze; Regression; Linear; geen X en Y invullen; Plots; Kies: Histogram en

Normal probability plot; Continue; Paste; Run.

F – toets (variantie-analyse)

Variantie-analyse

(N>= 30)

Om te toetsen of populatiegemiddelde van een interval/ratiovariabele

voor drie of meer onafhankelijke groepen aan elkaar gelijk zijn. De groepen

worden onderscheiden op basis van categorale variabelen.

Vooronderstellingen - Alle steekproeven zijn onafhankelijk en select.

- Elke groep is afkomstig uit een normaal verdeelde populatie.

- De varianties van de groepen zijn in de populatie aan elkaar gelijk.

(Levene’s toets.) (als alle groepen ongeveer even groot zijn hoeft

dit niet zo strikt.)

Ho Ho = µ1 = µ2 = µ3 = µk. Populatiegemiddelden van alle groepen zijn gelijk

F Toont of het regressiemodel significant is. F = de mean squares op elkaar

delen. (verklaarde op onverklaarde varianties)

F-waarde 1 = gemiddelde van alle groepen aan elkaar gelijk zijn. Ho wordt

dan niet verworpen.

F waarde > 1 = Ho verwerpen. De groepsgemiddelden verschillen

significant. De spreiding is veroorzaakt door verschillen tussen de groepen.

(NB: Met de T-toets, toets je de onafhankelijke Y’s, want niet alle

variabelen hoeven relevant te zijn.)

Variatie Variantie-analyse is gebaseerd op de variatie in steekproefgegevens.

Variatie = de gekwadrateerde afwijking van alle waarnemingen t.o.v. het

gemiddelde (Sum of Squares) Door de variatie te delen door het aantal

vrijheidsgraden verkrijg je de variantie.

Score buiten de whiskers: score valt 1,5 keer buiten de interkwartielafstand

μ = E: N*P

σ2 = n*p*q

Empirische Regel Chebyshevµ+2σ en µ-2σ Hier binnen valt 95% van de

waardenHier binnen valt 75% van de waarden

Schatting. Volgens de empirische regel is de kans dat een behandelde patiënt hierbinnen .95

Volgens de Chebyshev regel is de kans dat een behandelde patiënt hierbinnen valt .75

µ+3σ en µ-3σ Hier binnen valt 99.7% van de waarden

Hier binnen valt 88.9% van de waarden

Schatting Volgens de empirische regel is de kans dat een behandelde patiënt hierbinnen valt .997

Volgens de Chebyshev regel is de kans dat een behandelde patiënt hierbinnen valt .889

Statistiek A: welke toets moet je gebruiken?

1. Onderzoeken of er een relatie bestaat tussen variabele A en B

KRUISTABEL (Chi2 en Cramer’s V) SPSS pag. 67

Dit is tevens de enige toets waarbij je ne nulhypothese niet wil verwerpen!

H0: de twee variabelen zijn onafhankelijk

Ha: de twee variabelen zijn afhankelijk

2. Onderzoeken of de waarde van een bepaald steekproefgemiddelde afwijkt van een

van tevoren verwacht theoretisch gemiddelde (µ) onder de nulhypothese

T-TOETS OP ÉÉN GEMIDDELDE (ONE-SAMPLE T-TEST) SPSS pag. 77

H0: µ = …

Ha: µ ≠ …

3. Onderzoeken of de gemiddelden van twee groepen van elkaar afwijken

1) Vergelijking van twee onafhankelijke groepen

INDEPENDENT SAMPLES T-TEST SPSS pag. 80

H0: µ1- µ2 = 0

Ha: µ1- µ2 ≠ 0

2) Vergelijking van twee afhankelijke groepen

PAIRED SAMPLES T-TEST SPSS pag. 83

H0: µD = 0

Ha: µD ≠ 0

4. Onderzoeken of twee kwantitatieve variabelen verband met elkaar houden en kijken

hoe sterk dit verband is

1) één afhankelijke en één onafhankelijke variabele

ENKELVOUDIGE LINEAIRE REGRESSIE ANALYSE SPSS pag. 88

H0: B1 = 0

Ha: B1 ≠ 0

2) één afhankelijke en méér dan één onafhankelijke variabelen

MULTIPELE LINEAIRE REGRESSIE ANALYSE SPSS pag. 88 (zelfde principe als

enkelvoudige regressie analyse)

H0: B1 = 0 H0: B2 = 0

Ha: B1 ≠ 0 Ha: B2 ≠ 0

5. Onderzoeken of de gemiddelden van méér dan twee onafhankelijke groepen van

elkaar afwijken

VARIANTIE-ANALYSE (ANalysis Of VAriance) SPSS 90

H0: B1= B2 = 0

Ha: Tenminste één B-waarde ≠ 0

De standaardfout geeft de standaardafwijking van alle mogelijke steekproefgemiddeldes

De standaardfout kan je afleiden door middel van de volgende formule: σ/√n.

De standaard fout van het gemiddelde is de standaardafwijking van een bepaalde groep

steekproefen getrokken uit de populatie. (Std. Error Mean)

Lower en upper bound berekenen:

X̄−Zα/2⋅σ√n =

Zα/2= zie tabel, betrouwbaarheidsinterval delen door 2 en zoeken bij B naar de juiste waarde

die bij het gedeelde getal hoort. (bij kleine steekproef in t-tabel zoeken naar waarde

steekproef en bijbehorende z-waarde). LET OP DE GROOTTE VAN DE STEEKPROEF

Lower bound: Xgemiddeld verminderen met de rest van de formule

Upper bound: Xgemiddeld optellen bij de rest van de formule.

Eenzijdig toetsen: De waarden die voldoen aan de alternatieve hypothese zijn altijd groter

(of altijd kleiner) dan die van de nulhypothese.

Enkelvoudig Ho: θ = θo

H1: θ > θo

Samengesteld Ho: θ ≤ θo

H1: θ > θo

Tweezijdig toetsen: De waarden die voldoen aan de alternatieve hypothese kunnen zowel

groter als kleiner zijn dan die van de nulhypothese.

Ho : θ = θo

H1 : θ ≠ θo

Grootte van de steekproef berekenen p. 263-264

Formule:

n=(PsQs)(Zα )²errorterm ²

N= uitkomst, grootte van de steekproefZα = z-score die past bij betrouwbaarheidsniveau

Ps = kans op succesQs= kans op mislukkingError term = percentage waarnaar je streeft over hoeveel afwijking er mag zijn.

De grootheid Sx is in de statistiek de benaming voor de standaardafwijking van het steekproefgemiddelde.

Formule voor de t-waarde (bij one sample t-test):

Df = degrees of freedom n-1, deze moet je bij een t-test als zoekwaarde gebruiken

Kritieke waarden voor t af te lezen op p.800, niet vergeten N-1 te doen.

Wanneer een steekproef groter is dan 121 mag je ook een z-toets doen. Kleiner dan 121 t-toets

SPSS berekent als Mean Difference altijd M1-M2, ofwel het gemiddelde van groep (a) minus het gemiddelde van groep (b).

De regel van cochran luidt: geen van de verwachte cell count is minder dan 1 en niet meer dan 20% is minder dan 5.

Rijtotaal*Kolomtotaal/Steekproefomvang

De R-kwadraat is de proportie(of percentage)verklaarde variantie. Dit is het percentage van spreiding in het afhankelijk kenmerk ten aanzien van het gemiddelde van het afhankelijk kenmerk op het onafhankelijk kenmerk. Hoe dichter bij de 1, hoe beter het deterministisch model en hoe dichter de punten in de puntenwolk op de regressielijn liggen. .279 betekent dat de punten in de puntenwolk relatief ver van de regressielijn afliggen. Ook wel Coefficient of Determination.

Standard error of regression model berekenen: Je pakt uit de ANOVA bij residual de Sum of Squares en die deel je door de df, dan kom je uit op de mean square. Als je vervolgens hier de wortel uit trekt, komt je uit op the standard error of the estimate. (door SPSS wordt de uitkomst de mean square genoemd) Dit is de gemiddelde spreiding van de punten ten opzichte van de regressielijn die je erdoorheen hebt getrokken.

Wanneer je de Sum’s of Squares in de output deelt door de bijhorende vrijheidsgraden onder df, dan krijg je de Mean Squares die SPSS vermeldt onder ANOVA.

T= X−µ0S

⋅√n

Uit de vrijheidsgraden kun je achterhalen wat de waarde van n is, ofwel het aantal respondenten dat bij de regressieberekening meedoet. Anova Total (is aantal respondenten) -1 voor elke variabele.

De intercept, oftwel Bo, is de afstand van het snijpunt met de y-as tot de oorsprong.De B-coefficient, of de B1, is een soort richtingscoefficient; de hellingshoek van de regressielijn.Ŷ = b0+b1*X1

Bereken zoals uitgelegd op pagina 629 de breedte van het 95% voorspellingsinterval van KRANTMIN wanneer we uit de populatie van alle respondenten één 30-jarige respondent zouden nemen Hiervoor heb je de zoals je ziet de waarde van SSXX (het boek noemt dit ook wel S2 x ) nodig. Ŷ ± Tα/2 * S * √(1 + (1/n) + ((Xp-Xgemiddeld)^2/SSxx)

Multipele regressieanalyse Y= B0 + B1x1 + B2x2 + B3x3 + EY=De afhankelijke variabeleWaarbij B1/2/3 de coefficienten van de variabelen zijn en X1/2/3 de verschillende onafhankelijke variabelen.En B0 het begingetal

Hoeveel procent door de kwadratensom of variantie verklaard wordt kun je aflezen aan: model summary Rsquare ofRegression / Total = % verklaard (ANOVA)

The model fits data very well als meer dan 20% verklaard wordt.

Variantie analyse gebruik je om te kijken of populatiegemiddelden van 3 of meer groepen significant van elkaar verschillen, terwijl je bij multipele regressie een afhankelijke variabele zo goed mogelijk probeert te verklaren door middel van meerdere onafhankelijke variabelen. bij multiple regressie een afhankelijke variabelen zo goed mogelijk probeert te verklaren door middel van meerdere onafhankelijke variabelen

Formule voor F : ((SST-SSE)/k) / SSE/ ((n-(k+1))N= grootte steekproefSST = Totale regressieSSE = onverklaarde regressie residualK = het aantal onafhankelijke variabelen.F=waarde bruikbaarheid model.( en R^2 geeft aan hoeveel % verklaard wordt)

In de tabel Coefficients staan onder B de kleinste-kwadraten-schattingen van alle regressiecoëfficiënten. Achter (Constant) staat de waarde van het intercept.

Twaarde= B1/SB1

De standaarderror geeft weer in welke mate het coefficient van de steekproef kan afwijken van degene van het totaal.

Cramers V wanneer deze waarde boven de 0.5 komt begint het wat voor te stellen, maar vaak is de test ook zonder cramers V statistisch relevant vanwege de toetsingsgrootte

SIG < ALPHA: H0 verwerpen.

Bij t-toets Sig<Alpha is kijken in de rij van unequal variances en dan bij sig. Two tailed weer vergelijken met alpha

Als Spearman’s Rho groter is dan 0.3 of kleiner is dan -0.3 dan is deze altijd relevant.

Verwachtingswaarde gemiddelde van kansverdeling gewogen gemiddelde van alle mogelijke waarden

m = E(X) = Sx p(x)

Variantie gewogen gemiddelde gekwadrateerde afwijking van het gemiddelde s2 = E[ (x - m)2 ] = S (x - m)2 p(x)

Beschrijvende, toetsende en verklarende statistiek, eigenlijk is het wel erg simpel?

1.Een onderwijssocioloog heeft het vermoeden, dat des te hoger iemands opleidingsniveau is des te geringer het aantal minuten zal zijn, dat iemand tv kijkt. Betreffende onderzoeker heeft materiaal ter beschikking om dit vermoeden te toetsen. Welke toetsen zijn eventueel geschikt, noem de voorwaarden waaronder deze toetsen mogen worden gebruikt, formuleer de bijbehorende hypothesen, verwerpingsgebied (α=.01) en formuleer de conclusies van de toetsen.

Waarden van x voorspellen aan de hand van y. toets is enkelvoudige regressie. H0: B1 = 0Ha: B1 ≠ 0. Er is een afhankelijke en een onafhankelijke variabele.

2.Een theoloog met aanleg voor empirisch onderzoek wil weten of het al dan niet hebben van kinderen in statistische zin een relatie heeft met het al dan niet lid zijn van een kerk of religieuze organisatie. Hij kijkt naar het meetniveau van de kenmerken en kiest voor een specifieke statische analysetechniek. Welke techniek is dat? Formuleer de nulhypothese en de alternatieve hypothese, verwerpingsgebied (α=.05) en trek uw conclusie.

Kruistabel + Chi kwadraat. Relatie onderzoeken tussen kinderen en kerklid.

3.Een communicatiewetenschapper vermoedt, dat er een verschil bestaat in het gemiddeld aantal minuten, dat mensen zonder kinderen en mensen met kinderen, televisie kijken en wil dat toetsen met de meest geschikte toets. De onderzoeker vermoedt, dat de verdeling over het kenmerk Kijktijd in de twee onderzoekspopulaties als normaal mag worden beschouwd.Welke toets zal hij kiezen? Formuleer de nulhypothese en de alternatieve hypothese, verwerpingsgebied (α=.05) en trek uw conclusie op basis van de toetskeuze.

Independent samples t-test. Onderzoeken of de gemiddelden van twee groepen van elkaar afwijken. Wijkt het gemiddelde van de groep geen kinderen af van de groep wel kinderen. Testen door, t-waarde van test te vergelijken met t-waarde uit het boek (in dit geval voor 95%) of door sigma te vergelijken met alpha.

4.Een sociaalpsychologe is geïnteresseerd in de samenhang tussen twee variabelen betreffende steun uit het sociale netwerk. Welke samenhangsmaat is de meest geschikte en waarom? Zijn de samenhangen statistisch significant en ook relevant (α=.01)? Tevens wil betreffende onderzoekster weten of er een significant verschil bestaat voor wat betreft de populatiegemiddelden op deze kenmerken. Welke toets kan zij gebruiken (neem aan dat beide variabelen kwantitatief zijn) en hoe luidt haar conclusie bij een α van .01?

Spearman’s Rho. Berekenen dmv correlatie. Je wil de samenhang tussen twee variabelen testen.

Deelvraag: paired samples t-test: Vergelijking van twee afhankelijke groepen kijken of er een significant verschil bestaat, om verschillen op te merken moet je vergelijken dus t-test.

5.Een socioloog doet een poging om met behulp van secundaire analyse de kijktijd van respondenten te voorspellen uit de leeftijd van de respondenten. Hij voert hiertoe een statistische analyse uit, die daarvoor geknipt is. Kies de meest geschikte statistische analysetechniek en kan de socioloog hier iets mee m.a.w. is het een statistisch significant en vervolgens relevant voorspellingsmodel (α=.05)? Vervolgens voert de socioloog een tweede kenmerk (hoogst voltooide opleiding) in in het model. Hij heeft daartoe wel de aanname moeten maken, dat opleiding een kwantitatief kenmerk is.? En levert het in statistische zin iets op?

Enkelvoudige lineaire regressieanalyse: Onderzoeken of twee kwantitatieve variabelen verband met elkaar houden en kijken hoe sterk dit verband is. Heeft leeftijd verband met kijktijd?

Multipele regressie analyse: één afhankelijke en méér dan één onafhankelijke variabelen de socioloog voert een tweede kenmerk in waardoor er dus een afhankelijke variabele is (kijktijd) en twee onafhankelijke variabelen: leeftijd en …..

6.Een onderzoeker krijgt de beschikking over gegevens uit een onderzoek uit 2004, waarin onder meer de variabele kijktijd voorkomt. Hij vermoedt dat de gemiddelde kijktijd (gemiddeld aantal minuten tv kijken per dag) van de Nederlanders van 18 jaar en ouder in vergelijking met een hem bekend gemiddelde uit 1998, namelijk 150 minuten, significant is toegenomen. Formuleer de nulhypothese en de alternatieve hypothese, verwerpingingsgebied (α=.10) en trek uw conclusie op basis van de toetskeuze.

One sample t-test: Onderzoeken of de waarde van een bepaald steekproefgemiddelde afwijkt van een van tevoren verwacht theoretisch gemiddelde (µ) onder de nulhypothese. De onderzoeker vermoedt een gemiddelde kijktijd. Nu moet die toetsen of deze kijktijd klopt of niet. H0: μ=150 of Ha: μ≠150.

STATISTIEK B:

We laten SPSS het benodigde rekenwerk voor de t-toets doen. Klik op: Analyze Compare Means Independent-Samples T Test v82 (schuifbalk) bovenste (Test Variable) v133 (schuifbalk) onderste (Grouping Variable) Define Groups Klik tenslotte op OK. Je komt nu in het output-window.

De standaardfout van het gemiddelde geeft een indicatie van de betrouwbaarheid van het steekproefgemiddelde en wordt berekend door de standaarddeviatie te delen door de wortel van n

Mean difference: M1-M2

Sig groter dan alpha equal variances assumed Sig kleiner dan alpha equal variances not assumed.

Een betrouwbaarheidsinterval stelt een marge van twee uitersten waarbinnen de werkelijke berekende waarde zal liggen. De normaalste betrouwhbaarheidsmarge is 95%, maar ook 90% en 99% worden af en toe gebruikt. Hoe hoger de betrouwbaarheid wilt stellen hoe kleiner je marge wordt.

Paired samples t-test: er bestaat geen significant verschil tussen…… er bestaat een significant verschil.

Mean square: Sum of squares / df

Waarde F in ANOVA: Mean square between groups/ mean square within groups.

Als de nulhypothese bij een variantie-analyse wordt verworpen, zouden we kunnen gaan bekijken tussen welke categorieën van de onafhankelijke variabele er verschillen zijn. Dit geschiedt met behulp van zogenaamde Post-Hoc tests. In het handboek wordt op de pagina’s 442 t/m 444 aandacht besteed aan de Tukeytoets. Deze toets veronderstelt gelijke steekproefomvangen per categorie van de onafhankelijke variabele. Dat is meestal niet het geval en dan wordt er gebruik gemaakt van de toetsen van Bonferroni en Scheffé, welke ongelijke steekproefomvangen toestaan.

Tukey: eist even grote steekproevenScheffé: minder significantBonferroni: meestal geschikt

Multipele regressievergelijking: Regressie vraagt: in hoeverre zijn scores van het kwantitatieve variabele x te verklaren door het kwantitatieve variabele y. Wanneer bij een lineaire regressie 99% betrouwbaarheid wordt gevraagd moeten 99% van de scores op 3 standaardafwijkingen van de lijn liggen.

Formule multipele regressievergelijking: Ŷi= βo+β1X1+β2X2+β3X3

Analyze Regression Linear

Via de gegeven waarde van Rsquare in de output kan je afleiden hoeveel procent woprdt verklaard door de drie onafhankelijke variabelen tesamen. R2= verklaarde variantie/ totale variantie

SSR / SST

The model fits the data very well wanneer R2 boven 0.2 als een gevonden waarde hier ver onder ligt spreek je van een low fit.

N afleiden van df = df + 1 Ho: B1 = 0 Geen van de gegeven variabelen kan een lineair verband verklaren. Ha: B1 ≠ 0

Bruikbaarheid model toetsen d.m.v. F-toets. Sig achter F-toets testen op alpha. Formule F-waarde: (SSR/K)/(SSE/(n-k+1)) SSR = Sum of squares regressionK = Df bij SSRSSE = Sum of squares residualN= dftotal +1

Als tenminste een regressiecoefficient afwijkt van nul is het model bruikbaar. Bij regressie analyse wil je H0 juist verwerpen want dit betekent dat er aanwijzingen zijn voor lineaire regressie.

t-waarde: Waarde B delen door std. Error.

Lower/Upper bound berekenen: . B1±Tα * Se

Wanneer je een interactiemodel hebt en het gewone model en beide zijn significant geef je de voorkeur aan het model met de hoogste R2

Een van de voorwaarden van een t-toets is dat de variabelen normaal verdeeld zijn. Inkomen is (bijna) nooit normaal verdeeld en hier ook niet, dus moeten we gebruik maken van de Wilcoxon Rang Sum Test.

Mann-Whitney test/ rank sum test op Analyze Nonparametric Tests Legacy Dialogs 2 Independent Samples nl_inc bovenste (Test Variable) sex onderste (Grouping Variable) Define Groups. Continue. Ok.

SPSS geeft onder Test Statistics de z-waarde (volgens de formule op pagina 773) op basis van T1 of T2, afhankelijk van welk van beide groepen de laagste Mean Rank heeft. Daarom is de z-waarde die SPSS geeft altijd negatief of nul en bestaat de ‘rejection region’ bij eenzijdig toetsen uit z < -z.

We gaan de Signed Rank Test uitvoeren, in SPSS kortweg de 'Wilcoxon' genoemd. We doen daarbij net alsof we over een steekproef van slechts 20 personen beschikken. Klik op Data Select Cases Random sample of cases Sample Exactly. Type dan 20, klik in het lege hokje rechts en type 5000. Klik daarna Continue OK. SPSS selecteert nu willekeurig 20 mensen uit het bestand. Klik dan op Analyze Nonparametric Tests Legacy Dialogs 2 Related samples wwoning wwoonomgeving (schuifbalk!) OK. Laat de resultaten in het output-window printen.

Dummy variabelen extra variabele, hulp variabele - Nominaal - Ordinaal

Omzetten kenmerk in een dummy kan je opnemen in een regressie analyse.

Een interactie effect verkrijg je door te vermenigvuldigen.

Non-parametrische testen: toetsen op representativiteit, zijn minder snel met verwerpen nulhypothese.Chi-square nominaal OrdinaalH0: twee variabelen zijn statistisch onafhankelijk Ha: twee variabelen zijn statistisch afhankelijk

Tweetal toetsen: wilcoxon / mann withney

Wilcoxon bij 2 onafhankelijke steekproefen of bij 2 afhankelijke steekrpoeven. (variabelen)

H0: P1 = P2 = P3 = …Ha: tenminste 1 van de proporties onder H0 wijkt af. (wil je liever niet)

H0: de twee verdelingen zijn identiek/ De twee locaties zijn gelijkHa: de twee verdelingen zijn niet identiek / De twee locaties zijn ongelijk

Kruskall wallis/ Friedman : voor meer dan 2 variabelenH0: μ1 = μ2 = μ3 = μ4Ha: tenminste 1 van de gemiddelden wijkt af

Assumpties voor de uitvoering van analyse kruskall wallis/ Friedman: σ1

2 = σ22= σ3

2 gekwadrateerde standaardafwijkingen zijn gelijk aan elkaarAl die verdelingen zijn klokvormig in de populatie

Bij de friedman test moet je 5 variabelen vergelijken.

Cochrans regel: het aantal cellen met verwachte frequentie onder 5 ≤ 20% dan mag chi kwadraat worden toegepast.

Nominale variabele = Uitkomst is een soort, een indeling in een bepaalde categorie.Voorbeelden: Proefwerkcijfer, Schoenmaat . NB: soorten zijn wel numeriek te coderen!

Ordinale variabele = Uitkomst is net als bij een nominale variabele een soort, die ingedeeld kan worden in een bepaalde categorie. Nu echter hebben deze categorieën een bepaalde logische volgorde uitkomsten zijn rangschikbaar.Voorbeelden: opleidingsniveau

Ratioschaal = Continue variabele met natuurlijk nulpuntVoorbeelden: gewicht, lengte

Intervalschaal = Continue variabele zonder natuurlijk nulpuntVoorbeelden: temperatuur in oC, tijd, bouwjaar

MEETNIVEAUS EN TOETSEN

Nominaal – Nominaal: Chi kwadraat / KruistabelCramer’s V V (0;1) V 0.5 begint wat voor de stellen. Toetsing is statistisch onafhankelijk.

Nominaal- Ordinaal: Chi kwadraat / Cramer’s VWilcoxon toets: 2 onafhankelijke steekrpoevenKruskall-wallis: Steekproeven ≥ 2 onafhankelijke steekproeven

Nominaal – Interval: T-toets: twee onafhankelijke steekproevenVariantie analyse: > 2 steekproeven. ANOVA. Zijn de scores stat. Significant.

Ordinaal – Ordinaal: Spearman Rs (-1; +1) als < -.3 ; > .3 begint het wat voor te stellenWilcoxon 2 related samples (chi-kwadraat/ cramer’s V)

Ordinaal – Interval/Ratio:Variantie analysePaired samples t-test>3 ordinale variabele in verband friedmantestMogelijk ook Kruskall-wallis.

Interval/Ratio – Interval/Ratio:R Pearson R(-1 ; +1) Regressie-analyse

Samenhang: Correlate of kruistabelScore voorspellen heeft met een andere te maken regressie analyse

Variantie-analyse: ANOVA: F-toets

2 related samples bij verschil verdelingen van kenmerken: Wilcoxon.

SPEARMAN: ORDINAALPEARSON: INTERVAL

Toetsende en verklarende statistiek, een vijftal vragen.

1.Een onderwijssocioloog heeft het vermoeden, dat er een verschil bestaat tussen het gemiddeld aantal minuten, dat mensen tv kijken, indien een opsplitsing plaatsvindt naar opleidingsniveau. Betreffende onderzoeker heeft materiaal ter beschikking om dit vermoeden te toetsen. Welke toetsen zijn eventueel geschikt, noem de voorwaarden waaronder deze toetsen mogen worden gebruikt en formuleer de bijbehorende hypothesen.

Gemiddeld minuten intervalOpleidingsniveau ordinaalToets: variantie analyse: compare means, anova.

Wanneer geen symmetrisch klokvormige verdeling kruskall wallis.

2.Een theoloog met aanleg voor empirisch onderzoek wil weten of het al dan niet hebben van kinderen in statistische zin een relatie heeft met het al dan niet lid zijn van een kerk of religieuze organisatie. Hij kijkt naar het meetniveau van de kenmerken en kiest voor een specifieke statische analysetechniek. Welke techniek is dat? Formuleer de nulhypothese en de alternatieve hypothese.

2 kenmerken statistisch afhankelijkNominaal – Nominaal Correlate, bivariate. Pearson.

3.Een communicatiewetenschapper vermoedt, dat er een verschil bestaat in het gemiddeld aantal minuten, dat mensen zonder kinderen en mensen met kinderen, televisie kijken en wil dat toetsen met de meest geschikte toets. De onderzoeker vermoedt, dat de verdeling over het kenmerk Kijktijd in de twee onderzoekspopulaties als normaal mag worden beschouwd.Welke toets zal hij kiezen? Formuleer de nulhypothese en de alternatieve hypothese.

Interval – NominaalParametrische toets hier t-toets

4.Een sociaalpsychologe is geïnteresseerd in de samenhang tussen twee variabelen betreffende steun uit het sociale netwerk. Betreffende variabelen luiden in vraagvorm als volgt:

1. ‘Ik kan altijd met mijn problemen bij iemand terecht’2. ‘Ik heb genoeg mensen om me heen, die me kunnen helpen

De antwoordmogelijkheden op deze variabelen zijn; 1. altijd, 2. vaak, 3 soms, 4 bijna nooit, 5 nooit.

Welke samenhangsmaat is de meest geschikte en waarom? Tevens wil betreffende onderzoekster weten of er een significant verschil bestaat voor wat betreft de verdelingen op deze kenmerken. Welke toets kan zij gebruiken?

Gradatie, rangorde. 2 ordinale kenmerken samenhang correlateSpearman.

5.Een socioloog doet een poging om met behulp van secundaire analyse de kijktijd van respondenten te voorspellen uit de leeftijd van de respondenten. Hij voert hiertoe een statistische analyse uit, die daarvoor geknipt is. Vervolgens voert de socioloog een tweede kenmerk (geslacht) in in het model. Dit mag niet zo maar. Hij heeft daartoe wel dit kenmerk geslacht moeten transformeren van een kwalitatief kenmerk naar een kwantitatief kenmerk.

Voorspelling: Regressie-analyse.

Deel 2: Recode, compute, dummyKenmerk geslacht meevoeren. Verklaringskracht hetzelfde.

Compute variabele: compute, function Group, All, MeanMean( v… , v… , v… )

Documents

Statistiek A + B: Overzicht voor tentamen