151

Click here to load reader

Statistiek 2014 - 2015 Oplossingen

Embed Size (px)

DESCRIPTION

wiskunde jaar 6

Citation preview

Page 1: Statistiek 2014 - 2015 Oplossingen

Cursus statistiekZesde jaar – 2 uur

Page 2: Statistiek 2014 - 2015 Oplossingen

Inhoudstafel

Hoofdstuk I : het verzamelen van gegevenspagina

1. Inleiding 3

2. De onderzoeksvraag 3

3. Het verzamelen van de elementen 5

4. Het verzamelen van de gegevens 20

5. Soorten veranderlijken 24

6. Algemeen besluit 30

Hoofdstuk II : enkelvoudige tabel

1. Herhaling begrippen 31

2. Enkelvoudige tabel via Excel & grafieken 34

Hoofdstuk III : gegroepeerde tabel

1. Indeling in klassen - herhaling 39

2. Grafische voorstelling gegroepeerde tabellen - histogram 44

3. Informatie halen uit histogrammen 46

4. Gegroepeerde frequentietabel & grafiek via Excel 49

Hoofdstuk IV: centrummaten

1. Centrummaten – opfrissen basisbegrippen 53

2. Bruikbaarheid van het gemiddelde 55

3. Centrummaten via Excel 61

Hoofdstuk V: spreidingsmaten

1. Inleidend voorbeeld 64

2. De variatiebreedte 65

3. De standaardafwijking 65

Statistiek – tweede jaar derde graad - 1 -

Page 3: Statistiek 2014 - 2015 Oplossingen

4. De interkwartielafstand - IQR 68

5. Spreidingsmaten via ICT 71

Hoofdstuk VI : de normale verdeling

1. Histogram op dichtheidsschaal 73

2. Opstellen van een model voor de ganse populatie : de normale dichtheidsfunctie 77

3. De vuistregel Þ 68 – 95 – 99,7 regel bij normale verdelingen 81

4. Kansen berekenen met behulp van de normale verdeling 83

Statistiek – tweede jaar derde graad - 2 -

Page 4: Statistiek 2014 - 2015 Oplossingen

Hoofdstuk 1 : het verzamelen van gegevens

1. Inleiding

De volgende vier grote stappen komen steeds terug bij elk statistisch onderzoek

Stap 1 → het stellen van de onderzoeksvraag

Stap 2 → het verzamelen van de gegevens = data

Stap 3 → de analyse van de data

Stap 4 → de interpretatie van de resultaten

In dit hoofdstuk gaan we het hebben over de eerste 2 stappen.

2. De onderzoeksvraag

Heb je dit ook al eens gemerkt? Je ging een weekend logeren bij je oma en opa en het bed waarin

je sliep, was zo kort! Inderdaad met je lengte van 1,90 meter ben je niet echt de kleinste van je

klas. Maar toch…

Navraag bij je grootouders leverde niets op; zij hadden nog nooit gehoord dat iemand moeite had

met het ‘korte’ bed. Zo kom je al gauw tot de vraag of jij zo uitzonderlijk lang bent of dat de

mensen in de loop van de tijd langer zijn geworden. Met zulk soort vragen is de kiem gelegd voor

onderzoek. Je stelt jezelf een onderzoeksvraag.

Alle onderzoeken beginnen met het stellen van een goede en duidelijke onderzoeksvraag waarin

de doelgroep vermeld wordt. Deze doelgroep noemt men in de statistiek de populatie.

De populatie is de doelgroep waarvan men een aantal kenmerken wil onderzoeken

Zonder een goed uitgewerkte onderzoeksvraag is er geen goed onderzoek mogelijk en dus ook

geen goed antwoord!

Voorbeelden van onderzoeksvragen zijn

Met welk vervoermiddel komen leerlingen van dé kunsthumaniora naar school?

Wie zal de grootste partij worden in België na de verkiezingen?

………………...…………………………………………………………………………………………

MAAR → heel dikwijls is er meer dan één onderzoeksvraag per onderzoek

Een onderzoek naar het GSM gebruik bij Vlaamse 16 jarigen kan volgende onderzoeksvragen hebben

1) Hoeveel berichtje sturen ze per maand?

2) Is er een onderscheid tussen meisjes - jongens?

3) Hebben ze een abonnement

4) ………………………………………………………………………………………………………….

Statistiek – tweede jaar derde graad - 3 -

Page 5: Statistiek 2014 - 2015 Oplossingen

Voorbeelden

1) Hoeveel maal per week vervangt junkfood een andere maaltijd bij de leerlingen van de

kunsthumaniora?

Beschrijf de populatie : de leerlingen van de kunsthumaniora

Welke verduidelijking heeft deze onderzoeksvraag nodig?

Wat verstaat men onder junkfood.

2) Is veel water drinken goed voor je gezondheid?

Welke verduidelijking heeft deze onderzoeksvraag nodig?

Wat verstaat men onder veel?

Wat bedoelt men met goed voor je gezondheid?

Geen doelgroep vermeld

3) “ Uit onderzoek blijkt dat 1 op 4 jongeren misbruikt wordt”,

4 Oktober 1994,San Fransico Examiner.

Dit resultaat kwam tot stand uit een onderzoek bij 2000 kinderen tussen de 10 en de 16 jaar in San

Fransisco.

Geef de onderzoeksvraag

Hoeveel % van de jongeren tussen 10 en 16 jaar wordt misbruikt in San Fransisco

Beschrijf de populatie kinderen tussen de 10 en de 16 jaar in San Fransisco.

Klopt dit hoge percentage wel?

De resultaten van dit onderzoek zijn enkel juist wanneer men weet dat de definitie van

kindermisbruik zeer breed genomen wordt. Het gaat over kinderen die geslagen, geduwd,

geschopt of bedreigd waren door een volwassene, gedurende het laatste jaar.

4) Veel jongeren gebruiken hun smartphone om spelletjes te spelen. Je wilt onderzoeken hoeveel

Vlaamse jongeren dit regelmatig doet.

Formuleer een nauwkeurigere onderzoeksvraag.

"Hoeveel procent van de Vlaamse jongeren tussen 14 en 16 jaar spelen minstens één kwartier

per dag een spelletje op hun smartphone?"

Statistiek – tweede jaar derde graad - 4 -

Page 6: Statistiek 2014 - 2015 Oplossingen

3. Het verzamelen van de elementen

De elementen zijn de objecten waarvan men een aantal kenmerken wil onderzoeken. Dit kunnen

personen, maar ook voorwerpen zijn. Het zijn dus de objecten uit de populatie.

A. Populatie versus steekproef

Men heeft twee soorten onderzoeksvragen

Voorbeelden

Hoeveel uur per dag kijken mijn honderd leerlingen TV?

Hoeveel uur per dag kijken Vlaamse secundaire leerlingen TV?

Hoeveel percent van de leerkrachten van de! kunsthumaniora hebben thuis Internet?

Hoeveel percent van de Belgische leerkrachten hebben thuis Internet?

Bij de eerste vraag kan men alle elementen onderzoeken en deze gegevens beschrijven.

Om de tweede vraag te bepalen willen we echter informatie over een zeer grote groep en kan

men meestal niet elk element onderzoeken.

Drie redenen waarom we niet elk element kunnen onderzoeken

1) de totale populatie onderzoeken is te kostbaar

2) de totale populatie onderzoeken is te tijdrovend

3) de totale populatie onderzoeken is onmogelijk - bv daklozen kan je zeer moeilijk bereiken.

Hoe beoordeel je of een pan soep klaar is? Je roert er even in en proeft vervolgens één lepel. Op

basis van die ene lepel trek je conclusies over de hele pan soep : je hoeft niet alles op te eten!

Bij statistiek werkt dit op dezelfde manier. We willen iets kunnen zeggen over een grote groep

mensen of zaken maar hebben geen tijd of middelen om ieder element te onderzoeken. Daarom

selecteren we een kleine groep elementen uit de populatie en op basis van die resultaten trekken

we conclusies over de populatie als geheel.

De steekproef is het deel van de populatie dat daadwerkelijk onderzocht zal worden.

De omvang n van de steekproef is het aantal elementen van de steekproef.

Voorbeeld : een farmaceutisch bedrijf brengt een nieuw geneesmiddel voor astma op de markt. Men weet uit ervaring dat mensen op verschillende wijze kunnen reageren op medicatie. Het bedrijf wil dat het nieuwe geneesmiddel voor minstens 90% van de gebruikers doeltreffend is en voert een test uit op 1000 patiënten.

Beschrijf de populatie : de astmapatiënten

Beschrijf de steekproef : de astmapatiënten die het geneesmiddel testen.

Omvang = 1000

Statistiek – tweede jaar derde graad - 5 -

Page 7: Statistiek 2014 - 2015 Oplossingen

Oefeningen – beschrijf steeds zo exact mogelijk

1) De NMBS wil het comfort van de Limburgse treinreizigers die elke dag van Genk naar Brussel

sporen, verbeteren. Daarom wordt er een enquête afgenomen bij 50 willekeurige reizigers van de

ritten Genk – Brussel Centraal om 7.15h, 7.50h en 8.15h (op elk tijdstip telkens 50 reizigers)

Populatie: de Limburgse treinreizigers die elke dag van Genk naar Brussel sporen.

Steekproef: de Limburgse treinreizigers die elke dag van Genk naar Brussel sporen die

deelnamen aan de enquête.

Omvang n : 150

2) De directeur van het college wil het schoolreglement aanpassen. Hiervoor selecteert hij uit elke

klas willekeurig één leerling om deel te nemen aan een vergadering.

Populatie: de leerlingen van het college

Steekproef : de leerlingen van het college die deelnamen aan de vergadering.

Omvang n : aantal klassen

3) Een meelfabrikant wenst te weten hoeveel procent van de Brusselaars hun eigen brood

bakken. Hij huurt daarvoor een aantal interviewers in, die willekeurig adressen bezoeken tijdens

de normale werkuren, tot ze samen 1500 gegevens hebben.

Populatie: de Brusselaars

Steekproef : de Brusselaars die geïnterviewd werden.

Omvang n = 15OO

Statistiek – tweede jaar derde graad - 6 -

Page 8: Statistiek 2014 - 2015 Oplossingen

4) Waardoor voelt een Vlaamse leerkracht zich beloond?Dit onderzocht Sara De Gieter (VUB) via een schriftelijke enquête die ze verstuurde naar 1500 leerkrachten waarvan er 763 de enquête ingevuld terugstuurden.En wat blijkt?

Het loonzakje is een belangrijke bron van waardering voor een leraar, maar 80% van de leraren zegt tevreden te zijn met een psychologische beloning : een schouderklopje van de directeur, blijk van waardering door een collega …

Ook zegt 69% dat ze tevreden zijn en zich gewaardeerd voelen door een goede relatie en een prettig contact met de leerlingen. Het gevoel de leerlingen te begrijpen en hen te kunnen helpen en zien groeien is een bron van beloning.

Beschrijf de populatie : alle Vlaamse leerkrachten

Beschrijf de steekproef de Vlaamse leerkrachten die hun enquête ingevuld terugstuurden.

Omvang n = 763

5) Een snelheidscontrole in een straat op 15/12/2013 tussen 14u en 16 uur

Beschrijf de populatie

Alle voertuigen die op 12/12/2013 tussen 14u en 16u door die straat rijden

Beschrijf de steekproef

Idem populatie

Omvang n = aantal gecontroleerde voertuigen

Statistiek – tweede jaar derde graad - 7 -

Page 9: Statistiek 2014 - 2015 Oplossingen

Artikel 1 - Kind wordt niet intelligenter van muzieklesGeschreven op 13 december 2013 door Caroline Kraaijvanger

Ouders hebben goede redenen om hun kinderen naar

piano- of zangles te slepen. De muzieklessen hebben

namelijk overduidelijk voordelen: kinderen leren wat

discipline is en zijn creatief bezig. Een ander veelgehoord

voordeel is dat de muziekles kinderen intelligenter maakt.

Maar dat is absoluut niet waar, zo blijkt nu uit nieuw onderzoek.

Het waanidee dat muziek goed is voor de intelligentie komt notabene voort uit een wetenschappelijk

onderzoek. Wetenschappers stelden jaren geleden dat proefpersonen na het luisteren naar muziek

beter presteerden tijdens bepaalde taken waarin het ruimtelijk inzicht een belangrijke rol speelde.

De onderzoekers concludeerden dat muziek mensen blijkbaar slimmer maakten en doopten dat

‘Het Mozart-effect’. Het onderzoek werd later keihard onderuitgehaald, maar het idee dat mensen

slimmer werden door naar muziek te luisteren bleef hangen. En daaruit vloeide ook het idee dat

muziekles kinderen intelligenter maakt, voort.

Experiment - de onderzoekers verzamelden 29 ouders en hun vierjarige kinderen. Eerst werd de

woordenschat van de kinderen getest. Ook keken de onderzoekers naar de muzikale aanleg van de

ouders. Dan werden de proefpersonen in twee groepen gedeeld. De ene groep kreeg muziekles.

De andere groep ging aan de slag met beeldende kunst. “We wilden achterhalen welke effecten

muziekonderwijs dat daadwerkelijk in de echte wereld plaatsvindt, heeft en we wilden het effect op

jonge kinderen bestuderen,” legt onderzoeker Samuel Mehr uit. Belangrijke veranderingen die de

onderzoekers ten opzichte van vorige studies doorvoerden, waren onder meer de docent en de

manier waarop na afloop de intelligentie van de proefpersonen werd getest. In vorige vergelijkbare

onderzoeken gaven verschillende docenten muziek- en kunstles. Om uit te sluiten dat dit effect had

op de resultaten werden de lessen nu door één en dezelfde docent verzorgd. En na afloop werd er

niet simpelweg een IQ-test afgenomen, maar toetsten de onderzoekers vier specifieke domeinen

van cognitie (waaronder ruimtelijk inzicht en de woordenschat). “Als muziekles echt een invloed had

op de cognitie van de kinderen dan zouden we tijdens dit onderzoek beter in staat moeten zijn om

dat effect te detecteren, omdat deze testjes gevoeliger zijn dan een algemene IQ-test.”

Niet significant - maar ook tijdens dit onderzoek konden de onderzoekers niet aantonen dat

muziekles cognitieve voordelen had. En ook nadat de onderzoekers het experiment nog eens

herhaalden (nu met 45 ouders en hun kinderen) bleek muziekles geen positief effect op de

intelligentie te hebben. “Er waren kleine verschillen tussen de prestaties van beide groepen, maar

die verschillen waren niet groot genoeg om statistisch significant te zijn.”

Toch moeten ouders dit onderzoek niet aangrijpen om hun kinderen massaal van muziekles te

halen. De onderzoekers benadrukken dat muzieklessen desalniettemin heel belangrijk zijn. “Elke

cultuur heeft muziek, waaronder muziek voor kinderen. Muziek vertelt iets over wat het betekent om

mens te zijn en het zou gek zijn als we dat niet aan onze kinderen leren.”

Statistiek – tweede jaar derde graad - 8 -

Page 10: Statistiek 2014 - 2015 Oplossingen

Artikel 2 - Moeilijk vraagstuk? Dans en het is zo opgelost De Standaard - donderdag 18 maart 2010

GENT - Min en min is plus. Voor een volwassene is

het soms al moeilijk te begrijpen, laat staan voor een

kind van tien. Toch is het een fluitje van een cent om

het hen uit te leggen. ‘Giet de theorie in een dansje

en de kinderen zijn er zo mee weg', zegt Lut De

Jaegher, lector en onderzoeker van de

Arteveldehogeschool Gent.

Gisteren testte ze haar theorie uit bij kinderen van een dansschool. Ze kregen een ingewikkelde

formule voorgeschoteld. X stond voor een bepaalde dansbeweging, Y voor een andere. Op de maat

van de muziek voerden de kinderen de pasjes uit. Kwamen ze een min tegen in de formule, dan

moesten ze met hun rug naar het publiek gaan staan, bij een tweede min moesten ze zich weer

omdraaien.

‘Zonder het te beseffen, leren ze zo dat min en min gelijk is aan plus', legt Lut De Jaegher uit. ‘Dat

is het bijzondere aan dansen. Eigenlijk zit daar veel wiskunde in. De kinderen moeten passen

tellen, de ruimte opdelen, een bepaalde richting uitgaan. Allemaal wiskunde, maar omdat ze

dansen leuk vinden, beseffen ze dat niet. Na zo'n dansles scoren ze beter voor rekenen.'

De onderzoekers kunnen dat bewijzen ook. Ze lieten 779 leerlingen tussen 10 en 14 jaar oud

wiskundige vraagstukken oplossen. Ze vroegen hen ook hoe angstig ze waren tijdens het oplossen

van de vraagstukken en hoe zeker ze waren van hun antwoorden. Een week later kregen ze weer

een test voorgeschoteld. Enkele kinderen hadden tussendoor dansoefeningen gekregen, andere

niet. De kinderen die gedanst hadden, haalden niet alleen betere resultaten, ze voelden zich ook

meer op hun gemak en waren zekerder van hun stuk.

Lut De Jaegher goot haar bevindingen in een lespakket dat ze MovingMath doopte. ‘Het is heus niet

de bedoeling om alle wiskundelessen te vervangen door dansoefeningen. Tien minuten tussendoor

kunnen al volstaan om een wiskundige term uit te leggen.'

Beschrijf de populatie

Artikel 1

Ouders met een 4-jarig kind

Artikel 2

Leerlingen tussen 10 en 14 jaar

Omvang n → Artikel 1 = 74 (als je de twee steekproeven samentelt anders is het 29)

Artikel 2 = 779

Statistiek – tweede jaar derde graad - 9 -

Page 11: Statistiek 2014 - 2015 Oplossingen

B. Een representatieve steekproef

In de statistiek moet een goede steekproef representatief

zijn. Daar bedoelen we iets mee als "eerlijk" of 

"onbevooroordeeld". Als we een uitspraak over de bevolking

van België willen doen aan de hand van een steekproef dan

zal elke "bevolkingsgroep" naar verhouding in deze

steekproef moeten voorkomen. Met "bevolkingsgroep" wordt

bijvoorbeeld bedoeld:  man-vrouw, ouderen-jongeren,rokers-

niet rokers, zieken-gezonden, rood haar - blond haar - bruin

haar .... en ga zo maar door.

Neem het volgende (overdreven) voorbeeld

Stel dat we een groep Belgen een enquête zouden sturen met daarin de vraag "Vult U graag

enquêtes in?" en we kijken naar de teruggestuurde formulieren, dan zouden we waarschijnlijk de

conclusie kunnen trekken dat de overgrote meerderheid van Belgen graag enquêtes invult!!

Degenen die dat niet doen gooien de enquête namelijk waarschijnlijk zo snel mogelijk in hun

prullenbak!  Zo past de steekproef zichzelf aan. 't Is eigenlijk net zo dom als een steekproef per e-

mail houden en de vraag "Heeft U internetverbinding?" stellen. De conclusie zal ongetwijfeld zijn

dat 100% van de mensen een internetverbinding heeft....

Dit zijn natuurlijk wel heel domme voorbeelden, maar soms is het fout zijn van een steekproef

slechter te zien. Zo wilden twee leerlingen op de middelbare school onderzoeken hoeveel er

gerookt werd onder scholieren. Ze gingen aan het begin van de pauze bij de buitendeur staan en

vroegen de eerste 50 leerlingen die naar buiten kwamen: Rook je?"

Wat zou er hier dan fout kunnen zijn?

Helaas komen waarschijnlijk de rokers het eerst naar buiten of teveel van eenzelfde klas.

Statistiek – tweede jaar derde graad - 10 -

Page 12: Statistiek 2014 - 2015 Oplossingen

Om representatief te zijn moet er ten minste aan volgende eis voldaan worden

elk element uit de populatie moet evenveel kans hebben om in de steekproef voor te komen

Gebeurt dit niet, dan zullen de resultaten van een verder wiskundig - statistisch onderzoek, hoe

nauwkeurig ook uitgevoerd, weinig betrouwbaar zijn. Een foute steekproef levert onbetrouwbare

gegevens, hoe groot deze ook is, waarmee je geen veralgemeende uitspraken kan doen naar de

hele populatie. Geregeld blijken onderzoeken waardeloos omdat de ingezamelde gegevens

waardeloos zijn.

Statistici hebben een gezegde : “ Rommel erin = rommel eruit”

Oefening : zijn onderstaande steekproeven representatief

1) Voor een jeugdcentrum is het aantal kinderen per gezin in de

omliggende dorpen een belangrijk gegeven. Om hierover

informatie te krijgen wordt aan een aantal willekeurig gekozen

bezoekers van het jeugdcentrum gevraagd hoeveel kinderen er

bij hen in het gezin zijn. Het resultaat was dat er in de

omliggende dorpen gemiddeld 2,4 kinderen per gezin zouden

zijn.

Geef de onderzoeksvraag

Hoeveel kinderen zijn er in een gezin in de omliggende dorpen van het jeugdcentrum?

Wat is er onduidelijk in deze onderzoeksvraag? Omschrijven wat omliggend is / wat met

samengestelde gezinnen?

Beschrijf de populatie

De gezinnen in de omliggende dorpen van het jeugdcentrum.

Is deze steekproef representatief? verklaar

De steekproef is genomen in een jeugdcentrum, kinderloze gezinnen bereikt men dus zeker

niet. Een ander probleem is dat gezinnen met hele jonge kinderen ook niet vertegenwoordigd

zijn.

Statistiek – tweede jaar derde graad - 11 -

Page 13: Statistiek 2014 - 2015 Oplossingen

2) Een meelfabrikant wenst te weten hoeveel procent van de

Brusselaars hun eigen brood bakken. Hij huurt daarvoor een

aantal interviewers in, die willekeurig adressen bezoeken tijdens

de normale werkuren, tot ze samen 1500 gegevens hebben.

Geef de onderzoeksvraag

Hoeveel % van de Brusselaars bakt zijn eigen brood?

Is deze steekproef representatief? Verklaar

De mensen die tijdens de normale werkuren buitenshuis werken hebben geen kans om in de

steekproef te belanden. Men krijgt zo een ondervertegenwoordiging van deze mensen en zij

bakken misschien minder snel hun eigen brood dan anderen.

De omvang is 1500

3) Hier zie je vier manieren om een steekproef samen te stellen

A. Voor een onderzoek naar de service van de NS in de treinen ga je mensen enquêteren. Je kiest

voor de uit/ingang van een treinstation en bevraagt vanaf 7:00 uur elk uur van de dag 10

willekeurige reizigers.

B. Voor een onderzoek naar het rijgedrag van vrachtautochauffeurs ga je mensen enquêteren. Je

kiest voor de uit/ingang van een treinstation en bevraagt vanaf 7:00 uur elk uur van de dag 10

willekeurige reizigers.

C. Voor een onderzoek naar het rookgedrag van ouders van leerlingen van jullie school,

ondervraag je de eerste 50 binnenkomende ouders op een ouderavond.

D. Voor een onderzoek naar het rookgedrag onder ouders van leerlingen van jullie school,

selecteer je door loting 50 leerlingen van jullie school en ondervraag je weer na loting de vader of

de moeder van elk van de 50 leerlingen.

Steekproeven B en C zijn niet representatief omdat

Steekproef B is niet representatief maar wel aselect. Je spreekt waarschijnlijk relatief weinig

automobilisten. De mening van automobilisten is mogelijk sterk afwijkend van die van de

treinreizigers ten aan zien van de onderzoeksvraag.

Steekproef C is niet aselect, bijvoorbeeld ouders die tot laat werken zullen waarschijnlijk niet

vroeg op de ouderavond kunnen zijn en hebben dus en kleinere kans om in de steekproef te

komen. Ouders die niet naar het oudercontact komen hebben helemaal geen kans.

.

Statistiek – tweede jaar derde graad - 12 -

Page 14: Statistiek 2014 - 2015 Oplossingen

4) De gegevens over de werkloosheidsgraad zijn van groot belang voor economisten, zakenlui en

sociologen. Deze gegevens verstrekken immers informatie over het sociaal en economisch welzijn

van onze staat. Elke week worden 900 Belgische huishoudens willekeurig uitgeloot en geïnterviewd

door het NIS. Na een interval van 3 maanden worden de geïnterviewde huishoudens opnieuw kort

ondervraagd. Op basis van deze gegevens en volgens de definities van het Internationaal

Arbeidsbureau wordt de bevolking ingedeeld in 3 groepen ( werkenden, werklozen en niet-actieve

personen).

Beschrijf de populatie Belgische huishoudens

Is deze steekproef representatief? verklaar

Door het elke week willekeurig uitloten van 900 huishoudens is de steekproef representatief

voor de totale Belgische huishoudens.

Een steekproef moet ook voldoende groot.

Hoe groot de steekproef moet zijn om

betrouwbaar te zijn kan vooraf bepaald worden.

Een factor die de grootte van een steekproef

bepaalt, is hoe betrouwbaar je de

steekproefresultaten wil hebben en met welke

nauwkeurigheid. Zo kan je bijvoorbeeld een

resultaat wensen dat 95% betrouwbaar is met

een foutenmarge van 3%.

Met deze gegevens kan je dan via ingewikkelde formules de steekproefgrootte bepalen maar dit is

een vak apart.

ONTHOUD : een steekproef zal nooit een 100% nauwkeurig resultaat geven en meerdere

steekproeven zullen telkens een verschillend resultaat opleveren. De nauwkeurigheid van een

steekproef wordt de foutmarge genoemd. De foutenmarge heeft niets te maken met echte fouten.

Het is een maat voor de maximale toevallige afwijking van de resultaten. Zodra je niet de ganse

populatie onderzoekt, krijg je hiermee te maken, ook al is je onderzoek perfect uitgevoerd.

Statistiek – tweede jaar derde graad - 13 -

Page 15: Statistiek 2014 - 2015 Oplossingen

Een artikel met de vermelding van de foutenmarge vindt men niet vaak maar hieronder is er één

Bijna helft van Vlamingen kiest Vlaams volgens nieuwe peiling

22/02/13, 17u48  − Bron: belga.be

Volgens de laatste peiling naar het kiesgedrag bevestigt de N-VA zijn

monsterscore. Indien ook de stemmen van het Vlaams Belang geteld

worden, kiest momenteel 45,8 procent van de Vlamingen voor een

Vlaams-nationalistische partij.

In Vlaanderen blijft de N-VA groeien. In de peiling van La Libre groeit de partij nog eens 3,6

procent in vergelijking met november tot 39 procent. De peiling werd tussen 13 en 18 februari

afgenomen bij een representatief staal van 2.706 Belgische kiezers. In Vlaanderen ging het

om 903 keizers waarvan er 709 hebben geantwoord. Er wordt uitgegaan van een foutenmarge

van 3,3%.

* Deze foutenmarge betekent dat 45,8% kan schommelen tussen ………………………………….

Statistiek – tweede jaar derde graad - 14 -

Page 16: Statistiek 2014 - 2015 Oplossingen

C. Steekproefmethoden

Er zijn verschillende manieren om een steekproef te trekken. Allen zijn goed, maar in de ene

situatie is de ene manier beter dan de andere.

ONTHOUD : bij steekproeven is het zo dat je beter een kleine representatieve steekproef kunt

hebben dan een grote niet representatieve.

1° ASELECTE STEEKPROEVEN

Het onbedoeld bevoordelen of juist uitsluiten van bepaalde groepen wordt onzuiverheid genoemd,

met een Engelse term bias. De sleutel bij het samenstellen van een goede steekproef is

WILLEKEUR : alle elementen uit de populatie moeten dezelfde kans hebben om in de steekproef

te worden opgenomen. Op deze manier bekomen we een representatieve steekproef en kunnen

we de resultaten bekomen via de steekproef veralgemenen naar de populatie rekening houdend

met het vooraf bepaald betrouwbaarheidspercentage. Een aselecte steekproef laat ook toe de

foutenmarge te berekenen voor het bekomen resultaat.

1 - enkelvoudige aselecte steekproef of kortweg EAS

De grote moeilijkheidsgraad van deze methode is dat men moet

beschikken over een lijst van de elementen in de populatie. Dit wordt

vergemakkelijkt als er een elektronische database (bv.

consumentenpanel) aanwezig is.  Zo niet kan dit een erg kostelijke en

tijdrovende aangelegenheid worden. Uit die lijst trekt men dan lukraak een aantal elementen.

MAAR : hoe trek je het beste lukraak? Je moet zoveel mogelijk “het menselijk handelen“

uitsluiten want hoe weet je of kaartjes even groot of dik zijn of hoe weet je hoeveel keer je moet

schudden om echt goed te mengen?

In de praktijk kent men aan alle elementen van de populatie een nummer toe en men laat de

computer dan random getallen genereren. De steekproef wordt dan gevormd door de elementen

die overeenstemmen met de uitgelote nummers.

2 - gestratifieerde steekproef

Deze steekproef gebruikt men als men weet dat de populatie uiteenvalt in verschillende

subgroepen die zich op een duidelijke manier onderscheiden tot het te onderzoeken kenmerk. Zo

zullen stadsbewoners bijvoorbeeld heel anders gaan antwoorden op bepaalde vragen dan mensen

van het platteland. De basis voor het vormen van strata kunnen bijvoorbeeld ook nog zijn :

afdeling, locatie, leeftijd, geslacht, onderwijsniveau ...

Men gaat dus de populatie in een aantal elkaar niet-overlappende strata indelen. Vervolgens

wordt uit elke strata op lukrake wijze een steekproef getrokken.

Het opdelen in verschillende strata geeft dan als voordeel dat je de verschillende subpopulaties

met elkaar kan vergelijken. De beste resultaten bereikt men als de elementen in een stratum

zoveel mogelijk op mekaar gelijken.

Statistiek – tweede jaar derde graad - 15 -

Page 17: Statistiek 2014 - 2015 Oplossingen

Voorbeeld

Honderd moeders hebben een reis gewonnen en mogen hun kinderen tussen 9 en 11 jaar gratis

meenemen naar Disneyland. Voor de heen en terugreis wordt een chartervliegtuig ingehuurd en de

organisator wil een benaderend idee hebben van de massa van de totale groep. Er zijn 100

moeders en 250 kinderen. Er is een groot verschil in massa tussen een groep volwassen vrouwen

en een groep kinderen. Daarom verdeel je de populatie in 2 tamelijk homogene subgroepen = 2

strata, namelijk de moeders en de kinderen. In elke subgroep trek je dan een EAS en je houdt

hierbij rekening met de relatieve grootte van de groep waaruit je trekt. Als je in totaal een steekproef

van grootte 35 wil hebben, dan zal je 10 moeders en 25 kinderen nemen

Een gestratifieerde steekproef geeft dikwijls meer precieze resultaten dan een EAS. Bij een EAS is

het mogelijk dat je 35 kinderen (of 35 moeders) in je steekproef hebt. De gestratifieerde

steekproefmethode beschermt je tegen zo’n situatie. Maar niets komt zo maar gratis. Om gebruik te

kunnen maken van een goede stratificatie moet je vooraf reeds goede informatie hebben over

karakteristieken van je populatie en over de manier waarop die karakteristieken je opmetingen

kunnen beïnvloeden. Als je iets wil weten over het gewicht dan weet je vooraf dat er een groot

verschil is tussen kinderen en volwassenen. Stratifiëren op basis van blond of donker haar zou hier

waarschijnlijk totaal verloren moeite zijn.

3 - systematische steekproef

Bij deze methode wordt de gehele populatie op een systematische wijze doorlopen. Het volgende

voorbeeld geeft eenvoudig weer hoe een systematische steekproef op praktische wijze kan

worden toegepast.

Voorbeeld

Je hebt een bestand van 7500 adressen en daaruit dient een steekproef van 150 adressen

getrokken te worden. Een eenvoudige berekening (7500/150) leert ons dat er op elke 50 adressen

één adres getrokken dient te worden. Vervolgens wordt nu eenmalig aselect een toevalscijfer

getrokken onder de 50. Stel dat dit toevalscijfer 3 is, dan worden vervolgens het 3e, 53e, 103e,

153e enzovoort adres in de steekproef opgenomen.

2° SELECTE STEEKPROEVEN

Alle elementen uit de populatie hebben niet dezelfde kans om in de steekproef te belanden. Dus

of een element in de steekproef terechtkomt, is afhankelijk van een persoonlijke beoordeling van

een onderzoeker.

Bij een selecte steekproef kent men de kans niet dat elk lid van de populatie heeft om in de

steekproef terecht te komen, met als gevolg dat de resultaten enkel gelden voor de onderzochte

groep, en niet zomaar veralgemeend kunnen worden naar de populatie.

Statistiek – tweede jaar derde graad - 16 -

Page 18: Statistiek 2014 - 2015 Oplossingen

1 - gemakshalve steekproef

Je neemt de elementen waar je het makkelijkst bij kan komen, of die je zonder veel extra inspanning

toevallig tegenkomt.

Voorbeelden

Je wil weten of de leerlingen van je school vinden dat roken ongezond is en daarom vraag je dat

gewoon aan je vrienden op school.

Om te weten of de mensen tevreden zijn over de kwaliteit van de aangeboden producten stelt een

verantwoordelijke van de supermarkt op zaterdagvoormiddag die vraag aan de eerste 250 klanten die

komen winkelen.

2 - Vrijwillige steekproef

Een grote groep mensen wordt uitgenodigd om te antwoorden. Al wie antwoord belandt in de

steekproef.

Voorbeeld

Een televisiestation vraagt aan de kijkers van dat moment telefonisch om hun mening over een

bepaald probleem te geven. Op het einde van de uitzending geven ze de percentages ja - en neen –

antwoorden.

Een steekproef op basis van vrijwillige reactie is geen goede methode voor statistisch onderzoek. Je

hebt geen enkel zicht op de manier waarop de steekproef tot jou komt en dikwijls kan je zelfs geen

nauwkeurige beschrijving geven van de populatie waaruit deze steekproef komt. Er treden allerlei

soorten vertekening op. Mensen die kwaad zijn reageren sneller dan mensen die tevreden zijn.

Mensen met een uitgesproken mening zullen sneller een radioprogramma opbellen dan anderen. Op

een internetenquête kan eenzelfde persoon 10 keer antwoorden, als hij tenminste internetverbinding

heeft en de juiste website kan vinden.

Laat je niet verleiden om onderzoeken met grote steekproefomvang eerder te

vertrouwen dan onderzoeken met kleinere steekproefomvang.

Veel belangrijker is de manier waarop een steekproef ontstaan is.

Een kleinere aselecte steekproef is altijd beter dan een grote selecte steekproef.

Statistiek – tweede jaar derde graad - 17 -

Page 19: Statistiek 2014 - 2015 Oplossingen

Oefening : Wat voor steekproefmethode werd hier gebruik? Indien het gaat over strata, vermeld dan ook waaruit deze bestaan.

1) Tijdens een alcoholcampagne in het weekend wordt op vrijdagnacht, zaterdagnacht en

zondagnacht tussen 0u en 3u elke vijfde chauffeur van de wagen die de stadskern van Vilvoorde

verlaat aan een alcoholtest onderworpen om het aantal promillengehalte te meten.

Over welke steekproef gaat het hier? aselect - systematische steekproef

2) In een school met 600 wil men de mening kennen van de leerlingen over het schoolreglement.

De directeur stelt voor om uit elke graad twintig leerlingen te bevragen.

Over welke steekproef gaat het hier? aselect - gestratifieerde steekproef volgens de 3 graden

3) Jelle van de leerlingenraad wil iets doen aan de overvolle boekentassen die leerlingen van de

tweede graad elke dag moeten dragen. Hij wil de massa van de boekentassen van een groot

aantal leerlingen bepalen om de directie te overtuigen dat men dit probleem moet oplossen.

Er zitten 320 leerlingen in de tweede graad en hij besluit om een 100-tal boekentassen te wegen.

a) Wat moet Jelle doen om een gestratifieerde steekproef te bekomen?

Strata = de studierichtingen en uit elke studierichting selecteert hij willekeurig een aantal

leerlingen waarvan hij de boekentassen weegt.

b) Wat moet Jelle doen om een gemakshalve steekproef te bekomen?

Hij gaat aan de schoolpoort staan en weegt de boekentassen van de eerste 100 leerlingen die

binnenkomen.

4) Een marktonderzoeksbureau trekt een steekproef van de Belgacom telefoonlijst door het

random selecteren van 10 personen waarvan de familienaam begint met een A, dan 10 personen

waarvan de familienaam begint met een B, en zo voor elke letter van het alphabet. In totaal

worden er dus 260 personen getrokken.

aselect - systematische steekproef naar beginletter van de familienaam.

Statistiek – tweede jaar derde graad - 18 -

Page 20: Statistiek 2014 - 2015 Oplossingen

5) Historische blunder op basis van de verkeerde steekproef :

Tijdens de verkiezingscampagnes van Roosevelt en tegenstander Landon in 1936 deed het

tijdschrift ‘the literary Digest’ een poging om de uitslag van de verkiezingen te voorspellen. Hiertoe

stuurden ze 10 miljoen formulieren naar de autobezitters en kregen er 2,4 miljoen terug. Een grote

telefonische enquête op basis van de telefoongids moest het onderzoek verder aanvullen.

De voorspelling dat 57% van de stemmen naar Landon zouden gaan en 43% naar Roosevelt was

compleet verkeerd, zoals de geschiedenis ons leert.

Wat zou de reden geweest zijn van hun falen?

De mensen die in 1936 telefoon en/of een auto bezaten, behoorden tot de meest gegoede

klassen. Er werd dus totaal geen rekening gehouden met de ‘lagere’ klassen van de

bevolking, die wellicht eerder democratisch = Roosevelt zouden stemmen.

U.S. President Franklin D. Roosevelt, waving, and first lady Eleanor Roosevelt, center, stand with members of their family

and supporters at Franklin Field in Philadelphia, Pa., where more than 100,000 persons heard the president's acceptance

speech, June 27, 1936. Roosevelt beat Alf Landon 523 to 8 in the electoral vote and 61 percent to 37 percent in the

popular vote in what was definitely a landslide. With the president, from left, are, Gov. George H. Earle of Pennsylvania,

smiling; Sara Roosevelt, his mother, in partial view; Franklin Jr.; Eleanor; Anne Roosevelt Boettiger and John Boettiger,

daughter and son-in-law; Vice President John Nance Garner; Mrs. James Roosevelt; and John Roosevelt, son. (AP

Photo.)

Statistiek – tweede jaar derde graad - 19 -

Page 21: Statistiek 2014 - 2015 Oplossingen

4. Het verzamelen van de gegevens

Een kenmerk van een element noemen we een veranderlijke of een variabele

De waarden van de veranderlijke zijn de gegevens of de data

De gegevens worden verzameld door metingen, tellingen, experimenten, …

Heel dikwijls maakt men gebruik van vragenlijsten om gegevens te verzamelen. In dit geval spreken

we van enquêtes. De personen die de vragenlijst beantwoorden zijn de respondenten.

Invloed van de vraagstelling bij enquêtes

Het resultaat van een enquête wordt ontzettend beïnvloed door de

vraagstelling.

Bij een enquête mogen de vragen niet suggestief zijn, men moet er steeds

voor zorgen dat je ze zo neutraal mogelijk maakt.

Ze moeten ook eenvoudig gesteld zijn en niet naar twee of meer dingen

tegelijk informeren.

Oefening – verbeter volgende vragen

1) Is Phillips het beste merk van TV – toestellen?

Wat is volgens u het beste merk van TV toestellen?

2) Ben je van oordeel dat bonenkoffie lekkerder en voordeliger is dan gemalen koffie?

Is bonenkoffie lekkerder dan gemalen koffie?

Is bonenkoffie voordeliger dan gemalen koffie?

3) Vind je ook dat politici teveel op televisie komen in spelprogramma’s?.

Vindt u dat politiekers meedere keren op televisie mogen komen in spelprogramma’s?

4) Stimuleren sociale uitkeringen jongeren om te gaan werken en moet de overheid voor een baan zorgen?

Zijn sociale uitkeringen voor jongeren een rem om gaan te werken?

Moet de overheid jongeren aan een baan helpen?

Statistiek – tweede jaar derde graad - 20 -

Page 22: Statistiek 2014 - 2015 Oplossingen

5) Ben je het eens dat de leerlingenraad zeggingschap moet krijgen in de planning van de

examenregeling?

Moet de leerlingenraad zeggingschap krijgen in de planning van de examenregeling?

De manier waarop je een vraag stelt kan ook bepalend zijn voor de uitslag

Voorbeeld 1

Leerlingen van een college kregen twee verschillende versies van een enquêtes.

De twee versies leverden een duidelijk verschil in antwoord op door de vragen anders te formuleren.

Voorbeeld 2

Uit “A. Tversky and D. Kahneman: The framing of decisions and the Psychology of Choice, Science, vol. 211, 30 january 1981”

Veronderstel dat de Verenigde Staten zich voorbereiden op het uitbreken van een zeldzame

Aziatische ziekte. Er wordt verwacht dat er 600 mensen zullen sterven aan de ziekte.

Een eerste groep van respondenten kreeg volgende twee alternatieve programma’s voorgesteld

1) Als men kiest voor programma A, dan zullen 200 mensen gered worden.

2) Als men kiest voor programma B, dan is er 1/3 kans dat 600 mensen zullen gered worden,

en 2/3 kans dat niemand zal gered worden.

Na rondvraag bleek : ……………………………………………..………………………………….

Een tweede groep van respondenten kreeg hetzelfde probleem voorgeschoteld, maar met een

andere formulering van de twee alternatieve programma’s

1) Als men kiest voor programma C, dan zullen 400 mensen sterven.

2) Als men kiest voor programma D, dan is er 1/3 kans dat niemand zal sterven,

en 2/3 kans dat de 600 personen zullen sterven.

Na rondvraag bleek : ……………………………………………..………………………………….

Wat is het verschil tussen deze twee groepen?

Bij A en B bekijkt men het vanuit het redden en bij C en D vanuit het sterven.

Besluit : let zeer goed op de vraagstelling bij enquêtes.

Statistiek – tweede jaar derde graad - 21 -

Page 23: Statistiek 2014 - 2015 Oplossingen

Het probleem van de non-respons

Het aantal mensen dat antwoordt op een enquête noemen we de respons.

Het aantal mensen dat wél gevraagd wordt aan het onderzoek deel te nemen, maar weigeren,

noemen we de non-respons.

De respons en de non-respons worden meestal uitgedrukt in procenten en deze waarde zou je

altijd moeten kennen.

1) Als het niet willen of kunnen meedoen aan een enquête op toeval zou berusten, dus willekeurig

verdeeld zou zijn over alle steekproefelementen, dan heeft deze non-respons alleen tot gevolg dat

de nauwkeurigheid van de resultaten afneemt, omdat de steekproefomvang kleiner geworden is.

2) Als de non-respons echter niet willekeurig verdeeld is kan je analyse verkeerde resultaten

opleveren. Non-respons kan de waarde van een onderzoek dus in belangrijke mate verminderen of

zelfs geheel teniet doen.

Daarom moet men ervoor zorgen de non-respons zo klein mogelijk te houden.

Hieronder staan een aantal voorbeelden van instructies die interviewers krijgen om het aantal

respondenten te verhogen.

a) Herhaaldelijk benaderen

Wanneer iemand niet thuis is op het moment dat hij wordt benaderd voor een enquête, moet je niet

direct opgeven en maar naar de buren stappen. Je kan beter op een ander tijdstip opnieuw

proberen om de respondent te pakken te krijgen, zo worden mensen die voor hun werk vaak van

huis zijn, niet systematisch uitgesloten.

b) Aankondigen

Wie weet wanneer er een onderzoek wordt gehouden, is voorbereid en vertrouwt het eerder.

Daarom is het handig om een onderzoek aan te kondigen door middel van een brief of een bericht

in de plaatselijke pers.

c) Betrouwbare mensen of instanties inschakelen

Als zo een aankondiging ondertekend is door een betrouwbare persoon zoals een huisarts, de

burgemeester,... kan dit de respons helpen verhogen.

Soms is het mogelijk om op nog directere wijze een persoon in te schakelen.

Zo kan bijvoorbeeld de directeur van een school de enquête uitdelen onder de leerlingen en de

leerkrachten.

d) Het de respondent gemakkelijk maken

Je moet zoveel mogelijk drempels wegnemen voor de respondent.

1° Heeft hij weinig tijd, maak dan een afspraak voor een geschikter moment.

2° Het spreekt voor zich dat iemand een vragenlijst eerder zal terugsturen indien de kosten

betaald worden door de onderzoekende instantie, in plaats van door de respondent zelf.

Daarom kan je bijvoorbeeld een postzegel op een bijhorende enveloppe plakken = dure methode

Statistiek – tweede jaar derde graad - 22 -

Page 24: Statistiek 2014 - 2015 Oplossingen

Oefening : lotto- winnaars

Wie fantaseert er wel eens over wat hij/zij zou doen indien hij/zij de lotto wint. De ene zou een

wereldreis maken, de ander zou stoppen met werken en van het geld rentenieren.

In 1985 publiceerde de 'Journal of the Institute for Socioeconomic Studies' een studie over lotto-

winnaars. Meer bepaald ging men in deze studie na hoeveel procent van de lotto- winnaars stopte

met werken binnen het jaar als men de grote prijzenpot won. Alle 2.000 lotto- winnaars die over een

periode van 10 jaar (1976-1985) meer dan 50.000 $ wonnen, kregen een vragenlijst toegestuurd.

Van de 576 vragenlijst die terug werden gezonden, had 11% hun job opgegeven.

1) Beschrijf de populatie

Alle lotto- winnaars die tijdens de periode 1976 tot 1985 meer dan 50.000 $ wonnen.

2) Beschrijf de steekproef

De lotto- winnaars die tijdens de periode 1976 tot 1985 meer dan 50.000 $ wonnen en die hun

vragenlijst ingevuld terugstuurden.

3) Deze steekproef is een select vrijwillige steekproef en is ontstaan door

Vul één van de 5 soorten in

de vragenlijsten per post op te sturen naar de 2.000 lotto- winnaars die ze ingevuld moesten

terugzenden.

4) Is de steekproef representatief voor de populatie ? nee

Dit is een steekproef op vrijwillige basis en dus select en niet representatief want waarom

antwoordden de anderen niet : waren ze op wereldreis en dus gestopt met werken of waren

ze te druk bezig met het rentenieren? …

5) Wat is de omvang? 576

6) Het responspercentage is gelijk aan 576 / 2000 * 100 = 28,8%

Statistiek – tweede jaar derde graad - 23 -

Page 25: Statistiek 2014 - 2015 Oplossingen

4. Soorten veranderlijken

KWALITATIEVE veranderlijken

Beschrijven eigenschappen op een manier waarbij “wiskundige bewerkingen” niet zinvol toe te passen zijn.

KWANTITATIEVE veranderlijken

Laten zich altijd uitdrukken in getallen op een manier waarbij “wiskundige bewerkingen” zinvol zijn. Ze zijn meestal de uitkomst van een meting of een telling.

NOMINAAL

GEEN rangorde

bv de bloedgroep

ORDINAAL

WEL een rangorde

bv het spreektempo

te snel – snel – traag –

te traag

CONTINU

als de waarden alle reële getallen kunnen

aannemen in een bepaald interval

bv de lengte van een

persoon

DISCREET

als de waarden enkel een aantal vaste

numerieke getallen kunnen zijn

bv het aantal

kinderen in een gezin

Als je continue gegevens opschrijft, dan moet je altijd ergens afronden. Het lijkt er dan op dat

tussen de verschillende waarden ook tussenstappen zitten maar dat komt omdat zij het resultaat

zijn van afronding.

Voorbeeld : de massa van een stukje metaal 12,4 ; 12,5 ; 12,6 ; …

12,4 betekent dat de massa schommelde tussen 12,35 en 12,45

12,5 betekent dat de massa schommelde tussen 12,45 en 12,55

Deze laatste getallen noemt men de onder- en bovengrenzen. Hun correctiewaarde = 0,05

- De diameter van een stalen as : 27,25 mm

ondergrens : 27,245 bovengrens : 27,255 correctiewaarde = 0,005

- De lengte van een persoon : 175,4 cm

ondergrens : 175,35 cm bovengrens : 175,45 cm correctiewaarde = 0,05 cm

- De massa van een olifant afgerond op 100kg : 4000 kg

ondergrens : 3950 kg bovengrens : 4050 kg correctiewaarde = 50 kg

- De massa van een baby afgerond op de gram : 3250 gram

ondergrens : 3249,5 gram bovengrens : 3250,5 gram correctiewaarde = 0,5 gram

Statistiek – tweede jaar derde graad - 24 -

Page 26: Statistiek 2014 - 2015 Oplossingen

Oefening 1 : via een enquête die ingevuld werd door de leerlingen van de! kunsthumaniora die op

maandag 7 september aanwezig waren, is een dataset ontstaan met een aantal gegevens.

Hieronder staat een heel klein deel van de dataset

leeftijd geslacht graad richting lengte BMI rookgedragbegin

rookgedrag18 vrouw 3 Beeldend 156 20,9 ja 1316 man 2 dans 178 21,2 gestopt 14

.

1° Er zijn 15 veranderlijken bevraagd.

2° De elementen zijn de leerlingen van de kunsthumaniora

3° Tot welke soort behoort elke veranderlijke? (opgelet : je moet telkens 2 kenmerken geven)

leeftijd : Discreet / continu kwantitatief (in dit geval eerder discreet)

geslacht : Nominaal kwalitatief

graad : Ordinaal kwalitatief

richting : Nominaal kwalitatief

lengte : Continue kwantitatief

BMI : Continue kwantitatief

rookgedrag : Nominaal kwalitatief

begin rookgedrag : Discreet / continu kwantitatief

intensiteit rookgedrag : Ordinaal kwalitatief

geld rookgedrag : Discreet kwantitatief

toestemming ouders : Nominaal kwalitatief

ontbijtgedrag : Ordinaal kwalitatief

junkfood : Discreet kwantitatief

sport : nominaal kwalitatief

fruit : Ordinaal kwalitatief

Statistiek – tweede jaar derde graad - 25 -

intensiteit roken geld roken

toestemming ouders ontbijtgedrag junkfood sport fruit

dagelijks 35,00 nee soms 3 nee regelmatigsoms 12,00 ja altijd 1 ja dagelijks

Page 27: Statistiek 2014 - 2015 Oplossingen

4° Is de veranderlijke continu, geef dan van de eerste waarde in de tabel de grenzen en de

correctiewaarde

Leeftijd 18 O : 17,5 B : 18,5 correctiewaarde : 0,5

Lengte 156 O : 155,5 B : 156,5 correctiewaarde : 0,5

BMI 20,9 O : 20,85 B : 20,95 correctiewaarde : 0,05

5° Beschrijf de populatie

alle leerlingen van de kunsthumaniora

6° Beschrijf de steekproef

De leerlingen van de kunsthumaniora die de enquête hebben ingevuld

Oefening 2 :

Klasse voor ouders, Nr70 (1996), p28 – 29)

De boekentassen zijn te zwaar

Zestig procent van onze veertienjarigen heeft rugklachten. Tachtig tot negentig procent van

de Vlaamse leerlingen sleurt elke dag een boekentas mee die veel te zwaar is. Ze weegt méér

dan tien procent van hun eigen lichaamsgewicht. In Oostenrijk zouden ze daar een rode

kaart voor krijgen. Wetenschappelijk onderzoek toont aan dat zestig procent van onze

veertienjarigen rugklachten heeft. De zware boekentas zit daar zeker voor iets tussen.

Gealarmeerd door verschillende signalen trok de redactie van KLASSE VOOR OUDERS in maart

1996 met een weegschaal naar de schoolpoorten. Meer dan tweehonderd leerlingen van

verschillende Vlaamse scholen gingen erop staan, met en zonder boekentas. Het gewicht van de

boekentas werd dan bepaald door deze 2 gewichten van elkaar af te trekken. Het verschil was

groot.

Er is geen vaste norm, maar algemeen wordt aangenomen dat een kind niet meer dan tien procent

van zijn eigen lichaamsgewicht mag meezeulen. In Oostenrijk is dat bijvoorbeeld ook een verplichte

norm. Daar stond de inspectie bij het begin van dit schooljaar aan de poort. Scholieren met een te

zware boekentas kregen een rode kaart. De Oostenrijkse minister van Onderwijs ging tot deze actie

over na verontrustende cijfers waaruit bleek dat dertig procent van de twaalfjarigen een slechte

houding had ontwikkeld door overbelasting van de rug.

Statistiek – tweede jaar derde graad - 26 -

Page 28: Statistiek 2014 - 2015 Oplossingen

En hoe zit het in Vlaanderen?

In de lagere school is tachtig procent van de boekentassen te zwaar, in het secundair onderwijs

negentig procent. Meer dan één op de tien Vlaamse scholieren draagt zelfs een boekentas die

twee keer te zwaar is: twintig procent van zijn eigen lichaamsgewicht. Dit zijn gemiddelden. Wij

kwamen in elk leerjaar kinderen tegen die meer dan één vierde van hun gewicht meesleepten.

Het zwaartepunt ligt duidelijk in het eerste jaar secundair onderwijs. Daar bedraagt het gemiddeld

gewicht van de boekentas (8 kg) achttien procent van het eigen gewicht (44 kg). Deze kinderen zijn

dus bijna allemaal twee keer te zwaar beladen.

In de lagere school stijgt het gewicht van de boekentas elk jaar lichtjes en blijft het vier leerjaren

lang aanvaardbaar zweven rond de elf procent van het lichaamsgewicht. In het vijfde leerjaar

merken we een plotse sprong en in het zesde leerjaar weegt de gemiddelde boekentas al zes en

een halve kilo (bijna zestien procent van het lichaamsgewicht).

In het secundair onderwijs wordt de boekentas merkwaardig genoeg niet elk leerjaar zwaarder.

Zowel in het eerste als het in het zesde jaar weegt ze er gemiddeld zo'n acht kilo. Uiteraard worden

de leerlingen zelf wel zwaarder, zodat de verhouding in hun voordeel zakt. Duidelijk overbelast zijn

het eerste en tweede jaar (18 % en 16 %). Daarna daalt het cijfer per leerjaar zodat de laatstejaars

in verhouding eigenlijk de lichtste boekentas hebben. Al hebben we ook daar ettelijke boekentassen

van meer dan tien kilo gewogen.

Statistiek – tweede jaar derde graad - 27 -

Page 29: Statistiek 2014 - 2015 Oplossingen

Beschrijf de populatie

Vlaamse leerlingen van 7 jaar tem 17 jaar met een boekentas.

Beschrijf de steekproef geef de omvang?

Vlaamse leerlingen van 7 jaar tem 17 jaar met een boekentas die men gewogen heeft.

Je kan enkel een veralgemeend onderzoeksresultaat vertrouwen als je een antwoord kan vinden

op onderstaande vragen, anders mist het aan betrouwbaarheid.

1° Waar / wanneer is dit onderzoek uitgevoerd?

In Vlaanderen op 1 maart 1996

2° Wat zijn de elementen?

Vlaamse leerlingen van 7 jaar tem 17 jaar met hun boekentas.

3° Geef de onderzochte veranderlijken?

De massa van de boekentas en de leerling

4° Tot welke soort behoren deze veranderlijken? Kwantitatief continu

5° Hoe is de steekproef ontstaan?

De redactie van klassen trok met de weegschaal naar de schoolpoorten van verschillende

Vlaamse scholen waar meer dan 200 leerlingen op de weegschaal gingen staan met en zonder

boekentas.

6° De omvang meer dan 200

7° Hoe komt het dat de resultaten van dit onderzoek aan betrouwbaarheid verliezen?

Men weet de omvang niet correct, meer dan 200 maar hoeveel zijn er dit dan.

Men kent ook de verhouding van de leeftijden binnen de onderzochte groep leerlingen niet.

Van verschillende scholen, maar over heel Vlaanderen en in welke verhouding?

Statistiek – tweede jaar derde graad - 28 -

Page 30: Statistiek 2014 - 2015 Oplossingen

Oefening 3 : werkloosheidsgraad

De gegevens over de werkloosheidsgraad zijn van groot belang voor economisten, zakenlui en

sociologen. Deze gegevens verstrekken immers informatie over het sociaal en economisch welzijn

van onze staat. Sinds januari 1999 veranderde het Nationaal Instituut voor Statistiek (zie website

NIS) hun enquête naar de arbeidskrachten. In vergelijking met vroeger is hun evaluatie permanent

geworden (vroeger enkel in het voorjaar) en door toepassing van internationale criteria (dezelfde

definities omtrent werkgelegenheid, werkloosheid en inactiviteit) ook vergelijkbaar met andere

Europese landen.

Elke week worden 900 Belgische huishoudens willekeurig uitgeloot en geïnterviewd door het NIS.

Na een interval van 3 maanden worden de geïnterviewde huishoudens opnieuw kort ondervraagd.

Op basis van deze gegevens en volgens de definities van het Internationaal Arbeidsbureau wordt

de bevolking ingedeeld in 3 groepen (werkenden, werklozen en niet-actieve personen).

1) Wat is de populatie?

Belgische huishoudens

2) De onderzochte veranderlijke is de werkstatus (werkend, werkloos (en op zoek naar werk), in-

actief (vb. student))

3) Tot welk soort behoort deze veranderlijke? Nominaal kwalitatief

Statistiek – tweede jaar derde graad - 29 -

Page 31: Statistiek 2014 - 2015 Oplossingen

6. Algemeen besluit

Statistiek is de wetenschap die zich bezighoudt met het verzamelen, verwerken, voorstellen,

analyseren en interpreteren van gegevens, om op basis van de aldus ingewonnen informatie

beslissingen te treffen en voorspellingen te maken.

Als we slechts een deel van de populatie bevragen over een kenmerk waarvoor we op

populatieniveau geen informatie hebben, kunnen we dan wel een uitspraak doen over de hele

populatie? Is het mogelijk om een groep Belgische vrouwen te bevragen over aspecten van hun

arbeidssituatie en daaruit conclusies te trekken voor alle Belgische vrouwen?

Een antwoord vinden we in de inductieve of verklarende statistiek. Deze tak van de statistiek

heeft als doel resultaten te formuleren voor de volledige populatie op basis van de resultaten uit

de steekproef. Veralgemening van steekproefresultaten staat hierbij centraal. We gebruiken het

resultaat van de steekproef om een schatting te maken voor de populatie. Het spreekt voor zich

dat de inductieve statistiek geen absolute waarheid verkondigt, maar een kans berekent om

voorspellingen af te leiden voor de populatie. Het is best mogelijk dat er fouten of

onvolkomenheden in de voorspelling zijn geslopen. We spreken dan over de foutenmarge van de

inductie. Met andere woorden, inductieve technieken trachten conclusies te trekken op niveau

van de populatie op basis van verzamelde steekproefgegevens, mits een zekere foutenmarge.

We vertrekken dus van een steekproefkenmerk om iets te kunnen vertellen over een onbekend

kenmerk uit de populatie. Daarbij gaan we ervan uit dat we over de waarde van die

populatieparameter nooit 100% zekerheid hebben. Meestal trachten we wel met een zekerheid

van 95% of meer te werken .

Men heeft daarom twee soorten statistiek

Beschrijvende statistiek Inductieve of verklarende statistiek

1) Verzamelen van informatie

2) Verwerken en voorstellen van de informatie

3) Analyseren van informatie

= kenmerkende getallen bepalen zoals

gemiddelde, mediaan, variatiebreedte …

Meestal beschikt men slechts over de

resultaten van een steekproef en niet

over de resultaten van de ganse

populatie. In de inductieve statistiek

tracht men dan uitspraken te doen over

de populatie a.h.v. de resultaten van de

steekproef en de betrouwbaar van deze

uitspraken vast te stellen met haar

foutenmarge.

Statistiek – tweede jaar derde graad - 30 -

Page 32: Statistiek 2014 - 2015 Oplossingen

Hoofdstuk 2 : een enkelvoudige frequentietabel

1. De enkelvoudige frequentietabel : herhaling begrippen

Schoenwinkel “Sabato” was geïnteresseerd naar de schoenmaten van zijn vrouwelijke klanten. De

baas noteerde gedurende een week elke dag van elke 3de , 6de , 9de , 12de en 15de vrouwelijke klant

de schoenmaat. Dit is een aselecte systematische steekproef.

Zo ontstond onderstaande lijst met gegevens = de dataset

37 39 39 38 41 40 38 38 39 38 38 40 37 40 41 38 40 37 38 3840 39 39 37 39 39 38 39 40 39

Om een overzicht te krijgen over de schoenmaten maakte hij daar een enkelvoudige tabel van

Kolom 1 = de naam van de veranderlijke met de verschillende waarden

Kwantitatieve en kwalitatieve

ordinale veranderlijken noteren

we van klein naar groot.

Ook al zou er geen

schoenmaat 38 zijn, toch staat deze ertussen!

Kwalitatieve nominale veranderlijken plaatst men volgens dalende volgorde van de AF kolom ,

omdat deze gegevens zelf geen logische volgorde hebben.

Kolom 2 = de absolute frequentie (AF)

4 → 4 vrouwelijke klanten van de 30 van schoenwinkel “Sabato” hebben schoenmaat 37

CONTROLE → de som van de absoute frequenties = de omvang n

Kolom 3 = de relatieve frequentie (RF)

13,3% → 13,3% van de vrouwelijke klanten van schoenwinkel “Sabato” heeft schoenmaat 37

De som van deze kolom is steeds 100%

Kolom 4 = de cumulative absolute frequentie (CAF)

13 → 13 vrouwelijke klanten van de 30 van schoenwinkel “Sabato” hebben maximaal schoenmaat 38

Het laatste CAF getal is de omvang n

Kolom 5 = de cumulatieve relatieve frequentie (CRF)

Idem CAF maar dan in percentages, het laatste CRF getal is 100%

Opmerking : kwalitatieve nominale gegevens hebben geen CAF & CRF kolom omdat

deze gegevens geen logische volgorde hebben.Opmerking

Als je steekproef grootte klein, dan is werken met % geen goed idee.

Bijvoorbeeld : 1 leerling van de 8 is niet akkoord dan is dat 12,5%

Statistiek – tweede jaar derde graad - 31 -

schoenmaat AF RF % CAF CRF %37 4 13,3% 4 13,3%

38 9 30,0% 13 43,3%

39 9 30,0% 22 73,3%

40 6 20,0% 28 93,3%

41 2 6,7% 30 100%

Page 33: Statistiek 2014 - 2015 Oplossingen

2 leerlingen van de 8 is niet akkoord dan is dat plots al 25%

Oefening :

Bij Vlaamse scholen in de tweede graad werd nagegaan hoeveel keer per maand een leerling te

laat op school kwam.

De resultaten staan hieronder :

Aantal keer te laat per maand

AF RF CAF CRF

0 1543 77,2% 1543 77,2%

1 273 13,7% 1816 90,8%

2 125 6,3% 1941 97,1%

3 30 1,5% 1971 98,6%

4 18 0,9% 1989 99,5%

5 5 0,3% 1994 99,7%

6 3 0,2% 1997 99,85%

7 1 0,05% 1998 99,9%

8 2 0,1% 2000 100,0%

a) Vervolledig de tabel met de overige frequenties.

b) Hoeveel elementen telt de steekproef en hoe noemt men dit getal? 2000 ; de omvang

c) Beschrijf de populatie → Leerlingen van Vlaamse scholen uit de tweede graad

d) Geef de veranderlijke en de soort aantal keer te laat/maand - discreet kwantitatief

e) Geef de betekenis van het derde AF getal voor deze opgave - exact

125 van de 2000 leerlingen van Vlaamse scholen uit de tweede graad kwamen 2 maal te laat

per maand

f) Geef de betekenis van het vijfde CRF getal voor deze opgave - exact

99,5% van de leerlingen van Vlaamse scholen uit de tweede graad kwamen maximaal 4

keer te laat per maand.

g) Hoeveel leerlingen kwamen maximaal 4 keer te laat? 1989 leerlingen

h) Hoeveel leerlingen kwamen minstens 6 keer te laat? 6 leerlingen

Statistiek – tweede jaar derde graad - 32 -

Page 34: Statistiek 2014 - 2015 Oplossingen

Oefening 2

Hieronder staat een vraag die gesteld werd tijdens

het PISA onderzoek naar de wiskundige

geletterdheid van leerlingen uit de tweede graad.

Een televisieverslaggever toonde onderstaande

grafiek en zei : “ De grafiek laat zien dat er een

enorme toename is in het aantal berovingen

tussen 1998 en 1999”.

Vind je deze uitspraak van de verslaggever een redelijke interpretatie van de grafiek? Leg uit waarom

je dat vindt. Goede antwoorden zijn

Nee, dit is slechts een toename van 2%.

Nee, 7 berovingen meer t.o.v. van 507 is niet veel.

Nee, ze laten enkel het bovenste deel van de grafiek zien, als je de volledige grafiek zou zien

van 0 tot 520 zou het maar een kleine stijging zijn.

Je hebt geen vergelijk met andere jaren dus je weet niet wat enorm.

In onderstaande grafiek zien we hoe Vlaanderen scoorde op deze vraag per onderwijsniveau. Je kan

zien dat 66% van de ASO leerlingen deze vraag juist beantwoordden.

Verbeter de grafiek door een titel toe te voegen en de assen te benoemen.

Schrijf een besluit dat past bij deze grafiek

Er zijn grote verschillen tussen de onderwijsvormen. Het grootste verschil bevindt zich

tussen BSO - 13% en TSO – 43%. Tussen KSO en ASO is er maar een klein verschil van 8%,

het grootste aandeel van deze leerlingen antwoordde correct op deze vraag met

respectievelijk 58% en 66%.

Statistiek – tweede jaar derde graad - 33 -

Page 35: Statistiek 2014 - 2015 Oplossingen

2. De enkelvoudige frequentietabel via Excel

A. Kwantitatieve discrete gegevens en Kwalitatieve ordinale practicum I

1) De onderzochte veranderlijke is de schoenmaat

2) Waarom is deze veranderlijke kwantitatief discreet ?

De resultaten zijn getallen die niet elke waarde kunnen aannemen.

3) Waarom moet je bij CRF ook een $- teken gebruiken?

Omdat je steeds moet delen door dezelfde waarde namelijk de omvang.

4) Hoeveel vrouwen hebben schoenmaat kleiner dan 40? 22 In welke kolom lees je dit af? CAF

5) Hoeveel % van de vrouwen heeft schoenmaat 4O? 20% In welke kolom lees je dit af? RF

6) Als de steekproef representatief zou zijn voor de populatie van alle Vlaamse vrouwen, hoeveel

vrouwen op de 5000 zouden dan schoenmaat 38 hebben?

5000 . 30% = 5000 . 0,30 = 1500 vrouwen

7) Maak een staafdiagram van de AF zodat het eruit ziet zoals hieronder.

37 38 39 40 410123456789

10

Vrouwelijke schoenmaten van winkel 'Sabato'

schoenmaten

Aant

al v

rouw

en

Wij hebben nu AF in grafiek gebracht, maar je kan ook de 3 andere frequenties in grafiek brengen.

Als je twee tabellen / grafieken wil vergelijken en de omvang is verschillend moet je RF

gebruiken. Steeds een duidelijk omschreven grafiektitel en goede namen bij de 2 assen.

Statistiek – tweede jaar derde graad - 34 -

Page 36: Statistiek 2014 - 2015 Oplossingen

B. Kwalitatieve nominale gegevens practicum II

We gebruiken hiervoor de bloedgroepen die we in onze school in januari verzameld hebben via een

enquête.

1) De onderzochte veranderlijke is DE BLOEDGROEP

2) Waarom is deze veranderlijke kwalitatief nominaal ?

De resultaten zijn geen getallen en hebben zelf geen logische volgorde.

3) Een CAF kolom en CRF kolom hebben bij dit soort veranderlijke geen betekenis, waarom niet?

CAF en CRF telt hoeveel gegevens kleiner of gelijk zijn dan een bepaald gegeven, maar deze

gegevens zijn kwalitatief, nominaal en hebben dus geen logische volgorde.

4) Wat is het voordeel om in de schijf alle gegevens te plaatsen en niet in een legenda zoals hieronder?

Je ziet in één oogopslag alle informatie zonder dat je ogen

van links naar rechts hoeven te kijken.

5) Schrijf een kort verslag over wat je kan afleiden uit jouw cirkeldiagram :

……………………………….……………..………………………………………………………………………

……………………………….……………..………………………………………………………………………

6) De Belgische bevolking noemt men de populatie

7) De leerlingen die jij onderzocht hebt zijn een steekproef van de Belgische bevolking.

Statistiek – tweede jaar derde graad - 35 -

Page 37: Statistiek 2014 - 2015 Oplossingen

Oefening 1 : Open het bestand 1) enkelvoudige tabel – je voornaam

Kies voor werkblad keuze uitstap onder aan het scherm :

LET OP, TABELLEN MAAK JE OP TABBLAD 3 EN GRAFIEKEN OP 4!!!

1) De onderzochte veranderlijke is de keuze van de daguitstap

2) Welk soort veranderlijke heeft men ? Kwalitatieve nominale

3) Vul de frequentietabel verder aan.

4) Waarom staan de frequenties van het derde jaar van groot naar klein gerangschikt?

Omdat de gegevens zelf geen logische volgorde hebben.

5) Welke frequentie neem je en waarom als je beide jaren in grafiek met elkaar wil vergelijken?

De relatieve frequenties, omdat in het derde jaar 40 leerlingen zitten en in het vierde 50

Maak nu een vergelijkend staafdiagram met de resultaten van drie en van vier in één grafiek.

Gebruik nooit codes in je grafieken!!!

6) Maak een cirkeldiagram van deze tweede graad.

7) Beantwoord nu onderstaande vragen met wat uitleg of een rechtzetting bij de nee antwoorden :

a) Leerlingen uit het derde jaar gaan liever naar Technopolis dan deze uit het vierde jaar

waar, derde jaar 20% en vierde jaar 18%

b) Beiden gaan even graag naar Bellewaerde

waar, allebei 20%

c) Meer dan 50% van alle leerlingen kiest voor Six Flags

niet waar, slechts 27%

d) Leerlingen uit het vierde jaar gaan liever naar Planckendael dan deze uit het derde jaar

niet waar, derde jaar 12,5% en vierde jaar 12%

Statistiek – tweede jaar derde graad - 36 -

Page 38: Statistiek 2014 - 2015 Oplossingen

Oefening 2 – het KSO is de onderwijsvorm met de minste leerlingen. Zowel in de 2de als in de 3de

graad volgen ongeveer 2% van de leerlingen KSO. Bijna twee op de drie leerlingen in de 2de graad

KSO opteren voor Beeldende en architecturale kunsten (45%) of beeldende vorming (18%)

a) Beschrijf de populatie leerlingen in de tweede graad KSO.

b) De onderzochte veranderlijke is de KSO richting

c) Tot welke soort behoort deze veranderlijke? Kwalitatief nominaal

d) Maak een horizontaal staafdiagram met de RF kolom.

Waarom maak je hier beter een horizontaal staafdiagram in plaats van een verticaal?

Omdat de namen bij de x-as dan beter leesbaar zijn.

a) Beschrijf de populatie studenten Master Beeldende kunst

b) Van deze tabel kan je geen cirkeldiagram maken omdat de % samen geen 100% zijn.

c) Schrijf een kort besluit

ASO – leerlingen hebben iets meer slaagkans dan KSO leerlingen, bij beide groepen slagen meer

dan 50% van de studenten. Opvallend is dat BSO- leerlingen het bijna even goed doen dan TSO -

leerlingen. Ongeveer een derde van deze leerlingen slaagt.

52% van de studenten slaagt erin om een Master in de beeldende kunst te behalen.

De meerderheid van de studenten komt uit het KSO en slechts heel weinig uit het BSO.

Statistiek – tweede jaar derde graad - 37 -

Page 39: Statistiek 2014 - 2015 Oplossingen

Oefening 3 - Op de site Nationale Vacature Bank is een aparte pagina voor jongeren van 14 jaar.

Deze pagina bevat informatie voor jongeren van 14 jaar over bijbaantjes.

In een bepaalde maand is deze site door ruim 300 jongeren geraadpleegd. Daarbij is onderzocht wat

de leeftijd was van de jongeren die deze site bezochten. De gegevens staan in de tabel.

a) Hoeveel jongeren hebben volgens dit tabelletje de site geraadpleegd? 326 jongeren

b) Hoeveel procent van de jongeren die de site raadpleegden was daadwerkelijk 14 jaar? 39,3%

c) Vul de kolom in van de relatieve frequenties.

d) Wanneer moet je relatieve frequenties gebruiken en geen absolute frequenties? Tip : lees pagina 36

Relatieve frequenties zijn nodig als je twee groepen met een verschillende omvang wilt

vergelijken. Hier bijvoorbeeld als je de gegeven frequentieverdeling wilt vergelijken

met die van een andere maand. Het aantal bezoekers zal dan waarschijnlijk niet

hetzelfde zijn en vergelijken van absolute frequenties kan dan niet.

Oefening 4 - Volgens onderzoek van GFK in opdracht van Productschap Tuinbouw is de appel het

meest gekochte verse fruit in Nederland met 24,2 kilo per huishouden. Daarna volgen sinaasappels

met 19,4 kilo per huishouden en bananen met 14,6 kilo. Mandarijn staat op de vierde plaats met 9,7

kilo per huishouden en peer staat in dit onderzoek op de vijfde plaats met 6,1 kilo per huishouden.

Totaal is dit 82% van de fruitconsumptie in Nederland.

a) Maak een frequentietabel met absolute en relatieve frequenties van de fruitconsumptie per

huishouden in Nederland.

TIP : 74kg fruit = 82%. Reken met een regel van drie uit hoeveel kg fruit overeenkomt met 100%

82% = 74 kg 100 % = 74 . 100 : 82

100% = 90,2 kg

b) Maak een

bijpassend

cirkeldiagram

.

Statistiek – tweede jaar derde graad - 38 -

Page 40: Statistiek 2014 - 2015 Oplossingen

Hoofdstuk 3 : gegroepeerde frequentietabel.

1. Indeling in klassen

Voorbeeld 1 : een aardappelboer heeft onderzocht hoeveel massa zijn beste klasse aardappelen

hebben. Daarvoor heeft hij 100 aardappelen van zijn eerste oogst gewogen. Hieronder zie je zijn

dataset.

MASSA VAN 100 AARDAPPELEN IN GRAM73,92 100,46 131,76 95,73 99,66 95,92 112,22 101,82 124,91 114,71

56,87 125,31 82,39 93,04 143,39 100,99 113,76 72,61 86,22 128,9

94,39 106,88 132,67 92,67 111,58 117,92 69,6 108,59 104,72 111,83

96,84 89,02 77,48 108,09 144,29 117,07 93,64 107,69 105,18 46,37

100,56 106,58 81,54 81,6 138,63 99,58 56,31 94,15 77,78 105,4

98,44 101,26 125,54 133,61 103,2 137,63 71,49 119;57 92,3 77,65

109,12 128,34 31,36 96,55 100,61 117,53 119,52 53,07 107,84 130,66

141,27 110,72 79,3 98,48 99,44 139,58 116,06 129,52 94,1 98,04

63,81 101,74 52,67 134,56 116,79 107,75 105,26 133,29 65,02 102,4

108,02 102,28 97,05 78,1 102,66 117,77 141,16 100,97 118,33 118,57

Een enkelvoudige frequentietabel zoals bij de schoenmaten is nu niet overzichtelijk omdat

Omdat er teveel verschillende waarden aanwezig zijn.

Daarom maken we een gegroepeerde frequentietabel met een aantal klassen.

We moeten er wel voor zorgen dat elk waarnemingsgetal tot één en slechts één klasse behoort.

Om een goede klasindeling te maken volgen we altijd volgende 3 stappen

1° Bepaal de kleinste en de grootste waarde:

kleinste = 31,36 ondergrens = 31,355 grootste = 144,29 bovengrens = 144,295

Correctiewaarde = 0,005

Opmerking - je moet de eerste klasse niet beginnen met de kleinste waarde van je dataset.

Je kan ook beginnen met een eenvoudiger, kleiner getal

2° Bepaal de variatiebreedte R = bovengrens – ondergrens = 144,295 - 31,355 = 112,94

Met het opstellen van een gegroepeerde frequentietabel gaat een deel van de informatie verloren.

De exacte waarden van de gegevens kan men niet meer aflezen uit de tabel, men weet enkel

hoeveel resultaten zich tussen twee waarden bevinden. Om deze onnauwkeurigheid te beperken

zorgt men er steeds voor dat het aantal klassen rond de tien ligt, daarom delen we R altijd

door tien. R / 10 = 112,94 / 10 = 11,294

3° Nu kiezen we een goede klassenbreedte (KB) rond de waarde R \ 10 van hierboven

Let op : neem voor de KB nooit meer decimalen dan het aantal decimalen in de dataset.

Geef 4 mogelijke klassenbreedten : 10,5 / 11,3 / 11,82 / 12 ( je mag hier geen 3 decimalen nemen!)

Opmerkingen

Statistiek – tweede jaar derde graad - 39 -

Page 41: Statistiek 2014 - 2015 Oplossingen

1) De absolute frequentie van een klasse is nu het aantal waarnemingsresultaten dat tot

die klasse behoort, men weet dus nog enkel hoeveel gegevens er tussen twee waarden

liggen en niet meer het exacte resultaat!

Daarom mogen we de klassen niet te groot nemen want dan werken we te onnauwkeurig.

2) Omdat we in het verdere verloop van de statistiek waarden moeten gaan bepalen zoals

gemiddelde, en we met klassen niet kunnen rekenen, zal het klassenmidden de klasse gaan

vertegenwoordigen.

3) De begrippen relatieve en cumulatieve frequenties van een klasse worden analoog omschreven

als bij een enkelvoudige tabel.

Via Excel krijg je dan onderstaande tabel, enkel RF CAF en CRF ontbreken.

Deze gegroepeerde tabellen leer je maken in practicum III.

Klasnummer

Ondergrenzen

Bovengrenzen

Massa aardappelen in gram

midden AF

1 31,355 40,355 31,36 - 40,35 35,855 1

2 40,355 49,355 40,36 - 49,35 44,855 1

3 49,355 58,355 49,36 - 58,35 53,855 4

4 58,355 67,355 58,36 - 67,35 62,855 2

5 67,355 76,355 67,36 - 76,35 71,855 4

6 76,355 85,355 76,36 - 85,35 80,855 8

7 85,355 94,355 85,36 - 94,35 89,855 8

8 94,355 103,355 94,36 - 103,35 98,855 24

9 103,355 112,355 103,36 - 112,35107,85

5 17

10 112,355 121,355 112,36 - 121,35116,85

5 11

11 121,355 130,355 121,36 - 130,35125,85

5 6

12 130,355 139,355 130,36 - 139,35134,85

5 8

13 139,355 148,355 139,36 - 148,35143,85

5 5

In deze tabel heeft men gewerkt met klassenbreedte 40,355 - 31,355 = 9

Hoe kan je nu het aantal klassen bepalen? door R te delen door je KB

Statistiek – tweede jaar derde graad - 40 -

Page 42: Statistiek 2014 - 2015 Oplossingen

112,94 / 9 = 12,548.. DUS 13 klassen

Statistiek – tweede jaar derde graad - 41 -

Page 43: Statistiek 2014 - 2015 Oplossingen

Voorbeeld 2 : Men heeft de lengte van 96 jongens van 16 jaar bepaald en samengevat in een tabel

Klasnr. ondergrens bovengrens Lengte in cm jongens 16j

middens AF RF % CAF CRF %

1 149,5 154,5 150-154 152 4 4,2% 4 4,2%

2 154,5 159,5 155-159 157 12 12,5% 16 16,7%

3 159,5 164,5 160-164 162 14 14,6% 30 31,3%

4 164,5 169,5 165-169 167 25 26,0% 55 57,3%

5 169,5 174,5 170-174 172 16 16,7% 71 74,0%

6 174,5 179,5 175-179 177 11 11,5% 82 85,4%

7 179,5 184,5 180-184 182 9 9,4% 91 94,8%

8 184,5 189,5 185-189 187 4 4,2% 95 99,0%

9 189,5 194,5 190-194 192 1 1,0% 96 100,0%

1) Geef de betekenis van RF van de vierde klasse :

26% van de jongens van 16 jaar heeft een lengte van 165 cm tot en met 169 cm

2) 14 van de 96 jongens van 16 jaar hebben minstens een lengte van 180 cm.

3) Beschrijf de populatie

Alle jongens van 16 jaar

4) Beschrijf de steekproef

De jongens van 16 jaar die men gemeten heeft

5) 85% van de jongens van 16 jaar hebben een lengte binnen het lengte-interval [150 ; 179]

6) 30 van de 96 jongens van 16 jaar hebben hoogstens een lengte van 164 cm

7) Ongeveer 5% van de jongens van 16 jaar zijn groter dan 184 cm

8) 42,7 % van de jongens van 16 jaar hebben minstens een lengte van 170 cm

100% - 57,3% = 42,7 %

Statistiek – tweede jaar derde graad - 42 -

Page 44: Statistiek 2014 - 2015 Oplossingen

Oefening 1 : Een fabriek test telkens of hun vulmachines naar behoren werken, zoniet moeten ze

deze bijstellen. Hieronder de dataset van de geteste flesjes.

Hoeveelheid bier (in cl) in 50 automatisch gevulde flesjes

32,6 33,3 32,5 33,2 34,5 31,8 35,0 34,4 33,0 34,0

31,7 34,3 32,9 32,5 33,6 33,1 34,2 31,4 32,6 34,6

34,9 33,4 31,6 34,5 35,1 35,3 34,1 34,2 31,1 36,0

34,2 32,7 34,6 32,2 33,8 34,4 31,7 35,6 33,9 32,1

33,7 32,3 33,7 31,9 33,5 32,6 33,0 34,8 35,7 32,8

1) Wat is de populatie?

De flesjes die door de machine in een fabriek gevuld worden.

2) Wat is de steekproef?

De geteste flesjes die door de machine in een fabriek gevuld worden

3) De onderzochte veranderlijke is de inhoud van de flesjes in cl

4) Zoek een goede klassenbreedte door het driestappenplan te volgen

1° kleinste = 31,1 ondergrens = 31,05 grootste = 36,0 bovengrens = 36,05

Correctiewaarde = 0,05

2° R = bovengrens – ondergrens = 36,05 - 31,05 = 5

R/10 = 5/10 = 0,5

3° Geef 3 mogelijke klassenbreedten : 0,4 – 0,5 – 0,6

Men mag vrij kiezen welke, ik kies voor Þ KB = 0,5

Aantal klassen = 5 / 0,5 = 10

Statistiek – tweede jaar derde graad - 43 -

Page 45: Statistiek 2014 - 2015 Oplossingen

Oefening 2 - looptijden op 1/10 van een seconde.

Ondergrenzen en bovengrenzen Looptijden in

1/10 sec.

Middens AF RF CAF CRF

[26,15;32,25[ 26,2 – 32,2 29,2 6 13,6% 6 13,6%

[32,25;38,35[ 32,3 – 38,3 35,3 8 18,2% 14 31,8%

[38,35;44,45[ 38,4 – 44,4 41,4 12 27,3% 26 59,1%

[44,45;50,55[ 44,5 – 50,5 47,5 10 22,7% 36 81,8%

[50,55;56,65[ 50,6 – 56,6 53,6 8 18,2% 44 100,0%

a) Vervolledig de gegroepeerde frequentietabel

b) Men heeft gewerkt met klassebreedte 6,1

Oefening 3

Ziehier voor 60 personen het netto-inkomen per maand, onderworpen aan de personenbelasting op €1

Netto-

maandinkomen middens AF RF % CAF CRF %

375 - 674 524,5 9 15,0% 9 15,0%

675 - 974 824,5 17 28,3% 26 43,3%

975 - 1274 1124,5 15 25,0% 41 68,3%

1275 - 1574 1424,5 6 10,0% 47 78,3%

1575 - 1874 1724,5 5 8,3% 52 86,6%

1875 - 2174 2024,5 4 6,7% 56 93,3%

2175 - 2474 2324,5 2 3,3% 58 96,6%

2475 - 2774 2624,5 1 1,7% 59 98,3%

2775 - 3074 2924,5 1 1,7% 60 100%

a) Ongeveer 40% van de gezinnen heeft een inkomen kleiner dan € 975

b) Ongeveer 7% van de gezinnen heeft een inkomen van minstens € 2175

c) Bereken hoeveel mensen er meer verdienen dan €2174 per maand . Doe dit op twee manieren

1° 2+1+1 = 4 personen AF kolom

2° 60 – 56 = 4 personen CAF kolom

Opmerking – gegroepeerde tabellen maakt men altijd bij kwantitatief continue veranderlijken. Geld is

echter een kwantitatief discrete veranderlijke maar omdat het maandinkomen zoveel verschillende

waarden kan hebben, maakt men ook hier een gegroepeerde tabel.

Statistiek – tweede jaar derde graad - 44 -

Page 46: Statistiek 2014 - 2015 Oplossingen

2. Grafische voorstelling gegroepeerde tabellen

Hieronder zie je de grafische voorstelling van de gegroepeerde tabel op pagina 44.

Deze grafiek noemt men een histogram

Op pagina 37 hebben we een staafdiagram gemaakt en hier een histogram. Wat is het verschil?

Bij een histogram staan de staven tegen elkaar en bij een staafdiagram staan ze los van elkaar.

Waarom maakt men dit verschil?

Bij gegroepeerde tabellen werkt men met kwantitatief continue veranderlijken en deze

kunnen elke waarde aannemen en daarom moeten de staven tegen elkaar staan. Bij een

staafdiagram werkt men met kwantitatieve discrete gegevens of met kwalitatieve gegevens

en die kunnen niet elke waarde aannemen dus daar staan ze los van elkaar.

ONTHOUD

Een staafdiagram maak je bij enkelvoudige tabellen (kwalitatief + kwantitatief discreet)

Een histogram bij gegroepeerde tabellen (kwantitatief continue of kwantitatief discreet met veel

verschillende waarden)

Statistiek – tweede jaar derde graad - 45 -

Page 47: Statistiek 2014 - 2015 Oplossingen

Opmerking

Er zijn helaas geen betrouwbare regels die ons kunnen helpen bij het beslissen over het aantal

klassen waarin we een reeks gegevens moeten verdelen.

Wel zijn er enkele vuistregels

1° Minder dan 5 klassen levert meestal geen betrouwbaar overzicht van de gegevens

2° Meer dan 20 klassen maken het geheel heel snel onoverzichtelijk

Het aantal klassen zal dan ook van geval tot geval verschillen, afhankelijk van de verdeling van de

gegevens.

Het is aan de ‘gebruiker’ om zelf te wikken en te wegen : er moet enerzijds voldoende detail zijn om de

relevante gegevens zichtbaar te maken, zonder echter het overzicht te verliezen.

Soms kiest men een indeling op basis van het histogram, waarop men de meeste kenmerken kan

aflezen. We passen dit toe op de dataset FAITHFUL

Deze tabel geeft de tijd in minuten weer tussen twee erupties van de ooit regelmatige geiser Old Faithful

in Yellowstone Park.

Kijk goed naar elk histogram.

Welke klassenbreedte moet men volgens jou nemen om zoveel mogelijk informatie op het histogram

te kunnen lezen? Wat zie je

dan beter?

KB = 3, omdat we dan heel

goed zien dat er twee

pieken aanwezig zijn. Eén

rond de 51 - 53 min en

anderzijds rond de 75 -83

min

Statistiek – tweede jaar derde graad - 46 -

Page 48: Statistiek 2014 - 2015 Oplossingen

3. Informatie halen uit histogrammen

1° Aantal pieken

Wanneer een verdeling twee pieken vertoont, is het vaak zo dat twee populaties gemengd werden

( vrouwen en mannen bvb.) of dat er zich twee fenomenen voordoen (2 soorten erupties bvb.).

Om een juist idee te krijgen van dit aantal pieken, probeer je best een aantal verschillende

klassenbreedtes uit (zie punt 3 vorige pagina). Bij erg kleine klassenbreedtes zien we soms

verschillende ‘piekjes’ (zie grafiek A), maar dat is geen globaal beeld : zodra we de klassenbreedte

groter nemen verdwijnen ze (zie grafiek B).

A B

A B

2° Vorm van de verdeling - symmetrisch of scheef

Deze vorm zal heel belangrijk zijn bij o.a. het berekenen van centrum- en spreidingsmaten, zoals

we verder zullen zien.

Zo heeft men symmetrische, scheef naar links en scheef naar rechts verdelingen

Let op: de positie van de staart bepaalt of een verdeling links- of rechtsscheef is.

A : Scheve verdeling naar rechts

B : Symmetrische verdeling

C : Scheve verdeling naar links

3° Uitschieters

Soms wijzen uitschieters op tikfouten, soms zijn ze het gevolg van een onzorgvuldige telling of

meting.

Betreft het geen meet- of tikfouten, dan zijn er twee mogelijke oorzaken voor deze uitschieters

1° het toeval is verantwoordelijk

2° er is sprake van een bepaald fenomeen

Indien we van plan zijn om geen rekening te houden met deze uitschieters moeten we altijd zoeken

naar de reden van hun voorkomen. We komen hier op pagina 51 op terug.

Statistiek – tweede jaar derde graad - 47 -

Page 49: Statistiek 2014 - 2015 Oplossingen

Oefeningen

1. Een marktadviseur volgde daarom kopers in een supermarkt. Hij was vooral geïnteresseerd in het

bedrag in euro dat door elke koper in de winkel werd uitgegeven. Volgende histogrammen werden

gemaakt.

1) Wat is de klassenbreedte van het eerste

histogram? 15

2) Het eerste rechthoekje heeft als hoogte 6,

formuleer in woorden wat dit wil zeggen voor

dit voorbeeld?

Er zijn 6 kopers die een bedrag uitgaven

van maximaal 14 euro.

3) Het tweede histogram heeft dezelfde

klassenbreedte en toch hebben de

rechthoekjes een andere hoogte.

Hoe komt dit?

Men heeft startwaarde 3 genomen i.p.v. 0

4) Bepaal de omvang via de grafieken?

De som maken van de hoogte van alle

staven.= 50

5) Wat kan je zeggen over de vorm van alle drie de grafieken?

Ze hebben alle drie een scheve verdeling naar rechts met één piek.

6) Leg uit wat deze vorm betekent in de context van dit voorbeeld :

De meeste kopers geven een bedrag van minder dan €62 uit, maar er zijn er enkele die

behoorlijk meer uit geven.

Statistiek – tweede jaar derde graad - 48 -

uitgave kopers in een supermarkt

0

5

10

15

20

25

0 - 14 15 - 29 30 - 34 45 - 59 60- 74 75 - 89 90 - 104

koopbedrag in €

aan

tal

ko

pers

uitgave kopers in een supermarkt

0

5

10

15

20

3 - 17 18 - 32 33 - 47 48 - 62 63 - 77 78 - 92 93 - 107

koopbedrag in €

aan

tal

ko

pers

uitgave kopers in een supermarkt

0

2

4

6

8

10

12

14

3 - 12 13 - 22 23 - 32 33 - 42 43 - 52 53 - 62 63 - 72 73 - 82 83 - 92 93 - 102

koopbedrag in €

aan

tal

kop

ers

Page 50: Statistiek 2014 - 2015 Oplossingen

2. Tussen juli en september 1882 voerde Newcomb 66 metingen uit, verspreid over drie dagen, om

de lichtsnelheid te kunnen bepalen. Hij mat de tijd die een lichtstraal nodig had om 7443,73m af te

leggen = afstand laboratorium tot een spiegel en terug.

Het getal 28 betekent een tijd van 24828 nanoseconden = 24828 . 10-9 seconde

Het getal -2 komt dus overeen met 24798 nanoseconden = 24798 . 10-9 seconde

Enz…

Volgend histogram geeft de gegevens weer

Waarden Newcomb

0

5

10

15

20

25

30

-44

;

-40

-4

; 0

16

- 2

0

21

- 2

5

26

- 3

0

31

- 3

5

36

- 4

0

Nanoseconde t.o.v. 24800

Aan

tal

met

ing

en

Beschrijf de vorm van dit histogram

De gegevens zijn tamelijk symmetrisch verdeelt tussen 16 en 40 met één piek, maar er zijn twee

uitschieters die te klein.

Je merkt dus dat er hier zeker spraken is van uitschieters. Na extra onderzoek, bleken deze extreme

waarden zich voor te doen bij de metingen tijdens de eerste dag. Newcomb ging er vanuit dat hij de

meetapparatuur niet voldoende beheerste en besloot de waarde tussen -44 ; -40 te verwijderen.

De waarde -2 heeft hij behouden, waarom weten we niet.

Vind je echter geen aanneembaar bewijs voor deze uitschieters, dan mag je ze zeker niet weglaten!!!

Een voorbeeld van slechte statistiek is gebeurd bij het gat in de ozonlaag.

Toen het gat in de ozonlaag boven de Zuidpool rond 1985 werd

ontdekt, bleek dat het fenomeen reeds sinds 1976 trouw werd

opgemeten door de Nimbus-7-satelliet, maar dat die

uitzonderlijk lage ozonconcentratie werd genegeerd door de

statistiekprogramma’s, als een foutieve meting.

Ten onrechte zo bleek 10 jaar later!!!!!

Statistiek – tweede jaar derde graad - 49 -

Page 51: Statistiek 2014 - 2015 Oplossingen

4. Gegroepeerde frequentietabel via Excel practicum III

1) Open het bestand 2B) gegroepeerde tabel

Sla het bestand op als 2B) gegroepeerde tabel – je voornaam

Vanaf nu niet vergeten om regelmatig op te slaan met het icoon

2) Wat is de veranderlijke ? lengte jongens 16 jaar

3) Van welke soort is de veranderlijke ? kwantitatieve continue

4) Waarom moet je bij de ondergrenzen en bovengrenzen $ - tekens gebruiken ?

Omdat je KB een vaste waarde is die niet mag wijzigen bij het slepen.

5) Maak een histogram dat eruit ziet zoals hieronder maar dan met KB = 5 want hieronder werkte

men met KB = 4

Zorg weer voor een goede titel en plaats bij de 2 assen wat je erop afleest.

6) Waarom moeten de rechthoeken elkaar raken?

De veranderlijke “lengte jongens” is kwantitatief continu en kan elke waarde aannemen tussen 2

bepaalde grenzen.

7) Beschrijf de vorm van dit histogram

Symmetrisch met één top.

Statistiek – tweede jaar derde graad - 50 -

Page 52: Statistiek 2014 - 2015 Oplossingen

Oefeningen

Open het bestand 2B) gegroepeerde tabel – je voornaam .

Oefening 2 - open het tabblad schaatstijden

Op de Olympische spelen van 2014 hebben we eindelijk een Belg die zeer goed presteert.

Zaterdag 8 februari 2014 - Bart Swings greep zaterdag bij zijn

Olympisch debuut op de 5.000 meter in de Adler Arena in Sotsji

met een vierde plaats maar net naast de bronzen medaille. Die

ging uiteindelijk naar de Nederlander Jorrit Bergsma, die 1.13

sneller was dan de Leuvenaar. 'Hier had ik op voorhand voor

getekend. Ik was er zeer dichtbij en het geeft me vertrouwen voor

de 1.500 meter', vertelde Swings na afloop.

1) De naam van de veranderlijke is schaatstijden en behoort tot de soort kwantitatief continu

2) Maak een gegroepeerde tabel

3) De meeste schaatsers reden minstens 43,7 seconden en hoogstens 44,1 seconden

4) Hoe snel moet men ongeveer rijden om tot de 15% snelste te behoren? minder dan 44,6 seconden

Statistiek – tweede jaar derde graad - 51 -

Page 53: Statistiek 2014 - 2015 Oplossingen

Oefening 2 - open het tabblad lengte regenwormen

Voor een practicum biologie zijn op twee velden regenwormen gevangen. Vervolgens werden de

lengtes van die wormen gemeten. Hier zie je de resultaten.

1) Om wat voor soort veranderlijke gaat het hier? continu kwantitatief

2) Hoe lang was de grootste gevonden regenworm? 26 cm

3) Omvang veld 1 = 90 Omvang veld 2 = 74

4) Met welke frequentie moet je werken als je de twee velden wil vergelijken en waarom?

Met de RF omdat de twee velden een verschillende omvang hebben.

4) Maak van

beide velden de

relatieve

frequenties

4) Op veld 2 zijn er meer wormen met een lengte van minstens 12cm tot en hoogstens 14 cm dan op

veld 1

5) Teken de histogrammen van beide velden in twee afzonderlijke grafieken.

6) Vergelijk beide histogrammen. Wat valt je daarbij op?

De grafieken hebben een gespiegelde vorm. Bij veld 1 zijn er meer wormen die kleiner zijn dan

de meerderheid en weinig die groter zijn dan de meerderheid en bij veld 2 is dit net andersom.

Bij veld 2 ligt de top iets verder naar rechts zodat de meerderheid van de wormen groter is bij

veld 2 dan bij veld 1.

Statistiek – tweede jaar derde graad - 52 -

Page 54: Statistiek 2014 - 2015 Oplossingen

Oefening 3 - open het tabblad gewicht KH

De dataset komt van de enquête die de leerlingen van de kunsthumaniora KH ingevuld hebben.

1) Omdat niet alle leerlingen hun gewicht konden / wilden invulden is dit eigenlijk een steekproef.

Over welk soort steekproef gaat dit dan? Steekproef op vrijwillige basis

2) Maak een gegroepeerde frequentietabel voor de gewichten van de meisjes.

TIP : sorteer de kolom met de geslachten door deze de selecteren op het icoon te klikken en

selectie uitbreiden te kiezen. Nu zie waar de dataset van de gewichten van de jongens is.

De dataset van de gewichten van de meisjes begint in cel ……. en gaat tot cel …….

3) Maak een histogram

4) De meerderheid van de meisjes hebben een gewicht van ……..….. tot en met …………….

5) Stel zelf twee vragen die je via je tabel kan beantwoorden.

Vraag 1 : je hebt de AF kolom nodig om je vraag te beantwoorden

Vraag : ……………………………………..………………………………………………………………..

…………………………………………………………………………………………………………………

Antwoord → ……………………………….…………………………………………………………………

Vraag 2 : je hebt de CRF kolom nodig om je vraag te beantwoorden

Vraag : ……………………………………..………………………………………………………………..

…………………………………………………………………………………………………………………

Antwoord → ……………………………….…………………………………………………………………

Statistiek – tweede jaar derde graad - 53 -

Page 55: Statistiek 2014 - 2015 Oplossingen

Hoofdstuk 5 : centrummaten

1. Centrummaten – opfrissen basisbegrippen

Naast mooie plaatjes maken, willen wij als wiskundigen ook graag metingen samenvatten in

getallen. Op de eerste plaats willen we graag weten waar het midden van de gegevens zit. Dat

geeft immers aan hoe groot de gegevens ongeveer zijn.

Om het "MIDDEN" van een serie metingen aan te geven zijn er drie mogelijke manieren. Die

heten de centrummaten → 1ste gemiddelde : x 2de modus : mo 3de mediaan : me

Met een centrummaat geef je aan waar de getallen zo'n beetje om heen liggen.

Via een dataset

Peter behaalde volgende rapportcijfers 3 4 5 6 7 7 7 7 8 8 8 9 9 9 9 9

gemiddelde rapportcijfer = 7,2

wordt afgerond op 1cijfer nauwkeuriger dan de gegevens

modus = het cijfer dat in een rij waarnemingsgetallen het meeste voorkomt = 9

mediaan = middelste waarneming op voorwaarde dat de gegevens gerangschikt zijn van klein

naar groot.

is het aantal even, dan neem je het gemiddelde van de twee middelste

= 7,5

Welk soort veranderlijke is het rapportcijfer? Kwantitatief continu

Waarom? Het zijn getallen waar je mee kan rekenen die tussen 2 grenzen all waarden kunnen

aannemen.

3) Geef de contextuele betekenis van de mediaan

Minstens 50% van de rapportcijfers van Peter waren een 7,5 of meer. (je kan ook zeggen of minder

of minimaal 7,5 of maximaal 7,5)

4) Geef de contextuele betekenis van de modus

Het meest behaalde rapportcijfer van Peter is een 9

Welk soort gegevens hebben geen gemiddelde en mediaan, maar wel een modus?

Kwalitatieve nominale gegevens.

Statistiek – tweede jaar derde graad - 54 -

Page 56: Statistiek 2014 - 2015 Oplossingen

Via een frequentietabel

In een dorp worden 45 inwoners ondervraagd over hun leesgewoonten.

Van elke persoon noteert men hoeveel boeken hij de afgelopen maand gelezen heeft.

Aantal boeken AF RF CAF CRF Kolom 1 * AF

0 9 20,0 9 20,0 0

1 13 28,9 22 48,9 13

2 10 22,2 32 71,1 20

3 5 11,1 37 82,2 15

4 4 8,9 41 91,1 16

5 4 8,9 45 100,0 20

84

Gemiddeld aantal gelezen boeken = 84/45 = 1,9 boeken

Mediaan = 2 boeken

Modus = 1 boek

Geef de contextuele betekenis van de modus

De meeste inwoners lazen 1 boek

Geef de contextuele betekenis van de mediaan

Minstens 50% van de inwoners lazen maximaal (of minimaal) 2 boeken

Geef de contextuele betekenis van het gemiddelde

De meerderheid van de inwoners lazen rond de 1,9 boeken

Bij een gegroepeerde tabel doe je gewoon alsof alle metingen in een klasse gelijk zijn aan

het klassenmidden. Je krijgt dan een schatting voor het gemiddelde, het werkelijke gemiddelde is

niet precies meer bekend natuurlijk, want je weet niet hoe de metingen wérkelijk over de klassen

verdeeld waren.

Statistiek – tweede jaar derde graad - 55 -

Page 57: Statistiek 2014 - 2015 Oplossingen

2. Bruikbaarheid van de centrummaten

Het bepalen van een gemiddelde is één ding, maar geeft het wel altijd zinvolle informatie? NEEN

Voorbeeld1

Een leerling haalt voor de toetsen 4 keer een 6 en één keer een 1.

Het gemiddelde is nu 5. Dit zou kunnen leiden tot een nipt voldoende op het rapport.

Dat lijkt niet erg eerlijk. Deze leerling beheerst de stof voor 80% voldoende.

Een andere leerling haalt 2 keer een 4 en 2 keer een 5 en één keer een 10.

Gemiddeld is dat 5,6 en misschien wel een 6 op het rapport.

Deze leerling beheerst slechts 20% van de stof voldoende.

Het grootste nadeel van het gemiddelde is dus dat het ontzettend gevoelig is voor

uitschieters. Men spreekt in dit verband van een niet resistente centrummaat.

Dit nadeel heeft de mediaan niet, hij is bijna ongevoelig voor uitschieters. Daarom is de mediaan

een resistente centrummaat.

Voorbeeld2 :

Een statisticus liep door een gemiddeld één meter diepe sloot. Hij verzoop!!

Het is een grap, maar het is een mooi voorbeeld van hoe statistiek je op het verkeerde been kan

zetten.

Om na te gaan of het gemiddelde zinvolle informatie geeft over de gegevens, kan je het best eerst

grafisch onderzoek doen :

Zijn de gegevens symmetrisch verdeeld , dan is het gemiddelde een betrouwbare

centrummaat.

Is het histogram scheef naar links of rechts, dan is het gemiddelde geen betrouwbare

centrummaat

Heeft men meerdere pieken (zie Old Faithful pagina 47), dan is het gemiddelde onbruikbaar

Is alles redelijk symmetrisch maar zijn er uitschieters, dan is het gemiddelde geen

betrouwbare centrummaat (zie Newcomb pagina 50) omdat die uitschieters het gemiddelde

naar zich toe trekken en is het wenselijker om de mediaan te nemen.

Wanneer welke centrummaat?

Statistiek – tweede jaar derde graad - 56 -

Page 58: Statistiek 2014 - 2015 Oplossingen

Oefeningen

1. Welke centrummaat is het meest geschikt om de volgende waarnemingen te karakteriseren?

Schrap wat niet past.

a) Een verkoper verkoopt op de zes werkdagen van een week de volgende aantallen fietsen :

7 – 4 – 5 – 8 – 6

gemiddelde – modus – mediaan

b) Van tien leerlingen is de haarkleur : blond – rood – bruin – bruin – zwart

– bruin – bruin – blond – bruin en blond.

gemiddelde – modus – mediaan

c) Op een verjaardagsfeestje hebben de aanwezigen de volgende leeftijd : 17 – 20 – 22 – 17 – 68

gemiddelde – modus – mediaan

d) Bij een natuurkundeproef meten tien leerlingen het volume in cm³ van dezelfde glazen bol. De

metingen leveren op : 48 – 47 – 46 – 48 – 46 – 47 – 48 – 45 – 47 – 46

gemiddelde – modus – mediaan

Statistiek – tweede jaar derde graad - 57 -

Page 59: Statistiek 2014 - 2015 Oplossingen

2. Het Australian Bureau of Meteologie verzamelde de nevenstaande gegevens voor de gemiddelde

neerslag per maand in de stad Broken Hill.

1) Je stelt vast dat de gemiddelde neerslag voor januari veel

groter is dan de mediaan. Wat kun je hierover besluiten i.v.m. de

neerslagcijfers voor januari ?

In januari waren er extreem hevige buien.

Welke vorm zal het histogram hebben voor januari?

Het histogram zal scheef naar rechts zijn.

2) In welke maanden waren geen uitzonderlijk hevige buien?

In juli +augustus = wintermaanden in Australië

3. Duid aan welke stip overeenkomt met het gemiddelde G, de mediaan Me of de modus Mo

Statistiek – tweede jaar derde graad - 58 -

Page 60: Statistiek 2014 - 2015 Oplossingen

4. Je ziet hier 2 frequentietabellen van de klassen 2A en 2C van hun rapportcijfer voor het vak wiskunde en hun centrummaten.

a) Laat zien dat het gemiddelde van 2C klopt

(4*5+8*6+6*7+4*8+2*9) / 24 = 6,7

b) Vergelijk de centrummaten van beide klassen.

Klas 2C scoort gemiddeld net iets hoger dan 2A maar het meest voorkomende cijfer en de

mediaan zijn wel lager.

c) Welke klas presteerde het best als je naar de tabel kijkt? Klas 2A

d) Welke centrummaat geeft dit het best weer? De mediaan

Statistiek – tweede jaar derde graad - 59 -

Page 61: Statistiek 2014 - 2015 Oplossingen

5. Het histogram hieronder geeft de brutolonen weer in België in 1995.

Welke stippellijn geeft het gemiddelde aan en welke de mediaan? Duid aan op de tekening.

Verklaar je antwoord :

Linker lijn is de mediaan en de rechter lijn is het gemiddelde, want het gemiddelde wordt

omhoog getrokken door de aanwezigheid van de extreme hoge lonen en de mediaan niet.

Welke centrummaat kun je het best vermelden? de mediaan omdat deze beter aangeeft waar de

meerderheid van de lonen zich bevinden

6. Een textielbedrijf heeft weinig goed betaalde werknemers: de meerderheid van de

werknemers verdienen slechts het wettelijk toegestane minimumloon. De vakbond wil dit

aanklagen aan de directie en berekent de mediaan. In de geplande meeting hieromtrent met de

directie stelt de vakbond vast dat de directie echter het rekenkundig gemiddelde heeft

berekend.

Maakt dit iets uit ? ja / nee

Wie geeft het best “het midden” weer? De vakbond / de directie

Waarom?

Voor het berekenen van het rekenkundig gemiddelde maakt men gebruik van alle lonen en

de hoge lonen van de directie en de kaderleden gaan dit gemiddelde omhoog trekken zodat

dit geen goede weergave is voor het loon dat de meerderheid van de arbeiders zullen

verdienen. De vakbond geeft dus beter het centrum weer omdat de mediaan resistent is

voor deze extreem hoge lonen van de directie en kaderleden.

Statistiek – tweede jaar derde graad - 60 -

Page 62: Statistiek 2014 - 2015 Oplossingen

7. Hieronder een histogram van de geboortegewichten van baby’s

Beschrijf de vorm van dit histogram

Scheef naar links

De gemiddelde baby heeft een gewicht van 3,28kg een de mediaan is 3,40kg.

Geef een verklaring waarom de mediaan groter is dan het gemiddelde

Het gemiddelde is niet resistent en wordt naar beneden getrokken door de kleinere gewichten

in de staart terwijl de mediaan daar ongevoelig voor is.

Welke centrummaat geeft het best het centrum weer? De mediaan

Statistiek – tweede jaar derde graad - 61 -

Page 63: Statistiek 2014 - 2015 Oplossingen

3. Centrummaten via Excel

Open het bestand 3A) Centrummaten

A. Via de dataset gebruik fx en selecteert telkens de dataset

Schoenwinkel “Sabato” was geïnteresseerd naar de schoenmaten van zijn vrouwelijke klanten.

Hij noteerde gedurende een week van elke 3de , 6de , 9de , 12de en 15de vrouwelijke klant de schoenmaat.

Open het tabblad dataset schoenmaten

gemiddelde schoenmaat = 38,8 mediaan = 39 modus = 39

Geef voor jouw gegevens de betekenis van de mediaan

Minstens 50% van de vrouwen heeft maximaal een schoenmaat 39 of

Minstens 50% van de vrouwen heeft minimaal een schoenmaat 39 of

Minstens 50% van de vrouwen heeft een schoenmaat 39 of meer of

Minstens 50% van de vrouwen heeft een schoenmaat 39 of minder

Oefening : een consumptieorganisatie onderzocht de levensduur van batterijen door ze in een

zaklamp te Oefening : een consumptieorganisatie onderzoekt de levensduur van batterijen. Ze

steken ze in een zaklamp die continu blijft branden tot de batterijen op zijn.

Open het tabblad dataset batterijen en bepaal voor beide types batterijen

Welk type batterij ga je in de winkel kopen en waarom?

Type B – alle centrummaten zijn hoger dan bij type A.

B. Via de enkelvoudige tabel gebruik GEEN fx

Je moet alles zelf bepalen zoals op p.47 alleen neemt de computer het rekenwerk over.

Open het tabblad tabel schoenmaten

gemiddelde schoenmaat = 38,8 mediaan = 39 modus = 38 en 39

TIP : om het gemiddelde te vinden via een tabel maak je een extra kolom waarin je de waarden van

de veranderlijke gaat vermenigvuldigen met AF. Die kolom moet je optellen en als je deze som deelt

door de omvang dan heb je het gemiddelde

Voor de mediaan kijk je in de CRF kolom en voor de modus in de AF kolom.

Statistiek – tweede jaar derde graad - 62 -

Type A Type B

Gemiddelde 103,6 uur 104,4 uur

Mediaan 104,5 uur 106,5 uur

Modus 112 uur 113 uur

Page 64: Statistiek 2014 - 2015 Oplossingen

Opmerking : als je deze resultaten zijn dezelfde als van de dataset behalve de modus.

Oefening - open het tabblad tabel dobbelen

gemiddelde som der ogen = 7,3 ogen mediaan = 7 ogen modus = 7 ogen

Geef voor deze gegevens de betekenis van de mediaan

Bij minstens 50% van de worpen heeft men maximaal ( of minimaal 7) ogen gegooid

C. Via de gegroepeerde tabel gebruik GEEN fx

Open het bestand 3A) Centrummaten als dit nog niet open staat

Open het tabblad tabel schaatstijden

1) Op hoeveel moet je de gemiddelde schaatstijd afronden en waarom?

Op 2 decimalen omdat de waarden van de dataset op 1 decimaal zij afgerond.

2) gemiddelde schaatstijd = 43,38 seconde

TIP : om het gemiddelde te vinden via een tabel maak je een extra kolom waarin je de middens

gaat vermenigvuldigen met AF. Die kolom ga je optellen en als je deze som deelt door de omvang

dan heb je het gemiddelde.

3) mediaan = 43,4 seconde

TIP : kijk in de CRF kolom naar de 50%, het midden dat hoort bij die 50% is dan de mediaan

4) modale klasse = 43,7 - 44,1 seconde

TIP : zoek in de AF kolom het grootste getal. De klasse die daarbij hoort is de modale klasse

5) modus = 43,9 seconde

TIP : het midden van de modale klasse

6) Geef de betekenis van de modus in de context van deze opgave

De meeste schaatsers reden een tijd van ongeveer 43,9 seconde

7) Geef de betekenis van de mediaan in de context van deze opgave

Minstens 50% van de schaatsers reden een schaatstijd van maximaal 43,4 seconde

Statistiek – tweede jaar derde graad - 63 -

Page 65: Statistiek 2014 - 2015 Oplossingen

Open het bestand 3) Centrummaten – je voornaam als dit reeds gesloten is.

Open het tabblad dataset rapportcijfers

1) Waarom heeft het geen zin om van beide klassen het modale cijfer te vergelijken?

Het modale cijfer is het cijfer dat het vaakst voorkomt. Hier zegt het niet veel, want misschien komt alleen 6,7 twee keer voor en zijn alle andere cijfers veel hoger of lager, maar wel onderling verschillend.

2) Bepaal van beide klassen de mediaan.

Klas A : mediaan rapportcijfer = …6,2.. Klas B : mediaan rapportcijfer = …6,5..

3) Zegt de mediaan iets over welke klas beter heeft gescoord voor de toets?

Met de mediaan weet je dat minstens 50% van de cijfers zeker hoger of gelijk aan 6,2 of 6,5 is.

In klas B heeft de betere helft dus hoger gescoord dan in klas A.

4) Bereken van beide klassen het gemiddelde cijfer.

Klas A : gemiddelde rapportcijfer = …6,0….. Klas B : gemiddelde rapportcijfer = 6,5..

5) Welke van beide klassen heeft het hoogste gemiddelde? Klas B

Kun je nu zonder meer zeggen dat die klas ook beter heeft gescoord?

Klas B is beter, het gemiddelde is behoorlijk hoger en de mediaan is ook hoger. Zonder

mediaan was dit niet mogelijk geweest, zie oefening p.58

Open het tabblad tabel geboortegewichten - je mag hier NERGENS fx gebruiken

In een ziekenhuis heeft men gedurende veertien dagen alle geboortegewichten genoteerd.

1) gemiddelde geboortegewicht = 3,351 kg

2) Het modale geboortegewicht is 3,32 kg

Dit wil zeggen dat de meeste baby’s bij hun geboorte ongeveer 3,32 kg wegen.

3) Er is 50% kans dat een baby meer weegt dan 3,37 kg

Dit getal komt overeen met welke centrummaat? de mediaan

4) 0ngeveer 25% van de baby’s weegt minimaal 3,70kg

5) 9 baby’s wegen 2,95kg of minder.

Statistiek – tweede jaar derde graad - 64 -

Page 66: Statistiek 2014 - 2015 Oplossingen

Hoofdstuk 6 : spreidingsmaten

1. Inleidend voorbeeld

Een consumentenorganisatie onderzocht de levensduur van twee soorten batterijen d.m.v. een

steekproef. De lengte van elk staafje komt overeen met de levensduur van een welbepaalde

batterij. Het gemiddelde van type A is 103,9 uur en voor type B 104,4uur.

Met deze gegevens is het niet zo simpel om het “beste” merk naar voren te schuiven. Welk argument

zou jij, als verantwoordelijke van die consumentenorganisatie, gebuiken om je lezers één van beide

merken aan te raden?

Geef een argument voor type A

Zij gaan dan wel gemiddeld minder lang mee maar wijken allemaal niet veel af van dit

gemiddelde terwijl type B veel meer afwijking vertoont.

Geef een argument voor type B

Gaan gemiddeld langer mee en die paar slechte batterijen nemen we er dan maar bij, er zijn

er ook die extra lang mee gaan.

Statistiek – tweede jaar derde graad - 65 -

Page 67: Statistiek 2014 - 2015 Oplossingen

Het is jullie dus zeker niet ontgaan dat de levensduur van de A-batterijen een kleinere variatie

vertonen. Dit willen we in één cijfer uitdrukken.

2. De variatiebreedte

We maken het verschil tussen de maximale en de minimale waarde, dit getal noemt men de

variatiebreedte.

Variatiebreedte type A = 30 uur Variatiebreedte type B = 78 uur

Levert deze waarde altijd een betrouwbare indicatie op voor de mate van spreiding ? neen

Verklaar :

Ze houdt enkel rekening met de uiterste waarden. Als er dus uitschieters zijn geeft deze

waarde geen goed idee over de spreiding.

De variatiebreedte is dus een zeer weinig bruikbare spreidingsmaat.

Daarom voeren we een nieuwe spreidingsmaat in : de standaardafwijking.

3. de standaardafwijking

1) We gaan kijken hoeveel elk gegeven afwijkt van zijn gemiddelde.

We gaan dus van elk gegeven het gemiddelde af doen.

Doe dit in kolom B voor type A en in kolom F voor type B

2) Wat vind je als som van al deze verschillen maakt ? nul

3) Hoe denk je dat dit komt ?

De som van de negatieve waarden = de som van de positieve waarden

4) Hoe zou je dit kunnen oplossen?

Deze verschillen tot de tweede macht verheffen

5) Bereken dus telkens het kwadraat van de verschillen in de kolom ernaast en maak nu de som

Voor type A = som (gegeven – gemiddelde)² = 1423

Voor type B = som (gegeven – gemiddelde)² = 5372,55

Statistiek – tweede jaar derde graad - 66 -

Page 68: Statistiek 2014 - 2015 Oplossingen

Vermits er meer batterijen zijn van type A dan van type B moeten we dit delen door hun aantal.

Maar we werken met een steekproef en gaan delen door n - 1

Zouden we werken met de populatie, dan delen we door n .

Het getal dat we nu bekomen noemen we de variantie.

Variantie type A = 74,89

Variantie type B = 282,77

Probleem :

Omdat we alles in het kwadraat hebben gedaan, hebben we dus niet meer dezelfde eenheid als onze

gegevens. Uur² bestaat zelfs niet.

6) Hoe lossen we dit probleem op ? vierkantswortel nemen

Zo krijgen we een nieuw getal dat we de standaardafwijking noemen

Standaardafwijking type A = 8,7 uur

Standaardafwijking type B = 16,8 uur

Je merkt dus dat we voor type B een grotere standaardafwijking hebben, wat wijst op een grotere

spreiding van de resultaten t.o.v. het gemiddelde.

Betekenis 8,7 uur type A – de batterijen van type A wijken gemiddeld 8,7 uur van hun

gemiddelde tijd van 103,9 uur.

Is de standaardafwijking een resistente grootheid? neen omdat zij gebruik maakt van het

gemiddelde die een niet resistente grootheid.

Opmerking :

De standaardafwijking is iets wat niet vaak vermeld wordt in de media, en dat is spijtig.

Voorbeeld :

Als iemand je zou vertellen dat het gemiddelde aanvangssalaris in een bepaalde firma €70.000 is,

zou je denken ‘Wauw! Geweldig!’

Maar als de standaardafwijking €20.000 zou zijn, kan je salaris gemiddeld afwijken van het

gemiddelde met dit bedrag. Je loon zou dus liggen tussen de €30.000 en de €110.000, want

meestal liggen 95% van de gegevens tussen het gemiddelde – 2 x de afwijking en gemiddelde + 2

x de afwijking. Dus eigenlijk heb je te weinig informatie aan het gemiddelde alleen.

Statistiek – tweede jaar derde graad - 67 -

Page 69: Statistiek 2014 - 2015 Oplossingen

Oefening

Stel je voor dat je een nieuwe wagen wil aanschaffen. Na een speurtocht bij diverse autohandelaars

blijft je keuze beperkt tot twee modellen, model A en model B. Het valt je echter zwaar een

beslissing te nemen want deze modellen verschillen niet in prijs, opties en merkbekendheid. In een

consumentenblad vind je een eigenaarenquête, dat aangeeft dat de standaardafwijking van de

onderhoudskosten voor model B lager is dan voor model A. Wanneer je je baseert op deze

informatie welke van de onderstaande beweringen is dan correct?

Model A met een grotere standaardafwijking geniet je voorkeur omdat een grotere waarde voor

de afwijking inhoudt dat de onderhoudskosten voor dit model minder van elkaar verschillen.

Model B met de kleinere standaardafwijking geniet je voorkeur omdat dit aangeeft dat er slechts

een klein verschil is bij de verschillende eigenaars van dit model in de gerapporteerde

onderhoudskosten.

Beide modellen zijn aanvaardbaar omdat je twee standaardafwijkingen niet met elkaar kan

vergelijken.

Oefening 2

a) Bereken het gemiddelde voor elke klas.

Gemiddelde klas A = (2*1+4*2+3*3+3*4+3*5+4*6+3*7+3*8+3*9+2*10) / 30 =

Gemiddelde klas B (2*3+2*4+3*5+9*6+3*7+8*8+1*9+2*10) / 30 =

b) Voor welke klas is de standaardafwijking het grootst? Klas A omdat daar meer afwijking is t.o.v. het gemiddelde

Statistiek – tweede jaar derde graad - 68 -

Page 70: Statistiek 2014 - 2015 Oplossingen

4. Interkwartielafstand = IQR

Het eerste kwartiel Q1 is gelijk aan de mediaan van de eerste helft van de gegevens. Dit wil zeggen

dat ongeveer 25% van de gegevens kleiner is of gelijk dan Q1, terwijl ongeveer 75% van de

gegevens groter is of gelijk dan Q1.

Het derde kwartiel Q3 is gelijk aan de mediaan van de tweede helft van de gegevens. Dit wil

zeggen dat ongeveer 75% van de gegevens kleiner is of gelijk dan Q3, terwijl ongeveer 25% van de

gegevens groter is of gelijk dan Q3.

De interkwartielafstand IQR = Q3 - Q1

Hoe groter de IQR hoe groter de spreiding van de 50% middelste gegevens t.o.v. de mediaan en is

een resistente spreidingsmaat.

Voorbeeld

Een studie in Zwitserland onderzocht hoeveel keer een dokter binnen één jaar een keizersnede

uitvoert.

Dit zijn de gegevens van een steekproef van 15 vrouwelijke artsen.

20 25 25 27 28 31 33 34 36 37 44 50 59 79 86

Q1 = 27 ; Q3 = 50 ; IQR = 23

Wat is nu de betekenis van deze getallen voor onze gegevens?

Q1 :

minstens 25% van de vrouwelijke artsen doet binnen één jaar 27 keer een keizersnede of minder

Q3 :

minstens 25% van de vrouwelijke artsen doet binnen één jaar 50 keer een keizersnede of meer

IQR :

De 50% middelste gegevens hebben een spreiding van 23 keizersneden.

Statistiek – tweede jaar derde graad - 69 -

Page 71: Statistiek 2014 - 2015 Oplossingen

Deze IQR gebruikt men om uitschieters te bepalen.

Alles kleiner dan Q1 – (1,5.IQR) zijn uitschieters te klein,

Alles groter dan Q3 + (1,5.IQR) zijn uitschieters te groot.

Bepaal voor de gegevens hierboven de uitschieters

27 – 1,5 . 23 = - 7,5 Geen uitschieters te klein aanwezig in onze dataset.

50 + 1,5 . 23 = 84,5 HIERUIT BLIJKT DAT 86 EEN UITSCHIETER TE GROOT IS.

Na verder onderzoek kan men beslissen deze weg te laten.

De vijfgetallensamenvatting – de boxplot

Met de interkwartielafstand knip je de dataset in 4 gelijke delen, waarmee je de mate van spreiding

kan afleiden.

- Wanneer de IQR klein is, weet je dat veel waarden dicht bij de mediaan liggen. Wanneer de

IQR groot is, weet je dat de waarden behoorlijk gespreid zijn ten opzichte van de mediaan.

- De interkwartielafstand is een veel betere spreidingsmaat dan de variatiebreedte omdat hij

niet beïnvloed wordt door uitschieters.

- Op onze boxplot is er de kleinste spreiding tussen Q1 en de mediaan, de grootste spreiding is

aanwezig in de laatste 25% van de resultaten.

De grootte van de rechthoek zegt niets over de aantallen waarnemingsgetallen. Elk van de vier

gebieden representeert altijd 25% van het aantal resultaten. Wanneer een bepaald gebied groter is

dan een ander, betekent dit alleen dat de resultaten in het grotere gebied meer spreiding vertonen.

Oefening 1 - hieronder zie je in één figuur de Citoscores van de twee basisscholen “Het Kompas” en

“de Windhoek”. Op Het Kompas deden 36 leerlingen mee en op “De Windhoek deden 60 leerlingen.

a) Hoeveel procent van het totaal van alle leerlingen van deze twee scholen haalde een score van

525 of meer? 65,6% in totaal 50% van Kompas = 18 en 75% van Windhoek = 45 → 63 van de 96

b) Hoe groot is de variatiebreedte van  “De Windhoek”? 45

c) Hoe groot is de kwartielafstand van “Het Kompas"? 20

d) In de buurt van welke score scoorden waarschijnlijk de meeste leerlingen? Leg duidelijk uit!

537, in de buurt van deze waarde zitten minstens 25% van de leerlingen want de spreidings is daar zeer klein

Statistiek – tweede jaar derde graad - 70 -

Page 72: Statistiek 2014 - 2015 Oplossingen

Oefening 2 - Een zakje dat 28,5 gram of minder weegt,

wordt afgekeurd. Als bij een controle

van 20 zakjes meer dan twee zakjes worden afgekeurd,

moet de machine worden nagekeken.

De resultaten van een andere controle van 20 zakjes zijn in onderstaande boxplot verwerkt.

Moet de machine worden nagekeken? Leg je antwoord uit.

25% van de zakjes weegt 28,5 gram of minder

25% van 20 zakjes is 5 zakjes

5 zakjes is meer dan 2 zakjes, dus de machine moet worden nagekeken

Oefening 3 - Om een duidelijker beeld te krijgen van de leeftijdsopbouw van de docenten op hun

school, hebben Elise en Maaike van de gegevens uit de frequentietabel twee boxplotten

getekend. Het resultaat zie je hieronder.

Hoeveel procent van de vrouwelijke docenten is volgens de boxplotten ouder dan de jongste helft

van de mannelijke docenten? Laat zien hoe je aan je antwoord komt.

Een boxplot is in stukjes van 25% verdeeld

De mediaan van de mannen valt samen met het derde kwartiel van de vrouwen

Dus 25% van de vrouwelijke docenten is ouder dan de jongste helft van de mannelijke docenten.

Oefening 4 –

a) Bij geldautomaat II is er die dag in totaal meer geld opgenomen dan bij geldautomaat I.

b) Het kleinste en het grootste bedrag dat die dag bij beide geldautomaten zijn opgenomen zijn

hetzelfde.

c) Bij geldautomaat I worden relatief meer kleine bedragen opgenomen dan bij geldautomaat II.

Geef van elke uitspraak aan of deze af te leiden is uit figuu.. Licht je antwoorden toe.

a) kan niet uit figuur 1 worden af geleid: uit een boxplot kun je geen AF aflezen

b) de linker- en rechteruiteinden van de boxplotten liggen precies boven elkaar

c) het eerste kwartiel van geldautomaat I is kleiner dan het eerste kwartiel van geldautomaat II

Statistiek – tweede jaar derde graad - 71 -

Page 73: Statistiek 2014 - 2015 Oplossingen

5. Spreidingsmaten via ICT

Open het bestand 4B) Spreidingsmaten

Open tabblad dataset schoenmaten

Schoenwinkel “Sabato” was geïnteresseerd naar de schoenmaten van zijn vrouwelijke klanten. Hij

noteerde gedurende een week elke dag van elke 3de , 6de , 9de , 12de en 15de vrouwelijke klant de

schoenmaat

Kwartiel 1 = 38 Kwartiel 3 = 39,75 IQR = 1,75

Geef de betekenis voor de gegevens

Q1 : minstens 25% van de vrouwelijke klanten van schoenwinkel Sabato heeft schoenmaat 38

of kleiner

Q3 : minstens 25% van de vrouwelijke klanten van schoenwinkel Sabato heeft schoenmaat

39,75 of groter

Standaardafwijking = 1,14

Open tabblad tabel schoenmaten

Kwartiel 1 = 38 Kwartiel 3 =40 IQR = 2

TIP : kijk in de CRF kolom naar de 25%. De schoenmaat die daar bij hoort is het kwartiel 1

kijk in de CRF kolom naar de 75%. De schoenmaat die daar bij hoort is het kwartiel 3

Je ziet dat kwartiel1 hetzelfde is als bij de dataset, maar bij de dataset heb je voor kwartiel3 een andere

waarde.

Open tabblad tabel schaatstijden : gebruik bij een tabel NOOIT fx!

Kwartiel 1 = 42,4 sec Kwartiel 3 = 44,4sec

Oefening 1 : open het bestand 4C) spreidingsmaten - geboortegewicht

1) open dataset geboortegewichten 2) open tabel geboortegewichten

afwijking = 0,4583kg

kwartiel1 = 3,13kg kwartiel1 = 3,07kg

kwartiel3 = 3,69kg kwartiel3 = 3,57 kg

IQR = 0,56kg

Je ziet dat alle waarden van 1) en 2) dicht bij elkaar liggen, maar niet dezelfde zijn. Hoe komt die?

Omdat we in de tabel gewerkt hebben met de middens en niet met de echte waarden.

Statistiek – tweede jaar derde graad - 72 -

Page 74: Statistiek 2014 - 2015 Oplossingen

Geef de betekenis van je 3de kwartiel voor deze gegevens

minstens 25% van de jongens hebben een geboortegewicht van 3,69kg of meer

Oefening 2 : open het bestand 5) kengetallen lengtes vrouwen

1) Bepaal alle kengetallen :

gemiddelde = 162,0 cm

kwartiel1 = 158 cm

kwartiel3 = 167 cm

mediaan = 161cm

IQR = 9 cm

2) Vanaf welke lengte zou een gegeven een uitschieter zijn naar onder?

158 – 1,5 . 9 = 144,5 vanaf een lengte van 144,5 cm zou men een uitschieter te klein zijn.

3) Een vierde van de vrouwen is groter dan 167 cm, dit getal is kwartiel3

4) Een vrouw die hoogstens een standaardafwijking = 6,55cm van het gemiddelde afwijkt

heeft een normale lengte. Welke lengte mag een vrouw hebben die vrij normaal is?

162,0 – 6,55 = 155,45 en 162,0 + 6,55 = 168,55

Vrouwen tussen 155,5 cm en 168,6 cm hebben een normale lengte.

Statistiek – tweede jaar derde graad - 73 -

Page 75: Statistiek 2014 - 2015 Oplossingen

Hoofdstuk 6 : de normale verdeling

1. Histogram op dichtheidsschaal :

histogram TEST WISKUNDE OP 30 PUNTEN

0

5

10

15

20

25

10 - 14 15 - 19 20 - 24 25 - 29

SCORES

AA

NT

AL

Tussen welke waarden liggen de scores die de deelnemers behaald hebben? 10 op 30 en 29 op 30

Welke klassenbreedte heeft men gekozen? 5

Wat is de totale oppervlakte van het histogram?

5 . 10 + 5 . 20 + 5 . 15 + 5 . 5 = 250

Een histogram op dichtheidsschaal moet een totale oppervlakte hebben die gelijk is aan 1 = 100%

Om zo een histogram te tekenen neem je de hoogte van de rechthoeken gelijk aan

hoogte =

A .F .

klassenbreedte¿¿¿¿

grenswaarden AF RF % hoogte histogram

dichtheidsschaal

10 – 14 10 20% 0,04

15 - 19 20 40% 0,08

20 - 24 15 30% 0,06

25 - 29 5 10% 0,02

histogram op dichtheidsschaal TEST WISKUNDE OP 30 PUNTEN

0,00

0,02

0,04

0,06

0,08

10 - 14 15 - 19 20 - 24 25 - 29

SCORES

DIC

HT

HE

IDS

SC

HA

AL

Statistiek – tweede jaar derde graad - 74 -

Page 76: Statistiek 2014 - 2015 Oplossingen

oppervlakte van rechthoek 1 = 5 . 0,04 = 0,2 = 20%

oppervlakte van rechthoek 4 = 5 . 0,02 = 0,1 = 10%

De oppervlakte van elke rechthoek op dichtheidsschaal komt dus overeen met de RF

De totale oppervlakte = de som van de oppervlakte van alle rechthoeken =

5 . 0,04 + 5 . 0,08 + 5 . 0,06 + 5 . 0,02 = 1 = 100%

Statistiek – tweede jaar derde graad - 75 -

Page 77: Statistiek 2014 - 2015 Oplossingen

Oefening 1 : Hieronder is het histogram van de geboortegewichten van 10 000 lukraak gekozen baby’s

0,004 0,0132 0,03940,0802

0,3928

0,724

0,5532

0,171

0,0216 0,00060

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

geboortegewicht in kg

dic

hth

eid

ssch

aal

1) Hoeveel bedraagt de opp. van dit histogram? 1 of 100%

2) Met welke klassenbreedte heeft men gewerkt? 0,5

3) Wat is de oppervlakte van rechthoek 5 ? 0,5 . 0,3928 = 0,1964

Wat wil deze waarde zeggen ?

19,6% van de baby’s weegt tussen de 2,45kg en de 2,95kg

4) In de geneeskunde spreekt men over “laag geboortegewicht” wanneer het kind minder dan 2,5kg weegt.

Met de term “zeer laag geboortegewicht” bedoelt men gewichten beneden de 1,5 kg.

Hoeveel % van de kinderen wordt geboren met een zeer laag geboortegewicht?

0,5 . 0,004 + 0,5 . 0,0132 = 0,0086 = 0,86% van de baby’s

5) Hoeveel % van de kinderen heeft een gewicht tussen de 3kg en de 4kg?

0,5 . 0,724 + 0,5 . 0,5532 = 63,86%

6) Als je het histogram bekijkt dan valt de meerderheid van de gewichten tussen 2,45 kg en 4,45kg.

7) Het gemiddelde geboortegewicht x is 3,25kg met een standaardafwijking S van 0,591kg

Wat wil dit zeggen?

De baby’s wijken gemiddeld 0,591kg af van het gemiddelde gewicht van 3,25kg

8) Hoeveel baby’s hebben een modaal gewicht ? 3620 baby’s

0,5 . 0,724 = 0,362 Dus 0,362 . 10 000 = 3620 baby’s.

Statistiek – tweede jaar derde graad - 76 -

Page 78: Statistiek 2014 - 2015 Oplossingen

9) Zijn de geboortegewichten symmetrisch verdeeld,

Neen, ze zijn scheef naar links verdeeld

10) Heb je daar een verklaring voor?

Tegenwoordig laat men de baby’s vroeger komen als men merkt dat ze te zwaar worden.

Premature zijn echter nog steeds een stuk moeilijker te behandelen.

11) Zal de mediaan groter of kleiner zijn dan het gemiddelde? groter omdat

het gemiddelde naar beneden getrokken werd door de aanwezigheid van de kleinere gewichten in

de staart naar links.

Statistiek – tweede jaar derde graad - 77 -

Page 79: Statistiek 2014 - 2015 Oplossingen

Oefening 2

Bij een bedrijf hanteert men een prikklok systeem om de gewerkte tijd van de werknemers te registreren. Voor

160 willekeurig geselecteerde werknemers zijn de werktijden afgerond in uren voor de maand maart in

onderstaande tabel opgenomen.

1) Met welke klassenbreedte heeft men gewerkt? 10

2) Vul de laatste kolom in

grenswaarden AF Hoogte histogram op

dichtheidsschaal

120 - 129 15 0,009375

130 - 139 19 0,011875

140 - 149 32 0,02

150 - 159 40 0,025

160 - 169 35 0,021875

170 - 179 19 0,011875

3) Teken het histogram op dichtheidsschaal

0

0,005

0,01

0,015

0,02

0,025

0,03

120 - 129 130 - 139 140 - 149 150 - 159 160 - 169 170 - 179

Statistiek – tweede jaar derde graad - 78 -

Page 80: Statistiek 2014 - 2015 Oplossingen

2. Opstellen van een model voor de ganse populatie : de normale dichtheidsfunctie.

In voorgaande oefeningen hebben we steeds gewerkt met steekproeven. De resultaten hebben we

leren grafisch voorstellen d.m.v. een histogram op dichtheidsschaal. Zo kunnen we ons een beeld

vormen van hoe de gegevens van die steekproef verdeeld zijn.

Bij heel wat gegevens kan het histogram zeer goed benaderd worden door een symmetrische,

klokvormige kromme. In die gevallen bevindt het grootste deel van de gegevens zich in de

“middenmoot” en zijn uitschieters eerder zeldzaam. Veel frequentieverdelingen hebben een nette

symmetrische klokvorm, zeker als het veel gegevens betreft. Voorbeelden daarvan zijn de verdeling

van de lengtes van een grote groep mensen, de gewichten van volle pakken suiker, de inhoud van

een grote groep colaflessen van dezelfde soort en maat, enzovoorts.. Omdat deze verdeling zo

dikwijls voorkomt noemt ze de normale verdeling.

Voorbeeld

De resultaten voor wat de lichaamslengte betreft van 5000 Nederlandse vrouwen.

Histogram op dichtheidsschaal met het enkelvoudig polygoon = de gebroken lijn op het histogram

0,00000

0,01000

0,02000

0,03000

0,04000

0,05000

0,06000

0,07000

0,00000

0,01000

0,02000

0,03000

0,04000

0,05000

0,06000

0,07000

histogram op dichtheidsschaal frequentiepolygoon

Het gemiddelde x = 162,0cm en de standaardafwijking S = 6,55cm

De modale vrouw heeft een lengte tussen de 159,5 cm en de 162,5 cm .

Hoeveel % van de vrouwen heeft zo een modale lengte?

3 . 0,0624 = 0,1872 dus 18,7% heeft een modale lengte

Hoeveel % van de vrouwen hebben een lengte tussen de 153,5cm en de 171,5cm?

3 . 0,03513 + 3. 0,04933 + 3 . 0,0624 + 3 . 0,05833 + 3 . 0,04447 + 3 . 0,02887 = 0,83568

Dus 83,6% heeft een lengte tussen de 153,5cm en de 171,5cm

Omdat we de waarnemingen in klassen gegroepeerd hebben, wordt het lastig als je wilt weten

hoeveel % van de waarnemingen ligt tussen grenzen die geen klassengrenzen zijn. Daarom werd

naar een model gezocht. Carl Friedrich Gauss heeft zo’n model gevonden voor deze normale

verdeling.

Statistiek – tweede jaar derde graad - 79 -

Page 81: Statistiek 2014 - 2015 Oplossingen

Carl Friederich Gauss heeft aangetoond dat we de dichtheidskromme van normaal verdeelde

gegevens kunnen beschrijven met de functie f(x) voor de gehele populatie

f ( x )= 1√2π .σ ¿e

−(x−µ )²

2σ ²¿

e is hierin een irrationaal getal juist zoals en is gelijk aan

2,71828182…

is de populatie standaardafwijking

is het populatie gemiddelde

Deze functie noemt men de normale dichtheidsfunctie

Carl Friederich Gauss heeft aangetoond dat we de dichtheidskromme van normaal verdeelde

gegevens kunnen beschrijven met de functie f(x) voor de gehele populatie

f ( x )= 1√2π .σ ¿e

−(x−µ )²

2σ ²¿

e is hierin een irrationaal getal juist zoals en is gelijk

aan 2,71828182…

is de populatie standaardafwijking

is het populatie gemiddelde

Deze functie noemt men de normale dichtheidsfunctie

In de wiskunde spreekt men over een dichtheidsfunctie als de oppervlakte onder de kromme = 1

juist zoals bij een dichtheidshistogram.

Statistiek – tweede jaar derde graad - 80 -

Page 82: Statistiek 2014 - 2015 Oplossingen

Hieronder is het frequentiepolygoon getekend samen met de normale dichtheidsfunctie.

Je ziet inderdaad dat de grafiek van de normale dichtheidsfunctie het polygoon zéér goed benadert.

Het gemiddelde x =162,0cm en de standaardafwijking S = 6,55cm van de steekproef nemen we als

benadering voor het gemiddelde µ en de standaardafwijking van de populatie in de functie van

Gauss.

De lengte van de Nederlandse vrouwen stellen we voor met X.

Omdat deze normaal verdeeld is, noteert men X ~ N (162,0 ; 6,55)

Wanneer we ons afvragen hoeveel % van de vrouwen een lengte tussen 162cm en 168cm hebben,

dan moeten we dus oppervlakte berekenen onder de kromme van Gauss tussen 162 en 168.

Het voordeel van deze normale verdeling is dat we alle oppervlaktes kunnen bepalen, terwijl alleen

het gemiddelde en de standaardafwijking bekend hoeft te zijn.

We hebben al gezien dat veel frequentieverdelingen

een nette symmetrische klokvorm, zeker als het veel

gegevens betreft. Ook toen Albert Michelson de

snelheid van het licht probeerde te bepalen in 1879

a.d.h.v. een experiment, wat telkens een ander

meetresultaat opleverde, viel het op dat alle waarden

vrij symmetrisch verdeeld waren rond een centrale

waarde.

Statistiek – tweede jaar derde graad - 81 -

Page 83: Statistiek 2014 - 2015 Oplossingen

Dit is niet alleen bij dit experiment, ook in talloze andere onderzoeken bleken de meetwaarden een

dergelijke verdeling te hebben. Dat trok de aandacht van de 19de - Eeuwse wetenschappers en

wiskundigen.

Het was de Belgische wiskundige en astronoom Adolphe Quentelet die rond 1844 voor het eerst

ontdekte dat dergelijke symmetrische verdelingen, tot de grote verbazing van die tijd, ook bij

menselijke kenmerken optreden en niet alleen bij fysische metingen. Zo bijvoorbeeld stelde hij vast

dat de borstomtrek van 5738 Schotse soldaten, gegevens die hij in een medisch tijdschrift aantrof,

ook deze “ klokvormige “ verdeling vertoont.

In de buurt van het gemiddelde liggen dus de meeste gegevens. Hoe verder de gegevens van het

gemiddelde liggen, hoe minder vaak ze voorkomen.

Er zijn ook gegevens die totaal niet normaal verdeeld zijn, zoals de lonen. Hieronder het histogram

van de jaarlijkse inkomsten van 177 gezinnen uit Illinois. We zien dat het histogram rechts scheef is

en niet normaal verdeeld is.

Statistiek – tweede jaar derde graad - 82 -

Page 84: Statistiek 2014 - 2015 Oplossingen

3. De vuistregel = 68 – 95 – 99,7 regel bij normale verdelingen

We nemen de lichaamslengte van 21-jarige mannen die normaal verdeeld zijn met een gemiddelde

van 179cm en een standaardafwijking van 7,3cm.

Men noteert dit als → X ~ N (179 ; 7,3)

De normale kromme wordt beschreven door twee parameters µ en

De waarde µ, het populatie gemiddelde, komt overeen met de ligging van de symmetrieas.

Voor die waarde bereikt de kromme zijn hoogste punt.

De waarde , de populatie standaardafwijking, bepaalt de breedte van de kromme.

Ter hoogte van de waarde µ- en µ+ heeft de kromme een buigpunt.

De verticale as laat men bijna altijd weg.

De vuistregel → 68 – 95 – 99,7 regel bij een normale verdeling

Opmerking : deze regel kan men ook gebruiken om na te gaan of gegevens normaal verdeeld zijn.

Statistiek – tweede jaar derde graad - 83 -

Page 85: Statistiek 2014 - 2015 Oplossingen

Oefening

De inhoud van 750 potten jam is normaal verdeeld met een gemiddeld gewicht van 460 gram en een

standaardafwijking van 8 gram = N (460gram ; 8 gram)

Hoeveel van deze potten hebben volgens de vuistregels van de normale verdeling een inhoud

a) tussen 452 en 468 gram? 68% → 0,68 . 750 = 510 potten

b) meer dan 444 gram? 95% + 2,5% = 97,5% → 0,975 . 750 = 731 potten

c) tussen 468 en 476 gram? (95% - 68%) / 2 = 13,5% → 0,135 . 750 = 101,25 potten

d) tussen 444 en 460 gram? 95% / 2 = 47,5% → 0,475 . 750 = 356 potten

Statistiek – tweede jaar derde graad - 84 -

Page 86: Statistiek 2014 - 2015 Oplossingen

4. Kansen berekenen met behulp van de normale verdeling

Voorbeelden :

A. De lichaamslengte in cm van 21-jarige mannen is normaal verdeeld X ~ N (179,2 ; 7,32)

1° De kans dat een willekeurige 21 jarige man een lengte heeft kleiner dan 174cm is 23,9%

Om deze kans te bepalen moet je de oppervlakte zoeken onder de kromme links van 174.

Deze kans kunnen we bepalen via Excel als volgt :

Neem fx , norm.verd de rest spreekt voor zich enkel bij cumulatief waar typen.

2° De kans dat een willekeurige 21 jarige man een lengte heeft kleiner dan 180cm is 54,4%

Statistiek – tweede jaar derde graad - 85 -

Page 87: Statistiek 2014 - 2015 Oplossingen

B. De afmeting van de precisiewerkstukken in mm is normaal verdeeld, X ~ N ( 10,42 ; 0,30)

1° Welke afmeting moet een werkstuk hebben opdat 30% een kleinere afmeting zou hebben?

Dit kan je vinden met de functie norm.inv, bij kans zet je 0,30

Een werkstuk moet dus een lengte van 10,3mm hebben.

2° Hoeveel kans heeft een werkstuk om groter te zijn dan 11,3cm?

100% – 99,8% = 0,2%

Een werkstuk heeft dus een kans van 0,2% om groter te zijn dan 11,3cm

Statistiek – tweede jaar derde graad - 86 -

Page 88: Statistiek 2014 - 2015 Oplossingen

C. De inhoud van een pakje koffie is normaal verdeeld. X ~ N ( 500,0 ; 8,24 )

1° Men heeft 65,5% kans dat een pakje koffie tussen de 490 en de 506 gram weegt.

76,7% - 11,2% = 65,5%

2° Om tot de 10% zwaarste pakjes te behoren moet je een gewicht hebben van meer dan : 511 gram

norm.inv, bij kans zet je 0,90

Statistiek – tweede jaar derde graad - 87 -

Page 89: Statistiek 2014 - 2015 Oplossingen

Oefeningen - duid eerst alle gegevens en het gevraagde aan op de grafiek onder elke oefening.

1° De massa van 5000 eieren is normaal verdeeld met gemiddelde van 55g en standaardafwijking van

6,3g. De eieren zijn onderverdeeld in drie gewichtsklassen : 40-50 50-60 60-80

Hoeveel eieren bevatten de twee eerste klassen?

20,2% - 0,62% = 19,58%

5000 . 0,1985 = 979 eieren

79,8% - 20,2% = 59,6%

5000 . 0,596 = 2980 eieren

Statistiek – tweede jaar derde graad - 88 -

Page 90: Statistiek 2014 - 2015 Oplossingen

2° Maak de berekening op p.67

3° Neem aan dat voor een groep mensen het I.Q. normaal verdeeld is volgens N(115;13,1)

Bereken de kans dat een lukraak gekozen lid van de groep een I.Q. heeft tussen 130 en 140.

97,4% - 87,4% = 9,8%

4° De bekertjes die behoren bij een frisdranken automaat kunnen, tot de rand gevuld, precies 11cl

vloeistof bevatten.

De automaat is zo geregeld dat verkregen volume normaal verdeeld is X ~ N (9,5 ; 0,62 )

Bereken de kans dat een bekertje bij het vullen overloopt.

100% - 99,2% = 0,8%

Statistiek – tweede jaar derde graad - 89 -

Page 91: Statistiek 2014 - 2015 Oplossingen

5° Neem aan dat voor de volledige bevolking het I.Q. verdeeld is volgens N (100;15).

Er wordt nu een vereniging opgericht waarvan de leden moeten behoren tot de 2% van de bevolking

die de hoogste I.Q. hebben. Welk I.Q. (afgerond op de eenheid) moet je hebben om in aanmerking te

komen als lid van deze vereniging?

Bij kans zet je 0,98 Een IQ van 132 of meer

6° Een farmaceutisch bedrijf wil drie laboranten aannemen. Alle 200 kandidaten worden voor een

gesprek uitgenodigd en moeten een test afleggen. De resultaten zijn normaal verdeeld N ( 73% ; 9%)

Hoeveel kandidaten met een score hoger dan 85% verwacht het farmaceutisch bedrijf op een tweede

gesprekronde?

100% - 89,6% = 10,4% 200 x 0,104 ~ 20 kandidaten

Statistiek – tweede jaar derde graad - 90 -

Page 92: Statistiek 2014 - 2015 Oplossingen

7° In de les fysica moeten de leerlingen het volume van een metalen bol bepalen door deze onder

water te dompelen en het niveauverschil van het water af te lezen. De meetresultaten van de leerlingen

zijn normaal verdeeld met gemiddelde = 20cm³ en standaardafwijking = 0,5cm³

a) Wat is de grenswaarde van 3% van de volumes met te lage meetwaarden? 19cm³

b) Voor welke grenswaarde is 40% van de meetwaarden van de volumes te hoog? 21cm³

Gedicht : Normale verdeling

Er werd op het WK-toernooi

Weer zeer normaal gespeeld

De vrije trappen waren mooi

En zeer normaal verdeeld

Want 95%

bleef doelloos, uur na uur

zo’n 68, da’s bekend,

belandde in de muur.

De 5 procent die overbleef

trof juist een paal of lat,

op één na die een boog beschreef,

de hoek inging en zat!

Men was ontroerd en stomverbaasd

en alom klonk applaus

en ieder wist, dit moet wel haast

de kromme zijn van Gauss!

Statistiek – tweede jaar derde graad - 91 -