Click here to load reader
Upload
enea-kongs
View
58
Download
10
Embed Size (px)
DESCRIPTION
wiskunde jaar 6
Citation preview
Cursus statistiekZesde jaar – 2 uur
Inhoudstafel
Hoofdstuk I : het verzamelen van gegevenspagina
1. Inleiding 3
2. De onderzoeksvraag 3
3. Het verzamelen van de elementen 5
4. Het verzamelen van de gegevens 20
5. Soorten veranderlijken 24
6. Algemeen besluit 30
Hoofdstuk II : enkelvoudige tabel
1. Herhaling begrippen 31
2. Enkelvoudige tabel via Excel & grafieken 34
Hoofdstuk III : gegroepeerde tabel
1. Indeling in klassen - herhaling 39
2. Grafische voorstelling gegroepeerde tabellen - histogram 44
3. Informatie halen uit histogrammen 46
4. Gegroepeerde frequentietabel & grafiek via Excel 49
Hoofdstuk IV: centrummaten
1. Centrummaten – opfrissen basisbegrippen 53
2. Bruikbaarheid van het gemiddelde 55
3. Centrummaten via Excel 61
Hoofdstuk V: spreidingsmaten
1. Inleidend voorbeeld 64
2. De variatiebreedte 65
3. De standaardafwijking 65
Statistiek – tweede jaar derde graad - 1 -
4. De interkwartielafstand - IQR 68
5. Spreidingsmaten via ICT 71
Hoofdstuk VI : de normale verdeling
1. Histogram op dichtheidsschaal 73
2. Opstellen van een model voor de ganse populatie : de normale dichtheidsfunctie 77
3. De vuistregel Þ 68 – 95 – 99,7 regel bij normale verdelingen 81
4. Kansen berekenen met behulp van de normale verdeling 83
Statistiek – tweede jaar derde graad - 2 -
Hoofdstuk 1 : het verzamelen van gegevens
1. Inleiding
De volgende vier grote stappen komen steeds terug bij elk statistisch onderzoek
Stap 1 → het stellen van de onderzoeksvraag
Stap 2 → het verzamelen van de gegevens = data
Stap 3 → de analyse van de data
Stap 4 → de interpretatie van de resultaten
In dit hoofdstuk gaan we het hebben over de eerste 2 stappen.
2. De onderzoeksvraag
Heb je dit ook al eens gemerkt? Je ging een weekend logeren bij je oma en opa en het bed waarin
je sliep, was zo kort! Inderdaad met je lengte van 1,90 meter ben je niet echt de kleinste van je
klas. Maar toch…
Navraag bij je grootouders leverde niets op; zij hadden nog nooit gehoord dat iemand moeite had
met het ‘korte’ bed. Zo kom je al gauw tot de vraag of jij zo uitzonderlijk lang bent of dat de
mensen in de loop van de tijd langer zijn geworden. Met zulk soort vragen is de kiem gelegd voor
onderzoek. Je stelt jezelf een onderzoeksvraag.
Alle onderzoeken beginnen met het stellen van een goede en duidelijke onderzoeksvraag waarin
de doelgroep vermeld wordt. Deze doelgroep noemt men in de statistiek de populatie.
De populatie is de doelgroep waarvan men een aantal kenmerken wil onderzoeken
Zonder een goed uitgewerkte onderzoeksvraag is er geen goed onderzoek mogelijk en dus ook
geen goed antwoord!
Voorbeelden van onderzoeksvragen zijn
Met welk vervoermiddel komen leerlingen van dé kunsthumaniora naar school?
Wie zal de grootste partij worden in België na de verkiezingen?
………………...…………………………………………………………………………………………
MAAR → heel dikwijls is er meer dan één onderzoeksvraag per onderzoek
Een onderzoek naar het GSM gebruik bij Vlaamse 16 jarigen kan volgende onderzoeksvragen hebben
1) Hoeveel berichtje sturen ze per maand?
2) Is er een onderscheid tussen meisjes - jongens?
3) Hebben ze een abonnement
4) ………………………………………………………………………………………………………….
Statistiek – tweede jaar derde graad - 3 -
Voorbeelden
1) Hoeveel maal per week vervangt junkfood een andere maaltijd bij de leerlingen van de
kunsthumaniora?
Beschrijf de populatie : de leerlingen van de kunsthumaniora
Welke verduidelijking heeft deze onderzoeksvraag nodig?
Wat verstaat men onder junkfood.
2) Is veel water drinken goed voor je gezondheid?
Welke verduidelijking heeft deze onderzoeksvraag nodig?
Wat verstaat men onder veel?
Wat bedoelt men met goed voor je gezondheid?
Geen doelgroep vermeld
3) “ Uit onderzoek blijkt dat 1 op 4 jongeren misbruikt wordt”,
4 Oktober 1994,San Fransico Examiner.
Dit resultaat kwam tot stand uit een onderzoek bij 2000 kinderen tussen de 10 en de 16 jaar in San
Fransisco.
Geef de onderzoeksvraag
Hoeveel % van de jongeren tussen 10 en 16 jaar wordt misbruikt in San Fransisco
Beschrijf de populatie kinderen tussen de 10 en de 16 jaar in San Fransisco.
Klopt dit hoge percentage wel?
De resultaten van dit onderzoek zijn enkel juist wanneer men weet dat de definitie van
kindermisbruik zeer breed genomen wordt. Het gaat over kinderen die geslagen, geduwd,
geschopt of bedreigd waren door een volwassene, gedurende het laatste jaar.
4) Veel jongeren gebruiken hun smartphone om spelletjes te spelen. Je wilt onderzoeken hoeveel
Vlaamse jongeren dit regelmatig doet.
Formuleer een nauwkeurigere onderzoeksvraag.
"Hoeveel procent van de Vlaamse jongeren tussen 14 en 16 jaar spelen minstens één kwartier
per dag een spelletje op hun smartphone?"
Statistiek – tweede jaar derde graad - 4 -
3. Het verzamelen van de elementen
De elementen zijn de objecten waarvan men een aantal kenmerken wil onderzoeken. Dit kunnen
personen, maar ook voorwerpen zijn. Het zijn dus de objecten uit de populatie.
A. Populatie versus steekproef
Men heeft twee soorten onderzoeksvragen
Voorbeelden
Hoeveel uur per dag kijken mijn honderd leerlingen TV?
Hoeveel uur per dag kijken Vlaamse secundaire leerlingen TV?
Hoeveel percent van de leerkrachten van de! kunsthumaniora hebben thuis Internet?
Hoeveel percent van de Belgische leerkrachten hebben thuis Internet?
Bij de eerste vraag kan men alle elementen onderzoeken en deze gegevens beschrijven.
Om de tweede vraag te bepalen willen we echter informatie over een zeer grote groep en kan
men meestal niet elk element onderzoeken.
Drie redenen waarom we niet elk element kunnen onderzoeken
1) de totale populatie onderzoeken is te kostbaar
2) de totale populatie onderzoeken is te tijdrovend
3) de totale populatie onderzoeken is onmogelijk - bv daklozen kan je zeer moeilijk bereiken.
Hoe beoordeel je of een pan soep klaar is? Je roert er even in en proeft vervolgens één lepel. Op
basis van die ene lepel trek je conclusies over de hele pan soep : je hoeft niet alles op te eten!
Bij statistiek werkt dit op dezelfde manier. We willen iets kunnen zeggen over een grote groep
mensen of zaken maar hebben geen tijd of middelen om ieder element te onderzoeken. Daarom
selecteren we een kleine groep elementen uit de populatie en op basis van die resultaten trekken
we conclusies over de populatie als geheel.
De steekproef is het deel van de populatie dat daadwerkelijk onderzocht zal worden.
De omvang n van de steekproef is het aantal elementen van de steekproef.
Voorbeeld : een farmaceutisch bedrijf brengt een nieuw geneesmiddel voor astma op de markt. Men weet uit ervaring dat mensen op verschillende wijze kunnen reageren op medicatie. Het bedrijf wil dat het nieuwe geneesmiddel voor minstens 90% van de gebruikers doeltreffend is en voert een test uit op 1000 patiënten.
Beschrijf de populatie : de astmapatiënten
Beschrijf de steekproef : de astmapatiënten die het geneesmiddel testen.
Omvang = 1000
Statistiek – tweede jaar derde graad - 5 -
Oefeningen – beschrijf steeds zo exact mogelijk
1) De NMBS wil het comfort van de Limburgse treinreizigers die elke dag van Genk naar Brussel
sporen, verbeteren. Daarom wordt er een enquête afgenomen bij 50 willekeurige reizigers van de
ritten Genk – Brussel Centraal om 7.15h, 7.50h en 8.15h (op elk tijdstip telkens 50 reizigers)
Populatie: de Limburgse treinreizigers die elke dag van Genk naar Brussel sporen.
Steekproef: de Limburgse treinreizigers die elke dag van Genk naar Brussel sporen die
deelnamen aan de enquête.
Omvang n : 150
2) De directeur van het college wil het schoolreglement aanpassen. Hiervoor selecteert hij uit elke
klas willekeurig één leerling om deel te nemen aan een vergadering.
Populatie: de leerlingen van het college
Steekproef : de leerlingen van het college die deelnamen aan de vergadering.
Omvang n : aantal klassen
3) Een meelfabrikant wenst te weten hoeveel procent van de Brusselaars hun eigen brood
bakken. Hij huurt daarvoor een aantal interviewers in, die willekeurig adressen bezoeken tijdens
de normale werkuren, tot ze samen 1500 gegevens hebben.
Populatie: de Brusselaars
Steekproef : de Brusselaars die geïnterviewd werden.
Omvang n = 15OO
Statistiek – tweede jaar derde graad - 6 -
4) Waardoor voelt een Vlaamse leerkracht zich beloond?Dit onderzocht Sara De Gieter (VUB) via een schriftelijke enquête die ze verstuurde naar 1500 leerkrachten waarvan er 763 de enquête ingevuld terugstuurden.En wat blijkt?
Het loonzakje is een belangrijke bron van waardering voor een leraar, maar 80% van de leraren zegt tevreden te zijn met een psychologische beloning : een schouderklopje van de directeur, blijk van waardering door een collega …
Ook zegt 69% dat ze tevreden zijn en zich gewaardeerd voelen door een goede relatie en een prettig contact met de leerlingen. Het gevoel de leerlingen te begrijpen en hen te kunnen helpen en zien groeien is een bron van beloning.
Beschrijf de populatie : alle Vlaamse leerkrachten
Beschrijf de steekproef de Vlaamse leerkrachten die hun enquête ingevuld terugstuurden.
Omvang n = 763
5) Een snelheidscontrole in een straat op 15/12/2013 tussen 14u en 16 uur
Beschrijf de populatie
Alle voertuigen die op 12/12/2013 tussen 14u en 16u door die straat rijden
Beschrijf de steekproef
Idem populatie
Omvang n = aantal gecontroleerde voertuigen
Statistiek – tweede jaar derde graad - 7 -
Artikel 1 - Kind wordt niet intelligenter van muzieklesGeschreven op 13 december 2013 door Caroline Kraaijvanger
Ouders hebben goede redenen om hun kinderen naar
piano- of zangles te slepen. De muzieklessen hebben
namelijk overduidelijk voordelen: kinderen leren wat
discipline is en zijn creatief bezig. Een ander veelgehoord
voordeel is dat de muziekles kinderen intelligenter maakt.
Maar dat is absoluut niet waar, zo blijkt nu uit nieuw onderzoek.
Het waanidee dat muziek goed is voor de intelligentie komt notabene voort uit een wetenschappelijk
onderzoek. Wetenschappers stelden jaren geleden dat proefpersonen na het luisteren naar muziek
beter presteerden tijdens bepaalde taken waarin het ruimtelijk inzicht een belangrijke rol speelde.
De onderzoekers concludeerden dat muziek mensen blijkbaar slimmer maakten en doopten dat
‘Het Mozart-effect’. Het onderzoek werd later keihard onderuitgehaald, maar het idee dat mensen
slimmer werden door naar muziek te luisteren bleef hangen. En daaruit vloeide ook het idee dat
muziekles kinderen intelligenter maakt, voort.
Experiment - de onderzoekers verzamelden 29 ouders en hun vierjarige kinderen. Eerst werd de
woordenschat van de kinderen getest. Ook keken de onderzoekers naar de muzikale aanleg van de
ouders. Dan werden de proefpersonen in twee groepen gedeeld. De ene groep kreeg muziekles.
De andere groep ging aan de slag met beeldende kunst. “We wilden achterhalen welke effecten
muziekonderwijs dat daadwerkelijk in de echte wereld plaatsvindt, heeft en we wilden het effect op
jonge kinderen bestuderen,” legt onderzoeker Samuel Mehr uit. Belangrijke veranderingen die de
onderzoekers ten opzichte van vorige studies doorvoerden, waren onder meer de docent en de
manier waarop na afloop de intelligentie van de proefpersonen werd getest. In vorige vergelijkbare
onderzoeken gaven verschillende docenten muziek- en kunstles. Om uit te sluiten dat dit effect had
op de resultaten werden de lessen nu door één en dezelfde docent verzorgd. En na afloop werd er
niet simpelweg een IQ-test afgenomen, maar toetsten de onderzoekers vier specifieke domeinen
van cognitie (waaronder ruimtelijk inzicht en de woordenschat). “Als muziekles echt een invloed had
op de cognitie van de kinderen dan zouden we tijdens dit onderzoek beter in staat moeten zijn om
dat effect te detecteren, omdat deze testjes gevoeliger zijn dan een algemene IQ-test.”
Niet significant - maar ook tijdens dit onderzoek konden de onderzoekers niet aantonen dat
muziekles cognitieve voordelen had. En ook nadat de onderzoekers het experiment nog eens
herhaalden (nu met 45 ouders en hun kinderen) bleek muziekles geen positief effect op de
intelligentie te hebben. “Er waren kleine verschillen tussen de prestaties van beide groepen, maar
die verschillen waren niet groot genoeg om statistisch significant te zijn.”
Toch moeten ouders dit onderzoek niet aangrijpen om hun kinderen massaal van muziekles te
halen. De onderzoekers benadrukken dat muzieklessen desalniettemin heel belangrijk zijn. “Elke
cultuur heeft muziek, waaronder muziek voor kinderen. Muziek vertelt iets over wat het betekent om
mens te zijn en het zou gek zijn als we dat niet aan onze kinderen leren.”
Statistiek – tweede jaar derde graad - 8 -
Artikel 2 - Moeilijk vraagstuk? Dans en het is zo opgelost De Standaard - donderdag 18 maart 2010
GENT - Min en min is plus. Voor een volwassene is
het soms al moeilijk te begrijpen, laat staan voor een
kind van tien. Toch is het een fluitje van een cent om
het hen uit te leggen. ‘Giet de theorie in een dansje
en de kinderen zijn er zo mee weg', zegt Lut De
Jaegher, lector en onderzoeker van de
Arteveldehogeschool Gent.
Gisteren testte ze haar theorie uit bij kinderen van een dansschool. Ze kregen een ingewikkelde
formule voorgeschoteld. X stond voor een bepaalde dansbeweging, Y voor een andere. Op de maat
van de muziek voerden de kinderen de pasjes uit. Kwamen ze een min tegen in de formule, dan
moesten ze met hun rug naar het publiek gaan staan, bij een tweede min moesten ze zich weer
omdraaien.
‘Zonder het te beseffen, leren ze zo dat min en min gelijk is aan plus', legt Lut De Jaegher uit. ‘Dat
is het bijzondere aan dansen. Eigenlijk zit daar veel wiskunde in. De kinderen moeten passen
tellen, de ruimte opdelen, een bepaalde richting uitgaan. Allemaal wiskunde, maar omdat ze
dansen leuk vinden, beseffen ze dat niet. Na zo'n dansles scoren ze beter voor rekenen.'
De onderzoekers kunnen dat bewijzen ook. Ze lieten 779 leerlingen tussen 10 en 14 jaar oud
wiskundige vraagstukken oplossen. Ze vroegen hen ook hoe angstig ze waren tijdens het oplossen
van de vraagstukken en hoe zeker ze waren van hun antwoorden. Een week later kregen ze weer
een test voorgeschoteld. Enkele kinderen hadden tussendoor dansoefeningen gekregen, andere
niet. De kinderen die gedanst hadden, haalden niet alleen betere resultaten, ze voelden zich ook
meer op hun gemak en waren zekerder van hun stuk.
Lut De Jaegher goot haar bevindingen in een lespakket dat ze MovingMath doopte. ‘Het is heus niet
de bedoeling om alle wiskundelessen te vervangen door dansoefeningen. Tien minuten tussendoor
kunnen al volstaan om een wiskundige term uit te leggen.'
Beschrijf de populatie
Artikel 1
Ouders met een 4-jarig kind
Artikel 2
Leerlingen tussen 10 en 14 jaar
Omvang n → Artikel 1 = 74 (als je de twee steekproeven samentelt anders is het 29)
Artikel 2 = 779
Statistiek – tweede jaar derde graad - 9 -
B. Een representatieve steekproef
In de statistiek moet een goede steekproef representatief
zijn. Daar bedoelen we iets mee als "eerlijk" of
"onbevooroordeeld". Als we een uitspraak over de bevolking
van België willen doen aan de hand van een steekproef dan
zal elke "bevolkingsgroep" naar verhouding in deze
steekproef moeten voorkomen. Met "bevolkingsgroep" wordt
bijvoorbeeld bedoeld: man-vrouw, ouderen-jongeren,rokers-
niet rokers, zieken-gezonden, rood haar - blond haar - bruin
haar .... en ga zo maar door.
Neem het volgende (overdreven) voorbeeld
Stel dat we een groep Belgen een enquête zouden sturen met daarin de vraag "Vult U graag
enquêtes in?" en we kijken naar de teruggestuurde formulieren, dan zouden we waarschijnlijk de
conclusie kunnen trekken dat de overgrote meerderheid van Belgen graag enquêtes invult!!
Degenen die dat niet doen gooien de enquête namelijk waarschijnlijk zo snel mogelijk in hun
prullenbak! Zo past de steekproef zichzelf aan. 't Is eigenlijk net zo dom als een steekproef per e-
mail houden en de vraag "Heeft U internetverbinding?" stellen. De conclusie zal ongetwijfeld zijn
dat 100% van de mensen een internetverbinding heeft....
Dit zijn natuurlijk wel heel domme voorbeelden, maar soms is het fout zijn van een steekproef
slechter te zien. Zo wilden twee leerlingen op de middelbare school onderzoeken hoeveel er
gerookt werd onder scholieren. Ze gingen aan het begin van de pauze bij de buitendeur staan en
vroegen de eerste 50 leerlingen die naar buiten kwamen: Rook je?"
Wat zou er hier dan fout kunnen zijn?
Helaas komen waarschijnlijk de rokers het eerst naar buiten of teveel van eenzelfde klas.
Statistiek – tweede jaar derde graad - 10 -
Om representatief te zijn moet er ten minste aan volgende eis voldaan worden
elk element uit de populatie moet evenveel kans hebben om in de steekproef voor te komen
Gebeurt dit niet, dan zullen de resultaten van een verder wiskundig - statistisch onderzoek, hoe
nauwkeurig ook uitgevoerd, weinig betrouwbaar zijn. Een foute steekproef levert onbetrouwbare
gegevens, hoe groot deze ook is, waarmee je geen veralgemeende uitspraken kan doen naar de
hele populatie. Geregeld blijken onderzoeken waardeloos omdat de ingezamelde gegevens
waardeloos zijn.
Statistici hebben een gezegde : “ Rommel erin = rommel eruit”
Oefening : zijn onderstaande steekproeven representatief
1) Voor een jeugdcentrum is het aantal kinderen per gezin in de
omliggende dorpen een belangrijk gegeven. Om hierover
informatie te krijgen wordt aan een aantal willekeurig gekozen
bezoekers van het jeugdcentrum gevraagd hoeveel kinderen er
bij hen in het gezin zijn. Het resultaat was dat er in de
omliggende dorpen gemiddeld 2,4 kinderen per gezin zouden
zijn.
Geef de onderzoeksvraag
Hoeveel kinderen zijn er in een gezin in de omliggende dorpen van het jeugdcentrum?
Wat is er onduidelijk in deze onderzoeksvraag? Omschrijven wat omliggend is / wat met
samengestelde gezinnen?
Beschrijf de populatie
De gezinnen in de omliggende dorpen van het jeugdcentrum.
Is deze steekproef representatief? verklaar
De steekproef is genomen in een jeugdcentrum, kinderloze gezinnen bereikt men dus zeker
niet. Een ander probleem is dat gezinnen met hele jonge kinderen ook niet vertegenwoordigd
zijn.
Statistiek – tweede jaar derde graad - 11 -
2) Een meelfabrikant wenst te weten hoeveel procent van de
Brusselaars hun eigen brood bakken. Hij huurt daarvoor een
aantal interviewers in, die willekeurig adressen bezoeken tijdens
de normale werkuren, tot ze samen 1500 gegevens hebben.
Geef de onderzoeksvraag
Hoeveel % van de Brusselaars bakt zijn eigen brood?
Is deze steekproef representatief? Verklaar
De mensen die tijdens de normale werkuren buitenshuis werken hebben geen kans om in de
steekproef te belanden. Men krijgt zo een ondervertegenwoordiging van deze mensen en zij
bakken misschien minder snel hun eigen brood dan anderen.
De omvang is 1500
3) Hier zie je vier manieren om een steekproef samen te stellen
A. Voor een onderzoek naar de service van de NS in de treinen ga je mensen enquêteren. Je kiest
voor de uit/ingang van een treinstation en bevraagt vanaf 7:00 uur elk uur van de dag 10
willekeurige reizigers.
B. Voor een onderzoek naar het rijgedrag van vrachtautochauffeurs ga je mensen enquêteren. Je
kiest voor de uit/ingang van een treinstation en bevraagt vanaf 7:00 uur elk uur van de dag 10
willekeurige reizigers.
C. Voor een onderzoek naar het rookgedrag van ouders van leerlingen van jullie school,
ondervraag je de eerste 50 binnenkomende ouders op een ouderavond.
D. Voor een onderzoek naar het rookgedrag onder ouders van leerlingen van jullie school,
selecteer je door loting 50 leerlingen van jullie school en ondervraag je weer na loting de vader of
de moeder van elk van de 50 leerlingen.
Steekproeven B en C zijn niet representatief omdat
Steekproef B is niet representatief maar wel aselect. Je spreekt waarschijnlijk relatief weinig
automobilisten. De mening van automobilisten is mogelijk sterk afwijkend van die van de
treinreizigers ten aan zien van de onderzoeksvraag.
Steekproef C is niet aselect, bijvoorbeeld ouders die tot laat werken zullen waarschijnlijk niet
vroeg op de ouderavond kunnen zijn en hebben dus en kleinere kans om in de steekproef te
komen. Ouders die niet naar het oudercontact komen hebben helemaal geen kans.
.
Statistiek – tweede jaar derde graad - 12 -
4) De gegevens over de werkloosheidsgraad zijn van groot belang voor economisten, zakenlui en
sociologen. Deze gegevens verstrekken immers informatie over het sociaal en economisch welzijn
van onze staat. Elke week worden 900 Belgische huishoudens willekeurig uitgeloot en geïnterviewd
door het NIS. Na een interval van 3 maanden worden de geïnterviewde huishoudens opnieuw kort
ondervraagd. Op basis van deze gegevens en volgens de definities van het Internationaal
Arbeidsbureau wordt de bevolking ingedeeld in 3 groepen ( werkenden, werklozen en niet-actieve
personen).
Beschrijf de populatie Belgische huishoudens
Is deze steekproef representatief? verklaar
Door het elke week willekeurig uitloten van 900 huishoudens is de steekproef representatief
voor de totale Belgische huishoudens.
Een steekproef moet ook voldoende groot.
Hoe groot de steekproef moet zijn om
betrouwbaar te zijn kan vooraf bepaald worden.
Een factor die de grootte van een steekproef
bepaalt, is hoe betrouwbaar je de
steekproefresultaten wil hebben en met welke
nauwkeurigheid. Zo kan je bijvoorbeeld een
resultaat wensen dat 95% betrouwbaar is met
een foutenmarge van 3%.
Met deze gegevens kan je dan via ingewikkelde formules de steekproefgrootte bepalen maar dit is
een vak apart.
ONTHOUD : een steekproef zal nooit een 100% nauwkeurig resultaat geven en meerdere
steekproeven zullen telkens een verschillend resultaat opleveren. De nauwkeurigheid van een
steekproef wordt de foutmarge genoemd. De foutenmarge heeft niets te maken met echte fouten.
Het is een maat voor de maximale toevallige afwijking van de resultaten. Zodra je niet de ganse
populatie onderzoekt, krijg je hiermee te maken, ook al is je onderzoek perfect uitgevoerd.
Statistiek – tweede jaar derde graad - 13 -
Een artikel met de vermelding van de foutenmarge vindt men niet vaak maar hieronder is er één
Bijna helft van Vlamingen kiest Vlaams volgens nieuwe peiling
22/02/13, 17u48 − Bron: belga.be
Volgens de laatste peiling naar het kiesgedrag bevestigt de N-VA zijn
monsterscore. Indien ook de stemmen van het Vlaams Belang geteld
worden, kiest momenteel 45,8 procent van de Vlamingen voor een
Vlaams-nationalistische partij.
In Vlaanderen blijft de N-VA groeien. In de peiling van La Libre groeit de partij nog eens 3,6
procent in vergelijking met november tot 39 procent. De peiling werd tussen 13 en 18 februari
afgenomen bij een representatief staal van 2.706 Belgische kiezers. In Vlaanderen ging het
om 903 keizers waarvan er 709 hebben geantwoord. Er wordt uitgegaan van een foutenmarge
van 3,3%.
* Deze foutenmarge betekent dat 45,8% kan schommelen tussen ………………………………….
Statistiek – tweede jaar derde graad - 14 -
C. Steekproefmethoden
Er zijn verschillende manieren om een steekproef te trekken. Allen zijn goed, maar in de ene
situatie is de ene manier beter dan de andere.
ONTHOUD : bij steekproeven is het zo dat je beter een kleine representatieve steekproef kunt
hebben dan een grote niet representatieve.
1° ASELECTE STEEKPROEVEN
Het onbedoeld bevoordelen of juist uitsluiten van bepaalde groepen wordt onzuiverheid genoemd,
met een Engelse term bias. De sleutel bij het samenstellen van een goede steekproef is
WILLEKEUR : alle elementen uit de populatie moeten dezelfde kans hebben om in de steekproef
te worden opgenomen. Op deze manier bekomen we een representatieve steekproef en kunnen
we de resultaten bekomen via de steekproef veralgemenen naar de populatie rekening houdend
met het vooraf bepaald betrouwbaarheidspercentage. Een aselecte steekproef laat ook toe de
foutenmarge te berekenen voor het bekomen resultaat.
1 - enkelvoudige aselecte steekproef of kortweg EAS
De grote moeilijkheidsgraad van deze methode is dat men moet
beschikken over een lijst van de elementen in de populatie. Dit wordt
vergemakkelijkt als er een elektronische database (bv.
consumentenpanel) aanwezig is. Zo niet kan dit een erg kostelijke en
tijdrovende aangelegenheid worden. Uit die lijst trekt men dan lukraak een aantal elementen.
MAAR : hoe trek je het beste lukraak? Je moet zoveel mogelijk “het menselijk handelen“
uitsluiten want hoe weet je of kaartjes even groot of dik zijn of hoe weet je hoeveel keer je moet
schudden om echt goed te mengen?
In de praktijk kent men aan alle elementen van de populatie een nummer toe en men laat de
computer dan random getallen genereren. De steekproef wordt dan gevormd door de elementen
die overeenstemmen met de uitgelote nummers.
2 - gestratifieerde steekproef
Deze steekproef gebruikt men als men weet dat de populatie uiteenvalt in verschillende
subgroepen die zich op een duidelijke manier onderscheiden tot het te onderzoeken kenmerk. Zo
zullen stadsbewoners bijvoorbeeld heel anders gaan antwoorden op bepaalde vragen dan mensen
van het platteland. De basis voor het vormen van strata kunnen bijvoorbeeld ook nog zijn :
afdeling, locatie, leeftijd, geslacht, onderwijsniveau ...
Men gaat dus de populatie in een aantal elkaar niet-overlappende strata indelen. Vervolgens
wordt uit elke strata op lukrake wijze een steekproef getrokken.
Het opdelen in verschillende strata geeft dan als voordeel dat je de verschillende subpopulaties
met elkaar kan vergelijken. De beste resultaten bereikt men als de elementen in een stratum
zoveel mogelijk op mekaar gelijken.
Statistiek – tweede jaar derde graad - 15 -
Voorbeeld
Honderd moeders hebben een reis gewonnen en mogen hun kinderen tussen 9 en 11 jaar gratis
meenemen naar Disneyland. Voor de heen en terugreis wordt een chartervliegtuig ingehuurd en de
organisator wil een benaderend idee hebben van de massa van de totale groep. Er zijn 100
moeders en 250 kinderen. Er is een groot verschil in massa tussen een groep volwassen vrouwen
en een groep kinderen. Daarom verdeel je de populatie in 2 tamelijk homogene subgroepen = 2
strata, namelijk de moeders en de kinderen. In elke subgroep trek je dan een EAS en je houdt
hierbij rekening met de relatieve grootte van de groep waaruit je trekt. Als je in totaal een steekproef
van grootte 35 wil hebben, dan zal je 10 moeders en 25 kinderen nemen
Een gestratifieerde steekproef geeft dikwijls meer precieze resultaten dan een EAS. Bij een EAS is
het mogelijk dat je 35 kinderen (of 35 moeders) in je steekproef hebt. De gestratifieerde
steekproefmethode beschermt je tegen zo’n situatie. Maar niets komt zo maar gratis. Om gebruik te
kunnen maken van een goede stratificatie moet je vooraf reeds goede informatie hebben over
karakteristieken van je populatie en over de manier waarop die karakteristieken je opmetingen
kunnen beïnvloeden. Als je iets wil weten over het gewicht dan weet je vooraf dat er een groot
verschil is tussen kinderen en volwassenen. Stratifiëren op basis van blond of donker haar zou hier
waarschijnlijk totaal verloren moeite zijn.
3 - systematische steekproef
Bij deze methode wordt de gehele populatie op een systematische wijze doorlopen. Het volgende
voorbeeld geeft eenvoudig weer hoe een systematische steekproef op praktische wijze kan
worden toegepast.
Voorbeeld
Je hebt een bestand van 7500 adressen en daaruit dient een steekproef van 150 adressen
getrokken te worden. Een eenvoudige berekening (7500/150) leert ons dat er op elke 50 adressen
één adres getrokken dient te worden. Vervolgens wordt nu eenmalig aselect een toevalscijfer
getrokken onder de 50. Stel dat dit toevalscijfer 3 is, dan worden vervolgens het 3e, 53e, 103e,
153e enzovoort adres in de steekproef opgenomen.
2° SELECTE STEEKPROEVEN
Alle elementen uit de populatie hebben niet dezelfde kans om in de steekproef te belanden. Dus
of een element in de steekproef terechtkomt, is afhankelijk van een persoonlijke beoordeling van
een onderzoeker.
Bij een selecte steekproef kent men de kans niet dat elk lid van de populatie heeft om in de
steekproef terecht te komen, met als gevolg dat de resultaten enkel gelden voor de onderzochte
groep, en niet zomaar veralgemeend kunnen worden naar de populatie.
Statistiek – tweede jaar derde graad - 16 -
1 - gemakshalve steekproef
Je neemt de elementen waar je het makkelijkst bij kan komen, of die je zonder veel extra inspanning
toevallig tegenkomt.
Voorbeelden
Je wil weten of de leerlingen van je school vinden dat roken ongezond is en daarom vraag je dat
gewoon aan je vrienden op school.
Om te weten of de mensen tevreden zijn over de kwaliteit van de aangeboden producten stelt een
verantwoordelijke van de supermarkt op zaterdagvoormiddag die vraag aan de eerste 250 klanten die
komen winkelen.
2 - Vrijwillige steekproef
Een grote groep mensen wordt uitgenodigd om te antwoorden. Al wie antwoord belandt in de
steekproef.
Voorbeeld
Een televisiestation vraagt aan de kijkers van dat moment telefonisch om hun mening over een
bepaald probleem te geven. Op het einde van de uitzending geven ze de percentages ja - en neen –
antwoorden.
Een steekproef op basis van vrijwillige reactie is geen goede methode voor statistisch onderzoek. Je
hebt geen enkel zicht op de manier waarop de steekproef tot jou komt en dikwijls kan je zelfs geen
nauwkeurige beschrijving geven van de populatie waaruit deze steekproef komt. Er treden allerlei
soorten vertekening op. Mensen die kwaad zijn reageren sneller dan mensen die tevreden zijn.
Mensen met een uitgesproken mening zullen sneller een radioprogramma opbellen dan anderen. Op
een internetenquête kan eenzelfde persoon 10 keer antwoorden, als hij tenminste internetverbinding
heeft en de juiste website kan vinden.
Laat je niet verleiden om onderzoeken met grote steekproefomvang eerder te
vertrouwen dan onderzoeken met kleinere steekproefomvang.
Veel belangrijker is de manier waarop een steekproef ontstaan is.
Een kleinere aselecte steekproef is altijd beter dan een grote selecte steekproef.
Statistiek – tweede jaar derde graad - 17 -
Oefening : Wat voor steekproefmethode werd hier gebruik? Indien het gaat over strata, vermeld dan ook waaruit deze bestaan.
1) Tijdens een alcoholcampagne in het weekend wordt op vrijdagnacht, zaterdagnacht en
zondagnacht tussen 0u en 3u elke vijfde chauffeur van de wagen die de stadskern van Vilvoorde
verlaat aan een alcoholtest onderworpen om het aantal promillengehalte te meten.
Over welke steekproef gaat het hier? aselect - systematische steekproef
2) In een school met 600 wil men de mening kennen van de leerlingen over het schoolreglement.
De directeur stelt voor om uit elke graad twintig leerlingen te bevragen.
Over welke steekproef gaat het hier? aselect - gestratifieerde steekproef volgens de 3 graden
3) Jelle van de leerlingenraad wil iets doen aan de overvolle boekentassen die leerlingen van de
tweede graad elke dag moeten dragen. Hij wil de massa van de boekentassen van een groot
aantal leerlingen bepalen om de directie te overtuigen dat men dit probleem moet oplossen.
Er zitten 320 leerlingen in de tweede graad en hij besluit om een 100-tal boekentassen te wegen.
a) Wat moet Jelle doen om een gestratifieerde steekproef te bekomen?
Strata = de studierichtingen en uit elke studierichting selecteert hij willekeurig een aantal
leerlingen waarvan hij de boekentassen weegt.
b) Wat moet Jelle doen om een gemakshalve steekproef te bekomen?
Hij gaat aan de schoolpoort staan en weegt de boekentassen van de eerste 100 leerlingen die
binnenkomen.
4) Een marktonderzoeksbureau trekt een steekproef van de Belgacom telefoonlijst door het
random selecteren van 10 personen waarvan de familienaam begint met een A, dan 10 personen
waarvan de familienaam begint met een B, en zo voor elke letter van het alphabet. In totaal
worden er dus 260 personen getrokken.
aselect - systematische steekproef naar beginletter van de familienaam.
Statistiek – tweede jaar derde graad - 18 -
5) Historische blunder op basis van de verkeerde steekproef :
Tijdens de verkiezingscampagnes van Roosevelt en tegenstander Landon in 1936 deed het
tijdschrift ‘the literary Digest’ een poging om de uitslag van de verkiezingen te voorspellen. Hiertoe
stuurden ze 10 miljoen formulieren naar de autobezitters en kregen er 2,4 miljoen terug. Een grote
telefonische enquête op basis van de telefoongids moest het onderzoek verder aanvullen.
De voorspelling dat 57% van de stemmen naar Landon zouden gaan en 43% naar Roosevelt was
compleet verkeerd, zoals de geschiedenis ons leert.
Wat zou de reden geweest zijn van hun falen?
De mensen die in 1936 telefoon en/of een auto bezaten, behoorden tot de meest gegoede
klassen. Er werd dus totaal geen rekening gehouden met de ‘lagere’ klassen van de
bevolking, die wellicht eerder democratisch = Roosevelt zouden stemmen.
U.S. President Franklin D. Roosevelt, waving, and first lady Eleanor Roosevelt, center, stand with members of their family
and supporters at Franklin Field in Philadelphia, Pa., where more than 100,000 persons heard the president's acceptance
speech, June 27, 1936. Roosevelt beat Alf Landon 523 to 8 in the electoral vote and 61 percent to 37 percent in the
popular vote in what was definitely a landslide. With the president, from left, are, Gov. George H. Earle of Pennsylvania,
smiling; Sara Roosevelt, his mother, in partial view; Franklin Jr.; Eleanor; Anne Roosevelt Boettiger and John Boettiger,
daughter and son-in-law; Vice President John Nance Garner; Mrs. James Roosevelt; and John Roosevelt, son. (AP
Photo.)
Statistiek – tweede jaar derde graad - 19 -
4. Het verzamelen van de gegevens
Een kenmerk van een element noemen we een veranderlijke of een variabele
De waarden van de veranderlijke zijn de gegevens of de data
De gegevens worden verzameld door metingen, tellingen, experimenten, …
Heel dikwijls maakt men gebruik van vragenlijsten om gegevens te verzamelen. In dit geval spreken
we van enquêtes. De personen die de vragenlijst beantwoorden zijn de respondenten.
Invloed van de vraagstelling bij enquêtes
Het resultaat van een enquête wordt ontzettend beïnvloed door de
vraagstelling.
Bij een enquête mogen de vragen niet suggestief zijn, men moet er steeds
voor zorgen dat je ze zo neutraal mogelijk maakt.
Ze moeten ook eenvoudig gesteld zijn en niet naar twee of meer dingen
tegelijk informeren.
Oefening – verbeter volgende vragen
1) Is Phillips het beste merk van TV – toestellen?
Wat is volgens u het beste merk van TV toestellen?
2) Ben je van oordeel dat bonenkoffie lekkerder en voordeliger is dan gemalen koffie?
Is bonenkoffie lekkerder dan gemalen koffie?
Is bonenkoffie voordeliger dan gemalen koffie?
3) Vind je ook dat politici teveel op televisie komen in spelprogramma’s?.
Vindt u dat politiekers meedere keren op televisie mogen komen in spelprogramma’s?
4) Stimuleren sociale uitkeringen jongeren om te gaan werken en moet de overheid voor een baan zorgen?
Zijn sociale uitkeringen voor jongeren een rem om gaan te werken?
Moet de overheid jongeren aan een baan helpen?
Statistiek – tweede jaar derde graad - 20 -
5) Ben je het eens dat de leerlingenraad zeggingschap moet krijgen in de planning van de
examenregeling?
Moet de leerlingenraad zeggingschap krijgen in de planning van de examenregeling?
De manier waarop je een vraag stelt kan ook bepalend zijn voor de uitslag
Voorbeeld 1
Leerlingen van een college kregen twee verschillende versies van een enquêtes.
De twee versies leverden een duidelijk verschil in antwoord op door de vragen anders te formuleren.
Voorbeeld 2
Uit “A. Tversky and D. Kahneman: The framing of decisions and the Psychology of Choice, Science, vol. 211, 30 january 1981”
Veronderstel dat de Verenigde Staten zich voorbereiden op het uitbreken van een zeldzame
Aziatische ziekte. Er wordt verwacht dat er 600 mensen zullen sterven aan de ziekte.
Een eerste groep van respondenten kreeg volgende twee alternatieve programma’s voorgesteld
1) Als men kiest voor programma A, dan zullen 200 mensen gered worden.
2) Als men kiest voor programma B, dan is er 1/3 kans dat 600 mensen zullen gered worden,
en 2/3 kans dat niemand zal gered worden.
Na rondvraag bleek : ……………………………………………..………………………………….
Een tweede groep van respondenten kreeg hetzelfde probleem voorgeschoteld, maar met een
andere formulering van de twee alternatieve programma’s
1) Als men kiest voor programma C, dan zullen 400 mensen sterven.
2) Als men kiest voor programma D, dan is er 1/3 kans dat niemand zal sterven,
en 2/3 kans dat de 600 personen zullen sterven.
Na rondvraag bleek : ……………………………………………..………………………………….
Wat is het verschil tussen deze twee groepen?
Bij A en B bekijkt men het vanuit het redden en bij C en D vanuit het sterven.
Besluit : let zeer goed op de vraagstelling bij enquêtes.
Statistiek – tweede jaar derde graad - 21 -
Het probleem van de non-respons
Het aantal mensen dat antwoordt op een enquête noemen we de respons.
Het aantal mensen dat wél gevraagd wordt aan het onderzoek deel te nemen, maar weigeren,
noemen we de non-respons.
De respons en de non-respons worden meestal uitgedrukt in procenten en deze waarde zou je
altijd moeten kennen.
1) Als het niet willen of kunnen meedoen aan een enquête op toeval zou berusten, dus willekeurig
verdeeld zou zijn over alle steekproefelementen, dan heeft deze non-respons alleen tot gevolg dat
de nauwkeurigheid van de resultaten afneemt, omdat de steekproefomvang kleiner geworden is.
2) Als de non-respons echter niet willekeurig verdeeld is kan je analyse verkeerde resultaten
opleveren. Non-respons kan de waarde van een onderzoek dus in belangrijke mate verminderen of
zelfs geheel teniet doen.
Daarom moet men ervoor zorgen de non-respons zo klein mogelijk te houden.
Hieronder staan een aantal voorbeelden van instructies die interviewers krijgen om het aantal
respondenten te verhogen.
a) Herhaaldelijk benaderen
Wanneer iemand niet thuis is op het moment dat hij wordt benaderd voor een enquête, moet je niet
direct opgeven en maar naar de buren stappen. Je kan beter op een ander tijdstip opnieuw
proberen om de respondent te pakken te krijgen, zo worden mensen die voor hun werk vaak van
huis zijn, niet systematisch uitgesloten.
b) Aankondigen
Wie weet wanneer er een onderzoek wordt gehouden, is voorbereid en vertrouwt het eerder.
Daarom is het handig om een onderzoek aan te kondigen door middel van een brief of een bericht
in de plaatselijke pers.
c) Betrouwbare mensen of instanties inschakelen
Als zo een aankondiging ondertekend is door een betrouwbare persoon zoals een huisarts, de
burgemeester,... kan dit de respons helpen verhogen.
Soms is het mogelijk om op nog directere wijze een persoon in te schakelen.
Zo kan bijvoorbeeld de directeur van een school de enquête uitdelen onder de leerlingen en de
leerkrachten.
d) Het de respondent gemakkelijk maken
Je moet zoveel mogelijk drempels wegnemen voor de respondent.
1° Heeft hij weinig tijd, maak dan een afspraak voor een geschikter moment.
2° Het spreekt voor zich dat iemand een vragenlijst eerder zal terugsturen indien de kosten
betaald worden door de onderzoekende instantie, in plaats van door de respondent zelf.
Daarom kan je bijvoorbeeld een postzegel op een bijhorende enveloppe plakken = dure methode
Statistiek – tweede jaar derde graad - 22 -
Oefening : lotto- winnaars
Wie fantaseert er wel eens over wat hij/zij zou doen indien hij/zij de lotto wint. De ene zou een
wereldreis maken, de ander zou stoppen met werken en van het geld rentenieren.
In 1985 publiceerde de 'Journal of the Institute for Socioeconomic Studies' een studie over lotto-
winnaars. Meer bepaald ging men in deze studie na hoeveel procent van de lotto- winnaars stopte
met werken binnen het jaar als men de grote prijzenpot won. Alle 2.000 lotto- winnaars die over een
periode van 10 jaar (1976-1985) meer dan 50.000 $ wonnen, kregen een vragenlijst toegestuurd.
Van de 576 vragenlijst die terug werden gezonden, had 11% hun job opgegeven.
1) Beschrijf de populatie
Alle lotto- winnaars die tijdens de periode 1976 tot 1985 meer dan 50.000 $ wonnen.
2) Beschrijf de steekproef
De lotto- winnaars die tijdens de periode 1976 tot 1985 meer dan 50.000 $ wonnen en die hun
vragenlijst ingevuld terugstuurden.
3) Deze steekproef is een select vrijwillige steekproef en is ontstaan door
Vul één van de 5 soorten in
de vragenlijsten per post op te sturen naar de 2.000 lotto- winnaars die ze ingevuld moesten
terugzenden.
4) Is de steekproef representatief voor de populatie ? nee
Dit is een steekproef op vrijwillige basis en dus select en niet representatief want waarom
antwoordden de anderen niet : waren ze op wereldreis en dus gestopt met werken of waren
ze te druk bezig met het rentenieren? …
5) Wat is de omvang? 576
6) Het responspercentage is gelijk aan 576 / 2000 * 100 = 28,8%
Statistiek – tweede jaar derde graad - 23 -
4. Soorten veranderlijken
KWALITATIEVE veranderlijken
Beschrijven eigenschappen op een manier waarbij “wiskundige bewerkingen” niet zinvol toe te passen zijn.
KWANTITATIEVE veranderlijken
Laten zich altijd uitdrukken in getallen op een manier waarbij “wiskundige bewerkingen” zinvol zijn. Ze zijn meestal de uitkomst van een meting of een telling.
NOMINAAL
GEEN rangorde
bv de bloedgroep
ORDINAAL
WEL een rangorde
bv het spreektempo
te snel – snel – traag –
te traag
CONTINU
als de waarden alle reële getallen kunnen
aannemen in een bepaald interval
bv de lengte van een
persoon
DISCREET
als de waarden enkel een aantal vaste
numerieke getallen kunnen zijn
bv het aantal
kinderen in een gezin
Als je continue gegevens opschrijft, dan moet je altijd ergens afronden. Het lijkt er dan op dat
tussen de verschillende waarden ook tussenstappen zitten maar dat komt omdat zij het resultaat
zijn van afronding.
Voorbeeld : de massa van een stukje metaal 12,4 ; 12,5 ; 12,6 ; …
12,4 betekent dat de massa schommelde tussen 12,35 en 12,45
12,5 betekent dat de massa schommelde tussen 12,45 en 12,55
Deze laatste getallen noemt men de onder- en bovengrenzen. Hun correctiewaarde = 0,05
- De diameter van een stalen as : 27,25 mm
ondergrens : 27,245 bovengrens : 27,255 correctiewaarde = 0,005
- De lengte van een persoon : 175,4 cm
ondergrens : 175,35 cm bovengrens : 175,45 cm correctiewaarde = 0,05 cm
- De massa van een olifant afgerond op 100kg : 4000 kg
ondergrens : 3950 kg bovengrens : 4050 kg correctiewaarde = 50 kg
- De massa van een baby afgerond op de gram : 3250 gram
ondergrens : 3249,5 gram bovengrens : 3250,5 gram correctiewaarde = 0,5 gram
Statistiek – tweede jaar derde graad - 24 -
Oefening 1 : via een enquête die ingevuld werd door de leerlingen van de! kunsthumaniora die op
maandag 7 september aanwezig waren, is een dataset ontstaan met een aantal gegevens.
Hieronder staat een heel klein deel van de dataset
leeftijd geslacht graad richting lengte BMI rookgedragbegin
rookgedrag18 vrouw 3 Beeldend 156 20,9 ja 1316 man 2 dans 178 21,2 gestopt 14
.
1° Er zijn 15 veranderlijken bevraagd.
2° De elementen zijn de leerlingen van de kunsthumaniora
3° Tot welke soort behoort elke veranderlijke? (opgelet : je moet telkens 2 kenmerken geven)
leeftijd : Discreet / continu kwantitatief (in dit geval eerder discreet)
geslacht : Nominaal kwalitatief
graad : Ordinaal kwalitatief
richting : Nominaal kwalitatief
lengte : Continue kwantitatief
BMI : Continue kwantitatief
rookgedrag : Nominaal kwalitatief
begin rookgedrag : Discreet / continu kwantitatief
intensiteit rookgedrag : Ordinaal kwalitatief
geld rookgedrag : Discreet kwantitatief
toestemming ouders : Nominaal kwalitatief
ontbijtgedrag : Ordinaal kwalitatief
junkfood : Discreet kwantitatief
sport : nominaal kwalitatief
fruit : Ordinaal kwalitatief
Statistiek – tweede jaar derde graad - 25 -
intensiteit roken geld roken
toestemming ouders ontbijtgedrag junkfood sport fruit
dagelijks 35,00 nee soms 3 nee regelmatigsoms 12,00 ja altijd 1 ja dagelijks
4° Is de veranderlijke continu, geef dan van de eerste waarde in de tabel de grenzen en de
correctiewaarde
Leeftijd 18 O : 17,5 B : 18,5 correctiewaarde : 0,5
Lengte 156 O : 155,5 B : 156,5 correctiewaarde : 0,5
BMI 20,9 O : 20,85 B : 20,95 correctiewaarde : 0,05
5° Beschrijf de populatie
alle leerlingen van de kunsthumaniora
6° Beschrijf de steekproef
De leerlingen van de kunsthumaniora die de enquête hebben ingevuld
Oefening 2 :
Klasse voor ouders, Nr70 (1996), p28 – 29)
De boekentassen zijn te zwaar
Zestig procent van onze veertienjarigen heeft rugklachten. Tachtig tot negentig procent van
de Vlaamse leerlingen sleurt elke dag een boekentas mee die veel te zwaar is. Ze weegt méér
dan tien procent van hun eigen lichaamsgewicht. In Oostenrijk zouden ze daar een rode
kaart voor krijgen. Wetenschappelijk onderzoek toont aan dat zestig procent van onze
veertienjarigen rugklachten heeft. De zware boekentas zit daar zeker voor iets tussen.
Gealarmeerd door verschillende signalen trok de redactie van KLASSE VOOR OUDERS in maart
1996 met een weegschaal naar de schoolpoorten. Meer dan tweehonderd leerlingen van
verschillende Vlaamse scholen gingen erop staan, met en zonder boekentas. Het gewicht van de
boekentas werd dan bepaald door deze 2 gewichten van elkaar af te trekken. Het verschil was
groot.
Er is geen vaste norm, maar algemeen wordt aangenomen dat een kind niet meer dan tien procent
van zijn eigen lichaamsgewicht mag meezeulen. In Oostenrijk is dat bijvoorbeeld ook een verplichte
norm. Daar stond de inspectie bij het begin van dit schooljaar aan de poort. Scholieren met een te
zware boekentas kregen een rode kaart. De Oostenrijkse minister van Onderwijs ging tot deze actie
over na verontrustende cijfers waaruit bleek dat dertig procent van de twaalfjarigen een slechte
houding had ontwikkeld door overbelasting van de rug.
Statistiek – tweede jaar derde graad - 26 -
En hoe zit het in Vlaanderen?
In de lagere school is tachtig procent van de boekentassen te zwaar, in het secundair onderwijs
negentig procent. Meer dan één op de tien Vlaamse scholieren draagt zelfs een boekentas die
twee keer te zwaar is: twintig procent van zijn eigen lichaamsgewicht. Dit zijn gemiddelden. Wij
kwamen in elk leerjaar kinderen tegen die meer dan één vierde van hun gewicht meesleepten.
Het zwaartepunt ligt duidelijk in het eerste jaar secundair onderwijs. Daar bedraagt het gemiddeld
gewicht van de boekentas (8 kg) achttien procent van het eigen gewicht (44 kg). Deze kinderen zijn
dus bijna allemaal twee keer te zwaar beladen.
In de lagere school stijgt het gewicht van de boekentas elk jaar lichtjes en blijft het vier leerjaren
lang aanvaardbaar zweven rond de elf procent van het lichaamsgewicht. In het vijfde leerjaar
merken we een plotse sprong en in het zesde leerjaar weegt de gemiddelde boekentas al zes en
een halve kilo (bijna zestien procent van het lichaamsgewicht).
In het secundair onderwijs wordt de boekentas merkwaardig genoeg niet elk leerjaar zwaarder.
Zowel in het eerste als het in het zesde jaar weegt ze er gemiddeld zo'n acht kilo. Uiteraard worden
de leerlingen zelf wel zwaarder, zodat de verhouding in hun voordeel zakt. Duidelijk overbelast zijn
het eerste en tweede jaar (18 % en 16 %). Daarna daalt het cijfer per leerjaar zodat de laatstejaars
in verhouding eigenlijk de lichtste boekentas hebben. Al hebben we ook daar ettelijke boekentassen
van meer dan tien kilo gewogen.
Statistiek – tweede jaar derde graad - 27 -
Beschrijf de populatie
Vlaamse leerlingen van 7 jaar tem 17 jaar met een boekentas.
Beschrijf de steekproef geef de omvang?
Vlaamse leerlingen van 7 jaar tem 17 jaar met een boekentas die men gewogen heeft.
Je kan enkel een veralgemeend onderzoeksresultaat vertrouwen als je een antwoord kan vinden
op onderstaande vragen, anders mist het aan betrouwbaarheid.
1° Waar / wanneer is dit onderzoek uitgevoerd?
In Vlaanderen op 1 maart 1996
2° Wat zijn de elementen?
Vlaamse leerlingen van 7 jaar tem 17 jaar met hun boekentas.
3° Geef de onderzochte veranderlijken?
De massa van de boekentas en de leerling
4° Tot welke soort behoren deze veranderlijken? Kwantitatief continu
5° Hoe is de steekproef ontstaan?
De redactie van klassen trok met de weegschaal naar de schoolpoorten van verschillende
Vlaamse scholen waar meer dan 200 leerlingen op de weegschaal gingen staan met en zonder
boekentas.
6° De omvang meer dan 200
7° Hoe komt het dat de resultaten van dit onderzoek aan betrouwbaarheid verliezen?
Men weet de omvang niet correct, meer dan 200 maar hoeveel zijn er dit dan.
Men kent ook de verhouding van de leeftijden binnen de onderzochte groep leerlingen niet.
Van verschillende scholen, maar over heel Vlaanderen en in welke verhouding?
Statistiek – tweede jaar derde graad - 28 -
Oefening 3 : werkloosheidsgraad
De gegevens over de werkloosheidsgraad zijn van groot belang voor economisten, zakenlui en
sociologen. Deze gegevens verstrekken immers informatie over het sociaal en economisch welzijn
van onze staat. Sinds januari 1999 veranderde het Nationaal Instituut voor Statistiek (zie website
NIS) hun enquête naar de arbeidskrachten. In vergelijking met vroeger is hun evaluatie permanent
geworden (vroeger enkel in het voorjaar) en door toepassing van internationale criteria (dezelfde
definities omtrent werkgelegenheid, werkloosheid en inactiviteit) ook vergelijkbaar met andere
Europese landen.
Elke week worden 900 Belgische huishoudens willekeurig uitgeloot en geïnterviewd door het NIS.
Na een interval van 3 maanden worden de geïnterviewde huishoudens opnieuw kort ondervraagd.
Op basis van deze gegevens en volgens de definities van het Internationaal Arbeidsbureau wordt
de bevolking ingedeeld in 3 groepen (werkenden, werklozen en niet-actieve personen).
1) Wat is de populatie?
Belgische huishoudens
2) De onderzochte veranderlijke is de werkstatus (werkend, werkloos (en op zoek naar werk), in-
actief (vb. student))
3) Tot welk soort behoort deze veranderlijke? Nominaal kwalitatief
Statistiek – tweede jaar derde graad - 29 -
6. Algemeen besluit
Statistiek is de wetenschap die zich bezighoudt met het verzamelen, verwerken, voorstellen,
analyseren en interpreteren van gegevens, om op basis van de aldus ingewonnen informatie
beslissingen te treffen en voorspellingen te maken.
Als we slechts een deel van de populatie bevragen over een kenmerk waarvoor we op
populatieniveau geen informatie hebben, kunnen we dan wel een uitspraak doen over de hele
populatie? Is het mogelijk om een groep Belgische vrouwen te bevragen over aspecten van hun
arbeidssituatie en daaruit conclusies te trekken voor alle Belgische vrouwen?
Een antwoord vinden we in de inductieve of verklarende statistiek. Deze tak van de statistiek
heeft als doel resultaten te formuleren voor de volledige populatie op basis van de resultaten uit
de steekproef. Veralgemening van steekproefresultaten staat hierbij centraal. We gebruiken het
resultaat van de steekproef om een schatting te maken voor de populatie. Het spreekt voor zich
dat de inductieve statistiek geen absolute waarheid verkondigt, maar een kans berekent om
voorspellingen af te leiden voor de populatie. Het is best mogelijk dat er fouten of
onvolkomenheden in de voorspelling zijn geslopen. We spreken dan over de foutenmarge van de
inductie. Met andere woorden, inductieve technieken trachten conclusies te trekken op niveau
van de populatie op basis van verzamelde steekproefgegevens, mits een zekere foutenmarge.
We vertrekken dus van een steekproefkenmerk om iets te kunnen vertellen over een onbekend
kenmerk uit de populatie. Daarbij gaan we ervan uit dat we over de waarde van die
populatieparameter nooit 100% zekerheid hebben. Meestal trachten we wel met een zekerheid
van 95% of meer te werken .
Men heeft daarom twee soorten statistiek
Beschrijvende statistiek Inductieve of verklarende statistiek
1) Verzamelen van informatie
2) Verwerken en voorstellen van de informatie
3) Analyseren van informatie
= kenmerkende getallen bepalen zoals
gemiddelde, mediaan, variatiebreedte …
Meestal beschikt men slechts over de
resultaten van een steekproef en niet
over de resultaten van de ganse
populatie. In de inductieve statistiek
tracht men dan uitspraken te doen over
de populatie a.h.v. de resultaten van de
steekproef en de betrouwbaar van deze
uitspraken vast te stellen met haar
foutenmarge.
Statistiek – tweede jaar derde graad - 30 -
Hoofdstuk 2 : een enkelvoudige frequentietabel
1. De enkelvoudige frequentietabel : herhaling begrippen
Schoenwinkel “Sabato” was geïnteresseerd naar de schoenmaten van zijn vrouwelijke klanten. De
baas noteerde gedurende een week elke dag van elke 3de , 6de , 9de , 12de en 15de vrouwelijke klant
de schoenmaat. Dit is een aselecte systematische steekproef.
Zo ontstond onderstaande lijst met gegevens = de dataset
37 39 39 38 41 40 38 38 39 38 38 40 37 40 41 38 40 37 38 3840 39 39 37 39 39 38 39 40 39
Om een overzicht te krijgen over de schoenmaten maakte hij daar een enkelvoudige tabel van
Kolom 1 = de naam van de veranderlijke met de verschillende waarden
Kwantitatieve en kwalitatieve
ordinale veranderlijken noteren
we van klein naar groot.
Ook al zou er geen
schoenmaat 38 zijn, toch staat deze ertussen!
Kwalitatieve nominale veranderlijken plaatst men volgens dalende volgorde van de AF kolom ,
omdat deze gegevens zelf geen logische volgorde hebben.
Kolom 2 = de absolute frequentie (AF)
4 → 4 vrouwelijke klanten van de 30 van schoenwinkel “Sabato” hebben schoenmaat 37
CONTROLE → de som van de absoute frequenties = de omvang n
Kolom 3 = de relatieve frequentie (RF)
13,3% → 13,3% van de vrouwelijke klanten van schoenwinkel “Sabato” heeft schoenmaat 37
De som van deze kolom is steeds 100%
Kolom 4 = de cumulative absolute frequentie (CAF)
13 → 13 vrouwelijke klanten van de 30 van schoenwinkel “Sabato” hebben maximaal schoenmaat 38
Het laatste CAF getal is de omvang n
Kolom 5 = de cumulatieve relatieve frequentie (CRF)
Idem CAF maar dan in percentages, het laatste CRF getal is 100%
Opmerking : kwalitatieve nominale gegevens hebben geen CAF & CRF kolom omdat
deze gegevens geen logische volgorde hebben.Opmerking
Als je steekproef grootte klein, dan is werken met % geen goed idee.
Bijvoorbeeld : 1 leerling van de 8 is niet akkoord dan is dat 12,5%
Statistiek – tweede jaar derde graad - 31 -
schoenmaat AF RF % CAF CRF %37 4 13,3% 4 13,3%
38 9 30,0% 13 43,3%
39 9 30,0% 22 73,3%
40 6 20,0% 28 93,3%
41 2 6,7% 30 100%
2 leerlingen van de 8 is niet akkoord dan is dat plots al 25%
Oefening :
Bij Vlaamse scholen in de tweede graad werd nagegaan hoeveel keer per maand een leerling te
laat op school kwam.
De resultaten staan hieronder :
Aantal keer te laat per maand
AF RF CAF CRF
0 1543 77,2% 1543 77,2%
1 273 13,7% 1816 90,8%
2 125 6,3% 1941 97,1%
3 30 1,5% 1971 98,6%
4 18 0,9% 1989 99,5%
5 5 0,3% 1994 99,7%
6 3 0,2% 1997 99,85%
7 1 0,05% 1998 99,9%
8 2 0,1% 2000 100,0%
a) Vervolledig de tabel met de overige frequenties.
b) Hoeveel elementen telt de steekproef en hoe noemt men dit getal? 2000 ; de omvang
c) Beschrijf de populatie → Leerlingen van Vlaamse scholen uit de tweede graad
d) Geef de veranderlijke en de soort aantal keer te laat/maand - discreet kwantitatief
e) Geef de betekenis van het derde AF getal voor deze opgave - exact
125 van de 2000 leerlingen van Vlaamse scholen uit de tweede graad kwamen 2 maal te laat
per maand
f) Geef de betekenis van het vijfde CRF getal voor deze opgave - exact
99,5% van de leerlingen van Vlaamse scholen uit de tweede graad kwamen maximaal 4
keer te laat per maand.
g) Hoeveel leerlingen kwamen maximaal 4 keer te laat? 1989 leerlingen
h) Hoeveel leerlingen kwamen minstens 6 keer te laat? 6 leerlingen
Statistiek – tweede jaar derde graad - 32 -
Oefening 2
Hieronder staat een vraag die gesteld werd tijdens
het PISA onderzoek naar de wiskundige
geletterdheid van leerlingen uit de tweede graad.
Een televisieverslaggever toonde onderstaande
grafiek en zei : “ De grafiek laat zien dat er een
enorme toename is in het aantal berovingen
tussen 1998 en 1999”.
Vind je deze uitspraak van de verslaggever een redelijke interpretatie van de grafiek? Leg uit waarom
je dat vindt. Goede antwoorden zijn
Nee, dit is slechts een toename van 2%.
Nee, 7 berovingen meer t.o.v. van 507 is niet veel.
Nee, ze laten enkel het bovenste deel van de grafiek zien, als je de volledige grafiek zou zien
van 0 tot 520 zou het maar een kleine stijging zijn.
Je hebt geen vergelijk met andere jaren dus je weet niet wat enorm.
In onderstaande grafiek zien we hoe Vlaanderen scoorde op deze vraag per onderwijsniveau. Je kan
zien dat 66% van de ASO leerlingen deze vraag juist beantwoordden.
Verbeter de grafiek door een titel toe te voegen en de assen te benoemen.
Schrijf een besluit dat past bij deze grafiek
Er zijn grote verschillen tussen de onderwijsvormen. Het grootste verschil bevindt zich
tussen BSO - 13% en TSO – 43%. Tussen KSO en ASO is er maar een klein verschil van 8%,
het grootste aandeel van deze leerlingen antwoordde correct op deze vraag met
respectievelijk 58% en 66%.
Statistiek – tweede jaar derde graad - 33 -
2. De enkelvoudige frequentietabel via Excel
A. Kwantitatieve discrete gegevens en Kwalitatieve ordinale practicum I
1) De onderzochte veranderlijke is de schoenmaat
2) Waarom is deze veranderlijke kwantitatief discreet ?
De resultaten zijn getallen die niet elke waarde kunnen aannemen.
3) Waarom moet je bij CRF ook een $- teken gebruiken?
Omdat je steeds moet delen door dezelfde waarde namelijk de omvang.
4) Hoeveel vrouwen hebben schoenmaat kleiner dan 40? 22 In welke kolom lees je dit af? CAF
5) Hoeveel % van de vrouwen heeft schoenmaat 4O? 20% In welke kolom lees je dit af? RF
6) Als de steekproef representatief zou zijn voor de populatie van alle Vlaamse vrouwen, hoeveel
vrouwen op de 5000 zouden dan schoenmaat 38 hebben?
5000 . 30% = 5000 . 0,30 = 1500 vrouwen
7) Maak een staafdiagram van de AF zodat het eruit ziet zoals hieronder.
37 38 39 40 410123456789
10
Vrouwelijke schoenmaten van winkel 'Sabato'
schoenmaten
Aant
al v
rouw
en
Wij hebben nu AF in grafiek gebracht, maar je kan ook de 3 andere frequenties in grafiek brengen.
Als je twee tabellen / grafieken wil vergelijken en de omvang is verschillend moet je RF
gebruiken. Steeds een duidelijk omschreven grafiektitel en goede namen bij de 2 assen.
Statistiek – tweede jaar derde graad - 34 -
B. Kwalitatieve nominale gegevens practicum II
We gebruiken hiervoor de bloedgroepen die we in onze school in januari verzameld hebben via een
enquête.
1) De onderzochte veranderlijke is DE BLOEDGROEP
2) Waarom is deze veranderlijke kwalitatief nominaal ?
De resultaten zijn geen getallen en hebben zelf geen logische volgorde.
3) Een CAF kolom en CRF kolom hebben bij dit soort veranderlijke geen betekenis, waarom niet?
CAF en CRF telt hoeveel gegevens kleiner of gelijk zijn dan een bepaald gegeven, maar deze
gegevens zijn kwalitatief, nominaal en hebben dus geen logische volgorde.
4) Wat is het voordeel om in de schijf alle gegevens te plaatsen en niet in een legenda zoals hieronder?
Je ziet in één oogopslag alle informatie zonder dat je ogen
van links naar rechts hoeven te kijken.
5) Schrijf een kort verslag over wat je kan afleiden uit jouw cirkeldiagram :
……………………………….……………..………………………………………………………………………
……………………………….……………..………………………………………………………………………
6) De Belgische bevolking noemt men de populatie
7) De leerlingen die jij onderzocht hebt zijn een steekproef van de Belgische bevolking.
Statistiek – tweede jaar derde graad - 35 -
Oefening 1 : Open het bestand 1) enkelvoudige tabel – je voornaam
Kies voor werkblad keuze uitstap onder aan het scherm :
LET OP, TABELLEN MAAK JE OP TABBLAD 3 EN GRAFIEKEN OP 4!!!
1) De onderzochte veranderlijke is de keuze van de daguitstap
2) Welk soort veranderlijke heeft men ? Kwalitatieve nominale
3) Vul de frequentietabel verder aan.
4) Waarom staan de frequenties van het derde jaar van groot naar klein gerangschikt?
Omdat de gegevens zelf geen logische volgorde hebben.
5) Welke frequentie neem je en waarom als je beide jaren in grafiek met elkaar wil vergelijken?
De relatieve frequenties, omdat in het derde jaar 40 leerlingen zitten en in het vierde 50
Maak nu een vergelijkend staafdiagram met de resultaten van drie en van vier in één grafiek.
Gebruik nooit codes in je grafieken!!!
6) Maak een cirkeldiagram van deze tweede graad.
7) Beantwoord nu onderstaande vragen met wat uitleg of een rechtzetting bij de nee antwoorden :
a) Leerlingen uit het derde jaar gaan liever naar Technopolis dan deze uit het vierde jaar
waar, derde jaar 20% en vierde jaar 18%
b) Beiden gaan even graag naar Bellewaerde
waar, allebei 20%
c) Meer dan 50% van alle leerlingen kiest voor Six Flags
niet waar, slechts 27%
d) Leerlingen uit het vierde jaar gaan liever naar Planckendael dan deze uit het derde jaar
niet waar, derde jaar 12,5% en vierde jaar 12%
Statistiek – tweede jaar derde graad - 36 -
Oefening 2 – het KSO is de onderwijsvorm met de minste leerlingen. Zowel in de 2de als in de 3de
graad volgen ongeveer 2% van de leerlingen KSO. Bijna twee op de drie leerlingen in de 2de graad
KSO opteren voor Beeldende en architecturale kunsten (45%) of beeldende vorming (18%)
a) Beschrijf de populatie leerlingen in de tweede graad KSO.
b) De onderzochte veranderlijke is de KSO richting
c) Tot welke soort behoort deze veranderlijke? Kwalitatief nominaal
d) Maak een horizontaal staafdiagram met de RF kolom.
Waarom maak je hier beter een horizontaal staafdiagram in plaats van een verticaal?
Omdat de namen bij de x-as dan beter leesbaar zijn.
a) Beschrijf de populatie studenten Master Beeldende kunst
b) Van deze tabel kan je geen cirkeldiagram maken omdat de % samen geen 100% zijn.
c) Schrijf een kort besluit
ASO – leerlingen hebben iets meer slaagkans dan KSO leerlingen, bij beide groepen slagen meer
dan 50% van de studenten. Opvallend is dat BSO- leerlingen het bijna even goed doen dan TSO -
leerlingen. Ongeveer een derde van deze leerlingen slaagt.
52% van de studenten slaagt erin om een Master in de beeldende kunst te behalen.
De meerderheid van de studenten komt uit het KSO en slechts heel weinig uit het BSO.
Statistiek – tweede jaar derde graad - 37 -
Oefening 3 - Op de site Nationale Vacature Bank is een aparte pagina voor jongeren van 14 jaar.
Deze pagina bevat informatie voor jongeren van 14 jaar over bijbaantjes.
In een bepaalde maand is deze site door ruim 300 jongeren geraadpleegd. Daarbij is onderzocht wat
de leeftijd was van de jongeren die deze site bezochten. De gegevens staan in de tabel.
a) Hoeveel jongeren hebben volgens dit tabelletje de site geraadpleegd? 326 jongeren
b) Hoeveel procent van de jongeren die de site raadpleegden was daadwerkelijk 14 jaar? 39,3%
c) Vul de kolom in van de relatieve frequenties.
d) Wanneer moet je relatieve frequenties gebruiken en geen absolute frequenties? Tip : lees pagina 36
Relatieve frequenties zijn nodig als je twee groepen met een verschillende omvang wilt
vergelijken. Hier bijvoorbeeld als je de gegeven frequentieverdeling wilt vergelijken
met die van een andere maand. Het aantal bezoekers zal dan waarschijnlijk niet
hetzelfde zijn en vergelijken van absolute frequenties kan dan niet.
Oefening 4 - Volgens onderzoek van GFK in opdracht van Productschap Tuinbouw is de appel het
meest gekochte verse fruit in Nederland met 24,2 kilo per huishouden. Daarna volgen sinaasappels
met 19,4 kilo per huishouden en bananen met 14,6 kilo. Mandarijn staat op de vierde plaats met 9,7
kilo per huishouden en peer staat in dit onderzoek op de vijfde plaats met 6,1 kilo per huishouden.
Totaal is dit 82% van de fruitconsumptie in Nederland.
a) Maak een frequentietabel met absolute en relatieve frequenties van de fruitconsumptie per
huishouden in Nederland.
TIP : 74kg fruit = 82%. Reken met een regel van drie uit hoeveel kg fruit overeenkomt met 100%
82% = 74 kg 100 % = 74 . 100 : 82
100% = 90,2 kg
b) Maak een
bijpassend
cirkeldiagram
.
Statistiek – tweede jaar derde graad - 38 -
Hoofdstuk 3 : gegroepeerde frequentietabel.
1. Indeling in klassen
Voorbeeld 1 : een aardappelboer heeft onderzocht hoeveel massa zijn beste klasse aardappelen
hebben. Daarvoor heeft hij 100 aardappelen van zijn eerste oogst gewogen. Hieronder zie je zijn
dataset.
MASSA VAN 100 AARDAPPELEN IN GRAM73,92 100,46 131,76 95,73 99,66 95,92 112,22 101,82 124,91 114,71
56,87 125,31 82,39 93,04 143,39 100,99 113,76 72,61 86,22 128,9
94,39 106,88 132,67 92,67 111,58 117,92 69,6 108,59 104,72 111,83
96,84 89,02 77,48 108,09 144,29 117,07 93,64 107,69 105,18 46,37
100,56 106,58 81,54 81,6 138,63 99,58 56,31 94,15 77,78 105,4
98,44 101,26 125,54 133,61 103,2 137,63 71,49 119;57 92,3 77,65
109,12 128,34 31,36 96,55 100,61 117,53 119,52 53,07 107,84 130,66
141,27 110,72 79,3 98,48 99,44 139,58 116,06 129,52 94,1 98,04
63,81 101,74 52,67 134,56 116,79 107,75 105,26 133,29 65,02 102,4
108,02 102,28 97,05 78,1 102,66 117,77 141,16 100,97 118,33 118,57
Een enkelvoudige frequentietabel zoals bij de schoenmaten is nu niet overzichtelijk omdat
Omdat er teveel verschillende waarden aanwezig zijn.
Daarom maken we een gegroepeerde frequentietabel met een aantal klassen.
We moeten er wel voor zorgen dat elk waarnemingsgetal tot één en slechts één klasse behoort.
Om een goede klasindeling te maken volgen we altijd volgende 3 stappen
1° Bepaal de kleinste en de grootste waarde:
kleinste = 31,36 ondergrens = 31,355 grootste = 144,29 bovengrens = 144,295
Correctiewaarde = 0,005
Opmerking - je moet de eerste klasse niet beginnen met de kleinste waarde van je dataset.
Je kan ook beginnen met een eenvoudiger, kleiner getal
2° Bepaal de variatiebreedte R = bovengrens – ondergrens = 144,295 - 31,355 = 112,94
Met het opstellen van een gegroepeerde frequentietabel gaat een deel van de informatie verloren.
De exacte waarden van de gegevens kan men niet meer aflezen uit de tabel, men weet enkel
hoeveel resultaten zich tussen twee waarden bevinden. Om deze onnauwkeurigheid te beperken
zorgt men er steeds voor dat het aantal klassen rond de tien ligt, daarom delen we R altijd
door tien. R / 10 = 112,94 / 10 = 11,294
3° Nu kiezen we een goede klassenbreedte (KB) rond de waarde R \ 10 van hierboven
Let op : neem voor de KB nooit meer decimalen dan het aantal decimalen in de dataset.
Geef 4 mogelijke klassenbreedten : 10,5 / 11,3 / 11,82 / 12 ( je mag hier geen 3 decimalen nemen!)
Opmerkingen
Statistiek – tweede jaar derde graad - 39 -
1) De absolute frequentie van een klasse is nu het aantal waarnemingsresultaten dat tot
die klasse behoort, men weet dus nog enkel hoeveel gegevens er tussen twee waarden
liggen en niet meer het exacte resultaat!
Daarom mogen we de klassen niet te groot nemen want dan werken we te onnauwkeurig.
2) Omdat we in het verdere verloop van de statistiek waarden moeten gaan bepalen zoals
gemiddelde, en we met klassen niet kunnen rekenen, zal het klassenmidden de klasse gaan
vertegenwoordigen.
3) De begrippen relatieve en cumulatieve frequenties van een klasse worden analoog omschreven
als bij een enkelvoudige tabel.
Via Excel krijg je dan onderstaande tabel, enkel RF CAF en CRF ontbreken.
Deze gegroepeerde tabellen leer je maken in practicum III.
Klasnummer
Ondergrenzen
Bovengrenzen
Massa aardappelen in gram
midden AF
1 31,355 40,355 31,36 - 40,35 35,855 1
2 40,355 49,355 40,36 - 49,35 44,855 1
3 49,355 58,355 49,36 - 58,35 53,855 4
4 58,355 67,355 58,36 - 67,35 62,855 2
5 67,355 76,355 67,36 - 76,35 71,855 4
6 76,355 85,355 76,36 - 85,35 80,855 8
7 85,355 94,355 85,36 - 94,35 89,855 8
8 94,355 103,355 94,36 - 103,35 98,855 24
9 103,355 112,355 103,36 - 112,35107,85
5 17
10 112,355 121,355 112,36 - 121,35116,85
5 11
11 121,355 130,355 121,36 - 130,35125,85
5 6
12 130,355 139,355 130,36 - 139,35134,85
5 8
13 139,355 148,355 139,36 - 148,35143,85
5 5
In deze tabel heeft men gewerkt met klassenbreedte 40,355 - 31,355 = 9
Hoe kan je nu het aantal klassen bepalen? door R te delen door je KB
Statistiek – tweede jaar derde graad - 40 -
112,94 / 9 = 12,548.. DUS 13 klassen
Statistiek – tweede jaar derde graad - 41 -
Voorbeeld 2 : Men heeft de lengte van 96 jongens van 16 jaar bepaald en samengevat in een tabel
Klasnr. ondergrens bovengrens Lengte in cm jongens 16j
middens AF RF % CAF CRF %
1 149,5 154,5 150-154 152 4 4,2% 4 4,2%
2 154,5 159,5 155-159 157 12 12,5% 16 16,7%
3 159,5 164,5 160-164 162 14 14,6% 30 31,3%
4 164,5 169,5 165-169 167 25 26,0% 55 57,3%
5 169,5 174,5 170-174 172 16 16,7% 71 74,0%
6 174,5 179,5 175-179 177 11 11,5% 82 85,4%
7 179,5 184,5 180-184 182 9 9,4% 91 94,8%
8 184,5 189,5 185-189 187 4 4,2% 95 99,0%
9 189,5 194,5 190-194 192 1 1,0% 96 100,0%
1) Geef de betekenis van RF van de vierde klasse :
26% van de jongens van 16 jaar heeft een lengte van 165 cm tot en met 169 cm
2) 14 van de 96 jongens van 16 jaar hebben minstens een lengte van 180 cm.
3) Beschrijf de populatie
Alle jongens van 16 jaar
4) Beschrijf de steekproef
De jongens van 16 jaar die men gemeten heeft
5) 85% van de jongens van 16 jaar hebben een lengte binnen het lengte-interval [150 ; 179]
6) 30 van de 96 jongens van 16 jaar hebben hoogstens een lengte van 164 cm
7) Ongeveer 5% van de jongens van 16 jaar zijn groter dan 184 cm
8) 42,7 % van de jongens van 16 jaar hebben minstens een lengte van 170 cm
100% - 57,3% = 42,7 %
Statistiek – tweede jaar derde graad - 42 -
Oefening 1 : Een fabriek test telkens of hun vulmachines naar behoren werken, zoniet moeten ze
deze bijstellen. Hieronder de dataset van de geteste flesjes.
Hoeveelheid bier (in cl) in 50 automatisch gevulde flesjes
32,6 33,3 32,5 33,2 34,5 31,8 35,0 34,4 33,0 34,0
31,7 34,3 32,9 32,5 33,6 33,1 34,2 31,4 32,6 34,6
34,9 33,4 31,6 34,5 35,1 35,3 34,1 34,2 31,1 36,0
34,2 32,7 34,6 32,2 33,8 34,4 31,7 35,6 33,9 32,1
33,7 32,3 33,7 31,9 33,5 32,6 33,0 34,8 35,7 32,8
1) Wat is de populatie?
De flesjes die door de machine in een fabriek gevuld worden.
2) Wat is de steekproef?
De geteste flesjes die door de machine in een fabriek gevuld worden
3) De onderzochte veranderlijke is de inhoud van de flesjes in cl
4) Zoek een goede klassenbreedte door het driestappenplan te volgen
1° kleinste = 31,1 ondergrens = 31,05 grootste = 36,0 bovengrens = 36,05
Correctiewaarde = 0,05
2° R = bovengrens – ondergrens = 36,05 - 31,05 = 5
R/10 = 5/10 = 0,5
3° Geef 3 mogelijke klassenbreedten : 0,4 – 0,5 – 0,6
Men mag vrij kiezen welke, ik kies voor Þ KB = 0,5
Aantal klassen = 5 / 0,5 = 10
Statistiek – tweede jaar derde graad - 43 -
Oefening 2 - looptijden op 1/10 van een seconde.
Ondergrenzen en bovengrenzen Looptijden in
1/10 sec.
Middens AF RF CAF CRF
[26,15;32,25[ 26,2 – 32,2 29,2 6 13,6% 6 13,6%
[32,25;38,35[ 32,3 – 38,3 35,3 8 18,2% 14 31,8%
[38,35;44,45[ 38,4 – 44,4 41,4 12 27,3% 26 59,1%
[44,45;50,55[ 44,5 – 50,5 47,5 10 22,7% 36 81,8%
[50,55;56,65[ 50,6 – 56,6 53,6 8 18,2% 44 100,0%
a) Vervolledig de gegroepeerde frequentietabel
b) Men heeft gewerkt met klassebreedte 6,1
Oefening 3
Ziehier voor 60 personen het netto-inkomen per maand, onderworpen aan de personenbelasting op €1
Netto-
maandinkomen middens AF RF % CAF CRF %
375 - 674 524,5 9 15,0% 9 15,0%
675 - 974 824,5 17 28,3% 26 43,3%
975 - 1274 1124,5 15 25,0% 41 68,3%
1275 - 1574 1424,5 6 10,0% 47 78,3%
1575 - 1874 1724,5 5 8,3% 52 86,6%
1875 - 2174 2024,5 4 6,7% 56 93,3%
2175 - 2474 2324,5 2 3,3% 58 96,6%
2475 - 2774 2624,5 1 1,7% 59 98,3%
2775 - 3074 2924,5 1 1,7% 60 100%
a) Ongeveer 40% van de gezinnen heeft een inkomen kleiner dan € 975
b) Ongeveer 7% van de gezinnen heeft een inkomen van minstens € 2175
c) Bereken hoeveel mensen er meer verdienen dan €2174 per maand . Doe dit op twee manieren
1° 2+1+1 = 4 personen AF kolom
2° 60 – 56 = 4 personen CAF kolom
Opmerking – gegroepeerde tabellen maakt men altijd bij kwantitatief continue veranderlijken. Geld is
echter een kwantitatief discrete veranderlijke maar omdat het maandinkomen zoveel verschillende
waarden kan hebben, maakt men ook hier een gegroepeerde tabel.
Statistiek – tweede jaar derde graad - 44 -
2. Grafische voorstelling gegroepeerde tabellen
Hieronder zie je de grafische voorstelling van de gegroepeerde tabel op pagina 44.
Deze grafiek noemt men een histogram
Op pagina 37 hebben we een staafdiagram gemaakt en hier een histogram. Wat is het verschil?
Bij een histogram staan de staven tegen elkaar en bij een staafdiagram staan ze los van elkaar.
Waarom maakt men dit verschil?
Bij gegroepeerde tabellen werkt men met kwantitatief continue veranderlijken en deze
kunnen elke waarde aannemen en daarom moeten de staven tegen elkaar staan. Bij een
staafdiagram werkt men met kwantitatieve discrete gegevens of met kwalitatieve gegevens
en die kunnen niet elke waarde aannemen dus daar staan ze los van elkaar.
ONTHOUD
Een staafdiagram maak je bij enkelvoudige tabellen (kwalitatief + kwantitatief discreet)
Een histogram bij gegroepeerde tabellen (kwantitatief continue of kwantitatief discreet met veel
verschillende waarden)
Statistiek – tweede jaar derde graad - 45 -
Opmerking
Er zijn helaas geen betrouwbare regels die ons kunnen helpen bij het beslissen over het aantal
klassen waarin we een reeks gegevens moeten verdelen.
Wel zijn er enkele vuistregels
1° Minder dan 5 klassen levert meestal geen betrouwbaar overzicht van de gegevens
2° Meer dan 20 klassen maken het geheel heel snel onoverzichtelijk
Het aantal klassen zal dan ook van geval tot geval verschillen, afhankelijk van de verdeling van de
gegevens.
Het is aan de ‘gebruiker’ om zelf te wikken en te wegen : er moet enerzijds voldoende detail zijn om de
relevante gegevens zichtbaar te maken, zonder echter het overzicht te verliezen.
Soms kiest men een indeling op basis van het histogram, waarop men de meeste kenmerken kan
aflezen. We passen dit toe op de dataset FAITHFUL
Deze tabel geeft de tijd in minuten weer tussen twee erupties van de ooit regelmatige geiser Old Faithful
in Yellowstone Park.
Kijk goed naar elk histogram.
Welke klassenbreedte moet men volgens jou nemen om zoveel mogelijk informatie op het histogram
te kunnen lezen? Wat zie je
dan beter?
KB = 3, omdat we dan heel
goed zien dat er twee
pieken aanwezig zijn. Eén
rond de 51 - 53 min en
anderzijds rond de 75 -83
min
Statistiek – tweede jaar derde graad - 46 -
3. Informatie halen uit histogrammen
1° Aantal pieken
Wanneer een verdeling twee pieken vertoont, is het vaak zo dat twee populaties gemengd werden
( vrouwen en mannen bvb.) of dat er zich twee fenomenen voordoen (2 soorten erupties bvb.).
Om een juist idee te krijgen van dit aantal pieken, probeer je best een aantal verschillende
klassenbreedtes uit (zie punt 3 vorige pagina). Bij erg kleine klassenbreedtes zien we soms
verschillende ‘piekjes’ (zie grafiek A), maar dat is geen globaal beeld : zodra we de klassenbreedte
groter nemen verdwijnen ze (zie grafiek B).
A B
A B
2° Vorm van de verdeling - symmetrisch of scheef
Deze vorm zal heel belangrijk zijn bij o.a. het berekenen van centrum- en spreidingsmaten, zoals
we verder zullen zien.
Zo heeft men symmetrische, scheef naar links en scheef naar rechts verdelingen
Let op: de positie van de staart bepaalt of een verdeling links- of rechtsscheef is.
A : Scheve verdeling naar rechts
B : Symmetrische verdeling
C : Scheve verdeling naar links
3° Uitschieters
Soms wijzen uitschieters op tikfouten, soms zijn ze het gevolg van een onzorgvuldige telling of
meting.
Betreft het geen meet- of tikfouten, dan zijn er twee mogelijke oorzaken voor deze uitschieters
1° het toeval is verantwoordelijk
2° er is sprake van een bepaald fenomeen
Indien we van plan zijn om geen rekening te houden met deze uitschieters moeten we altijd zoeken
naar de reden van hun voorkomen. We komen hier op pagina 51 op terug.
Statistiek – tweede jaar derde graad - 47 -
Oefeningen
1. Een marktadviseur volgde daarom kopers in een supermarkt. Hij was vooral geïnteresseerd in het
bedrag in euro dat door elke koper in de winkel werd uitgegeven. Volgende histogrammen werden
gemaakt.
1) Wat is de klassenbreedte van het eerste
histogram? 15
2) Het eerste rechthoekje heeft als hoogte 6,
formuleer in woorden wat dit wil zeggen voor
dit voorbeeld?
Er zijn 6 kopers die een bedrag uitgaven
van maximaal 14 euro.
3) Het tweede histogram heeft dezelfde
klassenbreedte en toch hebben de
rechthoekjes een andere hoogte.
Hoe komt dit?
Men heeft startwaarde 3 genomen i.p.v. 0
4) Bepaal de omvang via de grafieken?
De som maken van de hoogte van alle
staven.= 50
5) Wat kan je zeggen over de vorm van alle drie de grafieken?
Ze hebben alle drie een scheve verdeling naar rechts met één piek.
6) Leg uit wat deze vorm betekent in de context van dit voorbeeld :
De meeste kopers geven een bedrag van minder dan €62 uit, maar er zijn er enkele die
behoorlijk meer uit geven.
Statistiek – tweede jaar derde graad - 48 -
uitgave kopers in een supermarkt
0
5
10
15
20
25
0 - 14 15 - 29 30 - 34 45 - 59 60- 74 75 - 89 90 - 104
koopbedrag in €
aan
tal
ko
pers
uitgave kopers in een supermarkt
0
5
10
15
20
3 - 17 18 - 32 33 - 47 48 - 62 63 - 77 78 - 92 93 - 107
koopbedrag in €
aan
tal
ko
pers
uitgave kopers in een supermarkt
0
2
4
6
8
10
12
14
3 - 12 13 - 22 23 - 32 33 - 42 43 - 52 53 - 62 63 - 72 73 - 82 83 - 92 93 - 102
koopbedrag in €
aan
tal
kop
ers
2. Tussen juli en september 1882 voerde Newcomb 66 metingen uit, verspreid over drie dagen, om
de lichtsnelheid te kunnen bepalen. Hij mat de tijd die een lichtstraal nodig had om 7443,73m af te
leggen = afstand laboratorium tot een spiegel en terug.
Het getal 28 betekent een tijd van 24828 nanoseconden = 24828 . 10-9 seconde
Het getal -2 komt dus overeen met 24798 nanoseconden = 24798 . 10-9 seconde
Enz…
Volgend histogram geeft de gegevens weer
Waarden Newcomb
0
5
10
15
20
25
30
-44
;
-40
-4
; 0
16
- 2
0
21
- 2
5
26
- 3
0
31
- 3
5
36
- 4
0
Nanoseconde t.o.v. 24800
Aan
tal
met
ing
en
Beschrijf de vorm van dit histogram
De gegevens zijn tamelijk symmetrisch verdeelt tussen 16 en 40 met één piek, maar er zijn twee
uitschieters die te klein.
Je merkt dus dat er hier zeker spraken is van uitschieters. Na extra onderzoek, bleken deze extreme
waarden zich voor te doen bij de metingen tijdens de eerste dag. Newcomb ging er vanuit dat hij de
meetapparatuur niet voldoende beheerste en besloot de waarde tussen -44 ; -40 te verwijderen.
De waarde -2 heeft hij behouden, waarom weten we niet.
Vind je echter geen aanneembaar bewijs voor deze uitschieters, dan mag je ze zeker niet weglaten!!!
Een voorbeeld van slechte statistiek is gebeurd bij het gat in de ozonlaag.
Toen het gat in de ozonlaag boven de Zuidpool rond 1985 werd
ontdekt, bleek dat het fenomeen reeds sinds 1976 trouw werd
opgemeten door de Nimbus-7-satelliet, maar dat die
uitzonderlijk lage ozonconcentratie werd genegeerd door de
statistiekprogramma’s, als een foutieve meting.
Ten onrechte zo bleek 10 jaar later!!!!!
Statistiek – tweede jaar derde graad - 49 -
4. Gegroepeerde frequentietabel via Excel practicum III
1) Open het bestand 2B) gegroepeerde tabel
Sla het bestand op als 2B) gegroepeerde tabel – je voornaam
Vanaf nu niet vergeten om regelmatig op te slaan met het icoon
2) Wat is de veranderlijke ? lengte jongens 16 jaar
3) Van welke soort is de veranderlijke ? kwantitatieve continue
4) Waarom moet je bij de ondergrenzen en bovengrenzen $ - tekens gebruiken ?
Omdat je KB een vaste waarde is die niet mag wijzigen bij het slepen.
5) Maak een histogram dat eruit ziet zoals hieronder maar dan met KB = 5 want hieronder werkte
men met KB = 4
Zorg weer voor een goede titel en plaats bij de 2 assen wat je erop afleest.
6) Waarom moeten de rechthoeken elkaar raken?
De veranderlijke “lengte jongens” is kwantitatief continu en kan elke waarde aannemen tussen 2
bepaalde grenzen.
7) Beschrijf de vorm van dit histogram
Symmetrisch met één top.
Statistiek – tweede jaar derde graad - 50 -
Oefeningen
Open het bestand 2B) gegroepeerde tabel – je voornaam .
Oefening 2 - open het tabblad schaatstijden
Op de Olympische spelen van 2014 hebben we eindelijk een Belg die zeer goed presteert.
Zaterdag 8 februari 2014 - Bart Swings greep zaterdag bij zijn
Olympisch debuut op de 5.000 meter in de Adler Arena in Sotsji
met een vierde plaats maar net naast de bronzen medaille. Die
ging uiteindelijk naar de Nederlander Jorrit Bergsma, die 1.13
sneller was dan de Leuvenaar. 'Hier had ik op voorhand voor
getekend. Ik was er zeer dichtbij en het geeft me vertrouwen voor
de 1.500 meter', vertelde Swings na afloop.
1) De naam van de veranderlijke is schaatstijden en behoort tot de soort kwantitatief continu
2) Maak een gegroepeerde tabel
3) De meeste schaatsers reden minstens 43,7 seconden en hoogstens 44,1 seconden
4) Hoe snel moet men ongeveer rijden om tot de 15% snelste te behoren? minder dan 44,6 seconden
Statistiek – tweede jaar derde graad - 51 -
Oefening 2 - open het tabblad lengte regenwormen
Voor een practicum biologie zijn op twee velden regenwormen gevangen. Vervolgens werden de
lengtes van die wormen gemeten. Hier zie je de resultaten.
1) Om wat voor soort veranderlijke gaat het hier? continu kwantitatief
2) Hoe lang was de grootste gevonden regenworm? 26 cm
3) Omvang veld 1 = 90 Omvang veld 2 = 74
4) Met welke frequentie moet je werken als je de twee velden wil vergelijken en waarom?
Met de RF omdat de twee velden een verschillende omvang hebben.
4) Maak van
beide velden de
relatieve
frequenties
4) Op veld 2 zijn er meer wormen met een lengte van minstens 12cm tot en hoogstens 14 cm dan op
veld 1
5) Teken de histogrammen van beide velden in twee afzonderlijke grafieken.
6) Vergelijk beide histogrammen. Wat valt je daarbij op?
De grafieken hebben een gespiegelde vorm. Bij veld 1 zijn er meer wormen die kleiner zijn dan
de meerderheid en weinig die groter zijn dan de meerderheid en bij veld 2 is dit net andersom.
Bij veld 2 ligt de top iets verder naar rechts zodat de meerderheid van de wormen groter is bij
veld 2 dan bij veld 1.
Statistiek – tweede jaar derde graad - 52 -
Oefening 3 - open het tabblad gewicht KH
De dataset komt van de enquête die de leerlingen van de kunsthumaniora KH ingevuld hebben.
1) Omdat niet alle leerlingen hun gewicht konden / wilden invulden is dit eigenlijk een steekproef.
Over welk soort steekproef gaat dit dan? Steekproef op vrijwillige basis
2) Maak een gegroepeerde frequentietabel voor de gewichten van de meisjes.
TIP : sorteer de kolom met de geslachten door deze de selecteren op het icoon te klikken en
selectie uitbreiden te kiezen. Nu zie waar de dataset van de gewichten van de jongens is.
De dataset van de gewichten van de meisjes begint in cel ……. en gaat tot cel …….
3) Maak een histogram
4) De meerderheid van de meisjes hebben een gewicht van ……..….. tot en met …………….
5) Stel zelf twee vragen die je via je tabel kan beantwoorden.
Vraag 1 : je hebt de AF kolom nodig om je vraag te beantwoorden
Vraag : ……………………………………..………………………………………………………………..
…………………………………………………………………………………………………………………
Antwoord → ……………………………….…………………………………………………………………
Vraag 2 : je hebt de CRF kolom nodig om je vraag te beantwoorden
Vraag : ……………………………………..………………………………………………………………..
…………………………………………………………………………………………………………………
Antwoord → ……………………………….…………………………………………………………………
Statistiek – tweede jaar derde graad - 53 -
Hoofdstuk 5 : centrummaten
1. Centrummaten – opfrissen basisbegrippen
Naast mooie plaatjes maken, willen wij als wiskundigen ook graag metingen samenvatten in
getallen. Op de eerste plaats willen we graag weten waar het midden van de gegevens zit. Dat
geeft immers aan hoe groot de gegevens ongeveer zijn.
Om het "MIDDEN" van een serie metingen aan te geven zijn er drie mogelijke manieren. Die
heten de centrummaten → 1ste gemiddelde : x 2de modus : mo 3de mediaan : me
Met een centrummaat geef je aan waar de getallen zo'n beetje om heen liggen.
Via een dataset
Peter behaalde volgende rapportcijfers 3 4 5 6 7 7 7 7 8 8 8 9 9 9 9 9
gemiddelde rapportcijfer = 7,2
wordt afgerond op 1cijfer nauwkeuriger dan de gegevens
modus = het cijfer dat in een rij waarnemingsgetallen het meeste voorkomt = 9
mediaan = middelste waarneming op voorwaarde dat de gegevens gerangschikt zijn van klein
naar groot.
is het aantal even, dan neem je het gemiddelde van de twee middelste
= 7,5
Welk soort veranderlijke is het rapportcijfer? Kwantitatief continu
Waarom? Het zijn getallen waar je mee kan rekenen die tussen 2 grenzen all waarden kunnen
aannemen.
3) Geef de contextuele betekenis van de mediaan
Minstens 50% van de rapportcijfers van Peter waren een 7,5 of meer. (je kan ook zeggen of minder
of minimaal 7,5 of maximaal 7,5)
4) Geef de contextuele betekenis van de modus
Het meest behaalde rapportcijfer van Peter is een 9
Welk soort gegevens hebben geen gemiddelde en mediaan, maar wel een modus?
Kwalitatieve nominale gegevens.
Statistiek – tweede jaar derde graad - 54 -
Via een frequentietabel
In een dorp worden 45 inwoners ondervraagd over hun leesgewoonten.
Van elke persoon noteert men hoeveel boeken hij de afgelopen maand gelezen heeft.
Aantal boeken AF RF CAF CRF Kolom 1 * AF
0 9 20,0 9 20,0 0
1 13 28,9 22 48,9 13
2 10 22,2 32 71,1 20
3 5 11,1 37 82,2 15
4 4 8,9 41 91,1 16
5 4 8,9 45 100,0 20
84
Gemiddeld aantal gelezen boeken = 84/45 = 1,9 boeken
Mediaan = 2 boeken
Modus = 1 boek
Geef de contextuele betekenis van de modus
De meeste inwoners lazen 1 boek
Geef de contextuele betekenis van de mediaan
Minstens 50% van de inwoners lazen maximaal (of minimaal) 2 boeken
Geef de contextuele betekenis van het gemiddelde
De meerderheid van de inwoners lazen rond de 1,9 boeken
Bij een gegroepeerde tabel doe je gewoon alsof alle metingen in een klasse gelijk zijn aan
het klassenmidden. Je krijgt dan een schatting voor het gemiddelde, het werkelijke gemiddelde is
niet precies meer bekend natuurlijk, want je weet niet hoe de metingen wérkelijk over de klassen
verdeeld waren.
Statistiek – tweede jaar derde graad - 55 -
2. Bruikbaarheid van de centrummaten
Het bepalen van een gemiddelde is één ding, maar geeft het wel altijd zinvolle informatie? NEEN
Voorbeeld1
Een leerling haalt voor de toetsen 4 keer een 6 en één keer een 1.
Het gemiddelde is nu 5. Dit zou kunnen leiden tot een nipt voldoende op het rapport.
Dat lijkt niet erg eerlijk. Deze leerling beheerst de stof voor 80% voldoende.
Een andere leerling haalt 2 keer een 4 en 2 keer een 5 en één keer een 10.
Gemiddeld is dat 5,6 en misschien wel een 6 op het rapport.
Deze leerling beheerst slechts 20% van de stof voldoende.
Het grootste nadeel van het gemiddelde is dus dat het ontzettend gevoelig is voor
uitschieters. Men spreekt in dit verband van een niet resistente centrummaat.
Dit nadeel heeft de mediaan niet, hij is bijna ongevoelig voor uitschieters. Daarom is de mediaan
een resistente centrummaat.
Voorbeeld2 :
Een statisticus liep door een gemiddeld één meter diepe sloot. Hij verzoop!!
Het is een grap, maar het is een mooi voorbeeld van hoe statistiek je op het verkeerde been kan
zetten.
Om na te gaan of het gemiddelde zinvolle informatie geeft over de gegevens, kan je het best eerst
grafisch onderzoek doen :
Zijn de gegevens symmetrisch verdeeld , dan is het gemiddelde een betrouwbare
centrummaat.
Is het histogram scheef naar links of rechts, dan is het gemiddelde geen betrouwbare
centrummaat
Heeft men meerdere pieken (zie Old Faithful pagina 47), dan is het gemiddelde onbruikbaar
Is alles redelijk symmetrisch maar zijn er uitschieters, dan is het gemiddelde geen
betrouwbare centrummaat (zie Newcomb pagina 50) omdat die uitschieters het gemiddelde
naar zich toe trekken en is het wenselijker om de mediaan te nemen.
Wanneer welke centrummaat?
Statistiek – tweede jaar derde graad - 56 -
Oefeningen
1. Welke centrummaat is het meest geschikt om de volgende waarnemingen te karakteriseren?
Schrap wat niet past.
a) Een verkoper verkoopt op de zes werkdagen van een week de volgende aantallen fietsen :
7 – 4 – 5 – 8 – 6
gemiddelde – modus – mediaan
b) Van tien leerlingen is de haarkleur : blond – rood – bruin – bruin – zwart
– bruin – bruin – blond – bruin en blond.
gemiddelde – modus – mediaan
c) Op een verjaardagsfeestje hebben de aanwezigen de volgende leeftijd : 17 – 20 – 22 – 17 – 68
gemiddelde – modus – mediaan
d) Bij een natuurkundeproef meten tien leerlingen het volume in cm³ van dezelfde glazen bol. De
metingen leveren op : 48 – 47 – 46 – 48 – 46 – 47 – 48 – 45 – 47 – 46
gemiddelde – modus – mediaan
Statistiek – tweede jaar derde graad - 57 -
2. Het Australian Bureau of Meteologie verzamelde de nevenstaande gegevens voor de gemiddelde
neerslag per maand in de stad Broken Hill.
1) Je stelt vast dat de gemiddelde neerslag voor januari veel
groter is dan de mediaan. Wat kun je hierover besluiten i.v.m. de
neerslagcijfers voor januari ?
In januari waren er extreem hevige buien.
Welke vorm zal het histogram hebben voor januari?
Het histogram zal scheef naar rechts zijn.
2) In welke maanden waren geen uitzonderlijk hevige buien?
In juli +augustus = wintermaanden in Australië
3. Duid aan welke stip overeenkomt met het gemiddelde G, de mediaan Me of de modus Mo
Statistiek – tweede jaar derde graad - 58 -
4. Je ziet hier 2 frequentietabellen van de klassen 2A en 2C van hun rapportcijfer voor het vak wiskunde en hun centrummaten.
a) Laat zien dat het gemiddelde van 2C klopt
(4*5+8*6+6*7+4*8+2*9) / 24 = 6,7
b) Vergelijk de centrummaten van beide klassen.
Klas 2C scoort gemiddeld net iets hoger dan 2A maar het meest voorkomende cijfer en de
mediaan zijn wel lager.
c) Welke klas presteerde het best als je naar de tabel kijkt? Klas 2A
d) Welke centrummaat geeft dit het best weer? De mediaan
Statistiek – tweede jaar derde graad - 59 -
5. Het histogram hieronder geeft de brutolonen weer in België in 1995.
Welke stippellijn geeft het gemiddelde aan en welke de mediaan? Duid aan op de tekening.
Verklaar je antwoord :
Linker lijn is de mediaan en de rechter lijn is het gemiddelde, want het gemiddelde wordt
omhoog getrokken door de aanwezigheid van de extreme hoge lonen en de mediaan niet.
Welke centrummaat kun je het best vermelden? de mediaan omdat deze beter aangeeft waar de
meerderheid van de lonen zich bevinden
6. Een textielbedrijf heeft weinig goed betaalde werknemers: de meerderheid van de
werknemers verdienen slechts het wettelijk toegestane minimumloon. De vakbond wil dit
aanklagen aan de directie en berekent de mediaan. In de geplande meeting hieromtrent met de
directie stelt de vakbond vast dat de directie echter het rekenkundig gemiddelde heeft
berekend.
Maakt dit iets uit ? ja / nee
Wie geeft het best “het midden” weer? De vakbond / de directie
Waarom?
Voor het berekenen van het rekenkundig gemiddelde maakt men gebruik van alle lonen en
de hoge lonen van de directie en de kaderleden gaan dit gemiddelde omhoog trekken zodat
dit geen goede weergave is voor het loon dat de meerderheid van de arbeiders zullen
verdienen. De vakbond geeft dus beter het centrum weer omdat de mediaan resistent is
voor deze extreem hoge lonen van de directie en kaderleden.
Statistiek – tweede jaar derde graad - 60 -
7. Hieronder een histogram van de geboortegewichten van baby’s
Beschrijf de vorm van dit histogram
Scheef naar links
De gemiddelde baby heeft een gewicht van 3,28kg een de mediaan is 3,40kg.
Geef een verklaring waarom de mediaan groter is dan het gemiddelde
Het gemiddelde is niet resistent en wordt naar beneden getrokken door de kleinere gewichten
in de staart terwijl de mediaan daar ongevoelig voor is.
Welke centrummaat geeft het best het centrum weer? De mediaan
Statistiek – tweede jaar derde graad - 61 -
3. Centrummaten via Excel
Open het bestand 3A) Centrummaten
A. Via de dataset gebruik fx en selecteert telkens de dataset
Schoenwinkel “Sabato” was geïnteresseerd naar de schoenmaten van zijn vrouwelijke klanten.
Hij noteerde gedurende een week van elke 3de , 6de , 9de , 12de en 15de vrouwelijke klant de schoenmaat.
Open het tabblad dataset schoenmaten
gemiddelde schoenmaat = 38,8 mediaan = 39 modus = 39
Geef voor jouw gegevens de betekenis van de mediaan
Minstens 50% van de vrouwen heeft maximaal een schoenmaat 39 of
Minstens 50% van de vrouwen heeft minimaal een schoenmaat 39 of
Minstens 50% van de vrouwen heeft een schoenmaat 39 of meer of
Minstens 50% van de vrouwen heeft een schoenmaat 39 of minder
Oefening : een consumptieorganisatie onderzocht de levensduur van batterijen door ze in een
zaklamp te Oefening : een consumptieorganisatie onderzoekt de levensduur van batterijen. Ze
steken ze in een zaklamp die continu blijft branden tot de batterijen op zijn.
Open het tabblad dataset batterijen en bepaal voor beide types batterijen
Welk type batterij ga je in de winkel kopen en waarom?
Type B – alle centrummaten zijn hoger dan bij type A.
B. Via de enkelvoudige tabel gebruik GEEN fx
Je moet alles zelf bepalen zoals op p.47 alleen neemt de computer het rekenwerk over.
Open het tabblad tabel schoenmaten
gemiddelde schoenmaat = 38,8 mediaan = 39 modus = 38 en 39
TIP : om het gemiddelde te vinden via een tabel maak je een extra kolom waarin je de waarden van
de veranderlijke gaat vermenigvuldigen met AF. Die kolom moet je optellen en als je deze som deelt
door de omvang dan heb je het gemiddelde
Voor de mediaan kijk je in de CRF kolom en voor de modus in de AF kolom.
Statistiek – tweede jaar derde graad - 62 -
Type A Type B
Gemiddelde 103,6 uur 104,4 uur
Mediaan 104,5 uur 106,5 uur
Modus 112 uur 113 uur
Opmerking : als je deze resultaten zijn dezelfde als van de dataset behalve de modus.
Oefening - open het tabblad tabel dobbelen
gemiddelde som der ogen = 7,3 ogen mediaan = 7 ogen modus = 7 ogen
Geef voor deze gegevens de betekenis van de mediaan
Bij minstens 50% van de worpen heeft men maximaal ( of minimaal 7) ogen gegooid
C. Via de gegroepeerde tabel gebruik GEEN fx
Open het bestand 3A) Centrummaten als dit nog niet open staat
Open het tabblad tabel schaatstijden
1) Op hoeveel moet je de gemiddelde schaatstijd afronden en waarom?
Op 2 decimalen omdat de waarden van de dataset op 1 decimaal zij afgerond.
2) gemiddelde schaatstijd = 43,38 seconde
TIP : om het gemiddelde te vinden via een tabel maak je een extra kolom waarin je de middens
gaat vermenigvuldigen met AF. Die kolom ga je optellen en als je deze som deelt door de omvang
dan heb je het gemiddelde.
3) mediaan = 43,4 seconde
TIP : kijk in de CRF kolom naar de 50%, het midden dat hoort bij die 50% is dan de mediaan
4) modale klasse = 43,7 - 44,1 seconde
TIP : zoek in de AF kolom het grootste getal. De klasse die daarbij hoort is de modale klasse
5) modus = 43,9 seconde
TIP : het midden van de modale klasse
6) Geef de betekenis van de modus in de context van deze opgave
De meeste schaatsers reden een tijd van ongeveer 43,9 seconde
7) Geef de betekenis van de mediaan in de context van deze opgave
Minstens 50% van de schaatsers reden een schaatstijd van maximaal 43,4 seconde
Statistiek – tweede jaar derde graad - 63 -
Open het bestand 3) Centrummaten – je voornaam als dit reeds gesloten is.
Open het tabblad dataset rapportcijfers
1) Waarom heeft het geen zin om van beide klassen het modale cijfer te vergelijken?
Het modale cijfer is het cijfer dat het vaakst voorkomt. Hier zegt het niet veel, want misschien komt alleen 6,7 twee keer voor en zijn alle andere cijfers veel hoger of lager, maar wel onderling verschillend.
2) Bepaal van beide klassen de mediaan.
Klas A : mediaan rapportcijfer = …6,2.. Klas B : mediaan rapportcijfer = …6,5..
3) Zegt de mediaan iets over welke klas beter heeft gescoord voor de toets?
Met de mediaan weet je dat minstens 50% van de cijfers zeker hoger of gelijk aan 6,2 of 6,5 is.
In klas B heeft de betere helft dus hoger gescoord dan in klas A.
4) Bereken van beide klassen het gemiddelde cijfer.
Klas A : gemiddelde rapportcijfer = …6,0….. Klas B : gemiddelde rapportcijfer = 6,5..
5) Welke van beide klassen heeft het hoogste gemiddelde? Klas B
Kun je nu zonder meer zeggen dat die klas ook beter heeft gescoord?
Klas B is beter, het gemiddelde is behoorlijk hoger en de mediaan is ook hoger. Zonder
mediaan was dit niet mogelijk geweest, zie oefening p.58
Open het tabblad tabel geboortegewichten - je mag hier NERGENS fx gebruiken
In een ziekenhuis heeft men gedurende veertien dagen alle geboortegewichten genoteerd.
1) gemiddelde geboortegewicht = 3,351 kg
2) Het modale geboortegewicht is 3,32 kg
Dit wil zeggen dat de meeste baby’s bij hun geboorte ongeveer 3,32 kg wegen.
3) Er is 50% kans dat een baby meer weegt dan 3,37 kg
Dit getal komt overeen met welke centrummaat? de mediaan
4) 0ngeveer 25% van de baby’s weegt minimaal 3,70kg
5) 9 baby’s wegen 2,95kg of minder.
Statistiek – tweede jaar derde graad - 64 -
Hoofdstuk 6 : spreidingsmaten
1. Inleidend voorbeeld
Een consumentenorganisatie onderzocht de levensduur van twee soorten batterijen d.m.v. een
steekproef. De lengte van elk staafje komt overeen met de levensduur van een welbepaalde
batterij. Het gemiddelde van type A is 103,9 uur en voor type B 104,4uur.
Met deze gegevens is het niet zo simpel om het “beste” merk naar voren te schuiven. Welk argument
zou jij, als verantwoordelijke van die consumentenorganisatie, gebuiken om je lezers één van beide
merken aan te raden?
Geef een argument voor type A
Zij gaan dan wel gemiddeld minder lang mee maar wijken allemaal niet veel af van dit
gemiddelde terwijl type B veel meer afwijking vertoont.
Geef een argument voor type B
Gaan gemiddeld langer mee en die paar slechte batterijen nemen we er dan maar bij, er zijn
er ook die extra lang mee gaan.
Statistiek – tweede jaar derde graad - 65 -
Het is jullie dus zeker niet ontgaan dat de levensduur van de A-batterijen een kleinere variatie
vertonen. Dit willen we in één cijfer uitdrukken.
2. De variatiebreedte
We maken het verschil tussen de maximale en de minimale waarde, dit getal noemt men de
variatiebreedte.
Variatiebreedte type A = 30 uur Variatiebreedte type B = 78 uur
Levert deze waarde altijd een betrouwbare indicatie op voor de mate van spreiding ? neen
Verklaar :
Ze houdt enkel rekening met de uiterste waarden. Als er dus uitschieters zijn geeft deze
waarde geen goed idee over de spreiding.
De variatiebreedte is dus een zeer weinig bruikbare spreidingsmaat.
Daarom voeren we een nieuwe spreidingsmaat in : de standaardafwijking.
3. de standaardafwijking
1) We gaan kijken hoeveel elk gegeven afwijkt van zijn gemiddelde.
We gaan dus van elk gegeven het gemiddelde af doen.
Doe dit in kolom B voor type A en in kolom F voor type B
2) Wat vind je als som van al deze verschillen maakt ? nul
3) Hoe denk je dat dit komt ?
De som van de negatieve waarden = de som van de positieve waarden
4) Hoe zou je dit kunnen oplossen?
Deze verschillen tot de tweede macht verheffen
5) Bereken dus telkens het kwadraat van de verschillen in de kolom ernaast en maak nu de som
Voor type A = som (gegeven – gemiddelde)² = 1423
Voor type B = som (gegeven – gemiddelde)² = 5372,55
Statistiek – tweede jaar derde graad - 66 -
Vermits er meer batterijen zijn van type A dan van type B moeten we dit delen door hun aantal.
Maar we werken met een steekproef en gaan delen door n - 1
Zouden we werken met de populatie, dan delen we door n .
Het getal dat we nu bekomen noemen we de variantie.
Variantie type A = 74,89
Variantie type B = 282,77
Probleem :
Omdat we alles in het kwadraat hebben gedaan, hebben we dus niet meer dezelfde eenheid als onze
gegevens. Uur² bestaat zelfs niet.
6) Hoe lossen we dit probleem op ? vierkantswortel nemen
Zo krijgen we een nieuw getal dat we de standaardafwijking noemen
Standaardafwijking type A = 8,7 uur
Standaardafwijking type B = 16,8 uur
Je merkt dus dat we voor type B een grotere standaardafwijking hebben, wat wijst op een grotere
spreiding van de resultaten t.o.v. het gemiddelde.
Betekenis 8,7 uur type A – de batterijen van type A wijken gemiddeld 8,7 uur van hun
gemiddelde tijd van 103,9 uur.
Is de standaardafwijking een resistente grootheid? neen omdat zij gebruik maakt van het
gemiddelde die een niet resistente grootheid.
Opmerking :
De standaardafwijking is iets wat niet vaak vermeld wordt in de media, en dat is spijtig.
Voorbeeld :
Als iemand je zou vertellen dat het gemiddelde aanvangssalaris in een bepaalde firma €70.000 is,
zou je denken ‘Wauw! Geweldig!’
Maar als de standaardafwijking €20.000 zou zijn, kan je salaris gemiddeld afwijken van het
gemiddelde met dit bedrag. Je loon zou dus liggen tussen de €30.000 en de €110.000, want
meestal liggen 95% van de gegevens tussen het gemiddelde – 2 x de afwijking en gemiddelde + 2
x de afwijking. Dus eigenlijk heb je te weinig informatie aan het gemiddelde alleen.
Statistiek – tweede jaar derde graad - 67 -
Oefening
Stel je voor dat je een nieuwe wagen wil aanschaffen. Na een speurtocht bij diverse autohandelaars
blijft je keuze beperkt tot twee modellen, model A en model B. Het valt je echter zwaar een
beslissing te nemen want deze modellen verschillen niet in prijs, opties en merkbekendheid. In een
consumentenblad vind je een eigenaarenquête, dat aangeeft dat de standaardafwijking van de
onderhoudskosten voor model B lager is dan voor model A. Wanneer je je baseert op deze
informatie welke van de onderstaande beweringen is dan correct?
Model A met een grotere standaardafwijking geniet je voorkeur omdat een grotere waarde voor
de afwijking inhoudt dat de onderhoudskosten voor dit model minder van elkaar verschillen.
Model B met de kleinere standaardafwijking geniet je voorkeur omdat dit aangeeft dat er slechts
een klein verschil is bij de verschillende eigenaars van dit model in de gerapporteerde
onderhoudskosten.
Beide modellen zijn aanvaardbaar omdat je twee standaardafwijkingen niet met elkaar kan
vergelijken.
Oefening 2
a) Bereken het gemiddelde voor elke klas.
Gemiddelde klas A = (2*1+4*2+3*3+3*4+3*5+4*6+3*7+3*8+3*9+2*10) / 30 =
Gemiddelde klas B (2*3+2*4+3*5+9*6+3*7+8*8+1*9+2*10) / 30 =
b) Voor welke klas is de standaardafwijking het grootst? Klas A omdat daar meer afwijking is t.o.v. het gemiddelde
Statistiek – tweede jaar derde graad - 68 -
4. Interkwartielafstand = IQR
Het eerste kwartiel Q1 is gelijk aan de mediaan van de eerste helft van de gegevens. Dit wil zeggen
dat ongeveer 25% van de gegevens kleiner is of gelijk dan Q1, terwijl ongeveer 75% van de
gegevens groter is of gelijk dan Q1.
Het derde kwartiel Q3 is gelijk aan de mediaan van de tweede helft van de gegevens. Dit wil
zeggen dat ongeveer 75% van de gegevens kleiner is of gelijk dan Q3, terwijl ongeveer 25% van de
gegevens groter is of gelijk dan Q3.
De interkwartielafstand IQR = Q3 - Q1
Hoe groter de IQR hoe groter de spreiding van de 50% middelste gegevens t.o.v. de mediaan en is
een resistente spreidingsmaat.
Voorbeeld
Een studie in Zwitserland onderzocht hoeveel keer een dokter binnen één jaar een keizersnede
uitvoert.
Dit zijn de gegevens van een steekproef van 15 vrouwelijke artsen.
20 25 25 27 28 31 33 34 36 37 44 50 59 79 86
Q1 = 27 ; Q3 = 50 ; IQR = 23
Wat is nu de betekenis van deze getallen voor onze gegevens?
Q1 :
minstens 25% van de vrouwelijke artsen doet binnen één jaar 27 keer een keizersnede of minder
Q3 :
minstens 25% van de vrouwelijke artsen doet binnen één jaar 50 keer een keizersnede of meer
IQR :
De 50% middelste gegevens hebben een spreiding van 23 keizersneden.
Statistiek – tweede jaar derde graad - 69 -
Deze IQR gebruikt men om uitschieters te bepalen.
Alles kleiner dan Q1 – (1,5.IQR) zijn uitschieters te klein,
Alles groter dan Q3 + (1,5.IQR) zijn uitschieters te groot.
Bepaal voor de gegevens hierboven de uitschieters
27 – 1,5 . 23 = - 7,5 Geen uitschieters te klein aanwezig in onze dataset.
50 + 1,5 . 23 = 84,5 HIERUIT BLIJKT DAT 86 EEN UITSCHIETER TE GROOT IS.
Na verder onderzoek kan men beslissen deze weg te laten.
De vijfgetallensamenvatting – de boxplot
Met de interkwartielafstand knip je de dataset in 4 gelijke delen, waarmee je de mate van spreiding
kan afleiden.
- Wanneer de IQR klein is, weet je dat veel waarden dicht bij de mediaan liggen. Wanneer de
IQR groot is, weet je dat de waarden behoorlijk gespreid zijn ten opzichte van de mediaan.
- De interkwartielafstand is een veel betere spreidingsmaat dan de variatiebreedte omdat hij
niet beïnvloed wordt door uitschieters.
- Op onze boxplot is er de kleinste spreiding tussen Q1 en de mediaan, de grootste spreiding is
aanwezig in de laatste 25% van de resultaten.
De grootte van de rechthoek zegt niets over de aantallen waarnemingsgetallen. Elk van de vier
gebieden representeert altijd 25% van het aantal resultaten. Wanneer een bepaald gebied groter is
dan een ander, betekent dit alleen dat de resultaten in het grotere gebied meer spreiding vertonen.
Oefening 1 - hieronder zie je in één figuur de Citoscores van de twee basisscholen “Het Kompas” en
“de Windhoek”. Op Het Kompas deden 36 leerlingen mee en op “De Windhoek deden 60 leerlingen.
a) Hoeveel procent van het totaal van alle leerlingen van deze twee scholen haalde een score van
525 of meer? 65,6% in totaal 50% van Kompas = 18 en 75% van Windhoek = 45 → 63 van de 96
b) Hoe groot is de variatiebreedte van “De Windhoek”? 45
c) Hoe groot is de kwartielafstand van “Het Kompas"? 20
d) In de buurt van welke score scoorden waarschijnlijk de meeste leerlingen? Leg duidelijk uit!
537, in de buurt van deze waarde zitten minstens 25% van de leerlingen want de spreidings is daar zeer klein
Statistiek – tweede jaar derde graad - 70 -
Oefening 2 - Een zakje dat 28,5 gram of minder weegt,
wordt afgekeurd. Als bij een controle
van 20 zakjes meer dan twee zakjes worden afgekeurd,
moet de machine worden nagekeken.
De resultaten van een andere controle van 20 zakjes zijn in onderstaande boxplot verwerkt.
Moet de machine worden nagekeken? Leg je antwoord uit.
25% van de zakjes weegt 28,5 gram of minder
25% van 20 zakjes is 5 zakjes
5 zakjes is meer dan 2 zakjes, dus de machine moet worden nagekeken
Oefening 3 - Om een duidelijker beeld te krijgen van de leeftijdsopbouw van de docenten op hun
school, hebben Elise en Maaike van de gegevens uit de frequentietabel twee boxplotten
getekend. Het resultaat zie je hieronder.
Hoeveel procent van de vrouwelijke docenten is volgens de boxplotten ouder dan de jongste helft
van de mannelijke docenten? Laat zien hoe je aan je antwoord komt.
Een boxplot is in stukjes van 25% verdeeld
De mediaan van de mannen valt samen met het derde kwartiel van de vrouwen
Dus 25% van de vrouwelijke docenten is ouder dan de jongste helft van de mannelijke docenten.
Oefening 4 –
a) Bij geldautomaat II is er die dag in totaal meer geld opgenomen dan bij geldautomaat I.
b) Het kleinste en het grootste bedrag dat die dag bij beide geldautomaten zijn opgenomen zijn
hetzelfde.
c) Bij geldautomaat I worden relatief meer kleine bedragen opgenomen dan bij geldautomaat II.
Geef van elke uitspraak aan of deze af te leiden is uit figuu.. Licht je antwoorden toe.
a) kan niet uit figuur 1 worden af geleid: uit een boxplot kun je geen AF aflezen
b) de linker- en rechteruiteinden van de boxplotten liggen precies boven elkaar
c) het eerste kwartiel van geldautomaat I is kleiner dan het eerste kwartiel van geldautomaat II
Statistiek – tweede jaar derde graad - 71 -
5. Spreidingsmaten via ICT
Open het bestand 4B) Spreidingsmaten
Open tabblad dataset schoenmaten
Schoenwinkel “Sabato” was geïnteresseerd naar de schoenmaten van zijn vrouwelijke klanten. Hij
noteerde gedurende een week elke dag van elke 3de , 6de , 9de , 12de en 15de vrouwelijke klant de
schoenmaat
Kwartiel 1 = 38 Kwartiel 3 = 39,75 IQR = 1,75
Geef de betekenis voor de gegevens
Q1 : minstens 25% van de vrouwelijke klanten van schoenwinkel Sabato heeft schoenmaat 38
of kleiner
Q3 : minstens 25% van de vrouwelijke klanten van schoenwinkel Sabato heeft schoenmaat
39,75 of groter
Standaardafwijking = 1,14
Open tabblad tabel schoenmaten
Kwartiel 1 = 38 Kwartiel 3 =40 IQR = 2
TIP : kijk in de CRF kolom naar de 25%. De schoenmaat die daar bij hoort is het kwartiel 1
kijk in de CRF kolom naar de 75%. De schoenmaat die daar bij hoort is het kwartiel 3
Je ziet dat kwartiel1 hetzelfde is als bij de dataset, maar bij de dataset heb je voor kwartiel3 een andere
waarde.
Open tabblad tabel schaatstijden : gebruik bij een tabel NOOIT fx!
Kwartiel 1 = 42,4 sec Kwartiel 3 = 44,4sec
Oefening 1 : open het bestand 4C) spreidingsmaten - geboortegewicht
1) open dataset geboortegewichten 2) open tabel geboortegewichten
afwijking = 0,4583kg
kwartiel1 = 3,13kg kwartiel1 = 3,07kg
kwartiel3 = 3,69kg kwartiel3 = 3,57 kg
IQR = 0,56kg
Je ziet dat alle waarden van 1) en 2) dicht bij elkaar liggen, maar niet dezelfde zijn. Hoe komt die?
Omdat we in de tabel gewerkt hebben met de middens en niet met de echte waarden.
Statistiek – tweede jaar derde graad - 72 -
Geef de betekenis van je 3de kwartiel voor deze gegevens
minstens 25% van de jongens hebben een geboortegewicht van 3,69kg of meer
Oefening 2 : open het bestand 5) kengetallen lengtes vrouwen
1) Bepaal alle kengetallen :
gemiddelde = 162,0 cm
kwartiel1 = 158 cm
kwartiel3 = 167 cm
mediaan = 161cm
IQR = 9 cm
2) Vanaf welke lengte zou een gegeven een uitschieter zijn naar onder?
158 – 1,5 . 9 = 144,5 vanaf een lengte van 144,5 cm zou men een uitschieter te klein zijn.
3) Een vierde van de vrouwen is groter dan 167 cm, dit getal is kwartiel3
4) Een vrouw die hoogstens een standaardafwijking = 6,55cm van het gemiddelde afwijkt
heeft een normale lengte. Welke lengte mag een vrouw hebben die vrij normaal is?
162,0 – 6,55 = 155,45 en 162,0 + 6,55 = 168,55
Vrouwen tussen 155,5 cm en 168,6 cm hebben een normale lengte.
Statistiek – tweede jaar derde graad - 73 -
Hoofdstuk 6 : de normale verdeling
1. Histogram op dichtheidsschaal :
histogram TEST WISKUNDE OP 30 PUNTEN
0
5
10
15
20
25
10 - 14 15 - 19 20 - 24 25 - 29
SCORES
AA
NT
AL
Tussen welke waarden liggen de scores die de deelnemers behaald hebben? 10 op 30 en 29 op 30
Welke klassenbreedte heeft men gekozen? 5
Wat is de totale oppervlakte van het histogram?
5 . 10 + 5 . 20 + 5 . 15 + 5 . 5 = 250
Een histogram op dichtheidsschaal moet een totale oppervlakte hebben die gelijk is aan 1 = 100%
Om zo een histogram te tekenen neem je de hoogte van de rechthoeken gelijk aan
hoogte =
A .F .
klassenbreedte¿¿¿¿
grenswaarden AF RF % hoogte histogram
dichtheidsschaal
10 – 14 10 20% 0,04
15 - 19 20 40% 0,08
20 - 24 15 30% 0,06
25 - 29 5 10% 0,02
histogram op dichtheidsschaal TEST WISKUNDE OP 30 PUNTEN
0,00
0,02
0,04
0,06
0,08
10 - 14 15 - 19 20 - 24 25 - 29
SCORES
DIC
HT
HE
IDS
SC
HA
AL
Statistiek – tweede jaar derde graad - 74 -
oppervlakte van rechthoek 1 = 5 . 0,04 = 0,2 = 20%
oppervlakte van rechthoek 4 = 5 . 0,02 = 0,1 = 10%
De oppervlakte van elke rechthoek op dichtheidsschaal komt dus overeen met de RF
De totale oppervlakte = de som van de oppervlakte van alle rechthoeken =
5 . 0,04 + 5 . 0,08 + 5 . 0,06 + 5 . 0,02 = 1 = 100%
Statistiek – tweede jaar derde graad - 75 -
Oefening 1 : Hieronder is het histogram van de geboortegewichten van 10 000 lukraak gekozen baby’s
0,004 0,0132 0,03940,0802
0,3928
0,724
0,5532
0,171
0,0216 0,00060
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
geboortegewicht in kg
dic
hth
eid
ssch
aal
1) Hoeveel bedraagt de opp. van dit histogram? 1 of 100%
2) Met welke klassenbreedte heeft men gewerkt? 0,5
3) Wat is de oppervlakte van rechthoek 5 ? 0,5 . 0,3928 = 0,1964
Wat wil deze waarde zeggen ?
19,6% van de baby’s weegt tussen de 2,45kg en de 2,95kg
4) In de geneeskunde spreekt men over “laag geboortegewicht” wanneer het kind minder dan 2,5kg weegt.
Met de term “zeer laag geboortegewicht” bedoelt men gewichten beneden de 1,5 kg.
Hoeveel % van de kinderen wordt geboren met een zeer laag geboortegewicht?
0,5 . 0,004 + 0,5 . 0,0132 = 0,0086 = 0,86% van de baby’s
5) Hoeveel % van de kinderen heeft een gewicht tussen de 3kg en de 4kg?
0,5 . 0,724 + 0,5 . 0,5532 = 63,86%
6) Als je het histogram bekijkt dan valt de meerderheid van de gewichten tussen 2,45 kg en 4,45kg.
7) Het gemiddelde geboortegewicht x is 3,25kg met een standaardafwijking S van 0,591kg
Wat wil dit zeggen?
De baby’s wijken gemiddeld 0,591kg af van het gemiddelde gewicht van 3,25kg
8) Hoeveel baby’s hebben een modaal gewicht ? 3620 baby’s
0,5 . 0,724 = 0,362 Dus 0,362 . 10 000 = 3620 baby’s.
Statistiek – tweede jaar derde graad - 76 -
9) Zijn de geboortegewichten symmetrisch verdeeld,
Neen, ze zijn scheef naar links verdeeld
10) Heb je daar een verklaring voor?
Tegenwoordig laat men de baby’s vroeger komen als men merkt dat ze te zwaar worden.
Premature zijn echter nog steeds een stuk moeilijker te behandelen.
11) Zal de mediaan groter of kleiner zijn dan het gemiddelde? groter omdat
het gemiddelde naar beneden getrokken werd door de aanwezigheid van de kleinere gewichten in
de staart naar links.
Statistiek – tweede jaar derde graad - 77 -
Oefening 2
Bij een bedrijf hanteert men een prikklok systeem om de gewerkte tijd van de werknemers te registreren. Voor
160 willekeurig geselecteerde werknemers zijn de werktijden afgerond in uren voor de maand maart in
onderstaande tabel opgenomen.
1) Met welke klassenbreedte heeft men gewerkt? 10
2) Vul de laatste kolom in
grenswaarden AF Hoogte histogram op
dichtheidsschaal
120 - 129 15 0,009375
130 - 139 19 0,011875
140 - 149 32 0,02
150 - 159 40 0,025
160 - 169 35 0,021875
170 - 179 19 0,011875
3) Teken het histogram op dichtheidsschaal
0
0,005
0,01
0,015
0,02
0,025
0,03
120 - 129 130 - 139 140 - 149 150 - 159 160 - 169 170 - 179
Statistiek – tweede jaar derde graad - 78 -
2. Opstellen van een model voor de ganse populatie : de normale dichtheidsfunctie.
In voorgaande oefeningen hebben we steeds gewerkt met steekproeven. De resultaten hebben we
leren grafisch voorstellen d.m.v. een histogram op dichtheidsschaal. Zo kunnen we ons een beeld
vormen van hoe de gegevens van die steekproef verdeeld zijn.
Bij heel wat gegevens kan het histogram zeer goed benaderd worden door een symmetrische,
klokvormige kromme. In die gevallen bevindt het grootste deel van de gegevens zich in de
“middenmoot” en zijn uitschieters eerder zeldzaam. Veel frequentieverdelingen hebben een nette
symmetrische klokvorm, zeker als het veel gegevens betreft. Voorbeelden daarvan zijn de verdeling
van de lengtes van een grote groep mensen, de gewichten van volle pakken suiker, de inhoud van
een grote groep colaflessen van dezelfde soort en maat, enzovoorts.. Omdat deze verdeling zo
dikwijls voorkomt noemt ze de normale verdeling.
Voorbeeld
De resultaten voor wat de lichaamslengte betreft van 5000 Nederlandse vrouwen.
Histogram op dichtheidsschaal met het enkelvoudig polygoon = de gebroken lijn op het histogram
0,00000
0,01000
0,02000
0,03000
0,04000
0,05000
0,06000
0,07000
0,00000
0,01000
0,02000
0,03000
0,04000
0,05000
0,06000
0,07000
histogram op dichtheidsschaal frequentiepolygoon
Het gemiddelde x = 162,0cm en de standaardafwijking S = 6,55cm
De modale vrouw heeft een lengte tussen de 159,5 cm en de 162,5 cm .
Hoeveel % van de vrouwen heeft zo een modale lengte?
3 . 0,0624 = 0,1872 dus 18,7% heeft een modale lengte
Hoeveel % van de vrouwen hebben een lengte tussen de 153,5cm en de 171,5cm?
3 . 0,03513 + 3. 0,04933 + 3 . 0,0624 + 3 . 0,05833 + 3 . 0,04447 + 3 . 0,02887 = 0,83568
Dus 83,6% heeft een lengte tussen de 153,5cm en de 171,5cm
Omdat we de waarnemingen in klassen gegroepeerd hebben, wordt het lastig als je wilt weten
hoeveel % van de waarnemingen ligt tussen grenzen die geen klassengrenzen zijn. Daarom werd
naar een model gezocht. Carl Friedrich Gauss heeft zo’n model gevonden voor deze normale
verdeling.
Statistiek – tweede jaar derde graad - 79 -
Carl Friederich Gauss heeft aangetoond dat we de dichtheidskromme van normaal verdeelde
gegevens kunnen beschrijven met de functie f(x) voor de gehele populatie
f ( x )= 1√2π .σ ¿e
−(x−µ )²
2σ ²¿
e is hierin een irrationaal getal juist zoals en is gelijk aan
2,71828182…
is de populatie standaardafwijking
is het populatie gemiddelde
Deze functie noemt men de normale dichtheidsfunctie
Carl Friederich Gauss heeft aangetoond dat we de dichtheidskromme van normaal verdeelde
gegevens kunnen beschrijven met de functie f(x) voor de gehele populatie
f ( x )= 1√2π .σ ¿e
−(x−µ )²
2σ ²¿
e is hierin een irrationaal getal juist zoals en is gelijk
aan 2,71828182…
is de populatie standaardafwijking
is het populatie gemiddelde
Deze functie noemt men de normale dichtheidsfunctie
In de wiskunde spreekt men over een dichtheidsfunctie als de oppervlakte onder de kromme = 1
juist zoals bij een dichtheidshistogram.
Statistiek – tweede jaar derde graad - 80 -
Hieronder is het frequentiepolygoon getekend samen met de normale dichtheidsfunctie.
Je ziet inderdaad dat de grafiek van de normale dichtheidsfunctie het polygoon zéér goed benadert.
Het gemiddelde x =162,0cm en de standaardafwijking S = 6,55cm van de steekproef nemen we als
benadering voor het gemiddelde µ en de standaardafwijking van de populatie in de functie van
Gauss.
De lengte van de Nederlandse vrouwen stellen we voor met X.
Omdat deze normaal verdeeld is, noteert men X ~ N (162,0 ; 6,55)
Wanneer we ons afvragen hoeveel % van de vrouwen een lengte tussen 162cm en 168cm hebben,
dan moeten we dus oppervlakte berekenen onder de kromme van Gauss tussen 162 en 168.
Het voordeel van deze normale verdeling is dat we alle oppervlaktes kunnen bepalen, terwijl alleen
het gemiddelde en de standaardafwijking bekend hoeft te zijn.
We hebben al gezien dat veel frequentieverdelingen
een nette symmetrische klokvorm, zeker als het veel
gegevens betreft. Ook toen Albert Michelson de
snelheid van het licht probeerde te bepalen in 1879
a.d.h.v. een experiment, wat telkens een ander
meetresultaat opleverde, viel het op dat alle waarden
vrij symmetrisch verdeeld waren rond een centrale
waarde.
Statistiek – tweede jaar derde graad - 81 -
Dit is niet alleen bij dit experiment, ook in talloze andere onderzoeken bleken de meetwaarden een
dergelijke verdeling te hebben. Dat trok de aandacht van de 19de - Eeuwse wetenschappers en
wiskundigen.
Het was de Belgische wiskundige en astronoom Adolphe Quentelet die rond 1844 voor het eerst
ontdekte dat dergelijke symmetrische verdelingen, tot de grote verbazing van die tijd, ook bij
menselijke kenmerken optreden en niet alleen bij fysische metingen. Zo bijvoorbeeld stelde hij vast
dat de borstomtrek van 5738 Schotse soldaten, gegevens die hij in een medisch tijdschrift aantrof,
ook deze “ klokvormige “ verdeling vertoont.
In de buurt van het gemiddelde liggen dus de meeste gegevens. Hoe verder de gegevens van het
gemiddelde liggen, hoe minder vaak ze voorkomen.
Er zijn ook gegevens die totaal niet normaal verdeeld zijn, zoals de lonen. Hieronder het histogram
van de jaarlijkse inkomsten van 177 gezinnen uit Illinois. We zien dat het histogram rechts scheef is
en niet normaal verdeeld is.
Statistiek – tweede jaar derde graad - 82 -
3. De vuistregel = 68 – 95 – 99,7 regel bij normale verdelingen
We nemen de lichaamslengte van 21-jarige mannen die normaal verdeeld zijn met een gemiddelde
van 179cm en een standaardafwijking van 7,3cm.
Men noteert dit als → X ~ N (179 ; 7,3)
De normale kromme wordt beschreven door twee parameters µ en
De waarde µ, het populatie gemiddelde, komt overeen met de ligging van de symmetrieas.
Voor die waarde bereikt de kromme zijn hoogste punt.
De waarde , de populatie standaardafwijking, bepaalt de breedte van de kromme.
Ter hoogte van de waarde µ- en µ+ heeft de kromme een buigpunt.
De verticale as laat men bijna altijd weg.
De vuistregel → 68 – 95 – 99,7 regel bij een normale verdeling
Opmerking : deze regel kan men ook gebruiken om na te gaan of gegevens normaal verdeeld zijn.
Statistiek – tweede jaar derde graad - 83 -
Oefening
De inhoud van 750 potten jam is normaal verdeeld met een gemiddeld gewicht van 460 gram en een
standaardafwijking van 8 gram = N (460gram ; 8 gram)
Hoeveel van deze potten hebben volgens de vuistregels van de normale verdeling een inhoud
a) tussen 452 en 468 gram? 68% → 0,68 . 750 = 510 potten
b) meer dan 444 gram? 95% + 2,5% = 97,5% → 0,975 . 750 = 731 potten
c) tussen 468 en 476 gram? (95% - 68%) / 2 = 13,5% → 0,135 . 750 = 101,25 potten
d) tussen 444 en 460 gram? 95% / 2 = 47,5% → 0,475 . 750 = 356 potten
Statistiek – tweede jaar derde graad - 84 -
4. Kansen berekenen met behulp van de normale verdeling
Voorbeelden :
A. De lichaamslengte in cm van 21-jarige mannen is normaal verdeeld X ~ N (179,2 ; 7,32)
1° De kans dat een willekeurige 21 jarige man een lengte heeft kleiner dan 174cm is 23,9%
Om deze kans te bepalen moet je de oppervlakte zoeken onder de kromme links van 174.
Deze kans kunnen we bepalen via Excel als volgt :
Neem fx , norm.verd de rest spreekt voor zich enkel bij cumulatief waar typen.
2° De kans dat een willekeurige 21 jarige man een lengte heeft kleiner dan 180cm is 54,4%
Statistiek – tweede jaar derde graad - 85 -
B. De afmeting van de precisiewerkstukken in mm is normaal verdeeld, X ~ N ( 10,42 ; 0,30)
1° Welke afmeting moet een werkstuk hebben opdat 30% een kleinere afmeting zou hebben?
Dit kan je vinden met de functie norm.inv, bij kans zet je 0,30
Een werkstuk moet dus een lengte van 10,3mm hebben.
2° Hoeveel kans heeft een werkstuk om groter te zijn dan 11,3cm?
100% – 99,8% = 0,2%
Een werkstuk heeft dus een kans van 0,2% om groter te zijn dan 11,3cm
Statistiek – tweede jaar derde graad - 86 -
C. De inhoud van een pakje koffie is normaal verdeeld. X ~ N ( 500,0 ; 8,24 )
1° Men heeft 65,5% kans dat een pakje koffie tussen de 490 en de 506 gram weegt.
76,7% - 11,2% = 65,5%
2° Om tot de 10% zwaarste pakjes te behoren moet je een gewicht hebben van meer dan : 511 gram
norm.inv, bij kans zet je 0,90
Statistiek – tweede jaar derde graad - 87 -
Oefeningen - duid eerst alle gegevens en het gevraagde aan op de grafiek onder elke oefening.
1° De massa van 5000 eieren is normaal verdeeld met gemiddelde van 55g en standaardafwijking van
6,3g. De eieren zijn onderverdeeld in drie gewichtsklassen : 40-50 50-60 60-80
Hoeveel eieren bevatten de twee eerste klassen?
20,2% - 0,62% = 19,58%
5000 . 0,1985 = 979 eieren
79,8% - 20,2% = 59,6%
5000 . 0,596 = 2980 eieren
Statistiek – tweede jaar derde graad - 88 -
2° Maak de berekening op p.67
3° Neem aan dat voor een groep mensen het I.Q. normaal verdeeld is volgens N(115;13,1)
Bereken de kans dat een lukraak gekozen lid van de groep een I.Q. heeft tussen 130 en 140.
97,4% - 87,4% = 9,8%
4° De bekertjes die behoren bij een frisdranken automaat kunnen, tot de rand gevuld, precies 11cl
vloeistof bevatten.
De automaat is zo geregeld dat verkregen volume normaal verdeeld is X ~ N (9,5 ; 0,62 )
Bereken de kans dat een bekertje bij het vullen overloopt.
100% - 99,2% = 0,8%
Statistiek – tweede jaar derde graad - 89 -
5° Neem aan dat voor de volledige bevolking het I.Q. verdeeld is volgens N (100;15).
Er wordt nu een vereniging opgericht waarvan de leden moeten behoren tot de 2% van de bevolking
die de hoogste I.Q. hebben. Welk I.Q. (afgerond op de eenheid) moet je hebben om in aanmerking te
komen als lid van deze vereniging?
Bij kans zet je 0,98 Een IQ van 132 of meer
6° Een farmaceutisch bedrijf wil drie laboranten aannemen. Alle 200 kandidaten worden voor een
gesprek uitgenodigd en moeten een test afleggen. De resultaten zijn normaal verdeeld N ( 73% ; 9%)
Hoeveel kandidaten met een score hoger dan 85% verwacht het farmaceutisch bedrijf op een tweede
gesprekronde?
100% - 89,6% = 10,4% 200 x 0,104 ~ 20 kandidaten
Statistiek – tweede jaar derde graad - 90 -
7° In de les fysica moeten de leerlingen het volume van een metalen bol bepalen door deze onder
water te dompelen en het niveauverschil van het water af te lezen. De meetresultaten van de leerlingen
zijn normaal verdeeld met gemiddelde = 20cm³ en standaardafwijking = 0,5cm³
a) Wat is de grenswaarde van 3% van de volumes met te lage meetwaarden? 19cm³
b) Voor welke grenswaarde is 40% van de meetwaarden van de volumes te hoog? 21cm³
Gedicht : Normale verdeling
Er werd op het WK-toernooi
Weer zeer normaal gespeeld
De vrije trappen waren mooi
En zeer normaal verdeeld
Want 95%
bleef doelloos, uur na uur
zo’n 68, da’s bekend,
belandde in de muur.
De 5 procent die overbleef
trof juist een paal of lat,
op één na die een boog beschreef,
de hoek inging en zat!
Men was ontroerd en stomverbaasd
en alom klonk applaus
en ieder wist, dit moet wel haast
de kromme zijn van Gauss!
Statistiek – tweede jaar derde graad - 91 -