Populationer 23
2 Populationer
I en statistisk sammenhæng er en population en samling af elementer, fx per-
soner, virksomheder, lande, kunder eller mere abstrakte objekter. Fra en po-
pulation kan man udtage en stikprøve. Forståelsen af samspillet mellem en
population og udtrækningen af en stikprøve er helt afgørende i statistiske
analyser og derfor et centralt element i denne bog. Inden vi undersøger dette
samspil nærmere i de følgende kapitler, vil vi bruge dette kapitel til at kaste et
første blik på nogle populationer og deres elementer.
I dette kapitel vil vi udelukkende beskæftige os med virkelige populationer.
I afsnit 2.1 forklarer vi, hvad vi mere præcist forstår ved en sådan population
og dens elementer. I det efterfølgende afsnit viser vi, hvordan man kan repræ-
sentere og sammenligne både kvalitative og kvantitative karakteristika ved de
enkelte elementer i en population.
Fordi en population kan indeholde mange elementer, kan det ofte være
nyttigt at kunne sammenfatte elementerne på en overskuelig måde. I afsnit
2.3 viser vi, hvordan dette kan gøres ved hjælp af grafiske redskaber som fx et
histogram eller med enkle talstørrelser som fx en middelværdi. Mens vi i af-
snit 2.3 vil koncentrere os om at sammenfatte et enkelt karakteristikum ved
elementerne i en population, som fx elementernes alder eller deres indkomst,
ser vi i afsnit 2.4 på, hvordan man kan beskrive sammenhænge mellem så-
danne karakteristika i en population. Endelig viser vi i afsnit 2.5, hvordan Ex-
cel kan anvendes i denne forbindelse.
2.1 Virkelige populationer
En population er en samling af elementer, hvor hvert element kan have en ræk-
ke karakteristika. En population kan fx bestå af alle danskere, hvor hver person
har karakteristika som fx alder, køn, uddannelse, bopæl, beskæftigelse og ind-
komst. Selvom elementerne i en population kan have mange forskellige karak-
teristika, fokuserer vi typisk kun på det eller de karakteristika, som er af inte-
resse i en given undersøgelse, fx personernes alder og/eller deres indkomst.
Når både elementerne i en population og deres karakteristika eksisterer,
kalder vi populationen for en virkelig population. En virkelig population kan
24 Indblik i statistik – for samfundsvidenskab
således i princippet observeres. I de næste kapitler vil vi argumentere for nyt-
ten af også at definere såkaldte superpopulationer, der er mere abstrakte po-
pulationer.
2.2 Måleskalaer
For at lave statistiske analyser er det nødvendigt, at man kan måle elementer-
nes karakteristika. Målinger opgøres på forskellige typer af skalaer. Typen af
skala har konsekvenser for hvilke analysemetoder, der efterfølgende kan an-
vendes. I dette afsnit kigger vi derfor nærmere på forskellige måleskalaer.
Vi arbejder i denne bog udelukkende med karakteristika, som man kan re-
præsentere med en talværdi. Dette er ikke så restriktivt, som det lyder. Tænk
fx på en person, hvor det relevante karakteristikum er, om hun er for eller
imod et lovforslag. Dette lugter ikke umiddelbart af tal, men vi kan alligevel
sagtens repræsentere „for“ med talværdien 0 og „imod“ med talværdien 1.
Man måler forskellige karakteristika på forskellige skalaer. En persons æg-
teskabelige status (enlig, gift, skilt, enke) er fx målt på en anden skala end en
persons vægt i kilo. Fordi typen af skala har stor betydning for valg af ana-
lysemetode, opdeler vi målinger i kvalitative og kvantitative målinger. Når det
ikke er meningsfyldt at anvende de fire basale regnearter (addition, subtrak-
tion, multiplikation og division) på værdierne fra en måling, så er målingen
kvalitativ. Hvis det derimod er meningsfyldt at bruge de fire regnearter, siges
målingen at være kvantitativ.
Man skelner desuden mellem to typer af måleskalaer for en kvalitativ må-
ling: Nominale og ordinale. Ligeledes skelner man mellem to slags måleskalaer
i forbindelse med en kvantitativ måling: Intervalskalaer og ratioskalaer. Opde-
lingen er illustreret i tabel 2.1 sammen med de matematiske operationer, der
er meningsfulde at anvende i forbindelse med hver af de fire måleskalaer. De
fire skalaer uddybes yderligere i de følgende afsnit.
Måling Måleskala Meningsfulde matematiske operationer
Kvalitativ Nominal =, ≠
Ordinal =, ≠, >, <
Kvantitativ Interval =, ≠, >, <, +, -
Ratio =, ≠, >, <, +, -, ., /
Tabel 2.1:
Målinger,
måleskalaer og
matematiske
operationer
Populationer 25
2.2.1 Nominal skala
Et eksempel på en nominal måleskala er hårfarven på en person. Antag for
eksemplets skyld, at hårfarven kun kan være hvid, sort eller rød, og at hvid
repræsenteres med værdien 1, sort med værdien 2 og rød med værdien 3. Det
giver ingen mening at bruge de fire regnearter her, fx ved at gange hvid med
rød. Det giver heller ikke mening at tale om, at rød er større end sort, selvom
rød er repræsenteret ved talværdien 3, mens sort „kun“ har talværdien 2. Fak-
tisk kan man i dette eksempel kun sige, om hårfarven på en person er lig med
eller forskellig fra hårfarven på en anden person. Det vil sige, man kan skelne
de forskellige værdier på skalaen: 1 = hvid; 2 = sort; og 3 = rød. Dette karakte-
riserer en nominal måleskala: Der er ingen struktur eller sammenhæng mel-
lem værdierne på skalaen.
2.2.2 Ordinal skala
Modsat en nominal skala giver det på en ordinal skala mening at tale om, at
nogle værdier er større eller mindre end andre værdier. Hvis man fx skal måle
de studerendes opfattelser af kaffens kvalitet i kantinen og angiver tre svarmu-
ligheder: „tilfreds“, „meget tilfreds“ eller „super tilfreds“ på spørgeskemaet, så
kan disse repræsenteres med talværdierne 1, 2 og 3. Her giver det mening at
tale om, at „tilfreds“ (= 1) er mindre end „meget tilfreds“ (= 2), som igen er
mindre end „super tilfreds“ (= 3). En ordinal skala er således karakteriseret
ved, at værdierne på skalaen er rangordnede. På en ordinal skala giver det
imidlertid ikke mening at vurdere størrelsen af forskellen mellem to værdier.
For eksempel kan man ikke konkludere, at forskellen mellem „meget tilfreds“
og „super tilfreds“ er den samme som mellem „tilfreds“ og „meget tilfreds“.
Man kan altså ikke trække talværdierne fra hinanden på en meningsfuld
måde.
2.2.3 Intervalskala
På en intervalskala giver det mening at tale om forskellen mellem to værdier.
For eksempel er forskellen i kropstemperatur mellem to personer med tempe-
raturer på henholdsvis +37 grader Celsius og +38 grader Celsius lig med 1
grad Celsius, hvilket er det samme som forskellen mellem to personer med
henholdsvis +38 og +39 grader Celsius i kropstemperatur. Det giver derimod
ikke mening at tale om et relativt forhold mellem to temperaturer målt i Cel-
sius. Selvom det umiddelbart kunne virke meningsfuldt at sige, at +40 grader
Celsius er dobbelt så varmt som +20 grader Celsius, så kan man se det proble-
matiske i dette ved på samme måde at forsøge at sammenligne +30 grader
Celsius med –10 grader Celsius. For at give relative sammenligninger mening
er det nødvendigt med et naturligt nulpunkt. Et sådant nulpunkt er defineret
26 Indblik i statistik – for samfundsvidenskab
ved, at intet af det givne karakteristikum er til stede. Når temperaturen er 0
grader Celsius, så betyder det imidlertid ikke, at temperaturen ikke er til ste-
de.
2.2.4 Ratioskala
En ratioskala er en intervalskala med et naturligt nulpunkt. Vægten af en per-
son har fx et naturligt nulpunkt, som er der, hvor han ikke vejer noget (og der-
med ikke er til stede). Her giver det derfor mening at tale om det relative for-
hold mellem to værdier. Fx vejer en mand på 210,40 kg dobbelt så meget som
en mand på 105,20 kg. Værdierne på en ratioskala kan også være heltal som for
eksempel antallet af ægteskaber, en person har bag sig. Antallet af ægteskaber
har det naturlige nulpunkt 0, som er fraværet af tidligere ægteskaber.
2.2.5 Valg af skala
Det er værd at bemærke, at man ofte kan måle det samme karakteristikum på
forskellige skalaer. Nogle gange vil måleskalaen være dikteret af de fysiske
rammer for det, man måler. Der er dog ofte også et element af subjektivitet i
valget af måleskala. Fx tilhører måling af temperaturer i Celsius en interval-
skala, hvorimod måling af temperaturer i Kelvin tilhører en ratioskala.
I samfundsvidenskaberne er det ikke usædvanligt, at det, man vil måle, ikke
er præcist defineret fysisk. Et eksempel på dette er en persons intelligens eller
en persons holdning til kaffens kvalitet i kantinen. Dermed er det ikke altid
oplagt, hvordan måleskalaen skal udformes og fortolkes. Der opstår således et
tæt samspil mellem målingen af et karakteristikum og den analytiker, som
står for målingen.
2.3 Overblik over et enkelt karakteristikum
For at kunne skabe sig overblik over interessante aspekter ved en population
er det nyttigt at have metoder til at sammenfatte karakteristika i populatio-
nen. Dette er specielt vigtigt, når der er mange elementer i populationen. Men
selv med blot 50 personer i en population kan det være svært at danne sig et
overblik over fx deres indkomster eller alder blot ved at betragte de 50 forskel-
lige værdier for disse. I dette afsnit vil vi derfor gennemgå en række grafiske og
numeriske metoder til at sammenfatte og illustrere udvalgte karakteristika
ved elementerne i en virkelig population.
Til dette formål er det praktisk at indføre lidt notation. Lad derfor Npop være
antallet af elementer i populationen, lad aj være det j’te elements værdi af ka-
rakteristikum a (fx indkomst) og lad bj være det j’te elements værdi at et andet
karakteristikum benævnt b (fx forbrug), hvor j er et heltal mellem 1 og Npop.
Populationer 27
Eksempel 2.1: I en population bestående af fem individer, Npop = 5, har hvert individ en
månedlig indkomst (karakteristikum a) og et månedligt dagligvareforbrug
(karakteristikum b). Værdierne for disse karakteristika er vist i tabellen ne-
denfor:
j(individ)
aj
(indkomst i tusinde kr.) bj
(forbrug i tusinde kr.)
1 36 9
2 28 5
3 25 6
4 32 8
5 28 6
Indkomsten for individ nummer 3 er således a3 = 25 (tusinde kr.). Individ
nummer 2 og 5 har samme indkomst, så her er a2 = a5 = 28 (tusinde kr.).
Forbruget for individ nummer 5 er b5 = 6 (tusinde kr.).
2.3.1 Frekvenser og histogrammer
En måde at sammenfatte en egenskab for en population på er ved at udregne
andelen af elementer i populationen, som har en bestemt værdi af et karakte-
ristikum. Fordi vi ofte er interesserede i denne størrelse, definerer vi en funk-
tion, kaldet andelsfunktionen, som giver os disse andele. Lad z være en værdi af
et karakteristikum. Andelsfunktionen, g(z), er da defineret som i følgende
boks:
Antallet af elementer i populationen er lig med Npop. Tælleren i den ovenstå-
ende brøk kaldes også for frekvensen, og g(z) kaldes også for den relative fre-
kvens af elementer med værdien z. Hvis man ønsker et visuelt billede af an-
delsfunktionen, kan man afbilde den i et søjlediagram som vist i det følgende
eksempel.
Indkomst og
forbrug – del 1
Tabel 2.2:
Populationens
elementer
Andelsfunktionen, g(z), for et karakteristikum i en virkelig population er defineret ved:
antal elementer med værdien zg(z) =
antal elementer i populationen
28 Indblik i statistik – for samfundsvidenskab
Eksempel 2.2: I eksempel 2.1 er andelen af elementer med en indkomst på 28 lig med 2/5 =
0,4. Andelsfunktionen udregnet for alle de forskellige værdier af indkomst i
populationen er:
0,2 hvis z = 25
g(z) =
0,4 hvis z = 28
0,2 hvis z = 32
0,2 hvis z = 36
For alle andre værdier af z er g(z) = 0. Man siger også, at den relative frekvens
af indkomsten 28 er 0,4. I søjlediagrammet i figur 2.1 er de relative frekvenser
repræsenteret ved højden af de forskellige pinde.
Når man skal illustrere mange forskellige værdier af et karakteristikum, bliver
et søjlediagram hurtigt uoverskueligt. I stedet er det ofte nyttigt at lave et hi-
stogram. Et histogram minder om et søjlediagram, men adskiller sig ved, at
det slår værdier, der ligger tæt på hinanden, sammen i grupper. Derfor er et
histogram specielt nyttigt ved kvantitative målinger. Hvor det i et søjledia-
gram er højden af en pind (eller søjle), der angiver den relative frekvens af gi-
ven værdi, så er det i et histogram arealet af en søjle, der angiver den relative
frekvens af en gruppe.
Man kan konstruere et histogram på følgende måde: Inddel værdierne af et
karakteristikum i grupper eller intervaller. Hvis fx værdierne ligger mellem 0
og 100, så kan man lave 10 intervaller med bredden 10, hvor det første interval
indeholder alle værdier større end (eller lig med) 0 og mindre end eller lig
Indkomst og
forbrug – del 2
Figur 2.1: Et
søjlediagram
Populationer 29
med 10. Det andet interval indeholder værdier, der er større end 10 og mindre
end eller lig med 20, osv. Læg mærke til, at en værdi skal tilhøre én, og kun én,
gruppe. Man kalder da det første interval for 5-gruppen, fordi 5 er midtpunk-
tet i intervallet.
Det næste skridt er at konstruere en søjle, hvis areal svarer til den relative
frekvens af elementer i gruppen. Hvis en gruppe således indeholder 25 % af
elementerne og har bredden 10, så skal højden på søjlen være: —0,210
5 = 0,025 (el-
ler 2,5 hvis man regner i procent). Det næste eksempel illustrerer forskellen på
et søjlediagram og et histogram.
Eksempel 2.3: I en mindre fodboldklub er målene gennem sæsonen blevet scoret af 12 for-
skellige spillere. Disse spillere danner derfor en population, hvor elementerne
har følgende værdier: 1, 2, 3, 4, 5, 6, 7, 8, 13, 13, 13, 17, som er antallet af mål
scoret af hver spiller. Et søjlediagram med de relative frekvenser er vist i figur
2.2:
Det ses af søjlediagrammet, at værdien 13 udgør 25 % af værdierne. Man kan
nu konstruere et histogram for værdierne ved at inddele dem i grupper (inter-
valler) af bredden 5. Første gruppe er da værdierne 0 til og med 5, kaldet
2,5-gruppen, næste gruppe er værdierne fra 5 til og med 10, kaldet 7,5-grup-
pen, tredje gruppe er værdierne fra 10 til og med 15, kaldet 12,5-gruppen, og
endelig er sidste gruppe værdierne fra 15 til og med 20, kaldet 17,5-gruppen.
Figur 2.3 viser histogrammet.
Et fodboldhold
Figur 2.2: Et
søjlediagram
30 Indblik i statistik – for samfundsvidenskab
Da hver gruppe har bredden 5, og eftersom 12,5-gruppen indeholder 25 % af
elementerne i populationen (3 ud af 12), så er højden af denne søjle lig med
0,25/5 = 0,05. Tilsvarende inkluderer 2,5-gruppen i alt 5 elementer, hvorfor
højden af denne søjle er (5/12)/5 = 0,083.
Når man laver et histogram, behøver alle grupper ikke have samme bredde.
Man kunne fx slå de to sidste grupper sammen til én gruppe, som da vil gå fra
10 til og med 20. Dermed får denne gruppe bredden 10, og da den rummer 4
ud af 12 elementer, vil dens søjle have højden (4/12)/10 = 0,033 som vist i fi-
gur 2.4.
Figur 2.3: Et
histogram
– version 1
Figur 2.4: Et
histogram
– version 2
Populationer 31
En anden type af diagram, som illustrerer andelsfunktionen, er et lagkagedia-
gram. I et lagkagediagram repræsenterer lagkagen hele populationen, og de
forskellige stykker repræsenterer forskellige værdier (eller grupper af værdier)
i populationen. Et stykkes andel af lagkagen svarer da til dets værdis relative
frekvens i populationen. Er arealet af hele lagkagen lig med én, er arealet af et
lagkagestykke derfor givet ved andelsfunktionen. Lagkagediagrammet er nyt-
tigt i forbindelse med både kvalitative og kvantitative målinger.
Eksempel 2.4: Et lagkagediagram for indkomsterne i populationen fra eksempel 2.1 er vist i
figur 2.5.
Nogle gange kan det være interessant at kende den andel af populationen, der
har en indkomst mindre end eller lig med en given værdi. Fx andelen af per-
soner, der lever under fattigdomsgrænsen. Sådanne andele kaldes også for ku-
mulative andele eller kumulative relative frekvenser. Formelt kan man defi-
nere en kumulativ andelsfunktion, G(z), på følgende måde:
Indkomst og
forbrug – del 3
Den kumulative andelsfunktion, G(z), for et karakteristikum i en virkelig population er defineret ved:
antal elementer med værdi ≤ zG(z) =
antal elementer i populationen
Figur 2.5: Et
lagkagedia-
gram
32 Indblik i statistik – for samfundsvidenskab
Eksempel 2.5: Frekvenser, relative frekvenser og kumulative relative frekvenser for popula-
tionen fra eksempel 2.1 er udregnet i nedenstående tabel:
Værdier Frekvens Relativ frekvens Kumulativ relativ frekvens
25 1 0,2 0,2
28 2 0,4 0,6
32 1 0,2 0,8
36 1 0,2 1,0
Den kumulative andelsfunktion for denne population er da:
0 hvis z ≤ 25
0,2 hvis 25 ≤ z < 28
G(z) = 0,6 hvis 36 ≤ z < 32
0,8 hvis 36 ≤ z < 36
1 hvis 36 ≤ z
Man kan aflæse direkte af den kumulative andelsfunktion, at andelen af po-
pulationen med en indkomst på højst 28 er G(28) = 0,6. Bemærk, at man
også kan aflæse den kumulative andelsfunktion for en indkomstværdi, som
ikke findes i populationen. For eksempel er andelen af populationen med en
indkomst på højst 33 lig med 0,8, idet G(33) = 0,8.
2.3.2 Median og fraktiler
Ofte er det nyttigt at kunne beskrive en population med nogle få nøgletal. Et
sådant nøgletal er medianen. En median er en værdi, som deler elementerne i
populationen i to lige store grupper, hvor den ene gruppe har værdier større
end medianen, og den anden gruppe har værdier mindre end medianen. Det
giver primært mening at udregne medianen ved en kvantitativ måling.
En måde, hvorpå man kan finde medianen, er ved at rangordne alle værdi-
erne fra den mindste til den største. Man betegner da den mindste værdi med
a(1), hvor parentesen om fodtegnet angiver, at der er tale om en rangordnet vær-
di. Det er altså ikke nødvendigvis tilfældet, at a(1) = a1, hvor a1 er værdien af det
første element. Kun hvis det første element også er det mindste element, er a(1)
= a1. Den næstmindste værdi i populationen betegner man da a(2) og den største
værdi a(Npop).
Indkomst og
forbrug – del 4
Tabel 2.3:
Kumulative
relative
frekvenser
Populationer 33
Medianen er den midterste rangordnede værdi. Hvis der fx er 25 elementer
i populationen, så er medianen værdien af det 13. mindste element, a(13), da
der så er 12 værdier, a(14), …, a(25), der er mindst lige så store som a(13), og 12
værdier, a(1), …, a(12), der er mindst lige så små som a(13).
Er der et lige antal elementer i populationen, findes der ikke ét element, der
deler populationen i to lige store dele. Hvis fx populationen har 10 elementer,
tager man i stedet gennemsnittet af det 5. og 6. mindste element, nemlig:
0,5 · (a(5) + a(6)).
Ud fra dette kan man opskrive en generel regel til brug for udregningen af
medianen i en virkelig population:
Eksempel 2.6: Tabel 2.4 viser de rangordnede indkomstværdier for elementerne i populatio-
nen fra eksempel 2.1:
Rangordning, j Rangordnet værdi a(j)
1 25
2 28
3 28
4 32
5 36
Da Npop er et ulige tal i dette eksempel, så er medianen a(0,5 · 5 + 0,5) = a(3) = 28.
Medianen er et eksempel på en fraktil. Generelt er en p-fraktil en værdi, hvor-
om det gælder, at andelen p af elementerne i populationen har en værdi min-
dre end p-fraktilen. Derfor er p altid et tal mellem 0 og 1. Hvis man fx under-
søger alderen for personerne i en population, så er 0,1-fraktilen lig med den
alder, hvorom det gælder, at 10 % er yngre og 90 % er ældre. Medianen er der-
for en 0,5-fraktil.
Medianen af et karakteristikum a i en virkelig population er givet ved:
a(0,5 · Npop + 0,5) , hvis Npop er ulige median = 0,5(a(0,5 · Npop) + a(0,5 · Npop + 1)) , hvis Npop er lige
hvor Npop er antallet af elementer i populationen og a(j) er det j’te mindste rang-ordnede element i populationen.
Indkomst og
forbrug – del 5
Tabel 2.4:
Rangordnede
værdier
34 Indblik i statistik – for samfundsvidenskab
Som for medianen kan man opstille en regneregel for udregningen af en
p-fraktil i en virkelig population. Til dette formål er det praktisk at definere
„[x]“ til at betyde heltalsværdien af et tal, x. For eksempel er [5,5] = 5 og
[831,97] = 831. Så kan man udregne p-fraktilen på følgende vis:
Eksempel 2.7: I populationen fra eksempel 2.1 kan man finde 0,75-fraktilen som: a([0,75·5+1])
= a([4,75]) = a(4) = 32, idet 0,75 · Npop = 0,75 · 5 = 3,75 ikke er et heltal.
Man betragter ofte 0,1-, 0,25-, 0,75- og 0,9-fraktilerne, når man vil sammen-
fatte en population ved hjælp af fraktiler. Sammen med medianen giver disse
størrelser et godt billede af, hvordan værdierne i populationen fordeler sig.
Eksempel 2.8: Der er godt 5 millioner personer i Danmark. Nedenstående tabel er baseret på
tal fra Danmarks Statistik for januar 2008 og viser udvalgte fraktiler for hen-
holdsvis danske kvinder og mænds alder målt i år.
Fraktiler 0,1 0,25 0,5 0,75 0,9
Kvinder 8 20 40 58 72
Mænd 7 19 38 56 68
Det ses af tabellen, at der er en større andel af mænd, som er unge, sammen-
lignet med kvinder. Således er fx halvdelen af mændene 38 år eller derunder,
mens halvdelen af kvinderne er 40 år eller derover.
p-fraktilen af et karakteristikum a i en virkelig population er givet ved:
a([p · Npop + 1]) , hvis p · Npop ikke er heltal p-fraktil = 0,5(a(p · Npop) + a(p · Npop + 1)) , hvis p · Npop er et heltal
hvor Npop er antallet af elementer i populationen, a(j) er det j’te mindste rangord-nede element i populationen og „[ ]“ angiver heltalsværdien af et tal.
Indkomst og
forbrug – del 6
Den danske
befolkning
Tabel 2.5:
Fraktiler for
kvinder og
mænds alder i
Danmark
Populationer 35
2.3.3 Box plot
I et box plot (også kaldet et „box-and-whisker plot“) afsætter man den mind-
ste værdi, 0,25-fraktilen, medianen, 0,75-fraktilen og den største værdi i po-
pulationen som vist i figur 2.6. Grafisk forbinder man den mindste værdi og
0,25-fraktilen med en streg, og ligeledes forbinder man 0,75-fraktilen og den
største værdi med en streg. Man tegner dernæst et rektangel med 0,25-frakti-
len og 0,75-fraktilen som de to endestykker. Endelig markerer man medianen
med en lodret streg gennem rektanglet. Et box plot er nyttigt, når man fx vil
sammenligne forskellige populationer.
2.3.4 Middelværdi og varians
Ved kvantitative målinger har man mulighed for at udregne nogle flere nøgle-
tal, som beskriver centrale egenskaber ved populationen. Et sådant nøgletal er
middelværdien. Middelværdien af et karakteristikum a i en virkelig population
er defineret på følgende måde:
Sumtegnet, ∑Npj=
o1
p aj, betyder, at man skal summere alle værdierne af a i popu-
lationen. Middelværdien er således den gennemsnitlige værdi af et karakteri-
stikum i populationen. Det er den værdi, man får, hvis man deler summen i
populationen, ∑Npj=
o1
p aj, ligeligt ud på alle elementer i populationen, så hvert
element får en Npop’te del af summen.
Figur 2.6:
Et box plot
Middelværdien af et karakteristikum a i en virkelig population er givet ved:
1
1
Npop
µa = –––– (a1 + a2 + ··· + aNpop) = –––– ∑ aj
Npop Npop
j=1
hvor Npop er antallet af elementer i populationen og a1, a2, …, aNpop er de forskel-lige værdier af karakteristikum a i populationen.
36 Indblik i statistik – for samfundsvidenskab
Eksempel 2.9: I populationen fra eksempel 2.1 er middelværdien af indkomsten lig med:
µindkomst = 1_5 · (36 + 28 + 25 + 32 + 28) = 29,8 (tusinde kr.)
Bemærk, at der er ingen af individerne, som rent faktisk har en indkomst lig
med middelværdien. Tilsvarende kan man vise, at middelværdien af forbru-
get i populationen er µforbrug = 6,8 (tusinde kr.)
To populationer kan have samme middelværdi, men alligevel være meget for-
skellige. Hvis den ene population rummer to elementer med værdierne 15 og
13, så er middelværdien 14. Men middelværdien er også 14 i en population
med to elementer, hvor det ene element har værdien 26 og det andet har vær-
dien 2. I den sidste population er værdierne imidlertid spredt mere ud end i
den første population. Middelværdien er altså ikke en fuldstændig beskrivelse
af en population.
En nøgletal, der giver overblik over spredningen i en population, er varian-
sen. Variansen giver et indtryk af, hvordan værdierne i populationen er spredt
omkring middelværdien. Variansen for en virkelig population er defineret i
følgende boks:
I det ekstreme tilfælde, hvor alle elementer i populationen har samme værdi,
a1 = a2 = … = aNpop, er variansen 0. I alle andre tilfælde er variansen større end
0. Man udregner ofte også kvadratroden af variansen, fordi denne har samme
måleenhed som værdierne selv. Denne kaldes standardafvigelsen og er define-
ret som:
Indkomst og
forbrug – del 7
Variansen af et karakteristikum a i en virkelig population er givet ved:
1
1
Npop
σa2 = –––– ((a1 – µa)2 + (a2 – µa)2 + ··· + (aNpop – µa)
2) = –––– ∑ (aj – µa)2
Npop Npop
j=1
hvor Npop er antallet af elementer i populationen, a1, a2, …, aNpop er de forskellige værdier af karakteristikum a i populationen, og µa er middelværdien af karakteri-stikum a.
Populationer 37
Standardafvigelsen er et mål for den gennemsnitlige afvigelse fra middelvær-
dien i populationen.
Eksempel 2.10: I populationen fra eksempel 2.1 er variansen af indkomsten lig med:
σ 2indkomst = 1_5 ((36 – 29,8)2 + (28 – 29,8)2 + (25 – 29,8)2 + (32 – 29,8)2
+ (28 – 29,8)2) = 14,56
Variansen måles i dette tilfælde i (tusinde kroner)2. Standardafvigelsen er
derimod σindkomst = 3,82 tusinde kr.
Variansen eller standardafvigelsen kan man bruge til at sammenligne to po-
pulationer, fx indkomster i Danmark og indkomster i USA. Umiddelbart vil vi
forvente, at variansen er noget højere i det sidste tilfælde. I kapitel 5 vender vi
tilbage til fortolkningen af både middelværdi og varians.
2.4 Overblik over flere karakteristika
Inden for samfundsvidenskab er man ofte interesseret i at undersøge, hvordan
forskellige karakteristika samvarierer. For eksempel er der mange, der har un-
dersøgt, om der er sammenhæng mellem køn og indkomst, således at fx mænd
har en tendens til at tjene mere end kvinder. I dette afsnit skal vi derfor se på
en række metoder, grafiske såvel som numeriske, til at sammenfatte og illu-
strere sammenhænge mellem to (eller flere) karakteristika i en virkelig popu-
lation.
2.4.1 Krydstabel og punktdiagram
Til at beskrive sammenhænge mellem to karakteristika i en population kan
man opstille en krydstabel. En krydstabel tabulerer frekvenserne eller de rela-
tive frekvenser af de forskellige kombinationer af de to karakteristika i popu-
lationen.
Standardafvigelsen af et karakteristikum a i en virkelig population er givet ved:
σa = √σ a2,
hvor σ a2 er variansen af karakteristikum a i populationen.
Indkomst og
forbrug – del 8
38 Indblik i statistik – for samfundsvidenskab
Eksempel 2.11: Betragt følgende population med 12 elementer, hvor hvert element er en per-
son med to karakteristika: (1) personens køn: kvinde eller mand; og (2) per-
sonens foretrukne sportsgren ud af tre mulige: fodbold, håndbold eller isdans.
De 12 elementer i populationen ser ud som følger: (mand, isdans), (kvinde,
håndbold), (kvinde, isdans), (kvinde, isdans), (mand, fodbold), (kvinde,
håndbold), (mand, fodbold), (kvinde, håndbold), (mand, fodbold), (mand,
håndbold), (kvinde, håndbold) og (kvinde, fodbold).
Et mere overskueligt billede af denne population får man ved at lave en
krydstabel med frekvensen af hver mulig kombination af de to karakteristika
som vist i tabel 2.6.
Fodbold Håndbold Isdans
Kvinde 1 4 2
Mand 3 1 1
Man kan også lave en krydstabel med relative frekvenser som vist i tabel 2.7.
Fodbold Håndbold Isdans
Kvinde 1/12 4/12 2/12
Mand 3/12 1/12 1/12
Forskellene mellem mænd og kvinder skyldes både forskelle i foretrukne
sportsgrene samt et forskelligt antal mænd og kvinder i populationen. Hvis
man vil vurdere forskellen mellem mænd og kvinders foretrukne sportsgren,
så kan det være mere nyttigt at udregne de relative frekvenser for hvert køn for
sig. Dette er gjort i tabel 2.8. Det ses da, at andelen af kvinder, som foretrækker
håndbold er betydelig større end andelen af mænd, som foretrækker hånd-
bold.
Fodbold Håndbold Isdans
Kvinde 1/7 4/7 2/7
Mand 3/5 1/5 1/5
Til at få et godt visuelt billede af samvariationen mellem to karakteristika kan
man tegne et punktdiagram. I et punktdiagram angiver man for hvert element
værdierne af de to karakteristika med en prik i et todimensionelt koordinatsy-
stem.
Køn og
sportsgrene
Tabel 2.6: En
krydstabel
med frekvenser
Tabel 2.7: En
krydstabel
med relative
frekvenser
Tabel 2.8: En
krydstabel
med relative
frekvenser for
hvert køn
Populationer 39
Eksempel 2.12: I figur 2.7 er værdierne af de to karakteristika (indkomst og forbrug) afbildet
for de fem elementer i populationen fra eksempel 2.1. Værdien af indkomsten
(karakteristikum a) er vist på den vandrette akse, mens værdien af forbruget
(karakteristikum b) fremgår af den lodrette akse. Således repræsenterer prikken
længst til højre det første element i populationen, som har indkomst lig med 36
(tusinde kr.) og forbrug på 9 (tusinde kr.), jf. tabel 2.2. Af figuren ser der ud til
at være en positiv sammenhæng mellem indkomst og forbrug i populationen.
2.4.2 Kovarians og korrelation
Sammenhænge mellem karakteristika i en population kan også opsummeres i
simple nøgletal. Lad som ovenfor aj være det j’te elements værdi af et karakte-
ristikum a, mens bj er det j’te elements værdi af karakteristikum b. Kovarian-
sen, σa,b, mellem de to karakteristika i en virkelig population, er defineret i
følgende boks:
Indkomst og
forbrug – del 9
Figur 2.7: Et
punktdiagram
Kovariansen mellem to karakteristika, a og b, i en virkelig population, er:
1σa,b = –––– ((a1 – µa)(b1 – µb) +(a2 – µa)(b2 – µb) + ···
Npop
+ (aNpop – µa)(bNpop – µb))
1 Npop
= –––– ∑ (aj – µa)(bj – µb) Npop
j=1
hvor a1, a2, …, aNpop og b1, b2, …, bNpop er værdierne af de to karakteristika for de Npop elementer i populationen, og µa og µb er middelværdierne af de to karakteri-stika i populationen.
40 Indblik i statistik – for samfundsvidenskab
En positiv kovarians betyder, at der er en tendens til, at et element med en høj
værdi af det ene karakteristikum også har en høj værdi af det andet karakteri-
stikum. Er kovariansen negativ, betyder det, at der er en tendens til, at et ele-
ment med en høj værdi af det ene karakteristikum har en lav værdi af det an-
det karakteristikum. „Høje“ og „lave“ værdier er her set i forhold til
middelværdierne af de pågældende karakteristika.
Det er ofte mere informativt at se på korrelationskoefficienten, ρa,b, som er
et tal mellem −1 og 1:
Korrelationskoefficienten har samme fortegn som kovariansen. Hvis korrela-
tionskoefficienten er positiv, siger man, at der er positiv korrelation mellem
de to karakteristika. Er korrelationskoefficienten negativ, siger man, at der er
negativ korrelation mellem de to karakteristika.
Eksempel 2.13: I populationen fra eksempel 2.1 er kovariansen mellem indkomst og forbrug:
σindkomst, forbrug = 1_5 ((36 – 29,8)(9 – 6,8) + (28 – 29,8)(5 – 6,8)
+ (25 – 29,8)(6 – 6,8) + (32 – 29,8)(8 – 6,8) + (28 – 29,8)(6 – 6,8)) = 4,96
Korrelationskoefficienten er:
( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( ) ( ),
1( 36 29,8 9 6,8 28 29,8 5 6,8
525 29,8 6 6,8 32 29,8 8 6,8 28 29,8 6 6,8 ) 4,96
indkomst forbrugσ = − − + − −
+ − − + − − + − − =
Korrelationskoefficienten er:
,
4,960,88
14,56 2,16indkomst forbrugρ = =
⋅
Der er positiv korrelation mellem indkomst og forbrug. Dermed er der tendens til, at individer med et relativt h¯ jt forbrug ogs har en relativt h¯ j indkomst. Dette passer fint med det indtryk, man f r af at se p punktdiagrammet i figur 2.7.
Bemærk, at man ikke kan konkludere noget om en årsagssammenhæng alene baseret på korrelationen. I eksempel 2.13 er der en positiv korrelation mellem indkomst og forbrug. Det kan fx skyldes, at man kan forbruge mere med en høj indkomst, og dermed at indkomsten er årsagen til det højere forbrug. Det kan dog også skyldes, at en person ønsker at have et højt forbrug, hvilket nødvendiggør en høj indkomst. Dermed bliver forbruget årsagen til den højere indkomst. Endelig kan det være helt andre faktorer som fx livsstilsvalg eller sociale tilhørsforhold, der bestemmer både ens forbrug og ens indkomst. Vi vender tilbage til dette senere i bogen.
2.5 Diagrammer i Excel
Vi vil i dette afsnit se på, hvordan man kan bruge Excel til at få overblik over en population. Konkret vil vi vise, hvordan man kan konstruere søjlediagrammer, lagkagediagrammer og punktdiagrammer i Excel. I kapitel 5 vil det blive vist, hvordan Excel også kan bruges til at udregne middelværdier, varianser m.m.
Der er positiv korrelation mellem indkomst og forbrug. Dermed er der ten-
dens til, at individer med et relativt højt forbrug også har en relativt høj ind-
komst. Dette passer fint med det indtryk, man får af at se på punktdiagram-
met i figur 2.7.
Korrelationskoefficienten mellem to karakteristika, a og b, i en virkelig population, er:
hvor ��� ��� � � ����� og ��� ��� � � ����� er værdierne af de to
karakteristika for de ���� elementer i populationen og �� og �� er
middelværdierne af de to karakteristika i populationen.
En positiv kovarians betyder, at der er en tendens til, at et element med en høj værdi af det ene karakteristikum også har en høj værdi af det andet karakteristikum. Er kovariansen negativ, betyder det, at der er en tendens til, at et element med en høj værdi af det ene karakteristikum har en lav værdi af det andet karakteristikum. "Høje" og "lave" værdier er her set i forhold til middelværdierne af de pågældende karakteristika. Det er ofte mere informativt at se på korrelationskoefficienten, ����,
som er et tal mellem −1 og 1:
Korrelationskoefficienten mellem to karakteristika, � og �, i en virkelig population, er:
,,
a ba b
a b
σρ
σ σ=
hvor ���� er kovariansen mellem de to karakteristika og �� og �� er
standardafvigelserne af de to karakteristika i populationen.
Korrelationskoefficienten har samme fortegn som kovariansen. Hvis korrelationskoefficienten er positiv, siger man, at der er positiv korrelation mellem de to karakteristika. Er korrelationskoefficienten negativ, siger man, at der er negativ korrelation mellem de to karakteristika.
Eksempel 2.13: Indkomst og forbrug ñ del 10
I populationen fra eksempel 2.1 er kovariansen mellem indkomst og forbrug:
hvor σa,b er kovariansen mellem de to karakteristika, og σa og σb er standardafvi-gelserne af de to karakteristika i populationen.
Indkomst og
forbrug – del
10
3,82 · 1,47
Populationer 41
Bemærk, at man ikke kan konkludere noget om en årsagssammenhæng alene
baseret på korrelationen. I eksempel 2.13 er der en positiv korrelation mellem
indkomst og forbrug. Det kan fx skyldes, at man kan forbruge mere med en
høj indkomst, og dermed at indkomsten er årsagen til det højere forbrug. Det
kan dog også skyldes, at en person ønsker at have et højt forbrug, hvilket nød-
vendiggør en høj indkomst. Dermed bliver forbruget årsagen til den højere
indkomst. Endelig kan det være helt andre faktorer som fx livsstilsvalg eller
sociale tilhørsforhold, der bestemmer både ens forbrug og ens indkomst. Vi
vender tilbage til dette senere i bogen.
2.5 Diagrammer i Excel
Vi vil i dette afsnit se på, hvordan man kan bruge Excel til at få overblik over
en population. Konkret vil vi vise, hvordan man kan konstruere søjlediagram-
mer, lagkagediagrammer og punktdiagrammer i Excel. I kapitel 5 vil det blive
vist, hvordan Excel også kan bruges til at udregne middelværdier, varianser
m.m.
I de første syv rækker af regnearket nedenfor er vist populationen fra tabel
2.2. Række 9-13 indeholder desuden frekvenser og relative frekvenser af de
fire forskellige værdier af forbrug, bj, i populationen.
Prøv at taste tallene ind i et regneark, så du selv kan prøve at udføre de ef-
terfølgende operationer i Excel.
42 Indblik i statistik – for samfundsvidenskab
2.5.1 Søjlediagram
Hvis man fx vil lave et søjlediagram over forbruget, kan det gøres på følgende
måde: Klik på Indsæt i den øverste menu og derefter på Søjle i menuen ne-
denunder. I den drop-down menu, der fremkommer, vælges den første mulig-
hed under 2D-søjlediagram.
Der fremkommer nu et blankt område midt på skærmen samt en ny menu
foroven. I denne menu klikkes på Vælg data, hvorefter følgende dialogboks
dukker op:
Populationer 43
Her skal vi først have angivet cellereferencerne for de frekvenser, der skal afbil-
des. Dette gøres ved at klikke på knappen Tilføj, hvorved følgende dialogboks
åbner sig:
I rubrikken under Serienavn kan man fx skrive Forbrug for at angive, at det
drejer sig om frekvenser for forbrug i populationen. Dernæst klikker man på
regnskabsikonet til højre for rubrikken under Serieværdier. Man kan der-
efter med musen markere de celler, hvor frekvenserne befinder sig (cellerne
C10 til C13), hvorefter man trykker Return. Excel vil da selv angive cellerefe-
rencerne i rubrikken under Serieværdier som vist nedenfor:
Derefter klikker man OK, og man ryger da tilbage til den oprindelige dialog-
boks:
44 Indblik i statistik – for samfundsvidenskab
Det næste skridt er at angive cellereferencerne for de forskellige værdier af
forbrug, bj, i populationen. Dette gøres ved at klikke på knappen Rediger un-
der Vandrette (Kategori) akseetiketter. Da fremkommer følgende dialog-
boks:
I rubrikken angiver man cellereferencerne for de fire værdier af forbrug, som
er A10:A13. Dernæst klikker man på OK, og man ryger endnu engang tilbage
til den oprindelige dialogboks:
Nu har man fået angivet både de forskellige værdier af forbrug i populationen
og de tilhørende frekvenser. Tilbage er blot at klikke OK. Man har da et søjle-
diagram over de relative frekvenser for forbruget i populationen:
Populationer 45
2.5.2 Lagkagediagram
Et lagekagediagram konstrueres på stort set samme måde som et søjledia-
gram. Man klikker først på Indsæt i den øverste menu og derefter på Cirkel. I den drop-down menu, der fremkommer, vælges den første mulighed under
2D-cirkel.
Derefter følges nøjagtig samme fremgangsmåde som ved konstruktionen af
søjlediagrammet.
2.5.3 Punktdiagram
Excel kan også anvendes til at konstruere punktdiagrammer. Klik på Indsæt og dernæst på Punktdiagram. I den drop-down menu, der fremkommer, væl-
ges den første mulighed („Punktdiagram kun med datamærker“).
46 Indblik i statistik – for samfundsvidenskab
Igen fremkommer der et blankt område midt på skærmen samt en ny menu
foroven. I denne menu klikkes som før på Vælg data og derefter på Tilføj, hvorefter følgende dialogboks dukker op:
I rubrikken under Serienavn skriver man fx Indkomst og forbrug. Under X-serieværdier angiver man cellereferencerne for indkomstobservationerne i
populationen, som er B3:B7. Dette gøres som før ved at klikke på regnskabsi-
konet og derefter markere cellerne med musen. Under Y-serieværdier angiver
man tilsvarende cellereferencerne for forbrugsobservationerne i populatio-
nen, som er C3:C7. Dernæst klikkes OK, hvorefter man returnerer til den op-
rindelige dialogboks. Her klikkes igen OK, og man får da punktdiagrammet.
2.6 Opgaver
1. Repetitionsspørgsmål
a) Hvad er en virkelig population?
b) Gør kort rede for de fire typer af måleskalaer.
c) Forklar hvad andelsfunktionen og den kumulative andelsfunktion vi-
ser.
d) Forklar forskellen på et søjlediagram og et histogram.
e) Hvordan finder man medianen og en p-fraktil i en virkelig population?
f) Forklar hvordan man udregner middelværdien, variansen og standard-
afvigelsen i en virkelig population.
g) Hvad viser en krydstabel og et punktdiagram?
h) Forklar hvordan man udregner en kovarians og en korrelationskoeffi-
cient, og hvordan man fortolker disse.
2. Efter en rustur på universitetet opgjorde man henholdsvis alderen og an-
tallet af indtagne genstande for de deltagende studerende. Populationens
størrelse var på 21 personer, som havde følgende karakteristika (alder, an-
tal genstande):
Populationer 47
(18, 5), (22, 0), (18, 21), (22, 7), (24, 2), (20, 10), (20, 7), (27, 0), (19, 32),
(20, 5), (20, 10), (22, 12), (24, 2), (24, 4), (22, 10), (20, 14), (24, 6), (27, 0),
(22, 0), (20, 10), (20, 21) og (24, 2).
a) Opstil andelsfunktionen og den kumulative andelsfunktion for „antal
genstande“ i populationen.
b) Tegn et søjlediagram med de relative frekvenser af „antal genstande“.
c) Tegn et histogram for „antal genstande“ med intervalbredden 5.
d) Konstruér et lagkagediagram for „antal genstande“.
e) Find medianen af „antal genstande“ samt 0,25- og 0,75-fraktilerne.
f) Tegn et box plot for „antal genstande“.
g) Beregn middelværdi, varians og standardafvigelse af „antal genstande“
i populationen.
3. Betragt populationen fra opgave 2.
a) Konstruér en krydstabel for de relative frekvenser af „alder“ og „antal
genstande“.
b) Tegn et punktdiagram for „alder“ og „antal genstande“
c) Udregn kovariansen mellem „alder“ og „antal genstande“. Hvad for-
tæller den dig?
d) Udregn også korrelationskoefficienten.