Download pdf - 2 Populationer - ifilserver.gyldendal.dkifilserver.gyldendal.dk/attweb/attachment_15046_157_Indblik i... · og „super tilfreds“ er den samme som mellem „tilfreds“ og „meget

Populationer 23

2 Populationer

I en statistisk sammenhæng er en population en samling af elementer, fx per-

soner, virksomheder, lande, kunder eller mere abstrakte objekter. Fra en po-

pulation kan man udtage en stikprøve. Forståelsen af samspillet mellem en

population og udtrækningen af en stikprøve er helt afgørende i statistiske

analyser og derfor et centralt element i denne bog. Inden vi undersøger dette

samspil nærmere i de følgende kapitler, vil vi bruge dette kapitel til at kaste et

første blik på nogle populationer og deres elementer.

I dette kapitel vil vi udelukkende beskæftige os med virkelige populationer.

I afsnit 2.1 forklarer vi, hvad vi mere præcist forstår ved en sådan population

og dens elementer. I det efterfølgende afsnit viser vi, hvordan man kan repræ-

sentere og sammenligne både kvalitative og kvantitative karakteristika ved de

enkelte elementer i en population.

Fordi en population kan indeholde mange elementer, kan det ofte være

nyttigt at kunne sammenfatte elementerne på en overskuelig måde. I afsnit

2.3 viser vi, hvordan dette kan gøres ved hjælp af grafiske redskaber som fx et

histogram eller med enkle talstørrelser som fx en middelværdi. Mens vi i af-

snit 2.3 vil koncentrere os om at sammenfatte et enkelt karakteristikum ved

elementerne i en population, som fx elementernes alder eller deres indkomst,

ser vi i afsnit 2.4 på, hvordan man kan beskrive sammenhænge mellem så-

danne karakteristika i en population. Endelig viser vi i afsnit 2.5, hvordan Ex-

cel kan anvendes i denne forbindelse.

2.1 Virkelige populationer

En population er en samling af elementer, hvor hvert element kan have en ræk-

ke karakteristika. En population kan fx bestå af alle danskere, hvor hver person

har karakteristika som fx alder, køn, uddannelse, bopæl, beskæftigelse og ind-

komst. Selvom elementerne i en population kan have mange forskellige karak-

teristika, fokuserer vi typisk kun på det eller de karakteristika, som er af inte-

resse i en given undersøgelse, fx personernes alder og/eller deres indkomst.

Når både elementerne i en population og deres karakteristika eksisterer,

kalder vi populationen for en virkelig population. En virkelig population kan

24 Indblik i statistik – for samfundsvidenskab

således i princippet observeres. I de næste kapitler vil vi argumentere for nyt-

ten af også at definere såkaldte superpopulationer, der er mere abstrakte po-

pulationer.

2.2 Måleskalaer

For at lave statistiske analyser er det nødvendigt, at man kan måle elementer-

nes karakteristika. Målinger opgøres på forskellige typer af skalaer. Typen af

skala har konsekvenser for hvilke analysemetoder, der efterfølgende kan an-

vendes. I dette afsnit kigger vi derfor nærmere på forskellige måleskalaer.

Vi arbejder i denne bog udelukkende med karakteristika, som man kan re-

præsentere med en talværdi. Dette er ikke så restriktivt, som det lyder. Tænk

fx på en person, hvor det relevante karakteristikum er, om hun er for eller

imod et lovforslag. Dette lugter ikke umiddelbart af tal, men vi kan alligevel

sagtens repræsentere „for“ med talværdien 0 og „imod“ med talværdien 1.

Man måler forskellige karakteristika på forskellige skalaer. En persons æg-

teskabelige status (enlig, gift, skilt, enke) er fx målt på en anden skala end en

persons vægt i kilo. Fordi typen af skala har stor betydning for valg af ana-

lysemetode, opdeler vi målinger i kvalitative og kvantitative målinger. Når det

ikke er meningsfyldt at anvende de fire basale regnearter (addition, subtrak-

tion, multiplikation og division) på værdierne fra en måling, så er målingen

kvalitativ. Hvis det derimod er meningsfyldt at bruge de fire regnearter, siges

målingen at være kvantitativ.

Man skelner desuden mellem to typer af måleskalaer for en kvalitativ må-

ling: Nominale og ordinale. Ligeledes skelner man mellem to slags måleskalaer

i forbindelse med en kvantitativ måling: Intervalskalaer og ratioskalaer. Opde-

lingen er illustreret i tabel 2.1 sammen med de matematiske operationer, der

er meningsfulde at anvende i forbindelse med hver af de fire måleskalaer. De

fire skalaer uddybes yderligere i de følgende afsnit.

Måling Måleskala Meningsfulde matematiske operationer

Kvalitativ Nominal =, ≠

Ordinal =, ≠, >, <

Kvantitativ Interval =, ≠, >, <, +, -

Ratio =, ≠, >, <, +, -, ., /

Tabel 2.1:

Målinger,

måleskalaer og

matematiske

operationer

Populationer 25

2.2.1 Nominal skala

Et eksempel på en nominal måleskala er hårfarven på en person. Antag for

eksemplets skyld, at hårfarven kun kan være hvid, sort eller rød, og at hvid

repræsenteres med værdien 1, sort med værdien 2 og rød med værdien 3. Det

giver ingen mening at bruge de fire regnearter her, fx ved at gange hvid med

rød. Det giver heller ikke mening at tale om, at rød er større end sort, selvom

rød er repræsenteret ved talværdien 3, mens sort „kun“ har talværdien 2. Fak-

tisk kan man i dette eksempel kun sige, om hårfarven på en person er lig med

eller forskellig fra hårfarven på en anden person. Det vil sige, man kan skelne

de forskellige værdier på skalaen: 1 = hvid; 2 = sort; og 3 = rød. Dette karakte-

riserer en nominal måleskala: Der er ingen struktur eller sammenhæng mel-

lem værdierne på skalaen.

2.2.2 Ordinal skala

Modsat en nominal skala giver det på en ordinal skala mening at tale om, at

nogle værdier er større eller mindre end andre værdier. Hvis man fx skal måle

de studerendes opfattelser af kaffens kvalitet i kantinen og angiver tre svarmu-

ligheder: „tilfreds“, „meget tilfreds“ eller „super tilfreds“ på spørgeskemaet, så

kan disse repræsenteres med talværdierne 1, 2 og 3. Her giver det mening at

tale om, at „tilfreds“ (= 1) er mindre end „meget tilfreds“ (= 2), som igen er

mindre end „super tilfreds“ (= 3). En ordinal skala er således karakteriseret

ved, at værdierne på skalaen er rangordnede. På en ordinal skala giver det

imidlertid ikke mening at vurdere størrelsen af forskellen mellem to værdier.

For eksempel kan man ikke konkludere, at forskellen mellem „meget tilfreds“

og „super tilfreds“ er den samme som mellem „tilfreds“ og „meget tilfreds“.

Man kan altså ikke trække talværdierne fra hinanden på en meningsfuld

måde.

2.2.3 Intervalskala

På en intervalskala giver det mening at tale om forskellen mellem to værdier.

For eksempel er forskellen i kropstemperatur mellem to personer med tempe-

raturer på henholdsvis +37 grader Celsius og +38 grader Celsius lig med 1

grad Celsius, hvilket er det samme som forskellen mellem to personer med

henholdsvis +38 og +39 grader Celsius i kropstemperatur. Det giver derimod

ikke mening at tale om et relativt forhold mellem to temperaturer målt i Cel-

sius. Selvom det umiddelbart kunne virke meningsfuldt at sige, at +40 grader

Celsius er dobbelt så varmt som +20 grader Celsius, så kan man se det proble-

matiske i dette ved på samme måde at forsøge at sammenligne +30 grader

Celsius med –10 grader Celsius. For at give relative sammenligninger mening

er det nødvendigt med et naturligt nulpunkt. Et sådant nulpunkt er defineret


ved, at intet af det givne karakteristikum er til stede. Når temperaturen er 0

grader Celsius, så betyder det imidlertid ikke, at temperaturen ikke er til ste-

de.

2.2.4 Ratioskala

En ratioskala er en intervalskala med et naturligt nulpunkt. Vægten af en per-

son har fx et naturligt nulpunkt, som er der, hvor han ikke vejer noget (og der-

med ikke er til stede). Her giver det derfor mening at tale om det relative for-

hold mellem to værdier. Fx vejer en mand på 210,40 kg dobbelt så meget som

en mand på 105,20 kg. Værdierne på en ratioskala kan også være heltal som for

eksempel antallet af ægteskaber, en person har bag sig. Antallet af ægteskaber

har det naturlige nulpunkt 0, som er fraværet af tidligere ægteskaber.

2.2.5 Valg af skala

Det er værd at bemærke, at man ofte kan måle det samme karakteristikum på

forskellige skalaer. Nogle gange vil måleskalaen være dikteret af de fysiske

rammer for det, man måler. Der er dog ofte også et element af subjektivitet i

valget af måleskala. Fx tilhører måling af temperaturer i Celsius en interval-

skala, hvorimod måling af temperaturer i Kelvin tilhører en ratioskala.

I samfundsvidenskaberne er det ikke usædvanligt, at det, man vil måle, ikke

er præcist defineret fysisk. Et eksempel på dette er en persons intelligens eller

en persons holdning til kaffens kvalitet i kantinen. Dermed er det ikke altid

oplagt, hvordan måleskalaen skal udformes og fortolkes. Der opstår således et

tæt samspil mellem målingen af et karakteristikum og den analytiker, som

står for målingen.

2.3 Overblik over et enkelt karakteristikum

For at kunne skabe sig overblik over interessante aspekter ved en population

er det nyttigt at have metoder til at sammenfatte karakteristika i populatio-

nen. Dette er specielt vigtigt, når der er mange elementer i populationen. Men

selv med blot 50 personer i en population kan det være svært at danne sig et

overblik over fx deres indkomster eller alder blot ved at betragte de 50 forskel-

lige værdier for disse. I dette afsnit vil vi derfor gennemgå en række grafiske og

numeriske metoder til at sammenfatte og illustrere udvalgte karakteristika

ved elementerne i en virkelig population.

Til dette formål er det praktisk at indføre lidt notation. Lad derfor Npop være

antallet af elementer i populationen, lad aj være det j’te elements værdi af ka-

rakteristikum a (fx indkomst) og lad bj være det j’te elements værdi at et andet

karakteristikum benævnt b (fx forbrug), hvor j er et heltal mellem 1 og Npop.

Populationer 27

Eksempel 2.1: I en population bestående af fem individer, Npop = 5, har hvert individ en

månedlig indkomst (karakteristikum a) og et månedligt dagligvareforbrug

(karakteristikum b). Værdierne for disse karakteristika er vist i tabellen ne-

denfor:

j(individ)

aj

(indkomst i tusinde kr.) bj

(forbrug i tusinde kr.)

1 36 9

2 28 5

3 25 6

4 32 8

5 28 6

Indkomsten for individ nummer 3 er således a3 = 25 (tusinde kr.). Individ

nummer 2 og 5 har samme indkomst, så her er a2 = a5 = 28 (tusinde kr.).

Forbruget for individ nummer 5 er b5 = 6 (tusinde kr.).

2.3.1 Frekvenser og histogrammer

En måde at sammenfatte en egenskab for en population på er ved at udregne

andelen af elementer i populationen, som har en bestemt værdi af et karakte-

ristikum. Fordi vi ofte er interesserede i denne størrelse, definerer vi en funk-

tion, kaldet andelsfunktionen, som giver os disse andele. Lad z være en værdi af

et karakteristikum. Andelsfunktionen, g(z), er da defineret som i følgende

boks:

Antallet af elementer i populationen er lig med Npop. Tælleren i den ovenstå-

ende brøk kaldes også for frekvensen, og g(z) kaldes også for den relative fre-

kvens af elementer med værdien z. Hvis man ønsker et visuelt billede af an-

delsfunktionen, kan man afbilde den i et søjlediagram som vist i det følgende

eksempel.

Indkomst og

forbrug – del 1

Tabel 2.2:

Populationens

elementer

Andelsfunktionen, g(z), for et karakteristikum i en virkelig population er defineret ved:

antal elementer med værdien zg(z) =

antal elementer i populationen


Eksempel 2.2: I eksempel 2.1 er andelen af elementer med en indkomst på 28 lig med 2/5 =

0,4. Andelsfunktionen udregnet for alle de forskellige værdier af indkomst i

populationen er:

0,2 hvis z = 25

g(z) =

0,4 hvis z = 28

0,2 hvis z = 32

0,2 hvis z = 36

For alle andre værdier af z er g(z) = 0. Man siger også, at den relative frekvens

af indkomsten 28 er 0,4. I søjlediagrammet i figur 2.1 er de relative frekvenser

repræsenteret ved højden af de forskellige pinde.

Når man skal illustrere mange forskellige værdier af et karakteristikum, bliver

et søjlediagram hurtigt uoverskueligt. I stedet er det ofte nyttigt at lave et hi-

stogram. Et histogram minder om et søjlediagram, men adskiller sig ved, at

det slår værdier, der ligger tæt på hinanden, sammen i grupper. Derfor er et

histogram specielt nyttigt ved kvantitative målinger. Hvor det i et søjledia-

gram er højden af en pind (eller søjle), der angiver den relative frekvens af gi-

ven værdi, så er det i et histogram arealet af en søjle, der angiver den relative

frekvens af en gruppe.

Man kan konstruere et histogram på følgende måde: Inddel værdierne af et

karakteristikum i grupper eller intervaller. Hvis fx værdierne ligger mellem 0

og 100, så kan man lave 10 intervaller med bredden 10, hvor det første interval

indeholder alle værdier større end (eller lig med) 0 og mindre end eller lig

Indkomst og

forbrug – del 2

Figur 2.1: Et

søjlediagram

Populationer 29

med 10. Det andet interval indeholder værdier, der er større end 10 og mindre

end eller lig med 20, osv. Læg mærke til, at en værdi skal tilhøre én, og kun én,

gruppe. Man kalder da det første interval for 5-gruppen, fordi 5 er midtpunk-

tet i intervallet.

Det næste skridt er at konstruere en søjle, hvis areal svarer til den relative

frekvens af elementer i gruppen. Hvis en gruppe således indeholder 25 % af

elementerne og har bredden 10, så skal højden på søjlen være: —0,210

5 = 0,025 (el-

ler 2,5 hvis man regner i procent). Det næste eksempel illustrerer forskellen på

et søjlediagram og et histogram.

Eksempel 2.3: I en mindre fodboldklub er målene gennem sæsonen blevet scoret af 12 for-

skellige spillere. Disse spillere danner derfor en population, hvor elementerne

har følgende værdier: 1, 2, 3, 4, 5, 6, 7, 8, 13, 13, 13, 17, som er antallet af mål

scoret af hver spiller. Et søjlediagram med de relative frekvenser er vist i figur

2.2:

Det ses af søjlediagrammet, at værdien 13 udgør 25 % af værdierne. Man kan

nu konstruere et histogram for værdierne ved at inddele dem i grupper (inter-

valler) af bredden 5. Første gruppe er da værdierne 0 til og med 5, kaldet

2,5-gruppen, næste gruppe er værdierne fra 5 til og med 10, kaldet 7,5-grup-

pen, tredje gruppe er værdierne fra 10 til og med 15, kaldet 12,5-gruppen, og

endelig er sidste gruppe værdierne fra 15 til og med 20, kaldet 17,5-gruppen.

Figur 2.3 viser histogrammet.

Et fodboldhold

Figur 2.2: Et

søjlediagram


Da hver gruppe har bredden 5, og eftersom 12,5-gruppen indeholder 25 % af

elementerne i populationen (3 ud af 12), så er højden af denne søjle lig med

0,25/5 = 0,05. Tilsvarende inkluderer 2,5-gruppen i alt 5 elementer, hvorfor

højden af denne søjle er (5/12)/5 = 0,083.

Når man laver et histogram, behøver alle grupper ikke have samme bredde.

Man kunne fx slå de to sidste grupper sammen til én gruppe, som da vil gå fra

10 til og med 20. Dermed får denne gruppe bredden 10, og da den rummer 4

ud af 12 elementer, vil dens søjle have højden (4/12)/10 = 0,033 som vist i fi-

gur 2.4.

Figur 2.3: Et

histogram

– version 1

Figur 2.4: Et

histogram

– version 2

Populationer 31

En anden type af diagram, som illustrerer andelsfunktionen, er et lagkagedia-

gram. I et lagkagediagram repræsenterer lagkagen hele populationen, og de

forskellige stykker repræsenterer forskellige værdier (eller grupper af værdier)

i populationen. Et stykkes andel af lagkagen svarer da til dets værdis relative

frekvens i populationen. Er arealet af hele lagkagen lig med én, er arealet af et

lagkagestykke derfor givet ved andelsfunktionen. Lagkagediagrammet er nyt-

tigt i forbindelse med både kvalitative og kvantitative målinger.

Eksempel 2.4: Et lagkagediagram for indkomsterne i populationen fra eksempel 2.1 er vist i

figur 2.5.

Nogle gange kan det være interessant at kende den andel af populationen, der

har en indkomst mindre end eller lig med en given værdi. Fx andelen af per-

soner, der lever under fattigdomsgrænsen. Sådanne andele kaldes også for ku-

mulative andele eller kumulative relative frekvenser. Formelt kan man defi-

nere en kumulativ andelsfunktion, G(z), på følgende måde:

Indkomst og

forbrug – del 3

Den kumulative andelsfunktion, G(z), for et karakteristikum i en virkelig population er defineret ved:

antal elementer med værdi ≤ zG(z) =

antal elementer i populationen

Figur 2.5: Et

lagkagedia-

gram


Eksempel 2.5: Frekvenser, relative frekvenser og kumulative relative frekvenser for popula-

tionen fra eksempel 2.1 er udregnet i nedenstående tabel:

Værdier Frekvens Relativ frekvens Kumulativ relativ frekvens

25 1 0,2 0,2

28 2 0,4 0,6

32 1 0,2 0,8

36 1 0,2 1,0

Den kumulative andelsfunktion for denne population er da:

0 hvis z ≤ 25

0,2 hvis 25 ≤ z < 28

G(z) = 0,6 hvis 36 ≤ z < 32

0,8 hvis 36 ≤ z < 36

1 hvis 36 ≤ z

Man kan aflæse direkte af den kumulative andelsfunktion, at andelen af po-

pulationen med en indkomst på højst 28 er G(28) = 0,6. Bemærk, at man

også kan aflæse den kumulative andelsfunktion for en indkomstværdi, som

ikke findes i populationen. For eksempel er andelen af populationen med en

indkomst på højst 33 lig med 0,8, idet G(33) = 0,8.

2.3.2 Median og fraktiler

Ofte er det nyttigt at kunne beskrive en population med nogle få nøgletal. Et

sådant nøgletal er medianen. En median er en værdi, som deler elementerne i

populationen i to lige store grupper, hvor den ene gruppe har værdier større

end medianen, og den anden gruppe har værdier mindre end medianen. Det

giver primært mening at udregne medianen ved en kvantitativ måling.

En måde, hvorpå man kan finde medianen, er ved at rangordne alle værdi-

erne fra den mindste til den største. Man betegner da den mindste værdi med

a(1), hvor parentesen om fodtegnet angiver, at der er tale om en rangordnet vær-

di. Det er altså ikke nødvendigvis tilfældet, at a(1) = a1, hvor a1 er værdien af det

første element. Kun hvis det første element også er det mindste element, er a(1)

= a1. Den næstmindste værdi i populationen betegner man da a(2) og den største

værdi a(Npop).

Indkomst og

forbrug – del 4

Tabel 2.3:

Kumulative

relative

frekvenser

Populationer 33

Medianen er den midterste rangordnede værdi. Hvis der fx er 25 elementer

i populationen, så er medianen værdien af det 13. mindste element, a(13), da

der så er 12 værdier, a(14), …, a(25), der er mindst lige så store som a(13), og 12

værdier, a(1), …, a(12), der er mindst lige så små som a(13).

Er der et lige antal elementer i populationen, findes der ikke ét element, der

deler populationen i to lige store dele. Hvis fx populationen har 10 elementer,

tager man i stedet gennemsnittet af det 5. og 6. mindste element, nemlig:

0,5 · (a(5) + a(6)).

Ud fra dette kan man opskrive en generel regel til brug for udregningen af

medianen i en virkelig population:

Eksempel 2.6: Tabel 2.4 viser de rangordnede indkomstværdier for elementerne i populatio-

nen fra eksempel 2.1:

Rangordning, j Rangordnet værdi a(j)

1 25

2 28

3 28

4 32

5 36

Da Npop er et ulige tal i dette eksempel, så er medianen a(0,5 · 5 + 0,5) = a(3) = 28.

Medianen er et eksempel på en fraktil. Generelt er en p-fraktil en værdi, hvor-

om det gælder, at andelen p af elementerne i populationen har en værdi min-

dre end p-fraktilen. Derfor er p altid et tal mellem 0 og 1. Hvis man fx under-

søger alderen for personerne i en population, så er 0,1-fraktilen lig med den

alder, hvorom det gælder, at 10 % er yngre og 90 % er ældre. Medianen er der-

for en 0,5-fraktil.

Medianen af et karakteristikum a i en virkelig population er givet ved:

a(0,5 · Npop + 0,5) , hvis Npop er ulige median = 0,5(a(0,5 · Npop) + a(0,5 · Npop + 1)) , hvis Npop er lige

hvor Npop er antallet af elementer i populationen og a(j) er det j’te mindste rang-ordnede element i populationen.

Indkomst og

forbrug – del 5

Tabel 2.4:

Rangordnede

værdier


Som for medianen kan man opstille en regneregel for udregningen af en

p-fraktil i en virkelig population. Til dette formål er det praktisk at definere

„[x]“ til at betyde heltalsværdien af et tal, x. For eksempel er [5,5] = 5 og

[831,97] = 831. Så kan man udregne p-fraktilen på følgende vis:

Eksempel 2.7: I populationen fra eksempel 2.1 kan man finde 0,75-fraktilen som: a([0,75·5+1])

= a([4,75]) = a(4) = 32, idet 0,75 · Npop = 0,75 · 5 = 3,75 ikke er et heltal.

Man betragter ofte 0,1-, 0,25-, 0,75- og 0,9-fraktilerne, når man vil sammen-

fatte en population ved hjælp af fraktiler. Sammen med medianen giver disse

størrelser et godt billede af, hvordan værdierne i populationen fordeler sig.

Eksempel 2.8: Der er godt 5 millioner personer i Danmark. Nedenstående tabel er baseret på

tal fra Danmarks Statistik for januar 2008 og viser udvalgte fraktiler for hen-

holdsvis danske kvinder og mænds alder målt i år.

Fraktiler 0,1 0,25 0,5 0,75 0,9

Kvinder 8 20 40 58 72

Mænd 7 19 38 56 68

Det ses af tabellen, at der er en større andel af mænd, som er unge, sammen-

lignet med kvinder. Således er fx halvdelen af mændene 38 år eller derunder,

mens halvdelen af kvinderne er 40 år eller derover.

p-fraktilen af et karakteristikum a i en virkelig population er givet ved:

a([p · Npop + 1]) , hvis p · Npop ikke er heltal p-fraktil = 0,5(a(p · Npop) + a(p · Npop + 1)) , hvis p · Npop er et heltal

hvor Npop er antallet af elementer i populationen, a(j) er det j’te mindste rangord-nede element i populationen og „[ ]“ angiver heltalsværdien af et tal.

Indkomst og

forbrug – del 6

Den danske

befolkning

Tabel 2.5:

Fraktiler for

kvinder og

mænds alder i

Danmark

Populationer 35

2.3.3 Box plot

I et box plot (også kaldet et „box-and-whisker plot“) afsætter man den mind-

ste værdi, 0,25-fraktilen, medianen, 0,75-fraktilen og den største værdi i po-

pulationen som vist i figur 2.6. Grafisk forbinder man den mindste værdi og

0,25-fraktilen med en streg, og ligeledes forbinder man 0,75-fraktilen og den

største værdi med en streg. Man tegner dernæst et rektangel med 0,25-frakti-

len og 0,75-fraktilen som de to endestykker. Endelig markerer man medianen

med en lodret streg gennem rektanglet. Et box plot er nyttigt, når man fx vil

sammenligne forskellige populationer.

2.3.4 Middelværdi og varians

Ved kvantitative målinger har man mulighed for at udregne nogle flere nøgle-

tal, som beskriver centrale egenskaber ved populationen. Et sådant nøgletal er

middelværdien. Middelværdien af et karakteristikum a i en virkelig population

er defineret på følgende måde:

Sumtegnet, ∑Npj=

o1

p aj, betyder, at man skal summere alle værdierne af a i popu-

lationen. Middelværdien er således den gennemsnitlige værdi af et karakteri-

stikum i populationen. Det er den værdi, man får, hvis man deler summen i

populationen, ∑Npj=

o1

p aj, ligeligt ud på alle elementer i populationen, så hvert

element får en Npop’te del af summen.

Figur 2.6:

Et box plot

Middelværdien af et karakteristikum a i en virkelig population er givet ved:

1

1

Npop

µa = –––– (a1 + a2 + ··· + aNpop) = –––– ∑ aj

Npop Npop

j=1

hvor Npop er antallet af elementer i populationen og a1, a2, …, aNpop er de forskel-lige værdier af karakteristikum a i populationen.


Eksempel 2.9: I populationen fra eksempel 2.1 er middelværdien af indkomsten lig med:

µindkomst = 1_5 · (36 + 28 + 25 + 32 + 28) = 29,8 (tusinde kr.)

Bemærk, at der er ingen af individerne, som rent faktisk har en indkomst lig

med middelværdien. Tilsvarende kan man vise, at middelværdien af forbru-

get i populationen er µforbrug = 6,8 (tusinde kr.)

To populationer kan have samme middelværdi, men alligevel være meget for-

skellige. Hvis den ene population rummer to elementer med værdierne 15 og

13, så er middelværdien 14. Men middelværdien er også 14 i en population

med to elementer, hvor det ene element har værdien 26 og det andet har vær-

dien 2. I den sidste population er værdierne imidlertid spredt mere ud end i

den første population. Middelværdien er altså ikke en fuldstændig beskrivelse

af en population.

En nøgletal, der giver overblik over spredningen i en population, er varian-

sen. Variansen giver et indtryk af, hvordan værdierne i populationen er spredt

omkring middelværdien. Variansen for en virkelig population er defineret i

følgende boks:

I det ekstreme tilfælde, hvor alle elementer i populationen har samme værdi,

a1 = a2 = … = aNpop, er variansen 0. I alle andre tilfælde er variansen større end

0. Man udregner ofte også kvadratroden af variansen, fordi denne har samme

måleenhed som værdierne selv. Denne kaldes standardafvigelsen og er define-

ret som:

Indkomst og

forbrug – del 7

Variansen af et karakteristikum a i en virkelig population er givet ved:

1

1

Npop

σa2 = –––– ((a1 – µa)2 + (a2 – µa)2 + ··· + (aNpop – µa)

2) = –––– ∑ (aj – µa)2

Npop Npop

j=1

hvor Npop er antallet af elementer i populationen, a1, a2, …, aNpop er de forskellige værdier af karakteristikum a i populationen, og µa er middelværdien af karakteri-stikum a.

Populationer 37

Standardafvigelsen er et mål for den gennemsnitlige afvigelse fra middelvær-

dien i populationen.

Eksempel 2.10: I populationen fra eksempel 2.1 er variansen af indkomsten lig med:

σ 2indkomst = 1_5 ((36 – 29,8)2 + (28 – 29,8)2 + (25 – 29,8)2 + (32 – 29,8)2

+ (28 – 29,8)2) = 14,56

Variansen måles i dette tilfælde i (tusinde kroner)2. Standardafvigelsen er

derimod σindkomst = 3,82 tusinde kr.

Variansen eller standardafvigelsen kan man bruge til at sammenligne to po-

pulationer, fx indkomster i Danmark og indkomster i USA. Umiddelbart vil vi

forvente, at variansen er noget højere i det sidste tilfælde. I kapitel 5 vender vi

tilbage til fortolkningen af både middelværdi og varians.

2.4 Overblik over flere karakteristika

Inden for samfundsvidenskab er man ofte interesseret i at undersøge, hvordan

forskellige karakteristika samvarierer. For eksempel er der mange, der har un-

dersøgt, om der er sammenhæng mellem køn og indkomst, således at fx mænd

har en tendens til at tjene mere end kvinder. I dette afsnit skal vi derfor se på

en række metoder, grafiske såvel som numeriske, til at sammenfatte og illu-

strere sammenhænge mellem to (eller flere) karakteristika i en virkelig popu-

lation.

2.4.1 Krydstabel og punktdiagram

Til at beskrive sammenhænge mellem to karakteristika i en population kan

man opstille en krydstabel. En krydstabel tabulerer frekvenserne eller de rela-

tive frekvenser af de forskellige kombinationer af de to karakteristika i popu-

lationen.

Standardafvigelsen af et karakteristikum a i en virkelig population er givet ved:

σa = √σ a2,

hvor σ a2 er variansen af karakteristikum a i populationen.

Indkomst og

forbrug – del 8


Eksempel 2.11: Betragt følgende population med 12 elementer, hvor hvert element er en per-

son med to karakteristika: (1) personens køn: kvinde eller mand; og (2) per-

sonens foretrukne sportsgren ud af tre mulige: fodbold, håndbold eller isdans.

De 12 elementer i populationen ser ud som følger: (mand, isdans), (kvinde,

håndbold), (kvinde, isdans), (kvinde, isdans), (mand, fodbold), (kvinde,

håndbold), (mand, fodbold), (kvinde, håndbold), (mand, fodbold), (mand,

håndbold), (kvinde, håndbold) og (kvinde, fodbold).

Et mere overskueligt billede af denne population får man ved at lave en

krydstabel med frekvensen af hver mulig kombination af de to karakteristika

som vist i tabel 2.6.

Fodbold Håndbold Isdans

Kvinde 1 4 2

Mand 3 1 1

Man kan også lave en krydstabel med relative frekvenser som vist i tabel 2.7.


Kvinde 1/12 4/12 2/12

Mand 3/12 1/12 1/12

Forskellene mellem mænd og kvinder skyldes både forskelle i foretrukne

sportsgrene samt et forskelligt antal mænd og kvinder i populationen. Hvis

man vil vurdere forskellen mellem mænd og kvinders foretrukne sportsgren,

så kan det være mere nyttigt at udregne de relative frekvenser for hvert køn for

sig. Dette er gjort i tabel 2.8. Det ses da, at andelen af kvinder, som foretrækker

håndbold er betydelig større end andelen af mænd, som foretrækker hånd-

bold.


Kvinde 1/7 4/7 2/7

Mand 3/5 1/5 1/5

Til at få et godt visuelt billede af samvariationen mellem to karakteristika kan

man tegne et punktdiagram. I et punktdiagram angiver man for hvert element

værdierne af de to karakteristika med en prik i et todimensionelt koordinatsy-

stem.

Køn og

sportsgrene

Tabel 2.6: En

krydstabel

med frekvenser

Tabel 2.7: En

krydstabel

med relative

frekvenser

Tabel 2.8: En

krydstabel

med relative

frekvenser for

hvert køn

Populationer 39

Eksempel 2.12: I figur 2.7 er værdierne af de to karakteristika (indkomst og forbrug) afbildet

for de fem elementer i populationen fra eksempel 2.1. Værdien af indkomsten

(karakteristikum a) er vist på den vandrette akse, mens værdien af forbruget

(karakteristikum b) fremgår af den lodrette akse. Således repræsenterer prikken

længst til højre det første element i populationen, som har indkomst lig med 36

(tusinde kr.) og forbrug på 9 (tusinde kr.), jf. tabel 2.2. Af figuren ser der ud til

at være en positiv sammenhæng mellem indkomst og forbrug i populationen.

2.4.2 Kovarians og korrelation

Sammenhænge mellem karakteristika i en population kan også opsummeres i

simple nøgletal. Lad som ovenfor aj være det j’te elements værdi af et karakte-

ristikum a, mens bj er det j’te elements værdi af karakteristikum b. Kovarian-

sen, σa,b, mellem de to karakteristika i en virkelig population, er defineret i

følgende boks:

Indkomst og

forbrug – del 9

Figur 2.7: Et

punktdiagram

Kovariansen mellem to karakteristika, a og b, i en virkelig population, er:

1σa,b = –––– ((a1 – µa)(b1 – µb) +(a2 – µa)(b2 – µb) + ···

Npop

+ (aNpop – µa)(bNpop – µb))

1 Npop

= –––– ∑ (aj – µa)(bj – µb) Npop

j=1

hvor a1, a2, …, aNpop og b1, b2, …, bNpop er værdierne af de to karakteristika for de Npop elementer i populationen, og µa og µb er middelværdierne af de to karakteri-stika i populationen.


En positiv kovarians betyder, at der er en tendens til, at et element med en høj

værdi af det ene karakteristikum også har en høj værdi af det andet karakteri-

stikum. Er kovariansen negativ, betyder det, at der er en tendens til, at et ele-

ment med en høj værdi af det ene karakteristikum har en lav værdi af det an-

det karakteristikum. „Høje“ og „lave“ værdier er her set i forhold til

middelværdierne af de pågældende karakteristika.

Det er ofte mere informativt at se på korrelationskoefficienten, ρa,b, som er

et tal mellem −1 og 1:

Korrelationskoefficienten har samme fortegn som kovariansen. Hvis korrela-

tionskoefficienten er positiv, siger man, at der er positiv korrelation mellem

de to karakteristika. Er korrelationskoefficienten negativ, siger man, at der er

negativ korrelation mellem de to karakteristika.

Eksempel 2.13: I populationen fra eksempel 2.1 er kovariansen mellem indkomst og forbrug:

σindkomst, forbrug = 1_5 ((36 – 29,8)(9 – 6,8) + (28 – 29,8)(5 – 6,8)

+ (25 – 29,8)(6 – 6,8) + (32 – 29,8)(8 – 6,8) + (28 – 29,8)(6 – 6,8)) = 4,96

Korrelationskoefficienten er:

( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( ),

1( 36 29,8 9 6,8 28 29,8 5 6,8

525 29,8 6 6,8 32 29,8 8 6,8 28 29,8 6 6,8 ) 4,96

indkomst forbrugσ = − − + − −

+ − − + − − + − − =

Korrelationskoefficienten er:

,

4,960,88

14,56 2,16indkomst forbrugρ = =

⋅

Der er positiv korrelation mellem indkomst og forbrug. Dermed er der tendens til, at individer med et relativt h¯ jt forbrug ogsÂ har en relativt h¯ j indkomst. Dette passer fint med det indtryk, man fÂ r af at se pÂ punktdiagrammet i figur 2.7.

Bemærk, at man ikke kan konkludere noget om en årsagssammenhæng alene baseret på korrelationen. I eksempel 2.13 er der en positiv korrelation mellem indkomst og forbrug. Det kan fx skyldes, at man kan forbruge mere med en høj indkomst, og dermed at indkomsten er årsagen til det højere forbrug. Det kan dog også skyldes, at en person ønsker at have et højt forbrug, hvilket nødvendiggør en høj indkomst. Dermed bliver forbruget årsagen til den højere indkomst. Endelig kan det være helt andre faktorer som fx livsstilsvalg eller sociale tilhørsforhold, der bestemmer både ens forbrug og ens indkomst. Vi vender tilbage til dette senere i bogen.

2.5 Diagrammer i Excel

Vi vil i dette afsnit se på, hvordan man kan bruge Excel til at få overblik over en population. Konkret vil vi vise, hvordan man kan konstruere søjlediagrammer, lagkagediagrammer og punktdiagrammer i Excel. I kapitel 5 vil det blive vist, hvordan Excel også kan bruges til at udregne middelværdier, varianser m.m.

Der er positiv korrelation mellem indkomst og forbrug. Dermed er der ten-

dens til, at individer med et relativt højt forbrug også har en relativt høj ind-

komst. Dette passer fint med det indtryk, man får af at se på punktdiagram-

met i figur 2.7.

Korrelationskoefficienten mellem to karakteristika, a og b, i en virkelig population, er:

hvor �� og �� er værdierne af de to

karakteristika for de �� elementer i populationen og �� og �� er

middelværdierne af de to karakteristika i populationen.

En positiv kovarians betyder, at der er en tendens til, at et element med en høj værdi af det ene karakteristikum også har en høj værdi af det andet karakteristikum. Er kovariansen negativ, betyder det, at der er en tendens til, at et element med en høj værdi af det ene karakteristikum har en lav værdi af det andet karakteristikum. "Høje" og "lave" værdier er her set i forhold til middelværdierne af de pågældende karakteristika. Det er ofte mere informativt at se på korrelationskoefficienten, ��,

som er et tal mellem −1 og 1:

Korrelationskoefficienten mellem to karakteristika, � og �, i en virkelig population, er:

,,

a ba b

a b

σρ

σ σ=

hvor �� er kovariansen mellem de to karakteristika og �� og �� er

standardafvigelserne af de to karakteristika i populationen.

Korrelationskoefficienten har samme fortegn som kovariansen. Hvis korrelationskoefficienten er positiv, siger man, at der er positiv korrelation mellem de to karakteristika. Er korrelationskoefficienten negativ, siger man, at der er negativ korrelation mellem de to karakteristika.

Eksempel 2.13: Indkomst og forbrug ñ del 10

I populationen fra eksempel 2.1 er kovariansen mellem indkomst og forbrug:

hvor σa,b er kovariansen mellem de to karakteristika, og σa og σb er standardafvi-gelserne af de to karakteristika i populationen.

Indkomst og

forbrug – del

10

3,82 · 1,47

Populationer 41

Bemærk, at man ikke kan konkludere noget om en årsagssammenhæng alene

baseret på korrelationen. I eksempel 2.13 er der en positiv korrelation mellem

indkomst og forbrug. Det kan fx skyldes, at man kan forbruge mere med en

høj indkomst, og dermed at indkomsten er årsagen til det højere forbrug. Det

kan dog også skyldes, at en person ønsker at have et højt forbrug, hvilket nød-

vendiggør en høj indkomst. Dermed bliver forbruget årsagen til den højere

indkomst. Endelig kan det være helt andre faktorer som fx livsstilsvalg eller

sociale tilhørsforhold, der bestemmer både ens forbrug og ens indkomst. Vi

vender tilbage til dette senere i bogen.

2.5 Diagrammer i Excel

Vi vil i dette afsnit se på, hvordan man kan bruge Excel til at få overblik over

en population. Konkret vil vi vise, hvordan man kan konstruere søjlediagram-

mer, lagkagediagrammer og punktdiagrammer i Excel. I kapitel 5 vil det blive

vist, hvordan Excel også kan bruges til at udregne middelværdier, varianser

m.m.

I de første syv rækker af regnearket nedenfor er vist populationen fra tabel

2.2. Række 9-13 indeholder desuden frekvenser og relative frekvenser af de

fire forskellige værdier af forbrug, bj, i populationen.

Prøv at taste tallene ind i et regneark, så du selv kan prøve at udføre de ef-

terfølgende operationer i Excel.


2.5.1 Søjlediagram

Hvis man fx vil lave et søjlediagram over forbruget, kan det gøres på følgende

måde: Klik på Indsæt i den øverste menu og derefter på Søjle i menuen ne-

denunder. I den drop-down menu, der fremkommer, vælges den første mulig-

hed under 2D-søjlediagram.

Der fremkommer nu et blankt område midt på skærmen samt en ny menu

foroven. I denne menu klikkes på Vælg data, hvorefter følgende dialogboks

dukker op:

Populationer 43

Her skal vi først have angivet cellereferencerne for de frekvenser, der skal afbil-

des. Dette gøres ved at klikke på knappen Tilføj, hvorved følgende dialogboks

åbner sig:

I rubrikken under Serienavn kan man fx skrive Forbrug for at angive, at det

drejer sig om frekvenser for forbrug i populationen. Dernæst klikker man på

regnskabsikonet til højre for rubrikken under Serieværdier. Man kan der-

efter med musen markere de celler, hvor frekvenserne befinder sig (cellerne

C10 til C13), hvorefter man trykker Return. Excel vil da selv angive cellerefe-

rencerne i rubrikken under Serieværdier som vist nedenfor:

Derefter klikker man OK, og man ryger da tilbage til den oprindelige dialog-

boks:


Det næste skridt er at angive cellereferencerne for de forskellige værdier af

forbrug, bj, i populationen. Dette gøres ved at klikke på knappen Rediger un-

der Vandrette (Kategori) akseetiketter. Da fremkommer følgende dialog-

boks:

I rubrikken angiver man cellereferencerne for de fire værdier af forbrug, som

er A10:A13. Dernæst klikker man på OK, og man ryger endnu engang tilbage

til den oprindelige dialogboks:

Nu har man fået angivet både de forskellige værdier af forbrug i populationen

og de tilhørende frekvenser. Tilbage er blot at klikke OK. Man har da et søjle-

diagram over de relative frekvenser for forbruget i populationen:

Populationer 45

2.5.2 Lagkagediagram

Et lagekagediagram konstrueres på stort set samme måde som et søjledia-

gram. Man klikker først på Indsæt i den øverste menu og derefter på Cirkel. I den drop-down menu, der fremkommer, vælges den første mulighed under

2D-cirkel.

Derefter følges nøjagtig samme fremgangsmåde som ved konstruktionen af

søjlediagrammet.

2.5.3 Punktdiagram

Excel kan også anvendes til at konstruere punktdiagrammer. Klik på Indsæt og dernæst på Punktdiagram. I den drop-down menu, der fremkommer, væl-

ges den første mulighed („Punktdiagram kun med datamærker“).


Igen fremkommer der et blankt område midt på skærmen samt en ny menu

foroven. I denne menu klikkes som før på Vælg data og derefter på Tilføj, hvorefter følgende dialogboks dukker op:

I rubrikken under Serienavn skriver man fx Indkomst og forbrug. Under X-serieværdier angiver man cellereferencerne for indkomstobservationerne i

populationen, som er B3:B7. Dette gøres som før ved at klikke på regnskabsi-

konet og derefter markere cellerne med musen. Under Y-serieværdier angiver

man tilsvarende cellereferencerne for forbrugsobservationerne i populatio-

nen, som er C3:C7. Dernæst klikkes OK, hvorefter man returnerer til den op-

rindelige dialogboks. Her klikkes igen OK, og man får da punktdiagrammet.

2.6 Opgaver

1. Repetitionsspørgsmål

a) Hvad er en virkelig population?

b) Gør kort rede for de fire typer af måleskalaer.

c) Forklar hvad andelsfunktionen og den kumulative andelsfunktion vi-

ser.

d) Forklar forskellen på et søjlediagram og et histogram.

e) Hvordan finder man medianen og en p-fraktil i en virkelig population?

f) Forklar hvordan man udregner middelværdien, variansen og standard-

afvigelsen i en virkelig population.

g) Hvad viser en krydstabel og et punktdiagram?

h) Forklar hvordan man udregner en kovarians og en korrelationskoeffi-

cient, og hvordan man fortolker disse.

2. Efter en rustur på universitetet opgjorde man henholdsvis alderen og an-

tallet af indtagne genstande for de deltagende studerende. Populationens

størrelse var på 21 personer, som havde følgende karakteristika (alder, an-

tal genstande):

Populationer 47

(18, 5), (22, 0), (18, 21), (22, 7), (24, 2), (20, 10), (20, 7), (27, 0), (19, 32),

(20, 5), (20, 10), (22, 12), (24, 2), (24, 4), (22, 10), (20, 14), (24, 6), (27, 0),

(22, 0), (20, 10), (20, 21) og (24, 2).

a) Opstil andelsfunktionen og den kumulative andelsfunktion for „antal

genstande“ i populationen.

b) Tegn et søjlediagram med de relative frekvenser af „antal genstande“.

c) Tegn et histogram for „antal genstande“ med intervalbredden 5.

d) Konstruér et lagkagediagram for „antal genstande“.

e) Find medianen af „antal genstande“ samt 0,25- og 0,75-fraktilerne.

f) Tegn et box plot for „antal genstande“.

g) Beregn middelværdi, varians og standardafvigelse af „antal genstande“

i populationen.

3. Betragt populationen fra opgave 2.

a) Konstruér en krydstabel for de relative frekvenser af „alder“ og „antal

genstande“.

b) Tegn et punktdiagram for „alder“ og „antal genstande“

c) Udregn kovariansen mellem „alder“ og „antal genstande“. Hvad for-

tæller den dig?

d) Udregn også korrelationskoefficienten.