31
ECON2130 - Statistikk 1 Forelesning 2: Innledning Data, beskrivende statistikk, visualisering Jo Thori Lind [email protected]

ECON2130 - Statistikk 1 Forelesning 2: Innledning Data ... · •Legge sammen alle og dele på antallet ... 7 10 13 14 24 26 27 35 41 43 49 56 62 65 69 78 84 93 94 100 Median v u+

Embed Size (px)

Citation preview

ECON2130 - Statistikk 1Forelesning 2: Innledning

Data, beskrivende statistikk, visualisering

Jo Thori [email protected]

1. Beskrivende statistikk

Typer variable

• Nominelle: Gjensidig utelukkende kategorier• Kjønn, etnisk gruppe

• NB Binære vs. mange verdier

• Ordinale: Gjensidig utelukkende grupper som kan rangeres• Enig – litt enig – litt uenig – uenig

• Landsby – småby – storby – megalopolis

• Kontinuerlige: Alle former for tallverdier• Inntekt, alder, års skolegang

Hva er beskrivende statistikk?

• Mål som sier noe om verdiene på en variabel

• Beskriver hvordan utvalget «ser ut»

• Hvis vi har hele universet er beskrivende statistikk ofte tilstrekkelig

• Med et utvalg trenger vi mer teori for å si noe om hele universet

• Men ofte er målene fra beskrivende statistikk de målene vi bruker• Disse målene vil gå igjen i hele kurset

Sentrum av data

• Ofte interessant å vite hva typiske verdier er• Er typisk inntekt rundt 100 kr eller 1 million?

• Ikke alle er like, så noen vil være over og noen under dette målet

• Vanlige mål:• Gjennomsnitt

• Median

• Typetall

Gjennomsnitt

• Legge sammen alle og dele på antallet

• Si vi har N observasjoner, kall dem 𝑖 = 1,2,3, … , 𝑁

• La verdien på observasjon 𝑖 være 𝑥𝑖

• Da er gjennomsnittet ҧ𝑥 =𝑥1+𝑥2+⋯+𝑥𝑁

𝑁

• Kan også skrive ҧ𝑥 =1

𝑁σ𝑖=1𝑁 𝑥𝑖

Summetegn

𝑖=1

𝑁

𝑥𝑖Gresk sigma

Hvor vi begynner å summere

Hvor vi summerer til

Hva vi summerer

Eksempel

• Anta vi har følgende inntektsdata (i 10 000):56, 45, 38, 29, 74, 69, 66

• Her har vi 𝑁 = 7

• Summen er σ𝑖=1𝑁 𝑥𝑖 = 56+45+38+29+74+69+66=377

• Da blir gjennomsnittet377

7= 57.86

Beregne det i R

• Først må vi få dataene inn i R

• En serie med verdier kalles en vektor• Kan lage vektorer med funksjonen c()

• La oss kalle vektoren vår inntektinntekt<-c(56, 45, 38, 29, 74, 69, 66)

• Så kan vi beregne summen eller gjennomsnittetsum(inntekt)

mean(inntekt)

Medianen – motivasjon

• Hva skjer med gjennomsnittet om en av personene er steinrik?

• Vi har data56, 45, 38, 29, 74, 69, 4277

• Nå blir gjennomsnittet 655.4• Høyere enn nesten alle verdiene

• Sier lite om den typiske inntekten

• Hvis det er noen ekstreme verdier eller uteliggere kan gjennomsnittet være lite informativt• Lite robust overfor uteliggere

Medianen

• Et alternativt mål på sentrum er medianen

• Den verdien som ligger i midten

• Begynn med å sortere dataene fra lavest til høyest: sort(inntekt)29, 38, 45, 56, 66, 69, 74

• Finn verdien i midten

• Hva om vi har partall antall observasjoner så ingen er i midten?• Ta gjennomsnittet av de to i midten

• Hva er medianen i dataene med en uteligger?

Typetallet

• Den verdien som forekommer hyppigst

• Relevant for «vanlige» verdier, men ikke så mye brukt ellers

• Nyttig hvis man ikke kan rangere og summere dataene

Spredning

• Verdien av å vite hvor sentrum av data er avhenger av hvor stor spredning det er rundt sentrum• Hvis de aller fleste er i nærheten forteller sentrum oss mye

• His det er stor spredning er ikke målet så informativt

• Derfor er det nyttig med mål på spredning i dataene

• Mål som sier hvor store forskjeller det er mellom ulike verdier

Variasjonsbredde

• Hvilke verdier forekommer i dataene• Finn den største og den minste

• Variasjonsbredden er differansen

• I inntektsdataene:range(inntekt)

29 74

• Da blir variasjonsbredden 74-29=45

• Reagerer sterkt på noen få ekstreme observasjoner

Variansen

• Hvor langt fra gjennomsnittet er en typisk observasjon?• Gitt av differansen 𝑥𝑖 − ҧ𝑥

• Dette vil være både positive og negative tall• Men både store positive og store negative tall betyr at observasjonen er langt

fra gjennomsnittet

• Må «ta bort minusen»

• Kan gange med seg selv (opphøye i annen)

• Da blir avviket fra gjennomsnittet 𝑥𝑖 − ҧ𝑥 2

Variansen (forts.)

• Gjennomsnittet av disse avvikene kalles variansen

𝑉𝑎𝑟 =1

𝑁 − 1

𝑖=1

𝑁

𝑥𝑖 − ҧ𝑥 2

• Hvorfor dele på N-1?• Kommer tilbake til det seinere

• For at den skal treffe en teoretisk varians (forventningsrett)

Standardavvik

• Siden vi opphøyer i annen blir variansen «kroner i annen»

• Hvis vi vil ha noe i «kroner» tar vi kvadratroten – det kalles standardavvik

𝑠𝑑 = 𝑉𝑎𝑟 =1

𝑁 − 1

𝑖=1

𝑁

𝑥𝑖 − ҧ𝑥 2

Kvartiler

• Kan noen ganger være nyttig å si mer enn hvor «midten» er

• For kvartiler stiller vi alle på rekke og deler i fire grupper

7 10 13 14 24 26 27 35 41 43 49 56 62 65 69 78 84 93 94 100

Median43 + 49

2= 46

1. kvartil24 + 26

2= 25

3. kvartil69 + 78

2= 73.5

Persentiler og andre kvantiler

• Persentiler er å dele i hundre grupper• Andelen av inntekt som går til den øverste persentilen, dvs. de rikeste 1 % er

et mål på ulikhet

• Popularisert av Piketty: Kapitalen i det 21. århundre

• Andre kvantiler som brukes er• Kvintiler – dele i 5

• Desiler – dele i 10

• Ventiler – dele i 20

2. Visualisering

Åpne data i R

• Velge riktig katalogsetwd("M:/dok/Undervisning/ECON2130")

• Lese inn datainnt<-read.csv("inntekter.csv")

inntekter.csv"kjonn","inntekt""Mann",80.1051941735921"Mann",69.3573778982704"Mann",86.1316191211497"Kvinne",22.8885333360885"Kvinne",38.1725426407846"Mann",52.4796398493451"Mann",68.6431678267916"Kvinne",36.0540191904963

Frekvenstabeller

• I ‘innt’ er det en variabel ‘kjonn’• Må bruke ‘innt$kjonn’ for å få tak i den

• Bruker table(innt$kjonn)

• GirKvinne Mann

46 54

Søylediagram

barplot(table(innt$kjonn))

Kvinne Mann

01

02

03

04

05

0

Søylediagram (forts.)

barplot(table(round(innt$inntekt)))

23 30 33 36 41 44 47 49 52 54 56 58 60 66 69 71 74 76 80 82 86 88 92 94 118 122 141

01

23

45

Histogram

hist(innt$inntekt)

Histogram of innt$inntekt

innt$inntekt

Fre

qu

en

cy

20 40 60 80 100 120 140 160

01

02

03

04

0

Ser på intervallet 40-60

Hvor mange observasjoner er i intervallet

Histogram (forts.)

hist(innt$inntekt,breaks = c(20,30,40,50,60,70,80,100,120,160))

Histogram of innt$inntekt

innt$inntekt

De

nsity

20 40 60 80 100 120 140 160

0.0

00

0.0

05

0.0

10

0.0

15

0.0

20

20

40

60

80

10

01

20

14

0Boksplott

boxplot(innt$inntekt)

Median

1. kvartil

3. kvartil

Nesten minste verdi

Nesten største verdi

Uteliggere

Uteliggere

• Boksplottet viser ekstremt store og ekstremt små verdier som punkter

• Dette kalles uteliggere• Kan være lurt å sjekke dem – er det feil i data?

• Kan ha stor påvirkning på resultatene våre

• I beregning av boksplott er uteliggere definert som:• Finn 1. og 3. kvartil

• Finn kvartilbredden, dvs. avstanden mellom de to kvartilene

• Et stort tall er en uteligger hvis det er mer enn 1.5×kvartilbredden over 3. kvartil

• Et lite tall er en uteligger hvis det er mer enn 1.5×kvartilbredden under 1. kvartil

Kvinne Mann

20

40

60

80

10

01

20

14

0

Hva skal vi med boksplott?

boxplot(inntekt~kjonn,data=innt)

Spredningsdiagram

plot(mat~tot_utg,data=mat)

0 100 200 300 400 500 600 700

05

01

00

15

0

Totalt forbruk (1000 rupee)

Utg

ift p

å m

at (1

00

0 r

up

ee

Tidsseriediagram