Upload
hoangthuy
View
225
Download
0
Embed Size (px)
Citation preview
ECON2130 - Statistikk 1Forelesning 2: Innledning
Data, beskrivende statistikk, visualisering
Jo Thori [email protected]
Typer variable
• Nominelle: Gjensidig utelukkende kategorier• Kjønn, etnisk gruppe
• NB Binære vs. mange verdier
• Ordinale: Gjensidig utelukkende grupper som kan rangeres• Enig – litt enig – litt uenig – uenig
• Landsby – småby – storby – megalopolis
• Kontinuerlige: Alle former for tallverdier• Inntekt, alder, års skolegang
Hva er beskrivende statistikk?
• Mål som sier noe om verdiene på en variabel
• Beskriver hvordan utvalget «ser ut»
• Hvis vi har hele universet er beskrivende statistikk ofte tilstrekkelig
• Med et utvalg trenger vi mer teori for å si noe om hele universet
• Men ofte er målene fra beskrivende statistikk de målene vi bruker• Disse målene vil gå igjen i hele kurset
Sentrum av data
• Ofte interessant å vite hva typiske verdier er• Er typisk inntekt rundt 100 kr eller 1 million?
• Ikke alle er like, så noen vil være over og noen under dette målet
• Vanlige mål:• Gjennomsnitt
• Median
• Typetall
Gjennomsnitt
• Legge sammen alle og dele på antallet
• Si vi har N observasjoner, kall dem 𝑖 = 1,2,3, … , 𝑁
• La verdien på observasjon 𝑖 være 𝑥𝑖
• Da er gjennomsnittet ҧ𝑥 =𝑥1+𝑥2+⋯+𝑥𝑁
𝑁
• Kan også skrive ҧ𝑥 =1
𝑁σ𝑖=1𝑁 𝑥𝑖
Eksempel
• Anta vi har følgende inntektsdata (i 10 000):56, 45, 38, 29, 74, 69, 66
• Her har vi 𝑁 = 7
• Summen er σ𝑖=1𝑁 𝑥𝑖 = 56+45+38+29+74+69+66=377
• Da blir gjennomsnittet377
7= 57.86
Beregne det i R
• Først må vi få dataene inn i R
• En serie med verdier kalles en vektor• Kan lage vektorer med funksjonen c()
• La oss kalle vektoren vår inntektinntekt<-c(56, 45, 38, 29, 74, 69, 66)
• Så kan vi beregne summen eller gjennomsnittetsum(inntekt)
mean(inntekt)
Medianen – motivasjon
• Hva skjer med gjennomsnittet om en av personene er steinrik?
• Vi har data56, 45, 38, 29, 74, 69, 4277
• Nå blir gjennomsnittet 655.4• Høyere enn nesten alle verdiene
• Sier lite om den typiske inntekten
• Hvis det er noen ekstreme verdier eller uteliggere kan gjennomsnittet være lite informativt• Lite robust overfor uteliggere
Medianen
• Et alternativt mål på sentrum er medianen
• Den verdien som ligger i midten
• Begynn med å sortere dataene fra lavest til høyest: sort(inntekt)29, 38, 45, 56, 66, 69, 74
• Finn verdien i midten
• Hva om vi har partall antall observasjoner så ingen er i midten?• Ta gjennomsnittet av de to i midten
• Hva er medianen i dataene med en uteligger?
Typetallet
• Den verdien som forekommer hyppigst
• Relevant for «vanlige» verdier, men ikke så mye brukt ellers
• Nyttig hvis man ikke kan rangere og summere dataene
Spredning
• Verdien av å vite hvor sentrum av data er avhenger av hvor stor spredning det er rundt sentrum• Hvis de aller fleste er i nærheten forteller sentrum oss mye
• His det er stor spredning er ikke målet så informativt
• Derfor er det nyttig med mål på spredning i dataene
• Mål som sier hvor store forskjeller det er mellom ulike verdier
Variasjonsbredde
• Hvilke verdier forekommer i dataene• Finn den største og den minste
• Variasjonsbredden er differansen
• I inntektsdataene:range(inntekt)
29 74
• Da blir variasjonsbredden 74-29=45
• Reagerer sterkt på noen få ekstreme observasjoner
Variansen
• Hvor langt fra gjennomsnittet er en typisk observasjon?• Gitt av differansen 𝑥𝑖 − ҧ𝑥
• Dette vil være både positive og negative tall• Men både store positive og store negative tall betyr at observasjonen er langt
fra gjennomsnittet
• Må «ta bort minusen»
• Kan gange med seg selv (opphøye i annen)
• Da blir avviket fra gjennomsnittet 𝑥𝑖 − ҧ𝑥 2
Variansen (forts.)
• Gjennomsnittet av disse avvikene kalles variansen
𝑉𝑎𝑟 =1
𝑁 − 1
𝑖=1
𝑁
𝑥𝑖 − ҧ𝑥 2
• Hvorfor dele på N-1?• Kommer tilbake til det seinere
• For at den skal treffe en teoretisk varians (forventningsrett)
Standardavvik
• Siden vi opphøyer i annen blir variansen «kroner i annen»
• Hvis vi vil ha noe i «kroner» tar vi kvadratroten – det kalles standardavvik
𝑠𝑑 = 𝑉𝑎𝑟 =1
𝑁 − 1
𝑖=1
𝑁
𝑥𝑖 − ҧ𝑥 2
Kvartiler
• Kan noen ganger være nyttig å si mer enn hvor «midten» er
• For kvartiler stiller vi alle på rekke og deler i fire grupper
7 10 13 14 24 26 27 35 41 43 49 56 62 65 69 78 84 93 94 100
Median43 + 49
2= 46
1. kvartil24 + 26
2= 25
3. kvartil69 + 78
2= 73.5
Persentiler og andre kvantiler
• Persentiler er å dele i hundre grupper• Andelen av inntekt som går til den øverste persentilen, dvs. de rikeste 1 % er
et mål på ulikhet
• Popularisert av Piketty: Kapitalen i det 21. århundre
• Andre kvantiler som brukes er• Kvintiler – dele i 5
• Desiler – dele i 10
• Ventiler – dele i 20
Åpne data i R
• Velge riktig katalogsetwd("M:/dok/Undervisning/ECON2130")
• Lese inn datainnt<-read.csv("inntekter.csv")
inntekter.csv"kjonn","inntekt""Mann",80.1051941735921"Mann",69.3573778982704"Mann",86.1316191211497"Kvinne",22.8885333360885"Kvinne",38.1725426407846"Mann",52.4796398493451"Mann",68.6431678267916"Kvinne",36.0540191904963
Frekvenstabeller
• I ‘innt’ er det en variabel ‘kjonn’• Må bruke ‘innt$kjonn’ for å få tak i den
• Bruker table(innt$kjonn)
• GirKvinne Mann
46 54
Søylediagram (forts.)
barplot(table(round(innt$inntekt)))
23 30 33 36 41 44 47 49 52 54 56 58 60 66 69 71 74 76 80 82 86 88 92 94 118 122 141
01
23
45
Histogram
hist(innt$inntekt)
Histogram of innt$inntekt
innt$inntekt
Fre
qu
en
cy
20 40 60 80 100 120 140 160
01
02
03
04
0
Ser på intervallet 40-60
Hvor mange observasjoner er i intervallet
Histogram (forts.)
hist(innt$inntekt,breaks = c(20,30,40,50,60,70,80,100,120,160))
Histogram of innt$inntekt
innt$inntekt
De
nsity
20 40 60 80 100 120 140 160
0.0
00
0.0
05
0.0
10
0.0
15
0.0
20
20
40
60
80
10
01
20
14
0Boksplott
boxplot(innt$inntekt)
Median
1. kvartil
3. kvartil
Nesten minste verdi
Nesten største verdi
Uteliggere
Uteliggere
• Boksplottet viser ekstremt store og ekstremt små verdier som punkter
• Dette kalles uteliggere• Kan være lurt å sjekke dem – er det feil i data?
• Kan ha stor påvirkning på resultatene våre
• I beregning av boksplott er uteliggere definert som:• Finn 1. og 3. kvartil
• Finn kvartilbredden, dvs. avstanden mellom de to kvartilene
• Et stort tall er en uteligger hvis det er mer enn 1.5×kvartilbredden over 3. kvartil
• Et lite tall er en uteligger hvis det er mer enn 1.5×kvartilbredden under 1. kvartil
Spredningsdiagram
plot(mat~tot_utg,data=mat)
0 100 200 300 400 500 600 700
05
01
00
15
0
Totalt forbruk (1000 rupee)
Utg
ift p
å m
at (1
00
0 r
up
ee