45
Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik Lektion 1

  • Upload
    keely

  • View
    51

  • Download
    0

Embed Size (px)

DESCRIPTION

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning. Introduktion. Kasper K. Berthelsen, Inst f. Matematiske Fag Omfang : 8 KursusgangI fremtiden Start 8:15?? Kursusgang: 2 x 45 min forelæsning + opgaveregning - PowerPoint PPT Presentation

Citation preview

Page 1: Statistik Lektion 1

StatistikLektion 1

IntroduktionGrundlæggende statistiske begreberDeskriptiv statistikSandsynlighedsregning

Page 2: Statistik Lektion 1

Kasper K. Berthelsen, Inst f. Matematiske Fag

Omfang: 8 Kursusgang I fremtiden Start 8:15?? Kursusgang: 2 x 45 min forelæsning + opgaveregning Indhold: Groft sagt kapitel 1 til 11 i Newbold

Eksamen: Individuel mundtlig efter 7-trins skala Eksamen tager udgangspunkt i et antal opgaver.

Software: R

Introduktion

Page 3: Statistik Lektion 1

Nogle definitioner Population: Mængden af alle ”individer” vi er

interesserede i. fx alle virksomheder i DK

Parameter: Et deskriptivt mål for populationen (for eksempel middelværdi og varians).

fx gennemsnits antal ansatte

Stikprøve (sample): Mængde af data taget fra en delmængde af populationen

fx 10 tilfældigt udvalgte virksomheder

Statistik: Et deskriptivt mål for stikprøven.fx gennemsnits antal ansatte blandt de 10.

Variabel: En karakteristik af populationen eller stikprøven fx antal ansatte, omsætning, region, type

Page 4: Statistik Lektion 1

Typisk statistisk problemstilling Vi ønsker at udtale os om en population (alle flyrejsende)

ud fra en stikprøve (et udsnit af de flyrejsende).

Vi vil udtale os om en parameter for populationen (andelen af trygge flyrejsende) ud fra en stikprøve statistik (andelen af trygge flyrejsende i stikprøven).

Parameteren for population er aldrig kendt! (i praksis)

Vigtigt: Vi er ”ligeglade” med medlemmerne af stikprøven! Det er

populationen vi vil udtale os om!

Page 5: Statistik Lektion 1

Lidt om stikprøver

Simpel tilfældig stikprøve: Alle medlemmer i populationen har lige stor

sandsynlighed for at blive udvalgt til stikprøven Notation:

N : Størrelsen af populationen (alle vælgere) n : Størrelsen af stikprøven (antal adspurgte vælgere)

∙∙

∙ ∙∙∙ ∙

∙Population

Stikprøve:

∗ ∗

Page 6: Statistik Lektion 1

Deskriptiv versus inferential statistik Deskriptiv statistik:

Metoder til at organisere og præsentere data på en informativ måde.

Inferential statistik Omhandler: Estimation, test af hypoteser, analyse af sammenhæng og forudsigelse.

Eksempel: Hvad er middel-indkomsten i

region nord? Er den større en 300.000?

Page 7: Statistik Lektion 1

Deskriptiv Statistik Data består af en eller flere variable, fx højde, køn, alder,

favoritfarve for hvert medlem i stikprøven.

Hvordan data (de enkelte variable) opsummeres / beskrives afhænger bl.a. datas ”natur”.

Hovedopdeling: Kategorisk eller numerisk variabel

Kvalitativ variabel: Variablens værdier er beskrivende, kategorisk variabel, forskelle giver ikke mening.

Kvantitative variable: Variablens værdier er målinger, numerisk variabel, forskelle giver mening.

Page 8: Statistik Lektion 1

Kategoriske variable

Variable hvis værdi er en kategori, fx. Ryger: Ja , Nej Godt vejr: Meget enig, devis enig, … , meget uenig Favoritfarve: Rød, grøn, anden

Ordinal kategorisk variabel (ordinal = ordnet)

Kategorierne har en rækkefølge (Godt vejr) Nominal kategorisk variabel (nominal =

navngiven) Kategorierne har ikke en rækkefølge (Favoritfarve)

Page 9: Statistik Lektion 1

Deskriptiv statistik: Kategoriske variable Kategorisk variable opsummeres typisk i et bar plot Højden af baren svarer til frekvensen (dvs. antallet) af

medlemmer af hver kategori.

-3 0 2 4 7 10 12

05

10

15

20

25

Page 10: Statistik Lektion 1

Numerisk Variabel Variabel der tager en talværdi.

Diskret numerisk variabel Variabel kan tage et tælleligt antal værdier Typisk udtryk for et antal Fx. antal forsikring-anmeldelser på en uge

Kontinuert numerisk variabel Variabel kan tage alle værdier i et interval Typisk udtryk for noget man kan måle. Fx. Højde, vægt, tid, afstand. Indkomst?

Page 11: Statistik Lektion 1

Histogram

Numeriske data præsenteres typisk med et histogram

Histogrammet inddeler et interval i et passende antal delintervaller

For hvert del interval er en kasse, hvis areal er proportional med frekvensen (dvs. antallet) af data i det interval.

Histogram of mitdata$vaegt

mitdata$vaegt

Fre

quency

40 60 80 100 120 1400

100

300

500

700

Page 12: Statistik Lektion 1

Percentiler Det P’te percentil er den værdi, hvor P% af data ligger

under. Antag vi har en stikprøve med n observationer. Antag observationerne er sorterede.

Den P’te percentil er (ca) givet ved den (n+1)P/100’te observation.

Eksempel: Antag n = 75 og P = 25. Find en værdi, så 25% af data ligger under denne værdi. Løsning: Vælg data punkt nr. 76*25/100 = 19

Page 13: Statistik Lektion 1

Kvartiler Kvartiler inddeler data i kvarte. 1. , 2. og 3. kvartil svarer til 25. , 50., og 75. percentiler.

25% af data ligger under 1. kvartil (Q1) 50% af data ligger under 2. kvartil (Q2) 75% af data ligger under 3. kvartil (Q3)

Histogram for vægt

mitdata$vaegtFre

quency

40 60 80 100 120 140

0100

300

500

700

Page 14: Statistik Lektion 1

Boxplot Et boxplot er en grafisk repræsentation af bl.a. kvartiler. Kassen angiver, hvor de midterste 50% af data ligger.

40

60

80

100

120

140

Højden på kassen er forskellen mellem 3. kvartil og 1. kvartil, den såkaldte Inter Quartile Range (IQR).

Knurhårene strækker sig ud til observationer, der ligger maks 1.5*IQR væk fra kassen.

Observationer, der ligger mere end 1.5*IQR borte kaldes outliers.

Medianen

3. kvartil

1. kvartil

IQR

max 1,5*IQR

Outlier

Page 15: Statistik Lektion 1

Centralitet og Variation

Centralitet: Mål for ”hvor” data ligger Fx: Median, middelværdi, toppunkt (mode)

Variation: Mål for hvor meget data er spredt ud Fx spænd (range), varians, standard afvigelse

χ χ χ χχ χ χ χ χ χ χχχ χ χ χ0 0

Page 16: Statistik Lektion 1

Centralitet: Median

Medianen er værdien af den ”midterste” observation. Medianen er 50% percentilen og 2. kvartil.

n ulige : Medianen = midterste observation n lige : Medianen = gennemsnit af to midterste

obs.

0 χ χχχ χ χ

medianen medianen ?

χ χ χχχ χ χ

Data: 7, 9, 11, 12, 13, 15, 17 n = 7

n = antal observationer

Page 17: Statistik Lektion 1

Gennemsnit / Middelværdi Populationsgennemsnit (ukendt) (mean)

xi er værdien for i ’te medlem i populationen. μ = ”my”

Stikprøve-gennemsnit (sample mean)

= ”x streg”. Bemærk: Græske bogstaver betegner det ukendte.

N

xxx

N

xN

N

i i 211

n

xxx

n

xx n

n

i i 211

x

Page 18: Statistik Lektion 1

Gennemsnit: Eksempel Stikprøve-gennemsnittet

Stikprøve-gennemsnittet

χ χ χχχ χ χ0

χ χχχ χ χ0

χ

n

xxx

n

xx n

n

i i 211

127

171513121197

x ?x

Page 19: Statistik Lektion 1

Eksempel: Vægt

Bemærk at vægt-fordelingen er lidt højre-skæv, dvs. fordelingen ”hælder” til højre.

▪ Minimum▪ 1. kvartil▪ Median▪ Gennemsnit▪ 3. kvartil▪ Maksimum▪ Antal manglende svar

Histogram for vægt

mitdata$vaegt

Fre

quency

40 60 80 100 120 140

0100

300

500

700

Page 20: Statistik Lektion 1

Variansen Variansen er et mål for variationen. Populationsvariansen (ukendt)

σ = ”sigma” Stikprøve-variansen

De n-1 sikrer at s2 i gennemsnit er lig σ2.

N

xN

i i

1

2

2

1

1

2

2

n

xxs

n

i i

Page 21: Statistik Lektion 1

Varians: Eksempel Stikprøve-gennemsnit

Stikprøve-gennemsnit

χ χ χχχ χ χ0

χ χχχ χ χ0

χ

67,1117

)1217()1215()1213()1212()1211()129()127( 22222222

s

1

1

2

2

n

xxs

n

i i

?

χ χ χχχ χ χ0

?

Page 22: Statistik Lektion 1

Standardafvigelsen Standardafvigelsen er kvadratroden af variansen Populationens standard afvigelsen (ukendt)

Stikprøve-standard afvigelsen

N

xN

i i

1

2

2

1

1

2

2

n

xxss

n

i i

Page 23: Statistik Lektion 1

R

Intro til R

Page 24: Statistik Lektion 1

R

Ifølge wikipedia: R er et open source statstikprogram og programmerings-

sprog introduceret i 1993. Seneste version er 2.12.1 R kan downloades på www.r-project.org R er i udgangspunktet uden peg-og-klik Mere end 2000 pakker (udvidelser a la et plugin) Senere skal vi bruge en pakke specielt til økonometri I det følgende tager vi udgangspunkt i Windows versionen.

Der eksisterer versioner til Mac og Linux.

Page 25: Statistik Lektion 1

Start R

Inden man starter R er det en god ide at lave en arbejds-mappe, hvor man samler data-filer og .R-filer (kommer vi til senere).

Når R så er startet, så brug File → Change dir… til at vælge arbejdsmappen.

Nu er vi klar!

Page 26: Statistik Lektion 1

Ændre default arbejdsmappe

Tilføj --sdi

Page 27: Statistik Lektion 1

Se data I min arbejdsmappe har jeg en data-fil der hedder

Sundby95.dat liggende. Hvis jeg åbner data-filen i Notepad ser den sådan ud:

Data består af 6 kolonner, der hver svarer til en variabel. Bemærk: Variabelnavnet står øverst i række! Luk Notepad igen – ellers går det bare galt ;-)

Page 28: Statistik Lektion 1

Hent data ind i R

Vi er nu klar til vores første kommando! På kommandolinjen skriv:

mitdata = read.table(”Sundby95.dat”, header=TRUE)

Dette læser data-filen ind i en tabel med navnet mitdata. Med tilføjelsen header=TRUE har vi angivet at variabel navnet

er angivet i øverste række i data-filen. Man kan se indholdet af tabellen mitdata, med flg. kommando:

fix(mitdata) Man kan få hjælp ved at skrive ?read.table

Page 29: Statistik Lektion 1

Sådan ser data ud

Tænk på tabellen som en matrix med navngivne søjler. Luk ’Data Editor’ vinduet for at komme videre

Page 30: Statistik Lektion 1

Et hurtigt overblik Man kan få en opsummering af tabellen vha.

summary(mitdata) Resultat:

For kategoriske variable: Frekvenser for hver kategori. For kvalitative variable: Mindste værdi, 1. kvartil, median,

middelværdi, 3. kvartil, største værdi, og antal manglende værdier.

NA = ”Not Available” – manglende observationer.

Page 31: Statistik Lektion 1

Den enkelte variabel.

Man kan se hvilke variable tabellen indeholder vha:

Vi vil se nærmere på vægt. Vi kan se indholdet af søjlen med navnet vaegt frem vha. mitdata$vaegt. Gør man det får man listet BMI for alle 2742 deltagere… lidt uoverskueligt!

Vi kan få et overblik over vægt vha.

Page 32: Statistik Lektion 1

Et par plot

Histogram

Boxplot

Histogram of mitdata$vaegt

mitdata$vaegt

Fre

quency

40 60 80 100 120 140

0100

300

500

700

40

60

80

100

120

140

Page 33: Statistik Lektion 1

Numeriske opsummeringer Middelværdi

Percentiler (0%, 25%, 50%, 75%, 100%)

Andre percentiler, fx. 5% og 95%

Standardafvigelsen

R vil ikke udregne gennemsnittet, når der mangler observationer.

Page 34: Statistik Lektion 1

Sandsynligheder

HændelserSandsynlighederRegler for sandsynligheder

Page 35: Statistik Lektion 1

Udgangspunktet Eksperiment:

Handling, der leder frem til et af flere mulige udfald Fx.

Kast med en terning Vælg 10 tilfældige virksomheder.

Udfald: Observation eller måling Fx:

Antal øjne på en terning 10 navngivne virksomheder.

Page 36: Statistik Lektion 1

Udfaldsrum Udfaldsrummet er mængden af mulige udfald af

eksperimentet, S = {O1,O2,…,Ok} Udfaldene skal være ”udtømmende”

Eksempler: Terningkast: S={1,2,3,4,5,6} S={1,2,3,4,5} dur

ikke! Møntkast: S={plat, krone} S={plat} dur ikke

Udfaldene må ikke ”overlappe” Terningkast: S={1,2,3,4,5,6} –

S={1-2,2-3,3-4,4-5,5-6} dur ikke!

Oi er i’te udfald af k mulige.

(exhaustive)

Page 37: Statistik Lektion 1

Hændelser En simpel hændelse er ett udfald i udfaldsrummet

Eksempel: Terningkast – en 6’er er en simpel hændelse

En hændelse er en delmængde af udfaldsrummet. En hændelse består typisk af mange udfald. Eksempel: Terningkast : A={1,4,6} er en hændelse

Hændelser kan indtegnes i et Venn diagram

2,3,5

A

1, 4, 6

S

Venn Diagram

Page 38: Statistik Lektion 1

Sandsynlighed En sandsynlighed er et kvantitativt mål for usikkerhed – et mål

der udtrykker styrken af vores tro på forekomsten af en usikker begivenhed.

Sandsynligheden for en hændelse, A, betegnes P(A)

En sandsynlighed er et reelt tal mellem 0 og 1. P(A) = 0 : Hændelsen A sker aldrig P(A) = 1 : Hændelsen A sker altid

Ex: Sandsynligheden for regn i morgen er 0,5 Ex: Sandsynligheden for at få 7 rigtige i lotto er 0,000000001

Page 39: Statistik Lektion 1

Klassisk Sandsynlighed Antag at alle udfald forekommer med lige stor sand-

synlighed. Da er sandsynligheden for en hændelse A givet ved:

hvor NA er antal udfald i hændelsen A. N er antal udfald i udfaldsrummet S.

Eksempel: Terningkast – lige sandsynlighed for alle udfald. Lad A={1,2,4} NA = 3 N = 6 P(A) = 3/6 = 0.5

N

NAP A

Page 40: Statistik Lektion 1

AO

i

i

OPAP )()(

Givet et udfaldsrum S={O1, O2,…, Ok} da skal sandsynlighederne opfylde:

1) For enhver hændelse A i udfaldsrummet S

Dvs. sandsynligheden for en hændelse er et tal mellem 0 og 1.

2) For enhver hændelse A i udfaldsrummet S

Dvs. sandsynligheden for en hændelse er summen af sandsynlighederne for de simple hændelser indeholdt i A.

3) P(S) = 1 Dvs summen af sandsynlighederne for alle simple hændelser i

ufaldsrummet er 1.

Regler for sandsynlighed

1)(0 AP

Page 41: Statistik Lektion 1

Komplimentærmængden Komplementet af en mængde A, er mængden Ā, der

indeholder alle elementer i S, der ikke er i A. Eksempel: S={1,2,3,4,5,6} og A={1,4,6}. Så er

Ā={2,3,5}

Spørgsmål: Antag vi kender P(A) . Find P(Ā) =

2,3,5

A

1, 4, 6

Ā

S

Page 42: Statistik Lektion 1

Fællesmængden Fællesmængden af A og B, A ∩ B, er mængden, der

indeholder de elementer, der er i både A og B

Eksempel: A = {1,2,3} , hændelsen at vi slår 1,2 eller 3 øjne. B = {3,4,5} , hændelsen at vi slår 3,4 eller 5 øjne. A ⋂ B , hændelsen at både A og B indtræffer. A ⋂ B = {3}

6

A ∩ B1, 2 4, 5

A BS

3

Page 43: Statistik Lektion 1

Foreningsmængden Foreningsmængden af A og B, A U B, er mængden, der

indeholder de elementer, der er i A eller B eller begge

Eksempel: A = {1,2,3} , hændelsen at vi slår 1,2 eller 3 øjne. B = {3,4,5} , hændelsen at vi slår 3,4 eller 5 øjne. A ⋃ B , hændelsen at A og/eller B indtræffer. A ⋃ B = {1,2,3,4,5}

1, 2 4, 56

A B

S

3A U B

Page 44: Statistik Lektion 1

Spørgsmål

Antag vi kender følgende sandsynlighed P(A) P(B) P(A ⋂ B)

Hvad er sandynligheden for A ⋃ B P(A ⋃ B ) =

6

A ∩ B1, 2 4, 5

A BS

3

Page 45: Statistik Lektion 1

Den tomme mængde

Den tomme mængde betegnes Ø P(Ø) = To mængder er disjunkte, hvis fællesmængden A ∩ B=Ø

Dvs to disjunkte hændelser ikke kan indtræffe på samme tid (mutually exclusive).

Antag A ∩ B=Ø. Hvad er da P(A ⋃ B) = ?

1, 2, 3 4, 56

A BS

A={1,2,3}B={4,5}A ∩ B={Ø}