Statistik 1 – Lektion 5

Statistik 1 – Lektion 5

By, energi & miljø, forår 2010v. Morten Skou Nicolaisen

Sidste kursusgang

o Tilpasset determinationskoefficient.o Estimering af værdier for den afhængige variabel

kontrolleret for uafhængige variable.o Grafisk fremstilling af kontrolleret sammenhæng

mellem afhængig og uafhængig variabel.o Dummy variable.o Kontrol af linearitetsforudsætninger.o Multikollinearitet.o Interaktionsled.o Additive indeks.

Denne kursusgang

o Logistisk regression.

o Repetition/opgaver.

o Miniprojekt.

Logistisk (binær) regression

Afhængig variabel Dikotom (med kun 2 værdier)

Med flere end 2 værdier Nominal-niveau

Ordinal-niveau

Interval- og forholdstalsniveau

Uaf-hæn- gig varia-bel

Dikotom (med kun 2 værdier)

Binær logistisk regression

Multinominal logistisk regression

Lineær regression

Med flere end 2 værdier

Nominalniveau

Binær logistisk regression med dummy-variabler


Lineær regression med dummy-variabler

Ordinalniveau

Binær logistisk regression med dummy-variabler


Lineær regression med dummy-variabler

Interval- og forholdstals-niveau

Binær logistisk regression


Lineær regression

Oversigt over muligheder til at benytte regressionsanalyse ved forskellige måleniveauer på den uafhængige og den afhængige variabel.

Logistisk regression

Bruges til dikotome variable, hvor OLS ikke giver mening.


Dikotome variable kan kun antage værdierne 0 og 1. Vi kan dog betragte værdier mellem 0 og 1 som et udtryk for, hvor sandsynligt det er, at den afhængige variabel antager værdien 1, ud fra værdien af den uafhængige variabel. Denne sammenhæng er dog sjældent lineær, og vores alm. lineære regression giver også værdier udenfor dette interval, der ikke kan tolkes på denne måde. Det giver f.eks. ikke mening, at der er 112% sandsynlighed for, at man har foretaget en erhvervsrejse.



o Odds:• Angiver hvor stor sandsynligheden er for at et

fænomen finder sted, i forhold til sandsynligheden for at det ikke finder sted.

• Odds = p/(1-p), hvor p=sandsynlighed.• Fjerner den øvre grænse for variablen.

o Logit (log-odds):• Angiver logaritmen til odds.• Logit = ln(odds) = a1x1+a2x2+…+anxn+b• Fjerner den nedre grænse for variablen.

Logistisk regressiono Den logistiske regressionsmodel giver altså ikke

sandsynlighederne for, om den afhængige variabel antager værdien 1. Den angiver logiten for disse sandsynligheder.

o Vi skal derfor omregne regressionskoefficienterne til sandsynligheder, ved at bruge de inverse formler for logit og odds (SPSS kan også udregne disse direkte i regressionsanalysen).• Logit: ln(p/(1-p)) = a1x1+a2x2+…+anxn+b

• Odds: p/(1-p) = Exp(a1x1+a2x2+…+anxn+b)

• Sandsynlighed: p = 1/(1+Exp(-(a1x1+a2x2+…+anxn+b)))

Eksempel 1

o Vi vil se på sammenhængen mellem erhvervsrejser (erhvrejs) og årlig personlig indkomst (persind2), med erhvervsrejser som den afhængige variabel.

o Vi laver en (binær) logistisk regression, og vælger at gemme de estimerede sandsynligheder (vælg save>probabilities i menuen til binær logistisk regression).

o Vi plotter nu den nye variabel (PRE_1 el. Predicted Probability) mod indkomst (persind2) i et spredningsdiagram.

Eksempel 1

o Vi vil se på sammenhængen mellem erhvervsrejser (erhvrejs) og årlig personlig indkomst (persind2), med erhvervsrejser som den afhængige variabel.

o Vi laver en (binær) logistisk regression, og vælger at gemme de estimerede sandsynligheder (vælg save>probabilities i menuen til binær logistisk regression).

o Vi plotter nu den nye variabel (PRE_1 el. Predicted Probability) mod indkomst (persind2) i et spredningsdiagram.

Opsummering af kursets indhold

o Statistik som redskab.o Centraltendens.o Spredning.o Omkodning.o Stikprøve vs. population.o Korrelation.o Konfidensinterval.o Signifikans.o Lineær regression.o Logistisk regression.

Opgave 1o En undersøgelse blandt 879 tilfældigt udvalgte

respondenter i Aalborg har vist, at 77% af borgerne ønsker en 3. Limfjordsforbindelse. Beregn et 95% konfidensinterval for dette resultat.

o I en tidligere undersøgelse blandt 916 respondenter var det kun 72% af borgerne, der ønskede forbindelsen. Politikerne har derfor udtalt, at den nye undersøgelse er et udtryk for, at de voksende trængselsproblemer har øget efterspørgslen på en 3. Limfjordsforbindelse blandt byens borgere. Er denne tolkning korrekt?

Opgave 2

o Foretag en krydstabulering af respondenternes køn (koen) og deres bilafhængighed (bilafh). Er der nogen sammenhæng at spore?

o Udvid tabellen med en kontrolvariabel for yngre og ældre respondenter (alder2). Ser respondenternes bilafhængighed ud til at være influeret af alder? Er der forskelle mellem alderens indflydelse for mænd og kvinder?

Opgave 3o Udfør en multipel regressionsanalyse af følgende uafhængige variablers

effekter på den samlede rejselængde med bil i løbet af ugens hverdage (bilhverd):o Boligens ikke-lineært målte beliggenhed i forhold til Københavns centrum (aftstfun).o Uddannelseslængde (skoleaar).o Personlig årsindtægt (persind2).o Hvorvidt respondenten er erhvervsaktiv (erhvakt).o Hvorvidt tjenesterejser indgår som en del af den rapporterede rejselængde (erhvrejs).o Alder, målt som den transformerede variabel, der angiver hvor tæt på 50 år respondenten

er (alder3) .

o Respondenter med ekstreme rejselængder skal udelades fra analysen.o Hvilke variable har de stærkeste sammenhænge med rejselængden i løbet af

ugens hverdage?o Udfør en ny regression, hvor statistisk insignifikante variable sorteres fra med

backward metoden. Hvad sorteres fra?o Udfør samme analyse igen, men denne gang på hhv. mænd og kvinder. Hvilke

kønsspecifikke forskelle kan vi se ud fra disse resultater?

Opgave 4o Undersøg om der er problemer med multikollinearitet,

fejlledenens gennemsnit, fordeling og evt. autokorrelation i regressionsanalysen fra opgave 3. Der skal ikke opdeles efter køn længere, men ekstreme rejselængder med bil skal stadig undlades fra analysen.

o Find gennemsnittene for de uafhængige variable i regressionsanalysen.

o Brug disse gennemsnit til at beregne de forventede rejselængder med bil ud fra boligens afstand til Københavns centrum (afsfun), hvor der kontrolleres for de andre uafhængige variable.

o Brug et spredningsdiagram til at illustrere sammenhængen mellem forventet rejselængde og boligens afstand til centrum (målt i km)

Documents

Statistik 1 – Lektion 5