Upload
lani-blevins
View
30
Download
1
Embed Size (px)
DESCRIPTION
Statistik 1 – Lektion 5. By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen. Sidste kursusgang. Tilpasset determinationskoefficient. Estimering af værdier for den afhængige variabel kontrolleret for uafhængige variable. - PowerPoint PPT Presentation
Citation preview
Statistik 1 – Lektion 5
By, energi & miljø, forår 2010v. Morten Skou Nicolaisen
Sidste kursusgang
o Tilpasset determinationskoefficient.o Estimering af værdier for den afhængige variabel
kontrolleret for uafhængige variable.o Grafisk fremstilling af kontrolleret sammenhæng
mellem afhængig og uafhængig variabel.o Dummy variable.o Kontrol af linearitetsforudsætninger.o Multikollinearitet.o Interaktionsled.o Additive indeks.
Denne kursusgang
o Logistisk regression.
o Repetition/opgaver.
o Miniprojekt.
Logistisk (binær) regression
Afhængig variabel Dikotom (med kun 2 værdier)
Med flere end 2 værdier Nominal-niveau
Ordinal-niveau
Interval- og forholdstalsniveau
Uaf-hæn- gig varia-bel
Dikotom (med kun 2 værdier)
Binær logistisk regression
Multinominal logistisk regression
Lineær regression
Med flere end 2 værdier
Nominalniveau
Binær logistisk regression med dummy-variabler
Multinominal logistisk regression
Lineær regression med dummy-variabler
Ordinalniveau
Binær logistisk regression med dummy-variabler
Multinominal logistisk regression
Lineær regression med dummy-variabler
Interval- og forholdstals-niveau
Binær logistisk regression
Multinominal logistisk regression
Lineær regression
Oversigt over muligheder til at benytte regressionsanalyse ved forskellige måleniveauer på den uafhængige og den afhængige variabel.
Logistisk regression
Bruges til dikotome variable, hvor OLS ikke giver mening.
Logistisk regression
Dikotome variable kan kun antage værdierne 0 og 1. Vi kan dog betragte værdier mellem 0 og 1 som et udtryk for, hvor sandsynligt det er, at den afhængige variabel antager værdien 1, ud fra værdien af den uafhængige variabel. Denne sammenhæng er dog sjældent lineær, og vores alm. lineære regression giver også værdier udenfor dette interval, der ikke kan tolkes på denne måde. Det giver f.eks. ikke mening, at der er 112% sandsynlighed for, at man har foretaget en erhvervsrejse.
Logistisk regression
Logistisk regression
o Odds:• Angiver hvor stor sandsynligheden er for at et
fænomen finder sted, i forhold til sandsynligheden for at det ikke finder sted.
• Odds = p/(1-p), hvor p=sandsynlighed.• Fjerner den øvre grænse for variablen.
o Logit (log-odds):• Angiver logaritmen til odds.• Logit = ln(odds) = a1x1+a2x2+…+anxn+b• Fjerner den nedre grænse for variablen.
Logistisk regressiono Den logistiske regressionsmodel giver altså ikke
sandsynlighederne for, om den afhængige variabel antager værdien 1. Den angiver logiten for disse sandsynligheder.
o Vi skal derfor omregne regressionskoefficienterne til sandsynligheder, ved at bruge de inverse formler for logit og odds (SPSS kan også udregne disse direkte i regressionsanalysen).• Logit: ln(p/(1-p)) = a1x1+a2x2+…+anxn+b
• Odds: p/(1-p) = Exp(a1x1+a2x2+…+anxn+b)
• Sandsynlighed: p = 1/(1+Exp(-(a1x1+a2x2+…+anxn+b)))
Eksempel 1
o Vi vil se på sammenhængen mellem erhvervsrejser (erhvrejs) og årlig personlig indkomst (persind2), med erhvervsrejser som den afhængige variabel.
o Vi laver en (binær) logistisk regression, og vælger at gemme de estimerede sandsynligheder (vælg save>probabilities i menuen til binær logistisk regression).
o Vi plotter nu den nye variabel (PRE_1 el. Predicted Probability) mod indkomst (persind2) i et spredningsdiagram.
Eksempel 1
o Vi vil se på sammenhængen mellem erhvervsrejser (erhvrejs) og årlig personlig indkomst (persind2), med erhvervsrejser som den afhængige variabel.
o Vi laver en (binær) logistisk regression, og vælger at gemme de estimerede sandsynligheder (vælg save>probabilities i menuen til binær logistisk regression).
o Vi plotter nu den nye variabel (PRE_1 el. Predicted Probability) mod indkomst (persind2) i et spredningsdiagram.
Opsummering af kursets indhold
o Statistik som redskab.o Centraltendens.o Spredning.o Omkodning.o Stikprøve vs. population.o Korrelation.o Konfidensinterval.o Signifikans.o Lineær regression.o Logistisk regression.
Opgave 1o En undersøgelse blandt 879 tilfældigt udvalgte
respondenter i Aalborg har vist, at 77% af borgerne ønsker en 3. Limfjordsforbindelse. Beregn et 95% konfidensinterval for dette resultat.
o I en tidligere undersøgelse blandt 916 respondenter var det kun 72% af borgerne, der ønskede forbindelsen. Politikerne har derfor udtalt, at den nye undersøgelse er et udtryk for, at de voksende trængselsproblemer har øget efterspørgslen på en 3. Limfjordsforbindelse blandt byens borgere. Er denne tolkning korrekt?
Opgave 2
o Foretag en krydstabulering af respondenternes køn (koen) og deres bilafhængighed (bilafh). Er der nogen sammenhæng at spore?
o Udvid tabellen med en kontrolvariabel for yngre og ældre respondenter (alder2). Ser respondenternes bilafhængighed ud til at være influeret af alder? Er der forskelle mellem alderens indflydelse for mænd og kvinder?
Opgave 3o Udfør en multipel regressionsanalyse af følgende uafhængige variablers
effekter på den samlede rejselængde med bil i løbet af ugens hverdage (bilhverd):o Boligens ikke-lineært målte beliggenhed i forhold til Københavns centrum (aftstfun).o Uddannelseslængde (skoleaar).o Personlig årsindtægt (persind2).o Hvorvidt respondenten er erhvervsaktiv (erhvakt).o Hvorvidt tjenesterejser indgår som en del af den rapporterede rejselængde (erhvrejs).o Alder, målt som den transformerede variabel, der angiver hvor tæt på 50 år respondenten
er (alder3) .
o Respondenter med ekstreme rejselængder skal udelades fra analysen.o Hvilke variable har de stærkeste sammenhænge med rejselængden i løbet af
ugens hverdage?o Udfør en ny regression, hvor statistisk insignifikante variable sorteres fra med
backward metoden. Hvad sorteres fra?o Udfør samme analyse igen, men denne gang på hhv. mænd og kvinder. Hvilke
kønsspecifikke forskelle kan vi se ud fra disse resultater?
Opgave 4o Undersøg om der er problemer med multikollinearitet,
fejlledenens gennemsnit, fordeling og evt. autokorrelation i regressionsanalysen fra opgave 3. Der skal ikke opdeles efter køn længere, men ekstreme rejselængder med bil skal stadig undlades fra analysen.
o Find gennemsnittene for de uafhængige variable i regressionsanalysen.
o Brug disse gennemsnit til at beregne de forventede rejselængder med bil ud fra boligens afstand til Københavns centrum (afsfun), hvor der kontrolleres for de andre uafhængige variable.
o Brug et spredningsdiagram til at illustrere sammenhængen mellem forventet rejselængde og boligens afstand til centrum (målt i km)