Upload
odelia-achziger
View
117
Download
4
Embed Size (px)
Citation preview
Analysekategorialer
Variablen
Katrin OehlkersHelke Neuendorff
Tobias Schiller
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Gliederung
1. Einführung2. Das lineare Logit-Modell3. Anwendungsbeispiel4. Zum loglinearen Modell
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
1.Einführung
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Skalenniveaus
Kategoriale Variablen(topologisch / qualitativ)
Metrische Variablen(quantitativ)
Nominal Ordinal Intervall RationalRelationen = ≠ = ≠
< >= ≠< >+ -
= ≠< >+ -x /
Beispiele FamilienstandGeschlecht
SchulnotenRangfolgen
Temperaturin °C
EinkommenGröße
Ta . 1: b Variablentyp en na chSkalenniveaus (na chROSNER 2001, S. 10)
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Skalenniveaus
Kategoriale Variablen(topologisch / qualitativ)
Metrische Variablen(quantitativ)
Nominal Ordinal Intervall RationalRelationen = ≠ = ≠
< >= ≠< >+ -
= ≠< >+ -x /
Beispiele FamilienstandGeschlecht
SchulnotenRangfolgen
Temperaturin °C
EinkommenGröße
Ta . 1: b Variablentyp en na chSkalenniveaus (na chROSNER 2001, S. 10)
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Skalenniveaus
Kategoriale Variablen(topologisch / qualitativ)
Metrische Variablen(quantitativ)
Nominal Ordinal Intervall RationalRelationen = ≠ = ≠
< >= ≠< >+ -
= ≠< >+ -x /
Beispiele FamilienstandGeschlecht
SchulnotenRangfolgen
Temperaturin °C
EinkommenGröße
Ta . 1: b Variablentyp en na chSkalenniveaus (na chROSNER 2001, S. 10)
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Skalenniveaus
Kategoriale Variablen(topologisch / qualitativ)
Metrische Variablen(quantitativ)
Nominal Ordinal Intervall RationalRelationen = ≠ = ≠
< >= ≠< >+ -
= ≠< >+ -x /
Beispiele FamilienstandGeschlecht
SchulnotenRangfolgen
Temperaturin °C
EinkommenGröße
Ta . 1: b Variablentyp en na chSkalenniveaus (na chROSNER 2001, S. 10)
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Skalenniveaus
Kategoriale Variablen(topologisch / qualitativ)
Metrische Variablen(quantitativ)
Nominal Ordinal Intervall RationalRelationen = ≠ = ≠
< >= ≠< >+ -
= ≠< >+ -x /
Beispiele FamilienstandGeschlecht
SchulnotenRangfolgen
Temperaturin °C
EinkommenGröße
Ta . 1: b Variablentyp en na chSkalenniveaus (na chROSNER 2001, S. 10)
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Skalenniveaus
Kategoriale Variablen(topologisch / qualitativ)
Metrische Variablen(quantitativ)
Nominal Ordinal Intervall RationalRelationen = ≠ = ≠
< >= ≠< >+ -
= ≠< >+ -x /
Beispiele FamilienstandGeschlecht
SchulnotenRangfolgen
Temperaturin °C
EinkommenGröße
(nac h ROSNER 2001, S. 10)
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Skalenniveaus
Kategoriale Variablen(topologisch / qualitativ)
Metrische Variablen(quantitativ)
Nominal Ordinal Intervall RationalRelationen = ≠ = ≠
< >= ≠< >+ -
= ≠< >+ -x /
Beispiele FamilienstandGeschlecht
SchulnotenRangfolgen
Temperaturin °C
EinkommenGröße
(nac h ROSNER 2001, S. 10)
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Skalenniveaus
Kategoriale Variablen(topologisch / qualitativ)
Metrische Variablen(quantitativ)
Nominal Ordinal Intervall RationalRelationen = ≠ = ≠
< >= ≠< >+ -
= ≠< >+ -x /
Beispiele FamilienstandGeschlecht
SchulnotenRangfolgen
Temperaturin °C
EinkommenGröße
(nac h ROSNER 2001, S. 10)
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Skalenniveaus
Kategoriale Variablen(topologisch / qualitativ)
Metrische Variablen(quantitativ)
Nominal Ordinal Intervall RationalRelationen = ≠ = ≠
< >= ≠< >+ -
= ≠< >+ -x /
Beispiele FamilienstandGeschlecht
SchulnotenRangfolgen
Temperaturin °C
EinkommenGröße
(nac h ROSNER 2001, S. 10)
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Skalenniveaus
Kategoriale Variablen(topologisch / qualitativ)
Metrische Variablen(quantitativ)
Nominal Ordinal Intervall RationalRelationen = ≠ = ≠
< >= ≠< >+ -
= ≠< >+ -x /
Beispiele FamilienstandGeschlecht
SchulnotenRangfolgen
Temperaturin °C
EinkommenGröße
(nac h ROSNER 2001, S. 10)
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Merkmale kategorialer Variablen:• dichotome Variablen
• polytome Variablen
Zwei Ausprägungenz.B. Variable „Geschlecht“ = männlich/weiblich
Mehrere Ausprägungenz.B. Variable „Verkehrsmittel“ = Bus/Bahn/Auto/Fahrrad/Fußgänger
• können nur endlich viele Werte annehmen
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Typen statistischer Zusammenhänge:
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Typen statistischer Zusammenhänge:
Abhängige Unabhängige VariablenVariablen alle metrisch gemischt kategorial keine
metrischMultiple
Regressions-analyse
MultipleRegressions-
analyse
Varianz-analyse
Korrelations-/Faktorenanalyse
kategorial Logit-Modell Logit-ModellLogit-Modell &
LoglinearesModell
LoglinearesModell
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Typen statistischer Zusammenhänge:
Abhängige Unabhängige VariablenVariablen alle metrisch gemischt kategorial keine
metrischMultiple
Regressions-analyse
MultipleRegressions-
analyse
Varianz-analyse
Korrelations-/Faktorenanalyse
kategorial Logit-Modell Logit-ModellLogit-Modell &
LoglinearesModell
LoglinearesModell
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Typen statistischer Zusammenhänge:
Abhängige Unabhängige VariablenVariablen alle metrisch gemischt kategorial keine
metrischMultiple
Regressions-analyse
MultipleRegressions-
analyse
Varianz-analyse
Korrelations-/Faktorenanalyse
kategorial Logit-Modell Logit-ModellLogit-Modell &
LoglinearesModell
LoglinearesModell
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Typen statistischer Zusammenhänge:
Abhängige Unabhängige VariablenVariablen alle metrisch gemischt kategorial keine
metrischMultiple
Regressions-analyse
MultipleRegressions-
analyse
Varianz-analyse
Korrelations-/Faktorenanalyse
kategorial Logit-Modell Logit-ModellLogit-Modell &
LoglinearesModell
LoglinearesModell
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Typen statistischer Zusammenhänge:
Abhängige Unabhängige VariablenVariablen alle metrisch gemischt kategorial keine
metrischMultiple
Regressions-analyse
MultipleRegressions-
analyse
Varianz-analyse
Korrelations-/Faktorenanalyse
kategorial Logit-Modell Logit-ModellLogit-Modell &
LoglinearesModell
LoglinearesModell
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Typen statistischer Zusammenhänge:
Abhängige Unabhängige VariablenVariablen alle metrisch gemischt kategorial keine
metrischMultiple
Regressions-analyse
MultipleRegressions-
analyse
Varianz-analyse
Korrelations-/Faktorenanalyse
kategorial Logit-Modell Logit-ModellLogit-Modell &
LoglinearesModell
LoglinearesModell
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Typen statistischer Zusammenhänge:
Abhängige Unabhängige VariablenVariablen alle metrisch gemischt kategorial keine
metrischMultiple
Regressions-analyse
MultipleRegressions-
analyse
Varianz-analyse
Korrelations-/Faktorenanalyse
kategorial Logit-Modell Logit-ModellLogit-Modell &
LoglinearesModell
LoglinearesModell
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Typen statistischer Zusammenhänge:
Abhängige Unabhängige VariablenVariablen alle metrisch gemischt kategorial keine
metrischMultiple
Regressions-analyse
MultipleRegressions-
analyse
Varianz-analyse
Korrelations-/Faktorenanalyse
kategorial Logit-Modell Logit-ModellLogit-Modell &
LoglinearesModell
LoglinearesModell
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Typen statistischer Zusammenhänge:
Abhängige Unabhängige VariablenVariablen alle metrisch gemischt kategorial keine
metrischMultiple
Regressions-analyse
MultipleRegressions-
analyse
Varianz-analyse
Korrelations-/Faktorenanalyse
kategorial Logit-Modell Logit-ModellLogit-Modell &
LoglinearesModell
LoglinearesModell
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
2. Das lineare Logit-Modell
€
Y =0 falls A < 0
1 falls A ≥ 0
⎧ ⎨ ⎩
(A als Ausprägungender unabhängigen Variable Y)
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
2.1 Lineare Regressionsgleichung
€
yj = α + βxj
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
(nach Rosner 2001: S. 59)
Lineare Regressionsgerade
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Lineare Regressionsgerade
(nach Rosner 2001: S. 59)
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Lineare Regressionsgerade
(nach Rosner 2001: S. 59)
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Lineare Regression
Die Regressionsgerade ist nurin einem beschränkten Bereichsinnvoll interpretierbar.
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
2.2 LinearesWahrscheinlichkeitsmodell
€
p1j =
0 für a + bxj < 0
ˆ y j für 0 ≤ a + bxj ≤ 1
1 für a + bxj >1
⎧
⎨ ⎪
⎩ ⎪
p1j = Wahrscheinlichkeit mit der Y fürX = xj den Wert 1 annimmt.
p0j = 1 - p1j = Wahrscheinlichkeit mit derY für X = xj den Wert 0 annimmt.
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Lineares Wahrscheinlichkeitsmodell
(nach Rosner 2001: S. 59)
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Lineares Wahrscheinlichkeitsmodell
(nach Rosner 2001: S. 59)
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Nachteile:
1. Schätzung in der Nähe der Extremwerte ungenau
2. Nicht erweiterbar auf den Fall, dass Y eine polytome Variable ist
3. Erfahrungsgemäß eher s-förmiger Kurvenverlauf
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
2.3 Logistisches Modell
€
y j = p1 j = α + βx j
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
2.3 Logistisches Modell
€
y j = p1 j = α + βx j
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
2.3 Logistisches Modell
€
p1 j =eα +βx j
1+1
eα +βx j
• Geht xj gegen oo, geht p1j gegen 1• Geht xj gegen –oo, geht p1j gegen 0
p1j kann nur noch Wertezwischen 1 und 0 annehmen!
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Logistisches Modell
(nach Rosner 2001: S. 60)
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Umformung:
€
p0 j =1− p1 j =1−eα +βx j
1+ e− α +βx j( )
=1+ eα +βx j − eα +βx j
1+ e− α +βx j( )=
1
1+ e− α +βx j( )
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Umformung:
€
p0 j =1− p1 j =1−eα +βx j
1+ e− α +βx j( )
=1+ eα +βx j − eα +βx j
1+ e− α +βx j( )=
1
1+ e− α +βx j( )
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Umformung:
€
p0 j =1− p1 j =1−eα +βx j
1+ e− α +βx j( )
=1+ eα +βx j − eα +βx j
1+ e− α +βx j( )=
1
1+ e− α +βx j( )
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Umformung:
€
p0 j =1− p1 j =1−eα +βx j
1+ e− α +βx j( )
=1+ eα +βx j − eα +βx j
1+ e− α +βx j( )=
1
1+ e− α +βx j( )
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Umformung:
€
p0 j =1− p1 j =1−eα +βx j
1+ e− α +βx j( )
=1+ eα +βx j − eα +βx j
1+ e− α +βx j( )=
1
1+ e− α +βx j( )
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
€
p =1
1+1
e(α +βx )
⋅(1+1
e(α +βx ))
p +p
e(α +βx )=1 −p
p
e(α +βx )=1− p ⋅e(α +βx )
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
€
p =1
1+1
e(α +βx )
⋅(1+1
e(α +βx ))
p +p
e(α +βx )=1 −p
p
e(α +βx )=1− p ⋅e(α +βx )
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
€
p =1
1+1
e(α +βx )
⋅(1+1
e(α +βx ))
p +p
e(α +βx )=1 −p
p
e(α +βx )=1− p ⋅e(α +βx )
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
€
p = (1− p) ⋅(eα +βx ) ⋅1
1− p
p
1− p= eα +βx ln
lnp
1− p= α + βx
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
€
p = (1− p) ⋅(eα +βx ) ⋅1
1− p
p
1− p= eα +βx ln
lnp
1− p= α + βx
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
€
p = (1− p) ⋅(eα +βx ) ⋅1
1− p
p
1− p= eα +βx ln
lnp
1− p= α + βx
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
€
p = (1− p) ⋅(eα +βx ) ⋅1
1− p
p
1− p= eα +βx ln
lnp
1− p= α + βx
Logit
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Logit-Transformation
€
lnp
1− p
€
L = α + βx
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
3. Anwendungsbeispiel: Pendlerverhalten von Angestellten
STP:12 Angestellte
„Gelangen Sie motorisiert oderzu Fuß an Ihren Arbeitsplatz?“
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Unabhängige Variable (X):Entfernung zum Arbeitsplatz• in kmAbhängige Variable (Y):Wahl des Verkehrsmittels• „zu Fuß“: 0• „motorisiert“: 1
Fragestellung:
Welchen Einfluss übt die Entfernungzum Arbeitsplatz auf dieWahl des Verkehrsmittels aus?
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
K 1 2 3 4 5 6 7 8 9 10 11 12
Entfernung (km)
Verkehrsmittels
x´k
y´k
0,5 0,7 1,0 1,3
0 0 1 0
1,5 2,0 2,2 2,3
0 1 1 0
2,7 3,0 3,2 3,4
1 0 1 1
„km – Gruppen“ i 1 2 3Anteil derAusprägungeni. d. jew. Km -Gruppe
xi
pi
1
1/4
2
2/4
3
3/4
Ergebnistabelle:
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
K 1 2 3 4 5 6 7 8 9 10 11 12Entfernung (km)
Verkehrsmittels:
x´k
y´k
0,5 0,7 1,0 1,3
0 0 1 0
1,5 2,0 2,2 2,3
0 1 1 0
2,7 3,0 3,2 3,4
1 0 1 1
(nach Hartung 1995)
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Lineare Regression:
€
y = α + βx
y = 0,0179 + 0,243x
(nach Hartung 1995)
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Logit-Modell:
€
p =1
1+1
e(α +βx )
lnp
1− p= α + βx
Für die Ausprägungen p=0 und p=1gibt es keine Lösung.Deshalb Berechnung der Logits!
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Berechnung der Logits:
€
gilg t = ln
ˆ p i1− ˆ p i
g1lg t = ln
0,25
1− 0,25
= ln1
3= −1,0986
g2lg t = 0
g3lg t =1,0986
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
K 1 2 3 4 5 6 7 8 9 10 11 12Entfernung z.Arbeitsplatz inkm:Wahl desVerkehrsmittels:
x´k
y´k
0,5 0,7 1,0 1,3
0 0 1 0
1,5 2,0 2,2 2,3
0 1 1 0
2,7 3,0 3,2 3,4
1 0 1 1
„km – Gruppen“ i 1 2 3Anteil derAusprägungeni. d. jew. Km -Gruppe
xi
pi
1
1/4
2
2/4
3
3/4
Berechnung der Logits:
€
gilg t = ln
ˆ p i1− ˆ p i
g1lg t = ln
0,25
1− 0,25
= ln1
3= −1,0986
g2lg t = 0
g3lg t =1,0986
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Berechnung der Logits:
€
gilg t = ln
ˆ p i1− ˆ p i
g1lg t = ln
0,25
1− 0,25
= ln1
3= −1,0986
g2lg t = 0
g3lg t =1,0986
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Berechnung der Logits:
€
gilg t = ln
ˆ p i1− ˆ p i
g1lg t = ln
0,25
1− 0,25
= ln1
3= −1,0986
g2lg t = 0
g3lg t =1,0986
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Regressionsgerade der Logits
(1/-1,0986)
(3/1,0986)
(2/0)
(nach Hartung 1995)
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Berechnung derRegressionsgerade der Logits
€
y = b + ax
a =y1 − y2
x1 − x2
=1,0986
b = y2 −y1 − y2
x1 − x2
⋅ x2 = −2,1972
ˆ g lg t = −2,1972 +1,0986 ⋅ x
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Berechnung derRegressionsgerade der Logits
€
y = b + ax
a =y1 − y2
x1 − x2
=1,0986
b = y2 −y1 − y2
x1 − x2
⋅ x2 = −2,1972
ˆ g lg t = −2,1972 +1,0986 ⋅ x
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Berechnung derRegressionsgerade der Logits
€
y = b + ax
a =y1 − y2
x1 − x2
=1,0986
b = y2 −y1 − y2
x1 − x2
⋅ x2 = −2,1972
ˆ g lg t = −2,1972 +1,0986 ⋅ x
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Berechnung derRegressionsgerade der Logits
€
y = b + ax
a =y1 − y2
x1 − x2
=1,0986
b = y2 −y1 − y2
x1 − x2
⋅ x2 = −2,1972
ˆ g lg t = −2,1972 +1,0986 ⋅ x
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Lösung:Ergebnisse einsetzen in Formel
des Logit-Modells
€
p =1
1+ e−(α +βx )
p =1
1+ e−(−2,1972+1,0986x )
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Fragestellung:
Wieviele Pendler benutzen bei einerDistanz von 4km zum Arbeitsplatzein motorisiertes Verkehrsmittel?
€
p =1
1+ e−(−2,1972+1,0986⋅4 )
= 0,8999
90% benutzen ein Auto!
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
4. Das Loglineare Modell
Abhängige Unabhängige VariablenVariablen alle metrisch gemischt kategorial keine
metrischMultiple
Regressions-analyse
MultipleRegressions-
analyse
Varianz-analyse
Korrelations-/Faktorenanalyse
kategorial Logit-Modell Logit-ModellLogit-Modell &
LoglinearesModell
LoglinearesModell
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Stichworte zum loglinearen Modell
• bei mehr als zwei kategorialen Variablen
• Lösung mehrdimensionale Kontingenztabellen
• Fragestellung: Besteht überhaupt ein Zusammenhang zwischen Variablen? Wie stark ist dieser?
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Zusammenhang von
• Binnenwanderungssaldo
• Verstädterungsgrad
• Arbeitsplatzentwicklung
Beispiel:
negativ / schwach positiv / stark
niedrig / hoch
negativ / positiv
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Logit-Modell und Loglineares Modell
Logit-Modell etwa vergleichbar mit Regressionsanalyse
Loglineares Modell etwa vergleichbar mit Korrelationsanalyse
Analyse kategorialer Variablen Oehlkers • Neuendorff • Schiller
Ende.