29
LOGISTISCHE REGRESSION Datenauswertung

LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler

Embed Size (px)

Citation preview

Page 1: LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler

LOGISTISCHE REGRESSIONDatenauswertung

Page 2: LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler

Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler. SISS No. 3/2010. Stuttgart (http://elib.uni-stuttgart.de/opus/volltexte/2011/6018/)

Page 3: LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler

Wahrscheinlichkeiten Pi

0,01

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

0,99

𝑃 (𝑌 𝑖 )

Page 4: LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler

Wahrscheinlichkeiten und Gegenwahrscheinlichkeiten

iP

eitcheinlichkGegenwahrs

1

Pi 1-Pi

0,01 0,99

0,1 0,9

0,2 0,8

0,3 0,7

0,4 0,6

0,5 0,5

0,6 0,4

0,7 0,3

0,8 0,2

0,9 0,1

0,99 0,01

Page 5: LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler

Wahrscheinlichkeit P → Odds (Chancen)

𝑂𝑑𝑑𝑠 (𝑌 )= 𝑃(1−𝑃)

Page 6: LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler

Wahrscheinlichkeiten, Gegenwahrscheinlichkeiten

und Odds

Pi 1-Pi Odds

0,01 0,99 0,010

0,1 0,9 0,111

0,2 0,8 0,250

0,3 0,7 0,429

0,4 0,6 0,667

0,5 0,5 1,000

0,6 0,4 1,500

0,7 0,3 2,333

0,8 0,2 4,000

0,9 0,1 9,000

0,99 0,01 99,000

Odds

Page 7: LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler

Wahrscheinlichkeit P → Odds (Chancen)

Odds → Logits (logged odds)

𝑂𝑑𝑑𝑠 (𝑌 )= 𝑃(1−𝑃)

𝑙𝑜𝑔𝑖𝑡 (𝑌 )=ln𝑂𝑑𝑑𝑠 (𝑌 )

𝑙𝑜𝑔𝑖𝑡 (𝑌 )=ln( 𝑃(1− 𝑃) )

Page 8: LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler

Pi 1-Pi Odds Logit

0,01 0,99 0,010 -4,595

0,1 0,9 0,111 -2,197

0,2 0,8 0,250 -1,386

0,3 0,7 0,429 -0,847

0,4 0,6 0,667 -0,405

0,5 0,5 1,000 0,000

0,6 0,4 1,500 0,405

0,7 0,3 2,333 0,847

0,8 0,2 4,000 1,386

0,9 0,1 9,000 2,197

0,99 0,01 99,000 4,595

Wahrscheinlichkeiten, Gegenwahrscheinlich-

keiten, Odds und logged Odds (logits)

= ln ()

Page 9: LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler

Wahrscheinlichkeit p0 ≤ p ≤ 1

Page 10: LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler

Odds p/(1-p)0 ≤ p/(1-p) ≤ + ∞

Page 11: LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler

Logit ln(odds) = ln(p/(1-p))− ∞ ≤ ln(p/(1-p)) ≤ + ∞

Page 12: LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler

Wahrscheinlichkeit p0 ≤ p ≤ 1

Odds p/(1-p)0 ≤ p/(1-p) ≤ + ∞

Logit ln(odds) = ln(p/(1-p))− ∞ ≤ ln(p/(1-p)) ≤ + ∞

Page 13: LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler

Eigenschaften von Logarithmen (logged odds = logits)

Wahrschein-Lichkeit p Odds p(1-p) Logits ln(p/(1-p))

Ereignis P ist unwahr-scheinlicher als das Gegenereignis ¬P

0 < p < 0.5 0 < odds < 1 - ∞ < logit < 0

Gleichwahrschein-lichkeit von P und ¬P

p = 0.5 odds = 1 logit = 0

Ereignis P ist wahr-scheinlicher als das Gegenereignis ¬P

0.5 < p < 1 1 < odds < + ∞ 0 < logit < + ∞

Page 14: LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler

i

i

P

P

Oddslogit

1ln

ln

Pi Δ(Pi+0.1) Logit Δ(logit)

0,1 -2,197

0,2 0,1 -1,386 -0,811

0,3 0,1 -0,847 -0,539

0,4 0,1 -0,405 -0,442

0,5 0,1 0,000 -0,405

0,6 0,1 0,405 -0,405

0,7 0,1 0,847 -0,442

0,8 0,1 1,386 -0,539

0,9 0,1 2,197 -0,811

Wahrscheinlichkeiten, Gegenwahrscheinlich-

keiten, Odds und logged Odds (logits)

Page 15: LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler

Die logits sind eine lineare Funktion der Prädiktoren (unabhängigen Variablen).

Veränderung von X um eine Einheit der logit(Y) verändert sich um b

KKxbxbxbcY 2211)(logit

Page 16: LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler

Pointe:

Logistische Regressionsmodelle schätzen die lineare Wirkung der Prädiktoren auf logits (logarithmierten Odds) an Stelle der nichtlinearen Wirkung der Prädiktoren auf die Wahrscheinlichkeit eines Ereignisses.

Page 17: LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler

Aus den logits können wieder (vorhergesagte) Odds berechnet werden

KK xbxbxbc

Y

eY

eY

22111

1

)(odds

)(odds )(logit

Page 18: LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler

Interpretation der Regressionskoeffizienten in der logistischen Regression:Wenn die unabhängige Variablen x um eine Einheit steigt, verändert sich der Logit-Wert der abhängigen Variable y um b. Die Chance für (Y=1) verändert sich um den Faktor eb

Eb wird auch Effektkoeffizient genannt und ist eine odds ratio (Verhältnis der odds für x und x+1)

Page 19: LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler

Aus den logits können auch wieder (vorhergesagte) Wahrscheinlichkeiten berechnet werden

)1(

)()1(

2211

2211

KK

KK

xbxbxbc

xbxbxbc

e

eYP

Page 20: LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler

Logits, Odds und Wahrscheinlichkeiten

e iixbc

i

i

P

P 1

)1(

)(ii

ii

xbc

xbc

i e

eP

)(

)(i

i

logit

logit

e

eP i

1

Page 21: LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler

„It is important to understand that the probability, the odds, and the logit are three different ways of expressing exactly the same thing. … Of the three measures, the probability or the odds is probably the most easily understood. Mathematically, however, the logit form of the probability is the one that best helps us to analyze dichotomous dependent variables. (Menard 2010, p. 15)

Menard, Scott (2010). Logistic Regression. From Introductory to Advanced Concepts and Applications. Los Angeles, CA: Sage.

Page 22: LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler

Logit eLogit 1+eLogit Pi

-4,595 0,010 1,010 0,010

-2,197 0,111 1,111 0,100

-1,386 0,250 1,250 0,200

-0,847 0,429 1,429 0,300

-0,405 0,667 1,667 0,400

0,000 1,000 2,000 0,500

0,405 1,500 2,500 0,600

0,847 2,333 3,333 0,700

1,386 4,000 5,000 0,800

2,197 9,000 10,000 0,900

4,595 99,000 100,000 0,990

Logits und Wahrscheinlichkeiten

e ixbc

i

i

P

P 1

1

)1(

)(1

1

i

i

xbc

xbc

i e

eP

)1(

)(i

i

L

L

i e

eP

Page 23: LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler

Pointe:

Logistische Regressionsmodelle schätzen die lineare Wirkung der Prädiktoren auf logits (logarithmierten Odds) an Stelle der nichtlinearen Wirkung der Prädiktoren auf die Wahrscheinlichkeit eines Ereignisses.

Page 24: LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler

Die Beziehungen zwischen Prädiktoren und Logits, Odds und Wahrscheinlichkeiten

Logits linear additiv nicht intuitiv interpretierbarOdds linear multiplikativ intuitiv interpretierbarWahrscheinlichkeiten nicht linear multiplikativ intuitiv interpretierbar

Page 25: LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler

Von logits zu Odds im multivariaten Modell

22111ln xbxbc

P

P

eexbxbc

P

P22111

ln

eeexbxbc

P

P 2211

1

Page 26: LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler

-10 -9 -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 100

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1 Logistische Regression: Effekte unterschiedlicher Konstanten

-4-2024

P(y=

1)

Page 27: LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler

-10 -9 -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 100

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Logistische Regression: Effekte unterschiedlicher Koeffizienten

0,250,5124

Page 28: LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler

-10

-9 -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 100

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Logistische Regression: Effekte des Vorzeichens der Koeffizienten bei unterschiedlichen Konstanten

c=0 und b=0

c=-1 und b=0,5

c=1 und b=-0,25

c=0 und b=-0,5

c=0 und b=0,25

Page 29: LOGISTISCHE REGRESSION Datenauswertung. Jochen Mayerl und Dieter Urban, 2010. Binär-logistische Regression. Grundlagen und Anwendung für Sozialwissenschaftler

Der exponenzierte Koeffizient minus 1 und mit 100 multipliziert gibt an, um wie viel Prozent sich die Chancen (odds) verändern, wenn sich die unabhängige Variable um eine Einheit ändert.

1001

1001

*odds%

*%

be