Logistische Regression
TU Chemnitz SoSe 2012
Seminar: Multivariate Analysemethoden 26.06.2012
Dozent: Dr. Thomas Schäfer
Referentinnen:
B. Sc. Psych. Cornelia Ullmann B. Sc. Psych. Claudia Mehlhorn
Ein Verfahren zum Schätzen von Wahrscheinlichkeiten
2 2 Gliederung
1. Einführung 2. Grundzüge der logistischen Regression 3. Der logistische Regressionsansatz 4. Ablauf einer logistischen Regression 5. Logistische Regression mit SPSS 6. Eine kurze Einführung in die
Diskriminanzanalyse
3 3 Gliederung
1. Einführung 2. Grundzüge der logistischen Regression 3. Der logistische Regressionsansatz 4. Ablauf einer logistischen Regression 5. Logistische Regression mit SPSS 6. Eine kurze Einführung in die
Diskriminanzanalyse
4 4 1. Einführung
Praxis:
¡ Frage nach der Wahrscheinlichkeit des Eintretens bestimmter Ereignisse ¡ z. B: Wahl in Griechenland:
Ereignis: Wahl/Nichtwahl der „Nea Dimokratia“
Einflussgrößen: Politische Einstellung, Konfession, Einstellung zur EU
beeinflussen beeinflussen
5
¡ Welche Ehen haben ein erhöhtes Scheidungsrisiko? ¡ Welche Familien bleiben dauerhaft von Sozialhilfe abhängig? ¡ Wie kann vorhergesagt werden, welche Kunden eine erhöhte
Kaufwahrscheinlichkeit für ein bestimmtes Produkt haben? ¡ Welche Kunden können als kreditwürdig eingeschätzt werden?
¡ Wie können die Unterschiede zwischen Wählern und Nichtwählern erklärt werden?
¡ Wie kann prognostiziert werden, ob ein Unternehmen wachsen wird?
1. Einführung
Weitere Anwendungsbeispiele:
¡ Kann die Musikpräferenz an Hand der Big Five eingeschätzt werden?
6 1. Einführung – unser Fragebogen
Kann die Musikpräferenz an Hand der Big Five eingeschätzt werden?
Demografische Angaben
• Alter • Geschlecht
• höchster Bildungsabschluss • berufliche Tätigkeit • Musikpräferenz:
Rock, Klassik, Pop, Jazz
• Instrument
„Ich bin tiefsinnig, denke gerne über Sachen nach.“
Big Five Inventory Kurzversion
• Rammstedt, B. & John, O. P. (2005)
• 21 Items
• 4 Items pro Merkmal
• 5 Items für Offenheit
• 5-‐stufige Antwortskala: sehr unzutreffend – sehr zutreffend
7 1. Einführung – unsere Stichprobe
Kann die Musikpräferenz an Hand der Big Five eingeschätzt werden?
nw = 97 nm = 20
N = 117 SD = 4.068 MW = 25.03
min = 19 max = 40
Alter
ja = 57 nein = 60
Jazz
8 8 Gliederung
1. Einführung 2. Grundzüge der logistischen Regression 3. Der logistische Regressionsansatz 4. Ablauf einer logistischen Regression 5. Logistische Regression mit SPSS 6. Eine kurze Einführung in die
Diskriminanzanalyse
9 9 2. Grundzüge der logistischen Regression
Ziel der logistischen Regression:
Ermittlung der Eintretenswahrscheinlichkeit eines Ereignisses in Abhängigkeit verschiedener
Einflussgrößen
10 10
Voraussetzungen Variablen:
Unabhängige Variablen Abhängige Variablen
metrisch kategorial dichotom multinomial
Binäre logistische Regression
Multinomiale logistische Regression
2. Grundzüge der logistischen Regression
11
Ja Nein
Extraversion Neurotizismus
Kann die Musikpräferenz an Hand der Big Five eingeschätzt werden?
Unabhängige Variable
Big Five
Abhängige Variable
Musikpräferenz
Verträglichkeit
Offenheit
Gewissenhaftigkeit
Voraussetzungen Variablen:
2. Grundzüge der logistischen Regression
12 12
Weitere Voraussetzungen:
• Beobachtungswerte der Gruppen der AV sollten sich nicht zu stark unterscheiden
• keine Multikollinearität: zwei oder mehr UVs korrelieren sehr stark miteinander: Toleranz = 1 – R²
• pro Ausprägung der AV: mindestens 25 Beobachtungen
• aussagekräftige Schätzungen ab 100 Beobachtungen pro Gruppe
2. Grundzüge der logistischen Regression
13
N = 117
Toleranz der UVs: 0.918 -‐ 0.988
ja = 57 nein = 60
13
Weitere Voraussetzungen:
25 Beobachtungen/
100 Beobachtungen
Beobachtungswerte der Gruppen der AV sollten sich nicht
zu stark unterscheiden
keine Multikollinearität
Kann die Musikpräferenz an Hand der Big Five eingeschätzt werden?
2. Grundzüge der logistischen Regression
14 14
Wahrscheinlichkeit in der binären logistischen Regression:
Ja: y = 1 Nein: y = 0
p(y = 1) p(y = 0) + = 1
dichotome abhängige Variable: Musikpräferenz
2. Grundzüge der logistischen Regression
15 15
Wie werden die Wahrscheinlichkeiten bestimmt?
Logistischer Regressionsansatz
2. Grundzüge der logistischen Regression
16 16 Gliederung
1. Einführung 2. Grundzüge der logistischen Regression 3. Der logistische Regressionsansatz 4. Ablauf einer logistischen Regression 5. Logistische Regression mit SPSS 6. Eine kurze Einführung in die
Diskriminanzanalyse
17 17 3. Der logistische Regressionsansatz
Warum eigentlich keine lineare Regression?
¡ Vorhersage der AV auf Basis der UV
¡ Ergebnis: empirischer Beobachtungswert
Lineare Regression
¡ Vorhersage der AV auf Basis der UV
¡ Ergebnis: Eintretens-‐wahrscheinlichkeit des empirischen Beobachtungswertes
(Binäre) Logistische Regression
18 18
Warum eigentlich keine lineare Regression?
3. Der logistische Regressionsansatz
Butterkauf(3) = -‐0.749 + 0.0003358 * 6000 = 1.54
Butterkauf(k) = -‐0.749 + 0.0003358 * 1300 = -‐0.04
19 19
Eintretenswahrscheinlichkeiten ermitteln – aber wie?
1. Annahme einer „nicht empirisch beobachtbaren latenten Variable“ Z
2. Wahrscheinlichkeitsfunktion: Logistische Funktion
3. Ergebnis: Der logistische Regressionsansatz
3. Der logistische Regressionsansatz
20 20
Eintretenswahrscheinlichkeiten ermitteln – aber wie?
1. Annahme einer „nicht empirisch beobachtbaren latenten Variable“ Z
2. Wahrscheinlichkeitsfunktion: Logistische Funktion p
3. Ergebnis: Der logistische Regressionsansatz
3. Der logistische Regressionsansatz
21 21
Eintretenswahrscheinlichkeiten ermitteln – aber wie?
1. Annahme einer „nicht empirisch beobachtbaren latenten Variable“ Z
Variable Z:
• Erzeugung der Ausprägung der AV in Abhängigkeit der UV à Herstellung der Verbindung zwischen UV und AV
Beispiel:
• UV: politische Einstellung, Konfession, Einstellung zur EU
• AV: Wahl/Nicht-‐Wahl der „Nea Dimokratia“
3. Der logistische Regressionsansatz
22 22
Eintretenswahrscheinlichkeiten ermitteln – aber wie?
1. Annahme einer „nicht empirisch beobachtbaren latenten Variable“ Z
• Erzeugung von Z in Abhängigkeit der Einflussgrößen:
Formal:
yk = 1 falls zk > 0
0 falls zk ≤ 0
Für die Person k ergibt sich: Wert der Person k für Z
Reg.-‐Konstante
Reg.-‐Gewichte der UV (= Logit-‐Koeffizienten)
Ausprägung der UV
zk = β0 + ∑ βj * xj,k J
J = 1
^
3. Der logistische Regressionsansatz
23 23
Eintretenswahrscheinlichkeiten ermitteln – aber wie?
1. Annahme einer „nicht empirisch beobachtbaren latenten Variable“ Z
2. Wahrscheinlichkeitsfunktion: Logistische Funktion p
3. Ergebnis: Der logistische Regressionsansatz
3. Der logistische Regressionsansatz
24 24
Eintretenswahrscheinlichkeiten ermitteln – aber wie?
2. Wahrscheinlichkeitsfunktion: Logistische Funktion p
• Z als Basis für die Ermittlung der logistischen Funktion p
Zweck der logistischen Funktion p:
• Treffen der Wahrscheinlichkeitsaussage: y = 1 oder y = 0 • Logistische Funktion p
p = 1
1 + e-‐z mit: e = 2,71828183 (Eulersche Zahl)
3. Der logistische Regressionsansatz
25 25
Eintretenswahrscheinlichkeiten ermitteln – aber wie?
1. Annahme einer „nicht empirisch beobachtbaren latenten Variable“ Z
2. Wahrscheinlichkeitsfunktion: Logistische Funktion p
3. Ergebnis: Der logistische Regressionsansatz
3. Der logistische Regressionsansatz
26 26
Eintretenswahrscheinlichkeiten ermitteln – aber wie?
3. Ergebnis: Der logistische Regressionsansatz
• Logistische Funktion als Basis für den logistischen Regressionsansatz
Zweck des logistischen Regressionsansatzes:
• Berechnung der Eintretenswahrscheinlichkeit des Ereignisses y = 1 • Logistische Regressionsgleichung:
pk(y = 1) = 1
1 + e-‐zk mit: e = 2,71828183 (Eulersche Zahl)
zk = β0 + ∑ βj * xj,k J
J = 1
^
3. Der logistische Regressionsansatz
27 27
Eintretenswahrscheinlichkeiten ermitteln – aber wie?
Wahrscheinlichkeitsverteilung für y = 1: • s-‐förmiger Verlauf • im Intervall [0,1] • symmetrisch um den Wendepunkt P(y=1) = 0.5
3. Ergebnis: Der logistische Regressionsansatz
3. Der logistische Regressionsansatz
28 28
Eintretenswahrscheinlichkeiten ermitteln – aber wie?
1. Annahme einer „nicht empirisch beobachtbaren latenten Variable“ Z
2. Wahrscheinlichkeitsfunktion: Logistische Funktion p
3. Ergebnis: Der logistische Regressionsansatz
Z erzeugt die Ausprägung der AV in Abhängigkeit der UV
Treffen der Wahrscheinlichkeitsaussage in
Abhängigkeit von Z
Berechnung der Eintretenswahrscheinlichkeit für y
= 1 mit Hilfe der logistischen Funktion
3. Der logistische Regressionsansatz
29 29 Gliederung
1. Einführung 2. Grundzüge der logistischen Regression 3. Der logistische Regressionsansatz 4. Ablauf einer logistischen Regression 5. Logistische Regression mit SPSS 6. Eine kurze Einführung in die
Diskriminanzanalyse
30 30 4. Ablauf einer logistischen Regression
1. Modellformulierung
2. Schätzung der logistischen Regressionsfunktion
3. Interpretation des Regressionskoeffizienten
4. Prüfung des Gesamtmodells
5. Prüfung der Merkmalsvariablen
31 31
Sachlogische Überlegungen zur Modellformulierung
1. Modellformulierung
Was sind meine Einflussgrößen?
Was sind meine abhängigen Variablen?
Was ist/sind meine Hypothese/n?
4. Ablauf einer logistischen Regression
32 32
2. Schätzung der logistischen Regressionsfunktion
Regressionskoeffizienten βj
Regressionskonstante β0
Maximum Likelihood-‐Methode
4. Ablauf einer logistischen Regression
33 33
2. Schätzung der logistischen Regressionsfunktion
Ziel der Maximum Likelihood-‐Methode:
Maximierung der Wahrscheinlichkeit die empirischen Beobachtungswerte zu erhalten
Zuordnungsvorschrift einer Person k zu y=1 oder y=0:
pk > 0.5 à y = 1
pk < 0.5 à y = 0
Ergebnis: Regressionsgleichung
zk = β0 + ∑ βj * xj,k J
J = 1
^
4. Ablauf einer logistischen Regression
34 34
3. Interpretation des Regressionskoeffizienten
Interpretation schwierig:
keine lineare Verknüpfung zwischen UV und Eintretenswahrscheinlichkeit
gleiche Veränderungen in der UV führen zu
unterschiedlichen Veränderungen der
Eintretenswahrscheinlichkeit
Regressionskoeffizienten sind nicht untereinander
vergleichbar
4. Ablauf einer logistischen Regression
35 35
Δ = 1 Δ = 1
Δ = 0.2
Δ = 0.07
4. Ablauf einer logistischen Regression
36 36
3. Interpretation des Regressionskoeffizienten
Einfluss der Regressionskonstante b0
Lage der logistischen Funktion
b0 > 0 à Verschiebung nach links
b0 < 0 à Verschiebung nach rechts
4. Ablauf einer logistischen Regression
Einfluss der Regressionskoeffizienten bj
Anstieg der logistischen Funktion
bj > 1 à steiler Anstieg
bj < 1 à flacher Anstieg
bj = 0 à p für Zuordnung = 0.5
37 37
3. Interpretation des Regressionskoeffizienten
4. Ablauf einer logistischen Regression
38 38
3. Interpretation des Regressionskoeffizienten positive bj & steigende Xj à p(y = 1) steigt
negative bj & steigende Xj
à p(y = 1) sinkt
4. Ablauf einer logistischen Regression
39 39
Eine Verbesserung von xj um eine Einheit erhöht die Eintretenswahrscheinlichkeit von yk nach Maßgabe des
Regressionskoeffizienten?
3. Interpretation des Regressionskoeffizienten
Nein: Kein linearer Zusammenhang zwischen der UV und der Eintretenswahrscheinlichkeiten.
4. Ablauf einer logistischen Regression
40 40
3. Interpretation des Regressionskoeffizienten
Die Schätzungen der Regressionskoeffizienten bj können als globales Maß für die Einflussstärke der Unabhängigen Variablen auf die Eintretenswahrscheinlichkeit gewertet
werden?
Nein: Die Regressionskoeffizienten beeinflussen den Anstieg der Wahrscheinlichkeitsverteilung.
4. Ablauf einer logistischen Regression
41 41
3. Interpretation des Regressionskoeffizienten
Lösung des Interpretationsproblems:
= Chance, das Ereignis y = 1 im Vergleich zum Ereignis y = 0 zu erhalten
Odds = p(y = 1)
1 -‐ p(y = 1)
wenn Odd = 4: Chance für p(y = 1) ist viermal höher als Chance für p(y = 0)
4. Ablauf einer logistischen Regression
42 42
3. Interpretation des Regressionskoeffizienten
Lösung des Interpretationsproblems:
ln(Odds) = p(y = 1)
1 -‐ p(y = 1) ln = Logits = zk = β0 + ∑ βj * xj,k
J
J = 1
^
Interpretation analog zur linearen Regression
4. Ablauf einer logistischen Regression
43 43
3. Interpretation des Regressionskoeffizienten
Beispiel -‐ Interpretation Odds:
zk = 3,528 – 1,943 * Streichfähigkeitk + 1,119 * Haltbarkeitk
• Streichfähigkeit reduziert die Kaufwahrscheinlichkeit für Margarine
• Haltbarkeit erhöht die Kaufwahrscheinlichkeit für Margarine
4. Ablauf einer logistischen Regression
44 44
3. Interpretation des Regressionskoeffizienten
Erweiterung der Interpretation:
= Wie groß ist die Einflussstärke der unabhängigen Variablen?
-‐ steigt die UV um eine Einheit, vergrößern sich die Odds zugunsten des Ereignisses y = 1 um den Faktor ebj
-‐ auch als Effekt-‐Koeffizient exp(b) bezeichnet
Odds Ratio = ebj
4. Ablauf einer logistischen Regression
45 45
3. Interpretation des Regressionskoeffizienten
Beispiel -‐ Interpretation Odds Ratio:
zk = 3,528 – 1,943 * Streichfähigkeitk + 1,119 * Haltbarkeitk
Erhöhung der Streichfähigkeit um eins à Verringerung der Odds um
0,143
Streichfähigkeit:
ebj = e(-‐1,943) = 0,143
Haltbarkeit:
ebj = e(1,119) = 3,062
Erhöhung der Haltbarkeit um eins à Steigerung der Odds um
3,062
4. Ablauf einer logistischen Regression
46 46
zwei wesentliche Fragen:
1. Wie gut können die Parameterschätzungen in ihrer Gesamtheit das definierte Regressionsmodell abbilden?
2. Liegen extreme Beobachtungsfälle vor, die als Ausreißer anzusehen sind und eine Eliminierung oder aber aufgrund ihres gehäuften Auftretens gegebenenfalls eine Modellveränderung erfordern?
4. Prüfung des Gesamtmodells (Gesamtfit)
4. Ablauf einer logistischen Regression
47 47
zwei wesentliche Fragen:
1. Wie gut können die Parameterschätzungen in ihrer Gesamtheit das definierte Regressionsmodell abbilden?
2. Liegen extreme Beobachtungsfälle vor, die als Ausreißer anzusehen sind und eine Eliminierung oder aber aufgrund ihres gehäuften Auftretens gegebenenfalls eine Modellveränderung erfordern?
4. Prüfung des Gesamtmodells (Gesamtfit)
4. Ablauf einer logistischen Regression
48 48
4. Prüfung des Gesamtmodells (Gesamtfit)
1. Wie gut können die Parameterschätzungen in ihrer Gesamtheit das definierte Regressionsmodell abbilden?
a) Gütekriterien auf Basis der LogLikelihood-‐Funktion
b) Pseudo-‐R-‐Quadrat-‐Statistiken
c) Beurteilung der Klassifikationsergebnisse
Wie gut tragen die unabhängigen Variablen zur Trennung der Kategorien y = 1 und y = 0 bei?
Allgemeine Fragestellung:
4. Ablauf einer logistischen Regression
49 49
4. Prüfung des Gesamtmodells (Gesamtfit)
a) Gütekriterien auf Basis der LogLikelihood-‐Funktion
i. Analyse der Devianz (des -‐2 LogLikelihood-‐Wertes)
ii. Likelihood-‐Ratio-‐Test
Kann das angenommene Regressionsmodell mehr als das Null-‐Modell erklären?
4. Ablauf einer logistischen Regression
a) Gütekriterien auf Basis der LogLikelihood-‐Funktion b) Pseudo-‐R-‐Quadrat-‐Statistiken c) Beurteilung der Klassifikationsergebnisse
50 50
4. Prüfung des Gesamtmodells (Gesamtfit)
a) Gütekriterien auf Basis der LogLikelihood-‐Funktion b) Pseudo-‐R-‐Quadrat-‐Statistiken c) Beurteilung der Klassifikationsergebnisse
i. Analyse der Devianz (des -‐2 LogLikelihood-‐Wertes)
= Abweichung vom Idealwert
• vergleichbar mit der Fehlerquadratsumme der klassischen Regressionsanalyse
• Hypothesen: • H0: Modell besitzt perfekte Anpassung.
• H1: Modell besitzt keine perfekte Anpassung.
• perfekter Modellfit:
• Likelihood von 1 • Devianz (-‐2LL) = 0
4. Ablauf einer logistischen Regression
51 51
4. Prüfung des Gesamtmodells (Gesamtfit)
a) Gütekriterien auf Basis der LogLikelihood-‐Funktion b) Pseudo-‐R-‐Quadrat-‐Statistiken c) Beurteilung der Klassifikationsergebnisse
i. Analyse der Devianz (des -‐2 LogLikelihood-‐Wertes)
Problem:
• Nichtberücksichtigung der Verteilung der Beobachtungen auf die Gruppen
• schiefe Verteilung eines Datensatzes à Modell wird besser bewertet
4. Ablauf einer logistischen Regression
52 52
4. Prüfung des Gesamtmodells (Gesamtfit)
a) Gütekriterien auf Basis der LogLikelihood-‐Funktion b) Pseudo-‐R-‐Quadrat-‐Statistiken c) Beurteilung der Klassifikationsergebnisse
ii. Likelihood-‐Ratio-‐Test
• statt: Vergleich des LL-‐Wertes mit 0 Vergleich LL-‐Wert mit dem Null-‐Modell LL0
• Vergleich der Devianz des LLv mit LL0
0 LLv LL0
maximal erreichbarer
LL-‐Wert
maximierter LL-‐Wert (alle
UVs)
maximierter LL-‐Wert (Null-‐
Modell)
Je größer Distanz, desto besser das Modell.
-‐ ∞
4. Ablauf einer logistischen Regression
53 53
4. Prüfung des Gesamtmodells (Gesamtfit)
a) Gütekriterien auf Basis der LogLikelihood-‐Funktion b) Pseudo-‐R-‐Quadrat-‐Statistiken c) Beurteilung der Klassifikationsergebnisse
ii. Likelihood-‐Ratio-‐Test
• Hypothesen: • H0: Alle Regressionskoeffizienten bj sind gleich Null.
• H1: Alle Regressionskoeffizienten bj sind ungleich Null.
• Grundlage: Chi-‐Quadrat-‐Verteilung
• wenn χ²emp > χ²theo à UVs haben bedeutenden Einfluss à H1 annehmen
4. Ablauf einer logistischen Regression
54 54
4. Prüfung des Gesamtmodells (Gesamtfit)
a) Gütekriterien auf Basis der LogLikelihood-‐Funktion b) Pseudo-‐R-‐Quadrat-‐Statistiken c) Beurteilung der Klassifikationsergebnisse
b) Pseudo-‐R-‐Quadrat-‐Statistiken
Wie viel Varianz kann durch das Regressionsmodell aufgeklärt werden?
i. McFaddens-‐R²
ii. Cox & Snell-‐R²
iii. Nagelkerke-‐R²
4. Ablauf einer logistischen Regression
55 55
4. Prüfung des Gesamtmodells (Gesamtfit)
a) Gütekriterien auf Basis der LogLikelihood-‐Funktion b) Pseudo-‐R-‐Quadrat-‐Statistiken c) Beurteilung der Klassifikationsergebnisse
i. McFaddens-‐R²
-‐ Vergleich des LLv und des LL0 – Modells
-‐ Trennkraft der UVs
-‐ [0,1]: 1 kann nicht erreicht werden
-‐ Werte ab 0,2/ 0,4: ok/gut
ii. Cox & Snell-‐R²
-‐ Verwendung der Likelihoods
-‐ Gewichtung an der Stichprobengröße
-‐ [0,0.75]: 1 kann nicht erreicht werden
-‐ Werte ab 0,2/ 0,4: ok/gut
iii. Nagelkerke-‐R²
-‐ Korrektur des Cox & Snell-‐R²: [0,1]
-‐ Verwendung der Likelihoods
-‐ Gewichtung an der Stichprobengröße
-‐ Werte ab 0,2/ 0,4: ok/gut
b) Pseudo-‐R-‐Quadrat-‐Statistiken
4. Ablauf einer logistischen Regression
56 56
4. Prüfung des Gesamtmodells (Gesamtfit)
a) Gütekriterien auf Basis der LogLikelihood-‐Funktion b) Pseudo-‐R-‐Quadrat-‐Statistiken c) Beurteilung der Klassifikationsergebnisse
c) Beurteilung der Klassifikationsergebnisse
Vergleich der empirisch beobachteten Gruppenzugehörigkeit mit den berechneten Wahrscheinlichkeiten
Yk = Gruppe y = 1 falls pk(y = 1) > 0,5
Gruppe y = 0 falls pk(y = o) < 0,5
Klassifikationsmatrix (= Confusion-‐Matrix)
4. Ablauf einer logistischen Regression
57 57
4. Prüfung des Gesamtmodells (Gesamtfit)
a) Gütekriterien auf Basis der LogLikelihood-‐Funktion b) Pseudo-‐R-‐Quadrat-‐Statistiken c) Beurteilung der Klassifikationsergebnisse
i. Trefferquote
ii. Press‘s Q-‐Test
iii. Hosmer-‐Lemeshow-‐Test
c) Beurteilung der Klassifikationsergebnisse
4. Ablauf einer logistischen Regression
58 58
4. Prüfung des Gesamtmodells (Gesamtfit)
a) Gütekriterien auf Basis der LogLikelihood-‐Funktion b) Pseudo-‐R-‐Quadrat-‐Statistiken c) Beurteilung der Klassifikationsergebnisse
i. Trefferquote
= Prozentsatz der richtigen Zuordnungen
• Vergleich mit der Trefferquote bei rein zufälliger Zuordnung
• Trefferquote des Modells > Trefferquote Zufalls
• Trefferquote meistens überschätzt à Holdout-‐Sample
4. Ablauf einer logistischen Regression
59 59
4. Prüfung des Gesamtmodells (Gesamtfit)
a) Gütekriterien auf Basis der LogLikelihood-‐Funktion b) Pseudo-‐R-‐Quadrat-‐Statistiken c) Beurteilung der Klassifikationsergebnisse
ii. Press‘s Q-‐Test
• dient der Klassifikationsprüfung • Hypothesen:
• H0: Die Klassifikationsergebnisse unterscheiden sich nicht von einer zufälligen Zuordnung.
• H1: Die Klassifikationsergebnisse unterscheiden sich von einer zufälligen Zuordnung.
• wenn Press‘s Q > χ²theor à Annahme H1
4. Ablauf einer logistischen Regression
60 60
4. Prüfung des Gesamtmodells (Gesamtfit)
a) Gütekriterien auf Basis der LogLikelihood-‐Funktion b) Pseudo-‐R-‐Quadrat-‐Statistiken c) Beurteilung der Klassifikationsergebnisse
iii. Hosmer-‐Lemeshow-‐Test
• Vergleich der vorhergesagten mit den beobachteten Werten
• Hypothesen:
• H0: Die Differenz zwischen vorhergesagten und beobachteten Werten ist Null.
• H1: Die Differenz zwischen vorhergesagten und beobachteten Werten ist ungleich Null.
• wenn χ²emp < χ²theor à Annahme H0
4. Ablauf einer logistischen Regression
61 61
4. Prüfung des Gesamtmodells (Gesamtfit)
1. Wie gut können die Parameterschätzungen in ihrer Gesamtheit das definierte
Regressionsmodell abbilden? a) Gütekriterien auf Basis der LogLikelihood-‐Funktion
i. Devianz
ii. Likelihood-‐Ratio-‐Test
Kann das angenommene Regressionsmodell mehr als das
Null-‐Modell erklären?
b) Pseudo-‐R-‐Quadrat-‐Statistiken
i. McFaddens-‐R²
ii. Cox & Snell-‐R²
iii. Nagelkerke-‐R²
Wie viel Varianz kann aufgeklärt werden?
c) Beurteilung der Klassifikationsergebnisse
i. Trefferquote
ii. Press‘s Q-‐Test
iii. Hosmer-‐Lemeshow-‐Test
Wie hoch ist die Übereinstimmung der empirisch beobachteten Werte
und der vorhergesagten Wahrscheinlichkeiten?
4. Ablauf einer logistischen Regression
62 62
zwei wesentliche Fragen:
1. Wie gut können die Parameterschätzungen in ihrer Gesamtheit das definierte Regressionsmodell abbilden?
2. Liegen extreme Beobachtungsfälle vor, die als Ausreißer anzusehen sind und eine Eliminierung oder aber aufgrund ihres gehäuften Auftretens gegebenenfalls eine Modellveränderung erfordern?
4. Prüfung des Gesamtmodells (Gesamtfit)
4. Ablauf einer logistischen Regression
63 63
2. Ausreißerdiagnostik
• große Unterschiede zwischen den beobachteten und geschätzten Werten
• Residuen für die Person k: [-‐1,1]
4. Prüfung des Gesamtmodells (Gesamtfit)
RESIDk = yk – pk(y)
• wenn RESIDk > 0,5 à verzerrender Einfluss wahrscheinlich
• Gewichtung der Residuen à bessere Erkennung möglich
• standardisierte Residuen: ZResidk
4. Ablauf einer logistischen Regression
64 64
5. Prüfung der Merkmalsvariablen
Vermeidung von Modell-‐Overfitting (= zu viele erklärende Variablen)
Ziel:
a) Likelihood-‐Quotienten-‐Test
b) Wald-‐Statistik
4. Ablauf einer logistischen Regression
65 65
5. Prüfung der Merkmalsvariablen
a) Likelihood-‐Quotienten-‐Test
• Erweiterung des Likelihood-‐Ratio-‐Tests
• Vergleich des LLv mit LLR
• Hypothesen: • Ho: Die Effekte des Regressionskoeffizienten bj sind Null.
• H1: Die Effekte des Regressionskoeffizienten bj sind ungleich Null.
• wenn Differenz LLv und LLR > χ²theo à Annahme H1
4. Ablauf einer logistischen Regression
66 66
5. Prüfung der Merkmalsvariablen
b) Wald-‐Statistik
• Überprüfung, ob unabhängige Variable einen Einfluss hat oder nicht • Hypothesen:
• Ho: Der Regressionskoeffizient bj ist Null.
• H1: Der Regressionskoeffizient bj ist ungleich Null.
• wenn W > χ²theo à Annahme H1
4. Ablauf einer logistischen Regression
67 67 Gliederung
1. Einführung 2. Grundzüge der logistischen Regression 3. Der logistische Regressionsansatz 4. Ablauf einer logistischen Regression 5. Logistische Regression mit SPSS 6. Eine kurze Einführung in die
Diskriminanzanalyse
68 68
1. Modellformulierung
• Offenheit: Einfluss auf Blues, Jazz, Klassik, Rock
• Extraversion: Einfluss auf Pop, Country, Rap, HipHop
• Gewissenhaftigkeit: Einfluss auf Pop, Country
• Neurotizismus: negativer Einfluss auf Rock, Heavy Metal
• Verträglichkeit: Einfluss auf Country, Pop
Einfluss von Persönlichkeit auf die Musikpräferenz:
Langmeyer, Guglhör-‐Rudan, & Tarnai (2012)
5. Logistische Regression mit SPSS
69 69
1. Modellformulierung
Allgemeine Fragestellung:
Kann eine Person auf Grund ihrer Persönlichkeitsmerkmale in eine Gruppe (Musikpräferenz für Jazz ja/nein) eingeordnet
werden?
5. Logistische Regression mit SPSS
70 70
1. Modellformulierung
Spezifische Hypothesen:
Langmeyer, Guglhör-‐Rudan, & Tarnai (2012)
1. Je höher der Wert für Offenheit, desto höher die Wahrscheinlichkeit der Präferenz für Jazz.
2. Je höher der Wert für Extraversion, desto höher die Wahrscheinlichkeit der Präferenz für Jazz.
3. Neurotizismus, Verträglichkeit und Gewissenhaftigkeit beeinflussen die Wahrscheinlichkeit der Präferenz von Jazz nicht.
5. Logistische Regression mit SPSS
71 71 5. Logistische Regression mit SPSS
72 72 5. Logistische Regression mit SPSS ?
?
73 73 5. Logistische Regression mit SPSS
74
Button: Kategorial …
5. Logistische Regression mit SPSS
75
ZResidk Zuordnung zu Gruppe y = 1 oder y = 0
Button: Speichern …
5. Logistische Regression mit SPSS
p-‐Werte
76
beobachteter vs. vorhergesagte
Werte
KI für Effekt-‐Koeffizient Button: Optionen …
5. Logistische Regression mit SPSS
77 5. Logistische Regression mit SPSS
78
Ausgabe I:
Codierung der Variablen im
Modell
5. Logistische Regression mit SPSS
79
Ausgabe II:
Null-‐Modell
5. Logistische Regression mit SPSS
80
Ausgabe III: vollständiges Modell LLv
Güte des Modells:
Devianz 4,7 bzw. 6,2 % Varianzauxlärung
5. Logistische Regression mit SPSS
Chi-‐Quadrat: Veränderung von LL0 zu LLv
nicht signifikant: Nicht alle UVs haben einen Einfluss.
81
Ausgabe IV: Güte des Modells: Hosmer-‐Lemeshow-‐Test
-‐ vorhergesagte vs. beobachtete Werte
-‐ nicht signifikant
5. Logistische Regression mit SPSS
82
Ausgabe V:
Güte des Modells: Trefferquote
5. Logistische Regression mit SPSS
83
Ausgabe VI.I:
Regressionsgleichung:
Zk = -‐1.410 + 0.1*O – 0.043*N – 0,051*G + 0,46*V + 0,005*E
5. Logistische Regression mit SPSS
84
Ausgabe VI.II:
Wald-‐Statistik: Überprüfung des Einflusses jeder UV
H0: Der Regressionskoeffizient bj ist Null.
5. Logistische Regression mit SPSS
85
Ausgabe VI.III:
Effekt-‐Koeffizient:
-‐ Erhöhung der UV um eine Einheit, Erhöhung um Faktor ebj
-‐ 95 % KI Exp(B)
5. Logistische Regression mit SPSS
86
Ausgabe VII: vorhergesagte vs. beobachtete Wahrscheinlichkeiten
5. Logistische Regression mit SPSS
87
Ausgabe VIII – Variablen-‐/Datenansicht:
5. Logistische Regression mit SPSS
p-‐Wert für die Person k
Gruppenzugehörigkeit für Person k
ZResid für Person k
88 Eine kleine Hilfe …
… für die Berechnung von Regressionen mit SPSS 20:
ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/20.0/de/client/Manuals/IBM_SPSS_Regression.pdf
89 89 Gliederung
1. Einführung 2. Grundzüge der logistischen Regression 3. Der logistische Regressionsansatz 4. Ablauf einer logistischen Regression 5. Logistische Regression mit SPSS 6. Eine kurze Einführung in die
Diskriminanzanalyse
90
6. Eine kurze Einführung in die Diskriminanzanalyse
¡ Erklärung der Gruppenzugehörigkeit (=Diskriminanz) l Können die a-‐priori gebildeten Gruppen (BMW-‐
oder Mercedes-‐Käufer) mittels der metrischen Variablen (Alter, Einkommen, Status, Ausstattungspräferenzen, …) signifikant voneinander getrennt werden?
l Welchen Beitrag leisten die Variablen zur Diskriminanz? ¡ Gibt es geeignete / ungeeignete Variablen?
¡ Gruppenzugehörigkeit neuer Einheiten (potentielle Käufer) prognostizieren
90
91
¡ Ziel ist es, Gruppen l durch Linearkombination l mehrerer unabhängiger metrischer Variablen l optimal so zu trennen,
¡ dass die Streuung zwischen den Gruppen möglichst groß,
¡ die Streuung innerhalb der Gruppen dagegen möglichst klein ist.
91
6. Eine kurze Einführung in die Diskriminanzanalyse
92
¡ Voraussetzungen l metrisches Skalenniveau und l Normalverteilung der Merkmalsvariablen l Nominales Skalenniveau der Gruppenzugehörigkeit l Fallzahlen ausreichend groß l die Anzahl der Merkmalsvariablen > Anzahl der
Gruppen
92
6. Eine kurze Einführung in die Diskriminanzanalyse
93
y = b0 + b1x1 + b2x2 + ... + bjxj
93
Centroid A
Centroid B
Geringe
Überschneidung !!
!
• Y …gesuchte Funktion, bei der • maximale Mittelwertsdifferenz & • minimaler Überschneidungsbereich zwischen den Gruppen besteht
àMaximierung der Streuung zwischen den Gruppen (Max. der Abstände der Gruppenmittelpunkte auf der Diskriminanzachse)
à Minimierung der Streuung innerhalb der Gruppen
⇒ Diskriminanzkriterium
• Diskriminanzfunktion:
6. Eine kurze Einführung in die Diskriminanzanalyse
94
Diskriminanzkriterium ¡ Γ = d²
s² à MAX !!!
l Y* = kritischer Distanzwert à Klassifizierung neuer Elemente
94
6. Eine kurze Einführung in die Diskriminanzanalyse
95
Gütemaße:
¡ Eigenwerte: l groß, wenn die Streuung zwischen den Gruppen im
Verhältnis zur Streuung innerhalb der Gruppen sehr groß ist = angestrebte Situation
¡ Kanoninscher Korrelationskoeffizient: l zwischen 0 und 1 l je höher à höher die Trennkraft der
Diskriminanzfunktion ¡ Wilk‘s Lambda:
l inwiefern sich beide Gruppen voneinander tatsächlich signifikant unterscheiden
l inverses Gütemaß
95
6. Eine kurze Einführung in die Diskriminanzanalyse
96 Und zum Schluss …
Vielen Dank für eure
Aufmerksamkeit!
97 97 Literaturverzeichnis Backhaus, K., Erichson, B., Plinke, W. & Weiber, R. (2006). Multivariate Analysemethoden. Berlin:
Springer. Kap. 7 und Kap. 3. Backhaus, K., Erichson, B., Plinke, W. & Weiber, R. (2011). Multivariate Analysemethoden. Berlin:
Springer. Kap. 5. Diaz-‐Bone, R. & Künemund, H. (2003). Einführung in die binäre logistische Regression.
Mitteilungen aus dem Schwerpunktbereich Methodenlehre, 56. Entnommen von: http://www.rainer-‐diaz-‐bone.de/Logreg.pdf.
Fromm, S. (2005). Binäre logistische Regressionsanalyse – eine Einführung für Sozialwissenschaftler mit SPSS für Windows. Bamberg: Otto-‐Friedrich-‐Universität Bamberg (Bamberger Beiträge zur empirischen Sozialforschung, Bd. 11). Entnommen aus: http://www.uni-‐bamberg.de/fileadmin/uni/ fakultaeten/sowi_lehrstuehle/empirische_sozialforschung/pdf/bambergerbeitraege/Log-‐Reg-‐BBES.pdf.
Langmeyer, A., Guglhör-‐Rudan, A. & Tarnai, C. (2012). What do music preferencee reveal about personality? A cross-‐cultural replication using self-‐ratings and ratings of music samples. Journal of Individual Differences, 33(2), 119-‐130. DOI: 10.1027/1614-‐0001/a000082
Prof. Dr. Bühl, A. (2010). PASW 18. Einführung in die moderne Datenanalyse. Pearson Studium: München, Boston, San Francisco. Kap. 14.4.
Rammstedt, B. & John, O. P. (2005). Kurzversion des Big Five Inventory (BFI-‐K). Entwicklung und Validierung eines ökonomischen Inventars zur Erfassung der fünf Faktoren der Persönlichkeit. Diagnostica, 51(4), 195-‐206. DOI: 10.1026/0012-‐1924.51.4.195
Schäfer, T., & Sedlmeier, P. (2009). From the functions of music to music preference. Psychology of Music, 37, 279-‐300. DOI: 10.1177/0305735608097247
Sedlmeier, P. & Renkewitz, F. (2008). Forschungsmethoden und Statistik in der Psychologie. Pearson Studium: München, Boston, San Francisco. Kap. 8.
98 98 Bildnachweise
http://art.phillipmartin.info/arts_jazz.gif http://www.tiffner.net/ https://www3.zfn.uni-‐bremen.de/software/spss/spss-‐logo.png http://www.luxwell.de/tl_files/fM_k0002/Fotolia-‐Figuren/Mann-‐mit-‐Ausrufezeichen.jpg http://www.iphone-‐hilfe.net/images/fragezeichen5.jpg http://www.gemeinde-‐biederitz.de/_data/Fotolia_9747336_XS.jpg http://img.fotocommunity.com/Natur/Tiere/Aufmerksamkeit-‐a18566124.jpg