Upload
waldhar-wolper
View
114
Download
0
Embed Size (px)
Citation preview
1
Multivariate Statistische Verfahren
Log-Lineare Analyse
Psychologisches Institut der Universität Mainz
SS 2012
U. Mortensen
2
Log-Lineare Analyse
Einführung: Bei der logistischen oder Poisson-Regression ist die Fragestellung asymmetrisch – mehreren unabhängigen Variablen steht eine abhängige Variable gegenüber. Bei der log-linearen Analyse ist die Frage symmetrisch: man ist an der Beziehung zwischen den verschiedenen Variablen interessiert.
"wahre" relative Häufigkeiten
(Wahrscheinlichkeiten) für das Zusammentreffen der Kategorien und .
ij
i jA B
( 1, , ), ( 1, , )
sind die Randverteilungen der Tabelle.i ji I j J
3
Log-Lineare Analyse
Kontingenztabellen können anhand verschiedener Schemata zustande kommen; die Analyse der Tabelle hängt vom Schemader Tabelle ab.
Man unterscheidet(1) Das produkt-multinomiale Schema(2) Das multinomiale Schema(3) Das Poisson-Schema.
Erhebungsschemata:
Produkt-multinomiale Schema: analog zur Varianzanalyse, - es gibtKategorien für unabhängige Variablen, und die Fälle werden auf Response-Kategorienaufgeteilt.
Das multinomiale Schema: Eine Stichprobe mit festem Umfang wird auf die möglichenKombinationen von Kategorien aufgeteilt. Die Zeit spielt bei der Erhebung keine Rolle.
Das Poisson-Schema: Wie das multinomiale Schema, nur wird eine Zeitdauer für die Beobachtung aufgestellt und der Stichprobenumfang ist offen.
4
Log-Lineare Analyse
Produkt-multinomiales Schema:
Beispiel: Aufmerksamkeitsfokussierung. Fokussierung auf bestimmte Musteraspekte beeinflußt die Klassifikationsleistung. Die Fokussierung auf ein irrelevantes Merkmal begünstigt in Abhängigkeit von der Stimulus Onset Asynchrony (SOA) die Wahrscheinlichkeiteiner korrekten Klassifikation.
Gezeigt wird stets immer dasselbe Muster, - aber in Abhängigkeit von der SOA werden verschiedene Muster mit verschiedener Wahrscheinlichkeit angezeigt.
Alle Muster werden gleichhäufig (70-mal)gezeigt.
5
Log-Lineare Analyse
Produkt-multinomiales Schema: Weitere Beispiele
Faktorstufen:
Anzahl Stunden Therapie – Reaktionen: Arten von Panikanfällen
Altersgruppen – Reaktionen: gewählte Parteien
Studienfach – Reaktionen: Einstellungen zu sozialen Fragen
Etc etc
6
Log-Lineare Analyse
Multinomiales Schema
Die 8099 Insassen derPsychiatr. Krankenhäuserwurden nach Maßgabe derMerkmalskombination aufdie Zellen der Tabelle auf-geteilt.
7
Log-Lineare Analyse
Poisson-Schema
Beim Körperbau-Beispiel wurde nicht die Zeit, sondern(implizit) die Gesamtzahl der Fälle festgelegt.
Beim Poisson-Schema betrachtet man etwa ein Krankenhausfür eine festgelegte Zeirtspanne und klassifiziert die hereinkommendenPatienten nach vorgegebenen Kategorienkombinationen. DieAnzahl der Patienten wird Poisson-verteilt sein.
Log-Lineare Analyse
Hypothesen und ihre Überprüfung:
Produkt-multinomiales Schema:
8
Log-Lineare Analyse
Hypothesen und ihre Überprüfung:
Produkt-multinomiales Schema:
Die Randsummen sind vom Experimentator festgelegt worden, die Fälle werden unabhängig voneinander erhoben die sind multinomial
verteilt!ijn
1 21 2 1 2
1 1 2
!( , , , )
! ! !i i iJ
In n ni
i i iJ i i iJi i i iJ
nP n n n
n n n
1 2
Hypothese:
für alle j j iJ j
erwartete Häufigkeit ist durch
gegeben.
i jij i ij
n nn n
n
9
Log-Lineare Analyse
Hypothesen und ihre Überprüfung:
Multinomiales Schema: analog zum produkt-multinomialen Schema
Poisson-Schema:
11,
( , , ) , ( )!
ij
ij
nnij
IJ ij iji j ij
P n n e E nn
(multiplikative Hypothese, multiplikatives Poisson-Modell)i jij
,
ijij
klk l
10
Log-Lineare Analyse
Hypothesen und ihre Überprüfung:
Gegeben sei das produkt-multinomiale Schema. Man hat
p , , , 1ijij i ij j ij i j
j i i j
np p p p p p
n
Hypothese: Die ''Faktoren A und B sind unabhängig voneinander!
Dann sind die erwarteten Häufigkeiten durch
gegeben.ij ij i jn n p n p p
Daraus folgt sofort
log log( ) log( ) log log log .ij ij i j i jn n n n
11
Log-Lineare Analyse
Hypothesen und ihre Überprüfung:
log log( ) log( ) log log log .ij ij i j i jn n n n
(Analog zur Varianzanalyse mit log und log als Haupteffekten.)i j
1 1log , log , log ,
und mit
log , log 0.
A B A Bi j
i j
A A B A Bi i j j i j
i j
n n nI J
Das Modell enthält keinen Wechselwirkungsterm - dies ist Ausdruckder Annahme der Unabhängigkeit von A und B!
12
Log-Lineare Analyse
Hypothesen und ihre Überprüfung:
Um den allgemeinen Fall (es existieren Abhängigkeiten) zu behandeln,wird ein Wechselwirkungsterm eingeführt:
logAB A Bij ij i j
,
Man findet 0, und man hat das "gesättigte" Modell
log
(entspricht dem Strukturmodell einer 2-dimensionalen Varianzanalyse).
ABij
i j
A B ABij i j ijn
Die und interessieren hier kaum (vom Untersucher festgelegt) -
gesucht sind die 0̀.
Sind alle 0̀, ist das Modell trivial, weil man dann alle Daten
"erklären" kann!.
A Bi j
ABij
ABij
13
Log-Lineare Analyse
Beziehung zu Wahrscheinlichkeiten:
Allgemein gilt
log , also folgt , und
, also
.
A B ABi j ij
A B ABi j ij
A B ABi j ij
A B ABi j ij
A B ABij i j ij ij
i j
ij
i j
n n e
n e
e
e
14
Log-Lineare Analyse
Rolle der Ehebungsschemata:
Nach der Unabhängigkeitshypothese gilt allgemein .
Ist das Erhebungsschema das Poisson-Schema, so gilt log ohne weitere Einschränkungen.
i jij
A Bij i j
n nn
n
n
Ist das Erhebungsschema das produkt-multinomiale Schema, so gilt
log mit der Einschränkung, dass .A Bi jA B
ij i j ij
n n e
Ist das Erhebungsschema das multinomiale Schema, so gilt
log mit der Einschränkung, dass .A Bi jA B
ij i jj
n n e Die Parameter müssen also unter Berücksichtigung der für dasjeweilige Erhebungsschema geltenden Einschränkungen geschätztwerden.
15
Log-Lineare Analyse
Logits und Kreuzproduktverhälntnisse:
1 11 2 1 2
2 2
Die Logits sind bei Unabhängigkeit für alle i identisch:
( | )log log
( | )A B A B B Bi ii i
i i
P B A n
P B A n
12 2211 22 12 21 11 22 12 21
12 21
11 22 12 21
11
Das Kreuzproduktverhältnis für eine 2x2-Tabelle ist
log log log log log ,
und wegen 0, und folgt
log 4
AB AB AB AB
AB AB AB AB AB ABij ij
i j
A
AB n n n n
.B
16
Log-Lineare Analyse
Logits und Kreuzproduktverhälntnisse:
11
ist Assoziationsparameter der Tabelle; bei Unabhängigkeit gilt 1, log 0.Diese Bedigung ist genau dann erfüllt, wenn 0.AB
Beispiel: Todesstrafe in den USA - die Hypothese ist, dassSchwarze häufiger zum Tode verurteilt werden als Weiße:
2
19 1491.181
141 17 doch Unabhängigkeit?
nicht signifikant!
x
x
17
Log-Lineare Analyse
Beispiel: Interpretation von Tabellen
Die Tabelle ist tatsächlich nur eine "Scheibe" aus einerinsgesamt 3-dimensionalen Tabelle:
Es muß also noch die Opfer-Relation berücksichtigt werden!
18
Log-Lineare Analyse
3-dimensionale Tabellen
Es gibt zwei Arten von Tabellen:
(1) Partialtabellen: Sie entstehen durch einen Schnitt durch die 3-dimensionale Tabelle, der durch die Stufen einer der drei Variablen entsteht. Man hätl etwa die Stufe von fest und betrachtet für diese Stufe die Tabelle B x C. Die Abhängigkeiten in einer Partialtabelle heißen "partielle Assoziationen".(2) Marginaltabellen: Sie entstehen
iA A
, wenn über die Stufen eines Faktors aggregiert wird, etwa über die Stufen des Faktors . Es entsteht wieder eine Tabelle B x C, mit den Häufigkeiten . Die Assoziationen
hei
jk ijki
An n
ßen "marginale Assoziationen".
19
Log-Lineare Analyse
3-dimensionale Tabellen
Partielle und marginale Assoziationen können sich sehr voneinander unterscheiden: dieses Phänomen istals ' bekannt.
Dies führt zur Frage der .
Simpson s Paradox
Aggregierbarkeit
Das allgemeine saturierte Modell lautet
log A B C AB AC BC ABCijk i j k ij ik jk ijkn
Das saturierte Modell ist trivial, da es stets die Daten komplett erklärt.Die Frage ist deshalb, welche der Terme auf der rechten Seite gleich Nullgesetzt werden können.
20
Log-Lineare Analyse
3-dimensionale Tabellen
Die Wechselwirkung 0 bedeutet, dass es keine spezifischen Beziehungen zwischen der Farbe des Täters, des Opfers und der Verhängung der Todesstrafe gibt.
ABC
Die Wechselwirkung 0 bedeutet, dass es èine Abhängigkeitzwischen der Farbe des Täters und der Opfers gibt, etwa: Schwarzetöten am liebsten Weiße, oder Weiße töten gerne Schwarze, oder Schwarze tö
AB
ten hauptsächlich Schwarze und Weiße töten hauptsächlichWeiße.
Die Wechselwirkungen 0, 0 bedeuten, dass die Todesstrafein Abhängigkeit von der Hautfarbe ausgesprochen wird (das ist die gängigeHypothese).
AC BC
21
Log-Lineare Analyse
3-dimensionale Tabellen: Der Begriff der Bedingten Unabhängigkeit
|
|
Es sei die k-te Stufe des Faktors C, sei die Tabelle für die
Faktoren A und B, wenn festgehalten wird (k-te Scheibe aus derTabelle AxBxC). sei die Wahrscheinlichkeit des Zusammentreff
k ABC
k
ij k
C T
C
| | |
ens
von und gegeben . Gilt
für alle i,j,
so heißen die Faktoren A und B bedingt unabhängig, gegeben .
i j k
ij k i k j k
k
A B C
C
| ||Gilt für alle , ,
so heißen die Faktoren A und B bedingt unabhängig von .
i k j kij k
k
i j k
C
22
Log-Lineare Analyse
3-dimensionale Tabellen: Der Begriff der Bedingten Unabhängigkeit
Sind A und B bedingt unabhängig von , so gilt
log ,
dh es soll 0 gelten.
A B C AC BCijk i j k ik jk
AB ABC
C
n
Demnach soll es keine Interaktion zwischen der Hautfarbe des Täters und der des Opfers gebebn, und keine Interaktion zwischenHautfarbe des Täters, des Opfers und der Verhängung der Todesstrafe.
Man kann auf diese Weise verschiedene Modelle formulieren, - welches Modell dann zutrifft, muß dann anhand der vorliegendenDaten entschieden werden. Man tested insbesondere :hierarchische Modelle
23
Log-Lineare Analyse
3-dimensionale Tabellen: Der Begriff der Bedingten Unabhängigkeit
24
Log-Lineare Analyse
3-dimensionale Tabellen: Der Begriff der Bedingten Unabhängigkeit
25
Log-Lineare Analyse
3-dimensionale Tabellen: Der Begriff der Bedingten Unabhängigkeit
2Signifikante Werte bedeuten,dass das Modell nicht mit den Datenkompatibel ist.
G
( , ) ist akzeptabel: Todesstr x FarbeOpfer einerseits, Assoziation Opfer-Täter. Es ist nicht das beste Modell.
AB BC
( , , ): Assoz. TS-Farbe Opfer, TS-Farbe Täter, Opfer-TäterAB AC BC
( ): Assoziation TS - Opfer-Täterjeweils ganz spezifisch!ABC
26
Log-Lineare Analyse
3-dimensionale Tabellen: Aggregierbarkeit und Simpson‘s Paradox
: Über die Stufen eines Faktors summieren = zusammenfassenso dass zB aus einer 3-dimensionalen eine 2-dimensionalen Tabelle wird.(Marginaltabelle)
Aggregieren
Wird nur die k-te Scheibe einer 3-dimensionalen Tabell betrachtet, so entsteht ein . Partialtabelle
Schlußfolgerungen aus Marginaltabellen - also aggregierten Tabellen - können falsch sein.
Da jede Tabelle als aggregierte Tabelle aufgefaßt werden kann, könnendie Folgerungen aus jeder Tabelle falsch sein.
27
Log-Lineare Analyse
3-dimensionale Tabellen: Aggregierbarkeit und Simpson‘s Paradox
Aggregiert über Opfer Aggregiert über Täter
Aggregiert über Strafe
3.38 Verurteilung hängt von Farbe des Opfers ab!
27.433.38 Weiße Weiße, Schwarze Schwarze
1.21 Kein Zusammenh.zwischen Farbe und Verurteil.
28
Log-Lineare Analyse
3-dimensionale Tabellen: Aggregierbarkeit und Simpson‘s Paradox
Aggregiert über Opfer Aggregiert über Täter
3.38 Verurteilung hängtvon der Farbe des Opfers ab! 1.21 Kein Zusammenh.
zwischen Farbe und Verurteil.
Der Widerspruch wird durch die Aggregation erzeugt. Aggregation etwa über C kann scheinbare Assoziation zwischen A und B erzeugen,die nicht wirklich existiert. (s.a. Scheinkorrelation)
29
Log-Lineare Analyse
3-dimensionale Tabellen: Aggregierbarkeit und Simpson‘s Paradox
: Die Variable C ist bezüglich der Interaktion von A und B aggregierbar, wenn C bedingt unabhängig von A oder B ist. C ist bezüglich dem Haupteffekt von A oder B aggregierbar, wenn die Interaktion
Satz
zwischen C und A zwischen C und B verschwindet.
Erklärung: Der Satz von der Totalen Wahrscheinlichkeit:
( ) ( | ) ( ) ( | ) ( )
( steht für "nicht B")
P A P A B P B P A B P B
B
30
1
Allgemein: sei ein beliebiges zufälliges Ereignis, und, , sei eine menge zufälliger Ereignisse , von denen nicht
zwei gemeinsam auftreten können, aber eines von ihnen mit
Sicherheit eintritt (
n
i
AB B
B
,1
, für , und das
sichere Ereignis)
n
ii
B i j B
Log-Lineare Analyse
3-dimensionale Tabellen: Aggregierbarkeit und Simpson‘s Paradox
1
Dann
( ) ( | ) ( )n
i ii
P A P A B P B
31
Log-Lineare Analyse
3-dimensionale Tabellen: Aggregierbarkeit und Simpson‘s Paradox
Drei Faktoren , , und , je zwei Stufen. Aggregation über bedeutet, dass man nur ( | ) (bzw. ( | )) betrachtet. kann nun mit oder auftreten.
A B C CP A B P B A B
C C
( ( ) ( ( )( | ) , ( | )
( ) ( )
P A B C P A B CP A B C P A B C
P B C P B C
( | ) ( ) ( ( ), ( | ) ( ) ( ( )P A B C P B C P A B CP A B C P B C P A B C
( | ) ( | , ) ( | ) ( | , ) ( | )
(Statt wird einfach , geschrieben)
P A B P A B C P C B P A B C P C B
B C B C
32
Log-Lineare Analyse
3-dimensionale Tabellen: Aggregierbarkeit und Simpson‘s Paradox
Drei Faktoren , , und , je zwei Stufen. Aggregation über bedeutet, dass man nur ( | ) (bzw. ( | )) betrachtet. kann nun mit oder auftreten.
A B C CP A B P B A B
C C
( ( ) ( ( )( | ) , ( | )
( ) ( )
P A B C P A B CP A B C P A B C
P B C P B C
( | ) ( ) ( ( )), ( | ) ( ) ( ( ))P A B C P B C P A B CP A B C P B C P A B C
( | ) ( | , ) ( | ) ( | , ) ( | )
(Statt wird einfach , geschrieben)
P A B P A B C P C B P A B C P C B
B C B C
33
Log-Lineare Analyse
Aggregierbarkeit und Simpson‘s Paradox
Behauptung: Sind und stochastisch unabhängig, so kannSimpsons Paradox nicht auftreten.
B C
Unabhängigkeit: ( | ) ( | ( )P C B P C B P C
Es werde Unabhängigkeit und Simpsons Paradox angenommen:
(*) ( | ) ( | )(**) ( | , ) ( | , )(***) ( | , ) ( | , )
P A B P A BP A B C P A B CP A B C P A B C
(*) P( | , ) ( ) ( | , ) ( ) ( | , ) ( ) ( | , ) ( )A B C P C P A B C P C P A B C P C P A B C P C
0 < ( ( | , ) P( | , )) ( ) ( ( | , ) ( | , )) ( )P A B C A B C P C P A B C P A B C P C
Widerspruch, da Differenzen nach Voraussetzung kleiner als Null!
34
Log-Lineare Analyse
Aggregierbarkeit und Simpson‘s Paradox
Anmerkungen:Stochastische Unabhängigkeit von und ist eine hinreichende Bedingung dafür, dass das Simpson Paradox auftritt, aberkeine notwendige Bedingung!
B Cnicht
Man kann aus der Tatsache, dass Simpsons Paradox nicht vorliegt,nicht die Unabhängigkeit von , folgern!B C
Es kann also sein, dass Simpsons Paradox nicht vorliegt, obwohles eine Assoziation zwischen und gibt. Aber derartige Assoziationenwerden eine verzerrende Wirkung auf die Beziehung zwischen und
B CA B
haben (zB auf den -Koeffizienten).