Upload
clarimond-ehrenreich
View
121
Download
2
Embed Size (px)
Citation preview
Tutorat 8
Wiederholung
Faktorenanalyse
7.07.2009
Wiederholung
• Die Kovarianzanalyse ist eine ……………… der ……………………
• Ziel: Statistische Kontrolle einer potentiellen …………… Reduktion der …………………
Berechnung:
–Zerlegung der Quadratsummen von Kovariate und AV
–Zerlegung der Produktsummen
–Berechnung der Modifizierten Quadratsummen
–F-Test
–Kontrolle der Fehlervarianzreduktion
Was muss gegeben sein, damit es sinnvoll ist die Kovariate bei der
statistischen Auswertung zu berücksichtigen?
Faktorenanalyse
Faktorenanalyse- Fragen
1. Was ist Ziel der FA? Nenne ein Beispiel für ihren Einsatz2. Was beschreiben die Eigenwerte?3. Was ist Kommunalität?4. Welche Gruppen von Rotationsarten gibt es und worin besteht
der Unterschied zwischen beiden Verfahren?5. Welche Methoden gibt es im Umgang mit dem
Extraktionsproblem?6. Voraussetzungen der FA?Zusatzfrage: Gibt es einen Zusammenhang zwischen der multiplen
Regression und der FA?
Faktorenanalyse
•Die Faktorenanalyse gehört zum Bereich der multivariaten Verfahren
Ziel:Die Faktorenanalyse versucht, eine Vielzahl von korrelierenderVariablen auf einen kleinen Satz unabhängiger latenter Variablen(Faktoren) zu reduzieren, die einen möglichst großen Teil der Varianz der Ausgangsvariablen aufklären. Hierbei geht es um die Reduktion von Information und um die Reduktion von Redundanzen (Interkorrelationen) zwischen den Variablen.
Anwendung: primär bei der Konstruktion von Fragebögen
Beispiel: Entwicklung eines Fragebogens zum Thema Gesellschaftliche Akzeptanz
von psychischen Störungen
• explorativ werden Items formuliert (z.B.über Literaturrecherche)
• Hierbei kann es zu Unterskalen kommen, welche einzelne Merkmale abbilden
– Akkzeptanz in der Öffentlichkeit
– Akkzeptanz am Arbeitsplatz
– Persönlicher Kontakt zu psychisch Kranken
Faktorenanalyse 8
Faktorenanalyse
Faktor 3
Faktor 2
Faktor 1
Item 16
Item 15
Item 8
Item 7
Item 2
Item 1
...
...
Multikollinearität
• Durchführung einer FA generell nur dann sinnvoll, wenn die einem Faktor zugeordneten Variablen hoch miteinander korrelieren
• Nur wenn dies vorliegt können sinnvolle Faktoren bestimmt werden, welche die Informationen aus den Variablen zusammnfassen
Zwei Subgruppen: EFA und CFA1. explorativen Faktorenanalyse (EFA) Dient dem Auffinden von Faktoren innerhalb eines
Variabensatzes (Subskalen) Zusammenhänge zwischen Variablengruppen werden gesucht Keine theoretische Grundlagen zur Anzahl der Faktoren oder
der Zuordnung der Variablen
2. konfirmatorischen Faktorenanalyse (CFA) Es wird überprüft, ob die in der Emperie gefundenen Daten zu einem zuvor definierten theoretischen Modell (Bestätigung eines Modells)Alternative Zuordnugen können nicht getestet werdenVariablen werden a priori bestimmten Skalen zugeordnet
Faktorenanalyse 11
Ablauf einer Faktorenanalyse• Ein Datensatz mit n Variablen kann als eine Punktewolke im „n-
dimensionalen Raum“ dargestellt werden:
• 2 Variablen (x, y) 2 Dimensionen
• 3 Variablen (x, y, z): 3 Dimensionen
y
x
y
x
z
Faktorenanalyse 12
Ablauf einer Faktorenanalyse• Bei einem echten Fragebogen gibt es natürlich sehr viel mehr als
3 Items.
• Dies ist dann jedoch nicht mehr graphisch darstellbar.
• Daher wird das Vorgehen im folgenden mit einer3-dimensionalen Darstellung veranschaulicht.
y
x
z
Faktorenanalyse 13
Ablauf einer Faktorenanalyse
• Als Faktoren werden neue Achsen gesucht, „die die Punktewolke möglichst gut beschreiben.“
• Die Achsen werden jeweils so gewählt, dass sie möglicht viel Varianz aufklären.
• Die Varianz ist in der Richtung am größten, in der die Punktewolke ihre größte Ausdehnung hat.
y
x
z
Faktorenanalyse 14
Erste Hauptachse
y
x
z
λ1
0
+1
-1
Die erste Hauptachse wird so gelegt, dass sie die Punktewolke in „der größten Breite“ durchschneidet.
Faktorenanalyse 15
Zweite Hauptachse
y
x
z
λ2λ1
• Die zweite Hauptachse muss von der ersten Achse unabhängig sein.
• Dies ist dann der Fall, wenn die Achsen senkrecht aufeinander stehen.
• Dabei wird die Achse wieder so gelegt, dass die maximale restliche Varianz aufgeklärt wird.
Faktorenanalyse 16
Dritte Hauptachse
y
x
z
λ3
λ1
λ2
• Die dritte Hauptachse muss von der ersten und der zweiten Achse unabhängig sein.
• Die Achse muss also einen rechten Winkel zu beiden anderen Achsen bilden.
• Im 3-dimensionalen Raum ist die Lage dieser Achse durch die der beiden anderen Achsen festgelegt.
Faktorenanalyse 17
Anzahl der Hauptachsen• Für jede Punktewolke gibt es theoretisch so viele unabhängige
Achsen, wie es Variablen gibt.
• Nach der Achsenbildung wird eine Person durch die Koordinaten auf den neuen Achsen dargestellt.
• Ziel ist eine Datenreduktion
Es ist nichts gewonnen, wenn die Information einer Person durch die gleiche Anzahl neuer Koordinaten dargestellt wird, wie vorher Variablenwerte bekannt waren.
• Es werden also weniger Faktoren gebildet, als Variablen vorhanden sind.
• Die Anzahl der Achsen (Faktoren) kann dabei entweder aufgrund von theoretischen Überlegungen erfolgen, oder aber sie wird nach einem empirischen Kriterium bestimmt (über den Anteil der aufgeklärten Varianz).
Voraussetzung der Faktorenanalyse
Für die Faktorenanalyse werden mehrere (p) Variablen(z.B. Items eines Fragebogens) benötigt, wobei für jede Person der Wert auf jeder Variable bekannt sein muss (Messwiederholung).
Dabei muss gelten:• Intervallskalenniveau der Variablen• Normalverteilung der Variablen• Anzahl Vpn: N ≥ 3·p (Richtwert)
• Es werden nur lineare Zusammenhänge abgebildet!
Faktorenanalyse 19
Mathematisches Vorgehen
(1) Matrix der Variablenwerte: XNxp
(2) Matrix der standardisierten Werte: ZNxp
(3) Korrelationsmatrix: Rpxp
Kommunalitätsproblem
(4) Reduzierte Korrelationsmatrix: hRpxp
Extraktionsproblem
(5) Faktorenladungsmatrix: Apxq
Rotationsproblem
(6) Rotierte Faktorenladungmatrix: A`pxq
Faktorwerteproblem
(7) Faktorenwertematrix: A`Nxq
N: Vpn
p Variablen
q Faktoren
Iterative Abschätzung
Faktorenanalyse 20
Matrix der Variablenwerte
NpN
p
xx
xx
X
1
111
• In einer Zeile stehen jeweils die Werte einer Vpn für alle p Variablen.
• In einer Spalte stehen die Werte aller Vpn für eine Variable.
Faktorenanalyse 21
Matrix der standardisierten Werte
NpN
p
zz
zz
Z
1
111
Alle Variablen („Spalten“) werden z-standardisiert, d.h. die Werte einer Spalte haben nun einen Mittelwert von M = 0 und eine Standardabweichung von SD = 1.
Faktorenanalyse 22
Korrelationsmatrix
1
1
1
1
1
p
p
r
r
R
Die Korrelationsmatrix R beinhaltet die bivariaten (paar-weisen) Korrelationen aller Variablen. Auf der Hauptdiagonale steht immer der Wert 1, da jede Variable mit sich selbst „perfekt“ korreliert (rii=1).
Faktorenanalyse 23
Korrelationsmatrix
1
1
1
1
1
p
p
r
r
R
Eine Faktorenanalyse ist nur dann sinnvoll, wenn der Datensatz substantielle Korrelationen aufweist. Dies ist dann der Fall, wenn sich die Korrelationsmatrix (R)signifikant von der Einheitsmatrix (E) unterscheidet. Eine statistische Überprüfung ist mit dem Bartlett-Test möglich.
100
010
001
E
Faktorenanalyse 24
Das Fundamentaltheorem
Das Fundamentaltheorem der Faktorenanalyse besagt, dass sich jeder der standardisierten Werte als Linearkombination der Faktorwerte und der Faktorladungen beschreiben lässt:
pjipjijiij afafafz ...2211
mit:
ZNxp: standardisierte Ausgangsmatrix
FNxp: Faktorwertematrix
Apxp: Faktorladungsmatrix
zij: standardisierter Wert der Person i auf der Variable j
p: Anzahle der Variablen = Anzahl der Faktoren (nur am Anfang!)
Faktorenanalyse 25
Faktorladungen
Die Faktorladungen sind die Korrelationen der Faktorwerte mit den Ausgangswerten der Variablen.
Personen, die hohe Werte auf dem Faktor haben, haben auch hohe Werte auf x (und umgekehrt)Hohe Korrelation von x und λ.Die Korrelation eines Faktors
und einer Variablen hängt vom Winkel ab
y
x
0+1
-1+
++
+
y
x
0+1
-1+
++
+
Faktorenanalyse 26
Das Faktorladungsmatrix
Die Faktorladungsmatrix enthält die Faktorladungen (Korrel-ationen) aller Variablen auf allen Faktoren:
pqp
q
aa
aa
A
1
111 p: Variablen
q: Faktoren
Faktorenanalyse 27
Aufgeklärte Varianz
Quadriert man die Faktorladungen, ergeben sich Determinationskoeffizienten, die den Anteil der durcheinen Faktor aufgeklärter Varianz der Gesamtvarianz einer Variablen angeben.
22
22
1
111
pqp
q
aa
aa
D
p: Variablen
q: Faktoren
Faktorenanalyse 28
KommunalitätDie Kommunalität (h²) einer Variablen ist die insgesamt durch alle Faktoren aufgeklärte Varianz dieser Variablen. Die Kommunalität wird als „Zeilensumme“ in der Matrix der Determinationskoeffizienten berechnet.
Die Kommunalität nimmt immer Werte zwischen 0 (0% aufgeklärte Varianz) und 1 (100% aufgeklärte Varianz) an.
22
22
1
111
pqp
q
aa
aa
D
p: Variablen
q: Faktoren
q
kjkj ah
1
22 „Kommunalität der Variablen j“
Faktorenanalyse 29
EigenwertDer Eigenwert (λ) eines Faktors gibt an, wie viel Varianz dieser Faktor an allen Variablen aufklärt. Der Eigenwert wird als „Spaltensumme“ in der Matrix der Determinationskoeffizienten berechnet.
p
jjkk a
1
2
• Der Wertebereich des Eigenwerts hängt von der Anzahl der Variablen ab: 0 < λ < p.
• Ein Eigenwert von 1 bedeutet, dass ein Faktor insgesamt soviel Varianz aufklärt, wie eine (jede) der standardisierten Variablen aufweist.
• Je größer der Eigenwert eines Faktors, desto „besser“ ist ein Faktor.
• Eine Selektionsstrategie zur Bestimmung der Anzahl der Faktoren besteht darin, alle Faktoren mit λ>1 zu akzeptieren.
Faktorenanalyse 30
Formen der FA
• „Kommunalitätsproblem“: Wie viel Varianz von jeder Variablen wird zu Beginn der FA aufgeklärt, also bevor die endgültige Lage der Faktoren bekannt ist?Wenn die Variable selbst als Faktor berücksichtigt wird: 100%
h² = 1Wenn nur die anderen Variablen berücksichtigt werden: weniger
h² < 1
• Bei der Hauptkomponentenanalyse (PCA = Principal Component Analysis) wird zu Beginn des Optimierungsprozesses eine Kommunalität von 1 angenommen.
• Bei der Hauptachsenanalyse wird zu Beginn des Optimierungsprozesses die Kommunalität für jede Variable geschäzt
Faktorenanalyse 31
Formen der FA
• Inhaltlicher Unterschied:Hauptkomponentenanalyse:
Die insgesamt aufgeklärte Varianz wird maximiert.Es kann Faktoren geben, auf denen nur eine einzige Variable hoch lädt.Dieses Verfahren wird von Bortz empfohlen
Haupachsenanalyse:Es werden Faktoren bevorzugt, auf denen viele Variablen laden.Dieses Verfahren wird von Leonhart empfohlen.
Faktorenanalyse 32
Das „Extraktionsproblem“
• Zur Berechnung der FA, werden genau so viele Faktoren wie Variablen gebildet
• Datenreduktion??
• Später: Faktoren weggelassen, die wenig Varianz aufklären.
• Unterschiedliche Kriterien: Kaiser-Gutman-Regel Kriterium der extrahierten Varianz Screetest Theoriegeleitetes Vorgehen
Faktorenanalyse 33
Kaiser-Gutman-Regel
Nach der Kaiser-Gutman-Regel werden nur Faktoren mit einem Eigenwert > 1 berücksichtigt.
• Nach diesem Kriterium werden also alle Faktoren berücksichtigt, die zumindest den Varianzanteil einer Variablen aufklären.
• Vorraussetzungen:N > 5·pFaktorenzahl zwischen p/5 und p/3
Faktorenanalyse 34
Kriterium der extrahierten Varianz
• Es wird festgelegt, wie viel Varianz aufgeklärt werden soll.
• Problem: Es kann kaum begründet werden, welcher Varianzanteil hier gewählt wird (z.B. 50%, 90%)
• Vorgehen:• Die Faktoren werden nach ihren Eigenwerten sortiert:
• Alle Eigenwerte werden aufsummiert Sum(λ) = p• Für jeden Eigenwert wird der Anteil aufgeklärter Varianz als
λ / p berechnet.• Es werden alle Faktoren berücksichtigt, bis die kumulierte
Varianz das Kriterium übertrifft:
Faktorenanalyse 35
Kriterium der extrahierten Varianz
Erklärte Gesamtvarianz
5.262 35.083 35.083
1.636 10.908 45.991
1.477 9.849 55.840
1.219 8.126 63.966
1.112 7.412 71.378
.841 5.605 76.983
.650 4.335 81.318
.585 3.902 85.220
.534 3.560 88.780
.485 3.231 92.011
.357 2.381 94.392
.259 1.728 96.120
.243 1.619 97.739
.182 1.211 98.950
.157 1.050 100.000
Komponente1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Gesamt % der Varianz Kumulierte %
Anfängliche Eigenwerte
Extraktionsmethode: Hauptkomponentenanalyse.
Eigenwerte
3 Faktoren klären über 50% der Merkmals-varianz auf.
10 Faktoren klären über 90% der Merkmalsvarianz auf.
Kaiser-Gutman Kriterium
Faktorenanalyse 36
Screetest
• Der Scree-Test (Geröll-Test) ist eine graphische Methode um eine sinnvolle Anzahl von Faktoren zu bestimmen.
• Dazu werden die Eigenwerte der Faktoren als Graphik dargestellt.
• Es werden nur Faktoren ausgewählt, bevor der Graph eine „Ebene“ erreicht.
• Problem: Oft ist dieses Kriterium nicht eindeutig!
Faktorenanalyse 37
Screetest
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Faktor
0
1
2
3
4
5
6E
igen
wer
t
Screeplot
Faktorenanalyse 38
Theoriegeleitetes Vorgehen
• SPSS erlaubt es auch, direkt die Anzahl der erwünschten Faktoren einzugeben.
• So ist es möglich, verschiedene Lösungen auszuprobieren, und jeweils zu überprüfen, ob sich eine inhaltlich sinnvolle Lösung ergibt.
• Beispiel: Es wird aufgrund theoretischer Überlegungen erwartet, dass sich die Aufgaben eines Intelligenztests drei Faktoren zuordnen lässt:
• Räumliches Vorstellungsvermögen
• Mathematische Intelligenz
• Sprachliches Intelligenz Es wird eine Lösung mit 3 Faktoren berechnet, und überprüft, ob die Items
wie erwartet auf den Faktoren laden.
Faktorenanalyse 39
Das „Rotationsproblem“
• Oftmals ist für eine inhaltlich sinnvolle Interpretation nach der Exraktion eine Rotation erforderlich
• Jede Variable soll nach der Rotation auf einen Faktor sehr hoch und auf alle anderen Faktoren sehr niedrig laden
• Ziel der Rotation: Einfachstruktur, d.h. jeder Faktor soll auf einigen Variablen sehr hoch und auf anderen Variablen sehr gering laden.
• Dann sind Faktoren leichter inhaltlich zu interpretieren
Faktorenanalyse 40
Das „Rotationsproblem“
y
z
xx
y
x
y
Unterschiedliche Rotationsverfahren:•Bei der orthogonalen Rotation bleiben die Faktoren unabhängig, d.h. sie stehen senkrecht aufeinander.•Bei der obliquen Rotation sind „schwiefwinklinge“ Zusammenhänge zwischen den Faktoren erlaubt.
Faktorenanalyse 41
Orthogonale Rotation
• Vorteil: Unabhängigkeit der Faktoren, d.h. es kommt zu einer maximalen Vereinfachung der Daten
• Informationen ist nicht mehrfach abgebildet• Faktoren korrelieren nicht miteinander• Das bekannteste Verfahren der orthogonalen Rotation ist
die „Varimax“-Methode.• Bei dieser Methode werden die Spaltensummen der
quadrierten Faktorladungsmatrix maximiert.
Faktorenanalyse 42
Oblique Rotation
• Das bekannteste Verfahren der obliquen Rotation ist die „Oblimin“-Methode.
• Vorteil: Möglichkeit, Faktoren höherer Ordnung zu bestimmen. Dazu werden die Faktorwerte jeder Person erneut faktorisiert.
• Beispiel: 100 Items eines Intelligenztests lassen sich auf 8 Aufgabentypen reduzieren. Diese 8 Aufgaben laden auf drei Faktoren: Räumliches Vorstellungsvermögen; Mathematische Intelligenz; Sprachliches Intelligenz Die drei Faktoren 2. Ordnung laden auf einem „Generalfaktor“
Faktor 3
Faktor 2
Faktor 1
Item 16
Item 15
Item 8
Item 7
Item 2
Item 1
...
...
Faktor 10
Item 100
Item 99
...
Faktor A
Faktor B
Faktor C
Faktor G
Faktorenanalyse 43
Faktorenanalyse 44
Faktorenanalyse - Zusammenfassung
Entscheidungen für die Berechnung:• Berechnungsverfahren
- Hauptkomponenten - Analyse- Hauptachsen - Analyse
• Anzahl der Faktoren: - Kaiser-Gutman-Kriterium (λ<1)- Screetest- Hypothesengeleitetes Vorgehen
• Art der Rotation- orthogonal (Varimax)- oblique (Oblimin)