Tutorat 8 Wiederholung Faktorenanalyse 7.07.2009

Tutorat 8

Wiederholung

Faktorenanalyse

7.07.2009

Wiederholung

• Die Kovarianzanalyse ist eine ……………… der ……………………

• Ziel: Statistische Kontrolle einer potentiellen …………… Reduktion der …………………

Berechnung:

–Zerlegung der Quadratsummen von Kovariate und AV

–Zerlegung der Produktsummen

–Berechnung der Modifizierten Quadratsummen

–F-Test

–Kontrolle der Fehlervarianzreduktion

Was muss gegeben sein, damit es sinnvoll ist die Kovariate bei der

statistischen Auswertung zu berücksichtigen?

Faktorenanalyse

Faktorenanalyse- Fragen

1. Was ist Ziel der FA? Nenne ein Beispiel für ihren Einsatz2. Was beschreiben die Eigenwerte?3. Was ist Kommunalität?4. Welche Gruppen von Rotationsarten gibt es und worin besteht

der Unterschied zwischen beiden Verfahren?5. Welche Methoden gibt es im Umgang mit dem

Extraktionsproblem?6. Voraussetzungen der FA?Zusatzfrage: Gibt es einen Zusammenhang zwischen der multiplen

Regression und der FA?

Faktorenanalyse

•Die Faktorenanalyse gehört zum Bereich der multivariaten Verfahren

Ziel:Die Faktorenanalyse versucht, eine Vielzahl von korrelierenderVariablen auf einen kleinen Satz unabhängiger latenter Variablen(Faktoren) zu reduzieren, die einen möglichst großen Teil der Varianz der Ausgangsvariablen aufklären. Hierbei geht es um die Reduktion von Information und um die Reduktion von Redundanzen (Interkorrelationen) zwischen den Variablen.

Anwendung: primär bei der Konstruktion von Fragebögen

Beispiel: Entwicklung eines Fragebogens zum Thema Gesellschaftliche Akzeptanz

von psychischen Störungen

• explorativ werden Items formuliert (z.B.über Literaturrecherche)

• Hierbei kann es zu Unterskalen kommen, welche einzelne Merkmale abbilden

– Akkzeptanz in der Öffentlichkeit

– Akkzeptanz am Arbeitsplatz

– Persönlicher Kontakt zu psychisch Kranken

Faktorenanalyse 8

Faktorenanalyse

Faktor 3

Faktor 2

Faktor 1

Item 16

Item 15

Item 8

Item 7

Item 2

Item 1

...

...

Multikollinearität

• Durchführung einer FA generell nur dann sinnvoll, wenn die einem Faktor zugeordneten Variablen hoch miteinander korrelieren

• Nur wenn dies vorliegt können sinnvolle Faktoren bestimmt werden, welche die Informationen aus den Variablen zusammnfassen

Zwei Subgruppen: EFA und CFA1. explorativen Faktorenanalyse (EFA) Dient dem Auffinden von Faktoren innerhalb eines

Variabensatzes (Subskalen) Zusammenhänge zwischen Variablengruppen werden gesucht Keine theoretische Grundlagen zur Anzahl der Faktoren oder

der Zuordnung der Variablen

2. konfirmatorischen Faktorenanalyse (CFA) Es wird überprüft, ob die in der Emperie gefundenen Daten zu einem zuvor definierten theoretischen Modell (Bestätigung eines Modells)Alternative Zuordnugen können nicht getestet werdenVariablen werden a priori bestimmten Skalen zugeordnet

Faktorenanalyse 11

Ablauf einer Faktorenanalyse• Ein Datensatz mit n Variablen kann als eine Punktewolke im „n-

dimensionalen Raum“ dargestellt werden:

• 2 Variablen (x, y) 2 Dimensionen

• 3 Variablen (x, y, z): 3 Dimensionen

y

x

y

x

z

Faktorenanalyse 12

Ablauf einer Faktorenanalyse• Bei einem echten Fragebogen gibt es natürlich sehr viel mehr als

3 Items.

• Dies ist dann jedoch nicht mehr graphisch darstellbar.

• Daher wird das Vorgehen im folgenden mit einer3-dimensionalen Darstellung veranschaulicht.

y

x

z

Faktorenanalyse 13

Ablauf einer Faktorenanalyse

• Als Faktoren werden neue Achsen gesucht, „die die Punktewolke möglichst gut beschreiben.“

• Die Achsen werden jeweils so gewählt, dass sie möglicht viel Varianz aufklären.

• Die Varianz ist in der Richtung am größten, in der die Punktewolke ihre größte Ausdehnung hat.

y

x

z

Faktorenanalyse 14

Erste Hauptachse

y

x

z

λ1

0

+1

-1

Die erste Hauptachse wird so gelegt, dass sie die Punktewolke in „der größten Breite“ durchschneidet.

Faktorenanalyse 15

Zweite Hauptachse

y

x

z

λ2λ1

• Die zweite Hauptachse muss von der ersten Achse unabhängig sein.

• Dies ist dann der Fall, wenn die Achsen senkrecht aufeinander stehen.

• Dabei wird die Achse wieder so gelegt, dass die maximale restliche Varianz aufgeklärt wird.

Faktorenanalyse 16

Dritte Hauptachse

y

x

z

λ3

λ1

λ2

• Die dritte Hauptachse muss von der ersten und der zweiten Achse unabhängig sein.

• Die Achse muss also einen rechten Winkel zu beiden anderen Achsen bilden.

• Im 3-dimensionalen Raum ist die Lage dieser Achse durch die der beiden anderen Achsen festgelegt.

Faktorenanalyse 17

Anzahl der Hauptachsen• Für jede Punktewolke gibt es theoretisch so viele unabhängige

Achsen, wie es Variablen gibt.

• Nach der Achsenbildung wird eine Person durch die Koordinaten auf den neuen Achsen dargestellt.

• Ziel ist eine Datenreduktion

Es ist nichts gewonnen, wenn die Information einer Person durch die gleiche Anzahl neuer Koordinaten dargestellt wird, wie vorher Variablenwerte bekannt waren.

• Es werden also weniger Faktoren gebildet, als Variablen vorhanden sind.

• Die Anzahl der Achsen (Faktoren) kann dabei entweder aufgrund von theoretischen Überlegungen erfolgen, oder aber sie wird nach einem empirischen Kriterium bestimmt (über den Anteil der aufgeklärten Varianz).

Voraussetzung der Faktorenanalyse

Für die Faktorenanalyse werden mehrere (p) Variablen(z.B. Items eines Fragebogens) benötigt, wobei für jede Person der Wert auf jeder Variable bekannt sein muss (Messwiederholung).

Dabei muss gelten:• Intervallskalenniveau der Variablen• Normalverteilung der Variablen• Anzahl Vpn: N ≥ 3·p (Richtwert)

• Es werden nur lineare Zusammenhänge abgebildet!

Faktorenanalyse 19

Mathematisches Vorgehen

(1) Matrix der Variablenwerte: XNxp

(2) Matrix der standardisierten Werte: ZNxp

(3) Korrelationsmatrix: Rpxp

Kommunalitätsproblem

(4) Reduzierte Korrelationsmatrix: hRpxp

Extraktionsproblem

(5) Faktorenladungsmatrix: Apxq

Rotationsproblem

(6) Rotierte Faktorenladungmatrix: A`pxq

Faktorwerteproblem

(7) Faktorenwertematrix: A`Nxq

N: Vpn

p Variablen

q Faktoren

Iterative Abschätzung

Faktorenanalyse 20

Matrix der Variablenwerte

NpN

p

xx

xx

X

1

111

• In einer Zeile stehen jeweils die Werte einer Vpn für alle p Variablen.

• In einer Spalte stehen die Werte aller Vpn für eine Variable.

Faktorenanalyse 21

Matrix der standardisierten Werte

NpN

p

zz

zz

Z

1

111

Alle Variablen („Spalten“) werden z-standardisiert, d.h. die Werte einer Spalte haben nun einen Mittelwert von M = 0 und eine Standardabweichung von SD = 1.

Faktorenanalyse 22

Korrelationsmatrix

1

1

1

1

1

p

p

r

r

R

Die Korrelationsmatrix R beinhaltet die bivariaten (paar-weisen) Korrelationen aller Variablen. Auf der Hauptdiagonale steht immer der Wert 1, da jede Variable mit sich selbst „perfekt“ korreliert (rii=1).

Faktorenanalyse 23

Korrelationsmatrix

1

1

1

1

1

p

p

r

r

R

Eine Faktorenanalyse ist nur dann sinnvoll, wenn der Datensatz substantielle Korrelationen aufweist. Dies ist dann der Fall, wenn sich die Korrelationsmatrix (R)signifikant von der Einheitsmatrix (E) unterscheidet. Eine statistische Überprüfung ist mit dem Bartlett-Test möglich.

100

010

001

E

Faktorenanalyse 24

Das Fundamentaltheorem

Das Fundamentaltheorem der Faktorenanalyse besagt, dass sich jeder der standardisierten Werte als Linearkombination der Faktorwerte und der Faktorladungen beschreiben lässt:

pjipjijiij afafafz ...2211

mit:

ZNxp: standardisierte Ausgangsmatrix

FNxp: Faktorwertematrix

Apxp: Faktorladungsmatrix

zij: standardisierter Wert der Person i auf der Variable j

p: Anzahle der Variablen = Anzahl der Faktoren (nur am Anfang!)

Faktorenanalyse 25

Faktorladungen

Die Faktorladungen sind die Korrelationen der Faktorwerte mit den Ausgangswerten der Variablen.

Personen, die hohe Werte auf dem Faktor haben, haben auch hohe Werte auf x (und umgekehrt)Hohe Korrelation von x und λ.Die Korrelation eines Faktors

und einer Variablen hängt vom Winkel ab

y

x

0+1

-1+

++

+

y

x

0+1

-1+

++

+

Faktorenanalyse 26

Das Faktorladungsmatrix

Die Faktorladungsmatrix enthält die Faktorladungen (Korrel-ationen) aller Variablen auf allen Faktoren:

pqp

q

aa

aa

A

1

111 p: Variablen

q: Faktoren

Faktorenanalyse 27

Aufgeklärte Varianz

Quadriert man die Faktorladungen, ergeben sich Determinationskoeffizienten, die den Anteil der durcheinen Faktor aufgeklärter Varianz der Gesamtvarianz einer Variablen angeben.

22

22

1

111

pqp

q

aa

aa

D

p: Variablen

q: Faktoren

Faktorenanalyse 28

KommunalitätDie Kommunalität (h²) einer Variablen ist die insgesamt durch alle Faktoren aufgeklärte Varianz dieser Variablen. Die Kommunalität wird als „Zeilensumme“ in der Matrix der Determinationskoeffizienten berechnet.

Die Kommunalität nimmt immer Werte zwischen 0 (0% aufgeklärte Varianz) und 1 (100% aufgeklärte Varianz) an.

22

22

1

111

pqp

q

aa

aa

D

p: Variablen

q: Faktoren

q

kjkj ah

1

22 „Kommunalität der Variablen j“

Faktorenanalyse 29

EigenwertDer Eigenwert (λ) eines Faktors gibt an, wie viel Varianz dieser Faktor an allen Variablen aufklärt. Der Eigenwert wird als „Spaltensumme“ in der Matrix der Determinationskoeffizienten berechnet.

p

jjkk a

1

2

• Der Wertebereich des Eigenwerts hängt von der Anzahl der Variablen ab: 0 < λ < p.

• Ein Eigenwert von 1 bedeutet, dass ein Faktor insgesamt soviel Varianz aufklärt, wie eine (jede) der standardisierten Variablen aufweist.

• Je größer der Eigenwert eines Faktors, desto „besser“ ist ein Faktor.

• Eine Selektionsstrategie zur Bestimmung der Anzahl der Faktoren besteht darin, alle Faktoren mit λ>1 zu akzeptieren.

Faktorenanalyse 30

Formen der FA

• „Kommunalitätsproblem“: Wie viel Varianz von jeder Variablen wird zu Beginn der FA aufgeklärt, also bevor die endgültige Lage der Faktoren bekannt ist?Wenn die Variable selbst als Faktor berücksichtigt wird: 100%

h² = 1Wenn nur die anderen Variablen berücksichtigt werden: weniger

h² < 1

• Bei der Hauptkomponentenanalyse (PCA = Principal Component Analysis) wird zu Beginn des Optimierungsprozesses eine Kommunalität von 1 angenommen.

• Bei der Hauptachsenanalyse wird zu Beginn des Optimierungsprozesses die Kommunalität für jede Variable geschäzt

Faktorenanalyse 31

Formen der FA

• Inhaltlicher Unterschied:Hauptkomponentenanalyse:

Die insgesamt aufgeklärte Varianz wird maximiert.Es kann Faktoren geben, auf denen nur eine einzige Variable hoch lädt.Dieses Verfahren wird von Bortz empfohlen

Haupachsenanalyse:Es werden Faktoren bevorzugt, auf denen viele Variablen laden.Dieses Verfahren wird von Leonhart empfohlen.

Faktorenanalyse 32

Das „Extraktionsproblem“

• Zur Berechnung der FA, werden genau so viele Faktoren wie Variablen gebildet

• Datenreduktion??

• Später: Faktoren weggelassen, die wenig Varianz aufklären.

• Unterschiedliche Kriterien: Kaiser-Gutman-Regel Kriterium der extrahierten Varianz Screetest Theoriegeleitetes Vorgehen

Faktorenanalyse 33

Kaiser-Gutman-Regel

Nach der Kaiser-Gutman-Regel werden nur Faktoren mit einem Eigenwert > 1 berücksichtigt.

• Nach diesem Kriterium werden also alle Faktoren berücksichtigt, die zumindest den Varianzanteil einer Variablen aufklären.

• Vorraussetzungen:N > 5·pFaktorenzahl zwischen p/5 und p/3

Faktorenanalyse 34

Kriterium der extrahierten Varianz

• Es wird festgelegt, wie viel Varianz aufgeklärt werden soll.

• Problem: Es kann kaum begründet werden, welcher Varianzanteil hier gewählt wird (z.B. 50%, 90%)

• Vorgehen:• Die Faktoren werden nach ihren Eigenwerten sortiert:

• Alle Eigenwerte werden aufsummiert Sum(λ) = p• Für jeden Eigenwert wird der Anteil aufgeklärter Varianz als

λ / p berechnet.• Es werden alle Faktoren berücksichtigt, bis die kumulierte

Varianz das Kriterium übertrifft:

Faktorenanalyse 35

Kriterium der extrahierten Varianz

Erklärte Gesamtvarianz

5.262 35.083 35.083

1.636 10.908 45.991

1.477 9.849 55.840

1.219 8.126 63.966

1.112 7.412 71.378

.841 5.605 76.983

.650 4.335 81.318

.585 3.902 85.220

.534 3.560 88.780

.485 3.231 92.011

.357 2.381 94.392

.259 1.728 96.120

.243 1.619 97.739

.182 1.211 98.950

.157 1.050 100.000

Komponente1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

Gesamt % der Varianz Kumulierte %

Anfängliche Eigenwerte

Extraktionsmethode: Hauptkomponentenanalyse.

Eigenwerte

3 Faktoren klären über 50% der Merkmals-varianz auf.

10 Faktoren klären über 90% der Merkmalsvarianz auf.

Kaiser-Gutman Kriterium

Faktorenanalyse 36

Screetest

• Der Scree-Test (Geröll-Test) ist eine graphische Methode um eine sinnvolle Anzahl von Faktoren zu bestimmen.

• Dazu werden die Eigenwerte der Faktoren als Graphik dargestellt.

• Es werden nur Faktoren ausgewählt, bevor der Graph eine „Ebene“ erreicht.

• Problem: Oft ist dieses Kriterium nicht eindeutig!

Faktorenanalyse 37

Screetest

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Faktor

0

1

2

3

4

5

6E

igen

wer

t

Screeplot

Faktorenanalyse 38

Theoriegeleitetes Vorgehen

• SPSS erlaubt es auch, direkt die Anzahl der erwünschten Faktoren einzugeben.

• So ist es möglich, verschiedene Lösungen auszuprobieren, und jeweils zu überprüfen, ob sich eine inhaltlich sinnvolle Lösung ergibt.

• Beispiel: Es wird aufgrund theoretischer Überlegungen erwartet, dass sich die Aufgaben eines Intelligenztests drei Faktoren zuordnen lässt:

• Räumliches Vorstellungsvermögen

• Mathematische Intelligenz

• Sprachliches Intelligenz Es wird eine Lösung mit 3 Faktoren berechnet, und überprüft, ob die Items

wie erwartet auf den Faktoren laden.

Faktorenanalyse 39

Das „Rotationsproblem“

• Oftmals ist für eine inhaltlich sinnvolle Interpretation nach der Exraktion eine Rotation erforderlich

• Jede Variable soll nach der Rotation auf einen Faktor sehr hoch und auf alle anderen Faktoren sehr niedrig laden

• Ziel der Rotation: Einfachstruktur, d.h. jeder Faktor soll auf einigen Variablen sehr hoch und auf anderen Variablen sehr gering laden.

• Dann sind Faktoren leichter inhaltlich zu interpretieren

Faktorenanalyse 40

Das „Rotationsproblem“

y

z

xx

y

x

y

Unterschiedliche Rotationsverfahren:•Bei der orthogonalen Rotation bleiben die Faktoren unabhängig, d.h. sie stehen senkrecht aufeinander.•Bei der obliquen Rotation sind „schwiefwinklinge“ Zusammenhänge zwischen den Faktoren erlaubt.

Faktorenanalyse 41

Orthogonale Rotation

• Vorteil: Unabhängigkeit der Faktoren, d.h. es kommt zu einer maximalen Vereinfachung der Daten

• Informationen ist nicht mehrfach abgebildet• Faktoren korrelieren nicht miteinander• Das bekannteste Verfahren der orthogonalen Rotation ist

die „Varimax“-Methode.• Bei dieser Methode werden die Spaltensummen der

quadrierten Faktorladungsmatrix maximiert.

Faktorenanalyse 42

Oblique Rotation

• Das bekannteste Verfahren der obliquen Rotation ist die „Oblimin“-Methode.

• Vorteil: Möglichkeit, Faktoren höherer Ordnung zu bestimmen. Dazu werden die Faktorwerte jeder Person erneut faktorisiert.

• Beispiel: 100 Items eines Intelligenztests lassen sich auf 8 Aufgabentypen reduzieren. Diese 8 Aufgaben laden auf drei Faktoren: Räumliches Vorstellungsvermögen; Mathematische Intelligenz; Sprachliches Intelligenz Die drei Faktoren 2. Ordnung laden auf einem „Generalfaktor“

Faktor 3

Faktor 2

Faktor 1

Item 16

Item 15

Item 8

Item 7

Item 2

Item 1

...

...

Faktor 10

Item 100

Item 99

...

Faktor A

Faktor B

Faktor C

Faktor G

Faktorenanalyse 43

Faktorenanalyse 44

Faktorenanalyse - Zusammenfassung

Entscheidungen für die Berechnung:• Berechnungsverfahren

- Hauptkomponenten - Analyse- Hauptachsen - Analyse

• Anzahl der Faktoren: - Kaiser-Gutman-Kriterium (λ<1)- Screetest- Hypothesengeleitetes Vorgehen

• Art der Rotation- orthogonal (Varimax)- oblique (Oblimin)

Documents

Tutorat 8 Wiederholung Faktorenanalyse 7.07.2009