View
107
Download
0
Category
Preview:
Citation preview
Clusteranalyse
von
Maria Eickhold
und
Tobias Töpfer
Gliederung
1. Einführung
2. Vorstellen des Beispiels
3. Proximitätsmaße
4. Methoden zur Clusterbildung
5. Homogenitätsbeurteilung
6. Zusammenfassung
1. Einführung
• „Clusteranalyse“ ist Sammelbegriff für verschiedene Verfahren Objekte auf Grund verschiedener Merkmale zu Klassen/ Clustern zusammen zu fassen
• Andere Methode: Schwellenwerte weniger objektiv
• Klassen sollen in sich möglichst homogen sein, untereinander aber maximal unähnliche Ausprägungen der herangezogenen Merkmale aufweisen
Anwendung in der Geographie:
• Hier dient die Clusteranalyse hauptsächlich dazu, Raumeinheiten sinnvoll zu gliedern um sie vergleichbar zu machen.
• Durch Clusterung wird eine große Menge von Einzel-Daten überschaubar
Vorraussetzungen zur Durchführung einer Clusteranalyse
• Verschiedene Merkmale haben verschiedene Maßeinheiten Standardisieren :
• unabhängige (orthogolnale) Variablen • Variablen sollten auf ein Ziel/ Zweck
abgestimmt sein • Faktorenanalyse zum herausfiltern der
wichtigsten Variablen bietet sich an
x
ii S
XXZ
(Rosner 2001: 21)
http://dev.lib.utexas.edu/maps/africa/tunisia_pol_1990.jpg(Stand: 09.06.2002)
2. Tunesien-Beispiel
Klimastation
3. Proximitäts-/ Ähnlichkeitsmaße
3.1.1. Manhattan-/ City-Block Distanz
MD
m
ijkd
1ikij xx
djk: Distanz der Objekte „j“ u. „k"
xi: herangezogenes Merkmal
xij: Ausprägung des Merkmals
„i“ bei Objekt „j“
Entfernung entlang der Koordinatenachsen
x1j x1k
x2k
x2j
(Bahrenberg et al. 1992: 282)
3.1.2 Quadratische euklidische Distanz
EDQ
m
ijkd
1
2ikij )x(x
Große Entfernungen (>1) werden stärker gewichtet, als kleine (<1)
Euklidische Distanz
EDjkm
i
d 1
2ikij )x(x
Luftlinienentfernung
x2j
x2k
x1j x1k x1
x2
(Bahrenberg et al. 1992: 282)
(Bahrenberg et al. 1992: 282)
3.1.3 Korrelationskoeffizient zwischen
zwei VariablencosCORjkr
rjk: Korrelationskoeffizient
zwischen den Objekten „j“ u. „k";
mögliche Werte zwischen +1 u.-1 (je größer der Wert, desto größer die Ähnlichkeit)
x1
x2
(Bahrenberg et al. 1992: 282)
Ähnlichkeitsmatrix QED(Tunesien-Beispiel)
Erstellt mit SPSSGrundlage: Standardisierte Werte für Temperatur und
geographische Breite
3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen
Beispiele: weiblich/männlich
Nationalität
Voraussetzung: Binäre Variablenstruktur
Ergebnis: Ähnlichkeitsmaße
Wert 0 = absolute Unähnlichkeit
Wert 1 = absolute Ähnlichkeit
Objekt1
Objekt 2
Eigenschaft vorhanden
Eigenschaft nicht vorhanden
Zeilensumme
Eigenschaft vorhanden
a c a + c
Eigenschaft nicht vorhanden
b d b + d
Spaltensumme a + b c + d a + b + c + d = m
Nach: Backhaus et al. 1994: 265 (verändert)
3.2 Proximitätsmaße bei Objekten mit
nominal skalierten Merkmalen
Kombinationsmöglichkeiten binärer Variablen
3.2 Beispiel-Datenmatrix für Proximitäts- maße
Eigenschaft
Personen
weiblich Rentner Schüler Monatl. Eink.
> 1000 €
Max 0 1 0 1
Helmut 0 0 0 1
Vivian 1 0 1 0
Melanie 1 0 0 1
Jörg 0 1 0 1
(0: Eigenschaft nicht vorhanden; 1: Eigenschaft vorhanden)
3.2.1 Simple-Matching-Koeffizient (M-K.):
3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen
(Backhaus et al. 1994: 266)
mit: Sjk : Ähnlichkeit zwischen den Objekten j u. k
m
daS jk
3.2.1 Beispiel für Simple-Matching- Koeffizient (M-K.)
Max Helmut Vivian Melanie Jörg
Max 1
Helmut 0,75 1
Vivian 0 0,25 1
Melanie 0,5 0,75 0,5 1
Jörg 1 0,75 0 0,5 1
3.2.2 Tanimoto- bzw. Jaccard-Koeffizient:
3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen
cba
aS jk
(Backhaus et al. 1994: 266)
mit: Sjk : Ähnlichkeit zwischen den Objekten j u. k
3.2.2 Beispiel für Tanimoto- bzw. Jaccard-Koeffizient Max Helmut Vivian Melanie Jörg
Max 1
Helmut 0,5 1
Vivian 0 0 1
Melanie 0,5 0,5 0,33 1
Jörg 1 0,5 0 0,33 1
4. Methoden zur ClusterbildungA
us: Rosner 2001:
65
4.1 Complete Linkage
CskCrjdMaxd jkCsCr ,,,
Als Entfernung zwischen 2 Clustern wird die Distanz ihrer äußersten Punkte gemessen. Fusioniert werden die Cluster mit der geringsten Distanz.
Eigenschaften:
Zur Zuordnung sehr nahe liegender Objekte neigend Kleinere, homogenere Cluster
(Bahrenberg et al. 1992: 285)
Durchführung des Complete-Linkage- Verfahrens mit QED Beispiel Tunesien
1. Ausgabe der Ähnlichkeitsmatrix
2. Zuordnungsübersicht
3. Linkage Tree
4. Elbow-Diagramm zur Festlegung der Anzahl der Cluster
Vorstellung der SPSS Komponenten
Zuordnungsübersicht
5 7 5,982E-03 0 0 5
3 11 9,266E-03 0 0 3
1 3 1,952E-02 0 2 4
1 13 2,037E-02 3 0 6
4 5 3,092E-02 0 1 6
1 4 3,992E-02 4 5 12
16 17 5,905E-02 0 0 13
21 22 6,454E-02 0 0 19
6 12 9,563E-02 0 0 17
18 23 ,121 0 0 14
8 14 ,158 0 0 18
1 2 ,206 6 0 15
15 16 ,296 0 7 20
18 19 ,454 10 0 16
1 10 ,494 12 0 17
18 20 ,628 14 0 19
1 6 ,906 15 9 20
8 9 1,171 11 0 21
18 21 1,275 16 8 22
1 15 1,543 17 13 21
1 8 3,731 20 18 22
1 18 7,506 21 19 0
Schritt1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
Cluster 1 Cluster 2
ZusammengeführteCluster
Koeffizienten Cluster 1 Cluster 2
Erstes Vorkommendes Clusters Nächster
Schritt
Zuordnungs-übersicht
Complete-Linkage; QED
Ähnlich-keitsmatrix
QED
Zuordnungsübersicht
5 7 5,982E-03 0 0 5
3 11 9,266E-03 0 0 3
1 3 1,952E-02 0 2 4
1 13 2,037E-02 3 0 6
4 5 3,092E-02 0 1 6
1 4 3,992E-02 4 5 12
16 17 5,905E-02 0 0 13
21 22 6,454E-02 0 0 19
6 12 9,563E-02 0 0 17
18 23 ,121 0 0 14
8 14 ,158 0 0 18
1 2 ,206 6 0 15
15 16 ,296 0 7 20
18 19 ,454 10 0 16
1 10 ,494 12 0 17
18 20 ,628 14 0 19
1 6 ,906 15 9 20
8 9 1,171 11 0 21
18 21 1,275 16 8 22
1 15 1,543 17 13 21
1 8 3,731 20 18 22
1 18 7,506 21 19 0
Schritt1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
Cluster 1 Cluster 2
ZusammengeführteCluster
Koeffizienten Cluster 1 Cluster 2
Erstes Vorkommendes Clusters Nächster
Schritt
Linkage-Tree
Elbow- Diagramm (Festlegung der Anzahl der Cluster)Zuordnungsübersicht
5 7 5,982E-03 0 0 5
3 11 9,266E-03 0 0 3
1 3 1,952E-02 0 2 4
1 13 2,037E-02 3 0 6
4 5 3,092E-02 0 1 6
1 4 3,992E-02 4 5 12
16 17 5,905E-02 0 0 13
21 22 6,454E-02 0 0 19
6 12 9,563E-02 0 0 17
18 23 ,121 0 0 14
8 14 ,158 0 0 18
1 2 ,206 6 0 15
15 16 ,296 0 7 20
18 19 ,454 10 0 16
1 10 ,494 12 0 17
18 20 ,628 14 0 19
1 6 ,906 15 9 20
8 9 1,171 11 0 21
18 21 1,275 16 8 22
1 15 1,543 17 13 21
1 8 3,731 20 18 22
1 18 7,506 21 19 0
Schritt1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
Cluster 1 Cluster 2
ZusammengeführteCluster
Koeffizienten Cluster 1 Cluster 2
Erstes Vorkommendes Clusters Nächster
Schritt
Ähnlichkeiten
0
1
2
3
4
5
6
7
8
Distanzen
Schritte
Z-Wert(TEMP)
210-1-2-3
Z-W
ert
(GE
OB
RE
)
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
-2,0
Clusterung mit QED und Complete Linkage
am Tunesien-
Beispiel
mit 2 Clustern O
mit 3 Clustern O
Mit 4 Clustern O
Als Entfernung zwischen 2 Clustern wird die Distanz ihrer sich am nächsten liegenden Punkte gemessen. Fusioniert werden die Cluster mit der geringsten Distanz.
CskCrjdMind jkCsCr ,,,
Eigenschaften:
Neigt dazu, entferntere Objekte zuzuordnen Entstehung wenigerer größerer Cluster
Ausreißer
Neigt zur Verkettung von Objekten
4.2 Single Linkage
(Bahrenberg et al. 1992: 285)
Alle Distanzen zwischen allen Objekten eines Clusters und allen Objekten eines anderen Clusters werden addiert und durch die Anzahl aller betreffenden Objekte dividiert.
jkCskCrjsr
CsCr dnn
d
11
, (Bahrenberg et al. 1992: 285)
4.3 Average-Linkage
Streudiagramm mit Klimastationsnummern
47
1
3: zwischen 4 und 1
11
5
213
21
22
2318
20
19
17
1615
10
126
9
148
33
33,5
34
34,5
35
35,5
36
36,5
37
37,5
38
14 15 16 17 18 19 20 21 22
Jahresdurchschnittstemperatur in °C
Ge
og
rap
hisc
he B
reite
in °
4.3 Clusterung mit QED und Average-Linkage
am Tunesien-
Beispiel
mit 2 Clustern O
mit 3 Clustern O
Mit 4 Clustern O
Als Entfernung zwischen 2 Clustern wird die Distanz ihrer immer neu berechneten Mittelpunkte (Zentroide) gemessen. Fusioniert werden die Cluster mit der geringsten Distanz.
4.4 Zentroid Linkage
ZsZrCsCr dd ,, Z: Zentroid(Bahrenberg et al. 1992: 285)
Fusionskriterium: geringe Streuung (Varianz)
Voraussetzung: quadrierte euklidische Distanzen
Ziel: möglichst homogene Cluster
4.5 Ward-Verfahren
Vorgehen: 1. Bestimmung der Clustervarianz
2. Bestimmung der Gesamtvarianz
3. Zusammenfassung von Clustern unter der
Bedingung minimaler Steigerung der
Gesamtvarianz
Eigenschaften: - ordnet Objekte „richtig“ den Gruppen zu
- bildet in etwa gleich große Cluster
4. 5 Clusterung mit QED und Ward
am Tunesien-
Beispiel
mit 2 Clustern O
mit 3 Clustern O
Mit 4 Clustern O
Streudiagramm mit Klimastationsnummern
47
1
3: zwischen 4 und 1
11
5
213
21
22
2318
20
19
17
1615
10
126
9
148
33
33,5
34
34,5
35
35,5
36
36,5
37
37,5
38
14 15 16 17 18 19 20 21 22
Jahresdurchschnittstemperatur in °C
Ge
og
rap
hisc
he B
reite
in °
4.6. Übersicht über die Ergebnisse mit den Verschiedenen Clusterbildungsverfahren
Z-Wert(TEMP)
210-1-2-3
Z-W
ert
(GE
OB
RE
)
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
-2,0
Z-Wert(TEMP)
210-1-2-3
Z-W
ert
(GE
OB
RE
)
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
-2,0
Z-Wert(TEMP)
210-1-2-3
Z-W
ert
(GE
OB
RE
)
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
-2,0
Zentroid
Zentroid
Single
Ward Z-Wert(TEMP)
210-1-2-3
Z-W
ert
(GE
OB
RE
)
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
-2,0
Average
mit 2 Clustern O
mit 3 Clustern O
Mit 4 Clustern O
5. Homogenitätsbeurteilung
)(
),(
JV
GJVF
mit: V(J,G): Varianz der Variablen J in Cluster GV(J): Varianz der Variablen J in der Erhebungs-gesamtheit
(Backhaus et al. 1994: 310)F-Wert:
Verfahren: F-Werte für alle Variablen bestimmen
Ergebnis: wenn alle F-Werte < 1, dann gilt Cluster als vollkommen homogen
6. Zusammenfassung
• Clusteranalyse dient der Gruppenbildung
• Vielfältige Methoden – welche, abhängig von Frage und Objekten
• Manipulationsmöglichkeiten;
Stichwort: Herbeiclustern
• Dokumentation der Methoden
• Gruppenbildung Generalisierung
Informationsverlust
• Cluster verbal interpretieren und charakterisieren
Recommended