Clusteranalyse von Maria Eickhold und Tobias Töpfer

Clusteranalyse

Maria Eickhold

Tobias Töpfer

Gliederung

1. Einführung

2. Vorstellen des Beispiels

3. Proximitätsmaße

4. Methoden zur Clusterbildung

5. Homogenitätsbeurteilung

6. Zusammenfassung

1. Einführung

• „Clusteranalyse“ ist Sammelbegriff für verschiedene Verfahren Objekte auf Grund verschiedener Merkmale zu Klassen/ Clustern zusammen zu fassen

• Andere Methode: Schwellenwerte weniger objektiv

• Klassen sollen in sich möglichst homogen sein, untereinander aber maximal unähnliche Ausprägungen der herangezogenen Merkmale aufweisen

Anwendung in der Geographie:

• Hier dient die Clusteranalyse hauptsächlich dazu, Raumeinheiten sinnvoll zu gliedern um sie vergleichbar zu machen.

• Durch Clusterung wird eine große Menge von Einzel-Daten überschaubar

Vorraussetzungen zur Durchführung einer Clusteranalyse

• Verschiedene Merkmale haben verschiedene Maßeinheiten Standardisieren :

• unabhängige (orthogolnale) Variablen • Variablen sollten auf ein Ziel/ Zweck

abgestimmt sein • Faktorenanalyse zum herausfiltern der

wichtigsten Variablen bietet sich an

(Rosner 2001: 21)

http://dev.lib.utexas.edu/maps/africa/tunisia_pol_1990.jpg(Stand: 09.06.2002)

2. Tunesien-Beispiel

Klimastation

3. Proximitäts-/ Ähnlichkeitsmaße

3.1.1. Manhattan-/ City-Block Distanz

1ikij xx

djk: Distanz der Objekte „j“ u. „k"

xi: herangezogenes Merkmal

xij: Ausprägung des Merkmals

„i“ bei Objekt „j“

Entfernung entlang der Koordinatenachsen

x1j x1k

(Bahrenberg et al. 1992: 282)

3.1.2 Quadratische euklidische Distanz

2ikij )x(x

Große Entfernungen (>1) werden stärker gewichtet, als kleine (<1)

Euklidische Distanz

2ikij )x(x

Luftlinienentfernung

x1j x1k x1

3.1.3 Korrelationskoeffizient zwischen

zwei VariablencosCORjkr

rjk: Korrelationskoeffizient

zwischen den Objekten „j“ u. „k";

mögliche Werte zwischen +1 u.-1 (je größer der Wert, desto größer die Ähnlichkeit)

Ähnlichkeitsmatrix QED(Tunesien-Beispiel)

Erstellt mit SPSSGrundlage: Standardisierte Werte für Temperatur und

geographische Breite

3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen

Beispiele: weiblich/männlich

Nationalität

Voraussetzung: Binäre Variablenstruktur

Ergebnis: Ähnlichkeitsmaße

Wert 0 = absolute Unähnlichkeit

Wert 1 = absolute Ähnlichkeit

Objekt1

Objekt 2

Eigenschaft vorhanden

Eigenschaft nicht vorhanden

Zeilensumme

Eigenschaft vorhanden

a c a + c

Eigenschaft nicht vorhanden

b d b + d

Spaltensumme a + b c + d a + b + c + d = m

Nach: Backhaus et al. 1994: 265 (verändert)

3.2 Proximitätsmaße bei Objekten mit

nominal skalierten Merkmalen

Kombinationsmöglichkeiten binärer Variablen

3.2 Beispiel-Datenmatrix für Proximitäts- maße

Eigenschaft

Personen

weiblich Rentner Schüler Monatl. Eink.

> 1000 €

Max 0 1 0 1

Helmut 0 0 0 1

Vivian 1 0 1 0

Melanie 1 0 0 1

Jörg 0 1 0 1

(0: Eigenschaft nicht vorhanden; 1: Eigenschaft vorhanden)

3.2.1 Simple-Matching-Koeffizient (M-K.):

(Backhaus et al. 1994: 266)

mit: Sjk : Ähnlichkeit zwischen den Objekten j u. k

daS jk

3.2.1 Beispiel für Simple-Matching- Koeffizient (M-K.)

Max Helmut Vivian Melanie Jörg

Helmut 0,75 1

Vivian 0 0,25 1

Melanie 0,5 0,75 0,5 1

Jörg 1 0,75 0 0,5 1

3.2.2 Tanimoto- bzw. Jaccard-Koeffizient:

(Backhaus et al. 1994: 266)

mit: Sjk : Ähnlichkeit zwischen den Objekten j u. k

3.2.2 Beispiel für Tanimoto- bzw. Jaccard-Koeffizient Max Helmut Vivian Melanie Jörg

Helmut 0,5 1

Vivian 0 0 1

Melanie 0,5 0,5 0,33 1

Jörg 1 0,5 0 0,33 1

4. Methoden zur ClusterbildungA

us: Rosner 2001:

4.1 Complete Linkage

CskCrjdMaxd jkCsCr ,,,

Als Entfernung zwischen 2 Clustern wird die Distanz ihrer äußersten Punkte gemessen. Fusioniert werden die Cluster mit der geringsten Distanz.

Eigenschaften:

Zur Zuordnung sehr nahe liegender Objekte neigend Kleinere, homogenere Cluster

Durchführung des Complete-Linkage- Verfahrens mit QED Beispiel Tunesien

1. Ausgabe der Ähnlichkeitsmatrix

2. Zuordnungsübersicht

3. Linkage Tree

4. Elbow-Diagramm zur Festlegung der Anzahl der Cluster

Vorstellung der SPSS Komponenten

Zuordnungsübersicht

5 7 5,982E-03 0 0 5

3 11 9,266E-03 0 0 3

1 3 1,952E-02 0 2 4

1 13 2,037E-02 3 0 6

4 5 3,092E-02 0 1 6

1 4 3,992E-02 4 5 12

16 17 5,905E-02 0 0 13

21 22 6,454E-02 0 0 19

6 12 9,563E-02 0 0 17

18 23 ,121 0 0 14

8 14 ,158 0 0 18

1 2 ,206 6 0 15

15 16 ,296 0 7 20

18 19 ,454 10 0 16

1 10 ,494 12 0 17

18 20 ,628 14 0 19

1 6 ,906 15 9 20

8 9 1,171 11 0 21

18 21 1,275 16 8 22

1 15 1,543 17 13 21

1 8 3,731 20 18 22

1 18 7,506 21 19 0

Schritt1

Cluster 1 Cluster 2

ZusammengeführteCluster

Koeffizienten Cluster 1 Cluster 2

Erstes Vorkommendes Clusters Nächster

Schritt

Zuordnungs-übersicht

Complete-Linkage; QED

Ähnlich-keitsmatrix

Zuordnungsübersicht

5 7 5,982E-03 0 0 5

3 11 9,266E-03 0 0 3

1 3 1,952E-02 0 2 4

1 13 2,037E-02 3 0 6

4 5 3,092E-02 0 1 6

1 4 3,992E-02 4 5 12

16 17 5,905E-02 0 0 13

21 22 6,454E-02 0 0 19

6 12 9,563E-02 0 0 17

18 23 ,121 0 0 14

8 14 ,158 0 0 18

1 2 ,206 6 0 15

15 16 ,296 0 7 20

18 19 ,454 10 0 16

1 10 ,494 12 0 17

18 20 ,628 14 0 19

1 6 ,906 15 9 20

8 9 1,171 11 0 21

18 21 1,275 16 8 22

1 15 1,543 17 13 21

1 8 3,731 20 18 22

1 18 7,506 21 19 0

Schritt1

Cluster 1 Cluster 2

Schritt

Linkage-Tree

Elbow- Diagramm (Festlegung der Anzahl der Cluster)Zuordnungsübersicht

5 7 5,982E-03 0 0 5

3 11 9,266E-03 0 0 3

1 3 1,952E-02 0 2 4

1 13 2,037E-02 3 0 6

4 5 3,092E-02 0 1 6

1 4 3,992E-02 4 5 12

16 17 5,905E-02 0 0 13

21 22 6,454E-02 0 0 19

6 12 9,563E-02 0 0 17

18 23 ,121 0 0 14

8 14 ,158 0 0 18

1 2 ,206 6 0 15

15 16 ,296 0 7 20

18 19 ,454 10 0 16

1 10 ,494 12 0 17

18 20 ,628 14 0 19

1 6 ,906 15 9 20

8 9 1,171 11 0 21

18 21 1,275 16 8 22

1 15 1,543 17 13 21

1 8 3,731 20 18 22

1 18 7,506 21 19 0

Schritt1

Cluster 1 Cluster 2

Schritt

Ähnlichkeiten

Distanzen

Schritte

Z-Wert(TEMP)

210-1-2-3

Clusterung mit QED und Complete Linkage

am Tunesien-

Beispiel

mit 2 Clustern O

mit 3 Clustern O

Mit 4 Clustern O

Als Entfernung zwischen 2 Clustern wird die Distanz ihrer sich am nächsten liegenden Punkte gemessen. Fusioniert werden die Cluster mit der geringsten Distanz.

CskCrjdMind jkCsCr ,,,

Eigenschaften:

Neigt dazu, entferntere Objekte zuzuordnen Entstehung wenigerer größerer Cluster

Ausreißer

Neigt zur Verkettung von Objekten

4.2 Single Linkage

Alle Distanzen zwischen allen Objekten eines Clusters und allen Objekten eines anderen Clusters werden addiert und durch die Anzahl aller betreffenden Objekte dividiert.

jkCskCrjsr

CsCr dnn

, (Bahrenberg et al. 1992: 285)

4.3 Average-Linkage

Streudiagramm mit Klimastationsnummern

3: zwischen 4 und 1

14 15 16 17 18 19 20 21 22

Jahresdurchschnittstemperatur in °C

4.3 Clusterung mit QED und Average-Linkage

am Tunesien-

Beispiel

mit 2 Clustern O

mit 3 Clustern O

Mit 4 Clustern O

Als Entfernung zwischen 2 Clustern wird die Distanz ihrer immer neu berechneten Mittelpunkte (Zentroide) gemessen. Fusioniert werden die Cluster mit der geringsten Distanz.

4.4 Zentroid Linkage

ZsZrCsCr dd ,, Z: Zentroid(Bahrenberg et al. 1992: 285)

Fusionskriterium: geringe Streuung (Varianz)

Voraussetzung: quadrierte euklidische Distanzen

Ziel: möglichst homogene Cluster

4.5 Ward-Verfahren

Vorgehen: 1. Bestimmung der Clustervarianz

2. Bestimmung der Gesamtvarianz

3. Zusammenfassung von Clustern unter der

Bedingung minimaler Steigerung der

Gesamtvarianz

Eigenschaften: - ordnet Objekte „richtig“ den Gruppen zu

- bildet in etwa gleich große Cluster

4. 5 Clusterung mit QED und Ward

am Tunesien-

Beispiel

mit 2 Clustern O

mit 3 Clustern O

Mit 4 Clustern O

Streudiagramm mit Klimastationsnummern

3: zwischen 4 und 1

14 15 16 17 18 19 20 21 22

Jahresdurchschnittstemperatur in °C

4.6. Übersicht über die Ergebnisse mit den Verschiedenen Clusterbildungsverfahren

Z-Wert(TEMP)

210-1-2-3

Z-Wert(TEMP)

210-1-2-3

Z-Wert(TEMP)

210-1-2-3

Zentroid

Single

Ward Z-Wert(TEMP)

210-1-2-3

Average

mit 2 Clustern O

mit 3 Clustern O

Mit 4 Clustern O

5. Homogenitätsbeurteilung

mit: V(J,G): Varianz der Variablen J in Cluster GV(J): Varianz der Variablen J in der Erhebungs-gesamtheit

(Backhaus et al. 1994: 310)F-Wert:

Verfahren: F-Werte für alle Variablen bestimmen

Ergebnis: wenn alle F-Werte < 1, dann gilt Cluster als vollkommen homogen

6. Zusammenfassung

• Clusteranalyse dient der Gruppenbildung

• Vielfältige Methoden – welche, abhängig von Frage und Objekten

• Manipulationsmöglichkeiten;

Stichwort: Herbeiclustern

• Dokumentation der Methoden

• Gruppenbildung Generalisierung

Informationsverlust

• Cluster verbal interpretieren und charakterisieren

Clusteranalyse von Maria Eickhold und Tobias Töpfer

Documents

Multivariate AnalyseverfahrenÜberblick - dr-preuss.comdr-preuss.com/Multivariate_Analyseverfahren.pdf · Faktorenanalyse Korrespondenzanalyse Optimal Scaling Clusteranalyse MDS strukturenprüfend

Tobias klemanss

Institut fur Soziologie - Universit at Duisburg-Essen … · 2017-09-13 · KAPITEL 2 Grundlagen der Clusteranalyse 2.1Einordnung der Clusteranalyse in den Bereich statistischer Verfahren

Clusteranalyse – Softwareeinsatz anhand eines konkreten ... · Thomas Nirschl M.A., 02. April 2008 Stadt Nürnberg Amt für Stadtforschung und Statistik Clusteranalyse – Softwareeinsatz

Clusteranalyse mit SPSS - Deutsche Rentenversicherungforschung.deutsche-rentenversicherung.de/FdzPortal...2 Ablauf 1. Allgemeines zur Clusteranalyse 2. Die Verfahren der Clusteranalyse

Tobias Röding, M.Sc

Tobias schneebaum

Tobias Westman

Tobias weinmann ecos

Tobias Kloster Portfolio

Einführung in die CLUSTERANALYSE - Zentraler ...homepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA... · Multivariate Statistische Verfahren CLUSTERANALYSE INHALTSVERZEICHNIS

Durchführung einer hierarchischen Clusteranalyse Dateneingabe und Anforderung:

Tobias rafael

TOBIAS NIELSÉN QNB Volante E-mail: tobias @ QNB.se Twitter: @tobias_nielsen

Keramik- und Töpferschule Gordola Kursprogramm 2021 · 2020. 9. 27. · Keramik- und Töpfer-schule Gordola Die Keramik- und Töpfer- schule Gordola bietet ihren Kursteilnehmer/innen

Armin Töpfer - Six Sigma

Fotoboek Tobias

TOBIAS - Oslo

Catálogo Tobias Barreto

Tobias Jahnke - KIT