Deskriptive Statistik und Explorative - Springerstatic.springer.com/sgw/documents/1536177/application/pdf/Folien... · Welche Mengen sollen für den Warenkorb angenommen ... handelt

springer-gabler.de

Springer Gabler PLUS

Zusatzinformationen zu Medien von Springer Gabler

Deskriptive Statistik und Explorative Datenanalyse

Eine computergestützte Einführung mit Excel, SPSS und STATA

2015 | 3., überarbeitete und erweiterte Auflage

© Cleff | Deskriptive Statistik und Explorative Datenanalyse, 3. Auflage 2015Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

2

Springer Gabler | Wiesbaden 2015

Foliensammlung zu den Kapitel 6 bis 8


(6) Indexrechnung

© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 2

Indexrechnung Einführung

Bisher: Mit Hilfe einer Reihe von möglichen unabhängigen Variablen wird der Absatz eines Kleides prognostiziert.

Dabei haben sich die Merkmalsausprägungen auf ein und denselben Zeitpunkt bezogen, denn zur Bestimmung der Absatzmenge (als abhängige Variable) wurde die Größe der Abbildung im Katalog (als unabhängige Variable) zum selben Zeitpunkt bzw. zum selben Zeitraum herangezogen.

Beziehen sich alle Informationen auf den selben Zeitraum, spricht man von einer Querschnittsanalyse (engl.: cross-section analysis).



Werden die Daten hingegen zeitlich geordnet analysiert, spricht man von einer Zeitreihenanalyse (engl.: time series analysis) oder einer Längsschnittanalyse(engl.: longitudinal-section analysis) .

Voraussetzung: Die abhängigen und unabhängigen Variablen eines Datensatzes können jeweils einem bestimmten Zeitpunkt (t=1,…, n) zugeordnet werden.

Im einfachsten Fall: Die Zeit selbst wird als unabhängige Variable auf der x-Achse aufgetragen. Die Zeitreihe ist in diesem Fall nichts anderes als die Ver-bindung von gleichartigen Sachverhalten über verschiedene Zeiträume hinweg

Preisentwicklung von Dieselkraftstoff.



Beispiele für kompliziertere Fälle von Zeitreihenanalysen:

Beispiel 1: Konsum in der nächsten Periode hängt nicht von der Zeit selbst, sondern – je nach theoretischem Ansatz - vom Einkommen in der gleichen oder einer Vorperiode ab.

Beispiel 2: Zum Zeitraum t ergibt sich die Nachfrage nach einem bestimmten Konsumgut yt aus dem Preis (pt), den Werbeausgaben (at) der selben Periode und der Nachfrage aus der Vorperiode (yt-1).

Ist die unabhängige Variable auf der x-Achse also nicht die Zeitvariable selbst, sondern eine an die Zeit gebundene (andere) unabhängige Variable, wird das methodische Vorgehen sehr viel aufwändiger.

Deshalb: Beschränkung auf die einfache Technik der Zeitreihen: Die Indexrechnung!



Grund für den „medialen Erfolg“ der Indexrechnung:

Indexrechnung findet Eingang in die tägliche Presse (z.B. die Entwicklungen der Arbeitslosenquote, der Preise und des Wirtschaftswachstums, DAX, Dow Jones) und werden mit Spannung erwartet.

Eine zeitpunktbezogene Betrachtung wird durch Zeitreihen dynamisiert.

Swoboda (1971, S. 96) verwendet den treffenden Vergleich eines Filmes, der ebenfalls aus Einzelbildern zusammengesetzt ist, die durch das Hintereinanderabspielen eine Dynamik erzeugen, die Muster und Handlungen erkennen und im Hinblick auf die Zukunft ausmalen lassen.

Themen der Indexrechnung1. Preisindex2. Mengenindex3. Wertindex4. Rechentechniken der Indexrechnung (Umbasieren; Deflationieren)


Indexrechnung Preisindex: Preisrelativ

Einfachster Ansatz: Preisrelativ (engl.: price relative) Die (ungewichtete) prozentuale Preisveränderung im Vergleich zu einem „Basisjahr“

Was muss ich tun, wenn ich eine Veränderung bzgl. eines anderen Basisjahres berechnen möchte?

Beispiel: Dieselpreisveränderung zwischen 2001 und 2007:


Indexrechnung Preisindex: Umbasieren von Preisrelativen

Umbasieren von Preisrelativen auf ein anderes Basisjahr:

Wie ist die Prozentuale Veränderung zwischen 2005 und 2007 (bezogen auf das Basisjahr 2005), wenn ich den Wert aus der Indexreihe des Basisjahres 2001 berechnen möchte?

Lösung: Die alte Preisrelativreihe mit dem Basisjahr 2001 wird durch das Preisrelativ des Jahres 2005 geteilt.

Alle Werte der Reihe mit dem Basisjahr 2001 wer-den durch 1,30 geteilt


Indexrechnung Preisindex: Umbasieren von Preisrelativen

Umbasieren von Preisrelativen auf ein anderes Basisjahr:

Wie ist die Prozentuale Veränderung zwischen 2004 und 2007 (bezogen auf das Basisjahr 2004), wenn ich den Wert aus der Indexreihe des Basisjahres 2001 berechnen möchte?

Lösung: Die alte Preisrelativreihe mit dem Basisjahr 2001 wird durch das Preisrelativ des Jahres 2004 geteilt.

Grund für die Darstellung alles Indexreihe. Indexreihen machen dynamische Entwicklungen vergleichbar.


Indexrechnung Preisindex: Vergleich von Indexreihen

Indexreihen machen dynamische Entwicklungen vergleichbar.


Indexrechnung Preisindex bei heterogenen Produktgruppen

Das dargestellte Preisrelativ eines homogenen Gutes ist nicht mehr anwendbar, wenn heterogene Produktgruppen vorliegen!

Beispiel: Wie haben sich die Preise aller Treibstoffarten im Aggregat (Diesel, Benzin und Superbenzin) entwickelt?

Lösung: Der gewichtete aggregierte Preisindex (engl.: weighted aggregated price index).

Idee: Definition von sog. „Warenkörben“, deren Preisentwicklung dann als Index dargestellt werden können.

Die Vergleichbarkeit von Preisen unterschiedlicher Perioden bleibt nur dann gewährleistet, wenn die Zusammensetzung des Warenkorbes und die Gewichtungen der im Warenkorb enthaltenen Produkte über den Zeitverlauf unverändert bleiben (engl.: fixed-weighted aggregated price index).


Indexrechnung Preisindex bei heterogenen Produktgruppen

Beispiele für Warenkörbe:Verbraucherpreisindex für die Bundesrepublik Deutschland vom Statistischen Bundesamt: Er umfasst ca. 700 Produkte des Alltags, für die monatlich Preise ermittelt werden. Dabei gehen die einzelnen Preise nur mit einer bestimmten Gewichtung ein, die sich aus dem Verbrauch eines „durchschnittlichen Konsumenten“ aus einem „repräsentativen“ deutschen Haushalt bestimmt. Beispielsweise beträgt der Anteil der Kaltmietpreise 20,3 Prozent im Verbraucherpreisindex. In Abweichung vom Durchschnittskonsumenten können individuell unterschiedliche Lebensweisen natürlich auch zu anderen „persönlichen Teuerungsraten“ führen

Annahme aus unserem Treibstoffbeispiel: Warenkorb wird definiert durch eine festgelegte Menge Diesel, Normal- und Superbenzin

Problem: I.d.R. verändern sich Mengenverhältnisse. Welche Mengen sollen für den Warenkorb angenommen werden? Die aus der Basisperiode oder die aus der Berichtsperiode?


Indexrechnung Preisindex nach Laspeyres

Werden die Gewichte aus dem durchschnittlichen Verbrauch der Basisperiode (t=0) ermittelt, handelt es sich um den – weltweit wohl bekanntesten und auch vom Statistischen Bundesamt verwendeten - Index nach Laspeyres:

Nicht selten werden Indexzahlen mit dem Wert 100 oder 1.000 (DAX) multipliziert. So gibt das Statistische Bundesamt die Inflation durch den mit 100 multiplizierten Wert von an:

Im weiteren Verlauf werden die Indexwerte nur dann mit 100 multipliziert, wenn dies ausdrücklich angegeben ist.



Wie hat sich der gesamte Kraftstoffpreis im Jahr 2007 im Vergleich zum Basisjahr 2001 entwickelt, wenn die Gewichtungen – und somit die Verbrauchsanteile für die verschiedenen Kraftstoffe - seit 2001 gleich geblieben wären.

Angenommenes Mengen-verhältnis bei Laspeyres

Zähler: Preise der Beobachtungsperiode t=2007 (pi,2007) für Diesel, Benzin und Superbenzin werden mit den Verbrauchsmengen aus der Basisperiode 2001 qi,2001 gewichtet und aufaddiert.

Nenner: Addition der mit den Preisen der Basisperiode (pi,2001) bewerteten Anteile der Basisperiode im Nenner



Wie hat sich der gesamte Kraftstoffpreis im Jahr 2007 im Vergleich zum Basisjahr 2001 entwickelt, wenn die Gewichtungen – und somit die Verbrauchsanteile für die verschiedenen Kraftstoffe - seit 2001 gleich geblieben wären.

Anstelle der absoluten Marktmengen können auch die Verbrauchsanteile verwendet werden

Das Preisniveau ist somit von 2001 bis 2007 um 36,5 Prozent angestiegen!



Generelle Probleme bei aggregierten Preisniveaus

Repräsentativität der Zusammensetzung des Warenkorbes: Es interessiert einen Autofahrer eines Benzinfahrzeuges nicht, wenn der Preis für Diesel zunimmt, der Preis für Benzin aber unverändert bleibt. Er wird dann vielleicht mit Verwunderung vernehmen, dass der Index für die durchschnittlichen Kraftstoffpreise angeblich steigt. Je unterschiedlicher Verbrauchsstrukturen sind, umso mehr tritt dieses Problem zu Tage. In der Gesamtsumme aller Haushalte ist die Preisentwicklung allerdings durchaus stimmig abgebildet.

Problem der Verkaufsstelle und der Qualität des Produktes:Es existieren regionale Preisunterschiede. Aber selbst innerhalb eines Stadtviertels kann der Preis eines Produktes um mehrere Eurocent differieren, sodass bei veränderter Wahl der Verkaufsstätten die Preisschwankungen künstlich erzeugt würden. Die Preisermittler der statistischen Ämter sind deshalb dazu angehalten, Verkaufsstellen und Produktqualitäten möglichst nicht zu wechseln.



Spezielle Probleme des Preisindex nach Laspeyres

Verbrauchsanteile von Produkten verändern sich im Zeitverlauf („Veraltende Warenkörbe“)

Produktsubstitution (insbesondere in schnelllebigen Branchen)

Anpassung der Warenkörbe durch die statistischen Ämter ca. alle 5 Jahre

Verkaufsstellenwechsel der Kunden (z. B. Tendenz zu Großmärkten)

Um veraltenden Warenkörben entgegen zu wirken, kann man auch den Preisindex nach Paasche verwenden, der für jede Periode von einem neuen Warenkorb ausgeht, dessen Verbrauchsanteile genau denen des Berichtsjahres entsprechen.


Indexrechnung Preisindex nach Paasche

Werden die Gewichte aus dem durchschnittlichen Verbrauch der Berichtsperiode(t=t) ermittelt, handelt es sich um den – weltweit wohl bekanntesten und auch vom Statistischen Bundesamt verwendeten - Index nach Paasche:

Zähler: Preis, den man für einen im Berichtsjahr vorliegenden Warenkorb im bezahlen muss.

Nenner: Preis, den man für einen im Berichtsjahr vorliegenden Warenkorb in einem zurückliegenden Basisjahr hätte bezahlen müssen.


Indexrechnung Preisindex nach Paasche

Wie hat sich der gesamte Kraftstoffpreis im Jahr 2007 im Vergleich zum Basisjahr 2001 entwickelt, wenn der Warenkorb des Berichtsjahres unterstellt wird

Angenommenes Mengen-verhältnis bei Paasche


Indexrechnung Preisindex: Vergleich Paasche und Lapeyres

Vergleicht man die Ergebnisse des Laspeyres Index (36,5 Prozent) mit denen des Paasche Index (37,2 Prozent), so liegt die Inflationsrate beim Paasche Index über der des Laspeyres Index

Ist dies der Fall, haben die Kunden zwischen den beiden Perioden ihre Nachfrage zu den Produkten, die sich - relativ gesehen - stärker verteuert haben, verschoben.

Dieselkraftstoff ist in absoluten Beträgen gerechnet nach wie vor billiger als die anderen Kraftstoffe, was wohl letztlich auch dessen Zunahme der Verbrauchsanteile von 50,5 Prozent auf 57,7 Prozent zwischen 2001 und 2007 erklärt. Allerdings beträgt die Preissteigerung rund 42 Prozent, während sich Normalbenzin nur um 32 Prozent und Superbenzin nur um 31 Prozent verteuerten.


Indexrechnung Preisindex nach Fisher

Aufgrund dieser ökonomischen Rationalität liegt der Laspeyres Preisindex fast immer über dem Paasche Index, auch wenn dies – wie unser Beispiel gezeigt hat – nicht immer der Fall sein muss.

Aufgrund der divergierenden Ergebnisse schlug Irving Fisher (1867-1947) das geometrische Mittel aus dem Index nach Laspeyres und dem Index nach Paasche zur Berechnung des sogenannten Index nach Fisher vor:

Dieser beschreitet somit einen „diplomatisch ausgleichenden“ Weg zweier widerstreitender Konzepte, unterstellt allerdings unterschiedliche Warenkörbe mit verschiedenen Produkten und Gewichtungen, sodass ein eindeutiges Warenkorbkonzept fehlt.

Auch bleibt das generelle Problem der jährlich notwendigen Neudefinition der Verbrauchsanteile im Warenkorb für den Index nach Paasche bestehen, was letztlich eine Neuberechnung der Inflationsraten - auch der zurückliegenden Jahre - erfordert.


Indexrechnung Aufgabe

In der nachfolgenden Tabelle ist für die Güter A, B, C und D die Preis- und Mengenentwicklung der Jahre 1 und 3 angegeben.

a. Berechnen Sie den Preisindex nach Laspeyres für das Berichtsjahr 3 mit dem Basisjahr 1! Interpretieren Sie die Ergebnisse!

b. Berechnen Sie den Preisindex nach Paasche für das Berichtsjahr 3 mit dem Basisjahr 1! Interpretieren Sie die Ergebnisse!

c. Warum ist die ausgewiesene Inflation i.d.R. beim Paasche Index geringer?d. Berechnen Sie den Preisindex nach Fisher für das Berichtsjahr 3 mit dem Basisjahr 1!e. Wie hoch ist die jährliche Preissteigerung in Prozent, wenn Sie den Preisindex nach

Laspeyres berechnet haben?



a.

Die Inflationsrate zwischen den beiden Beobachtungsjahren beträgt 14 Prozent.b.

Die Inflationsrate zwischen den beiden Beobachtungsjahren beträgt 12 Prozent.

c. Die ausgewiesene Inflation beim Paasche Index ist deshalb geringer, weil sich die Nachfrage im Zeitverlauf zugunsten von Produkten mit einer unterdurchschnitt-lichen Preissteigerung verschoben hat. Substitution der Produkte mit überdurch-schnittlicher Preissteigerung durch Produkte B und C: Produkt B hat sich mit 3,7 Prozent nur unterdurchschnittlich verteuert, Produkt C sogar um 7,1 Prozent verbilligt. Beide Produkte zusammen haben in der dritten Periode einen um vier Prozentpunkte erhöhten Verbrauchsanteil.


Indexrechnung Aufgabe: Preisindex

d.

Die Inflationsrate zwischen den beiden Beobachtungsjahren beträgt 13 Prozent.

e.

→ 6,77% Preissteigerungsrate.


Indexrechnung Mengenindex: Mengenrelativ

Neben dem Preisindex gibt es eine Reihe wichtiger anderer Indizes, von denen besonders der Mengenindex (engl.: quantity index) bedeutsam ist:

Analog zum einfachen Preisrelativ lässt sich die Mengenveränderung eines homogenen Produktes durch ein ungewichtetes Mengenrelativ darstellen:

Bei (nicht homogenen Produkten) Warenkörben: Wie hat sich die – mit konstanten Preisen einer gegebenen Periode - gewichtete Menge eines definierten Warenkorbes zwischen einer Basisperiode und einer Beobachtungsperiode verändert (gewichtete aggregierte Mengenindex)?

Beispiel: Veränderung des Dieselkraftstoffabsatzes zwischen 2001 und 2003?


Indexrechnung Mengenindex: nach Laspeyres/ Paasche / Fisher

Mengenindex nach Laspeyeres geht von einem in der Basisperiode definierten Warenkorb und den damit verbundenen konstanten Preisen aus.

Mengenindex nach Paasche legt den Warenkorb und die konstanten Preise der Beobachtungsperiode zugrunde.

Mengenindex nach Fischer


Indexrechnung Mengenindex nach Laspeyres: Ein Beispiel

Wie hat sich beispielsweise der Kraftstoffabsatz zwischen 2001 und 2007 A) einerseits zu konstanten Preisen aus 2001 (Laspeyres) und B) andererseits zu konstanten Preisen aus 2007 (Paasche) entwickelt

Angenommene Preise bei Laspeyres

Das Ergebnis zeigt, dass der mit den Preisen der Basisperiode 2001 bewertete Kraftstoffabsatz (Mengenindex nach Laspeyres) in 2007 im Vergleich zu 2001 um 12,2 Prozent zurückgegangen ist!


Indexrechnung Mengenindex nach Paasche: Ein Beispiel

Wie hat sich beispielsweise der Kraftstoffabsatz zwischen 2001 und 2007 A) einerseits zu konstanten Preisen aus 2001 (Laspeyres) und B) andererseits zu konstanten Preisen aus 2007 (Paasche) entwickelt

Angenommene Preise bei Paasche

Das Ergebnis zeigt, dass der mit den Preisen der Beobachtungs-periode 2007 gewichtete Kraftstoffabsatz um 11,7 Prozent zurückgegangen ist (Mengenindex nach Paasche

Der Wertindex – häufig auch als Umsatzindex bezeichnet - lässt sich weder allein aus dem Produkt von Laspeyres Preis- und Mengenindex noch allein aus dem Produkt von Paasches Preis- und Mengenindex ableiten. Nur das Produkt aus Fishers Preis- und Mengenindex ergibt tatsächlich den gültigen Wertindex. Alternativ kommt man allerdings auf das gleiche Ergebnis, wenn man entweder Paasches Mengenindex mit Laspeyres Preisindex, oder Laspeyres Mengenindex mit Paasches Preisindex multipliziert. Es gilt somit:


Indexrechnung Wertindex

Beispiel: Der Kraftstoffumsatz ist 2007 im Vergleich zu 2001 um 20,5 Prozent gestiegen. Die Berechnungen ergeben sich dabei wie folgt: Mengenindex nach Fischer

Entscheidungsträger sind an der realen – also der inflations-bereinigten - Veränderung von Kenngrößen interessiert, welche die Wertentwicklung zu jeweils konstanten Preisen ausdrückt.


Indexrechnung Deflationierung von Zeitreihen

Beispiel: Entwicklung der durchschnittlichen Lohnzahlungen pro Mitarbeiter in zwei Unternehmen, die in zwei verschiedenen Ländern mit jeweils unterschiedlichen Inflationsraten tätig sind.

Auf das Basisjahr 2000 bezogen nimmt in Unternehmen 1 der nominale Lohn zwischen 2003 und 2004 um 0,5 Prozent zu. Allerdings ist für den gleichen Zeitraum eine Inflation von 1,5 Prozent zu beobachten.

Die Berechnung der Preisbereinigung bzw. die Deflationierung erfolgt dabei durch Division der nominalen Werte durch den Preisindex.


Indexrechnung Deflationierung von Zeitreihen

Im Vorjahr beträgt der Wert noch 1.834,62 € (siehe Tabelle), sodass die Arbeitnehmer in 2004 einen Kaufkraftverlust hinnehmen müssen.

Das Statistische Bundesamt erstellt in regelmäßigen (zumeist fünfjährigen) Abständen einen neuen Warenkorb und trägt somit der großen Dynamik auf den Produktmärkten Rechnung.


Indexrechnung Umbasierung

Streng genommen ist eine Messung von Preis- und Mengenindizes nur bei Zugrundelegung ein und desselben Warenkorbes möglich, was allerdings eine Inflationsberechnung oder Deflationierung über eine längere Zeitreihe unmöglich machen würde

Letztlich lässt sich beim Umbasieren für jede Indexreihe ein beliebiges Jahr als Basisjahr festlegen, wodurch sich die Indexwerte aller Jahre gemäß folgender Vorschrift verändern

Aus diesem Grund kommt die Technik des Umbasierens und der Verkettung zum Einsatz.

Beispiel: Der Index für die Veränderung der realen Einkommenswerte im Unternehmen 2 basiert zunächst auf dem Jahr 2002 (siehe vorletzte Spalte).


Indexrechnung Umbasierung

Wollen wir diese Entwicklung nun auf das Basisjahr 2000 basieren, um sie mit der entsprechenden Indexreihe des Unternehmens 1 vergleichen zu können, müssen wir jeden Indexwert des Unternehmens 2 durch den Indexwert für das Jahr 2000 dividieren.

Verkettung ermöglicht, gleichartige Indizes mit unterschiedlichen und zeitlich begrenzten Warenkörben miteinander zu verknüpfen.


Indexrechnung Verkettung

Einzige Bedingung hierfür ist, dass sich jeweils zwei dieser Zeitreihen in einer Beobachtungsperiode () überlappen. Erfolgt die Verkettung in der Vorwärtsrechnung, bleibt der Index mit den „ältesten“ Beobachtungen (I1 zwischen den Zeitpunkten 0 und ) unverändert und die „jüngere“ überlappende Indexreihe (I2) wird auf diese umbasiert

Bei der Rückwärtsrechnung bleibt der Index mit den „jüngsten“ Beobachtungen (I2 ab dem Zeitpunkt ) unverändert und die Werte der „älteren“ überlappenden Indexreihe (I1) werden durch den überlappenden Wert des jüngeren Index (zum Zeitpunkt ) dividiert


Indexrechnung Verkettung: Beispiel

Vorwärtsrechnung

Rückwärtsrechnung

Gegeben seien folgende Informationen:



1. Ermitteln Sie den nominalen Wertindex [2005=100]!2. Verketten Sie die gegebenen Preisentwicklungen auf das Basisjahr 2004!3. Basieren Sie die so gewonnene Indexreihe auf das Basisjahr 2005 um!4. Ermitteln Sie die reale Wertentwicklung und den realen Wertindex bezogen

auf das Basisjahr 2005!


Indexrechnung Aufgabe: Lösung

Zu 1) Nominaler Wertindex [2005=100] für 2007:

Beispielhafte Berechnungen:

Zu 1 )

Zu 2) Verkettung der Preisentwicklung [2004=100] für 2008:

Zu 2 )

Zu 3) Umbasierung des Preisindex [2004=100] auf [2005=100] für 2008:

Zu 3 )


Indexrechnung Aufgabe: Lösung

Zu 4) Reale Wertentwicklung für 2008:

Beispielhafte Berechnungen:

Zu 1 )

Zu 2 )

Zu 5) Reale Wertindex [2005=100] für 2008:

Zu 3 )

Zu 5 )Zu 4 )


(7) Clusteranalyse



Schritte der Cluster-Analyse

1. Schritt: Die Idee der Cluster-Analyse

2. Schritt: Die Hierarchisch Agglomerative Cluster-Analyse

3. Schritt: Ein Beispiel zur Hierarchisch Agglomerative Cluster-Analyse

4. Schritt: Cluster-Analyse mit SPSS

5. Schritt: Übung zur Cluster-Analyse

6. Schritt: k-means-Cluster-Analyse


Länder

Um

satz

BSP

Cluster -Analyse

Cluster in der Astronomie (“Sterne”)Cluster in der Physik (Quartz Kristalle)

Cluster in der Ökonomie (“Länder-Cluster”)Cluster in der Chemie (Atome)


sale

s

Definition von Cluster

Gruppe von Objekten oder Subjekten…

1. … mit ähnlichen Eigen-schaften innerhalb der Gruppe

2. … aber mit wenig ähnlichen Eigenschaften zwischen den Gruppen

GNP

countries

Cluster-Analyse

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 42GNP

sale

s

Die Eigenschaftensind vorher festzulegen

Zielsetzung der Clusteranalyse…

Identifikation homogener Gruppen/Cluster In einer Menge heterogener Objekte/Subjekte In Bezug auf Eigenschaften

countries

Cluster-Analyse


Cluster-Analyse

Single Linkage „Shortest“ Single Linkage „chaining“ Complete Linkage „Longest“

Average Linkage Centroid Linkage Ward LinkageMin(with-in sum of sqares)

of all cluster


Cluster-Analyse1. Schritt: Messung der Homogenität

Distance (D):“Differenz zwischen

zwei Objekten”

Two-Dimension-Case“Satz des Pythagoras”

a2 + b2 = c2

Dos Equis

BudweiserLight

Kalorien pro Liter

Kosten pro Liter

a2 c2

b2



Dos Equis

BudweiserLight

Distance (D):“Differenz zwischen

zwei Objekten”

r-Dimensionaler Fall“Euclidische Distanz”


Distanzen als Maß für Homogenität

D(Bud,Tub)=11

D(Bud, Deq)=1,04 ?



Unterschiedliche Maßeinheiten erfordern Standardisierung (z-transformiert) der Eigenschaften.

Cluster-Analyse

BudweiserTuborg

Dos Equis

Z‐D(Bud,Tub)=0,34

Z‐D(Bud,DEq)=1,84


Cluster-Analyse2. Schritt: Fusionierung – Hierarchischer Ansatz

0,009


1. Neues Cluster: Heineken & Becks

2. Status quo: Jetzt 16 Cluster



Cluster-Analyse

1

23

45

6

7

8

9

10

11

12

1314

15


Cluster-Analyse

Stop-Kriterium

11

1314

Aufgabe: Finde die “richtige” Clusteranzahl


Agglomeration Schedule


Distanz


Cluster-Analyse2. Schritt: Fusionierung – Dendrogramm


Cluster-Analyse3. Schritt: Festlegung der Cluster-Anzahl

0

5

10

15

20

25

30

35

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Dis

tanz

zuw

achs

Anzahl der Cluster


Cluster-Analyse

Cluster zugehörigkeit

Distanz Matrix

Bereich der Lösungen


Cluster-Analyse


Cluster-Analyse

1. Distanzmaße können durch Invertierung zu Ähnlichkeitsmaßen gemacht werden.

2. Es können nicht unterschiedliche Skalenniveaus in einer Clusteranalyse verwendet werden!


Cluster-Analyse: Die wichtigsten Annahmen

Die Cluster-Analyse ist keine Inference-Technik, so dass keine Voraussetzungen an die Verteilung, Homoscedastizität etc. gestellt werden müssen

Representativität

Existieren zwei (oder mehrere) multikollineare Variablen, so ist die Gefahr groß, dass diese Dimension im Modell „doppelt“ (bzw. mehrfach) vertreten ist. Beobachtungen, die hinsichtlich dieser Dimension eine große Ähnlichkeit aufweisen, haben somit eine höhere Wahrscheinlichkeit in ein gemeinsames Cluster zu gelangen.

Die agglomerative Cluster-Analyse besitzt eine von der Anzahl der Beobachtungen quadratisch abhängige Rechenkomplexität: Bei n Beobachtungen sind n*(n-1)/2 Distanzen in einer Distanzmatrix zu ermitteln. Bei großen n sollte eine Clusterzentren-Analyse durchgeführt werden.


Cluster-Analyse

K-Means


Cluster-Analyse

Rechenkomplexität: (n*(n-1)/2) mögliche Distanzberechnungen = 6*(6-1)/2=15

5 4

2 1

3

Problem bei großen Stichproben

(A) Berechnung der “Centroids”

Cluster-Analyse: K-Means

Anzahl der Cluster und die Clusterzuordnung der Fälle ist festgelegt


Z‐Wert: Kalorien pro Liter

Z‐Wert: Kosten pro Liter

Cluster 1

Cluster 2

Cluster 3

(B) Veränderung der Zuordnung zum “nächsten” Centroid

(C) Gehe wieder zu (A). Wenn keine neu Zuordnung möglich war: STOP

(A) Berechnung der “Centroids”

Cluster-Analyse: K-Means

Anzahl der Cluster und die Clusterzuordnung der Fälle ist festgelegt

(B) Veränderung der Zuordnung zum “nächsten” Centroid

(C) Gehe wieder zu (A). Wenn keine neu Zuordnung möglich war: STOP



Cluster-Analyse

Variablen

Anzahl der Cluster

K-means cluster


Cluster-Analyse

Ergebnisse eines 2-Mean-Clustering


Cluster -Analyse

Final cluster centres


(8) Faktorenanalyse



Faktorenanalyse

Multivariate Analysetechnik

Die Faktorenanalyse nutzt die Korrelation der einzelnen Items untereinander dazu, diese auf eine kleine Anzahl unabhängiger Dimensionen bzw. Faktoren zu aggregieren, ohne eine Eindimensionalität der verwendeten Skala vorauszusetzen.

Bereits an der Korrelationsmatrix der Einzelitems ist erkennbar, bei welchen Fragen die einzelnen Probanden ein ähnliches Antwortverhaltensmuster an den Tag legen. Diese können dann zu Faktoren gebündelt werden. Goal: to decrease the size of a dataset by reducing it to underlying dimensions/factors


Faktorenanalyse

Faktor 1 Faktor 2


Voraussetzungen der Faktorenanalyse

Intervalskalierte Variablen

Rohdaten sind zu standardisieren (wird häufig durch Statistiksoftware automatisch durchgeführt)

Anzahl der Beobachtungen sollte dem 10-fachen der Variablenanzahl entsprechen

Mindestens 100 Beobachtungen


Faktorenanalyse: Ein Beispiel “Zahnpastaeigenschaften”


Faktorenanalyse in 5 Schritten

1. Überprüfung ob Durchführung einer Faktorenanalyse sinnvoll ist

2. Extraktionsmethode

3. Bestimmung der Anzahl der Faktoren

4. Faktorrotation

5. Berechnung der Faktorwerte


Schritt 1: Korrelationsmatrix

Überprüfung FaktorExtraktion

BestimmungFaktoranzahl Rotation Faktorwerte


Schritt 1: Anti-Image-Kovarianz-Matrix (AIC)

Eine Faktorenanalyse sollte nicht durchgeführt werden, wenn bei der Anti-Image-Kovarianz-Matrix (AIC) mehr als 25 Prozent der Elemente unterhalb der Diagonalen ungleich Null bzw. größer als 0,09 sind.




Schritt 1: Bartlett’s Test of Sphericity

Der Bartlett-Test (engl.: Test of Sphericity) überprüft die Hypothese, ob die Variablen der Erhebung unkorreliert sind. Ist der p-Wert des Bartlett-Tests kleiner als 0,05, kann von einer Korrelation zwischen den Variablen/Items ausgegangen werden. Der Bartlett-Test geht dabei von einer Normalverteilung der Werte der einzelnen Items und damit von einer �2-Verteilung der Prüfgröße aus und überprüft die Zufälligkeit der Abweichung der Korrelationsmatrix von einer Einheitsmatrix. Eindeutiger Nachteil dieses Kriteriums ist die Unterstellung der Normalverteilung, da für die Durchführung einer Faktorenanalyse ansonsten keine Verteilungsannahmen getroffen werden müssen.




Schritt 1: Kaiser-Meyer-Olkin MSA

Allerdings ist die Eignung der Korrelationsmatrix nicht immer in ausreichendem Maße gegeben. Ein zu geringes KMO-Kriterium kann häufig darin begründet liegen, dass einige Items nicht hoch mit anderen Items der Itembatterie korrelieren.

Diese Items sollten dann aus der Faktorenanalyse entfernt werden

Um die Eignung eines gegebenen Items im Zusammenspiel mit den anderen Items besser bewerten zu können,lassen sich Item-spezifische Measures of sampling adequacy (MSA) Werte berechnen. SPSS weist diese im Rahmen der Berechnung der Anti-Image-Korrelations-matrix auf der Diagonalen aus.




Schritt 2: Hauptkomponentenanalyse



Die Hauptkomponentenanalyse geht davon aus, dass sich die einzelnen Variablen durch eine Linearkombination der einzelnen Faktoren vollständig beschreiben lassen.

Dieser Ansatz unterstellt, dass sich die Varianzen der Items einer Itembatterie möglichst vollständig durch einzelne Faktoren abbilden lassen.

Definiert man die Kommunalitäten als den Anteil der Varianz eines Items, der durch alle Faktoren gemeinsam bestimmt wird, würde sich unter dieser Annahme eine Kommunalität von 100 Prozent bzw. von Eins ergeben müssen.


Schritt 2: Hauptachsenanalyse



Der Hauptachsenanalyse hingegen liegt die Annahme zugrunde, dass sich die Varianzen der einzelnen Variablen in zwei Komponenten zerlegen lassen: Ein Teil der Varianz eines Items bestimmt sich durch die gemeinsame Varianz aller in die Analyse eingeschlossenen Items, ein anderer Teil durch die nur bei dem betrachteten Item spezifisch auftretende Varianz.

Es kann also nicht die gesamte Varianz der beobachteten Variablen durch zugrunde liegende, gemeinsame Faktoren erklärt werden. Bei der Hauptachsenanalyse erklären die Faktoren nur die erste Varianzkomponente, nämlich den durch alle Variablen gemeinsam gebildeten Varianzanteil, sodass die Kommunalitäten zwangsläufig kleiner als Eins sein müssen.


Schritt 3: Bestimmung Faktoranzahl



Kaiser KriteriumBei diesem Kriterium werden alle Faktoren berücksichtigt, die einen Eigenwert von größer als Eins aufweisen. Da Eigenwerte kleiner als Eins die Faktoren kennzeichnen, deren Varianzerklärungsanteil kleiner ist als der eines einzelnen Items, ist dieses Kriterium nicht nur allgemein anerkannt, sondern vor allem plausibel in seiner Begründung.)

Scree PlotHierbei wird die Faktorenanzahl in aufsteigender Reihenfolge (1, 2, 3, 4…) auf der x-Achse aufgetragen. Der mit dem jeweiligen Faktor verbundene Eigenwert wird in abnehmender Reihenfolge auf der y-Achse aufgetragen. Die Faktorenanzahl, deren Punkte eine sich der Abszisse asymptotisch nähernde Gerade bilden, machen hinsichtlich der zusätzlichen Varianzerklärung durch die Faktoren in der Regel kaum mehr einen Sinn, sodass sich die zu wählende Faktorenanzahl an der Stelle ablesen lässt, an der der Screeplot einen Ellenbogen formt (Ellenbogen-Kriterium).










Schritt 4: Rotation



Zur Erleichterung der Interpretation wird die Faktormatrix in der Regel vorher rotiert.

Um die statistische Unabhängigkeit der Faktoren zu bewahren, erfolgt in den meisten Fällen eine rechtwinklige (orthogonale) Rotation.

Diese wird auch als Varimax Rotation bezeichnet.


Schritt 4: Unrotierte Lösung



Faktor 1

Faktor 2

Frischer Atem

Faktor 1

Faktor 2

Frischer Atem


Schritt 4: Rotierte Lösung




Schritt 4: Rotation



Nach Festlegung der Anzahl der Faktoren erfolgt die Interpretation der Faktoren Die gängige Regel ist, dass ein Item einem Faktor zugeordnet wird, wenn die

Faktorladung des entsprechenden Items größer als 0,5 ist.


Schritt 5: Faktorwerte



Nachdem nun die Anzahl sowie die inhaltliche Interpretation der Faktoren feststehen, interessiert in einem letzten Schritt vor allem die Frage, wie die einzelnen Befragten sich hinsichtlich der Faktoren unterscheiden. Hierzu liefern die auf regressionsanalytischem Wege erzeugten Faktorwerte Auskunft. Sie können für jeden Befragten individuell berechnet werden:

Documents

Deskriptive Statistik und Explorative - Springerstatic.springer.com/sgw/documents/1536177/application/pdf/Folien... · Welche Mengen sollen für den Warenkorb angenommen ... handelt