Upload
others
View
8
Download
0
Embed Size (px)
Citation preview
Thomas Cleff
Deskriptive Statistik und moderne Datenanalyse
Thomas Cleff
Deskriptive Statistik und moderne Datenanalyse Eine computergestOtzte EinfOhrung mit Excel, PASW (SPSS) und STATA
2., Oberarbeitete und erweiterte Auflage
GABLER
Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet Uber <http://dnb.d-nb.de> abrufbar.
Professor Dr. Thomas Cleff lehrt Quantitative Methoden der Betriebswirtschaftslehre an der Hochschule Pforzheim. Neben seiner ForschungsaktiviUit als Research Associate am Zentrum fUr Europaische Wirtschaftsforschung (ZEW) in Mannheim lehrte und forschte er als Gastprofessor an einer Vielzahl auslandischer Hochschulen, darunter an der Ecole de Management ESCEM Paris-Tours-Poitiers, an der Simon Fraser University Vancouver, an der TEC de Monterrey und an der Univarsitas Gadjah Mada Yogyakarta.
1. Auflage 2008 2., Uberarbeitete und erweiterte Auflage 2011
Aile Rechte vorbehalten © Gabler Verlag I Springer Fachmedien Wiesbaden GmbH 2011
Lektorat: Irene Buttkus I Walburga Himmel
Gabler Verlag ist eine Marke von Springer Fachmedien. Springer Fachmedien ist Teil der Fachverlagsgruppe Springer Science+Business Media. www.gabler.de
Das Werk einschlieBlich aller seiner Teile ist urheberrechtlich geschUtzt. Jede Verwertung auBerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlags unzulassig und strafbar. Das gilt insbesondere fUr Vervieltaltigungen, Obersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen.
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten waren und daher von jedermann benutzt werden dUrften.
Umschlaggestaltung: KUnkelLopka Medienentwicklung, Heidelberg Druck und buchbinderische Verarbeitung: Ten Brink, Meppel Gedruckt auf saurefreiem und chlorfrei gebleichtem Papier Printed in the Netherlands
ISBN 978-3-8349-3221-1
Vorwort
Vorworl zur zweiten iiberarbei!e!en und ergiinz!en Auflage
Mit groBer Freude habe ich zur Kenntnis genommen, dass sich die erste Auflage des vorliegenden Lehrbuches einer so groBen Nachfrage er£reut hat, dass sie beim Verlag nunmehr vergriffen ist. Freundlicherweise hat sich der Gabler Verlag zur Ausgabe einer zweiten - iiberarbeiteten und erweiterten - Auflage bereit erkIiirt, wofUr ich mich bei den beiden Verantwortlichen des Programmbereichs WlSsenschaft, Frau Irene Buttkus und Frau Walburga Himmel, herzlich bedanke. Ermoglicht es mir doch, das Buch urn neue Themenfelder zu erweitem. Neben den durch Software-Updates notig gewordenen Anpassungen habe ich dem Buch ein weiteres Kapitel der Indexrechnung angefiigt und hoffe samit ein abgerundetes Programm der deskriptiven Slatistik unterbreiten zu kfumen.
Auch fUr diese Auflage sind unter www.gabler.de und "onlineplus" Zusatzmaterialien (z.B. eine Formelsammiung und die im Buch verwendeten Datensatze) zur Verfiigung gestellt. Unter "Dozentenplus" finden sich auf der gIeichen Seile zusiitzliche Dozenteninformationen. Inzwischen wird die Statistiksoftware SPSS Statistics unter dem Namen PASW (Predictive Analysis SoftWare) vermarktet. Einer Vielzahl- aber nicht allen - Anwendem diirfte dies bereits bekannt sein. Deshalb verwende ich im RaIunen dieses Buches die Bezeichnung PASW (SPSS). Die Auswertungsschritte wurden auf PASW (SPSS) Version 19, Excel 2007 und STATA 11.2 angepasst.
1ch danke an dieser Stelle allen Sludierenden und Fachkollegen fUr ihre Anmerkungen. Neben den bereits im Vorworl zur ersten Auflage erwiihnten KoIIeginnen und Kol1egen danke ich an dieser Stelle ganz besonders Dr. Birgit Aschhoff, Dr. Bettina Peters und Dr. Bettina Milller fUr ihre wertvollen Hinweise. 1ch hoffe auch weiterhin auf Anregungen und Verbesserungsvorschlage (z. B. an meine Emailadresse tho[email protected]), denn gemiifl einer chinesischen Weisheit sind nur mit den Augen der anderen die eigenen Fehler gut zu sehen.
Pforzheim, im Juni 2011
ThomasOeff
v
Vorwort
Vorwort zur ersten Auflage
Das hier vorliegende Lehrbuch "Deskriptive Statistik und modeme Datenanalyse" mochte den Studierenden der Volks- und Betriebswirtschaftslehre sowie Praktikern in Unternehrnen die Grundlagen, Techniken und Anwendungsmoglichkeiten der deskriptiven Statistik und der Datenanalyse niiher bringen. Es geht auf die deskriptiven Basismethoden der univariaten und bivariaten Ver£ahren ein, die mit Hilfe computerbasierter Berechnungen auf betriebswirtschaftIiche Beispiele angewendet werden. Die Inhalte reichen von der Erhebung und Skalierung, iiber die Prasentation und univariate Analyse quantitativer Daten, bis zur Analyse bivariater Zusammenhiinge. Die Themengebiete decken alle wichtigen Aspekte einer Hochschulveranstaltung zur deskriptiven Statistik abo
Bei der Abfassung des Buches war ich stets bemiiht, auch demjenigen einen Einblick in die Denkweise deskrlptiver statistischer Verfahren zu ermoglichen, der ansonsten Schwierigkeiten mit der forma1en oder methodischen Herangehensweise eines traditione1len Statistikbuches hat. An vielen Stellen habe ich versucht, auf iiberfliissige Formeln zu verzichten oder zunachst eine intuitive Herangehensweise an ein Th.ema zu wahlen, bevor eine Formel abgeleitet bzw. angegeben wird. Es diirfte dennoch jeder verstehen, dass ein Buch iiber Statistik und Datenanalyse niemals ohne Formeln auskommen kann und es auch nicht sollte. Da wo die Alltagssprache in ihrer Priizision versagt, ist und bleib! eine Formelletztlich die priiziseste Form der sprachlichen Formullerung dessen, was methodisch ausgedriickt werden soli. Zur Vemefung habe ich jedem Kapitel Ubungsaufgaben nebst LOsungen angefUgt, die ein effizientes Selbststudium erleichtern sollen.
Letztlich ermoglicht vor allem die allgemeine VerfUgbarkeit von Computerprogrammen eine neue didaktische Herangehensweise an die Statistik. Jeder Studierende hat heute Zugriff auf Standardprogramme wie Excel oder auf Statistikpakele wie SPSS oder STATA. Dieses Lehrbuch beschriinkt sich nicht auf die Darstellung der deskriptiven Statistik, sondem erweitert den Blick auf dessen Anwendung mit Hilfe der Computerprogramme Excel, SPSS und STATA. Hierfiir sind auf der Homepage des GablerVerlages - neben anderen Zusatzmaterialien - Datensatze zur Verfiigung gestellt Mit ihnen kennen die Beispiel- und Ubungsaufgaben durchgerechnet werden. Die Datensatze und die allgemeinen Zusatzmaterialien auf www.&abler.de sind fUr dieses Lehrbuch unter dem Icon "on1ineplus" zu finden. Unter "Dozentenplus" finden sich auf der gieichen Seite zusatzliche Materialien fUr Dozenten.
Ich mOchte an dieser Stelle allen danken, die an der Verwirklichung dieses Buches mitgearbeitet haben. Mein Dank fUr die kritische Durchsicht des Manuskripts und fUr die wertvollen Hinweise gilt Dr. Christoph Grimpe, Bernd Kuppinger, Prof. Dr. Wolfgang Schiifer, Prof. Dr. Katja Specht, Prof. Dr. Fritz Wegner, Prof. Dr. Kirsten Wiist sowie vielen weiteren ungenannten Helfern. Verbleibende Fehler und Unzuliinglichkeiten gehen se1bstverstiindlich weiterhin zu meinen Lasten. Ebenfalls mochte ich mich bei den beiden Verantwortlichen des Programmbereichs Wissenschaft beim Gab-
VI
Vorwort
ler-Verlag, Frau Walburga Himmel und Frau Jutta Hauser-Fahr, fur ihre Unterstiitzung bedanken. Abschliellend ware dieses Buch niemals ohne die Unterstiitzung meiner Familie moglich gewesen. fur gilt mein ganz besonderer Dank.
Auch in Zukunft wiirde ich mich liber Anregungen und Verbesserungsvorschlage freuen [email protected]).
Pforzheim, im Januar 2008
ThomasOeff
VII
In haltsverzeichnis
Vorwort ..................................................................................................................................... v Inhaltsverzeichnis ................................................................................................................... IX
Abbildungsverzeichnis ....................................................................................................... XIII
Tabellenverzeichnis ............................................................................................................ XVII
Formelsammlung ................................................................................................................. XIX
1 Statistik und empirische Forschung ......................................................................... 1
1.1 Statistik Higt? ............................................................................................................... 1
1.2 Zwei Arten von Statistik ............................................................................................. 3
1.3 Statistik als Erkenntnisprozess .................................................................................. 5
1.4 Phasen empirischer Forschung ................................................................................. 7
1.4.1 Von der Erkundung zur Theorie ............................................................................... 8
1.4.2 Von der Theorie zurn Modell ..................................................................................... 9
1.4.3 Vom Modell zur "Business Intelligence" ............................................................... 13
2 Vom Zahlenwust zum Datensatz ............................................................................ 15
2.1 Moglichkeiten der Datenbeschaffung .................................................................... 15
2.2 Die Entscheidung fur ein Skalenniveau ................................................................. 19
2.3 Datenerfassung mit dem Computer: Skalierung und Kodierung ...................... 23
2.4 Fehlende Werte oder Missing Values ..................................................................... 25
2.5 AusreiJler und offensichtlich falsche Werte ........................................................... 27
2.6 Ubungsaufgaben zum Abschnitt ............................................................................ 29
3 Vom Datensatz zur Information .............................................................................. 31
3.1 Erste Auswertungsschritte und grafische Darstellungen .................................... 31
3.2 Lageparameter als Informationsreduktion ............................................................ 39
3.2.1 Modus oder Modalwert ........................................................................................... 40
3.2.2 Der Mittelwert ........................................................................................................... 41
3.2.3 Geometrisches Mittel ................................................................................................ 46
3.2.4 Harmonisches Mittel ................................................................................................ 48
3.2.5 Der Median ................................................................................................................ 50
3.2.6 Quartile und Quantile .............................................................................................. 53
3.3 Boxplot - Erster Einblick in die Verteilung ............................................................ 55
IX
inha/tsverzeichnis
3.4 Streuungsparameter ................................................................................................. 58
3.4.1 Die Standardabweichung und die Varianz ............................................................ 59
3.4.2 Der Variationskoeffizient ......................................................................................... 61
3.5 Schiele und Kurtosis ................................................................................................. 62
3.6 Robustheit von Parametem ..................................................................................... 66
3.7 KonzentrationsmaJle ................................................................................................. 67
3.8 Berechnung univariater Parameter mit dem Computer ...................................... 70
3.8.1 Berechnung univariater Parameter mit SPSS ........................................................ 70
3.8.2 Berechnung univariater Parameter mit STATA ..................................................... 71
3.8.3 Berechnung univariater Parameter mit ExceL ..................................................... 72
3.9 Ubungsaufgaben zum Abschnitt ............................................................................ 74
4 Bivariate Zusammenhange ...................................................................................... 79
4.1 Bivariate Skalenniveau-Kombinationen ................................................................. 79
4.2 Zusammenhang zweier nominaler Variab1en ....................................................... 80
4.2.1 Kontingenztabellen ................................................................................................... 80
4.2.2 Die Chi-Quadrat Berechnung .................................................................................. 82
4.2.3 Der Phi-Koeffizient ................................................................................................... 87
4.2.4 Der Kontingenzi<oeffizient ....................................................................................... 90
4.2.5 Cramers V .................................................................................................................. 92
4.2.6 Nominale Zusammenhiinge mit SPSS .................................................................... 93
4.2.7 Nominale Zusammenhiinge mit Stata .................................................................... 97
4.2.8 Nominale Zusammenhiinge mit Excel ................................................................... 97
4.2.9 Ubungsaufgaben zum Abschnitt .......................................................................... 100
4.3 Zusammenhang zweier metrischer Variablen ..................................................... 103
4.3.1 DasStreudiagramm ................................................................................................ 103
4.3.2 Der Korrelationskoeffizient nach Bravais-Pearson ............................................. 107
4.4 Zusammenhang ordinalskalierler Variablen ....................................................... 111
4.4.1 Die Rangkorre1ation nach Spearman (Rho) ......................................................... 113
4.4.2 Kenda1ls Tau (T) ....................................................................................................... 119
4.5 ZusammenhangsmaJle zweier Variablen mit unterschiedlichem Skalenniveau ............................................................................................................ 125
4.5.1 Zusammenhang nominaler und metrischer Variablen ...................................... 125
4.5.2 Zusammenhang nominaler und ordinaler Variablen ......................................... 128
4.5.3 Zusammenhang ordinaler und metrischer Variablen ........................................ 129
4.6 Korrelationsrechnung mit dem Computer .......................................................... 131
x
Inhaltsverzeichnis
4.6.1 KorreIationsrechnung mit SPSS ............................................................................ 131
4.6.2 KorreIationsrechnung mit STATA. ........................................................................ 132
4.6.3 KorreIationsrechnung mit Excel ............................................................................ 133
4.7 Scheinkorrelationen ................................................................................................ 136
4.7.1 Partielle Korrelation ................................................................................................ 138
4.7.2 Partielle KorreIation mit SPSS ............................................................................... 140
4.7.3 Partielle Korrelation mit STATA ............................................................................ 141
4.7.4 Partielle Korrelation mit Excel ............................................................................... 142
4.8 Ubungsaufgaben zum Abschnitt .......................................................................... 144
5 Regressionsanalyse ................................................................................................. 147
5.1 Erste Schritte einer Regressionsanalyse ............................................................... 147
5.2 Koeffizienten der bivariaten Regression .............................................................. 150
5.3 Multivariate Regressionskoeffizienten ................................................................. 154
5.4 Die Anpassungsgiite der Regression .................................................................... 155
5.5 Regressionsrechnung mit dem Computer ........................................................... 159
5.5.1 Regressionsrechnung mit Excel ............................................................................ 159
5.5.2 Regressionsrechnung mit SPSS und STATA. ....................................................... 160
5.6 Anpassungsgiite multivariater Regressionen ..................................................... 162
5.7 Regression mit unabhiingiger Dummy-Variable ................................................ 163
5.8 Hebelwirkungen von Beobachtungen .................................................................. 166
5.9 Nichtlineare Regressionen ..................................................................................... 168
5.10 Ansatze einer Regressionsdiagnostik ................................................................... 172
5.11 Ubungsaufgaben zum Abschnitt .......................................................................... 179
6 Zeitreihen- und Indexrechnung ............................................................................ 187
6.1 Preisindizes .............................................................................................................. 188
6.2 Mengenindizes ........................................................................................................ 196
6.3 Wertindizes (Umsatzindizes) ................................................................................ 198
6.4 Deflationierung von Zeitreihen ............................................................................. 199
6.5 Umbasienmg und Verkettung von Indizes ......................................................... 201
6.6 Ubungsaufgaben zum Abschnitt .......................................................................... 203
7 LOsungen der Ubungsaufgaben ............................................................................ 205
Literatur .................................................................................................................... 221
Stichwortverzeichnis .............................................................................................. 223
XI
Abbildungsverzeichnis
Abbildung 1-1: Von den Daten iiber die Information zum Wissen ............................... 5
Abbildung 1-2: Preis-Absatz-Funktion £iir eine sensitive Zahnpasta ............................ 6
Abbildung 1-3: Phasen empirischer Forschung ............................................................... 7
Abbildung 1-4: Systematisierung von ModelIen ............................................................ 10
Abbildung 1-5: Was heiBt schon sicher? .......................................................................... 11
Abbildung 1-6: Intelligence Cycle .................................................................................... 14
Abbildung 2-1: Fragebogen Kundenbefragung Einzelhandel... ................................... 19
Abbildung 2-2: Merkmalstrager / Merkmale / Merkmalsauspragung / Skalenniveau ............................................................................................ 20
Abbildung 2-3: Kodierungsplan (engl.: label book) ....................................................... 24
Abbildung 3-1: Dateneditor: Ansicht der eingegebenen FragebOgen .......................... 31
Abbildung 3-2: Haufigkeitstabelle der Angebotsvielfalt. .............................................. 33
Abbildung 3-3: Saulendiagramm bzw. Haufigkeitsverteilung fur die Variable Angebot .................................................................................................... 33
Abbildung 3-4: Verteilungsfunktion fur die Variable Angebot .................................... 34
Abbildung 3-5: Unterschiedliche Darstellung gleicher Sachverhalte (1) ................... 35
Abbildung 3-6: Unterschiedliche Darstellung gleicher Sachverhalte (2) ................... 35
Abbildung 3-7: Klassierung der Daten durch ein Histogramm ................................... 37
Abbildung 3-8: Verletzung der Flachentreue und Verteilungsfunktion ..................... 38
Abbildung 3-9: Notendurchschnitt zweier Klausuren ................................................ ..40
Abbildung 3-10: Mittelwert als ausgeglichene Balkenwaage ........................................ .41
Abbildung 3-11: Mittelwert und getrinunter Mittelwert anhand des Zoobeispiels .... 42
Abbildung 3-12: Bereclmung des Mittelwerts aus klassierten Daten ............................ 44
Abbildung 3-13: Geometrisches Mittel: Ein BeispieL ..................................................... 46
Abbildung 3-14: Der Median als zentraler Wert unklasierter Daten ............................. 51
XIII
Abbildungsverzeichnis
Abbildung 3-15: Oer Median als zentraler Wert klassierter Daten ................................ 53
Abbildung 3-16: Berechnung von Quantilen bei fiinf Gewichten .................................. 54
Abbildung 3-17: Boxplot der Variablen Absatz pro Woche ............................................ 56
Abbildung 3-18: Interpretationen unterschiedlicher Formen eines Boxplots ............... 57
Abbildung 3-19: Variationskoeffizient ............................................................................... 61
Abbildung 3-20: Schiele ....................................................................................................... 63
Abbildung 3-21: Idee des dritten Zentralen Moments .................................................... 64
Abbildung 3-22: Kurtosis einer Verteilung ....................................................................... 65
Abbildung 3-23: Robustheit von Parametern .................................................................... 66
Abbildung 3-24: KonzentrationsmaJle ............................................................................... 67
Abbildung 3-25: Lorenzkurve ............................................................................................. 68
Abbildung 3-26: Univariate Parameter mit SPSS ............................................................. 71
Abbildung 3-27: Univariate Parameter mit STATA .......................................................... 72
Abbildung 3-28: Univariate Parameter mit ExceL .......................................................... 73
Abbildung 4-1: Kontingenztabelle (Kreuztabelle) .......................................................... 81
Abbildung 4-2: Kontingenztabellen (Kreuztabellen) ..................................................... 82
Abbildung 4-3: Kontingenztabellen (Kreuztabellen) ..................................................... 83
Abbildung 4-4: Berechnung erwarteter Haufigkeiten in Kontingenztabellen ............ 85
Abbildung 4-5: Chi-Quadrat-Werte bei unterschiedlicher Anzahl von Beobachtungen ........................................................................................ 88
Abbildung 4-6: Phi bei einer unterschiedlichen Anzahl von Zeilen und Spalten ...... 89
Abbildung 4-7: Kontingenzkoeffizient bei unterschiedlicher Zeilen- und Spaltenzahl ............................................................................................... 91
Abbildung 4-8: Kreuztabellen und nominale ZusarnmenhangsmaJle mit SPSS (Titanic) ..................................................................................................... 94
Abbildung 4-9: Von den Rohdaten zur computerberechneten Kreuztabelle (Titanic) ..................................................................................................... 95
Abbildung 4-10: Computerausdruck Chi-Quadrat und nominale ZusarnmenhangsmaJle ........................................................................... 96
Abbildung 4-11: Kreuztabellen und nominale ZusarnmenhangsmaBe mit Stata (Titanic) ..................................................................................................... 97
XIV
Abbildungsverzeichnis
Abbildung 4-12: Kreuztabellen und nominale ZusammenhangsmaBe mit Excel (Titanic) ..................................................................................................... 99
Abbildung4-13: Streudiagramm ...................................................................................... 104
Abbildung 4-14: Unterschiedliche Aspekte bei Streudiagrammen .............................. 105
Abbildung 4-15: Unterschiedliche Darstellung gleicher Sachverhalte (3) ................. 106
Abbildung 4-16: Zusammenhang der KorpergroJlen bei Hochzeiten ......................... 108
Abbildung 4-17: Vier-Quadranten-Schema ..................................................................... 109
Abbildung 4-18: Produkt-Moment-Korrelation bei AusreiJlern ................................... 112
Abbildung 4-19: Fragebogenteil rum Design einer Weinflasche ................................. 112
Abbildung 4-20: Nichtlinearer Zusanunenhang zweier Variablen .............................. 113
Abbildung 4-21: Daten zur Befragung rum Design einer Weinflasche ....................... 114
Abbildung 4-22: Rangplatze zur Befragung zum Design einer Weinflasche ............. 116
Abbildung 4-23: Kendalls, bei einem perfekten positiven monotonen Zusammenhang ..................................................................................... 120
Abbildung 4-24: Kendalls, bei fehlendem monotonen Zusammenhang ................... 121
Abbildung 4-25: Kendalls, bei Rangbindungen ............................................................ 123
Abbildung 4-26: Kendalls rb aus einer Kontingenztabelle .......................................... 124
Abbildung 4-27: Punktbiseriale Korrelation ................................................................... 127
Abbildung 4-28: Zusammenhang zwischen einer ordinalen und metrischen Variablen ................................................................................................. 130
Abbildung 4-29: Korrelationsrechnung mit SPSS .......................................................... 132
Abbildung 4-30: Korrelationsrechnung mit STATA (Beispiel: Kendalls ,) .................. 133
Abbildung 4-31: Korrelation nach Spearman mit Excel ................................................ 135
Abbildung 4-32: Griinde fur Scheinkorrelationen ......................................................... 137
Abbildung 4-33: Superbenzin und Marktanteil: Ein Beispiel fur eine Scheinkorrelation .................................................................................. 139
Abbildung 4-34: Partielle Korrelation mit SPSS (Superbenzin) .................................... 141
Abbildung 4-35: Partielle Korrelation mit STATA (Superbenzin) ................................ 142
Abbildung 4-36: Partielle Korrelation mit Excel (Superbenzin) ................................... 143
Abbildung 5-1: Prognose der Nachfrage mit Hilfe der Aquivalenzmethode ........... 148
xv
Abbildungsverzeichnis
Abbildung 5-2: Prognose der Nach£rage mit Hilfe der AbbildungsgroBe ................ 149
Abbildung 5-3: Berechnung von Residuen ................................................................... 151
Abbildung 5-4: Ausgleichsgeraden mit Bedingung "minimale Summe der Abweichungen" ..................................................................................... 152
Abbildung 5-5: Die Idee multivariater Analysen ......................................................... 157
Abbildung 5-6: Regression mit Excel und SPSS ........................................................... 160
Abbildung 5-7: Regressionsoutput der Funktion Regression bei SPSS ..................... 161
Abbildung 5-S: Regressionsoutput mit einer Dummy-Varlablen .............................. 164
Abbildung 5-9: Grafische Wirkung einer Dummy-Varlablen ..................................... I65
Abbildung 5-10: Leverage Effekt ...................................................................................... 167
Abbildung 5-11: In den Variablen nicht1ineare Verliiufe ............................................... 169
Abbildung 5-12: Beispiel eines in den Variab1en nichtlinearen Verlaufs (1) ............... 170
Abbildung 5-13: Beispiel eines in den Variablen nichtlinearen Verlaufs (2) ............... 171
Abbildung 5-14: Autokorrelierte und nicht-autokorrelierte Verliiufe der Fehlerterme ............................................................................................ 173
Abbildung 5-15: Homoskedastizitat und Heteroskedastizitat ..................................... 174
Abbildung 5-16: Losung bei perfekter Multikollinearitat ............................................. 175
Abbildung 5-17: Losung bei nicht perfekter Multikollinearltat ................................... 178
Abbildung 6-1: Preisentwicklung von Dieselkraftstoff ............................................... 187
Abbildung 6-2: Preisentwicklung von Kraftstoffen ..................................................... 190
Abbildung 7-1: Siiulendiagramm und Histogramm .................................................... 207
XVI
Tabellenverzeichnis
Tabene 2-1: Externe Daten- und Informationsquellen nationaler institutionen ......... 16
Tabene 2-2: Externe Daten- und Informationsquellen internationaler institutionen ................................................................................................... 17
Tabene 3-1: Beispiel £iir die Mittelwertberechnung aus k1assierten Daten ................. 44
Tabene 3-2: Harmonisches Mittel ..................................................................................... 48
Tabene 3-3: Absatzanteile nach Altersklassen fUr Windelbenutzer ............................. 50
Tabene 4-1: ZusammenhangsmaJle und Skalenniveaus ................................................ 80
Tabene 6-1: Durchschnittswerte fUr Diesel- und Ottokraftstoffe in Deutschland .... 189
Tabene 6-2: Beispiel £iir Lohnentwicklung in zwei Untemehmen ............................. 200
Tabene 6-3: Verkettung von Indizes fUr Vorwiirts- und Riickwiirtsrechnung .......... 202
XVII
Formelsammlung
Hiiufigkeiten:
Berechnung bei klassierter Datengrundlage aus einer Verteilungsfunktion: •
II' X-Xj 1 F(x) = F(X;_I) + ~. 1';
Lageparameter:
Mittelwert aus einer Urliste:
Mittelwert aus einer gegebenen Hiiufigkeitstabelle:
Mittelwert aus klassierten Daten: x =1. ± n.m. = ± I.m. , (m. ist die Klassenmitte)
Geometrisches Mittel:
n v=l v=l
n
x&"'m=~(XI'X2)""'Xn - IT(1+x;) i=-I
Geometrisehes Mittel von Veriinderungsraten:
n
P&",m =~(1+ PI) ·(1+ P2)· ... ·(1 + Pn) -1 = n IT(l + p;)-l i=l
Harmonisehes Mittel (ungewiehtetes) fiir k Einzelbeobaehtungen:
Harmonisehes Mittel (gewiehtetes) fur k Beobaehtungen:
_ k xharm=-k--L:.
i=l I
_ n xhann=-k--
"n; L.... x · i=l I
Median aus klassierten Daten: - _ _ OG O,5-F(x~r) (DC UC) X-X05 -x. I + X. -x. , ,- I(x;) , ,
Median aus Urliste bei ungerader Beobaehtungsanzahl (n):
XIX
Formetsammtung
Median aus Urliste bei gerader Beobachtungsanzahl (n):
Quantile aus Urlisten (Weighted Average Methode): Zunlichst wird das Produkt (n+1)·p bestimmt. Das Ergebnis setzt sich aus einem ganzzahligen Bestandteil vor dem Komma und einem Dezimalbruch nach dem Komma zusammen (i,£). Das gesuchte Quantil1iegt zwischen den beiden Beobachtungswerten X(i) und X(i+l) ' wenn (i) die
Ordnungszahlen des geordneten Datensatzes darstellt. Der berechnete Nachkommaanteil dient zur Positionierung zwischen den beiden Werten mit Hille der Formel:
(1- f)'X(i) + f'X(i+l)
Quantil aus kIassierten Daten:
Streuungsparameter:
Interquartilsabstand: IQA- xO,75 - xO,25
Mittlerer Quartilsabstand: MQA=O,5· (xo,75 -XO,25)
Spannweite: Spannweite=Max(Xi)-Min(Xi)
Mittlere absolute Abweichung vom Median:
Empirische Varianz: 2 In 2 In 2 2
Var(x)emp -Semp -- ~(Xi -x) -- ~Xi -x
Empirische Standardabweichung: Semp - JVar(x)emp -
InduktivefTheoretische Varianz:
n i=l n i=l
1 n 2 Var(x)theor -- ~(Xi -x)
n-t i=l
Induktive/Theoretische Standardabweichung Sfheo, - ~Var(x)theor -1 n 2
-~(Xi-X) n-l j:zl
Variationskoeffizient:
xx
Formelsammlung
KonzentrationsmaSe
Konzentrationsrate: CR" besagt, wie viel Prozent einer Menge die g Merkmalstrager mit den groBten Merkmalsauspragungen auf sich vereinen.
Herfindahl-Index:
Gini-Koeffizient nicht kIassierter geordneter Daten:
Gini-Koeff. nicht kIassierter geordneter reI. Haufigkeiten:
n 2 H~ L!(Xi)
i=l
n
2~>fi-(n+l) GIN! ~ -,,,,'- ,,-' ----
n
Norrnierler Gini-Koeffizient (GIN1.mn.): Multiplikation obiger Formeln mit ~ n-l
Schiefe und Kurtosis:
Schiefe nach Yule/pearson: 3.(x-x)
Skew- 5
3. Zentrale Moment:
1 n 3 - L(Xi -x)
Sk .::n"i",-,'--::,;-_ eW"'- 53
Kurtosis:
XXI
Formetsammtung
Bivariate ZusammenhangsmaBe:
Berechnung von Chi-Quadrat
Phi:
Kontingenzkoeffizient:
CramersV: X2
V = ./---;--::-"':-----:----:-:n·(ntin(k,m)-l)
PHI=~
c=~ (' E [O;l[ X +n
Kovarianz: 1 n 1 n
cov(x;y)= Sxy =-~)Xi -X)(Yi -y)=-LXiYi -xy n i=l n i=l
Kerrelation nach Pearson: r
Partialkorrelation: ~(l-riz) .(l-T~)
PunktbiseriaIe Korrelation mit Sy als Streuung der kontinuierlichen Variablen:
r = y, -Yo ~"o.", ph S n2
y
Korrelation nach Spearman (Grund£orme1):
XXII
Formelsammlung
Korrelation nach Spearman (vereinfacht bei wenig Rangbindung):
n
6'La[ p=l '-;,1 mitd, = (R(x,)-R(y,»
n·(n -1)
Korrelation nach Spearman (vereinfacht mit Rangbindung):
2· -1--N -T-U- La[ (
N3 N) n
2 i-1 Pk." = -"'F----..;,...,...-....!.;;b7
2. (N3
1;N _T}(N3
1;N -u)
T ist die Lange der b Rangbindungen der x-Variablen T
U ist die Lange der c Rangbindungen der y-Variablen U
Kendalls T, (ohne Rangbindungen): T,
Kendalls Tb (mit Rangbindungen):
b 3 L(I, -I,) i=l
12
, 3 L(U, -u,) i-I
12
P-I n·(n-1)/2
b LI,(I, -1)
T ist die Lange der b Rangbindungen der x-Variablen T i-1 2
, :r. u, (u, -1) U ist die Lange der c Rangbindungen der y-Variablen U = ,~1 2
Biseriale Rangkorre1ation (ohne Rangbindung)
XXIII
Formetsammtung
RegressionSl'echnung;
Konstante einer cinfachen bivariaten Regression:
Steigungskoeffizient einer bivariaten Regression:
cov(x,y) 52
x
Koeffizienten einer multivariaten Regression:
BestimmtheitsmaJl:
a=y-p·x
n
1_ E55 =1_ 55, =1 L(1fi-yJ i-l
Adjustiertes Bestimmtheitsmall:
XXIV
T55 55y
(1_R2 !k-1) (n-k)
1-(1-R2 )n-1 n-k
Indexrechnung:
Preisindex nach Laspeyres: P~,
Mengenindex nach Laspeyres:
Preisindex nach Paasche:
Mengenindex nach Paasche:
Preisindex nach Fisher:
Mengenindex nach Fisher:
Wertindex: n
~>i,O-qi,O i-I
Deflationierung:
Umbasierung von Indexreihen:
n
'" Pi,1 L.J--' Pi,O . qi,Q i-I Pi,O
n
LPi,O-qi,O i=l
<to"
Formelsammlung
n
LPi,t "qi,O i-I n
LPi,O-qi,O i=l
n
Lqi,tOPi,O i-I n
Lqi,O'Pi,O i=l
n
LPi,toqi,t i - I n
LPi,ooqi,t i - I
n
Lqi,tOPi,t i-I n
Lqi,O'Pi,t i-I
Lreai I
rail lneu=~
0,'1: raIt 0,<
xxv
Formetsammtung
Verkettung bei Vorwartsrechnung: _ {,~, flirlS,
'0,,= I"~ ,,2 fii' I> O,t "t r t
Verkettung bei Riickwartsrechnung:
1 " ~ fii' 1< _ 2 r 't
T - , .a.o,t - 't,t
'2 fii' I> 't,t r_t
XXVI