Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
2. Deskriptive Statistik
Hajo Holzmann
Philipps-Universit�at Marburg
2.1 Stichproben und Datentypen
Untersuchungseinheiten: m�ogliche, statistisch zu erfassende
Einheiten
je Untersuchungseinheit: ein oder mehrere Merkmale oder
Variablen beobachten
m�ogliche Werte eines Merkmals: Merkmalsauspr�agungen
Untersuchungseinheit Merkmal Merkmalauspr�agungen
Baum Baumart Eiche, Buche, . . .
arbeitslose Person Schulabschluss keiner, Hauptschule,
Realschule, Gymnasium
Person Familienstand ledig, verheiratet, geschieden, . . .
Hajo Holzmann 2. Deskriptive Statistik
2.1 Stichproben und Datentypen
Untersuchungseinheiten: m�ogliche, statistisch zu erfassende
Einheiten
je Untersuchungseinheit: ein oder mehrere Merkmale oder
Variablen beobachten
m�ogliche Werte eines Merkmals: Merkmalsauspr�agungen
Untersuchungseinheit Merkmal Merkmalauspr�agungen
Baum Baumart Eiche, Buche, . . .
arbeitslose Person Schulabschluss keiner, Hauptschule,
Realschule, Gymnasium
Person Familienstand ledig, verheiratet, geschieden, . . .
Hajo Holzmann 2. Deskriptive Statistik
Stichproben
Grundgesamtheit = Menge der m�oglichen Untersuchungseinheiten
Stichprobe = zuf�allig gewonnene, endliche Teilmenge der
Grundgesamtheit
Stichprobenumfang = Anzahl der erhobenen Daten
Hajo Holzmann 2. Deskriptive Statistik
Datentypen
Kategorielle (oder nominale) Daten f�ur jedes Datum welche
Kategorie, z.B. Autotypen, Baumart, Nationalit�at
Ordinale Daten kategorielle Daten mit geordneten Kategorien,
z.B. Noten, Erdbebenst�arke auf Richter Skala
Z�ahldaten oder diskrete Daten: Z�ahlen bestimmter Merkmale ,
z.B. Anzahl mit Geigerz�ahler registrierten Zerf�alle einer Probe,
Stetige (oder kontinuierliche) Daten k�onnen in Wertebereich {
zumindest theoretisch { jeden beliebigen Zahlenwert
annehmen, z.B. Gr�o�e, Alter, L�ange.
qualitative Daten: kategorielle und ordinale Daten
quantitative oder metrische Daten: Z�ahldaten und stetige Daten.
Hajo Holzmann 2. Deskriptive Statistik
Datentypen
Kategorielle (oder nominale) Daten f�ur jedes Datum welche
Kategorie, z.B. Autotypen, Baumart, Nationalit�at
Ordinale Daten kategorielle Daten mit geordneten Kategorien,
z.B. Noten, Erdbebenst�arke auf Richter Skala
Z�ahldaten oder diskrete Daten: Z�ahlen bestimmter Merkmale ,
z.B. Anzahl mit Geigerz�ahler registrierten Zerf�alle einer Probe,
Stetige (oder kontinuierliche) Daten k�onnen in Wertebereich {
zumindest theoretisch { jeden beliebigen Zahlenwert
annehmen, z.B. Gr�o�e, Alter, L�ange.
qualitative Daten: kategorielle und ordinale Daten
quantitative oder metrische Daten: Z�ahldaten und stetige Daten.
Hajo Holzmann 2. Deskriptive Statistik
2.2 Beschreibung kategorieller Daten
absolute H�au�gkeiten: Wieviele Daten in jeder Kategorie
! auch Kategorien erw�ahnen, in die keine Daten fallen.
relative H�au�gkeiten: Anteil der Daten in jeder Kategorie
! absolute H�au�gkeiten / Stichprobenumfang.
stets zusammen mit Stichprobenumfang angeben.
Visualisierung: relative / absolute H�au�gkeiten als
Balkendiagramme: einzelne Balken
Stapeldiagramm: �ubereinander in einem Balken der Gr�o�e
nach
Tortendiagramme bzw. Kreisdiagramm: als Kreis /
Tortensegmente
Hajo Holzmann 2. Deskriptive Statistik
2.2 Beschreibung kategorieller Daten
absolute H�au�gkeiten: Wieviele Daten in jeder Kategorie
! auch Kategorien erw�ahnen, in die keine Daten fallen.
relative H�au�gkeiten: Anteil der Daten in jeder Kategorie
! absolute H�au�gkeiten / Stichprobenumfang.
stets zusammen mit Stichprobenumfang angeben.
Visualisierung: relative / absolute H�au�gkeiten als
Balkendiagramme: einzelne Balken
Stapeldiagramm: �ubereinander in einem Balken der Gr�o�e
nach
Tortendiagramme bzw. Kreisdiagramm: als Kreis /
Tortensegmente
Hajo Holzmann 2. Deskriptive Statistik
2.2 Beschreibung kategorieller Daten
absolute H�au�gkeiten: Wieviele Daten in jeder Kategorie
! auch Kategorien erw�ahnen, in die keine Daten fallen.
relative H�au�gkeiten: Anteil der Daten in jeder Kategorie
! absolute H�au�gkeiten / Stichprobenumfang.
stets zusammen mit Stichprobenumfang angeben.
Visualisierung: relative / absolute H�au�gkeiten als
Balkendiagramme: einzelne Balken
Stapeldiagramm: �ubereinander in einem Balken der Gr�o�e
nach
Tortendiagramme bzw. Kreisdiagramm: als Kreis /
Tortensegmente
Hajo Holzmann 2. Deskriptive Statistik
Visualisierung (Wahlergebnisse)
Sonstige PIRATEN CSU GRÜNE DIELINKE FDP SPD CDU
Barplot (rel. Häufigkeit)
Partei
Rel
ativ
e H
äufig
keit
0.00
0.05
0.10
0.15
0.20
0.25
CDU
SPD
FDP
DIELINKE
GRÜNE
CSU
PIRATEN
Sonstige
Stapeldiagramm (rel. Häufigkeit)
Rel
ativ
e H
äufig
keit
0.0
0.2
0.4
0.6
0.8
1.0
SonstigePIRATEN
CSU
GRÜNEDIELINKE
FDP
SPDCDU
Pie Chart (rel. Häufigkeit)
Hajo Holzmann 2. Deskriptive Statistik
Visualisierung (Simpson Paradoxon)
<5.000$ 5.000−9.999$ 10.000−14.999$ 15.000−99.999$ >100.000$ Total
1974
1978
Income Group
0.0
0.1
0.2
0.3
0.4
Fraction of Income paid as Taxes in the USA
<5.000$ 5.000−9.999$ 10.000−14.999$ 15.000−99.999$ >100.000$ Total
Income 1974
Taxes Paid 1974
Income 1978
Taxes Paid 1978
Income Group
0.0e
+00
2.0e
+08
4.0e
+08
6.0e
+08
8.0e
+08
1.0e
+09
1.2e
+09
Hajo Holzmann 2. Deskriptive Statistik
2.3 Zusammenfassung numerischer Daten
Lagema�e: Wo (auf der reellen Achse) be�nden sich die Daten?
Streuma�e: Wie weit streuen die Daten um ein Lagema�?
Weiter:
Ma�e f�ur Schiefe: Sind die Daten symmetrisch um ihr Lagema�?
Ma�e f�ur heavy tails: Gibt es viele Daten, die besonders weit vom
Lagema� entfernt liegen?
Hajo Holzmann 2. Deskriptive Statistik
2.3 Zusammenfassung numerischer Daten
Lagema�e: Wo (auf der reellen Achse) be�nden sich die Daten?
Streuma�e: Wie weit streuen die Daten um ein Lagema�?
Weiter:
Ma�e f�ur Schiefe: Sind die Daten symmetrisch um ihr Lagema�?
Ma�e f�ur heavy tails: Gibt es viele Daten, die besonders weit vom
Lagema� entfernt liegen?
Hajo Holzmann 2. Deskriptive Statistik
Lagema�e: Mittelwert
Mittelwert: arithmetisches Mittel der Daten.
Daten x1; : : : ; xn 2 R, dann
�x =1
n
nXi=1
xi =x1 + � � �+ xn
n;
gewichtetes Mittel: Gewicht gi > 0 f�ur Beobachtung xi , dannPn
i=1 gixiPn
i=1 gi
=g1x1 + � � �+ gnxng1 + � � �+ gn
;
Hajo Holzmann 2. Deskriptive Statistik
Lagema�e: Mittelwert
Mittelwert: arithmetisches Mittel der Daten.
Daten x1; : : : ; xn 2 R, dann
�x =1
n
nXi=1
xi =x1 + � � �+ xn
n;
gewichtetes Mittel: Gewicht gi > 0 f�ur Beobachtung xi , dannPn
i=1 gixiPn
i=1 gi
=g1x1 + � � �+ gnxng1 + � � �+ gn
;
Hajo Holzmann 2. Deskriptive Statistik
Lagema�e: Median
Ordnungsstatistiken: geordneten Werte x(1) � : : : � x(n), d.h. x(1)kleinste, x(n) gr�o�te Wert.
Median (lat. medius: der mittlere) einfachste Lagema�.
med(x) =
8>>><>>>:
x( n+12) f�ur n ungerade
x( n2) + x( n
2+1)
2f�ur n gerade,
! mindestens 50% der Daten � und 50% der Daten � med(x).
Hajo Holzmann 2. Deskriptive Statistik
Streuma�e: Standardabweichung
x = (x1; : : : ; xn) beobachtete Daten.
Varianz:
var(x) =1
n � 1
nXi=1
(xi � �x)2 =(x1 � �x)2 + � � �+ (xn � �x)2
n � 1
Standardabweichung (engl. standard deviation)
sd(x) =pvar(x):
Hajo Holzmann 2. Deskriptive Statistik
Variationskoe�zient
Variationskoe�zienten: relative Schwankung im Verh�altnis zu
ihrem Mittelwertsd(x)
j�x j
Bsp.: Energieumsatzrate
Hajo Holzmann 2. Deskriptive Statistik
Interquartilsabstand
Quantile: f�ur 0 < � < 1
q�(x) =
8><>:
x([n��+1]); falls n � � keine ganze Zahl ist,
12
�x(n��) + x(n��+1)
�; falls n � � eine ganze Zahl ist.
! mindestens � � 100% der Daten � q�(x)
und (1� �) � 100% der Daten � q�(x).
unteres Quartil: q0;25(x),
oberes Quartil: q0;75(x),
Interquartilsabstand
IQR(x) = q0;75(x)� q0;25(x):
Hajo Holzmann 2. Deskriptive Statistik
Interquartilsabstand
Quantile: f�ur 0 < � < 1
q�(x) =
8><>:
x([n��+1]); falls n � � keine ganze Zahl ist,
12
�x(n��) + x(n��+1)
�; falls n � � eine ganze Zahl ist.
! mindestens � � 100% der Daten � q�(x)
und (1� �) � 100% der Daten � q�(x).
unteres Quartil: q0;25(x),
oberes Quartil: q0;75(x),
Interquartilsabstand
IQR(x) = q0;75(x)� q0;25(x):
Hajo Holzmann 2. Deskriptive Statistik
Ma� f�ur Schiefe
Schiefe (engl.: skewness) von x1; : : : ; xn:
skew(x) =1
n
nXi=1
�xi � �x
sd(x)
�3
:
! kennzeichnet Abweichung von symmetrischer Lage um �x .
Ist skew(x) < 0 : linksschief
Ist skew(x) > 0 : rechtsschief.
Hajo Holzmann 2. Deskriptive Statistik
Ma� f�ur Schiefe
Schiefe (engl.: skewness) von x1; : : : ; xn:
skew(x) =1
n
nXi=1
�xi � �x
sd(x)
�3
:
! kennzeichnet Abweichung von symmetrischer Lage um �x .
Ist skew(x) < 0 : linksschief
Ist skew(x) > 0 : rechtsschief.
Hajo Holzmann 2. Deskriptive Statistik
Verteilungsschw�anze (heavy tails)
Kurtosis von x1; : : : ; xn:
kurtosis(x) =1
n
nXi=1
�xi � �x
sd(x)
�4
� 3:
! kennzeichnet Abweichung von Verteilungsschw�anzen der
Normalverteilung.
Ist kurtosis(x) < 0 : low tails
Ist kurtosis(x) > 0 : heavy tails.
im Vergleich zur Normalverteilung.
Hajo Holzmann 2. Deskriptive Statistik
Verteilungsschw�anze (heavy tails)
Kurtosis von x1; : : : ; xn:
kurtosis(x) =1
n
nXi=1
�xi � �x
sd(x)
�4
� 3:
! kennzeichnet Abweichung von Verteilungsschw�anzen der
Normalverteilung.
Ist kurtosis(x) < 0 : low tails
Ist kurtosis(x) > 0 : heavy tails.
im Vergleich zur Normalverteilung.
Hajo Holzmann 2. Deskriptive Statistik
Graphische Darstellung numerischer Daten
Boxplot
Graphische Darstellung der 5 Zahlen Median, unteres und
oberes Quartil, Max. und Min.
Box. zwischen q0:25 und q0:75, darin Median als Strich
Striche (engl. Whiskers) bis Max. und Min.
Histogramm
Unterteilung des Wertebereichs in disjunkte Intervalle,
Plotte Rechtecke auf Intervalle, H�ohe: Anzahl (Anteil) Daten
in dem Intervall
Rug-Plot
Erg�anzend zu Histogramm,
Plotte Daten als Striche auf x-Achse
Hajo Holzmann 2. Deskriptive Statistik
Graphische Darstellung numerischer Daten
Boxplot
Graphische Darstellung der 5 Zahlen Median, unteres und
oberes Quartil, Max. und Min.
Box. zwischen q0:25 und q0:75, darin Median als Strich
Striche (engl. Whiskers) bis Max. und Min.
Histogramm
Unterteilung des Wertebereichs in disjunkte Intervalle,
Plotte Rechtecke auf Intervalle, H�ohe: Anzahl (Anteil) Daten
in dem Intervall
Rug-Plot
Erg�anzend zu Histogramm,
Plotte Daten als Striche auf x-Achse
Hajo Holzmann 2. Deskriptive Statistik
Graphische Darstellung numerischer Daten
Boxplot
Graphische Darstellung der 5 Zahlen Median, unteres und
oberes Quartil, Max. und Min.
Box. zwischen q0:25 und q0:75, darin Median als Strich
Striche (engl. Whiskers) bis Max. und Min.
Histogramm
Unterteilung des Wertebereichs in disjunkte Intervalle,
Plotte Rechtecke auf Intervalle, H�ohe: Anzahl (Anteil) Daten
in dem Intervall
Rug-Plot
Erg�anzend zu Histogramm,
Plotte Daten als Striche auf x-Achse
Hajo Holzmann 2. Deskriptive Statistik
2.4 Transformationen: Linear
lineare Transformationen: F�ur a; b 2 R; a 6= 0,
f (xi ) = axi + b; i = 1; : : : ; n:
Bsp.: Grad Celsius in Grad Kelvin, Euro in Dollar.
Standardisierung.
f (xi ) =xi � �x
sd x:
Hajo Holzmann 2. Deskriptive Statistik
2.4 Transformationen: Linear
lineare Transformationen: F�ur a; b 2 R; a 6= 0,
f (xi ) = axi + b; i = 1; : : : ; n:
Bsp.: Grad Celsius in Grad Kelvin, Euro in Dollar.
Standardisierung.
f (xi ) =xi � �x
sd x:
Hajo Holzmann 2. Deskriptive Statistik
Logarithmus und Potenzen
Transformation positiver Daten xi > 0.
Logarithmieren: f (xi ) = log(xi ).
! rechtsschiefe Daten symmetrisch machen.
Allgemeiner: Box-Cox-Transformationen f�ur � > 0:
f (xi ) =x�
i� 1
�;
f�ur �! 0: erhalte Logarithmus.
f�ur 0 < � < 1: rechtsschiefe Daten symmetrisch machen.
f�ur 1 < �: linksschiefe Daten symmetrisch machen.
Hajo Holzmann 2. Deskriptive Statistik
Logarithmus und Potenzen
Transformation positiver Daten xi > 0.
Logarithmieren: f (xi ) = log(xi ).
! rechtsschiefe Daten symmetrisch machen.
Allgemeiner: Box-Cox-Transformationen f�ur � > 0:
f (xi ) =x�
i� 1
�;
f�ur �! 0: erhalte Logarithmus.
f�ur 0 < � < 1: rechtsschiefe Daten symmetrisch machen.
f�ur 1 < �: linksschiefe Daten symmetrisch machen.
Hajo Holzmann 2. Deskriptive Statistik
Visualisierung (Deutschland Daten)
Histogram of BIP 1992
BIP92
Fre
quen
cy
10000 20000 30000 40000 50000
020
4060
8010
012
014
0
●
●
●
●●
●
●
●●●●
●
●
●
●
●
●
●
1000
020
000
3000
040
000
5000
0
Boxplot of BIP 1992
Histogram of log(BIP 1992)
lBIP92
Fre
quen
cy
3.8 4.0 4.2 4.4 4.6 4.8
020
4060
8010
0
●
3.8
4.0
4.2
4.4
4.6
Boxplot of log(BIP 1992)
Hajo Holzmann 2. Deskriptive Statistik