Teil I: Deskriptive Statistik
2 Grundbegriffe
2.1 Merkmal und Stichprobe
2.2 Skalenniveau von Merkmalen
2.3 Geordnete Stichproben und Range
2.1 Merkmal und Stichprobe
An (geeignet ausgewahlten)
Untersuchungseinheiten (Beobachtungsein–heiten, Merkmalstrager)
werden Werte eines oder mehrerer Merkmale
festgestellt.
Merkmal (Variable) ist die zu untersuchende
Große einer Untersuchungseinheit.
StatBio 24
Merkmalsauspragungen sind die moglichen
Werte, die von einem Merkmal angenommen
werden konnen.
Tabelle 2–1 Merkmale und ihre Auspragungen
Einheit Merkmal AuspragungPerson Geschlecht weiblich, mannlich
Alter in Jahren 1, 2, 3, . . .Blutgruppe A, B, AB, 0Bluthochdruck Werte in mmHg
Bakterienkolonie Durchmesser Werte in mm
Baum Baumart Eiche, Buche,...
Grundgesamtheit (Kollektiv, Population):
Menge aller potentiellen Untersuchungseinheiten
fur eine bestimmte Fragestellung.
Totalerhebung: Alle Merkmalstrager einer
Grundgesamtheit werden in die Untersuchung
einbezogen.
StatBio 25
Stichprobe: Endliche Teilmenge einer Grund-
gesamtheit. Hat diese Menge n Elemente, so
spricht man von einer Stichprobe vom Umfang
n (sample of size n).
Daten, Beobachtungen: konkrete Werte der
Merkmalsauspragungen einer Stichprobe.
Beispiel:
Grundgesamtheit: Alle Personen
Merkmal: Plasmaalbumingehalt
Stichprobe vom Umfang 5: A, B, C, D, E
Daten: 3.9, 3.3, 4.6, 4.0, 3.8
Bemerkung: Die Begriffe Stichprobe und Daten
werden auch haufig synonym verwendet (so auch
im Folgenden).
StatBio 26
Qualitative (artmaßig erfassbare) Merkmalehaben nur endlich viele Auspragungen, die Na-
men oder Kategorien sind.
Beispiele:
– Geschlecht
– Blutgruppe
– Rhesusfaktor
Quantitative (in naturlicher Weise zahlenmaßig
erfassbare) Merkmale liegen vor, wenn ihre Aus-
pragungen eine Große wiedergeben.
Beispiele:– Kinderzahl
– Anzahl zuckerkranker Personen
– Korpertemperatur
– Adrenalinkonzentration
– Korpergewicht
– Korpergroße
StatBio 27
Eine andere Unterscheidung ist in diskrete und
stetige Merkmale.
• Diskretes Merkmal (discrete variable): Ein
solches Merkmal kann nur endlich viele oder
hochstens abzahlbar unendlich viele Aus-
pragungen annehmen (haufig ganzzahlig, also
0, 1, 2, ...). Alle qualitativen Merkmale sind
trivialerweise diskret. Quantitative Merkmale
sind dann diskret, wenn ihre Merkmalsaus-
pragungen durch einen Zahlvorgang ermittelt
werden (sogenannte Zahldaten).
Beispiele fur Zahldaten:
– Anzahl herzkranker Personen
– Anzahl der Blutspender
– Anzahl der Pulsschlage
– Anzahl der Baume in einer Region
StatBio 28
• Stetiges Merkmal (continuous variable): Die
Auspragungen konnen (wenigstens dem Prin-
zip nach) beliebige Werte aus einem Intervall
annehmen, alle Werte aus einem Intervall sind
also denkbar. Die Auspragungen werden in der
Regel durch einen Messvorgang ermittelt, so-
genannte Messdaten.
Beispiele fur Messdaten:
– Blutdruck
– Korpertemperatur
– Adrenalinkonzentration
– Laktatkonzentration
Zusammenfassung:
Merkmal diskret stetigqualitativ ja neinquantitativ ja ja
(Zahldaten) (Messdaten)
StatBio 29
Bemerkung: Stetige Merkmale konnen nur dis-
kret beobachtet werden (Messgenauigkeit), An-
gaben z. B. auf zwei Dezimalstellen hinter
dem Komma genau (Rundungen). In der Pra-
xis ist die Unterscheidung diskret/stetig vielfach
willkurlich.
2.2 Skalenniveau von Merkmalen
Fur statistische Analysen ist die Einteilung in
qualitative und quantitative Merkmale zu grob.
Von entscheidender Bedeutung fur die
– Interpretation von Daten und
– Eignung statistischer Verfahren
ist es, wie bzw. nach welchen Kriterien die Merk-
malsauspragungen gemessen und geordnet wer-
den konnen.
StatBio 30
Grundsatzlich erfolgt die Messung der Merk-malswerte mit Hilfe einer Skala (Messvor-schrift).
Skala: Anordnung von Zahlen, denen die Merk-
malsauspragungen eindeutig zugordnet werden.
Skalenwerte: Zahlenwerte, die auf einer Skala
Berucksichtigung finden. Man spricht in diesem
Zusammenhang auch von Skalierung.
Das Skalenniveau gibt an
1. welche Vergleichsaussagen und welche rechne-
rischen Operationen fur die Skalenwerte sinn-
voll und somit zulassig sind
2. welche Transformationen von Skalenwer-ten die Messung erhalten (sogenannte zulassi-
ge Transformationen).
StatBio 31
Die verschiedenen Skalenniveaus (Ubersicht):
Qualitative Merkmale
Nominalskala Ordinalskala
Quantitative Merkmale
Metrische Skala
Intervallskala Verhaltnisskala
StatBio 32
Nominalskala (Skala mit dem niedrigsten Niveau)
Charakteristika:
– keine naturliche Rangordnung der Skalenwerte
– Zuordnung von Zahlen ist lediglich eine Ko-
dierung der Merkmalsauspragungen
– Anordnung hat keine inhaltliche Bedeutung
Vergleichsaussagen: gleich (=), ungleich (6=)
Rechnerische Operationen: Haufigkeiten
Zulassige Transformationen: bijektive (einein-
deutige) Abbildungen (siehe Aufgabe 3, Blatt
1)
StatBio 33
Tabelle 2–2 Nominale Merkmale und Kodierungen
Merkmal Merkmalsauspragungen KodierungBaumart Eiche 1
Buche 2Birke 3Linde 4sonstige 5
Geschlecht mannlich 0weiblich 1
Blutgruppe 0 0A 1B 2AB 3
Spezialfall nominalskalierter Merkmale sind
binare Merkmale (dichotome Merkmale):
Merkmale mit nur zwei Auspragungen (haufig
0/1–kodiert).
StatBio 34
Ordinalskala (Rangskala)
Charakteristika:
Die Merkmalsauspragungen sind Kategorien, bei
denen eine naturliche Rangordnung aufgrund
ihrer Große bzw. Intensitat gegeben ist.
Vergleichsaussagen: gleich (=), ungleich (6=)
sowie kleiner (<), großer (>)
Rechnerische Operationen: Haufigkeiten,
Range
Zulassige Transformationen: streng monotone
(ordnungserhaltende) Abbildungen (siehe Aufga-
be 3, Blatt 1)
StatBio 35
Tabelle 2–3 Ordinale Merkmale und Kodierungen
Merkmal Auspragung KodierungAntibiotikaresistenz sehr sensitiv 1
sensitiv 2intermediar 3resistent 4sehr resistent 5
Schmerzen wenig −1 1 3mittel 0 2 2stark 1 3 1
Bei nominal– und ordinalskalierten Merkmalen
haben Abstande (Differenzen) und Verhaltnis-se (Quotienten) von Skalenwerten keine inhalt-liche Bedeutung, sind also nicht vergleichbar.
StatBio 36
Bei quantitativen Merkmalen verwendet man ei-
ne metrische Skala. Hier liegt Messbarkeit im
engeren Sinne vor, wobei Skalenwerte im Allge-
meinen eine Dimension haben (Celsius, mg/l,
mmol, sec, cm, usw.).
Charakteristika:
– Abstande zwischen Skalenwerten sind inter-
pretierbar
– Naturliche Rangordnung durch Große der
Merkmalswerte.
Bei der metrischen Skala wird zwischen Intervall–
und Verhaltnisskala unterschieden.
StatBio 37
Intervallskala (Differenzenskala)
Charakteristika:
Bezugspunkt dieser Skala (Nullpunkt, Durch-
schnittswert) ist willkurlich festgelegt. Konse-
quenz: Vergleich von Differenzen ist sinnvoll,
nicht aber von Quotienten.
Vergleichsaussagen: gleich (=), ungleich (6=)
sowie kleiner (<), großer (>)
Rechnerische Operationen: Haufigkeiten,
Range, Subtraktionen
Zulassige Transformationen: lineare Abbildun-
gen (siehe Aufgabe 3, Blatt 1)
Beispiele intervallskalierter Merkmale:
– Temperatur in Celsius (Gefrierpunkt Wasser
= 0◦ C) bzw. in Fahrenheit (Korpertempe-
ratur Mensch = 100◦ F) (Vgl. Aufgabe 4, Blatt 1)
StatBio 38
– Intelligenzquotient nach Wechsler
(Durchschnittswert = 100)
Verhaltnisskala (Ratioskala)
Charakteristika:
Naturlicher (absoluter) Nullpunkt ist gegeben,
Vergleich von Verhaltnissen (Quotienten) ist
daher sinnvoll. Gleiche Quotienten drucken einen
gleich großen Unterschied aus.
Vergleichsaussagen: gleich (=), ungleich (6=)
sowie kleiner (<), großer (>)
Rechnerische Operationen: Haufigkeiten,
Range, Subtraktionen, Divisionen
Zulassige Transformationen: lineare homoge-
ne Abbildungen (siehe Aufgabe 3, Blatt 1)
StatBio 39
Beispiele verhaltnisskalierter Merkmale:
– Alter in Jahren
– Lange
– Gewicht
– Temperatur in Kelvin
(0◦ Kelvin = −273.15◦ Celsius).
Die verschiedenen Skalenniveaus stellen eine
Hierachie dar:
Tabelle 2–4 Sinnvoll interpretierbare Berechnungen
Skala zahlen ordnen subtrahieren dividierenNominal ja nein nein neinOrdinal ja ja nein neinIntervall ja ja ja nein
Verhaltnis ja ja ja ja
StatBio 40
Bemerkung: Statistische Methoden, die fur ein
niedriges Skalenniveau geeignet sind, konnen
auch fur ein hoheres Skalenniveau verwendet
werden (zahlen und ordnen ist stets fur metri-
sche Merkmale durchfuhrbar). Die Umkehrunggilt nicht! Fur metrische Merkmale kann et-
wa der Durchschnittswert (arithmetisches Mit-
tel) berechnet werden, was fur ordinal– und no-
minalskalierte Merkmale im Allgemeinen vollig
sinnlos ist.
StatBio 41
Skalentransformationen
Fur die statistische Analyse kann es sinnvoll sein,
metrische Daten so zu transformieren, dass ih-
re Auspragungen ordinalskaliert sind, auch wenn
solche Transformationen immer mit einem gewis-
sen Informationsverlust verbunden sind (denn
aus der Kenntnis der transformierten Werte
konnen die ursprunglichen Werte nicht mehr
zuruckgewonnen werden).
Die wichtigsten Transformationen sind der Uber-
gang zu
– Kategorien, Klassen (Klassenbildung ,,von
... bis”, ,,Klassierung der Daten”)
– Rangen (Daten werden der Große nach ge-
ordnet, der kleinste Wert erhalt Rang 1, der
zweitkleinste Wert Rang 2, usw.)
StatBio 42
Beispiel 2.1: Von 20 Blutproben wurde der
Plasmaalbumingehalt (in g/dl) bestimmt, wobei
sich folgende Werte ergaben:
3.9, 3.3, 4.6, 4.0, 3.8, 3.8, 3.6, 4.6 4.0 3.9
3.9, 3.9, 4.1, 3.7, 3.6, 4.6 4.0, 4.0, 3.8 4.1
Die Merkmalsauspragung Plasmaalbumingehalt
wird auf der Verhaltnisskala gemessen. Ord-
net man die Werte in aufsteigender Reihen-
folge, so lassen sich die Rangpositionen zu-
ordnen. Des Weiteren wird die Kategorie 1
,,Plasmaalbumingehalt ≤ 4.0” und die Katego-
rie 2 ,,Plasmaalbumingehalt > 4.0” betrachtet.
StatBio 43
Tabelle 2–5 Skalen–Transformation der Plasma–Daten
Patient– Wert geordnete Rang KategorieNr. Werte1 3.9 3.3 1 12 3.3 3.6 2.5 13 4.6 3.6 2.5 14 4.0 3.7 4 15 3.8 3.8 6 16 3.8 3.8 6 17 3.6 3.8 6 18 4.6 3.9 9.5 19 4.0 3.9 9.5 1
10 3.9 3.9 9.5 111 3.9 3.9 9.5 112 3.9 4.0 13.5 113 4.1 4.0 13.5 114 3.7 4.0 13.5 115 3.6 4.0 13.5 116 4.6 4.1 16.5 217 4.0 4.1 16.5 218 4.0 4.6 19 219 3.8 4.6 19 220 4.1 4.6 19 2
StatBio 44
Durchschnittsrang
Der Beobachtungswert 3.6 kommt zweimal vor.
Es sind die Range 2 und 3 zu vergeben. Bilden
des Durchschnittsrangs:
Rang(3.6) =2 + 3
2= 2.5
Der Beobachtungswert 3.8 kommt dreimal vor.
Es sind die Range 5, 6 und 7 zu vergeben: Bilden
des Durchschnittsrangs:
Rang(3.8) =5 + 6 + 7
3= 6
etc.
StatBio 45
2.3 Geordnete Stichproben und Range
Gegeben seien Daten
x1, x2, . . . , xn
Bezeichne
x(1) die kleinste der n Zahlen x1, . . . , xn
x(2) die zweitkleinste der n Zahlen x1, . . . , xn
...
x(n) die großte der n Zahlen x1, . . . , xn
x(k) heißt k–te Ordnungsgroße. Per Definition
gilt stets
x(1) ≤ x(2) ≤ . . . ≤ x(n)
x(1), . . . , x(n) heißt geordnete Stichprobe.
StatBio 46
Tabelle 2–6 Geordnete Plasma–Daten
i xi x(i) i xi x(i)
1 3.9 3.3 11 3.9 3.92 3.3 3.6 12 3.9 4.03 4.6 3.6 13 4.1 4.04 4.0 3.7 14 3.7 4.05 3.8 3.8 15 3.6 4.06 3.8 3.8 16 4.6 4.17 3.6 3.8 17 4.0 4.18 4.6 3.9 18 4.0 4.69 4.0 3.9 19 3.8 4.6
10 3.9 3.9 20 4.1 4.6
Der Rang einer Zahl xi innerhalb einer Stich-
probe gibt an, die wie–vielt–kleinste Zahl sie ist.
Um den Rang einer Beobachtung zu bestimmen
ist es sinnvoll, die Daten der Große nach zu
ordnen.
Formaler versteht man unter einem Rang folgen-
des:
StatBio 47
1. Fall: Der Beobachtungswert xi kommt in der
Stichprobe nur einmal vor. Dann ist der Rangvon xi gleich 1 plus Anzahl der Beobachtungen
die kleiner als xi sind:
Rang(xi) = 1 + Anzahl der xj mit xj < xi
2. Fall: Der Beobachtungswert xi kommt in der
Stichprobe k–mal vor, k ≥ 2 (man spricht von
einer Bindung der Lange k). Dann hat man fur
diese k gleichen Beobachtungswerte die Range
ri, ri + 1, . . . , ri + (k − 1)
zu vergeben, wobei
ri = 1 + Anzahl der xj mit xj < xi
Kame der Beobachtungswert xi nur einmal vor,
so ware die Zahl ri der Rang von xi.
StatBio 48
Diese k gleichen Beobachtungswerte bekommen
alle den gleichen Rang, den Durchschnittsrang.
Dieser ist definiert als das arithmetische Mittel
der zu vergebenden Range:
Rang(xi)
=ri + (ri + 1) + . . .+ [ri + (k − 1)]
k(2.1)
Formel (2.1) lasst sich vereinfachen (Aufgabe 6,
Blatt 1).
Beachte: Die Rang–Transformation
xi→ Rang(xi)
einer Beobachtung xi ist immer nur in Bezug auf
die Daten x1, . . . , xn festgelegt! (Vgl. Aufgabe
7, Blatt 1)
StatBio 49