239
Materialien zu Stochastik 1 Einf ¨ uhrung in die Wahrscheinlichkeitsrechnung und Statistik Dr. Christian Kredler WS 2003/04

Einführung in die Wahrscheinlichkeitsrechnung und Statistik

  • Upload
    letuyen

  • View
    222

  • Download
    3

Embed Size (px)

Citation preview

Page 1: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

Materialien zu Stochastik 1

Einfuhrung in dieWahrscheinlichkeitsrechnung und

Statistik

Dr. Christian Kredler

WS 2003/04

Page 2: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

Inhaltsverzeichnis

Teil 1: Wahrscheinlichkeitsrechnung 1

1 Grundlagen der Wahrscheinlichkeitsrechnung 1

1.1 Ereignisse, Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Wahrscheinlichkeitsaxiome von Kolmogorov . . . . . . . . . . . . . . . 4

1.3 Kombinatorik, Abzahlen . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.4 Unabhangigkeit, bedingte Wahrscheinlichkeit . . . . . . . . . . . . . . . 10

1.5 Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.5.1 Diskrete Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . 18

1.5.2 Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . 21

1.5.3 Stetige Zufallsvariable (ZV) . . . . . . . . . . . . . . . . . . . . 23

1.5.4 Prozentpunkte und Quantilfunktion . . . . . . . . . . . . . . . . 29

1.5.5 Eindimensionale Transformationen von ZV . . . . . . . . . . . . 32

1.6 Erwartungswerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

1.6.1 Erwartungswert und Varianz . . . . . . . . . . . . . . . . . . . . 36

1.6.2 Momente und Kumulanten . . . . . . . . . . . . . . . . . . . . . 42

2 Mehrdimensionale Verteilungen 46

2.1 Gemeinsame Verteilung von n Zufallsvariablen . . . . . . . . . . . . . . 46

2.1.1 Diskrete n-dim. Zufallsvariable . . . . . . . . . . . . . . . . . . . 47

2.1.2 Stetige n-dim. Zufallsvariable . . . . . . . . . . . . . . . . . . . 49

2.1.3 Randverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . 51

2.1.4 Erwartungswerte; n-dim. . . . . . . . . . . . . . . . . . . . . . . 54

2.2 Unabhangige Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . 59

2.3 Transformationen von n Zufallsvariablen . . . . . . . . . . . . . . . . . 63

2.3.1 Transformationssatz fur Dichten . . . . . . . . . . . . . . . . . . 63

2.3.2 Lineare Transformationen . . . . . . . . . . . . . . . . . . . . . 64

2.3.3 Summen, Quotienten . . . . . . . . . . . . . . . . . . . . . . . . 68

2.3.4 Minimum, Maximum . . . . . . . . . . . . . . . . . . . . . . . . 70

2.4 Bedingte Verteilungen und Erwartungswerte . . . . . . . . . . . . . . . 72

2.4.1 Bedingung bzgl. Ereignis B . . . . . . . . . . . . . . . . . . . . 72

2.4.2 Bedingte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . 74

2.4.3 Bedingte Erwartung . . . . . . . . . . . . . . . . . . . . . . . . 76

2.5 Ordnungsstatistiken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

Page 3: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

INHALTSVERZEICHNIS

3 Erzeugende Funktionen 823.1 Nichtnegative, ganzzahlige Zufallsvariable . . . . . . . . . . . . . . . . . 823.2 Momenterzeugende Funktion . . . . . . . . . . . . . . . . . . . . . . . . 87

4 Gesetze der grossen Zahlen 924.1 Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 924.2 Gesetze der grossen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . 954.3 Grenzwertsatze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

4.3.1 Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . 974.3.2 Approximation der Binomial- durch die Poisson-Verteilung . . . 99

5 Einfache Irrfahrt (Random Walk) 1015.1 Definition, Rekurrenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1015.2 Stoppzeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

6 Eine Auswahl wichtiger Verteilungen 1086.1 Einige diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . 1096.2 Beispiele stetiger Verteilungen . . . . . . . . . . . . . . . . . . . . . . . 112

Teil 2: Statistik 119

7 Deskriptive Statistik 1207.1 Grundgesamtheit, Merkmale . . . . . . . . . . . . . . . . . . . . . . . . 121

7.1.1 Klassifizierung von Merkmalen, Skalentypen . . . . . . . . . . . 1227.1.2 Messreihen, Stichproben . . . . . . . . . . . . . . . . . . . . . . 124

7.2 Empirische Verteilung eindim. diskreter Merkmale . . . . . . . . . . . . 1257.2.1 Tabellierung und grafische Darstellung . . . . . . . . . . . . . . 1257.2.2 Relative Summenhaufigkeit . . . . . . . . . . . . . . . . . . . . 126

7.3 Empirische Verteilung eindim. stetiger Merkmale . . . . . . . . . . . . 1297.4 Lageparameter, Lokationsmaße . . . . . . . . . . . . . . . . . . . . . . 132

7.4.1 Modus (Modalwert) . . . . . . . . . . . . . . . . . . . . . . . . . 1327.4.2 Empirische Quantile, Quartile, Median . . . . . . . . . . . . . . 1337.4.3 Arithmetisches Mittel . . . . . . . . . . . . . . . . . . . . . . . . 135

7.5 Streuungsparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1357.5.1 Spannweite, Variationsbreite . . . . . . . . . . . . . . . . . . . . 1357.5.2 Mittlere quadratische Abweichung, Standardabweichung . . . . 1367.5.3 Mittlere lineare Streuung . . . . . . . . . . . . . . . . . . . . . . 1377.5.4 Interquartilsabstand, inter quartile range (IQR) . . . . . . . . . 1377.5.5 Variationskoeffizient . . . . . . . . . . . . . . . . . . . . . . . . 138

7.6 Schiefe und Exzess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1397.7 Mittelwerte, Streuungen fur gruppierte Daten . . . . . . . . . . . . . . 1407.8 Affine Transformationen . . . . . . . . . . . . . . . . . . . . . . . . . . 1417.9 Empirische Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

7.9.1 Statistische Maßzahlen . . . . . . . . . . . . . . . . . . . . . . . 1427.9.2 KQ-Gerade, Bestimmtheitsmaß . . . . . . . . . . . . . . . . . . 144

7.10 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1547.10.1 Grafiken und Ausdrucke von Statistikprogrammen . . . . . . . . 154

Page 4: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

Einfuhrung

7.10.2 Einige Datenbeispiele . . . . . . . . . . . . . . . . . . . . . . . . 157

8 Schatzfunktionen, ML-Prinzip 1588.1 Erwartungstreue und Konsistenz . . . . . . . . . . . . . . . . . . . . . 1598.2 Schatzfunktionen minimaler Varianz . . . . . . . . . . . . . . . . . . . 1608.3 Konstruktion von Schatzern . . . . . . . . . . . . . . . . . . . . . . . . 161

8.3.1 Methode der Kleinsten Quadrate (KQ) . . . . . . . . . . . . . . 1628.3.2 Momentenmethode . . . . . . . . . . . . . . . . . . . . . . . . . 1628.3.3 Maximum-Likelihood (ML)-Methode . . . . . . . . . . . . . . . 162

9 Statistik normalverteilter Daten 1659.1 Stichprobenverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . 165

9.1.1 Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 1659.1.2 χ2 -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 1689.1.3 Student- oder t-Verteilung . . . . . . . . . . . . . . . . . . . . . 1699.1.4 Stichprobenmittel und -varianz . . . . . . . . . . . . . . . . . . 1709.1.5 F-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170

9.2 Konfidenzintervalle, Tests . . . . . . . . . . . . . . . . . . . . . . . . . 1729.2.1 Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . 1729.2.2 Tests, Konstruktion des kritischen Bereichs . . . . . . . . . . . . 1739.2.3 Fehler 2. Art . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1769.2.4 Zweiseitiger Test . . . . . . . . . . . . . . . . . . . . . . . . . . 178

9.3 Konfidenzintervalle und t-Test; σ unbekannt . . . . . . . . . . . . . . . 1789.3.1 Quantile der t-Verteilung . . . . . . . . . . . . . . . . . . . . . . 1799.3.2 Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . 1799.3.3 Konstruktion von T -Statistiken, t-Tests . . . . . . . . . . . . . . 1809.3.4 t-Test verbundener Stichproben; matched pairs . . . . . . . . . 1819.3.5 t-Test zum Vergleich von Mittelwerten . . . . . . . . . . . . . . 183

9.4 Vergleich von Varianzen, F-Test . . . . . . . . . . . . . . . . . . . . . . 1859.5 Der p−Wert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1879.6 Einfache lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . 1899.7 Multiple Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193

10 Explorative Datenanalyse 19610.1 Kerndichte-Schatzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19710.2 QQ-Plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20110.3 Box-Plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207

11 Anhang, Tabellen, Approximationen 21211.1 Asymptotische Formeln . . . . . . . . . . . . . . . . . . . . . . . . . . . 21211.2 Rationale Bestapproximationen fur Φ und Φ−1 . . . . . . . . . . . . . . 21411.3 Tabellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21411.4 Normal- bzw. Poissonapprox. der Binomialverteilung . . . . . . . . . . 219

Literatur 220

Index 222

Page 5: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

Einfuhrung

Die Vorlesung Einfuhrung in die Wahrscheinlichkeitsrechnung und Statistik(Stochastik 1) stellt den ersten Teil des viersemestrigen Zyklus mit Wahrscheinlich-keitstheorie (Stochastik 2), Stochastischen Prozessen (Stochastik 3) und der Mathe-matischen Statistik (Stochastik 4) an der TU Munchen dar. In Stochastik 1 werdenelementare Grundlagen der Wahrscheinlichkeitsrechnung und der Statistik vermittelt.Bei der einfachen Irrfahrt (random walk) kommen bereits erste Eigenschaften stocha-stischer Prozesse zur Sprache. Die Anwendung auf praxisrelevante Szenarien, in diesemFall auf den Ruin des Spielers, wird stets im Auge behalten.

Die Vorlesung ist fur Diplom-Mathematiker, Techno-, Finanz- und Wirtschaftsmathe-matiker sowie Studierende des Lehramts Mathematik an Gymnasien konzipiert. Siekann ab dem dritten Semester gehort werden, verwendet noch keine abstrakte Maß-theorie und bietet sich ebenso fur Physiker und Ingenieure an.

Der wahrscheinlichkeitstheoretische Teil (Kapitel 1 bis 6) ist also elementar gehalten, erorientiert sich an klassischen Lehrbuchern wie [Chung (1979)] und [Stirzaker (1994)].Schon aus Zeitgrunden wird in der Vorlesung auf manche statistischen Aspekte nichtmit voller Ausfuhrlichkeit eingegangen werden konnen. Hier sind diese Materialienals Erganzung und Anregung zum Selbststudium gedacht. Die einfuhrenden statisti-schen Kapitel 7 bis 10 dienen aber in erster Linie als Beiheft des vorlesungsbegleiten-den Statistik-Praktikums. Dieses wird vorwiegend mit den Programmpaketen R undS-Plus durchgefuhrt.Ein Durcharbeiten dieser Materialien ersetzt nicht den Besuch der Vorlesung. Auf dieErstellung eines kompletten Skriptums wurde in Anbetracht vorhandener Lehrbucher(siehe oben) verzichtet. Im wahrscheinlichkeitstheoretischen Teil sind Beweise fast durch-wegs weggelassen. Statt dessen findet man genaue Referenzen auf die Bucher von[Chung (1979)] und [Stirzaker (1994)].Ein weiterer Zweck dieser Ausarbeitung ist die komplette Darstellung umfangreicherRechnungen, die sich schlecht fur eine Darbietung an der Tafel eignen, aber dem Leserbeim Durcharbeiten einen grundlichen Einblick in wichtige Zusammenhange vermit-teln; zum Beispiel Integrationen bei der zweidimensionalen Normalverteilung.

Nun zur Gliederung dieser Materialien (in der Vorlesung wird das Kapitel uber de-skriptive Statistik aus didaktischen Grunden an den Anfang gestellt):

• Die sechs ersten Kapitel stellen wichtige Grundlagen der Wahrscheinlichkeits-rechnung zusammen. Ein Großteil der in der Vorlesung verwendeten grafischen

i

Page 6: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

ii Einfuhrung

Darstellungen sind hier bereits mit abgebildet, so dass Horerinnen und Horernein muhsames Reproduzieren dieses Materials erspart bleibt.

• Die Beschreibung und Klassifikation von Merkmalen sowie die Erlauterung einfa-cher Methoden der deskriptiven Statistik sind Gegenstand des siebten Kapitels.Weitere Stichworte lauten hier Histogramme, empirische Verteilungsfunktion,empirische Momente und Quantile, sowie empirische Korrelation und Kleinste-Quadrate-Gerade durch eine Punktewolke.

• Der propadeutischen Ausrichtung folgend werden im Anschluss Eigenschaftenstatistischer Schatzfunktionen diskutiert und u.a. das Maximum-Likelihood-Prinzipals Verfahren zur Gewinnung von Punktschatzern dargestellt.

• Wichtige Elemente der mathematischen Statistik normalverteilter Zufallsvariablenbis hin zur einfachen linearen Regression mit Gaußschen Fehlern sind Gegenstandvon Kapitel 9.

• Das letzte Kapitel setzt beim Leser Fertigkeiten in Wahrscheinlichkeitsrechnungvoraus und skizziert einige Standardmethoden der explorativen Datenanalyse,die in Statistik-Programmpaketen wie SAS, S-Plus oder SPSS angeboten wer-den. Dazu gehoren u.a. nichtparametrische Kerndichteschatzer sowie Box- undQQ-Plots zur Auswahl geeigneter Verteilungsmodelle. Die beiden letzten Kapitelliefern die theoretischen Grundlagen fur das Statistik-Praktikum am Rechner.

• Schließlich folgen die wichtigsten Verteilungstafeln und einige Approximations-formeln, insbesondere fur Naherungen des Normalverteilungsintegrals.

• Im Literaturverzeichnis ist eine knappe Auswahl einfuhrender Lehrbucher an-gegeben. Neben den oben bereits erwahnten Standardwerken stutzt sich dieseAusarbeitung im statistischen Teil vorwiegend auf [Falk et al. (1995)].

• Diese Materialien sind in manchen Details umfangreicher als die Einfuhrungsvor-lesung. So dient ein ausfuhrliches Stichwortverzeichnis dem schnellen Auffindenwichtiger Begriffe und weiterfuhrender Referenzen. Ein Anspruch auf Vollstan-digkeit wird nicht erhoben.

Die Gliederung der Vorlesung Stochastik 1 weicht, wie schon erwahnt, zu Beginn vomAufbau dieser Materialien ab. Dies hat folgenden Grund:

1. Die Studierenden sollen von Anfang an in die Lage versetzt werden, Statistik-Programmpakete zur Analyse einfacher Datensatze zu benutzen und die ausge-druckten Maßzahlen und Grafiken zu interpretieren. Deswegen befassen wir unsin den ersten Wochen – vor allem im vorlesungsbegleitenden Praktikum – kurzmit den deskriptiven Methoden, die im siebten Kapitel dieser Materialen zumweitgehenden Selbststudium ausfuhrlicher und mit zahlreichen Beispielrechnun-gen dargestellt sind.

2. Erst danach folgt das Kernstuck der Vorlesung. Ausbildungsziel ist es, mit denStudierenden den Kalkul der elementaren Wahrscheinlichkeitsrechnung grund-lich einzuuben. Diskrete und stetige Wahrscheinlichkeitsraume sowie die Begriffe

Page 7: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

Einfuhrung iii

Zufallsexperiment, Ereignis, Wahrscheinlichkeit, Zufallsvariable, Dichte und Ver-teilungsfunktion werden eingefuhrt und illustriert. In den Ubungen und Hausauf-gaben sind der Stoff und die notigen Rechenfertigkeiten von den Studierendenan weiteren Beispielen zu vertiefen. Vorkenntnisse aus der Kollegstufe sind dabeihilfreich, aber keine Voraussetzung fur das Verstandnis. Ein weiteres Ziel ist dersichere Umgang mit Erwartungswerten, Transformationen und bedingten Vertei-lungen diskreter und stetiger Zufallsvariablen einschließlich der Betrachtung vonOrdnungsstatistiken. Es folgen Gesetze der großen Zahlen und eine einfache Ver-sion des Zentralen Grenzwertsatzes. Mit dem sog. Random Walk unternehmenwir erste Gehversuche im wichtigen Gebiet der Stochastischen Prozesse.

3. Die wahrscheinlichkeitstheoretischen Grundlagen aus dem Hauptteil erlaubeneinen Ausbau der eingangs behandelten empirischen Methoden in den Kapitelnuber mathematische Statistik. Dort folgt die Vorlesung im wesentlichen dem Auf-bau dieser Materialien.

Herrn Dipl. Math. Martin Severin mochte ich fur Verbesserungsvorschlage beim Erstel-len dieser Materialien danken.Mein besonderer Dank gilt Frau Prof. Dr. Kluppelberg, die beim Konzeptentwurf mitwertvollen Hinweisen zur Seite stand.

Page 8: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

Kapitel 1

Grundlagen derWahrscheinlichkeitsrechnung

Die deskriptive Statistik (vgl. Kapitel 7) arbeitet mit anschaulichen Begriffen wie Po-pulation, Merkmal, (relative) Haufigkeit etc.In der axiomatisch fundierten Wahrscheinlichkeitstheorie werden entsprechende ab-strakte Formulierungen verwendet. Die Kenntnis einiger Begriffe der beschreibendenStatistik ist zwar keine Voraussetzung zum Verstandnis der folgenden Abschnitte, stelltsich aber erfahrungsgemaß in einem ersten Stochastik-Kurs als hilfreich heraus.

1.1 Ereignisse, Wahrscheinlichkeit

Def. 1.1 (Zufallsexperiment, Ergebnismenge, sample space)

Ω 6= ∅ sei die Menge aller moglichen Ergebnisse eines mathematischen Zufallsex-periments, die sog. Ergebnismenge. Man spricht auch vom Stichprobenraum(sample space).

Beispiel 1.2 (Zufallsexperimente)

1. Bernoulli-Experiment: Werfen einer MunzeΩ = Kopf, Wappen oder Ω = 0, 1

2. Wurfeln: Ω = 1, 2, 3, 4, 5, 6

3. Lotto 6 aus 49: Ω = ω |ω = j1, ..., j6 , j1, ..., j6 ∈ 1, 2, 3, ..., 48, 49 Da Mengen nur verschiedene Elemente enthalten, gilt |j1, ..., j6| = 6.

4. Anzahl der Anrufe in einer Telefonvermittlung pro Tag : Ω = N0 := N ∪ 0.

5. Ω = ω |ω = Matrikelnummer eines TU− Studenten im WS 1997/98 .

6. Schuss auf eine unendlich große Scheibe: Ω = R2.

1

Page 9: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

2 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG

7. Verlauf der Korpertemperatur eines Lebewesens: ω = (id, f) | id ∈ N , f ∈ C(R+) .Ergebnis des Experiments ist also die Identifikationsnummer id des Lebewesensund eine (beschrankte) stetige Funktion auf der nichtnegativen reellen Achse. f(0)ist die Korpertemperatur bei der Geburt. Nach dem Tod T > 0 des Lebewesenskonnte man etwa die Umgebungstemperatur zur Fortsetzung der Funktion fheranziehen.

Das letzte Beispiel zeigt, dass auch Funktionen als Ergebnisse eines Zufallsexperimentsauftreten konnen. Ω kann also endlich, abzahlbar oder sogar uberabzahlbar unendlichsein.

Man interessiert sich nun dafur, ob bei Durchfuhrung des Zufallsexperiments bestimmteEreignisse eintreten. Zum Beispiel, ob

1. beim Wurf einer Munze A = Kopf gefallen ist

2. beim Wurfeln eine 5 oder 6, d. h. B = 5, 6 herauskam

3. im Lotto 6 aus 49 ”sechs Richtige” angekreuzt wurden

4. mehr als 1000 Anrufe pro Tag in der Telefonvermittlung, D = n |n > 1000,auftraten

5. K = ω |Matrikelnummer ω beginnt mit einer 7

6. ein Treffer im Ziel Z landete; z. B. mitZ = ( x = r cos ϕ , y = r sin ϕ ) | 0 ≤ r < 5 ; 0 ≤ ϕ < 2π

7. die Korpertemperatur nie den Wert 40oC uberschritt.

In jedem Fall handelt es sich bei Ereignissen um Teilmengen von Ω.

Def. 1.3 (Ereignis, event)

Gewisse A ⊂ Ω heißen Ereignis (event). A tritt ein, falls sich bei Versuchs-durchfuhrung ein ω ∈ A ergibt.

Mit A und B sind auch A = Ac := Ω\A, A ∩B, A ∪B Ereignisse.

Ω heißt sicheres Ereignis (tritt also immer ein)

∅ heißt unmogliches Ereignis (kann nie eintreten)

Ac heißt Komplementarereignis

A, B heißen unvereinbar oder disjunkt (disjoint), falls A ∩B = ∅ω heißt Elementarereignis (singleton).

Vereinbarung: Falls nichts anderes gesagt wird, verwenden wir ”⊂” im Sinne von ”⊆”.

Page 10: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

1.1. EREIGNISSE, WAHRSCHEINLICHKEIT 3

Bei abzahlbarem Ω ist jede Teilmenge als Ereignis zugelassen. Um bei uberabzahlbaremΩ Widerspruche auszuschließen, beschrankt man sich auf sog. Ereignis−σ−Algebren.Dies sind ausreichend umfangreiche Mengensysteme von Ereignissen, die Ω enthaltenund bzgl. Komplementbildung und abzahlbarer Vereinigung (und damit auch abzahl-barem Durchschnitt) abgeschlossen sind.

Def. 1.4 (σ − Algebra F, σ − field, event space)

Eine σ−Algebra F ist ein Mengensystem F ⊂ P(Ω) mit folgenden Eigenschaften

(A1) Ω ∈ F

(A2) mit A ∈ F folgt auch Ac ∈ F

(A3) falls Ai ∈ F , i = 1, 2, ..., dann ist auch∞⋃i=1

Ai ∈ F.

Eine genaue Diskussion der Eigenschaften von σ − Algebren erfolgt in weiterfuhren-den Vorlesungen. Hier werden nur die wichtigsten Resultate zusammengestellt. Detailsentnehme man z. B. [Williams (1991)], ch. 1.

Beispiel 1.5

1. Die Potenzmenge P(Ω) ist die großte σ − Algebra auf Ω.

2. ∅, Ω ist die kleinste σ − Algebra auf Ω.

3. ∅, A,Ac, Ω ist die kleinste σ−Algebra, die eine nichtleere Menge A 6= Ω enthalt.

Bemerkung 1.6

1. Das Prafix σ− weist darauf hin, dass die Eigenschaft (A3) fur abzahlbar unendlichviele Mengen gilt.

2. Naturlich gilt die Aussage (A3) auch fur endliche Vereinigungen. Dazu beachtetman ∅ ∈ F (wegen (A1) und (A2)) und setzt Ak := ∅, z. B. fur k > n.

3. Mit den de Morgan’schen Gesetzen(⋃i∈I

Ai

)c

=⋂i∈I

Aci und

(⋂i∈I

Ai

)c

=⋃i∈I

Aci ,

die fur beliebige Indexmengen I gelten, folgt aus (A2) und (A3):

falls Ai ∈ F , i = 1, 2, ..., dann ist auch∞⋂i=1

Ai ∈ F.

Page 11: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

4 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG

Satz 1.7 (Erzeugung von σ − Algebren, Durchschnittseigenschaft)

1. Der Durchschnitt beliebig vieler σ − Algebren ist wieder eine σ − Algebra.

2. Zu jedem Mengensystem A ⊂ P(Ω) gibt es eine eindeutig bestimmte kleinsteσ − Algebra F mit A ⊂ F, die von A erzeugte σ − Algebra F.

Def. 1.8 (Borel - σ − Algebra)

Die von den offenen Mengen in R erzeugte σ−Algebra heißt Borel - σ−Algebra.

Satz 1.9 (Borel - σ − Algebra)

1. B enthalt u.a. alle reellen Intervalle.

2. B wird auch von den Intervallen (−∞, x], x ∈ R, erzeugt.

3. Zwar ist B 6= P(R), dennoch erfordert die Konstruktion einer Menge A ⊂ Rund A /∈ B erhebliche Muhe.

Es genugt fur praktische Anwendungen, Wahrscheinlichkeiten auf σ − Algebren F,d. h. geeigneten Untersystemen der Potenzmenge von Ω zu definieren. Ab jetzt heißennur noch solche Teilmengen C ⊂ Ω Ereignisse, fur die C ∈ F gilt. Weiterhin seien vonnun an generell A, A1, A2, . . . ∈ F und B, B1, B2, . . . ∈ F.

1.2 Wahrscheinlichkeitsaxiome von Kolmogorov

Def. 1.10 (Wahrscheinlichkeit)

Die Wahrscheinlichkeit ist eine Funktion P : F −→ R fur EreignisseA, A1, A2, . . . aus einer σ − Algebra F auf Ω mit folgenden Eigenschaften

(P1) P (A) ≥ 0 fur alle A ∈ F

(P2) P (Ω) = 1

(P3) P

( ∞⋃i=1

Ai

)=∞∑i=1

P (Ai), falls Ai ∩ Aj = ∅ fur i 6= j.

Man nennt P auch Wahrscheinlichkeitsmaß oder kurz W-Maß.

Page 12: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

1.2. WAHRSCHEINLICHKEITSAXIOME VON KOLMOGOROV 5

In der Wahrscheinlichkeitsrechnung wird stets davon ausgegangen, dass die FunktionP bekannt ist. Bei praxisrelevanten Problemen ist diese Annahme meist nicht erfullt.Mit den Methoden der Mathematischen Statistik kann man aber Schatzungen fur dieWahrscheinlichkeiten P (A), jedenfalls fur gewisse A ∈ F gewinnen.

Def. 1.11 (Wahrscheinlichkeitsraum)

Das Tripel (Ω, F, P ) nennt man Wahrscheinlichkeitsraum oder kurz W-Raum. Ω heißt diskret, falls es hochstens abzahlbar unendlich viele Elementehat.

Beispiel 1.12 (Wahrscheinlichkeitsraume)

1. Wurfeln: Ω = 1, 2, 3, 4, 5, 6 , Pi = 16, i = 1, ..., 6

2. Munzwurf (Standardmodellierung):Ω = 0, 1 , P1 = P (Kopf) = 1

2, P0 = P (Wappen) = 1

2

3. Munzwurf (Prazisierung):Beim Munzwurf ist auch die Situation denkbar, dass die Munze auf der Kantestehenbleibt. Die Menge aller moglichen Ergebnisse lautet dann Ω = 0, 1, 2 ,wobei P1 = 1

2, P0 = 1

2, P2 = P (Kante) = 0.

Hierbei bedeutet das Ergebnis ”2”, dass die Munze weder auf Kopf noch aufWappen fallt. Indem man die Wahrscheinlichkeit (Wkt) fur das Ereignis 2 auf0 festlegt, werden im W-Raum Ω alle wichtigen Aussagen genauso gelten wie indem erweiterten Ω mit dem zusatzlichen Ergebnis 2. Deswegen arbeitet man inder Regel gleich mit Ω statt Ω. Ahnliches gilt fur viele andere W-Raume.Etwas unprazise formuliert kann man vielleicht sagen, dass Ereignisse mit Wkt0 in diskreten W-Raumen praktisch nicht auftreten.

4. In uberabzahlbaren W-Raumen, auf denen z. B. normalverteilte Merkmale mo-delliert werden, kann die Wkt fur jedes Elementarereignis ω ∈ Ω gleich Nullsein, was nur scheinbar ein Widerspruch zu dem vorher Gesagten ist. Auf diesesParadox wird spater nochmals eingegangen.

5. Wurfeln bzw. Munzwurf sind Beipiele sog. Laplace-W-Raume, vgl. Def. 1.16.

Page 13: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

6 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG

Satz 1.13 (Folgerungen)

1. Setzt man Ai := ∅ , i = n + 1, n + 2, ..., so gilt (P3) auch fur endlichedisjunkte Vereinigungen, d. h. fur A1, . . . , An ∈ F

P (n⋃

i=1

Ai) =n∑

i=1

P (Ai) , falls Ai ∩ Aj = ∅ , i 6= j .

2. Weiterhin folgt aus den drei Axiomen fur A, B ∈ F

0 ≤ P (A) ≤ 1 , P (∅) = 0

P (Ac) = 1− P (A)

P (A\B) = P (A)− P (A ∩B) .

3. Besonders wichtig ist der Additionssatz

P (A ∪B) = P (A) + P (B)− P (A ∩B) , (1.1)

den man sich am besten in einem Venn-Diagramm fur beliebige MengenA, B ∈ F verdeutlicht.

Satz 1.14 (Ungleichungen, Boole’s inequalities)

Uber den Additionssatz folgt fur A ⊂ B zunachst A ∩B = A und somit

P (B) = P (A) + P (B ∩ Ac) ≥ P (A) ; A, B ∈ F .

Fur beliebige A, B ∈ F gelten die Ungleichungen von Boole

P (A) + P (B) ≥ P (A ∪B)

≥ maxP (A), P (B)≥ P (A ∩B)

≥ P (A) + P (B)− 1 .

Die Aussage des folgenden Satzes spielt bei vielen Beweisen eine Rolle.

Page 14: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

1.3. KOMBINATORIK, ABZAHLEN 7

Satz 1.15 (Folgen von Ereignissen)

Seien An+1 ⊂ An ∈ F, n = 1, 2, ... und∞⋂

n=1

An = ∅, dann gilt folgender

Stetigkeitssatzlim

n→∞P (An) = 0 .

Def. 1.16 (Laplace-Raum; Abzahlregel)

Sind bei endlichem Ω alle Elementarereignisse gleichwahrscheinlich, d. h.

P (ω) =1

|Ω|, fur alle ω ∈ Ω ,

so spricht man von einem Laplace-Wahrscheinlichkeitsraum oder einfachvon der Laplace-Annahme.Als σ−Algebra wahlt man in diesem Fall F = P(Ω). Damit folgt aus dem Axiom(P3) fur beliebige Ereignisse in Laplace-Raumen die sog. Abzahlregel:

P (A) =Anzahl der gunstigen Falle

Anzahl der moglichen Ergebnisse=|A||Ω|

. (1.2)

1.3 Kombinatorik, Abzahlen

Erste systematische Untersuchungen zu Fragen der Wahrscheinlichkeitstheorie wurdenim 17. Jahrhundert vor allem im Zusammenhang mit Glucksspielen durchgefuhrt (Ber-noulli, Fermat, Laplace, Pascal, ... ). Unter anderem spielten damals Abzahlaufgabeneine wichtige Rolle. Nachdem dieser Aufgabentyp in der Kollegstufe ausfuhrlich behan-delt wird, sollen hier nur die allerwichtigsten Aspekte zur Sprache kommen. Ausfuhr-liche Darstellungen findet man u.a. in [Chung (1979)], [Stirzaker (1994)], jeweils ch. 3(Counting), [Isaac (1995)], ch. 2 (How to Count ...) oder [Henze (1997)].

Viele Abzahlaufgaben basieren auf

Satz 1.17 (Multiplikationsregel der Kombinatorik)

Es sei eine mehrfache Auswahl zu treffen, wobei es m1 Moglichkeiten fur die ersteWahl, m2 Moglichkeiten fur die zweite Wahl, m3 fur die dritte usw. gibt. Konnenalle Moglichkeiten nach Belieben kombiniert werden, so lautet die Gesamtzahlaller moglichen Falle

m1 ·m2 ·m3 · . . .

Page 15: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

8 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG

Wichtigste Bausteine von Kombinatorikformeln sind die Fakultat und Binomialkoeffi-zienten.

Def. 1.18 (Permutationen)

Fur n ∈ N0 gibtn! = n · (n− 1) · . . . · 1 , 0! = 1 ,

die Anzahl der moglichen Permutationen (= Vertauschungen) von n verschiede-nen Objekten an.

Zum Beispiel gibt es fur n Personen (n − 1)! Moglichkeiten im Kreis zu sitzen. Dabeisind zwei Kreisanordnungen gleich, wenn jede Person in jeder Anordnung denselbenNachbarn hat.

Satz 1.19 (Variationen mit Wiederholung)

Nach der Multiplikationsregel 1.17 gibt es nk Moglichkeiten, aus einer Menge vonn Elementen k Elemente unter Beachtung der Reihenfolge mit Zurucklegen zuziehen.

Satz 1.20 (Kombinationen ohne Wiederholung)

Es gibt(n

k

)=

n!

k!(n− k)!=

n(n− 1) · . . . · (n− k + 1)

1 · 2 · . . . · k, n, k ∈ N0 , k ≤ n

k-elementige Teilmengen einer Menge von n Elementen.

Es folgen zwei Anwendungsbeispiele.

Satz 1.21 (Ziehen mit Zurucklegen)

In einer Urne seien N verschiedene Kugeln. Davon seien M rot gefarbt undder Rest weiß (0 < M < N). Am

n sei das Ereignis, dass beim n-maligen (un-abhangigen) Ziehen einer Kugel mit Zurucklegen genau m rote Kugeln auftreten,0 ≤ m ≤ n. Nach der Abzahlregel 1.16, der Multiplikationsregel 1.17 und Satz1.19 erhalt man

P (Amn ) =

(n

m

)Mm (N −M)n−m

Nn.

Die Gesamtzahl aller Moglichkeiten bei n Zugen mit Zurucklegen unter Beachtung derReihenfolge (wir denken uns die Kugeln von 1 bis N nummeriert) ist Nn. Seien die

Page 16: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

1.3. KOMBINATORIK, ABZAHLEN 9

Nummern der roten Kugeln 1, . . . ,M und die der weißen M + 1, . . . , N . Man erhaltzum Beispiel genau m rote Kugeln, wenn zuerst m rote und danach n − m weißeKugeln gezogen werden. Nach der Multiplikationsregel hat man dafur Mm(N−M)n−m

Moglichkeiten. Es sind aber auch andere Farbreihenfolgen moglich. Man konnte etwazunachst eine rote, dann n−m weiße und zum Schluß die restlichen m−1 roten Kugelnziehen. Markieren wir diejenigen m Stellen, an denen eine rote Kugel gezogen wird mit1, und die anderen mit 0, so erhalten wir binare n-Tupel, die mit den m-elementigenTeilmengen einer n-elementigen Menge identifiziert werden konnen. Davon gibt es eineAnzahl von genau

(nm

). Mit der Abzahlregel erhalt man die Formel von Satz 1.21.

Ahnliche Uberlegungen fuhren zur Herleitung der Wahrscheinlichlichkeitsfunktion derBinomialverteilung; siehe u.a. Formel (1.16).In der Fragestellung kommt es gar nicht darauf an, ob zuerst die roten oder andereKugeln gezogen werden. Trotzdem durfen wir entsprechende Formeln - mit Beachtungder Reihenfolge - benutzen, wenn dies sowohl beim Abzahlen der moglichen als auchder fur Am

n gunstigen Falle geschieht.

Satz 1.22 (Ziehen ohne Zurucklegen)

Wie vorher seien in einer Urne N Kugeln, davon 0 < M < N rot gefarbt und derRest weiß. Bm

n sei das Ereignis, dass beim n-maligen (unabhangigen) Ziehen einerKugel ohne Zurucklegen genau m rote Kugeln auftreten, 0 ≤ m ≤ minM, n.Wieder mit der Abzahl- und Multiplikationsregel sowie diesmal mit Satz 1.20erhalt man

P (Bmn ) =

(M

m

)(N −M

n−m

)(N

n

) .

Hier kann man die Formeln uber Kombinationen ohne Wiederholung heranziehen. Dortkommt es ohnehin bei den Ergebnissen nicht auf die Reihenfolge der Elemente an.Als mogliche Ergebnisse beim Ziehen ohne Zurucklegen kann man etwa alle n-elemen-tigen Teilmengen einer N-elementigen Grundmenge (Kugeln mit Nummern 1, . . . , N)ansehen. Bei der Definition von Mengen spielt bekanntlich die Reihenfolge der Elementein der Auflistung keine Rolle.Zum Abzahlen der fur Bm

n gunstigen Ergebnisse denken wir uns wieder die roten Ku-geln als von 1, . . . ,M durchnummeriert, die N − M weißen von M + 1, . . . , N . mrote Kugeln treten bein n-maligen Ziehen ohne Zurucklegen genau dann auf, wennam Ende Kugeln mit genau m verschiedenen Nummern aus 1, . . . ,M und n − mverschiedenen Nummern aus M +1, . . . , N vorliegen. Gemaß Satz 1.20 ist die Anzahl

dieser Ergebnisse(

Mm

)bzw.

(N−Mn−m

).

Page 17: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

10 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG

Ein typisches Beispiel fur ’Ziehen ohne Zurucklegen’ ist etwa eine Ausspielung beimLotto ”6 aus 49”:

N = 49 Gesamtzahl der Kugeln in der Trommel

M = 6 von einer Person P (am Freitag) angekreuzte Zahlen(in Gedanken rot gefarbt)

n = 6 am Samstagabend gezogene Zahlen

m ’Richtige’ der Person P(Anzahl der gezogenen ’roten Kugeln’).

1.4 Unabhangigkeit, bedingte Wahrscheinlichkeit

Def. 1.23 (Bedingte Wahrscheinlichkeit, conditional probability)

Seien A, B Ereignisse in F. Fur P (B) 6= 0 definiert

P (A|B) = PB(A) :=P (A ∩B)

P (B)(1.3)

die Wahrscheinlichkeit von A unter der Bedingung B. Die folgende Identitat, inder P (A|B) auf der rechten Seite vorkommt, ist fur P (B) > 0 wohldefiniert. Umin Zukunft die Diskussion von Sonderfallen zu vermeiden, legen wir zusatzlich furB ∈ F und P (B) = 0 fest

P (A ∩B) = P (A|B) P (B) .

Fur ein fest gewahltes B mit P (B) > 0 und variables A ∈ F definiert (1.3) sogar einenneuen Wahrscheinlichkeitsraum.

Satz 1.24 (Wahrscheinlichkeit unter der Bedingung B)

Fur B ∈ F mit P (B) > 0, FB := AB | AB := A ∩ B , A ∈ F undPB(AB) := P (A|B) ist

(B, FB, PB)

ein Wahrscheinlichkeitsraum.

Der nachste Satz ist eine einfache Folgerung der vorhergehenden Definition und dochvon weitreichender Bedeutung bei spateren Uberlegungen.

Page 18: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

1.4. UNABHANGIGKEIT, BEDINGTE WAHRSCHEINLICHKEIT 11

Satz 1.25 (Bedingte Zerlegung, conditioning)

Fur Ereignisse A, B ∈ F mit 0 < P (B) < 1 gilt

P (A) = P (A ∩B) + P (A ∩Bc) =

= P (A|B) P (B) + P (A|Bc) P (Bc) . (1.4)

Dies ist offensichtlich ein Spezialfall vom

Satz 1.26 (von der totalen Wahrscheinlichkeit, total probability)

Seien B1, B2, ... hochstens abzahlbar viele, paarweise disjunkte Ereignisse in F

und A ⊂∞⋃i=1

Bi, A ∈ F, dann gilt

P (A) =∞∑i=1

P (Bi) P (A|Bi) . (1.5)

bzw. fur endlich viele Bi

P (A) =n∑

i=1

P (Bi) P (A|Bi) . (1.6)

Der folgende Satz ist eine direkte Konsequenz. Er wird nur fur endlich viele Bi formu-liert:

Satz 1.27 (von Bayes)

Seien A, B1, ..., Bn ∈ F, B1, ..., Bn paarweise disjunkt, A ⊂n⋃

i=1Bi und P (A) 6= 0.

Weiterhin seien die bedingten Wahrscheinlichkeiten P (A|Bi) gegeben. Dann gilt

P (Bj|A) =P (Bj)P (A|Bj)n∑

i=1P (Bi)P (A|Bi)

∀ j = 1, ..., n .

Fur P (B) > 0 kann folgende Situation eintreten:

P (A) = P (A|B) =P (A ∩B)

P (B).

Dies motiviert die Definition

Page 19: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

12 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG

Def. 1.28 (Unabhangigkeit)

1. Zwei Ereignisse A und B ∈ F heißen unabhangig (independent), falls

P (A ∩B) = P (A) P (B) .

2. Eine (nicht unbedingt abzahlbare) Familie von Ereignissen Ai ∈ F, i ∈ I,heißt (stochastisch) unabhangig, falls

P

⋂j∈J

Aj

=∏j∈J

P (Aj) , (1.7)

fur alle endlichen Indexmengen J ⊂ I.

3. Eine Familie von Ereignissen Ai ∈ F, i ∈ I, heißt paarweise unabhangig,falls

P (Ai ∩ Aj) = P (Ai) P (Aj) , fur alle i 6= j .

Paarweise unabhangige Ereignisse sind nicht notwendig (stochastisch) un-abhangig.

Folgerung 1.29

Seien A, B ∈ F.

1. Fur alle A ∈ F sind ∅ und A unabhangig.

2. Fur alle A ∈ F sind Ω und A unabhangig.

3. Fur alle A ∈ F mit 0 < P (A) < 1 sind A und Ac nicht unabhangig.

4. Falls A und B unabhangig, so auchA und Bc sowie Ac und B sowie Ac und Bc.

5. Fur P (B) > 0 sind A und B genau dann unabhangig, falls P (A|B) = P (A).

Page 20: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

1.4. UNABHANGIGKEIT, BEDINGTE WAHRSCHEINLICHKEIT 13

Beispiel 1.30 (Ruin des Spielers, gambler’s ruin)

Am Ende dieses Abschnitts soll zum ersten Mal ein Beispiel diskutiert werden, das unsin dieser Einfuhrungsvorlesung noch ofter begegnen wird. Es handelt sich um den

”Ruin des Spielers”,vgl. etwa [Stirzaker (1994)], pp. 39 und 145.Sie betreten ein Spielkasino mit einem Kapital von k DM und setzen bei jedem Rou-lettespiel 1 DM auf das Ereignis R, dass die Kugel auf ”Rot” fallt. Im Falle R erhaltenSie mit dem Einsatz 2 DM zuruck, andernfalls gehort Ihr Einsatz von 1 DM der Spiel-bank. Wir wissen p = P (R) = 18/37 < 1/2. Sie legen von vorneherein ein Zielkapitalvon K ≥ k fest und beenden das Spiel, wenn Sie K DM besitzen oder wenn Sie allesverloren haben.

Gesucht ist zunachst pk, die Wahrscheinlichkeit dafur, alles zu verlieren.

Losung analog [Chung (1979)], pp. 242-245.Nun sei allgemein 0 < p < 1. Bezeichne Ak das Ereignis Ruin bei Anfangskapital k.Falls das erste Spiel mit ”Rot” endet, so ist dies dieselbe Situation als hatte man mitk+1 DM begonnen. Falls die Kugel ”nicht auf Rot” fallt (d. h. Rc), so hatte man gleichmit k−1 DM beginnen konnen. Damit ist der Satz von der totalen Wahrscheinlichkeitbzgl. des Ereignisses R anwendbar und es gilt fur 0 < k < K

P (Ak) = P (R) P (Ak|R) + P (Rc) P (Ak|Rc)

= P (R) P (Ak+1) + P (Rc) P (Ak−1)

pk = p pk+1 + (1− p) pk−1 . (1.8)

Wir losen nun die Differenzengleichung (1.8) unter den trivialen Anfangsbedingungen

p0 = 1 und pK = 0 .

In keinem dieser beiden Falle findet ein Spiel statt: im ersten, weil kein Kapital vor-handen ist; im zweiten, weil schon alles gewonnen ist. Seien jetzt allgemein 0 < p < 1,r := (1 − p)/p und dk := pk − pk+1. Mit pk = p pk + (1 − p) pk folgt aus (1.8) durchUmordnen

pk − pk+1 =1− p

p(pk−1 − pk) =

(1− p

p

)k

(1− p1)

=⇒ dk = r dk−1 = rkd0 .

Schrittweises Aufsummieren liefert mit der endlichen geometrischen Reihe

1 = p0 − pK =K−1∑k=0

(pk − pk+1) =K−1∑k=0

dk =K−1∑k=0

rk d0

=

K d0 , falls p = 1− p = 1

2

1− rK

1− rd0 , falls p 6= 1− p 6= 1

2,

Page 21: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

14 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG

und daher

d0 =

1/K , falls p = 1

2

1− r

1− rK, falls p 6= 1

2.

(1.9)

Wieder durch Summieren erhalt man mit pK = 0

pk = pk − pK =K−1∑i=k

(pi − pi+1) =K−1∑i=k

di =K−1∑i=k

ri d0 =

=

(K − k) d0 , falls p = 1

2

rk − rK

1− rd0 , falls p 6= 1

2.

(1.10)

Zusammen ergeben (1.9) und (1.10) fur 0 ≤ k ≤ K

pk =

K − k

K, falls p = 1

2

rk − rK

1− rK, falls p 6= 1

2.

(1.11)

Durch Vertauschen der Rollen von p und 1 − p, d. h. r → 1/r, sowie dem Ubergangvon k → K − k erhalt man die Wahrscheinlichkeiten qk, namlich dafur, dass die Spiel-strategie mit dem angestrebten Gewinn K endet:

qk =

k

K, falls p = 1

2

1− rk

1− rK, falls p 6= 1

2.

(1.12)

Durch Einsetzen verifiziert manpk + qk = 1

und erhalt sofort den wichtigen

Satz 1.31 (Endliches Ende des Spiels)

Das beschriebene Spiel endet mit Wahrscheinlichkeit 1 entweder im Ruin desSpielers oder mit dem Erreichen des Zielkapitals K.

Diese Aussage ist alles andere als trivial und folgt nur wegen der separaten Herleitungder Wahrscheinlichkeiten qk. (Warum darf man nicht einfach qk := 1−pk setzen?) Zwarist es denkbar, dass der Spieler jeweils abwechsend ein Spiel gewinnt und verliert. Indiesem Fall wurde das Spiel fur 2 ≤ k und K ≥ k+2 nie enden. Man kann aber zeigen,

Page 22: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

1.4. UNABHANGIGKEIT, BEDINGTE WAHRSCHEINLICHKEIT 15

dass derart spezielle Folgen von Spielausgangen nur mit Wahrscheinlichkeit 0 auftreten.

Ohne es zu bemerken, haben wir mit dem letzen Satz und der expliziten Angabe derpk und qk bereits die Analyse eines wichtigen Stochastischen Prozesses eingeleitet. Eshandelt sich um die einfache Irrfahrt oder den (simple) Random Walk.

Dabei bewegt man sich in diskreter Zeit t = 0, 1, 2, ... auf dem Gitter der ganzen Zahlennach folgenden Regeln:

1. Zum Zeitpunkt t befindet sich der Prozeß im Zustand St ∈ Z.

2. Der Ausgangszustand S0 = s0 ∈ Z ist vorgegeben.

3. Auf den Zustand St kann entweder der Zustand St+1 = St + 1 oder der ZustandSt+1 = St − 1 folgen.

4. Fur 0 < p < 1 gilt

P (St+1 = j + 1 |St = j) = p und P (St+1 = j − 1 |St = j) = 1− p .

5. Weiterhin gelten noch Unabhangigkeitsannahmen, die an dieser Stelle noch nichtprazisiert werden konnen.

Tragt man die Zustande St uber der Zeit ab, so konnte der Pfad eines typischenRandom Walks etwa folgendermaßen aussehen

s

Zielkapital

k

0 -Ruin des Spielerst

St

1 2 3 9 10 11

K

ss

ss

ss

ss

s

6

ss

s

Bild 1: Random Walk

Page 23: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

16 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG

Der Zusammenhang zum Ruin des Spielers ergibt sich folgendermaßen

1. Startkapital : k = s0 ≥ 0

2. p = P (Gewinn) = P (St+1 = j + 1 |St = j)

3. St = 0 ⇐⇒ Ruin des Spielers

4. St = K ⇐⇒ Spielende mit gewonnenem Zielkapital K.

Fur den Random Walk kann man ahnliche und eine Reihe weiterer Fragen stellen wiebeim Ruin des Spielers. Dies sind u.a.

1. Verlaßt ein beliebiger Pfad des Random Walk ein vorgegebenes endliches Intervall[a, b], a < b; womoglich sogar mit Wahrscheinlichkeit 1?

2. Trifft ein solcher Pfad einen beliebig vorgegebenen Wert z ∈ Z; und wie oft?

3. Tk sei die Zeit, bei der das Kapital des Spielers (ausgehend von S0 = k) zumersten Mal einen der Werte STk

= 0 oder STk= K erreicht. Es ist u.a. zu klaren,

ob Tk endlich ist.

4. Was geschieht im Fall K →∞, wenn die Bank unbeschranktes Kapital besitzt?

Diesen und ahnlichen Fragen wenden wir uns im Kapitel 5 zu. Zuvor benotigen wiraber die Einfuhrung weiterer wichtiger Begriffe der Wahrscheinlichkeitsrechnung, mitdenen wir uns zunachst befassen.

Page 24: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

1.5. ZUFALLSVARIABLE 17

1.5 Zufallsvariable

Die Festlegung von Wahrscheinlichkeiten fur Ereignisse in den einfachen Laplace-Raum-en wurde bereits diskutiert. In komplexeren Modellen benotigt man neue Hilfsmittel,namlich sog. Zufallsvariable (vgl. auch die Ausfuhrungen uber Merkmale im Kapitel’Empirische Statistik’).Oft ist man gar nicht an den Ergebnissen ω ∈ Ω selbst interessiert, sondern an derenMerkmalen; z. B. an der ”Verteilung” von Große oder Gewicht von Individuen ω in einerPopulation Ω. Es zeigt sich, dass die Festlegung interessierender Wahrscheinlichkeitenbesonders einfach fur bestimmte Abbildungen erfolgen kann.

Def. 1.32 (Zufallsvariable, ZV)

Gegeben sei ein Wahrscheinlichkeitsraum (Ω, F, P ). Eine Abbildung

X : Ω→ R ,

mit X−1(B) ∈ F fur alle Borelmengen B ∈ B (vgl. Def. 1.8) (1.13)

heißt (eindimensionale) Zufallsvariable oder auch Zufallsgroße (random va-riable).

Die reelle Zahl x = X(ω), die sich bei Durchfuhrung des Zufallsexperiments durchAuswerten von X ergibt, heißt Realisierung von X.

Das Wahrscheinlichkeitsmaß PX auf (R, B) definiert durch

PX(B) := P (X−1(B)) fur alle Borelmengen B ∈ B (1.14)

heißt Verteilung (distribution) von X.

Bemerkung 1.33

1. Fur eine ZV genugt es schon, wenn X−1 ( (−∞, x] ) ∈ F, fur alle x ∈ R.

2. Die Definition von ZV wird spater verallgemeinert, zunachst auf ZufallsvektorenX : (Ω, F)→ (Rn, Bn).

3. Bei sog. Wartezeitproblemen kann die ZV X den Wert ∞ annehmen. Indiesem Einfuhrungskurs bleibt dieser Fall ausgeschlossen, solange nicht explizitdarauf Bezug genommen wird.

4. Falls Ω hochstens abzahlbar ist, und falls F = P(Ω), so ist jede AbbildungX : Ω→ R eine Zufallsvariable.

5. Fur F = ∅, A,Ac, Ω sind genau die Abbildungen

X(ω) =

c , falls x ∈ Ad , sonst ,

mit c, d ∈ R Zufallsvariable.

Page 25: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

18 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG

6. Das letzte Beispiel demonstriert, wie einschrankend die Forderung (1.13) im Spe-zialfall sein kann. In einem Stochastik-Einfuhrungskurs wollen wir aber dieseabstrakte Messbarkeitseigenschaft nicht weiter verfolgen und fortan stets voraus-setzen, dass die verwendeten ZV im Sinne von (1.13) wohldefiniert sind.Bei hochstens abzahlbarem Ω treten ohnehin keine Probleme auf, da fur F = P(Ω)jede Abbildung messbar ist, und die Wahrscheinlichkeiten fur die Elementarer-eignisse festgelegt werden konnen.

1.5.1 Diskrete Zufallsvariable

Fur diskrete ZV nimmt X nur die Werte xi, i ∈ I an, wobei I hochstens abzahlbarist; z. B. I = 1, ..., n, I = Z, I = N, I = N0 usw. Haufig gilt: xi ∈ 0, 1, 2, . . ..

Def. 1.34 (Diskrete Verteilung)

X sei eine diskrete ZV, und die Indexmenge I hochstens abzahlbar unendlich.

pi = P (X = xi) , i ∈ I (1.15)

mit pi ≥ 0 , i ∈ I und∑i∈I

pi = 1

legen die in (1.14) definierte Verteilung von X eindeutig fest.

f(x) = fX(x) = P (X = x) :=

pi , falls x = xi , i ∈ I0 , sonst,

heißt Wahrscheinlichkeitsfunktion (probability mass function, p.m.f.) von X.

Auch umgekehrt bestimmt im diskreten Fall die Verteilung von X eindeutig die pi > 0.Deswegen spricht man gelegentlich bei den pi oder der Wahrscheinlichkeitsfunktion fX

von (diskreter) Verteilung, obwohl dieser Begriff genau genommen fur das Wahrschein-lichkeitsmaß von (1.14) reserviert ist.

Page 26: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

1.5. ZUFALLSVARIABLE 19

Vereinbarung:

1. An dieser Stelle scheint das Subskript bei fX(x) noch uberflussig. Falls kei-ne Verwechslungen zu befurchten sind, wird es auch weggelassen. In spaterenAbschnitten, z. B. bei der Transformation von ZV, ermoglicht jedoch der Ge-brauch des Subskripts eine verstandlichere Darstellung.

2. Je nach Sachlage werden wir einmal die Schreibweise pi , i ∈ I gebrauchen, uman die diskreten Werte xi zu erinnern, und ein anderes Mal die Darstellung uberdie Wahrscheinlichkeitsfunktion fX , um eher den Bezug zur ZufallsvariablenX herauszuheben.

3. Man gibt die Wahrscheinlichkeitsfunktion in der Regel nur fur Argumente xmit fX(x) > 0 an.

4. Im Zusammenhang mit diskreten ZV bedeutet die verkurzte Schreibweise∑i

stets∑i∈I

, also z. B.n∑

i=0oder

∞∑i=0

etc.

Beispiel 1.35 (diskrete Verteilungen)

1. Wurfeln:

|Ω| = 6, X : Ω→ 1, 2, . . . , 6, P (X = i) =1

6, i = 1, ..., 6 .

2. Bernoullisches Experiment: Ω = A ∪ Ac, X : Ω→ 0, 1.

P (A) = P (X = 1) = p, P (Ac) = P (X = 0) = 1− p, 0 < p < 1 .

Das Ereignis A steht etwa fur ”Gewinn” bei einem Glucksspiel oder fur ”Aus-schuß” bei der Kontrolle einer Lieferung.

3. Binomialverteilung: B(n,p)n-maliges Durchfuhren unabhangiger Bernoulliexperimente. P (A) = p,X : Ω→ 0, 1, 2 . . . , n; X bezeichnet die Anzahl des Auftretens von A.

pi = P (X = i) =

(n

i

)pi(1− p)n−i, i = 0, 1, . . . , n, 0 < p < 1 . (1.16)

Beweis von∑

i

pi = 1 uber Binomische Formel.

Bedeutet A Ausschuß, so gibt X die zufallige Anzahl von nicht brauchbaren Teilenan, die in einer Stichprobe vom Umfang n enthalten sind.

Page 27: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

20 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG

0

0.1

0.2

0.3

0 2 4 6 8 10

xi

pi =(

ni

)pi(1− p)n−i ; p = 0.2 , n = 10

Bild 2: Wahrscheinlichkeitsfunktion der Binomialverteilung B(10, 0.2)

4. Poisson-Verteilung: Poi(λ)z. B. Anzahl der Telefonanrufe in einer Vermittlung pro Stunde.

X : Ω→ 0, 1, 2 . . ., px = f(x) = e−λ λx

x!, x = 0, 1, 2, . . . , λ > 0 , (1.17)

(z. B. λ durchschnittliche Zahl von Anrufen).

Beweis von∑x

px = 1 uber Taylorreihe der Exponentialfunktion.

0

0.05

0.1

0.15

0.2

0 2 4 6 8 10 12 14 16

xi

px = e−λ λx

x!; λ = 5

Bild 3: Wahrscheinlichkeitsfunktion der Poisson-Verteilung Poi(5)

Page 28: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

1.5. ZUFALLSVARIABLE 21

5. Geometrische Verteilung:X sei die Anzahl der Fehlversuche bei (unabhangigen) Bernoulli-Experimenten,bis zum ersten Mal das Ereignis A = Erfolg, mit P (A) = p , 0 < p < 1 eintritt,z. B. A = ”Rot” beim Roulette. Somit ist X : Ω→ N0 mit der Verteilung

pi = P (X = i) = p (1− p)i, i = 0, 1, 2, . . . . (1.18)

Beweis von∑

i

pi = 1 uber die geometrische Reihe. X = 0 bedeutet, dass bereits

im 1. Versuch ”Erfolg” eintritt.

6. WartezeitproblemeHier betrachtet man u.a. ZV X : Ω→ 0, 1, 2, ...,∞ mit

∞∑i=0

pi = p < 1 und P (X =∞) = 1− p > 0 . (1.19)

Auf Beispiele dieser Art wird der Vollstandigkeit halber gelegentlich hingewiesen.Falls jedoch nicht ausdrucklich ausgeschlossen, gelte hier stets

∑i

pi = 1.

1.5.2 Verteilungsfunktion

Eine Standardmethode zur Festlegung von Wahrscheinlichkeiten fur beliebige Zufalls-variable benutzt die

Def. 1.36 (Verteilungsfunktion, distribution function)

Die Funktion F : R→ R mit

F (x) = FX(x) := P (X ≤ x) = P (ω |X(ω) ≤ x )

heißt Verteilungsfunktion der ZV X.

Folgerung 1.37

1. F (x) ist also die Wahrscheinlichkeit, dass der Wert der ZV bei Versuchsdurchfuhrungkleiner gleich x ausfallt.

2. F ist wohldefiniert, da ω |X(ω) ≤ x ∈ F fur alle x ∈ R.

3. Da die Borelsche σ−Algebra B auch von den Intervallen (−∞, x], x ∈ R, erzeugtwird, legt die Funktion F die Verteilung von X gemaß (1.14) eindeutig fest.

4. F (x) := 1− F (x) = P (X > x) wird auch ”tail probability” genannt.

Page 29: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

22 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG

5. Nach dem Additionssatz gilt fur a < b

P (a < X ≤ b) = F (b)− F (a) . (1.20)

Man beachte den Unterschied zwischen a < X und a ≤ X bei diskreten ZV.

Satz 1.38 (Eigenschaften)

Fur die Verteilungsfunktion F gilt

1. F (x) ≤ F (y), falls x ≤ y (monoton nicht fallend)

2. F (−∞) := limx→−∞

F (x) = 0, F (∞) := limx→∞

F (x) = 1

3. F ist rechtsseitig stetig.

Manche Autoren definieren F (x) := P (X < x). In diesem Fall ist F linksseitig stetig.Fur diskrete ZV erhalt man mit unserer Definition

F (x) =∑

i: xi≤x

pi =∑

i: xi≤x

f(xi) , (1.21)

also eine Treppenfunktion mit Sprungen pi = P (X = xi) in xi.

1F (x)

t

d -

6

dt

1− p

x10

Bild 4: Verteilungsfunktion fur diskretes X: P (X = 0) = 1− p , P (X = 1) = p

Bei diskreten ZV gibt es einen eineindeutigen Zusammenhang zwischen den Wahr-scheinlichkeiten pi = fX(xi) > 0, i ∈ I und der Verteilungsfunktion F , wobei die pi

anschaulicher zu interpretieren sind; vgl. etwa die Verwandtschaft zu relativen Haufig-keiten.Entsprechende Analogien gelten fur eine andere wichtige Klasse von Zufallsvariablen,die Werte in einem ganzen Intervall annehmen konnen.

Page 30: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

1.5. ZUFALLSVARIABLE 23

1.5.3 Stetige Zufallsvariable (ZV)

Beispiele stetiger ZV sind u.a.

- Korpergroße einer Grundgesamtheit Ω, X : Ω→ (0,∞).

- Kontostand einer Gruppe von Kunden Ω, X : Ω→ R.

Def. 1.39 (Dichtefunktion, density)

Eine Funktion f : R→ R heißt Dichte, falls

1. f(x) ≥ 0 fur alle x ∈ R

2.

∞∫−∞

f(x) dx = 1.

Def. 1.40 (Stetige ZV)

X : Ω→ R sei eine ZV. Man nennt X stetig, falls es eine (integrierbare) DichtefX gibt, so dass fur alle x ∈ R

FX(x) = P (X ≤ x) =

x∫−∞

fX(t) dt .

Vereinbarung:

1. Wir schreiben wieder F statt FX bzw. f statt fX , falls klar ist, zu welcher Zu-fallsvariablen F bzw. f gehoren.

2. Die Verteilungsfunktion FX , und damit die Verteilung von X gemaß (1.14), wer-den eindeutig durch eine Dichte fX festgelegt. Wenn im folgenden von einer(stetigen) Verteilung die Rede ist, so genugt es also zur Charakterisierung, eineDichte fX anzugeben.

3. In dieser Vorlesung werden nur Dichten betrachtet, die stetig oder stuckweisestetig sind (also insbesondere Regelfunktionen).

Fur diesen praktisch wichtigen Sonderfall folgt aus dem Hauptsatz der Differential-und Integralrechnung

Page 31: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

24 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG

Satz 1.41 (Beziehung Verteilungsfunktion - Dichte)

Falls die stetige Verteilungsfunktion F einer ZV X bis auf endlich viele Stellenstetig differenzierbar ist, so ist X stetig mit der Dichte

f(x) = fX(x) = F ′X(x) = F ′(x) . (1.22)

Die Festlegung von f an den Sprungstellen kann fur f(x) ≥ 0 beliebig erfolgen.

Folgerung 1.42

1. Die Verteilungsfunktion einer stetigen ZV ist stetig.

2. Nach dem Additionssatz gilt fur a < b

P (a < X ≤ b) = F (b)− F (a) =

b∫a

f(t) dt = P (a ≤ X ≤ b) . (1.23)

3. Fur stetige ZV spielt also wegen

P (X = a) = P (a ≤ X ≤ a) =

a∫a

f(t) dt = 0

die Festlegung der Dichte an einzelnen Punkten keine Rolle.

4. Bei stetigen ZV kann man die Verteilungsfunktion eindeutig aus einer gegebenenDichte gewinnen. Umgekehrt ist die Dichte einer stetigen ZV bei gegebener Ver-teilungsfunktion FX punktweise nicht eindeutig festgelegt. Fur Dichten fX undfX von X gilt allerdings fur alle −∞ ≤ a ≤ b ≤ ∞

b∫a

fX(x) dx =

b∫a

fX(x) dx .

5. Die Analogie zwischen der hier definierten und der empirischen Dichte (Histo-gramm) in der beschreibenden Statistik ist offensichtlich.

6. Wegen Axiom (P3) von Def. 1.10 gilt fur diskrete und stetige ZV sowie fur be-liebige Borelmengen B ⊂ R

P (X ∈ B) =

x∈BfX(x) , falls X diskret∫

x∈BfX(x) dx , falls X stetig ,

(1.24)

wobei etwa fur B = [a, b] ∪ [c, d] mit a < b < c < d

∫x∈B

fX(x) dx =

b∫a

fX(x) dx +

d∫c

fX(x) dx

zu lesen ist.

Page 32: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

1.5. ZUFALLSVARIABLE 25

7. Trotz vieler formaler Ahnlichkeiten bestehen wesentliche Unterschiede zwischender Wahrscheinlichkeitsfunktion diskreter und der Dichtefunktion stetiger ZV.Wir haben gesehen, dass die Aussage

P (X = x) = fX(x)

fur diskrete ZV richtig und fur stetige i. a. falsch ist.

Haufige Wertebereiche fur stetige ZV sind u.a. die Intervalle [a, b], a < b, [0,∞), R.Jeder Wert im entsprechenden Intervall ist moglich. Die Kuriositat, dass ein konkreterWert x∗ nur mit Wahrscheinlichkeit 0 auftritt, soll an einem Beispiel erlautert werden.Fur X = Korpergewicht wurde dies etwa bedeuten

P (X = 70) = 0, aber P (69.999 ≤ X ≤ 70.001) > 0 .

Der Fall, dass jemand genau 70.0000... kg wiegt, tritt also nur mit Wahrscheinlichkeit0 auf. Fur sinnvoll gewahlte, nichtleere Intervalle erhalt man dagegen in der Regelpositive Wahrscheinlichkeiten.

Def. 1.43 (Identisch verteilt, identically distributed)

Zwei ZV X und Y heißen identisch verteilt (X ∼ Y ), falls die entsprechendenVerteilungen ubereinstimmen, d. h.

P (X−1(B)) = P (Y −1(B)) fur alle Borelmengen B ∈ B

oder aquivalent dazu, falls

FX(z) = FY (z) fur alle z ∈ R .

Vor der Diskussion einiger Beispiele noch eine weitere Definition:

Def. 1.44 (Indikatorfunktion)

A sei eine nichtleere Teilmenge von Ω. 1A : Ω→ R mit

1A(x) :=

1 , falls x ∈ A0 , sonst,

heißt Indikatorfunktion von A.

Beispiel 1.45 (stetige Verteilungen)

Page 33: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

26 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG

1. Gleichverteilung (uniform distribution) U(a, b) in (a, b), a < b.Man spricht auch von der Rechteckverteilung. Diese hat die Dichte

f(x) =1

b− a1(a,b)(x) =

1

b− a, falls a < x < b

0 , sonst,(1.25)

6

1

b− a

a bx

f(x)

Bild 5: Dichte der Rechteckverteilung

Die Verteilungsfunktion der Gleichverteilung in (a, b) lautet

F (x) =

0 , falls x ≤ a

x− a

b− a, falls a < x < b

1 , falls x ≥ b .

Da es sich um eine stetige Verteilung handelt, spielt es keine Rolle, ob das offe-ne oder das abgeschlossene Intervall zwischen a und b betrachtet wird. Gemaßobiger Definition sind dann die ZV X mit U(a, b) und Y mit U [a, b] (a und beingeschlossen) identisch verteilt.

2. Normal (Gauß)-Verteilung N(µ, σ2)Die Normalverteilung spielt eine zentrale Rolle. Fur µ ∈ R, σ2 > 0 lautet dieDichte

f(x) =1√2π σ

e− (x−µ)2

2σ2 (1.26)

N(0, 1) heißt Standardnormalverteilung und hat die spezielle Dichte

ϕ(x) =1√2π

e−x2

2 .

Die Verteilungsfunktion

Φ(u) =

u∫−∞

ϕ(t) dt

Page 34: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

1.5. ZUFALLSVARIABLE 27

der Standardnormalverteilung N(0, 1) ist analytisch. Eine geschlossene Darstel-lung mit bekannten Standardfunktionen ist jedoch fur Φ nicht moglich. Nume-risch kann Φ genauso berechnet werden wie etwa die Exponentialfunktion oderandere wichtige Funktionen. Zum Ablesen von Quantilen (vgl. Abschnitt 1.5.4)verwendet man Tabellen von Φ, die in fast allen Statistikbuchern zu finden sind,so auch im Anhang dieser Materialien.

0.1/σ

0.2/σ

0.3/σ

0.4/σ

µ− 3σ µ− 2σ µ− σ µ µ + σ µ + 2σ µ + 3σ

Gausche Glockenkurve

Bild 6: Dichte der N(µ, σ2)-Verteilung

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

-4 -3 -2 -1 0 1 2 3 4

Bild 7: Verteilungsfunktion Φ der Standardnormalverteilung N(0, 1)

3. Exponentialverteilung ED(λ)

Die Bezeichnung steht fur ”exponential distribution”. Bei Lebensdauerverteilun-

Page 35: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

28 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG

gen nehmen die entsprechenden ZV nur nichtnegative Werte an. Ein einfaches,aber wichtiges Beispiel ist die Exponentialverteilung mit Parameter λ > 0. DieDichte ergibt sich zu

fT (t) = λ e−λt 1(0,∞)(t) =

λ e−λt , falls t > 0

0 , sonst .(1.27)

Ist etwa die Ausfallzeit T eines Bauteils exponentialverteilt mit Parameter λ = 2,so bedeutet

P (1 < T ≤ 2) =

2∫1

λ e−λt dt = −e−2 t∣∣∣21 = −e−4 + e−2 ' 0.135− 0.018 = 0.117 ,

dass das Bauteil mit einer Wahrscheinlichkeit von 11.7% im zweiten Betriebsjahrausfallt. Die Verteilungsfunktion der Exponentialverteilung lautet

FT (t) = (1− e−λt) 1(0,∞)(t) =

0 , falls t ≤ 0

1− e−λt , falls t > 0 .(1.28)

Die tail probability F (t) = e−λ t gibt die Wkt an, dass das Bauteil nicht vor demZeitpunkt t ausfallt (Uberlebenswahrscheinlichkeit).Eine besondere Eigenschaft der Exponentialverteilung ist die sog. Gedachtnis-losigkeit. Hat namlich ein Bauteil das Alter t0 erreicht, so gilt mit (1.3)

P (T > t + t0 |T > t0) =P (T > t + t0, T > t0)

P (T > t0)=

P (T > t + t0)

P (T > t0)

=e−λ(t+t0)

e−λ t0= e−λ t = P (T > t) .

Damit ist die Wahrscheinlichkeit fur das Bauteil, im Intervall (0, t) auszufallen ge-nausogroß, wie diejenige, im Intervall (t0, t0+t) auszufallen, nachdem das Bauteilbereits das Alter t0 erreicht hat.

4. Gammaverteilung Γ(q, λ)Fur z > 0 bezeichne

Γ(z) :=

∞∫0

tz−1e−t dt (1.29)

die Gammafunktion. Es gelten die bekannten Identitaten

Γ(z + 1) = z Γ(z) ; Γ(12) =√

π ; Γ(n) = (n− 1)! , n ∈ N .

Fur die Parameter q > 0 und λ > 0 ist

fZ(z) =λq

Γ(q)zq−1 e−λz 1(0,∞)(z) (1.30)

die Dichte einer Gamma-verteilten ZV. Spezialfalle dieser Verteilungsfamilie sindu.a. die Exponentialverteilung ED(λ) = Γ(1, λ). Spater in Bsp. 3.14 werden

Page 36: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

1.5. ZUFALLSVARIABLE 29

wir sehen, dass Summen von n sog. ”unabhangigen” ED(λ)−verteilten ZV eineErlangverteilung besitzen. Wegen Erlang(n, λ) = Γ(n, λ) handelt es sich auchhier um ein Element der Familie von Gammaverteilungen. Eine weitere spezielleGammaverteilung ist die χ2-Verteilung, die bei Summen von Normalverteilungs-quadraten eine wichtige Rolle spielt; vgl. Kap. 6.

Def. 1.46 (Bezeichnung)

Anstelle von ” X ist normalverteilt mit den Parametern µ und σ2 ” schreiben wirkurz

X ∼ N(µ, σ2)

oder entsprechend bei einer (n, p)-binomialverteilten Große Y

Y ∼ B(n, p)

usw.

1.5.4 Prozentpunkte und Quantilfunktion

Zur Simulation einer ZV mit beliebiger Verteilungsfunktion F und zur Definition vonsog. Quantilen benotigt man eine verallgemeinerte Inversion F← von F .

Def. 1.47 (Verallgemeinerte Inverse, Quantilfunktion)

X sei eine ZV mit Verteilungsfunktion F .

F←(p) := inf x ∈ R | F (x) ≥ p , p ∈ (0, 1) .

heißt verallgemeinerte Inverse oder Quantilfunktion zu F .

Bemerkung 1.48

Fur streng monotones F : R→ (0, 1) gilt F← = F−1.

Lemma 1.49 (Eigenschaften der Quantilfunktion)

Fur beliebige Verteilungsfunktionen gilt

F←(p) ≤ t⇐⇒ p ≤ F (t) fur alle t ∈ R und p ∈ (0, 1) .

Page 37: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

30 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG

Def. 1.50 (p-Quantil, Median, Quartil, IQR)

X sei eine ZV mit Verteilungsfunktion F , dann heißt fur 0 < p < 1 die Zahl

xp := F←(p) = inf x ∈ R |F (x) ≥ p

p-Quantil oder p-Prozentpunkt von X.

Das wichtigste Quantil x0.5 = Q2 heißt Median oder 2. Quartil. Erstes bzw. drit-tes Quartil lauten Q1 = x0.25 bzw. Q3 = x0.75.Den Abstand IQR := x0.75−x0.25 nennt man Interquartilsabstand (inter quar-tile range).

Gelegentlich findet man leicht abweichende Definitionen von xp, die aber fur strengmonotones, stetiges F stets ubereinstimmen. In diesem Fall gilt dann

P (X ≤ xp) = p , fur 0 < p < 1 .

Bemerkung 1.51 (Lageparameter)

1. p-Quantile und insbesondere der Median sind Lageparameter der Verteilungvon X.

2. Weitere Lageparameter sind der Mittelwert (Erwartungswert) µ, den wir in denfolgenden Abschnitten naher behandeln und der Modus oder Modalwert xM .Bei sog. unimodalen (eingipfeligen) Verteilungen bezeichnet xM das eindeutigbestimmte Maximum von fX .

Beispiel 1.52 (Wichtige Quantile der Normalverteilung)

Am haufigsten benotigt man die Quantile der Standardnormalverteilung Φ. Da derenDichte eine gerade Funktion ist, folgt

Φ(−x) = 1− Φ(x) fur alle x ∈ R . (1.31)

Damit kann die in den meisten Statistikbuchern zu findende Tabellierung auf x ≥ 0beschrankt werden. Es folgen oft benutzte Quantile der Normalverteilung.

Tabelle 1: Quantile xp von N(0, 1)

p Quantil xp

0.5 00.9 1.2820.95 1.6450.975 1.9600.99 2.3260.995 2.576

Page 38: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

1.5. ZUFALLSVARIABLE 31

Beispiel 1.53 (Median, Modus)

1. Normalverteilung N(µ, σ2)

Median x0.5 = µ , Modus xM = µ .

2. Exponentialverteilung ED(λ)

Median x0.5 =ln 2

λ, Modus xM = 0 .

Page 39: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

32 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG

1.5.5 Eindimensionale Transformationen von ZV

X sei eine ZV mit Verteilungsfunktion FX und Wahrscheinlichkeitsfunktion bzw. DichtefX .

Def. 1.54 (B−B-messbar)

Eine Funktion g : R→ R heißt B−B-messbar oder einfach messbar, falls

g−1(B) ∈ B fur alle B ∈ B .

Satz 1.55 (Messbare Funktionen)

Messbar sind u.a.

1. stetige Funktionen; z. B. max0, f, min0, f bei stetigem f

2. stuckweise stetige Funktionen; z. B. die Indikatorfunktion 1A

3. Verteilungsfunktionen und die Quantilfunktion aus Def. 1.47.

Zufallsgeneratoren am Rechner erzeugen in fast allen Fallen (Pseudo-) Zufallszahlen,die in (0, 1) gleichverteilt sind. Zur Simulation einer ZV mit beliebiger Verteilungsfunk-tion F benotigt man die Quantilfunktion F← von F aus Def. 1.47.

Korollar 1.56 (Quantiltransformation)

X sei eine ZV mit Verteilungsfunktion F und Quantilfunktion F←. Weiterhin seiU im Intervall (0, 1) gleichverteilt.

1. Fur beliebiges X hat die Zufallsvariable Y := F←(U) die Verteilungsfunk-tion F , d. h.

P (Y ≤ y) = P (F←(U) ≤ y) = F (y) , y ∈ R .

2. Fur stetiges F ist Z := F (X) gleichverteilt in (0, 1), d. h.

P (Z ≤ z) = P (F (X) ≤ z) = z , z ∈ (0, 1) .

Es folgt die Diskussion wichtiger Spezialfalle.

Page 40: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

1.5. ZUFALLSVARIABLE 33

Satz 1.57 (Transformationssatz)

X sei eine ZV und g : R→ R messbar, dann gilt:

1. Y := g(X) ist eine ZV.

2. Falls g stetig und streng monoton wachsend, so lautet die VerteilungsfunktionFY von Y := g(X)

FY (y) = FX [g−1(y)] fur y ∈ g(R) .

Beispiel 1.58

1. N(0, 1)Gemaß Bemerkung 1.48 und Korollar 1.56 Nr. 1 ist bei (0, 1)-gleichverteiltem Udie Zufallsvariable X := Φ−1(U) standardnormalverteilt. Zur numerischen Be-rechnung der Standardnormalverteilungsfunktion Φ bzw. von Φ−1 gibt es ausge-zeichnete rationale Approximationen (siehe etwa [Kredler & Ritter (1995)]; An-hang).

2. Exponentialverteilung ED(λ)

F (x) = (1− e−λx) 1(0,∞)(x) =⇒ F←(y) = − ln (1− y)

λ1(0,1)(y) .

3. Bernoulli-Verteilung B(1, p)

F (x) =

0 , falls x < 0

1− p , falls 0 ≤ x < 11 , falls x ≥ 1,

und somit

F←(y) =

0 , falls 0 < y ≤ 1− p1 , falls 1− p < y < 1 .

4. Die ZV X habe die Verteilungsfunktion FX(x). Seien a ∈ R und b 6= 0. Dannlautet die Verteilungsfunktion FY von Y := a + b X

FY (y) =

FX

(y−a

b

), falls b > 0

1− FX

(y−a

b

), falls b < 0 ,

und falls X stetig ist mit Dichte fX , so ist Y auch stetig mit Dichte

fY (y) =1

|b|fX

(y − a

b

). (1.32)

Page 41: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

34 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG

5. Eine parametrisierte Familie von Verteilungen heißt stabil bzgl. affinen Transfor-mationen, wenn mit F (x) auch F ([x− a]/b) fur alle a und b 6= 0 zu dieser Familiegehoren. Wichtige Beispiele sind die Familien N(µ, σ2) der Normalverteilungenund der Gleichverteilungen U(c, d), c < d.

X sei N(0, 1)-verteilt mit Dichte ϕ(x) = 1√2π

e−x2/2 und Y := µ+σ X mit σ > 0.

Dann ist Y ∼ N(µ, σ2) mit Dichte

fY (y) =1√2π σ

e− (y−µ)2

2σ2

6. Fur nichtnegative X und β > 0 betrachten wir Y := Xβ. Man erhalt die Vertei-lungsfunktion

FY (y) = FX(y1/β)

und gegebenenfalls die Dichte

fY (y) =1

βy

1−ββ fX(y1/β) . (1.33)

7. Besonders wichtig ist der Fall Y := X2, wobei X jetzt wieder beliebig sein kann.Es gilt fur y ≥ 0

FY (y) = FX(√

y)− FX(−√y − 0) .

Ist zusatzlich X stetig und symmetrisch zum Nullpunkt, d. h. FX(−x) = 1 −FX(x), dann gilt

fY (y) =1√

yfX(√

y) , y > 0 .

Eine Anwendung dazu ist X ∼ N(0, σ2) mit fX(x) =1√2π σ

e−x2/(2σ2) und

fX2(y) =1√2π σ

y−12 e−y/(2σ2) .

Damit ist X2 ∼ Γ(12, 1

2σ2 )-verteilt. Man spricht auch von der χ2-Verteilung.

8. Lognormalverteilung LogN(µ, σ2)Eine positive ZV X heißt LogN(µ, σ2)-verteilt oder logarithmisch normal-verteilt, wenn Y := ln(X) N(µ, σ2)-verteilt ist. Damit lautet die Dichte vonX

fX(x) =1√

2π σ xexp

(−(ln x− µ)2

2 σ2

)1(0,∞)(x) . (1.34)

Die Lognormalverteilung ist eine einseitige unsymmetrische Verteilung mit

Median x0.5 = eµ , Modus xM = eµ−σ2

und wird u.a. zur Modellierung von Lebensdauern herangezogen.

Page 42: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

1.5. ZUFALLSVARIABLE 35

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0 2 4 6 8 10 12

LogN(µ, σ2)

µ = 1 , σ = 0.5

Bild 8: Dichte der Lognormalverteilung LogN(µ, σ2)

Page 43: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

36 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG

1.6 Erwartungswerte

Der abstrakte Mittelwert E(X) und die Varianz V ar(X) sind so eingerichtet, dasssie fur endliches Ω mit den empirischen Mittelwert- bzw. Streuungsmaßen x bzw.s2 = 1

n

∑(xi−x)2 zusammenfallen. Im allgemeinen kann Ω uberabzahlbar viele Elemen-

te enthalten. Fur stetige Zufallsvariable (ZV) muss dies sogar so sein. Wir beschrankenuns hier auf diskrete und stetige ZV.

1.6.1 Erwartungswert und Varianz

Def. 1.59 (Erwartungswert (EW): E(X) = E X = µ)

Den Erwartungswert (auch Mittelwert) einer diskreten ZV X definiert manals

µ = E(X) =∑

i

xi fX(xi) =∑

i

xi pi ,

falls∑

i

|xi| fX(xi) <∞ existiert.

Analog legt man den Erwartungswert einer stetigen ZV X fest als

µ = E(X) =

∞∫−∞

x fX(x) dx ,

falls wiederum die Existenz von∞∫−∞|x| fX(x) dx <∞ gesichert ist.

Bemerkung 1.60

1. Man nennt µ = E(X) wie den Median oder Modus einen Lageparameter.

2. Gelegentlich schreibt man kurz E X statt E(X).

3. Fur beliebige nichtnegative ZV, d. h. P (X < 0) = 0, gilt

E(X) =

∞∫0

F (x) dx =

∞∫0

[1− F (x)] dx , (1.35)

falls der Erwartungswert existiert (Beweis siehe weiterfuhrende Vorlesung). ZumBeispiel erhalt man fur die Exponentialverteilung

µ = E(X) =

∞∫0

F (x) dx =

∞∫0

e−λ x dx =1

λ

(−e−λ x

)∞0

=1

λ.

Page 44: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

1.6. ERWARTUNGSWERTE 37

4. Laßt man auch den Wert ∞ fur den Erwartungswert zu, so hat jede nichtnega-tive ZV einen Erwartungswert. Dies ist insbesondere dann sinnvoll, wenn z. B.Wartezeiten mit P (X =∞) > 0 betrachtet werden.

5. Fur beliebige ZV geht man dann uber zur Zerlegung

X = X+ −X− := max0, X −max0,−X .

Falls E(X+) <∞ oder E(X−) <∞, dann definiert man

E(X) := E(X+)− E(X−) . (1.36)

Man hat auf jeden Fall in (1.36) den Term ∞−∞ zu vermeiden; vgl. (6.42).

Def. 1.61 (Erwartungswert bzgl. einer Funktion g(X))

Fur (messbare) Funktionen g definiert man analog

E[g(X)] =∑

i

g(xi) fX(xi) =∑

i

g(xi) pi fur diskretes X und

E[g(X)] =

∞∫−∞

g(x) fX(x) dx fur stetiges X ,

falls∑

i

|g(xi)| fX(xi) bzw.

∞∫−∞

|g(x)| fX(x) dx existieren.

Aus diesen Definitionen ergeben sich direkt eine Reihe von Eigenschaften:

Satz 1.62 (Rechenregeln fur Erwartungswerte)

1. Falls X ≥ 0, so gilt E(X) ≥ 0.

2. Fur Indikatorfunktionen X = 1A bzgl. A ∈ F gilt E(1A) = P (A).

3. Linearitat: X,X1, ..., Xn seien ZV bzgl. desselben Wahrscheinlichkeitsraums(Ω, F, P ) mit existierenden Erwartungswerten und a, b, ai ∈ R, i = 1, ..., n,dann gilt

E(a) = a

E(a + bX) = a + bE(X)

E(a1X1 + . . . + anXn) = a1E(X1) + . . . + anE(Xn) .

Page 45: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

38 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG

Def. 1.63 (Varianz σ2, Standardabweichung σ, Streuung)

Die Varianz einer ZV X wird festgelegt als mittlere quadratische Abweichung

σ2 = V ar(X) = D2(X) := E[(X − µ)2

], wobei µ = E(X) .

σ = D(X) =√

V ar(X)

heißt Standardabweichung und hat stets dieselbe Benennung wie X selbst.

Konkret erhalt man fur diskretes X

V ar(X) =∑

i

(xi − µ)2 fX(xi) =∑

i

(xi − µ)2 pi

und im stetigen Fall

V ar(X) =

∞∫−∞

(x− µ)2fX(x)dx.

Varianz und Standardabweichung sind Streuungsparameter.

Zur Berechnung der Varianz verwendet man haufig die Verschiebungsregel

D2(X) = E(X2)− µ2 , (1.37)

wobei E(X2) =∑

i

x2i pi bzw. E(X2) =

∞∫−∞

x2fX(x) dx.

Satz 1.64 (Rechenregeln fur Varianzen)

X, X1, ..., Xn seien ZV bzgl. desselben Wahrscheinlichkeitsraums (Ω, F, P ) mitexistierenden Varianzen und a, b ∈ R.

D2(X) ≥ 0

D2(a) = 0 (1.38)

D2(X + a) = D2(X)

D2(bX) = b2D2(X)

D2(a + bX) = b2D2(X) .

In gewissem Sinn gilt auch die ”Umkehrung” von (1.38):

V ar(x) = D2(X) = 0 ⇐⇒ P (X = a) = 1 , mit a = E(X) . (1.39)

Page 46: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

1.6. ERWARTUNGSWERTE 39

Folgerung 1.65 (Standardisierung)

Gegeben sei eine ZV X, fur die E(X) = µ und D2(X) = σ2 > 0 existieren. Dann giltfur die standardisierte ZV

U :=X − µ

σ⇒ E(U) = 0 , D2(U) = 1 . (1.40)

Beispiel 1.66 (Diskrete ZV)

1. Bernoulli-Variable B(1, p) , 0 < p < 1

P (X = 1) = p, P (X = 0) = 1− p ,

E(X) = p, D2(x) = p(1− p) .

2. Binomialverteilung B(n, p) , 0 < p < 1

pi =

(n

i

)pi(1− p)n−i , i = 0, 1, ..., n

E(X) = np, D2(X) = np(1− p) .

3. Poisson-Verteilung Poi(λ), λ > 0

pi = e−λλi/i! , i = 0, 1, 2, ...

E(X) = λ, D2(X) = λ .

4. Geometrische Verteilung

pi = p(1− p)i , 0 < p < 1 , i = 0, 1, ..., n

E(X) =1− p

p, D2(X) =

1− p

p2.

Beispiel 1.67 (Stetige ZV)

1. Normalverteilung N(µ, σ2)

f(x) =1√2π σ

e−(x−µ)2/(2σ2)

E(X) = µ, D2(X) = σ2

Page 47: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

40 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG

2. Gleich (Rechteck)-verteilung U(a, b)

f(x) =1

(b− a)1(a,b)(x) ; a < b ,

E(X) = (a + b)/2, D2(X) = (b− a)2/12

3. Exponentialverteilung ED(λ)

f(x) = λe−λx 1(0,∞)(x) ; λ > 0 ,

E(X) =1

λ, D2(X) =

1

λ2.

Die mittlere Lebensdauer ist also 1/λ.

4. Gammaverteilung Γ(q, λ)

fZ(z) =λq

Γ(q)zq−1 e−λz 1(0,∞)(x) ; q, λ > 0 ,

E(Z) =q

λ, D2(Z) =

q

λ2(1.41)

5. Cauchy-VerteilungDiese hat fur a > 0 die Dichte

fX(x) =a

π(a2 + x2). (1.42)

E(X) und D2(X) existieren nicht.

6. Pareto-VerteilungDiese spielt eine Rolle in der Extremwerttheorie und wurde in der Vergangenheitauch zur Beschreibung okonomisch-soziologischer Großen wie Verteilung von Ein-kommen und Vermogen etc. herangezogen. Sei c > 0 ein gewisser Schwellenwert,den die entsprechnde ZV X nicht erreichen oder unterschreiten kann. Fur α > 0lauten dann Dichte bzw. Verteilungsfunktion einer Pareto-verteilten ZV X

f(x) =α

c

(c

x

)α+1

1(c,∞)(x) , F (x) = 1−(

c

x

1(c,∞)(x) . (1.43)

Falls α > 1, so existiert E(X) =α c

α− 1.

Fur α > 2 existiert auch die Varianz V ar(X) =α c2

(α− 1)2(α− 2).

7. Lognormalverteilung LogN(µ, σ2)Aus der zugehorigen Dichte (1.34) leitet man ab, dass lognormalverteilte ZV Xpositiv sind mit

E(X) = eµ+σ2/2 und V ar(X) = e2 µ+σ2(eσ2 − 1

). (1.44)

Page 48: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

1.6. ERWARTUNGSWERTE 41

Die speziellen Eigenschaften von Verteilungsfunktionen (Monotonie, 0 ≤ F (x) ≤ 1)erlauben eine einheitliche Schreibweise von Erwartungswerten fur diskrete ZV bzw.solche mit (stuckweise) stetigen Dichten.

Def. 1.68 (Riemann-Stieltjes-Integral)

X sei eine diskrete ZV oder besitze eine Dichte, die bis auf endlich viele Stellenstetig ist; fur die Funktion g existiere E [g(X)]. Dann definiert man

∞∫−∞

g(x) dFX(x) :=

∑i

g(xi) fX(xi) , falls X diskret∞∫−∞

g(x) fX(x) dx , falls X stetig .(1.45)

Bemerkung 1.69

1. Kurz schreibt man wieder f = fX , F = FX und

∞∫−∞

g(x) dF (x).

2. Unter den Voraussetzungen von Def. 1.68 gilt also:

1 =

∞∫−∞

dF (x)

E(X) =

∞∫−∞

x dF (x) := µ

V ar(X) =

∞∫−∞

(x− µ)2dF (x) .

3. Fur (stuckweise) differenzierbares F mit F ′ = dFdx

= f leuchtet die SchreibweisedF (x) = f(x) dx formal sofort ein, kann aber analog zum nachfolgenden diskretenFall uber den Mittelwertsatz der Differentialrechnung hergeleitet werden.

4. Bei diskretem X nehmen wir an, dass die xi, i ∈ N, in einem kompakten Intervall[a, b] liegen mit a < x1 < x2 < ... ≤ b. Fur stets feiner werdende Unterteilungen

a = a(n)0 < a

(n)1 < a

(n)2 < ... < a

(n)n−1 < a(n)

n = b

des Integrationsintervalls [a, b] mit

limn→∞

max0≤j≤n−1

|a(n)j+1 − a

(n)j | = 0

existiert dann der Grenzwert

∞∫−∞

g(x) dF (x) := limn→∞

n∑j=1

g(a

(n)j

) [F(a

(n)j

)− F

(a

(n)j−1

)]=∑i∈N

g(xi) pi ,

Page 49: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

42 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG

da F stuckweise konstant ist und nur an den xi Sprunge der Hohe

pi = F (xi)− F (xi − 0)

aufweist. Wegen der Eigenschaften der Verteilungsfunktion F ist eine Ausdeh-nung des Intervalls [a, b] auf (−∞,∞) nicht problematisch.

5. Die Schreibweise ... dF (x) wird fur beliebige ZV verwendet. Allerdings ist danndas allgemeinere Lebesgue-Integral zugrunde zu legen. Auf Einzelheiten konnenwir hier nicht eingehen. Details findet man in den einschlagigen Lehrbuchern.

1.6.2 Momente und Kumulanten

Bei spezieller Wahl der Funktion g erhalt man weitere Momente der Verteilung der ZVX, sofern diese existieren.

Def. 1.70 (Momente)

Vorausgesetzt die entsprechenden Erwartungwerte existieren, definiert man mitµ1 = µ := E(X) fur (die Ordnung) k = 1, 2, ...

µk = E[Xk]

=

∞∫−∞

xk dF (x) k-tes (gewohnliches) Moment

E[|X|k

]=

∞∫−∞

|x|k dF (x) k-tes absolutes Moment

E[(X − µ)k

]=

∞∫−∞

(x− µ)k dF (x) k-tes zentrales Moment (1.46)

E [X(X − 1) · ... · (X − k + 1)] k-tes faktorielles Moment (1.47)

Page 50: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

1.6. ERWARTUNGSWERTE 43

Satz 1.71 (Existenz von Momenten)

Man zeigt leicht, vgl. etwa [Heinhold & Gaede (1979)], S. 105:

[E(|X|k

)]k+1≤[E(|X|k+1

)]k, (1.48)

also z. B. fur k = 1

µ2 ≤[E(|X|1

)]2≤[E(X2)]1

= E(X2) .

Damit sichert die Existenz eines (absoluten) Moments der Ordnung k die derniedereren Momente zur Ordnung 1, 2, ..., k − 1.

Insbesondere sichert die Existenz eines zweiten Moments von X, dass E(X) undV ar(X) wohldefiniert sind.

Aus den oben definierten Momenten leitet man weitere Kenngroßen her, deren empi-rische Varianten neben Mittelwert und Varianz eine wichtige Rolle in der explorativenDatenanalyse spielen.

Def. 1.72 (Variationskoeffizient, Schiefe, Exzess)

Vorausgesetzt die entsprechenden Momente existieren, so definiert man mitµ := E(X), σ2 := V ar(X) > 0

CV :=σ

µ, µ 6= 0 Variationskoeffizient

(coefficient of variation)

γ3 :=E [(X − µ)3]

σ3Schiefe (skewness)

δ4 :=E [(X − µ)4]

σ4− 3 Exzess (kurtosis), Wolbung

Bemerkung 1.73

1. Schiefe und Exzess verschwinden bei der Normalverteilung.

2. Bei symmetrischen Verteilungen verschwindet die Schiefe, falls diese existiert.

3. Varianz, Schiefe und Exzess sind invariant gegenuber Transformationen der Art

X → (X + a) , a ∈ R .

Page 51: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

44 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG

Die letzte Eigenschaft wir auch von den sog. Semiinvarianten oder Kumulanten abder Ordnung 2 geteilt.

Def. 1.74 (Kumulanten)

Vorausgesetzt die entsprechenden Momente existieren, so lauten die vier erstenKumulanten

κ1 := µ = E[X1]

κ2 := σ2 = E[(X − µ)2

]κ3 := E

[(X − µ)3

]κ4 := E

[(X − µ)4

]− 3σ4

Bemerkung 1.75

1. Der Vorsatz ”Semi-” ist gerechtfertigt, da sich die erste Kumulante bei der Trans-formation X → (X + a) fur a 6= 0 andert.

2. Fur die Normalverteilung verschwinden alle Kumulanten der Ordnung 3 undhoher. N(µ, σ2) ist die einzige Verteilung mit dieser Eigenschaft.

3. Eine einfache Darstellung der Kumulanten (falls diese existieren) liefert die Ent-wicklung von ln(M(s)), wobei M die momenterzeugende Funktion bezeichnet;vgl. Abschnitt 3.2.

4. Die Zusammenhange zwischen Varianz, Schiefe, Exzess und den Kumulanten lau-ten:

σ2 = κ2 (Varianz)

γ3 =κ3√κ3

2

(Schiefe)

δ4 =κ4

κ22

(Exzess)

Page 52: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

1.6. ERWARTUNGSWERTE 45

Beispiel 1.76 (Momente, Kumulanten)

1. N(µ, σ2)

Kumulanten: E(X) = κ1 = µ ; V ar(X) = κ2 = σ2 ; κk = 0 , sonst . (1.49)

E[(X − µ)k

]=

0 , falls k ungerade

1 · 3 · 5 · ... · (k − 1) σk , sonst(1.50)

2. Poi(λ) , λ > 0κk = λ , fur alle k = 1, 2, ... . (1.51)

3. Γ(q, λ) , q > 0 , λ > 0

E[Xk]

=q(q + 1) · · · (q + k − 1)

λk, k = 1, 2, ... ; (1.52)

insbesondere gilt:

E(X) =q

λund V ar(X) =

q

λ2,

und fur den Spezialfall q = 1, die Exponentialverteilung:

E(X) =1

λund V ar(X) =

1

λ2,

4. Gleichverteilung U(a, b) , a < bHier gilt µ = E(X) = (a + b)/2 und

E[(X − µ)k

]=

0 , falls k ungerade1

k+1

(b−a2

)k, sonst .

(1.53)

Page 53: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

Kapitel 2

Mehrdimensionale Verteilungen

Eine naturliche Erweiterung des bisherigen Begriffs der eindimensionalen Zufallsvariab-len (ZV) ergibt sich, wenn man mehrere Merkmale, wie z. B. Große und Gewicht einesIndividuums ω ∈ Ω, gleichzeitig betrachtet.

2.1 Gemeinsame Verteilung von n Zufallsvariablen

Die Definition 1.32 laßt sich in kanonischer Weise auf den n-dimensionalen Fall uber-tragen. Zur Vermeidung von Namenskollisionen seien in diesem Abschnitt die VektorenX = (X1, ..., Xn)T ∈ Rn und x = (x1, ..., xn)T ∈ Rn fett bezeichnet; T bezeichnetTransposition.

Def. 2.1 (n-dim. Zufallsvariable (ZV), Zufallsvektor)

Gegeben sei ein Wahrscheinlichkeitsraum (Ω, F, P ). Eine Abbildung

X : Ω→ Rn , mit

X−1(B) ∈ F fur alle n-dim. Borelmengen B ∈ Bn

heißt (n-dimensionale) Zufallsvariable oder auch Zufallsvektor. Der Vektorx = X(ω) ∈ Rn, der sich bei Durchfuhrung des Zufallsexperiments durch Aus-werten von X ergibt, heißt Realisierung von X.

Das Wahrscheinlichkeitsmaß PX auf (Rn, Bn) definiert durch

PX(B) := P (X−1(B)) fur alle Borelmengen B ∈ Bn

heißt Verteilung (distribution) von X = (X1, ..., Xn)T .

Analog zum eindimensionalen Fall wird die σ − Algebra Bn wieder von den offenenMengen des Rn erzeugt. Ein anderes Erzeugendensystem fur Bn sind die links unbe-schrankten n-dim. Intervalle

(−∞, x1]× (−∞, x2]× . . . × (−∞, xn] , xi ∈ R , i = 1, . . . , n .

46

Page 54: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

2.1. GEMEINSAME VERTEILUNG VON N ZUFALLSVARIABLEN 47

Deshalb kann auch hier die Verteilung durch eine geeignete Funktion festgelegt werden.

Def. 2.2 (n-dim. Verteilungsfunktion)

Fur Argumente x = (x1, ..., xn)T ∈ Rn heißt die Funktion FX1,...,Xn : Rn → R mit

FX1,...,Xn(x) = FX1,...,Xn(x1, ..., xn) := P (X ≤ x)

:= P (ω |X1(ω) ≤ x1, ..., Xn(ω) ≤ xn )

Verteilungsfunktion des Zufallsvektors X. Falls Verwechslungen ausgeschlos-sen sind, schreiben wir wieder kurz F bzw. FX statt FX1,...,Xn.

Folgerung 2.3

1. F ist bzgl. jeder Variablen monoton wachsend und rechtsseitig stetig.

2. F (x1, ...,−∞, ..., xn) := limxi→−∞

F (x1, ..., xi, ..., xn) = 0, i = 1, . . . , n

3. F (∞, ...,∞) := limx1→∞

. . . limxn→∞

F (x1, . . . , xn) = 1.

4. Nach dem Additionssatz gilt fur a1 < b1, a2 < b2 und n = 2

P (a1 < X1 ≤ b1, a2 < X2 ≤ b2) = F (b1, b2)− F (a1, b2)− F (b1, a2) + F (a1, a2) .

Weitere Details zu Bn entnehme man Analysis-Lehrbuchern oder z. B. [Williams (1991)],ch. 1.

Zweidimensionale Vektoren heißen bei uns in der Regel (Z, Y ) und, falls keine Ver-wechslung mit dem Zufallsvektor X zu befurchten ist, auch (X, Y ). Der Einfachheithalber wird hier meist (Z, Y ) statt (Z, Y )T geschrieben.

2.1.1 Diskrete n-dim. Zufallsvariable

Wir beschranken uns hier zur Darstellung auf den Fall n = 2. Sei also (Z, Y ), wobei Znur die Werte zi, i ∈ I und Y nur die Werte yj, j ∈ J annehme; I und J hochstensabzahlbar.

Page 55: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

48 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN

Def. 2.4 (Diskrete 2-dim. Verteilung)

(Z, Y ) sei eine 2-dim. diskrete ZV, und die Indexmengen I, J hochstens abzahlbarunendlich. Durch die

pij := P (Z = zi, Y = yj) , i ∈ I , j ∈ J

mit pij ≥ 0, i ∈ I, j ∈ J

und∑i,j

pij = 1

wird die Verteilung von (Z, Y ) gemaß Definition 2.1 eindeutig festgelegt.

fZ,Y (z, y) = P (Z = z, Y = y) :=

pij , falls z = zi ; i ∈ I

und y = yj ; j ∈ J0 , sonst

heißt Wahrscheinlichkeitsfunktion von (Z, Y ).

Vereinbarung:

1. Falls keine Verwechslungen zu befurchten sind, wird wieder f statt fZ,Y geschrie-ben.

2. Die verkurzte Schreibweise∑i,j

=∑z,y

steht fur∑i∈I

∑j∈J

.

3. Wie schon im eindimensionalen Fall gibt es eine eineindeutige Beziehung zwischender Verteilung von (Z, Y ) und den pij > 0. Deswegen genugt es stets, zur Cha-rakterisierung der Verteilung die pij bzw. die Wahrscheinlichkeitsfunktion fZ,Y

anzugeben.

Beispiel 2.5 (diskrete 2-dim. Verteilungen)

1. Doppelter Munzwurf; jeweils mit Kopf (K) oder Wappen (W):Ω = K, W × K, W. Z sei die Anzahl von ”Kopf” und Y die Anzahl von”Wappen” beim zweimaligen Wurf der Munze.

(Z, Y ) : Ω→ 0, 1, 2 × 0, 1, 2 .

Wir erhalten mit P (K) = p, 0 < p < 1

p02 = (1− p)2 , p11 = 2 p (1− p) , p20 = p2

und pij = 0 sonst. Damit gilt∑i,j

pij = (1− p)2 + 2p(1− p) + p2 = 1 .

Page 56: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

2.1. GEMEINSAME VERTEILUNG VON N ZUFALLSVARIABLEN 49

2. Zwei Wurfel:

Ω = 1, ..., 6 × 1, ..., 6, Z : Ω→ 1, 2, . . . , 6 , Y : Ω→ 1, 2, . . . , 6 ,

P (Z = i, Y = j) =1

36, i, j = 1, ..., 6 .

2.1.2 Stetige n-dim. Zufallsvariable

Def. 2.6 (Stetige n-dim. Verteilung)

Der Zufallsvektor X = (X1, ..., Xn) heißt stetig n-dim. verteilt, falls einenichtnegative, integrierbare Funktion fX1,...,Xn : Rn → R existiert mit

FX1,...,Xn(x) =

x1∫−∞

...

xn∫−∞

fX1,...,Xn(x) dx =

xn∫−∞

...

x1∫−∞

fX1,...,Xn(x1, ..., xn) dx1 ... dxn .

An den Stetigkeitsstellen x von fX1,...,Xn gilt:

fX1,...,Xn(x) =∂n FX1,...,Xn(x)

∂x1...∂xn

. (2.1)

Vereinbarung:

1. Je nach Sachlage verwenden wir die Bezeichnungen fX1,...,Xn oder f .

2. In den Beispielen dieses Kurses sind die Dichten zumindest stuckweise stetig.

3. Generell gelte fur x = (x1, ..., xn)T und integrierbares h : Rn → R die Abkurzung∫Rn

h(x) dx :=

∞∫−∞

...

∞∫−∞

h(x1, ..., xn) dx1...dxn . (2.2)

Folgerung 2.7 (n-dim. Dichte)

fX1,...,Xn : Rn → R sei Dichte eines n-dimensionalen Zufallsvektors (X1, ..., Xn),dann gilt mit x ∈ Rn:

1. fX1,...,Xn ≥ 0

2.∫

Rn

fX1,...,Xn(x) dx = 1 .

Auch hier gilt das gleiche wie fur eindimensionale ZV: Zur eindeutigen Festlegung derVerteilung von (Z, Y ) genugt die Angabe einer Dichte fZ,Y .

Page 57: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

50 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN

Beispiel 2.8 Wie muss man in der folgenden Formel die Konstante c wahlen, damitf eine zweidimensionale Dichte ist?

f(z, y) = c e−z−2 y 1(0,∞)×(0,∞)(z, y)

Def. 2.9 (n-dimensionale Normalverteilung N(µ, C))

Seien µ ∈ Rn und C = (cij) ∈ Rn,n eine positiv definite Matrix (damit ist Cauch symmetrisch). X = (X1, . . . , Xn)T heißt n-dimensional normalverteilt,wenn es eine Dichte der Form

f(x) =1√

(2π)n det(C)exp

[−1

2(x− µ)T C−1(x− µ)

](2.3)

besitzt. Dabei bezeichnet det(C) die Determinante von C.

Der Nachweis der Dichteeigenschaft von f erfordert die n-dim. Transformationsregel furDichten und wird spater in Bsp. 2.33 gefuhrt. In dieser Einfuhrungsvorlesung werdenwir uns fast auschließlich auf den wichtigen Spezialfall n = 2 beschranken. Dieserbegegnet uns im folgenden noch mehrmals. Aus rechentechnischen Grunden gleichenwir uns der Notation von [Stirzaker (1994)] an. An die Stelle des n-dim. ZufallsvektorsX tritt nun das Paar (Z, Y )T und der Vektor µ wird zu (µZ , µY )T .

Def. 2.10 (2-dimensionale Normalverteilung)

Mit (µZ , µY ) ∈ R2, σ > 0 , τ > 0 und −1 < ρ < 1 ist die sog. Kovarianzmatrix

C :=

(σ2 ρ σ τ

ρ σ τ τ 2

)

positiv definit und det(C) = σ2τ 2 (1−ρ2). Die Inverse C−1 ist explizit berechenbarund es gilt gemaß (2.3)

fZ,Y (z, y) = (2.4)

1

2πστ√

1− ρ2exp

[− 1

2(1− ρ2)

((z − µZ)2

σ2− 2ρ(z − µZ)(y − µY )

σ τ+

(y − µY )2

τ 2

)].

Zur Bedeutung der Parameter siehe Bsp. 2.21. Um in Bsp. 2.13 (2) zu sehen, dasses sich bei fZ,Y wirklich um eine Dichte handelt, benotigen wir noch den Begriff derRandverteilungen.Die Wahl µZ = µY = 0 ist o.B.d.A. mit den Substitutionen Z−µZ 7→ Z bzw. Y −µY 7→Y moglich und beeinflusst wegen dz = dz bzw. dy = dy evtl. Integrationen nichtwesentlich. In diesem Fall vereinfacht sich die Dichte von Def. 2.10 zu

fZ,Y (z, y) =1

2πστ√

1− ρ2exp

[− 1

2(1− ρ2)

(z2

σ2− 2ρ z y

σ τ+

y2

τ 2

)]. (2.5)

Page 58: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

2.1. GEMEINSAME VERTEILUNG VON N ZUFALLSVARIABLEN 51

2.1.3 Randverteilungen

Def. 2.11 (Randverteilung, marginal distribution)

Die Verteilungen der Komponenten Xk eines Zufallsvektors X = (X1, ..., Xn)T

heißen Randverteilungen. Die entsprechenden Verteilungsfunktionen lauten

FXk(z) = P (Xk ≤ z) = FX1,...,Xn(∞, ...,∞, z,∞, ...,∞) .

↑ k-te Komponente.

Zur Notation FX1,...,Xn(∞, ...) vergleiche man die Vereinbarung von Folgerung 2.3.

Satz 2.12 (Diskrete und stetige Randverteilungen)

Mit der Definition 2.11 erhalt man beispielsweise fur die zweidimensionale dis-krete ZV (Z, Y ) die Randverteilungen (RV)

fZ(zi) = P (Z = zi) = pi· =∑j∈J

pij =∑y

fZ,Y (zi, y) (RV bzgl. Z)

fY (yj) = P (Y = yj) = p·j =∑i∈I

pij =∑z

fZ,Y (z, yj) (RV bzgl. Y ) .

Im zweidimensionalen stetigen Fall gilt fur die Randdichten von (Z, Y )

fZ(z) =

∞∫−∞

fZ,Y (z, y) dy (Dichte fur Z)

fY (y) =

∞∫−∞

fZ,Y (z, y) dz . (Dichte fur Y ) .

Analog geht man fur mehr als zwei Variable vor.

Beispiel 2.13

1. Doppelter Munzwurf (siehe Beispiel 2.5)

pi· = P (Z = i) =

(1− p)2 , falls i = 0

2 p (1− p) , falls i = 1p2 , falls i = 2

Page 59: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

52 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN

und

p·j = P (Y = j) =

p2 , falls j = 0

2 p (1− p) , falls j = 1(1− p)2 , falls j = 2

Die Wahrscheinlichkeiten fur die Randverteilung erhalt man durch zeilen- bzw.spaltenweises Aufsummieren der Zellenwahrscheinlichkeiten. Das Resultat tragtman dann zum Beispiel am ”Rand” der folgenden diskreten Verteilungstabelleein.

Tabelle 2: Doppelter Munzwurf pij = P (Z = i, Y = j)

i 0 1 2 p·jj

0 0 0 p2 p2

1 0 2 p (1− p) 0 2 p (1− p)

2 (1− p)2 0 0 (1− p)2

pi· (1− p)2 2 p (1− p) p2 1

2. Zweidimensionale NormalverteilungNach Satz 2.12 und mit (2.5) (dort war o.B.d.A. E(Z) = 0 und E(Y ) = 0)gilt fur die Randdichte von Z mit σ > 0, τ > 0 und −1 < ρ < 1 (siehe auch[Stirzaker (1994)], p. 269)

fZ(z) =

∞∫−∞

f(z, y) dy =

∞∫−∞

1

2πστ√

1− ρ2exp

[− 1

2(1− ρ2)

(z2

σ2− 2ρzy

στ+

y2

τ 2

)]dy

=1

2πστ√

1− ρ2

∞∫y=−∞

exp

[− 1

2(1− ρ2)

(y

τ− ρz

σ

2

+z2

σ2− ρ2z2

σ2

)]dy

und weiter mit der Substitution u :=y

τ− ρz

σ, du =

dy

τ

=1

2πσ√

1− ρ2

∞∫u=−∞

exp

(− u2

2(1− ρ2)

)· exp

(− 1

2(1− ρ2)

z2

σ2

(1− ρ2

))du

=1

2πσ√

1− ρ2exp

(−z2

2 σ2

) ∞∫−∞

exp

(− u2

2(1− ρ2)

)du

︸ ︷︷ ︸√2π(1−ρ2)

=1√2π σ

e−z2/(2σ2) . (2.6)

Das ist die Dichte einer N(0, σ2)-Verteilung. In vollig analoger Weise stellt sichfY (y) als Dichte einer N(0, τ 2)-Verteilung heraus.

Page 60: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

2.1. GEMEINSAME VERTEILUNG VON N ZUFALLSVARIABLEN 53

Nun sehen wir auch sofort ein, dass f(z, y) eine zweidimensionale Dichte ist, denn

∞∫z=−∞

∞∫y=−∞

f(z, y) dy dz =

∞∫z=−∞

fZ(z) dz =

∞∫z=−∞

1√2π σ

e−z2/(2σ2) dz = 1 .

Diese Aussage war im Anschluss an Def. 2.10 noch offen geblieben.

Page 61: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

54 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN

2.1.4 Erwartungswerte; n-dim.

Es sei hier nochmals an die Vereinbarung erinnert, dass X = (X1, ..., Xn)T ∈ Rn undx = (x1, ..., xn)T ∈ Rn mit der Indizierung xk, k = 1, .., n. Wir beginnen mit demzweidimensionalen Vektor (Z, Y ). Im diskreten Fall nehme Z die Werte zi, i ∈ I undY die Werte yj, j ∈ J an.

Def. 2.14 (Erwartungswert von g(Z, Y ))

(Z, Y ) sei eine zweidimensionale ZV. fZ,Y bezeichne im diskreten Fall die Wahr-scheinlichkeitsfunktion und im stetigen die Dichte von (Z, Y ). g : R2 → R seieine (messbare) Funktion. Dann heißt

E g(Z, Y ) :=∫R2

g(z, y) dFZ,Y (z, y)

:=

∑i,j

g(zi, yj) fZ,Y (zi, yj) , (diskret)

∞∫−∞

∞∫−∞

g(z, y) fZ,Y (z, y) dzdy , (stetig) .

der Erwartungswert (EW) von g(Z, Y ), falls∫R2

|g(z, y)| dFZ,Y (z, y) <∞.

Bemerkung 2.15

1. Die Definitionen fur n > 2 erfolgen analog.

2. Fur beliebiges n sind verschiedene Schreibweisen in Gebrauch;z. B. fur X = (X1, ..., Xn)T und x = (x1, ..., xn)T

∫Rn

g(x) dFX(x) :=∫

Rn

g(x1, ..., xn) dFX1,...,Xn(x1, ..., xn) =∫

Rn

g(x) dF (x)

usw.

3. Fur diskrete ZV schreiben wir auch

E g(Z, Y ) =∑i,j

g(zi, yj) pij , (2.7)

mit pij = fZ,Y (zi, yj), i ∈ I , j ∈ J .

Page 62: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

2.1. GEMEINSAME VERTEILUNG VON N ZUFALLSVARIABLEN 55

Satz 2.16 (EW, n-dim.)

FX1,...,Xn sei Verteilungsfunktion des n-dim. Zufallsvektors X = (X1, ..., Xn)T .Fur k = 1, ..., n bezeichne FXk

die Randverteilungsfunktion der k-ten Komponen-te Xk. fX1,...,Xn und fXk

seien die entsprechenden Wahrscheinlichkeitsfunktionenbzw. Dichten, dann gilt mit x = (x1, ..., xn)T fur k = 1, ..., n falls alle EW exi-stieren

E(Xk) =∫

Rn

xk dFX1,...,Xn(x) =

∞∫−∞

xk dFXk(xk)

=∫

Rn

xk fX1,...,Xn(x) dx =

∞∫−∞

xk fXk(xk) dxk falls X stetig. (2.8)

Bei diskreten zweidimensionalen ZV (Z, Y ) erhalt man

E(Z) =∑i,j

zi fZ,Y (zi, yj) =∑i,j

zi pij =∑

i

zi fZ(zi)

undE(Y ) =

∑i,j

yj fZ,Y (zi, yj) =∑i,j

yj pij =∑j

yj fY (yj) . (2.9)

Entsprechende Aussagen gelten fur alle Momente der Randverteilungen.

Def. 2.17 (Kovarianzen, Kovarianzmatrix)

Fur X = (X1, ..., Xn)T mogen alle zweiten Momente

τkl := E(Xk Xl) , 1 ≤ k, l ≤ n ,

existieren. Mit µk := E(Xk) nennt man

σkl := Cov(Xk, Xl) := E [(Xk − µk)(Xl − µl)] , 1 ≤ k, l ≤ n ,

die Kovarianzen von Xk und Xl.

C := Cov(X) := (σkl)1≤k,l≤n ∈ Rn,n

heißt Kovarianzmatrix von X.Xk und Xl heißen unkorreliert, falls Cov(Xk, Xl) = 0.

Die Existenz aller zweiten Momente von X sichert also analog zu Satz (1.71),dass alle Erwartungswerte µk, alle Varianzen σkk und alle Kovarianzen σkl derKomponenten Xk, Xl, 1 ≤ k, l ≤ n von X wohldefiniert sind.

Page 63: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

56 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN

Folgerung 2.18 ((Ko-)Varianzen, Verschiebungsregel)

1. Fur k = l gilt

σ2k := σkk = Cov(Xk, Xk) = E [(Xk − µk)(Xk − µk)] (2.10)

= E[(Xk − µk)

2]

= V ar(Xk) .

2. Auch fur Kovarianzen gibt es eine Verschiebungsregel, namlich

σkl = Cov(Xk, Xl) = E [(Xk − µk)(Xl − µl)] = E (Xk Xl)− µk µl . (2.11)

Def. 2.19 (Korrelationskoeffizient)

Fur zwei ZV, z. B. (Z, Y ) = (Xk, Xl), sollen alle zweiten Momente existieren.Ferner gelte σ2

Z := V ar(Z) > 0 und σ2Y := V ar(Y ) > 0. Dann heißt

ρ(Z, Y ) :=Cov(Z, Y )

σZ σY

=Cov(Z, Y )

D(Z) D(Y )=

Cov(Z, Y )√V ar(Z) V ar(Y )

der Korrelationskoeffizient von Z und Y .

Fur unkorrelierte (Z, Y ) gilt offensichtlich ρ(Z, Y ) = 0. Tatsachlich ist der Korrela-tionskoeffizient ein Maß fur den linearen Zusammenhang zwischen Z und Y :

Satz 2.20 (Korrelationskoeffizient)

Falls alle zweiten Momente der ZV (Z, Y ) existieren und falls V ar(Z) > 0 undV ar(Y ) > 0, so gilt:

−1 ≤ ρ(Z, Y ) ≤ 1

und ρ(Z, Y ) = ±1 genau dann, wenn

P (Y = a + b Z) = P (ω |Y (ω) = a + b Z(ω)) = 1

fur geeignete a ∈ R und b 6= 0. Ferner gilt fur |ρ(Z, Y )| = 1:

ρ(Z, Y ) = 1 ⇐⇒ b > 0 und ρ(Z, Y ) = −1⇐⇒ b < 0 .

Page 64: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

2.1. GEMEINSAME VERTEILUNG VON N ZUFALLSVARIABLEN 57

Beispiel 2.21 (Zweidimensionale Normalverteilung)

von (Z, Y ) bzgl. Def. 2.10 mit den Parametern µ := (µz, µy)T ∈ R2 sowie

σz > 0 , σy > 0 und −1 < ρ < 1 und der positiv definiten Kovarianzmatrix

C := Cov(Z, Y ) =

σ2z ρ σz σy

ρ σz σy σ2y

.

Dort gilt

E(Z) = µz

E(Y ) = µy

V ar(Z) = σ2z

V ar(Y ) = σ2y

ρ(Z, Y ) = ρ .

Def. 2.22 (EW von Zufallsvektoren, -matrizen)

Vorausgesetzt fur k = 1, ..., n existieren die Erwartungswerte µk := E(Xk), sosetzt man fur X = (X1, ..., Xn)T

E(X) := µ := (µ1, ..., µn)T .

Analog (also auch elementweise) wird der Erwartungswert von Matrizen definiert,deren Elemente ZV sind.

Satz 2.23 (EW von Zufallsvektoren)

Fur X = (X1, ..., Xn)T existiere µ = E(X), dann gilt fur A ∈ Rm,n, m ∈ N

E(A X) = A E(X) = A µ . (2.12)

Page 65: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

58 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN

Satz 2.24 (Kovarianzen von Zufallsvektoren; Varianz von Summen)

Vorausgesetzt alle zweiten Momente von X = (X1, ..., Xn)T existieren, dann giltmit µ = E(X), A ∈ Rm,n, a = (a1, ..., an)T ∈ Rn:

1. Die Kovarianzmatrix C ist positiv semidefinit.

2.

C = (σkl) = Cov(X) = E[(X − µ)(X − µ)T

]= E

[X XT

]− E

[µ µT

]3.

Cov(A X) = A C AT (2.13)

4.

V ar(aT X) = V ar

(n∑

i=1

ai Xi

)= Cov(aT X) = aT C a =

∑k,l

ak al σkl

=n∑

k=1

n∑l=1

ak al Cov(Xk, Xl) (2.14)

=n∑

k=1

a2k V ar(Xk) + 2

∑k<l

ak al Cov(Xk, Xl)

5.

V ar(aT X) = V ar(n∑

i=1

ai Xi) =n∑

k=1

a2k V ar(Xk) , (2.15)

falls (Xk, Xl) unkorreliert.

Page 66: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

2.2. UNABHANGIGE ZUFALLSVARIABLE 59

2.2 Unabhangige Zufallsvariable

Def. 2.25 (Unabhangigkeit)

Die Komponenten Xk eines Zufallsvektors X = (X1, ..., Xn)T heißen genau dannunabhangig, wenn die gemeinsame Verteilungsfunktion in das Produkt der Rand-verteilungsfunktionen zerfallt, d. h.

FX1,...,Xn(x1, ..., xn) = P (X1 ≤ x1, X2 ≤ x2, ..., Xn ≤ xn)

= P (X1 ≤ x1) · ... · P (Xn ≤ xn) (2.16)

= FX1(x1) · ... · FXn(xn) .

Fur diskrete bzw. stetige ZV ist dazu aquivalent die Aussage dass die gemeinsameWahrscheinlichkeitsfunktion bzw. Dichte in das Produkt der Randwahrscheinlich-keitsfunktionen bzw. der Randdichten zerfallen, d. h.

fX1,...,Xn = fX1 · ... · fXn .

Aquivalent zu Def. (2.16) ist folgende Charakterisierung:X1, ..., Xn sind genau dann unabhangig, wenn fur beliebige Borelmengen B1, ..., Bn ⊂ Rgilt

P (X1 ∈ B1, ..., Xn ∈ Bn) = P (X1 ∈ B1) · ... · P (Xn ∈ Bn) . (2.17)

Satz 2.26 (Unabhangigkeit, diskret)

Beispielsweise gilt fur unabhangige zweidimensionale diskrete ZV (Z, Y )

fZ,Y (zi, yj) = P (Z = zi, Y = yj) = pij

= pi· · p·j = P (Z = zi) · P (Y = yj) = fZ(zi) · fY (yj)

fur alle i, j.

Beispiel 2.27

1. Zweimaliges Wurfeln (siehe Beispiel 2.5): Im gewahlten Modell gilt

P (Z = i, Y = j) =1

36=

1

6· 16

= P (Z = i)P (Y = j)

fur 1 ≤ i, j ≤ 6.

Page 67: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

60 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN

2. Unabhangige Munze und Wurfel

Im gewahlten Modell gilt

P (Z = i, Y = j) =1

12=

1

6· 12

= P (Z = i)P (Y = j) , 1 ≤ i ≤ 6 , j = 0, 1 .

Tabelle 3: Unabhangige Munze und Wurfel pij = P (Z = i, Y = j)

i 1 2 3 4 5 6 p·jj

0 112

112

112

112

112

112

12

1 112

112

112

112

112

112

12

pi·16

16

16

16

16

16

1

3. Bei den beiden vorangegangenen Beispielen sind die pij die Produkte der Rand-wahrscheinlichkeiten pi· und p·j. Das trifft ubrigens nicht auf das Beispiel 2.5 vonder Summe Kopf / Wappen beim zweimaligen Munzwurf zu; vgl. auch Beispiel2.13.

4. Zweidimensionale GleichverteilungDie Komponenten der zweidimensionalen ZV mit der Dichte

fZ,Y (z, y) = 1(0,1)×(0,1)(z, y) = 1(0,1)(z) · 1(0,1)(y) = fZ(z) · fY (y)

sind unabhangig und jeweils U(0, 1)-verteilt.

5. 2-dim. und n-dim. NormalverteilungZ und Y sind genau dann unabhangig, wenn ρ = 0 ist. In diesem Fall gilt mitden Bezeichnungen von Def. 2.10

fZ,Y (z, y) =1

2πστexp

[−(z − µZ)2

2 σ2− (y − µY )2

2 τ 2

]= fZ(z) · fY (y) .

Die Komponenten Xk und Xl eines n-dim. normalverteilten Vektors X sind ge-nau dann unabhangig, wenn ρ (Xk, Xl) = 0.Alle Komponenten eines normalverteilten Vektors X sind genau dann unabhangig,wenn Cov(X) = diag V ar(X1), . . . , V ar(Xn).

Page 68: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

2.2. UNABHANGIGE ZUFALLSVARIABLE 61

Satz 2.28 (Unabhangig-unkorreliert; Unabhangigkeit von Funktionen)

Seien Z und Y unabhangig mit existierenden 2. Momenten und µZ = E(Z),µY = E(Y ) sowie g, h : R → R Borel-messbare Funktionen, z. B. (stuckweise)stetig, dann gilt:

1. g(Z) und h(Y ) sind unabhangig.

2. E[g(Z) · h(Y )] = E[g(Z)] · E[h(Y )] oder speziell

3. E(Z Y ) = E(Z) E(Y ); insbesondere sind Z und Y unkorreliert, daE [(Z − µZ) (Y − µY )] = E(Z − µZ) E(Y − µY ) = 0.

4. Die Umkehrung von 3. gilt nicht.

5. Falls (Z, Y ) gemeinsam (zweidimensional) normalverteilt sind, dann folgt:

(Z, Y ) unkorreliert ⇐⇒ Z und Y sind unabhangig.

Unkorreliertheit bedeutet, dass kein linearer Zusammenhang zwischen den enspre-chenden ZV vorliegt. Dies ist i.a. eine schwachere Bedingung als Unabhangigkeitvon ZV. Im Falle einer gemeinsamen Normalverteilung der ZV sind diese Begriffe aqui-valent.

Spater werden wir fur die Erwartungswerte unabhangiger ZV Z und Y haufig denProduktsatz

E[g(Z) · h(Y )] = E g(Z) · E h(Y )

benutzen.

Def. 2.29 (Unabhangig identisch verteilt, iid)

Die ZV X1, ..., Xn heißen unabhangig identisch verteilt wie X; man sagt auchX, X1, ..., Xn sind iid (independent identically distributed), genau dann, wenn dieXi unabhangig sind und

FX = FXi, i = 1, ..., n .

iid-Variablen X1, ..., Xn heißen auch mathematische Stichprobe.

Page 69: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

62 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN

Satz 2.30 (Stichprobenmittel X)

X1, ..., Xn seien iid mit E(Xi) = µ und V ar(Xi) = D2(Xi) = σ2, i = 1, ..., n. Furdas arithmetische Mittel

X :=1

n

n∑i=1

Xi

einer solchen (mathematischen) Stichprobe gilt E(X) = µ sowie

V ar(X) = D2(X) =σ2

n

D(X) =σ√n

(Standardabweichung) .

-3 -2 -1 0 1 2 3

N(0, 1)

N(0, 1/25)

Bild 9: Verteilung von X fur n = 1 und n = 25

In der mathematischen Statistik geht man davon aus, dass die eine Verteilung charak-terisierenden Parameter, u.a. µ und σ2, unbekannt sind und mithilfe von Stichproben-ziehungen geschatzt werden mussen; siehe auch Kap. 8.3.3. X ist die am haufigstenverwendete Schatzung fur µ. Als Schatzfunktion fur die i. a. unbekannte Varianz σ2

wahlt man

S2 :=1

n− 1

n∑i=1

(Xi − X)2 . (2.18)

Der Vorfaktor 1/(n − 1) ist notig, um die sog. Erwartungstreue E[S2] = σ2 zugarantieren; vgl. z. B. [Lehn & Wegmann (1992)], S. 77 oder Bsp. 2.34. Dort wird u.a.auch nachgewiesen, dass fur normalverteilte iid-Variable das Stichprobenmittel X undS2 unabhangige ZV sind.

Page 70: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

2.3. TRANSFORMATIONEN VON N ZUFALLSVARIABLEN 63

2.3 Transformationen von n Zufallsvariablen

2.3.1 Transformationssatz fur Dichten

Die n-dimensionale Zufallsvariable X = (X1, . . . , Xn)T habe eine Dichte f(x),x = (x1, . . . , xn)T . Weiterhin seien B := x ∈ Rn | f(x) > 0 und h : B → D,D ⊂ Rn, differenzierbar und bijektiv. Dann ist Y := h(X) wieder eine n-dim. ZV. Mity = (y1, . . . , yn)T sei die Umkehrabbildung

x := h−1(y) = (x1(y), . . . , xn(y))T

auf D (abgesehen von endlich vielen glatten Hyperflachen) stetig differenzierbar.

∂(x1, . . . , xn)

∂(y1, . . . , yn)=

∂(x1, . . . , xn)

∂(y1, . . . , yn)(y) := det

∂x1

∂y1

(y) · · · ∂x1

∂yn

(y)

......

∂xn

∂y1

(y) · · · ∂xn

∂yn

(y)

sei die Funktionaldeterminante der Umkehrabbildung h−1. Dann hat die ZVY = (Y1, . . . , Yn)T := h(X) wieder eine Dichte g(y), die gegeben ist durch

g(y) = g(y1, . . . , yn) = f (x1(y), . . . , xn(y))

∣∣∣∣∣∂(x1, . . . , xn)

∂(y1, . . . , yn)

∣∣∣∣∣ , (2.19)

wobei | · | hier den Betrag einer Determinante bezeichnet.

(V, W ) seien stetig mit Dichte fV,W . Man betrachtet die TransformationX = x(V, W ) , Y = y(V, W ),

zu der nach Voraussetzung die UmkehrtransformationV = v(X, Y ) , W = w(X, Y )

mit auf D (abgesehen von endlich vielen glatten Kurven) stetig differenzierbaren v(·, ·)und w(·, ·) existiert. Dann gilt

fX,Y [x, y] = fV,W [v(x, y), w(x, y)] |J(x, y)|, (2.20)

wobei die Funktionaldeterminante hier speziell gegeben ist durch

J(x, y) =∂(v, w)

∂(x, y)=

∂v

∂x

∂w

∂y− ∂v

∂y

∂w

∂x.

Es folgen Beispiele und wichtige Anwendungen.

Beispiel 2.31 (Transformationsregel fur Polarkoordinaten)

Seien x = r cosϕ, y = r sinϕ, r ≥ 0, 0 ≤ ϕ < 2π, f : R2 −→ R, B ⊆ R2, danngilt ∫

B(x,y)

∫f(x, y) dx dy =

∫B(r,ϕ)

∫f(r cosϕ, r sinϕ) r dr dϕ, (2.21)

falls eines der beiden Integrale existiert.

Page 71: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

64 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN

Eine wichtige Anwendung ist die Polar-Transformation zum Simulieren normalver-teilter Zufallsvariablen nach Box-Mutter:Seien (S, T ) unabhangig gleichverteilt mit Dichte fS,T (s, t) = 1(0,1)×(0,1)(s, t), dann sind

X :=√−2 ln S sin(2πT ) (2.22)

Y :=√−2 ln S cos(2πT )

unabhangig und jeweils N(0, 1)-verteilt. Die Umkehrtransformation lautet fur(x, y) ∈ R2\ (0, y) ∈ R2 | y ≥ 0

s = e−(x2+y2)/2

t =

12π

arccos y√x2+y2

, falls x ≥ 0

12π

(2π − arccos y√

x2+y2

), falls x < 0 .

Die Funktionaldeterminante erhalt man elegant mit einem kleinen Umweg uber dieRelation

∂(s, t)

∂(x, y)= 1/

∂(x, y)

∂(s, t)

und

∂(x, y)

∂(s, t)= det

− sin(2πt)

s√−2 ln s

2π√−2 ln s cos(2πt)

− cos(2πt)

s√−2 ln s

−2π√−2 ln s sin(2πt)

=

ssin2(2πt) +

scos2(2πt) =

s.

Damit gilt

∂(s, t)

∂(x, y)=

s

2π=

1

2πe−(x2+y2)/2

und man erhalt mit dem Transformationssatz fur Dichten

fX,Y (x, y) = fS,T [s(x, y), t(x, y)]

∣∣∣∣∣ ∂(s, t)

∂(x, y)

∣∣∣∣∣ = 1 · 1

2πe−(x2+y2)/2 .

2.3.2 Lineare Transformationen

Wir betrachten nun eine weitere wichtige Klasse linearer Transformationen und folgenin der Darstellung [Stirzaker (1994)], pp. 287.

Page 72: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

2.3. TRANSFORMATIONEN VON N ZUFALLSVARIABLEN 65

Satz 2.32 (Lineare Transformation)

Zur Matrix A = (aij) existiere die Inverse A−1 = (bij) = B. Weiterhin betrachten

wir X = (X1, . . . , Xn)T , Y = (Y1, . . . , Yn)T und

Y = A X , X = B Y bzw. fur i = 1, . . . , n : Yi =n∑

j=1

aij Xj , Xi =n∑

j=1

bij Yj .

Aus der gemeinsamen Dichte fX(x1, . . . , xn) der (X1, .., Xn) kann dann wegendet(A) = 1/det(B) 6= 0 die gemeinsame Dichte fY (y1, . . . , yn) von (Y1, . . . , Yn)berechnet werden. Es gilt gemaß Gleichung (2.19) mit y = (y1, . . . , yn)T

fY (y1, . . . , yn) =1

|det(A)|fX(x1(y1, . . . , yn), . . . , xn(y1, . . . , yn))

= |det(B)| fX(x1, . . . , xn) =∣∣∣ det

(A−1

) ∣∣∣ fX(A−1 y) .

Fur affin lineare Transformationen Y = A X + b mit det(A) 6= 0 gilt entspre-chend

fY (y) =∣∣∣ det

(A−1

) ∣∣∣ fX

(A−1(y − b)

). (2.23)

Beispiel 2.33 (n-dimensionale Normalverteilung)

Nun konnen wir zeigen, dass das bereits in (2.3) eingefuhrte

fX(x) =1√

(2π)n det(C)exp

[−1

2(x− µ)T C−1(x− µ)

](2.24)

mit x ∈ Rn und den Parametern µ ∈ Rn sowie C ∈ Rn,n, positiv definit, eine n-dim.Dichte ist.Da C per Definition auch symmetrisch ist, hat es nur reelle Eigenwerte λi, die wirzu der Matrix Λ := diagλ1, . . . , λn zusammenfassen. Wegen der positiven Definit-heit folgt λi > 0, i = 1, . . . , n. Außerden gibt es ein System von n orthonormiertenEigenvektoren, die wir spaltenweise zu einer Matrix U zusammenfassen. Dann lautetdie Eigenwert-Eigenvektorzerlegung

C = U ΛUT , U UT = UT U = In = diag1, . . . , 1 .

Nun seien mit Λ1/2 := diag√

λ1, . . . ,√

λn

C1/2 := U Λ1/2 UT ∈ Rn,n sowie y := C−1/2 (x− µ) ∈ Rn .

Wegen det(C) = λ1 · λ2 · . . . · λn > 0 gilt det(C1/2) =√

det(C) > 0 sowie det(C−1/2) =

1/√

det(C). Nach Satz 2.32 lautet dann die Dichte von Y := C−1/2 (X −µ) ∈ Rn mit

Page 73: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

66 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN

x− µ = C1/2 y

fY (y1, . . . , yn) =1

|det(C−1/2)|fX(µ + C1/2 y)

=det(C1/2)√(2π)n det(C)

exp[−1

2yT C1/2C−1 C1/2y

]

=1(√2π)n e−

12yTy =

n∏i=1

1√2π

e−y2i /2 .

Nun erhalt man

∫Rn

fY (y1, . . . , yn) d(y1, . . . , dyn) =n∏

i=1

1√2π

∞∫−∞

e−y2i /2 dyi = 1 .

Damit sind fY und fX Dichten.

Satz 2.34 (Orthogonale Transformation bei Normalverteilung)

Seien (X1, . . . , Xn) N(0, 1)-iid Zufallsvariablen und A = (aij) eine ortho-gonale Matrix mit det(A) = ±1 sowie A−1 = AT . Weiterhin gelte mitX = (X1, . . . , Xn)T und Y = (Y1, . . . , Yn)T die Beziehung Y = A X, d. h.

Yi =n∑

j=1

aij Xj , 1 ≤ i ≤ n . (2.25)

Dann gilt:

1. (Y1, . . . , Yn) sind unabhangige N(0, 1)-verteilte Zufallsvariablen.

2. Das Stichprobenmittel X =1

n

n∑i=1

Xi und die

Stichprobenvarianz S2 =1

n− 1

n∑i=1

(Xi − X)2 sind unabhangig .

3. Fur N(µ, σ2)-iid ZV (X1, . . . , Xn) gilt E (S2) = σ2.

Page 74: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

2.3. TRANSFORMATIONEN VON N ZUFALLSVARIABLEN 67

Beweis:

1. Es gilt X = AT Y und

n∑i=1

X2i = XT X = Y T A AT Y = Y T Y =

n∑i=1

Y 2i .

Die unabhangigen N(0, 1)-verteilten Xi haben die Dichte (2π)−n/2 exp(−1

2

∑x2

i

).

Somit gilt fur die Dichte von (Y1, . . . , Yn) nach Satz 2.32

fY (y1, . . . , yn) =1

(2π)n2

exp

(−1

2

n∑i=1

y2i

).

Deshalb sind (Y1, . . . , Yn) unabhangig N(0, 1)-verteilt.

2. Nun sei A = (aij) orthogonal mit spezieller erster Zeile der Form a1j = 1/√

n,was

Y1 =n∑

j=1

1√n

Xj =√

n X

zur Folge hat. Weiterhin gilt

(n− 1) S2 =n∑

i=1

X2i − 2 X

n∑i=1

Xi + n X2 =n∑

i=1

X2i − n X2

=n∑

i=1

Y 2i − Y 2

1 =n∑

i=2

Y 2i . (2.26)

S2 ist unabhangig von X, da Y1 gemaß 1. unabhangig von (Y2, . . . , Yn) ist.

3. Ausgehend von N(µ, σ2)-iid Xi fuhrt man zunachst eine Translation der FormXi − µ → Xi, i = 1, . . . , n durch. Dann sind die Xi iid und N(0, σ2). DurchEinsetzen gemaß 1. verifiziert man sofort, dass die orthogonale Transformation(2.25) N(0, σ2) iid Yi liefert. Damit folgt gemaß 2. und (2.26)

E[(n− 1) S2

]= E

[n∑

i=2

Y 2i

]= (n− 1) σ2 . 2

Lineare Transformationen normalverteilter ZV

Aus Satz 2.32 folgt noch, dass allgemeine lineare Transformationen normalverteilterZV wieder normalverteilt sind:

Seien X ∼ N(µ, C) und A ∈ Rm,n, Rang(A) = m > 0 gegeben. Dann gilt

Y := A X ∼ N(A µ, A C AT

). (2.27)

Zum Beweis erganze man A zu einer nichtsingularen Matrix.

Page 75: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

68 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN

2.3.3 Summen, Quotienten

Wir betrachten einfache Funktionen von zwei ZV (X, Y ) mit Wahrscheinlichkeitsfunk-tion bzw. Dichte f = fX,Y . Fur die Summe V := X + Y erhalt man

FX+Y (v) = P (V ≤ v) = P (X + Y ≤ v) ,

was im diskreten Fall

fV (v) = fX+Y (v) = P (X + Y = v) = P (X = v − Y ) =∑y

f(v − y, y) =∑x

f(x, v − x)

nach sich zieht. Fur stetige (X, Y ) lautet die Dichte

fV (v) = fX+Y (v) =

∞∫−∞

f(x, v − x) dx =

∞∫−∞

f(v − y, y) dy .

Sind X und Y zusatzlich unabhangig, so kann die Verteilung der Summe elegant mitden erzeugenden bzw. momenterzeugenden Funktionen von Kapitel 3 gewonnen wer-den. Der hier gewahlte Ansatz fuhrt auf sogenannte Faltungen (siehe auch Def. 3.6):

fX+Y (v) =∑y

fX(v − y)fY (y) =∑x

fX(x)fY (v − x) (2.28)

bzw. fur Dichten

fX+Y =

∞∫−∞

fX(v − y)fY (y) dy =

∞∫−∞

fX(x)fY (v − x) dx . (2.29)

Haufig benotigt man die Dichte des Quotienten stetiger ZV. Diese lautet

fX/Y (v) =

∞∫−∞

f(x, x v) |x| dx =

∞∫−∞

f(y v, y) |y| dy . (2.30)

Beispiel 2.35 (Summen bei zweidimensionaler Normalverteilung)

Gemaß (2.5) haben X und Y eine zweidimensionale Normalverteilung mit E(X) =E(Y ) = 0 sowie D(X) = σ > 0 und D(Y ) = τ > 0, falls die gemeinsame Dichte mit−1 < ρ < 1 lautet

f(x, y) =1

2πστ√

1− ρ2exp

[− 1

2(1− ρ2)

(x2

σ2− 2ρxy

στ+

y2

τ 2

)].

Gesucht ist die Dichte von a X + b Y fur Konstanten a und b.

Losung (gemaß [Stirzaker (1994)], p. 269, 275):

Zunachst zeigt Bsp. 2.13 (2), dass sich fur a = 0 und b = 1 die Randdichte einer

Page 76: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

2.3. TRANSFORMATIONEN VON N ZUFALLSVARIABLEN 69

N(0, τ 2)-Verteilung ergibt. Analog erhalt man fur a = 1 und b = 0 eine N(0, σ2)-Verteilung. Nun seien a 6= 0 und b 6= 0. Die gemeinsame Dichte von U = a X undV = b Y lautet

g(u, v) =1

|ab|f(

u

a,v

b

).

Die Dichte von Z = U + V = a X + b Y ist dann

fZ(z) =

∞∫−∞

1

|ab|f(

u

a,z − u

b

)du .

Neuordnung des Exponenten unter dem Integral liefert

−1

2(1− ρ2)

(u2

a2σ2− 2ρu(z − u)

abστ+

(z − u)2

b2τ 2

)=

−α

2(1− ρ2)

(u− βz

α

)2

+z2

α2

1− ρ2

a2b2σ2τ 2

,

wobei α =1

a2σ2+

abστ+

1

b2τ 2und β =

ρ

abστ+

1

b2τ 2.

Setzt man u = β z/α im Integranden, so folgt

∞∫−∞

exp

(− αv2

2(1− ρ2)

)dv =

√2π(1− ρ2)

α.

Nach einigem Rechnen ergibt sich dann

fZ(z) =1√2πξ2

exp

(− z2

2ξ2

)

mit ξ2 = a2σ2 + 2ρabστ + b2τ 2. Somit gilt Z ∼ N(0, ξ2).

Dieses Ergebnis hatte man ubrigens auch durch spezielle Wahl von

A =

(a b0 1

)und

(ZW

)= A

(XY

)

in Formel (2.27) erhalten, wobei die zweite Zeile der Matrix nicht eindeutig festgelegt,aber so wahlen ist, dass A nichtsingular ist.

Einen interessanten Spezialfall erhalt man fur ρ = 0. Mit dem obigen Ergebnis ist dannfolgendes bewiesen:

Seien X bzw. Y unabhangig N(0, σ2) bzw. N(0, τ 2)-verteilte Zufallsvariablen. Dannhat die Summe Z = a X + b Y eine N(0, a2σ2 + b2τ 2)-Verteilung.

Durch Anwenden der Transformationen X−µ→ X und Y −η → Y folgt zunachst furunabhangige N(µ, σ2) bzw. N(η, τ 2)-verteilte X bzw. Y , dass die SummeZ := c + a X + b Y nach N(c + µ + η, a2σ2 + b2τ 2) verteilt ist. Oder noch allgemeiner:

Page 77: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

70 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN

Satz: Summe von normalverteilten Zufallsvariablen

Sind (X, Y ) gemeinsam normalverteilt mit E(X) = µ , E(Y ) = η, V ar(X) =σ2 > 0, V ar(Y ) = τ 2 > 0 und Korrelationskoeffizient −1 < ρ < 1. Fur Koeffizi-enten a, b mit a2 + b2 > 0, ist Z := c + a X + b Y wieder normalverteilt mit

E(Z) = c + a µ + b η und V ar(Z) = a2σ2 + 2 a b ρ στ + b2τ 2.

Beispiel 2.36 (Summen und Quotienten von ZV)

1. X ∼ B (nX , p) und Y ∼ B (nY , p) unabhangig =⇒ X + Y ∼ B (nX + nY , p).

2. X ∼ Poi (λX), Y ∼ Poi (λY ) unabhangig =⇒ X + Y ∼ Poi (λX + λY ).

3. X ∼ N(µX , σ2X), Y ∼ N(µY , σ2

Y ) unabh. =⇒ X + Y ∼ N(µX + µY , σ2X + σ2

Y ).

4. X ∼ Γ (qX , λ), Y ∼ Γ (qY , λ) unabhangig =⇒ X + Y ∼ Γ (qX + qY , λ).

5. X und Y unabhangig N(0, 1) =⇒ Z := X/Y ist Cauchy-verteilt mit Dichte

fX/Y (z) =1

π

1

1 + z2.

Siehe auch die Beispiele 3.9 und 3.14.

2.3.4 Minimum, Maximum

Satz 2.37 (Minimum und Maximum von ZV)

X, X1, ..., Xn seien iid-ZV mit Verteilungsfunktion FX und FX(x) := 1 − FX(x)bezeichne wiederum die sog. tail probability. Dann lauten die Verteilungsfunktio-nen FZ von Z := max

iXi bzw. FY von Y := min

iXi

FZ(z) = FmaxXi(z) = [FX(z)]n (2.31)

1− FY (y) = 1− FminXi = [1− FX(y)]n

oder

FY (y) = FminXi(z) =[FX(y)

]n. (2.32)

Beweis: Wegen der Unabhangigkeit der Xi gilt

FmaxXi(z) = P (maxiXi ≤ z)

= P (X1 ≤ z, ..., Xn ≤ z)

= P (X1 ≤ z) · ... · P (Xn ≤ z) = [FX(z)]n .

FminXi(y) = P (miniXi > y)

= P (X1 > y, ..., Xn > y)

= P (X1 > y) · ... · P (Xn > y) =[FX(y)

]n. 2

Page 78: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

2.3. TRANSFORMATIONEN VON N ZUFALLSVARIABLEN 71

Beispiel 2.38 (Gleich- und Exponentialverteilung)

X, X1, ..., Xn seien iid-ZV mit Verteilungsfunktion FX .

1. Gleichverteilung: X ∼ U(0, a), a > 0, Z := maxiXi

Man hat fur 0 < x < a die Darstellung FX(x) =x

a, woraus sich nach (2.31)

FZ(z) =(

z

a

)n

fur 0 < z < a ableitet. Damit lautet die Dichte fZ von Z

fZ(z) =n zn−1

an10,a(z) .

2. Exponentialverteilung: X ∼ ED(λ), λ > 0, Y := miniXi

Es gilt FX(x) = e−λ x fur x > 0 und gemaß (2.32) ergibt sich

FY (y) =(e−λ y

)n1(0,∞)(y) = e−n λ y 1(0,∞)(y) .

Damit ist Y auch ED(n λ)-exponentialverteilt und

E(Y ) =1

n λ=

E(X)

n.

Page 79: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

72 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN

2.4 Bedingte Verteilungen und Erwartungswerte

Schon bei einfachen kombinatorischen Aufgaben hat sich der Ubergang zu beding-ten Wahrscheinlichkeiten als vorteilhaft erwiesen. In vielen Fragestellungen der Sto-chastik kommt man ohne das sog. Conditioning uberhaupt nicht weiter. Deswegensoll hier der Kalkul der bedingten Erwartung am Beispiel diskreter Zufallsvaria-bler (ZV) eingefuhrt werden. Der Vollstandigkeit halber werden gelegentlich auch For-meln fur Dichten mit angegeben. Wir folgen in der Darstellung grob dem Konzept von[Stirzaker (1994)], p.94 und p. 138.

2.4.1 Bedingung bzgl. Ereignis B

Def. 2.39 (Bedingte Verteilung bzgl. Ereignis B)

X sei eine diskrete ZV bzgl. (Ω, F, P ) und B ∈ F ein Ereignis mit P (B) > 0.Bezeichne weiterhin Ax := ω |X(ω) = x fur die hochstens abzahlbar vielenWerte von X. Dann definiert

f(x|B) := P (Ax|B) =P (Ax ∩B)

P (B)(2.33)

die Wahrscheinlichkeitsverteilung von X unter der Bedingung B oder von Xgegeben B.

Wegen⋃x

Ax = Ω und Ax ∩ Ay = ∅, x 6= y, ist f(x|B) wohldefiniert, denn

∑x

P (Ax|B) =∑x

P (Ax ∩B)

P (B)=

P (Ω ∩B)

P (B)= 1 .

Def. 2.40 (Bedingter Erwartungswert bzgl. B)

Falls∑x

|x| f(x|B) <∞, nennt man

E(X|B) :=∑x

x f(x|B)

den bedingten Erwartungswert von X bzgl. B oder den Erwartungswert vonX gegeben B.

Es folgt ein fur spatere Rechnungen außerst nutzlicher Satz:

Page 80: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

2.4. BEDINGTE VERTEILUNGEN UND ERWARTUNGSWERTE 73

Satz 2.41 (Konditionieren des Erwartungswertes bzgl. B)

X sei eine (diskrete) ZV mit Erwartungswert E(X) und B ein Ereignis, so dassP (B) P (Bc) > 0, dann gilt

E(X) = E(X|B) P (B) + E(X|Bc) P (Bc) . (2.34)

Fur vollstandige Ereignismengen (Bi)i=1,2,... der Form

1.⋃i

Bi = Ω

2. Bi ∩Bj = ∅, i 6= j

3. P (Bi) > 0, i = 1, 2, . . .

gilt sogar allgemeinerE(X) =

∑i

E(X|Bi) P (Bi) . (2.35)

Schließlich sei noch erwahnt, dass fur A ⊂ B gilt

E(X |A ∩B) = E(X|A) . (2.36)

Diese Resultate legen ein Approximationsprinzip fur X durch einfachere ZV (mit klei-nerem Wertebereich) nahe, bei dem der Erwartungswert invariant bleibt.

Def. 2.42 (Bedingte Erwartung bzgl. A, Ac)

X sei eine (diskrete) ZV mit Erwartungswert E(X), A ein Ereignis mit0 < P (A) < 1 und A := Ω, ∅, A,Ac . Dann nennt man die ZV Z : Ω → Rmit

Z(ω) :=

E(X|A) , falls ω ∈ AE(X|Ac) , falls ω ∈ Ac

die bedingte Erwartung von X gegeben A bzw. von X unter der Bedin-gung A. Man schreibt auch Z = E(X|A). In diesem Fall nimmt Z genau zweiWerte mit den Wahrscheinlichkeiten P (A) und 1− P (A) an.

Satz 2.43 (Invarianz des Erwartungswerts)

Unter den Voraussetzungen von Def. 2.42 gilt mit Satz 2.41

E[Z] = E [ E(X|A) ] = E(X|A) P (A) + E(X|Ac) P (Ac) = E(X) .

Page 81: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

74 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN

Die bedingte Erwartung stellt also in der Regel eine Vergroberung, und damit ofteine leichter handhabbare, vereinfachte Version der ursprunglichen ZV dar, ohne denErwartungswert zu verandern. Zur Eingewohnung der abstrakten Begriffe zunachst eineinfaches Beispiel.

Beispiel 2.44 (Diskrete Gleichverteilung)

X sei diskret gleichverteilt auf 1, 2, ..., 11, 12 und A = 9, 10, 11, 12 . Damit istP (A) = 1/3, E(X) = 6.5 und f(x) = 1/12 fur alle x. Man erhalt weiter

f(x|A) =

0 , falls 1 ≤ x ≤ 814

, falls 9 ≤ x ≤ 12 .

Dies ergibt

E(X|A) = 10.5 , und E(X|Ac) = 4.5

und die bedingte Erwartung Z bezuglich A := Ω, ∅, A,Ac

Z(ω) = E(X|A) =

10.5 , falls ω ∈ A4.5 , falls ω ∈ Ac .

Damit gilt

E[Z] = E [ E(X|A) ] = E(X|A) P (A)+E(X|Ac) P (Ac) = 10.5·13+4.5·2

3=

13

2= E(X) .

2.4.2 Bedingte Verteilungen

Def. 2.45 (Diskrete bedingte Verteilung)

f(x, y) = P (X = x, Y = y) sei die gemeinsame Wahrscheinlichkeitsfunktion von(X, Y ). Dann lautet die bedingte Verteilung von X gegeben Y = y oder von Xunter der Bedingung Y

fX|Y (x|y) =f(x, y)

fY (y), fur alle y mit fY (y) > 0 .

fY ist die Randwahrscheinlichkeitsfunktion bzgl. Y .

Page 82: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

2.4. BEDINGTE VERTEILUNGEN UND ERWARTUNGSWERTE 75

Def. 2.46 (Stetige bedingte Verteilung)

f(x, y) sei die gemeinsame Dichte der zweidimensionalen, stetigen ZV (X,Y ).Mit

fY (y) =

∞∫−∞

f(x, y) dx

wird die Randdichte von Y bezeichnet. Dann ist fur alle y mit fY (y) > 0

fX|Y (x|y) =f(x, y)

fY (y)

die Dichte von X unter der Bedingung Y bzw. von X gegeben Y = y.

Satz 2.47 (Bedingte Verteilung)

fX|Y sei eine Wahrscheinlichkeitsfunktion bzw. eine Dichte. Dann gilt

1. fX|Y ≥ 0

2.∑x

fX|Y (x) = 1, falls X diskret

∞∫−∞

fX|Y (x) dx = 1, falls X stetig.

Beispiel 2.48 (Bedingte Normalverteilung)

Wir betrachten wie schon in Def. 2.10 und den Beispielen 2.13, 2.21 und 2.35 diezweidimensionale Normalverteilung von X und Y mit E(X) = µx, E(Y ) = µy sowieV ar(X) = σ2

x > 0 und V ar(Y ) = σ2y > 0. Fur den Korrelationskoeffizienten−1 < ρ < 1

lautet dann die gemeinsame Dichte

f(x, y) =1

2πσxσy

√1− ρ2

exp

[− 1

2(1− ρ2)

((x− µx)

2

σ2x

− 2ρ(x− µx)(y − µy)

σxσy

+(y − µy)

2

σ2y

)].

Nach Bsp. 2.13 (2) hat Y eine N(µy, σ2y)-Dichte. Deshalb lautet die bedingte Dichte

von X bzgl. gegebenem Y = y

fX|Y (x|y) =f(x, y)

fY (y)=

1

σx

√2π (1− ρ2)

exp

− 1

2(1− ρ2)

(x− µx

σx

− ρ (y − µy)

σy

)2 .

Damit ist die bedingte Dichte von X gegeben Y = y vom Typ einer eindimensionalen

Normalverteilung N(µx + ρσx

σy

(y − µy), σ2x (1− ρ2)).

Page 83: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

76 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN

Der Erwartungswert von X|Y = y bei bedingten Normalverteilungen hangt also abvon den Standarabweichungen σx, σy, dem Korrelationskoefizienten ρ und den Erwar-tungswerten µx und µy. Nach diesen expliziten Rechnungen suchen wir wieder einenabstrakten Zugang.

2.4.3 Bedingte Erwartung

Def. 2.49 (Bedingte Erwartung)

fX|Y sei eine bedingte Wahrscheinlichkeitsfunktion bzw. bedingte Dichte und FX|Ydie zugehorige Verteilungsfunktion. Man setzt

E(X|Y ) = E(X|Y = y) =

∞∫−∞

xdFX|Y (x) =

∑x

xfX|Y (x) , diskret∞∫−∞

xfX|Y (x) dx , stetig.

Die bedingte Erwartung Z := E(X|Y ) ist eine Zufallsvariable Z : Ω → Rmit dem Wertebereich W = E(X|Y = y) | fY (y) > 0 . Im diskreten Fall kannalso die bedingte Erwartung hochstens so viele Werte annehmen wie Y selbst(abgesehen von einer sog. Nullmenge N ⊂ Ω mit P (N) = 0).

Satz 2.50 (Bedingter Erwartungswert)

Falls beide Seiten existieren, gilt

E[ E(X|Y ) ] = E(X) .

Obige Satze konnen zum Beispiel zur elementaren Analyse der einfachen Irrfahrt (ran-dom walk) herangezogen werden; vgl. [Stirzaker (1994)], pp. 145. Wir fahren zur Illu-stration mit einem abstrakten Beispiel fort.

Beispiel 2.51 (Der einfachste Fall)

Ω sei abzahlbar, X : Ω→ R eine ZV mit Wahrscheinlichkeitsfunktion f(ω) = P (ω)und existierendem Erwartungswert E(X) =

∑ω

X(ω) f(ω).

Seien weiter A ⊂ Ω mit 0 < p := P (A) < 1, Y := 1A die Indikatorfunktion von A

sowie EA(X) =∑ω∈A

X(ω) f(ω) und EAc(X) =∑

ω∈Ac

X(ω) f(ω). Wir definieren

Z(ω) := E(X|Y )(ω) =

1pEA(X) , falls ω ∈ A

11−p

EAc(X) , falls ω ∈ Ac ,

Page 84: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

2.4. BEDINGTE VERTEILUNGEN UND ERWARTUNGSWERTE 77

das fur y = 1 (falls ω ∈ A) bzw. y = 0 (falls ω ∈ Ac) zwei verschiedene Werte mitWahrscheinlichkeit p bzw. 1− p annimmt. Nun gilt

E(Z) = E(X|Y ) = p · 1p

EA(X) + (1− p)1

1− pEAc(X) = EA(X) + EAc(X)

=∑ω∈A

X(ω) f(ω) +∑

ω∈Ac

X(ω) f(ω) =∑ω

X(ω) f(ω) = E(X) .

Unter anderem verwendet man auch die Schreibweise

E(X |Y = 1) =1

pEA(X) bzw. E(X |Y = 0) =

1

1− pEAc(X) .

Satz 2.52 (Eigenschaften bedingter Erwartungen)

Seien a und b Konstanten, g(·) eine beliebige Funktion und X, Y und Z gemein-sam verteilt. Dann gilt

1. E(a |Y ) = a

2. E(a X + b Z |Y ) = a E(X|Y ) + b E(Z|Y )

3. E(X|Y ) ≥ 0, falls X ≥ 0

4. E(X|Y ) = E(X), falls X und Y unabhangig sind

5. E(X g(Y ) |Y ) = g(Y ) E(X|Y )

6. E[ X |Y ; g(Y ) ] = E(X|Y )

7. E[ E(X|Y ; Z) |Y ] = E(X|Y ).

Bezeichnet etwa im diskreten Fall fY,Z(y, z) =∑x

f(x, y, z) die Randwahrschein-

lichkeitsfunktion, so definiert man

E(X |Y ; Z) =∑x

x f(x, y, z)

fY,Z(y, z).

Die Eigenschaft 7. ermoglicht es, Bedingungen in beliebiger Ordnung hintereinander-zuschalten.

Page 85: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

78 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN

Satz 2.53 (Projektionseigenschaft)

Fur jede (messbare) Funktion h(Y ) mit E [ h(Y )2 ] <∞ gilt

E[(X − h(Y ))2

]≥ E

[(X − E(X|Y ))2

].

Falls h(Y ) eine Funktion von Y ist, so dass E(X − h(Y ))2 = E(X −E(X|Y ))2,dann gilt

E[(h(Y )− E(X|Y ))2

]= 0.

Weitere Details entnehme man z. B. [Stirzaker (1994)], pp. 144.

Lineare Prognose

Aus der Projektionseigenschaft von Satz 2.53 leitet man ab, dass die bedingte Er-wartung E(X|Y ) bei Kenntnis von Y die (unbekannte) ZV X mindestens ebenso gutapproximiert, wie die lineare Bestapproximation

hlin(Y ) := a∗ + b∗ Y , (2.37)

wobeiE[(X − a∗ − b∗ Y )2

]≤ E

[(X − a− b Y )2

]fur alle a, b ∈ R ,

und

b∗ =Cov(X,Y )

V ar(Y ), a∗ = E(X)− b E(Y ) . (2.38)

Wie erwahnt, liefert die bedingte Erwartung stets eine optimale Approximation im Sin-ne von Satz 2.53. Im Falle einer zweidimensionalen Normalverteilung von (X, Y ) stimmtdie bedingte Erwartung mit der linearen Bestapproximation von (2.37)uberein; vgl. Beispiel 2.48.

Die Resultate von (2.38) lassen sich elementar, etwa mit den Techniken zum Beweisvon |ρ(X, Y )| ≤ 1, herleiten. Interessant ist der formale Zusammenhang zur empiri-schen Regression von Abschnitt 7.9. Dort sind lediglich die Rollen von X und Y zuvertauschen und die hier vorkommenden theoretischen Großen durch die entsprechen-den empirischen Schatzungen zu ersetzen.

Page 86: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

2.5. ORDNUNGSSTATISTIKEN 79

2.5 Ordnungsstatistiken

In diesem Abschnitt seien X,X1, . . . , Xn iid und stetig mit Dichte f und Verteilungs-funktion F . Die Notation ist an [Stirzaker (1994)], pp. 288 angelehnt.Die Ordnung der X1, . . . , Xn in aufsteigender Reihenfolge ist eine weitere interessanteAnwendung linearer Transformationen von ZV, die bereits in Satz 2.32 und Bsp. 2.34einmal behandelt wurden. Seien also

Y1 = min X1, . . . , Xn Y2 = zweitkleinstes Element der X1, . . . , Xn (2.39)

. . . . . .

Yn = max X1, .. , Xn .

Weiterhin verwenden wir die Bezeichnung Yk = X(k), daneben ist auch Yk = Xk:n

gebrauchlich.

Def. 2.54 (Ordnungsstatistiken)

X1, . . . , Xn seien identisch verteilt. Man nennt dann

Y1, . . . , Yn = X(1), . . . , X(n) = X1:n, . . . , Xn:n

mit den Eigenschaften (2.39) die Ordnungsstatistiken von X1, . . . , Xn.

Die Y1, . . . , Yn sind wohldefiniert, da bei stetigen ZV gleiche WerteXk(ω) = Xj(ω), k 6= j nur mit Wahrscheinlichkeit 0 auftreten.

Die Transformation (2.39) ist linear, aber nicht eineindeutig. Um das einzusehen, neh-men wir y1 < y2 < . . . < yn an. Die Ergebnisse des Zufallsexperiments

X1 = y1, X2 = y2, . . . , Xn = yn und X2 = y1, X1 = y2, . . . , Xn = yn

ergeben die gleiche statistische Ordnung, namlich

X(1) = y1, X(2) = y2, . . . , X(n) = yn .

Falls (π(1), . . . , π(n)) eine der n! verschiedenen Permutationen der ersten n naturlichenZahlen und Rπ das Gebiet xπ(1) < . . . < xπ(n) ist, dann ist die Transformation

x(k) = xπ(k) , 1 ≤ k ≤ n

eineindeutig und linear. In diesem Fall gilt mit A = (aij) und

aij =

1 , falls i = π(j)0 , sonst,

|det(A)| = 1. Man sieht, dass (X1, . . . , Xn) genau in einem der n! Gebiete von Rπ liegt.

Page 87: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

80 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN

Damit haben die Ordnungsstatistiken fur iid X1, . . . , Xn mit Dichte f gemaß Satz 2.32eine gemeinsame Dichte g der Form

g(y1, . . . , yn) =

n!

n∏i=1

f(yi) , falls y1 < y2 < . . . < yn

0 , sonst .(2.40)

Beispiel 2.55 (Randverteilungen, Gleichverteilung)

1. Randverteilung der X(k)

Die Dichten g(k) der Randverteilungen von X(k) lauten folgendermaßen

g(k)(y) = k(

nk

)f(y) [1− F (y)]n−k [F (y)]k−1 , (2.41)

wobei f bzw. F Dichte bzw. Verteilungsfunktion der iid Xi bezeichnen. Das Er-eignis X(k) ≤ y ereignet sich genau dann, wenn mindestens k der Xj in (−∞, y]liegen. Die Wahrscheinlichkeit, dass dieses Ereignis fur genau eines der Xj auf-tritt, ergibt sich uber die Binomialverteilung mit p := P (X ≤ y) = F (y) zu(

nj

)F (y)j [1− F (y)]n−j. Dann gilt fur mindestens k solche Ereignisse

G(k)(y) = P(X(k) ≤ y

)=

n∑j=k

(nj

)F (y)j [1− F (y)]n−j .

Differenzieren liefert die Dichte

g(k)(y) = f(y)n∑

j=k

j(

nj

)F j−1 [1− F ]n−j − (j + 1)

(n

j+1

)F j [1− F ]n−j−1

= f(y) k(

nk

)F (y)k−1 [1− F (y)]n−k ,

wobei sich die einzelnen Summenglieder der Reihe nach wegheben,(

nn+1

)= 0 und

F k = [F (y)]k.

2. GleichverteilungGemaß Korollar 1.56 ist bei stetigem X mit Verteilungsfunktion F die Zufalls-variable U := F (X) gleichverteilt in (0, 1). Die Transformation U = F (X)ermoglicht in manchen Bereichen einen einheitlichen Zugang, indem zunachstdie Aussagen fur gleichverteilte ZV hergeleitet werden und danach eine Ruck-transformation fur die ursprungliche ZV erfolgt. Diese Vorgehensweise bietet sichinsbesondere bei Ordnungsstatistiken an.

(X1, . . . , Xn) seien unabhangig und gleichverteilt in (0, a), a > 0. Dann lautet dieDichte der Ordnungsstatistiken

g(y1, . . . , yn) =n!

anfur y1 < y2 < . . . , yn . (2.42)

Page 88: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

2.5. ORDNUNGSSTATISTIKEN 81

O.B.d.A. setzen wir jetzt a = 1 (Ubergang von X zu X/a). Fur (0, 1)-gleichverteil-tes X lauten Verteilungsfunktion F (x) = x fur x ∈ (0, 1) und Dichtef(x) = 1(0,1)(x). Gemaß (2.41) erhalt man dann fur die Ordnungsstatistiken dieRanddichten

g(k)(y) = k(

nk

)yk−1 (1− y)n−k fur y ∈ (0, 1) .

Zur Berechnung der Erwartungswerte benotigen wir noch

Lemma 2.56

Fur k = 0, 1, . . . , n gilt

Ik :=

1∫0

(nk

)yk (1− y)n−k dy =

1

n + 1.

Beweis z. B. mit Induktion.

Nun kann der Erwartungswert der k-ten Ordnungsstatistik angegeben werden

E[X(k)

]=

1∫0

y k(

nk

)(1− y)n−k yk−1 dy

=

1∫0

k(

nk

)(1− y)n−k yk dy = k Ik =

k

n + 1.

Fur (0, a)-gleichverteilte ZV erhalt man entsprechend

E[X(k)

]=

k a

n + 1. (2.43)

Page 89: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

Kapitel 3

Erzeugende Funktionen

Wir beschranken uns in diesem Abschnitt auf die praktisch besonders wichtigen Fallestetiger Zufallsvariablen (ZV) und diskreter mit dem Wertebereich N0 := 0, 1, 2, ... .Aus technischen Grunden werden nicht angenommene Werte mit Wahrscheinlichkeit 0belegt; also bei B(n, p)-verteiltem Y setzt man P (Y = m) = 0 fur m = n+1, n+2, ....Generell seien die Komponenten Xk des Zufallsvektors X = (X1, ..., Xn)T unabhangig.

Die folgenden Transformationen sind besonders hilfreich bei

1. der Festlegung von Wahrscheinlichkeitsfunktionen fur diskrete ZV mit nichtne-gativen ganzzahligen Werten

2. der einfachen Berechnung von Momenten (differenzieren anstatt summieren undintegrieren); Momente spielen in vielen stochastischen Modellen eine Rolle undliefern einfache Schatzmethoden fur unbekannte Parameter

3. der Berechnung von Grenzverteilungen

4. der Losung von Differenzen- und Differentialgleichungen im Zusammenhang mitstochastischen Prozessen; vgl. u.a. [Resnick (1994)]

3.1 Nichtnegative, ganzzahlige Zufallsvariable

Zunachst behandeln wir eine elegante Methode zur kompakten Beschreibung von dis-kreten Wahrscheinlichkeitsgesetzen. Aus der Theorie der analytischen Funktionen istder eineindeutige Zusammenhang zwischen der Funktion und den Koeffizienten der ent-sprechenden Potenzreihe bekannt. Dies nutzen wir hier aus. Sei zunachst (ai) = (ai)i∈N0

eine beliebige reelle Zahlenfolge. Spater werden die ai durch Wahrscheinlichkeiten pi

ersetzt. Falls nichts anderes gesagt wird, sei stets i ∈ N0.

82

Page 90: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

3.1. NICHTNEGATIVE, GANZZAHLIGE ZUFALLSVARIABLE 83

Def. 3.1 (Erzeugende Funktion von (ai))

ga(s) :=∞∑i=0

ai si

heißt erzeugende Funktion (generating function) der Folge (ai), falls es eins0 > 0 gibt, so dass ga(|s|) <∞ fur alle |s| < s0.Bei diskreten Wahrscheinlichkeitsverteilungen ist der Konvergenzradius wegen∑

pi = 1 mindestens gleich 1.

Satz 3.2 (Eindeutigkeit)

Falls s0, s1 existieren, so dass

−∞ < ga(s) = gb(s) <∞ fur alle s0 < s < s1 ,

so folgt aus dem Identitatssatz fur Potenzreihen

ai = bi fur alle i ∈ N0 .

Erzeugende Funktionen sind ein Standardhilfsmittel zum Losen linearer Differenzen-gleichungen; siehe u.a. [Stirzaker (1994)], pp. 58-60 oder [Resnick (1994)], pp. 7-17 andpp. 33.

Wir wenden uns jetzt dem Spezialfall zu, dass die Folge der ai eine diskrete Wahr-scheinlichkeitsverteilung charakterisiert.

Def. 3.3 (Erzeugende Funktion; generating function)

Die diskrete Zufallsvariable Y nehme die Werte i = 0, 1, 2, ... mit Wahrschein-lichkeiten pi := P (Y = i) = fY (i) = f(i) ≥ 0 an. Dann heißt

G(s) = GY (s) := E(sY ) =∑

i

pi si =

∑i

f(i) si (3.1)

erzeugende Funktion von Y .

Page 91: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

84 KAPITEL 3. ERZEUGENDE FUNKTIONEN

Satz 3.4 (Erzeugende Funktion)

Unter den Voraussetzungen von Definition 3.3 gilt:

1. Der Konvergenzradius von (3.1) ist mindestens 1, da GY (1) =∑i

pi ≤ 1.

2. GY bestimmt die Verteilung pi eindeutig; d. h. falls GY = GZ, so sind Yund Z identisch verteilt.

3. GY ist analytisch mit den m-ten Ableitungen

G(m)Y (s) =

∞∑i=m

i!

(i−m)!pi s

i−m , |s| < 1 .

4. In s = 1 gilt

G(m)Y (1) =

∞∑i=m

i!

(i−m)!pi ,

falls die rechte Seite konvergiert.

5. Falls auch ∞ als Erwartungswert zugelassen wird, so gilt

G(m)Y (1) = E [Y (Y − 1) · ... · (Y −m + 1)] .

Bei endlichen faktoriellen Momenten lassen sich die gewohnlichen Momenteeinfach berechnen, z. B. mit G = GY

E(Y ) = G′(1)

V ar(Y ) = G′′(1) + G′(1)− [G′(1)]2

usw.

Beispiel 3.5 (Erzeugende Funktionen)

1. Binomialverteilung B(n, p), q := 1− p:

G(s) = (q + p s)n (3.2)

2. Poisson-Verteilung P (λ):G(s) = eλ(s−1) (3.3)

3. Geometrische Verteilung pi = p qi, i = 0, 1, 2, ...; q := 1− p:

G(s) =p

1− qs(3.4)

Bevor wir uns Summen von unabhangigen diskreten Zufallsvariablen zuwenden, zunachsteine formale Definition.

Page 92: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

3.1. NICHTNEGATIVE, GANZZAHLIGE ZUFALLSVARIABLE 85

Def. 3.6 (Faltung)

a0, a1, a2, ... und b0, b1, b2, ... seien reelle Folgen. Die durch

ck =k∑

i=0

ai bk−i , k = 0, 1, 2, ... (3.5)

definierte Folge (ck) heißt Faltung (convolution) der (ai) und (bj).

Faltungen sind u.a. kommutativ, denn fur k = 0, 1, 2, ... gilt

ck =k∑

i=0

ai bk−i =∑

i+j=k

ai bj =k∑

j=0

ak−j bj .

Faltungen sind abstrakte Hilfsmittel zur Darstellung der Wahrscheinlichkeitsverteilun-gen von Summen unabhangiger ZV.Z bzw. Y , jeweils mit Wertebereich N0 und Wahrscheinlichkeitsfunktionen fZ bzw.fY seien unabhangig. Gesucht ist die Wahrscheinlichkeitsfunktion fW und spater dieerzeugende Funktion der Summe W := Z + Y . Es gilt

ck := fW (k) = P (W = k) = P (Z + Y = k)

=k∑

i=0

P (Z = i) P (Y = k − i) vgl. (3.7)

=k∑

i=0

fZ(i) fY (k − i) =k∑

i=0

ai bk−i , (3.6)

wobei ai := fZ(i) und bj := fY (j), i, j ∈ N0 und wieder der Satz von der totalenWahrscheinlichkeit angewendet wurde, namlich:Unter der Bedingung Z = i gilt Z + Y = k genau dann, wenn Y = k − i; also mitP (A) = P (A|B) fur unabhangige A und B

P (Z + Y = k) =∞∑i=0

P (Z = i) P (Z + Y = k |Z = i)

=∞∑i=0

P (Z = i) P (Y = k − i |Z = i) (3.7)

=k∑

i=0

P (Z = i) P (Y = k − i) ;

fur i > k gilt k − i < 0 und somit P (Y = k − i) = 0 .

Beispiel 3.7 (Summe von Poisson-Variablen)

In Spezialfallen laßt sich die Faltung direkt bestimmen. Seien Z ∼ Poi(λ) und Y ∼

Page 93: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

86 KAPITEL 3. ERZEUGENDE FUNKTIONEN

Poi(µ) unabhangig, dann ist W := Z + Y Poisson-verteilt mit Parameter λ + µ, denn

fW (k) = ck =k∑

i=0

fZ(i) fY (k − i) =k∑

i=0

λi

i!e−λ µk−i

(k − i)!e−µ

= e−λ−µ 1

k!

k∑i=0

k!

i! (k − i)!λi µk−i

= e−(λ+µ) 1

k!

k∑i=0

(k

i

)λi µk−i = e−(λ+µ) (λ + µ)k

k!.

Diese eher muhsame Herleitung laßt sich elegant umgehen. Dazu beachte man, dassfur die Multiplikation von ga, gb, gc, der erzeugenden Funktionen bzgl. (ai), (bj), (ck)mit der ublichen Umordnung von Doppelsummen und der Faltung (3.5) gilt

ga(s) · gb(s) =

( ∞∑i=0

ai si

) ∞∑j=0

bj sj

=∞∑i=0

∞∑j=0

ai si bj sj

=∞∑

k=0

k∑i=0

ai bk−i sk =

∞∑k=0

ck sk

= gc(s) .

Dies ergibt den wichtigen

Satz 3.8 (Summen unabhangiger ZV)

(Z, Y ) bzw. (X1, ..., Xn) seien unabhangige diskrete ZV mit Wertebereich N0.Dann gilt fur die erzeugenden Funktionen der Summen

GZ+Y (s) = GZ(s) GY (s)

GX1+...+Xn(s) = GX1(s) · ... ·GXn(s) .

Beweis:In den vorangegangenen Uberlegungen wurde die Aussage des Satzes konstruktiv her-geleitet. Formal kann der Beweis in einer Zeile gefuhrt werden. Da Z und Y unabhangigsind, gilt dies auch fur tZ und tY ; also

GZ+Y (s) = E[sZ+Y

]= E

[sZ sY

]= E

[sZ]

E[sY]

= GZ(s) GY (s) ,

wobei die Multiplikationsregel fur Erwartungswerte bei unabhangigen ZV benutzt wur-de. Der Beweis im n-dim. Fall geht vollig analog.

Beispiel 3.9

1. BinomialverteilungSeien Z bzw. Y unabhangig B(n, p)− bzw. B(m, p)−verteilt, dann ist die SummeZ + Y wie B(n + m, p)−verteilt, denn mit n, m ∈ N, 0 < p < 1 und q := 1 − pgilt:

GZ+Y (s) = GZ(s) ·GY (s) = (q + p s)n · (q + p s)m = (q + p s)n+m

Page 94: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

3.2. MOMENTERZEUGENDE FUNKTION 87

2. Poisson-VerteilungFur unabhangig Poi(λZ)− bzw. Poi(λY )−verteilte ZV Z bzw. Y gilt

GZ+Y (s) = GZ(s) ·GY (s) = eλZ(s−1) · eλY (s−1) = e(λZ+λY ) (s−1) .

Am Beispiel der Poisson-Verteilung wird die Arbeitserleichterung bei Verwendung dererzeugenden Funktion im Vergleich zur direkten Berechnung der Faltung deutlich.

3.2 Momenterzeugende Funktion

Nun wird die Beschrankung auf ganzzahlige ZV fallengelassen. Ein allgemeiner Zugangzur Charakterisierung der Verteilung einer ZV Y fuhrt uber die charakteristischeFunktion φY (s) := E

[ei s Y

], i2 = −1. Diese Fouriertransformierte existiert fur belie-

bige ZV und wird in weiterfuhrenden Vorlesungen naher untersucht.

Hier behandeln wir eine einfachere, ahnliche Transformation, die fur die meisten wich-tigen ZV definiert ist (leider nicht fur alle!); vgl. auch [Stirzaker (1994)], pp. 239.

Def. 3.10 (Momenterzeugende Funktion)

Falls fur die ZV Y mit VF FY gilt: E(es Y ) <∞, fur |s| < ε, ε > 0, so heißt

M(s) = MY (s) := E(es Y

)=

∞∫−∞

es y dFY (y)

momenterzeugende Funktion von Y .

Ein endlicher Wert MY (s) fur s = t und fur s = −t, t 6= 0, sichert bereits die Existenz

aller absoluten Momente E(|Y |k

), k ∈ N. Denn das schnell wachsende es y dominiert

fur ausreichend großes y (s > 0) bzw. fur genugend kleines negatives y (s < 0) jedePotenzfunktion |yk|, k ∈ N. Umgekehrt kann man aus der Existenz aller Momente nochnicht auf die Existenz der momenterzeugenden Funktion schließen (vgl. Lognormalver-teilung).

Die Wahl des Namens fur MY wird durch folgenden Satz klar.

Page 95: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

88 KAPITEL 3. ERZEUGENDE FUNKTIONEN

Satz 3.11 (Eindeutigkeit und Momente)

Falls fur die ZV Y die momenterzeugende Funktion M in einer Umgebung der 0existiert, so gilt:

1. Durch k-maliges Differenzieren erhalt man die Momente von Y

µk = E[Y k]

= M (k)(0) =∂kM(0)

∂skk = 0, 1, 2, ...

2. MY bestimmt die Verteilung von Y eindeutig und es gilt

MY (s) =∞∑

k=0

µksk

k!.

Satz 3.12 (Summen unabhangiger ZV)

(Z, Y ) bzw. (X1, ..., Xn) seien unabhangige ZV mit existierenden momenterzeu-genden Funktionen. Dann existieren diese Transformierten auch fur die Summenund es gilt

MZ+Y (s) = MZ(s) MY (s)

MX1+...+Xn(s) = MX1(s) · ... ·MXn(s) .

Der Beweis ist vollig analog zu dem fur erzeugende Funktionen.

Beispiel 3.13 (Momenterzeugende Funktion)

1. Poisson-Verteilung: Y ∼ Poi(λ)

MY (s) = exp [λ (es − 1)] (3.8)

2. Normalverteilung: Z ∼ N(µ, σ2)

MZ(s) = exp(µ s +

1

2σ2 s2

)(3.9)

3. Gleichverteilung: W ∼ U(0, a), a > 0

MW (s) =ea s − 1

a s(3.10)

4. Gammaverteilung: Y ∼ Γ(q, λ), q > 0, λ > 0

MY (s) =

λ− s

)q

, (3.11)

Page 96: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

3.2. MOMENTERZEUGENDE FUNKTION 89

woraus sich fur den Spezialfall der Exponentialverteilung V ∼ ED(λ) = Γ(1, λ)

MV (s) =λ

λ− s

ergibt.

Die Herleitungen der genannten Formeln findet man in [Stirzaker (1994)], p. 189 sowiepp. 239-240.

Beispiel 3.14 (Summen unabhangiger ZV)

1. NormalverteilungSeien Z bzw. Y unabhangig N(µZ , σ2

Z)− bzw. N(µY , σ2Y )−verteilt, dann ist die

Summe wegen

MZ+Y (s) = MZ(s) ·MY (s)

= exp(µZ s +

1

2σ2

Z s2)· exp

(µY s +

1

2σ2

Y s2)

= exp((µZ + µY ) s +

1

2(σ2

Z + σ2Y ) s2

)

N(µZ + µY , σ2Z + σ2

Y )-verteilt.

2. GammaverteilungDie Summe Z + Y unabhangiger Γ(r, λ)- bzw. Γ(t, λ)-verteilter ZV Z bzw. Yist Γ(r + t, λ)-verteilt, wobei r, t, λ > 0, denn

MZ+Y (s) = MZ(s) ·MY (s) =

λ− s

)r

·(

λ

λ− s

)t

=

λ− s

)r+t

.

3. Erlangverteilung Erlang(n, λ)Ein wichtiger Spezialfall der Gammaverteilung ergibt sich fur die Summe voniid-exponentialverteilten ZV X1, . . . , Xn

V =n∑

i=1

Xi .

Man nennt V Erlang-verteilt. Die zugehorige momenterzeugende Funktion lautet

MV (s) =

λ− s

)n

.

Mit (1.30) hat V also eine Dichte der Form

fV (v) =λn

(n− 1)!vn−1 e−λ v 1(0,∞)(v) . (3.12)

Page 97: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

90 KAPITEL 3. ERZEUGENDE FUNKTIONEN

Am Beispiel der Normalverteilung sieht man wieder die Vorteile des Zugangs uber mo-menterzeugende Funktionen im Vergleich zur direkten Berechnung der Faltung gemaßBsp. 2.35.

Alle Formeln (3.8) bis (3.11) haben exponentielle Form und vereinfachen sich durchLogarithmieren. Diese neue erzeugende Funktion definiert weitere charakteristischeGroßen der zugehorigen Verteilung; vgl. z. B. [Stirzaker (1994)], pp. 189.

Def. 3.15 (Kumulantenfunktion)

Falls die momenterzeugende Funktion der ZV Y existiert, so nennt man

K(s) = KY (s) := ln[E(es Y

)]Kumulantenfunktion oder Kumulanten erzeugende Funktion (generating func-tion of the cumulants) von Y , wenn eine Entwicklung der Form

K(s) =∞∑

k=0

κksk

k!

in einer Umgebung der 0 existiert.

Der Name nimmt bereits folgende Aussage vorweg.

Satz 3.16 (Kumulanten)

Falls die Kumulantenfunktion K zur ZV Y existiert, so erhalt man durch k-maliges Differenzieren die Kumulanten von Y :

κk = K(k)(0) k = 0, 1, 2, ...

Zum Beweis beachtet man die Beziehung:

M(s) = eK(s) ,

wobei M die momenterzeugende Funktion bezeichnet. Differenzieren liefert

M ′(s) = eK(s) K ′(s) = M(s) K ′(s) = M K ′ ,

M ′′ = M K ′′ + M ′K ′ ,

usf., woraus sich mit M(0) = 1, M ′(0) = EY und M ′′(0) = EY 2 die beiden erstenKumulanten ergeben. Die hoheren Kumulanten folgen gemaß Def. 1.74 analog. ZurErinnerung:

κ1 = µ = E(Y ) , κ2 = σ2 = V ar(Y ) , κ3 = E(Y − µ)3 , κ4 = E(Y − µ)4 − 3 σ4 , ...

Page 98: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

3.2. MOMENTERZEUGENDE FUNKTION 91

Beispiel 3.17 (Kumulantenfunktion)

1. Poisson-Verteilung: Y ∼ Poi(λ)

KY (s) = λ (es − 1) , κk = λ , k = 1, 2, 3, ...

2. Normalverteilung: Z ∼ N(µ, σ2)

KZ(s) = µ s +1

2σ2 s2

κ1 = µ , κ2 = σ2 , κk = 0 , k = 3, 4, . . .

Die Normalverteilung ist ubrigens die einzige Verteilung mit der Eigenschaft, dass alleKumulanten ab der Ordnung 3 verschwinden.

Als Vorbereitung auf den Zentralen Grenzwertsatz formulieren wir am Ende diesesAbschnitts noch zwei wichtige Aussagen fur momenterzeugende Funktionen.

Satz 3.18 (Lineare Transformation)

Falls Y die momenterzeugende Funktion MY besitzt, so existiert diese Transfor-mation auch fur Z := a + b Y , a, b ∈ R, und lautet

Ma+b Y = ea s MY (b s) .

Beweis:

Ma+b Y = E[es (a+b Y )

]= E

[es a es b Y

]= E [es a] E

[e(s b) Y

]= ea s MY (b s) .

Weiterhin gilt ein wichtiges Stetigkeitsresultat fur Folgen von Verteilungsfunktionen;siehe [Stirzaker (1994)], p. 241.

Satz 3.19 (Momenterzeugende Funktionen fur Folgen (Fn))

(Yn) sei eine Folge von ZV mit Verteilungsfunktionen (Fn) und momenterzeugen-den Funktionen (Mn), die fur |s| < b, b > 0 existieren. Falls fur ein 0 < a < bund fur alle |t| ≤ a gilt

limn→∞

Mn(t) = M(t)

und M momenterzeugende Funktion einer ZV Y mit Verteilungsfunktion F ist,so folgt

limn→∞

Fn(x) = F (x)

in allen Stetigkeitspunkten x von F .

Page 99: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

Kapitel 4

Gesetze der großen Zahlen

Durch Probieren laßt sich feststellen, dass beim Wurf einer symmetrischen Munze dierelativen Haufigkeiten fur ”Kopf” gegen 1

2konvergieren, wenn man das Experiment nur

oft genug wiederholt. Die Gesetze der großen Zahlen, von denen die einfachstenhier hergeleitet werden, sichern unter sehr schwachen Bedingungen die Konvergenz desStichprobenmittels gegen den Erwartungswert. Das Verhalten der relativen Haufigkei-ten beim wiederholten Munzwurf kann man als Spezialfall des sog. starken Gesetzesder großen Zahlen deuten.

Es sei daran erinnert, dass die moderne Wahrscheinlichkeitstheorie auf den Axiomenvon Kolmogorov basiert; vgl. Def. 1.10. Die Gesetze der großen Zahlen, und deren Uber-einstimmung mit praktischen Experimenten, rechtfertigen den axiomatischen Zugangim nachhinein. In fruherer Zeit hatte man versucht, umgekehrt Wahrscheinlichkeiten alsGrenzwerte von relativen Haufigkeiten zu definieren. Dies fuhrte nicht zum gewunsch-ten Ziel einer widerspruchsfreien Theorie. Die axiomatische Fundierung hat sich alsuberlegen erwiesen.

4.1 Ungleichungen

Da die exakte Berechnung von Wahrscheinlichkeiten nicht immer moglich ist, greift manoft auf Ungleichungen zuruck. Hier sollen einige davon behandelt werden. Fur eine wei-tere Diskussion, z. B. der Ungleichung von Jensen, siehe z. B. [Stirzaker (1994)], pp. 98.

92

Page 100: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

4.1. UNGLEICHUNGEN 93

Satz 4.1 (Basisungleichung)

Falls h(x) eine nicht-negative Funktion ist und E[h(X)] <∞, dann gilt fur alle a > 0

P (h(X) ≥ a) ≤ E[h(X)]/a . (4.1)

Beweis:Sei A := ω |h[X(ω)] ≥ a und 1A die zugehorige Indikatorfunktion mit E(1A) =P (h(X) ≥ a). Nach dieser Konstruktion gilt h(X)−a 1A ≥ 0 und E [h(X)− a 1A] ≥ 0,womit folgt:

E h(X) ≥ a E(1A) = a P (h(X) ≥ a) .

2

Satz 4.2 (Ungleichung von Markov)

Aus der Basisungleichung ergibt sich mit h = | · | fur beliebige Zufallsvariable (ZV) mitexistierendem Erwartungswert und a > 0

P (|X| ≥ a) ≤ E(|X|)/a . (4.2)

Von noch großerer Bedeutung ist die

Satz 4.3 (Ungleichung von Tschebyschov, E(X) = 0)

Falls E(X2) existiert und E(X) = 0, so gilt fur beliebige t > 0

P (|X| ≥ t) ≤ E(X2)/t2 . (4.3)

Beweis:Wir verwenden hier die Riemann-Stieltjes-Notation. Zur Ubung sollte dieser wichtigeBeweis fur diskrete bzw. stetige ZV wiederholt werden.

E(X2) =

∞∫−∞

x2 dF (x) =∫|x|<t

x2 dF (x) +∫|x|≥t

x2 dF (x)

≥∫|x|≥t

x2 dF (x) ≥ t2∫|x|≥t

dF (x) = t2 P (|X| ≥ t) . 2

Page 101: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

94 KAPITEL 4. GESETZE DER GROSSEN ZAHLEN

Durch die Translation X − µ→ X erhalt man die bekanntere Version

Satz 4.4 (Ungleichung von Tschebyschov)

Fur beliebige Zufallsvariable mit E(X) = µ , V ar(X) = σ2 gilt

P (|X − µ| < tσ) ≥ 1− 1

t2, ∀ t > 0 , (4.4)

oder aquivalent dazu

P (|X − µ| ≥ ε) ≤ σ2

ε2, ∀ ε > 0 . (4.5)

Diese Ungleichung gilt fur beliebige ZV mit endlicher Varianz σ2 und gibt eine all-gemeine Schranke an, wie weit eine ZV um ihren Mittelwert streut. Diese Schrankenkonnen bei speziellen Annahmen, z. B. Normalverteilung, enger gefaßt werden:

Tschebyschov N(µ, σ2)t P (|X − µ| < tσ) ≥ 1− 1/t2 P (|X − µ| < tσ) = 2Φ(t)− 11 0 0.68262 0.7500 0.95463 0.8889 0.99744 0.9375 1− 6 · 10−5

5 0.9600 1− 7 · 10−7

Fur den Namen Cebysev des russischen Mathematikers sind viele Transliterationengebrauchlich. Bei Schreibweisen wie Tschebyscheff sollte man daran denken, dass imrussischen Original das letzte ’e’ wie ein ’o’ gesprochen wird.

Page 102: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

4.2. GESETZE DER GROSSEN ZAHLEN 95

4.2 Gesetze der großen Zahlen

Haufig wendet man die Ungleichung von Tschebyschov mit X = X an, wobei X dasarithmetische Mittel von X1, ..., Xn ist.

Satz 4.5 (Satz von Tschebyschov)

X1, ..., Xn seien paarweise unkorreliert mit E(Xi) = µi und beschrankten Vari-

anzen V ar(Xi) ≤ σ2, i = 1, . . . , n; Xn =1

n

n∑i=1

Xi bezeichne das arithmetische

Mittel. Dann gilt fur beliebiges ε > 0 und 0 < η < 1

P (|Xn −1

n

n∑i=1

µi| < ε) ≥ 1− η , falls n ≥ σ2

η ε2.

Def. 4.6 (Stochastische Konvergenz)

Eine Folge Y1, Y2, ... von ZV konvergiert stochastisch oder in Wahrschein-

lichkeit gegen eine Zufallsvariable Y (i. Z. YnP−→ Y ) genau dann, wenn fur alle

ε > 0lim

n→∞P (|Yn − Y | < ε) = 1 .

Satz 4.7 (Schwaches Gesetz der großen Zahlen)

1. X1, X2, ... seien paarweise unkorreliert mit E(Xi) = µi und beschranktenVarianzen V ar(Xi) ≤ σ2, dann konvergieren die arithmetischen Mittel Xn

stochastisch gegen die arithmetischen Mittel ihrer Erwartungswerte, d. h.

1

n

n∑i=1

XiP−→ 1

n

n∑i=1

µi .

2. Die arithmetischen Mittel Xn von iid-Variablen X1, X2, ... mit existie-renden zweiten Momenten konvergieren stochastisch gegen den Mittelwertµ = E(Xi), i = 1, 2, ..., d. h.

XnP−→ µ oder

limn→∞

P (|Xn − µ| < ε) = 1 fur alle ε > 0 .

Wir haben bereits angesprochen, dass etwa beim Munzwurf die relativen Haufigkeiten”praktisch immer” gegen die gesuchten Wahrscheinlichkeiten konvergieren. Dies ist

Page 103: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

96 KAPITEL 4. GESETZE DER GROSSEN ZAHLEN

das sog. starke Gesetz der großen Zahlen. Dabei konnen die Voraussetzungen desfolgenden Satzes noch abgeschwacht werden.

Satz 4.8 (Starkes Gesetz der großen Zahlen)

Die arithmetischen Mittel Xn von iid-Variablen X1, X2, ... mit existierenden erstenMomenten konvergieren fast sicher (almost everywhere) oder stark oder mit Wahr-scheinlichkeit 1 gegen den Mittelwert µ = E(Xi), i = 1, 2, ..., d. h.

Xnf.s.−→ µ oder

P(

limn→∞

Xn = µ)

:= P(ω | lim

n→∞Xn(ω) = µ

)= 1 . (4.6)

Ohne auf einen Beweis eingehen zu konnen, sei erwahnt, dass starke Konvergenz diestochastische impliziert, d. h.

Ynf.s.−→ Y =⇒ Yn

P−→ Y .

Die Aussage von (4.6) hat also die Konvergenz von Satz 4.7 zur Folge und ist somitstarker. Warum Satz 4.8 mit geringeren Voraussetzungen auskommt, ist schnell gesagt:Das schwache Gesetz der großen Zahlen wurde in Satz 4.7 so formuliert, dass zumBeweis der Satz von Tschebyschov herangezogen werden kann. Die dortigen Voraus-setzungen konnen aber noch gelockert werden.

Das eingangs beschriebene Phanomen der Konvergenz von relativen Haufigkeiten hatmit fast-sicherer Konvergenz zu tun. Es ist zwar ein Ereignis Efail denkbar, so dassz. B. beim wiederholten (symmetrischen) Munzwurf eine Folge nicht gegen die Wahr-scheinlichkeit 1

2konvergiert. Fur dieses Ereignis gilt aber P (Efail) = 0.

Page 104: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

4.3. GRENZWERTSATZE 97

4.3 Grenzwertsatze

Wir werden hier nur zwei der wichtigsten Grenzwertsatze erwahnen. Es gibt eine Viel-zahl von Verallgemeinerungen, die der weiterfuhrenden Literatur zu entnehmen sind.

4.3.1 Zentraler Grenzwertsatz

Nun wenden wir uns einem weiteren Konvergenzbegriff zu.

Def. 4.9 (Verteilungskonvergenz)

Eine Folge Y1, Y2, ... von ZV konvergiert in Verteilung (in distribution) gegen

eine Zufallsvariable Y (i. Z. Ynd−→ Y ) genau dann, wenn die Verteilungsfunktio-

nen Fn der Yn gegen die Verteilungsfunktion F von Y konvergieren, und zwar inin allen Stetigkeitspunkten von F .

Verteilungskonvergenz wird auch schwache Konvergenz genannt, denn sie ist die schwachsteder drei in diesem Kapitel definierten Konvergenzarten. Es gilt:

Ynf.s.−→ Y =⇒ Yn

P−→ Y =⇒ Ynd−→ Y .

Satz 4.10 (Zentraler Grenzwertsatz fur iid-Variable)

X1, X2, ... seien iid-ZV mit E(Xi) = µ , V ar(Xi) = σ2 <∞ , i = 1, 2, ....

Dann gilt fur Sn :=n∑

i=1

Xi und Xn :=1

n

n∑i=1

Xi = Sn / n sowie

Un :=Sn − n µ

σ√

n=

Xn − µ

σ/√

n:

limn→∞

Un ∼ N(0, 1) , d.h. limn→∞

P (Un ≤ u) =1√2π

u∫−∞

e−t2/2dt ,

oder Und−→ U , wobei U standardnormalverteilt ist.

Bemerkung 4.11 (zum Zentralen Grenzwertsatz, ZGWS)

1. Mit unseren Hilfsmitteln laßt sich der Beweis von Satz 4.10 gemaß[Stirzaker (1994)], pp. 294-295 fuhren. Besitzen zum Beispiel die iid-ZV Xi einemomenterzeugende Funktion M(s), so sind etwa die behandelten Transformations-(vgl. 3.18) und Stetigkeitssatze (siehe 3.19) anzuwenden.

2. Summen Sn =∑

Xi von iid ZV mit E(Xi) = µ, V ar(Xi) = σ2, i = 1, . . . , n, sindalso fur große n approximativ N( n µ , n σ2)-verteilt.

Page 105: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

98 KAPITEL 4. GESETZE DER GROSSEN ZAHLEN

3. Der Grenzwertsatz von de Moivre-Laplace fur binomialverteilte ZV ist ein Spe-zialfall des ZGWS 4.10. Der Beweis (in [Chung (1979)], pp. 210-216 findet maneine moderne Version) ist konstruktiv und beruht wesentlich auf der StirlingschenFormel. Momenterzeugende Funktionen werden dort nicht benotigt.

4. Man sagt fur n ≥ 50 ist Un “praktisch” standardnormalverteilt. Fur unabhangigeXi mit E(Xi) = µi und V ar(Xi) = σ2

i ≤ σ2 , i = 1, 2, . . . gilt die Aussage desSatzes fur

Un :=n∑

i=1

(Xi − µi)

/√√√√ n∑i=1

σ2i . (4.7)

5. Der ZGWS kann unter weit allgemeineren Voraussetzungen bewiesen werden.Die bisherigen Formulierungen sollen aber fur diese Einfuhrungsveranstaltunggenugen.

6. Wichtige Anwendungen sind etwa Approximationen der Binomial- und Poisson-Verteilung.Eine binomialverteilte ZV X kann als Summe von n unabhangig mit dem Pa-rameter p Bernoulli-verteilten ZV Y1, . . . , Yn angesehen werden (vgl. Bsp. 3.9,1.). Fur genugend großes n, etwa np ≥ 4 und n(1 − p) ≥ 4, gilt dann in guterNaherung

P (X = j) = P (j − 12

< X ≤ j + 12)

≈ Φ

j + 0.5− np√np(1− p)

− Φ

j − 0.5− np√np(1− p)

, (4.8)

und Φ bezeichnet wieder die Verteilungsfunktion der Standardnormalverteilung.Analog dazu kann fur n ∈ N und λ = n µ, µ > 0, gemaß 2. von Bsp. 3.9 einePoi(λ)-verteilte ZV X als unabhangige Summe von n mit Parameter µ Poisson-verteilten Z1, . . . , Zn dargestellt werden. Fur λ > 20 (also n oder µ genugendgroß) gilt daher

P (X = j) = P (j − 12

< X ≤ j + 12)

≈ Φ

(j + 0.5− λ√

λ

)− Φ

(j − 0.5− λ√

λ

). (4.9)

7. Der zentrale Grenzwertsatz gestattet es, in vielen Fallen die betrachteten Zu-fallsvariablen als normalverteilt anzusehen. Dabei geht man davon aus, dass diebeobachtete Große durch additive Uberlagerung vieler nicht beobachteter Ein-flusse entsteht.

8. Trotzdem ist eine Normalverteilungsannahme stets durch geeignete statistischeTests oder Methoden der explorativen Datenanalyse zu verifizieren; vgl. Kapitel10. Dort spielt u.a. das Lemma 10.2 von Glivenko-Cantelli eine wichtige Rolle.Dieses besagt, dass die empirische Verteilungsfunktion Fn von iid ZV X1, . . . , Xn

fur n → ∞ fast sicher gegen die Verteilungsfunktion F der Xi, i = 1, . . . , n,konvergiert. Damit gehort auch diese Aussage zu den Gesetzen der großen Zahlen.

Page 106: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

4.3. GRENZWERTSATZE 99

4.3.2 Approximation der Binomial- durch die Poisson-Verteilung

Die Approximation der Binomial- durch die Normalverteilung ist umso genauer, jenaher p bei 1

2liegt und je großer n ist. Fur sehr kleine p und k, d.h.

p 1

2und k n

ist die folgende Naherung weitaus besser geeignet. Sie spielt auch bei asymptotischentheoretischen Betrachtungen eine wichtige Rolle.

Man betrachtet zunachst fur λ > 0 die B(n; λn)-verteilte ZV Xn, n ∈ N , n > λ. Anders

als bisher variiert jetzt der zweite Parameter pn := λ/n mit n. Sei wk,n := P (Xn = k),dann gilt fur k = 0, . . . , n

wk,n =n!

k! (n− k)!

n

)k (1− λ

n

)n−k

=λk

k!

(1− λ

n

)nn (n− 1) · . . . · (n− k + 1)

nk(1− λ

n

)k (4.10)

=λk

k!

(1− λ

n

)n1 (1− 1

n) · . . . · (1− k−1

n)(

1− λn

)k ;

und fur festgehaltenes k wegen limn→∞

(1− λ

n

)n

= e−λ

limn→∞

wk,n =λk

k!e−λ .

Die Großen auf der rechten Seite entsprechen der Wahrscheinlichkeitsfunktion derPoisson-Verteilung; vgl. (1.17). Wir fassen zusammen

Satz 4.12 (Binomial- und Poisson-Verteilung)

Fur λ > 0, n ∈ N, pn := λ/n und n → ∞ geht die Binomialverteilung B(n, pn)mit der Wahrscheinlichkeitsfunktion

bx,n,pn := fB(x) =

(n

x

)px

n (1− pn)n−x , x = 0, 1, . . . , n

uber in die Poisson-Verteilung Poi(λ) mit der Wahrscheinlichkeitsfunktion

vx,λ := fP (x) =λx

x!e−λ , x ∈ N0 .

Die Approximationsgute wachst fur großes n. Der Herleitung entnimmt man aber auch,dass die Approximation von Satz 4.12 mit λ = n p ebenso fur sehr kleines, festgehaltenes

Page 107: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

100 KAPITEL 4. GESETZE DER GROSSEN ZAHLEN

p und kleine k ausgezeichnet ist. Dies unterstreicht auch folgende Abschatzung, die wirohne Beweis angeben. Fur eine beliebige Teilmenge A ⊂ N0 sowie jedes 0 < p < 1 undjedes n ∈ N gilt die Abschatzung∣∣∣∣∣∣

∑k∈A

bk,n,p −∑k∈A

vk,np

∣∣∣∣∣∣ ≤ p . (4.11)

Die beiden Beispiele in den Tabellen von Anhang 11.4 geben einen Eindruck von derApproximationsgute der Normal- bzw. Poissonverteilung.

Die numerische Approximation von Binomialwahrscheinlichkeiten durch den Poisson-ansatz hat im Computerzeitalter naturlich an Bedeutung verloren, da in den meistenFallen eine exakte Berechnung der bk,n,p durchgefuhrt werden kann, was fruher mitPapier und Bleistift zumindest eine erhebliche Muhe bedeutet hatte.

Weitere interessante Eigenschaften der Poisson-Verteilung findet man zum Beispiel in[Chung (1979)], pp. 193, [Pfanzagl (1988)], S. 255-258 oder der Spezialliteratur uberdie Poissonverteilung.

Page 108: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

Kapitel 5

Einfache Irrfahrt (Random Walk)

Bereits am Ende des Abschnitts 1 war im Beispiel vom Ruin des Spielers vom sog. Ran-dom Walk die Rede. Ausfuhrliche Darstellungen hierzu findet man etwa in[Stirzaker (1994)], pp. 145 oder [Resnick (1994)], pp. 33. Dem Zweck dieser Materialenentsprechend, beschranken wir uns hier auf einfuhrende Betrachtungen.

5.1 Definition, Rekurrenz

Def. 5.1 (Einfache Irrfahrt; Random Walk)

Seien X1, X2, . . . diskrete iid-Variablen, also gemaß Def. 2.29 unabhangig undidentisch verteilt, mit

P (Xi = 1) = p , P (Xi = −1) = q := 1− p , 0 < p < 1 , i = 1, 2, . . . ,

und fur gegebenes S0 ∈ Z

Sn := S0 +n∑

i=1

Xi , n = 1, 2, . . . . (5.1)

Dann nennt man (Sn; n ∈ N0) einfache Irrfahrt oder simple Random Walk(gelegentlich auch Bernoulli Walk).Im Falle p = q = 1

2spricht man von einem symmetrischen Random Walk.

(Sn; n ∈ N0) ist ein stochastischer Prozeß mit Parameterraum N0 und Zu-standsraum Z. Man schreibt auch (Sn; n ≥ 0).

Die Charakterisierung einfach bzw. simple bezieht sich u.a. darauf, dass der Zustands-raum der Sn eindimensional und ganzzahlig ist. Man kann ahnliche Modelle auch inallgemeineren Zustandsraumen, u.a. in hoheren Dimensionen betrachten. Wir lassenab jetzt die Zusatze einfach bzw. simple weg und sprechen in diesem Abschnitt nurnoch vom Random Walk, meinen aber den Prozeß von Def. 5.1.

101

Page 109: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

102 KAPITEL 5. EINFACHE IRRFAHRT (RANDOM WALK)

1. Gelegentlich wird der Parameterraum mit T bezeichnet. Dann interpretiert manSt ∈ Z als den Ort, an dem sich z. B. ein Partikel zum diskreten Zeitpunktt ∈ T = N0 gerade befindet.

2. Wegen der Unabhangigkeit der Xi gilt die sog. Markov-Eigenschaft:

P (Sn+1 = j|Sn = in, Sn−1 = in−1, . . . , S1 = i1, S0 = i0) = P (Sn+1 = j|Sn = in) ,

d. h. die Kenntnis des Zustands Sn liefert genauso viel Information fur die Vor-hersage des Zustands Sn+1 wie die Kenntnis der gesamten Vorgeschichte des Pro-zesses (Sj; j = 0, 1, . . . , n).

3. Auf den Zustand Sn kann entweder der Zustand Sn+1 = Sn + 1 oder der ZustandSn+1 = Sn − 1 folgen. Mit 0 < p < 1 gilt

P (Sn+1 = j + 1 |Sn = j) = p und P (Sn+1 = j − 1 |Sn = j) = q = 1− p .

4. Der Ausgangszustand S0 = k ∈ Z ist vorgegeben. Bei vielen Uberlegungen kannman sich mit der Transformation Sn := Sn − k auf den einfacheren Fall S0 = 0beschranken und so den formalen Aufwand fur Beweise verringern.

Wir wollen weitere Details der Vorlesung Stochastische Prozesse uberlassen, bemerkenaber an dieser Stelle:

1. Die Sn, n = 1, 2, . . . sind Zufallsvariable uber einem Wahrscheinlichkeitsraum(Ω, F, P ), der sich als unendliches Produkt einfacherer Wahrscheinlichkeitsraume(Ωi, Fi, Pi), i ∈ N0, ergibt (vgl. iid-Variable Xi).

2. Bisher wurde die Folge von ZV Sn : Ω → Z fur n ∈ N0 betrachtet. Eine andereSichtweise ist Sn : Ω × N0 → Z. Halt man bei diesem Ansatz ein ω ∈ Ω fest, soliefert (Sn(ω); n ∈ N0) einen Pfad des stochastischen Prozesses Sn. Im Bild 10ist (n, Sn(ω)) fur einen solchen Pfad geplottet.

sS0

0 -n

1 2 3 9 10 11

ss

ss

ss

sss

ss

s4 5 6 7 8

6Sn

Bild 10: Random Walk

Page 110: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

5.1. DEFINITION, REKURRENZ 103

In fast jedem Lehrbuch findet man eine andere phantasievolle Illustration des RandomWalk, z. B. der Betrunkene, der von einer Seite einer engen Gasse zur anderen torkeltetc.; siehe etwa [Chung (1979)], pp. 240. Wir lehnen uns bei Interpretationen in derRegel an das bereits eingefuhrte Beispiel 1.30 vom Ruin des Spielers an. Es geltenfolgende Zusammenhange:

1. Startkapital : k = S0 ≥ 0

2. p = P (Gewinn) = P (Sn+1 = j + 1 |Sn = j)

3. Sn = 0 ⇐⇒ Ruin des Spielers; in Bild 10 nach n = 5 Spielen.

4. Sn = K und Sj /∈ 0, K , j < n ⇐⇒ Ende nach n Spielen mit gewonnenemZielkapital K.

Bemerkung 5.2 (Fragestellungen zum Random Walk)

In Abschnitt 1 wurden einige Fragen angeschnitten. Eine davon war:Trifft ein Pfad des Random Walk einen beliebig vorgegebenen Wert z ∈ Z; und wieoft? Die Antwort hierzu lautet (ohne Begrundung):Ein Pfad des symmetrischen Random Walk (p = q = 1

2) trifft, unabhangig vom Start

S0, jedes z ∈ Z mit Wahrscheinlichkeit (Wkt) 1, und zwar beliebig oft. Diese Aussagegilt fur p 6= q nicht mehr.

Weitere Fragen waren:

1. Verlaßt ein beliebiger Pfad des Random Walk ein vorgegebenes endliches Intervall[a, b], a < b; womoglich sogar mit Wkt 1 ?

2. Was geschieht im Fall K →∞, wenn die Bank unbeschranktes Kapital besitzt?

3. D sei die Spieldauer, also die Zeit, bei der das Kapital des Spielers (ausgehendvon S0 = k) zum ersten Mal einen der Werte SD = 0 oder SD = K erreicht. Esist u.a. zu klaren, ob D endlich ist.

Zur Beantwortung der Fragen ziehen wir zunachst die bereits vorliegenden Ergebnissevon Beispiel 1.30 heran. Dort erhielt man in (1.11) und (1.12) mit r := q/p fur Start-kapital S0 = k ≥ 0 und Zielkapital K ≥ k, (das Spiel wird beendet, wenn zum erstenMal Sn = 0 oder Sn = K)

pk = P (∃ n ≥ 0 mit Sn = 0 und Sj < K , j < n | S0 = k)

=

K − k

K, falls p = 1

2

rk − rK

1− rK, falls p 6= 1

2.

(5.2)

Page 111: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

104 KAPITEL 5. EINFACHE IRRFAHRT (RANDOM WALK)

und

qk = P (∃ n ≥ 0 mit Sn = K und Sj > 0 , 0 < j ≤ n | S0 = k)

=

k

K, falls p = 1

2

1− rk

1− rK, falls p 6= 1

2.

(5.3)

pk gibt die Wahrscheinlichkeit an, dass Sn = 0 vor dem Ereignis Sn = K eintritt;Analoges trifft fur qk zu. Gemaß Satz 1.31 gilt

pk + qk = 1 .

Brechen wir den Pfad nicht bei Spielende ab, sondern setzen diesen unbeschrankt fort,so folgt daraus (mit geeigneten Translationen) die Beantwortung von Frage 1 undFrage 3 in Bem. 5.2:

Mit Wkt 1 verlaßt ein Pfad des Random Walk jedes beliebige beschrankte Intervall[a, b], a < b. Damit ist die Spieldauer D mit Wkt 1 endlich.

Die Antwort auf Frage 2 lautet mit (5.2): Wenn die Bank unbeschranktes Kapitalbesitzt, so ist die Wkt pR fur Eintritt des Ruins

pR =

1 , falls p ≤ 1

2

rk =(

1−pp

)k, falls p > 1

2.

(5.4)

Fur p > 12

und genugend großes Startkapital k besteht also durchaus eine reelle Chan-ce, Gewinn zu machen.

Wir wollen Gleichung (5.2) fur K → ∞ naher untersuchen und stellen eine weitereFrage, namlich nach der sog. Ruckkehr zur 0 (recurrence). Die Wahl S0 = 0 erfolgtnur aus formalen Grunden. Die Uberlegungen andern sich bei beliebigem S0 ∈ Z nicht.Wir folgen in der Darstellung [Isaac (1995)], pp. 192. Zunachst seien p = q = 1

2, also

r = 1. Aus dem Satz von der totalen Wkt ergibt sich wegen der Unabhangigkeit derXi

P (Sn = 0 fur ein n > 0 |S0 = 0) = (5.5)

12P (Sn = 0 fur ein n > 1 |S1 = −1) + 1

2P (Sn = 0 fur ein n > 1 |S1 = 1) .

Nun betrachtet man

P (Sn = 0 fur ein n > 1 |S1 = 1) = P (Sn = 0 fur ein n > 0 |S0 = 1) , (5.6)

Page 112: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

5.1. DEFINITION, REKURRENZ 105

also die Wkt je 0 zu erreichen, wenn man in 1 startet. Nun nutzen wir das Resultat(5.2) vom Ruin des Spielers zunachst fur endliches K > 0 und erhalten in diesemsymmetrischen Fall mit Startkapital k = 1 und p1 = 1− 1/K

P (Sn = 0 vor Eintritt von Sn = K |S0 = 1) =

P (Ruin des Spielers vor Eintritt von Sn = K |S0 = 1) = 1− 1

K. (5.7)

Fur K → ∞ strebt die rechte Seite 1 − 1/K von (5.7) gegen 1 und die linke Seitekonvergiert gegen die gesuchte Wkt von (5.6), die somit gleich 1 sein muss. Aus Sym-metriegrunden folgt dieselbe Aussage, wenn S0 = 1 durch S0 = −1 ersetzt wird. Gemaß(5.5) kehrt damit der symmetrische Random Walk ausgehend von S0 = 0 mit Wkt 1zu 0 zuruck.

Bei der Untersuchung des allgemeinen Falls p 6= q erhalten wir analog zu (5.5)

P (Sn = 0 fur ein n > 0 |S0 = 0) = (5.8)

q P (Sn = 0 fur ein n > 1 |S1 = −1) + p P (Sn = 0 fur ein n > 1 |S1 = 1) .

Sei AK das Ereignis Sn = 0 vor Eintritt von Sn = K. Fur p 6= q gilt entsprechend (5.6)gemaß (5.3) mit r = q/p 6= 1 und k = 1

P (Sn = 0 fur ein n > 0 |S0 = 1) =

limK→∞

P (AK |S0 = 1) = limK→∞

p1 = limK→∞

r − rK

1− rK

=

q

p, falls p > q

1 , falls p < q .(5.9)

Bei einer Drift des Random Walk nach rechts (p > q) gibt es also eine positive Wkt1− q/p, nie wieder zur 0 zuruckzukehren.Fur p < q liegt eine Links-Drift des Random Walk vor. Da die Ruckkehrwahrschein-lichkeit (von S0 = 1 aus) schon im symmetrischen Fall p = q = 1

2gleich 1 war, muss dies

naturlich erst recht fur p < q gelten. Fur die Ruckkehrwahrscheinlichkeit ausgehend vonS0 = −1 ist die Formel (5.3) heranzuziehen. Weiterhin muss noch die iid-Eigenschaftder Xi berucksichtigt werden. Sei BK das Ereignis Sn = K vor Eintritt von Sn = 0.

P (Sn = 0 fur ein n > 0 |S0 = −1) =

limK→∞

P (BK |S0 = K − 1) = limK→∞

qK−1 = limK→∞

1− rK−1

1− rK

=

1

r=

p

q, falls p < q

1 , falls p > q .(5.10)

Nun sind alle Formeln wieder zusammenzusetzen und man erhalt mit (5.8)

Page 113: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

106 KAPITEL 5. EINFACHE IRRFAHRT (RANDOM WALK)

Satz 5.3 (Ruckkehr zur 0, recurrence)

Bei der einfachen Irrfahrt (Random Walk) von Def. 5.1 gilt mit q = 1− p

P (Sn = 0 fur ein n > 0 |S0 = 0) =

1 , falls p = q = 1

2

2 p , falls p < q2 q , falls p > q .

(5.11)

Im Fall p 6= q gibt es also eine positive Wkt 1 − 2 min p, q , nicht mehr zur 0zuruckzukehren.

5.2 Stoppzeiten

Zum Random Walk gibt es eine Reihe weiterer, interessanter Fragestellungen, die ele-mentar, wie wir das bisher getan haben, oder mit modernen stochastischen Methodenangegangen werden konnen. Wir wollen hier an drei Beispielen nur die Problemstellungskizzieren und fur eine genaue Untersuchung auf die Vorlesung Stochastische Prozesseoder entsprechende Lehrbucher hinweisen.

1. Spieldauer; duration of the gameMan betrachtet den Random Walk mit dem Startkapital S0 = k ∈ N0 unddefiniert fur ein festgelegtes Zielkapital K ≥ k

D := minn ∈ N0 : Sn = 0 oder Sn = K . (5.12)

Man spricht beim Random Walk auch von der ersten Passierzeit (passage time)durch (0, K).

2. Rekurrenzzeit, Ubergangszeit

In ahnlicher Weise definiert man die Rekurrenz- oder Ruckkehrzeit (recurrencetime)

T00 := minn ≥ 2 : Sn = 0 , fur S0 = 0 (5.13)

oder fur beliebiges z ∈ Z die Ubergangszeit (hitting time)

T0z := minn ≥ 0 : Sn = z , fur S0 = 0 . (5.14)

Die Spieldauer D beim Ruin des Spielers ist gemaß Satz 1.31 mit Wkt 1 endlich. Damitist D eine ZV im bisher verwendeten Sinn.

T00 ist nur im symmetrischen Fall p = q = 12

mit Wkt 1 endlich und bei T0z hangtdie Endlichkeit vom Vorzeichen von z sowie dem Drift des Random Walk ab. EineHerleitung der Wahrscheinlichkeitsverteilungen von T00 bzw. T0z findet man z. B. in[Stirzaker (1994)], pp. 146 mit elementaren Methoden oder in [Resnick (1994)], pp. 33

Page 114: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

5.2. STOPPZEITEN 107

uber erzeugende Funktionen. Weiterhin ist ein Zugang uber Markovketten oder Mar-tingale moglich, die in weiterfuhrenden Stochastikvorlesungen ausfuhrlich besprochenwerden.Wir wollen wenigstens ein wichtiges Resultat zu Ubergangszeiten referieren; vgl. z. B.[Stirzaker (1994)], pp. 146:Wegen der iid-Eigenschaft der Xi gilt

T02 = T01 + T12 ,

wobei T01 und T12 dieselbe Verteilung haben und unabhangig sind (T12 ist analog zuT0z definiert). Damit kann man sich auf die Analyse des Spezialfalls T01 beschranken.Hier gilt u.a.

E (T01) =

1

p− q, falls p > q

∞ , sonst .(5.15)

Dabei ist interessant, dass fur p = q = 12

gilt: P (T01 <∞) = 1 aber E (T01) =∞.

D, T00 und T0z sind spezielle Stoppzeiten (auch Stopzeiten). Bei diesem wichtigenTyp von ZV (hier werden also auch Werte wie ∞ als Ergebnis zugelassen) kann zujeder Zeit (hier n ∈ N0) des stochastischen Prozesses (hier Sn) festgestellt werden, obdas Stoppkriterium schon eingetreten ist oder nicht. Die praktische Relevanz dieserwichtigen Eigenschaft sei abschließend an einem Beispiel demonstriert:

Ein Devisenspekulant hat zu einem gewissen Zeitpunkt t = 0 den Betrag von A US $aufgekauft und mochte diese zur Zeit Topt bei einem maximalen Kurs abstoßen.Topt ist keine Stoppzeit, da am 1.12.1997 nicht entschieden werden kann, ob das Stopp-kriterium schon eingetreten ist oder erst in der Zukunft eintreten wird.Dagegen ist das Eintreten des Zeitpunkts t > 0, zu dem der US $ zum ersten Maleinen Kurs von 2 DM erreicht, feststellbar. Das entsprechend definierte T2.00 ist eineStoppzeit, die auch den Wert ∞ annehmen kann, wenn namlich der Kurs des US $ niemehr uber 2 DM klettert.

Page 115: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

Kapitel 6

Eine Auswahl wichtigerVerteilungen

Dieses Kapitel dient dem schnellen Auffinden einiger Charakteristika wichtiger Vertei-lungen. Teilweise findet man die an dieser Stelle zusammengefaßten Ergebnisse ver-streut uber die vorangegangen Abschnitte, andere werden hier erstmals aufgefuhrt.Dies trifft etwa zu auf die Multinomial- oder die Weibull-Verteilung. Die Stichproben-verteilungen zur statistischen Analyse von normalverteilten iid-Zufallsvariablen (ZV)wie die χ2-, Student- und Fisher-Verteilung werden in Kapitel 9 behandelt.

f bezeichnet jeweils die Wahrscheinlichkeitsfunktion bzw. Dichte der betrachteten ZVX, F deren Verteilungfunktion sowie F die tail probability, die oft als Uberlebenswahr-scheinlichkeit interpretiert werden kann. Neben Erwartungswert und Varianz sind ggf.auch Momente, Kumulanten, (moment-) erzeugende Funktion und Besonderheiten derzugrundeliegenden Verteilung angegeben.

Ubersichten von Verteilungen mit weiteren Details findet man etwa im Lexikon der Sto-chastik von [Muller (1975)] oder in den drei Buchern von Johnson und Kotz uber diskre-te sowie univariate und multivariate stetige Verteilungen; zum Beispiel[Johnson & Kotz (1970)].

108

Page 116: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

6.1. EINIGE DISKRETE VERTEILUNGEN 109

6.1 Einige diskrete Verteilungen

Binomialverteilung: B(n, p)

f(x) =

(n

x

)px(1− p)n−x, x = 0, 1, . . . , n, 0 < p < 1 (6.1)

E(X) = np, V ar(X) = np(1− p) (6.2)

G(s) = E(sX)

= (1− p + p s)n (erzeugende Funktion) (6.3)

Besonderheiten:

1. Approximation durch die Normalverteilung siehe Abschnitt 4.3.1

2. Approximation durch die Poisson-Verteilung siehe Abschnitt 4.3.2

Poisson-Verteilung: Poi(λ)

f(x) = e−λ λx

x!, x = 0, 1, 2, . . . , λ > 0 (6.4)

E(X) = λ, V ar(X) = λ (6.5)

G(s) = E(sX)

= eλ(s−1) (erzeugende Funktion) (6.6)

M(s) = E(es X

)= exp [λ (es − 1)] (momenterzeugende Funktion) (6.7)

K(s) = λ (es − 1) (Kumulantenfunktion) (6.8)

κk = λ , k = 1, 2, 3, ... (Kumulanten) (6.9)

Besonderheiten:

1. Approximation durch die Normalverteilung siehe Abschnitt 4.3.1

2. Grenzverteilung der Binomialverteilung siehe Abschnitt 4.3.2

Page 117: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

110 KAPITEL 6. EINE AUSWAHL WICHTIGER VERTEILUNGEN

Geometrische Verteilung

f(x) = p (1− p)x, x = 0, 1, 2, . . . (6.10)

E(X) =1− p

p, V ar(X) =

1− p

p2(6.11)

G(s) = E(sX)

=p

1− (1− p) s(erzeugende Funktion) (6.12)

Negative Binomialverteilung NB(v, p)

f(x) =

(−v

x

)(−p)x(1− p)v, x = 0, 1, . . . 0 < p < 1 v > 0 (6.13)

E(X) =p v

1− p, V ar(X) =

p v

(1− p)2(6.14)

Besonderheiten:

1. Fur v ∈ N0 ergibt eine negativ binomialverteilte ZV X die Anzahl der Fehlver-suche vor dem v-ten Erfolg bei unabhangigen Bernoulli-Versuchen.

2. Auch hier ist die Poisson-Verteilung eine Grenzverteilung; siehe etwa[Muller (1975)].

Hypergeometrische Verteilung: H(n, N, M)

Diese spielt eine wichtige Rolle in der Stichprobentheorie. In einer Urne seien N Kugeln,davon 0 < M < N rot gefarbt und der Rest weiß. X sei die Anzahl der roten Kugelnbeim n-maligen (unabhangigen) Ziehen einer Kugel ohne Zurucklegen. Gemaß Satz1.22 gilt

P (X = x) =

(M

x

)(N −M

n− x

)(N

n

) , 0 ≤ x ≤ minM, n . (6.15)

E(X) = nM

N, V ar(X) = n

M

N

(1− M

N

)N − n

N − 1(6.16)

Besonderheiten:

1. Wichtige Stichprobenverteilung.

2. Fur M → ∞ und N → ∞, so dass lim MN

= p, ergibt sich in der Grenze dieBinomialverteilung.

Page 118: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

6.1. EINIGE DISKRETE VERTEILUNGEN 111

Multinomialverteilung M(n,π)

Seien k ∈ N, A1, . . . , Ak disjunkte Ereignisse und

Ak+1 := Ω \

k⋃j=1

Aj

(6.17)

mitP (Aj) = πj > 0 , j = 1, . . . , k + 1 .

Wir setzen π := (π1, . . . , πk)T ∈ Rk und erhalten wegen (6.17)

πk+1 = 1−k∑

j=1

πj . (6.18)

Bei n unabhangigen Versuchsdurchfuhrungen trete X1 mal das Ereignis A1, X2 maldas Ereignis A2, ... und Xk+1 mal das Ereignis Ak+1 auf. Dann gilt wieder wegen (6.17)

k+1∑j=1

Xj = n oder Xk+1 = n−k∑

j=1

Xj . (6.19)

Fur xj ∈ N0, j = 1, . . . , k + 1 undk+1∑j=1

xj = n lautet die Wahrscheinlichkeitsfunktion

der k-dimensionalen ZV X := (X1, . . . , Xk)T mit x := (x1, . . . , xk)

T

fM(x) = P (X1 = x1, . . . , Xk = xk)

=n!

x1! · . . . · xk! · xk+1!πx1

1 · . . . · πxkk · π

xk+1

k+1 . (6.20)

Wegen der Nebenbedingungen (6.18), (6.19) und xk+1 = n − ∑kj=1 xj genugt es, X

als eine k-dimensionale ZV zu betrachten. Wir haben ubrigens fur k = 1 diese Vor-gehensweise bei der Binomialverteilung ganz selbstverstandlich angewendet. Dort galtfur 0 < p < 1 mit

π = (π1)T = π1 := p , π2 := 1− p ,

x = (x1)T = x1 = x , x2 := n− x1 , 0 ≤ x1 , x2 ≤ n

fur die Wahrscheinlichkeitsfunktion

f(x1, x2) =n!

x1! · x2!πx1

1 · πx22 =

(n

x

)px(1− p)n−x = fB(x) .

Die Multinomialverteilung ist eine k-dimensionale diskrete Verteilung mit

E(Xj) = n πj (6.21)

und

Cov(Xi, Xj) =

n πi (1− πi) , falls i = j−n πi πj , sonst ,

1 ≤ i, j ≤ k . (6.22)

Zur Herleitung siehe etwa [Chung (1979)], section 6.4.

Die Multinomialverteilung bildet wie die Poisson-, Normal- und Gammaverteilung einesog. Exponentialfamilie. Diese Eigenschaft spielt in der Mathematischen Statistik beider Konstruktion von optimalen Schatzfunktionen und Tests eine wesentliche Rolle;vgl. etwa [Witting (1985)].

Page 119: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

112 KAPITEL 6. EINE AUSWAHL WICHTIGER VERTEILUNGEN

6.2 Beispiele stetiger Verteilungen

Normal (Gauß)-Verteilung N(µ, σ2)

f(x) =1√2πσ

exp

(−(x− µ)2

2σ2

), µ ∈ R , σ2 > 0 (6.23)

N(0, 1) heißt Standardnormalverteilung und hat die spezielle Dichte

ϕ(x) = 1√2π

e−x2/2 .

Die Verteilungsfunktion

Φ(u) =

u∫−∞

ϕ(t) dt

der Standardnormalverteilung N(0, 1) ist analytisch. Eine geschlossene Darstellung mitbekannten Standardfunktionen ist jedoch fur Φ nicht moglich. Allerdings gibt es aus-gezeichnete numerische Approximationen. Zum Ablesen von Quantilen (vgl. Abschnitt1.5.4) verwendet man Tabellen von Φ, die in den meisten Statistik-Einfuhrungsbuchernzu finden sind.

Nun sei X wieder N(µ, σ2)

E(X) = µ, V ar(X) = σ2 (6.24)

M(s) = E(es X

)= exp

(µ s + 1

2σ2 s2

)(momenterzeugende Funktion) (6.25)

Besonderheiten:

1. Zentrale Momente:

E[(X − µ)k

]=

0 , falls k ungerade

1 · 3 · 5 · ... · (k − 1) σk , sonst(6.26)

2. γ3 := E [(X − µ)3] /σ3 = 0 (Schiefe, skewness)

3. δ4 := E [(X − µ)4] /σ4 − 3 = 0 (Exzess, Wolbung, kurtosis).

4. Alle Kumulanten ab der Ordnung 3 verschwinden.

5. Summen normalverteilter ZV sind wieder normalverteilt. Speziell gilt fur un-abhangige X ∼ N(µx, σ

2x) und Y ∼ N(µy, σ

2y)

X + Y ∼ N(µx + µy, σ2x + σ2

y) .

Page 120: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

6.2. BEISPIELE STETIGER VERTEILUNGEN 113

Gleichverteilung (uniform distribution) U(a, b) in (a, b), a < b

Man spricht auch von der Rechteckverteilung. Es spielt keine Rolle, ob das offene oderdas abgeschlossene Intervall zwischen a und b betrachtet wird, weil hier eine stetige ZVX vorliegt, fur die P (X = a) = P (X = b) = 0 gilt.

f(x) =1

b− a1(a,b)(x) =

1

b− a, falls a < x < b

0 , sonst,(6.27)

E(X) = (a + b)/2, V ar(X) = (b− a)2/12 (6.28)

Die Gleichverteilung hat folgende zentralen Momente

E[(X − µ)k

]=

0 , falls k ungerade1

k+1

(b−a2

)k, sonst .

(6.29)

Besonderheiten fur den Spezialfall X ∼ U(0, c), c > 0:

1. Die momenterzeugende Funktion lautet

M(s) =ec s − 1

c s(6.30)

2. Fur den Minimum-Varianz-Schatzer c von c siehe Kapitel 8.

Exponentialverteilung ED(λ)

f(x) = λ e−λx 1(0,∞)(x) (6.31)

F (x) = (1− e−λx) 1(0,∞)(x) (6.32)

F (x) = e−λx Uberlebenswahrscheinlichkeit fur x > 0 (6.33)

E(X) =1

λ, V ar(X) =

1

λ2(6.34)

M(s) = E(es X

)=

λ

λ− s(momenterzeugende Funktion) (6.35)

Besonderheiten:

1. Lebensdauerverteilung

2. Gedachtnislosigkeit; vgl. Bsp. 1.45:

P (X > x + t0 |X > t0) = P (X > x) .

3. Das Minimum von n iid ED(λ)-verteilten ZV ist wieder exponentialverteilt undzwar mit Parameter n λ; d. h. der Erwartungswert des Minimums ist ein n-teldes ursprunglichen Erwartungswerts einer der iid-Variablen.

Page 121: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

114 KAPITEL 6. EINE AUSWAHL WICHTIGER VERTEILUNGEN

0

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

0 1 2 3 4 5 6 7 8

Γ(1, 2) = ED(2)

Γ(1, 0.5) = ED(0.5)

Bild 11: Dichten von Exponentialverteilungen

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

0 2 4 6 8 10 12 14

Γ(3, 0.5)

Γ(0.5, 0.5)

Bild 12: Dichten von Gammaverteilungen mit λ = 0.5

Page 122: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

6.2. BEISPIELE STETIGER VERTEILUNGEN 115

Gammaverteilung Γ(q, λ), q > 0 und λ > 0

Fur z > 0 bezeichne

Γ(z) :=

∞∫0

tz−1e−t dt (6.36)

die Gammafunktion mit Γ(z + 1) = z Γ(z) ; Γ(12) =√

π ; Γ(n) = (n− 1)! , n ∈ N.Die Dichte der Gammaverteilung lautet

f(x) =λq

Γ(q)xq−1 e−λx 1(0,∞)(x) . (6.37)

Damit erhalt manE(X) =

q

λ, V ar(X) =

q

λ2(6.38)

M(s) = E(es X

)=

λ− s

)q

(momenterzeugende Funktion) (6.39)

Besonderheiten:

1. Momente:

E[Xk]

=q(q + 1) · · · (q + k − 1)

λk, k = 1, 2, ... (6.40)

2. Spezialfalle dieser Verteilungsfamilie sind u.a.

• Exponentialverteilung ED(λ) = Γ(1, λ)

• χ2n = Γ

(n2, 1

2

)Summe von n Quadraten von unabhangigen N(0, 1)-verteilten

ZV; siehe Kapitel 9.

3. Die Summe X + Y unabhangiger Γ(q, λ)- bzw. Γ(r, λ)-verteilter ZV X bzw. Yist Γ(q + r, λ)-verteilt, wobei q, r, λ > 0.

4. Die Summe V von n unabhangigen ED(λ)-verteilten ZV ist Erlang(n, λ) =Γ(n, λ)-verteilt; siehe Bsp. 3.14. Die Dichte der Erlangverteilung lautet

f(v) =λn

(n− 1)!vn−1 e−λ v 1(0,∞)(v) . (6.41)

Page 123: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

116 KAPITEL 6. EINE AUSWAHL WICHTIGER VERTEILUNGEN

Cauchy-Verteilung

f(x) =a

π(a2 + x2), a > 0 (6.42)

Besonderheiten:

1. E(X) und V ar(X) existieren nicht.

2. Der Quotient zweier unabhangig N(0, 1)verteilter ZV ist Cauchy-verteilt mit Pa-rameter a = 1. Damit ist die Cauchy-Verteilung (a = 1) eine Studentverteilung(siehe Kapitel 9) mit Freiheitsgrad 1.

Pareto-Verteilung

Seien c > 0 ein gewisser Schwellenwert, den die entsprechnde ZV X nicht erreichenoder unterschreiten kann und α > 0

f(x) =α

c

(c

x

)α+1

1(c,∞)(x) (6.43)

F (x) = 1−(

c

x

1(c,∞)(x) . (6.44)

E(X) =α c

α− 1, fur α > 1 (6.45)

V ar(X) =α c2

(α− 1)2(α− 2), fur α > 2 (6.46)

Logistische Verteilung

Fur µ ∈ R, σ > 0 und y(x) := (x − µ)/σ lauten Verteilungsfunktion, Erwartungswertund Varianz

F (x) =1

1 + e−πy(x)/√

3, E(X) = µ, V ar(X) = σ2 . (6.47)

Page 124: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

6.2. BEISPIELE STETIGER VERTEILUNGEN 117

Lognormalverteilung LogN(µ, σ2)

Eine positive ZV X heißt logarithmisch normalverteilt, wenn ln(X) normalverteiltist mit Mittelwert µ und Varianz σ2.

f(x) =1√

2π σ xexp

(−(ln x− µ)2

2 σ2

)1(0,∞)(x) (6.48)

E(X) = eµ+σ2/2 , V ar(X) = e2 µ+σ2(eσ2 − 1

)(6.49)

Besonderheiten:

1. Median: x0.5 = eµ

2. Modus: xM = eµ−σ2

3. Die Lognormalverteilung ist eine einseitige unsymmetrische Verteilung und wirdu.a. zur Modellierung von Lebensdauern herangezogen.

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0 2 4 6 8 10 12

LogN(µ, σ2)

µ = 1 , σ = 0.5

Bild 13: Dichte der Lognormalverteilung LogN(µ, σ2)

Page 125: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

118 KAPITEL 6. EINE AUSWAHL WICHTIGER VERTEILUNGEN

Weibull-Verteilung W (r, λ)

f(x) = λ rxr−1 exp (−λ xr) 1(0,∞)(x) , r > 0 , λ > 0 (6.50)

F (x) = 1− e−λ xr

, F (x) = e−λ xr

, x > 0 (6.51)

E(X) = λ−1/r Γ(

1r

+ 1)

V ar(X) = λ−2/r[Γ(

2r

+ 1)− Γ2

(1r

+ 1)]

(6.52)

Besonderheiten:

1. Median: x0.5 =

(ln 2

λ

)1/r

2. Modus: xM =(

r − 1

r λ

)1/r

fur r ≥ 1

3. Lebensdauerverteilung

4. Eine der drei Grenzverteilungen fur Extremwerte (bei geeigneter Parametrisie-rung)

5. Die Exponentialverteilung ED(λ) = W (1, λ) ist eine spezielle Weibull-Verteilung.

Page 126: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

6.2. BEISPIELE STETIGER VERTEILUNGEN 119

n-dimensionale Normalverteilung N(µ, C)

Fur X = (X1, . . . , Xn)T , µ = (µ1, . . . , µn)T ∈ Rn, eine positiv definite, und damitsymmetrische Matrix C = (cij) ∈ Rn,n lautet die Dichte der n-dimensionalen Normal-verteilung

f(x) =1√

(2π)n det(C)exp

[−1

2(x− µ)T C−1(x− µ)

], x ∈ Rn . (6.53)

Die Parameter sind der Erwartungswert und die Kovarianzmatrix des Vektors X

E(X) = µ , Cov(X) = C . (6.54)

Im wichtigen Spezialfall n = 2 erhalt man die bivariate Normalverteilung, vgl. auchdie Kapitel 1 bis 2.Sei (Z, Y )T ein gemeinsam normalverteilter zweidimensionaler Zufallsvektor mitE(Z) = µZ , E(Y ) = µY , V ar(Z) = σ2 > 0, V ar(Y ) = τ 2 > 0 und Cov(Z, Y ) = ρ σ τmit dem Korrelationskoeffizienten −1 < ρ < 1. In diesem Fall kann die Dichte (6.53)geschrieben werden als

fZ,Y (z, y) =(6.55)

1

2πστ√

1− ρ2exp

[− 1

2(1− ρ2)

((z − µz)

2

σ2− 2ρ (z − µz) (y − µy)

σ τ+

(y − µy)2

τ 2

)].

Page 127: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

Kapitel 7

Deskriptive Statistik

Was ist Statistik?

Im Rahmen der Mathematik versteht man unter dem Begriff Statistik vor allem zwei-erlei, namlich:

1. Eine wissenschaftliche Disziplin, die sich u.a. mit dem Studium gesetzmaßigerMassenerscheinungen befaßt (keine Aussagen fur den Einzelfall; vgl. etwa Ster-betafeln bei Lebensversicherungen).

2. Die Bezeichnung von sog. Schatzfunktionen, z. B. X fur die ubliche Durch-schnittsbildung beim arithmetischen Mittel.

Fur eine weitere Prazisierung siehe die Einleitung zu Kapitel 8.

Statistiken (im landlaufigen Sinn) nennt man anschauliche, meist komprimierte Dar-stellungen von quantifizierbaren Vorgangen aller Art (z. B. in Tabellen oder Schau-bildern), die sich uber einen gewissen Zeitraum erstrecken oder die sonst wegen einerFulle unubersichtlichen Datenmaterials einer direkten Interpretation nicht zuganglichsind; z. B.Bundesligatabelle, Arbeitslosenstatistik, Statistisches Jahrbuch, Volkszahlung, Bevolke-rungsstatistik, Inventur, Mietspiegel, Umsatz- und Wirtschaftsstatistik, Eingange vonForderungen an Versicherungen, Soziologische Befragungen und Auswertungen etc.

Eine nicht ganz feinfuhlige, aber treffende Charakterisierung von Statistik wird GerardCalot zugeschrieben (vgl. [Becker (1993)], S. 40)

”Wenn ein Mensch stirbt, ist’s ein Malheur,bei 100 Toten eine Katastrophe,bei 1000 Toten eine Statistik. ”

Zu einer statistischen Auswertung gehoren u.a.:Planung der gesamten Untersuchung, Festlegung eines Stichprobenauswahlverfahrens,Datenerfassung, -codierung und -verarbeitung, mathematische Analyse mit einem ge-eignet gewahlten Modell, Datenprasentation und Interpretation der Ergebnisse.

120

Page 128: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

7.1. GRUNDGESAMTHEIT, MERKMALE 121

In angewandten Gebieten wie den Natur-, Ingenieur- oder Wirtschaftswissenschaftenmuss man sich gelegentlich auf eine anschauliche Darstellung von Versuchs- und Unter-suchungsergebnissen beschranken, weil den Adressaten der Prasentation moglicherwei-se wahrscheinlichkeitstheoretische Grundlagen fehlen. Um die interdisziplinare Zusam-menarbeit zu fordern, beginnen auch wir damit, Moglichkeiten der grafischen Darstel-lung von Daten und deren Charakterisierung mit geeigneten Maßzahlen aufzuzeigen.

Man spricht von deskriptiver oder auch beschreibender bzw. empirischer Stati-stik. Auf Elemente der sog. induktiven oder schließenden Statistik wird am Endedieser Vorlesung eingegangen. Dort kommen u.a. Eigenschaften von Schatzfunktionenund die statistische Analyse normalverteilter Daten kurz zur Sprache.

Die deskriptive Statistik ist das Bindeglied von einer eher anschaulich orientiertenDatenanalyse hin zur abstrakten Wahrscheinlichkeitstheorie. Die Zusammenhange zwi-schen Grundgesamtheit und Ergebnismenge, Merkmal und Zufallsvariable, Summenhaufig-keitsfunktion und Verteilungsfunktion sowie vielen statistischen Maßzahlen und ent-sprechenden Kenngroßen von Verteilungen sind offensichtlich.

7.1 Grundgesamtheit, Merkmale

Def. 7.1 (Grundgesamtheit, Population Ω)

Eine statistische Untersuchung bezieht sich stets auf eine klar festgelegte Grund-gesamtheit oder Population Ω, die Menge aller denkbaren Beobachtungseinhei-ten. In der mathematischen Terminologie ist Ω also eine nichtleere Menge. DieElemente ω ∈ Ω nennt man auch Merkmalstrager.

Beispiel 7.2 (Grundgesamtheiten)

1. Ω1 := ω | ω ist Student an der TU Munchen im Wintersemester 1997/98 .Ω1 kann mit der Datei aller Matrikelnummern identifiziert werden.

2. Ω2 := ω | ω ist Klient der Versicherung V am 1.11.1997 .Ω2 ist die Datei der Kundennummern.

3. Ω3 := ω | ω ist Mietwohnung in der Stadt M am 1.1.1998 .

4. Ω4 := ω | ω ist Burger der BRD am 1.12.1997 .

Eine Schwierigkeit bei statistischen Untersuchungen bzgl. Ω3 und Ω4 ist, dass es wohlkeine Datei gibt, die alle zu untersuchenden Objekte enthalt.

Page 129: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

122 KAPITEL 7. DESKRIPTIVE STATISTIK

Def. 7.3 (Merkmal)

Gegenstand statistischer Erhebungen ist in der Regel nicht die GrundgesamtheitΩ selbst, sondern Eigenschaften ihrer Elemente. Unter einem Merkmal verstehtman eine Abbildung

X : Ω→ IR , (7.1)

die jedem Merkmalstrager ω ∈ Ω eine Zahl x = X(ω) zuordnet.

X(Ω) := x ∈ IR | x = X(ω) (7.2)

nennt man die Menge der Merkmalsauspragungen.

Zufallsvariable sind nach dieser Definition spezielle Merkmale. In vielen Buchern wer-den die Begriffe Merkmal und Zufallsvariable synonym verwendet.

7.1.1 Klassifizierung von Merkmalen, Skalentypen

Def. 7.4 (diskret, stetig, qualitativ, quantitativ)

FallsX(Ω) = a1, ..., aj, ... , (7.3)

nennen wir X diskret. Merkmale, die alle Werte eines Intervalls I ⊆ R anneh-men konnen, d. h.

X(Ω) = [a, b], [0,∞), R usw. , (7.4)

heißen stetig.

Weiterhin wird zwischen qualitativen und quantitativen Merkmalen unter-schieden. Alle stetigen Merkmale sind quantitativ.

Beispiele:Diskrete qualitative Merkmale sind etwa Geschlecht, Religionszugehorigkeit und Pradi-kat beim Diplomabschluß (mit Auszeichnung, sehr gut, gut, befriedigend, bestanden).Zahlvariable wie die Anzahl der Kunden vor einem Bankschalter sind diskrete quanti-tative Merkmale.Stetige Merkmale sind z. B. Korpergroße, Auftragsvolumen, Nettomiete/qm, Einkom-men etc.

Vor allen in den Wirtschafts- und Sozialwissenschaften ist folgende weitere Klassifizie-rung ublich:

Page 130: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

7.1. GRUNDGESAMTHEIT, MERKMALE 123

Def. 7.5 (Skalentypen: nominal, ordinal, metrisch (kardinal))

Mit metrisch oder kardinal werden solche Merkmale bezeichnet, die auf einerIntervallskala Int ⊆ R gemessen werden. Zu einer solchen Skala gehort u.a.eine Normierung der Abstande durch eine festgelegt Einheit. Stetige Merkmaleund diskrete Zahlvariable sind metrisch.

Die nachst einfachere Stufe sind ordinale Merkmale, bei denen zwar noch ei-ne Rangfolge der Merkmalsauspragungen vorliegt, die Abstande dazwischen abernicht mehr sinnvoll quantifiziert werden konnen, z. B. Noten oder Bewertungenwie (einfach, normal, gehoben, sehr gut), etwa fur die Ausstattung von Wohnun-gen.

Uberhaupt keine Struktur liegt bei sog. nominalen Merkmalen wie Geschlecht,Religionszugehorigkeit, Wahlverhalten etc. vor.

Ordinale und nominale Merkmale sind diskret.

Die Berechnung vieler statistischer Kenngroßen ist nur fur metrische (quantitative)Merkmale sinnvoll.

Bei ordinalen Merkmalen sind immerhin noch Rangstatistiken von Interesse, wahrendim nominalen Fall nur die Angabe relativer Haufigkeiten fur die verschiedenen Merk-malsauspragungen erfolgen kann.

Beispiel 7.6 (Merkmale)

1. X1 : Ω1 → 0 = mannlich, 1 = weiblich , Geschlecht (nominal).

2. X2 : Ω1 → mit Auszeichnung = 0, sehr gut = 1, gut = 2, befriedigend =3, bestanden = 4 , Pradikat im Diplom-Zeugnis an der TUM (ordinal).

3. X3 : Ω2 → N0, Kinderzahl (diskrete Zahlvariable, metrisch)

4. X4 : Ω2 → [0,∞), Auftragsvolumen des Kunden im Abrechnungsmonat Oktober1997 (stetig)

5. X5 : Ω3 → (0,∞), Nettomiete/qm am 1.1.1997 (stetig)

Im ersten Stochastikkurs sei es erlaubt, dem Horer den Unterschied zwischen der Ab-bildung X (Merkmal, Zufallsvariable) und deren Realisierung x = X(ω) an einemweiteren konstruierten Beispiel aufzuzeigen. Vielleicht tragt die Tatsache, dass das zubeschreibende Vorgehen vom Gesetzgeber ausdrucklich verboten wurde, dazu bei, dasssich der darzustellende Sachverhalt besser einpragt.

Page 131: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

124 KAPITEL 7. DESKRIPTIVE STATISTIK

Beispiel 7.7 (Datenbank)

Gabe es also eine bundesdeutsche Datenbank, in der fur jeden Burger uber eine Per-sonenkennzahl (wir nennen sie ω) alle Informationen abrufbar waren, z. B. auch Ge-schlecht, Schulabschluß, Beruf, Kinderzahl, Wahlverhalten, Einkunfte, Nebentatigkei-ten, usw., so ließen sich interessante statistische Untersuchungen uber die Bundesburgerfolgendermaßen vereinfachen:

1. Lege das zu untersuchende Merkmal X fest; etwa Religionszugehorigkeit als einegewisse Spalte im jeweiligen Personen-Datensatz.

2. Wahle aus der Datenbank (das ist Ω) eine Person ω aus. Durch Auswerten derPosition fur Religionszugehorigkeit erhalt man mit x := X(ω) das Merkmal Xim jeweiligen Datensatz ω. Die Realisierung x ∈ R ist eine Zahl im Gegensatz zuder Abbildung X : Ω→ R.

3. Aus zwei vorhandenen Merkmalen wie X = Einkunfte und Y = Nebentatigkeitenlaßt sich ein neues Merkmal Z := X + Y Gesamteinkunfte konstruieren, indemjeder Datensatz um eine Spalte erweitert wird. Dort ist dann jeweils Z(ω) :=X(ω) + Y (ω) fur alle ω ∈ Ω neu einzutragen, wobei X(ω) und Y (ω) bereitsvorhanden sind.

4. Sei g : R → R eine geeignet gewahlte Funktion. Dann ist durch W := g(U)ein neues Merkmal definiert; z. B. U Einkommen in DM und W Einkommenumgerechnet in US $.

5. Sind also Haufigkeiten, Mittelwerte, Maxima etc. fur X, Y, U in den genanntenBeispielen bekannt, so konnen die entsprechenden Werte auch fur die transfor-mierten Großen Z und W leicht angegeben werden.

7.1.2 Messreihen, Stichproben

Bei der Gewinnung statistischen Datenmaterials sind generell sog. Vollerhebungenwunschenswert. Dagegen sprechen meist Datenschutzvorschriften oder Kostengrunde.Beispielsweise laßt sich eine Volkszahlung nicht jedes Jahr durchfuhren. Auf der ande-ren Seite verbieten auch praktische Uberlegungen eine vollstandige Ausschopfung derGrundgesamtheit: z. B. beim Prufen der Lebensdauer von Gluhbirnen. Deswegen sindin den meisten statistischen Untersuchungen sog. Teilerhebungen oder Stichprobennotwendig. Bei der Datenerfassung hat man hier eine Reihe von Regeln zu beachten.

Page 132: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

7.2. EMPIRISCHE VERTEILUNG EINDIM. DISKRETER MERKMALE 125

Def. 7.8 (Empirische Stichprobe, Messreihe)

Gegeben sei eine Population (Grundgesamtheit) Ω, ein Merkmal X : Ω→ IR undeine Teilmenge ω1, ω2, .., ωn ⊂ Ω.

Dann heißtx1, x2, ..., xn := X(ω1), X(ω2), ..., X(ωn) (7.5)

empirische Stichprobe oder Messreihe oder Urliste oder nur ’die Daten’.Die xi sind in der Regel ungeordnet. Im Gegensatz zu Mengen konnen die Stich-probeneintragungen xi und xj, i 6= j durchaus gleich sein.

Eine Stichprobe wird genannt:

1. zufallig, wenn jedes Element aus der Grundgesamtheit die gleiche Chancehat, in die Auswertung der Stichprobe bzgl. X zu gelangen

2. reprasentativ, wenn die der Stichprobe zugrundeliegenden ausgewahltenElemente alle Aspekte der Grundgesamtheit bzgl. des Merkmals X reprasen-tieren (z. B. das ganze Parteienspektrum bei einer Wahlprognose).

Naturlich konnen die Daten x1, x2, ..., xn auch Realisierungen von iid-VariablenX1, X2, ..., Xn sein (iid = independent identically distributed); vgl. Def. 2.29. Die fol-genden Uberlegungen setzen dies jedoch nicht voraus.

7.2 Empirische Verteilung eindim. diskreter Merk-

male

Hier sollen fur verschiedene Merkmalstypen (relative) Haufigkeiten tabellarisch undgrafisch dargestellt werden. Es liege eine empirische Stichprobe x1, x2, ..., xn bzgl. desMerkmals X in Ω vor. Fur diskrete Merkmale aller Skalentypen gibt es eine Reihegrafischer Darstellungsmoglichkeiten, die auch in vielen kommerziellen Programmenangewahlt werden konnen. Die relative Summenhaufigkeitsfunktion ist bereits auf or-dinale und metrische Merkmale eingeschrankt. Statistische Maßzahlen wie Mittelwertund Varianz sind nur fur metrische Merkmale erklart.

7.2.1 Tabellierung und grafische Darstellung

Zunachst soll ein nominales Merkmal untersucht werden.

Page 133: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

126 KAPITEL 7. DESKRIPTIVE STATISTIK

Beispiel 7.9 (Bundestagswahl 1994)

Wir legen n = 50 Mio. abgegebene gultige Stimmen zugrunde. Dann entspricht etwadas Saulendiagramm von Bild 14 folgender Haufigkeitstabelle

Tabelle 4: Absolute und relative Haufigkeiten

Partei CDU/CSU SPD Grune FDP PDS sonstige

absolute Hfkt. in Mio. 20.75 18.20 3.65 3.45 2.20 1.75

relative Haufigkeit 41.5% 36.4% 7.3% 6.9% 4.4% 3.5%

Fur nominale Merkmale werden in der Regel nur absolute und relative Haufigkeitenangegeben. Eine grafische Darstellung erfolgt uber verschiedenartige Diagramme.

4.4%6.9%7.3%

41.5%

SPD Grune FDP PDS

36.4%

CDU/CSU

3.5%

sonstige

Bild 14: Saulendiagramm: Ergebnisse der Bundestagswahl 1994

Daneben gibt es auch noch raumliche Saulendiagramme, Stabdiagramme, Kreissekto-rendiagramme, ’Torten’-Diagramme, Balkendiagramme (waagrechte Saulen) und sog.Pictogramme, z. B. mit kleinen Autos fur die Anzahl von Pkw-Zulassungen usw.

7.2.2 Relative Summenhaufigkeit

Wir wenden uns jetzt ordinalen und metrischen Merkmalen zu mit den Merkmals-auspragungen

a1 < a2 < ... < aj < ... < am .

Page 134: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

7.2. EMPIRISCHE VERTEILUNG EINDIM. DISKRETER MERKMALE 127

Beispiel 7.10 (Kunden am Schalter)

Uber mehrere Wochen standen an verschiedenen Tagen jeweils bei der Kfz-Zulassungs-stelle Munchen um 12 Uhr (Ende der ffnungszeit) an geoffneten Schaltern folgendeAnzahlen von Personen in der Schlange:

Tabelle 5: Schalterkunden

Anzahl Personen aj = j 0 1 2 3 4 5 6 7 8 9 10

Haufigkeit nj 0 0 0 5 10 15 20 50 100 25 25

rel. Haufigkeit rj = nj/n 0 0 0 5250

10250

15250

20250

50250

100250

25250

25250

kumulierte rel. Hfkt. Hj :=j∑

k=1

rk 0 0 0 5250

15250

30250

50250

100250

200250

225250

250250

Einer ubersichtlichen Darstellung wegen unterdrucken wir die Auspragung a0. Dasandert nichts an den folgenden Berechnungen, da a0 = 0 nicht als Stichprobenwertauftritt. Sodann setzen wir (wie schon in der Tabelle angegeben)

a1 := 1 , a2 := 2 , ... , a9 := 9 , a10 = am := 10.

Satz 7.11 (Regeln fur absolute, relative und kumulierte Haufigkeiten)

Mit den absoluten Haufigkeiten 0 ≤ nj ≤ n,∑

nj = n gilt fur die relativenHaufigkeiten

0 ≤ rj =nj

n≤ 1 ,

m∑j=1

rj = 1 . (7.6)

Daraus folgt fur die kumulierten (relativen) Haufigkeiten

0 ≤ H1 = r1 ≤ H2 = r1 + r2 ≤ ... ≤ Hm = 1 . (7.7)

H6 = 50250

= 0.2 im Beispiel oben besagt, dass in 20% der Falle sechs oder wenigerKunden um 12 Uhr anstanden.

Dies motiviert folgende Festlegung

Page 135: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

128 KAPITEL 7. DESKRIPTIVE STATISTIK

Def. 7.12 (Empirische Verteilungsfunktion)

Die Funktion Fn : R→ R,

Fn(x) := |xi , i = 1, ..., n : xi ≤ x |

n=

1

n

n∑i=1

1(−∞,x](xi) , (7.8)

heißt empirische Verteilungsfunktion oder auch relative Summenhaufig-keitsfunktion. 1A bezeichnet die Indikatorfunktion der Menge A, also 1A(x) = 1,falls x ∈ A und 1A(x) = 0, sonst (siehe auch Def. 1.44).

Es gilt

Fn(x) =

0 , falls x < a1

Hj = r1 + ... + rj , falls aj ≤ x < aj+1

1 , falls x ≥ am .(7.9)

-

6

d d d dt dt dt dt d

t d

t dt d

t

10987654321

Fn(x)1

0.8

0.4

Kunden

0.9

0.2

Bild 15: Empirische Verteilungsfunktion: Kunden

Page 136: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

7.3. EMPIRISCHE VERTEILUNG EINDIM. STETIGER MERKMALE 129

Satz 7.13 (Eigenschaften)

Die empirische Verteilungsfunktion ist fur ordinale und metrische Merkmale de-finiert. Fur sie gilt

1. Fn ist monoton nicht fallend

2. limx→−∞

Fn(x) = 0, limx→∞

Fn(x) = 1

3. Fn ist eine rechtsseitig stetige Treppenfunktion.

7.3 Empirische Verteilung eindim. stetiger Merk-

male

Ein Merkmal X : Ω→ IR heißt stetig, falls X(ω) alle Werte aus einem Intervall, z. B.

[a, b] = x | a ≤ x ≤ b, a < b

- oder wie in Gleichung (7.4) beschrieben - annehmen kann. x1, . . . , xn sei wieder eineempirische Stichprobe (Urliste).

Beispiel 7.14 (Korpergewichte von Schulern einer 8. Klasse)

Tabelle 6: Urliste Korpergewichte57.8 61.3 60.1 60.0 63.7 60.5 64.8 62.258.1 65.9 61.1 63.2 56.2 64.4 61.959.7 60.2 61.3 65.6 63.2 58.7 62.8

Ziel: Die gesammelte Information moglichst kurz und ubersichtlich darstellen. DieRolle der diskreten Merkmalsauspragungen ubernehmen nun disjunkte Klassen, diealle Stichprobenwerte uberdecken.

Regeln zur Klassenbildung

1. xmin = min xi, xmax = max xi :

bestimme Zahlen a0 (< xmin) < a1 < . . . < am(≥ xmax)

und setze Ij = (aj−1, aj] = x | aj−1 < x ≤ aj, j = 1, . . . ,m.

a0 heißt Reduktionslage, v = xmax − xmin bezeichnet die Variationsbreite.

Page 137: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

130 KAPITEL 7. DESKRIPTIVE STATISTIK

2. aj (falls moglich) durch praktische Uberlegungen im Zusammenhang mit derProblemstellung wahlen.

3. m ≈√

n (im Zweifel ungerade), 5 ≤ m ≤ 25 (Faustregel);

4. i. a. Klassenbreiten wj = aj − aj−1 = w = const.aj moglichst ”einfache Zahlen“.

5. Manchmal bietet sich ein logarithmischer Maßstab oder eine andere geeigneteTransformation an.

6. Die Klasseneinteilung ist nicht eindeutig vorgeschrieben.

7. Alle Großen dieses Abschnitts hangen von der gewahlten KlasseneinteilungI := I1, ..., Im ab.

Im Beispiel gilt xmin = 56.2 und xmax = 65.9.

Histogramm und empirische Verteilungsfunktion

58 60 62 6456 66

6

2

4

5

76

2/44

h(x)nj

4/44

5/44

7/44

Bild 16: Histogramm fur die oben gewahlte Klasseneinteilung

Ein Histogramm veranschaulicht die Dichte der Daten. Bei geeigneter Skalierung (imBild die rechte Ordinate) ist das Histogramm der Graph der empirischen Dichte-funktion

h(x) = hI(x) :=n∑

j=1

nj

nwj

1Ij(x) =

nj

nwj

, x ∈ Ij

0 , sonst(7.10)

Page 138: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

7.3. EMPIRISCHE VERTEILUNG EINDIM. STETIGER MERKMALE 131

nj/n Rel. Haufigkeit der Klasse Ij

wj Klassenbreite

Satz 7.15 (Empirische Dichtefunktion, Histogramm)

Es gilt

1. h ≥ 0

2.∞∫−∞

h(x)dx = 1.

Tabelle 7: Haufigkeiten

(aj−1, aj] (a0, a1] (a1, a2] (a2, a3] (a3, a4] (a4, a5]

Klasse (56,58] (58,60] (60,62] (62,64] (64,66]

nj 2 4 7 5 4

nj/n 2/22 4/22 7/22 5/22 4/22

kumul.rel.Hfkt. 2/22 6/22 13/22 18/22 22/22

Bei stetigen Merkmalen wird oft die integrale empirische Verteilungsfunktion HI(x)bzgl. der gewahlten Klasseneinteilung herangezogen. Man definiert:

HI(x) :=

x∫−∞

h(t)dt . (7.11)

Daraus ergeben sich Nichtnegativitat bzw. Monotonie

0 ≤ HI(x) ≤ 1 , HI(x) ≤ HI(y) , falls x ≤ y . (7.12)

62605856 64 66

6

HI(x)1

18/22

13/22

6/22

2/22

ww

w

ww

w

w -x

-

?x0.4

α = 0, 4

Page 139: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

132 KAPITEL 7. DESKRIPTIVE STATISTIK

Bild 17: Stetige empirische Verteilungsfunktion bzgl. Klasseneinteilung

An den Klassenenden aj gilt HI(aj) = (n1 + n2 + . . . + nj)/n .

Damit stimmt HI dort mit der unabhangig von der Klasseneinteilung definierten, stuck-weise konstanten relativen Summenhaufigkeitsfunktion

Fn(x) =1

n

n∑i=1

1(−∞,x](xi) , x ∈ R ,

uberein; vgl. Abschnitt 7.2.2. Weiterhin gilt

limx→−∞

Fn(x) = limx→−∞

HI(x) = 0 , limx→∞

Fn(x) = limx→∞

HI(x) = 1 , (7.13)

und beide Funktionen sind monoton wachsend. Bei diskreten Merkmalen verwendetman nur H(x), das hochstens an den Merkmalsauspragungen aj Sprunge aufweist.

Naherungen fur empirische α-Quantile (Prozentpunkte), vgl. Abschnitt 7.4.2, konnengrafisch aus Bild 17 bestimmt werden, indem man die Gerade y = α mit dem Graphenvon HI schneidet. xα ist die x-Koordinate des Schnittpunkts.

Stichproben werden haufig durch Parameter, d. h. statistische Maßzahlen, charakteri-siert. Wir erlautern die wichtigsten Lage- und Streuungsparameter.Fast alle der zu behandelnden Großen haben ihre Entsprechung als Kenngroßen vonVerteilungen. Zur Unterscheidung verwenden wir in den folgenden Abschnitten jeweilsbei der Definition einer Maßzahl Bezeichnungen wie empirisches Quantil oder empiri-sche Varianz etc. Da in diesem Kapitel aber keine Verwechslungen mit den theoretischenKenngroßen der Verteilungen, etwa von Def. 1.50, 1.59, 1.63 usw. zu befurchten sind,wird der Zusatz empirisch in der Folge meist wieder weggelassen.

7.4 Lageparameter, Lokationsmaße

Diese beschreiben die “Lage” der Stichprobe auf der Zahlengeraden.

7.4.1 Modus (Modalwert)

Def. 7.16 (Modus, Modalwert)

Der Modus oder Modalwert xModus ist die am haufigsten auftretende Merk-malsauspragung. Er wird hauptsachlich fur nominale Merkmale verwendet, istaber auch fur alle anderen (diskreten) Merkmalstypen sinnvoll. Bei stetigen Merk-malen hangt die Angabe des Modalwerts von der Form der Dichteschatzung ab(vgl. Klasseneinteilung, Kerndichteschatzer).

Page 140: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

7.4. LAGEPARAMETER, LOKATIONSMASSE 133

Beispiel 7.17 (Modalwerte)

1. Beim Wahlverhalten von Beispiel 7.9 ware der Modus (Modalwert) xModus = a1,dem “CDU/CSU” zugeordneten Wert.

2. Bei stetigen Merkmalen nimmt man als Modalwert die Mitte der Klasse mit dengroßten Haufigkeiten. Also in Beispiel 7.14

xModus = 61 =a2 + a3

2.

Ab jetzt betrachten wir nur mehr ordinale oder metrische Merkmale. x1:n, ..., xn:n be-zeichne die geordnete Messreihe; also x1:1 ≤ x1:2 ≤ ... ≤ xn:n. Gelegentlich schreibtman fur die geordnete Stichprobe auch x(1), ..., x(n).Weiterhin sei [y] die großte ganze Zahl kleiner oder gleich y ∈ R.

7.4.2 Empirische Quantile, Quartile, Median

Def. 7.18 (Quantile)

Seien 0 < α < 1, 1 ≤ q ≤ n− 1 und 0 ≤ r < 1, so dass

n · α = q + r , q = [n · α] .

Fur ordinale und metrische Merkmale ist das sog. α-Quantil xα definiert als eineZahl, fur die mindestens α·100% der Daten kleiner oder gleich xα und mindestens(1−α) ·100% der Daten großer oder gleich xα sind, wobei xα selbst gegebenenfallsmitgezahlt wird. Eine stets eindeutige Festlegung erreicht man durch

xα :=

x(q+1) , falls r > 0

x(q) + x(q+1)

2, falls r = 0 .

(7.14)

Der Vollstandigkeit halber wird noch x0.0 := x(1) = xmin und x1.0 := x(n) = xmax

festgelegt.

Beispielsweise erhalt man fur x1, ..., xn = 1, 2, 3, ..., 19, 20 mit n = 20

x0.0 = 1 , x0.25 = 5.5 , x0.5 = 10.5 , x0.75 = 15.5 , x1.0 = 20 ,

oder fur x1, ..., xn = 1, 2, 3, ..., 12, 13 mit n = 13

Q0 := x0.0 = 1 , Q1 := x0.25 = 4 , Q2 := x0.5 = 7 , Q3 := x0.75 = 10 , Q4 := x1.0 = 13 .

Die speziellen Quantile Q0, Q1, Q2, Q3, Q4 heißen empirische Quartile. Unter diesen

nennt man Q1 erstes bzw. Q3 drittes Quartil. Von besonderem Interesse ist der Me-dian Q2.

Page 141: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

134 KAPITEL 7. DESKRIPTIVE STATISTIK

Median (Zentralwert)

Def. 7.19 (Median)

Fur ordinale und metrische Merkmale ist der empirische Median oder Zentral-wert definiert als

med(x1, ..., xn) := x0.5 :=

x(n+1

2 ) , falls n ungerade

x(n/2) + x(n/2+1)

2, falls n gerade .

(7.15)

Mindestens 50% der Stichprobenwerte liegen also links und mindestens 50% rechtsdes Medians (den Median selbst ggf. mit eingerechnet).

Beispiel 7.20 (Median)

Bei den Korpergewichten von Beispiel 7.14 ergibt sich

x0.5 = (x(11) + x(12))/2 = (61.1 + 61.3)/2 = 61.2 .

med(x1, ..., xn) ist ein sehr robustes Lokationsmaß. Robuste statistische Kenngroßensind wenig anfallig gegen Datenausreißer. Man muss die Halfte der Daten gegen ∞oder −∞ verschieben, um den Median selbst gegen ±∞ wandern zu lassen. Zur quan-titativen Untersuchung dieses Phanomens definiert man den sog.

Def. 7.21 (Breakdownpoint ε)

Es gilt

ε (med(x1, ..., xn)) =

k + 1

n=

1

2+

1

2n, n = 2k + 1

k

n=

1

2, n = 2k

n→∞−→ 1

2. (7.16)

Page 142: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

7.5. STREUUNGSPARAMETER 135

7.4.3 Arithmetisches Mittel

Def. 7.22 (Arithmetisches Mittel)

Falls nichts anderes gesagt ist, bezeichnet man mit Mittelwert das arithmeti-sche Mittel (mean) oder den Durchschnitt

x = xn :=1

n

n∑i=1

xi . (7.17)

x ist sinnvoll fur beliebige metrische Merkmale.

x ist im Gegensatz zum empirischen Median sehr anfallig gegen sog. Datenausreißer.Mit dem Breakdownpoint ε (x) = 1/n genugt das Abdriften eines einzigen Datenpunk-tes, um x gegen ±∞ streben zu lassen.

7.5 Streuungsparameter

Diese geben Auskunft, ob die Stichprobenwerte eng um den Mittelwert konzentriertsind oder weit “streuen”. In der Regel werden Streuungsparameter nur fur metri-sche Merkmale angegeben. Formal sind sie zwar auch fur ordinale Merkmale definiert,hangen aber von der dort nicht eindeutig festgelegten Kodierung der Merkmalsauspra-gungen ab.

7.5.1 Spannweite, Variationsbreite

Def. 7.23 (Spannweite, Variationsbreite)

Fur ordinale und metrische Merkmale nennt man die Ausdehnung der Stichpro-benwerte

v = x(n) − x(1) = xmax − xmin (7.18)

Spannweite oder Variationsbreite (range).

Beispiel 7.24 (Variationsbreite)

Korpergewichte von Beispiel 7.14:

v = xmax − xmin = 65.9− 56.2 = 9.7 .

Page 143: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

136 KAPITEL 7. DESKRIPTIVE STATISTIK

7.5.2 Mittlere quadratische Abweichung, Standardabweichung

Def. 7.25 (Empirische Varianz, Standardabweichung)

Das am meisten verwendete Streuungsmaß ist die mittlere quadratische Abwei-chung

s2 = s2x =

1

n− 1

n∑i=1

(xi − x)2 . (7.19)

s2 heißt auch empirische Varianz (variance). s2x ist zunachst eine abstrakte

Große. Anschaulicher ist die empirische Standardabweichung (standard de-viation)

s = sx =√

s2x ≥ 0 . (7.20)

s hat im Gegensatz zu s2 dieselbe Benennung wie x; also [m] oder [sec] etc.

Wie bei x sind die Breakdownpoints ε(s2) = ε(s) = 1/n.

Die Darstellung∑

(xi − x)2/(n − 1) eignet sich besser zur numerisch stabilen Be-rechnung von s2. Zu Ubungszwecken mit einfachen Daten ist immer noch die sog.Verschiebungsregel

s2 =1

n− 1

(n∑

i=1

x2i − n x2

)(7.21)

in Gebrauch. Die Gleichheit gilt naturlich bei exakter Rechnung. Durch Ausloschungentstehen aber bei endlicher Arithmetik durch Anwendung von (7.21) unakzeptabelgroße Rundungsfehler. Es lassen sich leicht Beispiele konstruieren, bei denen die Ver-schiebungsregel mit dreistelliger Rechnung negative Varianzen liefert.

Beispiel 7.26

Sei x1, ..., xn = 6, 4, 7, 3, 7, also n = 5 und x = 5.4.

s2 =1

n− 1

n∑i=1

(xi − x)2 = 3.3

s = 1.817 (Standardabweichung) (7.22)

Aus numerischen Grunden sollte stets mit der im Beispiel verwendeten Formel gerech-net werden.

Bemerkung 7.27 (Bedeutung der Standardabweichung)

Bei normalverteilten Daten liegen ca. 95% der Daten im Intervall [x− 2s, x + 2s].

x und s2 hangen eng zusammen. Es gilt namlich

s2 =1

n− 1

n∑i=1

(xi − x)2 ≤ 1

n− 1

n∑i=1

(xi − λ)2 ∀ λ ∈ R . (7.23)

Page 144: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

7.5. STREUUNGSPARAMETER 137

Gelegentlich arbeitet man auch mit

s2 =1

n

n∑i=1

(xi − x)2 =1

n

n∑i=1

x2i − x2 . (7.24)

Die Wahl von s ist jedoch besser, da fur iid-Variable X, X1, ..., Xn mit V ar(X) = σ2

gemaß Beispiel 2.34 mit X =1

n

n∑i=1

Xi gilt:

E

(1

n− 1

n∑i=1

(Xi − X)2

)= σ2 . (7.25)

7.5.3 Mittlere lineare Streuung

Ein ahnlicher Zusammenhang wie fur x und s2 besteht zwischen dem Median undfolgenden Streuungsmaß.

Def. 7.28 (Mittlere lineare Streuung)

x0.5 bezeichne den Median. Dann nennt man fur ordinale und metrische Merkmale

sL =1

n

n∑i=1

|xi − x0.5| (7.26)

die mittlere lineare Streuung.

Die lineare Streuung ist nicht so anfallig gegen extreme Datenausreißer wie s2 oder dieStandardabweichung s.

Bemerkung 7.29 (Optimalitat des Medians)

sL =1

n

n∑i=1

|xi − x0.5| ≤1

n

n∑i=1

|xi − λ| ∀ λ ∈ R . (7.27)

7.5.4 Interquartilsabstand, inter quartile range (IQR)

Noch robuster als die mittlere lineare Streuung ist ein Streuungsmaß, das durch denAbstand zwischen dem ersten Quartil Q1 und dem dritten Q3 (vgl. Def. 7.18) erklartist.

Def. 7.30 (Empirischer Interquartilsabstand, IQR)

Ein weiteres Maß fur die Streuung der Daten ist

IQR = Q3 −Q1 . (7.28)

Page 145: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

138 KAPITEL 7. DESKRIPTIVE STATISTIK

Beispiel 7.31 (Ausreißer)

Wir betrachten x1, ..., xn = 1, 7, 9, 11, 13, 20, 79 mit n = 7. Es gilt

Q1 = 7 , Q2 = x0.5 = 11 , Q3 = 20 , IQR = 13 , sL = 13.57 (mittlere lineare Streuung)

x = 20 , s2 = 608.86 , s = 24.68

v = xmax − xmin = 78 .

Laßt man die jeweils kleinste und großte Beobachtung als mogliche Ausreißer weg(gestutztes oder getrimmtes Mittel), so ergibt sich

x2..6 = 12 ,

s22..6 =

1

5

6∑i=2

(xi − x2..6)2 = 20 , s2..6 = 4.47 ,

s2..6L =

1

5

6∑i=2

|xi − x0.5| = 3.4 ,

IQR2..6 = Q2..63 −Q2..6

1 = 13− 9 = 4 .

Arithmetisches Mittel und s2 sind also sehr anfallig gegen extreme Beobachtungen (imBeispiel x7 = 79). Hatten wir diesen Wert zufallig nicht erhoben, so ergabe sich einMittelwert von 1

6

∑6i=1 xi = 10.17.

Eine annahernd gleich realistische Beschreibung der mittleren Lage liefern aber sowohlMedian als auch das gestutzte Mittel (ohne kleinsten und großten Stichprobenwert)bereits aus der ursprunglichen Stichprobe mit der Beobachtung x7 = 79.

Man sollte also zunachst x, Median, gestutzte Mittel sowie die Standardabweichung sund die lineare Streuung sL berechnen. Stimmen diese Werte einigermaßen uberein, sokann man bedenkenlos mit x und s bzw. s2 weiterarbeiten. Andernfalls ist eine evtl.Eingabedatei auf Tippfehler bzw. die Stichprobe auf sog. Ausreißer zu uberprufen.

7.5.5 Variationskoeffizient

Die folgende Große dient dem Vergleich der Streuung zweier verschiedener Grundge-samtheiten.

Def. 7.32 (Variationskoeffizient, coefficient of variation, CV )

Der empirische Variationskoeffizient

CV :=sx

x, x 6= 0 , (7.29)

ist eine dimensionslose Große.

Beispielsweise seien fur die monatlichen Einkommen im Jahre 1990 von Studenten einerbestimmten Bevolkerungsschicht bekannt:

Page 146: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

7.6. SCHIEFE UND EXZESS 139

BRD x = 720 DM sx = 180 DM CVx =180

720= 0.25

USA y = 480 $ sy = 160 $ CVy =160

480= 0.33

Die Studenteneinkommen streuen also in den USA mehr als in der BRD.

7.6 Schiefe und Exzess

Hierbei handelt es sich um sog. hohere Momente. s bezeichne die oben definierte Stan-dardabweichung.

Def. 7.33 (Schiefe, skewness)

b3 =

1

n

n∑i=1

(xi − x)3

s3(7.30)

heißt empirische Schiefe. Im Falle b3 < 0 spricht man von linksschiefen undfur b3 > 0 von rechtsschiefen Daten.

Bemerkung 7.34 (Interpretation)

1. Die Schiefe ist ein standardisiertes Maß fur die Symmetrie der Stichprobenwertezum Mittelwert.

2. Fur normalverteilte Daten ist b3 ungefahr gleich Null.

Def. 7.35 (Exzess, kurtosis)

b4 =

1

n

n∑i=1

(xi − x)4

s4− 3 (7.31)

heißt empirischer Exzess.

Bemerkung 7.36 (Interpretation)

1. Fur normalverteilte Daten ist b4 ungefahr gleich Null.

2. Der Exzess kann u.a. als ein standardisiertes Maß fur die Abweichung der Stich-probenwerte von normalverteilten Daten betrachtet werden.

3. b4 ist eine außerst sensitive Große und darf niemals allein zur Bewertung derNormalitat von Daten herangezogen werden.

Page 147: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

140 KAPITEL 7. DESKRIPTIVE STATISTIK

7.7 Mittelwerte, Streuungen fur gruppierte Daten

Dieser Abschnitt enthalt eher triviale Umformungen. Die Resultate sind trotzdem be-merkenswert, weil hier die Motivation fur die Festlegung von Erwartungswerten beidiskreten Zufallsvariablen zu finden ist.

Nehmen wir an im Beispiel 7.10 der Kunden am Schalter der Kfz-Zulassungsstellewaren nicht die Rohdaten, sondern nur die relativen Haufigkeiten bekannt. Also

Tabelle 8: Schalterkunden

Anzahl Personen aj = j 0 1 2 3 4 5 6 7 8 9 10

rel. Haufigkeit rj = nj/n 0 0 0 5250

10250

15250

20250

50250

100250

25250

25250

Wie viele Personen standen durchschnittlich in der Schlange?Wird wieder die Auspragung a0 unterdruckt und

a1 := 1 , a2 := 2 , ... , a9 := 9 , a10 = am := 10

gesetzt, dann kann das arithmetische Mittel direkt aus den relativen Haufigkeiten

rj =nj

nberechnet werden:

x =1

n

n∑i=1

xi =1

n

a1 + ... + a1︸ ︷︷ ︸n1 Mal

+... + am + ... + am︸ ︷︷ ︸nm Mal

=m∑

j=1

nj

n· aj =

m∑j=1

rj · aj = 7.5 .

Satz 7.37 (Mittelwerte und Streuungen fur gruppierte Daten)

Das Merkmal X sei metrisch. Fur eine empirische Stichprobe x1, ..., xn mit denMerkmalsauspragungen a1 < ... < am und den absoluten Haufigkeiten n1, ..., nm

(gruppierte Daten) gilt

x =1

n

n∑i=1

xi =m∑

j=1

nj

n· aj =

m∑j=1

rj · aj . (7.32)

Analog erhalt man fur die (leicht modifizierte) empirische Varianz

s2 :=1

n

n∑i=1

(xi − x)2 =m∑

j=1

nj

n(aj − x)2 =

m∑j=1

rj · (aj − x)2 . (7.33)

Fur die Schalterkunden ergibt sich s2 = 2.45 mit der Standardabweichung s = 1.57.

Ersetzt man die relativen Haufigkeiten durch Wahrscheinlichkeiten, so kommt man zuden bekannten Erwartungswertformeln fur diskrete Zufallsvariable, wenns2 = 1

n

∑(xi − x)2 anstelle von s2 = 1

n−1

∑(xi − x)2 verwendet wird.

Page 148: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

7.8. AFFINE TRANSFORMATIONEN 141

7.8 Affine Transformationen

Es bleibt noch die Auswirkung linearer Transformationen der xi auf die angegebenenstatistischen Kenngroßen zu untersuchen.

Satz 7.38 (Transformationen)

Fur die empirische Stichprobe x1, ..., xn bezeichne x0.5 den Median, x das arith-metische Mittel, sx die Standardabweichung und s

(x)L die lineare Streuung. Ferner

seien d 6= 0, c beliebig. Durch eine affine Transformation

yi := c + d · xi (7.34)

entsteht eine neue empirische Stichprobe y1, ..., yn. Fur diese lauten die entspre-chend mit ’y’ bezeichneten Großen

y = c + d · x (7.35)

y0.5 = c + d · x0.5 (7.36)

s2y = d2s2

x (7.37)

sy = |d|sx (7.38)

s(y)L = |d|s(x)

L . (7.39)

Beispiel 7.39 (Transformation: Celsius nach Fahrenheit)

Die mittleren Temperaturen einer Tropenregion seien in der Stichprobe x1, . . . , xn inC (Celsius) erhoben mit x = 27 und sx = 3C. Die entsprechenden Großen sollen inF (Fahrenheit) umgerechnet werden. Mit der Festlegung

0C = 3313

F und 36C = 100F (7.40)

lautet die Transformation

yi := 3313

+100

54· xi . (7.41)

Also

y = 3313

+100

54x = 331

3+

100

54· 27 = 831

3

F

sy = |d| sx =100

54· 3 =

100

18= 5.56F .

Page 149: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

142 KAPITEL 7. DESKRIPTIVE STATISTIK

7.9 Empirische Regression

Man untersucht den Zusammenhang mehrerer Merkmale; z. B.

Y X1 X2 ... Xp

Umsatz Werbung Vertreterbesuche ... PreisNettomiete Wohnflache Baualter ... Ausstattung

Oft mochte man das Y –Merkmal aus den (leichter zu ermittelnden oder besser kontrol-lierbaren) X –Merkmalen vorhersagen. Wir beschranken uns hier auf den Fall p = 1,die einfache lineare Regression.

7.9.1 Statistische Maßzahlen

X und Y seien Merkmale auf der Grundgesamtheit Ω und (x1, y1), . . . , (xn, yn) eineStichprobe. Zunachst veranschaulicht man sich den Zusammenhang grafisch in einerPunktewolke (Streudiagramm, Scatterplot). Eine der ersten Regressionsanalysenwurde von F. Galton (1886) durchgefuhrt; vgl. Bild 18.

160

165

170

175

180

185

190

195

200

160 165 170 175 180 185 190 195

X : (mittlere Große der Eltern) ·1.08

Y : Große der Sohne

rrr

rrr

rr rr

rrr rrr

rrrr rr

rrrr

rrr

rrr

rrr

rr rr

rrr rrr rr

rr rr

rrrr rr

rrrr

rrr

rr rr

rrr rrr rr

rr rr

rrrr rr

r

r rrrr

Bild 18: Galton (1886): Große der Sohne und mittlere Große der Eltern

Als statistische Maßzahlen gehen in die folgenden Berechnungen ein:

– die Mittelwerte x, y– die emp. Kovarianz

sxy =1

n− 1

n∑i=1

(xi − x)(yi − y) =1

n− 1

(n∑

i=1

xi yi − n x y

)(7.42)

– die emp. Varianzen (Streuungen)

s2x = sxx =

1

n− 1

n∑i=1

(xi − x)2 =1

n− 1

(n∑

i=1

x2i − n x2

). (7.43)

Page 150: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

7.9. EMPIRISCHE REGRESSION 143

Eine analoge Formel gilt fur s2y = syy.

Ein Maß fur den linearen Zusammenhang der Merkmale X mit Daten xi und Ymit Daten yi ist der empirische Korrelationskoeffizient

rxy =sxy

sxsy

(7.44)

=

n∑i=1

(xi − x)(yi − y)√√√√( n∑i=1

(xi − x)2

)(n∑

i=1

(yi − y)2

) =

n∑i=1

xi yi − n x y√√√√( n∑i=1

x2i − n x2

)(n∑

i=1

y2i − n y2

) .

Fur alle Datensatze mit nichtkonstanten xi bzw. yi folgt

−1 ≤ rxy ≤ 1 . (7.45)

Es stellt sich heraus, dass rxy = ±1 genau dann gilt, wenn alle Punkte exakt auf einerGeraden liegen. Bis hierher waren die den Daten zugrundeliegenden Merkmale X undY vollig gleichberechtigt.

Page 151: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

144 KAPITEL 7. DESKRIPTIVE STATISTIK

7.9.2 KQ-Gerade, Bestimmtheitsmaß

In der Praxis ist eines der Merkmale (hier X) oft leichter zu beobachten oder zu kontrol-lieren als das andere. Beispielsweise variiert der Dollarkurs Y abhangig vom zeitlichenVerlauf X. Numeriert man die Tage eines Jahres etwa von 1 bis 365 durch und ist derKurs Y am Tag X = 267 bekannt, so kann der ”Wert” der Zeit am darauffolgendenTag zweifelsfrei mit X = 268 festgelegt werden.

Wir besprechen nun eine haufig angewendete Prognosemethode fur das schwerer zuvorhersagende Merkmal Y ; im Beispiel Dollarkurs.

Diese sog. ”Regressionsmethode” beruht auf einem linearen Ansatz der Form

Y = α + β X + E ,

wobei E ein nichtbeobachtbarer Fehler ist. Die unbekannten Parameter α und β schatztman nach der Methode der kleinsten Quadrate (KQ-Methode). Die Schatzungena bzw. b der Parameter α bzw. β gewinnen wir, indem eine Gerade

y = a + b x

in gewissem Sinne optimal durch die Punktewolke der (xi, yi)i=1,...,n gelegt wird.

Wahlt man einen Achsenabschnitt a und eine Steigung b fur die Gerade, dannliegt mit yi := a+b xi der Punkt (xi, yi) genau auf der Geraden, und zwar vertikaluber xi; vgl. nachfolgendes Bild 19.

yi − yi = yi − (a + b xi) = yi − a− b xi , i = 1, . . . , n (7.46)

sind also die parallel zur y-Achse gemessenen Abstande der Datenpunkte(xi, yi) zur Geraden y = a + b x uber den Werten xi.

Mit den gelegentlich verwendeten Bezeichnungen Y = β0 +β1 X +E fur den linearenAnsatz und y = b0 + b1 x fur die KQ-Gerade will man andeuten, dass die einfachelineare Regression als Spezialfall der sog. Multiplen Regression

Y = β0 + β1 X1 + β2 X2 + . . . + βp Xp + E

mit mehreren erklarenden Variablen X1, ..., Xp angesehen werden kann.

Page 152: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

7.9. EMPIRISCHE REGRESSION 145

1

2

3

4

5

6

0 1

x1

2 3 4 5 6 7

y = a + b · x

y1 − a− bx1

(x2, y2)

(x5, y5)

x

y

c

cc

c

c

Bild 19: (x, y)-Punkte und Gerade y = a + b x

Als Maß fur eine Anpassung der Geraden an die Datenpunkte wird die Summe deroben definierten Abstandsquadrate herangezogen. Diese Quadratsumme ist fur eineoptimale Anpassung zu minimieren, d. h. Achsenabschnitt a und Steigung b sind sozu wahlen, dass die Fehlerquadratsumme

Q(a, b) =n∑

i=1

[yi − (a + b xi)]2 =

n∑i=1

[yi − yi]2

moglichst klein wird.

Satz 7.40 (KQ-Schatzungen)

Die optimalen KQ-Schatzungen berechnen sich zu

β = b =sxy

s2x

=

n∑i=1

(xi − x)(yi − y)

n∑i=1

(xi − x)2

=

n∑i=1

xi yi − n x y

n∑i=1

x2i − n x2

(7.47)

undα = a = y − b x . (7.48)

a und b sind eindeutig bestimmt, wenn wenigstens zwei verschiedene Werte xi

vorliegen.y = a + b x (7.49)

heißt empirische Regressionsgerade oder KQ-Gerade.

Page 153: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

146 KAPITEL 7. DESKRIPTIVE STATISTIK

Beweis von Satz 7.40:Sei ei(a, b) := yi − a− b xi. An einem Minimum der Residuensumme

Q = Q(a, b) :=n∑

i=1

[yi − (a + b xi)]2 =

n∑i=1

[ei(a, b)]2

muss der Gradient verschwinden, d. h.

∂Q

∂a=

∑i

2ei∂ei

∂a=∑

i

2ei (−1) = 0 =⇒ 1

n

∑ei = 0 (7.50)

∂Q

∂b=

∑i

2ei∂ei

∂b=∑

i

2ei (−xi) = 0 =⇒ 1

n

∑xi ei = 0 . (7.51)

(7.50) impliziert

1

n

∑i

(yi − a− b xi) = 0 ⇐⇒ y − a− b x = 0⇐⇒ a = y − b x .

Weiter ergeben (7.51) und (7.42) mit s2x > 0 (da die xi nichtkonstant)∑

i

(yi − a− b xi) xi = 0 ⇐⇒∑

i

xi yi − a∑

i

xi − b∑

i

x2i = 0

⇐⇒∑

i

xi yi − n x a− b∑

i

x2i = 0

⇐⇒∑

i

xi yi − n x (y − b x)− b∑

i

x2i = 0

⇐⇒∑

i

xi yi − n x y − b (∑

i

x2i − n x2) =

= (n− 1)(sxy − b s2

x

)= 0

⇐⇒ b =sxy

s2x

=

∑xi yi − n x y∑x2

i − n x2.

Die Hessematrix von Q ist konstant (bzgl. a, b) und lautet

∇2Q =

∂2Q

∂a2

∂2Q

∂a ∂b∂2Q

∂b ∂a

∂2Q

∂b2

= 2

n

∑xi∑

xi∑

x2i

. (7.52)

Diese Matrix ist unter den gegebenen Voraussetzungen

xi nichtkonstant ⇐⇒ s2x > 0 ⇐⇒ n

∑x2

i −(∑

xi

)2> 0

positiv definit (warum?). Damit sind a und b globale Minimierer von Q. 2

Als weitere Bezeichnung sei noch die empirische Streuung des Fehlers eingefuhrt:

s2e :=

Q(a, b)

n− 1=

1

n− 1

n∑i=1

(yi − yi)2 =

1

n− 1

n∑i=1

(yi − (a + b xi))2 . (7.53)

Page 154: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

7.9. EMPIRISCHE REGRESSION 147

Satz 7.41 (Bestimmtheitsmaß)

Das sog. Bestimmtheitsmaß lautet im linearen Fall

R2 = r2xy =

s2xy

s2xs

2y

= 1− s2e

s2y

, (7.54)

wobei jetzt 0 ≤ R2 ≤ 1 .

Lemma 7.42

s2e =

1

n− 1Q(a, b) = s2

y − b2 s2x = s2

y (1− r2xy) =

1

n− 1

n∑i=1

e2i . (7.55)

Beweis des Lemmas:Mit a = y − b x gilt

Q(a, b) =n∑

i=1

(yi − (a + b xi))2

=n∑

i=1

(yi − (y − b x)− b xi)2

=n∑

i=1

(yi − y − b (xi − x))2

=n∑

i=1

[(yi − y)2 − 2 b (yi − y)(xi − x) + b2 (xi − x)2

]=

n∑i=1

(yi − y)2 − 2 bn∑

i=1

(yi − y)(xi − x) + b2n∑

i=1

(xi − x)2

= (n− 1)(s2

y − 2 b sxy + b2 s2x

)= (n− 1)

(s2

y − 2s2

xy

s2x

+s2

xy

s2xs

2x

s2x

)

= (n− 1)

(s2

y −s2

xy

s2xs

2x

s2x

)= (n− 1)

(s2

y − b2 s2x

)= (n− 1) s2

y

(1−

s2xy

s2xs

2y

)= (n− 1) s2

y (1− r2xy) .

2

Beweis von Satz 7.41:

Da (a, b) globale Minimierer von Q sind, folgt

0 ≤ 1

n− 1Q(a, b) = s2

e ≤1

n− 1Q(y, 0) = s2

y .

Page 155: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

148 KAPITEL 7. DESKRIPTIVE STATISTIK

1. Fall:

yi = const = y =⇒ s2y = 0 = Q(y, 0) .

a = y , b = 0 , rxy nicht definiert.

2. Fall:

yi 6= const ⇐⇒ s2y > 0

=⇒ 0 ≤ s2e

s2y

≤s2

y

s2y

= 1

⇐⇒ 0 ≤s2

y

s2y

(1 − r2xy) ≤ 1

⇐⇒ 0 ≤ 1 − r2xy ≤ 1

⇐⇒ 0 ≤ r2xy ≤ 1

⇐⇒ −1 ≤ rxy ≤ 1 . (7.56)

Zur Interpretation dieser Großen zunachst ein Beispiel:

Beschreiben die xi diskrete Zeitpunkte wie Jahre, Halbjahre, Quartale oder Monate, sospricht man von Zeitreihen. Das Y -Merkmal kann dann fur Aktienkurse, Umsatzent-wicklungen, Arbeitslosenzahlen etc. stehen. Fur Zeitreihen wird die KQ-Gerade auchTrendgerade genannt. In den folgenden Daten schlagt sich eine Halbjahres-Saison(zum Beispiel Winter/Sommer) nieder:

Tabelle 9:

Beispiel Zeitreihe

i xi yi xiyi x2i y2

i Saison und Jahr

1 1 2 2 1 4 Winter 1993/942 2 4 8 4 16 Sommer 1994

3 3 5 15 9 25 Winter 1994/954 4 7 28 16 49 Sommer 1995

5 5 8 40 25 64 Winter 1995/966 6 10 60 36 100 Sommer 1996∑

21 36 153 91 258

Man erhalt

x =7

2= 3.5 , y = 6 ,

6∑i=1

xi yi − 6 x y = 153− 67

26 = 153− 126 = 27 ,

Page 156: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

7.9. EMPIRISCHE REGRESSION 149

6∑i=1

x2i − 6 x2 = 91− 6

(7

2

)2

= 91− 649

4=

182

2− 147

2=

35

2= 17.5 ,

6∑i=1

y2i − 6 y2 = 258− 6 · 62 = 258− 216 = 42 .

und die Regressionsgerade y = a + b x mit

b =

6∑i=1

xi yi − 6 x y

6∑i=1

x2i − 6x2

=27

35/2=

54

35= 1.543 (7.57)

a = y − b x = 6− 54

35

7

2= 6− 27

5=

30− 27

5=

3

5= 0.6 . (7.58)

Als Bestimmtheitsmaß R2 ergibt sich

R2 =

(6∑

i=1

xi yi − 6 x y

)2

(6∑

i=1

x2i − 6 x2) (

6∑i=1

y2i − 6 y2)

=272

352· 42

=729 · 235 · 42

=1458

1470= 0.9918 (7.59)

r2xy = R2 = 0.9918 =⇒ rxy = 0.9959 .

Obwohl nicht alle Datenpunkte exakt auf einer Geraden liegen, wird doch ein ausgespro-chen hoher Korrelationskoeffizient sehr nahe bei 1 erreicht. In anderen Anwendungenist man schon mit rxy ' 0.9 zufrieden.

0

2

4

6

8

10

12

14

0 2 4 6 8 x

1993/94 1994/95 1995/96 1996/97 Saison

Y : Umsatz in Tausend DM

Prognosen fr 1997:•

rr r

r rr

Bild 20: Zeitreihe aus Winter- und Sommersaison mit Prognosen

Page 157: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

150 KAPITEL 7. DESKRIPTIVE STATISTIK

Die Prognosen sind berechnet nach der Formel y(x) = a + b x. Dem Winter 1996/97wird dabei der Wert x = 7 und dem Sommer 1997 x = 8 zugeordnet:

Saison x−Wert Prognose

Winter 1996/97 7 y(7) = 0.6 + 1.543 · 7 = 11.401

Sommer 1997 8 y(8) = 0.6 + 1.543 · 8 = 12.944

Auf nachtragliche Saison-Korrekturen der Prognosen (im Winter nach unten und imSommer nach oben) konnen wir in diesem Rahmen nicht naher eingehen.

In Computerprogrammen sollten zunachst x und y und danach aus numerischen Grundendie Steigung b unbedingt nach der Formel

b =

n∑i=1

(xi − x)(yi − y)

n∑i=1

(xi − x)2

(7.60)

erzeugt werden. Fur manuelle Rechnungen in Ubungs- und Klausuraufgaben wird da-gegen gerne das oben dargestellte Schema mit Verschiebungsregeln benutzt. Diesesist fur die Handrechnung insbesondere von Vorteil, wenn x oder y keine ganzen Zahlensind. Bei großeren Datenmengen wird man sowieso Rechner benutzen.

Uber die Regressionsgerade sind also Prognosen der Art

y(x) = a + b x (7.61)

moglich. Bei Zeitreihen wird x in der Regel ein zukunftiger Zeitpunkt sein. y(x) liegtimmer genau auf der Trendgeraden.

Bestimmtheitsmaß und empirischer Korrelationskoeffizient messen die lineare Abhangig-keit der Merkmale X und Y und sind folgendermaßen zu interpretieren

R2 = r2xy = 1 : alle Datenpunkte liegen exakt auf der Regressionsgeraden

rxy > 0 : positive Steigung der emp. Regressionsgeraden, d. h. b > 0rxy < 0 : negative Steigung der emp. Regressionsgeraden, d. h. b < 0rxy = 0 : Regressionsgerade horizontal, d. h. b = 0 ;

: kein linearer Zusammenhang zwischen X und Y !

Von einem ausreichend “guten” linearen Zusammenhang kann man allenfalls bei

R2 = r2xy >

1

2bzw. |rxy| > 0.7

ausgehen, denn dann wird die ursprungliche Varianz s2y durch den Regressionsansatz in

s2e zumindest auf die Halfte reduziert. Nichtlineare Abhangigkeiten, z. B. Y = X2 ,

werden von der linearen Regressionsanalyse bzw. vom empirischen Korrelationskoeffi-zienten nicht erfaßt.

Page 158: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

7.9. EMPIRISCHE REGRESSION 151

Vorsicht mit Korrelationen!

Tabelle 10: Ein Beispiel mit rxy = 0.957

Jahr Autozulassungen Huhner

x (in Tausend) y (in Tausend)

1942 1.847 53.5021943 1.544 46.3711944 1.599 50.2421945 2.599 56.6661946 3.113 61.7231947 3.521 64.8801948 3.734 79.2191949 4.113 89.1521950 4.414 90.7981951 4.625 90.067

Bei der Interpretation von Korrelationen darf nie der sachlogische Hintergrund un-berucksichtigt bleiben. Bei obigem Beispiel fuhren die hohen Korrelationen

Kombination rxy

Jahr/Autozulassungen: rxy = 0.971

Jahr/Huhner: rxy = 0.950

zu der hohen positiven ”Scheinkorrelation” von Autozulassungen/Huhner vonrxy = 0.957, was beim Betrachter ein Schmunzeln hervorruft:Man stellt sich eher auf eine fallende Anzahl von Huhnern bei steigendem Autover-kehr ein, da zu erwarten ist, dass das eine oder andere (freilaufende) Tier versehentlichuberfahren wird.

Nichtlineare Zusammenhange und Transformationen

Die unbekannten Parameter, etwa a, b, c, in allgemeinen nichtlinearen Beziehungender Form

Y = a + b ecX + E

mussen mit iterativen Methoden geschatzt werden; vgl. u.a. Seber & Wild (1989).Eine Reihe wichtiger Ansatze laßt sich aber durch Transformationen auf den bereitsbesprochenen Fall zuruckfuhren. Wichtig ist dabei, dass am Ende die zu schatzendenParameter nur linear in die Beziehung eingehen. Wir geben einige Beispiele an, wobeidie ebenfalls zu transformierende Fehlervariable weggelassen wird:

Y = a + b X2 → Y = a + b X , X = X2

Y = a ebX → Y = a + b X, Y = ln(Y ) , a = ln(a) .

Page 159: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

152 KAPITEL 7. DESKRIPTIVE STATISTIK

Eine weitere Transformation soll am folgenden Beispiel erlautert werden. Gemaß[Kredler & Ritter (1995)], Abschnitt 1.4.5 erhoht der Einsatz von X Mengeneinhei-ten eines biologischen Schadlingsbekampfungsmittels den Ertrag einer Beerensorte umY Mengeneinheiten. Da sich der Ertrag nicht beliebig erhohen laßt, sondern wohl eineSattigung zu erwarten ist, scheidet ein linearer Ansatz aus. Eine einfache Modellierungkonnte lauten

Y = a + b1

1 + X,

was sich mit X = 1/(1 + X) in der bekannten Form Y = a + b X schreiben laßt. DieVersuchsreihen auf vergleichbaren Feldern ergaben

Tabelle 11: Nichtlineare Transformation

i 1 2 3 4 5

Schadlingsbekampfungsmittel xi 0 1 3 6 11

Transformation xi = 1/(1 + xi) 1 0.5 0.25 0.1428 0.0833

Ertrag yi 1 3 4 5 6

Man erhalt bei einem Bestimmtheitsmaß (fur das lineare Modell bzgl. Y und X) vonR2 = 0.9448 die Koeffizienten a = 5.7767 und b = − 5.0020 sowie die Regressions-funktion

y = a + b x = 5.7767− 5.0020

1 + x= y(x) ,

wobei der mittlere Ertrag ohne Schadlingsbekampfungsmittel auf y(0) = 0.7747 und beibeliebig hohem Einsatz auf y(∞) = 5.7767 geschatzt wird. Die Fehlerquadratsummebetragt 0.817. Diese laßt sich auf 0.2 drucken, wenn man einen zusatzlichen Parameterc einfuhrt:

Y = a + b1

c + X.

In diesem fur c nichtlinearen Modell lauten die optimalen Parameter a = 6.966,b = −15.615, c = 2.663. Wie auch die Graphen im folgenden Bild zeigen, war die Fixie-rung der 1 im Nenner nicht unbedingt gunstig. Insbesondere liegt die Sattigungsgrenzeim zweiten Modell erst bei 6.966, was angesichts der Daten realistischer erscheint.

Page 160: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

7.9. EMPIRISCHE REGRESSION 153

0

1

2

3

4

5

6

7

0 2 4 6 8 10 12

X : Schadlingsbekampfungsmittel

Y : Ertrag

Asymptote zum Modellmit a = 5.7767 yc=2.663(x)

y(x)

r

rr

rr

Bild 21: Transformation auf lineares Modell

Page 161: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

154 KAPITEL 7. DESKRIPTIVE STATISTIK

7.10 Beispiele

Ein wichtiges Ziel der zugrundeliegenden Vorlesung ist es, die Horer zum Umgangmit dem Rechner anzuleiten und Daten am Rechner zu analysieren. Hier folgen einigeGrafiken und Ausdrucke von kommerziellen Programmen und Hinweise auf weitereBeispieldaten.

7.10.1 Grafiken und Ausdrucke von Statistikprogrammen

Eine statistische Datenanalyse kann mit speziellen Programmsysteme wie SAS, SPSSoder S-Plus, um nur einige zu nennen, wesentlich effektiver und oft auch einfacherdurchgefuhrt werden als etwa mit Excel. Um dem Leser aber eine schnelle Einstiegsmoglich-keit fur statistische Berechnungen am Computer zu bieten, wird hier auch auf dasverbreitete Excel zuruckgegriffen. Sicherlich gibt es noch viele weitere Programme, dieeinem ahnlichen Zweck dienen konnen.

Grafiken in Excel

Einen Excel-Ausdruck fur die Daten von Tabelle 9 erhalt man etwa mit den Komman-dos wie Diagramm (Icon in Funktionsleiste), Punkt (XY), Diagramm (in Menuzeile),Trendgerade hinzufugen, Formel in Diagramm darstellen etc.

Zur Berechnung wichtiger Populationskenngroßen wie Mittelwert, Varianz, Quartilenetc. benutze man die vorgesehenen Excel Statistik-Funktionen mit gleichen oderahnlichen Namen.Fur haufig vorkommende Fragestellungen gibt es außerdem Sammlungen von Excel-Macros. Dazu wahlt man Extras und dort den Untermenupunkt Analyse-Funktio-nen, der beim ersten Bedienen mit dem sog, Add-In-Manager... aktiviert werdenmuss.Als Statistik-Macros sind fur unsere Zwecke etwa Populationskenngroßen (z.B. Mit-telewert, Median, Quartile, IQR) und Histogramm interessant.

Stichprobe mit 100 normalverteilten Beobachtungen

Bei der SAS-Grafik (Box-Plot + Histogramm) und dem Ausdruck mit Populationskenn-großen handelt es sich um eine Simulation von 100 unabhangigen standardnormalver-teilten Zufallszahlen. Der Abschnitt 10.3 befaßt sich genauer mit sog. Box-Plots. ImUnterschied zu einem dort diskutierten ahnlichen Beispiel liegt hier keine der Beobach-tungen außerhalb der Nadeln. Man beachte:

1. Die empirische Schiefe = Skewness = 0.0668 stimmt schon fast mit dem Sollwert0 uberein. Histogramm und Box-Plot zeigen ebenfalls eine hinreichende Symme-trie der Daten an.

2. Der empirische Exzess = Kurtosis = −0.4146 mißt in etwa, wie nah die Datenum den Mittelwert konzentriert sind. Bei exakt normalverteilten Beobachtungen

Page 162: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

7.10. BEISPIELE 155

ist der Idealwert 0. Das Beispiel zeigt, dass beim empirischen Exzess Abweichun-gen ungefahr im Bereich [−0.5; 0.5] akzeptiert werden mussen.

Page 163: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

156 KAPITEL 7. DESKRIPTIVE STATISTIK

Sonnendaten; garantiert nicht normalverteilt

Zum Abschluß sei noch ein Beispiel aus dem Unterverzeichnis SASHELP mit n = 126Quartalen aus den Jahren 1960 bis Mitte 1991 mit dem Exportuberschuss eines großenLandes in Mrd. $ angegeben. Negative Werte zeigen an, dass mehr Guter importiertals ins Ausland verkauft wurden.Zum Vergleich mit dem vorherigen Beispiel (Normalverteilung) sind auffallend:

• Der empirische Median liegt nicht in der Mitte der Box.

• Eine große Anzahl von Datenpunkten ist ”links” der Box-Plot-Nadelspitze

• Skewness = −1.4920 0, Kurtosis = +1.2653 0.

Der Ausdruck wurde wieder mit SAS erstellt.

Page 164: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

7.10. BEISPIELE 157

7.10.2 Einige Datenbeispiele

Die folgenden Daten sind im Netz verfugbar und werden neben anderen Datensatzenim Statistik-Praktikum zu dieser Vorlesung analysiert.

n = Anzahl der Beobachtungen (Datenzeilen)p = Anzahl der Variablen (Datenspalten)

Datei.sd2 n p Kurzbeschreibung

huhnauto 10 3 Huhner = 10612444 + 5487 · Jahr; ρ = 0.95

Huhner = 23494 + 14.39 · Auto; ρ = 0.96

Auto = -722108 + 372.6 · Jahr; ρ = 0.97

kornstoy 30 2 Korndurchmesser und Druckfestigkeit aus Stoyan (1993)

gewicht 22 1 Gewichte von Schulern: x = 61.55, sx = 2.53, x0.5 = 61.3

indian 27 2 Hochstgeschwindigkeit im Indianapolis-Rennen; ρ = 0.99v = 61.13 + 2.715 · Jahr

groegew 40 1 Gewicht = -96.15 + 0.96 · Große; ρ = 0.735

outpkost 10 2 Kosten = 1000 + 24 · Output; ρ = 0.946

mendele 7 2 Loslichkeit/100g H2O von Natriumnitrat bzgl.Temperatur in 0C des Wassers nach Mendelejew

Loslichkeit = 66.95 + 1.036 · Temperatur; ρ = 0.99

normal 100 1 standardnormalverteilte Daten (simuliert)

umsatz 23 1 x = 226.0, s = 91.31, Q1 = 154.9, Q3 = 285.4

zeitreih 12 2 Quartalsdaten: Trend = 0.6288 + 0.4065 ·Monat

eufirm 94 1 Auszug aus gnp: x = 115.95, s = 289.20

gnp 94 8 aus SASHELP

Page 165: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

Kapitel 8

Schatzfunktionen, ML-Prinzip

Die Wahrscheinlichkeitstheorie setzt stets einen Wahrscheinlichkeitsraum (Ω, F, P ) alsgegeben voraus. Damit sind Verteilungen, Erwartungswerte etc. im Prinzip bekannt,auch wenn sich gewisse Herleitungen als schwierig oder gar nicht realisierbar erweisen.Im Gegensatz dazu betrachtet die mathematische Statistik das in der Praxis haufigervorliegende Problem, Aussagen uber die unbekannte Verteilungsstruktur bzw. gewisseKenngroßen von Zufallsvariablen (ZV) aus der Beobachtung von Stichproben zu ge-winnen.

Ohne Zusatzannahmen ist diese Aufgabe nur in trivialen Fallen zu losen. Meist setztman voraus, dass F einer bestimmten Funktionenfamilie angehort, die nur noch von we-nigen (in unserem Fall meist ein bis zwei) Parametern abhangt. Wahrend die optimaleSchatzung dieser unbekannten Parameter fur einen Großteil der wichtigen Falle gelostist, muss die Wahl der Verteilungsfamilie (etwa Normal-, Exponential-, Gleich- odersonstige Verteilung) vom Statistiker bei jeder Anwendung neu vorgenommen werden.Als Hilfsmittel konnen u.a. dienen

1. Verteilungstests oder grafische Methoden wie QQ-Plots; siehe Abschnitt 10.2

2. Ergebnisse gleichartiger Untersuchungen aus der Vergangenheit

3. Theoretische Uberlegungen: Man kann etwa die ZV X = Korpergroße als linear-additive Uberlagerung vieler (teilweise nicht beobachtbarer) ZV wie Große desVaters, mittlerer Sauerstoffgehalt der Luft wahrend der Schwangerschaft, mitt-lerer Eiweißgehalt der Ernahrung in den ersten zehn Lebensjahren usw. ansehen.Aus dem zentralen Grenzwertsatz folgt dann, dass X als approximativ normal-verteilt angesehen werden kann.

Sei also eine geeignete parametrisierte Verteilungsfamilie festgelegt. Wir diskutierennun kurz die Eigenschaften von Schatzfunktionen fur die noch zu bestimmenden un-bekannten Parameter. Die Information zur Schatzung gewinnt man durch unabhangigeWiederholung des Zufallsexperiments fur X.θ = (θ1, . . . , θm)T seien unbekannte, zu schatzende Parameter; z. B. θ = (µ, σ2)T beider Normalverteilung. X, X1, . . . , Xn seien iid, d. h. X1, . . . , Xn sind unabhangig undjedes Xi, i = 1, . . . , n, hat dieselbe Verteilungsfunktion (VF) F (x; θ) = FX(x; θ) wie

158

Page 166: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

8.1. ERWARTUNGSTREUE UND KONSISTENZ 159

X. Man nennt in diesem Fall X1, . . . , Xn auch mathematische Stichprobe; vgl. Def.2.29.Im Gegensatz zu fruheren Kapiteln wird jetzt die Abhangigkeit der VF (und spater derWahrscheinlichkeitsfunktion bzw. Dichte) von den unbekannten Parametern θ ∈ Rm

durch die Schreibweise F (x; θ) hervorgehoben.

Zur Schatzung θ fur θ ∈ Θ ⊂ Rm benotigt man eine Borel-messbare Funktion

T : Rn → Θ , T (X1, . . . , Xn) = θ ∈ Θ ,

mit gewissen zusatzlichen Eigenschaften, z. B. Erwartungstreue und Konsistenz, dieim Anschluss genauer erklart sind. Ein weiteres Gutekriterium ist die minimale Vari-anz einer Schatzfunktion. T wird auch einfach Statistik oder Schatzer (estimator)genannt. T ist selbst eine ZV, deren Verteilung u.a. vom Parameter θ bestimmt ist.

8.1 Erwartungstreue und Konsistenz

Def. 8.1 (Erwartungstreu, unverzerrt; unbiased)

Eine Schatzfunktion T : Rn → Rm heißt erwartungstreu oder unverzerrt(unbiased), falls

E [T (X1, . . . , Xn)] = θ .

Die Abweichung E [T (X1, . . . , Xn)]− θ heißt Bias des Schatzers T .

Beispiel 8.2 (Erwartungstreue Schatzer)

1. Seien X1, . . . , Xn iid mit E(Xi) = µ, dann ist

T (X1, . . . , Xn) = X =1

n

n∑i=1

Xi

ein erwartungstreuer Schatzer fur µ.

2. Seien X1, . . . , Xn iid mit E(Xi) = µ und V ar(Xi) = σ2. Eine erwartungstreueSchatzfunktion fur σ2 lautet gemaß Bsp. 2.34

T (X1, . . . , Xn) = S2 =1

n− 1

n∑i=1

(Xi − X

)2.

Die Begriffe Schatzer, Statistik und Schatzfunktion bzw. erwartungstreu und unver-zerrt werden abwechselnd verwendet, um alle Bezeichnungen einzuuben.

Zur Diskussion einer weiteren Eigenschaft von Schatzern schreiben wir im nachstenAbschnitt Tn fur T , um die Abhangigkeit vom Stichprobenumfang n anzudeuten. Einer

Page 167: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

160 KAPITEL 8. SCHATZFUNKTIONEN, ML-PRINZIP

einfachen Darstellung wegen beschranken wir uns hier außerdem auf eindimensionaleStatistiken Tn und Parameter θ. Der Ubergang zum mehrdimensionalen Fall laßt sichleicht vollziehen.

Def. 8.3 (Konsistenz)

Ein Schatzer Tn : Rn → R heißt konsistent (consistent) fur θ, falls

limn→∞

P (|Tn(X1, . . . , Xn)− θ| ≤ ε) = 1 , ∀ ε > 0 .

Mit den Bezeichnungen von Def. 4.6 bedeutet Konsistenz, dass Tn stochastischgegen θ konvergiert, i.Z.

Tn(X1, . . . , Xn)P−→ θ .

Beispiel 8.4 (Konsistenz und Erwartungstreue)

1. Fur iid X1, . . . , Xn mit E(Xi) = µ und V ar(Xi) = σ2 ist

Tn(X1, . . . , Xn) = Xn =1

n

n∑i=1

Xi

nach dem Satz von Tschebyschov 4.5 ein konsistenter Schatzer fur µ.

2. Nun seien die X1, . . . , Xn iid N(µ, σ2). Damit gilt fur die folgenden drei σ2-Schatzer

S2n :=

1

n

n∑i=1

(Xi − Xn)2 ist konsistent, aber nicht unverzerrt,

S2n :=

1

n− 1

n∑i=1

(Xi − Xn)2 ist konsistent und unverzerrt,

S2n :=

1

n

n∑i=1

(Xi − µ)2 ist konsistent und unverzerrt.

8.2 Schatzfunktionen minimaler Varianz

T heißt MV(Minimum-Varianz)- oder wirksamste Schatzfunktion, wenn T unterallen erwartungstreuen Schatzfunktionen fur θ minimale Varianz besitzt (wir schreibenhier wieder T statt Tn und X statt Xn).

Page 168: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

8.3. KONSTRUKTION VON SCHATZERN 161

Beispiel 8.5 (MV-Schatzer)

Fur die Parameter der meisten hier behandelten Verteilungen konnen wirksamsteSchatzer angegeben werden.

1. Binomialverteilung: X ist MV-Schatzer fur p

2. Poissonverteilung: X ist MV-Schatzer fur λ

3. Normalverteilung: X ist MV-Schatzer fur µ, S2 ist MV-Schatzer fur σ2

4. Exponentialverteilung: X ist MV-Schatzer fur 1/λ

5. Gleichverteilung in [0, b]: b =n + 1

nmax

iXi ist MV-Schatzer fur b.

X ist linear in den Xi. Damit ist X in den genannten Beispielen auch ein sog. BLUE-Schatzer (Best Linear Unbiased Estimator). Die Eigenschaft ”best” bedeutet wieder,dass BLUE-Schatzer unter allen linearen, erwartungstreuen Schatzern minimale Vari-anz haben. BLUE-Schatzer spielen auch bei linearen Regressionsmodellen eine wichtigeRolle.Zum Nachweis der BLUE-Eigenschaft von X fur iid X1, . . . , Xn mit E(Xi) = µ,V ar(Xi) = σ2, i = 1, . . . , n, macht man den Ansatz einer allgemeinen linearen Schatz-funktion

T (X1, . . . , Xn) =n∑

i=1

ai Xi , ai ∈ R , i = 1, . . . , n . (8.1)

Die Erwartungstreue wird dann durch die Nebenbedingung

n∑i=1

ai = 1 (8.2)

gesichert. Die Minimierung von

V ar(T ) = V ar

(n∑

i=1

ai Xi

)=

n∑i=1

a2i V ar(Xi) = σ2

n∑i=1

a2i (8.3)

unter der Nebenbedingung (8.2) liefert als optimale Losung

ai =1

n, i = 1, . . . , n .

8.3 Konstruktion von Schatzern

Von vielen denkbaren Schatzmethoden seien drei wichtige kurz erwahnt.

Page 169: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

162 KAPITEL 8. SCHATZFUNKTIONEN, ML-PRINZIP

8.3.1 Methode der Kleinsten Quadrate (KQ)

Dieses Prinzip haben wir bereits im Kapitel 7 uber empirische Statistik kennengelernt.Zum Beispiel ist X u.a. KQ-Schatzer, da

n∑i=1

[Xi − X

]2≤

n∑i=1

[Xi − c]2 , fur alle c ∈ R . (8.4)

In analoger Weise wurden auch die KQ-Schatzungen fur Achsenabschnitt und Steigungder Regressionsgerade in Abschnitt 7.9 eingefuhrt.

8.3.2 Momentenmethode

Seien X,X1, . . . , Xn iid mit existierendem absolutem k-ten Moment E[|Xk|

]. Dann

sind gemaß Satz 1.71 auch die Momente µj = E [Xj], j = 1, . . . , k, erklart. AlsSchatzungen fur die µj bietet sich etwa

µj =1

n

n∑i=1

Xji , j = 1, . . . , k (8.5)

an.

8.3.3 Maximum-Likelihood (ML)-Methode

Die wohl am haufigsten angewendete Technik zur Konstruktion von Schatzfunktionenist die sog. ML- oder Maximum-Likelihood-Methode. Bei normalverteilten Xi istdiese aquivalent mit der Methode der kleinsten Quadrate.Die iid-Variablen X, X1, . . . , Xn seien diskret oder stetig mit Wahrscheinlichkeitsfunk-tion bzw. Dichte f(x; θ) = fX(x; θ) (Schatzfunktion T und der unbekannte Parameterθ sind jetzt wieder m-dimensional). Wegen der Unabhangigkeit der Xi lautet die ge-meinsame Dichte von (X1, . . . , Xn)

l(x1, . . . , xn; θ) =n∏

i=1

f(xi; θ) . (8.6)

Bei gegebenen Stichprobenrealisierungen x1, . . . , xn hangt l nur noch vom Parameterθ ∈ Rm ab. Man nennt l in diesem Fall Likelihoodfunktion. Nach der ML-Methodewahlt man nun die Schatzungen θML fur den unbekannten Parameter θ, so dass dasEintreten der beobachteten Stichprobe maximale Wahrscheinlichkeit (im Englischenverwendet man hier den Begriff Likelihood im Unterschied zu probability) besitzt. Also

l(x1, . . . , xn; θML) ≥ l(x1, . . . , xn; θ) , fur alle θ ∈ Rm . (8.7)

Alle nachfolgenden Beispiele zeigen, dass der Ubergang zur sog. Log-Likelihood-funktion

L(x1, . . . , xn; θ) =n∑

i=1

ln [f(xi; θ)] (8.8)

große Erleichterungen bei der Berechnung von θML bringt. Da ln(·) streng monotonist, stimmen die Maximalstellen von l und L uberein. Generell gilt:

Page 170: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

8.3. KONSTRUKTION VON SCHATZERN 163

Def. 8.6 (ML-Schatzer)

Besitzen die iid-Variablen X, X1, . . . , Xn eine Wahrscheinlichkeitsfunktion bzw.Dichte f(x; θ) = fX(x; θ), so heißt jede Maximalstelle

θML = argmaxL(X1, . . . , Xn; θ); θ ∈ Rm = argmax l(X1, . . . , Xn; θ); θ ∈ Rm

ML- oder Maximum-Likelihood-Schatzer fur θ. θML muss nicht immer exi-stieren; außerdem hat L gelegentlich mehrere Maximalstellen.

Gemaß dieser Definition ist der ML-Schatzer eine Zufallsvariable. Bei der praktischenBerechnung bestimmt man zunachst eine Formel TML bzw. eine Berechnungsvorschriftdurch Nullsetzen der partiellen Ableitungen nach θi bzw. uber einen numerischen Opti-mierungsalgorithmus, wobei die beobachteten Realisierungen x1, . . . , xn als feste Kon-stanten angesehen werden. Im Beispiel der Exponentialverteilung erhalt man

l(x1, . . . , xn; θ) =n∏

i=1

λ e−λ xi1(0,∞)(xi) , θ = λ > 0 . (8.9)

Wegen xi > 0, i = 1, . . . , n konnen die Indikatorfunktionen weggelassen werden. Damitlautet die Loglikelihoodfunktion

L(x1, . . . , xn; θ) =n∑

i=1

(ln(λ)− λ xi) = n ln(λ)− λn∑

i=1

xi . (8.10)

Nullsetzen der Ableitung nach λ liefert λ = TML(x1, . . . , xn) = 1/x. Mit dieser Vor-schrift lautet der ML-Schatzer als Zufallsvariable

λ = TML(X1, . . . , Xn) = 1/X . (8.11)

Beispiel 8.7 (ML-Schatzer)

1. Binomialverteilung B(n, p): X ist ML-Schatzer fur p

2. Poissonverteilung Poi(λ): X ist ML-Schatzer fur λ

3. Gleichverteilung in (0, b): bML = maxiXi ist ML-Schatzer fur b.

4. Normalverteilung N(µ, σ2): X ist ML-Schatzer fur µ

S2ML :=

1

n

n∑i=1

(Xi − X

)2ist ML-Schatzer fur σ2.

Vergleicht man die Beispiele 8.5 und 8.7, so sind die MV-Schatzer entweder die ML-Schatzer selbst oder man erhalt sie, im Falle von S2 bzw. b, durch Multiplikation derentsprechenden ML-Schatzer S2

ML bzw. bML mit einer Normierungskonstanten, so dass

Page 171: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

164 KAPITEL 8. SCHATZFUNKTIONEN, ML-PRINZIP

der neue Schatzer erwartungstreu ist.

Gemaß Satz 2.34 gilt E [ S2ML ] =

n− 1

nσ2. Erwartungstreue erhalt man durch Wahl

eines SchatzersT = S2 =

n

n− 1S2

ML .

Analog geht man bei der Schatzung fur b im Falle der Gleich- oder Rechteckverteilungvor. Nach Satz 2.43 uber die Erwartungswerte der Ordnungsstatistiken gilt namlich

E[bML

]= E [ max Xi ] = E [Xn:n] =

n

n + 1.

Dieses Normierungsverfahren liefert in einigen Fallen MV-Schatzer. Der Beweis mini-maler Varianz muss jedoch jeweils im Einzelfall gefuhrt werden.

Page 172: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

Kapitel 9

Statistik normalverteilter Daten

9.1 Stichprobenverteilungen

9.1.1 Normalverteilung

Die Dichte der Normal- oder Gauß-Verteilung N(µ, σ2) lautet

f(x ; µ, σ2) =1√2π σ

e− (x−µ)2

2σ2 (9.1)

N(0, 1) heißt Standardnormalverteilung.

Grundlegende Eigenschaften

1. U ∼ N(0, 1) =⇒ X := µ + σ U ∼ N(µ, σ2). Durch die Standardisierung

U :=X − µ

σ

kann eine N(µ, σ2)-verteilte ZV X in eine N(0, 1)-verteilte ZV U transformiertwerden.

2. Fur die Standardnormalverteilungsfunktion

Φ(u) = P (U ≤ u) =

u∫−∞

1√2π

e−t2

2 dt

gibt es ausgezeichnete numerische Approximationen (siehe etwa Abschnitt 11.2im Anhang). Wegen der Symmetrie der Gaußschen Glockenkurve ϕ gilt

Φ(−u) = 1− Φ(u) und u1−p = −up ,

so dass Φ nur fur u ≥ 0 tabelliert werden muss.

3. Zum Ablesen der (einseitigen) Quantile up mit

Φ(up) = p , 0 < p < 1

165

Page 173: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

166 KAPITEL 9. STATISTIK NORMALVERTEILTER DATEN

im Lehr- und Ubungsbetrieb verwendet man Tabellen (vgl. Abschnitt 11.3 imAnhang) von Φ, die auch in den meisten Statistikbuchern zu finden sind.

4. E(X) = µ, V ar(X) = σ2

5. Alle Kumulanten (Semiinvarianten) ab der Ordnung 3 verschwinden, also u.a.Schiefe und Exzess.

6. Linearkombinationen gemeinsam normalverteilter ZV sind wieder normalverteilt.Dies gilt auch, falls die ZV korreliert sind. Speziell fur unabhangige X ∼ N(µx, σ

2x)

und Y ∼ N(µy, σ2y) folgt

a + b X + c Y ∼ N(a + b µx + c µy, b2σ2

x + c2σ2y) .

7. Schatzung der unbekannten Parameter µ und σ2

Seien x1, . . . , xn Realisierungen einer Stichprobe unabhangiger N(µ, σ2)-verteilterZufallsvariablen, dann sind

µ = x =1

n

n∑i=1

xi und (9.2)

σ2 = s2 =1

n− 1

n∑i=1

(xi − x)2 (9.3)

optimale (im Sinne minimaler Varianz) Schatzungen fur die unbekannten Para-meter µ und σ2.

Quantile der Standardnormalverteilung

Mit up, Φ(up) = p , 0 < p < 1, bezeichnet man die (einseitigen) Quantile. Danebenbenotigt man symmetrische Quantile der Form

λp = u(1+p)/2 , mit P (−λp ≤ U ≤ λp) = p . (9.4)

Gebrauchlich sind auch die Bezeichnungen

up = u1−α , λp = λ1−α = u1−α/2 , mit α = 1− p .

Page 174: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

9.1. STICHPROBENVERTEILUNGEN 167

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

-4 -3 0 3 4

1− p

2

λP%−λP%

p = P%

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

Bild 22: Symmetrische Quantile λp

Es folgen oft benutzte Quantile der Normalverteilung:

Tabelle 12: N(µ, σ2), symmetrische Quantile λP%

Flache symmetrisches Intervall symmetrisches QuantilP% [µ− σ · λP% ; µ + σ · λP%] λP%

50% [µ− 0.6745 σ ; µ + 0.6745 σ] 0.6745

68.26% [µ− σ ; µ + σ] 1

95% [µ− 1.96 σ ; µ + 1.96 σ] 1.96

95.46% [µ− 2 σ ; µ + 2 σ] 2

99% [µ− 2.576 σ ; µ + 2.576 σ] 2.576

99.73% [µ− 3 σ ; µ + 3 σ] 3

Gemaß obiger Tabelle mussen ca. 95% normalverteilter Daten im sog. 2 σ -Intervallund uber 99% im 3 σ -Intervall liegen.

Page 175: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

168 KAPITEL 9. STATISTIK NORMALVERTEILTER DATEN

9.1.2 χ2 -Verteilung

Die Verteilung der Summe der Quadrate von ν unabhangigen N(0, 1)-verteilten Zu-fallsvariablen U1, ..., Uν nennt man χ2-verteilt mit ν Freiheitsgraden, d.h.

χ2ν =

ν∑i=1

U2i .

Die χ2 -Verteilungen sind spezielle Gammaverteilungen. Es gilt

χ2ν = Γ

2,1

2

).

Damit lautet die Diche der χ2 -Verteilung mit ν Freiheitsgraden

fχ2ν(z) =

1

2ν/2Γ(ν2)

zν/2−1 e−z/2 1(0,∞)(z). (9.5)

Gemaß Beispiel 1.58, Nr. 7, ist U21 ∼ Γ

(12, 1

2

). Mit der momenterzeugenden Funk-

tion der Gammaverteilung aus den Beispielen 3.13 und 3.14 folgt die Behauptung furunabhangige U1, . . . , Uν . χ2-verteilte Zufallsvariable konnen keine negativen Werte an-nehmen. Die Masse der χ2 -Verteilung konzentriert sich um deren ErwartungswertE(χ2

ν) = ν, so dass fur die haufig verwendeten 95%-Quantile ν < χ2ν;0.95 gilt (und zwar

fur alle ν ∈ N) sowie weiterhin

E(χ2ν) = ν

V ar(χ2ν) = 2ν

Modus(χ2ν) = ν − 2 , ν ≥ 2

Modus(χ21) existiert nicht .

0

0.02

0.04

0.06

0.08

0.1

0.12

0 5 10 χ28;0.9 20 25 30

Dichte der χ28-Verteilung

mit ν = 8 Freiheitsgraden

1− p

p = 90%

Bild 23: χ2-Verteilung

Page 176: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

9.1. STICHPROBENVERTEILUNGEN 169

9.1.3 Student- oder t-Verteilung

Seien U ∼ N(0, 1) und χ2ν unabhangig. Dann heißt

Tν :=U√χ2

ν/ν

t− oder Student-verteilt mit ν Freiheitsgraden. Die zugehorige Dichte lautet

fTν(t) =

1√ν π

Γ(

ν+12

)Γ(

ν2

) 1(1 + t2

ν

)(ν+1)/2 ; t ∈ R . (9.6)

Zur Herleitung der Dichte (vgl. etwa [Heinhold & Gaede (1979)], S. 235) benutzt mandie Transformationsregel fur Quotienten aus (2.30) und (9.5). Fur ν = 1 sind Zahlerund Nenner unabhangig standardnormalverteilt, so dass man in diesem Fall die Cauchy-Verteilung mit der Dichte

fT1(t) =1

π

1

1 + t2

erhalt. Analog zur Normalverteilung gilt fur die Quantile der Student-Verteilung

P (Tν ≤ tν;p) = p und P (|Tν | ≤ γν;p) = p ,

wobeitν;1−p = −tν;p und γν;p = tν;(1+p)/2 .

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

-4 -3 -2 -1 0 1 2 3 4

N(0, 1)

Studentdichte

3 Freiheitsgrade

t3

Bild 24: t- und Standardnormalverteilung

Fur wachsenden Freiheitsgrad ν →∞ konvergiert die t-Verteilung mit ihren breiterenEnden gegen die Standardnormalverteilung, d.h.

limν→∞

tν;p = up und limν→∞

γν;p = λp .

Page 177: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

170 KAPITEL 9. STATISTIK NORMALVERTEILTER DATEN

9.1.4 Stichprobenmittel und -varianz

Seien X1, X2, . . . , Xn iid N(µ, σ2)-verteilt. Gemaß Satz 2.34 uber orthogonale Trans-formationen normalverteilter ZV gilt:

1. das Stichprobenmittel X =1

n

n∑i=1

Xi und die

Stichprobenvarianz S2 =1

n− 1

n∑i=1

(Xi − X)2 sind unabhangig .

2. Beide Schatzer sind erwartungstreu, d.h. E(X) = µ und E (S2) = σ2

3. X ∼ N(µ, σ2/n)

4. (n− 1) S2/σ2 =1

σ2

n∑i=1

(Xi − X)2 ∼ χ2n−1

5.X − µ

σ/√

n

/√(n− 1) S2/σ2

n− 1=

√n(X − µ

)S

∼ tn−1.

Beim Vergleich der Streuungen in verschiedenen Gruppen benotigt man noch eineweitere wichtige Verteilung:

9.1.5 F-Verteilung

X2 sei eine χ2-verteilte Zufallsgroße vom Freiheitsgrad m und Y 2 eine davon unabhangi-ge χ2-verteilte Zufallsgroße mit dem Freiheitsgrad n. Dann heißt die Verteilung derZufallsgroße

Fm,n =X2/m

Y 2/n(9.7)

F-Verteilung mit dem Zahlerfreiheitsgrad m und dem Nennerfreiheitsgrad n . Die For-mel fur die zugehorige Dichte entnehme man z.B. [Falk et al. (1995)], Satz 2.1.10. EineHerleitung der Dichte, wieder uber die Formel (2.30), findet man etwa in[Heinhold & Gaede (1979)], S. 247-248. Dort wird auch auf den Seiten 255-258 derenge Zusammenhang zur Betaverteilung hergestellt.

E(Fm,n) =n

n− 2, fur n > 2.

V ar(Fm,n) =2n2(m + n− 2)

m(n− 2)2(n− 4), fur n > 4.

Modus(Fm,n) =n (m− 2)

m (n + 2), fur n > 1 und m > 2 .

Page 178: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

9.1. STICHPROBENVERTEILUNGEN 171

Die Definition der p-Quantile, 0 < p < 1, lautet

P (Fm,n ≤ Fm,n;p) = p .

Außerdem gilt 1/Fm,n = Fn,m und somit

P

(1

Fm,n

≥ Fn,m;1−p

)= p oder P

(Fm,n ≤

1

Fn,m;1−p

)= p ,

woraus man

Fm,n;p =1

Fn,m;1−p

(9.8)

erhalt. Diese Formel ermoglicht es, aus den p-Quantilen die dazu komplementaren(1− p) - Quantile zu berechnen.

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0 0.5 1 1.5 2 2.5 3 3.5

F4,8

F4,2

F4,∞

Bild 25: Dichten von F4,2, F4,8 und F4,∞

Zusammenhang mit der t -Verteilung

γn;1−α = tn;1−α/2 =√

F1,n;1−α , 0 < α < 1

oder

tn;p =√

F1,n;2p−1 ,1

2< p < 1 .

Tabellen der Normal-, χ2-, t- und F -Verteilung findet man im Anhang, Abschnitt 11.3.

Page 179: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

172 KAPITEL 9. STATISTIK NORMALVERTEILTER DATEN

9.2 Konfidenzintervalle, Tests (σ2 bekannt)

Seien X1, X2, . . . , Xn iid N(µ, σ2). Mit X =1

n

n∑i=1

Xi ist U =X − µ

σ/√

n∼ N(0, 1) . up

bezeichne die einseitigen und λp = u(1+p)/2 die zweiseitigen p-Quantile der Standard-normalverteilung. Die folgenden Aussagen beruhen auf

P

(|X − µ|σ/√

n≤ λp

)= P (|U | ≤ λp) = P (−λp ≤ U ≤ λp) = p = P% (9.9)

oder entsprechenden einseitigen Ansatzen der Form P (U ≥ −up) bzw. P (U ≤ up).

Tabellen fur die Quantile der Standardnormalverteilung, der χ2-, der t- und der F -Verteilung findet man im Anhang sowie in den gangigen Statistik-Lehrbuchern.

9.2.1 Konfidenzintervalle

Aus dem Ansatz von (9.9) lassen sich sog. Konfidenz- oder Vertrauensintervalleableiten; man sagt auch Vertrauensbereiche oder Bereichsschatzungen fur denunbekannten Erwartungswert µ.

Def. 9.1 (Konfidenzintervall)

Mit den symmetrischen Quantilen λp von (9.4) und vσ := λp σ/√

n definiert mandas (zufallige) Konfidenzintervall

KIn,p,σ := [X − vσ , X + vσ] ⊂ R . (9.10)

Fur dieses und 0 < p < 1 gilt

P (KIn,p,σ enthalt µ) = P(X − vσ ≤ µ ≤ X + vσ

)= p . (9.11)

KIn,p,σ(ω) = [x− vσ , x + vσ] ⊂ R (9.12)

heißt Realisierung des Vertrauens- oder Konfidenzintervalls.

Entsprechend kann man einseitige Konfidenzintervalle, die nach oben oder unten un-beschrankt sind, definieren.

Page 180: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

9.2. KONFIDENZINTERVALLE, TESTS 173

Satz 9.2 (Notwendiger Stichprobenumfang)

Oft ist man daran interessiert, dass das Konfidenzintervall hochstens eine Langevon l > 0 hat. Fur 0 < p < 1 muss dann gelten

2 vσ =2 σ√

nλp ≤ l.

Dies kann durch einen Stichprobenumfang von n ≥4 σ2 λ2

p

l2erreicht werden.

Beispiel 9.3 (Porositat von Sandstein)

Die Porositat X, d.h. der prozentuale Anteil des Porenraums eines Gesteins am Ge-samtvolumen, sei N(µ, σ2)-verteilt, σ2 = 9. n = 57 Brocken wurden zufallig aus einerGesteinsschicht herausgegriffen. Die Stichprobenrealisierung des Mittelwerts liefertex = 23.35[%]; vgl. [Kredler & Ritter (1995)].Mit λ0.95 = 1.96 und vσ = σ · λp/

√n = 3 · 1.96/

√57 = 0.78 ergibt sich die Realisierung

des 95%-Konfidenzintervalls fur µ zu

[x− vσ, x + vσ] = [22.57, 24.13] .

Mit einer Sicherheit von 95% enthalt also das berechnete Intervall den unbekanntenParameter µ .

Um die Lange des Konfidenzintervalls auf l = 2 vσ = 1 zu verkleinern, muss dann

n ≥4 σ2λ2

p

l2=

4 · 9 · 1.962

12= 138.3 ,

also n ≥ 139 gewahlt werden.

9.2.2 Tests fur µ bei bekanntem σ

Das prinzipielle Vorgehen bei einem statistischen Test wird zunachst am einfachen Bei-spiel normalverteilter Daten mit bekannter Varianz erlautert. Dem praktisch wichtigenFall mit unbekanntem σ2 ist der folgende Abschnitt gewidmet.In vielen Fallen mochte man eine statistische Entscheidung nach dem Ausfall einerStichprobe X = (X1, ..., Xn) treffen. Ein Betonwerk produziere etwa zwei Sortenvon Beton mit den mittleren Druckfestigkeiten von µ0 = 30 [N/mm2] bzw. µ1 =20 [N/mm2]. Wir nehmen an, dass die Belastung Xi bis zum Bruch von Probewurfeln(z.B. von 20 cm Kantenlange) aus einer Lieferung als normalverteilt mit Varianzσ2 = 81 [N2/mm4] angesehen werden kann. x = (x1, ..., xn) sei die Realisierung ei-ner Stichprobe X. Fur den Unterbau einer vielbefahrenen Autobahnstrecke benotigt

Page 181: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

174 KAPITEL 9. STATISTIK NORMALVERTEILTER DATEN

man unbedingt die bessere Betonsorte. Wir wissen, dass X = 1n

∑Xi ein erwartungs-

treuer Schatzer mit minimaler Varianz fur µ ist. Falls also die Realisierung x von Xkleiner ist als µ1 bzw. großer als µ0, so wird man annehmen, dass die Sorte mit dergeringeren bzw. mit der großeren Druckfestigkeit geliefert wurde. Schwieriger wird dieEntscheidung schon, wenn etwa x = 26 gemessen wurde. Ein Instrumentarium furderartige Entscheidungen liefert die statistische Testtheorie.

Aufgrund des Ausfalls (Realisierung) x = (x1, ..., xn) einer Stichprobe X = (X1, ..., Xn)soll eine Entscheidung (decision) d(x) getroffen werden zwischen einer Hypothese H0

(auch Nullhypothese) und einer Alternative H1 (auch Gegenhypothese). Wir be-schranken uns zunachst auf den Fall, dass Hypothese und Alternative den unbekanntenParameter µ einer Normalverteilung betreffen und werden hier die beiden ersten derfolgenden Beispiele erlautern

H0 : µ = µ0 , H1 : µ = µ1

H0 : µ = µ0 , H1 : µ 6= µ0

H0 : µ = µ0 , H1 : µ > µ0

H0 : µ = µ0 , H1 : µ < µ0 .

Abstrakt gesehen sind die Hypothese H0 und die Alternative H1 disjunkte Teilmengendes Parameterraums Θ = R fur den unbekannten Parameter θ = µ.Alle Tests sind festgelegt durch einen kritischen Bereich K und ein Signifikanz-niveau 0 < α < 1 , z.B. α = 0.1 , α = 0.05 , α = 0.01. P% = p = 1 − α nenntman Sicherheitswahrscheinlichkeit. Bei der folgenden Definition beschranken wiruns auf den parametrischen, eindimensionalen Fall.

Def. 9.4 (Parametrischer, statistischer Test)

X = (X1, ..., Xn) sei eine iid-Stichprobe mit Realisierung x = (x1, ..., xn). DieVerteilungsfunktion F jedes der Xi, i = 1, . . . , n, hange (u.a.) von einem unbe-kannten Parameter θ ∈ Θ ab. Die Hypothese H0 und die Alternative H1 seiendisjunkte Teilmengen von Θ.

Ein statistischer Test zum Signifikanzniveau 0 < α < 1 ist eine Entscheidungs-funktion d vom Stichprobenraum (hier Rn) nach H0, H1 , so dass

d(x) =

H1 , falls x ∈ KH0 , sonst ,

wobei der kritische Bereich K als Teilmenge des Stichprobenraumes so festgelegtist, dass

P ( d(X) = H1 | θ ∈ H0 ) = P ( X ∈ K | θ ∈ H0 ) ≤ α . (9.13)

Page 182: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

9.2. KONFIDENZINTERVALLE, TESTS 175

Offenbar sind zwei Arten von Fehlentscheidungen moglich

d(x) = H1, aber H0 ist richtig Fehler 1. Art P (Fehler 1.Art) = α

d(x) = H0, aber H1 ist richtig Fehler 2. Art P (Fehler 2.Art) = β

Wahrend die Wahrscheinlichkeit fur den Fehler 1. Art durch die Wahl eines kleinen α,z.B. α = 0.05 kontrolliert wird, ist die Wahrscheinlichkeit fur den Fehler 2. Art bereitsin den einfachsten Fallen nur sehr muhsam zu ermitteln; vgl. Beispiel unten.

Konstruktion des kritischen Bereichs K

Wir demonstrieren die Festlegung des kritischen Bereichs am Beispiel

H0 : µ = µ0 , H1 : µ = µ1 (µ1 < µ0).

Definition 9.4 legt den kritischen Bereich K nicht eindeutig fest. Fur spezielle Vertei-lungen, u.a. die Normalverteilung, laßt sich der - hinsichtlich eines gleichmaßig kleinenFehlers 2. Art - optimale kritische Bereich K einfach beschreiben. Fur die hier zuuntersuchende Alternative gilt K = x ∈ Rn | x < c . Unter der Hypothese H0 ist

U =X − µ0

σ/√

n

standardnormalverteilt, wobei

α = Φ(uα) = Φ(−u1−α) = P (U ≤ −u1−α)

= P

(X − µ0

σ/√

n≤ −u1−α

)= P

(X ≤ µ0 −

σ√n

u1−α

).

AlsoK = x ∈ Rn | x < µ0 −

σ√n

u1−α ,

was man ubrigens auch bei Wahl der Alternative µ < µ0 erhalten hatte. Die Komple-

mentarmenge K = x ∈ Rn | x ≥ µ0 −σ√n

u1−α heißt Annahmebereich.

Der kritische Bereich hangt also nur uber die Funktion X von X1, . . . , Xn ab. In diesemFall nennt man die Schatzfunktion X (fur µ) eine Teststatistik.

Seien im Beispiel n = 9 Betonwurfel mit x = 26 abgedruckt worden und α = 0.05. Esergibt sich σ = 9 , u1−α = u0.95 = 1.64 und

K = x ∈ Rn | x < c mit c = 30− 9√9

1.64 = 25.08 .

Da x = 26 ≥ 25.08 = c, ist die Hypothese H0 beizubehalten. In analoger Weise erhaltman den kritischen Bereich K = x ∈ Rn | x > c fur einpunktige Alternativenµ1 > µ0 bzw. fur H1 : µ > µ0.

Page 183: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

176 KAPITEL 9. STATISTIK NORMALVERTEILTER DATEN

9.2.3 Fehler 2. Art

Bisher wurde von der Alternative nur die Tatsache µ1 < µ0 benutzt. Der genaue Wertvon µ1 geht in den Fehler 2. Art ein. Unter H1 ist

U =X − µ1

σ/√

n

standardnormalverteilt. Wurde H0 nicht abgelehnt, so gilt

β = β(µ1) = P (Fehler 2. Art) = P ( d(X) = H0 | H1 )

= P (X ≥ c | H1) = P

(X − µ1

σ/√

n≥ c− µ1

σ/√

n

∣∣∣∣∣ H1

)

= 1− Φ

(c− µ1

σ/√

n

)= 1− Φ

(µ0 − u1−α σ/

√n− µ1

σ/√

n

)

= 1− Φ

(µ0 − µ1

σ/√

n− u1−α

)= Φ

(u1−α −

µ0 − µ1

σ/√

n

).

Im Beispiel ist die Wahrscheinlichkeit, dass wir uns falschlicherweise fur H0 entschiedenhaben

P (Fehler 2. Art) = Φ

(1.64− 30− 20

9/√

9

)= Φ(−1.69) = 1−Φ(1.69) = 0.0455 = 4.55% .

µ1 µ0

αFehler 1. Art

H0H1

kritischer Bereich K ←− | −→ Annahmebereich

Page 184: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

9.2. KONFIDENZINTERVALLE, TESTS 177

µ1 µ0

β Fehler 2. Art

H1 H0

Bild 26: Fehler 1. und 2. Art

Page 185: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

178 KAPITEL 9. STATISTIK NORMALVERTEILTER DATEN

9.2.4 Zweiseitiger Test

Beim TestH0 : µ = µ0 , H1 : µ 6= µ0

ist H0 beim Niveau α abzulehnen, falls x “zu stark” von µ0 nach oben bzw. nach untenabweicht. Das liefert den kritischen Bereich

K =

x ∈ Rn

∣∣∣ |x− µ0|σ/√

n> λ1−α

(9.14)

=

x ∈ Rn

∣∣∣ x < µ0 −σ√n

λ1−α oder x > µ0 +σ√n

λ1−α

.

α

2

µ0 µ0 + λP%σ√n

µ0 − λP%σ√n

P% = 1−α

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

Bild 27: Zweiseitiger Test

Wiederum wird der Nullhypothese durch die Wahl eines kleinen α aus [0.01, 0.1] einegroße Chance eingeraumt, nicht abgelehnt zu werden. Falls aber x in einen der nur mitα/2 Wahrscheinlichkeit auftretenden Außenbereiche fallt, so argumentiert man: “Wirwerden doch bei der Stichprobe nicht gerade eine extrem seltene Beobachtung gezogenhaben. Vielmehr liegt die Vermutung nahe, dass die Nullhypothese µ = µ0 verletztist.”

Aus didaktischen Grunden wurde zunachst σ2 als bekannt vorausgesetzt. Damit warenauch kompliziertere Berechnungen wie die fur Wahrscheinlichkeiten bzgl. des Fehlers2. Art explizit und elementar durchfuhrbar. Nun wollen wir den realistischen Fall be-trachten, dass neben dem Mittelwert µ auch die Varianz σ2 aus den Daten x1, . . . , xn

zu schatzen ist.

9.3 Konfidenzintervalle und t-Test; σ unbekannt

X1, X2, . . . , Xn seien wieder iid N(µ, σ2). Gemaß Abschnitt 9.1.4 sind

X =1

n

n∑i=1

Xi bzw. S2 =1

n− 1

n∑i=1

(Xi − X)2 ,

Page 186: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

9.3. KONFIDENZINTERVALLE UND T-TEST; σ UNBEKANNT 179

unabhangig und normal- bzw. χ2n−1-verteilt. Weiterhin ist

T =X − µ

S/√

ntn−1 − oder Student-verteilt mit n-1 Freiheitsgraden .

9.3.1 Quantile der t-Verteilung

up und λp seien wieder das p-Quantil bzw. das symmetrische p-Quantil der Standard-normalverteilung. Analog definiert man uber

P (T ≤ tν;p) = p

das p-Quantil tν;p der t-Verteilung mit ν Freiheitsgraden. γν;p bezeichne das symmetri-sche p-Quantil der t-Verteilung. Also γν;p = tν;(1+p)/2.Gemaß Abschnitt 9.1.3 konvergiert fur wachsenden Freiheitsgrad ν →∞ die t-Verteilungmit ihren breiteren Enden gegen die Standardnormalverteilung, d.h.

limν→∞

tν;p = up und limν→∞

γν;p = λp .

Wir gehen nun analog zu den vorhergehenden Abschnitten bei bekanntem σ2 vor. Diefolgenden Aussagen beruhen auf

P (|T | ≤ γν;p) = p = P% .

9.3.2 Konfidenzintervalle fur µ

P (X − v ≤ µ ≤ X + v) = P% ,

v = γn−1;pS√n

, falls σ2 unbekannt .

Um das Konfidenzintervall [x − v, x + v] auf eine gewunschte Lange l zu reduzieren,kann der notwendige Stichprobenumfang nneu fur eine ”Erganzungsstichprobe”naherungsweise folgendermaßen berechnet werden

nneu + n ≥4s2γ2

n−1;p

l2,

wobei s2 die empirische Varianz der bereits vorliegenden Stichprobe vom Umfang nist, und p = P% die gewahlte Sicherheitswahrscheinlichkeit darstellt. Im Beispiel9.3 (Sandsteinporositat) ergibt sich fur n = 57 mit der Stichprobenrealisierung s2 =

1n−1

∑(xi − x)2 = 9 bei einer Sicherheitswahrscheinlichkeit von 95%

v = γn−1;ps√n

= 2.00 · 3/√

57 = 0.795

Page 187: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

180 KAPITEL 9. STATISTIK NORMALVERTEILTER DATEN

und die Realisierung des 95%-Vertrauensintervalls fur µ:

[22.56 , 24.15] ,

die etwas breiter ausfallt als bei bekanntem σ2.

Der notwendige Stichprobenumfang einer Erganzungsstichprobe errechnet sich wieder-um fur l = 1 aus

nneu + n ≥4s2γ2

n−1;p

l2=

4 · 9 · 4.00

12= 144 .

Bei unbekanntem σ2 mussen also nneu = 87 zusatzliche Stichprobenziehungen erfolgen.Insgesamt hat man 5 Elemente mehr zu ziehen (dort waren nur 139 notwendig) alsunter gleichen Voraussetzungen bei bekanntem σ2.

9.3.3 Konstruktion von T -Statistiken, t-Tests

Bevor wir uns den wichtigen t-Tests zuwenden, soll nochmals der hier gewahlte An-satz unter einem anderen Blickwinkel, der sich weithin verallgemeinern laßt, betrachtetwerden.

Gegeben: Y1, . . . , Yn ∼ N(µ, σ2), unabhangig

Y =1

n

n∑i=1

Yi , E(Y ) = µ, D(Y ) = σ/√

n (Standardabweichung)

Nicht zuganglich: U =Y − µ

σ/√

n, da σ2 unbekannt

Ersatz: T =Y − µ

S/√

n, wobei S2 =

1

n− 1

n∑i=1

(Yi − Y )2 Schatzer fur σ2

Abstraktion: Y = µ (Schatzer fur µ); Y normalverteilt

S2µ = S2/n = Schatzer fur Varianz von Y = µ; S2

µ ∼ χ2-verteilt

T =Y − µ

S/√

n

=µ− µ

=Schatzer - (unbekannter Parameter)

Schatzung fur Standardabweichung des Schatzers

T ∼ tn−1, d.h. T ist Student-verteilt mit n−1 Freiheitsgraden. Bei Verallgemeinerungenist darauf zu achten, dass der Schatzer (hier Y ) und der Schatzer fur die Standardab-weichung des Schatzers (hier S/

√n) unabhangig sind.

Merke:

Freiheitsgrade = n - (fur S2 benotigte Parameter; z.B. X fur µ)

Page 188: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

9.3. KONFIDENZINTERVALLE UND T-TEST; σ UNBEKANNT 181

Wir behandeln stets Nullhypothesen der Art

H0 : µ = µ0 ,

mit normalverteilten, erwartungstreuen Schatzern µ. Falls die Hypothese H0 richtig ist,lautet die Prufgroße mit den Bezeichnungen des Abschnitts vorher

T =µ− µ0

.

Je nach Alternative ist die Hypothese H0 beim Signifikanzniveau α abzulehnen, fallsfur die Stichprobenrealisierung t von T gilt

Alternative Testvorschrift

H1 : µ 6= µ0 |t| > γn−1;1−α = tn−1;1−α/2

H1 : µ < µ0 t < tn−1;α

H1 : µ > µ0 t > tn−1;1−α

Die Anzahl der Freiheitsgrade ist im einfachsten Fall ν = n− 1.

Redeweisen:

Man sagt, der unbekannte Parameter µ sei fur α = 0.05 signifikant und fur α = 0.01hochsignifikant von µ0 verschieden, falls die Hypothese H0 abgelehnt wird.

Merke:

Der t-Test ist robust gegen kleine Abweichungen von der Normalverteilungsannahme.

9.3.4 t-Test verbundener Stichproben; matched pairs

Beim sog. Einstichproben t-Test (Student’s Test) geht es um die Wirkung W einesEinflusses, beispielsweise eines neuen Medikaments, auf n Probanden. Dabei wird beijedem der n Individuen eine gewisse Kenngroße X vor dem Eintreten von W gemessen(z.B. Cholesteringehalt vor Einnahme des neuen Medikaments W ). Nach dem EinflussW (z.B. Einnahme des Medikaments W ) wird die Kenngroße X bei demselben Indivi-duum nochmals erhoben (z.B. Cholesteringehalt nach Einnahme von W ). Man erhalteine Folge von matched pairs

D =[(

X1

X1

), . . . ,

(Xn

Xn

)],

z.B. Xi Gewicht Patient i vor Diatkur; Xi Gewicht Patient i nach Diatkur. Zwar sindXi und Xi nicht unabhangig. Man kann aber in vielen Fallen davon ausgehen, dassdie Unabhangigkeitsannahme fur die Differenzen Yi = Xi − Xi zutrifft. Falls die Yi

zusatzlich N(µ, σ2)-verteilt sind, dann lautet die Testgroße oder Teststatistik

Page 189: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

182 KAPITEL 9. STATISTIK NORMALVERTEILTER DATEN

T =Y − µ

SY

∼ tn−1 , S2Y =

S2

n=

1

n (n− 1)

n∑i=1

(Yi − Y

)2.

T ist also t-verteilt mit n− 1 Freiheitsgraden.

Beispiel 9.5 (Diatkur; matched pairs)

Neun Erwachsene testen eine neue Diatkur. Ihr Gewicht in Pfund betrug:

Tabelle 13: Diatkur; verbundene Stichproben

1 2 3 4 5 6 7 8 9

vorher: 132 139 126 114 122 132 142 119 126

nachher: 124 141 118 116 114 132 137 122 121

Differenz yi 8 -2 8 -2 8 0 5 -3 5

Es werde angenommen, dass die Gewichte der einzelnen Personen vorher und nachhernormalverteilte, verbundene Stichproben sind, d.h. die Differenzen Yi sind iid N(µ, σ2).Beim Niveau α = 0.05 ist die Nullhypothese, dass die Diat das erwartete Gewicht dereinzelnen Personen nicht andert, gegen die Alternative zu testen, dass das erwarteteGewicht verringert wird.

n = 9 , α = 0.05 , p = 1− α = 0.95 , t8;0.95 = 1.86 , γ8;0.95 = t8;0.975 = 2.31

y = 3 , s2 =1

9− 1

∑(yi − y)2 = 22.25 , s = 4.717 .

Die Realisierung der Teststatistik T fur die Hypothese H0 : µ = µ0 = 0 lautet

t0 =y − µ0

s/√

n=

3− 0

4.717/√

9= 1.908 .

Durchfuhrung der Tests:

Hypothese Alternative Testvorschrift Ergebnis

H0 : µ = 0 H1 : µ 6= 0 |t0| = 1.908 ≤ 2.31 = γn−1;p H0 beibehalten

H0 : µ = 0 H1 : µ > 0 t0 = 1.908 > 1.86 = tn−1;p H0 ablehnen

Wahrend die Signifikanz der Daten fur eine Ablehnung der zweiseitigen Alternativeµ 6= 0 nicht ausreicht, kann die einseitige Gegenhypothese µ > 0 beim Niveau α = 0.05abgelehnt werden. Im zweiten Fall liegt also eine signifikante Gewichtsabnahme durchdie Diatkur vor.

Page 190: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

9.3. KONFIDENZINTERVALLE UND T-TEST; σ UNBEKANNT 183

9.3.5 t-Test zum Vergleich von Mittelwerten

Das folgende Vorgehen wird auch Zweistichproben t-Test genannt, da es sich wiebei Abschnitt 9.4 um den Vergleich zweier unabhangiger Stichproben handelt. Manbetrachtet

X1, . . . , Xn iid N(µx, σ2x) (Gruppe 1)

Y1, . . . , Ym iid N(µy, σ2y) (Gruppe 2) ,

wobei X1, . . . , Xn; Y1, . . . , Ym als unabhangig vorausgesetzt werden. Damit sind auchdie abgeleiteten Großen

X undn∑

i=1

(Xi − X)2 sowie Y undm∑

j=1

(Yj − Y )2 (9.15)

unabhangig. Unter der Annahme

σ2x = σ2

y = σ2 (homogene Varianzen) (9.16)

kann die gemeinsame (“pooled”) Varianzschatzung

S2 =1

n + m− 2

n∑i=1

(Xi − X)2 +m∑

j=1

(Yj − Y )2

verwendet werden. Der Fall

σ2x = k2 σ2

y = k2 σ2 , k 6= 0 (heterogene Varianzen) (9.17)

wird mit der Transformation

X :=1

kX , Y := Y (9.18)

auf die Situation homogener Varianzen von (9.16) zuruckgefuhrt. Auch beim Ansatz(9.17) ist noch der unbekannte Faktor k zu berucksichtigen. Bei dessen Wahl kannz.B. der F-Test von Abschnitt 9.4 hilfreich sein. Einen weiteren Zugang liefert der sog.Behrens-Fisher-Ansatz; vgl. etwa [Falk et al. (1995)], S. 63.

Mit der Voraussetzung homogener Varianz von (9.16) ist

T =X − Y − (µx − µy)

S√

1n

+ 1m

=µx − µy − (µx − µy)

Sµx−µy

(9.19)

tn+m−2-verteilt. Wegen (9.15) sind namlich X, Y und S2 unabhangig. Weiterhin sindnach dem Additionstheorem der Normalverteilung unter der Hypothese (9.20)(

X − µx

)−(Y − µy

)∼ N

(0 ,(

1n

+ 1m

)σ2)

und nach dem Additionstheorem der χ2 -Verteilung

1

σ2

n∑i=1

(Xi − X)2 +m∑

j=1

(Yj − Y )2

∼ χ2n+m−2 .

Page 191: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

184 KAPITEL 9. STATISTIK NORMALVERTEILTER DATEN

Wiederum bestatigt sich hier die Faustregel:

Freiheitsgrade = Anz. Beobachtungen (n + m) - Anz. geschatzte Parameter (µx, µy).

σ2 geht nicht in die χ2 -Große ein, zahlt also nicht.

Unter der zusatzlichen Hypothese

H0 : µx = µy (9.20)

ist die Prufgroße

T0 =X − Y

S√

1n

+ 1m

tn+m−2-verteilt.

Beispiel 9.6 (Druckfestigkeit von zwei Betonsorten )

Gemaß [Heinhold & Gaede (1979)], S. 243) seien die Druckfestigkeiten in [N/mm2]von zwei Betonsorten N(µx, σ

2) bzw. N(µy, σ2)-verteilt. Zwei unabhangige Stichproben

X1, ..., Xn der Sorte 1 und Y1, ..., Ym der Sorte 2 ergaben folgende Realisierungen

Tabelle 14: Vergleich von Betonsorten

xi 14.2 14.7 13.9 14.3 13.7 13.7 14.2 14.5 14.0 14.3 i=1,...,n = 10

yj 14.7 15.2 15.0 14.9 15.4 14.6 15.0 15.2 – – j=1,...,m = 8

Fur den Test der Hypothese µx = µy gegen die Alternative µx 6= µy ergibt sich

x = 14.15 , y = 15 ;

und unter der Annahme homogener Varianzen

s2 =1

10 + 8− 2

n∑i=1

(xi − x)2 +m∑

j=1

(yj − y)2

= 0.09156 , s = 0.3026 ,

erhalt man

|t0| =|x− y|

s√

1n

+ 1m

=|14.15− 15|

0.3026√

110

+ 18

= 5.922 .

Da 5.922 > γ16;0.99 = 2.921, ist die Hypothese µx = µy sogar beim Signifikanzniveauα = 0.01 abzulehnen. Die Mittelwerte der beiden Betonsorten sind also hochsignifi-kant verschieden.

Page 192: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

9.4. VERGLEICH VON VARIANZEN, F-TEST 185

9.4 Vergleich von Varianzen, F-Test

Beim Beispiel (9.6) wurde die Annahme homogener Varianz (9.16) in den beiden zuuntersuchenden Gruppen nicht anhand der Daten verifiziert. Eine Moglichkeit dazubietet der Vergleich von Varianzen mit der F-Verteilung von Abschnitt 9.1.5. Analogzu Abschnitt 9.3.5 seien X1, . . . , Xn bzw. Y1, . . . , Ym unabhangig und N(µx, σ

2x) bzw.

N(µy, σ2y)-verteilt. Damit sind

n− 1

σ2x

S2x =

1

σ2x

n∑i=1

(Xi − X)2

bzw.m− 1

σ2y

S2y =

1

σ2y

m∑j=1

(Yj − Y )2

χ2n−1- bzw. χ2

m−1-verteilt und unabhangig. Also ist gemaß der Definition von (9.7)

F :=S2

x / σ2x

S2y / σ2

y

=

∑ni=1(Xi − X)2/(n− 1)/σ2

x∑mj=1(Yj − Y )2/(m− 1)/σ2

y

∼ Fn−1,m−1 . (9.21)

Mit der Hyptothese

H0 : σx = σy ⇐⇒ σ2x

σ2y

= 1 (9.22)

gilt

F0 :=S2

x

S2y

=

∑ni=1(Xi − X)2/(n− 1)∑mj=1(Yj − Y )2/(m− 1)

∼ Fn−1,m−1 . (9.23)

F0 ist also wie F von (9.21) F-verteilt mit Zahlerfreiheitsgrad n − 1 und Nennerfrei-heitsgrad m − 1. Fn−1,m−1;p bezeichne das einseitige p-Quantil der entsprechenden F-Verteilung. Damit gilt fur 0 < α < 1

P

(Fn−1,m−1;α/2 ≤

S2x

S2y

≤ Fn−1,m−1;1−α/2

)= 1− α . (9.24)

Wahlt man als kritischen Bereich das Komplement des Intervalls von (9.24), dann ist dieHypothese H0 beim Niveau α abzulehnen, falls fur die entsprechenden Realisierungens2

x bzw. s2y von S2

x bzw. S2y gilt:

s2x

s2y

< Fn−1,m−1;α/2 oders2

x

s2y

> Fn−1,m−1;1−α/2 .

Beispiel 9.7 (Betonsorten; Fortsetzung)

Wir greifen die Untersuchung der Druckfestigkeit zweier Betonsorten wieder auf; sieheauch [Heinhold & Gaede (1979)], S. 252. Mit den Daten von Beispiel 9.6 gilt n = 10

Page 193: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

186 KAPITEL 9. STATISTIK NORMALVERTEILTER DATEN

und m = 8. Bei einem Niveau α = 0.05, d.h. p = 0.95 und (1 + p)/2 = 0.975 liest manin den F-Tabellen zu den Freiheitsgraden 9 = n− 1 und 7 = m− 1 ab:

F9,7;0.975 = 4.82 , F9,7;0.025 =1

F7,9;0.975

=1

4.20= 0.238 ,

wobei fur 0 < p < 1/2 die Umrechnungsformel (9.8) benutzt wurde. Ferner erhalt manaus den Daten fur S2

x bw. S2y die Realisierungen

s2x =

1

n− 1

n∑i=1

(xi − x)2 = 10.72 bzw. s2y =

1

m− 1

m∑j=1

(yj − y)2 = 7.14 .

Die Hypothese H0 kann also beibehalten werden, da

F9,7;0.025 = 0.238 ≤ s2x

s2y

= 1.50 ≤ 4.82 = F9,7;0.975 .

Die Annahme homogener Varianz fur den vergleichenden Zweistichprobentest von Bei-spiel 9.6 war also gerechtfertigt.

Ware die Hypothese H0 verworfen worden, so kann das symmetrische (1−α) -Konfidenz-intervall Anhaltspunkte fur die Wahl des Faktors k von (9.17) liefern. Aus (9.21) ergibtsich fur p = 1− α

P

(S2

y

S2x

Fn−1,m−1;(1−p)/2 ≤σ2

y

σ2x

≤ Fn−1,m−1;(1+p)/2

S2y

S2x

)= p . (9.25)

Beim Beispiel 9.7 lauten die Grenzen der Realisierungen dieses Vertrauensintervalls furp = 0.95

s2y

s2x

F9,7;0.025 =7.14

10.72· 0.238 = 0.16 und

s2y

s2x

F9,7;0.975 =7.14

10.72· 4.82 = 3.21 .

Diese Zahlen belegen, wie breit Konfidenzintervalle fur Quotienten von Varianzen seinkonnen, wenn nur wenige Daten vorliegen.

In den gangigen Statistik-Programmpaketen werden weitere Tests zum Vergleich vonMittelwerten angeboten. So verwendet etwa SAS den Behrens-Fisher-Ansatz; vgl. etwa[Falk et al. (1995)], S. 63 oder die nicht mehr F -verteilte Quotientenstatistik

F ′ :=max S2

X , S2Y

min S2X , S2

Y ; (9.26)

siehe etwa [Falk et al. (1995)], S. 64. In obigem Beispiel erhielte man als Realisierung

von F ′ den Wert f ′0 =10.72

7.14= 1.501.

Fur weitere Aspekte, wie die varianzstabilisierende Wurzel- oder Logarithmustransfor-mation, muss ebenso auf die weiterfuhrende Literatur verwiesen werden (siehe etwa

Page 194: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

9.5. DER P −WERT 187

[Falk et al. (1995)], S. 67) wie fur den in der Praxis außerst nutzlichen Wilcoxon-Testzum Mittelwertvergleich. Dort wird keine Normalverteilung der Daten verlangt; vgl.[Falk et al. (1995)], S. 70-77.

Eine Frage soll am Ende dieses Abschnitts nochmals aufgegriffen werden, die mit derFestlegung des Signifikanzniveaus bei den diskutierten Tests zusammenhangt:

9.5 Der p−Wert

Manchem Leser, der sich zum ersten Mal mit statistischen Tests befaßt, wird die Fest-legung des Sigifikanzniveaus α willkurlich erscheinen. Er kann hochstens einsehen, dassα < 10% sinnvoll ist. Tatsachlich belegen die Daten von Beispiel 9.5, dass die Wahldes Sigifikanzniveaus nicht ganz unproblematisch ist. Deshalb wird in den wichtigstenStatistik-Programmpaketen zu einer Teststatistik der sog. p−Wert angegeben.

Def. 9.8 (p-Wert (p-value), Uberschreitungswahrscheinlichkeit)

Gegeben sei ein Test mit kritischem Bereich Kα, der nur uber eine TeststatistikT = T (X1, . . . , Xn) von der Stichprobe X1, . . . , Xn abhangt. t0 sei die Realisie-rung von T unter der Hypothese H0. Dann nennt man

pt0 := infα t0 ∈ Kα (9.27)

den p − Wert (p − value) von t0. Falls

Kα′ ⊂ Kα fur α′ ≤ α (9.28)

ist der p-Wert jenes Signifikanzniveau, bei dem die Nullhypothese gerade nochabgelehnt wird.

Die Hypothese H0 ist also beim Niveau α abzulehnen, falls

pt0 < α. (9.29)

T ist dabei eine beliebige Teststatistik. H0 werde abgelehnt, falls t0 ∈ Kα. Fur wach-sendes α blaht sich Kα immer mehr auf, wahrend es bei kleiner werdendem α immermehr schrumpft. Anstatt sich den Kopf zu zerbrechen, ob man α = 0.05 oder α = 0.01von vorneherein festlegen soll, kann man auch erst die Realisierung t0 aus den Datenbestimmen und sehen, ob die Hypothese nicht beim Niveau 0.05 beibehalten oder beimNiveau 0.01 abgelehnt wird. Bei kritischen Bereichen, die die Bedingung (9.28) erfullen,andert sich dann in diesen Fallen die Entscheidung fur 0.01 ≤ α ≤ 0.05 nicht.

Nun soll der p−Wert an zwei Beispielen erlautert werden. Bei der Diatkur von Beispiel9.5 galt t0 = 1.908. Man erhalt fur die zweiseitige bzw. einseitige Alternative:

Page 195: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

188 KAPITEL 9. STATISTIK NORMALVERTEILTER DATEN

Alternative kritischer Bereich p−Wert : pt0 := infα t0 ∈ Kα

H1 : µ 6= 0 |t| > γn−1;1−α pt0 = P (|T | > |t0|) = 9.28%, da γ8;0.9072 = 1.908

H1 : µ > 0 t > tn−1;1−α pt0 = P (T > t0) = 4.64%, da t8;0.9536 = 1.908

Legt man das ubliche Signifikanzniveau von α = 0.05 zugrunde, so sieht man an demp − Wert von p1.908 = 4.64% bei der einseitigen Alternative, dass bereits bei einemNiveau von α = 4.5% die Hypothese nicht abgelehnt worden ware.Dagegen liefert die Realisierung der T-Statistik beim Mittelwertvergleich des Beispiels9.6 mit den Betonsorten bei 16 Freiheitsgraden einen p−Wert von

p5.922 = P (|T | > 5.922) = 0.002% , (9.30)

was z.B. bedeutet, dass die dort vorliegende Hypothese bei den beobachteten Datensogar bei dem extrem kleinen Signifikanzniveau 0.01% abzulehnen ware. Weitere Detailszum p−Wert entnehme man etwa [Falk et al. (1995)], S. 66 und [Fahrmeir et al. (1997)],S. 408.

In Programmpaketen wie SAS wird ubrigens der jeweilige p−Wert durch Bezeichnun-gen wie ” P > |T | ” ausgewiesen.

Page 196: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

9.6. EINFACHE LINEARE REGRESSION 189

9.6 Einfache lineare Regression

Ei , i = 1, . . . , n, seien iid N(0, σ2) Zufallsvariable (ZV) und x1, . . . , xn bekannte Zahlen(z.B. Meßstellen). Zu unbekannten Parametern α und β (auch Regressionskoeffizienten)beobachtet man Realisierungen der ZV

Yi = α + β xi + Ei, i = 1, . . . , n.

Aus den Voraussetzungen folgt fur i = 1, . . . , n: Yi ∼ N( α+β xi , σ2 ) und unabhangig.Wie in der empirischen Regression definiert man

x =1

n

n∑i=1

xi, s2x =

1

n

n∑i=1

(xi − x)2.

Man beachte jedoch, dass jetzt

Y =1

n

n∑i=1

Yi, S2Y =

1

n

n∑i=1

(Yi − Y )2 und Sxy =1

n

n∑i=1

(Yi − Y )(xi − x)

Zufallsvariable sind.

Schatzungen und deren Verteilung

Mit s2x > 0 (d.h. nicht alle xi identisch) erhalt man folgende Schatzungen fur die

unbekannten Parameter

β = B =Sxy

s2x

=

∑(Yi − Y )(xi − x)∑

(xi − x)2,

α = A = Y −B x ,

S2 :=n

n− 2(S2

Y −B2s2x) =

1

n− 2

n∑i=1

(Yi − Yi)2,

wobeiYi = A + Bxi, i = 1, . . . , n.

yi, a und b seien die Realisierungen von Yi, i = 1, . . . , n, A und B. Damit ergeben sichgerade die Ergebnisse der empirischen Regression. Weiterhin sei

s2 :=1

n− 2

n∑i=1

(yi − a− bxi)2 , s =

√s2 .

Analog zum Beweis der Unabhangigkeit des Stichprobenmittels und der Stichproben-varianz zeigt man, dass die Schatzfunktionen Y , B und S2 unabhangig sind. Damitist auch A = Y − B x von S2 unabhangig. Ferner sind A bzw. B normalverteilt mitErwartungswerten α bzw. β. (n− 2) S2/σ2 ist χ2-verteilt mit n− 2 Freiheitsgraden.

Fur die Schatzer A und B lauten die Varianzen

D2(B) = V ar(B) =σ2

ns2x

=σ2∑

(xi − x)2

Page 197: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

190 KAPITEL 9. STATISTIK NORMALVERTEILTER DATEN

D2(A) = V ar(A) = D2(B)(x2 + s2x) = σ2

∑x2

i /n∑(xi − x)2

.

Mit S2 anstelle des unbekannten σ2 erhalt man Varianzschatzungen fur A und B

σ2B = D2(B) =

S2∑(xi − x)2

und σ2A = D2(A) = S2

∑x2

i /n∑(xi − x)2

.

Damit sind

TA =A− α

σA

und T = TB =B − β

σB

t-verteilt mit n− 2 Freiheitsgraden (zur Berechnung von S2 benotigt man die Schatzerfur die unbekannten Parameter α und β).

Signifikanztest und Vertrauensintervalle

Der folgende Signifikanz-Test wird haufig fur den Spezialfall β0 = 0 angewendet

H0 : β = β0 H1 : β 6= β0

1 − p bezeichne das Testniveau. H0 ist mit einer Sicherheitswahrscheinlichkeit vonp = P% abzulehnen, falls fur die Realisierung t0 der Testgroße

T0 =B − β0

σB

unter der Nullhypothese gilt

|t0| =|b− β0|

s/√∑

(xi − x)2> γn−2;P%.

Kann H0 : β0 = 0, etwa beim Signifikanzniveau 1 − p = 0.05 nicht abgelehnt werden,so ist der einfachere Ansatz

E(Yi) = α

(ohne xi) eher gerechtfertigt als

E(Yi) = α + βxi .

Obige Verteilungen von A , B und S2 liefern folgende P%-Vertrauens- oder Konfi-denzintervalle fur die Regressionskoeffizienten α und β :

P (A− dA ≤ α ≤ A + dA) = P%, dA = γn−2;P%S

√√√√ ∑x2

i /n∑(xi − x)2

P (B − dB ≤ β ≤ B + dB) = P%, dB = γn−2;P%S/

√∑(xi − x)2 .

Page 198: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

9.6. EINFACHE LINEARE REGRESSION 191

Mit ahnlichen Uberlegungen wie bei den Regressionskoeffizienten (siehe etwa[Heinhold & Gaede (1979)], § 21 oder [Fahrmeir et al. (1996)], Kapitel 4.) erhalt manzwei weitere wichtige Konfidenzintervalle:

Prognoseintervall:Fur festgelegtes x0 sei Y (x0) eine neue ZV, unabhangig von Y1, . . . , Yn, mitE [Y (x0)] = α + βx0. Y (x0) = A + Bx0 bezeichne die Prognose fur Y (x0). Mit

d(x0) = γn−2;P% S

√√√√1 +1

n+

(x0 − x)2∑(xi − x)2

.

erhalt manP(Y (x0)− d(x0) ≤ Y (x0) ≤ Y (x0) + d(x0)

)= P%

ein P%-Konfidenzintervall fur eine neue Beobachtung Y (x0) an der Stelle x0. Y (x0) =A+Bx0 ist ein erwartungstreuer Schatzer fur Y (x0). Die Prognose wird umso ungenau-er, je weiter x0 von x entfernt ist; siehe Bild 28. Das relativ weite Konfidenzintervall furdie Prognose darf nicht verwechselt werden mit dem engeren fur den Erwartungswert.

Vertrauensintervall fur den Erwartungswert η(x) = α + βx , x bekannt:Sei

c(x) = γn−2;P% S

√√√√ 1

n+

(x− x)2∑(xi − x)2

,

dann giltP(Y (x)− c(x) ≤ η(x) ≤ Y (x) + c(x)

)= P%.

Die Konfidenzintervalle fur Erwartungswert und Prognose unterscheiden sich formalnur im Term

√1 + ... und sind - grob gesprochen - folgendermaßen zu interpretieren:

1. Erwartungswert: Wurde man das dem linearen Modell zugrundeliegende Zufalls-experiment 1000 mal mit jeweils einer genugenden Zahl von Datenpunkten durchfuhren,so lagen bei einem Konfidenzniveau p = 0.95 ca. 950 der berechneten Regressionsgera-den im engeren der beiden Konfidenzintervalle.2. Prognose: Wiederum fur p = 0.95 liegen ca. 95% der Ergebnisse Y (x

(j)0 ) des glei-

chen Zufallsexperiments an 1000 neuen Meßpunkten x(j)0 , j = 1, ..., 1000, im breiteren

Prognoseintervall.

Beispiel 9.9 (Korngroße und Druckfestigkeit)

vgl. [Stoyan (1993)]; Abschnitt 1.3.

Tabelle 15: Y Druckfestigkeit [N/mm2], x Korndurchmesser [mm], n = 30xi 3.5 2.4 1.8 3.2 2.4 3.5 3.0 3.5 4.0 1.8 2.9 3.5 2.4 2.9 3.3yi 23.2 38.5 42.0 32.1 41.2 25.8 41.0 33.9 22.7 43.3 34.8 33.1 42.6 32.7 24.0xi 2.6 2.6 1.6 3.0 1.5 3.0 2.4 3.9 2.3 2.1 2.7 2.6 4.0 2.9 1.1yi 31.5 34.2 47.9 34.4 49.2 34.4 36.6 28.5 40.6 42.1 37.1 33.0 21.8 37.4 52.1

Page 199: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

192 KAPITEL 9. STATISTIK NORMALVERTEILTER DATEN

20

25

30

35

40

45

50

55

1 1.5 2 2.5 3 3.5 4

x : Korndurchmesser

Y : Druckfestigkeit

obere 95%-Prognosegrenze

untere 95%-Prognosegrenze r

rr

r

r

r

rr

r

rr r

r

rr

rr

r

r

r

rrr

rrr

r

r

r

r

Bild 28: Regressionsgerade y = a + bx mit 95%-Prognoseintervall

Aus den Daten erhalt man zunachst die Hilfgroßen

x = 2.747 ,∑

(xi − x)2 = 16.054 ,

y = 35.723 ,∑

(yi − y)2 = 1750.43 ,

n = 30 und∑

(xi − x)(yi − y) = −151.69 .

Daraus ergeben sich folgende Schatzungen fur die Regressionskoeffizienten

b =−151.69

16.054= −9.45 , a = 35.723− (−9.45)2.747 = 61.68 .

Als Restvarianz erhalt man dann

s2 =1

n− 2

n∑i=1

(yi − a− bxi)2 = 11.327 , s = 3.366 .

Bestimmtheitsmaß R2 und Korrelationskoeffizient r lauten hier

R2 =(−151.69)2

16.054 · 1750.43= 0.819 , r = −0.905 .

Die Hypothese H0 : β = 0 ist beim Niveau 0.05 abzulehnen, da

|t0| =| − 9.45|

3.366/√

16.054= 11.25 > 2.048 = γ28;0.95 = t28;0.975 .

Der p−Wert pt0 (vgl. Abschnitt 9.5) zu t0 = −11.25, also jenes Signifikanzniveau, beidem H0 gerade noch abgelehnt wurde, lautet pt0 = p−11.25 = 0.000%; ist also praktischgleich Null.

Page 200: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

9.7. MULTIPLE REGRESSION 193

95%-Konfidenzintervalle:

Mit dem symmetrischen Quantil γ28;0.95 = 2.048 erhalt man

dB = 2.0483.366√16.054

= 1.72 , dA = 1.72√

16.054/30 + 2.7472 = 4.89 ,

wobei die Identitat∑

x2i /n =

∑(xi − x)2/n + x2 benutzt wurde. Somit lauten die

Realisierungen der 95%-Vertauensintervalle

56.78 ≤ a ≤ 66.57 , − 11.17 ≤ b ≤ −7.73 .

Tabelle 16: Prognosen und 95%-Konfidenzintervalle fur drei x-Werte

x Prognose y(x)(x− x)2∑(xi − x)2

c(x) = γs√

1n

+∑

... d(x) = γs√

1 + 1n

+∑

...

1.1 51.28 0.169 3.10 7.56

x y = 35.72 0 1.26 7.01

4 23.88 0.098 2.50 7.33

Tabelle 17: Realisierungen der 95%-Prognoseintervalle

x y(x) Erwartungswert η(x) Prognose y(x)

1.1 51.28 [48.18,54.38] [43.72,58.84]

x = 2.747 y = 35.72 [34.46,36.98] [28.71,42.73]

4 23.88 [21.38,26.38] [16.55,31.21]

Das Schaubild zeigt die sog. Regressionstrompete fur das 95%-Prognoseintervall.Die Prognose ist also bei x am genauesten und wird umso unscharfer, je weiter mansich von x entfernt. Ubrigens liegt (x, y) stets auf der Regressionsgeraden.

9.7 Multiple Regression

Hier setzt manE(Yi) = xT

i β , i = 1, . . . , n ,

an, wobeixi = (xi1, . . . , xip)

T , p ≤ n ,

Page 201: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

194 KAPITEL 9. STATISTIK NORMALVERTEILTER DATEN

nicht zufallsabhangige, bekannte Vektoren sind, die sog. Regressor-Variablen.

β = (βi, . . . , βp)T

ist ein unbekannter Parametervektor.

X =

xT

1...

xTn

heißt Daten- oder Design-Matrix.

Die erste Spalte von X wird meist als (1, . . . , 1)T gewahlt und reprasentiert im Ansatzein konstantes Glied (z.B. α in der einfachen linearen Regression). Mit

xi = (1, xi)T und β = (a, β)T

ist die einfache lineare Regression ein Spezialfall der multiplen Regression.Seien weiterhin

Y = (Y1, . . . , Yn)T und E = (E1, . . . , En)T ,

dann erhalt man in Matrixschreibweise

Y = X β + E , E(E) = 0 , Cov(E) = σ2I.

Die Schatzungen β bzw. S2 fur die unbekannten Parameter β und σ2 erhalt man aus

den sog. Normalgleichungen

XT Xβ = XT Y

und

S2 =1

n−Rang(X)||Y −Xβ||22.

Bei Maximalrang, also Rang(X) = p, gilt

β = (XT X)−1XT Y

und

Cov(β) = σ2(XT X

)−1=: σ2 C .

Falls E ∼ Nn(0, σ2I)-verteilt ist, gilt:

1. β und S2 sind unabhangig

2.(n− p) S2

σ2ist χ2

n−p-verteilt

3. β ist Np

(β, σ2

(XT X

)−1)

-verteilt.

Page 202: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

9.7. MULTIPLE REGRESSION 195

Daraus lassen sich analog zur einfachen linearen Regression Konfidenzintervalle fur dieβi und fur Prognosen ableiten. Wir gehen hier nur noch ein auf den Signifikanz-Test

H0 : βi = 0, H1 : βi 6= 0.

H0 ist abzulehnen, falls|βi|√cii S

> γn−p;P%,

wobei cii das i -te Diagonalelement von C = (XT X)−1 und γn−p;P% das symmetrischeP%-Quantil der t-Verteilung mit n− p Freiheitsgraden bezeichnet.

Bemerkungen:

1. Falls mehrere Regressor-Variablen (man sagt auch: Einflussgroßen oder Re-gressoren) vorliegen, laßt sich der oben genannte Signifikanz-Test zur sog. Va-riablenauswahl heranziehen. Wird namlich H0 fur ein βi abgelehnt, so ubt dieseVariable (statistisch gesehen) keinen Einfluss auf den Erwartungswert von Y ausund kann im Ansatz weggelassen werden. Das fortgesetzte Aufnehmen und Weg-lassen von Regressorvariablen nennt man Schrittweise Regression. Fur Detailssei auf die weiterfuhrende Literatur verwiesen, z.B. [Fahrmeir et al. (1996)], Ka-pitel 4 oder [Seber (1977)].

2. Die Berechnungen zur multiplen Regression werden normalerweise mit Standard-statistikpaketen wie SPSS, SAS, S-Plus etc. durchgefuhrt.

3. Wie schon erwahnt, kann die einfache lineare Regression als Spezialfall der mul-tiplen Regression mit p = 2 angesehen werden.

Fur eine eingehende Diskussion weiterer statistischer Fragestellungen sei auf Lehrbucherwie [Sachs (1984)], [Witting (1985)] und [Fahrmeir et al. (1996)] hingewiesen.

Page 203: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

Kapitel 10

Explorative Datenanalyse

Die Darstellung folgt in wichtigen Teilen [Falk et al. (1995)]. Eine leicht verstandlicheEinfuhrung in die Datenanalyse findet man auch in [Fahrmeir et al. (1997)].

Eine wesentliche Grundlage der explorativen Datenanalyse ist die Tatsache, dass sicheine unbekannte Verteilungsfunktion durch Realisierung entsprechend vieler zugehori-ger iid-Zufallsvariablen beliebig genau approximieren laßt.

Def. 10.1 (Empirische Verteilungsfunktion)

X1, . . . , Xn ∈ R sei eine Stichprobe. Dann heißt

Fn(t) =| Xi, i = 1, . . . , n : Xi ≤ t |

n=

1

n

n∑i=1

1(−∞,t](Xi), t ∈ R,

empirische Verteilungsfunktion. Je nach Sachlage werden wir obigen Zu-gang mit den Zufallsvariablen (ZV) Xi oder die der Definition 7.12 entsprechendeSchreibweise von Fn bzgl. der Realisierungen x1, . . . , xn wahlen. 1A(·) bezeichnetdie Indikatorfunktion einer Menge A, vgl. Def. 1.44.

Lemma 10.2 (von Glivenko-Cantelli)

Fur iid-Variablen X1, . . . , Xn mit Verteilungsfunktion F gilt

P

(lim

n→∞supt∈R|Fn(t)− F (t)| = 0

)= 1 , d. h.

limn→∞

supt∈R|Fn(t)− F (t)| = 0 fast sicher (f.s.) ,

wobei Fn(t) =n∑

i=1

1(−∞,t](Xi)/n.

Das Glivenko-Cantelli-Lemma wird oft Hauptsatz der Statistik genannt.

196

Page 204: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

10.1. KERNDICHTE-SCHATZER 197

Beweis: siehe etwa [Chung (1974)], Theorem 5.5.1.

10.1 Kerndichte-Schatzer

Sind die Xi stetig und ist F differenzierbar, so lautet die Dichte f = F ′ (wir nehmenwieder an, dass f stuckweise stetig ist). Wir erhalten somit f.s.

Fn(t + h)− Fn(t)

hn→∞−→ F (t + h)− F (t)

hh→0−→ F ′(t) = f(t)

fur t ∈ R und h > 0. Wenn n also groß genug ist und h klein, so wird gelten:

Fn(t + h)− Fn(t)

h∼ f(t) ,

wobei das Symbol ”∼” hier soviel wie asymptotisch gleich bedeutet. Mit den Bezeich-nungen von Abschnitt 7.3 und t = aj−1, h = aj − aj−1, folgt daher fur x ∈ Ij

Fn(t + h)− Fn(t)

h=

Fn(aj)− Fn(aj−1)

aj − aj−1

=nj

n

1

aj − aj−1

= fn(x) ∼ f(t) .

Die empirische Dichte fn ist also ein Schatzer fur die zugrundeliegende Dichte f(·).

Def. 10.3 (Kern)

Es sei K : R → [0, 1] eine Verteilungsfunktion, der sogenannte Kern. Setze furh > 0 und t ∈ R

Fn(t) =

∞∫−∞

K(

t− x

h

)dFn(x) =

1

n

n∑i=1

K(

t−Xi

h

).

Der Schatzer Fn(t) ist die Faltung von K(·/h) und der empirischen Verteilungs-funktion Fn und heißt Kern-Schatzer von F , der Verteilungsfunktion von iid-ZVX, X1, . . . , Xn. Der Parameter h heißt Bandbreite (bandwidth) oder Fenster-breite.

Je nachdem, ob die Schatzfunktion (Schatzer) Fn oder die reelle Funktion Fn(t) be-trachtet wird, ist jeweils die ZV Xi oder deren Realisierung xi, i = 1, . . . , n, einzusetzen.Da K eine Verteilungsfunktion ist, gilt lim

x→∞K(x) = 1 und lim

x→−∞K(x) = 0.

Damit ist Fn auch eine Verteilungsfunktion, die bei einer kleinen Fensterbreite h in derNahe der empirischen Verteilungsfunktion liegt, denn

Fn(t) =1

n

n∑i=1

K(

t−Xi

h

)h→0−→ Fn(t)

Page 205: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

198 KAPITEL 10. EXPLORATIVE DATENANALYSE

fur alle t /∈ X1, . . . , Xn, d. h. Fn(t) ist wiederum ein Schatzer fur F (t). Fur differen-zierbares K mit K ′ = k folgt:

F ′n(t) =1

nh

n∑i=1

k(

t−Xi

h

)=

1

h

∞∫−∞

k(

t− x

h

)dFn(x) =: fn(t) ,

wobei die Differentiation so durchzufuhren ist als wurde xi anstelle der Xi verwendet.

Def. 10.4 (Kern-Dichteschatzer)

Sei F die Verteilungsfunktion von stetigen iid ZV X, X1, . . . , Xn mit Dichte f

und k : R −→ R eine nichtnegative Funktion mit∞∫−∞

k(x) dx = 1, der Kern. Die

Abbildung

fn(t) =1

nh

n∑i=1

k(

t−Xi

h

)=

1

h

∞∫−∞

k(

t− x

h

)dFn(x) , t ∈ R , h > 0 ,

heißt univariater Kern-Dichteschatzer fur f(t) mit Fensterbreite oder Band-breite h.

Die Verwandtschaft mit der Histogramm-Dichte von Abschnitt 7.3 zeigt sich bei derspeziellen Wahl k(x) = 1

21[−1,1)(x)

fn(t) =1

nh

n∑i=1

k(

t−Xi

h

)=

Fn(t + h)− Fn(t− h)

2h(10.1)

=Anzahl der Beobachtungen im Intervall (t− h, t + h]

n · Lange von (t− h, t + h].

Wichtige Beispiele fur Kerndichteschatzer sind:

1. Epanechnikov-KernDieser populare Kern ist definiert als

kE(x) =

3

4√

5

(1− x2

5

), falls |x| ≤

√5

0 , sonst.

(10.2)

Unter allen Kernen k, die außerhalb des Intervalls [−√

5,√

5] den Wert 0 anneh-men und fur die gilt ∫

k(x) dx = 1,∫

x2 k(x) dx = 1 ,

minimiert er∫

k2(x)dx.

Page 206: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

10.1. KERNDICHTE-SCHATZER 199

2. Rechtecks-Kern

ku(x) :=

1

2, falls |x| ≤ 1

0 , falls |x| > 1 .

3. Dreiecks-Kern

k∆(x) :=

1− |x| , falls |x| ≤ 1

0 , falls |x| > 1 .

4. Normalverteilungs (Gauß)-Kern

kϕ(x) :=1√2π

e−x2/2

Fur eine ausfuhrlichere Darstellung siehe z.B. [Falk et al. (1995)].

Kerndichteschatzer sind sehr sensitiv gegenuber der Wahl der Bandbreite h. Dies stehtin direkter Analogie zum Einfluss der Intervallbreiten bei Histogrammen. Das folgen-de Bild zeigt Kerndichteschatzer desselben Typs angewendet auf Jahresminima derWintertemperaturen in der Oberpfalz bzgl. der Jahre 1946 bis 1997. Man beachte dieunterschiedliche Skalierung der Ordinatenachse.

Bild 29: Kerndichteschatzer mit Bandbreite h = 0.5 (links) und h = 0.125.

Fur eine Diskussion optimaler Bandbreiten muss auf die Spezialliteratur verwiesen wer-den. Statistikpakete wie SAS bieten eine interaktive Wahl der Bandbreite an, was furden Benutzer in vielen Fallen ausreicht.

Das sog. nichtparametrische Modell der Kerndichteschatzer laßt sich in der Regel sehrgut an gegebene Daten anpassen. Dieses Verfahren eignet sich aber beispielsweise nicht,

Page 207: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

200 KAPITEL 10. EXPLORATIVE DATENANALYSE

um Extremwerte zu schatzen. Denn alle genannten Kerndichteschatzer haben kompak-ten Trager. Uber diesen beschrankten ”Tellerrand” konnen sie nicht hinaussehen, wasaber bei der Behandlung von Extremwerten unerlaßlich ist. Interessant ist etwa die Be-rechnung der Wahrscheinlichkeit dafur, dass die Jahresextremtemperatur unter −40

Celsius sinkt. Gemaß obigen Grafiken verschwindet die Kerndichteschatzung ”links”von −37, womit die gesuchte Wahrscheinlichkeit 0 ist.Die ubliche Alternative zu Kerndichteschatzern ist die historisch altere - und nach wievor haufig angewendete - Methode der parametrischen Dichteschatzverfahren. Dort istein gewisser Verteilungstyp a priori festzulegen (z.B. Normal-, Exponentialverteilungetc.). Dann sind nur noch die unbekannten Parameter (z.B. µ, σ2 oder λ) dieser Ver-teilung zu schatzen; etwa mit der ML-Methode.

Page 208: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

10.2. QQ-PLOTS 201

10.2 QQ-Plots

Wie schon in dem vorangegangenen Abschnitt unterscheiden wir hier nicht zwischenden Zufallsvariablen X1, . . . , Xn und deren Realisierungen x1, . . . , xn. Der besserenUbersicht halber seien einige Resultate aus dem Abschnitt 1.5.4 hier nochmals zusam-mengestellt. Notation und Darstellung folgen weitgehend[Falk et al. (1995)].

Def. 10.5 (Verallgemeinerte Inverse, Quantilfunktion)

F←(q) := inf x ∈ R : F (x) ≥ q , q ∈ (0, 1) .

heißt verallgemeinerte Inverse oder Quantilfunktion zu F .

Lemma 10.6 (Eigenschaften der Quantilfunktion)

1. Fur beliebige Verteilungsfunktionen gilt

F←(q) ≤ t⇐⇒ q ≤ F (t) fur alle t ∈ R und q ∈ (0, 1) .

2. Fur streng monotones F : R→ (0, 1) erhalt man F← = F−1.

Korollar 10.7 (Quantiltransformation)

X sei eine ZV mit Verteilungsfunktion F und U sei (0, 1)-gleichverteilt.

1. Fur beliebiges X hat die Zufallsvariable Y := F←(U) die Verteilungsfunk-tion F , d. h.

P (Y ≤ y) = P (F←(U) ≤ y) = F (y) , y ∈ R .

2. Fur stetiges F ist Z := F (X) gleichverteilt in (0, 1), d. h.

P (Z ≤ z) = P (F (X) ≤ z) = z , z ∈ (0, 1) .

Wegen dieser Transformation kann man bei der Untersuchung einer Zufallsvariablen Xmit Verteilungsfunktion F von der Darstellung

X = F←(U)

ausgehen, wobei U ∼ U(0, 1).

Page 209: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

202 KAPITEL 10. EXPLORATIVE DATENANALYSE

Lemma 10.8 (Normierung)

Es sei Y eine Zufallsvariable mit der Verteilungsfunktion G; σ > 0, µ ∈ R. Weiter seiF eine Verteilungsfunktion zu X := µ + σY , d. h. F (t) = G((t − µ)/σ), t ∈ R. Danngilt fur q ∈ (0, 1):

F←(q) = µ + σ G←(q) .

Lemma 10.9

Fur auf (0, 1) gleichverteilte und unabhangige Zufallsvariablen U1, . . . , Un gilt mitWahrscheinlichkeit 1

max1≤k≤n

|Uk:n − k/n| ≤ supt∈[0,1]

|Fn(t)− t| ,

wobei Fn die empirische Verteilungsfunktion zu U1, . . . , Un ist und U1:n < U2:n <. . . < Un:n die in Abschnitt 2.54 eingefuhrten Ordnungsstatistiken bezeichnen. Wegender Stetigkeit der Gleichverteilung folgt P (Uk:n = Uk+1:n) = 0.

Korollar 10.10

In Analogie zum starken Gesetz der großen Zahlen (vgl. Satz 4.8 und wegen Formel(2.43) gilt fur die Ordnungsstatistiken Uk:n, k = 1, . . . , n, mit Wahrscheinlichkeit 1

max1≤k≤n

|Uk:n −k

n + 1| n→∞−→ 0 .

Die Beweise entnehme man [Falk et al. (1995)], S. 31 ff.

Korollar 10.11

Die Zufallsvariablen X1, . . . , Xn seien iid mit der Verteilungsfunktion F und es sei F←

stetig auf (a, b) ⊂ (0, 1). Dann gilt fur die Ordnungsstatistiken Xk:n mit Wahrschein-lichkeit 1

maxk1≤k≤k2

|Xk:n − F←(k

n + 1)| n→∞−→ 0 ,

falls k1 = k1(n) ≤ k2 = k2(n) Zahlenfolgen sind, welche die Bedingung

a < limn∈N

infk1

n≤ lim

n∈Nsup

k2

n< b

erfullen.

Page 210: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

10.2. QQ-PLOTS 203

Beweis:Die Funktion F← ist gleichmaßig stetig auf [a + ε, b − ε], falls ε > 0 hinreichend kleinist. Setzen wir Xk:n = F←(Uk:n), so folgt die Behauptung aus dem vorherigen Korollar.

Quantil-Plots (QQ-Plots)

Wir nehmen im folgenden an, dass die Zufallsvariablen X1, . . . , Xn iid sind mit identi-scher Verteilungsfunktion F der Form

F (t) = G(

t− µ

σ

), t ∈ R .

Dann gilt gemaß den Korollaren 10.7 und 10.10 sowie mit Lemma 10.8

Xi:n = F←(Ui:n) = µ + σ G←(Ui:n) , i = 1, . . . , n .

Plotten wir nun Xk:n gegen G←(k/(n+1)), d. h. tragen wir in einem Koordinatensystemdie Punkte (

G←(

k

n + 1

), Xk:n

), k = 1, . . . , n ,

ab, so erhalten wir einen Quantile-Quantile Plot oder QQ-Plot. Man beachte noch,dass die der Große nach geordneten Xk:n entlang der senkrechten Ordinaten-Achseaufgetragen werden. Aufgrund des obigen Korollars 10.10 wird im Fall einer stetigenQuantilfunktion G← : (0, 1)→ R die Approximation

Xk:n ∼ F←(

k

n + 1

)= µ + σ G←

(k

n + 1

)

gelten, so dass die Punkte

(G←(k/(n + 1)), Xk:n) ∼ (G←(k/(n + 1)), µ + σ G←(k/(n + 1)))

in etwa auf der Geraden s = µ + σ t ' Xn + Sn t , t ∈ R liegen werden. Dabei be-zeichnet Sn = sn(X1, . . . , Xn) die Standardabweichung zu X1, . . . , Xn und Xn derenarithmetisches Mittel.Wir wollen nun untersuchen, ob die Gewichts-Daten von Beispiel 7.14 in etwa normal-verteilt sind. Bild 30 zeigt den QQ-Plot bzgl. G = Φ, wobei Φ wieder die Standard-normalverteilungsfunktion bezeichnet. Die geplotteten Punkte liegen in etwa auf einerGeraden. Der QQ-Plot spricht also nicht gegen eine Normalverteilungsannahme. Ach-senabschnitt (beim Abszissenwert 0) und Steigung der KQ-Geraden durch die Daten(

Φ−1

(k

n + 1

), Xk:n

)k=1,...,n

stimmen sehr gut mit den Schatzungen x = 61.49 und s = 2.58 fur Mittelwert undStandardabweichung uberein. Bei der Standardnormalverteilung gilt gemaß Punkt 2.

Page 211: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

204 KAPITEL 10. EXPLORATIVE DATENANALYSE

von Lemma 10.6: Φ← = Φ−1.

Bild 30: QQ-Plot der Daten von Beispiel 7.14 fur G = Φ

Die folgenden Grafiken zeigen, dass QQ-Plots bei der Festlegung des korrekten Ver-teilungsmodells ein machtigeres Hilfsmittel sind als der optische Eindruck, den Histo-gramme vermitteln. Bild 31 stellt das Histogramm und den QQ-Plot fur 100 simuliertestandardnormalverteilte Daten dar.

Page 212: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

10.2. QQ-PLOTS 205

Bild 31: QQ-Plot 100 standarnormalverteilter Daten gegen Quantile von G = Φ

Das Histogramm der 1000 t-verteilten Daten (mit Freiheitsgrad 4) des folgenden Bildes32 wirkt optisch symmetrischer und legt eher eine Verwandtschft mit der GaußschenGlockenkurve nahe als das Histogramm der immerhin 100 normalverteilten Daten vonBild 31. Beim QQ-Plot zeigt sich aber an den Enden jene typische Abweichung derDaten nach unten (linkes Ende) bzw. nach oben (rechtes Ende) von der angepaßtenKQ-Geraden, das fur Verteilungen mit heavy tails charakteristisch ist. Die Masse solcherVerteilungen ist (bei geeigneter Standardisierung) ”nicht so eng” um den Mittelwertkonzentriert wie etwa die Masse der Standardnormalverteilung.

Page 213: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

206 KAPITEL 10. EXPLORATIVE DATENANALYSE

Bild 32: QQ-Plot 1000 t4-verteilter Daten gegen Quantile von G = Φ

Page 214: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

10.3. BOX-PLOTS 207

10.3 Box-Plots

Hier stellen wir ein anschauliches Instrument zu einer ersten Datenbegutachtung vor.Folgende Fragen sind interessant:

1. Ist die empirische Verteilung der Daten symmetrisch ?

2. Spricht etwas dagegen, dass die beobachteten Daten unabhangige Realisierungeneiner normalverteilten Zufallsvariablen (ZV) sind ?

3. Wie eng (bezogen auf die Standardabweichung) streuen die Beobachtungen umden Mittelwert ?

4. Gibt es Ausreißer, d. h. Beobachtungen, die ”sehr weit” vom Mittelwert entferntliegen ?

Wir wollen nun diese Fragen einer quantifizierbaren Untersuchung zuganglich machen.Als Referenz dient (wie konnte es anders sein) die Normalverteilung mit Mittelwertµ ∈ R, Varianz σ2 > 0 und der Dichte

f(x ; µ, σ2) =1√2π σ

e− (x−µ)2

2σ2

Die Dichte der N(0, 1)-Standardnormalverteilung bezeichnen wir wieder mit ϕ und diezugehorige Verteilungsfunktion mit Φ.

Fur eine beliebige Zufallsvariable X mit Verteilungsfunktion F bezeichne gemaß Def.1.50

xp := inf x ∈ R | F (x) ≥ p , p ∈ (0, 1) (10.3)

das p-Quantil. Q1 = x0.25 bzw. Q3 = x0.75 heißen erstes bzw. drittes Quartilund Q2 = x0.5 Median. Demenstprechend lautet dann der InterquartilsabstandIQR = Q3 −Q1.

Quantile und Quartile der Standardnormalverteilung

Nun sei up speziell das p-Quantil fur die Standarnormalverteilung mit

Φ(up) = p , 0 < p < 1 .

Aus den N(0, 1)-Tabellen des Anhangs 11.3 entnimmt man Q3 = u0.75 ' 0.675.Der genaue Wert lautet u0.75 = 0.6745. Weiterhin gilt hier aus SymmetriegrundenΦ(−u) = 1 − Φ(u), und daher u1−p = −up. Also Q1 = −0.6745, Q2 = 0 undIQR = 2 τ = 1.349, was τ = 0.6745 zur Folge hat.

Page 215: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

208 KAPITEL 10. EXPLORATIVE DATENANALYSE

Q1

µ− 0.6745σµ

Q3

µ + 0.6745σ

50%

Bild 33: Quartile der N(µ, σ2) -Verteilung

Man beachte, dass die Normalverteilung starker um den Mittelwert konzentriert ist alsviele andere Verteilungen. Dies druckt sich darin aus, dass der Semiquartilsabstand τeinen kleineren Bruchteil der Standardabweichung ausmacht als beispielsweise bei derGleichverteilung.

Tabelle 18: Vergleich τ und σ

Verteilung τ σ

Normalverteilung 0.675 σ 1.483 τ

Gleichverteilung 0.865 σ 1.156 τ

Der Ubersichtlichkeit halber seien hier nochmals wichtige symmetrische p-Quantileλp := u(1+p)/2 der Standardnormalverteilung zusammengestellt; vgl. auch Tabelle 12

Tabelle 19: N(µ, σ2) , symmetrische Quantile λP%

Flache symmetrisches Intervall symmetrisches QuantilP% [µ− σ · λP% ; µ + σ · λP%] λP%

50% [µ− 0.6745 σ ; µ + 0.6745 σ] 0.6745

68.26% [µ− σ ; µ + σ] 1

95.46% [µ− 2 σ ; µ + 2 σ] 2

99% [µ− 2.576 σ ; µ + 2.576 σ] 2.576

99.31% [µ− 4 τ ; µ + 4 τ ] 2.698

99.73% [µ− 3 σ ; µ + 3 σ] 3

Page 216: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

10.3. BOX-PLOTS 209

Das Intervall [µ − 4 τ ; µ + 4 τ ] kann wegen Q1 = µ − τ und Q3 = µ + τ auch in derForm

[Q1 − 3 τ ; Q3 + 3 τ ] = [Q1 − 1.5 IQR ; Q3 + 1.5 IQR] (10.4)

dargestellt werden. Gemaß obiger Tabelle mussen uber 99% normalverteilter Daten indiesem Intervall liegen. Ist dies nicht der Fall, so muss von einer Abweichung der Datenvon der Normalverteilung ausgegangen werden. Eine einfache grafische Darstellungdieses Zusammenhangs sind sog. Box-Plots.

Median Q3Q1

3 τ = 1.5 IQR3 τ = 1.5 IQR

99.3%

bei Normalverteilung

-

Bild 34: Idealer Box-Plot fur N(µ, σ2)

Bei ideal normalverteilten Daten wird der Median (dicker senkrechter Balken) genauin der Mitte der Box (linkes Ende Q1 , rechtes Ende Q3 ) liegen. Die Nadeln (whiskers)links und rechts der Box sind hochstens 3 τ = 1.5 IQR lang. Falls der kleinste Daten-punkt xmin innerhalb der Spanne Q1 − 3 τ liegt, so endet die linke Nadel bereits beixmin; analog rechts bei xmax.In der Praxis sind die in Def. 1.50 erklarten Werte Q1, Q2 und Q3 sowie IQR = Q3−Q1

normalerweise nicht bekannt. Deswegen ersetzt man diese Großen durch ihre empiri-schen Analoga von Def. 7.18. Fur die folgenden Uberlegungen sind also immer dieempirischen Quartile oder die davon abgeleiteten Großen τ bzw. IQR heranzuziehen.

Der Box-Plot ist so eingerichtet, dass bei normalverteilten Daten nur sehr selten Wertelinks und rechts außerhalb der Nadeln liegen. Naturlich ist dieser Fall auch bei exaktnormalverteilten Daten nicht ganz ausgeschlossen.

Page 217: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

210 KAPITEL 10. EXPLORATIVE DATENANALYSE

Median Q3Q1

3 τ = 1.5 IQR3 τ = 1.5 IQR

99.3%

bei Normalverteilung

-

u?

einer von 100 simulierten Punkten liegt auerhalb des ”Nadelbereichs”

Bild 35: Box-Plot fur 100 N(µ, σ2) -Zufallszahlen

Bild 35 zeigt den Box-Plot von 100 simulierten normalverteilten Daten. Einer dieserWerte liegt außerhalb des Nadelbereichs, der damit 99% der Daten uberdeckt. Ubri-gens kommt die theoretisch vorliegende Symmetrie auch grafisch im Box-Plot schonzum Ausdruck.

Die bereits in Beispiel 7.14 untersuchten Korpergewichte

Tabelle 20: Urliste Korpergewichte

57.8 61.3 60.1 60.0 63.7 60.5 64.8 62.2 58.1 65.9 61.1

63.2 56.2 64.4 61.9 59.7 60.2 61.3 65.6 63.2 58.7 62.8

mit Q0 = 56.2 = xmin; Q1 = 60; Q2 = 61.3 = Median; Q3 = 63.2;Q4 = 65.9 = xmax; τ = (Q3 −Q1)/2 = 1.6;

Q1 − 3 τ = 60− 4.8 = 55.2 < xmin = 56.2

Q3 + 3 τ = 63.2− 4.8 = 68 > xmax = 65.9

liefern folgende Grafik:

Page 218: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

10.3. BOX-PLOTS 211

Q1 Median Q3

Q4Q0

max. 3 τ max. 3 τ xmaxxmin

56 58 60 62 64 66

alle 22 Datenpunkte liegen innerhalb des Nadelbereichs

Bild 36: Box-Plot fur das Beispiel Korpergewichte

Da xmax naher bei Q3 liegt als xmin bei Q1, ist die rechte Nadel kurzer als die linke.

Bewertung eines Box-Plots. Sind die Daten normalverteilt?

1. Ein Box-Plot kann nur Anhaltspunkte und Indizien fur oder gegen die Normalver-teilungsannahme liefern. In der Regel sind Verteilungstests zur Prufung der Nor-malverteilungshypothese durchzufuhren. Außerdem sollten QQ-Plots (vgl. Ab-schnitt 10.2) und Großen wie Schiefe und Exzess zur Beurteilung der Daten mitherangezogen werden. Falls Normalverteilung vorliegt, durfen die empirischenWerte fur Schiefe und Exzess nicht zu weit von 0 abweichen.

2. Fur eine Normalverteilung der Daten von Bild 36 spricht, dass kein Wert weitlinks oder rechts außerhalb der Nadelspitzen liegt.

3. Eher gegen die Normalverteilungsannahme spricht, dass weder der Median sym-metrisch in der Box liegt noch die Nadeln links und rechts einigermaßen gleichlangsind.

Fur weitere Details sei auf Lehrbucher wie [Falk et al. (1995)] und [Fahrmeir et al. (1997)]hingewiesen.

Page 219: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

Kapitel 11

Anhang, Tabellen,Approximationen

11.1 Asymptotische Formeln

Zur Berechnung der Verteilungsfunktionen bzw. der Quantile der Normal-, χ2-, t- bzw.F -Verteilung liegen in den wichtigen Statistikprogrammpaketen Routinen vor. Trotz-dem wollen wir hier noch einige Naherungs- bzw. asymptotische Formeln angeben, diegelegentlich nutzlich sind.

1. Reihendarstellung der Standardnormalverteilungsfunktion Φ

Durch gliedweise Integration der Reihe der Standarnormalverteilungsdichte erhaltman:

Φ(u) =1

2+

1√2π

∞∑k=0

(−1)k u2k+1

2 · 4 · 6 · . . . · 2k · (2k + 1)(11.1)

Fur numerische Zwecke eignet sich die folgende Darstellung, die man durch par-tielle Integration gewinnt, besser:

Φ(u) =1

2+

1√2π

e−u2/2∞∑

k=0

u2k+1

1 · 3 · 5 · . . . · (2k + 1)(11.2)

2. Asymptotische Approximationen der χ2 -Verteilung

χ2ν;p ' 1

2(√

2ν − 1 + up)2 fur Freiheitsgrade ν > 100

χ2ν;p ' ν(1− e + up

√e)3 , e =

2

9νfur Freiheitsgrade ν > 50.

Fur ν = 85 und p = 0.95 gilt also mit u0.95 = 1.645

212

Page 220: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

11.1. ASYMPTOTISCHE FORMELN 213

Tabelle 21: Approximation der χ2-Quantile

χ285;0.95 Formel Art der Berechnung

107.521 ——— exakt

107.5 (101.9 + 113.1)/2 aus Tabelle interpoliert

107.24 0.5(√

2 · 85− 1 + 1.645)2 grobe Formel (1)

107.52 85 · (1− 0.002641 + 1.645 ·√

0.002641)3 genauere Formel (2)

e = 2/(9 · 85) = 0.002641

3. Asymptotik der t -Verteilung

tν;p ' up +up

4ν(u2

p + 1) +1

96ν2(5u5

p + 16u3p + 3up) = tappr

ν;0.95 .

Mit dieser Naherung erhalten wir beispielsweise fur p = 0.95 und u0.95 = 1.645

Tabelle 22: t-Approximation

ν tapprν;0.95 texakt

ν;0.95

15 1.75275 1.75305

65 1.66863 1.66864

85 1.66298 1.66298

4. Asymptotik der F -Verteilung

Zur naherungsweisen Berechnung der Quantile konnen folgende Grenzeigenschaf-ten der Verteilungsfunktionen herangezogen werden

limn→∞

Fm,n(x) = χ2m(mx) ,

limm→∞

Fm,n(x) = 1− χ2n(

n

x) .

Sind gm bzw. gn die Dichten von χ2m - bzw. χ2

n-verteilten Zufallsvariablen, sobedeutet dies fur die Dichten

limn→∞

fm,n(x) = mgm(mx) ,

limm→∞

fm,n(x) =n

x2gn(

n

x) .

Page 221: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

214 KAPITEL 11. ANHANG, TABELLEN, APPROXIMATIONEN

11.2 Rationale Bestapproximationen fur Φ und Φ−1

Die Standardnormalverteilungsfunktion und deren Quantile konnen beliebig genau ap-proximiert werden. Wir begnugen uns hier mit ca. 6 Stellen. Eine fur die Praxis aus-reichende Naherung Φ(u) von

Φ(u) :=1√2π

∫ u

−∞e−

t2

2 dt

fur u ≥ 0 erhalt man mit

Ψ(u) := e−u2 a0 + a1u + a2u2

b0 + b1u + b2u2 + u3, wobei

a0 = 2.6938, a1 = 1.9273, a2 = 0.56656,b0 = 2.6938, b1 = 4.9678, b2 = 3.4710, (b3 = 1),

und

Φ(u) = 1− 1

2Ψ(

u√2) .

Fur negative Argumente nutzt man die Identitat: Φ(−u) = 1− Φ(u). Ubrigens gilt:

| Φ(u)− Φ(u) | ≤ 5.5 · 10−6 fur alle u ≥ 0 .

Bei der Berechnung der Umkehrfunktion Φ−1(p) sucht man fur p ∈ (0, 1) ein u ∈ R, sodass Φ(u) = p. Fur p ≤ 0.5 erhalt man eine Naherung u fur u durch:

u(p) :=a0 + a1t + a2t

2

1 + b1t + b2t2 + b3t3− t , wobei t =

√−2 ln(p) und

a0 = 2.515517, a1 = 0.802853, a2 = 0.010328,b1 = 1.432788, b2 = 0.189269, b3 = 0.001308.

Fur Argumente 0.5 < p < 1 nutzt man wiederum Φ(−u) = 1 − Φ(u) und erhalt jetztΦ−1(p) = −Φ−1(1− p) und die Fehlerabschatzung:

| u(p)− Φ−1(p) | ≤ 4.5 · 10−4 fur alle p ∈ (0, 1) .

Algorithmen fur genauere Approximationen findet man in:

Abramowitz, M. and Stegun, I.A. (eds.): Handbook of Mathematical Functions. DoverPublications, New York 1965.Hart J.F. (ed.): Computer Approximations, 2nd edition. Krieger Publ. Comp., Hun-tington 1978.

11.3 Tabellen

Es folgen Tabellen fur die Standardnormalverteilung und fur Stichprobenverteilungen,die aus der Normalverteilung abgeleitet sind.

Page 222: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

11.3. TABELLEN 215

u .00 .01 .02 .03 .04 .05 .06 .07 .08 .090.0 .50000 .50399 .50798 .51197 .51595 .51994 .52392 .52790 .53188 .535860.1 .53983 .54380 .54776 .55172 .55567 .55962 .56356 .56749 .57142 .575340.2 .57926 .58317 .58706 .59095 .59483 .59871 .60257 .60642 .61026 .614090.3 .61791 .62172 .62552 .62930 .63307 .63683 .64058 .64431 .64803 .651730.4 .65542 .65910 .66276 .66640 .67003 .67364 .67724 .68082 .68439 .687930.5 .69146 .69497 .69847 .70194 .70540 .70884 .71226 .71566 .71904 .722400.6 .72575 .72907 .73237 .73565 .73891 .74215 .74537 .74857 .75175 .754900.7 .75804 .76115 .76424 .76730 .77035 .77337 .77637 .77935 .78230 .785240.8 .78814 .79103 .79389 .79673 .79954 .80234 .80510 .80785 .81057 .813270.9 .81594 .81859 .82121 .82381 .82639 .82894 .83147 .83398 .83646 .838911.0 .84134 .84375 .84613 .84849 .85083 .85314 .85543 .85769 .85993 .862141.1 .86433 .86650 .86864 .87076 .87286 .87493 .87697 .87900 .88100 .882981.2 .88493 .88686 .88877 .89065 .89251 .89435 .89616 .89796 .89973 .901471.3 .90320 .90490 .90658 .90824 .90988 .91149 .91309 .91466 .91621 .917731.4 .91924 .92073 .92220 .92364 .92507 .92647 .92785 .92922 .93056 .931891.5 .93319 .93448 .93574 .93699 .93822 .93943 .94062 .94179 .94295 .944081.6 .94520 .94630 .94738 .94845 .94950 .95053 .95154 .95254 .95352 .954491.7 .95543 .95637 .95728 .95818 .95907 .95994 .96080 .96164 .96246 .963271.8 .96407 .96485 .96562 .96637 .96711 .96784 .96856 .96926 .96994 .970621.9 .97128 .97193 .97257 .97320 .97381 .97441 .97500 .97558 .97615 .976702.0 .97725 .97778 .97831 .97882 .97932 .97982 .98030 .98077 .98124 .981692.1 .98213 .98257 .98300 .98341 .98382 .98422 .98461 .98500 .98537 .985742.2 .98610 .98645 .98679 .98713 .98745 .98777 .98809 .98840 .98870 .988992.3 .98928 .98955 .98983 .99010 .99036 .99061 .99086 .99111 .99134 .991572.4 .99180 .99202 .99224 .99245 .99266 .99286 .99305 .99324 .99343 .993612.5 .99379 .99396 .99413 .99430 .99446 .99461 .99477 .99491 .99506 .995202.6 .99534 .99547 .99560 .99573 .99585 .99598 .99609 .99621 .99632 .996432.7 .99653 .99664 .99674 .99683 .99693 .99702 .99711 .99720 .99728 .997362.8 .99744 .99752 .99760 .99767 .99774 .99781 .99788 .99795 .99801 .998072.9 .99813 .99819 .99825 .99830 .99836 .99841 .99846 .99851 .99856 .998603.0 .99865 .99869 .99874 .99878 .99882 .99886 .99889 .99893 .99896 .999003.1 .99903 .99906 .99909 .99913 .99916 .99918 .99921 .99924 .99926 .999293.2 .99931 .99934 .99936 .99938 .99940 .99942 .99944 .99946 .99948 .999503.3 .99952 .99953 .99955 .99957 .99958 .99960 .99961 .99962 .99964 .999653.4 .99966 .99967 .99969 .99970 .99971 .99972 .99973 .99974 .99975 .999763.5 .99977 .99977 .99978 .99979 .99980 .99981 .99981 .99982 .99983 .999833.6 .99984 .99985 .99985 .99986 .99986 .99987 .99987 .99988 .99988 .999893.7 .99989 .99990 .99990 .99990 .99991 .99991 .99991 .99992 .99992 .999923.8 .99993 .99993 .99993 .99994 .99994 .99994 .99994 .99994 .99995 .999953.9 .99995 .99995 .99996 .99996 .99996 .99996 .99996 .99996 .99996 .99997

Normalverteillung

Page 223: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

216 KAPITEL 11. ANHANG, TABELLEN, APPROXIMATIONEN

pν 0.005 0.01 0.025 0.05 0.10 0.20 0.50 0.80 0.90 0.95 0.975 0.99 0.995

1 .04393 .03157 .03982 .02393 .01579 .06418 .4549 1.642 2.706 3.841 5.024 6.635 7.8792 .01003 .02010 .05064 .1026 .2107 .4463 1.386 3.219 4.605 5.991 7.378 9.210 10.603 .07172 .1148 .2158 .3518 .5844 1.005 2.366 4.642 6.251 7.815 9.348 11.34 12.844 .2070 .2971 .4844 .7107 1.064 1.649 3.357 5.989 7.779 9.488 11.14 13.28 14.865 .4117 .5543 .8312 1.145 1.610 2.343 4.351 7.289 9.236 11.07 12.83 15.09 16.756 .6757 .8721 1.237 1.635 2.204 3.070 5.348 8.558 10.64 12.59 14.45 16.81 18.557 .9893 1.239 1.690 2.167 2.833 3.822 6.346 9.803 12.02 14.07 16.01 18.48 20.288 1.344 1.646 2.180 2.733 3.490 4.594 7.344 11.03 13.36 15.51 17.53 20.09 21.959 1.735 2.088 2.700 3.325 4.168 5.380 8.343 12.24 14.68 16.92 19.02 21.67 23.59

10 2.156 2.558 3.247 3.940 4.865 6.179 9.342 13.44 15.99 18.31 20.48 23.21 25.1911 2.603 3.053 3.816 4.575 5.578 6.989 10.34 14.63 17.28 19.68 21.92 24.72 26.7612 3.074 3.571 4.404 5.226 6.304 7.807 11.34 15.81 18.55 21.03 23.34 26.22 28.3013 3.565 4.107 5.009 5.892 7.042 8.634 12.34 16.98 19.81 22.36 24.74 27.69 29.8214 4.075 4.660 5.629 6.571 7.790 9.467 13.34 18.15 21.06 23.68 26.12 29.14 31.3215 4.601 5.229 6.262 7.261 8.547 10.31 14.34 19.31 22.31 25.00 27.49 30.58 32.8016 5.142 5.812 6.908 7.962 9.312 11.15 15.34 20.47 23.54 26.30 28.85 32.00 34.2717 5.697 6.408 7.564 8.672 10.09 12.00 16.34 21.61 24.77 27.59 30.19 33.41 35.7218 6.265 7.015 8.231 9.390 10.86 12.86 17.34 22.76 25.99 28.87 31.53 34.81 37.1619 6.844 7.633 8.907 10.12 11.65 13.72 18.34 23.90 27.20 30.14 32.85 36.19 38.5820 7.434 8.260 9.591 10.85 12.44 14.58 19.34 25.04 28.41 31.41 34.17 37.57 40.0021 8.034 8.897 10.28 11.59 13.24 15.44 20.34 26.17 29.62 32.67 35.48 38.93 41.4022 8.643 9.542 10.98 12.34 14.04 16.31 21.34 27.30 30.81 33.92 36.78 40.29 42.8023 9.260 10.20 11.69 13.09 14.85 17.19 22.34 28.43 32.01 35.17 38.08 41.64 44.1824 9.886 10.86 12.40 13.85 15.66 18.06 23.34 29.55 33.20 36.42 39.36 42.98 45.5625 10.52 11.52 13.12 14.61 16.47 18.94 24.34 30.68 34.38 37.65 40.65 44.31 46.9326 11.16 12.20 13.84 15.38 17.29 19.82 25.34 31.79 35.56 38.89 41.92 45.64 48.2927 11.81 12.88 14.57 16.15 18.11 20.70 26.34 32.91 36.74 40.11 43.19 46.96 49.6428 12.46 13.56 15.31 16.93 18.94 21.59 27.34 34.03 37.92 41.34 44.46 48.28 50.9929 13.12 14.26 16.05 17.71 19.77 22.48 28.34 35.14 39.09 42.56 45.72 49.59 52.3430 13.79 14.95 16.79 18.49 20.60 23.36 29.34 36.25 40.26 43.77 46.98 50.89 53.6731 14.46 15.66 17.54 19.28 21.43 24.26 30.34 37.36 41.42 44.99 48.23 52.19 55.0032 15.13 16.36 18.29 20.07 22.27 25.15 31.34 38.47 42.58 46.19 49.48 53.49 56.3333 15.82 17.07 19.05 20.87 23.11 26.04 32.34 39.57 43.75 47.40 50.73 54.78 57.6534 16.50 17.79 19.81 21.66 23.95 26.94 33.34 40.68 44.90 48.60 51.97 56.06 58.9635 17.19 18.51 20.57 22.47 24.80 27.84 34.34 41.78 46.06 49.80 53.20 57.34 60.2736 17.89 19.23 21.34 23.27 25.64 28.73 35.34 42.88 47.21 51.00 54.44 58.62 61.5837 18.59 19.96 22.11 24.07 26.49 29.64 36.34 43.98 48.36 52.19 55.67 59.89 62.8838 19.29 20.69 22.88 24.88 27.34 30.54 37.34 45.08 49.51 53.38 56.90 61.16 64.1839 20.00 21.43 23.65 25.70 28.20 31.44 38.34 46.17 50.66 54.57 58.12 62.43 65.4840 20.71 22.16 24.43 26.51 29.05 32.34 39.34 47.27 51.81 55.76 59.34 63.69 66.7741 21.42 22.91 25.21 27.33 29.91 33.25 40.34 48.36 52.95 56.94 60.56 64.95 68.0542 22.14 23.65 26.00 28.14 30.77 34.16 41.34 49.46 54.09 58.12 61.78 66.21 69.3443 22.86 24.40 26.79 28.96 31.63 35.07 42.34 50.55 55.23 59.30 62.99 67.46 70.6244 23.58 25.15 27.57 29.79 32.49 35.97 43.34 51.64 56.37 60.48 64.20 68.71 71.8945 24.31 25.90 28.37 30.61 33.35 36.88 44.34 52.73 57.51 61.66 65.41 69.96 73.1746 25.04 26.66 29.16 31.44 34.22 37.80 45.34 53.82 58.64 62.83 66.62 71.20 74.4447 25.77 27.42 29.96 32.27 35.08 38.71 46.34 54.91 59.77 64.00 67.82 72.44 75.7048 26.51 28.18 30.75 33.10 35.95 39.62 47.34 55.99 60.91 65.17 69.02 73.68 76.9749 27.25 28.94 31.55 33.93 36.82 40.53 48.33 57.08 62.04 66.34 70.22 74.92 78.2350 27.99 29.71 32.36 34.76 37.69 41.45 49.33 58.16 63.17 67.50 71.42 76.15 79.4960 35.53 37.48 40.48 43.19 46.46 50.64 59.33 68.97 74.40 79.08 83.30 88.38 91.9570 43.28 45.44 48.76 51.74 55.33 59.90 69.33 79.71 85.53 90.53 95.02 100.4 104.280 51.17 53.54 57.15 60.39 64.28 69.21 79.33 90.41 96.58 101.9 106.6 112.3 116.390 59.20 61.75 65.65 69.13 73.29 78.56 89.33 101.1 107.6 113.1 118.1 124.1 128.3

100 67.33 70.06 74.22 77.93 82.36 87.95 99.33 111.7 118.5 124.3 129.6 135.8 140.2

Ablesebeispiele: Pχ2ν ≤ 4.404 = 0.025 = 2.5% ν = 12; .043927 = .00003927

Asymptotische Formel: χ2ν;p ' 1

2(√

2ν − 1 + up)2 fur Freiheitsgrade ν > 100.

χ2-Verteilung

Page 224: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

11.3. TABELLEN 217

p

ν 0.90 0.95 0.975 0.99 0.995 0.999 0.99951 3.078 6.314 12.71 31.82 63.66 318.3 636.62 1.886 2.920 4.303 6.965 9.925 22.33 31.603 1.638 2.353 3.182 4.541 5.841 10.21 12.924 1.533 2.132 2.776 3.747 4.604 7.173 8.6105 1.476 2.015 2.571 3.365 4.032 5.893 6.8696 1.440 1.943 2.447 3.143 3.708 5.208 5.9597 1.415 1.895 2.365 2.998 3.499 4.785 5.4088 1.397 1.859 2.306 2.896 3.355 4.500 5.0419 1.383 1.833 2.262 2.821 3.250 4.296 4.781

10 1.372 1.812 2.228 2.764 3.169 4.143 4.58711 1.363 1.796 2.201 2.718 3.106 4.024 4.43712 1.356 1.782 2.179 2.681 3.054 3.929 4.31813 1.350 1.771 2.160 2.650 3.012 3.852 4.22114 1.345 1.761 2.145 2.624 2.977 3.787 4.14015 1.341 1.753 2.131 2.602 2.947 3.732 4.07316 1.337 1.746 2.120 2.583 2.921 3.686 4.01517 1.333 1.740 2.110 2.567 2.898 3.645 3.96518 1.330 1.734 2.101 2.552 2.878 3.610 3.92219 1.328 1.729 2.093 2.539 2.861 3.579 3.88320 1.325 1.725 2.086 2.528 2.845 3.551 3.84921 1.323 1.721 2.080 2.518 2.831 3.527 3.81922 1.321 1.717 2.074 2.508 2.819 3.505 3.79223 1.319 1.714 2.069 2.500 2.807 3.485 3.76824 1.318 1.711 2.064 2.492 2.797 3.466 3.74525 1.316 1.708 2.059 2.485 2.787 3.450 3.72526 1.315 1.706 2.055 2.479 2.779 3.435 3.70727 1.314 1.703 2.052 2.473 2.771 3.421 3.68928 1.313 1.701 2.048 2.467 2.763 3.408 3.67429 1.311 1.699 2.045 2.462 2.756 3.396 3.65930 1.310 1.697 2.042 2.457 2.750 3.385 3.64640 1.303 1.684 2.021 2.423 2.704 3.307 3.55150 1.299 1.676 2.009 2.403 2.678 3.261 3.49660 1.296 1.671 2.000 2.390 2.660 3.231 3.46080 1.292 1.664 1.990 2.374 2.639 3.195 3.416

100 1.290 1.660 1.984 2.364 2.626 3.174 3.390120 1.289 1.658 1.980 2.358 2.617 3.159 3.373200 1.286 1.653 1.972 2.345 2.601 3.131 3.340500 1.283 1.648 1.965 2.334 2.586 3.106 3.310∞ 1.282 1.645 1.960 2.326 2.576 3.090 3.291

t-Verteilung

Page 225: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

218 KAPITEL 11. ANHANG, TABELLEN, APPROXIMATIONEN

f1f2 1 2 3 4 5 6 7 8 9 10 15 20 30 40 50 100 200 500 ∞1 161 200 216 225 230 234 237 239 241 242 246 248 250 251 252 253 254 254 2542 18.5 19.0 19.2 19.2 19.3 19.3 19.4 19.4 19.4 19.4 19.4 19.4 19.5 19.5 19.5 19.5 19.5 19.5 19.52 18.5 19.0 19.2 19.2 19.3 19.3 19.4 19.4 19.4 19.4 19.4 19.4 19.5 19.5 19.5 19.5 19.5 19.5 19.53 10.1 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.70 8.66 8.62 8.59 8.58 8.55 8.54 8.53 8.534 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.86 5.80 5.75 5.72 5.70 5.66 5.65 5.64 5.635 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.62 4.56 4.50 4.46 4.44 4.41 4.39 4.37 4.366 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 3.94 3.87 3.81 3.77 3.75 3.71 3.69 3.68 3.677 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.51 3.44 3.38 3.34 3.32 3.27 3.25 3.24 3.238 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 3.22 3.15 3.08 3.04 3.02 2.97 2.95 2.94 2.939 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.01 2.94 2.86 2.83 2.80 2.76 2.73 2.72 2.71

10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.85 2.77 2.70 2.66 2.64 2.59 2.56 2.55 2.5411 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85 2.72 2.65 2.57 2.53 2.51 2.46 2.43 2.42 2.4012 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.62 2.54 2.47 2.43 2.40 2.35 2.32 2.31 2.3013 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67 2.53 2.46 2.38 2.34 2.31 2.26 2.23 2.22 2.2114 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60 2.46 2.39 2.31 2.27 2.24 2.19 2.16 2.14 2.1315 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54 2.40 2.33 2.25 2.20 2.18 2.12 2.10 2.08 2.0716 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.35 2.28 2.19 2.15 2.12 2.07 2.04 2.02 2.0117 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45 2.31 2.23 2.15 2.10 2.08 2.02 1.99 1.97 1.9618 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.27 2.19 2.11 2.06 2.04 1.98 1.95 1.93 1.9219 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38 2.23 2.16 2.07 2.03 2.00 1.94 1.91 1.89 1.8820 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 2.20 2.12 2.04 1.99 1.97 1.91 1.88 1.86 1.8425 4.24 3.39 2.99 2.76 2.60 2.49 2.40 2.34 2.28 2.24 2.09 2.01 1.92 1.87 1.84 1.78 1.75 1.73 1.7130 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16 2.01 1.93 1.84 1.79 1.76 1.70 1.66 1.64 1.6240 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08 1.92 1.84 1.74 1.69 1.66 1.59 1.55 1.53 1.5150 4.03 3.18 2.79 2.56 2.40 2.29 2.20 2.13 2.07 2.03 1.87 1.78 1.69 1.63 1.60 1.52 1.48 1.46 1.4460 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99 1.84 1.75 1.65 1.59 1.56 1.48 1.44 1.41 1.3970 3.98 3.13 2.74 2.50 2.35 2.23 2.14 2.07 2.02 1.97 1.81 1.72 1.62 1.57 1.53 1.45 1.40 1.37 1.3580 3.96 3.11 2.72 2.49 2.33 2.21 2.13 2.06 2.00 1.95 1.79 1.70 1.60 1.54 1.51 1.43 1.38 1.35 1.3290 3.95 3.10 2.71 2.47 2.32 2.20 2.11 2.04 1.99 1.94 1.78 1.69 1.59 1.53 1.49 1.41 1.36 1.33 1.30

100 3.94 3.09 2.70 2.46 2.31 2.19 2.10 2.03 1.97 1.93 1.77 1.68 1.57 1.52 1.48 1.39 1.34 1.31 1.28150 3.90 3.06 2.66 2.43 2.27 2.16 2.07 2.00 1.94 1.89 1.73 1.64 1.54 1.48 1.44 1.34 1.29 1.25 1.22200 3.89 3.04 2.65 2.42 2.26 2.14 2.06 1.98 1.93 1.88 1.72 1.62 1.52 1.46 1.41 1.32 1.26 1.22 1.19300 3.87 3.03 2.63 2.40 2.24 2.13 2.04 1.97 1.91 1.86 1.70 1.61 1.50 1.43 1.39 1.30 1.23 1.19 1.15500 3.86 3.01 2.62 2.39 2.23 2.12 2.03 1.96 1.90 1.85 1.69 1.59 1.48 1.42 1.38 1.28 1.21 1.16 1.11∞ 3.84 3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.88 1.83 1.67 1.57 1.46 1.39 1.35 1.24 1.17 1.11 1.00

95%-Quantile der F-Verteilungf1 = m, f2 = n

Page 226: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

11.4. NORMAL- BZW. POISSONAPPROX. DER BINOMIALVERTEILUNG 219

11.4 Approximation der Binomial- durch die

Normal- bzw. Poissonverteilung

Seien n ∈ N, 0 < p < 1 und λ = n p und weiterhin

bk,n,p :=

(n

k

)px (1− p)n−k , k = 0, 1, . . . , n ,

vk,λ :=λk

k!e−λ , k ∈ N0 ,

NVk,n,p = Φ

k + 0.5− n p√n p (1− p)

− Φ

k − 0.5− n p√n p (1− p)

, Φ(u) =1√2π

u∫−∞

e−t2/2 dt .

Die Approximationsgute sowohl der Normal- als auch der Poissonverteilung wachst furgroßes n. Die Approximationsgute der Normalverteilung ist fur p ≈ 1/2 am genauesten,wahrend die Poissonapproximation fur kleines p und kleines k die besseren Ergebnisseliefert. Dies wird durch folgende Abschatzung motiviert:Fur eine beliebige Teilmenge A ⊂ N0 sowie jedes 0 < p < 1 und jedes n ∈ N gilt∣∣∣∣∣∣

∑k∈A

bk,n,p −∑k∈A

vk,np

∣∣∣∣∣∣ ≤ p .

Vergleich der Binomialwahrscheinlichkeiten bk,n,p mit der Normalverteilungsapproxi-mation NVk,n,p bzw. der Naherung vk,np durch die Poissonverteilung.

n = 12, p = 0.4, λ = n p = 4.8

Binomial Normal Poisson

k bk,n,p NVk,n,p |bk,n,p −NVk,n,p| vk,np |bk,n,p − vk,np|0 0.0022 0.0047 0.0026 0.0082 0.00611 0.0174 0.0203 0.0029 0.0395 0.02212 0.0639 0.0617 0.0021 0.0948 0.03103 0.1419 0.1342 0.0077 0.1517 0.00984 0.2128 0.2080 0.0048 0.1820 0.03085 0.2270 0.2302 0.0031 0.1747 0.05236 0.1766 0.1818 0.0052 0.1398 0.0368

n = 50, p = 0.01, λ = n p = 0.5

Binomial Normal Poisson

k bk,n,p NVk,n,p |bk,n,p −NVk,n,p| vk,np |bk,n,p − vk,np|0 0.6050 0.4224 0.1826 0.6065 0.00151 0.3056 0.4224 0.1168 0.3033 0.00232 0.0756 0.0754 0.0002 0.0758 0.00023 0.0122 0.0022 0.0100 0.0126 0.00044 0.0015 0.0000 0.0014 0.0016 0.00015 0.0001 0.0000 0.0001 0.0001 0.0000

Page 227: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

Literaturverzeichnis

[Becker (1993)] B.: Statistik. Oldenbourg, Munchen.

[Chatterjee et al. (1995)] Chatterjee S., Handcock M.S. and Simonoff J.S.: A Casebookfor a First Course in Statistics and Data Analysis. Wiley, New York.

[Chung (1979)] K.L.: Elementary Probability Theory with Stochastic Processes, 3rdEdition. Springer, New York.

[Chung (1974)] K.L.: A Course in Probability Theory, 2nd ed. Academic Press, NewYork.

[Dufner et al. (1992)] Dufner J., Jensen U. und Schumacher E.: Statistik mit SAS.Teubner, Stuttgart.

[Embrechts & Kluppelberg & Mikosch (1997)] Embrechts P., Kluppelberg C. and Mi-kosch T.: Modelling Extremal Events for Insurance and Finance. Springer, Berlin.

[Fahrmeir et al. (1997)] Fahrmeir L., Kunstler R., Pigeot I. und Tutz G.: Statistik. DerWeg zur Datenanalyse. Springer, Berlin.

[Falk et al. (1995)] Falk M., Becker R. und Mahrohn F.: Angewandte Statistik mitSAS. Springer, Berlin.

[Fahrmeir et al. (1996)] Fahrmeir. L, Hamerle A. und Tutz G. (Hrsg.): Multivariatestatistische Verfahren, 2., erweiterte Auflage. De Gruyter, Berlin.

[Hartung (1982)] J.: Statistik. Lehr- und Handbuch der angewandten Statistik. Olden-bourg, Munchen.

[Heinhold & Gaede (1979)] Heinhold, J. und Gaede, K.-W.: Ingenieur-Statistik, 2.Auflage. Oldenbourg, Munchen.

[Henze (1997)] N.: Stochastik fur Einsteiger. Vieweg, Braunschweig.

[Isaac (1995)] R.: The Pleasures of Probability. Springer, New York.

[Johnson & Kotz (1970)] Johnson, N.L and Kotz, S.: Continuous Univariate Distribu-tions. Wiley, Boston.

[Kredler & Ritter (1995)] Kredler Ch. und Ritter K.: Einfuhrung in die Statistik.Schriftenreihe des Inst. f. Angewandte Mathematik und Statistik Nr. 4, TUMunchen.

220

Page 228: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

LITERATURVERZEICHNIS 221

[Krengel (1988)] U.: Einfuhrung in die Wahrscheinlichkeitstheorie und Statistik, Vie-weg, Braunschweig.

[Lehn & Wegmann (1992)] Lehn, J. und Wegmann, H.: Einfuhrung in die Statistik, 2.Auflage. Teubner, Stuttgart.

[Muller (1975)] P.H. (Hrsg.): Lexikon der Stochastik, 2. Auflage. Akademie Verlag,Berlin.

[Pfanzagl (1988)] J.: Elementare Wahrscheinlichkeitsrechnung. De Gruyter, Berlin.

[Resnick (1994)] S.: Adventures in Stochastic Processes, 2nd Edition. Birkhauser, Bo-ston.

[Ross (1972)] S.M.: Introduction to Probability Models. Academic Press, New York.

[Sachs (1984)] L.: Angewandte Statistik. Springer, Berlin.

[Seber (1977)] G.A.F.: Linear Regression Analysis. Wiley, New York.

[Stirzaker (1994)] D.: Elementary Probability. Cambridge University Press, Cam-bridge.

[Stoyan (1993)] D.: Stochastik fur Ingenieure und Naturwissenschaftler. Akademie Ver-lag, Berlin.

[Williams (1991)] D.: Probability with Martingales. Cambridge University Press. Cam-bridge.

[Witting (1985)] H.: Mathematische Statistik 1. Teubner, Stuttgart.

Page 229: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

Index

1A, 25Ac, 2B(n, p), 109, 110CV , 138Cov(X, Y ), 55D2(X), 38E(X), 36, 55ED(λ), 27, 113F (−∞), 22F (∞), 22FX1,...,Xn , 47H(n, N, M), 110IQR, 137, 154

empirisch, 137M(n, π), 111Poi(λ), 20, 109Q0, Q1, . . ., 154–156Q1, Q3, 30, 154, 207

empirisch, 133Q2, 30, 133, 154, 207S2, 62, 66, 159Tn, 160V ar(X), 38W (r, λ), 118X(k), 79Xk:n, 79F , 21, 27, 113N0, 1Φ, 98Xn, 62, 66, 159, 160P , 3det(C), 119ε, 134yi, 145∞, 123, 131det(C), 50µ, 26, 36, 207ρ(X, Y ), 56σ, 37, 207

σ2, 37, 207∼, 25, 29τ , 207T , 46dF (x) , 41n!, 8s, sx, 136s2, 136sL, 137xT , 50, 119xp, 30x(1), 133x(n), 133x0.5, 134x1:n, 133xα, 133xn:n, 133(

nk

), 8

F, 3E(X | Y ), 76

Ynd−→ Y , 97

YnP−→ Y , 95

Ynf.s.−→ Y , 96

Φ, 27, 214Approximation, 214Tabelle, 215

Φ−1, 214χ2-Verteilung, 168, 216

Tabelle, 216σ-Algebra, 3σ-field, 3ϕ, 27fX, Y 74Ubergangszeit, 106Uberlebenswahrscheinlichkeit, 21, 27, 113Uberschreitungswahrscheinlichkeit, 187

λp , 166τ , 208–210

222

Page 230: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

INDEX 223

Xn , 170IQR

empirisch , 154IQR , 209, 210S2 , 170up , 165, 166

a.e. (almost everywhere), 96Abhangigkeit

lineare, 150absolute Haufigkeit, 126absolute Momente, 42Abstandsquadrate, 145Abweichung

mittlere lineare, 137mittlere quadratische, 38, 136

Achsenabschnitt, 144Additionssatz, 6Algebra

σ−, 4Borel–σ−, 4

Alternative, 174Annahmebereich, 175arithmetic mean, 135arithmetisches Mittel, 135, 136Ausreißer, 134, 135, 137, 207Axiome von Kolmogorov, 4

Balkendiagramm, 126Bandbreite, 197bandwidth, 197Bayes, 11bedingte Erwartung, 73, 76, 77

L2-Approximation, 78Projektionseigenschaft, 78

bedingte Normalverteilung, 75bedingte Verteilung, 74bedingte Wahrscheinlichkeit, 10bedingter Erwartungswert, 72Beispiele

diskreter ZV, 39, 109stetiger ZV, 39, 112

Bereichsschatzung, 172Bernoulli, 7Bernoulli Walk, 101Bernoulli-Variable, 39Bernoullisches Experiment, 19

Bestimmtheitsmaß, 147Betaverteilung, 170Beton, 184, 185Bias, 159Binomialkoeffizient, 8Binomialverteilung, 19, 39, 98, 99, 109,

219Approx.d.Normalvert., 98Approx.d.Poisson-Vert., 99erzeugende Funktion, 84, 109EW, Varianz, 39, 109ML-Schatzer, 163MV-Schatzer, 161Summe von ZV, 70, 86

bivariate Normalverteilung, 119BLUE-Schatzer, 161Boole’s inequalities, 6Borel–σ–Algebra, 4Box-Plot, 155, 156, 209, 210Breakdownpoint, 134

Cauchy-Verteilung, 39, 40, 70, 169charakteristische Funktion, 87coefficient of variation, 43, 138conditional probability, 10conditioning, 11consistent, 160convolution, 85cumulants, 44, 91

Daten, 125, 178gruppiert, 140

Daten-Matrix, 194Datenbank, 124de Moivre-Laplace, 97de Morgan, 3density, 23Design-Matrix, 194Determinante, 50, 119Diatkur, 182Diagramm

Balken-, 126Kreissektoren-, 126raumliches Saulen-, 126Saulen-, 126Streu-, 142Torten-, 126

Page 231: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

224 INDEX

Dichte, 23der Cauchyverteilung, 116der Erlangverteilung, 115der Exponentialverteilung, 27, 113der Gammaverteilung, 28, 115der Logistischen Verteilung, 116der Lognormalverteilung, 34, 117der Normalverteilung, 112, 119, 165,

207der Pareto-Verteilung, 116der Rechteckverteilung, 26, 113der Standardnormalverteilung, 27der Weibull-Verteilung, 118empirisch, 131n-dim., 49Transformationssatz, 63Wahrscheinlichkeits-, 23

Dichtefunktion, 23empirisch, 130

disjunkt, 2diskret, 18, 47

Merkmal, 122, 125diskrete Gleichverteilung, 74distribution, 17, 18, 46, 48distribution function, 21

n-dim., 47Dreiecks-Kern, 199Drift, 105Druckfestigkeit, 184, 185duration of the game, 106Durchschnitt, 135

Eigenwert-Eigenvektorzerlegung, 65einfache Irrfahrt, 15, 101Einflussgroße, 195Einstichproben t-Test, 181Element, 121Elementarereignis, 2empirisch

Exzess, 139IQR, 137Median, 134Quantil, 133Quartil, 133Schiefe, 139

empirischeDichtefunktion, 130, 131

Kovarianz, 142Regression, 142Regressionsgerade, 145Stichprobe, 125Varianz, 136, 142Verteilungsfunktion, 128, 132

Epanechnikov-Kern, 198Ereignis, 2

Elementar-, 2sicheres, 2unabhangiges, 12

Ergebnis, 1Ergebnismenge, 1Erlangverteilung, 89, 115

Summe von ZV, 89, 115erwartungstreu, 159Erwartungswert, 36, 37

bedingt bzgl. B, 72einer diskreten ZV, 36einer stetigen ZV, 36n-dim., 54Vektor, 57

erzeugende Funktion, 83, 84Summen, 86

estimator, 159consistent, 160unbiased, 159

event space, 3EW, 36

n-dim., 54, 55Excel, 154

Analyse-Funktionen, 154Extras, 154Histogramm, 154Mittelwerte, 154Populationskenngroßen, 154Streudiagramm, 154

Exponentialfamilie, 111Exponentialverteilung, 27, 40, 89, 113

EW, Varianz, 39, 113Kumulanten, 45ML-Schatzer, 163momenterzeugende Fkt, 88, 113MV-Schatzer, 161Summe von ZV, 70, 89, 113

Exzess, 43, 139, 154–156

Page 232: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

INDEX 225

F-TestZweistichproben, 185, 186

F-Verteilung, 218Tabelle, 218

f.s. (fast sicher), 96, 98, 196Faltung, 68, 85fast sichere Konvergenz, 96Fehler 1. Art, 175Fehler 2. Art, 175, 176Fehlerquadratsumme, 145Fermat, 7Fisher-Verteilung, 170Fouriertransformierte, 87Freiheitsgrad, 179, 180function

distribution, 21, 47Funktion

Gamma-, 28, 115Wahrscheinlichkeits-, 18, 48

Galton, 142gambler’s ruin, 13Gammafunktion, 28, 115Gammaverteilung, 40, 89, 115

EW, Varianz, 39, 115Kumulanten, 45Momente, 45, 115momenterzeugende Fkt, 88, 115Summe von ZV, 70, 89, 115

GaußDichte, 207Glockenkurve, 207Verteilung, 207

Gaußsche Glockenkurve, 27Gaußverteilung, 26, 112, 165Gegenhypothese, 174generating function, 83, 84, 86

moments, 87of the cumulants, 90

Geometrische Verteilung, 21, 39, 110EW, Varianz, 110erzeugende Funktion, 84, 110

Gesetz der großen Zahlen, 92schwach, 95stark, 96

gestutztes Mittel, 138getrimmtes Mittel, 138

Gleichverteilung, 26, 40, 113diskret, 74EW, Varianz, 39, 113Kumulanten, 45ML-Schatzer, 163momenterzeugende Fkt, 88, 113MV-Schatzer, 161zentrale Momente, 45, 113

Glivenko-Cantelli, 98, 196Grundgesamtheit, 121Grundproblem der Statistik, 158gruppierte Daten

Mittelwert und Streuung, 140

Haufigkeitabsolut, 126, 127kumuliert, 126, 127Rechenregeln, 127relativ, 126, 127relative Summen-, 126

Hauptsatz der Differential- und Integral-rechnung, 23

heavy tails, 205Histogramm, 130, 131hitting time, 106hochsignifikant, 184

von µ0 verschieden, 181Hypergeometrische Verteilung, 110

EW, Varianz, 110Hypothese, 174

identically distributed, 25identisch verteilt, 25iid, 61, 101, 125, 158Indikatorfunktion, 25, 128inter quartile range, 30, 137Interquartilsabstand, 137Intervallskala, 123IQR, 30, 154, 207Irrfahrt

einfach, 101

kardinal, 123Kern, 197

Dreieck, 199Epanechnikov, 198Normalverteilungs, 199

Page 233: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

226 INDEX

Rechteck, 199Kerndichteschatzer, 197, 198Kernschatzer, 197Klassenbildung

Regeln zur, 129Klassenbreite, 130Kleinst-Quadrat-Methode, 144, 162Kolmogorov, 4Kombinationen

ohne Wiederholung, 8Konfidenzintervall, 178

α und β; einf. lin. Regr., 19095%-, 193EW; einf. lin. Regr., 191fur µ , 172, 179Prognose; einf. lin. Regr., 191Realisierung, 172

Konfidenzniveau, 191konsistent, 160Konvergenz

fast sicher, 96in Verteilung, 97in Wahrscheinlichkeit, 95, 160mit Wkt 1, 96schwach, 97stark, 96stochastisch, 95, 160

Korrelationskoeffizient, 56empirischer, 143

Kovarianz, 55empirische, 142Vektor, 58

Kovarianzmatrix, 50, 55, 57, 58KQ

-Gerade, 144-Methode, 144, 162-Schatzung, 145

Kreissektorendiagramm, 126kritischer Bereich, 174, 175

bei zweiseitigem Test, 178Konstruktion, 175

Kumulanten, 44Normalverteilung, 91, 112Poisson-Verteilung, 91, 109

Kumulantenfunktion, 90kurtosis, 43, 139, 154–156

Lageparameter, 30, 36, 132Laplace, 7Laplace-Annahme, 7Laplace-Raum, 7Lebensdauer, 27, 40, 113Lemma

Glivenko-Cantelli, 98, 196Likelihoodfunktion, 162Lineare Prognose, 78

L2-Approximation, 782-dim. Normalverteilung, 78

lineare Regression, 142lineare Transformation, 65Log-Likelihoodfunktion, 162logarithmischer Maßstab, 130Logarithmustransformation, 187Logistische Verteilung, 116Lognormalverteilung, 34, 40, 117

EW, Varianz, 39, 117Lokationsmaße, 132

marginal distribution, 51Massenerscheinungen, 120matched pairs, 181mathematische Stichprobe, 159Maximum

von gleichverteilten ZV, 71von ZV (allgemein), 70

Maximum-Likelihood-Methode, 162Maßzahl

statistische, 132mean

arithmetic, 135Median, 30, 134, 154–156, 209, 210

empirisch, 134Menge, 121Merkmal, 1, 122

Auspragung, 121diskret, 122, 123, 125kardinal, 123metrisch, 123, 126, 132, 134–137, 140nominal, 123, 125, 132ordinal, 123, 126, 132, 134, 135, 137qualitativ, 122quantitativ, 122Spannweite, 135stetig, 122, 129

Page 234: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

INDEX 227

Variationsbreite, 135messbar, 32Messreihe, 125Methode

der kleinsten Quadrate, 144, 162KQ, 144, 162Maximum-Likelihood, 162ML, 162Momenten-, 162

metrisch, 123, 126, 132, 134–137, 140Minimum

von exponentialverteilten ZV, 71von ZV (allgemein), 70

Mittel, 62, 142arithmetisch, 135, 136gestutzt, 138getrimmt, 138gruppierte Daten, 140Median, 134, 136Modalwert, 132Modus, 132

mittlere lineare Streuung, 137ML-Methode, 162ML-Schatzer

Binomialverteilung, 163Exponentialverteilung, 163Gleichverteilung, 163Normalverteilung, 163Poisson-Verteilung, 163

Modalwert, 30, 132Modus, 30, 132moment generating function, 87, 88Momente, 42

absolut, 42Existenz, 43zentrale, 42

Momentenmethode, 162momenterzeugende Funktion, 87

Summen, 88Monotonie, 131Multinomialverteilung, 111

EW, Kovarianz, 111Multiplikationsregel d.Kombinatorik, 7MV-Schatzer, 161

Binomialverteilung, 161Exponentialverteilung, 161

Gleichverteilung, 161Normalverteilung, 161Poisson-Verteilung, 161

Nadeln in Box-Plot, 209negative Binomialverteilung, 110

EW, Varianz, 110nichtlinearer Zusammenhang, 151nominal, 123, 125, 132Normalgleichungen, 194Normalverteilung, 26, 39, 89, 112, 165,

207σ, 2072-dim., 50, 57bedingt, 75EW, Varianz, 39, 112Exzess, 43IQR, 207, 208Kumulanten, 44, 45, 91, 112, 165logarithmische, 34, 40, 117ML-Schatzer, 163momenterzeugende Fkt, 88, 112MV-Schatzer fur µ, 161MV-Schatzer fur σ2, 161n-dim., 50, 119Quantil, 112, 165–167, 207, 208Quartil, 207Schiefe, 43Standard-, 26, 98, 112Summe von ZV, 69, 70, 89, 112, 165Tabelle, 215zentrale Momente, 45, 112zweidim., 119

Normalverteilungs-Kern, 199Nullhypothese, 174Nullmenge, 76

order statistics, 79ordinal, 123, 126, 132, 134, 135, 137Ordnungsstatistiken, 79

Dichte, 80Gleichverteilung, 80Randverteilung, 80

p-Quantil, 30der t-Verteilung, 179

p-value, 187

Page 235: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

228 INDEX

p-Wert, 187Parameter

Lage, 36Streuung, 38

Parameterraum, 101Pareto-Verteilung, 40, 116

EW, Varianz, 39, 116Pascal, 7passage time, 106Passierzeit, 106Permutation, 8Pfad, 15, 101Pictogramm, 126Poisson-Verteilung, 20, 39, 99, 109, 219

Approx.d.Normalvert., 98erzeugende Funktion, 84, 109EW, Varianz, 39, 109Kumulanten, 45, 91, 109ML-Schatzer, 163momenterzeugende Fkt, 88, 89, 109MV-Schatzer, 161Summe von ZV, 70, 85, 86

Polarkoordinaten, 63Population, 1, 121Porositat von Sandstein, 173, 179positiv definit, 50, 65, 119probability

conditional, 10total, 11

probability mass function, 182-dim., 48

Prognose, 144, 150linear, 78

Prognoseintervall, 191Programme

Statistik, 154Prozentpunkt, 29, 132Punktewolke, 142

QQ-Plot, 158, 203Quantil, 27, 29

Approximation von up, 214der χ2-Verteilung, 216der F-Verteilung, 218der t-Verteilung, 179, 217empirisch, 132, 133

Normalverteilung, 30, 166, 167, 207,208

symmetrisch, 166, 167, 208quantile, 29quantile-quantile plot, 203Quantilfunktion, 29, 201Quartil, 30, 154–156, 207, 208

empirisch, 133Normalverteilung, 207

Ruckkehr zur 0, 106Ruckkehrzeit, 106random variable, 17random vector, 46Random Walk, 15, 101, 102

simple, 101symmetrisch, 101

Randverteilung, 51, 59diskret, 51stetig, 51

range, 135Realisierung, 17, 46

eines Vertrauensintervalls, 172Rechenregeln

fur Erwartungswerte, 37fur Streuungen, 38

Rechtecks-Kern, 199Rechteckverteilung, 26, 40, 113

IQR, 208recurrence, 106recurrence time, 106Reduktionslage, 129Regelfunktion, 23Regeln

zur Klassenbildung, 129Regression

einfach linear, 189einfach linear emp., 142empirisch, 142multiple, 193nichtlinear, 151schrittweise, 195

Regressionsgeradeempirische, 145

Regressionskoeffizient, 189Regressionstrompete, 193Regressor, 195

Page 236: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

INDEX 229

-Variable, 194Rekurrenzzeit, 106relative

Haufigkeit, 126, 127Summenhaufigkeit, 126Summenhaufigkeitsfunktion, 127

Riemann-Stieltjes-Integral, 41robust, 134, 137Ruin des Spielers, 13, 101, 103, 105

Spieldauer, 106

S-Plus, 154Saulendiagramm, 126

raumlich, 126Saison, 148sample space, 1SAS, 154–156, 188Satz

der totalen Wkt., 11Glivenko-Cantelli, 98, 196von Bayes, 11von Tschebyschov, 95Zentraler Grenzwert-, 97

Scatterplot, 142Schadlingsbekampfungsmittel, 152Schatzer, 159, 197

erwartungstreu, 159konsistent, 160minimaler Varianz, 161MV, 161unverzerrter, 159

Schatzfunktion, 158, 159, 175, 197Konstruktion, 161minimaler Varianz, 160MV-, 160wirksamste, 160

Schatzung, 189Schiefe (skewness), 43, 139, 154–156schwache Konvergenz, 97schwaches Gesetz der großen Zahlen, 95Semiquartilsabstand, 155, 156, 208Sicherheitswahrscheinlichkeit, 174signifikant

von µ0 verschieden, 181Signifikanz-Test, 190, 195Signifikanzniveau, 174singleton, 2

SkalaIntervall-, 123nominal, 123ordinal, 123

skewness, 43, 139, 154–156Spektralzerlegung, 65Spieldauer, 103, 106SPSS, 154standard deviation, 136Standardabweichung, 38, 62, 155, 156

empirisch, 136gruppierte Daten, 140

Standardisierung, 39Standardnormalverteilung, 26, 27, 98, 112,

165Approximation, 214Tabelle, 215

starke Konvergenz, 96starkes Gesetz der großen Zahlen, 96Statistik, 120, 158, 159

beschreibend, 121Datenerfassung, 120Datenprasentation, 120Datenverarbeitung, 120Definition, 120, 158, 159deskriptiv, 120, 121empirisch, 121grafische Darstellung, 120induktiv, 121Massenerscheinung, 120Merkmalsauspragung, 121schließend, 121

Statistik-Programme, 154Steigung, 144Sterbetafel, 120stetig, 49

Merkmal, 122, 123, 129Stetigkeitssatz, 7Stichprobe, 125, 129, 196

empirisch, 196geordnet, 133iid, 61, 196mathematisch, 61, 159Ziehen mit Zurucklegen, 8Ziehen ohne Zurucklegen, 9, 110

Stichprobenmittel, 62, 170

Page 237: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

230 INDEX

Stichprobenraum, 1Stichprobenumfang, 159

bei Normalverteilung, 173bei t-Verteilung, 179notwendiger, 173

Stichprobenvarianz, 170stochastische Konvergenz, 95, 160stochastischer Prozeß, 101Stoppzeit, 107Streudiagramm, 142Streuung, 38

des Fehlers, 146empirisch, 142gruppierte Daten, 140mittlere lineare, 137mittlere quadratische, 136

Streuungsparameter, 38, 132Student’s t-Test, 181Student-Verteilung, 169, 179Summe von Zufallsvariablen, 68, 85, 88Summenhaufigkeit, 126Summenhaufigkeitsfunktion

empirisch, 132symmetrisch, 50, 65, 119

t-Test, 181σ2 unbekannt, 178verbundener Stichproben, 181zum Vergleich von Mittelwerten, 183Zweistichproben, 183, 186

t-Verteilung, 169, 179Tabelle, 217

Tafelder χ2-Verteilung, 216der F-Verteilung, 218der Standardnormalverteilung, 215der t-Verteilung, 217

tail probability, 21, 27, 28, 113Teilerhebung, 124Test

σ2 bekannt, 174einseitiger, 174Signifikanz-, 190, 195Statistik, 175, 181, 182, 187statistischer, 174Wilcoxon, 187zweiseitiger, 178

Testsfur µ, σ2 bekannt, 173

Teststatistik, 175, 181, 182, 187Tortendiagramm, 126total probability, 11totale Wahrscheinlichkeit, 11Transformation, 151

linear, 32, 65Logarithmus, 187Maximum, 32Minimum, 32quadratisch, 32varianzstabilisierend, 187Wurzel, 187

Transformationsregel fur Polarkoordina-ten, 63

Transformationssatz fur Dichten, 63Transposition, 50, 119Trendgerade, 148Tschebyscheff, 94Tschebyschov

Satz von, 95Ungleichung, 94

unabhangig, 12Funktionen von ZV, 61unkorreliert, 61ZV, 59

unabhangig identisch verteilt, 61, 101Unabhangigkeit, 10

von ZV, 59unbiased, 159Ungleichung

-en von Boole, 6Basis, 93Jensen, 92Markov, 93Tschebyschov, 93, 94

uniform distribution, 26, 113unkorreliert, 55

unabhangig, 61unvereinbar, 2unverzerrt, 159Urliste, 125, 129

VariableRegressor-, 194

Page 238: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

INDEX 231

Zufalls-, 17Variablenauswahl, 195variance, 136Varianz, 38, 62

einer diskreten ZV, 38empirisch, 136, 142gruppierte Daten, 140Summe, 58

Varianzschatzunggemeinsame, 183

varianzstabilisierend, 187Variationen mit Wiederholung, 8Variationsbreite, 129, 135Variationskoeffizient, 43, 138verallgemeinerte Inverse, 29, 201Verschiebungsregel, 38, 56, 136, 150Verteilung, 17, 18, 46, 48, 49

χ2, 29, 115χ2-, 216χ2 , 168F− , 170t− , 169bedingt bzgl. B, 72affine Trafo, 33bedingt, 74bedingt bzgl. B, 72Beta-, 170Binomial-, 19, 39, 98, 99, 109, 219Cauchy-, 70, 169eingipfelig, 30Erlang-, 29, 89, 115Exponential-, 27, 40, 89, 113F-, 218Fisher-, 170Gamma-, 40, 89, 115Gauß-, 26, 112, 165, 207geometrisch, 21, 39, 110Gleich-, 26, 40, 113hypergeometrisch, 110Lebensdauer, 27, 113logistisch, 116Lognormal-, 34, 117Multinomial-, 111negative Binomial-, 110Normal-, 26, 39, 89, 91, 112, 165,

207

Pareto, 40, 116Poisson-, 20, 39, 91, 98, 99, 109, 219Rechteck-, 26, 40, 113stabil, 33stetig, 112Student-, 169, 179t-, 179, 217unimodal, 30Weibull-, 118

Verteilungsfunktion, 21der Gleichverteilung, 26empirisch, 128, 131, 132, 196Exponentialverteilung, 28, 113Standardnormalverteilung, 27

Verteilungskonvergenz, 97Vertrauensbereich, 172Vertrauensintervall

α und β; einf. lin. Regr., 190EW; einf. lin. Regr., 191fur µ , 172, 179Prognose; einf. lin. Regr., 191Realisierung, 172

VF, 158Vollerhebung, 124Vorhersage, 144

W-Maß, 4W-Raum, 5Wurfeln, 19, 49Wahrscheinlichkeit, 4

bedingte, 10total, 11

Wahrscheinlichkeitsfunktion, 18, 482-dim., 48Binomialverteilung, 20Poisson-Verteilung, 20

Wahrscheinlichkeitsmaß, 4Wahrscheinlichkeitsraum, 5

diskret, 5Walk

Bernoulli, 101Random, 101

Weibull-Verteilung, 118EW, Varianz, 118

whiskers, 209Wilcoxon-Test, 187Wurzeltransformation, 187

Page 239: Einführung in die Wahrscheinlichkeitsrechnung und Statistik

232 INDEX

Zeitreihe, 148Quartal, 156

zentrale Momente, 42Zentraler Grenzwertsatz, 97, 158Zentralwert, 134Ziehen

mit Zurucklegen, 8ohne Zurucklegen, 9, 110

Zufallsexperiment, 1Zufallsgroße, 17Zufallsvariable, 17

diskret, n-dim., 47diskrete, 18Maximum, 70Minimum, 70n-dim., 46Produkt, 68Quotient, 68stetig, n-dim., 49stetige, 23Summe, 68, 85, 86, 88, 89Transformation, 32, 63

Zufallsvektor, 46Zustandsraum, 101ZV, 17

n-dim., 46Zweistichproben

F-Test, 185, 186t-Test, 183, 186Wilcoxon-Test, 187