35
Grundbegriffe Grundgesamtheit: Menge aller relevanten Objekte alle Studenten der Gruppe Merkmal: interessierende Größe (Variable) Vorbereitungszeit Merkmalsausprägung: konkreter Wert des Merkmals Stichprobe: tatsächlich untersuchte Teilmenge der Grundgesamtheit Person 1, ..., n Stichprobenumfang: Anzahl der Objekte in der Stichprobe n n = Rohdaten: nicht geordnete, in der Erhebungsreihenfolge gegebene Daten x 1 , x 2 , x 3 Geordneter Datensatz: nach aufsteigender Größe sortierte Beobachtungen x 1 ≤x 2 ≤…≤x n Merkmalstypen Unterscheidung nach Anzahl möglicher Ausprägungen Diskret: endlich o. zählbar unendlich viele Ausprägungen Stetig: alle Werte eines Intervalls sind mögliche Ausprägungen („immer wieder teilbar“) Unterscheidung nach Skalenniveau: Nominal: Ausprägung lediglich Namen, Anordnungen; Abstände nicht sinnvoll! Ordinal: Ausprägungen können geordnet werden; Abstände sind nicht möglich Metrisch: Ausprägungen können geordnet werden; Abstände sind möglich Merkmale können eindimensional (univariat) o. mehrdimensional (multivariat) sein. Häufigkeitsverteilungen Diskrete Merkmale Diskretes Merkmal X mit Ausprägungen a 1 < ... < a k

Statistik Einführung

Embed Size (px)

DESCRIPTION

Erstsemester Uni Frankfurt, persönliche Zusammenfassung

Citation preview

Page 1: Statistik Einführung

Grundbegriffe

Grundgesamtheit: Menge aller relevanten Objekte alle Studenten der Gruppe

Merkmal: interessierende Größe (Variable) Vorbereitungszeit Merkmalsausprägung: konkreter Wert des Merkmals Stichprobe: tatsächlich untersuchte Teilmenge der Grundgesamtheit

Person 1, ..., n Stichprobenumfang: Anzahl der Objekte in der Stichprobe n n = Rohdaten: nicht geordnete, in der Erhebungsreihenfolge gegebene Daten

x1, x2, x3

Geordneter Datensatz: nach aufsteigender Größe sortierte Beobachtungen x1≤ x2≤…≤xn

Merkmalstypen

Unterscheidung nach Anzahl möglicher Ausprägungen Diskret: endlich o. zählbar unendlich viele Ausprägungen Stetig: alle Werte eines Intervalls sind mögliche Ausprägungen („immer

wieder teilbar“)Unterscheidung nach Skalenniveau:

Nominal: Ausprägung lediglich Namen, Anordnungen; Abstände nicht sinnvoll!

Ordinal: Ausprägungen können geordnet werden; Abstände sind nicht möglich

Metrisch: Ausprägungen können geordnet werden; Abstände sind möglich

Merkmale können eindimensional (univariat) o. mehrdimensional (multivariat) sein.

Häufigkeitsverteilungen

Diskrete Merkmale

Diskretes Merkmal X mit Ausprägungen a1 < ... < ak

Stichprobenumfang n

Absolute Häufigkeit von aj: nj-Anzahl der Beobachtungen in der Stichprobe, die gleich aj sind (n4=24 sind a4=2.0 24 Leute mit Merkmalsausprägung a=2.0)

Relative Häufigkeit von aj: hj = nj/n Stabdiagramm: graphische Darstellung der rel. Häufigkeiten Histogramm

Kumulierte relative Häufigkeit: h (X ≤a j )=∑i=1

i

hi

Page 2: Statistik Einführung

Empirische Verteilungsfunktion für a1 < a2 < ... < ak:

Stetige Merkmale

Einteilung der Ausprägungen eines stetigen Merkmals X in k Klassen: (ao*,a1*], (a1*, a2*], (a2*, a3*], ... , (ak-1*, ak*]

Klassenbreite: ∆ j=a j¿−a j−1

¿ j = 1,...,k Absolute Häufigkeit: nj = Anzahl der Beobachtungen in (aj-1*, aj*]

Relative Häufigkeit: h (a j−1¿ <X ≤a j¿ )=h j=

n j

n

Kumulierte relative Häufigkeit: h (X≤a j¿)=∑

i=1

j

hi

Häufigkeitsdichte:

Histogramm: graphische Darstellung der Häufigkeitsdichte f (nicht F!) als Funktion von x

Empirische Verteilungsfunktion:

Empirische Verteilungsfunktion kumuliert Teilflächen des Histogramms

Page 3: Statistik Einführung

Maßzahlen

Lagemaße

Arithmetisches Mittel

Rohdaten: Aus Häufigkeitstabelle, diskretes Merkmal: Aus Häufigkeitstablle, stetiges Merkmal, klassierte Daten, approximativ:

Eigenschaften:

(Summe der Abweichungen vom Mittelwert = 0)

Median

= 50%-Punkt, halbiert geordneten Datensatz x1≤ x2≤…≤xn

Median charakterisiert Stichprobe besser als Mittelwert, resistenter gegen Ausreißer

p-Quartile bei klassierten Daten (10%,25%,75%,...)

Page 4: Statistik Einführung

Streuungsmaße

Mittlere quadratische Abweichung

Rohdaten:

Häufigkeitstabelle, diskretes Merkmal (gewichtet):

Häufigkeitstabelle, stetiges Merkmal, klassierte Daten, approximativ:

Variationskoeffizient

Interquartilsabstand

Schiefe und Wölbung (Kurtosis)

Symmetrische Verteilung

Linkssteile (rechtsschiefe) Verteilung

Rechtssteile (linksschiefe) Verteilung

Page 5: Statistik Einführung

Schiefekoeffizient

Wölbung (Kurtosis)

Konzentrationsmessung

Konzentrationsmaße Beschreibt eine Struktureigenschaft empirischer Verteilung Merkmalssumme: Summe aller Merkmalsausprägungen

o S= x1+x2+…+xn=∑i=1

n

x i

Konzentrationsmessung = Messung von Ungleichheit

Arbeitstabelle1. Ordne aufsteigend (!) nach Merkmal X, sodass gilt 0≤a1<…<ak2. Berechne für alle Ausprägungen k den kumulierten Anteil an allen

Beobachtungen n: ui=

∑j=1

i

n j

n=∑

j=1

i

h ji=1,2,…,k

3. Berechne für alle Ausprägungen i=1,2,...,k die Teilsumme der kumulierten Merkmalsausprägungen X (, den die Gruppe der kleinsten i

Merkmalsausprägungen auf sich vereint): Si=∑j=1

i

n j x j i=1,2 ,…k

D.h.: Xi kumulieren!

Page 6: Statistik Einführung

4. Berechne den Anteil an der gesamten Merkmalssumme (, den die Gruppe der kleinsten i Merkmalsausprägungen auf sich vereint):

v i=S iSk

=∑j=1

i

n j x j

∑j=1

k

n j x j

i=1,2 ,…,k

D.h.: Si/Merkmalssumme (Summe aller X)

Lorenzkurve vi gegen ui

geradlinige Verbindung der Koordinaten in einem Koordinatensystem (u0, v0), (u1,v1), ..., (uk, vk) wobei (u0, v0) = (0,0) und (uk, vk) = (1,1)

o gibt zu jedem Anteil der Beobachtungen den zugehörigen Anteil der Merkmalssumme an

Konzentrationsfläche Fläche zwischen der Diagonalen und der Lorenzkurve zeigt, wie gemessene Konzentration/Ungleichheit von einer Lorenzkurve

bei vollständiger Gleichverteilung entfernt isto Ungleichheit steigt mit der Entfernung der Lorenzkurve von der

Gleichverteilungsdiagonale

Gini-Koeffizient Quotient aus Konzentrationsfläche und der Fläche unter der Diagonale

G= KonzentrationsflächeFlächeunter Diagonale

so dass0≤G≤1

Gini-Koeffizient G misst die Konzentration oder Ungleichheit

Gleichverteilung

Page 7: Statistik Einführung

Wenn x1 = x2 = ... = xn dann ist hj = 1/n, für alle j=1, ... , n und ui = i/n, für alle j=1,...,n

Geringste Konzentration/minimale Ungleichheit Lorenzkurve ist identisch mit der Diagonalen im Einheitsquadrat Gini-Koeffizient = 0

Gesamte Merkmalssumme entfällt auf einen Merkmalsträger x1 = x2 = ... = xn-1 = 0 und xn = S maximale Konzentration/maximale Ungleichheit Lorenzkurve ist für (n-1) Anteile 0, steigt dann auf 1

Gini-Koeffizient: G=

n−12n12

=n−1n

da (aus der Dreiecksberechnung)

Konzentrationsfläche K=12− 12n

Berechnung des Gini-Koeffizienten allgemein Konzentrationsfläche = Summe von Trapezflächen unter der Lorenzkurve

3.2. Zeitreihen

3.2.1. Preisbereinigung

Nominale Größe: xt: in jeweiligen Preisen des jeweiligen Zeitpunktes t

Messzahlen oder Indexzahlen: Bezug 2 inhaltlich gleicher Größen verschiedener Zeitpunkte (Bsp.: Preisniveau 2007 der BRD im Verhältnis zum Preisniveau 2001)

Preisindex: P0,t zur Basisperiode 0 (z.B. 1995 = 100)

Reale Größe xrt : Wert von xt in Preisen der Basisperiode 0, x t

r=x tP0 , t

(„Deflationierung“)

Page 8: Statistik Einführung

Indexzahlen üblicherweise Prozentzahlen, Indexwert der Basisperiode = 100

Änderung von Indexzahlen: i.d.R. Prozentpunkte (z.B. Steigerung eines Index von 150 auf 165 bedeutet Steigerung um 15 Prozentpunkte und um 10 %)

Preis und Mengenindizes Ziel: Ermittlung der generellen Preisentwicklung (in einer

Volkswirtschaft, Sektor, Region) Lösung: Indexbildung Wirtschaftspolitische Wichtigkeit: Lohnverhandlungen, Rentenzahlungen Warenkorb (repräsentativ): Güter, die sachlich zusammengehören, bilden

einen Warenkorb; gewichteter Durchschnitt von Mengen und Preiseno Verschiedene Warenkorbe: Familie, Single-Haushalt, ...

Konsumgewohnheit unterschiedlich je nach Lebenssituation Indexbildung: Vergleich desselben Warenkorbs zu verschiedenen

Zeitpunkten, Preisverhältnis bilden Verbraucherpreisindex: misst durchschnittliche Preisveränderung aller

Waren und DL, die von privaten Haushalten für Konsumzwecke gekauft/verbraucht werden.

o Im Allgemeinen als Maßstab für Inflation verwendeto Güter des täglichen Bedarfs (Lebensmittel, Bekleidung), Mieten,

langlebige Güter (Kfz, Kühlschrank), DL (Friseur, Reinigung)

Preisindizes Laspeyres Preisindex: Festlegung auf historische Mengen in Zähler und

Nenner, bzw. Betrachtung eines zeitlich konstanten Warenkorbs

Paasche Preisindex: Festlegung auf aktuelle Mengen in Zähler und Nenner, bzw. Konzentration auf Bewertung des aktuellen Warenkorbs

Page 9: Statistik Einführung

Mengenindizes Messung von Mengenveränderung unabhängig von Preisentwicklung

o In Zähler und Nenner identische Preise Mengenindex nach Laspeyres: Festlegung auf historische Preise in

Zähler und Nenner Preise festhalten

Mengenindex nach Paasche: Festlegung auf aktuelle Preise in Zåhler und Nenner

Probleme bei Anwendung und Interpretation von Preisindizes

Paasche:+ laufende Erfassung eines aktuellen Warenkorbs - für diesen existieren aber eventuell keine historischen Preise (moderne Smartphones vor 5 Jahren?) - laufende Aktualisierung ist teuer

Bsp.: Basisjahr 1995, aktueller Warenkorb enthält NavisErkenntnis: Basisjahr darf nicht zu weit zurück liegen

Laspeyres:+ Betrachtung eines konstanten Warenkorbs ist preisgünstig und „machbar“- dieser spiegelt aber eventuell veränderte Konsumgewohnheiten nicht wieder

Bsp.: Warenkorb eines Basisjahres 1995 enthalte bestimmte Menge an RindfleischErkenntnis: aktuelle Konsumgewohnheiten weichen nach BSE-Skandals davon ab

Substitutionseffekt: Preissteigerungen führen zu Substitution eines zu teuer werdenden Gutes durch ein billigeres Produkt

o Bsp.: Teurer werdende Butter des Warenkorbs eines Basisjahrs werde durch billige Margarine ersetzt Preissteigerung oft überzeichnet, weil aktuelle Konsumgewohnheiten nicht ausreichend berücksichtigt werden

Page 10: Statistik Einführung

Effekteo Laspeyres: teures Produkt bleibt im Warenkorb, da historischer

Warenkorb gewollt Überschätzung des Preiseffekts, da Konsument das teure Gute vermeidet und seinen „wahren“ Warenkorb der Preisentwicklung anpasst

o Paasche: zu vergleichender Warenkorb repräsentiert aktuelle Konsumgewohnheiten (z.B. Trend zu Margarine, wenn Butter zu teuer erscheint) Unterschätzung der Preisentwicklung früherer Perioden (da im Warenkorb der teure Butterkonsum früherer Jahre weniger gewichtet wird als er in den Jahren tatsächlich war)

Veränderung der Qualität der Produkte nicht erfasst: Gut PC im Jahr 2012 nicht vergleichbar mit Gut PC 1995 (Technik generell) Preisindizes der Lebenshaltung des Statistischen Bundesamtes würden potentiell zu hohe Inflationsraten ausweisen, wenn man Qualitätsverbesserungen nicht berücksichtigen würde

o Ausweg: Berechnung hedonischer Preisindizeso Hedonische Methoden: spezielle Verfahren der

Qualitätsbereinigung. Ermitteln mithilfe der Regressionsanalyse den Einfluss von Produktmerkmalen auf Verkaufspreis. Dadurch diejenigen Preisänderungen, die auf qualitative Veränderungen bestimmter Eigenschaften beruhen, von den eigentlich zu messenden, „reinen“ Preisänderungen rechnerisch trennen und eliminieren.

Umbasierung

Page 11: Statistik Einführung

Verknüpfung

3.2.2. Wachstumsraten

Zuwachs: ∆ x t=x1−x t−1 t=1 ,…,n Wachstumsrate: r1=∆ x t/ x t−1

o (Veränderung relativ zum Niveau der Vorperiode)o Interpretation: Renditen, Verzinsung, etc.o Näherung bei kleinen Zuwächsen (~10%): rt≈ ln (x1 )−ln (x t−1)

Wachstumsfaktor: q t=x tx t−1

=1+r t t=1 ,…,n

o Eigenschaft: x0 ∙ q1 ∙ q2 ∙…∙qn=xn

Page 12: Statistik Einführung

bzw .x0 ∙ (1+r 1) ∙ (1+r2 ) ∙…∙ (1+rn )=xn

Mittlerer Wachstumsfaktor: Mittlere Wachstumsrate:

3.3. Bivariate Häufigkeitsverteilungen

3.4. Streudiagramm und Korrelation

StreudiagrammGesucht: Maßzahl für den linearen Zusammenhang zwischen zwei metrischen Merkmalen X und Y

Page 13: Statistik Einführung

Wertepaare (x1, y1), ..., in einem zweidimensionalen Koordinatensystem

Empirische Kovarianz

(vgl. mittlere quadratische Abweichung: Spezialfall der Kovarianz, wenn x=y)

dxy > 0 : Punkte überwiegend in II. & IV. Quadranten dxy < 0 : Punkte überwiegend in I & III dxy = 0 : Anzahl der pos. Summanden = Anzahl der neg. Summanden

ungefähr, gleiche Verteilung über die QuadrantenEigenschaften

Verschiebungssatz: Lineartransformation:

(vgl. Herleitung Aufzeichnungen!)

Korrelationskoeffizient

r xy=dxy

√dx2 ∙d y2

Eigenschaften −1≤r xy≤+1 (Koeffizient befindet sich auf Intervall [-1;1] r xy=r yx (Symmetrie) stellt Zusammenhang her zwischen X und Y hohe Korrelation: Punkte nah um Regressionsgeraden herum Verschiebung von X und Y um Konstanten haben auf Korrelation kein

Einfluss:o r xy=r(X +a)(Y + b)

Korrelation bleibt von Multiplikation mit Konstanten unberührto r xy=r(aX )(bY )

FOLGERUNG: Normierung, Standardisierung keinen Einfluss auf Höhe der Korrelation!

o z.B.:

Scheinkorrelation: Korrelation KEIN kausauler Zusammenhang! Korrelation kann keine Kausalität zwischen zwei Größen herstellen!

3.5. Lineare Regression

Konstruktion einer Geraden y=a+bx, welche an die n Wertepaare (x1,y1),..., (xn,yn) angepasst ist

Anpassung mithilfe der Methode der kleinsten Quadarate (KQ-Methode):

Page 14: Statistik Einführung

o Abstandsfunktion ∑i=1

n

¿¿ = Summe der quadrierten Abweichungen

der Punkte (xi, yi) von der Geraden y=a+bxo Berechnung der Parameter (minimieren Abstände)o Wahl der Regressionsgeraden

Eigenschaften

Residuen: unerklärte Restterme

Bestimmtheitsmaß(wie gut passt die Regressionsgeraden zu den Punkten? Bei guter Passung großes R)

(mittlere quadratische Abweichungen)

Eigenschaften:

4.1. Zufallsvorgang und Ereignisse

Ein Zufallsvorgang führt zu einem von mehreren, sich gegenseitig ausschließenden Ergebnissen

Vor der Durchführung ist ungewiss, welches Ergebnis tatsächlich eintreten wird

Von einem Zufallsexperiment spricht man, wenn der Vorgang unter gleichen Randbedingungen wiederholbar ist

Page 15: Statistik Einführung

Ergebnismenge Ω=(ω1 ,ω2 ,…): Menge aller möglichen Ergebnisse ωi eines Zufallsvorgangs

Ereignis: Teilmenge von Omega Elementarereignis: spezielle Teilmenge, Ereignis der Form (wi)

4.2. Verknüpfung von Mengen

Page 16: Statistik Einführung

4.3. Wahrscheinlichkeiten

Page 17: Statistik Einführung

Laplace:

4.4. Bedingte Wahrscheinlichkeit

Page 18: Statistik Einführung

genau umgekehrte totale WSLKT umdrehbar solange Satz der totalen WSLKT gilt

4.5. Unabhängigkeit zweier Ereignisse

Page 19: Statistik Einführung

5.1. Zufallsvariablen & Verteilungen: Grundbegriffe

Zufallsvariable: Abbildung X: Ω R Ereignis „X nimmt Wert x an“: {X=x }={ω∈Ω /X (ω)=x }, x∈ R Ereignis „X nimmt den Wert kleiner oder gleich x an“:

{X=x }={ω∈Ω /X (ω)≤x }, x∈ R

Verteilungsfunktion: F(x) = P(X ≤ x)

5.2. Diskrete Zufallsvariablen

Diskrete Zufallsvariable X: nimmt nur endlich oder abzählbar unendlich viele Werte {a1,..} an.

5.3. Stetige Zufallsvariablen

Stetige Zufallsvariable X: Verteilungsfunktion F hat die Darstellung

F ( x )=P (X ≤ x )=∫−∞

x

f (a )da mit einer integrierbaren und nichtnegativen Funktion

f.

Page 20: Statistik Einführung

5.4. Bivariate Zufallsvariablen 2 diskrete Zufallsvariablen X und Y mit nach Größe sortierten

Ausprägungen:o X∈ {a1 ,…,ak }Y ∈{b1 ,…,bk}

gemeinsame WSLKTo pij = P (X = aij, Y = bij) i=1,..,k j=1,...,l

Randwahrscheinlichkeiten

5.5. Unabhängige Zufallsvariablen

5.6. Theoretische Maße

Erwartungswert Erwartungswert einer diskreten Zufallsvariable X

Page 21: Statistik Einführung

o E (X )=µx=∑j=1

k

a j ∙P (X=a j)

o Im Fall eines abzählbar unendlichen Wertebereichs ist k= ∞)

Erwartungswert einer stetigen Zufallsvariable X mit Dichte f:

o E (X )=∫−∞

+∞

a ∙ f (a )da

Eigenschaften des Erwartungswerts (gelten für beliebige Zufallsvariablen X,Y):

o Y = a+bX E(Y) = a + b E(X) (Lineartransformation)o Z = X+Y E(Z) = E(X) + E(Y)

Quantil (Prozentpunkt) einer stetigen Zufallsvariable Xp ist Lösung der Gleichung:

o F (x p )=∫−∞

xp

f (a )da=p ( für0< p<1)

Sonderfall p=0,5: x0,5 heißt Median

Page 22: Statistik Einführung
Page 23: Statistik Einführung
Page 24: Statistik Einführung

6.1. Diskrete Verteilungen

Diskrete Gleichverteilung (Laplace Verteilung) auf {1,2,...,k} (k aus N)o X ~ DG(k)o Wertebereich von X: {1,2,...,k}

o P(X=x)=1k, x=1,2 ,…k

o E(X )=12(k+1)

o Var (X)= 112

(k2−1)

Bernoulli-Verteilung: X~ Be(p), p element (0,1)o Wertebereich von X: {0,1}o P(X=0) = 1 – p P(X=1) = po E(X) = p Var (X) = p (1-p)

Binomialverteilung: X ~ Bi(n,p), n element N, p element (0,1)o Wertbereich von X: {0,1,2,...,n}

oo p < 0,5 rechtsschiefo p > 0,5 linksschief

Bemerkungen:i. n Versuche werden unabhängig voneinander durchgeführt

ii. Der i-te Versuch wird durch eine Zufallsvariable Xi mit Xi ~ Be(p) beschrieben, 1≤i ≤n

a. Interpretation Xi=1 bedeutet „Erfolg“, Xi=0 Misserfolg, wobei P(Xi=1)=p, P(Xi=0)=1-p

iii. X=∑i=1

n

X i gibt Gesamtzahl der Erfolge an

a. Spezialfall: n=1: Bi(1,p)=Be(p)iv. Zur Berechnung der WSLKT P(X=x)

Page 25: Statistik Einführung

Geometrische Verteilung : X ~ Ge(p), 0<p<1o Wertebereich von X: {0,1,2,3,...}o P(X=x)=(1−p)x ∙ p x=0,1,2 ,…

o E(X )=1−pp

o Var (X)=1−p

p2

Bemerkungen:i. Ein Versuch hat mit WSLKT p den Ausgang Erfolg und mit

WSLKT 1-p Ausgang Misserfolgii. Versuch so lange wiederholt, bis erstmalig Erfolg

iii. Zufallsvariable X gibt Anzahl der beobachteten Misserfolge an

iv. Zur Berechnung der WSLKT P(X=x)a. P(X=x)=(1−p)x p

6.2. Stetige Verteilung

Stetige Gleichverteilung auf [a,b]:

Page 26: Statistik Einführung

Exponentialverteilung: X~Ex( ), >0λ λ

Doppelexponentialverteilung: X~De( ), >0λ λ

6.3. Normalverteilung

Normalverteilung (Gaußverteilung): X N (µ ,σ 2 ) , µϵ R ,σ 2>0

Standardnormalverteilung: Z~N(0,1)

Page 27: Statistik Einführung

6.4. Bivariate Normalverteilung

X und Y zwei normale ZV: X N (μx , σ x2 ) , Y N (μ y ,σ y

2)

Korreliert mit ρ=Cov (X ,Y )

σ xσ y

Gemeinsame Wahrscheinlichkeitsaussagen:

P (X ≤a ,Y ≤b )=∫−∞

a

∫−∞

b

f ( x , y )dydx , f :R2→¿

Bivariat normalverteilt, wenn Dichte folgende Gestalt:

7. Summen und Mittel von Stichprobenvariablen

7.1. Unabhängig und identisch verteilte Stichproben

Zufallsstichprobe: n unabhängige & identisch verteilte ZV X1, X2, ..., Xn

Page 28: Statistik Einführung

„i.i.d.“: alle besitzen gleichen Erwartungswert & gleiche Varianz

Auftreten einer Zufallsstichprobe: WSLKT der Ziehung eines Stichprobenelements kein Einfluss auf

WSLKT der Ziehung eines beliebigen anderen Stichprobenelements

Realisierbarkeita) Stichprobe mit Zurücklegen (klassisch Lotto, Bernoulli)„Urnnenmodell“; ohne Zurücklegen: 1. Ziehung: 1/n, 2. Ziehung 1/(n-1) gegenseitige Beeinflussung

b) Versuchsreihe: n-malige Durchführung eines Zufallsexperiments (z.B. Wüfel)

c) (Unendlich) Große GrundgesamtheitZiehung endliche Zahl n von Beobachtungen faktisch kein Einfluss auf Ziehungswahrscheinlichkeit (z.B. Zufallsstichprobe aus Bevölkerung)

Eigenschaften:i. E(X i)=μ→E ¿

ii. Var (X i)=σ2→Var ¿

iii. Verallgemeinerung: ohne Annahme identischer Verteilungen gilt bei Unabhängigkeit

E ¿

Varianz der Summe nur identisch mit Summe der Varianzen, wenn stochastische U

7.2. Arithmetisches Mittel und Gesetz der großen Zahlen

Arithmetisches Mittel: X=1n∑i=1

n

X i

Eigenschaften

i. E(X )=1n∙n ∙ μ=μ

ii. Var (X)= 1n2∙n ∙ σ2=σ 2

n,σ X=

σ√n

iii. limn→∞

E(X)=μ limn→∞

Var (X )=0

Page 29: Statistik Einführung

MSE-Konsistenz/Gesetz der großen Zahlen! (1-Punkt-Verteilung)

iv.

X i N (μ ,σ2) ,i=1,2 ,…,n→X N (μ , σ2

n)bzw .Z= X−μ

σ√n

N (0,1)

7.3. Asymptotische (approximative) Normalverteilung

Zentraler GrenzwertX1, X2, ..., Xn unabh, & identisch verteilte ZV mit E(X i)=μ ,Var (X i)=σ

2>0

dann: Zn=

∑i=1

n

X i−nμ

√n ∙σ für große Werte von n näherungsweise

standardnormalverteilt

Bezeichnung: Zn asymptotisch (approximativ) normalverteilt;

Schreibweise:

FAUSTREGEL „ANWENDUNG NORMALVERTEILUNG“: n>30

Page 30: Statistik Einführung

Approximative Berechnung von Binominialwahrscheinlichkeiten II (Sonderfall des ZGS)

X Bi(n , p) , X=∑i=1

n

X imit i . d . d .Variablen X i Be( p)

sowie P(X≤ y )≈Φ ( y−np√np (1−p)

) f ü r alle yϵ R

Verbesserung Approximationsgenauigkeit durch Stetigkeitskorrektur

P(X≤ y )≈Φ ( y+0,5−np

√np(1−p) ) , f ü r alle yϵ R Faustregel für Praxis: IMMER ANWEDEN!

Page 31: Statistik Einführung

8.1. Schätzfunktion

8.2. Eigenschaften von Schätzfunktion

Gegeb.: Stichprobenvariablen X1, X2, ..., Xn

SchätzfunktionFunktion g(X1, X2, ..., Xn) der Variablen X1, X2, ..., Xn mit g :Rn→R

Ziel: Schätzung eines unbekannten Parameters θ Alternative Schreibweise für g(X1, ..., Xn): θ̂(X1 ,…, X n)oder θ̂ Bei gegebener Realisierung x1, x2, ..., xn der Stichprobenvariablen dient

θ̂(X1 ,…, X n) als konkreter Schätzwert für θ̂