Vorlesung 23.10.2006:

Preview:

DESCRIPTION

Vorlesung 23.10.2006: Erste Auswertungen von erfassten Daten: absolute und relative Häufigkeiten; Lage- und Streuungsmaße Vorlesung 30.10.2006: Gleichzeitige Untersuchung von 2 Merkmalen Mengentheoretische Grundbegriffe. Dem ersten Eindruck nicht bedingungslos trauen!. - PowerPoint PPT Presentation

Citation preview

Vorlesung 23.10.2006:

Erste Auswertungen von erfassten Daten: absolute und relative Häufigkeiten; Lage- und Streuungsmaße

Vorlesung 30.10.2006: Gleichzeitige Untersuchung von 2 Merkmalen

Mengentheoretische Grundbegriffe

Untersuchung von Datenmengen

geeignete (= aussagekräftige und intuitive) Darstellung finden

Aber: Vorsicht beim Lesen von Diagrammen

Dem ersten Eindruck nicht bedingungslos trauen!

Beeindruckende Ergebnisse – oder?

Tipp: Achten Sie auf die Achsen-beschriftung!

Eine gute graphische Darstellung von statistischen Daten?Vorsicht beim Lesen!

Lage- und Streuungsparameter für eine gegebene Stichprobe

Beispiel: Clownspiel meine Würfelserie: 5 3 1 2 2 5 6 3 5 6 1 2 5 2 4

Augenzahl H(a) h(a)

1 2 2/15

2 4 4/15

3 2 2/15

4 1 1/15

5 4 4/15

6 2 2/15

StichprobenumfangHier: Länge der Würfelserie = 15

Arithmetisches Mittel

...46,3)425216536522135( 1552

151

1 2 3 4 5 6

Arithmetisches Mittel =Schwerpunkt=Unterstützungspunkt für das Gleichgewicht unserer Waage

Frage: Wie schwanken, wie streuen die Ausprägungen um den „zentralen Wert“ , d. h. um das arithmetische Mittel?

Berechnung der Standardabweichung

Berechnen der Stichprobenvarianz und der Standardabweichung für meine Würfelserie:

Würfelserie: 5 3 1 2 2 5 6 3 5 6 1 2 5 2 4

n

iin aas

1

21

12 )( Für meine Serie:

2 2 2 2115 1 ((5 3,46) (3 3,46) (1 3,46) ... (4 3,46) )

2 2 2 2114 (1,54 0,46 2,46 ... 0,54 )

83817,2...

Die gewürfelten Augenzahlen streuen im Bereich

(3,46-1,6847 , 3,46 + 1,6847) = (1,7753 , 5,1447)

Übergang zur Standardabweichung: 6847,183817,22 s

6847,183817,22 sStandardabweichung

(durchschnittliche Streuung)

1 2 3 4 5 6

Streubereich um den Mittelwert 3,46 ,in dem die meisten der Ausprägungen der (= meiner konkreten) Stichprobe liegen.

Gleichzeitige Untersuchung von zwei Merkmalen

Vorgegeben: eine Gruppe von Merkmalsträgern

Wir betrachten für diese Merkmalsträger gleichzeitig zwei Merkmale:

Jedem Merkmalsträger werden gleichzeitig zwei Ausprägungen zugeordnet:

seine Ausprägung bezüglich des 1. Merkmals und seine Ausprägung bezüglich des 2. Merkmals

Merkmalsträger Nr. j Zuordnung (x (j), y(j))

Datenmatrix: tabellarische Darstellung, die für jeden Merkmals- träger der untersuchten Gruppe die zu ihm gehörigen Merkmalsausprägungen enthält

Beispiel: Erfassung von Geburtstagsdaten für eine Gruppe von 49 Studierenden

Merkmalsträger, durch eine laufende Nummer „benannt“

Geburtsmonat Geburtsjahr

1 März 1985

2 Januar 1986

3 März 1985

… … …

49 Oktober 1986

laufende Nummer

Geburts-monat

Geburts-jahr

1 März 1985

2 Januar 1986

3 März 1985

… … …

49 Oktober 1986

Aus der Datenmatrix kann die Tabelle der zugehörigen absoluten (oder relativen ) Häufigkeiten abgelesen werden.

1985 1986 1987

Januar 2

Februar 4 2

März 11 1

April 6

Mai

Juni

Juli 4

August 2

September 4

Oktober 3 4

November 4

Dezember 2

Tabelle der absoluten Häufigkeiten

Darstellung der Merkmalsausprägungskombinationen (Geburtsmonat, Geburtsjahr)

für jedes Mitglied unsere Gruppe in einem Punktediagramm:

Achtung: hinter manchen dieser Punkte stehen mehrere Merkmalsträger!

Geburtsmonate und -jahre

84

85

86

87

88

0 1 2 3 4 5 6 7 8 9 10 11 12

Monate

Jah

r

11 Geb.

1 Geb.

1985 1986 1987

Januar 2

Februar 4 2

März 11 1

April 6

Mai

Juni

Juli 4

August 2

September 4

Oktober 3 4

November 4

Dezember 2

Achtung: Für die Monate ist die (willkürliche) Kodierung durch die Zahlen 1,2,…,12 gewählt, für die Jahre die (willkürliche) Kodierung durch 85,86,87.

Zweidimensionale Häufigkeitsverteilung zur gegebenen Datenmatrix:

für jede Ausprägungskombination wird die zugehörige absolute (oder relative) Auftrittshäufigkeit aufgetragen

02468

1012

1 2 3 4 5 6 7 8 9 10 11 12

85

86

87

Hier: Verteilung der absoluten Häufigkeiten der Ausprägungskombinationen (Geburtsmonat, Geburtsjahr)

Frage: Bestehen Zusammenhänge zwischen den beiden uns interessierenden Merkmalen?

Lassen sich aus unseren Daten statistische Zusammenhänge zwischen den beiden Merkmalen vermuten?

Vorgehen:

n Merkmalsträger, jeweils bezüglich beider Merkmale befragt

Merkmal 1: Merkmalsausprägungen x1, … , xn werden notiert,

Merkmal 2: Merkmalsausprägungen y1, … , yn werden notiert,

Die arithmetischen Mittel und werden berechnet,

die Stichprobenvarianzen s2(Merkmal 1) und s2(Merkmal 2) werden berechnet.

x y

Korrelationskoeffizient der beiden Merkmale bezüglich der untersuchten Stichprobe

))(...)(())(...)((

)()(...)()(:

221

221

11

yyyyxxxx

yyxxyyxxr

nn

nn

EXCEL-Befehle zur Berechnung der Standardabweichung und des Korrelationskoeffizienten für Datenreihen von Merkmalsausprägungspaaren:

STABWN(A1:A49) , STABWN(B1:B49)

KORREL(A1:A49;B1:B49)

Geburtstagsbeispiel:

)212411)43(1049284764)111(3)24(221(49

1x

= … 16,6

78,85...))422(87)2434612(86)4114(85(49

1y

Monatsnummer 1985 1986 1987

1 (=Januar) 2

2 (=Februar) 4 2

3 (=März) 11 1

4 (=April) 6

5 (=Mai)

6 (=Juni)

7 (=Juli) 4

8 (=August) 2

9 (=September) 4

10 (=Oktober) 3 4

11 (=November) 4

12 (=Dezember) 2

jx x

Mögl. Merkmals-ausprägung

Abweichung vom Mittelwert Quadratische Abweichung vom Mittelwert

1 1 - 6,16 = -5,16 (1 – 6,16) 2= 5,162 = 26,63

2 2 - 6,16 = -4,16 (2 – 6,16) 2= 4,162 =17,31

3 3 - 6,16 = -3,16 (3 – 6,16) 2= 3,162 =9,98

12 12 - 6,16 = 5,84 (12 – 6,16) 2= 5,842 =34,11

2j(x x)

jx

Berechnung von Zähler und Nenner der Formel für den Korrelationskoeffizienten

))(...)(())(...)((

)()(...)()(:

221

221

11

yyyyxxxx

yyxxyyxxr

nn

nn

Achtung: Unter den 49 Merkmalsträgern kommen manche xj-Werte mehrmals vor!

yj

85 85 - 85,78 = -0,78 (85 - 85,78)2 = 0,782 = 0,61

86 86 - 85,78 = 0,22 (86 - 85,78)2 = 0,222 = 0,048

87 87 – 85,78 = 1,22 (87 – 85,78)2 = 1,222 = 1,49

jy y 2j(y y)

Entsprechend für das 2. Merkmal:

Achtung: Die 3 Ausprägungen treten sämtlich mehrmals für die Gruppe unserer 49 Merkmalsträger auf!

))78,8587()78,8586()78,8585(())16,610(..)16,61()16,63((

)78,8586()16,610(...)78,8586()16,61()78,8585()16,63(222222

r

Daraus Berechnung des Korrelationskoeffizienten für unsere Stichprobe:

Interpretation: Es gilt für unsere Stichprobe r= 0,396925 Also besteht - gemäß unserer Stichprobe - nur ein niedriger Zusammenhang zwischen den beiden Merkmalen.

laufende Nummer

Geburts-monat

Geburts-jahr

1 März 1985

2 Januar 1986

3 März 1985

… … …

49 Oktober 19861( x -x )1( y -y )

49( x -x )49( y -y ). . .

r = 0 kein (linearer ) Zusammenhang

0 < 0,4 niedriger Zusammenhang

0,4 < 0,7 mittlerer Zusammenhang

0,7 < < 1 starker Zusammenhang

= 1 linearer Zusammenhang

r

r

r

r

Eigenschaften:

Der Korrelationskoeffizient stellt ein Maß für die Abweichung des Zusammenhangs der beiden Merkmale vom strikt linearen Zusammenhang dar:

• r nimmt nur Werte zwischen -1 und +1 (jeweils einschließlilch) an.

• r=-1 oder r=+1 bedeutet, dass die beiden Merkmale linear voneinander abhängen.

• r nahe bei -1 oder nahe bei +1 bedeutet annähernd linearen Zusammenhang.

• Wenn beide Merkmale sich im gleichen Sinn verändern, ist r positiv.

• Wenn beide Merkmale sich im entgegengesetzten Sinn verändern, ist r negativ.

Achtung: r = 0 bedeutet nicht, dass gar kein Zusammenhang zwischen den beiden Merkmalen besteht! Wir können ihn nur nicht mit unserer Datenmenge nachweisen!

Darstellung der Merkmalsausprägungskombinationen (Geburtsmonat, Geburtsjahr)

für jedes Mitglied unsere Gruppe in einem Punktediagramm

Versuch, eine „möglichst gut passende“ Gerade durch die Wolke zu legen:

Geburtsmonate und -jahre

84

85

86

87

88

0 1 2 3 4 5 6 7 8 9 10 11 12

Monate

Jah

r

Die Geraden „passen nicht richtig“: viele Punkte liegen ober- und unterhalb.

Also: Niedriger Zusammenhang!

Wichtige Grundbegriffe der Mengentheorie

Aus: K. Dahl, S. Nordquist: Zahlen, Spiralen und magische Quadrate

Die Sprache der Mathematik ist wie ein Code. Auf diese Weise kann man mathematische Gedanken sehr kurz fassen.

Menge: Familie von Objekten, Zusammenstellung bestimmter Objekte, Familie von Objekten, die eine bestimmte gemeinsame Eigenschaft haben

Menge der Merkmalsträger = Grundgesamtheit

Menge aller Studierenden, die jetzt in diesem Hörsaal sind

Teilmenge

Menge der Merkmalsträger, die für eine bestimmter Stichprobe herangezogen werden

Element einer Menge: jedes einzelne Objekt der Menge

jeder einzelne Merkmalsträger

GAx Das Element x ist enthalten in der Teilmenge A der Menge G.

Vereinigungsmenge, Vereinigung von zwei Mengen:

Menge aller Objekte, die zu A oder zu B gehören

AB

Die Elemente aus der Vereinigungsmenge von A und B gehören jeweils zu mindestens einer der beiden Mengen A oder B.

BA

Menge A: Menge aller Studentinnen, die jetzt in diesem Hörsaal sind.

Menge B: Menge aller Studierenden des Jahrgangs 1985, die jetzt im Hörsaal sind

A B: Menge aller Studierenden im Hörsaal, die weiblich sind

oder im Jahr 1985 geboren wurden

Durchschnittsmenge, Durchschnitt von zwei Mengen:

Menge aller Objekte, die zu A und zu B gehören

AB

BADie Elemente aus der Durchschnittsmenge von A und B gehören sowohl zu der beiden Menge A als auch zu der Menge B.

Menge A: Menge aller Studentinnen, die jetzt in diesem Hörsaal sind.

Menge B: Menge aller Studierenden des Jahrgangs 1985, die jetzt im Hörsaal sind

A B: Menge aller Studierenden im Hörsaal, die sowohl weiblich

sind als auch im Jahr 1985 geboren wurden

Menge A: Menge aller Studentinnen, die jetzt in diesem Hörsaal sind.

Menge B: Menge aller Studierenden des Jahrgangs 1985, die jetzt im Hörsaal sind

A-B: Menge aller Studierenden im Hörsaal,

die weiblich sind, aber nicht im Jahr 1985 geboren wurden

B-A: Menge aller Studierenden im Hörsaal,

die im Jahr 1985 geboren wurden, aber nicht weiblich (also männlich) sind.

Differenzmengemenge, Differenz A - B:

Menge aller Objekte, die zu A, aber nicht gleichzeitig auch zu B gehören

Rein gelber Bereich: A-B Rein grüner Bereich: B-A

Zum kommenden Montag zu lösende Übungsaufgaben:

Aufgabe Nr. 13 und Aufgabe Nr. 16 aus dem Skript

Wichtige Begriffe aus der heutigen Vorlesung:

Arithmetisches Mittel (= „Durchschnittswert“ = erwarteter Wert einer Stichprobe)

Standardabweichung vom erwarteten Wert einer Stichprobe

Zwei Merkmale für ein und dieselbe Klasse von Merkmalsträgern

Korrelationskoeffizient: Stärke (Ausmaß) des Zusammenhangs zwischen zwei Merkmalen

Mengentheoretische Grundbegriffe: Menge, Element, Teilmenge, Vereinigung, Durchschnitt, Differenz

1 2 3 4 56

Recommended