33
Vorlesung 23.10.2006: Erste Auswertungen von erfassten Daten: absolute und relative Häufigkeiten; Lage- und Streuungsmaße Vorlesung 30.10.2006: Gleichzeitige Untersuchung von 2 Merkmalen Mengentheoretische Grundbegriffe

Vorlesung 23.10.2006:

Embed Size (px)

DESCRIPTION

Vorlesung 23.10.2006: Erste Auswertungen von erfassten Daten: absolute und relative Häufigkeiten; Lage- und Streuungsmaße Vorlesung 30.10.2006: Gleichzeitige Untersuchung von 2 Merkmalen Mengentheoretische Grundbegriffe. Dem ersten Eindruck nicht bedingungslos trauen!. - PowerPoint PPT Presentation

Citation preview

Page 1: Vorlesung 23.10.2006:

Vorlesung 23.10.2006:

Erste Auswertungen von erfassten Daten: absolute und relative Häufigkeiten; Lage- und Streuungsmaße

Vorlesung 30.10.2006: Gleichzeitige Untersuchung von 2 Merkmalen

Mengentheoretische Grundbegriffe

Page 2: Vorlesung 23.10.2006:

Untersuchung von Datenmengen

geeignete (= aussagekräftige und intuitive) Darstellung finden

Aber: Vorsicht beim Lesen von Diagrammen

Dem ersten Eindruck nicht bedingungslos trauen!

Page 3: Vorlesung 23.10.2006:

Beeindruckende Ergebnisse – oder?

Tipp: Achten Sie auf die Achsen-beschriftung!

Page 4: Vorlesung 23.10.2006:
Page 5: Vorlesung 23.10.2006:

Eine gute graphische Darstellung von statistischen Daten?Vorsicht beim Lesen!

Page 6: Vorlesung 23.10.2006:
Page 7: Vorlesung 23.10.2006:
Page 8: Vorlesung 23.10.2006:

Lage- und Streuungsparameter für eine gegebene Stichprobe

Beispiel: Clownspiel meine Würfelserie: 5 3 1 2 2 5 6 3 5 6 1 2 5 2 4

Augenzahl H(a) h(a)

1 2 2/15

2 4 4/15

3 2 2/15

4 1 1/15

5 4 4/15

6 2 2/15

StichprobenumfangHier: Länge der Würfelserie = 15

Arithmetisches Mittel

...46,3)425216536522135( 1552

151

Page 9: Vorlesung 23.10.2006:

1 2 3 4 5 6

Arithmetisches Mittel =Schwerpunkt=Unterstützungspunkt für das Gleichgewicht unserer Waage

Frage: Wie schwanken, wie streuen die Ausprägungen um den „zentralen Wert“ , d. h. um das arithmetische Mittel?

Berechnung der Standardabweichung

Page 10: Vorlesung 23.10.2006:

Berechnen der Stichprobenvarianz und der Standardabweichung für meine Würfelserie:

Würfelserie: 5 3 1 2 2 5 6 3 5 6 1 2 5 2 4

n

iin aas

1

21

12 )( Für meine Serie:

2 2 2 2115 1 ((5 3,46) (3 3,46) (1 3,46) ... (4 3,46) )

2 2 2 2114 (1,54 0,46 2,46 ... 0,54 )

83817,2...

Die gewürfelten Augenzahlen streuen im Bereich

(3,46-1,6847 , 3,46 + 1,6847) = (1,7753 , 5,1447)

Übergang zur Standardabweichung: 6847,183817,22 s

Page 11: Vorlesung 23.10.2006:

6847,183817,22 sStandardabweichung

(durchschnittliche Streuung)

1 2 3 4 5 6

Streubereich um den Mittelwert 3,46 ,in dem die meisten der Ausprägungen der (= meiner konkreten) Stichprobe liegen.

Page 12: Vorlesung 23.10.2006:

Gleichzeitige Untersuchung von zwei Merkmalen

Vorgegeben: eine Gruppe von Merkmalsträgern

Wir betrachten für diese Merkmalsträger gleichzeitig zwei Merkmale:

Jedem Merkmalsträger werden gleichzeitig zwei Ausprägungen zugeordnet:

seine Ausprägung bezüglich des 1. Merkmals und seine Ausprägung bezüglich des 2. Merkmals

Merkmalsträger Nr. j Zuordnung (x (j), y(j))

Page 13: Vorlesung 23.10.2006:

Datenmatrix: tabellarische Darstellung, die für jeden Merkmals- träger der untersuchten Gruppe die zu ihm gehörigen Merkmalsausprägungen enthält

Beispiel: Erfassung von Geburtstagsdaten für eine Gruppe von 49 Studierenden

Merkmalsträger, durch eine laufende Nummer „benannt“

Geburtsmonat Geburtsjahr

1 März 1985

2 Januar 1986

3 März 1985

… … …

49 Oktober 1986

Page 14: Vorlesung 23.10.2006:

laufende Nummer

Geburts-monat

Geburts-jahr

1 März 1985

2 Januar 1986

3 März 1985

… … …

49 Oktober 1986

Aus der Datenmatrix kann die Tabelle der zugehörigen absoluten (oder relativen ) Häufigkeiten abgelesen werden.

1985 1986 1987

Januar 2

Februar 4 2

März 11 1

April 6

Mai

Juni

Juli 4

August 2

September 4

Oktober 3 4

November 4

Dezember 2

Tabelle der absoluten Häufigkeiten

Page 15: Vorlesung 23.10.2006:

Darstellung der Merkmalsausprägungskombinationen (Geburtsmonat, Geburtsjahr)

für jedes Mitglied unsere Gruppe in einem Punktediagramm:

Achtung: hinter manchen dieser Punkte stehen mehrere Merkmalsträger!

Geburtsmonate und -jahre

84

85

86

87

88

0 1 2 3 4 5 6 7 8 9 10 11 12

Monate

Jah

r

11 Geb.

1 Geb.

1985 1986 1987

Januar 2

Februar 4 2

März 11 1

April 6

Mai

Juni

Juli 4

August 2

September 4

Oktober 3 4

November 4

Dezember 2

Achtung: Für die Monate ist die (willkürliche) Kodierung durch die Zahlen 1,2,…,12 gewählt, für die Jahre die (willkürliche) Kodierung durch 85,86,87.

Page 16: Vorlesung 23.10.2006:

Zweidimensionale Häufigkeitsverteilung zur gegebenen Datenmatrix:

für jede Ausprägungskombination wird die zugehörige absolute (oder relative) Auftrittshäufigkeit aufgetragen

02468

1012

1 2 3 4 5 6 7 8 9 10 11 12

85

86

87

Hier: Verteilung der absoluten Häufigkeiten der Ausprägungskombinationen (Geburtsmonat, Geburtsjahr)

Page 17: Vorlesung 23.10.2006:

Frage: Bestehen Zusammenhänge zwischen den beiden uns interessierenden Merkmalen?

Lassen sich aus unseren Daten statistische Zusammenhänge zwischen den beiden Merkmalen vermuten?

Vorgehen:

n Merkmalsträger, jeweils bezüglich beider Merkmale befragt

Merkmal 1: Merkmalsausprägungen x1, … , xn werden notiert,

Merkmal 2: Merkmalsausprägungen y1, … , yn werden notiert,

Die arithmetischen Mittel und werden berechnet,

die Stichprobenvarianzen s2(Merkmal 1) und s2(Merkmal 2) werden berechnet.

x y

Page 18: Vorlesung 23.10.2006:

Korrelationskoeffizient der beiden Merkmale bezüglich der untersuchten Stichprobe

))(...)(())(...)((

)()(...)()(:

221

221

11

yyyyxxxx

yyxxyyxxr

nn

nn

EXCEL-Befehle zur Berechnung der Standardabweichung und des Korrelationskoeffizienten für Datenreihen von Merkmalsausprägungspaaren:

STABWN(A1:A49) , STABWN(B1:B49)

KORREL(A1:A49;B1:B49)

Page 19: Vorlesung 23.10.2006:

Geburtstagsbeispiel:

)212411)43(1049284764)111(3)24(221(49

1x

= … 16,6

78,85...))422(87)2434612(86)4114(85(49

1y

Monatsnummer 1985 1986 1987

1 (=Januar) 2

2 (=Februar) 4 2

3 (=März) 11 1

4 (=April) 6

5 (=Mai)

6 (=Juni)

7 (=Juli) 4

8 (=August) 2

9 (=September) 4

10 (=Oktober) 3 4

11 (=November) 4

12 (=Dezember) 2

Page 20: Vorlesung 23.10.2006:

jx x

Mögl. Merkmals-ausprägung

Abweichung vom Mittelwert Quadratische Abweichung vom Mittelwert

1 1 - 6,16 = -5,16 (1 – 6,16) 2= 5,162 = 26,63

2 2 - 6,16 = -4,16 (2 – 6,16) 2= 4,162 =17,31

3 3 - 6,16 = -3,16 (3 – 6,16) 2= 3,162 =9,98

12 12 - 6,16 = 5,84 (12 – 6,16) 2= 5,842 =34,11

2j(x x)

jx

Berechnung von Zähler und Nenner der Formel für den Korrelationskoeffizienten

))(...)(())(...)((

)()(...)()(:

221

221

11

yyyyxxxx

yyxxyyxxr

nn

nn

Achtung: Unter den 49 Merkmalsträgern kommen manche xj-Werte mehrmals vor!

Page 21: Vorlesung 23.10.2006:

yj

85 85 - 85,78 = -0,78 (85 - 85,78)2 = 0,782 = 0,61

86 86 - 85,78 = 0,22 (86 - 85,78)2 = 0,222 = 0,048

87 87 – 85,78 = 1,22 (87 – 85,78)2 = 1,222 = 1,49

jy y 2j(y y)

Entsprechend für das 2. Merkmal:

Achtung: Die 3 Ausprägungen treten sämtlich mehrmals für die Gruppe unserer 49 Merkmalsträger auf!

Page 22: Vorlesung 23.10.2006:

))78,8587()78,8586()78,8585(())16,610(..)16,61()16,63((

)78,8586()16,610(...)78,8586()16,61()78,8585()16,63(222222

r

Daraus Berechnung des Korrelationskoeffizienten für unsere Stichprobe:

Interpretation: Es gilt für unsere Stichprobe r= 0,396925 Also besteht - gemäß unserer Stichprobe - nur ein niedriger Zusammenhang zwischen den beiden Merkmalen.

laufende Nummer

Geburts-monat

Geburts-jahr

1 März 1985

2 Januar 1986

3 März 1985

… … …

49 Oktober 19861( x -x )1( y -y )

49( x -x )49( y -y ). . .

Page 23: Vorlesung 23.10.2006:

r = 0 kein (linearer ) Zusammenhang

0 < 0,4 niedriger Zusammenhang

0,4 < 0,7 mittlerer Zusammenhang

0,7 < < 1 starker Zusammenhang

= 1 linearer Zusammenhang

r

r

r

r

Page 24: Vorlesung 23.10.2006:

Eigenschaften:

Der Korrelationskoeffizient stellt ein Maß für die Abweichung des Zusammenhangs der beiden Merkmale vom strikt linearen Zusammenhang dar:

• r nimmt nur Werte zwischen -1 und +1 (jeweils einschließlilch) an.

• r=-1 oder r=+1 bedeutet, dass die beiden Merkmale linear voneinander abhängen.

• r nahe bei -1 oder nahe bei +1 bedeutet annähernd linearen Zusammenhang.

• Wenn beide Merkmale sich im gleichen Sinn verändern, ist r positiv.

• Wenn beide Merkmale sich im entgegengesetzten Sinn verändern, ist r negativ.

Achtung: r = 0 bedeutet nicht, dass gar kein Zusammenhang zwischen den beiden Merkmalen besteht! Wir können ihn nur nicht mit unserer Datenmenge nachweisen!

Page 25: Vorlesung 23.10.2006:
Page 26: Vorlesung 23.10.2006:

Darstellung der Merkmalsausprägungskombinationen (Geburtsmonat, Geburtsjahr)

für jedes Mitglied unsere Gruppe in einem Punktediagramm

Versuch, eine „möglichst gut passende“ Gerade durch die Wolke zu legen:

Geburtsmonate und -jahre

84

85

86

87

88

0 1 2 3 4 5 6 7 8 9 10 11 12

Monate

Jah

r

Die Geraden „passen nicht richtig“: viele Punkte liegen ober- und unterhalb.

Also: Niedriger Zusammenhang!

Page 27: Vorlesung 23.10.2006:

Wichtige Grundbegriffe der Mengentheorie

Aus: K. Dahl, S. Nordquist: Zahlen, Spiralen und magische Quadrate

Die Sprache der Mathematik ist wie ein Code. Auf diese Weise kann man mathematische Gedanken sehr kurz fassen.

Page 28: Vorlesung 23.10.2006:

Menge: Familie von Objekten, Zusammenstellung bestimmter Objekte, Familie von Objekten, die eine bestimmte gemeinsame Eigenschaft haben

Menge der Merkmalsträger = Grundgesamtheit

Menge aller Studierenden, die jetzt in diesem Hörsaal sind

Teilmenge

Menge der Merkmalsträger, die für eine bestimmter Stichprobe herangezogen werden

Element einer Menge: jedes einzelne Objekt der Menge

jeder einzelne Merkmalsträger

GAx Das Element x ist enthalten in der Teilmenge A der Menge G.

Page 29: Vorlesung 23.10.2006:

Vereinigungsmenge, Vereinigung von zwei Mengen:

Menge aller Objekte, die zu A oder zu B gehören

AB

Die Elemente aus der Vereinigungsmenge von A und B gehören jeweils zu mindestens einer der beiden Mengen A oder B.

BA

Menge A: Menge aller Studentinnen, die jetzt in diesem Hörsaal sind.

Menge B: Menge aller Studierenden des Jahrgangs 1985, die jetzt im Hörsaal sind

A B: Menge aller Studierenden im Hörsaal, die weiblich sind

oder im Jahr 1985 geboren wurden

Page 30: Vorlesung 23.10.2006:

Durchschnittsmenge, Durchschnitt von zwei Mengen:

Menge aller Objekte, die zu A und zu B gehören

AB

BADie Elemente aus der Durchschnittsmenge von A und B gehören sowohl zu der beiden Menge A als auch zu der Menge B.

Menge A: Menge aller Studentinnen, die jetzt in diesem Hörsaal sind.

Menge B: Menge aller Studierenden des Jahrgangs 1985, die jetzt im Hörsaal sind

A B: Menge aller Studierenden im Hörsaal, die sowohl weiblich

sind als auch im Jahr 1985 geboren wurden

Page 31: Vorlesung 23.10.2006:

Menge A: Menge aller Studentinnen, die jetzt in diesem Hörsaal sind.

Menge B: Menge aller Studierenden des Jahrgangs 1985, die jetzt im Hörsaal sind

A-B: Menge aller Studierenden im Hörsaal,

die weiblich sind, aber nicht im Jahr 1985 geboren wurden

B-A: Menge aller Studierenden im Hörsaal,

die im Jahr 1985 geboren wurden, aber nicht weiblich (also männlich) sind.

Differenzmengemenge, Differenz A - B:

Menge aller Objekte, die zu A, aber nicht gleichzeitig auch zu B gehören

Rein gelber Bereich: A-B Rein grüner Bereich: B-A

Page 32: Vorlesung 23.10.2006:

Zum kommenden Montag zu lösende Übungsaufgaben:

Aufgabe Nr. 13 und Aufgabe Nr. 16 aus dem Skript

Page 33: Vorlesung 23.10.2006:

Wichtige Begriffe aus der heutigen Vorlesung:

Arithmetisches Mittel (= „Durchschnittswert“ = erwarteter Wert einer Stichprobe)

Standardabweichung vom erwarteten Wert einer Stichprobe

Zwei Merkmale für ein und dieselbe Klasse von Merkmalsträgern

Korrelationskoeffizient: Stärke (Ausmaß) des Zusammenhangs zwischen zwei Merkmalen

Mengentheoretische Grundbegriffe: Menge, Element, Teilmenge, Vereinigung, Durchschnitt, Differenz

1 2 3 4 56