31
Analyse von Querschnittsdaten Arten von Variablen und Strategien der Datenanalyse

Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

  • Upload
    others

  • View
    7

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

Analyse von Querschnittsdaten

Arten von Variablenund

Strategien der Datenanalyse

Page 2: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

Gliederung

1. Arten von Variablen2. Analyse einzelner Variablen (univariate

Verteilungen)3. Analyse der Zusammenhänge zweier

Variablen (bivariate Verteilungen)4. Ausblick: Statistische Analyseverfahren

und statistische Modelle

Page 3: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

Gliederung

1. Arten von Variablen2. Analyse einzelner Variablen (univariate

Verteilungen)3. Analyse der Zusammenhänge zweier

Variablen (bivariate Verteilungen)4. Ausblick: Statistische Analyseverfahren

und statistische Modelle

Page 4: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

Definition Messniveau

jajajajaRatio

neinjajajaIntervall

neinneinjajaOrdinal

neinneinneinjaNominal

NullpunktAbständeRängeIdentitätNiveau

Page 5: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

Beispiele aus dem GSS

EinkommenAusbildungsdauer

Kinderzahl

Liberalismus Berufsprestige

KirchgangSchulabschluss

Liberalismus

GeschlechtFamilienstand

Nationalität

Beispiele

jajajajaRatio

neinjajajaIntervall

neinneinjajaOrdinal

neinneinneinjaNominal

NullpunktAbständeRängeIdentitätNiveau

Page 6: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

Wenige oder viele Ausprägungen?

• Kategoriale Variablen sind Merkmale, die eine begrenzte Anzahl von Ausprägungen (Kategorien) haben.

• Variablen mit sehr vielen Ausprägungen zählen nicht zu den kategorialen Variablen. Liegt diesen Messungen eine kontinuierliche Eigenschaft zugrunde, wollen wir sie als kontinuierliche Variablenbezeichnen.

Page 7: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

Beispiele aus dem GSS

Einkommen (>1000)Ausbildungsdauer (19)

Berufsprestige (>50)

Nationalität (38)

kontinuierlich

Einkommensklasse (21)Kinderzahl (9)

Liberalismus (7)

Kirchgang (9)Schulabschluss (5)

Liberalismus (7)

Geschlecht (2)Familienstand (5)

kategorial

Ratio

Intervall

Ordinal

Nominal

Niveau

Page 8: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

Strategien der Datenanalyse

• kategoriale Variablen– analysiere das Auftreten einzelner Ausprägungen– Beispiel: Wie groß ist die Wahrscheinlichkeit,

verheiratet zu sein?• kontinuierliche Variablen

– analysiere bestimmte Eigenschaften (Zentrum, Streuung) der Verteilung aller Ausprägungen

– Beispiel: Wie hoch ist das Durchschnittseinkommen?

Page 9: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

Gliederung

1. Arten von Variablen2. Analyse einzelner Variablen (univariate

Verteilungen)3. Analyse der Zusammenhänge zweier

Variablen (bivariate Verteilungen)4. Ausblick: Statistische Analyseverfahren

und statistische Modelle

Page 10: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

Relative Häufigkeiten• Eine relative Häufigkeit betrachtet die absolute

Häufigkeit einer Ausprägung einer Variablen entweder (a) in Relation zur Gesamtzahl aller Untersuchungseinheiten oder (b) in Relation zur Häufigkeit einer anderen Ausprägung der Variablen.a. Beispiel: 53% aller Befragten sind verheiratet. Diesen

Quotienten bezeichnet man als (prozentualen) Anteilswert.

b. Beispiel: Das Größenverhältnis von Verheirateten und Unverheirateten beträgt ca. 5 zu 2. Diesen Quotienten bezeichnet man als Größenverhältnisoder Odds (engl.: Wetten).

Page 11: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

Mittelwerte und Perzentile

• Arithmetisches Mittel– Das durchschnittliche Jahreseinkommen beträgt

30.745,42 Dollar.• Median (50. Perzentil)

– Die Hälfte der Personen hat ein Jahreseinkommen von maximal 25.510 Dollar.

• Perzentil– Das obere Zehntel der Befragten hat ein

Jahreseinkommen von mindestens 65.533 Dollar.

Page 12: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

Definition Dummy-Variable• Für einige statistische Auswertungen ist es hilfreich zu

wissen, ob eine Untersuchungseinheit eine bestimmte Ausprägung einer kategorialen Variablen aufweist oder nicht.

• Zu diesem Zweck bildet man eine sogenannteStellvertreter-Variable (engl.: dummy variable) mit den Ausprägungen 1 und 0:

• 1 = Ausprägung liegt vor• 0 = Ausprägung liegt nicht vor

• Bei insgesamt k Ausprägungen einer kategorialen Variablen sind im Prinzip k Dummies denkbar. Praktisch sind aber lediglich (k-1) Dummies nötig, um die k Ausprägungen vollständig abzubilden:

• die (ausgelassene) k-te Ausprägung erkennt man daran, dass alle Dummies den Wert 0 aufweisen.

Page 13: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

Box-Plot0

20,0

0040

,000

60,0

0080

,000

1000

00to

tal f

amily

inco

me

in d

olla

rs

75. Perzentil: drittes Quartil

50. Perzentil: Median

25. Perzentil: erstes Quartil

Page 14: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

Univariate Verteilungen

EinkommenFamilienstandBeispiel

(absolut: Häufigkeiten)(relativ: Anteile, Odds)

MittelwerteStreuungsmaße

absolut: Häufigkeitenrelativ: Anteile, Odds

(Mittelwerte)(Streuungsmaße)

Statistik

HistogramBox-PlotSäulendiagrammGraphik

Variable vorher klassifizierenproblemlosTabelle

kontinuierlichkategorial

Page 15: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

Gliederung

1. Arten von Variablen2. Analyse einzelner Variablen (univariate

Verteilungen)3. Analyse der Zusammenhänge zweier

Variablen (bivariate Verteilungen)4. Ausblick: Statistische Analyseverfahren

und statistische Modelle

Page 16: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

Analyse mehrerer Variablen (1)

• definiere eine Variable als abhängige Variable y.• unbedingte / bedingte Verteilung:

– unbedingt: Verteilung von y für alleUntersuchungseinheiten

– bedingt: Verteilung von y für den Teil der Untersuchungseinheiten mit x=k

• zur Beschreibung des Zusammenhangs zwischen x und y vergleiche die bedingten Verteilungen von y für verschiedene x-Werte

Page 17: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

Analyse mehrerer Variablen (2)

Grundprinzip der statistischen Modelle• kategoriale Variablen

– Was ist die Wahrscheinlichkeit, dass die abhängige Variable y eine bestimmte Ausprägung k aufweist, für verschiedene Werte der unabhängigen Variablen x.

– Pr(y=k | x)• kontinuierliche Variablen

– Welchen Wert der abhängigen Variablen y kann man im Durchschnitt für verschiedene Werte der unabhängigen Variablen x erwarten.

– E(y | x)

Page 18: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

Vergleiche konditionale Anteilswerte

• 58,3% aller Männer sind verheiratet, dagegen nur 49,2% aller Frauen.

• Der Anteil der Verheirateten ist bei den Männern 9,1 Prozentpunkte größer (∆p%: Prozentsatz-differenz).

Status m fmarried 371 433widowed 22 146divorced 60 115separated 12 33never married 171 154Total 636 881

1,9881433

636371100% ≈⎟

⎠⎞

⎜⎝⎛ −⋅=∆p

Page 19: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

Vergleiche konditionale Odds• Bei den Männern

kommen 2,17 verheiratete auf einen unverheirateten Mann. Bei den Frauen beträgt das Verhältnis 2,81 zu 1.

• Das Verhältnis von Verheirateten zu Unverheirateten ist bei den Frauen 1,3 mal größer als bei den Männern (OR: OddsRatio).

Status m fmarried 371 433widowed 22 146divorced 60 115separated 12 33never married 171 154Total 636 881

3,117,281,2

171371154433

≈≈=OR

Page 20: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

Bivariate Verteilungen (1)

y: Einkommenx: Schulabschluss

y: Familienstandx: GeschlechtBeispiel

konditionale Mittelwertekonditionale Mediane

konditionale Anteilekonditionale OddsStatistik

konditionales Histogramkonditionaler Box-Plot

gestapeltes SäulendiagrammGraphik

y vorher klassifizierenproblemlos(Kreuztabelle)Tabelle

y: kontinuierlichx: kategorial

y: kategorialx: kategorial

Page 21: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

Bivariate Verteilungen (2)

y: Einkommenx: Berufsprestige

y: verheiratetx: EinkommenBeispiel

KorrelationskoeffizientRegressionskoeffeizient

(konditionale Anteile / Odds wenn x klassifiziert)Statistik

Streudiagramm(Streudiagramm)(Säulen wenn x

klassifiziert)Graphik

x und y vorher klassifizierenx vorher klassifizierenTabelle

y: kontinuierlichx: kontinuierlich

y: kategorialx: kontinuierlich

Page 22: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

Gliederung

1. Arten von Variablen2. Analyse einzelner Variablen (univariate

Verteilungen)3. Analyse der Zusammenhänge zweier

Variablen (bivariate Verteilungen)4. Ausblick: Statistische Analyseverfahren

und statistische Modelle

Page 23: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

Multivariate Analyseverfahren

lineare Regressionlogistische Regressionkontinuierlich

VarianzanalyseTabellenanalysekategorial

kontinuierlichkategorial

abhängige Variable yunabhängige Variable x

Page 24: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

Statistische Modelle0

2000

040

000

6000

080

000

1000

00

0 1 2 3 4rs highest degree

total family income in dollars Fitted values

020

,000

40,0

0060

,000

mea

n of

incg

en

lt high school high school junior college bachelor graduate

uxyx

++= 10

lichkontinuierββ uddddy

xgrbajchs +++++= 43210

kategorial βββββ

Page 25: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

Zum Schluss

Page 26: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

Weiterführende Literatur• H.J. Andreß (2001): Glossar zur Datenerhebung und

statistischen Analyse– über ESWF-Homepage >> Links >> Methoden

• www.wiso.uni-koeln.de/ASPSamp/eswf/html/glossar/stichwor.htm– Schlagworte zu Messniveau, kategoriale / kontinuierliche

Variable, Dummy-Variable, Anteilswert, Odds, graphischen Darstellungen, Tabellenanalyse usw.

• Einführungen in Stata– Kohler, Ulrich/Kreuter, Frauke (2001): Datenanalyse mit Stata.

München: Oldenbourg– Hamilton, Lawrence C. (2004): Statistics with Stata updated for

version 8. Belmont: Duxbury/Thomson Learning– siehe auch ESWF-Homepage >> Lehre >> Stata

Page 27: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

Zusammenfassung

• wenige oder viele Ausprägungen• Verfahren für kategoriale oder kontinuierliche Daten

Datenanalyse• beschreibt zulässige mathematische OperationenMessniveau

• relative Häufigkeiten (Anteile, Odds)• Mittelwerte• Histogramm, Box Plot

univariateAnalyse

• vergleiche bedingte Verteilungen• konditionale Anteile, Odds, Mittelwerte• konditionale Box Plots und Histogramme• Streudiagramm

bivariateAnalyse

Page 28: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

Stata-Befehle zum Einstieg (1)

ditto mit Generierung von Dummiestab y, gen(dummy)

Histogramm y kategorialhistogram y, discrete

Box-Plot (vertikal)Box-Plot (horizontal)

graph box ygraph hbox y

Histogramm y kontinuierlichhistogram y

Datenspeicher löschenclear

Daten ladenuse gss1991.dtaSpeicherplatz für Daten schaffenset mem 100000

Häufigkeitsverteilungtabulate yMittelwert, Standardabweichung, Min, Maxsummarize y

Beschreibung des Datensatzes im Speicher describe

Page 29: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

Stata-Befehle zum Einstieg (2)

ditto mit Spaltenprozententabulate x y, colditto mit Zeilenprozententabulate x y, rowKreuztabelle mit x in Zeile und y in Spaltetabulate x y

konditionales Histogrammhistogram y, by(x)konditionales Dot Diagrammgraph dot y, over(x)

konditionaler Box-Plotgraph box y, over(x)

Streudiagrammgraph twoway scatter y x

Page 30: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

Wichtige Fachausdrücke

scattergramStreudiagrammmedianMedian

histogramHistogrammmeanarithmetischer Mittelwert

box plotBox Plotcategoricalcontinuous

kategorialkontinuierlich

conditionaldistribution

bedingte Verteilung

measurementscaleMessniveau

EnglischDeutschEnglischDeutsch

Page 31: Analyse von Querschnittsdaten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/0405/0405_03/ws0403_04.pdf · Box-Plot (vertikal) Box-Plot (horizontal) graph box y graph hbox y histogram

Wichtige Fachausdrücke

dummyvariable

Dummy Variable

odds ratioodds ratio

oddsGrößen-

verhältnis(Odds)

EnglischDeutschEnglischDeutsch