View
217
Download
0
Category
Preview:
Citation preview
WISTAWIRTSCHAFTSSTATISTIK
PROF. DR. ROLF HÜPEN
FAKULTÄT FÜR
WIRTSCHAFTSWISSENSCHAFT
Seminar für Theoretische Wirtschaftslehre
Vorlesungsprogramm 11.06.2013
Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zweidimensionale Datensätze (Fortsetzung)
3. Regressionsanalyse: lineare Regression, Methode der kleinsten Quadrate
Grundlagen der Zeitreihenanalyse
1. Komponentenzerlegung von Zeitreihen
2. Trendbestimmung von Zeitreihen
3. Glätten von Zeitreihen
Literatur: Degen, Horst / Lorscheid, Peter: Statistik-Lehrbuch, 2. Aufl., München-Wien 2002, S. 62–86,
87–98.
Mosler, Karl und Schmid, Friedrich: Beschreibende Statistik und Wirtschaftsstatistik, 4. Aufl.,
Berlin-Heidelberg-New York 2009, S. 153–201, 203–221.
von der Lippe, Peter: Deskriptive Statistik, Stuttgart 1993, Online-Ausgabe, S. 259 – 301, S.
393 – 420.
Wewel, Max C.: Statistik im Bachelor-Studium der BWL und VWL, 2. erw. Aufl., München
2011, S. 97 – 123.
Übungsaufgaben: SS 08 A4. WS 08/09 A4. SS 10 A5. WS 10/11 A4. WS 11/12 A2. SS 12 A5.
2Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zweidimensionale Datensätze Regressionsanalyse
Regressionsanalyse
Die Regressionsanalyse beschäftigt sich mit der Schätzung funktionaler Beziehungen zwischen zwei oder mehr
metrisch skalierten Merkmalen.
Hier: Zweidimensionale Datensätze „Einfache Regression“
Es wird unterstellt, das eine metrische Merkmal (die unabhängige Variable, im Folgenden immer mit 𝑥bezeichnet) beeinflusse das andere metrische Merkmal (die abhängige Variable, im Folgenden immer mit 𝑦bezeichnet). Gesucht ist also die Funktion
𝑦 = 𝑓 𝑥 ,
durch welche die gegebenen 𝑛 Wertepaare 𝑥𝑖 , 𝑦𝑖 generiert werden.
Bei der linearen Regression wird angenommen, die gesuchte Funktion sei linear von der Form
𝑦 = 𝑎 + 𝑏 ⋅ 𝑥
Die vorliegenden Wertepaare erfüllen diese Beziehung in der Regel nicht exakt, d. h. es gibt Abweichungen
𝑢𝑖 = 𝑦𝑖 − 𝑎 + 𝑏 ⋅ 𝑥𝑖 , 𝑖 = 1, … , 𝑛
Die lineare Einfachregression läuft also darauf hinaus, die durch den Datensatz gegebene Punktwolke im
Streudiagramm durch eine Gerade so anzunähern, dass die Abweichungen 𝑢𝑖 möglichst gering sind.
3Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zweidimensionale Datensätze Lineare Einfachregression
Zahlenbeispiel
𝑖 𝑥𝑖 𝑦𝑖
1 0 3
2 2 1
3 4 4
4 6 8
5 8 9
In der Abbildung wurde in die
Punktwolke mit der „Freihandmethode“
eine Regressionsgerade eingezeichnet.
Die Abweichungen sind jeweils die
senkrechten Abstände zwischen den
Punkten und der Geraden.
-1
0
1
2
3
4
5
6
7
8
9
10
-1 0 1 2 3 4 5 6 7 8 9 10
y
x
u2
u1
u3
u4
u5
4Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zweidimensionale Datensätze Lineare Einfachregression
Methode der kleinsten Quadrate nach Gauß:
Die Koeffizienten 𝑎 und 𝑏 der Regressionsgeraden 𝑦 = 𝑎 + 𝑏 ⋅ 𝑥 sind so zu wählen, dass die Summe der
quadratischen Abweichungen
𝑄 𝑎, 𝑏 =
𝑖=1
𝑛
𝑢𝑖2 =
𝑖=1
𝑛
𝑦𝑖 − (𝑎 + 𝑏 ⋅ 𝑥𝑖)2
minimiert wird.
Unter der Voraussetzung
𝑖=1
𝑛
𝑥𝑖 − 𝑥 2 ≠ 0
ist die Lösung dieser Minimierungsaufgabe eindeutig und lautet:
𝑏 =
𝑖=1
𝑛
𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦
𝑖=1
𝑛
𝑥𝑖 − 𝑥 2 =𝑠𝑥𝑦
𝑠𝑥2
𝑎 = 𝑦 − 𝑏 ⋅ 𝑥
oder alternativ:
𝑏 = 𝑛 ⋅
𝑖=1
𝑛
𝑥𝑖 ⋅ 𝑦𝑖 −
𝑖=1
𝑛
𝑥𝑖 ⋅
𝑖=1
𝑛
𝑦𝑖 𝑛 ⋅
𝑖=1
𝑛
𝑥𝑖2 −
𝑖=1
𝑛
𝑥𝑖
2
𝑎 = 𝑦 − 𝑏 ⋅ 𝑥
… Beweis
5Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
-1
0
1
2
3
4
5
6
7
8
9
10
-1 0 1 2 3 4 5 6 7 8 9 10
y
x
Zweidimensionale Datensätze Lineare Einfachregression
Zahlenbeispiel:
𝑏 = 𝑖=1𝑛 𝑥𝑖 − 𝑥 ⋅ 𝑦𝑖 − 𝑦
𝑖=1𝑛 𝑥𝑖 − 𝑥 2
=38
40= 0,95
𝑎 = 𝑦 − 𝑏 ∙ 𝑥 = 5 − 0,95 ∙ 4 = 1,2
⇒ Regressionsgerade 𝑦 = 1,2 + 0,95 ⋅ 𝑥
𝑖 𝑥𝑖 𝑦𝑖 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 𝑥𝑖 − 𝑥 2
1 0 3 -4 -2 8 16
2 2 1 -2 -4 8 4
3 4 4 0 -1 0 0
4 6 8 2 3 6 4
5 8 9 4 4 16 16
S 20 25 38 40
AM 4 5 7,6 8
6Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zweidimensionale Datensätze Lineare Einfachregression
Zwischen dem Korrelationskoeffizienten 𝑟 von Bravais-Pearson und dem
Regressionskoeffizienten 𝑏 gibt es folgende Beziehung:
𝑏 = 𝑟 ⋅𝑠𝑦
𝑠𝑥
mit 𝑠𝑥 =1
𝑛⋅
𝑖=1
𝑛
𝑥𝑖 − 𝑥 2 und 𝑠𝑦 =1
𝑛⋅
𝑖=1
𝑛
𝑦𝑖 − 𝑦 2
Die sich durch Anwendung der Regressionsgleichung aus den Beobachtungswerten ergebenden
Werte
𝑦𝑖 = 𝑎 + 𝑏 ⋅ 𝑥𝑖
heißen theoretische 𝒚-Werte oder durch die Regression erklärten Werte.
Die Abweichungen
𝑢𝑖 = 𝑦𝑖 − 𝑦𝑖
zwischen den beobachteten 𝑦-Werten und den theoretischen 𝑦-Werten heißen KQ-Residuen.
7Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zweidimensionale Datensätze Lineare Einfachregression
Zur Einschätzung der Güte der
Regression wird der
Determinationskoeffizient 𝑑berechnet. Diesen bezeichnet man
auch als Bestimmtheitsmaß. Er ist
wie folgt definiert:
𝑑 =
𝑖=1
𝑛
𝑦𝑖 − 𝑦 2
𝑖=1
𝑛
𝑦𝑖 − 𝑦 2
mit
𝑖=1
𝑛
𝑦𝑖 − 𝑦 2 ≠ 0
Der Determinationskoeffizient misst,
welcher Anteil der Varianz
(quadratische Abweichung der
Beobachtungswerte vom arithmetischen Mittel 𝑦𝑖 − 𝑦 2) durch
die Regression erklärt wird.
-1
0
1
2
3
4
5
6
7
8
9
10
-1 0 1 2 3 4 5 6 7 8 9 10
y
x
8Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Für den Determinationskoeffizienten gelten folgende Aussagen:
● Der Determinationskoeffizient gibt an, wie groß der Anteil der durch die Regressionsgeraden
erklärten quadratischen Abweichungen des abhängigen Merkmals 𝑦 vom seinem Mittelwert 𝑦an der Gesamtsumme der quadratischen Abweichungen ist.
● 𝑑 = 1 − 𝑢𝑖
𝑦𝑖−𝑦2
● 0 ≤ 𝑑 ≤ 1
● 𝑑 = 𝑟2
● 𝑑 = 1 genau dann, wenn alle Punkte 𝑥𝑖 , 𝑦𝑖 auf der Regressionsgeraden liegen.
● 𝑑 = 0 genau dann, wenn beide Merkmale unkorreliert sind. Dies ist unter den Annahmen 𝑠𝑥 ≠0 und 𝑠𝑦 ≠ 0 genau dann der Fall, wenn 𝑏 = 0 und 𝑎 = 𝑦.
● Die Anpassung durch die Regressionsgerade ist umso besser, je größer 𝑑 ist.
Zweidimensionale Datensätze Lineare Einfachregression
9Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zweidimensionale Datensätze Lineare Einfachregression Zahlenbeispiel
Zahlenbeispiel „Obsthändler“:1
Ein Obsthändler notiert an zehn aufeinander folgenden Tagen den Preis (in Euro pro kg) einer
bestimmten Erdbeersorte und die verkaufte Tagesmenge (in kg):
Preis in Eurokg Menge in kg
4,70 70
4,30 75
3,80 80
4,50 75
5,40 50
5,00 60
4,10 70
4,30 65
3,90 75
4,00 8540
45
50
55
60
65
70
75
80
85
90
3,00 3,50 4,00 4,50 5,00 5,50 6,00
Me
ng
e
Preis
1 Quelle für das Zahlenbeispiel: Mosler / Schmid, Beschreibende Statistik und Wirtschaftsstatistik, 4. Aufl., Berlin-Heidelberg-New York 2009, S. 154.
10Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zweidimensionale Datensätze Lineare Einfachregression Zahlenbeispiel
Preis Menge
𝑖 𝑥𝑖 𝑦𝑖 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 𝑥𝑖 − 𝑥 ∙ 𝑦𝑖 − 𝑦 𝑥𝑖 − 𝑥 2 𝑦𝑖 − 𝑦 2
1 4,70 70 0,30 -0,50 -0,15 0,09 0,25
2 4,30 75 -0,10 4,50 -0,45 0,01 20,25
3 3,80 80 -0,60 9,50 -5,7 0,36 90,25
4 4,50 75 0,10 4,50 0,45 0,01 20,25
5 5,40 50 1,00 -20,50 -20,5 1 420,25
6 5,00 60 0,60 -10,50 -6,3 0,36 110,25
7 4,10 70 -0,30 -0,50 0,15 0,09 0,25
8 4,30 65 -0,10 -5,50 0,55 0,01 30,25
9 3,90 75 -0,50 4,50 -2,25 0,25 20,25
10 4,00 85 -0,40 14,50 -5,8 0,16 210,25
S 44 705 -40 2,34 922,5
AM 4,40 70,5 -4 0,234 92,25
Arbeitstabelle: Korrelationskoeffizient:
𝑟 = 𝑥𝑖 − 𝑥 ∙ 𝑦𝑖 − 𝑦
𝑥𝑖 − 𝑥 2 ∙ 𝑦𝑖 − 𝑦 2
=−40
2,34 ∙ 922,5= −0,8609
Also starke negative Korrelation.
𝑏 = 𝑥𝑖 − 𝑥 ∙ 𝑦𝑖 − 𝑦
𝑥𝑖 − 𝑥 2
=−40
2,34= −17,0940
𝑎 = 𝑦 − 𝑏 ∙ 𝑥= 70,5 + 17,0940 ∙ 4,4
= 145,7137
Regressionsgerade:
𝑦 = 145,7137 − 17,0940 ∙ 𝑥
Determinationskoeffizient:
𝑑 = 𝑟2 = −0,8609 2 = 0,7412Ca. 74% der Abweichungen werden durch die Regression erklärt.
11Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zweidimensionale Datensätze Lineare Einfachregression Zahlenbeispiel
Die Regressionsgleichung kann zu
Prognosezwecken benutzt werden, wenn
man abschätzen will, mit welchem y-Wert
bei einem bestimmten x-Wert zu rechnen
ist. Im Beispiel „Obsthändler“ ist etwa
𝑦 3,50 = 145,7137 − 17,0940 ⋅ 3,50= 85,8847
sodass der Obsthändler damit rechnen
kann, ca. 86 kg Erdbeeren absetzen zu
können, wenn er den Preis auf 3,50 €/kg
senkt.
Je kleiner 𝑑 und je weiter der eingesetzte
x-Wert von den bisher beobachteten
Werten entfernt ist, umso unsicherer ist
jedoch die Prognose.
40
45
50
55
60
65
70
75
80
85
90
3,00 3,50 4,00 4,50 5,00 5,50 6,00
Me
ng
e
Preis
Beispiel Konsumfunktion …
12Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zeitreihenanalyse Begriff der Zeitreihe
Zeitreihen entstehen bei statistischen Längsschnittanalysen. Ein Merkmal X wird zu
verschiedenen, aufeinander folgenden Zeitpunkten oder Zeitintervallen erhoben.
Dadurch erhält man eine zeitlich geordnete Abfolge von Beobachtungswerten.
Der Gegenbegriff ist die statistische Querschnittanalyse, bei der sich die
Beobachtungswerte verschiedener statistischer Einheiten alle auf ein- und denselben
Zeitpunkt oder Zeitraum beziehen.
Definition: Eine Folge von Beobachtungswerten
Zeitreihenanalyse
welche in der Reihenfolge 𝑥1, 𝑥2, … , 𝑥𝑛 zeitlich nacheinander beobachtet wurden, heißt
Zeitreihe. 𝑡 = 1,2, … , 𝑛 heißt Zeitindex.
𝑥𝑡 mit 𝑡 = 1,2, … , 𝑛
13Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zeitreihenanalyse Begriff der Zeitreihe
Bei Zeitreihen ist Folgendes zu beachten:
● Handelt es sich bei den Beobachtungswerten um Bestandsgrößen, so ist der
Zeitindex 𝑡 als aufeinander folgende Reihe äquidistanter Zeitpunkte zu
interpretieren. 𝑥𝑡 ist dann der Wert der Bestandsgröße zum Zeitpunkt 𝑡, also z. B.
die Einwohnerzahl Deutschlands am 9.5.2011.
● Handelt es sich bei den Beobachtungswerten um Stromgrößen, so ist der
Zeitindex 𝑡 als aufeinander folgende Reihe von Zeitperioden einheitlicher Dauer
zu interpretieren.1 In diesem Fall bezeichnet 𝑥𝑡 den während der Dauer der Periode
𝑡 kumulierten Wert der betrachteten Stromgröße, z. B. das Bruttoinlandsprodukt im
zweiten Quartal 2010.
● Empirisch gehaltvolle Aussagen erfordern, dass der im Zeitindex ausgedrückten
Modellzeit eindeutig Kalenderzeiteinheiten zugeordnet werden können.
● Der Graph einer Zeitreihe mit 𝑡 an der Abszisse und 𝑥𝑡 an der Ordinate heißt
Zeitreihendiagramm (Plot).
1) Liegen 𝑛 aufeinander folgende Zeitperioden 𝑇1, … , 𝑇𝑛 vor, so gibt es 𝑛 Stromgrößen 𝑥1, … 𝑥𝑛. Betrachtet man die damit korrespondierenden Anfangs- und
Endzeitpunkte der Perioden, so gibt es 𝑛 + 1 solcher Zeitpunkte, nämlich 𝑡0, 𝑡1, … , 𝑡𝑛 mit 𝑇𝑖 = 𝑡𝑖 − 𝑡𝑖−1. Der Zeitindex für die Bestandsgrößen ist dann 𝑡 =0,1,… , 𝑛. So gehören z. B. zu 𝑛 + 1 aufeinander folgende äquidistante Bestandsgrößen genau 𝑛 aufeinander folgende Wachstumsraten.
14Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zeitreihenanalyse Zeitreihendiagramm
Registrierte Arbeitslose im alten Bundesgebiet, Monatswerte
0
500 000
1 000 000
1 500 000
2 000 000
2 500 000
3 000 000
3 500 000
4 000 000
19
50
19
51
19
52
19
53
19
54
19
55
19
56
19
57
19
58
19
59
19
60
19
61
19
62
19
63
19
64
19
65
19
66
19
67
19
68
19
69
19
70
19
71
19
72
19
73
19
74
19
75
19
76
19
77
19
78
19
79
19
80
19
81
19
82
19
83
19
84
19
85
19
86
19
87
19
88
19
89
19
90
19
91
19
92
19
93
19
94
19
95
19
96
19
97
19
98
19
99
20
00
20
01
20
02
20
03
20
04
20
05
20
06
20
07
15Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zeitreihenanalyse Zeitreihendiagramm
Registrierte Arbeitslose in Deutschland, Monatswerte
0
1 000 000
2 000 000
3 000 000
4 000 000
5 000 000
6 000 000
19
91
19
92
19
93
19
94
19
95
19
96
19
97
19
98
19
99
20
00
20
01
20
02
20
03
20
04
20
05
20
06
20
07
16Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zeitreihenanalyse Komponentenzerlegung von Zeitreihen
Komponentenzerlegung von Zeitreihen
Bewegungskomponenten beschreiben charakteristische Veränderungen der Beobachtungswerte im Zeitablauf:
Additives Komponentenmodell: 𝑥𝑡 = 𝑇𝑡 + 𝑍𝑡 + 𝑆𝑡 + 𝑅𝑡
𝑇𝑡 Trendkomponente:
Beschreibt die monotone langfristige Entwicklung.
𝑍𝑡 Zyklische Komponente:
Beschreibt den Konjunkturverlauf.
𝐺𝑡 = 𝑇𝑡 + 𝑍𝑡 Glatte Komponente:
Zusammenfassung von Trend und zyklischer Komponente.
𝑆𝑡 Saisonkomponente:
Beschreibt die saisonale Abweichung von der glatten Komponente.
𝑅𝑡 Irreguläre Komponente:
Restkomponente, beschreibt den Teil der Beobachtungen, den die vorgenannten
Komponenten nicht erfassen.
𝐺𝑡
17Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zeitreihenanalyse Trendkomponente Methode der Reihenhälften
Trendbestimmung mit der Methode der Reihenhälften
Fall 1: Die Anzahl der vorhandenen Zeitreihenwerte ist gerade 𝑛 = 2 ⋅ 𝑛′
● Zeitreihen in die beiden Hälften 𝑥1, … , 𝑥𝑛′ und 𝑥𝑛′+1, … , 𝑥𝑛 aufteilen.
● Die arithmetischen Mittel 𝑥 1 =1
𝑛′⋅
𝑡=1
𝑛′
𝑥𝑡 und 𝑥 2 =1
𝑛′⋅
𝑡=𝑛′+1
𝑛
𝑥𝑡 der beiden Reihenhälften berechnen.
● Eine Gerade durch die beiden Punkte 𝑛′+1
2, 𝑥 1 und
3⋅𝑛′+1
2, 𝑥 2 legen.
Diese Gerade ist die Trendgerade.
● Trendgerade: 𝑇𝑡 = 𝑎 + 𝑏 ⋅ 𝑡
● Parameter der Trendgeraden: 𝑏 =𝑥 2 − 𝑥 1
𝑛′und 𝑎 = 𝑥 1 − 𝑏 ⋅
𝑛′ + 1
2
Fall 2: Die Anzahl der vorhandenen Zeitreihenwerte ist ungerade 𝑛 = 2 ⋅ 𝑛′ + 1
● Mittleren Wert 𝑥𝑛′+1 weglassen.
● Weiteres Vorgehen analog zu Fall 1.
18Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zeitreihenanalyse Trendkomponente Methode der Reihenhälften
Bruttoinlandsprodukt, preisbereinigt
(verkettet, 1991 = 100)
40,00
50,00
60,00
70,00
80,00
90,00
100,00
110,00
120,00
130,00
1965 1970 1975 1980 1985 1990 1995 2000 2005 2010
Ke
tte
nin
de
x,
19
91
= 1
00
19Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zeitreihenanalyse Trendkomponente Methode der Reihenhälften
𝑛 = 36 ⟹ 𝑛′ = 18
𝑛′ + 1
2, 𝑥 1 = 9,5; 72,9483
3 ⋅ 𝑛′ + 1
2, 𝑥 2 = (27,5; 109,8596)
𝑏 = 𝑥 2 − 𝑥 1
𝑛′=109,8596 − 72,9483
18= 2,0506
𝑎 = 𝑥 1 − 𝑏 ⋅𝑛′ + 1
2=
= 72,9483 − 2,0506 ⋅ 9,5 = 53,4674
Trendgerade:
𝑇𝑡 = 𝑎 + 𝑏 ⋅ 𝑡 = 53,4674 + 2,0506 ⋅ 𝑡
Jahr BIP Jahr BIP
1971 58,57 1989 90,37
1972 61,07 1990 95,32
1973 64,11 1991 100,27
1974 64,75 1992 102,13
1975 64,17 1993 101,32
1976 67,03 1994 104,08
1977 69,37 1995 106,14
1978 71,53 1996 107,20
1979 74,59 1997 109,18
1980 75,57 1998 111,18
1981 76,05 1999 113,27
1982 75,67 2000 117,20
1983 76,78 2001 118,81
1984 79,01 2002 118,81
1985 81,07 2003 118,54
1986 82,91 2004 119,22
1987 83,97 2005 120,37
1988 86,85 2006 124,08
Summe 1 313,07 Summe 1 977,47
𝑥 1 72,9483 𝑥 2 109,8596
20Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zeitreihenanalyse Trendkomponente Methode der Reihenhälften
Bruttoinlandsprodukt, preisbereinigt
(verkettet, 1991 = 100)
40,00
50,00
60,00
70,00
80,00
90,00
100,00
110,00
120,00
130,00
140,00
1965 1970 1975 1980 1985 1990 1995 2000 2005 2010
Ke
tte
nin
de
x,
19
91
= 1
00
21Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zeitreihenanalyse Trendkomponente Methode der kleinsten Quadrate
Trendbestimmung mit der Methode der kleinsten Quadrate
Die Trendgerade wird wie bei der linearen Regression mit der Methode der kleinsten Quadrate angepasst,
indem die Zeitreihenwerte als abhängige Variable und die Zeit 𝑡 als unabhängige Variable interpretiert
werden.
Die Parameter der Trendgeraden 𝑻𝒕 = 𝒂 + 𝒃 ⋅ 𝒕 resultieren dann als
𝑏 = 𝑛 ⋅
𝑡=1
𝑛
𝑡 ⋅ 𝑥𝑡 −
𝑡=1
𝑛
𝑡 ∙
𝑡=1
𝑛
𝑥𝑡 𝑛 ⋅
𝑡=1
𝑛
𝑡2 −
𝑡=1
𝑛
𝑡
2
𝑎 =1
𝑛⋅
𝑡=1
𝑛
𝑥𝑡 − 𝑏 ⋅1
𝑛⋅
𝑡=1
𝑛
𝑡
Dabei gilt:
𝑡=1
𝑛
𝑡 =𝑛 ⋅ (𝑛 + 1)
2
𝑡=1
𝑛
𝑡2 =1
6⋅ 𝑛 ⋅ 𝑛 + 1 ⋅ (2 ⋅ 𝑛 + 1)
22Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zeitreihenanalyse Trendkomponente Methode der kleinsten Quadrate
Bruttoinlandsprodukt (𝑥𝑡), preisbereinigt(Kettenindex, 1991 = 100)
… Fortsetzung
Jahr 𝑡 𝑥𝑡 𝑡 ∙ 𝑥𝑡 Jahr 𝑡 𝑥𝑡 𝑡 ∙ 𝑥𝑡
1971 1 58,57 58,57 1989 19 90,37 1 717,03
1972 2 61,07 122,14 1990 20 95,32 1 906,40
1973 3 64,11 192,33 1991 21 100,27 2 105,67
1974 4 64,75 259,00 1992 22 102,13 2 246,86
1975 5 64,17 320,85 1993 23 101,32 2 330,36
1976 6 67,03 402,18 1994 24 104,08 2 497,92
1977 7 69,37 485,59 1995 25 106,14 2 653,50
1978 8 71,53 572,24 1996 26 107,20 2 787,20
1979 9 74,59 671,31 1997 27 109,18 2 947,86
1980 10 75,57 755,70 1998 28 111,18 3 113,04
1981 11 76,05 836,55 1999 29 113,27 3 284,83
1982 12 75,67 908,04 2000 30 117,20 3 516,00
1983 13 76,78 998,14 2001 31 118,81 3 683,11
1984 14 79,01 1 106,14 2002 32 118,81 3 801,92
1985 15 81,07 1 216,05 2003 33 118,54 3 911,82
1986 16 82,91 1 326,56 2004 34 119,22 4 053,48
1987 17 83,97 1 427,49 2005 35 120,37 4 212,95
1988 18 86,85 1 563,30 2006 36 124,08 4 466,88
Summen 1971 – 2006: 666 3 290,56 68 459,01
𝑡=1
𝑛
𝑡 =𝑛(𝑛 + 1)
2=36 ⋅ 37
2= 666
𝑡=1
𝑛
𝑡2 =𝑛 𝑛 + 1 2𝑛 + 1
6=36 ⋅ 37 ⋅ 73
6= 16206
𝑡=1
𝑛
𝑥𝑡 = 3290,56
𝑡=1
𝑛
𝑡𝑥𝑡 = 68459,01
Parameter der Trendgeraden:
𝑏 =𝑛 𝑡𝑥𝑡 − 𝑡 𝑥𝑡𝑛 𝑡2 − 𝑡 2
=36 ∙ 68459,01 − 666 ∙ 3290,56
36 ∙ 16206 − 6662
= 1,9520
𝑎 = 𝑥𝑡 − 𝑏 𝑡
𝑛
=3290,56 − 1,952033 ∙ 666
36
= 55,2918
Trendgerade:
𝑇𝑡 = 55,2918 + 1,9520 ∙ 𝑡
23Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zeitreihenanalyse Trendkomponente Methode der kleinsten Quadrate
Bruttoinlandsprodukt, preisbereinigt
(verkettet, 1991 = 100)
40,00
50,00
60,00
70,00
80,00
90,00
100,00
110,00
120,00
130,00
140,00
1970 1975 1980 1985 1990 1995 2000 2005 2010
Kett
en
ind
ex,
1991 =
100
Ursprungswerte
Trend, RH
Trend, KQ
24Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zeitreihenanalyse Glatte Komponente Methode der gleitenden Durchschnitte
Reihenglättung mit der Methode der gleitenden Durchschnitte
Version 1:
● Zum Beobachtungswert 𝑥𝑡 zu einem Zeitpunkt (oder einer Zeitperiode) 𝑡 werden 𝑚 Vorgänger- und 𝑚Nachfolgewerte hinzugezogen. 𝑥𝑡 und die hinzugezogenen Werte bilden zusammen den „Stützbereich“.
Dieser umfasst also immer eine ungerade Anzahl von Werten, nämlich 2𝑚 + 1 Werte.
● Dem Zeitpunkt (oder –intervall) 𝑡 wird sodann der Durchschnitt 𝑥𝑡 dieser 2𝑚 + 1 Werte zugeordnet.
𝑥𝑡 = 𝑡−𝑚𝑡+𝑚 𝑥𝑡
2𝑚 + 1=𝑥𝑡−𝑚 + 𝑥𝑡−𝑚+1 +⋯+ 𝑥𝑡 +⋯+ 𝑥𝑡+𝑚−1 + 𝑥𝑡+𝑚
2𝑚 + 1
Version 2:
● Der erste und der letzte Wert des Stützbereichs gehen nur mit halbem Gewicht in die Berechnung ein.
● Diese Version ist relevant, wenn eine gerade Anzahl (2𝑚) unterjähriger, saisonbehafteter Daten geglättet
werden soll, z. B. Monatsdaten (2𝑚 = 12 Monate) oder Quartalsdaten (2𝑚 = 4 Quartale). Die Saisonfigur
wird dadurch eliminiert.
𝑥𝑡 =12∙ 𝑥𝑡−𝑚 + 𝑥𝑡−𝑚+1 +⋯+ 𝑥𝑡 +⋯+ 𝑥𝑡+𝑚−1 +
12∙𝑥𝑡+𝑚
2𝑚
Für beide Versionen gilt:
● Für die ersten 𝑚 Werte und die letzten 𝑚 Werte der Zeitreihe kann der gleitende Durchschnitt 𝑥𝑡 nicht
berechnet werden, weil der Stützbereich zu klein ist.
25Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zeitreihenanalyse Glatte Komponente Methode der gleitenden Durchschnitte
Registrierte Arbeitslose in Deutschland 1991 - 2010
Jahr Monat ArbeitsloseGleitender
Durchschnitt m = 6Jahr Monat Arbeitslose
Gleitender Durchschnitt m = 6
⁞ ⁞ ⁞ ⁞
1991 Januar 2 631 151 2009 Januar 3 488 801 3 314 963
Februar 2 655 847 Februar 3 551 911 3 336 975
Maerz 2 539 308 März 3 585 784 3 359 535
April 2 488 886 April 3 584 798 3 380 258
Mai 2 445 961 Mai 3 458 104 3 399 371
Juni 2 435 115 Juni 3 410 036 3 416 056
Juli 2 762 324 2 640 951 Juli 3 462 446 3 428 645
August 2 735 455 2 686 174 August 3 471 513 3 437 818
September 2 638 271 2 725 618 September 3 346 459 3 440 886
Oktober 2 647 486 2 763 237 Oktober 3 228 625 3 432 707
November 2 648 999 2 799 146 November 3 215 393 3 416 247
Dezember 2 768 927 2 832 946 Dezember 3 275 526 3 396 526
1992 Januar 3 218 526 2 860 329 2010 Januar 3 617 485 3 374 552
Februar 3 153 811 2 881 518 Februar 3 643 381 3 351 467
Maerz 2 987 994 2 902 810 März 3 567 944 3 326 530
April 2 943 067 2 925 162 April 3 406 344 3 301 603
Mai 2 853 582 2 950 263 Mai 3 241 529 3 277 963
Juni 2 838 697 2 978 570 Juni 3 153 300
Juli 3 015 946 3 003 160 Juli 3 191 800
August 2 990 366 3 025 980 August 3 188 122
September 2 894 374 3 054 762 September 3 031 354
Oktober 2 927 816 3 085 908 Oktober 2 945 491
November 2 971 093 3 117 679 November 2 931 170
Dezember 3 126 217 3 151 768 Dezember
⁞ ⁞ ⁞ ⁞
26Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zeitreihenanalyse Glatte Komponente Methode der gleitenden Durchschnitte
2000 000
2500 000
3000 000
3500 000
4000 000
4500 000
5000 000
5500 000
199
1
199
2
199
3
199
4
199
5
199
6
199
7
199
8
199
9
200
0
200
1
200
2
200
3
200
4
200
5
200
6
200
7
200
8
200
9
201
0
Registrierte Arbeitslose in Deutschland, Monatswerte
Originalwerte Glatte Komponente (Version 2)
27Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zeitreihenanalyse Glatte Komponente Methode der gleitenden Durchschnitte
BIP in Mrd €
Kalenderzeit tUrsprungs-
werte
Gleitender Durchschnitt
m = 2
2003 1.Vj 1 523,00
2.Vj 2 531,80
3.Vj 3 552,00 542,73
4.Vj 4 557,00 546,39
2004 1.Vj 5 537,20 549,34
2.Vj 6 546,90 551,60
3.Vj 7 560,50 552,88
4.Vj 8 566,60 554,40
2005 1.Vj 9 537,80 557,20
2.Vj 10 558,50 559,85
3.Vj 11 571,30 563,79
4.Vj 12 577,00 568,01
2006 1.Vj 13 558,90 572,00
2.Vj 14 571,20 577,48
3.Vj 15 590,50 584,04
4.Vj 16 601,60 590,83
2007 1.Vj 17 586,80 597,56
2.Vj 18 597,60
3.Vj 19 618,00
Bruttoinlandsprodukt (BIP)Quartalswerte (Mrd. Euro)
Deutschland
Berechnung des gleitenden Durchschnitts, beispielhaft für das dritte
Quartal 2004:
𝑥7 =12 ∙ 537,20 + 546,90 + 560,50 + 566,60 + 1
2 ∙ 537,80
4= 552,88
28Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Zeitreihenanalyse Glatte Komponente Methode der gleitenden Durchschnitte
460
480
500
520
540
560
580
600
620
640
1.Vj 2.Vj 3.Vj 4.Vj 1.Vj 2.Vj 3.Vj 4.Vj 1.Vj 2.Vj 3.Vj 4.Vj 1.Vj 2.Vj 3.Vj 4.Vj 1.Vj 2.Vj 3.Vj 4.Vj
2003 2004 2005 2006 2007
BIP
in
Mrd
. E
uro
Bruttoinlandsprodukt in Deutschland, Quartalswerte
Ursprungswerte Gleitender Durchschnitt (m = 2)
Beispiel Erwerbslose …
Recommended