Upload
trantuong
View
219
Download
0
Embed Size (px)
Citation preview
ALM07 1
5 Das Allgemeine Lineare Modell
5.1 Modell und Fragestellungen
Das Allgemeine Lineare Modell (ALM) ist ein abstraktes statistisches Modell, das
als Spezialfalle viele wichtige Modelle enthalt, wie die der Varianzanalyse, der Re-
gressionsanalyse oder der Kovarianzanalyse. Es wird dabei immer vorausgesetzt,
dass der Erwartungswert einer Variable Y in einer bestimmten (’linearen‘) Weise
von gewissen Bedingungskonstellationen abhangt. Die zu untersuchenden Fragen
betreffen dann die genaue Art der Abhangigkeit.
Einfache lineare Regression. Als einfuhrendes Beispiel soll die einfache li-
neare Regression dienen. Hier wird vorausgesetzt, dass der Erwartungswert einer
Kriterumsvariable Y eine lineare Funktion einer Pradiktorvariable U ist.
Dies soll nun genauer ausgefuhrt werden. Fur jeden festen Wert u der Variable
U soll der Erwartungswert moglicher Werte y von Y durch
E(y) = βu + α
gegeben sein. Die Verteilung dieser Werte y soll eine Normalverteilung sein, deren
Varianz σ2 nicht von u abhangt.
Diese Modellvorstellungen konnen graphisch folgendermaßen veranschaulicht wer-
den:
................................................................................................................................................................................................................................................................................................................ ...........................
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
.........................
...................
u
y
..................................
..................................
..................................
..................................
..................................
..................................
..................................
..................................
..................................
..................................
..................................
........................
E(y) = βu + α
........
........
........
........
........
........
........
........
........
........
......................
......................................
..............................
........
........
........
........
........
........
........
........
........
........
......................
......................................
..............................
........
........
........
........
........
........
........
........
........
........
......................
......................................
..............................
Es folgen zunachst mehrere Anmerkungen:
Die kleinen Normalverteilungsgraphen sollen die Verteilung von y fur die zu-
gehorigen Werte von u andeuten – man beachte die gleichen Varianzen.
5.1 Modell und Fragestellungen ALM07 2
Die (griechischen) Bezeichnungen α und β weisen darauf hin, dass es sich um
theoretische Parameter handelt, namlich um Achsenabschnitt und Steigung der
(unbekannten) Geraden, die den Erwartungswert von y in Abhangigkeit von u
beschreibt. Die Bezeichnung β hat ubrigens nichts mit dem ebenso bezeichneten
standardisierten Regressionskoeffizienten aus der deskriptiven Statistik zu tun.
Die Variablen Y und U sind Variablen im informellen Sinn und keine Zufallsvaria-
blen. Bei der Variable U soll zunachst angenommen werden, dass sie experimentell
gesetzt wird. Von einer (theoretischen) Verteilung von U und damit auch von Y
zu sprechen, ware folglich nicht sinnvoll.
Fur einen konkreten Wert von u hingegen wird y (zur Unterscheidung jetzt klein
geschrieben) als Zufallsvariable aufgefasst. Wie ublich ist dabei y nicht ein schon
erhobener Wert, sondern ein Wert, der sich bei der Durchfuhrung einer entspre-
chenden Untersuchung ergeben konnte – man befindet sich hier gewissermaßen
erst in der Planungsphase. Zur Verdeutlichung der Tatsache, dass man nur bei
vorgegebenen Werten von u die Variable y als Zufallsvariable ansehen kann,
konnte man auch u als Index hinzufugen (yu), was aber umstandlich ist und
daher hier unterbleiben soll. In der Notation wird nicht zwischen der Variable
und moglichen Werten unterschieden; was gemeint ist, ist dem Kontext zu ent-
nehmen.
Wesentlich ist der Unterschied zur linearen Regression in der deskriptiven Stati-
stik.
Bei der Regression in der deskriptiven Statistik geht es nur darum, durch eine
Punktwolke eine im Sinne des bekannten Kriteriums optimale’Vorhersagegerade‘
zu legen. Fragen, wie die Werte zustande gekommen sind, und ob es auf theoreti-
scher Ebene Zusammenhange zwischen diesen Variablen gibt, spielen dort keine
Rolle, da es eine theoretische Ebene noch gar nicht gibt.
Hier hingegen werden starke Modellannahmen gemacht, die noch einmal wieder-
holt seien: Der Erwartungswert von y ist eine lineare Funktion von u, fur jeden
festen Wert von u ist y normalverteilt, und die Varianzen von y sind fur verschie-
dene Werte von u gleich.
Sind diese Modellvorstellungen nicht oder nicht wenigstens annahernd erfullt,
so ist jede weitere Rechnung, die sich auf mit dem Modell zusammenhangende
Fragen bezieht, sinnlos.
Die Rechtfertigung der Modellannahmen muss dabei von der inhaltlichen Theorie
5.1 Modell und Fragestellungen ALM07 3
geleistet werden – auf keinen Fall kann die Statistik die Denkanstrengung im
inhaltlichen Bereich ersetzen.
Eine inhaltliche Rechtfertigung wurde im optimalen Fall so aussehen, dass (in-
haltliche) Mechanismen aufgezeigt werden, die zu der beschriebenen Abhangigkeit
fuhren, und zwar genau in der beschriebenen linearen Form, und nicht nur in ei-
ner qualitativ vielleicht ahnlichen. Dies wird leider nur in wenigen Fallen moglich
sein; dennoch sollten zumindest Plausibilitatsargumente dafur angefuhrt wer-
den, dass der angenommene Zusammenhang naherungsweise besteht. Bei solchen
Uberlegungen wird auch der Bereich eine Rolle spielen, in dem U variiert wird
– auch wenn ein linearer Zusammenhang global nicht vorliegt, kann womoglich
doch lokal (bei nur kleinen Variationen von U) der tatsachliche Zusammenhang
durch eine lineare Funktion gut approximiert werden.
Die gerade schon angedeutete Frage, ob das Modell kausal zu interpretieren ist,
etwa im Sinne eines durch die lineare Funktion erfassten Mechanismus, oder nur
deskriptiv, kann naturlich auch nicht statistisch beantwortet werden, sondern
nur inhaltlich, wobei die Art der Datengewinnung (Kontrolle von unabhangiger
Variable und von Storvariablen) eine entscheidende Rolle spielen wird.
Wenn man das beschriebene Modell fur gultig halt, wird man sich vor allem fur
die unbekannten Parameter α und β interessieren, in zweiter Linie auch fur σ2.
Es folgen einige mogliche Arten von Fragen.
Zunachst ist sicher der genaue Wert von α und β interessant; ein erstes Ziel wird
also die Ermittlung von Punktschatzern fur diese Parameter sein.
Da mogliche Daten immer fehlerbehaftet sind, wird man daruber hinaus auch
Vertrauensintervalle konstruieren wollen.
Zusatzlich konnen auch Funktionen der Parameter von Bedeutung sein. Im Fall
der Regression konnte beispielsweise die Frage auftreten, wie groß der Erwar-
tungswert von y fur u = 1 ist. Es geht dann darum, diesen Wert β · 1 + α, der in
der Tat eine Funktion von α und β ist, in geeigneter Weise zu schatzen; auch hier
ist sowohl nach einer Punktschatzung als auch nach einem Vertrauensintervall
gefragt.
Schließlich kann es darum gehen, Annahmen uber die Parameter zu testen. Im
Fall der Regression ist die am haufigsten getestete Fragestellung die, ob der Stei-
gungsparameter β gleich Null ist oder nicht. Es sind aber auch Tests fur andere
Fragen moglich, beispielsweise, ob der Achsenabschnitt α gleich 0 ist.
5.1 Modell und Fragestellungen ALM07 4
Antworten auf diese Fragen konnen nur auf der Basis von Daten gegeben werden.
Es sei also nun eine Untersuchung geplant, in der solche Daten erhoben werden.
Um die Situation uberschaubar zu halten, soll in dieser Untersuchung nur fur die
drei Werte 3, 5 und 8 von U je ein Wert von Y erhoben werden. Die Ergebnisse
werden mit y1, y2, y3 bezeichnet; diese noch nicht erhobenen Werte sind normal-
verteilte Zufallsvariablen mit Varianz σ2, deren Erwartungswerte sich auf Grund
der Modellgleichung ergeben. Fur y1 gilt beispielsweise
E(y1) = β · 3 + α = 1 · α + 3 · β .
Fur alle drei Erwartungswerte erhalt man auf diese Weise
E(y1) = 1 · α + 3 · βE(y2) = 1 · α + 5 · βE(y3) = 1 · α + 8 · β .
Fasst man die drei Variablen yi zu einem Zufallsvektor y zusammen, so kann man
dies auch folgermaßen schreiben:
E(y) =
E(y1)
E(y2)
E(y3)
=
1 3
1 5
1 8
(α
β
).
Hier besteht ubrigens die zweite Spalte der Matrix aus den untersuchten Werten
der Variable U .
Der Erwartungswert von y ergibt sich also aus den zu einem Vektor zusam-
mengefassten Parametern α und β durch Anwendung einer linearen Abbildung.
Derartige lineare Abbildungen geben dem Allgemeinen Linearen Modell seinen
Namen.
Wenn das Modell fehlerfrei gelten wurde, ware dieser Erwartungswert von y
gleichzeitig der Datenvektor, der sich ergeben musste; in diesem Sinn kann man
E(y) auch als den vom Modell vorhergesagten Wert oder kurz als Modellvorher-
sage bezeichnen. Je nachdem, welchen Wert α und β besitzen, sie ist in der gerade
beschriebenen Weise also von diesen Parametern abhangig.
Die Matrix
X =
1 3
1 5
1 8
5.1 Modell und Fragestellungen ALM07 5
heißt auch Designmatrix, wahrend man die beiden Parameter zu einem Parame-
tervektor (α, β)′ zusammenfasst, der traditionell β heißt.
Abgekurzt erhalt man so fur die zu erhebenden Daten die Modellgleichung
E(y) = Xβ .
Die Modellvorhersage E(y) erhalt man also aus dem Parametervektor β mit Hilfe
der linearen Abbildung X.
Bei der Designmatrix X gibt die i-te Zeile an, wie der Erwartungswert der i-ten
Beobachtung sich aus den Parametern errechnet, wahrend die j-te Spalte den
Einfluss des j-ten Parameters auf die Erwartungswerte wiederspiegelt.
Die Anzahl der Spalten von X ist die Anzahl der Parameter, hier also 2. Fasst
man U als (hier einzige) unabhangige Variable auf, so stimmt hier, wie auch in
den meisten anderen ahnlich gelagerten Fallen, die Anzahl der Spalten nicht mit
der der unabhangigen Variablen uberein.
Die Abweichungen der tatsachlichen Werte von ihren Erwartungswerten bezeich-
net man ublicherweise als Fehler. Diese Fehler werden mit ei abgekurzt und zu ei-
nem Fehlervektor e zusammengefasst, dessen Komponenten dann alle normalver-
teilt sind mit Erwartungswert 0 und Varianz σ2. Die Gleichungen yi = E(yi) + ei
schreiben sich in Matrixform
y1
y2
y3
=
1 3
1 5
1 8
(α
β
)+
e1
e2
e3
oder kurz
y = Xβ + e .
Die Voraussetzung, die bezuglich der Fehler gemacht wird, ist die der gemein-
samen Unabhangigkeit. Da sich die yi und die ei nur um den Erwartungswert
von yi, also um eine Konstante, unterscheiden, ist die Unabhangigkeit der Fehler
gleichbedeutend mit der der yi.
Bei normalverteilten Variablen ist bekanntlich Unabhangigkeit gleichbedeutend
mit gemeinsamer Normalverteiltheit und Nullkorrelationen. Daher kann man das
Modell fur die einfache lineare Regression mit drei Beobachtungen nun vollstandig
folgendermaßen angeben:
y = Xβ + e mit e ∼ N3(0, σ2I) ,
5.1 Modell und Fragestellungen ALM07 6
oder noch kurzer so:
y ∼ N3(Xβ, σ2I) .
Man beachte, dass in diesen Formulierungen die auch aus anderen Zusammen-
hangen bekannten Annahmen der Normalverteiltheit, Varianzhomogenitat und
Unabhangigkeit enthalten sind.
Das allgemeine Modell. Nach dem Beispiel der einfachen linearen Regression
soll nun das Modell allgemein formuliert werden.
Die Grundsituation ist immer die, dass in meist mehreren Bedingungskonstella-
tionen Werte einer Variable Y erhoben werden sollen.
Insgesamt werden n Beobachtungen yi gemacht, die zu einem n-Vektor y zusam-
mengefasst werden.
Die Erwartungswerte der yi sind lineare Funktionen von k Modellparametern, die
zu einem Parametervektor β zusammengefasst sind. Genauer gilt
E(y) = Xβ ;
die (n× k)-Matrix X heißt Designmatrix.
Die yi sind unabhangig normalverteilt mit gleicher Varianz σ2.
Bezeichnet man die Abweichung von yi von E(yi) als Fehler ei und fasst die ei
zu dem Fehlervektor e zusammen, so ist E(e) = 0, ferner sind die ei unabhangig
normalverteilt mit Varianz σ2 (dies ist ubrigens aquivalent zur Gultigkeit dieser
Eigenschaften fur die yi).
Zusammengefasst lassen sich die Annahmen in der Modellgleichung formulieren:
y = Xβ + e mit e ∼ Nn(0, σ2I) ,
oder noch kurzer so:
y ∼ Nn(Xβ, σ2I) .
In der Designmatrix X kodiert die j-te Spalte die’Wirkung‘ des j-ten Parameters
auf die Beobachtungen, wahrend die i-te Zeile die Bedingungskonstellation fur die
i-te Beobachtung beschreibt. Hier ist noch einmal ausfuhrlich die Gleichung fur
den i-ten Erwartungswert:
E(yi) =k∑
j=1
xijβj .
5.1 Modell und Fragestellungen ALM07 7
Die Eintrage xij in der Designmatrix hangen oft teilweise mit Werten gewisser un-
abhangiger Variablen zusammen und geben die Bedingungskonstellation wieder,
unter der die i-te Beobachtung zustandekommt.
Der Ausdruck’Modellgleichung‘ soll hier liberal in zwei Bedeutungen verwendet
werden; einerseits als Gleichung, die angibt, wie einzelne Erwartungswerte oder
Werte von y in unterschiedlichen Konstellationen zustande kommen, wie E(y) =
βu + α oder y = βu + α + e in der einfachen linearen Regression, andererseits –
eng damit zusammenhangend – als Gleichung fur den Erwartungswertvektor oder
Ergebnisvektor von y, wenn man sich auf die Konstellationen schon festgelegt hat,
also E(y) = Xβ bzw. y = Xβ + e.
Die Ziele bei der Anwendung des ALM bestehen in der Schatzung (in Form von
Punktschatzungen und Konfidenzbereichen) von Modellparametern und Funktio-
nen der Modellparameter einerseits und im Testen von Hypothesen uber Modell-
parameter oder Funktionen der Modellparameter andererseits.
Es gibt von der hier beschriebenen’klassischen‘ Form des ALM auch Abschwa-
chungen, beispielsweise in Bezug auf die Normalverteilungsannahme oder die An-
nahme der Struktur der Kovarianzmatrix des Fehlers e. Außerdem lasst es sich ge-
legentlich verallgemeinern fur Anwendungen, in denen die Matrix X nicht fest ist,
sondern teilweise zufallig – bei der einfachen linearen Regression kann beispiels-
weise die Variable U auch eine Zufallsvariable sein. Einige der im Fortgang zu zie-
henden Folgerungen aus den Modellannahmen behalten auch fur abgeschwachte
Versionen Gultigkeit; gelegentlich wird kurz darauf eingegangen.
Nun sollen jedoch zunachst weitere Beispiele fur das ALM vorgestellt werden.
Beispiele. Die ersten Beispiele sind Verallgemeinerungen oder Spezialfalle des
Regressionsbeispiels.
Polynomiale Regression. Allgemein ist hier der Erwartungswert von Y eine poly-
nomiale Funktion einer’unabhangigen Variable‘. Speziell soll beispielsweise der
Erwartungswert von Y ein Polynom dritten Grades der Variable U sein. Es gilt
dann
E(y) = β0 + β1u + β2u2 + β3u
3 =3∑
k=0
βkuk ,
wobei hier die Indizes der Parameter zweckmaßigerweise gleich den zugehorigen
Exponenten angeben. Die folgende Graphik veranschaulicht die Situation:
5.1 Modell und Fragestellungen ALM07 8
........................................................................................................................................................................................................................................................................................................................................................................................................................... ...........................
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........................
...................
u
y
......................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
.................................................................................................................................................................................................................................................................................................................................................................................................................................................
........
........
........
........
........
........
........
........
........
........
......................
.......................................
.............................
........
........
........
........
........
........
........
........
........
........
......................
......................................
..............................
........
........
........
........
........
........
........
........
........
........
......................
.......................................
.............................
........
........
........
........
........
........
........
........
........
........
......................
......................................
..............................
........
........
........
........
........
........
........
........
........
........
......................
.......................................
.............................
........
........
........
........
........
........
........
........
........
........
......................
......................................
..............................
Nun sollen fur die Werte −1, 0, 1, 2, 3, 4 Daten erhoben werden. Der Erwar-
tungswert von y beispielsweise fur u = 2 ist dann
3∑
k=0
βk2k = β0 + β1 · 2 + β2 · 22 + β3 · 23 = 1 · β0 + 2 · β1 + 4 · β2 + 8 · β3 ,
also eine Linearkombination der βk.
Die Gleichung fur den Erwartungswertvektor ist damit
E(y) = Xβ =
1 −1 1 −1
1 0 0 0
1 1 1 1
1 2 4 8
1 3 9 27
1 4 16 64
β0
β1
β2
β3
,
ihre vierte Zeile ist der gerade untersuchte Fall u = 2. Die Spalten der Designma-
trix enhalten nacheinander die Werte der Variablen U0 = 1, U , U2 und U3, die
in dieser Untersuchung verwendet werden.
Dies Beispiel ist gut geeignet, zwei Missverstandnissen zu begegnen. Einerseits
besteht die Linearitat im ALM darin, dass der Erwartungswertvektor von y aus
dem Parametervektor β durch Anwendung einer linearen Abbildung (namlich
X) hervorgeht, und nicht darin, dass Y eine lineare Funktion der unabhangigen
Variable ware. Andererseits wird noch deutlicher, dass die Anzahl der Spalten
von X nur wenig mit der Zahl der unabhangigen Variablen zu tun hat.
Wie immer ist es nur dann sinnvoll, dieses Modell anzuwenden, wenn man von
seiner Richtigkeit uberzeugt ist. Die Modellgleichung kann dabei entweder de-
skriptiv interpretiert werden oder im Idealfall theoretisch begrundet sein, zum
5.1 Modell und Fragestellungen ALM07 9
Beispiel dadurch, dass ein Mechanismus sich durch ein Polynom beschreiben lasst.
Der letzte Fall konnte bei einem hypothetischen Physiker vorliegen, der schon die
Fallgleichung s = 1/2gt2 kennt, noch nicht jedoch den genauen Wert von g, der
nun mit Hilfe eines Experiments bestimmt werden soll.
Mogliche Fragen betreffen hier die Große der einzelnen Parameter, womoglich
auch den Erwartungswert von y fur einen bestimmten Wert von u. Eine zu te-
stende Hypothese kann die sein, dass β3 von 0 verschieden ist, dass also eine
Beschreibung mit Hilfe eines Polynoms zweiten Grades nicht ausreichend ist.
Regression ohne Konstante. Ein einfacherer Fall als der der einfachen linearen
Regression ist der, in dem die Konstante gleich 0 ist. Es kann beispielsweise
sein, dass man aus theoretischen Grunden weiß, dass Y bis auf einen Fehler
proportional zu U ist, und nun daran interessiert ist, den Proportionalitatsfaktor
zu ermitteln.
Vielleicht mochte man bestimmen, wie der Benzinverbrauch eines Kraftfahrzeugs
von der Zahl der gefahrenen Kilometer abhangt – ein Fall, in dem eine lineare
Beziehung y = βu + e zwischen Benzinverbrauch Y und Kilometerzahl U eini-
germaßen plausibel ist. Die Designmatrix fur den Fall, dass zur Untersuchung
Strecken von 4, 4, 9, 16 Kilometer gefahren werden sollen, sieht dann einfach so
aus:
X =
4
4
9
16
.
Hier besteht die Hauptfragestellung sicher in einer genauen Schatzung des Para-
meters β, der ja gerade den Benzinverbrauch pro Kilometer angibt.
Multiple lineare Regression. Bei der multiplen linearen Regression gibt es eine
Kriteriumsvariable Y und mehrere Pradiktoren U1, . . . , Um. Hier wird vorausge-
setzt, dass sich der Wert von Y in einer Konstellation, in der die Variablen Uj
die Werte uj annehmen, als
y =∑
βjuj + α + e
ergibt.
Wie bei der einfachen linearen Regression sind hier die βj Parameter auf der theo-
retischen Ebene; sie haben nichts mit den standardisierten Regressionsgewichten
gleichen Namens aus der deskriptiven multiplen linearen Regression zu tun.
5.1 Modell und Fragestellungen ALM07 10
Der Unterschied zur deskriptiven Regression besteht wieder darin, dass dort nur
optimal vorhergesagt werden sollte, wahrend hier die Gultigkeit eines Modells
vorausgesetzt wird, in dem der Erwartungswert von y sich linear aus den Werten
der Uj ergibt.
Dass dies eine sehr starke Modellannahme ist, erkennt man beispielsweise im
Fall zweier Pradiktoren U1 und U2, wenn man den Erwartungswert von y in
Abhangigkeit von u1 bei festen Werten von u2 untersucht. Es ergibt sich hier
E(y) = β1u1 + β2u2 + α ,
woraus folgt, dass fur feste Werte von u2 der Erwartungswert E(y) eine lineare
Funktion von u1 ist, die immer die gleiche Steigung β1 besitzt. Daruber hinaus
verandert sich der Achsenabschnitt linear mit u2. Das folgende Diagramm soll
eine mogliche derartige Situation zeigen:
......................................................................................................................................................................................................................................... ...........................
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........................
...................
u1
y
..................................
..................................
..................................
..................................
..................................
..................................
..................................
..................................
..................................
.............
..................................
..................................
..................................
..................................
..................................
..................................
..................................
..................................
..................................
.............
..................................
..................................
..................................
..................................
..................................
..................................
..................................
..................................
..................................
.............
........
........
........
........
........
........
........
........
........
........
......................
......................................
..............................
........
........
........
........
........
........
........
........
........
........
......................
......................................
..............................
........
........
........
........
........
........
........
........
........
........
......................
......................................
..............................
u2 = 2
u2 = 3
u2 = 4
Wie ublich ist zu fragen, wie solche Modellannahmen gerechtfertigt sind. Die Fra-
ge durfte mit steigender Zahl von Pradiktoren ebenso dringlicher wie schwieriger
werden.
Analoges gilt fur die Interpretation der Modellparameter: Sollen sie nur zu de-
skriptiven Zwecken nutzlich sein oder spiegeln sie theoretische Mechanismen wie-
der? Wieder gilt, dass die Statistik zur Beantwortung solcher Fragen nichts bei-
tragen kann.
In der Designmatrix soll fur den Parameter α die erste Spalte reserviert werden
und fur die βj die weiteren. Die Anzahl der Spalten von X ist jetzt m + 1. Soll
die Variable Y beispielsweise von zwei Pradiktoren U1 und U2 abhangen, die
nacheinander die Werte 2, 3, 4, 5, 1 bzw. 3, 3, 4, 4, 5 annehmen, so sieht die
5.1 Modell und Fragestellungen ALM07 11
Designmatrix folgendermaßen aus:
1 2 3
1 3 3
1 4 4
1 5 4
1 1 5
.
Hier enthalten die zweite und dritte Spalte die auftretenden Werte von U1 und
U2.
Fragen, die man hier testen konnte, waren beispielsweise die, ob gewisse Modell-
parameter βj gleich 0 sind, ob also (wenn diese Interpretation gerechtfertigt ist)
die entsprechenden Variablen einen’Einfluss‘ haben. Auch hier ist wieder zu be-
merken, dass positive Ergebnisse von entsprechenden statistischen Tests fur sich
genommen keine Kausalinterpretation begrunden konnen.
Auch hier wird es darum gehen, die Parameter zu schatzen, also insbesondere die
Steigungskoeffizienten βj, die man womoglich (vielleicht nach Standardisierung)
als Starke des’Einflusses‘ interpretieren mochte. Solche Interpretationen sind nur
dann sinnvoll, wenn die Gultigkeit des Modells vorausgesetzt werden kann. Die
Gefahr dabei ist die, dass auch eine blinde Anwendung des Modells irgendwelche
Zahlen produziert, die vielleicht phantasievoll gedeutet werden mogen, jedoch
ganz unsinnig sind, wenn man bei genauerem Hinsehen an die Parameter, die sie
schatzen sollen, gar nicht glaubt.
Moderatorvariablen. Gelegentlich hat man die Modellvorstellung, dass der Er-
wartungswert von Y eine lineare Funktion von einem Pradiktor U1 ist, dass aber
die’Starke‘ des Zusammenhangs von einer zweiten Variable U2 abhangt, die
’den
Einfluss von U1 moderiert‘, und die daher auch Moderatorvariable genannt wird.
Diese vage verbale Beschreibung setzt man dann oft in das folgende harte Modell
um:
E(y) = β1u1 + β2u2 + β3u1u2 + α .
Um deutlich zu machen, wie prazise (und damit womoglich angreifbar) diese
Modellvorstellung ist, soll die Gleichung etwas umgruppiert werden:
E(y) = (β1 + β3u2)u1 + (β2u2 + α) .
Das Modell impliziert also, dass fur festes u2 der Erwartungswert von y eine linea-
re Funktion von u1 ist, wobei Steigung und Achsenabschnitt lineare Funktionen
5.1 Modell und Fragestellungen ALM07 12
von u2 sind. Gleiche Anderungen von u2 fuhren also zu gleichen Anderungen
in Steigung bzw. Achsenabschnitt. Die folgende Graphik illustriert dies an einer
moglichen Situation.
................................................................................................................................................................................................................................................................................................................ ...........................
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........................
...................
u1
y
..............................................................................
..............................................................................
..............................................................................
..............................................................................
..............................................................................
..............................................................................
....
..........................................
..........................................
..........................................
..........................................
..........................................
..........................................
..........................................
..........................................
..........................................
..........................................
..........................................
....................................
..............................
..............................
..............................
..............................
..............................
..............................
..............................
..............................
..............................
..............................
..............................
..............................
..............................
..............................
..............................
..............................
..............................
..............................
.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
........
........
........
........
........
........
........
........
........
........
......................
......................................
.............................. ........
........
........
........
........
........
........
........
........
........
......................
......................................
..............................
........
........
........
........
........
........
........
........
........
........
......................
......................................
..............................
........
........
........
........
........
........
........
........
........
........
......................
......................................
..............................
u2 = 4
u2 = 5
u2 = 6
u2 = 7
Es fallt auf, dass alle Geraden sich in einem Punkt schneiden. Dies ist immer so:
an der Stelle u1 = −β2/β3 nehmen alle linearen Funktionen den Wert α−β1β2/β3
an. Analog sieht man, dass fur den Wert u2 = −β1/β3 die Funktion, die E(y) in
Abhangigkeit von u1 angibt, konstant ist, namlich ebenfalls gleich α− β1β2/β3.
Es zeigt sich also, dass die Umsetzung des inhaltlich zunachst vagen Gedankens
einer Moderatorvariablen in eine harte Modellgleichung interessante Konsequen-
zen hat, deren inhaltliche Plausibilitat man prufen konnte und sollte.
Die Designmatrix, die die Reihenfolge (α, β1, β2, β3)′ fur die Parameter vorsieht,
hat in dem Fall, dass die Variable U1 die Werte 1, 2, 3, 4, 5, 6 und die Variable U2
die Werte 1, 1, 3, 3, 5, 5 annehmen, die Gestalt
1 1 1 1
1 2 1 2
1 3 3 9
1 4 3 12
1 5 5 25
1 6 5 30
.
In der zweiten, dritten und vierten Spalte findet man die Werte von U1, U2 und
deren Produkt.
Neben der ublichen Schatzung der Parameter kann hier getestet werden, ob die
Variable U2 tatsachlich einen moderierenden Einfluss im beschriebenen Sinn hat,
ob also β3 gleich 0 ist.
5.1 Modell und Fragestellungen ALM07 13
Eine Stichprobe. In diesem (fast) allereinfachsten Beispiel geht es um eine un-
abhangig gezogene Stichprobe aus einer Grundgesamtheit, oder um eine mehr-
fache unabhangige Replikation desselben Experiments. Die Gleichungen fur die
einzelnen Ergebnisse lauten dann yi = µ + ei. Der einzige Parameter ist der Er-
wartungswert µ in der Population (bzw. bei einmaliger Durchfuhrung) und die
Designmatrix ein Vektor aus soviel Einsen, wie Beobachtungen vorliegen. Bei drei
Beobachtungen ergibt sich also folgende Gleichung fur den Ergebnisvektor:
y1
y2
y3
=
1
1
1
(µ) +
e1
e2
e3
.
Die Designmatrix ist daher hier gleich
1
1
1
.
Der Parametervektor β hat hier nur eine Komponente, namlich µ.
Zu schatzen ist hier µ, getestet werden kann beispielsweise die Frage, ob µ gleich
Null oder auch gleich 1 ist.
Zwei Stichproben. Beispiele sind hier zwei unabhangige Stichproben aus zwei Po-
pulationen oder mehrfache unabhangige Replikationen eines Experiments unter
zwei Bedingungen. Die Parameter sind dann die Erwartungswerte µ1 und µ2 von
Y in den beiden Populationen (oder den einfach durchgefuhrten Experimenten).
Bezeichnet man (hier zweckmaßigerweise mit doppeltem Index) mit yij und eij
den Wert von Y und den Fehler bei der i-ten Beobachtung in der j-ten Gruppe,
so gelten die Gleichungen
yi1 = µ1 + ei1
yi2 = µ2 + ei2
fur Beobachtungen in der ersten bzw. zweiten Population.
Sollen zum Beispiel aus einer Population zwei und aus einer zweiten Population
drei Werte erhoben werden, und werden die Beobachtungen zweckmaßigerweise so
angeordnet, dass zuerst die Beobachtungen aus der ersten Population und dann
die aus der zweiten kommen, so ist die ausfuhrlich geschriebene Modellgleichung
die folgende:
5.1 Modell und Fragestellungen ALM07 14
y11
y21
y12
y22
y32
=
1 0
1 0
0 1
0 1
0 1
(µ1
µ2
)+
e11
e21
e12
e22
e32
.
Die Designmatrix ist dann gleich
1 0
1 0
0 1
0 1
0 1
.
Der Parametervektor ist hier β = (µ1, µ2)′, hat also die Lange 2.
Neben der Frage, wie groß die beiden Erwartungswerte sind, kann hier auch von
Interesse sein, wie groß deren Differenz ist. Eine Hypothese, die getestet werden
kann, ist die, ob beide Erwartungswerte gleich sind.
Einfache Varianzanalyse. Die Situation ist wie im letzten Beispiel, außer dass
hier mehr Populationen (oder experimentelle Bedingungen) vorliegen.
Verwendet man die gleiche Indizierung wie im letzten Beispiel, so lautet die Mo-
dellgleichung fur die i-te Beobachtung yij in der j-ten Gruppe
yij = µj + eij .
Bei drei Populationen und je zwei Beobachtungen aus den ersten beiden und einer
aus der letzten sieht die ausfuhrlich geschriebene Modellgleichung so aus:
y11
y21
y12
y22
y13
=
1 0 0
1 0 0
0 1 0
0 1 0
0 0 1
µ1
µ2
µ3
+
e11
e21
e12
e22
e13
.
5.1 Modell und Fragestellungen ALM07 15
Die Designmatrix ist folglich gleich
1 0 0
1 0 0
0 1 0
0 1 0
0 0 1
.
Neben den Parametern gilt das Interesse hier Funktionen der Parameter beispiels-
weise den Kontrasten. Tests konnen danach fragen, ob zwei Erwartungswerte
gleich sind, oder ob alle Erwartungswerte gleich sind.
Kovarianzanalyse. Bisweilen hat man die Vorstellung, dass in einer varianzanaly-
tischen Situation die AV nicht nur durch das treatment bestimmt wird, sondern
zusatzlich durch eine weitere quantitative Variable U , die Kovariate. (Beispiel:
Leistung wird bestimmt durch Lehrmethode und Intelligenz; die Lehrmethode
ware dabei die treatment-Variable und die Intelligenz die Kovariate). Man ist
dann oft bereit, anzunehmen, dass der Einfluss der quantitativen Variable in je-
der treatment-Gruppe linear ist (wie in der linearen Regression). Daruber hinaus
nimmt man meist an, dass die Steigung fur alle Gruppen gleich groß ist. Nun
mochte man gerne den Einfluss dieser Variablen sozusagen’herausrechnen‘.
Formal lauft dieses Modell darauf hinaus, dass man fur jede Gruppe einen Zu-
sammenhang wie in der einfachen linearen Regression annimmt, wobei die Stei-
gungen ubereinstimmen, wahrend die Achsenabschnitte der’Regressionsgeraden‘
verschieden sein durfen. Unterschiede in diesen Achsenabschnitten werden dann
als Unterschiedlichkeit der Wirkungen der einzelnen treatments interpretiert. Ei-
ne graphische Veranschaulichung dieses Modells konnte so aussehen:
......................................................................................................................................................................................................................................... ...........................
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........................
...................
u
y
..................................
..................................
..................................
..................................
..................................
..................................
..................................
..................................
..................................
.............
..................................
..................................
...................................
..................................
..................................
..................................
..................................
..................................
..................................
............
..................................
..................................
..................................
..................................
..................................
..................................
..................................
..................................
..................................
.............
B1
B2
B3
........
........
........
........
........
........
........
........
........
........
......................
......................................
..............................
........
........
........
........
........
........
........
........
........
........
......................
......................................
..............................
........
........
........
........
........
........
........
........
........
........
......................
......................................
..............................
In jeder von drei Bedingungen, die hier mit B1, B2 und B3 bezeichnet sind, ist
5.1 Modell und Fragestellungen ALM07 16
also der Erwartungswert von y eine lineare Funktion von u. Alle drei Funktionen
haben die gleiche Steigung, die Wirksamkeit der treatment-Bedingung zeigt sich
in den unterschiedlichen Achsenabschnitten.
Bei Anwendung eines solchen Modells sind die Annahmen zu rechtfertigen, dass
der Erwartungswert y in jeder der Gruppen linear von u abhangt, und dass die
Steigungen dabei alle gleich groß sind. Wie ublich sind Ergebnisse nicht interpre-
tierbar, wenn die Voraussetzungen nicht (oder nicht wenigstens naherungsweise)
erfullt sind.
Bezeichnet man den Steigungsparameter wieder mit β und die Achsenabschnitte
fur die Gruppen mit αj, ferner die Werte von Y und U fur die i-te Beobachtung
der j-ten Bedingung mit yij und uij mit zugehorigem Fehler eij, so gilt fur yij die
Gleichung
yij = βuij + αj + eij .
Will man beispielsweise drei Gruppen mit 3, 2 und 2 Personen untersuchen,
bei denen die Kovariate die Werte 1, 2, 3, 2, 4, 3, 2 annimmt, so lauten die
ausfuhrlichen Modellgleichungen
y11
y21
y31
y12
y22
y13
y23
=
1 1 0 0
2 1 0 0
3 1 0 0
2 0 1 0
4 0 1 0
3 0 0 1
2 0 0 1
β
α1
α2
α3
+
e11
e21
e31
e12
e22
e13
e23
.
Die Designmatrix fur diese Situation ist dann gleich
1 1 0 0
2 1 0 0
3 1 0 0
2 0 1 0
4 0 1 0
3 0 0 1
2 0 0 1
.
Die Reihenfolge der Parameter ist hier β, α1, α2, α3. In der ersten Spalte stehen
also die Werte der Kovariate.
5.1 Modell und Fragestellungen ALM07 17
In der geschilderten Situation konnte man beispielsweise Kontraste untersuchen
wie α2−α1 und Punktschatzer und Vertrauensintervalle angeben. Eine zur Null-
hypothese der Varianzanalyse analoge Hypothese, die hier getestet werden kann,
ist die, ob alle drei αj gleich groß sind.
Fur etwas Irritation mag hier der Status der Kovariate sorgen. Die Werte sollen
ja vereinbarungsgemaß nicht zufallsabhangig sein, sondern als vom Experimen-
tator gesetzt betrachtet werden, was zu dem hier gewahlten Beispiel wie auch zu
anderen nicht recht passen will. Man kann sich jedoch von dieser Einschrankung
auch befreien, wobei es jedoch sinnvoll ist, solche Themen erst dann zu erortern,
wenn die Theorie des ALM im Standardfall schon im Wesentlichen zur Verfugung
steht.
Analog sind die Verhaltnisse bei den Regressionsmodellen was die Pradiktoren
angeht.
Das allgemeine Entwicklungsmodell von Schaie. Als ein Beispiel fur einen Nicht-
Standard-Fall soll das allgemeine Entwicklungsmodell von Schaie kurz besprochen
werden. In diesem Entwicklungsmodell postuliert Schaie, dass die durchschnittli-
che Auspragung einer entwicklungspsychologisch interessanten Variable (Y ) von
drei Einflussen abhangt, namlich vom Geburtszeitpunkt, vom Messzeitpunkt und
naturlich vom Alter. Untersucht man seine Argumentation genauer, so erschließt
sich, dass er, in statistische Sprache ubersetzt, folgendes meint:
Der Erwartungswert der zu einem bestimmten Zeitpunkt in einer bestimmten
Kohorte (definiert durch den gleichen Geburtszeitraum) erhobenen Variable Y
setzt sich additiv zusammen aus drei Konstanten, die die Einflusse der Kohorte,
des Messzeitpunkts und des Alters’bundeln‘. Eine
’Interaktion‘ in irgendeiner
Form ist nicht vorgesehen.
Ordnet sich dieses Modell dem ALM unter? Es seien die ublichen Verteilungs-
annahmen zugestanden: Die Zufallsvariablen, die das Messergebnis einer zufallig
gezogenen (besser: zu ziehenden) Person einer bestimmten Kohorte zu einem
bestimmten Messzeitpunkt reprasentieren, mogen als unabhangig normalverteilt
mit gleicher Varianz angenommen werden. Dies ist sicher problematisch, wenn
ein und dieselbe Stichprobe uber mehrere Jahre hinweg verfolgt wird; daher soll
angenommen werden, dass die zu einer Kohorte gehorende Stichprobe in aufein-
anderfolgenden Jahren jeweils neu gezogen wird, was auch sinnvoll ist, wenn man
Lerneffekte beispielsweise bei mehrfacher Anwendung des gleichen Intelligenztests
ausschließen will.
5.1 Modell und Fragestellungen ALM07 18
Es bleibt die Frage, ob die entsprechend dem Schaieschen Vorschlag gebildeten
Erwartungswerte entsprechend dem ALM zustandekommen, und welches dann
die Designmatrix ist.
Als Beispiel sei hier angenommen, dass Messungen an 1980, 1981, 1982 und 1983
geborenen Kindern in den Jahren 1990, 1991, 1992, 1993 stattfinden. Die Kon-
stanten, die die Einflusse von Kohorte, Messzeitpunkt und Alter wiedergeben,
seien mit α, β und γ bezeichnet und entsprechend indiziert. Es bezeichnet also
α80 zum Beispiel den’Einfluss‘ des Geburtsjahrgangs 1980.
Zunachst soll auch zu jedem Messzeitpunkt nur ein Kind eines Jahrgangs unter-
sucht werden. Die Zufallsvariable’Messergebnis‘ sei mit y bezeichnet und doppelt
mit Jahrgang und Messzeitpunkt indiziert. Dann ist y80,90 zum Beispiel das Mess-
ergebnis des zum Zeitpunkt 1990 zu ziehenden Kindes aus dem Jahrgang 1980.
Fur die Erwartungswerte ergeben sich nun nach dem Schaie-Modell folgende Glei-
chungen:E(y80,90) = α80 + β90 + γ10
E(y81,90) = α81 + β90 + γ9
E(y82,90) = α82 + β90 + γ8
E(y83,90) = α83 + β90 + γ7
E(y80,91) = α80 + β91 + γ11
E(y81,91) = α81 + β91 + γ10
E(y82,91) = α82 + β91 + γ9
E(y83,91) = α83 + β91 + γ8
E(y80,92) = α80 + β92 + γ12
E(y81,92) = α81 + β92 + γ11
E(y82,92) = α82 + β92 + γ10
E(y83,92) = α83 + β92 + γ9
E(y80,93) = α80 + β93 + γ13
E(y81,93) = α81 + β93 + γ12
E(y82,93) = α82 + β93 + γ11
E(y83,93) = α83 + β93 + γ10
Die Parameter in diesen Gleichungen sind α80, α81, α82, α83, β90, β91, β92 β93, γ7,
γ8, γ9, γ10, γ11, γ12 und γ13.
In der Tat lassen sich die Gleichungen fur die Erwartungswerte nun in der Form
5.2 Geometrische Veranschaulichung ALM07 19
Designmatrix mal Parametervektor schreiben:
E(y80,90)E(y81,90)E(y82,90)E(y83,90)
E(y80,91)E(y81,91)E(y82,91)E(y83,91)
E(y80,92)E(y81,92)E(y82,92)E(y83,92)
E(y80,93)E(y81,93)E(y82,93)E(y83,93)
=
1 0 0 0 1 0 0 0 0 0 0 1 0 0 00 1 0 0 1 0 0 0 0 0 1 0 0 0 00 0 1 0 1 0 0 0 0 1 0 0 0 0 00 0 0 1 1 0 0 0 1 0 0 0 0 0 0
1 0 0 0 0 1 0 0 0 0 0 0 1 0 00 1 0 0 0 1 0 0 0 0 0 1 0 0 00 0 1 0 0 1 0 0 0 0 1 0 0 0 00 0 0 1 0 1 0 0 0 1 0 0 0 0 0
1 0 0 0 0 0 1 0 0 0 0 0 0 1 00 1 0 0 0 0 1 0 0 0 0 0 1 0 00 0 1 0 0 0 1 0 0 0 0 1 0 0 00 0 0 1 0 0 1 0 0 0 1 0 0 0 0
1 0 0 0 0 0 0 1 0 0 0 0 0 0 10 1 0 0 0 0 0 1 0 0 0 0 0 1 00 0 1 0 0 0 0 1 0 0 0 0 1 0 00 0 0 1 0 0 0 1 0 0 0 1 0 0 0
α80
α81
α82
α83
β90
β91
β92
β93
γ7
γ8
γ9
γ10
γ11
γ12
γ13
Man erkennt, dass sich das allgemeine Entwicklungsmodell von Schaie tatsachlich
dem ALM unterordnet. Untersucht man zu einem Messzeitpunkt aus einer Ko-
horte mehr als eine Versuchsperson, so ist die zugehorige Zufallsvariable entspre-
chend oft zu’klonen‘ (noch einen Index anhangen!) und die zugehorige Zeile der
Designmatrix entsprechend oft hinzuschreiben. Man uberlegt sich leicht, dass sich
dadurch der Rang der Designmatrix nicht andert.
Fragen, die sich in diesem Modell stellen, betreffen zunachst die Parameter, die
zu schatzen sind, ferner Parameterdifferenzen (γ10− γ9 ist beispielsweise der ent-
wicklungsbedingte Zuwachs zwischen 9 und 10 Jahren). Bei diesen Fragen tau-
chen allerdings Probleme auf, die in einem spateren Abschnitt besprochen werden
sollen.
5.2 Geometrische Veranschaulichung
Entscheidend fur geometrische Veranschaulichungen ist der Begriff des modell-
vertraglichen Erwartungswertvektors. In dem Modell
y = Xβ + e
ist der Erwartungswert von y gleich Xβ. Ein modellvertraglicher Erwartungs-
wertvektor ist nun ein Vektor v, der die Form Xβ hat fur ein geeignetes β ∈ Rk.
5.2 Geometrische Veranschaulichung ALM07 20
Mit anderen Worten ist dies ein Vektor, der bei Modellgultigkeit als Erwartungs-
wertvektor in Frage kommt, namlich dann, wenn das zugehorige β der wahre
Parametervektor ist.
Die Menge der modellvertraglichen Erwartungswertvektoren, die meistens V hei-
ßen wird, ist dann die Menge aller v = Xβ, wenn fur β beliebige Vektoren aus
Rk eingesetzt werden. Mit andern Worten gilt V = Bild(X). Die Menge V der
modellvertraglichen Erwartungswertvektoren ist daher ein Unterraum des Perso-
nenraums Rn mit der Dimension Rang(X).
Alternativ kann man die modellvertraglichen Erwartungswertvektoren auch kenn-
zeichnen als die moglichen Modellvorhersagen (Xβ war ja als die zu β gehorende
Modellvorhersage bezeichnet worden). Die Modellvorhersagen konnten auch in-
terpretiert werden als die Datenvektoren y, die sich dann ergeben, wenn die Fehler
alle 0 sind, kurz: als die moglichen fehlerfreien Datenvektoren.
Diese Verhaltnisse sollen nun an einfachen Beispielen veranschaulicht werden.
Eine Stichprobe. In diesem einfachsten Beispiel soll die Stichprobe den Umfang
2 besitzen, womit der Personenraum der R2 ist. Die Gleichungen fur den Erwar-
tungswertvektor sind:
E(y) = Xβ =
(1
1
) (µ) E(y1) = 1·µ = µ
E(y2) = 1·µ = µ
Die modellvertraglichen Erwartungswertvektoren v sind hier die Vektoren, de-
ren beide Komponenten ubereinstimmen. Beispielsweise ist also (−1, 2)′ kein
moglicher Erwartungswertvektor, wahrend (3, 3)′ ein solcher ist, namlich fur den
Fall, dass µ = 3 gilt.
Die modellvertraglichen Erwartungswertvektoren sind damit genau die Vielfachen
des Vektors (1, 1)′. Ihre Gesamtheit V ist dann der eindimensionale Unterraum,
der von der (einzigen) Spalte x = (1, 1)′ von X aufgespannt wird; V ist hier also
eine Gerade. Die Koordinate eines modellvertraglichen Erwartungswertvektors
v in dem durch x gegebenen Koordinatensystem der Geraden V ist dabei der
gemeinsame Erwartungswert µ der beiden Komponenten von y.
In der folgenden Abbildung ist fur 4 mogliche Vektoren v = (E(y1), E(y2))′ ei-
nerseits eine eindimensionale Graphik enthalten, die diese beiden Erwartungs-
werte auf der Achse der y-Werte zeigt, und andererseits die zweidimensionale
5.2 Geometrische Veranschaulichung ALM07 21
Reprasentation im Personenraum. Der erste Vektor ist dabei kein moglicher Er-
wartungswertvektor; bei den anderen drei sieht man, dass das zugehorige µ die
Koordinate von v in dem Unterraum V ist.
....................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
..................................................................................................................................... ...................
........
........
........
........
........
........
........
........
........
........
........
........
........
........
.....................
...................
.......................................................................................................................
Y1
Y2
x
1
1
V
..
.
.
............
........
........
........
........
........
......
.....................................................
............................................................................
........
........
...... ..v =
(3
3
), µ = 3
........
........
...... ..v =
( −1
2
)
........
........
........v =
(−2
−2
), µ = −2
........
........
........v =
(0
0
), µ = 0
Regression ohne Konstante. In diesem Modell gibt es einen Pradiktor U , und die
Erwartungswerte von Y sollen auf einer Geraden liegen, deren Achsenabschnitt
gleich 0 ist. Dies ist naturlich eine verkurzte Ausdrucksweise fur den Sachver-
halt, dass die Punkte, die als Koordinaten einen moglichen Wert von U und den
zugehorigen Erwartungswert von Y haben, im Variablenraum mit den Koordina-
ten U und Y auf einer Geraden durch den Nullpunkt liegen sollen. Die Steigung
dieser Geraden ist der Modellparameter β.
Wieder soll die Stichprobe den Umfang 2 besitzen. Es sollen Werte von Y fur
die Werte u = 1 und u = 2 der Pradiktorvariablen U erhoben werden. Die
Gleichungen fur die Erwartungswerte sind dann die folgenden:
E(y) = Xβ =
(1
2
) (β) E(y1) = β· 1
E(y2) = β· 2
Die Koordinaten eines Punktes y im Personenraum sind die zu den U -Werten 1
und 2 in dieser Reihenfolge gehorenden Y -Werte. Es soll nun untersucht werden,
wann ein Punkt v = (v1, v2)′ dieses Raumes ein modellvertraglicher Erwartungs-
wertvektor ist.
5.2 Geometrische Veranschaulichung ALM07 22
Inhaltlich gesehen ist der Vektor v ein modellvertraglicher Erwartungswertvektor
genau dann, wenn seine Komponenten zum Modell passen, also auf einer Geraden
durch den Nullpunkt liegen, was ja genauer bedeuten sollte, dass (1, v1)′ und
(2, v2)′ auf einer solchen Geraden liegen. Hier ist naturlich vom Variablenraum
die Rede und nicht vom Personenraum.
Beispielsweise ist (−1, 2)′ kein modellvertraglicher Erwartungswertvektor, da die
zugehorigen Punkte nicht auf einer Geraden durch den Nullpunkt liegen (hier ist
die Deutung moglicher Erwartungswertvektoren als mogliche fehlerfreie Werte
bei Modellgultigkeit praktisch), wahrend (1.5, 3)′ ein solcher ist, namlich der, bei
dem die zugehorige Geradensteigung β gleich 1.5 ist.
Allgemein ist die Forderung, dass die Komponenten v1 und v2 von v auf einer
Geraden durch 0 liegen sollen, dass also v1 = β · 1 und v2 = β · 2 gelten soll, wo
β die Steigung der Geraden ist, gleichbedeutend damit, dass der Vektor v gerade
das β-fache des Vektors (1, 2)′ ist.
Die modellvertraglichen Erwartungswertvektoren sind damit genau die Vielfachen
des Vektors (1, 2)′ und bilden zusammen die Gerade V , die von der (einzigen)
Spalte x = (1, 2)′ von X aufgespannt wird. Die Koordinate in dem durch x
gegebenen Koordinatensystem der Geraden V ist dabei die Steigung β.
Eine Veranschaulichung liefert die folgende Abbildung:
.............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
............................................................................ ...................
........
........
........
........
........
........
........
....................
...................
......................................................................................................................................................................
Y1
Y2
x
1
1
V
..
.
.
......
......
......
...
......
......
......
......
......
.
...............................................
...............................................
u
y
..
..............................................................................................................................................................................
v =
(1.5
3
)
β = 1.5u
y
..v =
( −1
2
)
u
y
..
......................................................................................................................................................................................
v =
( −1
−2
)
β = −1u
y
...................................................................................................................................
v =
(0
0
)
β = 0
5.2 Geometrische Veranschaulichung ALM07 23
In dieser Abbildung ist fur 4 mogliche Vektoren v, die als Komponenten die Er-
wartungswerte von y1 und y2 besitzen, einerseits eine zweidimensionale Graphik
enthalten, die diese beiden Erwartungswerte als Y -Werte zu den beiden gegebe-
nen U -Werten zeigt, und andererseits die zweidimensionale Reprasentation im
Personenraum.
Der erste Vektor ist dabei kein moglicher Erwartungswertvektor. Die anderen drei
Vektoren ensprechen dagegen (ebenso wie alle anderen Vektoren aus V ) moglichen
Geraden durch (0, 0)′ im Variablenraum.
Die Koordinate eines modellvertraglichen Erwartungswertvektors in V bezuglich
der einzigen Spalte x = (1, 2)′ der Designmatrix ist dabei die Steigung der zu-
gehorigen Gerade im Variablenraum.
Dies Beispiel zeigt also noch einmal ausfuhrlich, dass die modellvertraglichen
Erwartungswertvektoren v zusammen gerade gleich Bild(X) sind, wobei die Ko-
ordinate eines Punktes v in V hier bezuglich der durch X gegebenen Basis gleich
dem zughorigen Modellparameter β ist.
Einfache lineare Regression. In diesem Beispiel soll der Erwartungswert von Y
eine lineare Funktion des Pradiktors U sein, die Erwartungswerte von Y sollen
also im Variablenraum mit den Koordinaten U und Y auf einer Geraden liegen,
womit wieder die verkurzende Sprechweise aus dem vorigen Beispiel benutzt wird.
Diesmal soll die Stichprobe den Umfang 3 besitzen; dies ist dann auch die Di-
mension des Personenraums. Es sollen Y -Werte fur die Werte u = 2, u = −1
und u = 0 der Pradiktorvariablen u erhoben werden. Die Gleichungen fur die
Erwartungswerte von Y sind dann die folgenden:
E(y) = Xβ =
1 2
1 −1
1 0
(α
β
) E(y1) = 1 α + 2 β = β · 2 + α
E(y2) = 1 α +(−1) β = β · (−1) + α
E(y3) = 1 α + 0 β = β · 0 + α
Die Koordinaten eines Punktes y im Personenraum sind die zu den U -Werten 2,
−1 und 0 (in dieser Reihenfolge) gehorenden Y -Werte.
Auch hier sollen die modellvertraglichen Erwartungswertvektoren zunachst noch
einmal aus der inhaltlichen Perspektive untersucht werden:
5.2 Geometrische Veranschaulichung ALM07 24
Modellvertragliche Erwartungswertvektoren v sind genau die Punkte, deren Kom-
ponenten (im Sinne der verkurzenden Sprechweise) auf einer Geraden im Varia-
blenraum liegen.
Der Vektor (0, 0, 3)′ ist beispielsweise kein moglicher Erwartungswertvektor (also
ein Wertevektor im fehlerfreien Modell), denn tragt man seine drei Komponenten
als Y -Koordinaten zu den U -Werten 2, −1, 0 in das zweidimensionale (U, Y )-
Koordinatensystem des Variablenraums ein, so liegen die entstehenden Punkte
nicht auf einer Geraden. Dies ist hingegen der Fall fur den Vektor mit den Ko-
ordinaten (3.5,−2.5,−.5)′, denn die zugehorigen Punkte liegen auf der Geraden
y = 2u− .5.
Illustrationen zu diesen Aussagen findet man in der gleich folgenden Abbildung
links oben und unten.
Die Bedingung, dass es eine Gerade gibt, auf der die drei Komponenten von v lie-
gen, ist gerade die, dass die vi sich als βui+α ergeben fur geeigneten Zahlen α und
β, die dann Achsenabschnitt und Steigung der Geraden sind. Zusammengefasst
bilden diese drei Gleichungen die Gleichung v = Xβ, bei der die Komponenten
von β gerade α und β sind. Die Bedingung ist damit kurz die, dass es ein β gibt
mit v = Xβ.
So umformuliert bedeutet die Bedingung, dass v in der Ebene V liegen muss, die
von den beiden Spalten x1 und x2 von X aufgespannt wird. Die Koordinaten in
dem durch x1 und x2 gegebenen Koordinatensystem der Ebene sind dabei der
Achsenabschnitt und die Steigung der zugehorigen Gerade.
Auch hier erweist sich also der Unterraum V = Bild(X) gerade als die Menge der
modellvertraglichen Erwartungswertvektoren, und auch hier sind die Koordinaten
eines solchen Vektors gleich den zugehorigen Modellparametern.
Die folgende Abbildung zeigt den Personenraum mit dem zweidimensionalen Un-
terraum V der modellvertraglichen Erwartungswertvektoren, der von den beiden
Spalten der Designmatrix aufgespannt wird.
In der Darstellung sind drei Punkte eingezeichnet, die als Erwartungswertvek-
toren in Frage kommen und einer, der nicht in Frage kommt. Zusatzlich zeigt
jeweils eine kleine Abbildung die enstprechende Situation im Variablenraum.
Bei den drei modellvertraglichen Erwartungswertvektoren kann man Achsenab-
schnitt und Steigung der zugehorigen Geraden als Koordinaten in V ablesen.
5.3 Parameter ALM07 25
.......................................................................................................................................................................................................................................
...........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
................................................................................................................................................................................................. ..............
.....
......................................
......................................
......................................
.
........................................
........................................
........................................
........................................
........................................
........................................
........................................
........................................
............................
......................................................
...................
........
........
........
........
........
........
..........................
...................
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
..
......................................................................................................................................................................................................
...................................................................................................................................................................................................................
.....................
.................................................
.........................................................................................................................................................................................................................................
..........................................................
......................................
......................................
......................................
......................................
......................................
......................................
..................................
......................
..........
...........
.........
...........
.........
.....................................................................................................................................................................................................................................................................................................................................................................................
.............................................................................................................................................................................................................................................................................................................
................................................................
...................................................................
........................................................................................ ...................
.
.
.................................................................................................................
..........................
..........................
.............
.............
.............
.............
.............
.............
.............
..........................
....
..Y3
Y1
Y2
Vx1
x2
.............................................................
.....................................................
...........................
........
........
........
........
.....
u
y .
..
..............................................................................................................................................................................
v =
5
.5
2
α = 2
β = 1.5u
y
.
..
...................................................................................................................................................................................
v =
3.5
−2.5
−.5
α = −.5
β = 2
u
y
....................................................................................................................................v =
2.5
2.5
2.5
α = 2.5
β = 0u
y
...v =
0
0
3
Allgemein ist es also auch hier so, dass jeder Punkt von V einer moglichen Gerade
im Variablenraum entspricht, namlich der, deren Kenngroßen man direkt in dem
x1-x2-Koordinatensystem ablesen kann.
5.3 Parameter
In diesem Kapitel geht es um die Parameter des ALM, insbesondere um deren
Schatzung. Etwas allgemeiner sollen auch lineare Funktionen der Parameter be-
handelt werden.
Parametrische Funktionen. Als Parameter des ALM bezeichnet man die im
Vektor β zusammengefassten βj, gelegentlich auch die unbekannte Varianz σ2.
Durch diese Parameter ist die Verteilung der Variable Y in jeder betrachteten
5.3 Parameter ALM07 26
Bedingungskonstellation festgelegt. Da σ2 eine ganz andere Rolle spielt als die
βj, soll sich das Wort’Parameter‘ hier meist nur auf die βj beziehen.
Neben diesen im Vektor β zusammengefassten Parametern βj sind oft auch be-
stimmte Linearkombinationen der βj interessant.
Linearkombinationen ψ =∑
cjβj der Parameter βj heißen allgemein parametri-
sche Funktionen. Eine solche Funktion ist durch ihren aus den cj bestehenden
Koeffizientenvektor gegeben, der hier meist c heißt. Der Koeffizientenvektor hat
naturlich soviel Komponenten wie β; als Bezeichnung der Zahl der Komponen-
ten soll wieder der Buchstabe k verwendet werden. Fur parametrische Funktionen
und ihre Funktionswerte wird meistens die Bezeichnung ψ verwendet, gelegentlich
– zur Verdeutlichung oder Unterscheidung – auch ψc.
Es gilt dann also
ψc = c′β =∑
cjβj .
Gelegentlich interessiert man sich etwas allgemeiner auch fur Linearkombinatio-
nen, bei denen noch eine additive Konstante a zugelassen ist, und bezeichnet
auch Linearkombinationen∑
cjβj + a als parametrische Funktionen im weiteren
Sinn. Da sich die statistischen Eigenschaften einer Linearkombination mit ad-
ditiver Konstante unmittelbar aus denen der entsprechenden Linearkombination
ergeben, bei der die additive Konstante weggelassen ist, genugt es jedoch, die
einfacheren Funktionen ohne Konstante zu behandeln.
Parametrische Funktionen sind von großer Bedeutung fur die Formulierung in-
haltlicher Fragestellungen, wie die folgenden Beispiele zeigen.
Zunachst sind die Komponenten βj von β selbst parametrische Funktionen – hier
ist der Vektor c der j-te Einheitsvektor ej. Beispiele sind die Erwartungswerte
µj bei der Varianzanalyse, oder die (theoretischen) Regressionsgewichte βj und
der Achsenabschnitt α bei der Regression.
Weitere Beispiele sind Differenzen solcher Parameter, also zum Beispiel die Dif-
ferenz der Erwartungswerte fur zwei Gruppen in der Varianzanalyse: Der Ko-
effizentenvektor von ψ = µ3 − µ1 bei einer Varianzanalyse mit 4 Gruppen ist
beispielsweise (−1, 0, 1, 0)′.
Ein etwas allgemeineres Beispiel sind die Kontraste aus der Varianzanalyse.
Bei der einfachen linearen Regression mit Modell E(y) = βu+α fragt man oft nach
5.3 Parameter ALM07 27
dem Erwartungswert E(y) fur einen bestimmten Wert von u. Ist beispielsweise
u = 2, so ist dieser Erwartungswert gleich β · 2 + α = α + 2β, und damit eine
parametrische Funktion mit Koeffizientenvektor (1, 2)′ (der Parametervektor ist
dabei β = (α, β)′).
Die Beispiele zeigen, dass Hypothesen im Rahmen des ALM sich oft durch para-
metrische Funktionen formulieren lassen. Die Nullhypothese der Varianzanalyse
kann zum Beispiel durch die Forderung ausgedruckt werden, dass alle Differen-
zen je zweier Gruppenerwartungswerte µj gleich Null sind, oder auch, dass alle
Kontraste gleich 0 sind.
Zum Schluss sei noch ein Beispiel einer Funktion der Parameter erwahnt, die
keine parametrische Funktion ist. Beim Modell der quadratischen Regression
E(y) = β0 + β1u + β2u2
ist der wohl interessanteste Wert von u der, in dem diese Funktion ihr Mini-
mum oder Maximum annimmt. Durch Nullsetzen der Ableitung oder quadrati-
sche Erganzung ermittelt man leicht, dass dies der Wert u = −β1/(2β2) ist, der
damit leider nicht als parametrische Funktion geschrieben werden kann.
Identifizierbarkeit. Das Problem der Identifizierbarkeit soll an einem einfuhren-
den Beispiel klar gemacht werden.
In einem Experiment geht es um die Wirksamkeit zweier Therapiemaßnahmen.
Ein Forscher beschließt, in zwei Gruppen, der Ubersichtlichkeit halber nur mit 2
bzw. 3 Personen, die beiden Maßnahmen durchzufuhren und die Ergebnisse zu
registrieren. An eine Kontrollgruppe denkt er nicht.
Er stellt die Uberlegung an, dass der Erwartungwert µ des Wohlbefindens ohne
Maßnahmen durch die Interventionen modifiziert wird, und nennt die Veranderun-
gen α1 und α2. Der Erwartungswert der ersten Gruppe ist dann µ + α1, der der
zweiten µ+α2. Mit dem Parametervektor (µ, α1, α2)′ erhalt man die Designmatrix
1 1 0
1 1 0
1 0 1
1 0 1
1 0 1
,
bei der man sofort bemerkt, dass ihr Rang nur 2 ist.
5.3 Parameter ALM07 28
Das Experiment sollte wohl in erster Linie herausfinden, wie groß die Wirksam-
keit der beiden Maßnahmen ist, wie groß also α1 und α2 sind. Dabei versagt
es jedoch. Selbst wenn man die Erwartungswerte der beiden Gruppen kennen
wurde, sie mogen hier µ1 und µ2 heißen, ware es nicht moglich, den Wert der αj
zu ermitteln, und zwar aus dem Grund, dass (unendlich) viele mogliche Werte
der αj mit gegebenen Erwartungswerten kompatibel sind. Es mussen namlich nur
die Gleichungen
µ1 = µ + α1
µ2 = µ + α2
gelten, in denen man jeden beliebigen Wert fur µ durch geeignete Wahlen der
αj zu den µj erganzen kann. Sind beispielsweise µ1 = 5 und µ2 = 3, so ist dies
mit den folgenden Parametervektoren (µ, α1, α2)′ vertraglich: (0, 5, 3)′, (1, 4, 2)′,
(2, 3, 1)′, . . . .
Auch im denkbar besten Fall, dass die Erwartungswerte von y in den Bedingungs-
konstellationen bekannt sind, kann man also nicht auf die αj zuruckschließen; sie
sind’nicht identifizierbar‘.
Das Problem hatte sich hier ubrigens mit einer Kontrollgruppe leicht vermeiden
lassen.
Die Formulierung’im denkbar besten Fall‘ bedarf einer Erlauterung: Der Fall,
dass die Erwartungswerte bekannt sind, wird empirisch nie eintreten, aber im-
merhin kann man sich vorstellen, dass man sich ihm, beispielsweise mit einer
Riesenanzahl von Replikationen, hinreichend annahern kann. Hingegen ist bei
dem gegebenen Experiment (ohne Kontrollgruppe) der Wert µ aus prinzipiellen
Grunden nie zuganglich.
Wahrend also die αj auch theoretisch nicht zuganglich sind, kann man, was im
ersten Augenblick uberraschen mag, etwas uber ihre Differenz ψ sagen: Es gilt
namlich
ψ = α2 − α1 = (µ + α2)− (µ + α1) = µ2 − µ1 .
Die Differenz ist also ermittelbar – jedenfalls, wenn man µ1 und µ2 kennt. Im
Beispiel mit µ1 = 5 und µ2 = 3 ware ψ = −2.
Allgemein soll nun eine parametrische Funktion ψ identifizierbar heißen, wenn
mit jedem moglichen modellvertraglichen Wert des Erwartungswertvektors E(y)
nur ein einziger Wert von ψ kompatibel ist. Im anderen Fall heißt ψ nicht iden-
tifizierbar.
5.3 Parameter ALM07 29
Ebenso definiert man die Identifizierbarkeit eines Vektors ψ parametrischer Funk-
tionen. Ein Beispiel eines solchen Vektors ist der Parametervektor β selber.
Es sollen gleich genauere Bedingungen fur die Identifizierbarkeit gegeben wer-
den. Zuvor soll aber noch ein etwas komplizierteres Beispiel behandelt werden:
Im allgemeinen Entwicklungsmodell von Schaie setzte sich der Erwartungswert
der Merkmalsauspragung yj,k in der Kohorte j zum Messzeitpunkt k aus den
Kohorten-, Messzeitpunkt- und Altersparametern αj, βk und γl zusammen als
E(yj,k) = αj + βk + γ(k−j) .
Man stellt nun leicht fest, dass die Parameter αj, βk und γl nicht identifizierbar
sind. Die Frage, ob dies auch fur Parameterdifferenzen gilt, oder ob beispielsweise
die (rein) entwicklungsbedingte Veranderung ψ = γ10− γ9 vom Alter von 9 zu 10
Jahren identifizierbar ist, hat zu interessanten Diskussionen gefuhrt.
Inhaltlich ist dies von großer Bedeutung: Es geht hier namlich um die Frage, ob
man (die Gultigkeit des Modells immer vorausgesetzt, ebenso, das man nur Daten
im Rahmen des Modells erhebt) uberhaupt von so etwas wie entwicklungsbeding-
ter Veranderung reden kann, oder ob dieser Begriff grundsatzlich im Bereich des
Spekulativen bleibt, wenn man namlich womoglich auch im besten denkbaren
Fall, in dem man uber die Erwartungswerte der empirischen Variablen verfugt,
die Große dieser Veranderung prinzipiell nicht ermitteln kann.
Sind Parameterdiffenzen, die die entwicklungsbedingten Veranderungen angeben,
nicht identifizierbar, so stellt sich dem konsequenten Empiriker die Frage, ob man
den Begriff der’(rein) entwicklungsbedingten Veranderung‘ nicht uberhaupt aus
der Theorie streichen sollte, da er empirisch sinnlos ist, wenn dies auch bei der
Konstruktion des Modells noch nicht deutlich war. Die naive Modellbildung ware
dann einschließlich ihrer Begriffe nur ein Beispiel fur leeres Gerede. Es wird sich
noch zeigen, dass diese Konsequenz etwas voreilig ist.
In dem einfacheren ersten Beispiel mit zwei Gruppen hat man ubrigens die in-
teressante Lage, dass die αj nicht identifizierbar sind, wohl aber ihre Differenz.
Was meint wohl der konsequente Empiriker hierzu? Ist es sinnvoll, uber solche
Parameter αj zu reden oder sie in ein Modell aufzunehmen?
Nun soll es um Bedingungen fur die Identifizierbarkeit gehen; dabei soll als er-
stes die Identifizierbarkeit des Parametervektors β untersucht werden. Hier gibt
es einen direkten Zusammenhang zwischen β und dem zugehorigen Erwartungs-
5.3 Parameter ALM07 30
wertvektor E(y), namlich
E(y) = Xβ ,
die Frage, ob es zu einem gegebenen (modellvertraglichen) Erwartungswertvektor
v nur ein passendes β gibt oder mehrere, ubersetzt sich daher unmittelbar in die
Frage nach der Eindeutigkeit der Losung des Gleichungssystems Xβ = v.
Feststellung 1. Der Parametervektor β ist genau dann identifizierbar, wenn die
(n× k)-Matrix X den vollen Rang k besitzt.
Besitzt namlich die Designmatrix den Rang k, so ist die lineare Abbildung X
injektiv, verschiedene Parametervektoren β fuhren also zu verschiedenen Wer-
ten von Xβ und damit zu verschiedenen Erwartungswertvektoren. Mit jedem
modellvertraglichen Erwartungswertvektor v ist dann also nur ein β vertraglich.
Besitzt hingegen X nicht den Rang k, so besitzt fur jeden modellvertraglichen
Erwartungswertvektor v die Gleichung Xβ = v viele Losungen β, die zusammen
einen ganzen affinen Unterraum des Rk bilden, der parallel zum Kern von X ist
(man beachte, dass die Gleichung uberhaupt Losungen besitzt, da v modellver-
traglich ist, also im Bild von X liegt). Alle diese Losungen sind mit v vertraglich,
so dass β nicht identifizierbar ist. ¤
Bemerkenswert ist ubrigens, dass entweder fur alle modellvertraglichen v ge-
nau eine Losung von Xβ = v existiert, oder fur alle solchen v unendlich viele
Losungen existieren; der Fall, dass fur ein modellvertragliches v nur eine Losung
existiert, fur ein anderes jedoch viele Losungen moglich sind, kann also nicht
eintreten.
Manchmal benutzt man auch die verkurzte Ausdrucksweise, dass’X vollen Rang
besitzt‘, und meint damit, dass der Rang gleich der Spaltenzahl ist (vorausgesetzt,
diese ist hochstens so groß wie die Zeilenzahl, was aber hier praktisch immer der
Fall sein sollte).
Geometrisch zeigt sich der volle Rang von X darin, dass die Spalten von X eine
Basis des Bildes von X bilden, so dass die Parameter, die zu einem modellver-
traglichen Erwartungswertvektor v aus diesem Bild gehoren, direkt als Koordina-
ten abgelesen werden konnen, wie es sich auch schon in den Beispielen des letzten
Kapitels gezeigt hat.
Da der Rang der Matrix X bekanntlich gleich dem der (k × k)-Matrix X′X ist,
kann man die letzte Feststellung auch anders formulieren:
5.3 Parameter ALM07 31
Feststellung 2. Der Parametervektor β ist genau dann identifizierbar, wenn
X′X regular ist. ¤
Nun soll allgemein die Frage nach der Identifizierbarkeit einer parametrischen
Funktion ψc behandelt werden.
Ist der Parametervektor β selbst identifizierbar, so vererbt sich diese Eigenschaft
auf alle parametrischen Funktionen. Ist namlich nur ein β mit dem Erwartungs-
wertvektor v vertraglich, so kann auch die Funktion ψc nur einen Wert anneh-
men, namlich c′β. Das Identifizierbarkeitsproblem stellt sich daher eigentlich nur
in dem Fall, dass X nicht vollen Rang besitzt.
In dem Fall, dass X nicht vollen Rang besitzt, sind mit jedem modellvertraglichen
Erwartungswertvektor v viele mogliche Parametervektoren β vertraglich. Fur
eine parametrische Funktion ψ (oder ganz analog einen Vektor parametrischer
Funktionen) sind nun zwei Falle moglich: Entweder ψ nimmt fur alle diese mog-
lichen Parametervektoren den gleichen Wert an oder nicht. Im ersten Fall ist
dann mit v nur der fur alle moglichen Parametervektoren gemeinsame Wert von
ψ vertraglich und ψ folglich identifizierbar, im zweiten Fall hingegen sind mehrere
Werte von ψ bei dem gegebenen v denkbar, weshalb dann ψ nicht identifizierbar
ist.
Dieser Grundgedanke soll nun genauer ausgefuhrt werden. Die Menge der Para-
metervektoren, die zu einem gegebenen v fuhren, ist immer ein affiner Unterraum,
der parallel zum Kern von X ist. Dieser Kern soll hier U heißen.
Ist nun ein modellvertragliches v fest vorgegeben, und ist β0 ein dazu passender
Parametervektor, gilt also Xβ0 = v, so ist die Gesamtheit der zu v passenden
Parametervektoren gerade U + β0. Nimmt nun die Funktion ψc fur alle diese
Parametervektoren den gleichen Wert an, so ist – zumindest fur dieses v – der
Wert von ψc eindeutig festgelegt. Es ist namlich dann egal, welches der vielen
moglichen β der wahre Parametervektor ist, da in allen Fallen sich der gleiche
Wert der parametrischen Funktion ergibt.
Nimmt hingegen ψc fur irgendwelche Vektoren aus U + β0 verschiedene Werte
an, so sind alle diese Werte mit v vertraglich, da sie ja zu Parametervektoren β
gehoren, die zu v fuhren konnen.
Es geht also nun darum, eine Bedingung dafur zu finden, dass ψc auf dem gesam-
ten affinen Unterraum U +β0 nur einen Wert annimmt, und zwar dann naturlich
denselben wie bei β0.
5.3 Parameter ALM07 32
Die Elemente von U + β0 sind nun genau die Vektoren der Form u + β0 fur
beliebige u ∈ U . Die Differenz der Werte, die ψc fur ein solches Element und fur
β0 annimmt, ist
c′(u + β0)− c′β0 = c′(u + β0 − β0) = c′u .
Gesucht ist eine Bedingung dafur, dass alle derartigen Differenzen 0 sind. Dies ist
offenbar genau dann der Fall, wenn c orthogonal zu U ist, wenn also c ∈ U⊥ gilt.
Damit ist die gesuchte Bedingung fur c gefunden, und sie ist erfreulicherweise
auch unabhangig von dem untersuchten Erwartungswertvektor v.
Die Bedingung soll nun noch etwas umformuliert werden. Dazu bemerkt man
zunachst, dass der Kern von X gerade aus den Vektoren besteht, die senkrecht
auf allen Zeilen von X stehen oder aquivalent auf allen Spalten von X′. Da ein
Vektor genau dann senkrecht auf allen Spalten von X′ steht, wenn er senkrecht zu
allen Linearkombinationen dieser Spalten ist, folgt U = Bild(X′)⊥. Hieraus ergibt
sich U⊥ = Bild(X′)⊥⊥ = Bild(X′). Damit ist die gewunschte Bedingung gefunden:
Der Vektor c muss in Bild(X′) liegen, oder anders gesagt eine Linearkombination
der Zeilen von X sein. Genauer musste man naturlich von den transponierten
Zeilen sprechen, was jedoch klar sein sollte, weshalb in Zukunft kommentarlos
die bequeme nicht ganz richtige Formulierung benutzt werden soll. Damit hat
man insgesamt
Feststellung 3. Eine parametrische Funktion ψc ist genau dann identifizier-
bar, wenn c Linearkombination der Zeilen von X ist oder aquivalent, wenn c in
Bild(X′) liegt. ¤
Die Feststellung gilt ubrigens auch fur den Fall, dass X vollen Rang hat, denn
dann liegen alle moglichen c im Bild von X′.
Eine parametrische Funktion ψc ist also genau dann identifizierbar, wenn sich c
als X′a schreiben lasst fur ein geeignetes a. Dann gilt aber
ψc = c′β = a′Xβ = a′E(y) ,
was gerade bedeutet, dass sich ψc auch aus dem (wahren) Erwartungswertvek-
tor als Linearkombination seiner Komponenten berechnen lasst. Umgekehrt ist
offenbar ein ψc mit dieser Eigenschaft identifizierbar, da sein Wert durch E(y)
dann festliegt.
Man hat so eine weniger umstandliche Charakterisierung von identifizierbaren
parametrischen Funktionen.
5.3 Parameter ALM07 33
Feststellung 4. Eine parametrische Funktion ψc ist genau dann identifizierbar,
wenn sich ψc mit einem geeigneten a als a′E(y) aus dem wahren Erwartungswert
von y berechnen lasst. ¤
Fur a kommen hier meist viele Vektoren in Frage. Es wird noch zu untersuchen
sein, welchen man davon sinnvollerweise auswahlt.
Schließlich ist leicht einzusehen, dass ein Vektor parametrischer Funktionen genau
dann identifizierbar ist, wenn alle seine Komponenten identifizierbar sind.
Im Beispiel mit den zwei Therapiemaßnahmen sind die Zeilenvektoren von X, von
Wiederholungen abgesehen, gerade (1, 1, 0)′ und (1, 0, 1)′. Der Vektor (0, 1, 0)′ istoffenbar keine Linearkombination dieser Vektoren, weshalb die zugehorige para-
metrische Funktion α1 auch nicht identifizierbar ist. Hingegen lasst sich (0,−1, 1)′
als Linearkombination schreiben, womit erneut gezeigt ist, dass die Differenz
α2 − α1 identifizierbar ist.
Als Vektor a im Sinne der Feststellung 4 kann man hier beispielsweise den Vek-
tor (−1/2,−1/2, 1/3, 1/3, 1/3)′ wahlen oder auch (−1, 0, 1, 0, 0)′, wie man leicht
nachrechnet (fur die erste Gruppe waren im Beispiel 2 und fur die zweite 3 Be-
obachtungen vorgesehen).
Als weiteres Beispiel soll das Entwicklungsmodell von Schaie dienen. In der am
Ende des Einleitungskapitels Situation geht es um die Veranderungen einer Va-
riable Y (beispielsweise Intelligenz) in Abhangigkeit von Kohorte, Messzeitpunkt
und Alter. Hier sei wieder angenommen, dass die Kohorten von 1980 bis 1983
untersucht werden zu Messzeitpunkten zwischen 1990 und 1993. Die zugehorigen
Alter schwanken folglich zwischen 7 und 13.
Es sei nun angenommen, dass die Erwartungswerte fur die Messungen bekannt
sind. Es soll sich um die Zahlen in der folgenden Tabelle handeln, bei der die Zeilen
den Kohorten 80, 81, 82, 83 entsprechen und die Spalten den Messzeitpunkten
90, 91, 92, 93:8 10 12 12
7 10 11 12
5 7 9 9
4 6 7 8
Die Zahl 8 oben links ist also beispielsweise der Erwartungswert von Y in der
Kohorte 80, wenn der Messzeitpunkt 90 ist; das Alter der Probanden ist dann 10.
Die Zahl 10 daneben ist entsprechend der Erwartungswert der Kohorte 80 beim
5.3 Parameter ALM07 34
Messzeitpunkt 91, das Alter ist dann 11.
Kann man – die Gultigkeit des Modells vorausgesetzt – von diesen Erwartungs-
werten auf die Modellparameter schließen? Passend zum Modell seien diese Para-
meter auf drei Parametervektoren aufgeteilt, die den drei Einflussen entsprechen;
der (Teil-)Parametervektor α = (α80, α81, α82, α83)′ moge die Kohorteneinflusse
wiedergeben, der Vektor β = (β90, β91, β92, β93)′ die Messzeitpunkteinflusse und
der Vektor γ = (γ7, γ8, γ9, γ10, γ11, γ12, γ13)′ die haupsachlich interessierenden Al-
terseinflusse.
Dass die Parameter dann nicht identifizierbar sind, sieht man leicht daran, dass
man von einem dieser Vektoren eine Konstante abziehen kann, wenn man diese
kompensatorisch einem anderen Vektor hinzuaddiert.
So passen die oben angegebenen hypothetischen Erwartungswerte einerseits zu
α = (1, 2, 1, 1)′, β = (2, 3, 3, 2)′ und γ = (1, 2, 3, 5, 6, 8, 9)′, wie man leicht
nachrechnet (der Erwartungswert oben links muss dann beispielsweise gleich
α80 + β90 + γ10 = 1 + 2 + 5 = 8 sein, was auch der Fall ist). Sie passen aber
andererseits auch zu α = (0, 1, 0, 0)′, β = (2, 3, 3, 2)′ und γ = (2, 3, 4, 6, 7, 9, 10)′.
Der (hier in Form einer Matrix) oben angegebene Erwartungsvektor ist also mo-
dellvertraglich, allerdings kann von ihm nicht auf die Modellparameter zuruck-
geschlossen werden.
Nun sind aber auch gerade Differenzen von solchen Einflussen interessant. Bei-
spielsweise konnte man womoglich γ11 − γ10 interpretieren als die Intelligenz-
anderung beim Ubergang von 10 zu 11 Jahren, die gewissermaßen’rein alters-
bedingt‘ und von den Einflussen von Kohorte und Messzeitpunkt’bereinigt‘ ist
(das wird jedenfalls vorgeschlagen).
Bei ψ = γ11 − γ10 handelt es sich offenbar um eine parametrische Funktion.
Wenn diese Funktion inhaltlich interessant ist, so ist es wichtig zu wissen, ob
sie uberhaupt identifizierbar ist. Die beiden oben gefundenen moglichen Para-
meterbelegungen sprechen nicht dagegen, denn in beiden Fallen ist ψ = 1, im
ersten Fall namlich 6 − 5 und im zweiten Fall 7 − 6. Diese Beobachtung reicht
naturlich nicht aus zum Nachweis der Identifizierbarkeit; vielmehr muss sich da-
zu der gleiche Wert bei allen moglichen Parameterbelegungen ergeben. Wie man
leicht nachrechnet, ist aber beispielsweise α = (2, 4, 4, 5)′, β = (6, 6, 5, 3)′ und
γ = (−7,−5,−3, 0, 2, 5, 7)′ ebenfalls eine Moglichkeit, die zu den oben angegebe-
nen Erwartungswerten fuhrt, allerdings ist fur diese Moglichkeit ψ = 2 − 0 = 2
5.3 Parameter ALM07 35
und nicht 1. Die parametrische Funktion ψ ist also leider nicht identifizierbar.
Identifizierbarmachen. Hat man in einem Modell die unbefriedigende Situati-
on nicht identifizierbarer Parameter, so lost man dieses Problem haufig dadurch,
dass man die Eindeutigkeit des Parametervektors β durch geeignete Nebenbedin-
gungen erzwingt.
Im Fall des ALM bestehen diese Nebenbedingungen meist in der Forderung, dass
eine geeignete lineare Abbildung N fur den auszuwahlenden Parametervektor den
Wert 0 annehmen soll. Im allgemeinen Fall lautet die Nebenbedingung dann
Nβ = 0 .
Da die Anzahl der Parameter gleich k ist, ist N eine Matrix mit k Spalten.
Man konnte hier auch fordern, dass Nβ nicht 0 ist sondern gleich einem anderen
geeigneten Wert n. Die Argumentation ist dann etwas komplizierter, wobei aller-
dings inhaltlich nicht viel gewonnen wird, weshalb hier nur die einfachere Version
n = 0 behandelt werden soll.
In diesem Abschnitt soll untersucht werden, welche Bedingung an eine Matrix N
zu stellen sind, damit sie die gewunschte Funktion erfullen kann.
Es liegt also die Situation vor, dass jeder modellvertragliche Erwartungswertvek-
tor v ∈ Bild(X) nicht nur mit einem Parametervektor kompatibel ist, sondern
mit vielen. Die Nebenbedingung soll dann aus diesen vielen moglichen Parame-
tervektoren genau einen auswahlen.
Ist v = Xβ ein modellvertraglicher Erwartungswertvektor, so hatte sich schon
gezeigt, dass die alternativen Parametervektoren, die ebenfalls zu v fuhren, gerade
die Elemente von U + β sind, wobei U der Kern von X ist. Die Forderung, dass
die Nebenbedingung aus diesen moglichen Parametervektoren immer genau einen
auszeichnen soll, ist dann aquivalent dazu, dass es fur alle β ∈ Rk in der Menge
U + β genau ein Element gibt, das die Nebenbedingung erfullt.
Die Vektoren, die die Nebenbedingung Nβ = 0 erfullen, sind gerade die Elemente
des Kerns von N, der W heißen soll. Mit dieser Bezeichnung ist die Forderung
an die Nebenbedingung die, dass es fur jedes β ∈ Rk genau ein Element w ∈ W
gibt, das in U + β liegt.
Setzt man speziell β = 0, so folgt, dass in U genau ein Element aus W liegen
5.3 Parameter ALM07 36
soll. Da auf jeden Fall der Vektor 0 in beiden Unterraumen liegt, folgt, dass
U ∩W = {0} gelten muss.
Ist β ∈ Rk wieder beliebig, so folgt aus der Forderung, dass in U + β genau
ein Element von W liegt, dass es Elemente u ∈ U und w ∈ W geben muss mit
u + β = w. Daraus folgt, dass β = w − u ist und sich damit als Summe eines
Elements von U und eines Elements von W schreiben lasst. Da dies fur alle β
gelten soll, muss dann U + W = Rk gelten.
Die Forderung an die Nebenbedingung kann also nur dann erfullt sein, wenn
U ∩W = {0} und U + W = Rk gilt.
Gelten umgekehrt diese beiden Bedingungen, ist auch die Forderung an die Ne-
benbedingung erfullt. Ist namlich β ein beliebiges Element des Rk, so lasst sich
β wegen der zweiten Bedingung in der Form β = u+w schreiben mit u ∈ U und
w ∈ W . Es folgt −u+β = w, weshalb U +β ein Element aus W enthalt. Wurde
U + β mehr als ein Element aus W enthalten, also beipielsweise w1 und w2, so
musste wi = ui+β gelten fur i = 1, 2 und zwei geeignete Elemente ui ∈ U . Bildet
man die Differenz dieser beiden Gleichungen, so erhalt man w1 −w2 = u1 − u2.
Der Vektor w1−w2 muss dann sowohl in W als auch in U liegen und wegen der
ersten Bedingung gleich 0 sein. Es muss also w1 = w2 gelten, und daraus folgt,
dass U + β nur ein Element aus W enthalten kann. Insgesamt enthalt also fur
jedes β der affine Unterraum U + β genau ein Element aus W , was gerade die
Forderung an die Nebenbedingung ist.
Die beiden Bedingungen U ∩W = {0} und U + W = Rk sollen nun noch weiter
umformuliert werden. Wegen der bekannten Beziehung
dim(U + W ) + dim(U ∩W ) = dim(U) + dim(W )
folgt aus den beiden Bedingungen, dass dim(U) + dim(W ) = k gelten muss; gilt
umgekehrt dim(U) + dim(W ) = k und U ∩W = {0}, so folgt dim(U + W ) = k,
also U + W = Rk. Man kann also die beiden Bedingungen aquivalent durch die
Bedingungen U ∩W = {0} und dim(U) + dim(W ) = k ersetzen.
Die Bedingung U ∩ W = {0} bedeutet, dass nur der Vektor 0 im Kern von X
und im Kern von N liegt. Dies ist gleichwertig damit, dass das homogene lineare
Gleichungssystem (X
N
)x = 0
nur die Losung x = 0 besitzt, was wiederum gleichwertig damit ist, dass die Ko-
5.3 Parameter ALM07 37
effizientenmatrix Xe dieses Gleichungssystems den vollen Rang k besitzen muss.
Die Matrix Xe ist also definiert als
Xe =
(X
N
).
Ist der Rang von X gleich r, so ist die Dimension des Kerns U von X gleich k−r.
Die Bedingung dim(U) + dim(W ) = k ist dann gleichwertig mit dim(W ) = r,
was wegen W = Kern(N) wiederum gleichwertig damit ist, dass der Rang von N
gleich k − r ist.
Die Matrix N muss also mindestens k − r Zeilen besitzen. Hat sie genau k − r
Zeilen, so vereinfachen sich die Bedingungen noch einmal: Da offenbar der Rang
der aus X und N zusammengesetzten Matrix Xe hochstens so groß sein kann,
wie die Summe der Range von N und X, kann er jetzt nur dann gleich k werden,
wenn der Rang von N gleich k − r ist.
Damit kann das Ergebnis der bisherigen Untersuchung zusammengefasst werden:
Feststellung 5. Hat in dem Modell E(y) = Xβ die (n×k)-Designmatrix X nur
den Rang r < k, so erzwingen die Zusatzbedingungen
Nβ = 0
genau dann fur alle modellvertraglichen Erwartungswertvektoren v die Eindeu-
tigkeit des zugehorigen Parametervektors β mit v = Xβ, wenn
Rang(
(X
N
)) = k und Rang(N) = k − r
gilt. Ist die Zeilenzahl von N gleich k− r, so vereinfacht sich diese Bedingung zu
Rang(
(X
N
)) = k . ¤
In gewisser Weise kann man also sagen, dass das Hinzufugen von N zu X den
Rang gerade eben auf k erhohen soll.
In dem weiter oben besprochenen Beispiel mit den Therapiemaßnahmen war die
5.3 Parameter ALM07 38
Designmatrix X gleich
1 1 0
1 1 0
1 0 1
1 0 1
1 0 1
,
hatte also nur Rang 2. Zum Identifizierbarmachen reicht also eine aus einer Glei-
chung bestehende Nebenbedingung. In Frage kommen alle Bedingungen, deren
Koeffizientenvektor die Zeilenvektoren von X zu einem System von Vektoren mit
Rang 3 erganzt.
Beispielsweise ist dies fur den Vektor (0, 1, 1)′ der Fall. Dieser Vektor fuhrt zu der
Nebenbedingung α1 + α2 = 0.
Addiert man die beiden Gleichungen µj = µ+αj, so folgt aus dieser Nebenbedin-
gung, dass µ = (µ1+µ2)/2 ist. Durch die Nebenbedingung bekommt folglich µ die
Bedeutung des Durchschnitts der Erwartungswerte nach den beiden Therapien,
wahrend die αj dann die Abweichungen der Einzeleffekte vom durchschnittlichen
Effekt sind. Die Bedeutung der Parameter ist damit nicht die bei der Formulie-
rung des Modells intendierte.
Moglich ist auch die aus der Varianzanalyse schon bekannte Nebenbedingung
2α1 + 3α2 = 0, die dem Vektor (0, 2, 3)′ entspricht.
Ein Spezialfall moglicher Nebenbedingungen ist der, dass die Zeilen von N aus
Einheitsvektoren bestehen, wobei N gerade k − r Zeilen besitzt. Ein solches N
zu finden, ist stets moglich, beispielsweise wahlt man die Einheitsvektoren, die
zu den’Nicht-Einser-Spalten‘ nach einer Transformation von X zur Staffelform
gehoren.
In dem gerade besprochenen Beispiel kommen sogar alle drei Einheitsvektoren
als mogliche einzige Zeile von N in Frage.
Eine Nebenbedingung der Form e′jβ = 0 lautet ubersetzt βj = 0. Der Parameter
βj taucht damit eigentlich gar nicht mehr in den Modellgleichungen auf und kann
deshalb auch weggelassen werden, samt der zugehorigen Spalte von X.
In einer Situation, in der die Matrix N nur aus Einheitsvektoren ej als Zeilen
besteht, konnen also alle entsprechenden Spalten von X weggelassen werden.
Das Weglassen solcher Spalten andert ubrigens den Rang der Designmatrix nicht.
5.3 Parameter ALM07 39
In der Matrix Xe kann man namlich durch elementare Zeilenumformungen alle
Zahlen oberhalb der Einsen in der zeilenweise nur aus Einheitsvektoren beste-
henden Matrix N ohne Anderung des Ranges zu 0 machen. Man ersetzt damit
alle Spalten von X, die nachher gestrichen werden sollen, durch Nullspalten – das
Ergebnis sei mit X∗ bezeichnet. Der Zeilenrang von X∗ muss nun mindestens r
sein, denn die aus den Zeilen von X∗ und den k − r Zeilen von N bestehende
umgeformte Matrix Xe hat ja nach wie vor den Rang k. Also ist auch der Spalten-
rang von X∗ mindestens r, was sich auch nicht andert, wenn man die Nullspalten
weglasst. Daraus, dass bei der beschriebenen Wegnahme der Spalten der Rang
der Designmatrix sich nicht andert, folgt ubrigens sofort, dass sich auch das Bild
nicht andert.
Wahlt man in dem Beispiel mit den Therapiemaßnahmen beispielsweise den drit-
ten Einheitsvektor, so lautet die Nebenbedingung e′3β = 0 oder konkret α2 = 0.
Man kann dann die zu α2 gehorende dritte Spalte von X weglassen und kommt
von der ursprunglichen Designmatrix
1 1 0
1 1 0
1 0 1
1 0 1
1 0 1
zu
1 1
1 1
1 0
1 0
1 0
,
einer Matrix, die jetzt vollen Rang 2 besitzt, was fur weitere Rechnungen prak-
tisch ist.
Die Interpretation der verbleibenden Parameter ist dann die, dass der erste Para-
meter µ der Erwartungswert µ2 der zweiten Gruppe ist, wahrend das verbleibende
α1 die Differenz der beiden Erwartungswerte µ1 − µ2 ist. Man sieht dies sofort,
wenn man in den Gleichungen fur die Erwartungswerte der beiden Gruppen den
auf Null gesetzten Parameter α2 weglasst – die beiden Gleichungen sind dann
namlich µ1 = µ + α1 und µ2 = µ.
Eine alternative Nebenbedingung ist die zum ersten Einheitsvektor gehorende,
also µ = 0. Hier kommt man durch Weglassen der entsprechenden Spalte der
ursprunglichen Designmatrix zu
1 0
1 0
0 1
0 1
0 1
.
5.3 Parameter ALM07 40
Genau wie eben erkennt man, dass nun µ1 = α1 gilt und µ2 = α2; die Parameter
haben also wieder eine andere Bedeutung erhalten.
Betrachtet man noch einmal die ursprungliche Designmatrix und die beiden Ma-
trizen, die man nach dem Identifizierbarmachen durch Nullsetzen geeigneter Pa-
rameter erhalten hat, so findet man die interessante Situation vor, dass dasselbe
Modell nun durch mehrere unterschiedliche Designmatrizen beschrieben wird. Es
kann also sein, dass oberflachlich unterschiedliche Designmatrizen’eigentlich‘ in-
haltlich das gleiche Modell beschreiben.
In solchen Fallen haben die Parameter, die zu den verschiedenen Designmatrizen
gehoren, naturlich unterschiedliche Bedeutung.
Betrachtet man noch einmal die beiden Moglichkeiten, Identifizierbarkeit durch
Weglassen eines Parameters zu erzwingen, so enthalten die zugehorigen Desi-
gnmatrizen beide die Spalte (1, 1, 0, 0, 0)′. Die Bedeutung des zugehorigen Para-
meters ist jedoch ganz unterschiedlich. Dies zeigt, dass die Bedeutung eines Pa-
rameters nicht aus der entsprechenden Spalte der Designmatrix allein erschlossen
werden kann (was man vielleicht zunachst vermuten wurde), sondern dass man
dazu die gesamte Designmatrix benotigt.
Offensichtlich ist nach den bisherigen Beispielen, dass die inhaltliche Interpretati-
on der Parameter von den Nebenbedingungen entscheidend abhangt. Im Grunde
bekommen die Parameter erst durch die Nebenbedingung eine inhaltliche Be-
deutung, wahrend sie vorher noch gar keine hatten und auch wegen ihrer Unbe-
stimmtheit noch gar keine haben konnten, obwohl dies bei einer naiven Modell-
konstruktion so geschienen haben mag.
Eine inhaltlich gut brauchbare Interpretation kann damit ein Gesichtspunkt bei
der Auswahl der Nebenbedingungen sein. Ein anderer Gesichtspunkt kann aber
auch die Aussicht sein, dass die weiteren Rechenverfahren unkomplizierter wer-
den, was besonders beim Weglassen von Parametern durch Nullsetzen der Fall
ist.
Naheliegend ist die Frage, wie man Parameter, die man durch eine Nebenbedin-
gung festlegt, in die Parameter umrechnet, die man erhalten hatte, wenn man
eine andere Nebenbedingung verwendet hatte. Beispielsweise taucht diese Frage
dann auf, wenn man sich aus inhaltlichen Gesichtspunkten gerne fur eine Version
von Nebenbedingungen entschieden hatte, aus rechentechnischen Gesichtspunk-
ten jedoch schließlich eine andere gewahlt hat (meist Weglassen von Parametern).
5.3 Parameter ALM07 41
Zur Beantwortung wird zunachst die Teilfrage untersucht, wie man aus einem
moglichen modellvertraglichen Erwartungswertvektor v denjenigen moglichen Pa-
rametervektor findet, der zusatzlich die Nebenbedingungen erfullt.
Die Gleichungen, die erfullt sein mussen, sind dann
Xβ = v und Nβ = 0 ,
was man auch zu(
X
N
)β =
(v
0
)oder kurzer Xeβ = ve
mit der schon oben eingefuhrten Abkurzung Xe und der Abkurzung ve fur (v,0)
zusammenfassen kann.
Multipliziert man die letzte Gleichung mit X′e, so erhalt man X′
eXeβ = X′eve.
Da Xe vollen Rang hat, ist hier X′eXe invertierbar, und man erhalt die Losung
β = (X′eXe)
−1X′eve .
Die Bestandteile dieser Losung kann man weiter umformen, namlich X′eXe zu
X′X + N′N und X′eve zu X′v. Damit erhalt man
β = (X′X + N′N)−1X′v .
Mit anderen Worten ergibt sich β aus v mit Hilfe einer linearen Abbildung.
Dies unterstreicht noch einmal die auch so unmittelbar klare Tatsache, dass iden-
tifizierbar gemachte Parameter und ihre Komponenten tatsachlich identifizierbar
sind.
Die gerade hergeleitete Formel kann beispielsweise auch dazu dienen, fur einen
Parametervektor β0, der die Nebenbedingung nicht erfullt, dasjenige β zu finden,
das zum gleichen Erwartungswertvektor fuhrt und zusatzlich die Nebenbedingung
erfullt. Man muss nur den zu β0 gehorenden Erwartungswertvektor Xβ0 fur v in
die Formel einsetzen und erhalt
β = (X′X + N′N)−1X′Xβ0 .
Damit kann auch die Ausgangsfrage leicht beantwortet werden. Hier geht es dar-
um, dass man zu einer Designmatrix X zwei mogliche Nebenbedingungen zur
Herstellung der Identifizierbarkeit hat, namlich N1β = 0 und N2β = 0, und
5.3 Parameter ALM07 42
dass ein Parametervektor β1, der die erste Nebenbedingung erfullt, umgerechnet
werden soll in den entsprechenden Parametervektor β2, der die zweite Nebenbe-
dingung erfullt. Entsprechen sollen sich die beiden Parametervektoren dabei in
dem Sinn, dass sie beide zum gleichen Erwartungswertvektor fuhren.
Da der zu β1 gehorende Erwartungsvektor gerade Xβ1 ist, errechnet sich das
zugehorige β2 nach der gerade hergeleiteten Formel zu
β2 = (X′X + N′2N2)
−1X′Xβ1 .
Wesentlich ist hier, dass sich β2 aus β1 durch Anwendung einer linearen Abbil-
dung ergibt, namlich der linearen Abbildung (X′X + N′2N2)
−1X′X. Die Einzel-
parameter in β2 sind also parametrische Funktionen von β1.
Man kann nun insgesamt aus den angestellten Uberlegungen die Konsequenz
ziehen, dass man ohne Gefahr die Nebenbedingungen entsprechend rechentech-
nischen Erfordernissen wahlen kann, da man ja die Parameter, die man bei in-
haltlich sinnvollen Nebenbedingungen erhalten wurde, aus den rechentechnisch
nutzlichen Parametern als parametrische Funktionen erhalt.
Praktisch wird man wohl eher selten bei der Ermittlung der Umrechnung die oben
hergeleiteten Formeln verwenden, die hier hauptsachlich angegeben wurden, um
klarzumachen, dass die Transformation linear ist. Statt dessen ermittelt man die
Umrechnung haufig lieber direkt.
Wurde man sich beispielsweise in dem Beispiel mit den beiden Therapiemaßnah-
men gerne dafur entscheiden, entsprechend der varianzanalytischen Vorgehens-
weise die Nebenbedingung 2α1+3α2 = 0 zu wahlen, zieht jedoch aus rechentechni-
schen Grunden die Nebenbedingung α2 = 0 vor, so ermittelt die Umrechnung der
rechentechnischen Parameter, die hier zur besseren Unterscheidung in γ1, γ2, γ3
umbenannt seien (γ3 wird sogleich wegfallen), in varianzanalytische folgender-
maßen: Zunachst erhalt man die Transformation der beiden Erwartungswerte µ1
und µ2 in die Parameter mit der varianzanalytischen Nebenbedingung mit Hilfe
der Gleichungenµ + α1 = µ1
µ + α2 = µ2
2α1 + 3α2 = 0
alsµ = (2/5) µ1 + (3/5) µ2
α1 = (3/5) µ1 − (3/5) µ2
α2 = −(2/5) µ1 + (2/5) µ2 .
5.3 Parameter ALM07 43
Nun setzt man, wie oben schon ausgerechnet, µ1 = γ1 + γ2 und µ2 = γ1 ein und
bekommtµ = γ1 + (2/5) γ2
α1 = (3/5) γ2
α2 = −(2/5) γ2 .
In der Tat sind also die varianzanalytischen Parameter µ, α1 und α2 parametrische
Funktionen der rechentechnisch womoglich praktischeren Parameter γ1 und γ2.
Parametertransformationen. Im letzten Abschnitt hat sich gezeigt, dass die
Einfuhrung von Nebenbedingungen dazu fuhren kann, dass man in der Designma-
trix eine oder mehrere Spalten streichen kann, ohne das Modell in seinem Wesen
zu verandern. Man hat dann zwei Designmatrizen, die unterschiedlich aussehen,
aber dennoch eigentlich zum gleichen Modell gehoren. Eine wichtige Gemeinsam-
keit solcher Matrizen war, dass sie das gleiche Bild besitzen.
Allgemein sollen nun zwei Designmatrizen X1 und X2 aquivalent heißen, wenn
Bild(X1) = Bild(X2) gilt. Auch die zugehorigen Modelle heißen dann aquivalent.
Die modellvertraglichen Erwartungswertvektoren sind also bei zwei aquivalenten
Designmatrizen genau die gleichen. Da empirisch bestenfalls die Erwartungswerte
der yi zuganglich sind, folgt, dass man auf empirischem Weg nicht zwischen den
zu X1 und X2 gehorenden Modellen unterscheiden kann. Man kann diese Modelle
daher als’eigentlich‘ gleich betrachten, was in Zukunft auch geschehen soll.
Im Folgenden sollen X1 und X2 immer zwei aquivalente Designmatrizen sein, die
damit das gleiche Bild haben und zu aquivalenten Modellen fuhren.
Werden die Parametervektoren in den beiden Modellen mit β1 und β2 bezeich-
net, und betrachtet man zwei solche Vektoren als gleichwertig, wenn sie zum glei-
chen Erwartungswertvektor E(y) fuhren, wenn also die Beziehung X1β1 = X2β2
gilt, so kann man diese Vektoren mit einer geeigneten linearen Transformation
ineinander umrechnen – vorausgesetzt naturlich, sie sind (gegebenenfalls uber
Nebenbedingungen) identifizierbar.
Zur Begrundung soll zuerst der allgemeine Fall untersucht werden, dass die Pa-
rameter womoglich durch Nebenbedingungen erst identifizierbar gemacht worden
sind. Die beiden aquivalenten Modelle seien durch Designmatrizen X1 und X2
gegeben, dabei seien die Nebenbedingungen fur das zweite Modell N2β2 = 0.
Zu dem Parametervektor β1 des ersten Modells gehort dann der Erwartungs-
5.3 Parameter ALM07 44
wertvektor X1β1, der nach den Uberlegungen des letzten Abschnitts im zweiten
Modell zu dem Parametervektor
β2 = (X′2X2 + N′
2N2)−1X′
2X1β1
gehort, womit die Umrechnungsformel gefunden ist. Man bemerkt dabei, dass die
Einzelparameter aus β2 identifizierbare parametrische Funktionen von β1 sind
(identifizierbar sind sie wegen der Nebenbedingung, und parametrische Funktio-
nen von β1 deshalb, weil sie sich durch eine lineare Abbildung aus β1 bestimmen
lassen).
Eine einfachere Formel erhalt man fur den Fall, dass X2 vollen Rang hat, dass
β2 also (ohne Nebenbedingung) identifizierbar ist. Wegen Bild(X1) = Bild(X2)
sind alle Spalten von X1 Linearkombinationen der Spalten von X2, weshalb man
eine Matrix T finden kann, so dass X1 = X2T gilt (T enthalt als Spalten Koeffi-
zientenvektoren, mit denen sich die Spalten von X2 als Linearkombinationen der
Spalten von X2 schreiben lassen). Setzt man nun β2 = Tβ1, so gilt
X1β1 = (X2T)β1 = X2(Tβ1) = X2β2 ,
weshalb mit β2 = Tβ1 die gewunschte Formel gefunden ist.
Transformationen von Parametervektoren von zwei aquivalenten Modellen heißen
auch Parametertransformationen.
Feststellung 6. Sind zwei Designmatrizen X1 und X2 aquivalent, so kann der
Parametervektor β2, der im Modell E(y) = X2β2 zum gleichen Erwartungs-
wertvektor E(y) fuhrt wie ein gegebener Parametervektor β1 im ersten Modell
E(y) = X1β1, aus β1 durch eine geeignete lineare Abbildung errechnet werden.
Identifizierbarkeit von β2, gegebenenfalls durch geeignete Nebenbedingungen, ist
dabei vorausgesetzt.
Ist β2 ohne Nebenbedingungen identifizierbar, so ist die Parametertransformation
von β1 zu β2 gegeben als
β2 = Tβ1 ,
wo die T durch die Gleichung X1 = X2T bestimmt ist. ¤
Die Bedingung, dass β2 ohne Nebenbedingungen identifizierbar ist, ist naturlich
genau dann erfullt, wenn X2 vollen Rang hat.
Insbesondere gilt, dass bei einer Parametertransformation die neuen Parameter
identifizierbare parametrische Funktionen der alten Parameter sind (Identifizier-
5.3 Parameter ALM07 45
barkeit der Parameter des neuen Modells, notfalls uber eine Nebenbedingung, ist
dabei vorausgesetzt).
In dem Fall, dass X1 und X2 vollen Rang besitzen, kann die Parametertransfor-
mation geometrisch als Koordinatentransformation gedeutet werden. Die Spalten
von X1 und X2 definieren dann namlich zwei Koordinatensysteme des Unter-
raums V = Bild(X1) = Bild(X2) des Personenraums, wobei die Parametervekto-
ren gerade die Koordinatenvektoren der zu ihnen gehorenden Modellvorhersagen
im jeweiligen Koordinatensystem sind. Die zu diesen beiden Koordinatensyste-
men gehorende Koordinatentransformation ist folglich gerade die hier untersuchte
Parametertransformation.
Parametertransformationen konnen unterschiedlich motiviert sein. Es kann sein,
dass man eine Designmatrix durch eine andere ersetzen will, die rechnerisch besser
handhabbar ist, oder es kann sein, dass man gegebene Parameter durch solche
ersetzen will, die inhaltlich besser interpretierbar sind.
Oft sind auch Formeln, die man mit Hilfe von Parametertransformationen ge-
winnt, leichter zu verstehen und zu merken, besonders, wenn es gelingt, die For-
meln aus elementarstatistischen Bestandteilen aufzubauen.
Als erstes ganz konkretes Beispiel einer Parametertransformation soll das einer
einfachen lineare Regression gewahlt werden. Das Modell ist hier
E(y) = β u + α ,
wobei die Pradiktorvariable wieder U ist.
Fur U sollen nur drei Werte vorgegeben sein, namlich 3, 7 und 8. Die Designmatrix
ist dann bei der ublichen Reihenfolge α, β der Parameter gleich
X1 =
1 3
1 7
1 8
.
Rechentechnisch vorteilhaft sind, wie sich noch zeigen wird, Designmatrizen, in
denen die Spalten orthogonal oder wenigstens zum Teil orthogonal sind. Daher
soll hier eine aquivalente Designmatrix X2 dadurch hergestellt werden, dass die
zweite Spalte zur ersten orthogonal gemacht wird (was hier gerade bedeutet, dass
die zweite Spalte, die ja der Vektor der U -Daten ist, zentriert wird). Das Ergebnis
5.3 Parameter ALM07 46
ist
X2 =
1 −3
1 1
1 2
.
Die beiden Designmatrizen sind aquivalent, da die zweite Matrix aus der ersten
durch eine elementare Spaltenumformung gewonnen wurde, wobei sich ja das Bild
nicht andert.
Die Matrix T mit X1 = X2T bestimmt man nun leicht zu
T =
(1 6
0 1
).
Damit ist die Paramtertransformation, die die alten Parameter α und β in die
neuen Parameter umrechnet, die hier γ1 und γ2 heißen sollen, gegeben durch
γ1 = α + 6 β
γ2 = β .
Der neue Parameter γ2 ist also die Steigung der Regressionsgerade, wahrend
γ1 = β · 6 + α die Vorhersage fur den Wert U = 6 des Pradiktors ist. Dieser Wert
ist gerade der Mittelwert der verwendeten Werte von U , so dass γ1 die Bedeutung
des Erwartungswerts von Y fur den Mittelwert 6 des Pradiktors bekommt. In
gewisser Weise ist damit γ1 als Parameter inhaltlich interessanter als α, das ja
die Vorhersage fur den Wert 0 von U ist und mit den gegebenen Daten wenig zu
tun hat.
Als allgemeineres Beispiel soll nun die multiple lineare Regression behandelt wer-
den; die Ergebnisse werden sich spater noch als nutzlich erweisen. Die Pradiktoren
seien U1, . . . , Um. Ist die Reihenfolge der Parameter α, β1, . . . , βm, kommen also
zuerst die additive Konstante und dann die Regressionsgewichte, so besteht die
Designmatrix X aus dem Vektor 1 aus Einsen in der ersten Spalte und den Vekto-
ren u1, . . . ,um, die die Werte der Praditoren enthalten, in den weiteren Spalten;
es gilt also
X = (1,u1, . . . ,um) .
Es wurde schon erwahnt, dass Rechnungen im Rahmen des ALM oft dann be-
sonders leicht durchschaubar sind, wenn die Spalten der Designmatrix teilweise
orthogonal sind. Deshalb soll die gegebene Designmatrix nun durch eine andere
ersetzt werden, in der alle Spalten ab der zweiten senkrecht zur ersten Spalte
sind.
5.3 Parameter ALM07 47
Eine naheliegende Moglichkeit, dieses Ziel zu erreichen, ist das, die weiteren Spal-
ten zur ersten orthogonal zu machen dadurch, dass ein geeignetes Vielfaches der
ersten Spalte abgezogen wird. Bekanntlich bedeutet das gerade, dass die entspre-
chenden Datenvektoren zentriert werden; die uj werden also durch die uj ersetzt,
die dadurch entstehen, dass man von allen Werten ihren Mittelwert abzieht, an-
ders gesagt, gilt uj = uj − uj1, wobei uj der Mittelwert des Datenvektors uj
ist.
Die neue Designmatrix, die X2 heißen soll, ist dann gleich
(1, u1, . . . , um) .
Der Ubergang von X zu X2 wird durch elementare Spaltentransformationen be-
wirkt. Da sich bei solchen Transformationen das Bild einer Matrix bekanntlich
nicht andert, ist X2 aquivalent zu X.
Die Matrix X entsteht dann umgekehrt aus X2, indem man zu den uj wieder
das uj-fache der ersten Spalte hinzuaddiert, was man auch dadurch bewirkt, dass
man X2 von rechts mit der Matrix
T =
1 u1 . . . um
1. . .
1
multipliziert, in der die leeren Stellen durch Nullen auszufullen sind. Diese Matrix
ist dann bereits die, die den alten Parametervektor β = (α, β1, . . . , βm)′ in den
neuen umrechnet, der hier zur besseren Unterscheidung γ = (γ0, γ1, . . . , γm)′
heißen soll.
Man erkennt sofort, dass γj = βj fur j = 1, . . . , m gilt, und dass außerdem
γ0 = α + β1u1 + . . . + βmum
ist. Die letzten m Parameter haben also ihre Bedeutung als Regressionsgewichte
behalten, wahrend der erste neue Parameter nicht mehr die additive Konstante
ist, sondern der Erwartungswert von y an der Stelle (u1, . . . , um)′.
Der Fall der einfachen linearen Regression ergibt sich leicht als Spezialfall.
Parameterschatzung. In diesem Abschnitt soll es darum gehen, den Parame-
tervektor β zu schatzen.
5.3 Parameter ALM07 48
Als einleitendes einfaches Beispiel soll wieder der Fall einer Stichprobe mit zwei
Beobachtungen dienen. Der Personenraum ist also R2. Die Gleichungen fur den
Erwartungswertvektor sind
E(y) = Xβ =
(1
1
) (µ)
.
Der Unterraum V der modellvertraglichen Erwartungswertvektoren ist hier die
Gerade, die aus allen Vielfachen des Vektors x = (1, 1)′ besteht. Fur einen modell-
vertraglichen Erwartungswertvektor kann man außerdem den zugehorigen – hier
nur eindimensionalen – Parameter µ als Koordinate bezuglich des durch (1, 1)′
gegebenen Koordinatensystems auf der Gerade ablesen.
In einem konkreten Beispiel seien die beiden Datenwerte gleich 1 und 3. Die
Ausgangssituation ist in der folgenden Abbildung dargestellt.
1
1............................................................................ ...................
........
........
........
........
........
........
........
....................
...................
.......................................................................................................................
Y1
Y2
x
...................................................................................................................................................................................................................................................................................................................................................................................................................
V
sy
Das Modell sagt nun, dass der Datenpunkt y zustandegekommen ist als Summe
des Erwartungswertvektors µx und des zufalligen Fehlervektors e, dass also
y = µx + e
gilt. Man kann hier den Erwartungswertvektor auch wieder als Modellvorhersage
deuten, denn der beobachtete Wert weicht von diesem Vektor ja nur um den
Fehler ab.
Es liegt nahe, den Parameter und damit die Modellvorhersage so zu schatzen,
dass die tatsachlichen Daten moglichst gut dazu passen, anders gesagt so, dass
die geschatzte Modellvorhersage moglichst nahe bei dem beobachteten Datenvek-
tor y liegt. Die geschatzte Modellvorhersage soll mit y bezeichnet werden und
der zugehorige geschatzte Fehler, also die Abweichung y − y der Daten von der
5.3 Parameter ALM07 49
geschatzten Modellvorhersage y, mit e. Die Bezeichnung y passt ubrigens gut zu
den gelaufigen Bezeichnungen aus der linearen Regression.
Das Ergebnis dieser Schatzung ist in der nachsten Abbildung illustriert.
1
1............................................................................ ...................
........
........
........
........
........
........
........
....................
...................
.......................................................................................................................
Y1
Y2
x
...................................................................................................................................................................................................................................................................................................................................................................................................................
V
sy ......................py...........
............
............................
1
1............................................................................ ...................
........
........
........
........
........
........
........
....................
...................
.......................................................................................................................................................................................................
..........................................................................................................................................................................................................................
....................................................
...................................................................
Y1
Y2
...................................................................................................................................................................................................................................................................................................................................................................................................................
Vy.................................
y
e
Naturlich erhalt man y als orthogonale Projektion von y auf V . Die in der rechten
Abbildung verdeutlichte Beziehung
y = y + e
(sie ist nur die umgestellte Definition von e) entspricht dabei gerade der theore-
tischen Beziehung y = E(y) + e. Man beachte hier auch die Orthogonalitat von
y und e.
Man kann das Prinzip, nach dem man den geschatzten Erwartungswertvektor y
so wahlt, dass er moglichst nahe an dem beobachteten Vektor y liegt, alternativ
auch so ausdrucken, dass man versucht, den geschatzten Fehlervektor e moglichst
klein zu machen.
Da bei Verwendung des euklidischen Abstands die quadrierte Lange des Fehlers
gerade die Summe seiner quadrierten Komponenten ist, bedeutet dies Prinzip,
dass man die Summe der quadrierten geschatzten Fehler minimal macht; man
hat also ein Beispiel fur die Methode der kleinsten Quadrate.
Nach diesem einfuhrenden Beispiel soll nun die Schatzung allgemein behandelt
werden.
Ausgangspunkt ist das Modell
y = Xβ + e .
Ziel ist es, den Parametervektor β zu schatzen. Der zur Schatzung β gehorende
Erwartungswertvektor y = Xβ soll auch geschatzter Erwartungswertvektor oder
geschatzte Modellvorhersage heißen.
5.3 Parameter ALM07 50
Die Abweichung y−y des tatsachlichen beobachteten Vektors y von der geschatz-
ten Modellvorhersage y wird mit e bezeichnet und soll auch geschatzter Fehler
genannt werden.
Es gilt folglich die Beziehung
y = y + e .
Die Schatzung folgt dem Prinzip, dass die geschatzte Modellvorhersage y moglichst
gut zu den beobachteten Daten y passen soll, was geometrisch so ubersetzt wird,
dass y moglichst nahe bei y liegen soll, anders ausgedruckt, dass die Lange ‖ e‖des geschatzten Fehlervektors e moglichst klein sein soll.
Da die quadrierte Lange von e gleich der Summe der quadrierten Einzelfehler ist,
folgt die Schatzung der Methode der kleinsten Quadrate.
Den am nachsten bei y gelegenen Punkt y aus V = Bild(X) erhalt man durch
die orthogonale Projektion auf diesen Unterraum.
Die Bedingung dafur, dass ein Element Xβ ∈ Bild(X) Projektion von y ist, ist
die, dass der Verbindungsvektor y−Xβ senkrecht auf allen Vektoren aus V steht,
was gleichbedeutend damit ist, dass er senkrecht zu allen Spalten von X ist, oder
kurz mit
X′(y −Xβ) = 0
beziehungsweise
X′Xβ = X′y .
Dies sind die Normalengleichungen.
Diese Normalengleichungen besitzen eine Losung, da ja das Projektionsproblem
eine Losung besitzt.
Allerdings ist die Losung nicht notwendig eindeutig, namlich dann nicht, wenn die
Matrix X nicht vollen Rang hat (was ja zu erwarten war, da dies zu dem Identi-
fizierbarkeitsproblem fuhrt, dass von einem Erwartungswertvektor nicht auf den
zugehorigen Parameter geschlossen werden kann). Die Uneindeutigkeit bezieht
sich allerdings nur auf den Parametervektor β, der optimale modellvertragliche
Erwartungswertvektor y ist hingegen eindeutig. Die Losungen fur β sind gerade
die, die zu diesem y fuhren, fur die also Xβ = y gilt. Unter ihnen kann man nun
mit entsprechenden Nebenbedingungen eine auswahlen.
Besitzt die Matrix X vollen Rang, so ist die Losung des Schatzproblems, die dann
5.3 Parameter ALM07 51
β heißen soll, eindeutig und errechnet sich zu
β = (X′X)−1X′y .
Der zugehorige geschatzte Erwartungswertvektor y ergibt sich daraus zu
y = X(X′X)−1X′y ,
wobei bekanntlich X(X′X)−1X′ die orthogonale Projektion auf Bild(X) = V ist.
In dem Fall, dass die (n× k)-Matrix X vollen Rang k besitzt, kann auch die Ver-
teilung von β angegeben werden: Wegen y ∼ Nn(Xβ, σ2I) ist auch der Schatzer
β = (X′X)−1X′y multinormalverteilt und besitzt den Erwartungswert
(X′X)−1X′(Xβ) = β
und die Kovarianzmatrix
((X′X)−1X′)(σ2I)((X′X)−1X′)′ = σ2(X′X)−1X′X(X′X)−1 = σ2(X′X)−1 ;
kurz, es gilt
β ∼ Nk
(β, σ2(X′X)−1
).
Insbesondere ist also β erwartungstreu.
Diese Ergebnisse sollen noch einmal zusammengefasst werden:
Feststellung 7. Im Modell y = Xβ fuhrt die Methode der kleinsten Quadrate,
die hier in der Minimierung von ‖ e‖2 besteht, zu den Normalengleichungen
X′Xβ = X′y .
Diese Normalengleichungen besitzen immer eine Losung, und alle Losungen fuhren
zum gleichen geschatzten Erwartungswertvektor y, der sich auch als orthogonale
Projektion von y auf Bild(X) = V ergibt.
Besitzt die Matrix X vollen Rang, so ist die Losung des Schatzproblems eindeutig
und errechnet sich zu
β = (X′X)−1X′y .
Der zugehorige geschatzte Erwartungswertvektor y ist dann
y = X(X′X)−1X′y .
5.3 Parameter ALM07 52
In diesem Fall gilt ferner
β ∼ Nk(β, σ2(X′X)−1) . ¤
Anschaulich erhalt man insgesamt im Fall einer Designmatrix X von vollem Rang
den geschatzten Erwartungswertvektor y, indem man den Datenvektor y senk-
recht auf den durch die Spalten von X aufgespannten Unterraum V projiziert,
und den geschatzten Parametervektor, indem man dort die Koordinaten von y
bezuglich des durch die Spalten von X gegebenen Koordinatensystems abliest.
Falls die Matrix (X′X)−1 keine Diagonalmatrix ist, so sind die Schatzer der Ein-
zelparameter teilweise korreliert. Dies wird als Multikollinearitat bezeichnet und
als unangenehm empfunden. Ein Mittel zur Vermeidung besteht darin, durch eine
Parametertransformation die Spalten der Designmatrix orthogonal zu machen, da
ja dann X′X und damit auch die Inverse davon Diagonalmatrizen sind. In vielen
Fallen wird durch eine solche Transformation das Problem bei genauem Hinsehen
allerdings nur verschoben.
Die etwas umstandlichen Formulierungen in der vorangegangenen Argumentation
sind der Moglichkeit geschuldet, dass X womoglich nicht vollen Rang besitzt,
was die Sachlage verkompliziert und dazu fuhrt, dass man bei der Schatzung
eher y in den Mittelpunkt stellt, als einen – nicht eindeutigen – zugehorigen
Parametervektor.
Die Schatzung des Erwartungswertvektors kann man auch ohne expliziten Bezug
auf β durchfuhren. Der geschatzte Erwartungswertvektor y ist namlich der am
nachsten bei y gelegenen Punkt aus V = Bild(X), und erhalt man ihn folglich
durch die orthogonale Projektion PV auf diesen Unterraum. Es gilt also y = PV y,
woraus
E(y) = E(PV y) = PV E(y) = PV (Xβ) = Xβ
folgt; die letzte Gleichung ergibt sich dabei aus der Tatsache, dass Xβ bereits in
Bild(X) = V liegt und daher durch PV nicht mehr geandert wird. Die Methode
der kleinsten Quadrate liefert also mit y einen erwartungstreuen Schatzer des
Erwartungswertvektors E(y) = Xβ.
Dies und die wichtige Tatsache, dass der geschatzte Erwartungswertvektor und
der geschatzte Fehlervektor orthogonal sind, soll noch einmal hervorgehoben wer-
den:
Feststellung 8. Den Vektor y, also den nach der Methode der kleinsten Quadra-
te geschatzten Erwartungswertvektor von y, erhalt man, indem man y orthogonal
5.3 Parameter ALM07 53
auf Bild(X) projiziert. Er ist erwartungstreu, es gilt also
E(y) = E(y) = Xβ .
Der Vektor e der geschatzten Fehler steht senkrecht auf V = Bild(X) und damit
insbesondere auf y. Daher gilt wegen y = y + e die Zerlegung
‖y‖2 = ‖ y‖2 + ‖ e‖2 . ¤
Als Erganzung soll auch noch der Fall betrachtet werden, dass X nicht vollen
Rang besitzt, dass jedoch die Parameter durch eine geeignete Nebenbedingung
Nβ = 0 identifizierbar gemacht worden sind.
Hier kann man einerseits zunachst irgendeine Losung β0 der Normalengleichungen
finden und diese dann in eine umrechnen, die zusatzlich die Nebenbedingung
erfullt. Die Umrechnung war oben schon bestimmt worden, mit
β = (X′X + N′N)−1X′Xβ0
hat man also einen Parametervektor gefunden, der die Nebenbedingung erfullt,
und der zusatzlich die Normalengleichungen lost (da er ja zu demselben y fuhrt).
Wegen der durch die Nebenbedingung bewirkte Identifizierbarkeit ist dies β dann
auch der einzige Parametervektor mit diesen Eigenschaften.
Nun ist jedoch Xβ0 = y = y−e. Da e senkrecht zu V = Bild(X) ist, gilt X′e = 0
und deshalb
X′Xβ0 = X′y = X′y .
Setzt man dies in die gerade gefundene Formel ein, so erhalt man mit
β = (X′X + N′N)−1X′y
eine Moglichkeit, den Parametervektor β, der die Normalengleichungen und die
Nebenbedingungen erfullt, auch direkt aus dem Datenvektor y zu bestimmen.
Im Zusammenhang mit Parametertransformationen stellt sich die Frage, in wel-
cher Beziehung die Parameterschatzungen in zwei aquivalenten Modellen stehen;
es zeigt sich, dass man diese Schatzungen einfach mit Hilfe der Parametertrans-
formation ineinander umrechnen kann.
Feststellung 9. Sind die durch die Designmatrizen X1 und X2 mit Parameter-
vektoren β1 und β2 gegebenen Modelle aquivalent, wobei die zugehorige Para-
metertransformation durch β2 = Tβ1 gegeben ist, und sind β1 und β2 die zu
5.3 Parameter ALM07 54
einem Datenvektor y gehorenden Parameterschatzungen in den beiden Modellen,
so gilt
β2 = Tβ1 .
Dabei ist naturlich vorausgesetzt, dass die Parametervektoren gegebenenfalls
durch geeignete Nebenbedingungen identifizierbar sind.
Zur Begrundung bemerkt man zunachst, dass die geschatzte Modellvorhersage y
als Projektion von y auf V = Bild(X1) = Bild(X2) unabhangig von der Para-
metrisierung ist. Fur die beiden Schatzungen gilt dann Xiβi = y, die Vektoren
β1 und β2 fuhren also zur gleichen Modellvorhersage. Es gilt also X2β2 = X1β1,
woraus nach Definition der Parametertransformation β2 = Tβ1 folgt. ¤
Fur die weiteren Untersuchungen soll an die bekannte Tatsache erinnert werden,
dass fur eine orthogonale Projektion P und beliebige Vektoren x und y stets die
Beziehung
<Px, Py> = <x, Py> = <Px, y>
gilt.
Ein einfaches Beispiel ist die spater oft verwendete Gleichung < x, y> = < x, y>
fur Datenvektoren x und y; die Projektion ist dabei das Zentrieren der Daten
(also die Projektion auf den zu dem aus lauter Einsen bestehenden Vektor 1
senkrechten Unterraum; das Ergebnis der Projektion eines Vektors x wird dabei
kurz mit x bezeichnet).
Als weitere Anwendung soll ‖ y‖2 = < y, y> bestimmt werden. Da y die Projek-
tion von y ist, kann man dies auch als < y, y> schreiben. Ist nun β irgendeine
Losung der Normalengleichungen, so gilt y = Xβ und folglich
‖ y‖2 = < y, y> = (Xβ)′y = β′X′y = β
′(X′y) = < β, X′y> .
Dies ist das Skalarprodukt der Schatzung β und der rechten Seite X′y der Norma-
lengleichungen und kann leicht berechnet werden, wenn die Normalengleichungen
in einem Zwischenschritt bestimmt worden sind.
Die bisher gewonnenen abstrakten Ergebnisse sollen fur mehrere Beispiele kon-
kretisiert werden. Es geht dabei eigentlich immer nur darum, die schon bekannten
Formeln in geeigneter Weise umzuschreiben, indem jeweils ubliche inhaltlich gut
brauchbare Kennwerte verwendet werden.
Eine Stichprobe. Das erste Beispiel ist das einer Stichprobe, wobei zum besseren
5.3 Parameter ALM07 55
Nachvollziehen die Situation vom Anfang dieses Abschnittes mit zwei Beobach-
tungen aufgegriffen wird. Hier ist die Designmatrix
X =
(1
1
),
das Produkt X′X ist also die (1× 1)-Matrix (2); die Inverse davon ist (1/2).
Der Parametervektor hat hier nur eine Komponente, namlich den unbekannten
Erwartungswert µ fur die beiden Beobachtungen. Fur einen gegebenen Daten-
vektor y = (y1, y2)′ ist X′y = y1 + y2. Daher ist µ = β = (X′X)−1X′y =
(1/2)(y1 + y2) = y und y = Xβ = (y, y)′.
Sind ganz konkret die beiden Datenwerte gleich 1 und 3, so erhalt man µ = 2
und y = (2, 2)′. Der Vektor y ist also das µ-fache der einzigen Spalte x von X.
Die folgenden beiden schon bekannten Abbildungen illustrieren die Verhaltnisse
aus Feststellung 7 und 8.
1
1............................................................................ ...................
........
........
........
........
........
........
........
....................
...................
.......................................................................................................................
Y1
Y2
x
...................................................................................................................................................................................................................................................................................................................................................................................................................
V
sy ......................py...........
............
............................
1
1............................................................................ ...................
........
........
........
........
........
........
........
....................
...................
.......................................................................................................................................................................................................
..........................................................................................................................................................................................................................
....................................................
...................................................................
Y1
Y2
...................................................................................................................................................................................................................................................................................................................................................................................................................
Vy
y
e
Ganz genauso erhalt man im Falle von n Beobachtungen als Schatzer des Para-
meters µ den Mittelwert y der Beobachtungen, als geschatzten Erwartungswert-
vektor den Vektor (y, . . . , y)′ und als geschatzten Fehlervektor den Vektor e der
Abweichungen der Beobachtungen vom Mittelwert. Die quadrierte Lange von e
ist damit gerade das n-fache der Varianz der Beobachtungen; es gilt also
‖ e‖2 = nS2Y .
Einfache Varianzanalyse. Hier besteht die Designmatrix aus lauter Nullen und
Einsen, die die Zellenzugehorigkeit kodieren. Der Parametervektor besteht aus
den Erwartungswerten µj der Zellen.
5.3 Parameter ALM07 56
Zur Illustration soll noch einmal das Beispiel aus Kapitel 5.1 aufgegriffen werden.
Die Designmatrix und der Parametervektor waren dabei
X =
1 0 0
1 0 0
0 1 0
0 1 0
0 0 1
und β =
µ1
µ2
µ3
.
Gibt es allgemein J Zellen mit jeweils nj Beobachtungen, so hat die j-te Spalte der
Designmatrix gerade nj Einsen, wobei in den zugehorigen Zeilen keine weiteren
Einsen stehen. Die Matrix X′X ist daher die (J × J)-Diagonalmatrix
n1
n2
. . .
nJ
,
deren Inverse man dadurch erhalt, dass man alle Diagonalelemente durch ihre
Kehrwerte ersetzt.
Multipliziert man die j-te Zeile von X′ mit einem Datenvektor y, so werden im
Ergebnis offenbar gerade die y-Werte aus der j-ten Zelle aufsummiert, das Ergeb-
nis ist also nj yj, wobei yj wie ublich den Mittelwert der j-ten Zelle bezeichnet.
Koeffizientenmatrix und rechte Seite der Normalengleichungen sind also
n1
n2
. . .
nJ
und
n1y1
n2y2
...
nJ yJ
.
Die j-te Normalengleichung lautet daher njµj = nj yj, woraus µj = yj folgt; die
nach der Methode der kleinsten Quadrate gewonnenen Schatzer der Erwartungs-
werte µj sind also die entsprechenden Zellenmittelwerte yj.
Der Vektor y enthalt dann an der Stelle irgendeiner Beobachtung yij den Mit-
telwert yj aller Beobachtungen aus dieser Zelle, dieser Vektor ensteht aus y also
dadurch, dass man alle Beobachtungen durch den zugehorigen Zellmittelwert er-
setzt. Entsprechend entsteht folglich der Vektor e aus y dadurch, dass man alle
Beobachtungen ersetzt durch ihre Abweichungen vom jeweiligen Zellenmittelwert.
Man erkennt daraus leicht, dass hier
‖ e‖2 = SSw
5.3 Parameter ALM07 57
gilt; die quadrierte Lange des geschatzten Fehlervektors ist also die Quadratsum-
me innerhalb.
Das Beispiel zeigt deutlich die Vorteile davon, dass hier die Spalten von X or-
thogonal sind: X′X ist eine Diagonalmatrix und die Normalengleichungen lassen
sich unproblematisch losen. Solche Vorteile motivieren das Bestreben, durch ge-
eignete Parametertransformationen orthogonale Spalten in X zu erzeugen und
damit Nullen in der Koeffizientenmatrix der Normalengleichungen.
Einfache lineare Regression. Es soll hier die Version mit der Parametertransfor-
mation behandelt werden; die Designmatrix X besteht also aus dem Vektor 1 und
dem Vektor u der zentrierten Werte des Pradiktors U . Die zugehorigen Parameter
sind der Wert, den die Regressionsfunktion im Mittelwert u der Pradiktorwerte
annimmt und der hier γ heißen soll, sowie die Steigung β der theoretischen Re-
gressionsgerade. Die Anzahl der Beobachtungen sei n.
Die Spalten von X stehen infolge der Parametertransformation senkrecht auf-
einander. Daher ist die Matrix X′X (als Matrix der Skalarprodukte der Spal-
ten von X) eine Diagonalmatrix. Die Diagonalelemente sind <1, 1> = n und
< u, u> = nS2U (S2
U ist die (unkorrigierte) Varianz der Werte von U). Auf der
rechten Seite der Normalengleichungen steht der Vektor X′y, der aus den Ska-
larprodukten der Spalten von X mit y besteht. Fur die erste Komponente ergibt
sich also <1, y> = ny und fur die zweite < u, y> = < u, y> = n KovU,Y
(KovU,Y ist dabei die (unkorrigierte) empirische Kovarianz von U und Y ). Die
Normalengleichungen lauten damit
(n 0
0 nS2U
) (γ
β
)=
(n y
n KovU,Y
),
woraus man durch leichte Umformung
γ = y
S2U β = KovU,Y
erhalt. Fur die geschatzte Steigung ergibt sich also β = KovU,Y /S2U und fur den
geschatzten Parameter γ der Wert γ = y. Damit stimmt die geschatzte Steigung
mit der Steigung der deskriptiven Regressionsgerade uberein, und die geschatzte
Gerade geht im Punkt u durch y. Insgesamt folgt also, dass die geschatzte theo-
retische Regressionsgerade dieselbe ist wie die bekannte Regressionsgerade aus
der deskriptiven Statistik. Da beide Geraden mit Hilfe der Methode der kleinsten
Quadrate gewonnen wurden, war dies Ergebnis naturlich zu erwarten.
5.3 Parameter ALM07 58
Das Beispiel illustriert auch wieder den Vorteil der Parametertransformation: Da
die Matrix X′X eine Diagonalmatrix ist, lasst sich die Losung der Normalen-
gleichungen direkt ablesen. Die geschatzten Parameter konnen in gewisser Weise
unabhangig voneinander berechnet werden. In die Formeln gehen zudem einfache
deskriptive Kennwerte ein.
Interessiert man sich nun fur eine Schatzung α des Achsenabschnitts α, so ist nur
die Umkehrung der Parametertransformation vorzunehmen, und es ergibt sich
α = γ − uβ = y − βu.
Hier stellt sich naturlich die Frage, ob eigentlich ohne Parametertransformation
die gleichen Schatzungen der Parameter α und β des ursprunglichen Modells
herausgekommen waren. Die Antwort ist darauf ist positiv, wie Feststellung 9
zeigt.
Der Vektor y ist der Vektor der geschatzten Erwartungswerte; da die geschatzte
Gerade mit der deskriptiven Regressionsgerade ubereinstimmt, ist er in der de-
skriptiven Sprache der Vektor der zu den jeweiligen U -Werten gehorenden Vor-
hersagen. Der Vektor e hat als Komponenten die Abweichungen der tatsachlichen
Y -Werte von den vorhergesagten, er stimmt also mit dem Vektor der deskriptiven
Vorhersagefehler uberein. Folglich ist hier ‖ e‖2 gleich der n-fachen Varianz der
Vorhersagefehler, oder gleich der n-fachen Schatzfehlervarianz.
Da bekanntlich deskriptiv fur die Korrelation r2 zwischen X und Y , die Schatz-
fehlervarianz S2E und die Varianz S2
Y von Y die Beziehung (1− r2) = S2E/S2
Y gilt,
ergibt sich ‖ e‖2 auch als
‖ e‖2 = n(1− r2)S2Y .
Multiple Regression. Zur Vereinfachung soll wieder eine Parametertransformation
benutzt werden, namlich die schon weiter oben beschriebene, die dazu fuhrt, dass
in der Designmatrix als erstes der Vektor 1 steht und danach die zentrierten
Datenvektoren uj der m Pradiktoren. Analog zur einfachen linearen Regression
erhalt man fur X′X die Matrix
n 0 . . . 0
0... nS
0
,
5.3 Parameter ALM07 59
in der S fur die Kovarianzmatrix der Pradiktoren steht. Wie bei der einfachen
linearen Regression erkennt man auch hier, dass X′y aus der Vektor ist, der aus
dem n-fachen Mittelwert y von Y und den n-fachen Kovarianzen KovUj ,Y der
Pradiktorvariablen Uj mit Y besteht. Die Normalengleichungen lauten daher,
wenn die Regressionsgewichte wieder βj heißen und der neue erste Parameter γ,
folgendermaßen:
n 0 . . . 0
0... nS
0
γ
β1
...
βm
=
n y
n KovU1,Y
...
n KovUm,Y
.
Nach Division durch n erhalt man hier fur die Regressionsgewichte die Normalen-
gleichungen aus der deskriptiven Statistik (der Name dort war also gerechtfertigt)
und als erste Gleichung eine, die besagt, dass sich bei der Regression als Y -Wert
zu den Mittelwerten der Pradiktoren gerade der Mittelwert von Y ergeben soll;
insgesamt ergeben sich also als Schatzungen der theoretischen Parameter die be-
kannten Werte, die in der deskriptiven Statistik zu der optimalen Vorhersage
fuhrten.
Die Bedingung dafur, dass die Gewichte βj und der Y -Achsenabschnitt α ein-
deutig geschatzt werden konnen, ist ubrigens – wie immer – die, dass die Design-
matrix vollen Rang hat, was wiederum gleichwertig damit ist, dass die Vektoren
uj der Pradiktorwerte und der Vektor 1 linear unabhangig sind. Eine weitere
Formulierung der Bedingung ist die, dass die Kovarianzmatrix der Pradiktoren
invertierbar sein soll.
Auch hier ist wieder ‖ e‖2 die n-fache Varianz des deskriptiven Vorhersagefehlers;
daher lasst sich ‖ e‖2 auch hier wieder als
‖ e‖2 = n(1−R2)S2Y
schreiben, wobei R2 die quadrierte multiple Korrelation oder der Determinati-
onskoeffizient ist.
Schatzung parametrischer Funktionen. Nachdem der letzte Abschnitt ge-
zeigt hat, wie die Parameter des Modells geschatzt werden konnen, soll es nun
um die Schatzung parametrischer Funktionen gehen.
Es soll zunachst vorausgesetzt werden, dass die Matrix X vollen Rang besitzt,
so dass das Problem der Identifizierbarkeit nicht auftritt. Wie man mit dem
5.3 Parameter ALM07 60
komplizierteren Fall umgeht, in dem X nicht vollen Rang besitzt, wird spater
angemerkt.
Es sei also eine parametrische Funktion ψc =∑
cjβj = c′β mit Koeffizienten-
vektor c gegeben. Ziel ist es, einen Schatzer fur ψc anzugeben.
Da hier der Parametervektor β identifizierbar ist und durch die Losung β der Nor-
malengleichungen auch erwartungstreu geschatzt wird, liegt es nahe, zur Schat-
zung die βj in der Definition von ψc einfach durch ihre Schatzungen βj zu ersetzen.
Man erhalt auf diese Weise einen moglichen Schatzer von ψc, der ψc heißen soll;
es gilt dann also
ψc =∑
cjβj = c′β .
Der Index c wird spater meistens weggelassen, wenn er nicht zu einer Unterschei-
dung wichtig ist.
Der Erwartungswert dieses Schatzers ist
E(ψc) = E(c′β) = c′E(β) = c′β = ψc ,
da β erwartungstreu fur β ist. Der Schatzer ψc ist also erwartungstreu fur ψc.
Auch die Varianz von ψc kann leicht bestimmt werden: Da die Kovarianzmatrix
von β gleich σ2(X′X)−1 ist, gilt
V(ψc) = V(c′β) = c′V(β)c′′ = c′(σ2(X′X)−1)c = σ2 c′(X′X)−1c .
Als lineare Funktion der multinormalverteilten Variable β ist ψc naturlich auch
normalverteilt.
Zusammengefasst gilt:
Feststellung 10. Hat die Designmatrix von X vollen Rang und ist ψc eine
parametrische Funktion, so erhalt man mit
ψc =∑
cjβj = c′β
einen erwartungstreuen Schatzer von ψc. Dabei gilt
ψc ∼ N(ψc, σ2 c′(X′X)−1c) . ¤
Beispiele fur derartige Schatzer sind die bekannten Kontrastschatzer in der Vari-
anzanalyse. Die einzelnen Komponenten βj des geschatzten Parametervektors β
sind weitere Beispiele.
5.3 Parameter ALM07 61
Vielleicht ist es nicht uberflussig, noch einmal genauer auf den Begriff der Er-
wartungstreue einzugehen. Dass ein Schatzer ψc erwartungstreu fur eine para-
metrische Funktion ψc ist, bedeutet genauer, dass der Erwartungswert von ψcimmer gleich ψc ist, egal, welches die wahren Parameter βj (und σ2) sind. Fur
unterschiedliche Parametervektoren β ergeben sich ja im Allgemeinen auch un-
terschiedliche Werte von ψc; in allen diesen Fallen (von denen naturlich bei Mo-
dellgultigkeit nur einer zutrifft, wobei offen bleibt, welcher) soll aber der Erwar-
tungswert von ψc gleich ψc sein.
Will man ψc bestimmen, muss man nicht unbedingt den Umweg uber β machen,
sondern kann auch unmittelbar die Daten selbst verwenden. Es gilt namlich
ψc = c′β = c′(X′X)−1X′y = (X(X′X)−1c)′ y .
Setzt man a = X(X′X)−1c, so kann man direkt angeben, wie ψc mit Hilfe von y
geschatzt wird:
ψc = a′y .
Die Schatzung erhalt man so als eine Linearkombination der Komponenten von
y, also der Beobachtungen, wobei die Koeffizienten gerade die Komponenten von
a sind.
Den Vektor a = X(X′X)−1c nennt man auch den zu c gehorenden Schatzer-
koeffizientenvektor.
Die auf diese Weise konstruierten Schatzer haben die bemerkenswerte Eigen-
schaft, dass ihre Koeffizientenvektoren a Linearkombinationen der Spalten von
X sind, also Elemente des Unterraums V = Bild(X) der modellvertraglichen Er-
wartungswertvektoren. Aus diesem Grund findet man fur V gelegentlich auch die
Bezeichnung Schatzerraum.
Multipliziert man die Gleichung a = X(X′X)−1c von links mit X′, so erhalt man
die Gleichung
X′a = c ,
die, wie sich noch zeigen wird, zusammen mit der Forderung, dass a im Bild von
X liegen soll, den zu c gehorenden Vektor a bereits vollstandig charakterisiert.
Als Beispiel sollen zwei Schatzer in der Varianzanalyse dienen. Hier sind eine
5.3 Parameter ALM07 62
mogliche Designmatrix mit Parametervektor:
X =
1 0 0
1 0 0
0 1 0
0 1 0
0 0 1
, β =
µ1
µ2
µ3
.
Als erstes soll µ1 geschatzt werden. Da dies eine Komponente von β ist, ist
eigentlich nichts mehr zu tun; der Schatzer fur µ1 ist y1, der Mittelwert der ersten
Zelle. Es soll aber nun auch der Schatzerkoeffizientenvektor ermittelt werden.
Dazu ist zunachst c gleich (1, 0, 0)′, der erste Einheitsvektor.
Die Matrix (X′X) ist die Diagonalmatrix
2 0 0
0 2 0
0 0 1
,
deren Inverse die Diagonalmatrix mit den Kehrwerten in der Diagonale ist. Damit
kann der Schatzerkoeffizientenvektor a = X(X′X)−1c bestimmt werden:
a =
1 0 0
1 0 0
0 1 0
0 1 0
0 0 1
1/2 0 0
0 1/2 0
0 0 1
1
0
0
=
1/2 0 0
1/2 0 0
0 1/2 0
0 1/2 0
0 0 1
1
0
0
=
1/2
1/2
0
0
0
,
ein wohl genau so erwartetes Ergebnis. Offensichtlich liegt der Schatzerkoeffizien-
tenvektor im Bild von X; er ist das (1/2)-fache der ersten Spalte von X.
Das nachste Beispiel ist der’grand mean‘ µ =
∑(nj/n)µj, im Beispiel also
µ = (2/5)µ1 + (2/5)µ2 + (1/5)µ3. Der Vektor c ist hier (2/5, 2/5, 1/5)′ und
das zugehorige a = X(X′X)−1c ergibt sich zu
a =
1/2 0 0
1/2 0 0
0 1/2 0
0 1/2 0
0 0 1
2/5
2/5
1/5
=
1/5
1/5
1/5
1/5
1/5
,
was, wie zu erwarten war, der Koeffizientenvektor fur die Bildung des Mittelwerts
aller Beobachtungen ist.
5.3 Parameter ALM07 63
Die nun gewonnenen Schatzer haben gewisse Optimalitatseigenschaften und be-
kommen daher einen besonderen Namen: Sie heißen Gauß-Markoff-Schatzer (kurz
GM-Schatzer). Durch diese Optimalitatseigenschaften erlangt dann auch das ge-
samte Schatzverfahren uber die Methode der kleinsten Quadrate, das ja im ersten
Moment vielleicht unmotiviert und willkurlich wirkt, eine nachtragliche Recht-
fertigung. (Es gibt ubrigens noch weitere Rechtfertigungen, so die, dass die so
konstruierten Schatzer gleichzeitig die’Maximum-Likelihood-Schatzer‘ sind.)
Es soll noch kurz angedeutet werden, worin die Optimalitat der GM-Schatzer be-
steht. Sie haben die Eigenschaft der Erwartungstreue und sind außerdem linear,
d.h. lineare Funktionen von y, kurz: sie sind lineare erwartungstreue Schatzer.
Man kann nun zeigen, dass sie von allen moglichen linearen erwartungstreuen
Schatzern der zugehorigen parametrischen Funktionen die kleinste Varianz besit-
zen. Sie sind damit sozusagen am genauesten und in diesem Sinne optimal. Die
Optimalitatseigenschaft folgt ubrigens aus der Tatsache, dass der Schatzerkoef-
fizientenvektor in V = Bild(X) liegt.
Fur Interessierte folgen genauere Ausfuhrungen im Anschluss an den Fall einer
Designmatrix mit Rangdefekt.
Als Beispiele zur Erlauterung sollen noch einmal die beiden oben gefundenen
Schatzer fur µ1 und µ in der Varianzanalyse dienen. Den ersten Erwartungs-
wert µ1 konnte man erwartungstreu auch durch die erste Beobachtung schatzen;
der entsprechende Schatzerkoeffizientenvektor ware dann (1, 0, 0, 0, 0)′. Die zu-
gehorige Schatzung ist auch linear, insgesamt hat man also einen alternativen
linearen erwartungstreuen Schatzer fur µ1, der jedoch offensichtlich schlechter ist
als der GM-Schatzer. Man bemerkt ubrigens, dass man den Schatzerkoeffizienten-
vektor des GM-Schatzers erhalt, wenn man den hier untersuchten auf Bild(X)
projiziert.
Fur µ kann man als alternativen erwartungstreuen Schatzer auch die Linearkom-
bination (2/5)y21 + (2/5)y12 + (1/5)y13 wahlen; der Schatzerkoeffizientenvektor
ist dann (0, 2/5, 2/5, 0, 1/5)′. Auch hier ist offenbar der GM-Schatzer uberlegen,
dessen Schatzerkoeffizientenvektor man ebenfalls wieder als Projektion des hier
gegebenen auf Bild(X) erhalt.
Spater wird das Skalarprodukt von Schatzerkoeffizientenvektoren eine wichtige
Rolle spielen. Sind a1 und a2 die Koeffizientenvektoren zu zwei durch c1 und c2
5.3 Parameter ALM07 64
gegebenen parametrischen Funktionen, so gilt
<a1, a2 > = a′1a2 = (X(X′X)−1c1)′(X(X′X)−1c2)
= c′1(X′X)−1X′X(X′X)−1c2
= c′1(X′X)−1c2 .
Insbesondere gilt fur eine durch ein c gegebenen parametrische Funktion mit
zugehorigem Koeffizientenvektor a die Beziehung
‖a‖2 = c′(X′X)−1c ,
womit man einen weiteren Ausdruck fur die Varianz von ψc bekommt, namlich
‖a‖2σ2. Dies erhalt man einerseits durch Einsetzen in den schon hergeleiteten
Ausdruck fur die Varianz, andererseits jedoch auch unmittelbar durch Berech-
nung der Varianz von a′y unter Berucksichtigung der Tatsache, dass die Kovari-
anzmatrix von y das σ2-fache der Einheitsmatrix ist.
Die bisherigen Ergebnisse sollen noch einmal kurz zusammengefasst werden.
Feststellung 11. Hat die Designmatrix von X vollen Rang und ist ψc eine
parametrische Funktion und a = X(X′X)−1c ∈ Bild(X) der zu c gehorende
Schatzerkoeffizientenvektor, so gilt
ψc = a′y .
Die Varianz von ψc kann man dann auch schreiben als ‖a‖2σ2. ¤
Die Verhaltnisse im Fall einer Designmatrix X, die nicht vollen Rang besitzt, sind
etwas komplizierter. Auch hier kann man jedoch fur eine identifizierbare parame-
trische Funktionen ψc einen optimalen erwartungstreuen Schatzer ψc angeben.
Man erhalt ψc, indem man einfach in dem Ausdruck ψc =∑
cjβj die βj durch
irgendeine Losung der Normalengleichungen ersetzt. Auch hier kann man die
Schatzung ψc als lineare Funktion von y schreiben mit einem der Schatzerkoef-
fizientenvektor a, der wieder in Bild(X) liegt. Dieser Schatzerkoeffizientenvektor
heißt dann auch der zu ψc gehorende Schatzerkoeffizientenvektor, und der so er-
haltene Schatzer tragt ebenfalls wieder den Namen GM-Schatzer. Die Varianz
des GM-Schatzers ψc ist dann ‖a‖2 σ2.
Fur besonders Interessierte soll dies nun genauer ausgefuhrt werden. Die Design-
matrix kann bei der folgenden Argumentation vollen Rang besitzen oder auch
nicht.
Wenn ψc identifizierbar ist, dann ist c eine Linearkombination der Spalten von
X′, es gibt also einen Vektor a0 mit der Eigenschaft X′a0 = c. Man kann a0
5.3 Parameter ALM07 65
nun mit der orthogonalen Projektion PV auf V = Bild(X) projizieren und erhalt
damit den Vektor a = PV a0. Da alle Spalten von X im Bild von X liegen, wer-
den sie insbesondere durch PV auf sich selbst abgebildet, was man zur Gleichung
PV X = X oder transponiert X′PV = X′ zusammenfassen kann. Daraus folgt
X′a = X′PV a0 = X′a0 = c; man hat also nun eine Moglichkeit gefunden, c als
Linearkombination X′a der Spalten von X′ zu schreiben mit einem Koeffizien-
tenvektor a ∈ V .
Der Vektor a ist dabei der einzige Vektor aus V mit der Eigenschaft X′a = c,
denn wurde dies fur einen weiteren Vektor a1 gelten, so hatte man X′a = X′a1
oder X′(a− a1) = 0. Der Vektor (a− a1) ware damit senkrecht zu allen Spalten
von X und folglich zu V , musste aber andererseits als Differenz von zwei Vektoren
aus V auch wieder in V liegen, womit man einen Vektor hatte, der senkrecht zu
sich selbst ist und daher nur der Nullvektor sein kann. Es muss also a1 = a gelten,
und a ist tatsachlich der einzige Vektor aus V mit X′a = c.
Hervorzuheben ist, dass die Gleichung
X′a = c
zusammen mit der Forderung, dass a ∈ V gelten soll, den Vektor a eindeutig
charakterisiert. Im Fall einer Designmatrix von vollem Rang erfullt der oben de-
finierte Schatzerkoeffizientenvektor a = X(X′X)−1c offenbar beide Bedingungen
und stimmt folglich mit dem hier definierten a uberein.
Ist nun β = (β1, . . . , βk)′ irgendeine Losung der Normalengleichungen, so gilt
Xβ = y. Bildet man nun die Linearkombination∑
cjβj = c′β, so ist dies wegen
c = X′a auch gleich a′Xβ = a′y. Wegen y = PV y ist a′y = <a, y> wiederum
gleich <a, PV y> = <PV a, y> = <a, y> = a′y; da a in V liegt, gilt ja
PV a = a. Der Wert der Linearkombination∑
cjβj = a′y ist folglich unabhangig
von der speziell gewahlten Losung β, da er ja direkt aus y berechnet werden
kann, und kann den Namen ψc bekommen.
Man erhalt also ψc als∑
cjβj, wobei β = (β1, . . . , βk)′ irgendeine Losung der
Normalengleichungen ist, oder auch als a′y. Der so definierte Schatzer heißt auch
wieder Gauß-Markoff-Schatzer, und es ist klar, dass die Definition fur den Fall
einer Designmatrix von vollem Rang mit der vorigen ubereinstimmt. Auch in dem
Fall, dass die Designmatrix nicht vollen Rang besitzt, kann es sein, dass einige
der βj identifizierbar sind. Fur solche Komponenten sind die (hier eindeutigen)
Losungen der Normalengleichungen dann auch die GM-Schatzer.
5.3 Parameter ALM07 66
Der Erwartungswert von ψc ist
E(ψc) = E(a′y) = a′E(y) = a′Xβ = (X′a)′β = c′β = ψc ,
wobei β jetzt wieder fur den wahren Parametervektor steht. Mit anderen Worten
ist ψc erwartungstreu fur ψc.
Man nennt einen Schatzer ψ einer parametrischen Funktion ψ linear, wenn er
sich in der Form ψ = a′y schreiben lasst fur ein geeignetes a, wenn er also eine
lineare Funktion der Daten ist.
In diesem Sinne sind die GM-Schatzer lineare Schatzer, die außerdem erwartungs-
treu sind. Unter allen linearen erwartungstreuen Schatzern besitzen sie zusatzlich
die oben angedeuteten Optimalitatseigenschaften, wie nun gezeigt werden soll.
Dazu sei ein weiterer linearer erwartungstreuer Schatzer fur ψc gegeben durch
einen Koeffizientenvektor a1. Dieser Schatzer a′1y muss dann fur jeden moglichen
Parameter β den gleichen Erwartungswert haben wie ψc = a′y. Da E(y) = Xβ
gilt, bedeutet dies, dass fur alle β die Werte E(a′1y) = a′1E(y) = a′1Xβ und
E(a′y) = a′E(y) = a′Xβ ubereinstimmen mussen; fur alle β ∈ Rk muss also
a′1Xβ = a′Xβ oder (a1 − a)′Xβ = 0 gelten. Mit anderen Worten muss (a1 − a)
senkrecht zu allen Elementen von V sein, also in V ⊥ liegen.
Insbesondere zeigt sich, dass es in V nur einen Koeffizientenvektor a gibt, mit
dem ψc durch a′y erwartungstreu geschatzt wird.
Setzt man nun weiter d = a1 − a, so gilt a1 = a + d und daher a′1y = a′y + d′y.
Die Kovarianz von a′y und d′y ist a′V(y)d = σ2a′Id = σ2<a, d> = 0, da a in
V und d in V ⊥ liegt. Ebenso berechnet man die Varianz von d′y zu σ2‖d‖2. Da
a′y und d′y Kovarianz 0 haben, gilt fur die Varianz von a′1y die Beziehung
V(a′1y) = V((a + d)′y) = V(a′y + d′y) = V(a′y) + V(d′y) = V(a′y) + σ2‖d‖2 .
Die Varianz von a′1y ist also mindestens so groß wie die von a′y = ψc, wobei
Gleichheit genau dann gilt, wenn d = 0 ist, wenn also a = a1 gilt und die beiden
Schatzer ubereinstimmen. Der GM-Schatzer ψc hat also tatsachlich unter allen
linearen erwartungstreuen Schatzern von ψc = c′β minimale Varianz, die man
schließlich leicht zu ‖a‖2 σ2 errechnet.
Die Ergebnisse konnen nun kurz zusammengefasst werden.
Feststellung 12. Fur jede identifizierbare parametrische Funktion ψc gibt es
genau einen linearen erwartungstreuen Schatzer ψc = a′y, dessen Schatzer-
5.3 Parameter ALM07 67
koeffizientenvektor a in V liegt. Dieser Schatzer hat kleinste Varianz unter allen
linearen erwartungstreuen Schatzern von ψc. Der Vektor a ist dabei durch die
Forderungen X′a = c und a ∈ V eindeutig bestimmt. ¤
Die Schatzer der Feststellung sind offenbar genau die GM-Schatzer.
Ubrigens ist jeder Vektor a aus V Schatzerkoeffizientenvektor einer parametri-
schen Funktion, namlich von ψc mit c = X′a. Diese ist naturlich auch identifi-
zierbar, da ihr Koeffizientenvektor eine Linearkombination der Zeilen von X ist.
Verschiedene Vektoren aus V fuhren dabei auch zu verschiedenen parametrischen
Funktionen, da ja a ∈ V durch c wegen der vorangehenden Feststellung bereits
eindeutig bestimmt ist.
Die GM-Schatzer identifizierbarer parametrischer Funktionen entsprechen auf
diese Weise genau den Vektoren in V , was den Namen Schatzerraum fur V noch
verstandlicher macht.
Schatzung der Varianz. In diesem Abschnitt soll σ2 geschatzt werden. Voraus-
gesetzt ist, dass die (n × k)-Designmatrix X den Rang r hat; die Designmatrix
muss also nicht notwendig vollen Rang besitzen.
Die nach dem Prinzip der kleinsten Quadrate geschatzte Modellvorhersage y
ergab sich als orthogonale Projektion von y auf V = Bild(X), den Schatzerraum.
Der geschatzte Fehler e = y − y lasst sich auch schreiben als e = y − PV y =
(I − PV )y = Qy, wobei PV wie ublich die Projektion auf V bezeichnet. Die
Abbildung Q = I−PV ist dann bekanntlich die orthogonale Projektion auf das
orthogonale Komplement V ⊥ von V . Der geschatzte Fehler e ergibt sich also aus
y durch Projektion auf V ⊥.
Die folgende Abbildung illustriert diesen Sachverhalt an dem schon diskutierten
Beispiel von zwei Beobachtungen im Einstichprobenfall. Links sieht man den
Raum V der modellvertraglichen Erwartungswertvektoren, der vom Vektor x =
(1, 1)′ aufgespannt wird und den Punkt y = (1, 3)′, der die beiden Beobachtungen
zusammenfasst; die Schatzung von y ist auch angedeutet. Rechts erkennt man
die Zerlegung von y in die beiden additiven Komponenten y und e, die sich durch
Projektion auf V und V ⊥ ergeben.
5.3 Parameter ALM07 68
1
1............................................................................ ...................
........
........
........
........
........
........
........
....................
...................
.......................................................................................................................
Y1
Y2
x
...................................................................................................................................................................................................................................................................................................................................................................................................................
V
sy ......................sy...........
............
............................
1
1............................................................................ ...................
........
........
........
........
........
........
........
....................
...................
.......................................................................................................................................................................................................
..........................................................................................................................................................................................................................
....................................................
...................................................................
Y1
Y2
...................................................................................................................................................................................................................................................................................................................................................................................................................
V
......................
......................
......................
......................
......................
......................
......................
......................
......................
......................
......................
......................
......................
......................
......................
......................
...........
V ⊥y
.................................................................
y
e
Den Raum V ⊥, der die Eigenschaft hat, dass der auf ihn projizierte Datenvektor
der geschatzte Fehler e ist, tragt auch den Namen Fehlerraum. Als orthogonales
Komplement des Schatzerraums hat er die Dimension n− r, wenn n die Gesamt-
zahl der Beobachtungen ist und r der Rang der Designmatrix X, der ja mit der
Dimension von V = Bild(X) ubereinstimmt.
Der Erwartungswert von e ist Q(E(y)) = QXβ = 0, da bereits QX die Nullma-
trix ist, denn die Spalten von X liegen ja alle in V und werden daher durch Q
auf 0 abgebildet.
Fur die Verteilung von ‖ e‖2/σ2 ergibt sich daraus bekanntlich
‖ e‖2/σ2 ∼ χ2n−r ,
woraus fur den Erwartungswert von ‖ e‖2/(n− r) die Beziehung
E(‖ e‖2/(n− r)) = E((σ2/(n− r))(‖ e‖2/σ2))
= (σ2/(n− r))E(‖ e‖2/σ2)
= (σ2/(n− r))(n− r)
= σ2
folgt. Man hat also mit der Statistik ‖ e‖2/(n−r) einen erwartungstreuen Schatzer
fur σ2 gefunden.
Der erwartungstreue Schatzer ‖ e‖2/(n− r) soll mit s2 abgekurzt werden.
Feststellung 13. Ist in dem Modell E(y) = Xβ mit n Beobachtungen der Rang
der Designmatrix gleich r und ist V = Bild(X), so ist e die Projektion von y auf
V ⊥. Dabei gilt
‖ e‖2/σ2 ∼ χ2n−r
5.3 Parameter ALM07 69
und mit s2 = ‖ e‖2/(n− r) die Beziehung
E(s2) = σ2 . ¤
Alternativ kann man statt ‖ e‖2/σ2 ∼ χ2n−r auch
‖ e‖2 ∼ σ2χ2n−r
formulieren. Mit s2 kann man diesen Sachverhalt auch als
(n− r)s2/σ2 ∼ χ2n−r oder (n− r)s2 ∼ σ2χ2
n−r
ausdrucken.
Weiter oben wurde fur einige Modelle schon der Wert von ‖ e‖2 bestimmt. Aus
diesen Ergebnissen und aus der letzten Feststellung ergeben sich wohlbekannte
erwartungstreue Schatzungen von σ2: im Einstichprobenfall die korrigierte Stich-
probenvarianz nS2Y /(n−1) = s2 und im Fall der Varianzanalyse SSw/(N −J) =
MSw (wobei den ublichen Bezeichnungen entsprechend N statt n fur den Ge-
samtstichprobenumfang geschrieben wurde).
Da sich y als Projektion von y auf V ergibt, erhalt man y und e aus y durch Pro-
jektion auf zwei Unterraume, die orthogonal sind, namlich auf V und V ⊥. Hieraus
folgt bekanntlich die Unabhangigkeit von y und e, da y ja multinormalverteilt
ist mit Kovarianzmatrix σ2I.
Dies hat folgende wichtige Konsequenz:
Feststellung 14. Die Zufallsvektoren y und e sind unabhangig und damit auch
jede Funktion von y und jede Funktion von e. ¤
Genauer musste es eigentlich’jede messbare Funktion‘ heißen. Praktisch alle in-
teressanten Funktionen sind aber messbar, weshalb diese Einschrankung hier un-
terschlagen wird.
Eine wichtige Folgerung der letzten Feststellung betrifft die GM-Schatzer. Ist
namlich ψc ein solcher Schatzer und a der zugehorige Schatzerkoeffizientenvektor,
so gilt ψc = a′y. Da a im Schatzerraum V liegt, gilt PV a = a, woraus
ψc = a′y = (PV a)′y = a′P′V y = a′(PV y) = a′y
folgt. GM-Schatzer lassen sich also als Funktionen von y schreiben und sind daher
unabhangig von e.
5.3 Parameter ALM07 70
Feststellung 15. Gauß-Markoff-Schatzer parametrischer Funktionen sind von e
und s2 unabhangig. ¤
Tests und Konfidenzintervalle fur parametrische Funktionen. Ziel dieses
Abschnitts ist die Herleitung von Tests und Konfidenzintervallen fur einzelne
parametrische Funktionen.
Zur kompakteren Formulierung von Konfidenzintervallen und Tests ist es sinnvoll,
im Zusammenhang mit den Varianzen parametrischer Funktionen eine Abkurzung
einzufuhren. Zunachst soll der Fall einer Designmatrix mit vollem Rang behan-
delt werden. Die Varianz des GM-Schatzers ψc einer parametrischen Funktion
ψc war hier schon zu c′(X′X)−1cσ2 berechnet worden.
Der an vielen Stellen auftauchende Faktor c′(X′X)−1c in diesem Ausdruch soll
mit |||c‖|2 abgekurzt werden. Die Wurzel |||c‖| daraus soll auch als die X-Norm
von c bezeichnet werden.
Mit dieser Abkurzung gilt dann also
V(ψc) = |||c‖|2 σ2 .
Ist a der zu ψc gehorende Schatzerkoeffizientenvektor, so gilt, wie sich schon oben
gezeigt hat, die Beziehung
‖a‖ = |||c‖| .
Auch im Falle einer Designmatrix, die nicht vollen Rang besitzt, soll fur eine
identifizierbare parametrische Funktion ψc der Ausdruck |||c‖| definiert werden.
Hier gibt es zu ψc genau einen Schatzerkoeffizientenvektor a aus Bild(X). Damit
kann |||c‖| hier mit Hilfe von a als |||c‖| = ‖a‖ definiert werden. Auch hier gilt
dann
V(ψc) = |||c‖|2σ2 .
In jedem Fall ist |||c‖|2s2 eine erwartungstreue Schatzung der Varianz von ψc, da
s2 eine erwartungstreue Schatzung von σ2 ist.
Feststellung 16. Hat die Designmatrix X den Rang r, ist ψc = c′β eine
identifizierbare parametrische Funktion, ψc der zugehorige GM-Schatzer und ψ0
eine reelle Zahl, so hat die Statistik
t =ψc − ψ0
|||c‖| s
5.3 Parameter ALM07 71
eine t-Verteilung mit n − r Freiheitsgraden und dem Nonzentralitatsparameter
δ = (ψc − ψ0)/(|||c‖|σ).
Wegen s2 = ‖ e‖2/(n− r) gilt namlich
ψc − ψ0
|||c‖| s =(ψc − ψ0)/(|||c‖|σ)√
1n−r
(‖ e‖2/σ2).
Hier sind wegen Feststellung 15 Zahler und Nenner unabhangig, der Zahler hat
wegen Feststellung 10 eine Normalverteilung mit Varianz 1 und Erwartungswert
(ψc−ψ0)/(|||c‖|σ), und der Nenner besteht wegen Feststellung 13 aus der Wurzel
einer durch ihre Freiheitsgrade dividierten χ2-verteilten Variablen. Daraus folgt
die Behauptung. ¤
Wie ublich soll im Folgenden fur’Freiheitsgrade‘ die Abkurzung df und fur
’Non-
zentralitatsparameter‘ die Abkurzung NZP gebraucht werden. Außerdem wird
der bisweilen unhandliche Index c bei parametrischen Funkionen nun haufig weg-
gelassen.
Naheliegenderweise bezeichnet man den Nenner |||c‖| s des t-Bruchs auch als Stan-
dardfehler von ψc.
Die Feststellung 16 ist die Grundlage fur das Testen von Hypothesen uber pa-
rametrische Funktionen und fur die Konstruktion von Vertrauensintervallen. Als
erstes soll die Moglichkeit des Testens von Hypothesen behandelt werden.
Feststellung 17. Besitzt die Designmatrix X den Rang r, ist ψ = c′β eine
identifizierbare parametrische Funktion mit GM-Schatzer ψ, und ist ψ0 eine feste
Zahl, so konnen die Hypothesen
H0 : ψ = ψ0
H1 : ψ > ψ0
auf dem Niveau α mit der Statistik
t =ψ − ψ0
|||c‖| sgetestet werden. Die Nullhypothese ist zu verwerfen, falls t ≥ tn−r; α gilt.
Die Abkurzung tn−r; α steht wie ublich fur das α-Fraktil der t-Verteilung mit n−r
df, also fur den Wert, der bei dieser Verteilung rechts α abschneidet.
5.3 Parameter ALM07 72
Die Begrundung ergibt sich unmittelbar aus Feststellung 16, da der NZP unter
H0 den Wert 0 besitzt, womit die Verteilung der Teststatistik eine zentrale t-
Verteilung ist. ¤
Als Nullhypothese hatte man hier auch H0 : ψ − ψ0 ≤ 0 wahlen konnen.
Linksseitige und zweiseitige Fragestellungen testet man ganz analog. Die Gute
(power) der Tests kann mit Hilfe des NZP δ bestimmt werden.
Der t-Bruch hat ubrigens die gewohnte Form einer normalverteilten Variable, die
durch eine unabhangige Schatzung ihrer Streuung dividiert wird.
Es folgen nun Beispiele fur konkrete Probleme.
Einstichprobenfall. Das einfachste Beispiel ist das des Einstichprobenfalls, bei
dem der Erwartungswert der n-mal unabhangig erhobenen Variable Y gleich µ
ist. Getestet werden soll die Nullhypothese H0 : µ = µ0.
Es hat sich schon gezeigt, dass der GM-Schatzer µ gleich dem Mittelwert y der
Beobachtungen ist, wahrend ‖ e‖2 das n-fache der Stichprobenvarianz S2Y ist.
Da hier der Rang der Designmatrix gleich 1 ist, erhalt man als erwartungstreuen
Schatzer der Fehlervarianz gerade die korrigierte Stichprobenvarianz s2. Der Test,
ob µ gleich einem gegebenen µ0 ist, erfolgt daher mit der bekannten Statistik
t =y − µ0
s/√
n,
da hier der Vektor c nur eine einzige Komponente besitzt, namlich eine 1, wahrend
X′X die (1 × 1)-Matrix mit der Zahl n ist, ihre Inverse also aus der Zahl 1/n
besteht, womit sich |||c‖|2 zu 1/n errechnet. Der Standardfehler ist hier der auch
als Standardfehler des Mittelwerts bezeichnete Wert s/√
n.
Unter H0 hat die Teststatistik eine tn−1-Verteilung.
Einfache lineare Regression. Die Fragen, die sich bei der einfachen linearen Re-
gression stellen, sind als erstes die nach dem Regressionsgewicht und nach dem
Achsenabschnitt der theoretischen Regressionsgerade. Hier soll zunachst allge-
mein ein Test angegeben fur die Frage angegeben werden, ob das Regressionsge-
wicht 0 ist. Danach wird in einem konkreten Beispiel auch noch der Achsenab-
schnitt untersucht.
Es soll also getestet werden, ob die Steigung β der Geraden, die den Erwartungs-
wert von y in Abhangigkeit von der unabhangigen Variable U liefert, gleich 0 ist.
5.3 Parameter ALM07 73
Nach der Parametertransformation, die durch das Zentrieren der unabhangigen
Variable U bewirkt wird, und die zu den neuen Parametern γ (Erwartungswert
von y an der Stelle u) und β fuhrt, erhalt man fur X′X die Matrix
(n 0
0 nS2U
),
deren Inverse (X′X)−1 offenbar gleich
1
n
(1 0
0 1/S2U
)
ist.
Den gewunschten Parameter β erhalt man mit Hilfe des Koeffizientenvektors
c = (0, 1)′ als parametrische Funktion ψ. Fur |||c‖|2 erhalt man damit den Wert
1/(nS2U). Fur den Fehler gilt ‖ e‖2 = n(1− r2
U,Y )S2Y , woraus die Beziehung
s2 =n (1− r2
U,Y ) S2Y
(n− 2)=
n
(n− 2)(1− r2
U,Y ) S2Y
folgt, denn der Rang der Designmatrix ist hier 2. Die Schatzung s2 ist damit das
(n/(n−2))-fache der aus der deskriptiven Statistik bekannten Schatzfehlervarianz.
Der Standardfehler von β berechnet sich daher zu
|||c‖| s =
√1
nS2U
n(1− r2U,Y )S2
Y
(n− 2)=
√(1− r2
U,Y )
(n− 2)
SY
SU
Die Schatzung ψ = β der Steigung kann bekanntlich auch als rU,Y SY /SU ge-
schrieben werden. Schließlich ist ψ0 hier 0. Damit erhalt man als Teststatistik die
Statistik
t =β
|||c‖| s =rU,Y SY /SU√(1− r2
U,Y )
(n− 2)
SY
SU
=√
n− 2rU,Y√
(1− r2U,Y )
,
die unter H0 eine tn−2-Verteilung besitzt.
Die Statistik sieht ubrigens genauso aus wie die, mit der man testet, ob die theo-
retische Korrelation zwischen einer Variablen U und Y gleich 0 ist (bei entspre-
chenden Verteilungsannahmen). Den hier besprochenen Test kann man allerdings
5.3 Parameter ALM07 74
nicht als einen ansehen, der eine theoretischen Korrelation testet, da ja die Va-
riable U gar keine Zufallsvariable ist, und daher eine theoretische Korrelation
zwischen U und Y auch gar nicht definiert ist. Man kann jedoch das ALM um
Annahmen erweitern, die dann auch diesen Fall mit umfassen.
Der Test, ob das Regressionsgewicht 0 ist, soll nun an einem Beispiel durchgefuhrt
werden, das auch spater gelegentlich benutzt wird. In diesem Beispiel nimmt die
Variable U die Werte −1, 0, 1, 2, 3, 4, 5 an, die zugehorigen Werte von Y sind
2,−1, 2, 3, 4, 3, 8.
Die Daten sind in der folgenden Abbildung dargestellt.
1
1......................................................................................................................................................................................................................................... ..........................................................................................................................................................................................................................................................................................................................................................................................
u
y
sss ss s
s
An diesem Beispiel sollen auch einige bis jetzt eingefuhrte Konzepte noch einmal
illustriert werden; außerdem sollen fur spatere Zwecke schon bestimmte Kenn-
werte bestimmt werden. Daher wird das Beispiel viel ausfuhrlicher behandelt, als
es fur den Test, ob β gleich 0 ist, notig ware. Das Beispiel soll auch das Vorgehen
im allgemeinen Fall verdeutlichen, weshalb zum Teil so gerechnet wird, als waren
die speziellen, gerade hergeleiteten Formeln noch nicht bekannt.
Nach der ublichen Umparametrisierung, die die zentrierten Werte von U benutzt
und als Parameter neben der Steigung β den Wert γ besitzt, der angibt, welchen
Wert die Regressionsgerade an der Stelle u = 2 annimmt, ist die Designmatrix
5.3 Parameter ALM07 75
gleich
X =
1 −3
1 −2
1 −1
1 0
1 1
1 2
1 3
.
Fur die Normalengleichungen erhalt man daraus
X′X =
(7 0
0 28
)und x′y =
(21
28
),
was sofort zu den Losungen γ = 3 und β = 1 fuhrt; fur α = γ − uβ bekommt
man den Wert 3− 2 = 1. Die geschatzte (theoretische) Regressionsgerade ist also
y = u + 1.
Naturlich ist dies die gleiche Gerade wie die, die man mit den bekannten Formeln
erhalt; die notigen Kennwerte berechnet man leicht zu u = 2, S2U = 4, y = 3,
S2Y = 44/7 = 2.588, KovU,Y = 4 und rUY =
√7/11 = 7977.
Die folgende Graphik zeigt die Punktwolke und die geschatzte Regressionsgerade.
1
1......................................................................................................................................................................................................................................... ..........................................................................................................................................................................................................................................................................................................................................................................................
u
y
sss ss s
s
...................................................................................................................................................................................................................................................................................................................................................................................................................
Fur y und e = y − y errechnet man die Vektoren (0, 1, 2, 3, 4, 5, 6, 7)′ und
(2,−2, 0, 0, 0,−2, 2)′. Diese Vektoren enhalten naturlich die vorhergesagten Wer-
te und die Abweichungen der tatsachlichen Werte von den vorhergesagten und
konnen daher auch direkt aus der letzten Abbildung abgelesen werden.
Hieraus folgt ‖ e‖2 = 16 und s2 = ‖ e‖2/(7− 2) = 16/5 = 3.2, was man naturlich
5.3 Parameter ALM07 76
auch mit der Formel s2 = n(1− r2UY )S2
y/(n− 2) erhalt. Dies ist auch das (7/5)-
fache der deskriptiven Schatzfehlervarianz 16/7.
Der Koeffizientenvektor c der parametrischen Funktion β ist hier c = (0, 1)′. Zur
Bestimmung von |||c‖| und zur Bestimmung des zu c gehorenden Schatzerkoeffizien-
tenvektors a berechnet man zunachst
(X′X)−1 =1
28
(4 0
0 1
)und X(X′X)−1 =
1
28
4 −3
4 −2
4 −1
4 0
4 1
4 2
4 3
.
Hieraus ergibt sich |||c‖|2 zu c′(X′X)−1c = 1/28 und der Schatzerkoeffizientenvek-
tor a zu X(X′X)−1c = (1/28)(−3,−2,−1, 0, 1, 2, 3)′. Man kontrolliert leich nach,
dass einerseits β = a′y und andererseits |||c‖|2 = ‖a‖2 gilt.
Damit ergibt sich der Standardfehler von β zu
|||c‖| s =√
1/28√
16/5 =√
4/35 = .338 .
Nun berechnet man die t-Statistik zum Test, ob β gleich 0 ist, leicht zu
t =β − 0
|||c‖| s =1√4/35
=√
35/4 = 2.958 .
Naturlich erhalt man dieselbe Zahl direkt mit der oben hergeleiteten Formel:
t =√
n− 2rU,Y√
(1− r2U,Y )
=√
5
√7/11√
1− 7/11=√
5√
7/4 =√
35/4 .
Fur einen zweiseitigen Test auf dem 5%-Niveau ist dies t zu vergleichen mit
t5; .025 = 2.5706. Das Ergebnis ist also signifikant.
Zusatzlich soll noch die power des Tests bestimmt werden. Dies ist naturlich nur
moglich, wenn man die wahren Werte der Parameter kennt. Oft hat man immer-
hin Vermutungen uber diese wahren Werte und kann dann diese Vermutungen
zur Grundlage machen. In diesem Fall moge es so sein, dass man vermutet, dass
5.3 Parameter ALM07 77
die wahre Regressionsgerade y = u + 2 ist und σ2 gleich 4. Es gilt dann also
β = 1. Damit errechnet man den NZP des Tests zu
δ =β − 0
|||c‖|σ =1√
1/28√
4=√
7 = 2.646 .
Mit geeigneten Hilfsmitteln ergibt sich damit bei 5 df eine power von .5678.
Nun soll noch getestet werden, ob der Achsenabschnitt α gleich 0 ist. Man leitet
auch fur diese Frage leicht eine spezielle Formel her, hier soll jedoch das Vorgehen
im allgemeinen Fall illustriert werden.
Nach der Umparametrisierung ist α eine parametrische Funktion der beiden Pa-
rameter γ und β, namlich γ − uβ, hier γ − 2 β. Der Koeffizientenvektor ist also
c = (1,−2)′. Damit errechnet man einerseits |||c‖|2 zu 8/28 = 2/7, und anderer-
seits den zugehorigen Schatzerkoeffizientenvektor a zu (1/28)(10, 8, 6, 4, 2, 0,−2)′.Zur Kontrolle findet man, das auch ‖a‖2 gleich 224/(28)2 = 2/7 ist. Außerdem
erhalt man mit a′y = 28/28 = 1 die gleiche Schatzung von α wie oben.
Der Standardfehler von α ist damit
|||c‖| s =√
2/7√
16/5 =√
32/35 = .956 .
Die Statistik zum zweiseitigen Test, ob α = 0 gilt, ist so schließlich
t =α− 0
|||c‖| s =1√
32/35=
√35/32 = 1.0458 ,
was bei 5 Freiheitsgraden auf dem 5%-Niveau nicht signifikant ist.
Auch hier kann unter den gleichen Voraussetzungen wie beim ersten Test die
power bestimmt werden. Fur δ erhalt man jetzt den Wert δ = (2−0)/(√
2/7√
4) =√7/2 = 1.871 und daraus die power .3304.
Multiple Regression. Hier soll beispielsweise getestet werden, ob ein bestimmtes
theoretisches Regressionsgewicht βj gleich Null ist. Die unabhangigen Variablen
seien U1, . . . , Um, und das Modell sei wie ublich so umparametrisiert, dass diese
Variablen zentriert sind. Die Parameter sind dann der Wert γ, den die Regressi-
onsfunktion im Zentroid der unabhangigen Variablen annimmt, und die Regres-
sionsgewichte βj. Es sei vorausgesetzt, dass die Designmatrix den vollen Rang
5.3 Parameter ALM07 78
m + 1 besitzt. Fur X′X hatte sich oben schon die Matrix
n 0 . . . 0
0... nS
0
ergeben (S ist die Kovarianzmatrix der Pradiktoren), von der man leicht einsieht,
dass ihre Inverse (X′X)−1 die Gestalt
1
n
1 0 . . . 0
0... S−1
0
besitzt. Will man nun testen, ob das j-te Regressionsgewicht gleich 0 ist, so ist
zunachst dessen Schatzer zu bestimmen. Der Koeffizientenvektor c fur diesen
Schatzer ist der (j +1)-te Einheitsvektor ej+1 (man beachte, dass an erster Stelle
im Parametervektor γ steht). Fur den Wert |||c‖|2 = c′(X′X)−1c ergibt sich damit
das (1/n)-fache des j-ten Diagonalelements von S−1, das hier mit sjj (Indizes
stehen oben) bezeichnet sei. Fur ‖ e‖2 hatte sich der Wert n(1−R2)S2Y ergeben,
der hier durch die Anzahl (n−m− 1) der Nennerfreiheitsgrade zu dividieren ist;
damit erhalt man
s2 =n (1−R2) S2
Y
(n−m− 1)=
n
(n−m− 1)(1−R2) S2
Y ,
hier ist also s2 das (n/(n−m− 1))-fache der deskriptiven Schatzfehlervarianz.
Als Standardfehler von βj erhalt man so
|||c‖| s =
√sjj
n
√n(1−R2)S2
Y
(n−m− 1)=
√sjj (1−R2) S2
Y
(n−m− 1).
Dies fuhrt schließlich zu der Teststatistik
t =βj√
sjj (1−R2) S2Y
(n−m− 1)
=√
n−m− 1βj√
sjj (1−R2) SY
,
die unter H0 eine t-Verteilung mit n−m− 1 Freiheitsgraden besitzt.
5.3 Parameter ALM07 79
Anzumerken ist noch, dass man gelegentlich man auch Formeln findet, in denen
nicht auf die der Kovarianzmatrix der Pradiktoren, sondern auf deren Korrelati-
onsmatrix Bezug genommen wird. Ist rjj das j-te Diagonalelement der Inversen
der Korrelationsmatrix und Sj die Streuung von Uj, so zeigt man leicht die Be-
ziehung sjj = rjj/S2j . Dies ergibt mit einer leichten Umformung
t =√
n−m− 1βj(Sj/SY )√rjj(1−R2)
.
Der Zahler βj(Sj/SY ) kann hier auch als (empirisches) j-tes Regressionsgewicht
nach z-Standardisierung aller beteiligter Variablen interpretiert werden; da Re-
gressionsgewichte nach einer solchen Standardisierung leichter in ihrer Große in-
terpretierbar sind, hat sich in der Praxis fur diesen Zahler ein besonderer Name
eingeburgert, der (unglucklicherweise) βj ist.
Varianzanalyse. Bei der einfaktoriellen Varianzanalyse mit J Gruppen von je-
weils nj Versuchspersonen (∑
nj = n) hatte sich fur X′X oben die (J × J)-
Diagonalmatrix
n1
n2
. . .
nJ
ergeben, deren Inverse (X′X)−1 wieder eine Diagonalmatrix ist, namlich
1/n1
1/n2
. . .
1/nJ
.
Die parametrische Funktion ψ mit dem Koeffizientenvektor c hat hier die Gestalt
ψ =∑
cjµj. Als Schatzer fur die µj hatten sich die entsprechenden Mittelwerte
yj ergeben, und fur ‖ e‖2 die Quadratsumme innerhalb SSw. Die Designmatrix
hat hier J linear unabhangige Spalten, weshalb die Zahl der Freiheitsgrade gleich
N−J ist und sich folglich s2 zu SSw/(N−J) = MSw errechnet (dem gewohnten
Gebrauch folgend wird hier N statt n geschrieben). Den Wert |||c‖|2 errechnet
man wieder uber c′(X′X)−1c, was hier offensichtlich gleich∑
c2j/nj ist. Der Test,
ob ψ gleich einem vorgegebenen Wert ψ0 ist, wird daher mit der Statistik
t =ψ − ψ0
|||c‖|√MSw
=
∑cj yj − ψ0√
(∑
c2j/nj) MSw
5.3 Parameter ALM07 80
durchgefuhrt, die unter H0 eine tn−J -Verteilung besitzt.
Als Spezialfalle erhalt man die bekannten Formeln fur die Kontraste. Daruber
hinaus muss hier ψ nicht der Bedingung∑
cj = 0 (die ja die Kontraste definiert)
genugen. Es ist also auch moglich, Hypothesen uber den’grand mean‘ µ zu for-
mulieren und zu testen (hier ist c = (n1/n, . . . , nJ/n)′), ebenso auch zum Beispiel
uber einzelne µj (hier ware c gleich dem entsprechenden Einheitsvektor).
Im Fall von zwei Gruppen pruft man leicht nach, dass man fur den Test, ob
µ1 = µ2 gilt, ob also die parametrische Funktion µ2−µ1 gleich 0 ist, den bekannten
Zweistichproben-t-Test erhalt.
Zum Abschluss sei vermerkt, dass die Tests der bisherigen Beispiele immer als
Einzeltests gemeint sind; fuhrt man mehrere solcher Tests auf einmal durch, so
hat man sich Gedanken uber die α-Adjustierung zu machen.
Setzt man fur eine identifizierbare parametrische Funktion ψ = ψc in Feststellung
16 fur ψ0 den wahren Wert ψ der parametrischen Funktion ein, so erhalt man die
Aussage, dassψ − ψ
|||c‖| seine t-Verteilung mit (n − r) df besitzt (r war der Rang der Designmatrix). Es
folgt, dass die Wahrscheinlichkeit
P
(∣∣∣∣∣ψ − ψ
|||c‖| s
∣∣∣∣∣ < tn−r; α/2
),
dass der Betrag dieser Statistik kleiner als das α/2-Fraktil der tn−r-Verteilung ist,
gerade gleich (1− α) betragt. Das Ereignis, von dem hier die Wahrscheinlichkeit
berechnet wird, kann man gleichbedeutend mit der Abkurzung k := tn−r; α/2 auch
so ausdrucken:∣∣∣∣∣ψ − ψ
|||c‖| s
∣∣∣∣∣ < k ⇔ |ψ − ψ| < k · |||c‖| s
⇔ ψ ∈(ψ − k · |||c‖| s, ψ + k · |||c‖| s
).
Dies fuhrt unmittelbar zur nachsten Feststellung:
Feststellung 18. Ist ψ = c′β eine parametrische Funktion mit GM-Schatzer ψ,
so ist (ψ − tn−r; α/2 |||c‖| s , ψ + tn−r; α/2 |||c‖| s
)
5.3 Parameter ALM07 81
ein Vertrauensintervall fur ψ zum Niveau 1− α. ¤
Die halbe Breite des Vertrauensintervalls ist also das Produkt des kritischen Wer-
tes der zugehorigen t-Verteilung mit dem Standardfehler von ψ.
Man erkennt sofort, dass der ubliche Zusammenhang zwischen Vertrauensin-
tervallen und entsprechenden Tests besteht: Testet man auf dem α-Niveau die
Hypothesen H0 : ψ = ψ0 und H1 : ψ 6= ψ0 mit dem Verfahren aus Feststel-
lung 17, so wird die Nullhypothese genau dann verworfen, wenn das (1 − α)-
Vertrauensintervall fur ψ den Wert ψ0 nicht enthalt.
Es folgen zwei Beispiele aus der einfachen linearen Regression:
Zunachst soll ein Vertrauensintervall fur die Steigung β der wahren Regressionsge-
raden angegeben werden. Der Standardfehler von β wurde oben schon bestimmt.
Als Vertrauensintervall ergibt sich damitβ − tn−2; α/2
√1− r2
U,Y√n− 2
SY
SU
, β + tn−2; α/2
√1− r2
U,Y√n− 2
SY
SU
.
Im Beispiel von S.74ff war der Standardschatzfehler von β gleich .338; mit t5; .025 =
2.5706 und β = 1 erhalt man hier als 95%-Vertrauensintervall fur β das Intervall
(1− 2.57 · 0.338, 1 + 2.57 · 0.338) = (.131, 1.869) ,
das ubrigens die 0 nicht enthalt, entsprechend der Tatsache, dass der Test, ob β
gleich 0 ist, auf dem 5%-Niveau nicht signifikant wurde.
Als nachstes soll ein Vertrauensintervall fur den Erwartungswert E(y) bei ei-
nem vorgegebenen Wert u der unabhangigen Variable U ermittelt werden. Dieser
Erwartungswert ist gleich βu + α. Druckt man dies in den Parametern β und
γ = βu + α nach der Umparametrisierung aus, so ist dieser Erwartungswert
wegen α = γ − βu gleich βu + γ − βu = β(u − u) + γ. Dies ist eine para-
metrische Funktion ψ des Parametervektors (γ, β)′ mit dem Koeffizientenvektor
c = (1, (u− u))′. Da die Matrix (X′X)−1 hier gleich
1
n
(1 0
0 1/S2U
)
ist, folgt|||c‖|2 = c′(X′X)−1c
=1
n+
(u− u)2
nS2U
=1
n
((u− u)2
S2U
+ 1
).
5.3 Parameter ALM07 82
Berucksichtigt man noch s2 = n(1− r2U,Y )S2
Y /(n− 2), so ergibt sich hier fur den
Standardfehler |||c‖| s der Wert
√((u− u)2
S2U
+ 1
) √(1− r2
U,Y ) S2Y
(n− 2)=
√((u− u)2
S2U
+ 1
)s√n
.
Der zweite Faktor s/√
n hangt dabei nicht von u ab.
Der Standardfehler ist noch mit tn−2; α/2 zu multiplizieren, um zur halben Breite
des Vertrauensintervalls zu gelangen, das naturlich im geschatzten Wert βu+α =
β(u− u) + γ zu zentrieren ist.
Dies Vertrauensintervall ist damit gleich
((βu + α) − tn−2; α/2 |||c‖| s , (βu + α) + tn−2; α/2 |||c‖| s
).
Wie man sieht, ist die Breite des Vertrauensintervalls nicht konstant, sondern
hangt von dem betrachteten Wert u von U ab. Am kleinsten ist sie fur u = u.
Hier ist der Standardfehler dann s/√
n.
Zu bemerken ist ferner, dass hier nur ein Vertrauensintervall an einer festen
Stelle u gebildet wird. Mochte man mehrere Vertrauensintervalle oder gar be-
liebig viele Vertrauensintervalle zu wechselnden Werten von U bilden, so hat
man Uberlegungen zur Adjustierung anzustellen.
Es sollen nun fur das Beispiel von S.74ff zwei 95%-Vertrauensintervalle fur E(y)
gebildet werden (ohne Adjustierung). Als Werte fur U soll einmal der Wert u = 2
gewahlt werden, fur den das Intervall ja die kleinste Breite besitzt, und einmal der
Wert 0, womit man dann gleichzeitig ein Vertrauensintervall fur α konstruiert.
In beiden Fallen benotigt man den Faktor s/√
n, der hier gleich√
3.2/7 = .676
ist. Fur u = u = 2 ist der erste Faktor in dem Ausdruck fur den Standardfehler
gleich 1, so dass .676 bereits der Standardfehler ist. Wegen t5; .025 = 2.5706 und
ψ = α + 2β = 1 + 2 · 1 = 3 erhalt man als 95%-Vertrauensintervall fur den
Erwartungswert von y an der Stelle u = 2 das Intervall
(3− 2.5706 · 0.676, 3 + 2.5706 · 0.676) = (1.262, 4.738) .
Im Falle u = 0 ist der Standardfehler des gerade behandelten Falls noch mit dem
Faktor√
(u− u)2/S2U + 1 =
√(0− 2)2/4 + 1 =
√2 = 1.414 zu multiplizieren,
5.3 Parameter ALM07 83
der gleich .956 ist. Mit α = 1 ergibt sich daher als 95%-Vertrauensintervall fur α
das Intervall
(1− 2.5706 · 0.956, 1 + 2.5706 · 0.956) = (−1.458, 3.458) ,
das die Null enthalt, enstprechend der Tatsache, dass ja hier der Test von α = 0
auf dem 5%-Niveau nicht signifikant wurde.
Bisher wurden Intervalle fur Erwartungswerte von Y bei festen Werten u von U
gebildet. Manchmal mochte man jedoch ein Intervall haben, in dem sich der Wert
einer zufallig zu ziehenden Versuchsperson mit dem Wert u in der Variable U mit
der Wahrscheinlichkeit (1 − α) aufhalten wird (Vorsicht: diese Formulierung ist
nicht ganz zulassig, es handelt sich sozusagen um ein zusammengesetztes Expe-
riment, bei dem zuerst aufgrund einer ersten Stichprobe die Parameter geschatzt
werden und dann eine zusatzliche Person gezogen wird).
Als Erganzung soll nun ein solches Intervall bestimmt werden, das dann den
Namen (1− α)-Vorhersageintervall bekommen soll.
Man hat also zwei unabhangige Experimente, eines, in dem man die Parameter
schatzt, und ein weiteres, in dem eine Person mit einem bestimmten Wert u
von U zufallig gezogen wird. Als Ergebnis des ersten Experiments erhalt man
eine Schatzung ψ des unbekannten Erwartungswertes ψ = βu + α an der Stelle
U = u, die N(ψ, |||c‖|2σ2)-verteilt ist. Fur das Ergebnis y des zweiten Teils des
Experiments gilt y ∼ N(βu + α, σ2).
Bildet man nun die Variable y − ψ, so ist auch diese wegen der Unabhangigkeit
von ψ und y normalverteilt, und zwar mit Erwartungswert βu + α − ψ = 0 und
Varianz (|||c‖|2 + 1) σ2. Die Variable
x = (y − ψ)
/√|||c‖|2 + 1
hat folglich eine N(0, σ2)-Verteilung.
Da s2 von ψ unabhangig ist, ist auch v = (n−2)s2 von y− ψ unabhangig. Außer-
dem besitzt v eine σ2χ2n−2-Verteilung. Insgesamt folgt, dass x/s = x/
√v/(n− 2)
eine tn−2-Verteilung hat.
Setzt man wieder k = tn−2; α/2, so folgt P(|x/s| < k) = 1 − α. Das Ereignis
|x/s| < k ist gleichbedeutend mit
|y − ψ| < k
√|||c‖|2 + 1 s ,
5.3 Parameter ALM07 84
woraus
P
(ψ − k s
√|||c‖|2 + 1 < y < ψ − k s
√|||c‖|2 + 1
)= 1− α
folgt.
Setzt man fur |||c‖| und s die schon hergeleiteten Ausdrucke ein, so erhalt man
das angestrebte Gesamtergebnis, dass die Wahrscheinlichkeit, dass sich y in dem
Intervall um ψ mit der halben Breite
tn−2; α/2
√((u− u)2
S2U
+ n + 1
)(1− r2
U,Y )S2Y
n− 2
aufhalt, gerade gleich 1 − α ist. Dies Intervall ist also das gewunschte (1 − α)-
Vorhersageintervall.
Die halbe Intervallbreite kann auch wieder als
tn−2; α/2
√((u− u)2
S2U
+ n + 1
)s√n
geschrieben werden; alternativ auch als
tn−2; α/2
√(1 +
1
n+
(u− u)2
n S2U
)s ,
was hier vielleicht naheliegender ist, da so die halbe Intervallbreite als Vielfaches
der geschatzten Fehlerstreuung s geschrieben wird.
Der Unterschied zu dem oben hergeleiteten Vertrauensintervall fur den Erwar-
tungswert von y an der Stelle u liegt darin, dass der Summand 1 unter der Wurzel
hier durch n + 1 ersetzt ist, was – nicht unerwartet – zu einer Verbreiterung des
Intervalls fuhrt.
Zum Vergleich mit den oben fur das Beispiel von S.74ff konstruierten Vertrau-
ensintervallen fur die Erwartungswerte von y fur u = 2 und u = 0 sollen nun die
entsprechenden 95%-Vorhersageintervalle angegeben werden.
Die Werte fur s/√
n = .676 und t5; .025 = 2.5706 sind schon bekannt. Es bleibt
noch der dritte Faktor zu bestimmen, fur den sich im Fall u = 2 und u = 0 die
Werte√
0 + 7 + 1 =√
8 = 2.828 und√
(0− 2)2/4 + 7 + 1 =√
9 = 3 ergeben.
Die beiden Vorhersageintervalle sind daher
(3− 2.5706 · 2.828 · 0.676, 3 + 2.5706 · 2.828 · 0.676 = (−1.914, 7.914)
5.3 Parameter ALM07 85
und
(1− 2.5706 · 3 · 0.676, 1 + 2.5706 · 3 · 0.676) = (−4.213, 6.213) .
In der Tat sind diese Intervalle breiter als die Vertrauensintervalle fur die Erwar-
tungswerte. Die Interpretation der konkreten Intervalle ist nicht unkompliziert.
Man muss darauf hinweisen, dass ein solches Intervall nach einem Verfahren kon-
struiert wurde, das, wenn noch ein weiterer Wert y fur Y an der Stelle u un-
abhangig erhoben wird, insgesamt mit Wahrscheinlichkeit 1 − α eine Situation
liefert, in der der Wert y in dem Vorhersageintervall enthalten ist.
Die Aussage, dass ein konkretes Vorhersageintervall mit einer Wahrscheinlichkeit
von 1 − α einen weiteren zufallig erhobenen Wert enthalten wird, ist hingegen
Unsinn (jedenfalls im Rahmen der klassischen Statistik).
Zur Illustration sind in der folgenden Darstellung der Daten mit der Regressions-
geraden die beiden Vertrauensintervalle und die beiden Vorhersageintervalle ein-
gezeichnet. Die Vorhersageintervalle sind durch die breiteren Linien abgegrenzt.
Man sieht, dass die Intervalle großer werden, wenn man sich vom Mittelwert
2 von U entfernt, außerdem, dass die Vorhersageintervalle großer sind als die
Vertrauensintervalle.
1
1
......................................................................................................................................................................................................................................... ...........................
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
....................
...................
u
y
sss ss s
s
...................................................................................................................................................................................................................................................................................................................................................................................................................
...............
...............
...............
...............
...............
................
...............
...............
...............
...............
...............
...............
................
...............
...............
...............
...............
...............
...............
...............
................
...............
...............
...............
........
...........................................
...........................................
......................
......................
................
...............
................
................
...............
................
...............
................
...............
................
...............
................
...............
................
...............
................
...............
................
................
...............
................
...............
........
...........................................
...........................................
......................
......................
Bei der multiplen Regression kann man leicht entsprechende Formeln fur Vertrau-
ensintervalle fur Parameter und Erwartungswerte von y fur vorgegebene Werte
der Pradiktoren herleiten, ebenso fur Vorhersageintervalle.
5.3 Parameter ALM07 86
Der Vollstandigkeit halber sollen auch diese Formeln angegeben werden. Die An-
zahl der Pradiktoren sei wieder m und ihre Kovarianzmatrix S sei invertierbar.
Zunachst galt hier
s =
√n (1−R2) S2
Y
(n−m− 1)=
√n
(n−m− 1)
√(1−R2) SY .
Mit dem schon oben bestimmten Wert fur |||c‖| zu βj erhalt man als (1 − α)-
Vertrauensintervall fur das Regressionsgewicht βj das Intervalle um βj mit halber
Breite
tn−m−1; α/2
√sjj (1−R2) S2
Y
(n−m− 1),
wo sjj wieder das j-te Diagonalelement der Matrix S−1 ist.
Hier wird ubrigens ein wesentlicher Nachteil der Multikollinearitat deutlich, die
ja dann auftritt, wenn die Pradiktoren hohe Korrelationen haben. In diesem Fall
hat die Matrix S oft kleine Eigenwerte, und da die Eigenwerte von S−1 die Kehr-
werte der Eigenwerte von S sind, mussen sich in der Diagonale von S−1 dann
einige große Zahlen befinden – einige der sjj sind dann also ziemlich groß. Es
folgt, dass die Vertrauensintervalle der zugehorigen βj ziemlich groß werden, was
wiederum bedeutet, dass diese Regressionsgewichte nur sehr ungenau geschatzt
werden konnen.
Fur das Vertrauensintervall fur den Erwartungswert von y an der Stelle u be-
rechnet man zunachst |||c‖|2 zu
|||c‖|2 =1
n
(1 + (u− u)′S−1(u− u)
).
Hierbei ist u naturlich der Mittelwertvektor der Pradiktoren. Ubrigens ist der
Ausdruck (u − u)′S−1(u − u) gerade die quadrierte Mahalanobisdistanz von u
zum Zentroid u.
Als (1 − α)-Vertrauensintervall fur den Erwartungswert von y an der Stelle u
erhalt man so das Intervall um den geschatzten Erwartungswert β′u + α mit der
halben Breite
tn−m−1; α/2
√(1 + (u− u)′S−1(u− u)) (1−R2) S2
Y
(n−m− 1),
die man alternativ auch als
tn−m−1; α/2
√1 + (u− u)′S−1(u− u)
s√n
5.3 Parameter ALM07 87
schreiben kann. Setzt man speziell u = 0, so erhalt man ein Vertrauensintervall
fur die Konstante α.
Als (1−α)-Vorhersageintervall fur einen neuen Wert von y an der Stelle u ergibt
sich schließlich das Intervall um β′u + α mit der halben Breite
tn−m−1; α/2
√1 +
1 + (u− u)′S−1(u− u)
ns .
Bemerkenswert ist bei den letzten Formeln, dass die Abhangigkeit der Intervall-
breiten von u in Form einer Abhangigkeit von der quadrierten Mahalanobisdi-
stanz (u− u)′S−1(u− u) von u zu u auftritt.
Tests und Konfidenzbereiche fur mehrdimensionale parametrische Funk-
tionen. Oft interessiert man sich nicht isoliert fur nur einen Parameter oder eine
parametrische Funktion, sondern mochte mehrere Parameter oder Funktionen auf
einmal untersuchen. In einem solchen Fall konnen Konfidenzbereiche eine sinn-
volle Alternative zu isolierten Konfidenzintervallen sein (bei denen gegebenenfalls
das Niveau zu adjustieren ist).
Als einfaches Beispiel soll die einfache lineare Regression dienen. Hier kann es
sein, dass man sich nicht nur isoliert fur den Achsenabschnitt α und die Steigung
β interessiert, sondern fur beide Parameter auf einmal. Daruber hinaus konnen
auch noch Schatzungen des Erwartungswerts von y fur viele Werte des Pradiktors
U wichtig sein; alle diese Erwartungswerte sind von der Form βu+α, also parame-
trische Funktionen mit Koeffizientenvektoren (1, u)′, wenn die Parameter wieder
in der Reihenfolge α, β angeordnet sind.
Allgemein soll die Designmatrix wie ublich eine (n×k)-Matrix sein, die den Rang
r besitzt (in vielen Anwendungsfallen wird dann r = k gelten).
Es sollen nun h parametrische Funktionen ψ1, . . . , ψh auf einmal untersucht wer-
den, die im Fall einer Designmatrix mit Rangdefekt als identifizierbar vorausge-
setzt seien. Die Funktionen fasst man zu einem Vektor ψ zusammen.
Ist cj der Koeffizientenvektor von ψj, so ist ublich, diese Vektoren zeilenweise zu
einer Matrix C zusammenzufassen, die auch Koeffizientenmatrix von ψ heißen
soll. Die Matrix C ist dann eine (h× k)-Matrix, die als j-te Zeile den (transpo-
nierten) Koeffizientenvektor cj von ψj enthalt. Die Beziehungen ψj = c′jβ werden
mit Hilfe von C zu der Gleichung ψ = Cβ zusammengefasst.
5.3 Parameter ALM07 88
Zu jedem Koeffizientenvektor cj gehort ein Schatzerkoeffizientenvektor aj. Ana-
log zur Matrix C bildet man die (h× n)-Matrix A zeilenweise aus den (transpo-
nierten) Schatzerkoeffizientenvektoren aj; diese Matrix soll den Namen Schatzer-
koeffizientenmatrix von ψ erhalten.
Da zwischen dem Koeffizientenvektor c einer identifizierbaren parametrischen
Funktion und dem zugehorigen Schatzerkoeffizientenvektor a die Beziehung c =
X′a besteht, folgt fur die beiden Matrizen C und A die Gleichung C = AX
(dies ist die transponierte Form der Gleichung C′ = X′A′, die ihrerseits alle
Einzelbeziehungen in Matrixform zusammenfasst).
Die neuen Begriffe sollen nun am Beispiel der einfachen linearen Regression illu-
striert werden. Hier soll nach dem Achsenabschnitt α und der Steigung β gefragt
werden. Vorausgesetzt sei dabei, dass die Rechnung auf der Grundlage des wie
ublich umparametrisierten Modells erfolgt, bei dem der erste Parameter γ der
Erwartungswert von y im Mittelwert u von U ist und der zweite Parameter β
die Steigung der Regressionsgerade. Man erhalt dann bekanntlich α und β als
parametrische Funktionen des neuen Parametervektors β = (γ, β)′ mit den Ko-
effizientenvektoren (1,−u)′ und (0, 1)′.
Fasst man die beiden gesuchten Werte α und β nun zu ψ = (α, β)′ zusammen,
so erhalt man die Koeffizientenmatrix C von ψ, indem man die beiden Koeffizi-
entenvektoren als Zeilen untereinanderschreibt. Hier gilt also
C =
(1 −u
0 1
)
und damit ψ = Cβ.
Auch die zugehorige Matrix A soll zur Verdeutlichung bestimmt werden; da-
bei sollen die Daten des Beispiels von S.74ff verwendet werden. Hier waren die
Schatzerkoeffizientenvektoren schon zu (1/28)(10, 8, 6, 4, 2, 0,−2)′ (fur α) und
(1/28)(−3,−2,−1, 0, 1, 2, 3)′ (fur β) bestimmt worden. Die Matrix A erhalt man
nun wieder dadurch, dass man diese beiden Vektoren als Zeilen untereinander-
schreibt als
A =1
28
(10 8 6 4 2 0 −2
−3 −2 −1 0 1 2 3
).
Zur Kontrolle rechnet man leicht nach, dass AX = C gilt – im Falle dieser Daten
ist ja u = 2 und daher
C =
(1 −2
0 1
).
5.3 Parameter ALM07 89
Im allgemeinen Fall soll nun als weitere Voraussetzung C den Rang h besitzen,
was inhaltlich bedeutet, dass keine der parametrischen Funktionen eine Linear-
kombination der ubrigen sein soll, und damit eine vom okonomischen Standpunkt
her sicher sinnvolle Forderung ist.
Die Bedingung, dass C den Rang h besitzt, ist gleichwertig damit, dass A den
Rang h besitzt, was wohl zu erwarten ist und hier fur Interessierte genauer aus-
gefuhrt werden soll. Einerseits gilt Rang(C) ≤ Rang(A), da ja die Beziehung
C = AX gilt. Andererseits liegen die Zeilen von A in Bild(X), so dass es eine
Matrix B gibt mit A′ = XB. Aus C = AX folgt damit CB = AXB = AA′, und
da der Rang von AA′ gleich dem Rang von A ist, folgt Rang(A) = Rang(AA′) ≤Rang(C) und insgesamt Rang(A) = Rang(C).
Um ψ zu schatzen, setzt man naheliegenderweise die Gauß-Markoff-Schatzer ψj
der Komponenten ψj von ψ zu einem Vektor ψ zusammen. Die j-te Komponente
dieses Vektors erhalt man mit Hilfe des entsprechenden Schatzerkoeffizientenvektors
aj auch als a′jy, was zusammengefasst die Gleichung ψ = Ay ergibt.
Man kann die Komponenten von ψ, da sie GM-Schatzer sind, auch in der Form
a′jy schreiben und erhalt damit fur ψ zusammengefasst die Gleichung ψ = Ay.
Aus Feststellung 14 folgt dann wieder, dass ψ = Ay und der Varianzschatzer s2
unabhangig sind.
Die Verteilung von ψ = Ay ist eine Multinormalverteilung mit Erwartungswert
E(ψ) = E(Ay) = AE(y) = AXβ = Cβ = ψ
und Kovarianzmatrix
V(ψ) = V(Ay) = AV(y)A′ = A(σ2I)A′ = σ2AA′ .
Insbesondere ist ψ erwartungstreu fur ψ.
In dem Fall, dass X vollen Rang besitzt, kann man die einzelnen Gleichungen
aj = X(X′X)−1cj spaltenweise zusammenfassen zu A′ = X(X′X)−1C′ oder zu
A = C(X′X)−1X′, woraus
AA′ = (C(X′X)−1X′)(C(X′X)−1X′)′
= C(X′X)−1X′X(X′X)−1C′ = C(X′X)−1C′
folgt.
Fur die Matrix AA′ soll als Hinweis darauf, dass sie eigentlich von der Matrix C
abstammt, auch die Abkurzung KC gebraucht werden. Der Rang von KC = AA′
5.3 Parameter ALM07 90
ist gleich dem von A, also gleich h, weshalb diese Matrix regular ist, außerdem
naturlich auch positiv definit.
Zusammengefasst ergibt sich die nachste Feststellung:
Feststellung 19. Ist ψ = Cβ ein Vektor aus h identifizierbaren parametrischen
Funktionen ψ1, . . . , ψh mit Koeffizientenmatrix C und Schatzerkoeffizientenmatrix
A, und ist ψ der zugehorige Vektor der Gauß-Markoff-Schatzer, so gilt
ψ ∼ Nh(ψ, σ2KC)
mit KC = AA′. Der Zufallsvektor ψ ist von s2 unabhangig. Im Falle einer De-
signmatrix von vollem Rang gilt auch KC = C(X′X)−1C′. ¤
Wahrend die Formel fur die Kovarianzmatrix von ψ den unbekannten Faktor σ2
enthalt, fallt dieser bei der Korrelationsmatrix weg. Ist namlich DC die Diago-
nalmatrix aus den Diagonalelementen von KC, so ist σ2DC die Diagonalmatrix
der Varianzen der Koeffizienten von ψ. Die Korrelationsmatrix von ψ errechnet
sich dann bekanntlich zu
(σ2DC
)−1/2 (σ2KC
) (σ2DC
)−1/2= D
−1/2C KCD
−1/2C ,
womit hier in der Tat der Faktor σ2 wegfallt.
Es soll nun die quadrierte Mahalanobisdistanz von ψ zu einem fest vorgegebenen
Vektor ψ0 berechnet werden. Das Ergebnis ist
(ψ −ψ0)′(σ2 KC)−1(ψ −ψ0) =
(ψ −ψ0)′(KC)−1(ψ −ψ0)
σ2.
Diese neue Variable hat bekanntlich eine χ2-Verteilung mit h Freiheitsgraden und
Nonzentralitatsparameter
δ2 =(ψ −ψ0)
′(KC)−1(ψ −ψ0)
σ2.
Fur weitere Rechnungen ist diese Variable jedoch ungeeignet, da σ2 unbekannt
ist. Ersetzt man nun σ2 durch die erwartungstreue Schatzung s2 und dividiert
außerdem durch h, so erhalt man mit
(1/h) (ψ −ψ0)′(KC)−1(ψ −ψ0)
s2=
(1/h) (ψ −ψ0)′(KC)−1(ψ −ψ0)/σ
2
(1/(n− r)) ((n− r)s2/σ2)
eine Variable, deren Verteilung nach der schon durchgefuhrten Umformung leicht
bestimmt werden kann: Zahler und Nenner sind unabhangig, da der Zahler eine
5.3 Parameter ALM07 91
Funktion von y und der Nenner eine Funktion von e ist und diese beiden Variablen
unabhangig sind. Der Zahler der umgeformten Variable ist eine nichtzentral χ2-
verteilte Variable, die durch die Anzahl h ihrer Freiheitsgrade dividiert wurde,
und deren Nonzentralitatsparameter eben schon bestimmt wurde. Der Nenner ist
nach Feststellung 13 eine χ2-verteilte Variable, die durch die Anzahl (n− r) ihrer
Freiheitsgrade dividiert wurde. Daher ist die Verteilung des gesamten Bruches
eine nonzentrale F -Verteilung mit h Zahler- und (n − r) Nennerfreiheitsgraden
und dem schon oben bestimmten Nonzentralitatsparameter δ2.
Zusammengefasst erhalt man also die nachste Feststellung:
Feststellung 20. Hat die Designmatrix X den Rang r, ist ψ = Cβ ein Vektor
von h identifizierbaren Funktionen, dessen Koeffizientenmatrix C den Rang h
besitzt und ist ψ0 ein fester Vektor, so gilt
(1/h) (ψ −ψ0)′(KC)−1(ψ −ψ0)
s2∼ Fh, n−r, δ2
mit
δ2 =(ψ −ψ0)
′(KC)−1(ψ −ψ0)
σ2.
Im Falle ψ0 = ψ ist δ2 = 0 und die Verteilung eine zentrale F -Verteilung mit h
Zahler und (n− r) Nennerfreiheitsgraden. ¤
Die Feststellung 20 fuhrt sofort zur Moglichkeit eines Hypothesentests:
Feststellung 21. Hat die Designmatrix X den Rang r, ist ψ = Cβ ein Vektor
von h identifizierbaren parametrischen Funktionen, dessen Koeffizientenmatrix C
den Rang h besitzt und ist ψ0 ein fester Vektor, so konnen die Hypothesen
H0 : ψ = ψ0
H1 : ψ 6= ψ0
auf dem Niveau α mit der Statistik
F =(1/h) (ψ −ψ0)
′(KC)−1(ψ −ψ0)
s2
getestet werden. Die Nullhypothese ist zu verwerfen, falls F ≥ Fh, n−r; α gilt.
Die Begrundung ergibt sich unmittelbar aus Feststellung 20, wenn man berucksich-
tigt, dass der Nonzentralitatsparameter bei Gultigkeit von H0 gleich 0 ist. ¤
Die power dieses Tests ermittelt man mit Hilfe des Nonzentralitatsparameters
δ2 =(ψ −ψ0)
′(KC)−1(ψ −ψ0)
σ2.
5.3 Parameter ALM07 92
Als Beispiel kann nun getestet werden, ob in der Situation der einfachen linearen
Regression mit den Daten von S.74 die Parameter α und β beide 0 sind. Bezeich-
net man mit ψ den Vektor (α, β)′, so geht es nun um die Frage, ob ψ gleich 0
ist, anders formuliert, ob die Regressionsgerade die Gerade y = 0 ist, also die
U -Achse.
Die GM-Schatzer wurden schon zu α = 1 und β = 1 bestimmt; der Schatzer von
ψ = (α, β)′ ist daher ψ = (1, 1)′.
Die Faktoren fur KC = C(X′X)−1C′ wurden ebenfalls schon bestimmt; als Pro-
dukt erhalt man
KC =
(1 −2
0 1
)1
28
(4 0
0 1
)(1 0
−2 1
)=
1
28
(8 −2
−2 1
).
In der Diagonale stehen ubrigens die oben schon berechneten Werte |||c1‖|2 und
|||c2‖|2 (was naturlich immer so sein muss). Man kann außerdem die Korrelation
von α und β zu −2/(√
8√
1) = −√2/2 = −.7071 berechnen. Die beiden Schatzer
besitzen also eine recht hohe negative Korrelation.
Die Matrix (KC)−1 bestimmt man nun zu
(28/4)
(1 2
2 8
)=
(7 14
14 56
).
Da hier getestet werden soll, ob beide Parameter 0 sind, ist ψ0 = 0, und mit
h = 2 und s2 = 16/5 ist schließlich die Teststatistik gleich
F =(1/2) ψ
′(KC)−1ψ
s2=
(1/2) 91
16/5=
455
32= 14.219 .
Dieser Wert ist beim Testen auf dem 5%-Niveau zu vergleichen mit dem 5%-
Fraktil der F2, 5-Verteilung, also mit 5.786. Die Nullhypothese kann also verworfen
werden.
Zur Erganzung soll auch noch die power des Tests bestimmt werden fur den schon
oben untersuchten Fall, dass die wahre Regressionsgerade y = u+2 ist und σ2 = 4
gilt. Fur das wahre ψ gilt dann also ψ = (2, 1)′. Wegen ψ0 = 0 erhalt man jetzt
δ2 =ψ′(KC)−1ψ
σ2=
140
4= 35 .
Die power des Tests ist dann .9687.
5.3 Parameter ALM07 93
Bemerkenswert ist, dass in dieser Situation die power des Gesamttests deutlich
hoher ist als die entsprechenden Werte der power bei den Einzeltests, ob α und β
gleich 0 sind. Man hat hier also einen Fall, in dem der Gesamttest den Einzeltests
vorzuziehen ist.
Bei den Einzeltests hatte sich fur die konkreten Daten nur ein signifikantes Er-
gebnis fur β ergeben, allerdings ohne Adjustierung. Interessant ist daher auch,
was mit Bonferroni-Adjustierung herausgekommen ware. Man hatte dann die
Einzeltests auf dem 2.5%-Niveau durchfuhren mussen, wofur der kritische Wert
t5; .0125 = 3.1634 gewesen ware. In diesem Fall ware keiner der Einzeltests signifi-
kant geworden.
Dies Beispiel darf allerdings nicht vorschnell verallgemeinert werden: Einerseits
hatte es hier bei anderen Werten der Variable Y auch sein konnen, dass ein Ein-
zeltest auf dem adjustierten Niveau signifikant wird, der Gesamttest jedoch nicht
(die Tatsache, dass die power der Einzeltests geringer ist als die des Gesamttests,
darf also nicht missverstanden werden in dem Sinn, dass der Gesamttest etwa im-
mer dann signifikant wurde, wenn ein Einzeltest signifikant wird). Andererseits
sind auch bei der einfachen linearen Regression andere Konstellationen denkbar,
bei denen die power eines der Einzeltests auch bei Adjustierung großer ist als die
des Gesamttests.
Als weiteres Beispiel soll die Frage getestet werden, ob im Fall einer multiplen
Regression alle Regressionsgewichte 0 sind. Es geht also um das Modell
E(y) =∑
βjuj + α .
Die Zahl der Pradiktoren Uj sei m, und es wird vorausgesetzt, dass die Kovarianz-
matrix S der Pradiktoren Rang m besitzt. Nach der ublichen Umparametrisierung
sind die neuen Parameter der Erwartungswert γ im Zentroid u der Pradiktoren
und die Regressionsgewichte βj. Der Parametervektor β ist dann (γ, β1, . . . , βm)′.
Fasst man die Regressionsgewichte βj zu dem Vektor ψ zusammen, so gilt ψ =
Cβ mit der Matrix
C =(0 Im
),
die sich aus einer ersten Nullspalte und einer (m×m)-Einheitsmatrix zusammen-
setzt.
Die Matrix KC ist gleich (1/n)S−1, wie man unmittelbar sieht, wenn man die
Form der Matrix X′X berucksichtigt, die sich ja, wie sich schon gezeigt hat, aus
5.3 Parameter ALM07 94
der Zahl n oben links und der Matrix nS unten rechts zusammensetzt. Der Vektor
ψ besteht aus den geschatzten Regressionsgewichten..
Da hier getestet werden soll, ob alle Regressionsgewichte 0 sind, ist ψ0 = 0. Der
Ausdruck (ψ−ψ0)′(KC)−1(ψ−ψ0) ist daher hier gleich n ψ
′Sψ. Die Zahl ψ
′Sψ
ist die Varianz der fur die gegegeben Werte der Pradiktoren U vorhergesagten
Werte, denn die Kovarianzmatrix der Pradiktoren ist ja S und ψ ist der Vektor
der der Koeffizienten bei der Vorhersage. Es gilt also ψ′Sψ = R2S2
Y .
Da die Matrix C offenbar den Rang m besitzt, ist m auch die Zahl der Zahlerfrei-
heitsgrade des Tests. Der Wert von s2 wurde schon zu (n/(n−m−1))(1−R2)S2Y
bestimmt. Als Teststatistik F erhalt man daher
(1/m) ψ′(KC)−1ψ
s2=
(n/m) R2S2Y
(n/(n−m− 1)) (1−R2)S2Y
=(n−m− 1)
m
R2
(1−R2).
Unter H0 besitzt diese Statistik F eine Fm, (n−m−1)-Verteilung, weshalb die Null-
hypothese auf Niveau α dann zu verwerfen ist, wenn F ≥ Fm, (n−m−1); α gilt.
Ganz analog kann man einen Test der Frage angeben, ob die Regressionsgewichte
gleich gewissen vorgegebenen Zahlen βj0 sind, die dann in ψ0 zusammenzufassen
sind. Man muss nur oben dieses ψ0 an die Stelle des dortigen ψ0 = 0 setzen.
Allgemein lassen sich offenbar viele interessante Fragestellungen im Bereich des
ALM mit Hilfe von Vektoren von parametrischen Funktionen formulieren und
dann mit dem gerade konstruierten Test als Hypothesen untersuchen. Auf weitere
Beispiele wird jedoch vorlaufig verzichtet, da bald ein weiterer Test besprochen
werden soll, der von der Konstruktion her fur viele Fragen zunachst als passender
erscheint. Es wird sich jedoch zeigen, dass dieser neue Test als Spezielfall des hier
besprochenen aufgefasst werden kann, namlich als der mit ψ0 = 0.
Das nachste Ziel ist die Konstruktion eines Vertrauensbereichs fur ψ.
Setzt man in die Statistik aus Feststellung 20 fur ψ0 den Wert ψ ein und multi-
pliziert man beide Differenzen ψ − ψ mit −1, was den Wert der Statistik nicht
andert, so erhalt man das Ergebnis
(1/h) (ψ − ψ)′(KC)−1(ψ − ψ)
s2∼ Fh, n−r ,
woraus beispielsweise
P
((1/h) (ψ − ψ)′(KC)−1(ψ − ψ)
s2< Fh, n−r; α
)= 1− α
5.3 Parameter ALM07 95
folgt.
Das Ereignis(1/h) (ψ − ψ)′(KC)−1(ψ − ψ)
s2< Fh, n−r; α
tritt genau dann ein, wenn
(ψ − ψ)′(KC)−1(ψ − ψ) < h s2 Fh, n−r; α
eintritt, was sich auch als
ψ ∈ E(KC, ψ,
√hFh, n−r; α s
)
schreiben lasst. Das Ergebnis der Umformung,
P(ψ ∈ E
(KC, ψ,
√hFh, n−r; α s
))= 1− α ,
zeigt, dass man einen (1 − α)-Konfidenzbereich fur den unbekannten Vektor ψ
gefunden hat.
Feststellung 22. Hat die Designmatrix X den Rang r und ist ψ = Cβ ein Vektor
von h identifizierbaren Funktionen, dessen Koeffizientenmatrix C den Rang h
besitzt, so ist das Ellipsoid
E(KC, ψ,
√hFh, n−r; α s
)
ein (1− α)-Konfidenzbereich fur ψ. ¤
Mit der Umformung
E(KC, ψ,
√h Fh, n−r; α s
)= E
(s2 KC, ψ,
√hFh, n−r; α
),
erhalt man eine Alternativbeschreibung des Ellipsoids, die fur manche Zwecke
praktischer ist.
Als Beispiel soll fur die einfache lineare Regression mit den schon mehrfach unter-
suchten Daten von S.17 ein Konfidenzbereich fur die beiden Parameter α (Ach-
senabschnitt) und β (Steigung) konstruiert werden.
Nach der ublichen Umparametrisierung waren α und β parametrische Funktionen
der neuen Parameter γ und β; mit ψ = (α, β)′ und β = (γ, β)′ ergab sich
ψ = Cβ, wo C die Matrix mit den Koeffizientenvektoren war.
5.3 Parameter ALM07 96
Die Schatzung von ψ war ψ = (1, 1)′.
Die Matrix KC war schon bestimmt worden zu
1
28
(8 −2
−2 1
)=
(.2857 −.0714
−.0714 .0357
).
Die Eigenwerte dieser Matrix sind 1/56 (9 ± √65), also .3047 und .0167. Als
Eigenvektoren der Lange 1 erhalt man (.9665,−.2567)′ und (.2567, .9665)′. Um
die Halbmesser eines 95%-Konfidenzbereichs zu ermitteln, braucht man noch den
Faktor√
2 F2, 5; .05 s =√
2 · 5.7861√
3.2 = 6.0853; die Halbmesser erhalt man
dann durch Multiplikation mit den Wurzeln aus den Eigenwerten, was schließlich
die Werte 3.3590 und .7875 liefert.
Die nachste Abbildung zeigt den aus diesen Ergebnissen ermittelten 95%-Kon-
fidenzbereich fur (α, β)′.
1
1
.............................................................................................................................................................................................................................................................................................................................................................................................................................................................. ...........................
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
....................
...................
α
β
.........................................................................................................................................................................................................
.................................................................
.....................................................
..............................................
.......................................
.................................
...............................
.....................
.........................................
........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
r(α, β)
Der konstruierte Konfidenzbereich schließt den Punkt (0, 0)′ aus, enthalt je-
doch Punkte, die in der ersten oder in der zweiten Komponente eine 0 besitzen.
Ubersetzt bedeutet dies, dass nicht ausgeschlossen werden kann, dass die gesuch-
te Gerade durch den Nullpunkt geht, oder dass ihre Steigung gleich 0 ist, dass
hingegen (auf dem gegebenen Niveau) ausgeschlossen werden kann, dass beides
der Fall ist, dass also der Erwartungswert von y fur alle Werte von u gleich 0 ist.
Die letzte Tatsache steht im Einklang damit, dass die Moglichkeit ψ = (0, 0)′ oben
bereits als Nullhypothese getestet und auf dem 5%-Niveau verworfen wurde.
Dies ist ein Beispiel fur einen allgemeinen Zusammenhang zwischen Tests und
Vertrauensbereichen, der jetzt hergestellt werden soll.
5.3 Parameter ALM07 97
Der oben besprochene Test, ob ψ = ψ0 gilt, wird genau dann signifikant, wenn
(1/h) (ψ −ψ0)′(KC)−1(ψ −ψ0)
s2≥ Fh, n−r; α
ist; dies tritt genau dann ein, wenn
(ψ0 − ψ)′(KC)−1(ψ0 − ψ) ≥ h s2 Fh, n−r; α
gilt, was sich auch als
ψ0 /∈ E(KC, ψ,
√hFh, n−r; α s
)
schreiben lasst.
Man erhalt so in der Tat eine Beziehung zwischen Hypothesentests und Konfi-
denzbereichen, wie sie auch aus vielen anderen Zusammenhangen bekannt ist.
Feststellung 23. Der Test der Hypothesen
H0 : ψ = ψ0
H1 : ψ 6= ψ0
auf dem Niveau α mit der Statistik
F =(1/h) (ψ −ψ0)
′(KC)−1(ψ −ψ0)
s2
wird genau dann signifikant, wenn ψ0 nicht in dem (1− α)-Konfidenzbereich
E(KC, ψ,
√hFh, n−r; α s
)
fur ψ liegt. ¤
Simultane Kondidenzintervalle. Oft interessiert man sich nicht nur fur einige
wenige parametrische Funktionen, sondern fur sehr viele. Es sei dabei vorausge-
setzt, dass die interessierenden parametrischen Funktionen sich alle als Linear-
kombinationen von einigen wenigen schreiben lassen, die ψ1, . . . , ψh heißen sollen
(es wird sich gleich zeigen, dass diese scheinbare Einschrankung in Wirklichkeit
gar keine ist). Naturlich ist von den interessierenden parametrischen Funktionen
wie auch von den ψj vorauszusetzen, dass sie identifizierbar sind.
Es kann beispielsweise sein, dass in einer varianzanalytischen Situation fur eine
spezielle Auswertung gar nicht alle Erwartungswerte wichtig sind, sondern nur
5.3 Parameter ALM07 98
die von bestimmten Gruppen, und zusatzlich Kontraste, die sich auf diese Grup-
pen beziehen. Ein weiteres Beispiel sind in der Situation einer einfachen linearen
Regression E(y) = βu+α die Erwartungswerte von Y fur unterschiedliche Werte
des Pradiktors U , die sich ja alle als Linearkombinationen von α und β schreiben
lassen.
In diesem Abschnitt soll gezeigt werden, wie man fur beliebig viele derartige
parametrische Funktionen Konfidenzintervalle konstruieren kann, ohne dabei in
Adjustierprobleme zu geraten.
Als erstes ist genauer zu klaren, was unter einer Linearkombination von gegebenen
ψj zu verstehen ist. Naturlich ist damit eine parametrische Funktion der Form
φ =∑
djψj gemeint. Sind die Koeffizientenvektoren der ψj die Vektoren cj, gilt
also ψj = c′jβ, so folgt wegen φ =∑
djψj =∑
djc′jβ = (
∑djcj)
′β, dass der
Koeffizientenvektor von φ gleich∑
djcj ist, also die Linearkombination der cj
mit den Koeffizienten dj aus der Darstellung φ =∑
djψj.
Sind dabei alle ψj identifizierbar, so ist auch φ identifizierbar. Es sei namlich
allgemein daran erinnert, dass eine parametrische Funktion ψ genau dann iden-
tifizierbar ist, wenn ihr Koeffizientenvektor c eine Linearkombination der Zeilen
von X ist, anders ausgedruckt in Bild(X′) liegt. Sind nun alle ψj identifizierbar,
so liegen alle cj in Bild(X′), damit auch∑
djcj, weshalb auch φ identifizierbar
ist.
Zunachst soll gezeigt werden, dass man in der Tat fur beliebige Mengen identifi-
zierbarer parametrischer Funktionen ψ eine endliche Anzahl von identifizierbaren
parametrischen Funktionen ψj finden kann, als deren Linearkombinationen sich
alle ψ schreiben lassen.
Die Koeffizientenvektoren c der interessierenden ψ liegen wegen der Identifizier-
barkeit alle in Bild(X′), moglicherweise sogar in einem echten Unterraum davon.
Nun wahlt man eine Basis c1, . . . , ch dieses Unterraums (oder von Bild(X′)) und
nimmt als ψj die parametrischen Funktionen, deren Koeffizientenvektoren die cj
sind. Die ψj sind dann, da ihre Koeffizientenvektoren in Bild(X′) liegen, eben-
falls identifizierbar. Da alle Koeffizientenvektoren c der interessierenden ψ sich
als Linearkombinationen der cj schreiben lassen, sind die ψ selber nun die ent-
sprechenden Linearkombinationen der ψj.
Es ist sinnvoll, bei dieser Konstruktion fur den Unterraum, der die Koeffizien-
tenvektoren der interessierenden ψ enthalt, den kleinsten zu wahlen, fur den dies
5.3 Parameter ALM07 99
der Fall ist, denn eine kleine Dimension hat Vorteile fur die Breite der zu kon-
struierenden Konfidenzintervalle.
Ausgangspunkt ist also eine Menge von identifizierbaren parametrischen Funk-
tionen ψ1, . . . , ψh mit Koeffizientenvektoren c1, . . . , cj. Interessant sind spater
beliebige Linearkombinationen dieser Funktionen, also beliebige parametrische
Funktionen der Form φ =∑
djψj.
Von den ψj kann vorausgesetzt werden, dass kein ψk als Linearkombination der
ubrigen ψj geschrieben werden kann; sonst konnte man ein solches ψk namlich
auch weglassen, ohne die Menge der Linearkombinationen der restlichen ψj im
Vergleich zum Ausgangspunkt zu verringern (in einer beliebigen Linearkombinati-
on φ aller ψj ersetzt man ψk durch eine Linearkombination der ubrigen, gruppiert
um, und druckt so φ auch als Linearkombination der ψj ohne ψk aus).
Was die cj angeht, so ist diese Voraussetzung offenbar genau dann erfullt, wenn
kein ck als Linearkombination der ubrigen cj geschrieben werden kann, was wieder
gerade bedeutet, dass die cj linear unabhangig sind (in dem hier uninteressanten
Grenzfall h = 1 ist naturlich vorauszusetzen, dass ψ1 und damit c1 nicht Null
sind).
Sinnvollerweise fasst man die parametrischen Funktionen ψj nun wieder zu einem
h-Vektor ψ zusammen und die zugehorigen Koeffizientenvektoren zeilenweise zu
einer (h × k)-Matrix C. Offenbar gilt dann ψ = Cβ. Die Zusatzvoraussetzung
uber die ψj bedeutet gerade, dass die Matrix C linear unabhangige Zeilen hat,
also den Rang h besitzt.
Fur eine Linearkombination φ =∑
djψj der ψj mit Koeffizienten dj fasst man wie
ublich die Koeffizienten in einem Koeffizentenvektor d zusammen und schreibt
dann kurz φ =∑
djψj = d′ψ; zur Verdeutlichung soll φ auch als φd geschrieben
werden. Wegen ψ = Cβ gilt
φd = d′ψ = d′(Cβ) = (C′d)′β ,
so dass das untersuchte φd den Koeffizientenvektor C′d bezuglich der Parameter
βj besitzt (wie sich ja auch schon oben gezeigt hatte). Setzt man c = C′d, so kann
man zusammenfassend auch kurz φd = ψc schreiben. Die beiden Schreibweisen
heben hervor, dass man die betrachtete parametrische Funktion einerseits als
Linearkombination der Komponenten von ψ schreiben kann, andererseits aber
auch direkt als Linearkombination der Parameter βj.
Da der Koeffizientenvektor von φd gleich C′d ist und damit eine Linearkombi-
5.3 Parameter ALM07 100
nation der Spalten cj von C′, und da diese cj wegen der Identifizierbarkeit der
ψj ihrerseits Linearkombinationen der Zeilen von X sind, ist insgesamt auch C′deine Linearkombination der Zeilen von X. Die parametrische Funktion φd ist
folglich identifizierbar.
Betrachtet man nun alle Linearkombinationen φd fur beliebige d, so bilden deren
Koeffizientenvektoren C′d zusammen gerade das Bild von C′, anders ausgedruckt
den Unterraum der Rk, der durch die cj erzeugt wird. Dieser Unterraum soll
auch mit U bezeichnet werden. Wegen der Zusatzvoraussetzung hat U gerade die
Dimension h.
So gesehen sollen also nun alle parametrischen Funktionen betrachtet werden,
deren Koeffizientenvektoren in dem h-dimensionalen Erzeugnis U der cj liegen.
In gewisser Weise bilden diese parametrischen Funktionen daher so etwas wie
einen h-dimensionalen Unterraum aller parametrischen Funktionen.
Das Ziel der weiteren Untersuchungen ist das, fur viele oder sogar alle derartigen
d′ψ auf einem vorgegebenen Konfidenzniveau Vertrauensintervalle anzugeben.
Man gerat bei diesem Ziel in die bekannte Adjustierproblematik, die darin be-
steht, dass die Wahrscheinlichkeit, dass mehrere Intervalle ihren zu schatzenden
Wert enthalten, kleiner ist als die Wahrscheinlichkeit fur ein festes einzelnes In-
tervall.
Um diesem Problem zu entgehen, wird die folgende Forderung aufgestellt: Die
Wahrscheinlichkeit, dass nicht nur ein einzelnes Vertrauensintervall seinen zu
schatzenden Wert enthalten wird, sondern dass dies fur alle Intervalle der Fall
ist, soll mindestens gleich einem vorgegebenen Wert (1− α) sein.
Fur eine kleine Zahl m interessierender Intervalle kann man das Ziel naturlich
beispielsweise durch eine Bonferroni-Adjustierung erreichen, indem man fur die
einzelnen Intervalle das Niveau (1 − α/m) wahlt. Wird die Zahl der Intervalle
großer, ist jedoch das nun zu schildernde Verfahren der simultanen Konfidenzin-
tervalle vorzuziehen.
Die Grundidee der Konstruktion ist einfach: Eine Linearkombination φd = d′ψist eine Funktion des Vektors ψ, was man auch etwas abstrakter als φd = fd(ψ)
schreiben kann – fd ist hier die lineare Abbildung, die einem Vektor x ∈ Rh die
Zahl d′x zuordnet.
Fur ψ selber hat man schon einen Konfidenzbereich, namlich das oben konstru-
5.3 Parameter ALM07 101
ierte Ellipsoid, das hier kurz E heißen soll. Es gilt also
P (ψ ∈ E) = 1− α .
Wenn aber ψ in E liegt, so liegt auch φd = fd(ψ) in fd(E), kurz:
ψ ∈ E ⇒ fd(ψ) ∈ fd(E) .
Die folgende Illustration soll dies veranschaulichen: Der Konfidenzbereich fur ψ
ist die eingezeichnete Ellipse, die lineare Abbildung ist die Projektion auf den
eingezeichneten Unterraum V (bei geeigneter Wahl des Unterraums V und seiner
Basis kann man ja alle Linearkombinationen geometrisch so deuten). Das Bild
der Ellipse ist das eingezeichnete Intervall. Der Punkt im Innern der Ellipse soll
das wahre ψ sein, und wenn dies in E liegt, so muss offenbar das Bild unter fdin dem Intervall liegen.
1
1
.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................. ...........................
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
....................
...................
ψ1
ψ2
rψ ψ
φ
E
................................
..........................................................................................................
................................................................................................................................................................................................................................................................................................................................................................
....................
........................................................
........................................................
........................................................
........................................................
........................................................
........................................................
........................................................
........................................................
........................................................
........................................................
........................................................
.........................
Vrrr.................................
........................................................................................................................................................... φ
..........................................................................................................................................................................................................................
Bezeichnet man das Ereignis, dass E den wahren Vektor ψ enthalt, mit A, und
das Ereignis, dass fd(E) den wahren Wert φd = fd(ψ) enthalt, mit Ad, so folgt,
dass das Ereignis A das Ereignis Ad nach sich zieht; immer, wenn A eintritt, tritt
also auch Ad ein, was man auch als
A ⊆ Ad
schreiben kann.
Dies gilt jedoch nicht nur fur ein spezielles d, sondern fur alle d 6= 0. Es folgt
A ⊆⋂
d6=0
Ad .
5.3 Parameter ALM07 102
Aus der linearen Algebra ist bekannt, dass hier sogar Gleichheit gilt, denn fur
Ellipsoide E gilt bekanntlich, dass ein Punkt genau dann in E liegt, wenn fur alle
eindimensionalen linearen Abbildungen f das Bild des Punktes unter f im Bild
des Ellipsoids liegt.
Bildet man die Wahrscheinlichkeiten der untersuchten Ereignisse, so folgt
1− α = P (A) = P
(⋂
d6=0
Ad
).
Liest man dies von rechts nach links, so hat man das Ergebnis, dass die Wahr-
scheinlichkeit, dass alle Ad eintreten, dass also alle fd(E) das zugehorige wahre
φd enthalten, gleich 1 − α ist; mit anderen Worten hat man so unendlich viele
Konfidenzbereiche fur alle φd gefunden, wobei die Wahrscheinlichkeit, dass alle
ihren gesuchten Wert enthalten, gerade 1− α ist.
Es bleibt noch die Aufgabe, die Form der fd(E) zu bestimmen; das Ellipsoid Eist genauer gleich
E(KC, ψ,
√hFh, n−r; α s
)
und sein Bild unter der linearen Abbildung d′ folglich das Intervall mit Mittel-
punkt d′ψ und halber Seitenlange√
hFh, n−r; α s√
d′KCd. Diese beiden Bestim-
mungsgroßen sollen nun ausgerechnet werden.
Der Koeffizientenvektor von φd oder kurz φ in Bezug auf die Parameter β wurde
oben schon zu C′d berechnet, was mit c abgekurzt werden soll; es gilt dann
φ = ψc.
In dem einfacheren Fall, dass X vollen Rang hat, gilt ψ = Cβ und daher
d′ψ = d′(Cβ) = (C′d)′β = c′β ,
was gerade der GM-Schatzer ψc = φ ist. Fur d′KCd ergibt sich in diesem Fall
d′KCd = d′C(X′X)−1C′d = c′(X′X)−1c = |||c‖|2 ,
was auch als |||C′d‖|2 geschrieben werden kann.
Fur Interessierte folgt die Diskussion des Falls, dass X nicht vollen Rang besitzt.
Ist dann A die Schatzerkoeffizientenmatrix von ψ, so gilt C = AX, woraus
c = C′d = X′A′d folgt. Der Vektor A′d, der ja mit den Spalten von A im Bild
5.3 Parameter ALM07 103
von X liegt, ist daher der Schatzerkoeffizientenvektor von φ = ψc. Mit diesen
Ergebnissen folgt
d′ψ = d′Ay = (A′d)′y ,
weshalb φ = d′ψ der GM-Schatzer von φ ist. Den Wert von |||c‖|2 errechnet man
zu
|||c‖|2 = (A′d)′(A′d) = d′(AA′)d = d′KCd ,
so dass man die gleichen Ergebnisse hat wie im Fall einer Matrix X von vollem
Rang.
Das Konfidenzintervall, das man mit dem geschilderten Verfahren fur φd = ψcerhalt, ist so das Intervall
(ψc −
√hFh, n−r; α |||c‖| s , ψc +
√hFh, n−r; α |||c‖| s
),
das sich von dem Intervall ohne Adjustierung nur dadurch unterscheidet, dass
der Faktor tn−r; α/2, mit dem der Standardfehler |||c‖| s im Ausdruck fur die hal-
be Intervallbreite zu multiplizieren ist, hier durch√
hFh, n−r; α ersetzt ist. Man
erkennt so unmittelbar die Kosten fur die gleichzeitige Untersuchung von vielen
parametrischen Funktionen. Etwas einpragsamer wird der Unterschied vielleicht,
wenn man tn−r; α/2 gleichwertig als√
1 · F1, n−r; α schreibt.
Man erkennt hier auch die Rolle der Dimension h: Je großer h ist, um so breiter
werden die simultanen Konfidenzintervalle. Aus diesem Grund sollte man, wenn
man viele parametrische Funktionen ψ untersuchen will und zu diesen ψ die ψj,
als deren Linearkombinationen die ψ dann geschrieben werden sollen, erst noch
geeignet wahlen kann, die Zahl h so klein wie moglich halten.
Insgesamt gilt fur die nun konstruierten simultanen Konfidenzinervalle die fol-
gende Feststellung:
Feststellung 24. Hat die Designmatrix X den Rang r und ist ψ = Cβ ein Vektor
von h identifizierbaren Funktionen, dessen Koeffizientenmatrix C den Rang h
besitzt, so ist die Wahrscheinlichkeit, dass fur alle d 6= 0 und c = C′d die
simultanen Konfidenzintervalle(ψc −
√hFh, n−r; α |||c‖| s , ψc +
√hFh, n−r; α |||c‖| s
),
den zugehorigen Wert d′ψ = ψc enthalten, gleich 1− α. ¤
In der nachsten Abbildung sind fur das oben untersuchte Beispiel einer einfachen
linearen Regression zusatzlich zu der bereits gefundenen Vertrauensellipse fur den
5.3 Parameter ALM07 104
Achsenabschnitt α und die Steigung β der Regressionsgeraden die Intervalle ein-
gezeichnet, die man fur α und β einzeln mit dem Verfahren der simultanen Konfi-
denzintervalle zum 95%-Niveau erhalt. Diese Intervalle sind die Projektionen der
Ellipse auf die jeweiligen Achsen. Zusatzlich sind die Grenzen der kleineren 95%-
Vertrauensintervalle ohne Adjustierung eingezeichnet, und außerdem die Grenzen
der Vertrauensintervalle mit Bonferroni-Adjustierung zu 97.5%, die zwischen den
nicht adjustierten und den simultanen Konfidenzintervallen liegen. Man erkennt
hier, wie stark sich die Intervalle bei den unterschiedlichen Adjustiermethoden
vergroßern, also gewissermaßen die Kosten fur die Untersuchung von 2 parame-
trischen Funktionen und fur die Untersuchung aller Linearkombinationen von α
und β, wofur α und β selber nur zwei spezielle Beispiele sind.
1
1
.............................................................................................................................................................................................................................................................................................................................................................................................................................................................. ...........................
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
....................
...................
α
β
.........................................................................................................................................................................................................
.................................................................
.....................................................
..............................................
.......................................
.................................
...............................
.....................
.........................................
........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
r(α, β)
......
....................................................
..........................................................
.............................r .............................
.............................
.............................
.............................
.....................................
...........................................................................................................................
.............................
.............................
r..........................................................
.............................
.............................
An diesem Beispiel sieht man ubrigens auch, dass die Bonferroni-Adjustierung
bei wenigen Fragestellungen uberlegen sein kann: Interessiert man sich hier aus-
schließlich fur α und β, so sind die Bonferroni-adjustierten Intervalle gunstiger
als die simultanen.
Ab welcher Anzahl von Fragestellungen die simultanen Intervalle schließlich gun-
stiger werden als die Bonferroni-adjustierten, bestimmt man leicht durch Ver-
gleich der Faktoren, mit denen der Standardfehler zu multiplizieren ist; diese
Faktoren sind ja tn−r; α/(2m) fur die Bonferroni-Adjustierung fur m Intervalle und√hFh, n−r; α fur die simultanen Intervalle.
Ein gutes Beispiel fur die Nutzlichkeit der simultanen Konfidenzintervalle ergibt
sich bei der Regression aus dem Wunsch, fur den Erwartungswert von y bei unter-
schiedlichen Werten der Pradiktoren adjustierte Vertrauensintervalle anzugeben.
Die simultanen Konfidenzintervalle sind sogar adjustierte Vertrauensintervalle fur
alle Wertekombinationen der Pradiktoren, also fur unendlich viele Situationen.
Im Beispiel der einfachen linearen Regression erhalt man aus den nicht adju-
5.3 Parameter ALM07 105
stierten Intervallen die simultanen Intervalle, indem man den Faktor tn−2; α/2 im
Ausdruck fur die halbe Intervallbreite durch√
2 F2, n−2; α ersetzt. Dies fuhrt fur
die Werte u des Pradiktors U zu Intervallen, deren Mittelpunkte die Schatzungen
βu+α sind – sie machen zusammen gerade die Regressionsgerade aus – und deren
halbe Breite gerade
√2 F2, n−2; α
√((u− u)2
S2U
+ 1
)(1− r2
U,Y ) S2Y
n− 2
ist.
In der nachsten Abbildung sind die Regressionsgerade und die Grenzen der si-
multanen Intervalle fur das oben behandelte konkrete Beispiel eingezeichnet. Zur
Verdeutlichung sind zwei derartige Intervalle hervorgehoben, das eine an der Stel-
le u, an der die Breite minimal ist.
Zum Vergleich geben die gepunkteten Geraden die Grenzen der Vertrauensinter-
valle ohne Adjustierung an; der Quotient der Intervallbreiten ist dabei√
2 F2, 5; .05/t5; .025 = 3.4018/2.57058 = 1.32336 .
1
1......................................................................................................................................................................................................................................... ..........................................................................................................................................................................................................................................................................................................................................................................................
u
y
rrr rr r
r
...................................................................................................................................................................................................................................................................................................................................................................................................................
.............................................................................................................
..........................................................................................................................................................................................................
............................................................................................................................................................................
..................................................................................................
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
....
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
....
.............
.........
......
.........................................
....................................
.......
...........
.......
Da die wahre Regressionsgerade sich aus den Punkten zusammensetzt, die als
zweite Koordinate den zur ersten Koordinate geschatzten Erwartungswert besit-
zen, gibt der Bereich zwischen den eingezeichneten Grenzen gewissermaßen einen
95%-Vertrauensbereich fur diese Gerade an. Genauer: Er wurde nach einem Ver-
fahren konstruiert, das einen Bereich liefert, der mit einer Wahrscheinlichkeit von
.95 die wahre Regressionsgerade enthalt.
Ganz gerechtfertigt ist allerdings diese Aussage durch die bisherigen Uberlegungen
nicht, denn hier wird ja nur eine Teilmenge aller moglichen Linearkombinationen
5.4 Hypothesentests ALM07 106
von α und β untersucht, namlich die derjenigen Linearkombinationen, die Er-
wartungswerte von Y fur mogliche Werten u von U ausdrucken. Dadurch wird
jedoch einerseits die Aussage eher starker, namlich in der Form, dass die Wahr-
scheinlichkeit, dass der angegebene Bereich die Regressionsgerade enthalt und
dass zusatzlich auch alle hier nicht betrachteten Konfindenzintervalle ihren ge-
suchten Wert enthalten, gleich 1 − α ist. Andererseits kann man jedoch auch
zeigen, dass die Aussage auch in der ursprunglichen Form richtig ist, was daran
liegt, dass hier’hinreichend viele‘ Intervalle gebildet werden.
5.4 Hypothesentests
Testen von linearen Hypothesen. In diesem Abschnitt soll eine alternative
Art des Hypothesentestens besprochen werden.
Eine Art von Hypothesen, die uber die Fragestellungen hinausgehen, die man mit
einer einzigen (eindimensionalen) parametrischen Funktion formulieren kann, sind
die, die man als lineare Hypothesen bezeichnen konnte. Vorausgesetzt ist immer,
dass ein Modell vom Typ des ALM durch seine Designmatrix X vorgegeben ist.
Dies Modell besagt insbesondere, dass sich der Erwartungswertvektor von y in
dem Unterraum V befindet, der durch die Spalten der Designmatrix X erzeugt
wird. Eine einschrankende Hypothese kann dann behaupten, dass dieser Erwar-
tungswertvektor sich in einem echten linearen Unterraum V0 von V befindet.
Eine solche Hypothese soll lineare Hypothese heißen, und es soll nun untersucht
werden, wie solche lineare Hypothesen (als Nullhypothesen) zu testen sind.
Meistens wird man den Unterraum V0 dadurch spezifizieren, dass man ein System
von Vektoren angibt, die ihn erzeugen, und die man spaltenweise zu einer Matrix
X0 zusammenstellt. Die einschrankende Hypothese behauptet dann also, dass der
Erwartungswertvektor in dem durch die Spalten von X0 erzeugten Unterraum
liegt. Mit anderen Worten gilt auch unter der einschrankenden Hypothese ein
Modell vom Typ des ALM, und zwar das, dessen Designmatrix gerade X0 ist.
In diesem Sinn testet man zwei Modelle gegeneinander, die beide vom Typ des
ALM sind. Naheliegenderweise sollen diese beiden Modelle auch das allgemeine
und das spezielle oder eingeschrankte Modell heißen. Das allgemeine Modell ist
jetzt also durch seine Designmatrix X gegeben und das spezielle durch die De-
signmatrix X0. Die Range der beiden Designmatrizen sollen r und r0 sein, und
es ist klar, dass dann sinnvollerweise r0 < r gelten muss (bei Gleichheit wurden
5.4 Hypothesentests ALM07 107
die Modelle, d.h. die zugehorigen Unterraume V und V0 ja ubereinstimmen).
Die Ausgangssituation kann also jetzt auch so beschrieben werden, dass zwei
Modelle fur dieselbe Situation gegeben sind (insbesondere stimmen naturlich die
Zeilenzahlen der Designmatrizen, also die Zahl der Beobachtungen, auf die sich
ja beide Modelle beziehen, uberein). Dabei liegt der von der Designmatrix X0 er-
zeugte Unterraum V0 der Dimension r0, der zum speziellen Modell gehort, in dem
von der Designmatrix X erzeugten Unterraum V der Dimension r, der zum all-
gemeineren Modell gehort. Die Forderung V0 ⊂ V kann man naturlich alternativ
auch als Bild(X0) ⊂ Bild(X) schreiben.
Die Hypothesen konnen dann so formuliert werden:
H0 : E(y) ∈ V0
H1 : E(y) 6∈ V0 ,
wobei generell E(y) ∈ V vorausgesetzt wird.
Zunachst soll an Beispielen gezeigt werden, dass man auf diese Weise tatsachlich
interessante Hypothesen formulieren kann. Voraussetzung ist dabei immer, dass
der von den Spalten der Matrix X0 erzeugte Unterraum in dem enthalten ist,
der von den Spalten von X erzeugt wird. Um nachzuprufen, ob diese Eigenschaft
wirklich gilt, hat man nur zu untersuchen, ob alle Spalten von X0 auch in V
liegen, sich also als Linearkombinationen der Spalten von X schreiben lassen.
Varianzanalyse. Eine typische Designmatrix X fur die Varianzanalyse ist die fol-
gende (je zwei Versuchspersonen in den ersten beiden Zellen und eine in der
letzten):
1 0 0
1 0 0
0 1 0
0 1 0
0 0 1
.
Die Nullhypothese der Varianzanalyse behauptet, dass alle Erwartungswerte gleich
sind. Die zugehorige Designmatrix X0 ist die, die nur aus einer Spalte mit lauter
Einsen besteht. Offenbar ist diese Spalte Linearkombination der Spalten von X.
Die ubliche Nullhypothese der Varianzanalyse ordnet sich also den linearen Hypo-
thesen unter. Allgemein ist hier ubrigens r = J (Anzahl der Gruppen), wahrend
r0 = 1 ist.
Multiple Regression: Test, ob alle βj gleich 0 sind. Die Nullhypothese ist hier
die, dass alle Regressionsgewichte gleich 0 sind, dass also anschaulich gesprochen
5.4 Hypothesentests ALM07 108
kein Pradiktor Einfluss hat. Auch hier ist die Matrix X0 die, die nur aus einer
einzigen Spalte mit Einsen besteht, denn wenn alle Regressionsgewichte gleich
0 sind, so mussen alle Erwartungswerte ubereinstimmen. Ist m die Anzahl der
Pradiktoren, so ist r = m+1 (falls man wie ublich voraussetzt, dass kein Pradiktor
Linearkombination der anderen ist) und r0 = 1.
Multiple Regression: Test, ob einige βj gleich 0 sind. Die Nullhypothese ist die,
dass fur eine bestimmte Teilmenge der Pradiktoren alle zugehorigen Regressions-
gewichte gleich 0 sind, dass also anschaulich gesprochen keiner dieser Pradiktoren
Einfluss hat. Hier entsteht die Matrix X0 aus der Matrix X einfach dadurch, dass
man die zu den fraglichen Pradiktoren gehorenden Spalten weglasst. Hat man all-
gemein m und im eingeschrankten Modell nur m0 Pradiktoren, so gilt r = m + 1
und r0 = m0 +1 (wobei wieder vorausgesetzt ist, dass kein Pradiktor Linearkom-
bination der ubrigen ist).
Gleichheit von Regressionsgewichten. Die Frage ist die, ob Regressionsgewichte in
mehreren Gruppen gleich sind. Hier besteht das allgemeine Modell darin, dass in
jeder von mehreren Gruppen der Erwartungswert der abhangigen Variable von
mehreren unabhangigen Variablen in der Art der multiplen Regression abhangt.
Wahrend im allgemeinen Modell die Regressionsgewichte jeder der unabhangigen
Variablen in den Gruppen unterschiedlich sein konnen (’die Variablen sich in
den Gruppen unterschiedlich auswirken‘), konnte ein spezielles Modell behaup-
ten, dass fur jede der unabhangigen Variablen die Regressionsgewichte in allen
Gruppen gleich sind (’die Variablen also in allen Gruppen gleich wirken‘). Es
konnte zum Beispiel die Frage auftreten, ob bei Mannern und Frauen die Abitur-
ergebnisse in Deutsch und Turnen den jeweils gleichen Einfluss auf die Note des
Studienabschlusses haben, oder ob diese Einflusse (d.h. die theoretischen Regres-
sionsgewichte, wenn man an dies Modell glauben will) bei Mannern und Frauen
unterschiedlich sind.
Hat man beispielsweise zwei Gruppen und zwei Pradiktoren und bestehen die
Gruppen aus drei bzw. vier Versuchspersonen, wobei der erste Pradiktor in der
ersten Gruppe die Werte 1, 2, 3 und in der zweiten die Werte 4, 5, 6, 7 annimmt,
wahrend der zweite Pradiktor die Werte 9, 8, 8 bzw. 6, 6, 4, 3 besitzt, so kann man
5.4 Hypothesentests ALM07 109
folgende Designmatrizen wahlen:
X =
1 1 9 0 0 0
1 2 8 0 0 0
1 3 8 0 0 0
0 0 0 1 4 6
0 0 0 1 5 6
0 0 0 1 6 4
0 0 0 1 7 3
X0 =
1 0 1 9
1 0 2 8
1 0 3 8
0 1 4 6
0 1 5 6
0 1 6 4
0 1 7 3
Offenbar sind hier tatsachlich die Spalten der zweiten Matrix Linearkombinatio-
nen der Spalten der ersten. Ferner gilt hier r = 6 und r0 = 4.
Die Kovarianzanalyse. Hier ist die Situation die, dass der Erwartungswert der
abhangigen Variable Y einerseits von gewissen (z.B. experimentellen) Bedingun-
gen, andererseits aber auch von einer oder mehreren quantitativen Variablen (so-
genannten Kovariaten) abhangt. Beispielsweise kann das Ergebnis beim Losen
einer bestimmten Aufgabe einerseits abhangen von der speziellen Schulung, die
vorher durchgefuhrt wurde (experimentelle Bedingung), andererseits auch von
der Intelligenz der Versuchsperson (Kovariate).
Im allgemeinen wird hier vorausgesetzt, dass der Einfluss der Kovariaten von der
Art der multiplen linearen Regression ist, und dass die Gewichte in allen Gruppen
ubereinstimmen. Der Einfluss der experimentellen Bedingung soll sich in unter-
schiedlichen Y -Achsenabschnitten zeigen. Die Nullhypothese behauptet dement-
sprechend, dass alle Y -Achsenabschnitte gleich sind. Zur Veranschaulichung sei
eine Situation einer Kovariate U bei drei Bedingungen betrachtet. Die folgenden
Schaubilder zeigen die Lage der Erwartungswerte von Y in Abhangigkeit von U
unter Gultigkeit des allgemeinen Modells und unter Gultigkeit der Nullhypothese.
.............................................................. ...................
........
........
........
........
........
......................
...................
U
E(Y )
..................................
..................................
..................................
..................................
..................................
..................................
..................................
..................................
...............
..................................
..................................
..................................
..................................
..................................
..................................
..................................
..................................
...............
..................................
..................................
..................................
..................................
..................................
..................................
..................................
..................................
............... Bedingung 2
Bedingung 1
Bedingung 3
Allgemeines Modell
.............................................................. ...................
........
........
........
........
........
......................
...................
U
E(Y )
..................................
..................................
..................................
..................................
..................................
..................................
..................................
..................................
...............
alle Bedingungen
Nullhypothese
5.4 Hypothesentests ALM07 110
Die Designmatrizen sehen beispielsweise fur den Fall von drei Gruppen, in denen
die Variable U die Werte 1, 2, 3 (Gruppe 1), 2, 4 (Gruppe 2) und 3, 2 (Gruppe 3)
annimmt, folgendermaßen aus:
X =
1 1 0 0
2 1 0 0
3 1 0 0
2 0 1 0
4 0 1 0
3 0 0 1
2 0 0 1
X0 =
1 1
2 1
3 1
2 1
4 1
3 1
2 1
Die zweite Designmatrix ist dabei die einer einfachen linearen Regression. Ent-
sprechend sehen die Matrizen fur mehrere Kovariaten aus – fur jede Kovariate
gibt es dann eine Spalte. Ubrigens ist man nicht auf die Modellierung linearer Ein-
flusse beschrankt, entsprechend der polynomialen Regression konnen z.B. auch
quadratische Funktionen der Kovariaten aufgenommen werden etc.
Nach diesen Beispielen geht es nun darum, einen Test fur die Nullhypothese
zu entwickeln, dass das spezielle, durch die Designmatrix X0 gegebene Modell
richtig ist. Als Test fur die Fragestellung, ob das allgemeine Modell gilt, gegen
die Nullhypothese des speziellen Modells bietet es sich an, zu vergleichen, wie gut
die beiden Modelle zu den Daten passen. Ein naheliegendes Maß dafur, wie gut
ein Modell passt, ist die’Große‘ des geschatzten Fehlers, gemessen durch seine
Norm.
Bezeichnet man jetzt den geschatzen Fehler unter dem speziellen Modell mit e0
und den geschatzten Fehler unter dem allgemeinen Modell mit e, so wird man
nach den angestellten Uberlegungen den Quotienten
Q =‖ e0‖‖ e‖
bilden. Ist dieser Quotient sehr groß, so heißt das, daß der geschatzte Fehler
im speziellen Modell viel großer ist als im allgemeinen, daß also das spezielle
Modell viel schlechter zu den Daten paßt als das allgemeine. Man wird also die
Nullhypothese fur große Wert von Q verwerfen.
Damit man auf bekannte Verteilungen zum Testen zuruckgreifen kann, fuhrt man
mit Q noch eine monotone Transformation durch; man betrachtet namlich an-
5.4 Hypothesentests ALM07 111
stelle von Q zunachst die Statistik
Q2 − 1 =‖ e0‖2
‖ e‖2 − 1 =‖ e0‖2 − ‖ e‖2
‖ e‖2 .
Man kann diesen Quotienten auch so verstehen, dass er angibt, um wieviel sich
die Fehlerquadratsumme im speziellen Modell erhoht, relativiert an der Fehler-
quadratsumme im allgemeinen Modell.
Bezeichnet man die geschatzten Erwartungswertvektoren im allgemeinen und im
speziellen Modell mit y und y0, so gilt y = y + e und y = y0 + e0. Daraus folgt
e0 − e = (y − y0)− (y − y) = y − y0 ,
und da sowohl y0 als auch y in dem Unterraum V der im allgemeinen Modell
modellvertraglichen Erwartungswerte liegen, gilt dies auch fur die Differenz y−y0.
Dieser Vektor, und damit auch e0 − e, steht also insbesondere senkrecht auf e.
Wegen
e0 = (e0 − e) + e
und weil die beiden letzten Vektoren senkrecht aufeinander stehen, gilt nach dem
Satz des Pythagoras
‖ e0‖2 = ‖(e0 − e)‖2 + ‖ e‖2
oder
‖ e0‖2 − ‖ e‖2 = ‖(e0 − e)‖2 = ‖(y − y0)‖2 .
In der folgenden Abbildung sind diese Verhaltnisse fur das Beispiel einer einfa-
chen linearen Regression mit drei Datenpaaren veranschaulicht. Die Werte der
Pradiktorvariable sind 0, 1 und 2, wahrend die Kriteriumsvariable Y hierzu die
Werte 1, −2 und 5 annimmt. Die Designmatrix sieht dann so aus:
X =
1 0
1 1
1 2
,
ihre Spalten sind die Vektoren x1 und x2, die den Unterraum V der modellver-
traglichen Erwartungswertvektoren aufspannen. Die linke Abbildung zeigt diese
beiden Vektoren und den Punkt y = (1,−2, 5)′ der Werte der Kriteriumsvaria-
blen. Auf der mittleren Abbildung sieht man die von x1 und x2 aufgespannte
Ebene im Koordinatensystem. Auf der rechten Abbildung erkennt man dann die
Projektion y von y auf die Ebene V und die Projektion y0 von y auf die durch
5.4 Hypothesentests ALM07 112
den Vektor x1 = (1, 1, 1)′ erzeugte Gerade V0, die aus den modellvertraglichen Er-
wartungswertvektoren im eingeschrankten Modell besteht, das wie ublich besagt,
dass das Regressionsgewicht gleich 0 ist. Die Abbildungen sind ubrigens zentral-
perspektivisch, und bei einer geeigneten Wahl des Augpunktes sollte deutlich
werden, dass der rechte Winkel des Dreiecks (y, y, y0) sich bei y befindet.
................................................................................................................................................... ............
y1.....................................................................................................................................................................
......................
......................
.........................................y2
...................................................................................................................
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
...............
............y3
...........................................................................................
....................
................
...................
.........
......................
............
..........
..........
...........
...........
...........
..........
py
ppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppx2
pppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp x1
............................................................................................................................................................................................................................................................
......
......
......
......
......
......
......
......
......
....
.....................................
.................................. p................................................................................................................................................... ............
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
...............
............
....................
........ ......................
............
..........
..........
...........
...........
...........
ppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppx2
pppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp x1
.......................................................................................................................................
..........
................................................................................................
...................................................................................................................
..............................
....................................................
........................
........................
........................
........................
........................
........................
........................
........................
........................
.........
...............................................
........................
........................
........................
........................
........................
........................
........................
........................
........................
.....................
..........................................................................................................................................................................................................................................................................................................................................................................................................................................
......................
......................
..
...........................................................................................................................................
................................................................................................................................................................................................................... V
..........................
...........................
...
.......................
...
........
...........
.........................
............................
.............
............
...
......
.............
............................
.............................
............................
...........................
........
..................
.........
.................
...........................
............
..............
...........................
...............
...........
..........................
..........
....
.......
........................
..........
.......
.....
.........
..........
....
......................
..
.........................
..........................
............................
.............................
.............................
.............................
.........................
.
..........................
.
..........................
.............................
p
p
ppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppx2
pppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp x1
y
V
................................................................................................................................................................................................
........................
........................
........................
........................
........................
........................
........................
........................
........................
........................
.........
...................................................................................................................................................................................................................
.....................................................................................................................................................................................................
V0
........................................................................................................................................................................................
d1py ......................
......................
...........
...........................................................
..............................................................................................................................................................................................................
......................................................................
..............................................................................................................................................................................................................
d0
py0
...................................................................................................................................
d2
.............................
.............................
.............................
...............
...........
.
......................
.
...............
.......
.
.............
.......
..........
..
.......
.
................
.......
.............................
....................
..
.........................
.............................
.............................
.............................
.............................
.............................
...........................
..................
.......
..........
......
........
................
.......
..........
................
.........
.................
............................
.............................
..........................
......................
.
.....................
...
...................
.......
.............................
..........
...........
.
.............
..........
.
.........................
.............................
.....................................
Die fur die weitere Rechnung wichtigen Abstande sind mit d0, d1 und d2 bezeich-
net. Dabei ist d0 die Lange ‖ e0‖ des Fehlervektors im eingeschrankten Modell,
d1 die Lange ‖ e‖ des Fehlervektors im allgemeinen Modell und d2 die Lange des
Differenzvektors e0 − e = y − y0. Die Zerlegung von ‖ e‖2 wird hier durch den
Satz des Pythagoras in der Form
d20 = d2
2 + d21
gegeben, wobei die zu d1 und d2 gehorenden Vektoren orthogonal sind.
Die Grundidee bestand darin, die Werte d0 und d1 uber deren Quotienten Q =
d0/d1 miteinander zu vergleichen, nach der monotonen Umformung zu Q2−1 soll
nun gleichbedeutend der Quotient d22/d
21 untersucht werden, wobei große Werte
gegen die Nullhypothese sprechen.
Betrachtet man die Unterraume V und V0 der im allgemeinen Fall bzw. im spe-
ziellen Fall modellvertraglichen Erwartungswertvektoren, und nennt man die or-
thogonalen Projektionen auf diese Unterraume P und P0, so gilt y = Py und
y0 = P0y. Die Differenz y − y0 lasst sich dann auch schreiben als Py − P0y =
(P − P0)y. Um zu Verteilungsaussagen zu gelangen, muss nun erst die Abbil-
dung P−P0 genauer untersucht werden; sie wird sich als orthogonale Projektion
5.4 Hypothesentests ALM07 113
erweisen.
Wichtig ist hierbei die Beziehung
PP0 = P0P = P0 .
Dass PP0 = P0 ist, liegt daran, dass alle Spalten von P0 im Bild von P0, also
in V0 und damit insbesondere in V liegen und daher bei Multiplikation mit P
nicht mehr geandert werden. Anschaulich ist diese Beziehung auch klar: PP0
bedeutet, dass zuerst auf V0 und dann auf V projiziert wird; da V0 aber in V liegt,
andert die zweite Projektion nichts mehr am Ergebnis der ersten. Die Beziehung
P0P = P0 folgt dann unmittelbar durch Transponieren des schon gefundenen
Ergebnisses, was P′0P
′ = P′0 liefert, unter Berucksichtigung der Tatsache, dass
P und P0 orthogonale Projektionen sind und folglich mit ihren Transponierten
ubereinstimmen.
Hieraus folgert man als nachstes, dass P − P0 eine orthogonale Projektion ist.
Man pruft dazu die beiden Bedingungen fur eine solche Projektion nach, ob
namlich die Matrix beim Quadrieren und beim Transponieren gleich bleibt. Fur
das Transponieren folgt das unmittelbar daraus, dass sich P und P0 dabei nicht
andern, und Quadrieren ergibt
(P−P0)2 = P2 −P0P−PP0 + P2
0 = P−P0 −P0 + P0 = P−P0 ,
wegen der gerade hergeleiteten Beziehung und der Tatsache, dass P und P0 beim
Quadrieren gleich bleiben.
Die Abbildung P−P0 ist also eine orthogonale Projektion. Das Bild dieser Pro-
jektion soll U heißen und noch genauer untersucht werden; dabei soll fur P−P0
kurz PU geschrieben werden.
Die Dimension von U , also der Rang von PU = P− P0 stimmt bekanntlich mit
der Spur von P−P0 uberein, die hier gleich der Differenz der Spuren von P und
P0 ist, also die Differenz von deren Rangen. Das Ergebnis ist r − r0.
Der Unterraum U ist in V gelegen, da sowohl das Bild von P als auch das von
P0 in V liegen, und damit auch das Bild von P−P0, was ja gerade U ist. Dieser
Unterraum ist daher senkrecht zu V ⊥, dem Fehlerraum des allgemeinen Modells.
Der Unterraum U ist auch senkrecht zu V0, was man beispielsweise einsieht, in-
dem man die Gleichung P′0(P − P0) = 0 zeigt; alle Elemente von V0 sind ja
Linearkombinationen der Spalten von P0 und alle Elemente von U Linearkombi-
nationen der Spalten von P−P0, und aus der Gleichung folgt dann sofort, dass
5.4 Hypothesentests ALM07 114
alle Skalarprodukte von Elementen von V0 und U gleich 0 sind. Die Gleichung
folgt ihrerseits sofort aus den Eigenschaften von P und P0:
P′0(P−P0) = P0(P−P0) = P0P−P2
0 = P0 −P0 = 0 .
Insgesamt sieht man, dass man U auch als orthogonales Komplement von V0 in
V bezeichnen konnte.
Aus der Orthogonalitat der Unterraume U und V ⊥ folgt, dass die Projektion
PUy = (P − P0)y = y − y0 = e0 − e von y auf U und die Projektion e von y
auf V ⊥ unabhangig sind. Dies fuhrt leicht zu der folgenden Feststellung:
Feststellung 1. Die Statistik
F =n− r
r − r0
(Q2 − 1) =(‖ e0‖2 − ‖ e‖2)/(r − r0)
‖ e‖2/(n− r)
ist Fr−r0, n−r, δ2 -verteilt mit δ2 = ‖Xβ −P0Xβ‖2/σ2.
Nach den vorangehenden Uberlegungen gilt namlich
n− r
r − r0
(Q2 − 1) =‖PU(y)‖2/(r − r0)
‖ e‖2/(n− r)=
(‖PU(y)‖2/σ2)/(r − r0)
(‖ e‖2/σ2)/(n− r).
Hier sind Zahler und Nenner unabhangige χ2-verteilte Variablen, die jeweils durch
die Anzahl ihrer Freiheitsgrade geteilt sind, der Nenner ist zentral χ2-verteilt.
Hieraus folgt, daß der Quotient tatsachlich F -verteilt ist. Es bleibt nur der Non-
zentralitatsparameter δ2 zu bestimmen.
Dieser ist gleich
‖PU(E(y))‖2/σ2 = ‖PU(Xβ)‖2/σ2 = ‖P(Xβ)−P0(Xβ)‖2/σ2
= ‖Xβ −P0Xβ‖2/σ2 ,
da Xβ bereits in V liegt und daher durch die Projektion P unverandert bleibt.
¤
Damit ergibt sich ein Test der linearen Hypothese:
Feststellung 2. Es sei die Gultigkeit des allgemeinen Modells y ∼ N(Xβ, σ2I)
vorausgesetzt; die Designmatrix X besitze Rang r und der von ihren Spalten
erzeugte Unterraum sei V . Ein eingeschranktes Modell sei gegeben durch eine
5.4 Hypothesentests ALM07 115
Designmatrix X0, die den Rang r0 besitzt. Der durch die Spalten von X0 erzeugte
Unterraum V0 sei in V gelegen. Dann konnen die Hypothesen
H0 : E(y) ∈ V0
H1 : E(y) 6∈ V0 ,
auf dem Niveau α mit Hilfe der Statistik
F =(‖ e0‖2 − ‖ e‖2)/(r − r0)
‖ e‖2/(n− r)
gestestet werden, wobei e0 und e die geschatzten Fehler im eingeschrankten
und im allgemeinen Modell sind. Unter H0 besitzt diese Statistik eine Fr−r0,n−r-
Verteilung; die Nullhypothese ist daher zu verwerfen, falls
F ≥ Fr−r0, n−r; α
gilt. ¤
Anmerkungen. Bevor diese Form des Hypothesentestens durch Beispiele illu-
striert wird, folgen noch einige Anmerkungen.
Die erste Anmerkung betrifft den Zahler des F -Bruchs. Der entscheidende Faktor
(‖ e0‖2 − ‖ e‖2) lasst sich auch anders schreiben:
‖ e0‖2 − ‖ e‖2 = ‖ e0 − e‖2 = ‖ y − y0‖2 = ‖ y‖2 − ‖ y0‖2 .
Dass die ersten beiden Gleichheiten gelten, hat sich schon oben gezeigt, die letzte
folgt aus dem Satz des Pythagoras, weil (y − y0) orthogonal zu y0 ist, denn der
erste Vektor liegt in U und der zweite in V0.
Je nachdem, welche Schreibweise man fur diesen Faktor wahlt, kann man ihn
unterschiedlich interpretieren. Der Ausdruck ‖ e0‖2 − ‖ e‖2 ist die Differenz der
Fehlerquadratsummen in den beiden Modellen, wahrend ‖ e0 − e‖2 die Quadrat-
summe der Fehlerdifferenzen ist. Die Form ‖ y − y0‖2 lasst sich deuten als Qua-
dratsumme der Differenz der Vorhersagen der beiden Modelle, wahrend der letzte
Ausdruck die Differenz der Quadratsummen der Vorhersagevektoren der beiden
Modelle ist. Der Terminus’Quadratsumme‘ in Bezug auf einen Vektor meint
dabei einfach die Summe der quadrierten Komponenten des Vektors.
Aus dem Satz des Pythagoras folgt einerseits ‖y‖2 = ‖ y‖2 + ‖ e‖2 und anderer-
seits ‖ y‖2 = ‖ y0‖2 + ‖ y − y0‖2, was man kombinieren kann zu
‖y‖2 = ‖ y0‖2 + ‖ y − y0‖2 + ‖ e‖2 .
5.4 Hypothesentests ALM07 116
Dies lasst sich als eine Quadratsummenzerlegung verstehen: Die Quadratsumme
von y setzt sich additiv zusammen aus der Quadratsumme der Vorhersage unter
H0, der Quadratsumme der Vorhersagedifferenz und der Fehlerquadratsumme.
Gelegentlich fuhrt man die Sprechweisen der’Quadratsumme eines Modells‘ und
der’Freiheitsgrade eines Modells‘ ein, deren Gebrauch jedoch leider nicht ganz
einheitlich ist. Zunachst sei mit dem Term’Quadratsumme‘ die Summe der qua-
drierten Modellvorhersagen bezeichnet und mit dem Term’Freiheitsgrade‘ die
Dimension des zum Modell gehorenden Unterraums. Solche Sprechweisen sind
besonders dann praktisch, wenn man mehrere teilweise hierarchisch geordnete
Modelle hat, bei denen unterschiedliche Tests durchgefuhrt werden sollen, wie
beispielsweise bei der zweifaktoriellen Varianzanalyse.
In diesem Sprachgebrauch ist die Quadratsumme des Modells der Nullhypothese
gleich ‖ y0‖2 und die Anzahl der Freiheitsgrade dieses Modells ist r0; diese Großen
seien alternativ mit SS0 und df0 bezeichnet (die Abkurzungen stehen naturlich fur
’Sum of Squares‘ und
’Degrees of Freedom‘). Entsprechend ist die Quadratsumme
des Modells der Alternativhypothese gleich ‖ y‖2 mit r Freiheitsgraden; hier sollen
alternativ die Ausdrucke SS1 und df1 Verwendung finden. Praktisch ist es auch,
von einem’Modell‘ ohne Einschrankung zu sprechen, bei dem der zugehorige
Vektorraum der gesamte Personenraum ist und die’Vorhersage‘ der Datenvektor
selbst (es gibt hier eigentlich gar kein Modell). Die Quadratsumme ware hier ‖y‖2
und die Anzahl der Freiheitsgrade gleich n; als Abkurzungen sollen SSt und dft
benutzt werden (wobei t fur’total‘ steht).
Mit diesen Vereinbarungen lasst sich der F -Bruch nach den vorangehenden Uber-
legungen auch in der folgenden eingangigen Form schreiben:
F =(SS1 − SS0)/(df1 − df0)
(SSt − SS1)/(dft − df1),
der F -Bruch ist dann dargestellt als ein Quotient von Differenzen von Quadrat-
summen, die durch die zugehorigen Differenzen ihrer Freiheitsgrade geteilt sind.
Eine spezielle Situation liegt dann vor, wenn der Vektor 1 in V0 und damit ins-
besondere auch in V liegt, wenn also der Fall, dass die Erwartungswerte aller
Beobachtungen gleich sind, mit beiden Modellen vertraglich ist. In diesem Fall
kann man die Quadratsummen um die zugehorige Konstante gewissermaßen be-
reinigen, wie nun dargelegt werden soll.
Mit Pm sei dazu die Projektion auf den durch 1 erzeugten Unterraum bezeich-
net (m fur Mittelwert) und mit Q = I−Pm die Projektion auf das orthogonale
5.4 Hypothesentests ALM07 117
Komplement dieses Unterraums (Q ist naturlich dann die Zentriermatrix). Be-
kanntlich ist dann fur einen beliebigen Vektor y die Projektion Pmy gleich y1
(der mit dem Mittelwert y der Komponenten von y multiplizierte Vektor 1) und
Qy der Vektor der Abweichungen vom Mittelwert, der sonst oft mit y bezeichnet
wurde. Die Vektoren Pmy und Qy stehen senkrecht aufeinander, und schließlich
ist ‖Pmy‖2 = n y2 und ‖Qy‖2 die Summe der quadrierten Abweichungen von y,
also das n-fache der Varianz der Komponenten von y. Es gilt
‖y‖2 = ‖Pmy‖2 + ‖Qy‖2 .
Auch ‖Qy‖2, also das n-fache der Varianz von y wird nun gelegentlich als Qua-
dratsumme bezeichnet (was es ja auch ist), und es ist nicht ganz falsch, sie als
um den Mittelwert bereinigt anzusehen.
Ist P0 die Projektion auf V0, so gilt wegen 1 ∈ V0 die Beziehung
<1, y> = <P01, y> = <1, P0y> = <1, y0 > ,
und Division durch n zeigt, dass der Mittelwert der Komponenten von y gleich
dem Mittelwert der Komponenten von y0 ist – mit anderen Worten: der Mittel-
wert der Daten ist gleich dem Mittelwert der unter H0 geschatzen Vorhersage.
Dies gilt naturlich mit der gleichen Argumentation auch fur die Vorhersage y
unter H1.
Hieraus folgt sofort
Pmy = Pmy = Pmy0 ,
weshalb auch die quadrierten Normen dieser drei Vektoren gleich sind. Außerdem
folgt, dass der Mittelwert der Komponenten von e = y − y als Differenz der
Mittelwerte von y und y gleich 0 ist – der Mittelwert der geschatzten Fehler ist
also gleich 0. Ebenso folgt, dass der Mittelwert der Komponenten von y − y0
gleich 0 ist.
Die Vektoren e und y − y0 sind also bereits zentriert, werden also durch Q auf
sich selbst abgebildet, es gilt also Qe = e und Q(y − y0) = y − y0. Bei den
Gleichungen
‖y‖2 = ‖Pmy‖2 + ‖Qy‖2
‖ y‖2 = ‖Pmy‖2 + ‖Qy‖2
‖ y0‖2 = ‖Pmy0‖2 + ‖Qy0‖2
5.4 Hypothesentests ALM07 118
sind die ersten Summanden auf der rechten Seite gleich groß, woraus beispiels-
weise
‖y‖2 − ‖ y‖2 = ‖Qy‖2 − ‖Qy‖2
folgt; entsprechende Ergebnisse gelten fur die weiteren Differenzen.
Die gesammelten Teilergebnisse fur den Fall 1 ∈ V0 konnen jetzt kombiniert
werden. Zunachst kann man die Quadratsummenzerlegung
‖y‖2 = ‖ y0‖2 + ‖ y − y0‖2 + ‖ e‖2
umschreiben zu
‖Pmy‖2 + ‖Qy‖2 = ‖Pmy0‖2 + ‖Qy0‖2 + ‖Q(y − y0)‖2 + ‖Qe‖2
und gelangt wegen ‖Pmy‖2 = ‖Pmy0‖2 zu
‖Qy‖2 = ‖Qy0‖2 + ‖Q(y − y0)‖2 + ‖Qe‖2 .
Dies ist eine wieder eine Quadratsummenzerlegung, hier eine, bei der es bei den
Quadratsummen um die Summen der quadrierten Abweichungen vom Mittelwert
geht (dies wird ja gerade durch Q bewirkt). Dividiert man durch n, so hat man
eine Varianzzerlegung: Die Varianz der Daten ist die Summe der Varianz der
geschatzten Vorhersage unter H0, der Varianz der Differenzen der geschatzten
Vorhersagen unter H1 und H0 und der Varianz der Fehler. Bei den letzten beiden
Summanden rechts kann man, wie sich gezeigt hat, die Matrix Q auch weglassen;
hier steht sie nur zur Verdeutlichung.
Naturlich kann man zur letzten Gleichung ‖Pmy‖2, beispielsweise in der Form
n y2 wieder hinzuaddieren, um zu folgender Zerlegung zu gelangen:
‖y‖2 = n y2 + ‖Qy0‖2 + ‖Q(y − y0)‖2 + ‖Qe‖2 ,
in der die drei letzten Ausdrucke wieder mit n multiplizierte Varianzen sind.
Bei Modellen, bei denen der Vektor 1 in V0 enthalten ist, hat gelegentlich der
Ausdruck’Quadratsumme eines Modells‘ eine andere Bedeutung, namlich nicht
die der Summe der quadrierten Komponenten der geschatzten Vorhersage, son-
dern die der Summe der quadrierten Abweichungen vom Mittelwert (die n-fache
Varianz). Als Quadratsumme des H0-Modells wird dann nicht ‖ y0‖2 verstanden,
sondern ‖Qy0‖2 . Entsprechend wird als Quadratsumme des H1-Modells der Aus-
druck ‖Qy‖2 (statt ‖ y‖2) und als Gesamtquadratsumme ‖Qy‖2 (statt ‖y‖2) be-
zeichnet. Die zugehorigen Freiheitsgrade werden entsprechend um 1 vermindert.
5.4 Hypothesentests ALM07 119
Wegen der oben gefundenen Beziehungen ‖ e‖2 = ‖y‖2−‖ y‖2 = ‖Qy‖2−‖Qy‖2
und ‖ y‖2 − ‖ y0‖2 = ‖Qy‖2 − ‖Qy0‖2 bleibt jedoch die Formel
F =(SS1 − SS0)/(df1 − df0)
(SSt − SS1)/(dft − df1)
auch richtig, wenn man den SS und df die neuen Bedeutungen verleiht, da sich
auch die Verminderungen der Freiheitsgrade um 1 gerade in der Subtraktion
kompensieren. Zur Unterscheidung sollen diese Quadratsummen auch’bereinigt‘
heißen, im Gegensatz zu den zuerst behandelten’unbereinigten‘.
In Ausdrucken von Computerprogrammen findet man unter der Rubrik Qua-
dratsumme bisweilen die Quadratsummen im Sinne der quadrierten Werte, in
dem Fall, dass 1 in V0 liegt, stattdessen die Summen der quadrierten Abweichun-
gen vom Mittelwert, haufig jedoch auch eine Differenz von Quadratsummen, also
einen Ausdruck der Form (SS1 − SS0). Die Bedeutung des Ausdrucks’Quadrat-
summe‘ im konkreten Fall sollte sich meist aus dem Kontext leicht herausfinden
lassen.
Es folgt schließlich eine Veranschaulichung der Bildung des NZP
δ2 = ‖Xβ −P0Xβ‖2/σ2 :
Man setzt den wahren Erwartungswertvektor Xβ als Datenvektor ein und schatzt
die Parameter unter dem speziellen Modell; der geschatzte Erwartungswertvek-
tor im Modell der Nullhypothese ist dann P0Xβ. Der geschatzte Fehlervektor
unter H0 ist folglich Xβ−P0Xβ. Der NZP kann damit kurz beschrieben werden
als die durch σ2 dividierte Fehlerquadratsumme des als Datenvektor aufgefassten
wahren Erwartungswertvektors unter dem Modell der Nullhypothese. Insbeson-
dere ist bei Gultigkeit des speziellen Modells der NZP gleich Null, da dann ja der
Erwartungswertvektor bereits in V0 liegt.
Gelegentlich mochte man den NZP δ2 aufgrund von erhobenen Daten schatzen.
Eine naheliegende Moglichkeit soll nun beschrieben werden. Man schatzt Xβ
erwartungstreu durch y und entsprechend P0Xβ erwartungstreu durch P0y =
P0Py = P0y = y0. Hieraus gewinnt man ‖ y − y0‖2 als’Schatzung‘ des Zahlers
‖Xβ −P0Xβ‖2 des NZP (sie ist nicht mehr erwartungstreu); den Nenner σ2
kann man erwartungstreu mit ‖ e‖2/(n − r) schatzen. Schatzt man dann den
Quotienten δ2 durch den Quotienten der Schatzer, so erhalt man als Schatzung
‖ y − y0‖2
‖ e‖2/(n− r)= (r − r0) F ,
5.4 Hypothesentests ALM07 120
also das (r − r0)-fache des empirischen F -Bruchs. Dass diese doch recht naive
Schatzung nicht erwartungstreu sein wird, erkennt man beispielsweise daran, dass
sich bei Gultigkeit der Nullhypothese als Erwartungswert das (r − r0)-fache des
Erwartungswerts der entsprechenden F -Verteilung ergibt, wahrend der NZP hier
gleich 0 ist.
Beispiele. Zunachst soll die einfaktorielle Varianzanalyse besprochen werden. In
J Gruppen mit jeweils nj Beobachtungen liegen insgesamt N =∑
nj Einzeldaten
vor, die wie ublich zu einem Vektor y zusammengefasst seien.
Das Modell der Varianzanalyse war oben schon dargestellt worden, der Unterraum
V ist J-dimensional und wird durch die Spalten der Designmatrix aufgespannt.
Die Nullhypothese, dass alle Gruppenerwartungswerte gleich sind, entspricht dem
Unterraum V0, der durch den Vektor 1 erzeugt wird. Hier hat man also ein Beispiel
dafur, dass 1 in V0 liegt; in diesem Fall besteht V0 sogar aus nicht mehr als den
Vielfachen von 1.
Fur das varianzanalytische Modell hatte sich schon herausgestellt, dass der Vektor
y aus y dadurch entsteht, dass man alle Beobachtungen durch ihren gruppen-
spezifischen Mittelwert ersetzt. Entsprechend erhalt man die Schatzung y0 unter
dem Modell der Nullhypothese dadurch, dass man alle Beobachtungen durch den
Gesamtmittelwert y ersetzt.
Fur den Fehler (unter H1) war schon ‖ e2‖ = SSw ermittelt worden, und da die
Dimension von V gleich N −J ist, erhalt man als erwartungstreue Schatzung fur
σ2 den Ausdruck SSw/(N − J) = MSw.
Der Vektor y − y0 besitzt als Komponente an der Stelle jeder einzelnen Beob-
achtung die Abweichung des gruppenspezifischen Mittelwerts vom Gesamtmit-
telwert. Daher ist ‖ y − y0‖2 gerade SSb, die Quadratsumme zwischen. Da die
Dimensionen von V und V0 hier J und 1 sind, erhalt man als Test den wohlbe-
kannten F -Bruch:
F =SSb/(J − 1)
SSw/(N − J)=
MSb
MSw
.
Am Beispiel der Varianzanalyse sollen auch die oben gemachten Anmerkungen
weiter verdeutlicht werden. Vielleicht ist es nicht ganz uberflussig, das Beispiel
sogar ganz konkret zu machen und auch einen moglichen Datensatz zu untersu-
chen.
Es seien also drei Gruppen vom Umfang 3, 2, 3 gegeben. Die Designmatrizen fur
5.4 Hypothesentests ALM07 121
das Modell der Varianzanalyse und das der Nullhypothese sind dann
X =
1 0 0
1 0 0
1 0 0
0 1 0
0 1 0
0 0 1
0 0 1
0 0 1
, X0 =
1
1
1
1
1
1
1
1
In den drei Gruppen mogen nacheinander die Daten 1, 2, 3, 3, 5, 5, 5, 8 erhoben
worden sein, was zu Mittelwerten 2, 4, 6 und zum Gesamtmittelwert 4 fuhrt. Man
erhalt damit sofort
y =
1
2
3...3
5...5
5
8
, y =
2
2
2...4
4...6
6
6
, y0 =
4
4
4...4
4...4
4
4
, y − y0 =
−2
−2
−2...0
0...2
2
2
, e = y − y =
−1
0
1...−1
1...−1
−1
2
,
wobei eingestreuten Punkte nur die Grenzen zwischen den Gruppen verdeutlichen
sollen.
Wer sich am konkreten Fall von den oben allgemein gegebenen Tatsachen uberzeu-
gen will, rechnet beispielsweise leicht nach, dass die Vektoren y0, y − y0 und
e senkrecht aufeinander stehen. Fur die quadrierten Normen der Vektoren gilt
‖y‖2 = 162, ‖ y‖2 = 152, ‖ y0‖2 = 128, ‖ y − y0‖2 = 24, ‖ e‖2 = 10, in der Tat
gelten also die Gleichungen ‖ y‖2 = ‖ y‖2 + ‖ e‖2, ‖ y − y0‖2 = ‖ y‖2 − ‖ y0‖2
und die Quadratsummenzerlegung ‖ y‖2 = ‖ y0‖2 + ‖ y − y0‖2 + ‖ e‖2.
Die Bemerkung uber die unterschiedlichen Schreibweisen fur ‖ y − y0‖2 hat bei-
spielsweise die Konsequenz, dass man SSb auch berechnen kann als ‖ y‖2−‖ y0‖2,
also als∑
nj y2j −N y2.
Im konkreten Beispiel kann man nun die bekannte Ergebnistabelle der Varianz-
5.4 Hypothesentests ALM07 122
analyse aufschreiben:
Varianzquelle SS df MS F
between 24 2 12 6
within 10 5 2
total 34 7
Auch die Moglichkeit, Modellen Quadratsummen und Freiheitsgrade zuzuordnen,
aus denen sich dann die Teststatistik ergibt, soll an diesem einfachsten Beispiel
erlautert werden. Zunachst soll die Version ohne Bereinigung um den Mittelwert
vorgestellt werden. Man hat dann:
Modell SS df
H0 SS0 = ‖ y0‖2 1
H1 SS1 = ‖ y‖2 J
kein Modell SSt = ‖y‖2 N
Fur das konkrete Beispiel erhalt man
Modell SS df
H0 128 1
H1 152 3
kein Modell 162 8
Man erkennt sofort, wie man die Quadratsummen und Freiheitsgrade der Ergeb-
nistabelle der Varianzanalyse durch Differenzbildung der entsprechenden Zeilen
dieser Tabelle errechnet.
Im Falle der Varianzanalyse ist der Vektor 1 ein Element von V0, und deshalb
wird man meistens nicht die eben vorgenommene Aufstellung machen, sondern
die, in denen man mit den Summen der quadrierten Abweichungen vom jeweiligen
Mittelwert rechnet. Dabei andert der Terminus’Quadratsumme‘ entsprechend
seine Bedeutung. Zunachst erkennt man aber, dass in der Tat die Mittelwerte
der Komponenten der Vektoren y, y und y0 alle gleich, namlich 4 sind, und dass
die Mittelwerte der Komponenten des geschatzten Fehlers und von y− y0 gleich
0 sind.
Hier ist zunachst die Tabelle der’bereinigten‘ Quadratsummen mit den entspre-
chend um 1 verminderten Freiheitsgraden:
Modell SS df
H0 SS0 = ‖Qy0‖2 0
H1 SS1 = ‖Qy‖2 J − 1
kein Modell SSt = ‖Qy‖2 N − 1
5.4 Hypothesentests ALM07 123
Dabei bezeichnet Q wieder die Zentriermatrix. Man uberzeugt sich leicht, dass
im konkreten Fall die’bereinigten‘ Quadratsummen sich aus den
’unbereinigten‘
tatsachlich dadurch ergeben, dass man N y2, hier also 128 abzieht. Damit erhalt
man konkret die Tabelle
Modell SS df
H0 0 0
H1 24 2
kein Modell 34 7
Es sei nochmals darauf hingewiesen, dass hier die Quadratsummen bis auf den
Faktor 1/8 die Varianzen der Komponenten der Vektoren y0, y und y sind.
Auch aus dieser Tabelle erhalt man die Ergebnistabelle der Varianzanalyse durch
Differenzbildung.
Schließlich sei noch erwahnt, dass in der Quadratsummenzerlegung
‖Qy‖2 = ‖Qy0‖2 + ‖Q(y − y0)‖2 + ‖Qe‖2
der erste Summand auf der rechten Seite hier gleich 0 ist (y0 liegt ja in V0 und
ist daher hier ein Vielfaches von 1) und damit die bekannte Zerlegung
SStot = SSb + SSw
ubrigbleibt (wie oben schon erwahnt, kann man bei den beiden letzten Summan-
den auf der rechten Seite die Matrix Q weglassen, da ja die dort durch Q zu
zentrierenden Vektoren bereits zentriert sind).
Will man im konkreten Beispiel noch den NZP nach dem oben gemachten Vor-
schlag schatzen, so muss man nur den Wert des F -Bruchs mit der Anzahl der
Zahlerfreiheitsgrade multiplizieren und erhalt als Schatzung den Wert 12.
Die nachsten beiden Beispiele gehoren zur multiplen Regression.
Sind zunachst m Pradiktoren gegeben (von denen wie ublich keiner Linearkombi-
nation der ubrigen sein soll), so kann die Nullypothese getestet werden, dass alle
Regressionsgewichte gleich Null sind. Hier ist die quadrierte Norm des geschatzten
Fehlers im allgemeinen Modell gleich n(1−R2)S2Y , wahrend sie im speziellen Mo-
dell einfach nS2Y ist (dies ist die Situation des Ein-Stichproben-Tests). Die Zahl
der Fehlerfreiheitsgrade ist n − m − 1, wahrend die Range der Designmatrizen
m + 1 und 1 sind. Die Nullhypothese wird daher getestet mit der Statistik
F =(nS2
Y − n(1−R2)S2Y )/m
n(1−R2)S2Y /(n−m− 1)
=n−m− 1
m
R2
1−R2,
5.4 Hypothesentests ALM07 124
die unter H0 eine F -Verteilung mit m Zahler- und n−m−1 Nennerfreiheitsgraden
besitzt.
Der entscheidende Teil der Teststatistik, namlich R2/(1−R2), ist eine monotone
Funktion von R2; unter sonst gleichen Umstanden wird die Statistik also um so
leichter signifikant, je großer R2 ist, was auch sehr plausibel ist. Die Tatsache, dass
es im Wesentlichen beim Testen um die Große von R2 geht, verleitet manchmal
zu der Formulierung, man wurde hier testen,’ob sich R2 signifikant von 0 unter-
scheidet‘. Obwohl diese Formulierung offensichtlich schief bis unsinnig ist, hat sie
doch den kleinen Vorteil, darauf hinzuweisen, worauf es beim Test hauptsachlich
ankommt.
Bisher wurde das Modell der multiplen Regression im Rahmen des ALM be-
handelt, was unter anderem bedeutet, dass die Werte der Pradiktoren als vom
Untersucher gesetzt behandelt werden. Keinesfalls sind die Pradiktoren also also
Zufallsvariablen aufzufassen.
Fur viele inhaltliche Fragestellungen durfte diese Voraussetzung nicht zutreffen,
vielmehr wird es oft so sein, dass auch die Pradiktoren ihre Werte durch einen
Zufallsprozess erhalten. Damit wird der Rahmen des ALM gesprengt.
Dennoch lasst sich der oben besprochene Test unter gewissen Voraussetzungen
auch in diesem Fall anwenden, was nun kurz skizziert werden soll.
Die Voraussetzungen konnen beispielsweise darin bestehen, dass sich die gemein-
same Verteilung der Pradiktoren durch eine Dichtefunktion kennzeichnen lasst,
(Normalverteilung wird hier also nicht benotigt), dass sich die Kriteriumsvariable
fur jede mogliche Wertekombination der Pradiktoren so ergibt, wie es das ALM
fordert (Normalverteilung des Fehlers mit Varianzhomogenitat), und dass die ein-
zelnen Beobachtungen unabhangig voneinander sind. Ferner ist vorauszusetzen,
dass die Kovarianzmatrix der Pradiktoren Maximalrang m besitzt (hier handelt es
sich jetzt wirklich um eine Kovarianzmatrix im wahrscheinlichkeitstheoretischen
Sinn, nicht nur um eine deskriptive Kovarianzmatrix wie im ALM).
Es lasst sich dann zeigen, dass bei mindestens m+1 Beobachtungen die Designma-
trix, die man mit den Zufallswerten der Pradiktoren genau wie im ALM herstellen
kann, mit Wahrscheinlichkeit 1 den Rang m + 1 besitzt, so dass man formal den
oben angegebenen Test durchfuhren kann. Bei Gultigkeit der Nullhypothese, dass
alle Gewichte in den Vorhersagegleichungen gleich 0 sind, ist dann die bedingte
Verteilung der Teststatistik die oben angegebene F -Verteilung, wenn als Bedin-
5.4 Hypothesentests ALM07 125
gung die genommen wird, dass die Pradiktoren irgendwelche festen Werte haben,
die zu einer Designmatrix mit maximalem Rang fuhren.
Unter der Nullhypothese stimmen also die bedingten Verteilung der Teststati-
stik fur fast alle moglichen Werte der Pradiktoren uberein, weshalb dann die
’unbedingte‘ Verteilung der Teststatistik (sozusagen die Randverteilung) eben-
falls gleich der angegebenen F -Verteilung ist. Der Test kann also so durchgefuhrt
werden wie oben angegeben.
Es soll noch kurz auf Schwierigkeiten bei dieser eigentlich ziemlich einleuchten-
den Argumentation hingewiesen werden, um zu vermeiden, dass Plausibilitat mit
Begrundung verwechselt wird. Eine Hauptschwierigkeit liegt in der bei stetigen
Verteilungen alles andere als einfachen Definition einer bedingten Verteilung –
man kann ja nicht einfach die Wahrscheinlichkeiten fur gewisse Ereignisse durch
die Wahrscheinlichkeit dividieren, dass die Bedingungsvariable einen bestimm-
ten Wert annimmt, denn diese letzte Wahrscheinlichkeit ist immer 0. Auch der
Nachweis, dass die sich zufallig ergebende Designmatrix mit Wahrscheinlichkeit 1
maximalen Rang besitzt, ist nicht ganz trivial. Diese Schwierigkeiten lassen sich
jedoch mit den Hilfsmitteln einer entsprechend ausgebauten Wahrscheinlichkeits-
theorie uberwinden.
Uber die Verteilung der Teststatistik unter der Alternativhypothese konnen oh-
ne weitere Voraussetzungen uber die Verteilung der Pradiktoren keine Aussagen
gemacht werden. Hier kann die Voraussetzung der Multinormalverteilung der
Pradiktoren vorteilhaft sein. Eine nonzentrale F -Verteilung wird sich jedoch im
Allgemeinen nicht ergeben, so dass auch die power nicht in der gewohnten Weise
ermittelt werden kann.
Es sei noch angemerkt, dass man hier die Alternativhypothese so formulieren
kann, dass die theoretische(!) multiple Korrelation zwischen Pradiktoren und Kri-
teriumsvariable nicht 0 ist; die oben missbilligte Formulierung lasst sich also im
Fall stochastischer Pradiktoren durch eine leichte Modifikation retten (eine sol-
che Formulierung impliziert naturlich nicht die anderen Voraussetzungen, wie
beispielsweise die Linearitatsvoraussetzungen).
Es gibt einen weiteren Fall, in dem man den geschilderten F -Test gerne anwenden
wurde, in dem er jedoch nicht gerechtfertigt ist, und das ist der Fall von fehler-
behafteten Pradiktoren. Wenn man sich im Sinne der Klassischen Testtheorie die
Pradiktoren als fehlerbehaftet denkt und von der Kriteriumsvariable voraussetzt,
dass sie im Sinne des ALM beeinflusst wird durch die wahren Pradiktorwerte, also
5.4 Hypothesentests ALM07 126
eben nicht durch die gemessenen (also beispielsweise nicht durch die gemessene
Intelligenz sondern durch die dahinterliegende wahre Intelligenz, die gerade nicht
in gemessener Form vorliegt), so ist eine inferenzstatistische Regression (mit den
gemessenen Pradiktoren) leider nicht adaquat. In solchen Fallen muss man auf
andere Methoden zuruckgreifen.
Die hier gemachten Anmerkungen uber stochastische Pradiktoren gelten in ent-
sprechender Form auch fur den als nachstes zu besprechenden Fall, dass man nur
den Einfluss eines Teils der Pradiktoren untersucht, oder auch fur die Kovarian-
zanalyse.
Im nachsten Beispiel geht es, wieder in der Situation der Regression im Rahmen
des ALM, um die Frage, ob alle Regressionsgewichte einer gewissen Teilmenge
von q der m Pradiktoren gleich Null sind (Nullhypothese). Zur Untersuchung
dieser Frage ist wieder der Fehler unter beiden Modellen zu schatzen. Sind die
multiplen R2-Werte fur das spezielle Modell gleich R20 und fur das allgemeine
gleich R2, so erhalt man als Teststatistik wie oben
F =(n(1−R2
0)S2Y − n(1−R2)S2
Y )/q
n(1−R2)S2Y /(n−m− 1)
=n−m− 1
q
R2 −R20
1−R2,
die unter H0 eine F -Verteilung mit q Zahler- und n−m−1 Nennerfreiheitsgraden
besitzt.
Hier spielt in der Teststatistik die Differenz R2 − R20 eine entscheidende Rolle,
also der relative Zuwachs an aufgeklarter Varianz bei Hinzufugung der untersuch-
ten q Pradiktoren. Dies verfuhrt wieder zu einer suggestiven, aber schiefen bis
unsinnigen Formulierung, namlich der, man wurde hier testen,’ob der Zuwachs
an aufgeklarter Varianz signifikant ist‘.
Nun ein konkretes Beispiel zur Kovarianzanalyse. Zu untersuchen sind drei Grup-
pen im Hinblick auf eine abhangige Variable Y . Zum Beispiel konnte die Frage
lauten, ob sich Absolventen dreier Studiengange in der Fahigkeit, komplexe Pro-
bleme zu losen, unterscheiden. Es ist davon auszugehen, daß noch eine weitere,
zusatzlich erhobene Variable U eine Rolle spielt, zum Beispiel die Intelligenz. Den
Einfluß dieser Variable halt man in jeder Gruppe fur linear, wobei Gleichheit der
Steigungen vorausgesetzt ist. Dies fuhrt zum Ansatz der Kovarianzanalyse:
yij = βuij + µj + eij ,
wobei β die gemeinsame Steigung ist und µj der Achsenabschnitt in der j-ten
Gruppe; die Werte yij sind mit der Gruppe j und dem Index i der Person inner-
halb der Gruppe indiziert.
5.4 Hypothesentests ALM07 127
Zur Interpretation: Die µj sind die Erwartungswerte fur den Fall, daß die Ko-
variate U den Wert 0 annimmt. Man bildet hier sozusagen die Erwartungswerte
der Gruppen unter gleichen Bedingungen, was U angeht, bzw. man extrapoliert
(linear) auf den gleichen Wert von U .
Es ist ubrigens bei Betrachtung der Unterschiede zwischen den Gruppen unwe-
sentlich, ob man die Erwartungswerte fur den Wert 0 von U oder fur irgendeinen
anderen gemeinsamen Wert bildet, da Differenzen wegen der gleichen Steigung
in den Gruppen uberall gleich sind. Ublich ist es, die Erwartungswerte fur den
Durchschnitt u von U zu betrachten; fur Gruppe j ist dieser Erwartungswert, der
γj heißen soll, gleich βu + µj.
Dies entspricht einer Parametertransformation, namlich der, bei man in der De-
signmatrix den zu der Kovariate gehorenden Spaltenvektor zentriert. Wahlt man
die Reihenfolge der Spalten in der Designmatrix so, dass als erstes der zur Ko-
variate gehorende Vektor kommt, dem dann die aus Nullen und Einsen beste-
henden Vektoren folgen, die die Gruppenzugehorigkeit kodieren, so erhalt man
die Transformation der neuen Designmatrix zur alten, indem man das u-fache
aller Gruppenkodiervektoren zum Kovariatenvektor hinzuaddiert; die Transfor-
mationsmatrix T hat also die Gestalt
1 0 . . . 0
u 1...
. . .
u 1
,
wobei die leeren Stellen durch Nullen aufzufullen sind. Da diese Matrix auch die
Transformationsmatrix des alten Parametervektors zum neuen ist, erkennt man,
dass der erste Parameter β gleich bleibt und seine Bedeutung als Steigung behalt,
wahrend die folgenden Parameter µj ersetzt werden durch βu + µj, also in der
Tat durch die Erwartungswerte der Gruppen fur U = u.
Die Werte der Variablen U in den drei Gruppen seien die folgenden: 8, 9, 10 (erste
Gruppe), 0, 3, 6 (zweite Gruppe), 1, 3 (dritte Gruppe). Die abhangige Variable
Y soll (gleiche Reihenfolge) folgende Werte angenommen haben: -6, -10, -2 (erste
Gruppe), 8, 2, 20 (zweite Gruppe), 0, 4 (dritte Gruppe). Die Datensituation ist
in der folgenden Graphik veranschaulicht.
5.4 Hypothesentests ALM07 128
......................................................................................................................................................................................................................................... ...........................
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
....................
...................
U
Y
p p
p` ` p Gruppe 1
Gruppe 2` Gruppe 3
Der einfacheren Rechnung wegen werden die Parametertransformationen durch-
gefuhrt, die den u-Vektor zentrieren, also uberall den Mittelwert u = 5 abziehen.
Mit der gewohnten Reihenfolge der Spalten erhalt man dann die Designmatrizen
X =
3 1 0 0
4 1 0 0
5 1 0 0
−5 0 1 0
−2 0 1 0
1 0 1 0
−4 0 0 1
−2 0 0 1
, X0 =
1 3
1 4
1 5
1 −5
1 −2
1 1
1 −4
1 −2
.
Man erhalt daraus die folgenden Koeffizientenschemata der Normalengleichun-
gen:100 12 −6 −6 . −100
12 3 0 0 . −18
−6 0 3 0 . 30
−6 0 0 2 . 4
,8 0 . 16
0 100 . −100
Fur das Modell unter H1 ergeben sich aus den Normalengleichungen die Schat-
zungen β = 2, γ1 = −14, γ2 = 14, γ3 = 8. Daraus ergeben sich durch Rucktrans-
formation die Schatzungen µ1 = −24, µ2 = 4, µ3 = −2. Als Wert fur ‖ y‖2
ermittelt man 504 (indem man beispielsweise die geschatzten Parameter mit
der rechten Seite der Normalengleichungen multipliziert) und als Wert fur ‖y‖2
5.4 Hypothesentests ALM07 129
erhalt man 624. Hieraus ergibt sich ‖ e‖2 = 120, was bei 4 Freiheitsgraden zu der
Schatzung 30 fur die Fehlervarianz fuhrt.
Das Modell unter H0 liefert die Parameterschatzung β = −1 und γ = 2 (γ ist
nach der Reparametrisierung naturlich wieder der Erwartungswert fur U = u),
womit man fur den Achsenabschnitt die Schatzung α = 7 erhalt. Fur ‖ y0‖2 ergibt
sich damit 132.
Die Geraden, auf denen die geschatzten Erwartungswerte liegen, sind fur H1
und H0 in den nachsten beiden Graphiken eingezeichnet; wie man sieht, wird
der’Einfluss‘ von U ganz unterschiedlich geschatzt, je nachdem, ob man dem
Gruppierungsfaktor eine Wirkung zugesteht oder nicht.
......................................................................................................................................................................................................................................... ...........................
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
....................
...................
U
Y
p p
p` `
...............................................................................................................................................................................................
..............................................................................................................................................................................................................................................................................................................................................................
..............................................................................................................................................................................................................................................................................................................................................................................................................................................................
......................................................................................................................................................................................................................................... ...........................
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
....................
...................
U
Y
p p
p` `..................................................................................................................................................................................................................................................................................................................................
Nun kann unter Berucksichtigung der Tatsache, dass die Differenz der Range der
beiden Designmatrizen gleich 2 ist, die Teststatistik zu
F =(‖ y‖2 − ‖ y0‖2)/2
‖ e‖2/4=
372/2
120/4= 6.2
bestimmt werden. Dieser Wert ist mit dem α-Fraktil der F2,4-Verteilung zu ver-
gleichen.
Die Rechnung wurde hier mit den allgemeinen Formeln des ALM durchgefuhrt.
Es gibt auch in diesem Fall, ahnlich wie bei der multiplen Regression, speziell an-
gepasste Formeln, die man herleitet, indem man die allgemeinen Formeln fur die
speziellen Bedinungen der Kovarianzanalyse umformt. Naturlich hatte man mit
diesen Formeln das gleiche Ergebnis gefunden. Das Beispiel soll auch zeigen, dass
5.4 Hypothesentests ALM07 130
die allgemeine Vorgehensweise auf jeden Fall zum Ziel fuhrt, wenn auch vielleicht
nicht so bequem wie bei Benutzung von einfacheren Formeln fur Spezialfalle.
Das Modell der Kovarianzanalyse enthalt nicht nur den Gruppierungsfaktor son-
dern auch noch die Kovariate und ist daher komplexer als die bisher betrachteten.
Neben der’Wirkung‘ des Gruppierungsfaktors kann auch die der Kovariate inter-
essant sein, und damit hat man eine Situation, in der das Konzept der Quadrat-
summen unterschiedlicher Modelle seine Vorzuge erweist. Dies soll jetzt breiter
ausgefuhrt werden.
Es sollen jetzt vier Modelle betrachtet werden, namlich zunachst das, in dem
weder die Kovariate noch der Gruppierungsfaktor’Einfluss‘ haben, das Modell
ohne Kovariate, das ohne Gruppierungsfaktor und schließlich das Modell der Ko-
varianzanalyse, in dem mit beiden’Einflussen‘ gerechnet wird. Als funftes Modell
kommt wie ublich noch das ohne Restriktionen hinzu.
Im ersten Fall sollte der Erwartungswert fur alle Beobachtungen gleich sein, man
hat also als Designmatrix die Matrix, die nur aus einer Einserspalte besteht; dies
Modell sei hier M0 genannt. Das zweite Modell ist das der Varianzanalyse, das
dritte das der einfachen linearen Regression und das vierte das der Kovarianzana-
lyse. Diese Modelle seien hier der Reihe nach mit MV , MR und MK bezeichnet,
das Modell ohne Restriktionen wie oben mit Mt.
Man erkennt sofort, dass es zwischen diesen Modellen gewisse Hierarchien gibt:
alle Modelle sind Obermodelle von M0 (was bedeutet, dass die Spalte der Design-
matrix von M0 in den Erzeugnissen aller anderen Designmatrizen liegt) und MK
ist Obermodell von MV und MR. In Abanderung der oben benutzten Terminolo-
gie sollen jetzt die geschatzten Vorhersagen des Erwartungswertvektors mit y0,
yV , yR und yK bezeichnet werden (yR wurde also oben als y0 bezeichnet und
yK als y).
Das Modell M0 besitzt nur einen Parameter, der durch den Mittelwert aller Beob-
achtungen (hier 2) geschatzt wird, das Modell MV besitzt die Erwartungswerte
der einzelnen Gruppen als Parameter, die durch die Gruppenmittelwerte (hier
−6, 10 und 2) geschatzt werden.
Zum Vergleich mit den Schatzungen der anderen Modelle sind auch fur MV und
M0 in den nachsten beiden Graphiken die Geraden der geschatzten Erwartungs-
werte eingezeichnet. Im Vergleich zu MK fallt bei MV auf, dass die Differenzen
zwischen den Wirkungen der drei Stufen des Gruppierungsfaktors ganz anders
5.4 Hypothesentests ALM07 131
geschatzt werden.
......................................................................................................................................................................................................................................... ...........................
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
....................
...................
U
Y
p p
p` `....................................................................................................................................................................................................................................
....................................................................................................................................................................................................................................
....................................................................................................................................................................................................................................
......................................................................................................................................................................................................................................... ...........................
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
....................
...................
U
Y
p p
p` `....................................................................................................................................................................................................................................
Zur besseren Veranschaulichung sollen die geschatzten Erwartungswertvektoren
der Modelle hier mit aufgefuhrt werden; man erhalt
y =
−6
−10
−2....8
2
20....0
4
, y0 =
2
2
2....2
2
2....2
2
, yV =
−6
−6
−6....10
10
10....2
2
, yR =
−1
−2
−3....7
4
1....6
4
, yK =
−8
−6
−4....4
10
16....−2
6
.
Die Punkte verdeutlichen wieder nur die Gruppengrenzen. Da der Vektor 1 im
Erzeugnis aller Designmatrizen liegt, stimmen die Mittelwerte der Komponenten
aller dieser Vektoren uberein – man erhalt uberall den Wert 2.
Als Quadratsummen der Modelle wird man hier die’bereinigten‘ nehmen, wieder
aus dem Grund, dass 1 im Erzeugnis aller Designmatrizen liegt; die Freiheitsgra-
de sind entsprechend die um 1 verminderten Range der Designmatrizen. Diese
Quadratsummen sind also die Summen der quadrierten Abweichungen vom Mit-
telwert. Man kann sie andererseits auch dadurch erhalten, dass man von der Sum-
me der quadrierten Komponenten n y2 = 32 abzieht. Die Summe der quadrierten
Komponenten erhalt man naturlich auch einfacher, indem man den geschatzten
Parametervektor mit der rechten Seite der jeweiligen Normalengleichung multi-
5.4 Hypothesentests ALM07 132
pliziert. Es ergibt sich dann in Ubereinstimmung mit den zum Teil oben schon
durchgefuhrten Rechnungen die folgende Tabelle:
Modell SS df
M0 0 0
MV 384 2
MR 100 1
MK 472 3
Mt 592 7
In der Tabelle mit den’unbereinigten‘ Quadratsummen waren die Quadratsum-
men alle um 32 und die Zahl der Freiheitsgrade um 1 großer gewesen.
Mit Hilfe dieser Tabelle konnen nun die verschiedenen Modelle gegeneinander ge-
testet werden. Die schon oben beantwortete Frage nach der Wirkung des Grup-
pierungsfaktors kann man mit Hilfe der Tabelle erneut beantworten, indem man
die Modelle MK und MR vergleicht. Die Frage, ob die Kovariate einen Einfluss
hat, beantwortet man durch den Vergleich der Modelle MK und MV ; man erhalt
F =(SSK − SSV )/(dfK − dfV )
(SSt − SSK)/(dft − dfK)=
88/1
120/4= 2.933 ,
was mit dem α-Fraktil der F1,4-Verteilung zu vergleichen ist.
Man kann auch die Nullhypothese testen, dass weder die Kovariate noch der
Gruppierungsfaktor Einfluss haben. Dann vergleicht man die Modelle MK und
M0 und erhalt
F =(SSK − SS0)/(dfK − df0)
(SSt − SSK)/(dft − dfK)=
472/3
120/4= 5.244 ,
was diesmal mit am α-Fraktil der F3,4-Verteilung zu messen ist.
Vielleicht gelangt man auch aus irgendwelchen Grunden zu der Uberzeugung, dass
die Kovariate keinen Einfluss hat. In vergleichbaren Situationen konnte beispiels-
weise der Einfluss der Kovariate nicht signifikant sein, was als Beleg herangezogen
werden konnte – naturlich ware das nicht nur ein außerst schwaches Argument,
sondern auch eines, das nicht gerade von statistischem Verstandnis zeugt. Gleich-
wohl sei angenommen, dass es Grunde dafur gibt, einen Einfluss der Kovariate zu
verneinen. In diesem Fall wurde man eine einfache Varianzanalyse rechnen, fur
die die notigen Zahlen ebenfalls schon in der Tabelle enthalten sind. Hier sind die
Modelle M0 und MV gegeneinander zu testen und man erhalt
F =(SSV − SS0)/(dfV − df0)
(SSt − SSV )/(dft − dfV )=
384/2
208/5= 4.615
5.4 Hypothesentests ALM07 133
mit 2 Zahler- und 5 Nennerfreiheitsgraden.
Ebenso kann es sein, dass man einen Einfluss des Gruppierungsfaktors ausschließt
und nur testen mochte, ob die Steigung der Regression gleich 0 ist. Dann testet
man MR gegen M0 mit
F =(SSR − SS0)/(dfR − df0)
(SSt − SSR)/(dft − dfR)=
100/1
492/6= 1.220
mit einem Zahler- und 6 Nennerfreiheitsgraden.
Diese Uberlegungen sollten die Nutzlichkeit der Tabelle mit den Quadratsum-
men deutlich gemacht haben. Hatte man die’unbereinigten‘ Quadratsummen
mit den zugehorigen Freiheitsgraden genommen, so hatte man naturlich die glei-
chen Ergebnisse herausbekommen, wobei man sogar noch ein weiteres Modell fur
mogliche Nullhypothesen gehabt hatte, namlich das, dass alle Erwartungswerte
gleich 0 sind.
Selbstverstandlich wird man in einer Anwendung nicht, wie hier zur Demonstra-
tion geschehen, alles rechnen, was moglich ist, sondern nur die im konkreten Fall
sinnvollen Hypothesen testen, wobei man sich auch uber die α-Adjustierung Ge-
danken machen wird.
Zum Schluss soll noch die Frage nach der power gestellt werden. Diese Frage
kann man naturlich nur beantworten, wenn man die wahren Werte der Parameter
kennt. Man kann aber, auch wenn das nicht der Fall ist, fur die Parameter Werte
vorgeben, die man fur plausibel erachtet, und dann die power berechnen unter der
Voraussetzung, daß diese Werte richtig sind. Solche Werte konnen zum Beispiel
Schatzungen aus fruheren Untersuchungen sein.
Hier sollen folgende Werte fur die Parameter plausibel sein: β = 1, µ1 = −21,
µ2 = 7, µ3 = 1 und σ = 5. Der erste Schritt bei der Berechnung der power ist die
Berechnung des Datenvektors, der sich bei diesen Parametern fehlerfrei ergeben
hatte (also von Xβ). Dies fuhrt hier zu (−13,−12,−11, 7, 10, 13, 2, 4)′.
Zunachst soll die power fur die kovarianzanalytische Fragestellung nach der Wir-
kung des Gruppierungsfaktors bestimmt werden. Hier ist das Modell der Null-
hypothese das der einfachen linearen Regression. Zur Bestimmung der Parame-
terschatzung (nach der ublichen Transformation) kann die linke Seite der Nor-
malengleichungen von oben ubernommen werden, die rechte Seite ergibt sich zu
(0,−200)′, woraus man γ = 0 und β = −2 erhalt. Multipliziert man diese Werte
mit der rechten Seite der Normalengleichungen, so erhalt man fur die quadrierte
5.4 Hypothesentests ALM07 134
Norm des Vorhersagevektors den Wert 400. Die Summe der quadrierten Werte
des’Datenvektors‘ ist 772, woraus man die Summe der quadrierten Fehler zu 372
bestimmt. Mit Division durch σ2 erhalt man den NZP 14.88, was bei einem Test
auf dem 5%-Niveau zu einer power von .63 ergibt.
Naturlich hatte man auch auf anderen Wegen zu diesem Resultat kommen konnen:
beispielsweise liefert ein Auswertungsprogramm als Korrelation r zwischen den
Werten des Pradiktors U und den als Werte einer Kriteriumsvariable Y aufgefas-
sten Komponenten des’Datenvektors‘ den Wert .72 und als korrigierte Stichpro-
benvarianz von Y den Wert 110.286. Das Produkt dieser Varianz mit (1−r2) und
dem um 1 verminderten Stichprobenumfang ist dann die Summe der quadrier-
ten Fehler; hier erhalt man den Wert 371.796, was im Rahmen der Rechenge-
nauigkeit mit dem oben ermittelten korrekten Wert 372 ubereinstimmt. Je nach
zur Verfugung stehenden Programmen kann man sich noch weitere Methoden
uberlegen, so hatte ein Programm, das im Rahmen des ALM auch die Quadrat-
summen bestimmt, die Zahl 372 in der Ergebnisdarstellung direkt angezeigt.
Man kann auch nach der power des Tests nach dem Einfluss der Kovariate fragen.
Das Modell der Nullhypothese ist dann das der Varianzanalyse, die Summe der
quadrierten Fehler ist also SSw, was sich hier zu 22 errechnet. Der zugehorige
NZP ist .88 und die power bei einem Test auf dem 5%-Niveau .11.