5 Das Allgemeine Lineare Modell - uni-kiel.de · 5.1 Modell und Fragestellungen ALM07 3 geleistet werden { auf keinen Fall kann die Statistik die Denkanstrengung im inhaltlichen Bereich

ALM07 1

5 Das Allgemeine Lineare Modell

5.1 Modell und Fragestellungen

Das Allgemeine Lineare Modell (ALM) ist ein abstraktes statistisches Modell, das

als Spezialfalle viele wichtige Modelle enthalt, wie die der Varianzanalyse, der Re-

gressionsanalyse oder der Kovarianzanalyse. Es wird dabei immer vorausgesetzt,

dass der Erwartungswert einer Variable Y in einer bestimmten (’linearen‘) Weise

von gewissen Bedingungskonstellationen abhangt. Die zu untersuchenden Fragen

betreffen dann die genaue Art der Abhangigkeit.

Einfache lineare Regression. Als einfuhrendes Beispiel soll die einfache li-

neare Regression dienen. Hier wird vorausgesetzt, dass der Erwartungswert einer

Kriterumsvariable Y eine lineare Funktion einer Pradiktorvariable U ist.

Dies soll nun genauer ausgefuhrt werden. Fur jeden festen Wert u der Variable

U soll der Erwartungswert moglicher Werte y von Y durch

E(y) = βu + α

gegeben sein. Die Verteilung dieser Werte y soll eine Normalverteilung sein, deren

Varianz σ2 nicht von u abhangt.

Diese Modellvorstellungen konnen graphisch folgendermaßen veranschaulicht wer-

den:

................................................................................................................................................................................................................................................................................................................ ...........................

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

.........................

...................

u

y

..................................

..................................

..................................

..................................

..................................

..................................

..................................

..................................

..................................

..................................

..................................

........................

E(y) = βu + α

........

........

........

........

........

........

........

........

........

........

......................

......................................

..............................

........

........

........

........

........

........

........

........

........

........

......................

......................................

..............................

........

........

........

........

........

........

........

........

........

........

......................

......................................

..............................

Es folgen zunachst mehrere Anmerkungen:

Die kleinen Normalverteilungsgraphen sollen die Verteilung von y fur die zu-

gehorigen Werte von u andeuten – man beachte die gleichen Varianzen.

5.1 Modell und Fragestellungen ALM07 2

Die (griechischen) Bezeichnungen α und β weisen darauf hin, dass es sich um

theoretische Parameter handelt, namlich um Achsenabschnitt und Steigung der

(unbekannten) Geraden, die den Erwartungswert von y in Abhangigkeit von u

beschreibt. Die Bezeichnung β hat ubrigens nichts mit dem ebenso bezeichneten

standardisierten Regressionskoeffizienten aus der deskriptiven Statistik zu tun.

Die Variablen Y und U sind Variablen im informellen Sinn und keine Zufallsvaria-

blen. Bei der Variable U soll zunachst angenommen werden, dass sie experimentell

gesetzt wird. Von einer (theoretischen) Verteilung von U und damit auch von Y

zu sprechen, ware folglich nicht sinnvoll.

Fur einen konkreten Wert von u hingegen wird y (zur Unterscheidung jetzt klein

geschrieben) als Zufallsvariable aufgefasst. Wie ublich ist dabei y nicht ein schon

erhobener Wert, sondern ein Wert, der sich bei der Durchfuhrung einer entspre-

chenden Untersuchung ergeben konnte – man befindet sich hier gewissermaßen

erst in der Planungsphase. Zur Verdeutlichung der Tatsache, dass man nur bei

vorgegebenen Werten von u die Variable y als Zufallsvariable ansehen kann,

konnte man auch u als Index hinzufugen (yu), was aber umstandlich ist und

daher hier unterbleiben soll. In der Notation wird nicht zwischen der Variable

und moglichen Werten unterschieden; was gemeint ist, ist dem Kontext zu ent-

nehmen.

Wesentlich ist der Unterschied zur linearen Regression in der deskriptiven Stati-

stik.

Bei der Regression in der deskriptiven Statistik geht es nur darum, durch eine

Punktwolke eine im Sinne des bekannten Kriteriums optimale’Vorhersagegerade‘

zu legen. Fragen, wie die Werte zustande gekommen sind, und ob es auf theoreti-

scher Ebene Zusammenhange zwischen diesen Variablen gibt, spielen dort keine

Rolle, da es eine theoretische Ebene noch gar nicht gibt.

Hier hingegen werden starke Modellannahmen gemacht, die noch einmal wieder-

holt seien: Der Erwartungswert von y ist eine lineare Funktion von u, fur jeden

festen Wert von u ist y normalverteilt, und die Varianzen von y sind fur verschie-

dene Werte von u gleich.

Sind diese Modellvorstellungen nicht oder nicht wenigstens annahernd erfullt,

so ist jede weitere Rechnung, die sich auf mit dem Modell zusammenhangende

Fragen bezieht, sinnlos.

Die Rechtfertigung der Modellannahmen muss dabei von der inhaltlichen Theorie


geleistet werden – auf keinen Fall kann die Statistik die Denkanstrengung im

inhaltlichen Bereich ersetzen.

Eine inhaltliche Rechtfertigung wurde im optimalen Fall so aussehen, dass (in-

haltliche) Mechanismen aufgezeigt werden, die zu der beschriebenen Abhangigkeit

fuhren, und zwar genau in der beschriebenen linearen Form, und nicht nur in ei-

ner qualitativ vielleicht ahnlichen. Dies wird leider nur in wenigen Fallen moglich

sein; dennoch sollten zumindest Plausibilitatsargumente dafur angefuhrt wer-

den, dass der angenommene Zusammenhang naherungsweise besteht. Bei solchen

Uberlegungen wird auch der Bereich eine Rolle spielen, in dem U variiert wird

– auch wenn ein linearer Zusammenhang global nicht vorliegt, kann womoglich

doch lokal (bei nur kleinen Variationen von U) der tatsachliche Zusammenhang

durch eine lineare Funktion gut approximiert werden.

Die gerade schon angedeutete Frage, ob das Modell kausal zu interpretieren ist,

etwa im Sinne eines durch die lineare Funktion erfassten Mechanismus, oder nur

deskriptiv, kann naturlich auch nicht statistisch beantwortet werden, sondern

nur inhaltlich, wobei die Art der Datengewinnung (Kontrolle von unabhangiger

Variable und von Storvariablen) eine entscheidende Rolle spielen wird.

Wenn man das beschriebene Modell fur gultig halt, wird man sich vor allem fur

die unbekannten Parameter α und β interessieren, in zweiter Linie auch fur σ2.

Es folgen einige mogliche Arten von Fragen.

Zunachst ist sicher der genaue Wert von α und β interessant; ein erstes Ziel wird

also die Ermittlung von Punktschatzern fur diese Parameter sein.

Da mogliche Daten immer fehlerbehaftet sind, wird man daruber hinaus auch

Vertrauensintervalle konstruieren wollen.

Zusatzlich konnen auch Funktionen der Parameter von Bedeutung sein. Im Fall

der Regression konnte beispielsweise die Frage auftreten, wie groß der Erwar-

tungswert von y fur u = 1 ist. Es geht dann darum, diesen Wert β · 1 + α, der in

der Tat eine Funktion von α und β ist, in geeigneter Weise zu schatzen; auch hier

ist sowohl nach einer Punktschatzung als auch nach einem Vertrauensintervall

gefragt.

Schließlich kann es darum gehen, Annahmen uber die Parameter zu testen. Im

Fall der Regression ist die am haufigsten getestete Fragestellung die, ob der Stei-

gungsparameter β gleich Null ist oder nicht. Es sind aber auch Tests fur andere

Fragen moglich, beispielsweise, ob der Achsenabschnitt α gleich 0 ist.


Antworten auf diese Fragen konnen nur auf der Basis von Daten gegeben werden.

Es sei also nun eine Untersuchung geplant, in der solche Daten erhoben werden.

Um die Situation uberschaubar zu halten, soll in dieser Untersuchung nur fur die

drei Werte 3, 5 und 8 von U je ein Wert von Y erhoben werden. Die Ergebnisse

werden mit y1, y2, y3 bezeichnet; diese noch nicht erhobenen Werte sind normal-

verteilte Zufallsvariablen mit Varianz σ2, deren Erwartungswerte sich auf Grund

der Modellgleichung ergeben. Fur y1 gilt beispielsweise

E(y1) = β · 3 + α = 1 · α + 3 · β .

Fur alle drei Erwartungswerte erhalt man auf diese Weise

E(y1) = 1 · α + 3 · βE(y2) = 1 · α + 5 · βE(y3) = 1 · α + 8 · β .

Fasst man die drei Variablen yi zu einem Zufallsvektor y zusammen, so kann man

dies auch folgermaßen schreiben:

E(y) =

E(y1)

E(y2)

E(y3)

=

1 3

1 5

1 8

(α

β

).

Hier besteht ubrigens die zweite Spalte der Matrix aus den untersuchten Werten

der Variable U .

Der Erwartungswert von y ergibt sich also aus den zu einem Vektor zusam-

mengefassten Parametern α und β durch Anwendung einer linearen Abbildung.

Derartige lineare Abbildungen geben dem Allgemeinen Linearen Modell seinen

Namen.

Wenn das Modell fehlerfrei gelten wurde, ware dieser Erwartungswert von y

gleichzeitig der Datenvektor, der sich ergeben musste; in diesem Sinn kann man

E(y) auch als den vom Modell vorhergesagten Wert oder kurz als Modellvorher-

sage bezeichnen. Je nachdem, welchen Wert α und β besitzen, sie ist in der gerade

beschriebenen Weise also von diesen Parametern abhangig.

Die Matrix

X =

1 3

1 5

1 8


heißt auch Designmatrix, wahrend man die beiden Parameter zu einem Parame-

tervektor (α, β)′ zusammenfasst, der traditionell β heißt.

Abgekurzt erhalt man so fur die zu erhebenden Daten die Modellgleichung

E(y) = Xβ .

Die Modellvorhersage E(y) erhalt man also aus dem Parametervektor β mit Hilfe

der linearen Abbildung X.

Bei der Designmatrix X gibt die i-te Zeile an, wie der Erwartungswert der i-ten

Beobachtung sich aus den Parametern errechnet, wahrend die j-te Spalte den

Einfluss des j-ten Parameters auf die Erwartungswerte wiederspiegelt.

Die Anzahl der Spalten von X ist die Anzahl der Parameter, hier also 2. Fasst

man U als (hier einzige) unabhangige Variable auf, so stimmt hier, wie auch in

den meisten anderen ahnlich gelagerten Fallen, die Anzahl der Spalten nicht mit

der der unabhangigen Variablen uberein.

Die Abweichungen der tatsachlichen Werte von ihren Erwartungswerten bezeich-

net man ublicherweise als Fehler. Diese Fehler werden mit ei abgekurzt und zu ei-

nem Fehlervektor e zusammengefasst, dessen Komponenten dann alle normalver-

teilt sind mit Erwartungswert 0 und Varianz σ2. Die Gleichungen yi = E(yi) + ei

schreiben sich in Matrixform

y1

y2

y3

=

1 3

1 5

1 8

(α

β

)+

e1

e2

e3

oder kurz

y = Xβ + e .

Die Voraussetzung, die bezuglich der Fehler gemacht wird, ist die der gemein-

samen Unabhangigkeit. Da sich die yi und die ei nur um den Erwartungswert

von yi, also um eine Konstante, unterscheiden, ist die Unabhangigkeit der Fehler

gleichbedeutend mit der der yi.

Bei normalverteilten Variablen ist bekanntlich Unabhangigkeit gleichbedeutend

mit gemeinsamer Normalverteiltheit und Nullkorrelationen. Daher kann man das

Modell fur die einfache lineare Regression mit drei Beobachtungen nun vollstandig

folgendermaßen angeben:

y = Xβ + e mit e ∼ N3(0, σ2I) ,


oder noch kurzer so:

y ∼ N3(Xβ, σ2I) .

Man beachte, dass in diesen Formulierungen die auch aus anderen Zusammen-

hangen bekannten Annahmen der Normalverteiltheit, Varianzhomogenitat und

Unabhangigkeit enthalten sind.

Das allgemeine Modell. Nach dem Beispiel der einfachen linearen Regression

soll nun das Modell allgemein formuliert werden.

Die Grundsituation ist immer die, dass in meist mehreren Bedingungskonstella-

tionen Werte einer Variable Y erhoben werden sollen.

Insgesamt werden n Beobachtungen yi gemacht, die zu einem n-Vektor y zusam-

mengefasst werden.

Die Erwartungswerte der yi sind lineare Funktionen von k Modellparametern, die

zu einem Parametervektor β zusammengefasst sind. Genauer gilt

E(y) = Xβ ;

die (n× k)-Matrix X heißt Designmatrix.

Die yi sind unabhangig normalverteilt mit gleicher Varianz σ2.

Bezeichnet man die Abweichung von yi von E(yi) als Fehler ei und fasst die ei

zu dem Fehlervektor e zusammen, so ist E(e) = 0, ferner sind die ei unabhangig

normalverteilt mit Varianz σ2 (dies ist ubrigens aquivalent zur Gultigkeit dieser

Eigenschaften fur die yi).

Zusammengefasst lassen sich die Annahmen in der Modellgleichung formulieren:

y = Xβ + e mit e ∼ Nn(0, σ2I) ,

oder noch kurzer so:

y ∼ Nn(Xβ, σ2I) .

In der Designmatrix X kodiert die j-te Spalte die’Wirkung‘ des j-ten Parameters

auf die Beobachtungen, wahrend die i-te Zeile die Bedingungskonstellation fur die

i-te Beobachtung beschreibt. Hier ist noch einmal ausfuhrlich die Gleichung fur

den i-ten Erwartungswert:

E(yi) =k∑

j=1

xijβj .


Die Eintrage xij in der Designmatrix hangen oft teilweise mit Werten gewisser un-

abhangiger Variablen zusammen und geben die Bedingungskonstellation wieder,

unter der die i-te Beobachtung zustandekommt.

Der Ausdruck’Modellgleichung‘ soll hier liberal in zwei Bedeutungen verwendet

werden; einerseits als Gleichung, die angibt, wie einzelne Erwartungswerte oder

Werte von y in unterschiedlichen Konstellationen zustande kommen, wie E(y) =

βu + α oder y = βu + α + e in der einfachen linearen Regression, andererseits –

eng damit zusammenhangend – als Gleichung fur den Erwartungswertvektor oder

Ergebnisvektor von y, wenn man sich auf die Konstellationen schon festgelegt hat,

also E(y) = Xβ bzw. y = Xβ + e.

Die Ziele bei der Anwendung des ALM bestehen in der Schatzung (in Form von

Punktschatzungen und Konfidenzbereichen) von Modellparametern und Funktio-

nen der Modellparameter einerseits und im Testen von Hypothesen uber Modell-

parameter oder Funktionen der Modellparameter andererseits.

Es gibt von der hier beschriebenen’klassischen‘ Form des ALM auch Abschwa-

chungen, beispielsweise in Bezug auf die Normalverteilungsannahme oder die An-

nahme der Struktur der Kovarianzmatrix des Fehlers e. Außerdem lasst es sich ge-

legentlich verallgemeinern fur Anwendungen, in denen die Matrix X nicht fest ist,

sondern teilweise zufallig – bei der einfachen linearen Regression kann beispiels-

weise die Variable U auch eine Zufallsvariable sein. Einige der im Fortgang zu zie-

henden Folgerungen aus den Modellannahmen behalten auch fur abgeschwachte

Versionen Gultigkeit; gelegentlich wird kurz darauf eingegangen.

Nun sollen jedoch zunachst weitere Beispiele fur das ALM vorgestellt werden.

Beispiele. Die ersten Beispiele sind Verallgemeinerungen oder Spezialfalle des

Regressionsbeispiels.

Polynomiale Regression. Allgemein ist hier der Erwartungswert von Y eine poly-

nomiale Funktion einer’unabhangigen Variable‘. Speziell soll beispielsweise der

Erwartungswert von Y ein Polynom dritten Grades der Variable U sein. Es gilt

dann

E(y) = β0 + β1u + β2u2 + β3u

3 =3∑

k=0

βkuk ,

wobei hier die Indizes der Parameter zweckmaßigerweise gleich den zugehorigen

Exponenten angeben. Die folgende Graphik veranschaulicht die Situation:


........................................................................................................................................................................................................................................................................................................................................................................................................................... ...........................

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........................

...................

u

y

......................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

.................................................................................................................................................................................................................................................................................................................................................................................................................................................

........

........

........

........

........

........

........

........

........

........

......................

.......................................

.............................

........

........

........

........

........

........

........

........

........

........

......................

......................................

..............................

........

........

........

........

........

........

........

........

........

........

......................

.......................................

.............................

........

........

........

........

........

........

........

........

........

........

......................

......................................

..............................

........

........

........

........

........

........

........

........

........

........

......................

.......................................

.............................

........

........

........

........

........

........

........

........

........

........

......................

......................................

..............................

Nun sollen fur die Werte −1, 0, 1, 2, 3, 4 Daten erhoben werden. Der Erwar-

tungswert von y beispielsweise fur u = 2 ist dann

3∑

k=0

βk2k = β0 + β1 · 2 + β2 · 22 + β3 · 23 = 1 · β0 + 2 · β1 + 4 · β2 + 8 · β3 ,

also eine Linearkombination der βk.

Die Gleichung fur den Erwartungswertvektor ist damit

E(y) = Xβ =

1 −1 1 −1

1 0 0 0

1 1 1 1

1 2 4 8

1 3 9 27

1 4 16 64

β0

β1

β2

β3

,

ihre vierte Zeile ist der gerade untersuchte Fall u = 2. Die Spalten der Designma-

trix enhalten nacheinander die Werte der Variablen U0 = 1, U , U2 und U3, die

in dieser Untersuchung verwendet werden.

Dies Beispiel ist gut geeignet, zwei Missverstandnissen zu begegnen. Einerseits

besteht die Linearitat im ALM darin, dass der Erwartungswertvektor von y aus

dem Parametervektor β durch Anwendung einer linearen Abbildung (namlich

X) hervorgeht, und nicht darin, dass Y eine lineare Funktion der unabhangigen

Variable ware. Andererseits wird noch deutlicher, dass die Anzahl der Spalten

von X nur wenig mit der Zahl der unabhangigen Variablen zu tun hat.

Wie immer ist es nur dann sinnvoll, dieses Modell anzuwenden, wenn man von

seiner Richtigkeit uberzeugt ist. Die Modellgleichung kann dabei entweder de-

skriptiv interpretiert werden oder im Idealfall theoretisch begrundet sein, zum


Beispiel dadurch, dass ein Mechanismus sich durch ein Polynom beschreiben lasst.

Der letzte Fall konnte bei einem hypothetischen Physiker vorliegen, der schon die

Fallgleichung s = 1/2gt2 kennt, noch nicht jedoch den genauen Wert von g, der

nun mit Hilfe eines Experiments bestimmt werden soll.

Mogliche Fragen betreffen hier die Große der einzelnen Parameter, womoglich

auch den Erwartungswert von y fur einen bestimmten Wert von u. Eine zu te-

stende Hypothese kann die sein, dass β3 von 0 verschieden ist, dass also eine

Beschreibung mit Hilfe eines Polynoms zweiten Grades nicht ausreichend ist.

Regression ohne Konstante. Ein einfacherer Fall als der der einfachen linearen

Regression ist der, in dem die Konstante gleich 0 ist. Es kann beispielsweise

sein, dass man aus theoretischen Grunden weiß, dass Y bis auf einen Fehler

proportional zu U ist, und nun daran interessiert ist, den Proportionalitatsfaktor

zu ermitteln.

Vielleicht mochte man bestimmen, wie der Benzinverbrauch eines Kraftfahrzeugs

von der Zahl der gefahrenen Kilometer abhangt – ein Fall, in dem eine lineare

Beziehung y = βu + e zwischen Benzinverbrauch Y und Kilometerzahl U eini-

germaßen plausibel ist. Die Designmatrix fur den Fall, dass zur Untersuchung

Strecken von 4, 4, 9, 16 Kilometer gefahren werden sollen, sieht dann einfach so

aus:

X =

4

4

9

16

.

Hier besteht die Hauptfragestellung sicher in einer genauen Schatzung des Para-

meters β, der ja gerade den Benzinverbrauch pro Kilometer angibt.

Multiple lineare Regression. Bei der multiplen linearen Regression gibt es eine

Kriteriumsvariable Y und mehrere Pradiktoren U1, . . . , Um. Hier wird vorausge-

setzt, dass sich der Wert von Y in einer Konstellation, in der die Variablen Uj

die Werte uj annehmen, als

y =∑

βjuj + α + e

ergibt.

Wie bei der einfachen linearen Regression sind hier die βj Parameter auf der theo-

retischen Ebene; sie haben nichts mit den standardisierten Regressionsgewichten

gleichen Namens aus der deskriptiven multiplen linearen Regression zu tun.


Der Unterschied zur deskriptiven Regression besteht wieder darin, dass dort nur

optimal vorhergesagt werden sollte, wahrend hier die Gultigkeit eines Modells

vorausgesetzt wird, in dem der Erwartungswert von y sich linear aus den Werten

der Uj ergibt.

Dass dies eine sehr starke Modellannahme ist, erkennt man beispielsweise im

Fall zweier Pradiktoren U1 und U2, wenn man den Erwartungswert von y in

Abhangigkeit von u1 bei festen Werten von u2 untersucht. Es ergibt sich hier

E(y) = β1u1 + β2u2 + α ,

woraus folgt, dass fur feste Werte von u2 der Erwartungswert E(y) eine lineare

Funktion von u1 ist, die immer die gleiche Steigung β1 besitzt. Daruber hinaus

verandert sich der Achsenabschnitt linear mit u2. Das folgende Diagramm soll

eine mogliche derartige Situation zeigen:

......................................................................................................................................................................................................................................... ...........................

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........................

...................

u1

y

..................................

..................................

..................................

..................................

..................................

..................................

..................................

..................................

..................................

.............

..................................

..................................

..................................

..................................

..................................

..................................

..................................

..................................

..................................

.............

..................................

..................................

..................................

..................................

..................................

..................................

..................................

..................................

..................................

.............

........

........

........

........

........

........

........

........

........

........

......................

......................................

..............................

........

........

........

........

........

........

........

........

........

........

......................

......................................

..............................

........

........

........

........

........

........

........

........

........

........

......................

......................................

..............................

u2 = 2

u2 = 3

u2 = 4

Wie ublich ist zu fragen, wie solche Modellannahmen gerechtfertigt sind. Die Fra-

ge durfte mit steigender Zahl von Pradiktoren ebenso dringlicher wie schwieriger

werden.

Analoges gilt fur die Interpretation der Modellparameter: Sollen sie nur zu de-

skriptiven Zwecken nutzlich sein oder spiegeln sie theoretische Mechanismen wie-

der? Wieder gilt, dass die Statistik zur Beantwortung solcher Fragen nichts bei-

tragen kann.

In der Designmatrix soll fur den Parameter α die erste Spalte reserviert werden

und fur die βj die weiteren. Die Anzahl der Spalten von X ist jetzt m + 1. Soll

die Variable Y beispielsweise von zwei Pradiktoren U1 und U2 abhangen, die

nacheinander die Werte 2, 3, 4, 5, 1 bzw. 3, 3, 4, 4, 5 annehmen, so sieht die


Designmatrix folgendermaßen aus:

1 2 3

1 3 3

1 4 4

1 5 4

1 1 5

.

Hier enthalten die zweite und dritte Spalte die auftretenden Werte von U1 und

U2.

Fragen, die man hier testen konnte, waren beispielsweise die, ob gewisse Modell-

parameter βj gleich 0 sind, ob also (wenn diese Interpretation gerechtfertigt ist)

die entsprechenden Variablen einen’Einfluss‘ haben. Auch hier ist wieder zu be-

merken, dass positive Ergebnisse von entsprechenden statistischen Tests fur sich

genommen keine Kausalinterpretation begrunden konnen.

Auch hier wird es darum gehen, die Parameter zu schatzen, also insbesondere die

Steigungskoeffizienten βj, die man womoglich (vielleicht nach Standardisierung)

als Starke des’Einflusses‘ interpretieren mochte. Solche Interpretationen sind nur

dann sinnvoll, wenn die Gultigkeit des Modells vorausgesetzt werden kann. Die

Gefahr dabei ist die, dass auch eine blinde Anwendung des Modells irgendwelche

Zahlen produziert, die vielleicht phantasievoll gedeutet werden mogen, jedoch

ganz unsinnig sind, wenn man bei genauerem Hinsehen an die Parameter, die sie

schatzen sollen, gar nicht glaubt.

Moderatorvariablen. Gelegentlich hat man die Modellvorstellung, dass der Er-

wartungswert von Y eine lineare Funktion von einem Pradiktor U1 ist, dass aber

die’Starke‘ des Zusammenhangs von einer zweiten Variable U2 abhangt, die

’den

Einfluss von U1 moderiert‘, und die daher auch Moderatorvariable genannt wird.

Diese vage verbale Beschreibung setzt man dann oft in das folgende harte Modell

um:

E(y) = β1u1 + β2u2 + β3u1u2 + α .

Um deutlich zu machen, wie prazise (und damit womoglich angreifbar) diese

Modellvorstellung ist, soll die Gleichung etwas umgruppiert werden:

E(y) = (β1 + β3u2)u1 + (β2u2 + α) .

Das Modell impliziert also, dass fur festes u2 der Erwartungswert von y eine linea-

re Funktion von u1 ist, wobei Steigung und Achsenabschnitt lineare Funktionen


von u2 sind. Gleiche Anderungen von u2 fuhren also zu gleichen Anderungen

in Steigung bzw. Achsenabschnitt. Die folgende Graphik illustriert dies an einer

moglichen Situation.

................................................................................................................................................................................................................................................................................................................ ...........................

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........................

...................

u1

y

..............................................................................

..............................................................................

..............................................................................

..............................................................................

..............................................................................

..............................................................................

....

..........................................

..........................................

..........................................

..........................................

..........................................

..........................................

..........................................

..........................................

..........................................

..........................................

..........................................

....................................

..............................

..............................

..............................

..............................

..............................

..............................

..............................

..............................

..............................

..............................

..............................

..............................

..............................

..............................

..............................

..............................

..............................

..............................

.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

........

........

........

........

........

........

........

........

........

........

......................

......................................

.............................. ........

........

........

........

........

........

........

........

........

........

......................

......................................

..............................

........

........

........

........

........

........

........

........

........

........

......................

......................................

..............................

........

........

........

........

........

........

........

........

........

........

......................

......................................

..............................

u2 = 4

u2 = 5

u2 = 6

u2 = 7

Es fallt auf, dass alle Geraden sich in einem Punkt schneiden. Dies ist immer so:

an der Stelle u1 = −β2/β3 nehmen alle linearen Funktionen den Wert α−β1β2/β3

an. Analog sieht man, dass fur den Wert u2 = −β1/β3 die Funktion, die E(y) in

Abhangigkeit von u1 angibt, konstant ist, namlich ebenfalls gleich α− β1β2/β3.

Es zeigt sich also, dass die Umsetzung des inhaltlich zunachst vagen Gedankens

einer Moderatorvariablen in eine harte Modellgleichung interessante Konsequen-

zen hat, deren inhaltliche Plausibilitat man prufen konnte und sollte.

Die Designmatrix, die die Reihenfolge (α, β1, β2, β3)′ fur die Parameter vorsieht,

hat in dem Fall, dass die Variable U1 die Werte 1, 2, 3, 4, 5, 6 und die Variable U2

die Werte 1, 1, 3, 3, 5, 5 annehmen, die Gestalt

1 1 1 1

1 2 1 2

1 3 3 9

1 4 3 12

1 5 5 25

1 6 5 30

.

In der zweiten, dritten und vierten Spalte findet man die Werte von U1, U2 und

deren Produkt.

Neben der ublichen Schatzung der Parameter kann hier getestet werden, ob die

Variable U2 tatsachlich einen moderierenden Einfluss im beschriebenen Sinn hat,

ob also β3 gleich 0 ist.


Eine Stichprobe. In diesem (fast) allereinfachsten Beispiel geht es um eine un-

abhangig gezogene Stichprobe aus einer Grundgesamtheit, oder um eine mehr-

fache unabhangige Replikation desselben Experiments. Die Gleichungen fur die

einzelnen Ergebnisse lauten dann yi = µ + ei. Der einzige Parameter ist der Er-

wartungswert µ in der Population (bzw. bei einmaliger Durchfuhrung) und die

Designmatrix ein Vektor aus soviel Einsen, wie Beobachtungen vorliegen. Bei drei

Beobachtungen ergibt sich also folgende Gleichung fur den Ergebnisvektor:

y1

y2

y3

=

1

1

1

(µ) +

e1

e2

e3

.

Die Designmatrix ist daher hier gleich

1

1

1

.

Der Parametervektor β hat hier nur eine Komponente, namlich µ.

Zu schatzen ist hier µ, getestet werden kann beispielsweise die Frage, ob µ gleich

Null oder auch gleich 1 ist.

Zwei Stichproben. Beispiele sind hier zwei unabhangige Stichproben aus zwei Po-

pulationen oder mehrfache unabhangige Replikationen eines Experiments unter

zwei Bedingungen. Die Parameter sind dann die Erwartungswerte µ1 und µ2 von

Y in den beiden Populationen (oder den einfach durchgefuhrten Experimenten).

Bezeichnet man (hier zweckmaßigerweise mit doppeltem Index) mit yij und eij

den Wert von Y und den Fehler bei der i-ten Beobachtung in der j-ten Gruppe,

so gelten die Gleichungen

yi1 = µ1 + ei1

yi2 = µ2 + ei2

fur Beobachtungen in der ersten bzw. zweiten Population.

Sollen zum Beispiel aus einer Population zwei und aus einer zweiten Population

drei Werte erhoben werden, und werden die Beobachtungen zweckmaßigerweise so

angeordnet, dass zuerst die Beobachtungen aus der ersten Population und dann

die aus der zweiten kommen, so ist die ausfuhrlich geschriebene Modellgleichung

die folgende:


y11

y21

y12

y22

y32

=

1 0

1 0

0 1

0 1

0 1

(µ1

µ2

)+

e11

e21

e12

e22

e32

.

Die Designmatrix ist dann gleich

1 0

1 0

0 1

0 1

0 1

.

Der Parametervektor ist hier β = (µ1, µ2)′, hat also die Lange 2.

Neben der Frage, wie groß die beiden Erwartungswerte sind, kann hier auch von

Interesse sein, wie groß deren Differenz ist. Eine Hypothese, die getestet werden

kann, ist die, ob beide Erwartungswerte gleich sind.

Einfache Varianzanalyse. Die Situation ist wie im letzten Beispiel, außer dass

hier mehr Populationen (oder experimentelle Bedingungen) vorliegen.

Verwendet man die gleiche Indizierung wie im letzten Beispiel, so lautet die Mo-

dellgleichung fur die i-te Beobachtung yij in der j-ten Gruppe

yij = µj + eij .

Bei drei Populationen und je zwei Beobachtungen aus den ersten beiden und einer

aus der letzten sieht die ausfuhrlich geschriebene Modellgleichung so aus:

y11

y21

y12

y22

y13

=

1 0 0

1 0 0

0 1 0

0 1 0

0 0 1

µ1

µ2

µ3

+

e11

e21

e12

e22

e13

.


Die Designmatrix ist folglich gleich

1 0 0

1 0 0

0 1 0

0 1 0

0 0 1

.

Neben den Parametern gilt das Interesse hier Funktionen der Parameter beispiels-

weise den Kontrasten. Tests konnen danach fragen, ob zwei Erwartungswerte

gleich sind, oder ob alle Erwartungswerte gleich sind.

Kovarianzanalyse. Bisweilen hat man die Vorstellung, dass in einer varianzanaly-

tischen Situation die AV nicht nur durch das treatment bestimmt wird, sondern

zusatzlich durch eine weitere quantitative Variable U , die Kovariate. (Beispiel:

Leistung wird bestimmt durch Lehrmethode und Intelligenz; die Lehrmethode

ware dabei die treatment-Variable und die Intelligenz die Kovariate). Man ist

dann oft bereit, anzunehmen, dass der Einfluss der quantitativen Variable in je-

der treatment-Gruppe linear ist (wie in der linearen Regression). Daruber hinaus

nimmt man meist an, dass die Steigung fur alle Gruppen gleich groß ist. Nun

mochte man gerne den Einfluss dieser Variablen sozusagen’herausrechnen‘.

Formal lauft dieses Modell darauf hinaus, dass man fur jede Gruppe einen Zu-

sammenhang wie in der einfachen linearen Regression annimmt, wobei die Stei-

gungen ubereinstimmen, wahrend die Achsenabschnitte der’Regressionsgeraden‘

verschieden sein durfen. Unterschiede in diesen Achsenabschnitten werden dann

als Unterschiedlichkeit der Wirkungen der einzelnen treatments interpretiert. Ei-

ne graphische Veranschaulichung dieses Modells konnte so aussehen:

......................................................................................................................................................................................................................................... ...........................

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........................

...................

u

y

..................................

..................................

..................................

..................................

..................................

..................................

..................................

..................................

..................................

.............

..................................

..................................

...................................

..................................

..................................

..................................

..................................

..................................

..................................

............

..................................

..................................

..................................

..................................

..................................

..................................

..................................

..................................

..................................

.............

B1

B2

B3

........

........

........

........

........

........

........

........

........

........

......................

......................................

..............................

........

........

........

........

........

........

........

........

........

........

......................

......................................

..............................

........

........

........

........

........

........

........

........

........

........

......................

......................................

..............................

In jeder von drei Bedingungen, die hier mit B1, B2 und B3 bezeichnet sind, ist


also der Erwartungswert von y eine lineare Funktion von u. Alle drei Funktionen

haben die gleiche Steigung, die Wirksamkeit der treatment-Bedingung zeigt sich

in den unterschiedlichen Achsenabschnitten.

Bei Anwendung eines solchen Modells sind die Annahmen zu rechtfertigen, dass

der Erwartungswert y in jeder der Gruppen linear von u abhangt, und dass die

Steigungen dabei alle gleich groß sind. Wie ublich sind Ergebnisse nicht interpre-

tierbar, wenn die Voraussetzungen nicht (oder nicht wenigstens naherungsweise)

erfullt sind.

Bezeichnet man den Steigungsparameter wieder mit β und die Achsenabschnitte

fur die Gruppen mit αj, ferner die Werte von Y und U fur die i-te Beobachtung

der j-ten Bedingung mit yij und uij mit zugehorigem Fehler eij, so gilt fur yij die

Gleichung

yij = βuij + αj + eij .

Will man beispielsweise drei Gruppen mit 3, 2 und 2 Personen untersuchen,

bei denen die Kovariate die Werte 1, 2, 3, 2, 4, 3, 2 annimmt, so lauten die

ausfuhrlichen Modellgleichungen

y11

y21

y31

y12

y22

y13

y23

=

1 1 0 0

2 1 0 0

3 1 0 0

2 0 1 0

4 0 1 0

3 0 0 1

2 0 0 1

β

α1

α2

α3

+

e11

e21

e31

e12

e22

e13

e23

.

Die Designmatrix fur diese Situation ist dann gleich

1 1 0 0

2 1 0 0

3 1 0 0

2 0 1 0

4 0 1 0

3 0 0 1

2 0 0 1

.

Die Reihenfolge der Parameter ist hier β, α1, α2, α3. In der ersten Spalte stehen

also die Werte der Kovariate.


In der geschilderten Situation konnte man beispielsweise Kontraste untersuchen

wie α2−α1 und Punktschatzer und Vertrauensintervalle angeben. Eine zur Null-

hypothese der Varianzanalyse analoge Hypothese, die hier getestet werden kann,

ist die, ob alle drei αj gleich groß sind.

Fur etwas Irritation mag hier der Status der Kovariate sorgen. Die Werte sollen

ja vereinbarungsgemaß nicht zufallsabhangig sein, sondern als vom Experimen-

tator gesetzt betrachtet werden, was zu dem hier gewahlten Beispiel wie auch zu

anderen nicht recht passen will. Man kann sich jedoch von dieser Einschrankung

auch befreien, wobei es jedoch sinnvoll ist, solche Themen erst dann zu erortern,

wenn die Theorie des ALM im Standardfall schon im Wesentlichen zur Verfugung

steht.

Analog sind die Verhaltnisse bei den Regressionsmodellen was die Pradiktoren

angeht.

Das allgemeine Entwicklungsmodell von Schaie. Als ein Beispiel fur einen Nicht-

Standard-Fall soll das allgemeine Entwicklungsmodell von Schaie kurz besprochen

werden. In diesem Entwicklungsmodell postuliert Schaie, dass die durchschnittli-

che Auspragung einer entwicklungspsychologisch interessanten Variable (Y ) von

drei Einflussen abhangt, namlich vom Geburtszeitpunkt, vom Messzeitpunkt und

naturlich vom Alter. Untersucht man seine Argumentation genauer, so erschließt

sich, dass er, in statistische Sprache ubersetzt, folgendes meint:

Der Erwartungswert der zu einem bestimmten Zeitpunkt in einer bestimmten

Kohorte (definiert durch den gleichen Geburtszeitraum) erhobenen Variable Y

setzt sich additiv zusammen aus drei Konstanten, die die Einflusse der Kohorte,

des Messzeitpunkts und des Alters’bundeln‘. Eine

’Interaktion‘ in irgendeiner

Form ist nicht vorgesehen.

Ordnet sich dieses Modell dem ALM unter? Es seien die ublichen Verteilungs-

annahmen zugestanden: Die Zufallsvariablen, die das Messergebnis einer zufallig

gezogenen (besser: zu ziehenden) Person einer bestimmten Kohorte zu einem

bestimmten Messzeitpunkt reprasentieren, mogen als unabhangig normalverteilt

mit gleicher Varianz angenommen werden. Dies ist sicher problematisch, wenn

ein und dieselbe Stichprobe uber mehrere Jahre hinweg verfolgt wird; daher soll

angenommen werden, dass die zu einer Kohorte gehorende Stichprobe in aufein-

anderfolgenden Jahren jeweils neu gezogen wird, was auch sinnvoll ist, wenn man

Lerneffekte beispielsweise bei mehrfacher Anwendung des gleichen Intelligenztests

ausschließen will.


Es bleibt die Frage, ob die entsprechend dem Schaieschen Vorschlag gebildeten

Erwartungswerte entsprechend dem ALM zustandekommen, und welches dann

die Designmatrix ist.

Als Beispiel sei hier angenommen, dass Messungen an 1980, 1981, 1982 und 1983

geborenen Kindern in den Jahren 1990, 1991, 1992, 1993 stattfinden. Die Kon-

stanten, die die Einflusse von Kohorte, Messzeitpunkt und Alter wiedergeben,

seien mit α, β und γ bezeichnet und entsprechend indiziert. Es bezeichnet also

α80 zum Beispiel den’Einfluss‘ des Geburtsjahrgangs 1980.

Zunachst soll auch zu jedem Messzeitpunkt nur ein Kind eines Jahrgangs unter-

sucht werden. Die Zufallsvariable’Messergebnis‘ sei mit y bezeichnet und doppelt

mit Jahrgang und Messzeitpunkt indiziert. Dann ist y80,90 zum Beispiel das Mess-

ergebnis des zum Zeitpunkt 1990 zu ziehenden Kindes aus dem Jahrgang 1980.

Fur die Erwartungswerte ergeben sich nun nach dem Schaie-Modell folgende Glei-

chungen:E(y80,90) = α80 + β90 + γ10

E(y81,90) = α81 + β90 + γ9

E(y82,90) = α82 + β90 + γ8

E(y83,90) = α83 + β90 + γ7

E(y80,91) = α80 + β91 + γ11

E(y81,91) = α81 + β91 + γ10

E(y82,91) = α82 + β91 + γ9

E(y83,91) = α83 + β91 + γ8

E(y80,92) = α80 + β92 + γ12

E(y81,92) = α81 + β92 + γ11

E(y82,92) = α82 + β92 + γ10

E(y83,92) = α83 + β92 + γ9

E(y80,93) = α80 + β93 + γ13

E(y81,93) = α81 + β93 + γ12

E(y82,93) = α82 + β93 + γ11

E(y83,93) = α83 + β93 + γ10

Die Parameter in diesen Gleichungen sind α80, α81, α82, α83, β90, β91, β92 β93, γ7,

γ8, γ9, γ10, γ11, γ12 und γ13.

In der Tat lassen sich die Gleichungen fur die Erwartungswerte nun in der Form

5.2 Geometrische Veranschaulichung ALM07 19

Designmatrix mal Parametervektor schreiben:

E(y80,90)E(y81,90)E(y82,90)E(y83,90)

E(y80,91)E(y81,91)E(y82,91)E(y83,91)

E(y80,92)E(y81,92)E(y82,92)E(y83,92)

E(y80,93)E(y81,93)E(y82,93)E(y83,93)

=

1 0 0 0 1 0 0 0 0 0 0 1 0 0 00 1 0 0 1 0 0 0 0 0 1 0 0 0 00 0 1 0 1 0 0 0 0 1 0 0 0 0 00 0 0 1 1 0 0 0 1 0 0 0 0 0 0

1 0 0 0 0 1 0 0 0 0 0 0 1 0 00 1 0 0 0 1 0 0 0 0 0 1 0 0 00 0 1 0 0 1 0 0 0 0 1 0 0 0 00 0 0 1 0 1 0 0 0 1 0 0 0 0 0

1 0 0 0 0 0 1 0 0 0 0 0 0 1 00 1 0 0 0 0 1 0 0 0 0 0 1 0 00 0 1 0 0 0 1 0 0 0 0 1 0 0 00 0 0 1 0 0 1 0 0 0 1 0 0 0 0

1 0 0 0 0 0 0 1 0 0 0 0 0 0 10 1 0 0 0 0 0 1 0 0 0 0 0 1 00 0 1 0 0 0 0 1 0 0 0 0 1 0 00 0 0 1 0 0 0 1 0 0 0 1 0 0 0

α80

α81

α82

α83

β90

β91

β92

β93

γ7

γ8

γ9

γ10

γ11

γ12

γ13

Man erkennt, dass sich das allgemeine Entwicklungsmodell von Schaie tatsachlich

dem ALM unterordnet. Untersucht man zu einem Messzeitpunkt aus einer Ko-

horte mehr als eine Versuchsperson, so ist die zugehorige Zufallsvariable entspre-

chend oft zu’klonen‘ (noch einen Index anhangen!) und die zugehorige Zeile der

Designmatrix entsprechend oft hinzuschreiben. Man uberlegt sich leicht, dass sich

dadurch der Rang der Designmatrix nicht andert.

Fragen, die sich in diesem Modell stellen, betreffen zunachst die Parameter, die

zu schatzen sind, ferner Parameterdifferenzen (γ10− γ9 ist beispielsweise der ent-

wicklungsbedingte Zuwachs zwischen 9 und 10 Jahren). Bei diesen Fragen tau-

chen allerdings Probleme auf, die in einem spateren Abschnitt besprochen werden

sollen.

5.2 Geometrische Veranschaulichung

Entscheidend fur geometrische Veranschaulichungen ist der Begriff des modell-

vertraglichen Erwartungswertvektors. In dem Modell

y = Xβ + e

ist der Erwartungswert von y gleich Xβ. Ein modellvertraglicher Erwartungs-

wertvektor ist nun ein Vektor v, der die Form Xβ hat fur ein geeignetes β ∈ Rk.


Mit anderen Worten ist dies ein Vektor, der bei Modellgultigkeit als Erwartungs-

wertvektor in Frage kommt, namlich dann, wenn das zugehorige β der wahre

Parametervektor ist.

Die Menge der modellvertraglichen Erwartungswertvektoren, die meistens V hei-

ßen wird, ist dann die Menge aller v = Xβ, wenn fur β beliebige Vektoren aus

Rk eingesetzt werden. Mit andern Worten gilt V = Bild(X). Die Menge V der

modellvertraglichen Erwartungswertvektoren ist daher ein Unterraum des Perso-

nenraums Rn mit der Dimension Rang(X).

Alternativ kann man die modellvertraglichen Erwartungswertvektoren auch kenn-

zeichnen als die moglichen Modellvorhersagen (Xβ war ja als die zu β gehorende

Modellvorhersage bezeichnet worden). Die Modellvorhersagen konnten auch in-

terpretiert werden als die Datenvektoren y, die sich dann ergeben, wenn die Fehler

alle 0 sind, kurz: als die moglichen fehlerfreien Datenvektoren.

Diese Verhaltnisse sollen nun an einfachen Beispielen veranschaulicht werden.

Eine Stichprobe. In diesem einfachsten Beispiel soll die Stichprobe den Umfang

2 besitzen, womit der Personenraum der R2 ist. Die Gleichungen fur den Erwar-

tungswertvektor sind:

E(y) = Xβ =

(1

1

) (µ) E(y1) = 1·µ = µ

E(y2) = 1·µ = µ

Die modellvertraglichen Erwartungswertvektoren v sind hier die Vektoren, de-

ren beide Komponenten ubereinstimmen. Beispielsweise ist also (−1, 2)′ kein

moglicher Erwartungswertvektor, wahrend (3, 3)′ ein solcher ist, namlich fur den

Fall, dass µ = 3 gilt.

Die modellvertraglichen Erwartungswertvektoren sind damit genau die Vielfachen

des Vektors (1, 1)′. Ihre Gesamtheit V ist dann der eindimensionale Unterraum,

der von der (einzigen) Spalte x = (1, 1)′ von X aufgespannt wird; V ist hier also

eine Gerade. Die Koordinate eines modellvertraglichen Erwartungswertvektors

v in dem durch x gegebenen Koordinatensystem der Geraden V ist dabei der

gemeinsame Erwartungswert µ der beiden Komponenten von y.

In der folgenden Abbildung ist fur 4 mogliche Vektoren v = (E(y1), E(y2))′ ei-

nerseits eine eindimensionale Graphik enthalten, die diese beiden Erwartungs-

werte auf der Achse der y-Werte zeigt, und andererseits die zweidimensionale


Reprasentation im Personenraum. Der erste Vektor ist dabei kein moglicher Er-

wartungswertvektor; bei den anderen drei sieht man, dass das zugehorige µ die

Koordinate von v in dem Unterraum V ist.

....................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

..................................................................................................................................... ...................

........

........

........

........

........

........

........

........

........

........

........

........

........

........

.....................

...................

.......................................................................................................................

Y1

Y2

x

1

1

V

..

.

.

............

........

........

........

........

........

......

.....................................................

............................................................................

........

........

...... ..v =

(3

3

), µ = 3

........

........

...... ..v =

( −1

2

)

........

........

........v =

(−2

−2

), µ = −2

........

........

........v =

(0

0

), µ = 0

Regression ohne Konstante. In diesem Modell gibt es einen Pradiktor U , und die

Erwartungswerte von Y sollen auf einer Geraden liegen, deren Achsenabschnitt

gleich 0 ist. Dies ist naturlich eine verkurzte Ausdrucksweise fur den Sachver-

halt, dass die Punkte, die als Koordinaten einen moglichen Wert von U und den

zugehorigen Erwartungswert von Y haben, im Variablenraum mit den Koordina-

ten U und Y auf einer Geraden durch den Nullpunkt liegen sollen. Die Steigung

dieser Geraden ist der Modellparameter β.

Wieder soll die Stichprobe den Umfang 2 besitzen. Es sollen Werte von Y fur

die Werte u = 1 und u = 2 der Pradiktorvariablen U erhoben werden. Die

Gleichungen fur die Erwartungswerte sind dann die folgenden:

E(y) = Xβ =

(1

2

) (β) E(y1) = β· 1

E(y2) = β· 2

Die Koordinaten eines Punktes y im Personenraum sind die zu den U -Werten 1

und 2 in dieser Reihenfolge gehorenden Y -Werte. Es soll nun untersucht werden,

wann ein Punkt v = (v1, v2)′ dieses Raumes ein modellvertraglicher Erwartungs-

wertvektor ist.


Inhaltlich gesehen ist der Vektor v ein modellvertraglicher Erwartungswertvektor

genau dann, wenn seine Komponenten zum Modell passen, also auf einer Geraden

durch den Nullpunkt liegen, was ja genauer bedeuten sollte, dass (1, v1)′ und

(2, v2)′ auf einer solchen Geraden liegen. Hier ist naturlich vom Variablenraum

die Rede und nicht vom Personenraum.

Beispielsweise ist (−1, 2)′ kein modellvertraglicher Erwartungswertvektor, da die

zugehorigen Punkte nicht auf einer Geraden durch den Nullpunkt liegen (hier ist

die Deutung moglicher Erwartungswertvektoren als mogliche fehlerfreie Werte

bei Modellgultigkeit praktisch), wahrend (1.5, 3)′ ein solcher ist, namlich der, bei

dem die zugehorige Geradensteigung β gleich 1.5 ist.

Allgemein ist die Forderung, dass die Komponenten v1 und v2 von v auf einer

Geraden durch 0 liegen sollen, dass also v1 = β · 1 und v2 = β · 2 gelten soll, wo

β die Steigung der Geraden ist, gleichbedeutend damit, dass der Vektor v gerade

das β-fache des Vektors (1, 2)′ ist.

Die modellvertraglichen Erwartungswertvektoren sind damit genau die Vielfachen

des Vektors (1, 2)′ und bilden zusammen die Gerade V , die von der (einzigen)

Spalte x = (1, 2)′ von X aufgespannt wird. Die Koordinate in dem durch x

gegebenen Koordinatensystem der Geraden V ist dabei die Steigung β.

Eine Veranschaulichung liefert die folgende Abbildung:

.............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

............................................................................ ...................

........

........

........

........

........

........

........

....................

...................

......................................................................................................................................................................

Y1

Y2

x

1

1

V

..

.

.

......

......

......

...

......

......

......

......

......

.

...............................................

...............................................

u

y

..

..............................................................................................................................................................................

v =

(1.5

3

)

β = 1.5u

y

..v =

( −1

2

)

u

y

..

......................................................................................................................................................................................

v =

( −1

−2

)

β = −1u

y

...................................................................................................................................

v =

(0

0

)

β = 0


In dieser Abbildung ist fur 4 mogliche Vektoren v, die als Komponenten die Er-

wartungswerte von y1 und y2 besitzen, einerseits eine zweidimensionale Graphik

enthalten, die diese beiden Erwartungswerte als Y -Werte zu den beiden gegebe-

nen U -Werten zeigt, und andererseits die zweidimensionale Reprasentation im

Personenraum.

Der erste Vektor ist dabei kein moglicher Erwartungswertvektor. Die anderen drei

Vektoren ensprechen dagegen (ebenso wie alle anderen Vektoren aus V ) moglichen

Geraden durch (0, 0)′ im Variablenraum.

Die Koordinate eines modellvertraglichen Erwartungswertvektors in V bezuglich

der einzigen Spalte x = (1, 2)′ der Designmatrix ist dabei die Steigung der zu-

gehorigen Gerade im Variablenraum.

Dies Beispiel zeigt also noch einmal ausfuhrlich, dass die modellvertraglichen

Erwartungswertvektoren v zusammen gerade gleich Bild(X) sind, wobei die Ko-

ordinate eines Punktes v in V hier bezuglich der durch X gegebenen Basis gleich

dem zughorigen Modellparameter β ist.

Einfache lineare Regression. In diesem Beispiel soll der Erwartungswert von Y

eine lineare Funktion des Pradiktors U sein, die Erwartungswerte von Y sollen

also im Variablenraum mit den Koordinaten U und Y auf einer Geraden liegen,

womit wieder die verkurzende Sprechweise aus dem vorigen Beispiel benutzt wird.

Diesmal soll die Stichprobe den Umfang 3 besitzen; dies ist dann auch die Di-

mension des Personenraums. Es sollen Y -Werte fur die Werte u = 2, u = −1

und u = 0 der Pradiktorvariablen u erhoben werden. Die Gleichungen fur die

Erwartungswerte von Y sind dann die folgenden:

E(y) = Xβ =

1 2

1 −1

1 0

(α

β

) E(y1) = 1 α + 2 β = β · 2 + α

E(y2) = 1 α +(−1) β = β · (−1) + α

E(y3) = 1 α + 0 β = β · 0 + α

Die Koordinaten eines Punktes y im Personenraum sind die zu den U -Werten 2,

−1 und 0 (in dieser Reihenfolge) gehorenden Y -Werte.

Auch hier sollen die modellvertraglichen Erwartungswertvektoren zunachst noch

einmal aus der inhaltlichen Perspektive untersucht werden:


Modellvertragliche Erwartungswertvektoren v sind genau die Punkte, deren Kom-

ponenten (im Sinne der verkurzenden Sprechweise) auf einer Geraden im Varia-

blenraum liegen.

Der Vektor (0, 0, 3)′ ist beispielsweise kein moglicher Erwartungswertvektor (also

ein Wertevektor im fehlerfreien Modell), denn tragt man seine drei Komponenten

als Y -Koordinaten zu den U -Werten 2, −1, 0 in das zweidimensionale (U, Y )-

Koordinatensystem des Variablenraums ein, so liegen die entstehenden Punkte

nicht auf einer Geraden. Dies ist hingegen der Fall fur den Vektor mit den Ko-

ordinaten (3.5,−2.5,−.5)′, denn die zugehorigen Punkte liegen auf der Geraden

y = 2u− .5.

Illustrationen zu diesen Aussagen findet man in der gleich folgenden Abbildung

links oben und unten.

Die Bedingung, dass es eine Gerade gibt, auf der die drei Komponenten von v lie-

gen, ist gerade die, dass die vi sich als βui+α ergeben fur geeigneten Zahlen α und

β, die dann Achsenabschnitt und Steigung der Geraden sind. Zusammengefasst

bilden diese drei Gleichungen die Gleichung v = Xβ, bei der die Komponenten

von β gerade α und β sind. Die Bedingung ist damit kurz die, dass es ein β gibt

mit v = Xβ.

So umformuliert bedeutet die Bedingung, dass v in der Ebene V liegen muss, die

von den beiden Spalten x1 und x2 von X aufgespannt wird. Die Koordinaten in

dem durch x1 und x2 gegebenen Koordinatensystem der Ebene sind dabei der

Achsenabschnitt und die Steigung der zugehorigen Gerade.

Auch hier erweist sich also der Unterraum V = Bild(X) gerade als die Menge der

modellvertraglichen Erwartungswertvektoren, und auch hier sind die Koordinaten

eines solchen Vektors gleich den zugehorigen Modellparametern.

Die folgende Abbildung zeigt den Personenraum mit dem zweidimensionalen Un-

terraum V der modellvertraglichen Erwartungswertvektoren, der von den beiden

Spalten der Designmatrix aufgespannt wird.

In der Darstellung sind drei Punkte eingezeichnet, die als Erwartungswertvek-

toren in Frage kommen und einer, der nicht in Frage kommt. Zusatzlich zeigt

jeweils eine kleine Abbildung die enstprechende Situation im Variablenraum.

Bei den drei modellvertraglichen Erwartungswertvektoren kann man Achsenab-

schnitt und Steigung der zugehorigen Geraden als Koordinaten in V ablesen.

5.3 Parameter ALM07 25

.......................................................................................................................................................................................................................................

...........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

................................................................................................................................................................................................. ..............

.....

......................................

......................................

......................................

.

........................................

........................................

........................................

........................................

........................................

........................................

........................................

........................................

............................

......................................................

...................

........

........

........

........

........

........

..........................

...................

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

..

......................................................................................................................................................................................................

...................................................................................................................................................................................................................

.....................

.................................................

.........................................................................................................................................................................................................................................

..........................................................

......................................

......................................

......................................

......................................

......................................

......................................

..................................

......................

..........

...........

.........

...........

.........

.....................................................................................................................................................................................................................................................................................................................................................................................

.............................................................................................................................................................................................................................................................................................................

................................................................

...................................................................

........................................................................................ ...................

.

.

.................................................................................................................

..........................

..........................

.............

.............

.............

.............

.............

.............

.............

..........................

....

..Y3

Y1

Y2

Vx1

x2

.............................................................

.....................................................

...........................

........

........

........

........

.....

u

y .

..

..............................................................................................................................................................................

v =

5

.5

2

α = 2

β = 1.5u

y

.

..

...................................................................................................................................................................................

v =

3.5

−2.5

−.5

α = −.5

β = 2

u

y

....................................................................................................................................v =

2.5

2.5

2.5

α = 2.5

β = 0u

y

...v =

0

0

3

Allgemein ist es also auch hier so, dass jeder Punkt von V einer moglichen Gerade

im Variablenraum entspricht, namlich der, deren Kenngroßen man direkt in dem

x1-x2-Koordinatensystem ablesen kann.

5.3 Parameter

In diesem Kapitel geht es um die Parameter des ALM, insbesondere um deren

Schatzung. Etwas allgemeiner sollen auch lineare Funktionen der Parameter be-

handelt werden.

Parametrische Funktionen. Als Parameter des ALM bezeichnet man die im

Vektor β zusammengefassten βj, gelegentlich auch die unbekannte Varianz σ2.

Durch diese Parameter ist die Verteilung der Variable Y in jeder betrachteten


Bedingungskonstellation festgelegt. Da σ2 eine ganz andere Rolle spielt als die

βj, soll sich das Wort’Parameter‘ hier meist nur auf die βj beziehen.

Neben diesen im Vektor β zusammengefassten Parametern βj sind oft auch be-

stimmte Linearkombinationen der βj interessant.

Linearkombinationen ψ =∑

cjβj der Parameter βj heißen allgemein parametri-

sche Funktionen. Eine solche Funktion ist durch ihren aus den cj bestehenden

Koeffizientenvektor gegeben, der hier meist c heißt. Der Koeffizientenvektor hat

naturlich soviel Komponenten wie β; als Bezeichnung der Zahl der Komponen-

ten soll wieder der Buchstabe k verwendet werden. Fur parametrische Funktionen

und ihre Funktionswerte wird meistens die Bezeichnung ψ verwendet, gelegentlich

– zur Verdeutlichung oder Unterscheidung – auch ψc.

Es gilt dann also

ψc = c′β =∑

cjβj .

Gelegentlich interessiert man sich etwas allgemeiner auch fur Linearkombinatio-

nen, bei denen noch eine additive Konstante a zugelassen ist, und bezeichnet

auch Linearkombinationen∑

cjβj + a als parametrische Funktionen im weiteren

Sinn. Da sich die statistischen Eigenschaften einer Linearkombination mit ad-

ditiver Konstante unmittelbar aus denen der entsprechenden Linearkombination

ergeben, bei der die additive Konstante weggelassen ist, genugt es jedoch, die

einfacheren Funktionen ohne Konstante zu behandeln.

Parametrische Funktionen sind von großer Bedeutung fur die Formulierung in-

haltlicher Fragestellungen, wie die folgenden Beispiele zeigen.

Zunachst sind die Komponenten βj von β selbst parametrische Funktionen – hier

ist der Vektor c der j-te Einheitsvektor ej. Beispiele sind die Erwartungswerte

µj bei der Varianzanalyse, oder die (theoretischen) Regressionsgewichte βj und

der Achsenabschnitt α bei der Regression.

Weitere Beispiele sind Differenzen solcher Parameter, also zum Beispiel die Dif-

ferenz der Erwartungswerte fur zwei Gruppen in der Varianzanalyse: Der Ko-

effizentenvektor von ψ = µ3 − µ1 bei einer Varianzanalyse mit 4 Gruppen ist

beispielsweise (−1, 0, 1, 0)′.

Ein etwas allgemeineres Beispiel sind die Kontraste aus der Varianzanalyse.

Bei der einfachen linearen Regression mit Modell E(y) = βu+α fragt man oft nach


dem Erwartungswert E(y) fur einen bestimmten Wert von u. Ist beispielsweise

u = 2, so ist dieser Erwartungswert gleich β · 2 + α = α + 2β, und damit eine

parametrische Funktion mit Koeffizientenvektor (1, 2)′ (der Parametervektor ist

dabei β = (α, β)′).

Die Beispiele zeigen, dass Hypothesen im Rahmen des ALM sich oft durch para-

metrische Funktionen formulieren lassen. Die Nullhypothese der Varianzanalyse

kann zum Beispiel durch die Forderung ausgedruckt werden, dass alle Differen-

zen je zweier Gruppenerwartungswerte µj gleich Null sind, oder auch, dass alle

Kontraste gleich 0 sind.

Zum Schluss sei noch ein Beispiel einer Funktion der Parameter erwahnt, die

keine parametrische Funktion ist. Beim Modell der quadratischen Regression

E(y) = β0 + β1u + β2u2

ist der wohl interessanteste Wert von u der, in dem diese Funktion ihr Mini-

mum oder Maximum annimmt. Durch Nullsetzen der Ableitung oder quadrati-

sche Erganzung ermittelt man leicht, dass dies der Wert u = −β1/(2β2) ist, der

damit leider nicht als parametrische Funktion geschrieben werden kann.

Identifizierbarkeit. Das Problem der Identifizierbarkeit soll an einem einfuhren-

den Beispiel klar gemacht werden.

In einem Experiment geht es um die Wirksamkeit zweier Therapiemaßnahmen.

Ein Forscher beschließt, in zwei Gruppen, der Ubersichtlichkeit halber nur mit 2

bzw. 3 Personen, die beiden Maßnahmen durchzufuhren und die Ergebnisse zu

registrieren. An eine Kontrollgruppe denkt er nicht.

Er stellt die Uberlegung an, dass der Erwartungwert µ des Wohlbefindens ohne

Maßnahmen durch die Interventionen modifiziert wird, und nennt die Veranderun-

gen α1 und α2. Der Erwartungswert der ersten Gruppe ist dann µ + α1, der der

zweiten µ+α2. Mit dem Parametervektor (µ, α1, α2)′ erhalt man die Designmatrix

1 1 0

1 1 0

1 0 1

1 0 1

1 0 1

,

bei der man sofort bemerkt, dass ihr Rang nur 2 ist.


Das Experiment sollte wohl in erster Linie herausfinden, wie groß die Wirksam-

keit der beiden Maßnahmen ist, wie groß also α1 und α2 sind. Dabei versagt

es jedoch. Selbst wenn man die Erwartungswerte der beiden Gruppen kennen

wurde, sie mogen hier µ1 und µ2 heißen, ware es nicht moglich, den Wert der αj

zu ermitteln, und zwar aus dem Grund, dass (unendlich) viele mogliche Werte

der αj mit gegebenen Erwartungswerten kompatibel sind. Es mussen namlich nur

die Gleichungen

µ1 = µ + α1

µ2 = µ + α2

gelten, in denen man jeden beliebigen Wert fur µ durch geeignete Wahlen der

αj zu den µj erganzen kann. Sind beispielsweise µ1 = 5 und µ2 = 3, so ist dies

mit den folgenden Parametervektoren (µ, α1, α2)′ vertraglich: (0, 5, 3)′, (1, 4, 2)′,

(2, 3, 1)′, . . . .

Auch im denkbar besten Fall, dass die Erwartungswerte von y in den Bedingungs-

konstellationen bekannt sind, kann man also nicht auf die αj zuruckschließen; sie

sind’nicht identifizierbar‘.

Das Problem hatte sich hier ubrigens mit einer Kontrollgruppe leicht vermeiden

lassen.

Die Formulierung’im denkbar besten Fall‘ bedarf einer Erlauterung: Der Fall,

dass die Erwartungswerte bekannt sind, wird empirisch nie eintreten, aber im-

merhin kann man sich vorstellen, dass man sich ihm, beispielsweise mit einer

Riesenanzahl von Replikationen, hinreichend annahern kann. Hingegen ist bei

dem gegebenen Experiment (ohne Kontrollgruppe) der Wert µ aus prinzipiellen

Grunden nie zuganglich.

Wahrend also die αj auch theoretisch nicht zuganglich sind, kann man, was im

ersten Augenblick uberraschen mag, etwas uber ihre Differenz ψ sagen: Es gilt

namlich

ψ = α2 − α1 = (µ + α2)− (µ + α1) = µ2 − µ1 .

Die Differenz ist also ermittelbar – jedenfalls, wenn man µ1 und µ2 kennt. Im

Beispiel mit µ1 = 5 und µ2 = 3 ware ψ = −2.

Allgemein soll nun eine parametrische Funktion ψ identifizierbar heißen, wenn

mit jedem moglichen modellvertraglichen Wert des Erwartungswertvektors E(y)

nur ein einziger Wert von ψ kompatibel ist. Im anderen Fall heißt ψ nicht iden-

tifizierbar.


Ebenso definiert man die Identifizierbarkeit eines Vektors ψ parametrischer Funk-

tionen. Ein Beispiel eines solchen Vektors ist der Parametervektor β selber.

Es sollen gleich genauere Bedingungen fur die Identifizierbarkeit gegeben wer-

den. Zuvor soll aber noch ein etwas komplizierteres Beispiel behandelt werden:

Im allgemeinen Entwicklungsmodell von Schaie setzte sich der Erwartungswert

der Merkmalsauspragung yj,k in der Kohorte j zum Messzeitpunkt k aus den

Kohorten-, Messzeitpunkt- und Altersparametern αj, βk und γl zusammen als

E(yj,k) = αj + βk + γ(k−j) .

Man stellt nun leicht fest, dass die Parameter αj, βk und γl nicht identifizierbar

sind. Die Frage, ob dies auch fur Parameterdifferenzen gilt, oder ob beispielsweise

die (rein) entwicklungsbedingte Veranderung ψ = γ10− γ9 vom Alter von 9 zu 10

Jahren identifizierbar ist, hat zu interessanten Diskussionen gefuhrt.

Inhaltlich ist dies von großer Bedeutung: Es geht hier namlich um die Frage, ob

man (die Gultigkeit des Modells immer vorausgesetzt, ebenso, das man nur Daten

im Rahmen des Modells erhebt) uberhaupt von so etwas wie entwicklungsbeding-

ter Veranderung reden kann, oder ob dieser Begriff grundsatzlich im Bereich des

Spekulativen bleibt, wenn man namlich womoglich auch im besten denkbaren

Fall, in dem man uber die Erwartungswerte der empirischen Variablen verfugt,

die Große dieser Veranderung prinzipiell nicht ermitteln kann.

Sind Parameterdiffenzen, die die entwicklungsbedingten Veranderungen angeben,

nicht identifizierbar, so stellt sich dem konsequenten Empiriker die Frage, ob man

den Begriff der’(rein) entwicklungsbedingten Veranderung‘ nicht uberhaupt aus

der Theorie streichen sollte, da er empirisch sinnlos ist, wenn dies auch bei der

Konstruktion des Modells noch nicht deutlich war. Die naive Modellbildung ware

dann einschließlich ihrer Begriffe nur ein Beispiel fur leeres Gerede. Es wird sich

noch zeigen, dass diese Konsequenz etwas voreilig ist.

In dem einfacheren ersten Beispiel mit zwei Gruppen hat man ubrigens die in-

teressante Lage, dass die αj nicht identifizierbar sind, wohl aber ihre Differenz.

Was meint wohl der konsequente Empiriker hierzu? Ist es sinnvoll, uber solche

Parameter αj zu reden oder sie in ein Modell aufzunehmen?

Nun soll es um Bedingungen fur die Identifizierbarkeit gehen; dabei soll als er-

stes die Identifizierbarkeit des Parametervektors β untersucht werden. Hier gibt

es einen direkten Zusammenhang zwischen β und dem zugehorigen Erwartungs-


wertvektor E(y), namlich

E(y) = Xβ ,

die Frage, ob es zu einem gegebenen (modellvertraglichen) Erwartungswertvektor

v nur ein passendes β gibt oder mehrere, ubersetzt sich daher unmittelbar in die

Frage nach der Eindeutigkeit der Losung des Gleichungssystems Xβ = v.

Feststellung 1. Der Parametervektor β ist genau dann identifizierbar, wenn die

(n× k)-Matrix X den vollen Rang k besitzt.

Besitzt namlich die Designmatrix den Rang k, so ist die lineare Abbildung X

injektiv, verschiedene Parametervektoren β fuhren also zu verschiedenen Wer-

ten von Xβ und damit zu verschiedenen Erwartungswertvektoren. Mit jedem

modellvertraglichen Erwartungswertvektor v ist dann also nur ein β vertraglich.

Besitzt hingegen X nicht den Rang k, so besitzt fur jeden modellvertraglichen

Erwartungswertvektor v die Gleichung Xβ = v viele Losungen β, die zusammen

einen ganzen affinen Unterraum des Rk bilden, der parallel zum Kern von X ist

(man beachte, dass die Gleichung uberhaupt Losungen besitzt, da v modellver-

traglich ist, also im Bild von X liegt). Alle diese Losungen sind mit v vertraglich,

so dass β nicht identifizierbar ist. ¤

Bemerkenswert ist ubrigens, dass entweder fur alle modellvertraglichen v ge-

nau eine Losung von Xβ = v existiert, oder fur alle solchen v unendlich viele

Losungen existieren; der Fall, dass fur ein modellvertragliches v nur eine Losung

existiert, fur ein anderes jedoch viele Losungen moglich sind, kann also nicht

eintreten.

Manchmal benutzt man auch die verkurzte Ausdrucksweise, dass’X vollen Rang

besitzt‘, und meint damit, dass der Rang gleich der Spaltenzahl ist (vorausgesetzt,

diese ist hochstens so groß wie die Zeilenzahl, was aber hier praktisch immer der

Fall sein sollte).

Geometrisch zeigt sich der volle Rang von X darin, dass die Spalten von X eine

Basis des Bildes von X bilden, so dass die Parameter, die zu einem modellver-

traglichen Erwartungswertvektor v aus diesem Bild gehoren, direkt als Koordina-

ten abgelesen werden konnen, wie es sich auch schon in den Beispielen des letzten

Kapitels gezeigt hat.

Da der Rang der Matrix X bekanntlich gleich dem der (k × k)-Matrix X′X ist,

kann man die letzte Feststellung auch anders formulieren:


Feststellung 2. Der Parametervektor β ist genau dann identifizierbar, wenn

X′X regular ist. ¤

Nun soll allgemein die Frage nach der Identifizierbarkeit einer parametrischen

Funktion ψc behandelt werden.

Ist der Parametervektor β selbst identifizierbar, so vererbt sich diese Eigenschaft

auf alle parametrischen Funktionen. Ist namlich nur ein β mit dem Erwartungs-

wertvektor v vertraglich, so kann auch die Funktion ψc nur einen Wert anneh-

men, namlich c′β. Das Identifizierbarkeitsproblem stellt sich daher eigentlich nur

in dem Fall, dass X nicht vollen Rang besitzt.

In dem Fall, dass X nicht vollen Rang besitzt, sind mit jedem modellvertraglichen

Erwartungswertvektor v viele mogliche Parametervektoren β vertraglich. Fur

eine parametrische Funktion ψ (oder ganz analog einen Vektor parametrischer

Funktionen) sind nun zwei Falle moglich: Entweder ψ nimmt fur alle diese mog-

lichen Parametervektoren den gleichen Wert an oder nicht. Im ersten Fall ist

dann mit v nur der fur alle moglichen Parametervektoren gemeinsame Wert von

ψ vertraglich und ψ folglich identifizierbar, im zweiten Fall hingegen sind mehrere

Werte von ψ bei dem gegebenen v denkbar, weshalb dann ψ nicht identifizierbar

ist.

Dieser Grundgedanke soll nun genauer ausgefuhrt werden. Die Menge der Para-

metervektoren, die zu einem gegebenen v fuhren, ist immer ein affiner Unterraum,

der parallel zum Kern von X ist. Dieser Kern soll hier U heißen.

Ist nun ein modellvertragliches v fest vorgegeben, und ist β0 ein dazu passender

Parametervektor, gilt also Xβ0 = v, so ist die Gesamtheit der zu v passenden

Parametervektoren gerade U + β0. Nimmt nun die Funktion ψc fur alle diese

Parametervektoren den gleichen Wert an, so ist – zumindest fur dieses v – der

Wert von ψc eindeutig festgelegt. Es ist namlich dann egal, welches der vielen

moglichen β der wahre Parametervektor ist, da in allen Fallen sich der gleiche

Wert der parametrischen Funktion ergibt.

Nimmt hingegen ψc fur irgendwelche Vektoren aus U + β0 verschiedene Werte

an, so sind alle diese Werte mit v vertraglich, da sie ja zu Parametervektoren β

gehoren, die zu v fuhren konnen.

Es geht also nun darum, eine Bedingung dafur zu finden, dass ψc auf dem gesam-

ten affinen Unterraum U +β0 nur einen Wert annimmt, und zwar dann naturlich

denselben wie bei β0.


Die Elemente von U + β0 sind nun genau die Vektoren der Form u + β0 fur

beliebige u ∈ U . Die Differenz der Werte, die ψc fur ein solches Element und fur

β0 annimmt, ist

c′(u + β0)− c′β0 = c′(u + β0 − β0) = c′u .

Gesucht ist eine Bedingung dafur, dass alle derartigen Differenzen 0 sind. Dies ist

offenbar genau dann der Fall, wenn c orthogonal zu U ist, wenn also c ∈ U⊥ gilt.

Damit ist die gesuchte Bedingung fur c gefunden, und sie ist erfreulicherweise

auch unabhangig von dem untersuchten Erwartungswertvektor v.

Die Bedingung soll nun noch etwas umformuliert werden. Dazu bemerkt man

zunachst, dass der Kern von X gerade aus den Vektoren besteht, die senkrecht

auf allen Zeilen von X stehen oder aquivalent auf allen Spalten von X′. Da ein

Vektor genau dann senkrecht auf allen Spalten von X′ steht, wenn er senkrecht zu

allen Linearkombinationen dieser Spalten ist, folgt U = Bild(X′)⊥. Hieraus ergibt

sich U⊥ = Bild(X′)⊥⊥ = Bild(X′). Damit ist die gewunschte Bedingung gefunden:

Der Vektor c muss in Bild(X′) liegen, oder anders gesagt eine Linearkombination

der Zeilen von X sein. Genauer musste man naturlich von den transponierten

Zeilen sprechen, was jedoch klar sein sollte, weshalb in Zukunft kommentarlos

die bequeme nicht ganz richtige Formulierung benutzt werden soll. Damit hat

man insgesamt

Feststellung 3. Eine parametrische Funktion ψc ist genau dann identifizier-

bar, wenn c Linearkombination der Zeilen von X ist oder aquivalent, wenn c in

Bild(X′) liegt. ¤

Die Feststellung gilt ubrigens auch fur den Fall, dass X vollen Rang hat, denn

dann liegen alle moglichen c im Bild von X′.

Eine parametrische Funktion ψc ist also genau dann identifizierbar, wenn sich c

als X′a schreiben lasst fur ein geeignetes a. Dann gilt aber

ψc = c′β = a′Xβ = a′E(y) ,

was gerade bedeutet, dass sich ψc auch aus dem (wahren) Erwartungswertvek-

tor als Linearkombination seiner Komponenten berechnen lasst. Umgekehrt ist

offenbar ein ψc mit dieser Eigenschaft identifizierbar, da sein Wert durch E(y)

dann festliegt.

Man hat so eine weniger umstandliche Charakterisierung von identifizierbaren

parametrischen Funktionen.


Feststellung 4. Eine parametrische Funktion ψc ist genau dann identifizierbar,

wenn sich ψc mit einem geeigneten a als a′E(y) aus dem wahren Erwartungswert

von y berechnen lasst. ¤

Fur a kommen hier meist viele Vektoren in Frage. Es wird noch zu untersuchen

sein, welchen man davon sinnvollerweise auswahlt.

Schließlich ist leicht einzusehen, dass ein Vektor parametrischer Funktionen genau

dann identifizierbar ist, wenn alle seine Komponenten identifizierbar sind.

Im Beispiel mit den zwei Therapiemaßnahmen sind die Zeilenvektoren von X, von

Wiederholungen abgesehen, gerade (1, 1, 0)′ und (1, 0, 1)′. Der Vektor (0, 1, 0)′ istoffenbar keine Linearkombination dieser Vektoren, weshalb die zugehorige para-

metrische Funktion α1 auch nicht identifizierbar ist. Hingegen lasst sich (0,−1, 1)′

als Linearkombination schreiben, womit erneut gezeigt ist, dass die Differenz

α2 − α1 identifizierbar ist.

Als Vektor a im Sinne der Feststellung 4 kann man hier beispielsweise den Vek-

tor (−1/2,−1/2, 1/3, 1/3, 1/3)′ wahlen oder auch (−1, 0, 1, 0, 0)′, wie man leicht

nachrechnet (fur die erste Gruppe waren im Beispiel 2 und fur die zweite 3 Be-

obachtungen vorgesehen).

Als weiteres Beispiel soll das Entwicklungsmodell von Schaie dienen. In der am

Ende des Einleitungskapitels Situation geht es um die Veranderungen einer Va-

riable Y (beispielsweise Intelligenz) in Abhangigkeit von Kohorte, Messzeitpunkt

und Alter. Hier sei wieder angenommen, dass die Kohorten von 1980 bis 1983

untersucht werden zu Messzeitpunkten zwischen 1990 und 1993. Die zugehorigen

Alter schwanken folglich zwischen 7 und 13.

Es sei nun angenommen, dass die Erwartungswerte fur die Messungen bekannt

sind. Es soll sich um die Zahlen in der folgenden Tabelle handeln, bei der die Zeilen

den Kohorten 80, 81, 82, 83 entsprechen und die Spalten den Messzeitpunkten

90, 91, 92, 93:8 10 12 12

7 10 11 12

5 7 9 9

4 6 7 8

Die Zahl 8 oben links ist also beispielsweise der Erwartungswert von Y in der

Kohorte 80, wenn der Messzeitpunkt 90 ist; das Alter der Probanden ist dann 10.

Die Zahl 10 daneben ist entsprechend der Erwartungswert der Kohorte 80 beim


Messzeitpunkt 91, das Alter ist dann 11.

Kann man – die Gultigkeit des Modells vorausgesetzt – von diesen Erwartungs-

werten auf die Modellparameter schließen? Passend zum Modell seien diese Para-

meter auf drei Parametervektoren aufgeteilt, die den drei Einflussen entsprechen;

der (Teil-)Parametervektor α = (α80, α81, α82, α83)′ moge die Kohorteneinflusse

wiedergeben, der Vektor β = (β90, β91, β92, β93)′ die Messzeitpunkteinflusse und

der Vektor γ = (γ7, γ8, γ9, γ10, γ11, γ12, γ13)′ die haupsachlich interessierenden Al-

terseinflusse.

Dass die Parameter dann nicht identifizierbar sind, sieht man leicht daran, dass

man von einem dieser Vektoren eine Konstante abziehen kann, wenn man diese

kompensatorisch einem anderen Vektor hinzuaddiert.

So passen die oben angegebenen hypothetischen Erwartungswerte einerseits zu

α = (1, 2, 1, 1)′, β = (2, 3, 3, 2)′ und γ = (1, 2, 3, 5, 6, 8, 9)′, wie man leicht

nachrechnet (der Erwartungswert oben links muss dann beispielsweise gleich

α80 + β90 + γ10 = 1 + 2 + 5 = 8 sein, was auch der Fall ist). Sie passen aber

andererseits auch zu α = (0, 1, 0, 0)′, β = (2, 3, 3, 2)′ und γ = (2, 3, 4, 6, 7, 9, 10)′.

Der (hier in Form einer Matrix) oben angegebene Erwartungsvektor ist also mo-

dellvertraglich, allerdings kann von ihm nicht auf die Modellparameter zuruck-

geschlossen werden.

Nun sind aber auch gerade Differenzen von solchen Einflussen interessant. Bei-

spielsweise konnte man womoglich γ11 − γ10 interpretieren als die Intelligenz-

anderung beim Ubergang von 10 zu 11 Jahren, die gewissermaßen’rein alters-

bedingt‘ und von den Einflussen von Kohorte und Messzeitpunkt’bereinigt‘ ist

(das wird jedenfalls vorgeschlagen).

Bei ψ = γ11 − γ10 handelt es sich offenbar um eine parametrische Funktion.

Wenn diese Funktion inhaltlich interessant ist, so ist es wichtig zu wissen, ob

sie uberhaupt identifizierbar ist. Die beiden oben gefundenen moglichen Para-

meterbelegungen sprechen nicht dagegen, denn in beiden Fallen ist ψ = 1, im

ersten Fall namlich 6 − 5 und im zweiten Fall 7 − 6. Diese Beobachtung reicht

naturlich nicht aus zum Nachweis der Identifizierbarkeit; vielmehr muss sich da-

zu der gleiche Wert bei allen moglichen Parameterbelegungen ergeben. Wie man

leicht nachrechnet, ist aber beispielsweise α = (2, 4, 4, 5)′, β = (6, 6, 5, 3)′ und

γ = (−7,−5,−3, 0, 2, 5, 7)′ ebenfalls eine Moglichkeit, die zu den oben angegebe-

nen Erwartungswerten fuhrt, allerdings ist fur diese Moglichkeit ψ = 2 − 0 = 2


und nicht 1. Die parametrische Funktion ψ ist also leider nicht identifizierbar.

Identifizierbarmachen. Hat man in einem Modell die unbefriedigende Situati-

on nicht identifizierbarer Parameter, so lost man dieses Problem haufig dadurch,

dass man die Eindeutigkeit des Parametervektors β durch geeignete Nebenbedin-

gungen erzwingt.

Im Fall des ALM bestehen diese Nebenbedingungen meist in der Forderung, dass

eine geeignete lineare Abbildung N fur den auszuwahlenden Parametervektor den

Wert 0 annehmen soll. Im allgemeinen Fall lautet die Nebenbedingung dann

Nβ = 0 .

Da die Anzahl der Parameter gleich k ist, ist N eine Matrix mit k Spalten.

Man konnte hier auch fordern, dass Nβ nicht 0 ist sondern gleich einem anderen

geeigneten Wert n. Die Argumentation ist dann etwas komplizierter, wobei aller-

dings inhaltlich nicht viel gewonnen wird, weshalb hier nur die einfachere Version

n = 0 behandelt werden soll.

In diesem Abschnitt soll untersucht werden, welche Bedingung an eine Matrix N

zu stellen sind, damit sie die gewunschte Funktion erfullen kann.

Es liegt also die Situation vor, dass jeder modellvertragliche Erwartungswertvek-

tor v ∈ Bild(X) nicht nur mit einem Parametervektor kompatibel ist, sondern

mit vielen. Die Nebenbedingung soll dann aus diesen vielen moglichen Parame-

tervektoren genau einen auswahlen.

Ist v = Xβ ein modellvertraglicher Erwartungswertvektor, so hatte sich schon

gezeigt, dass die alternativen Parametervektoren, die ebenfalls zu v fuhren, gerade

die Elemente von U + β sind, wobei U der Kern von X ist. Die Forderung, dass

die Nebenbedingung aus diesen moglichen Parametervektoren immer genau einen

auszeichnen soll, ist dann aquivalent dazu, dass es fur alle β ∈ Rk in der Menge

U + β genau ein Element gibt, das die Nebenbedingung erfullt.

Die Vektoren, die die Nebenbedingung Nβ = 0 erfullen, sind gerade die Elemente

des Kerns von N, der W heißen soll. Mit dieser Bezeichnung ist die Forderung

an die Nebenbedingung die, dass es fur jedes β ∈ Rk genau ein Element w ∈ W

gibt, das in U + β liegt.

Setzt man speziell β = 0, so folgt, dass in U genau ein Element aus W liegen


soll. Da auf jeden Fall der Vektor 0 in beiden Unterraumen liegt, folgt, dass

U ∩W = {0} gelten muss.

Ist β ∈ Rk wieder beliebig, so folgt aus der Forderung, dass in U + β genau

ein Element von W liegt, dass es Elemente u ∈ U und w ∈ W geben muss mit

u + β = w. Daraus folgt, dass β = w − u ist und sich damit als Summe eines

Elements von U und eines Elements von W schreiben lasst. Da dies fur alle β

gelten soll, muss dann U + W = Rk gelten.

Die Forderung an die Nebenbedingung kann also nur dann erfullt sein, wenn

U ∩W = {0} und U + W = Rk gilt.

Gelten umgekehrt diese beiden Bedingungen, ist auch die Forderung an die Ne-

benbedingung erfullt. Ist namlich β ein beliebiges Element des Rk, so lasst sich

β wegen der zweiten Bedingung in der Form β = u+w schreiben mit u ∈ U und

w ∈ W . Es folgt −u+β = w, weshalb U +β ein Element aus W enthalt. Wurde

U + β mehr als ein Element aus W enthalten, also beipielsweise w1 und w2, so

musste wi = ui+β gelten fur i = 1, 2 und zwei geeignete Elemente ui ∈ U . Bildet

man die Differenz dieser beiden Gleichungen, so erhalt man w1 −w2 = u1 − u2.

Der Vektor w1−w2 muss dann sowohl in W als auch in U liegen und wegen der

ersten Bedingung gleich 0 sein. Es muss also w1 = w2 gelten, und daraus folgt,

dass U + β nur ein Element aus W enthalten kann. Insgesamt enthalt also fur

jedes β der affine Unterraum U + β genau ein Element aus W , was gerade die

Forderung an die Nebenbedingung ist.

Die beiden Bedingungen U ∩W = {0} und U + W = Rk sollen nun noch weiter

umformuliert werden. Wegen der bekannten Beziehung

dim(U + W ) + dim(U ∩W ) = dim(U) + dim(W )

folgt aus den beiden Bedingungen, dass dim(U) + dim(W ) = k gelten muss; gilt

umgekehrt dim(U) + dim(W ) = k und U ∩W = {0}, so folgt dim(U + W ) = k,

also U + W = Rk. Man kann also die beiden Bedingungen aquivalent durch die

Bedingungen U ∩W = {0} und dim(U) + dim(W ) = k ersetzen.

Die Bedingung U ∩ W = {0} bedeutet, dass nur der Vektor 0 im Kern von X

und im Kern von N liegt. Dies ist gleichwertig damit, dass das homogene lineare

Gleichungssystem (X

N

)x = 0

nur die Losung x = 0 besitzt, was wiederum gleichwertig damit ist, dass die Ko-


effizientenmatrix Xe dieses Gleichungssystems den vollen Rang k besitzen muss.

Die Matrix Xe ist also definiert als

Xe =

(X

N

).

Ist der Rang von X gleich r, so ist die Dimension des Kerns U von X gleich k−r.

Die Bedingung dim(U) + dim(W ) = k ist dann gleichwertig mit dim(W ) = r,

was wegen W = Kern(N) wiederum gleichwertig damit ist, dass der Rang von N

gleich k − r ist.

Die Matrix N muss also mindestens k − r Zeilen besitzen. Hat sie genau k − r

Zeilen, so vereinfachen sich die Bedingungen noch einmal: Da offenbar der Rang

der aus X und N zusammengesetzten Matrix Xe hochstens so groß sein kann,

wie die Summe der Range von N und X, kann er jetzt nur dann gleich k werden,

wenn der Rang von N gleich k − r ist.

Damit kann das Ergebnis der bisherigen Untersuchung zusammengefasst werden:

Feststellung 5. Hat in dem Modell E(y) = Xβ die (n×k)-Designmatrix X nur

den Rang r < k, so erzwingen die Zusatzbedingungen

Nβ = 0

genau dann fur alle modellvertraglichen Erwartungswertvektoren v die Eindeu-

tigkeit des zugehorigen Parametervektors β mit v = Xβ, wenn

Rang(

(X

N

)) = k und Rang(N) = k − r

gilt. Ist die Zeilenzahl von N gleich k− r, so vereinfacht sich diese Bedingung zu

Rang(

(X

N

)) = k . ¤

In gewisser Weise kann man also sagen, dass das Hinzufugen von N zu X den

Rang gerade eben auf k erhohen soll.

In dem weiter oben besprochenen Beispiel mit den Therapiemaßnahmen war die


Designmatrix X gleich

1 1 0

1 1 0

1 0 1

1 0 1

1 0 1

,

hatte also nur Rang 2. Zum Identifizierbarmachen reicht also eine aus einer Glei-

chung bestehende Nebenbedingung. In Frage kommen alle Bedingungen, deren

Koeffizientenvektor die Zeilenvektoren von X zu einem System von Vektoren mit

Rang 3 erganzt.

Beispielsweise ist dies fur den Vektor (0, 1, 1)′ der Fall. Dieser Vektor fuhrt zu der

Nebenbedingung α1 + α2 = 0.

Addiert man die beiden Gleichungen µj = µ+αj, so folgt aus dieser Nebenbedin-

gung, dass µ = (µ1+µ2)/2 ist. Durch die Nebenbedingung bekommt folglich µ die

Bedeutung des Durchschnitts der Erwartungswerte nach den beiden Therapien,

wahrend die αj dann die Abweichungen der Einzeleffekte vom durchschnittlichen

Effekt sind. Die Bedeutung der Parameter ist damit nicht die bei der Formulie-

rung des Modells intendierte.

Moglich ist auch die aus der Varianzanalyse schon bekannte Nebenbedingung

2α1 + 3α2 = 0, die dem Vektor (0, 2, 3)′ entspricht.

Ein Spezialfall moglicher Nebenbedingungen ist der, dass die Zeilen von N aus

Einheitsvektoren bestehen, wobei N gerade k − r Zeilen besitzt. Ein solches N

zu finden, ist stets moglich, beispielsweise wahlt man die Einheitsvektoren, die

zu den’Nicht-Einser-Spalten‘ nach einer Transformation von X zur Staffelform

gehoren.

In dem gerade besprochenen Beispiel kommen sogar alle drei Einheitsvektoren

als mogliche einzige Zeile von N in Frage.

Eine Nebenbedingung der Form e′jβ = 0 lautet ubersetzt βj = 0. Der Parameter

βj taucht damit eigentlich gar nicht mehr in den Modellgleichungen auf und kann

deshalb auch weggelassen werden, samt der zugehorigen Spalte von X.

In einer Situation, in der die Matrix N nur aus Einheitsvektoren ej als Zeilen

besteht, konnen also alle entsprechenden Spalten von X weggelassen werden.

Das Weglassen solcher Spalten andert ubrigens den Rang der Designmatrix nicht.


In der Matrix Xe kann man namlich durch elementare Zeilenumformungen alle

Zahlen oberhalb der Einsen in der zeilenweise nur aus Einheitsvektoren beste-

henden Matrix N ohne Anderung des Ranges zu 0 machen. Man ersetzt damit

alle Spalten von X, die nachher gestrichen werden sollen, durch Nullspalten – das

Ergebnis sei mit X∗ bezeichnet. Der Zeilenrang von X∗ muss nun mindestens r

sein, denn die aus den Zeilen von X∗ und den k − r Zeilen von N bestehende

umgeformte Matrix Xe hat ja nach wie vor den Rang k. Also ist auch der Spalten-

rang von X∗ mindestens r, was sich auch nicht andert, wenn man die Nullspalten

weglasst. Daraus, dass bei der beschriebenen Wegnahme der Spalten der Rang

der Designmatrix sich nicht andert, folgt ubrigens sofort, dass sich auch das Bild

nicht andert.

Wahlt man in dem Beispiel mit den Therapiemaßnahmen beispielsweise den drit-

ten Einheitsvektor, so lautet die Nebenbedingung e′3β = 0 oder konkret α2 = 0.

Man kann dann die zu α2 gehorende dritte Spalte von X weglassen und kommt

von der ursprunglichen Designmatrix

1 1 0

1 1 0

1 0 1

1 0 1

1 0 1

zu

1 1

1 1

1 0

1 0

1 0

,

einer Matrix, die jetzt vollen Rang 2 besitzt, was fur weitere Rechnungen prak-

tisch ist.

Die Interpretation der verbleibenden Parameter ist dann die, dass der erste Para-

meter µ der Erwartungswert µ2 der zweiten Gruppe ist, wahrend das verbleibende

α1 die Differenz der beiden Erwartungswerte µ1 − µ2 ist. Man sieht dies sofort,

wenn man in den Gleichungen fur die Erwartungswerte der beiden Gruppen den

auf Null gesetzten Parameter α2 weglasst – die beiden Gleichungen sind dann

namlich µ1 = µ + α1 und µ2 = µ.

Eine alternative Nebenbedingung ist die zum ersten Einheitsvektor gehorende,

also µ = 0. Hier kommt man durch Weglassen der entsprechenden Spalte der

ursprunglichen Designmatrix zu

1 0

1 0

0 1

0 1

0 1

.


Genau wie eben erkennt man, dass nun µ1 = α1 gilt und µ2 = α2; die Parameter

haben also wieder eine andere Bedeutung erhalten.

Betrachtet man noch einmal die ursprungliche Designmatrix und die beiden Ma-

trizen, die man nach dem Identifizierbarmachen durch Nullsetzen geeigneter Pa-

rameter erhalten hat, so findet man die interessante Situation vor, dass dasselbe

Modell nun durch mehrere unterschiedliche Designmatrizen beschrieben wird. Es

kann also sein, dass oberflachlich unterschiedliche Designmatrizen’eigentlich‘ in-

haltlich das gleiche Modell beschreiben.

In solchen Fallen haben die Parameter, die zu den verschiedenen Designmatrizen

gehoren, naturlich unterschiedliche Bedeutung.

Betrachtet man noch einmal die beiden Moglichkeiten, Identifizierbarkeit durch

Weglassen eines Parameters zu erzwingen, so enthalten die zugehorigen Desi-

gnmatrizen beide die Spalte (1, 1, 0, 0, 0)′. Die Bedeutung des zugehorigen Para-

meters ist jedoch ganz unterschiedlich. Dies zeigt, dass die Bedeutung eines Pa-

rameters nicht aus der entsprechenden Spalte der Designmatrix allein erschlossen

werden kann (was man vielleicht zunachst vermuten wurde), sondern dass man

dazu die gesamte Designmatrix benotigt.

Offensichtlich ist nach den bisherigen Beispielen, dass die inhaltliche Interpretati-

on der Parameter von den Nebenbedingungen entscheidend abhangt. Im Grunde

bekommen die Parameter erst durch die Nebenbedingung eine inhaltliche Be-

deutung, wahrend sie vorher noch gar keine hatten und auch wegen ihrer Unbe-

stimmtheit noch gar keine haben konnten, obwohl dies bei einer naiven Modell-

konstruktion so geschienen haben mag.

Eine inhaltlich gut brauchbare Interpretation kann damit ein Gesichtspunkt bei

der Auswahl der Nebenbedingungen sein. Ein anderer Gesichtspunkt kann aber

auch die Aussicht sein, dass die weiteren Rechenverfahren unkomplizierter wer-

den, was besonders beim Weglassen von Parametern durch Nullsetzen der Fall

ist.

Naheliegend ist die Frage, wie man Parameter, die man durch eine Nebenbedin-

gung festlegt, in die Parameter umrechnet, die man erhalten hatte, wenn man

eine andere Nebenbedingung verwendet hatte. Beispielsweise taucht diese Frage

dann auf, wenn man sich aus inhaltlichen Gesichtspunkten gerne fur eine Version

von Nebenbedingungen entschieden hatte, aus rechentechnischen Gesichtspunk-

ten jedoch schließlich eine andere gewahlt hat (meist Weglassen von Parametern).


Zur Beantwortung wird zunachst die Teilfrage untersucht, wie man aus einem

moglichen modellvertraglichen Erwartungswertvektor v denjenigen moglichen Pa-

rametervektor findet, der zusatzlich die Nebenbedingungen erfullt.

Die Gleichungen, die erfullt sein mussen, sind dann

Xβ = v und Nβ = 0 ,

was man auch zu(

X

N

)β =

(v

0

)oder kurzer Xeβ = ve

mit der schon oben eingefuhrten Abkurzung Xe und der Abkurzung ve fur (v,0)

zusammenfassen kann.

Multipliziert man die letzte Gleichung mit X′e, so erhalt man X′

eXeβ = X′eve.

Da Xe vollen Rang hat, ist hier X′eXe invertierbar, und man erhalt die Losung

β = (X′eXe)

−1X′eve .

Die Bestandteile dieser Losung kann man weiter umformen, namlich X′eXe zu

X′X + N′N und X′eve zu X′v. Damit erhalt man

β = (X′X + N′N)−1X′v .

Mit anderen Worten ergibt sich β aus v mit Hilfe einer linearen Abbildung.

Dies unterstreicht noch einmal die auch so unmittelbar klare Tatsache, dass iden-

tifizierbar gemachte Parameter und ihre Komponenten tatsachlich identifizierbar

sind.

Die gerade hergeleitete Formel kann beispielsweise auch dazu dienen, fur einen

Parametervektor β0, der die Nebenbedingung nicht erfullt, dasjenige β zu finden,

das zum gleichen Erwartungswertvektor fuhrt und zusatzlich die Nebenbedingung

erfullt. Man muss nur den zu β0 gehorenden Erwartungswertvektor Xβ0 fur v in

die Formel einsetzen und erhalt

β = (X′X + N′N)−1X′Xβ0 .

Damit kann auch die Ausgangsfrage leicht beantwortet werden. Hier geht es dar-

um, dass man zu einer Designmatrix X zwei mogliche Nebenbedingungen zur

Herstellung der Identifizierbarkeit hat, namlich N1β = 0 und N2β = 0, und


dass ein Parametervektor β1, der die erste Nebenbedingung erfullt, umgerechnet

werden soll in den entsprechenden Parametervektor β2, der die zweite Nebenbe-

dingung erfullt. Entsprechen sollen sich die beiden Parametervektoren dabei in

dem Sinn, dass sie beide zum gleichen Erwartungswertvektor fuhren.

Da der zu β1 gehorende Erwartungsvektor gerade Xβ1 ist, errechnet sich das

zugehorige β2 nach der gerade hergeleiteten Formel zu

β2 = (X′X + N′2N2)

−1X′Xβ1 .

Wesentlich ist hier, dass sich β2 aus β1 durch Anwendung einer linearen Abbil-

dung ergibt, namlich der linearen Abbildung (X′X + N′2N2)

−1X′X. Die Einzel-

parameter in β2 sind also parametrische Funktionen von β1.

Man kann nun insgesamt aus den angestellten Uberlegungen die Konsequenz

ziehen, dass man ohne Gefahr die Nebenbedingungen entsprechend rechentech-

nischen Erfordernissen wahlen kann, da man ja die Parameter, die man bei in-

haltlich sinnvollen Nebenbedingungen erhalten wurde, aus den rechentechnisch

nutzlichen Parametern als parametrische Funktionen erhalt.

Praktisch wird man wohl eher selten bei der Ermittlung der Umrechnung die oben

hergeleiteten Formeln verwenden, die hier hauptsachlich angegeben wurden, um

klarzumachen, dass die Transformation linear ist. Statt dessen ermittelt man die

Umrechnung haufig lieber direkt.

Wurde man sich beispielsweise in dem Beispiel mit den beiden Therapiemaßnah-

men gerne dafur entscheiden, entsprechend der varianzanalytischen Vorgehens-

weise die Nebenbedingung 2α1+3α2 = 0 zu wahlen, zieht jedoch aus rechentechni-

schen Grunden die Nebenbedingung α2 = 0 vor, so ermittelt die Umrechnung der

rechentechnischen Parameter, die hier zur besseren Unterscheidung in γ1, γ2, γ3

umbenannt seien (γ3 wird sogleich wegfallen), in varianzanalytische folgender-

maßen: Zunachst erhalt man die Transformation der beiden Erwartungswerte µ1

und µ2 in die Parameter mit der varianzanalytischen Nebenbedingung mit Hilfe

der Gleichungenµ + α1 = µ1

µ + α2 = µ2

2α1 + 3α2 = 0

alsµ = (2/5) µ1 + (3/5) µ2

α1 = (3/5) µ1 − (3/5) µ2

α2 = −(2/5) µ1 + (2/5) µ2 .


Nun setzt man, wie oben schon ausgerechnet, µ1 = γ1 + γ2 und µ2 = γ1 ein und

bekommtµ = γ1 + (2/5) γ2

α1 = (3/5) γ2

α2 = −(2/5) γ2 .

In der Tat sind also die varianzanalytischen Parameter µ, α1 und α2 parametrische

Funktionen der rechentechnisch womoglich praktischeren Parameter γ1 und γ2.

Parametertransformationen. Im letzten Abschnitt hat sich gezeigt, dass die

Einfuhrung von Nebenbedingungen dazu fuhren kann, dass man in der Designma-

trix eine oder mehrere Spalten streichen kann, ohne das Modell in seinem Wesen

zu verandern. Man hat dann zwei Designmatrizen, die unterschiedlich aussehen,

aber dennoch eigentlich zum gleichen Modell gehoren. Eine wichtige Gemeinsam-

keit solcher Matrizen war, dass sie das gleiche Bild besitzen.

Allgemein sollen nun zwei Designmatrizen X1 und X2 aquivalent heißen, wenn

Bild(X1) = Bild(X2) gilt. Auch die zugehorigen Modelle heißen dann aquivalent.

Die modellvertraglichen Erwartungswertvektoren sind also bei zwei aquivalenten

Designmatrizen genau die gleichen. Da empirisch bestenfalls die Erwartungswerte

der yi zuganglich sind, folgt, dass man auf empirischem Weg nicht zwischen den

zu X1 und X2 gehorenden Modellen unterscheiden kann. Man kann diese Modelle

daher als’eigentlich‘ gleich betrachten, was in Zukunft auch geschehen soll.

Im Folgenden sollen X1 und X2 immer zwei aquivalente Designmatrizen sein, die

damit das gleiche Bild haben und zu aquivalenten Modellen fuhren.

Werden die Parametervektoren in den beiden Modellen mit β1 und β2 bezeich-

net, und betrachtet man zwei solche Vektoren als gleichwertig, wenn sie zum glei-

chen Erwartungswertvektor E(y) fuhren, wenn also die Beziehung X1β1 = X2β2

gilt, so kann man diese Vektoren mit einer geeigneten linearen Transformation

ineinander umrechnen – vorausgesetzt naturlich, sie sind (gegebenenfalls uber

Nebenbedingungen) identifizierbar.

Zur Begrundung soll zuerst der allgemeine Fall untersucht werden, dass die Pa-

rameter womoglich durch Nebenbedingungen erst identifizierbar gemacht worden

sind. Die beiden aquivalenten Modelle seien durch Designmatrizen X1 und X2

gegeben, dabei seien die Nebenbedingungen fur das zweite Modell N2β2 = 0.

Zu dem Parametervektor β1 des ersten Modells gehort dann der Erwartungs-


wertvektor X1β1, der nach den Uberlegungen des letzten Abschnitts im zweiten

Modell zu dem Parametervektor

β2 = (X′2X2 + N′

2N2)−1X′

2X1β1

gehort, womit die Umrechnungsformel gefunden ist. Man bemerkt dabei, dass die

Einzelparameter aus β2 identifizierbare parametrische Funktionen von β1 sind

(identifizierbar sind sie wegen der Nebenbedingung, und parametrische Funktio-

nen von β1 deshalb, weil sie sich durch eine lineare Abbildung aus β1 bestimmen

lassen).

Eine einfachere Formel erhalt man fur den Fall, dass X2 vollen Rang hat, dass

β2 also (ohne Nebenbedingung) identifizierbar ist. Wegen Bild(X1) = Bild(X2)

sind alle Spalten von X1 Linearkombinationen der Spalten von X2, weshalb man

eine Matrix T finden kann, so dass X1 = X2T gilt (T enthalt als Spalten Koeffi-

zientenvektoren, mit denen sich die Spalten von X2 als Linearkombinationen der

Spalten von X2 schreiben lassen). Setzt man nun β2 = Tβ1, so gilt

X1β1 = (X2T)β1 = X2(Tβ1) = X2β2 ,

weshalb mit β2 = Tβ1 die gewunschte Formel gefunden ist.

Transformationen von Parametervektoren von zwei aquivalenten Modellen heißen

auch Parametertransformationen.

Feststellung 6. Sind zwei Designmatrizen X1 und X2 aquivalent, so kann der

Parametervektor β2, der im Modell E(y) = X2β2 zum gleichen Erwartungs-

wertvektor E(y) fuhrt wie ein gegebener Parametervektor β1 im ersten Modell

E(y) = X1β1, aus β1 durch eine geeignete lineare Abbildung errechnet werden.

Identifizierbarkeit von β2, gegebenenfalls durch geeignete Nebenbedingungen, ist

dabei vorausgesetzt.

Ist β2 ohne Nebenbedingungen identifizierbar, so ist die Parametertransformation

von β1 zu β2 gegeben als

β2 = Tβ1 ,

wo die T durch die Gleichung X1 = X2T bestimmt ist. ¤

Die Bedingung, dass β2 ohne Nebenbedingungen identifizierbar ist, ist naturlich

genau dann erfullt, wenn X2 vollen Rang hat.

Insbesondere gilt, dass bei einer Parametertransformation die neuen Parameter

identifizierbare parametrische Funktionen der alten Parameter sind (Identifizier-


barkeit der Parameter des neuen Modells, notfalls uber eine Nebenbedingung, ist

dabei vorausgesetzt).

In dem Fall, dass X1 und X2 vollen Rang besitzen, kann die Parametertransfor-

mation geometrisch als Koordinatentransformation gedeutet werden. Die Spalten

von X1 und X2 definieren dann namlich zwei Koordinatensysteme des Unter-

raums V = Bild(X1) = Bild(X2) des Personenraums, wobei die Parametervekto-

ren gerade die Koordinatenvektoren der zu ihnen gehorenden Modellvorhersagen

im jeweiligen Koordinatensystem sind. Die zu diesen beiden Koordinatensyste-

men gehorende Koordinatentransformation ist folglich gerade die hier untersuchte

Parametertransformation.

Parametertransformationen konnen unterschiedlich motiviert sein. Es kann sein,

dass man eine Designmatrix durch eine andere ersetzen will, die rechnerisch besser

handhabbar ist, oder es kann sein, dass man gegebene Parameter durch solche

ersetzen will, die inhaltlich besser interpretierbar sind.

Oft sind auch Formeln, die man mit Hilfe von Parametertransformationen ge-

winnt, leichter zu verstehen und zu merken, besonders, wenn es gelingt, die For-

meln aus elementarstatistischen Bestandteilen aufzubauen.

Als erstes ganz konkretes Beispiel einer Parametertransformation soll das einer

einfachen lineare Regression gewahlt werden. Das Modell ist hier

E(y) = β u + α ,

wobei die Pradiktorvariable wieder U ist.

Fur U sollen nur drei Werte vorgegeben sein, namlich 3, 7 und 8. Die Designmatrix

ist dann bei der ublichen Reihenfolge α, β der Parameter gleich

X1 =

1 3

1 7

1 8

.

Rechentechnisch vorteilhaft sind, wie sich noch zeigen wird, Designmatrizen, in

denen die Spalten orthogonal oder wenigstens zum Teil orthogonal sind. Daher

soll hier eine aquivalente Designmatrix X2 dadurch hergestellt werden, dass die

zweite Spalte zur ersten orthogonal gemacht wird (was hier gerade bedeutet, dass

die zweite Spalte, die ja der Vektor der U -Daten ist, zentriert wird). Das Ergebnis


ist

X2 =

1 −3

1 1

1 2

.

Die beiden Designmatrizen sind aquivalent, da die zweite Matrix aus der ersten

durch eine elementare Spaltenumformung gewonnen wurde, wobei sich ja das Bild

nicht andert.

Die Matrix T mit X1 = X2T bestimmt man nun leicht zu

T =

(1 6

0 1

).

Damit ist die Paramtertransformation, die die alten Parameter α und β in die

neuen Parameter umrechnet, die hier γ1 und γ2 heißen sollen, gegeben durch

γ1 = α + 6 β

γ2 = β .

Der neue Parameter γ2 ist also die Steigung der Regressionsgerade, wahrend

γ1 = β · 6 + α die Vorhersage fur den Wert U = 6 des Pradiktors ist. Dieser Wert

ist gerade der Mittelwert der verwendeten Werte von U , so dass γ1 die Bedeutung

des Erwartungswerts von Y fur den Mittelwert 6 des Pradiktors bekommt. In

gewisser Weise ist damit γ1 als Parameter inhaltlich interessanter als α, das ja

die Vorhersage fur den Wert 0 von U ist und mit den gegebenen Daten wenig zu

tun hat.

Als allgemeineres Beispiel soll nun die multiple lineare Regression behandelt wer-

den; die Ergebnisse werden sich spater noch als nutzlich erweisen. Die Pradiktoren

seien U1, . . . , Um. Ist die Reihenfolge der Parameter α, β1, . . . , βm, kommen also

zuerst die additive Konstante und dann die Regressionsgewichte, so besteht die

Designmatrix X aus dem Vektor 1 aus Einsen in der ersten Spalte und den Vekto-

ren u1, . . . ,um, die die Werte der Praditoren enthalten, in den weiteren Spalten;

es gilt also

X = (1,u1, . . . ,um) .

Es wurde schon erwahnt, dass Rechnungen im Rahmen des ALM oft dann be-

sonders leicht durchschaubar sind, wenn die Spalten der Designmatrix teilweise

orthogonal sind. Deshalb soll die gegebene Designmatrix nun durch eine andere

ersetzt werden, in der alle Spalten ab der zweiten senkrecht zur ersten Spalte

sind.


Eine naheliegende Moglichkeit, dieses Ziel zu erreichen, ist das, die weiteren Spal-

ten zur ersten orthogonal zu machen dadurch, dass ein geeignetes Vielfaches der

ersten Spalte abgezogen wird. Bekanntlich bedeutet das gerade, dass die entspre-

chenden Datenvektoren zentriert werden; die uj werden also durch die uj ersetzt,

die dadurch entstehen, dass man von allen Werten ihren Mittelwert abzieht, an-

ders gesagt, gilt uj = uj − uj1, wobei uj der Mittelwert des Datenvektors uj

ist.

Die neue Designmatrix, die X2 heißen soll, ist dann gleich

(1, u1, . . . , um) .

Der Ubergang von X zu X2 wird durch elementare Spaltentransformationen be-

wirkt. Da sich bei solchen Transformationen das Bild einer Matrix bekanntlich

nicht andert, ist X2 aquivalent zu X.

Die Matrix X entsteht dann umgekehrt aus X2, indem man zu den uj wieder

das uj-fache der ersten Spalte hinzuaddiert, was man auch dadurch bewirkt, dass

man X2 von rechts mit der Matrix

T =

1 u1 . . . um

1. . .

1

multipliziert, in der die leeren Stellen durch Nullen auszufullen sind. Diese Matrix

ist dann bereits die, die den alten Parametervektor β = (α, β1, . . . , βm)′ in den

neuen umrechnet, der hier zur besseren Unterscheidung γ = (γ0, γ1, . . . , γm)′

heißen soll.

Man erkennt sofort, dass γj = βj fur j = 1, . . . , m gilt, und dass außerdem

γ0 = α + β1u1 + . . . + βmum

ist. Die letzten m Parameter haben also ihre Bedeutung als Regressionsgewichte

behalten, wahrend der erste neue Parameter nicht mehr die additive Konstante

ist, sondern der Erwartungswert von y an der Stelle (u1, . . . , um)′.

Der Fall der einfachen linearen Regression ergibt sich leicht als Spezialfall.

Parameterschatzung. In diesem Abschnitt soll es darum gehen, den Parame-

tervektor β zu schatzen.


Als einleitendes einfaches Beispiel soll wieder der Fall einer Stichprobe mit zwei

Beobachtungen dienen. Der Personenraum ist also R2. Die Gleichungen fur den

Erwartungswertvektor sind

E(y) = Xβ =

(1

1

) (µ)

.

Der Unterraum V der modellvertraglichen Erwartungswertvektoren ist hier die

Gerade, die aus allen Vielfachen des Vektors x = (1, 1)′ besteht. Fur einen modell-

vertraglichen Erwartungswertvektor kann man außerdem den zugehorigen – hier

nur eindimensionalen – Parameter µ als Koordinate bezuglich des durch (1, 1)′

gegebenen Koordinatensystems auf der Gerade ablesen.

In einem konkreten Beispiel seien die beiden Datenwerte gleich 1 und 3. Die

Ausgangssituation ist in der folgenden Abbildung dargestellt.

1

1............................................................................ ...................

........

........

........

........

........

........

........

....................

...................

.......................................................................................................................

Y1

Y2

x

...................................................................................................................................................................................................................................................................................................................................................................................................................

V

sy

Das Modell sagt nun, dass der Datenpunkt y zustandegekommen ist als Summe

des Erwartungswertvektors µx und des zufalligen Fehlervektors e, dass also

y = µx + e

gilt. Man kann hier den Erwartungswertvektor auch wieder als Modellvorhersage

deuten, denn der beobachtete Wert weicht von diesem Vektor ja nur um den

Fehler ab.

Es liegt nahe, den Parameter und damit die Modellvorhersage so zu schatzen,

dass die tatsachlichen Daten moglichst gut dazu passen, anders gesagt so, dass

die geschatzte Modellvorhersage moglichst nahe bei dem beobachteten Datenvek-

tor y liegt. Die geschatzte Modellvorhersage soll mit y bezeichnet werden und

der zugehorige geschatzte Fehler, also die Abweichung y − y der Daten von der


geschatzten Modellvorhersage y, mit e. Die Bezeichnung y passt ubrigens gut zu

den gelaufigen Bezeichnungen aus der linearen Regression.

Das Ergebnis dieser Schatzung ist in der nachsten Abbildung illustriert.

1

1............................................................................ ...................

........

........

........

........

........

........

........

....................

...................

.......................................................................................................................

Y1

Y2

x

...................................................................................................................................................................................................................................................................................................................................................................................................................

V

sy ......................py...........

............

............................

1

1............................................................................ ...................

........

........

........

........

........

........

........

....................

...................

.......................................................................................................................................................................................................

..........................................................................................................................................................................................................................

....................................................

...................................................................

Y1

Y2

...................................................................................................................................................................................................................................................................................................................................................................................................................

Vy.................................

y

e

Naturlich erhalt man y als orthogonale Projektion von y auf V . Die in der rechten

Abbildung verdeutlichte Beziehung

y = y + e

(sie ist nur die umgestellte Definition von e) entspricht dabei gerade der theore-

tischen Beziehung y = E(y) + e. Man beachte hier auch die Orthogonalitat von

y und e.

Man kann das Prinzip, nach dem man den geschatzten Erwartungswertvektor y

so wahlt, dass er moglichst nahe an dem beobachteten Vektor y liegt, alternativ

auch so ausdrucken, dass man versucht, den geschatzten Fehlervektor e moglichst

klein zu machen.

Da bei Verwendung des euklidischen Abstands die quadrierte Lange des Fehlers

gerade die Summe seiner quadrierten Komponenten ist, bedeutet dies Prinzip,

dass man die Summe der quadrierten geschatzten Fehler minimal macht; man

hat also ein Beispiel fur die Methode der kleinsten Quadrate.

Nach diesem einfuhrenden Beispiel soll nun die Schatzung allgemein behandelt

werden.

Ausgangspunkt ist das Modell

y = Xβ + e .

Ziel ist es, den Parametervektor β zu schatzen. Der zur Schatzung β gehorende

Erwartungswertvektor y = Xβ soll auch geschatzter Erwartungswertvektor oder

geschatzte Modellvorhersage heißen.


Die Abweichung y−y des tatsachlichen beobachteten Vektors y von der geschatz-

ten Modellvorhersage y wird mit e bezeichnet und soll auch geschatzter Fehler

genannt werden.

Es gilt folglich die Beziehung

y = y + e .

Die Schatzung folgt dem Prinzip, dass die geschatzte Modellvorhersage y moglichst

gut zu den beobachteten Daten y passen soll, was geometrisch so ubersetzt wird,

dass y moglichst nahe bei y liegen soll, anders ausgedruckt, dass die Lange ‖ e‖des geschatzten Fehlervektors e moglichst klein sein soll.

Da die quadrierte Lange von e gleich der Summe der quadrierten Einzelfehler ist,

folgt die Schatzung der Methode der kleinsten Quadrate.

Den am nachsten bei y gelegenen Punkt y aus V = Bild(X) erhalt man durch

die orthogonale Projektion auf diesen Unterraum.

Die Bedingung dafur, dass ein Element Xβ ∈ Bild(X) Projektion von y ist, ist

die, dass der Verbindungsvektor y−Xβ senkrecht auf allen Vektoren aus V steht,

was gleichbedeutend damit ist, dass er senkrecht zu allen Spalten von X ist, oder

kurz mit

X′(y −Xβ) = 0

beziehungsweise

X′Xβ = X′y .

Dies sind die Normalengleichungen.

Diese Normalengleichungen besitzen eine Losung, da ja das Projektionsproblem

eine Losung besitzt.

Allerdings ist die Losung nicht notwendig eindeutig, namlich dann nicht, wenn die

Matrix X nicht vollen Rang hat (was ja zu erwarten war, da dies zu dem Identi-

fizierbarkeitsproblem fuhrt, dass von einem Erwartungswertvektor nicht auf den

zugehorigen Parameter geschlossen werden kann). Die Uneindeutigkeit bezieht

sich allerdings nur auf den Parametervektor β, der optimale modellvertragliche

Erwartungswertvektor y ist hingegen eindeutig. Die Losungen fur β sind gerade

die, die zu diesem y fuhren, fur die also Xβ = y gilt. Unter ihnen kann man nun

mit entsprechenden Nebenbedingungen eine auswahlen.

Besitzt die Matrix X vollen Rang, so ist die Losung des Schatzproblems, die dann


β heißen soll, eindeutig und errechnet sich zu

β = (X′X)−1X′y .

Der zugehorige geschatzte Erwartungswertvektor y ergibt sich daraus zu

y = X(X′X)−1X′y ,

wobei bekanntlich X(X′X)−1X′ die orthogonale Projektion auf Bild(X) = V ist.

In dem Fall, dass die (n× k)-Matrix X vollen Rang k besitzt, kann auch die Ver-

teilung von β angegeben werden: Wegen y ∼ Nn(Xβ, σ2I) ist auch der Schatzer

β = (X′X)−1X′y multinormalverteilt und besitzt den Erwartungswert

(X′X)−1X′(Xβ) = β

und die Kovarianzmatrix

((X′X)−1X′)(σ2I)((X′X)−1X′)′ = σ2(X′X)−1X′X(X′X)−1 = σ2(X′X)−1 ;

kurz, es gilt

β ∼ Nk

(β, σ2(X′X)−1

).

Insbesondere ist also β erwartungstreu.

Diese Ergebnisse sollen noch einmal zusammengefasst werden:

Feststellung 7. Im Modell y = Xβ fuhrt die Methode der kleinsten Quadrate,

die hier in der Minimierung von ‖ e‖2 besteht, zu den Normalengleichungen

X′Xβ = X′y .

Diese Normalengleichungen besitzen immer eine Losung, und alle Losungen fuhren

zum gleichen geschatzten Erwartungswertvektor y, der sich auch als orthogonale

Projektion von y auf Bild(X) = V ergibt.

Besitzt die Matrix X vollen Rang, so ist die Losung des Schatzproblems eindeutig

und errechnet sich zu

β = (X′X)−1X′y .

Der zugehorige geschatzte Erwartungswertvektor y ist dann

y = X(X′X)−1X′y .


In diesem Fall gilt ferner

β ∼ Nk(β, σ2(X′X)−1) . ¤

Anschaulich erhalt man insgesamt im Fall einer Designmatrix X von vollem Rang

den geschatzten Erwartungswertvektor y, indem man den Datenvektor y senk-

recht auf den durch die Spalten von X aufgespannten Unterraum V projiziert,

und den geschatzten Parametervektor, indem man dort die Koordinaten von y

bezuglich des durch die Spalten von X gegebenen Koordinatensystems abliest.

Falls die Matrix (X′X)−1 keine Diagonalmatrix ist, so sind die Schatzer der Ein-

zelparameter teilweise korreliert. Dies wird als Multikollinearitat bezeichnet und

als unangenehm empfunden. Ein Mittel zur Vermeidung besteht darin, durch eine

Parametertransformation die Spalten der Designmatrix orthogonal zu machen, da

ja dann X′X und damit auch die Inverse davon Diagonalmatrizen sind. In vielen

Fallen wird durch eine solche Transformation das Problem bei genauem Hinsehen

allerdings nur verschoben.

Die etwas umstandlichen Formulierungen in der vorangegangenen Argumentation

sind der Moglichkeit geschuldet, dass X womoglich nicht vollen Rang besitzt,

was die Sachlage verkompliziert und dazu fuhrt, dass man bei der Schatzung

eher y in den Mittelpunkt stellt, als einen – nicht eindeutigen – zugehorigen

Parametervektor.

Die Schatzung des Erwartungswertvektors kann man auch ohne expliziten Bezug

auf β durchfuhren. Der geschatzte Erwartungswertvektor y ist namlich der am

nachsten bei y gelegenen Punkt aus V = Bild(X), und erhalt man ihn folglich

durch die orthogonale Projektion PV auf diesen Unterraum. Es gilt also y = PV y,

woraus

E(y) = E(PV y) = PV E(y) = PV (Xβ) = Xβ

folgt; die letzte Gleichung ergibt sich dabei aus der Tatsache, dass Xβ bereits in

Bild(X) = V liegt und daher durch PV nicht mehr geandert wird. Die Methode

der kleinsten Quadrate liefert also mit y einen erwartungstreuen Schatzer des

Erwartungswertvektors E(y) = Xβ.

Dies und die wichtige Tatsache, dass der geschatzte Erwartungswertvektor und

der geschatzte Fehlervektor orthogonal sind, soll noch einmal hervorgehoben wer-

den:

Feststellung 8. Den Vektor y, also den nach der Methode der kleinsten Quadra-

te geschatzten Erwartungswertvektor von y, erhalt man, indem man y orthogonal


auf Bild(X) projiziert. Er ist erwartungstreu, es gilt also

E(y) = E(y) = Xβ .

Der Vektor e der geschatzten Fehler steht senkrecht auf V = Bild(X) und damit

insbesondere auf y. Daher gilt wegen y = y + e die Zerlegung

‖y‖2 = ‖ y‖2 + ‖ e‖2 . ¤

Als Erganzung soll auch noch der Fall betrachtet werden, dass X nicht vollen

Rang besitzt, dass jedoch die Parameter durch eine geeignete Nebenbedingung

Nβ = 0 identifizierbar gemacht worden sind.

Hier kann man einerseits zunachst irgendeine Losung β0 der Normalengleichungen

finden und diese dann in eine umrechnen, die zusatzlich die Nebenbedingung

erfullt. Die Umrechnung war oben schon bestimmt worden, mit

β = (X′X + N′N)−1X′Xβ0

hat man also einen Parametervektor gefunden, der die Nebenbedingung erfullt,

und der zusatzlich die Normalengleichungen lost (da er ja zu demselben y fuhrt).

Wegen der durch die Nebenbedingung bewirkte Identifizierbarkeit ist dies β dann

auch der einzige Parametervektor mit diesen Eigenschaften.

Nun ist jedoch Xβ0 = y = y−e. Da e senkrecht zu V = Bild(X) ist, gilt X′e = 0

und deshalb

X′Xβ0 = X′y = X′y .

Setzt man dies in die gerade gefundene Formel ein, so erhalt man mit

β = (X′X + N′N)−1X′y

eine Moglichkeit, den Parametervektor β, der die Normalengleichungen und die

Nebenbedingungen erfullt, auch direkt aus dem Datenvektor y zu bestimmen.

Im Zusammenhang mit Parametertransformationen stellt sich die Frage, in wel-

cher Beziehung die Parameterschatzungen in zwei aquivalenten Modellen stehen;

es zeigt sich, dass man diese Schatzungen einfach mit Hilfe der Parametertrans-

formation ineinander umrechnen kann.

Feststellung 9. Sind die durch die Designmatrizen X1 und X2 mit Parameter-

vektoren β1 und β2 gegebenen Modelle aquivalent, wobei die zugehorige Para-

metertransformation durch β2 = Tβ1 gegeben ist, und sind β1 und β2 die zu


einem Datenvektor y gehorenden Parameterschatzungen in den beiden Modellen,

so gilt

β2 = Tβ1 .

Dabei ist naturlich vorausgesetzt, dass die Parametervektoren gegebenenfalls

durch geeignete Nebenbedingungen identifizierbar sind.

Zur Begrundung bemerkt man zunachst, dass die geschatzte Modellvorhersage y

als Projektion von y auf V = Bild(X1) = Bild(X2) unabhangig von der Para-

metrisierung ist. Fur die beiden Schatzungen gilt dann Xiβi = y, die Vektoren

β1 und β2 fuhren also zur gleichen Modellvorhersage. Es gilt also X2β2 = X1β1,

woraus nach Definition der Parametertransformation β2 = Tβ1 folgt. ¤

Fur die weiteren Untersuchungen soll an die bekannte Tatsache erinnert werden,

dass fur eine orthogonale Projektion P und beliebige Vektoren x und y stets die

Beziehung

<Px, Py> = <x, Py> = <Px, y>

gilt.

Ein einfaches Beispiel ist die spater oft verwendete Gleichung < x, y> = < x, y>

fur Datenvektoren x und y; die Projektion ist dabei das Zentrieren der Daten

(also die Projektion auf den zu dem aus lauter Einsen bestehenden Vektor 1

senkrechten Unterraum; das Ergebnis der Projektion eines Vektors x wird dabei

kurz mit x bezeichnet).

Als weitere Anwendung soll ‖ y‖2 = < y, y> bestimmt werden. Da y die Projek-

tion von y ist, kann man dies auch als < y, y> schreiben. Ist nun β irgendeine

Losung der Normalengleichungen, so gilt y = Xβ und folglich

‖ y‖2 = < y, y> = (Xβ)′y = β′X′y = β

′(X′y) = < β, X′y> .

Dies ist das Skalarprodukt der Schatzung β und der rechten Seite X′y der Norma-

lengleichungen und kann leicht berechnet werden, wenn die Normalengleichungen

in einem Zwischenschritt bestimmt worden sind.

Die bisher gewonnenen abstrakten Ergebnisse sollen fur mehrere Beispiele kon-

kretisiert werden. Es geht dabei eigentlich immer nur darum, die schon bekannten

Formeln in geeigneter Weise umzuschreiben, indem jeweils ubliche inhaltlich gut

brauchbare Kennwerte verwendet werden.

Eine Stichprobe. Das erste Beispiel ist das einer Stichprobe, wobei zum besseren


Nachvollziehen die Situation vom Anfang dieses Abschnittes mit zwei Beobach-

tungen aufgegriffen wird. Hier ist die Designmatrix

X =

(1

1

),

das Produkt X′X ist also die (1× 1)-Matrix (2); die Inverse davon ist (1/2).

Der Parametervektor hat hier nur eine Komponente, namlich den unbekannten

Erwartungswert µ fur die beiden Beobachtungen. Fur einen gegebenen Daten-

vektor y = (y1, y2)′ ist X′y = y1 + y2. Daher ist µ = β = (X′X)−1X′y =

(1/2)(y1 + y2) = y und y = Xβ = (y, y)′.

Sind ganz konkret die beiden Datenwerte gleich 1 und 3, so erhalt man µ = 2

und y = (2, 2)′. Der Vektor y ist also das µ-fache der einzigen Spalte x von X.

Die folgenden beiden schon bekannten Abbildungen illustrieren die Verhaltnisse

aus Feststellung 7 und 8.

1

1............................................................................ ...................

........

........

........

........

........

........

........

....................

...................

.......................................................................................................................

Y1

Y2

x

...................................................................................................................................................................................................................................................................................................................................................................................................................

V

sy ......................py...........

............

............................

1

1............................................................................ ...................

........

........

........

........

........

........

........

....................

...................

.......................................................................................................................................................................................................

..........................................................................................................................................................................................................................

....................................................

...................................................................

Y1

Y2

...................................................................................................................................................................................................................................................................................................................................................................................................................

Vy

y

e

Ganz genauso erhalt man im Falle von n Beobachtungen als Schatzer des Para-

meters µ den Mittelwert y der Beobachtungen, als geschatzten Erwartungswert-

vektor den Vektor (y, . . . , y)′ und als geschatzten Fehlervektor den Vektor e der

Abweichungen der Beobachtungen vom Mittelwert. Die quadrierte Lange von e

ist damit gerade das n-fache der Varianz der Beobachtungen; es gilt also

‖ e‖2 = nS2Y .

Einfache Varianzanalyse. Hier besteht die Designmatrix aus lauter Nullen und

Einsen, die die Zellenzugehorigkeit kodieren. Der Parametervektor besteht aus

den Erwartungswerten µj der Zellen.


Zur Illustration soll noch einmal das Beispiel aus Kapitel 5.1 aufgegriffen werden.

Die Designmatrix und der Parametervektor waren dabei

X =

1 0 0

1 0 0

0 1 0

0 1 0

0 0 1

und β =

µ1

µ2

µ3

.

Gibt es allgemein J Zellen mit jeweils nj Beobachtungen, so hat die j-te Spalte der

Designmatrix gerade nj Einsen, wobei in den zugehorigen Zeilen keine weiteren

Einsen stehen. Die Matrix X′X ist daher die (J × J)-Diagonalmatrix

n1

n2

. . .

nJ

,

deren Inverse man dadurch erhalt, dass man alle Diagonalelemente durch ihre

Kehrwerte ersetzt.

Multipliziert man die j-te Zeile von X′ mit einem Datenvektor y, so werden im

Ergebnis offenbar gerade die y-Werte aus der j-ten Zelle aufsummiert, das Ergeb-

nis ist also nj yj, wobei yj wie ublich den Mittelwert der j-ten Zelle bezeichnet.

Koeffizientenmatrix und rechte Seite der Normalengleichungen sind also

n1

n2

. . .

nJ

und

n1y1

n2y2

...

nJ yJ

.

Die j-te Normalengleichung lautet daher njµj = nj yj, woraus µj = yj folgt; die

nach der Methode der kleinsten Quadrate gewonnenen Schatzer der Erwartungs-

werte µj sind also die entsprechenden Zellenmittelwerte yj.

Der Vektor y enthalt dann an der Stelle irgendeiner Beobachtung yij den Mit-

telwert yj aller Beobachtungen aus dieser Zelle, dieser Vektor ensteht aus y also

dadurch, dass man alle Beobachtungen durch den zugehorigen Zellmittelwert er-

setzt. Entsprechend entsteht folglich der Vektor e aus y dadurch, dass man alle

Beobachtungen ersetzt durch ihre Abweichungen vom jeweiligen Zellenmittelwert.

Man erkennt daraus leicht, dass hier

‖ e‖2 = SSw


gilt; die quadrierte Lange des geschatzten Fehlervektors ist also die Quadratsum-

me innerhalb.

Das Beispiel zeigt deutlich die Vorteile davon, dass hier die Spalten von X or-

thogonal sind: X′X ist eine Diagonalmatrix und die Normalengleichungen lassen

sich unproblematisch losen. Solche Vorteile motivieren das Bestreben, durch ge-

eignete Parametertransformationen orthogonale Spalten in X zu erzeugen und

damit Nullen in der Koeffizientenmatrix der Normalengleichungen.

Einfache lineare Regression. Es soll hier die Version mit der Parametertransfor-

mation behandelt werden; die Designmatrix X besteht also aus dem Vektor 1 und

dem Vektor u der zentrierten Werte des Pradiktors U . Die zugehorigen Parameter

sind der Wert, den die Regressionsfunktion im Mittelwert u der Pradiktorwerte

annimmt und der hier γ heißen soll, sowie die Steigung β der theoretischen Re-

gressionsgerade. Die Anzahl der Beobachtungen sei n.

Die Spalten von X stehen infolge der Parametertransformation senkrecht auf-

einander. Daher ist die Matrix X′X (als Matrix der Skalarprodukte der Spal-

ten von X) eine Diagonalmatrix. Die Diagonalelemente sind <1, 1> = n und

< u, u> = nS2U (S2

U ist die (unkorrigierte) Varianz der Werte von U). Auf der

rechten Seite der Normalengleichungen steht der Vektor X′y, der aus den Ska-

larprodukten der Spalten von X mit y besteht. Fur die erste Komponente ergibt

sich also <1, y> = ny und fur die zweite < u, y> = < u, y> = n KovU,Y

(KovU,Y ist dabei die (unkorrigierte) empirische Kovarianz von U und Y ). Die

Normalengleichungen lauten damit

(n 0

0 nS2U

) (γ

β

)=

(n y

n KovU,Y

),

woraus man durch leichte Umformung

γ = y

S2U β = KovU,Y

erhalt. Fur die geschatzte Steigung ergibt sich also β = KovU,Y /S2U und fur den

geschatzten Parameter γ der Wert γ = y. Damit stimmt die geschatzte Steigung

mit der Steigung der deskriptiven Regressionsgerade uberein, und die geschatzte

Gerade geht im Punkt u durch y. Insgesamt folgt also, dass die geschatzte theo-

retische Regressionsgerade dieselbe ist wie die bekannte Regressionsgerade aus

der deskriptiven Statistik. Da beide Geraden mit Hilfe der Methode der kleinsten

Quadrate gewonnen wurden, war dies Ergebnis naturlich zu erwarten.


Das Beispiel illustriert auch wieder den Vorteil der Parametertransformation: Da

die Matrix X′X eine Diagonalmatrix ist, lasst sich die Losung der Normalen-

gleichungen direkt ablesen. Die geschatzten Parameter konnen in gewisser Weise

unabhangig voneinander berechnet werden. In die Formeln gehen zudem einfache

deskriptive Kennwerte ein.

Interessiert man sich nun fur eine Schatzung α des Achsenabschnitts α, so ist nur

die Umkehrung der Parametertransformation vorzunehmen, und es ergibt sich

α = γ − uβ = y − βu.

Hier stellt sich naturlich die Frage, ob eigentlich ohne Parametertransformation

die gleichen Schatzungen der Parameter α und β des ursprunglichen Modells

herausgekommen waren. Die Antwort ist darauf ist positiv, wie Feststellung 9

zeigt.

Der Vektor y ist der Vektor der geschatzten Erwartungswerte; da die geschatzte

Gerade mit der deskriptiven Regressionsgerade ubereinstimmt, ist er in der de-

skriptiven Sprache der Vektor der zu den jeweiligen U -Werten gehorenden Vor-

hersagen. Der Vektor e hat als Komponenten die Abweichungen der tatsachlichen

Y -Werte von den vorhergesagten, er stimmt also mit dem Vektor der deskriptiven

Vorhersagefehler uberein. Folglich ist hier ‖ e‖2 gleich der n-fachen Varianz der

Vorhersagefehler, oder gleich der n-fachen Schatzfehlervarianz.

Da bekanntlich deskriptiv fur die Korrelation r2 zwischen X und Y , die Schatz-

fehlervarianz S2E und die Varianz S2

Y von Y die Beziehung (1− r2) = S2E/S2

Y gilt,

ergibt sich ‖ e‖2 auch als

‖ e‖2 = n(1− r2)S2Y .

Multiple Regression. Zur Vereinfachung soll wieder eine Parametertransformation

benutzt werden, namlich die schon weiter oben beschriebene, die dazu fuhrt, dass

in der Designmatrix als erstes der Vektor 1 steht und danach die zentrierten

Datenvektoren uj der m Pradiktoren. Analog zur einfachen linearen Regression

erhalt man fur X′X die Matrix

n 0 . . . 0

0... nS

0

,


in der S fur die Kovarianzmatrix der Pradiktoren steht. Wie bei der einfachen

linearen Regression erkennt man auch hier, dass X′y aus der Vektor ist, der aus

dem n-fachen Mittelwert y von Y und den n-fachen Kovarianzen KovUj ,Y der

Pradiktorvariablen Uj mit Y besteht. Die Normalengleichungen lauten daher,

wenn die Regressionsgewichte wieder βj heißen und der neue erste Parameter γ,

folgendermaßen:

n 0 . . . 0

0... nS

0

γ

β1

...

βm

=

n y

n KovU1,Y

...

n KovUm,Y

.

Nach Division durch n erhalt man hier fur die Regressionsgewichte die Normalen-

gleichungen aus der deskriptiven Statistik (der Name dort war also gerechtfertigt)

und als erste Gleichung eine, die besagt, dass sich bei der Regression als Y -Wert

zu den Mittelwerten der Pradiktoren gerade der Mittelwert von Y ergeben soll;

insgesamt ergeben sich also als Schatzungen der theoretischen Parameter die be-

kannten Werte, die in der deskriptiven Statistik zu der optimalen Vorhersage

fuhrten.

Die Bedingung dafur, dass die Gewichte βj und der Y -Achsenabschnitt α ein-

deutig geschatzt werden konnen, ist ubrigens – wie immer – die, dass die Design-

matrix vollen Rang hat, was wiederum gleichwertig damit ist, dass die Vektoren

uj der Pradiktorwerte und der Vektor 1 linear unabhangig sind. Eine weitere

Formulierung der Bedingung ist die, dass die Kovarianzmatrix der Pradiktoren

invertierbar sein soll.

Auch hier ist wieder ‖ e‖2 die n-fache Varianz des deskriptiven Vorhersagefehlers;

daher lasst sich ‖ e‖2 auch hier wieder als

‖ e‖2 = n(1−R2)S2Y

schreiben, wobei R2 die quadrierte multiple Korrelation oder der Determinati-

onskoeffizient ist.

Schatzung parametrischer Funktionen. Nachdem der letzte Abschnitt ge-

zeigt hat, wie die Parameter des Modells geschatzt werden konnen, soll es nun

um die Schatzung parametrischer Funktionen gehen.

Es soll zunachst vorausgesetzt werden, dass die Matrix X vollen Rang besitzt,

so dass das Problem der Identifizierbarkeit nicht auftritt. Wie man mit dem


komplizierteren Fall umgeht, in dem X nicht vollen Rang besitzt, wird spater

angemerkt.

Es sei also eine parametrische Funktion ψc =∑

cjβj = c′β mit Koeffizienten-

vektor c gegeben. Ziel ist es, einen Schatzer fur ψc anzugeben.

Da hier der Parametervektor β identifizierbar ist und durch die Losung β der Nor-

malengleichungen auch erwartungstreu geschatzt wird, liegt es nahe, zur Schat-

zung die βj in der Definition von ψc einfach durch ihre Schatzungen βj zu ersetzen.

Man erhalt auf diese Weise einen moglichen Schatzer von ψc, der ψc heißen soll;

es gilt dann also

ψc =∑

cjβj = c′β .

Der Index c wird spater meistens weggelassen, wenn er nicht zu einer Unterschei-

dung wichtig ist.

Der Erwartungswert dieses Schatzers ist

E(ψc) = E(c′β) = c′E(β) = c′β = ψc ,

da β erwartungstreu fur β ist. Der Schatzer ψc ist also erwartungstreu fur ψc.

Auch die Varianz von ψc kann leicht bestimmt werden: Da die Kovarianzmatrix

von β gleich σ2(X′X)−1 ist, gilt

V(ψc) = V(c′β) = c′V(β)c′′ = c′(σ2(X′X)−1)c = σ2 c′(X′X)−1c .

Als lineare Funktion der multinormalverteilten Variable β ist ψc naturlich auch

normalverteilt.

Zusammengefasst gilt:

Feststellung 10. Hat die Designmatrix von X vollen Rang und ist ψc eine

parametrische Funktion, so erhalt man mit

ψc =∑

cjβj = c′β

einen erwartungstreuen Schatzer von ψc. Dabei gilt

ψc ∼ N(ψc, σ2 c′(X′X)−1c) . ¤

Beispiele fur derartige Schatzer sind die bekannten Kontrastschatzer in der Vari-

anzanalyse. Die einzelnen Komponenten βj des geschatzten Parametervektors β

sind weitere Beispiele.


Vielleicht ist es nicht uberflussig, noch einmal genauer auf den Begriff der Er-

wartungstreue einzugehen. Dass ein Schatzer ψc erwartungstreu fur eine para-

metrische Funktion ψc ist, bedeutet genauer, dass der Erwartungswert von ψcimmer gleich ψc ist, egal, welches die wahren Parameter βj (und σ2) sind. Fur

unterschiedliche Parametervektoren β ergeben sich ja im Allgemeinen auch un-

terschiedliche Werte von ψc; in allen diesen Fallen (von denen naturlich bei Mo-

dellgultigkeit nur einer zutrifft, wobei offen bleibt, welcher) soll aber der Erwar-

tungswert von ψc gleich ψc sein.

Will man ψc bestimmen, muss man nicht unbedingt den Umweg uber β machen,

sondern kann auch unmittelbar die Daten selbst verwenden. Es gilt namlich

ψc = c′β = c′(X′X)−1X′y = (X(X′X)−1c)′ y .

Setzt man a = X(X′X)−1c, so kann man direkt angeben, wie ψc mit Hilfe von y

geschatzt wird:

ψc = a′y .

Die Schatzung erhalt man so als eine Linearkombination der Komponenten von

y, also der Beobachtungen, wobei die Koeffizienten gerade die Komponenten von

a sind.

Den Vektor a = X(X′X)−1c nennt man auch den zu c gehorenden Schatzer-

koeffizientenvektor.

Die auf diese Weise konstruierten Schatzer haben die bemerkenswerte Eigen-

schaft, dass ihre Koeffizientenvektoren a Linearkombinationen der Spalten von

X sind, also Elemente des Unterraums V = Bild(X) der modellvertraglichen Er-

wartungswertvektoren. Aus diesem Grund findet man fur V gelegentlich auch die

Bezeichnung Schatzerraum.

Multipliziert man die Gleichung a = X(X′X)−1c von links mit X′, so erhalt man

die Gleichung

X′a = c ,

die, wie sich noch zeigen wird, zusammen mit der Forderung, dass a im Bild von

X liegen soll, den zu c gehorenden Vektor a bereits vollstandig charakterisiert.

Als Beispiel sollen zwei Schatzer in der Varianzanalyse dienen. Hier sind eine


mogliche Designmatrix mit Parametervektor:

X =

1 0 0

1 0 0

0 1 0

0 1 0

0 0 1

, β =

µ1

µ2

µ3

.

Als erstes soll µ1 geschatzt werden. Da dies eine Komponente von β ist, ist

eigentlich nichts mehr zu tun; der Schatzer fur µ1 ist y1, der Mittelwert der ersten

Zelle. Es soll aber nun auch der Schatzerkoeffizientenvektor ermittelt werden.

Dazu ist zunachst c gleich (1, 0, 0)′, der erste Einheitsvektor.

Die Matrix (X′X) ist die Diagonalmatrix

2 0 0

0 2 0

0 0 1

,

deren Inverse die Diagonalmatrix mit den Kehrwerten in der Diagonale ist. Damit

kann der Schatzerkoeffizientenvektor a = X(X′X)−1c bestimmt werden:

a =

1 0 0

1 0 0

0 1 0

0 1 0

0 0 1

1/2 0 0

0 1/2 0

0 0 1

1

0

0

=

1/2 0 0

1/2 0 0

0 1/2 0

0 1/2 0

0 0 1

1

0

0

=

1/2

1/2

0

0

0

,

ein wohl genau so erwartetes Ergebnis. Offensichtlich liegt der Schatzerkoeffizien-

tenvektor im Bild von X; er ist das (1/2)-fache der ersten Spalte von X.

Das nachste Beispiel ist der’grand mean‘ µ =

∑(nj/n)µj, im Beispiel also

µ = (2/5)µ1 + (2/5)µ2 + (1/5)µ3. Der Vektor c ist hier (2/5, 2/5, 1/5)′ und

das zugehorige a = X(X′X)−1c ergibt sich zu

a =

1/2 0 0

1/2 0 0

0 1/2 0

0 1/2 0

0 0 1

2/5

2/5

1/5

=

1/5

1/5

1/5

1/5

1/5

,

was, wie zu erwarten war, der Koeffizientenvektor fur die Bildung des Mittelwerts

aller Beobachtungen ist.


Die nun gewonnenen Schatzer haben gewisse Optimalitatseigenschaften und be-

kommen daher einen besonderen Namen: Sie heißen Gauß-Markoff-Schatzer (kurz

GM-Schatzer). Durch diese Optimalitatseigenschaften erlangt dann auch das ge-

samte Schatzverfahren uber die Methode der kleinsten Quadrate, das ja im ersten

Moment vielleicht unmotiviert und willkurlich wirkt, eine nachtragliche Recht-

fertigung. (Es gibt ubrigens noch weitere Rechtfertigungen, so die, dass die so

konstruierten Schatzer gleichzeitig die’Maximum-Likelihood-Schatzer‘ sind.)

Es soll noch kurz angedeutet werden, worin die Optimalitat der GM-Schatzer be-

steht. Sie haben die Eigenschaft der Erwartungstreue und sind außerdem linear,

d.h. lineare Funktionen von y, kurz: sie sind lineare erwartungstreue Schatzer.

Man kann nun zeigen, dass sie von allen moglichen linearen erwartungstreuen

Schatzern der zugehorigen parametrischen Funktionen die kleinste Varianz besit-

zen. Sie sind damit sozusagen am genauesten und in diesem Sinne optimal. Die

Optimalitatseigenschaft folgt ubrigens aus der Tatsache, dass der Schatzerkoef-

fizientenvektor in V = Bild(X) liegt.

Fur Interessierte folgen genauere Ausfuhrungen im Anschluss an den Fall einer

Designmatrix mit Rangdefekt.

Als Beispiele zur Erlauterung sollen noch einmal die beiden oben gefundenen

Schatzer fur µ1 und µ in der Varianzanalyse dienen. Den ersten Erwartungs-

wert µ1 konnte man erwartungstreu auch durch die erste Beobachtung schatzen;

der entsprechende Schatzerkoeffizientenvektor ware dann (1, 0, 0, 0, 0)′. Die zu-

gehorige Schatzung ist auch linear, insgesamt hat man also einen alternativen

linearen erwartungstreuen Schatzer fur µ1, der jedoch offensichtlich schlechter ist

als der GM-Schatzer. Man bemerkt ubrigens, dass man den Schatzerkoeffizienten-

vektor des GM-Schatzers erhalt, wenn man den hier untersuchten auf Bild(X)

projiziert.

Fur µ kann man als alternativen erwartungstreuen Schatzer auch die Linearkom-

bination (2/5)y21 + (2/5)y12 + (1/5)y13 wahlen; der Schatzerkoeffizientenvektor

ist dann (0, 2/5, 2/5, 0, 1/5)′. Auch hier ist offenbar der GM-Schatzer uberlegen,

dessen Schatzerkoeffizientenvektor man ebenfalls wieder als Projektion des hier

gegebenen auf Bild(X) erhalt.

Spater wird das Skalarprodukt von Schatzerkoeffizientenvektoren eine wichtige

Rolle spielen. Sind a1 und a2 die Koeffizientenvektoren zu zwei durch c1 und c2


gegebenen parametrischen Funktionen, so gilt

<a1, a2 > = a′1a2 = (X(X′X)−1c1)′(X(X′X)−1c2)

= c′1(X′X)−1X′X(X′X)−1c2

= c′1(X′X)−1c2 .

Insbesondere gilt fur eine durch ein c gegebenen parametrische Funktion mit

zugehorigem Koeffizientenvektor a die Beziehung

‖a‖2 = c′(X′X)−1c ,

womit man einen weiteren Ausdruck fur die Varianz von ψc bekommt, namlich

‖a‖2σ2. Dies erhalt man einerseits durch Einsetzen in den schon hergeleiteten

Ausdruck fur die Varianz, andererseits jedoch auch unmittelbar durch Berech-

nung der Varianz von a′y unter Berucksichtigung der Tatsache, dass die Kovari-

anzmatrix von y das σ2-fache der Einheitsmatrix ist.

Die bisherigen Ergebnisse sollen noch einmal kurz zusammengefasst werden.

Feststellung 11. Hat die Designmatrix von X vollen Rang und ist ψc eine

parametrische Funktion und a = X(X′X)−1c ∈ Bild(X) der zu c gehorende

Schatzerkoeffizientenvektor, so gilt

ψc = a′y .

Die Varianz von ψc kann man dann auch schreiben als ‖a‖2σ2. ¤

Die Verhaltnisse im Fall einer Designmatrix X, die nicht vollen Rang besitzt, sind

etwas komplizierter. Auch hier kann man jedoch fur eine identifizierbare parame-

trische Funktionen ψc einen optimalen erwartungstreuen Schatzer ψc angeben.

Man erhalt ψc, indem man einfach in dem Ausdruck ψc =∑

cjβj die βj durch

irgendeine Losung der Normalengleichungen ersetzt. Auch hier kann man die

Schatzung ψc als lineare Funktion von y schreiben mit einem der Schatzerkoef-

fizientenvektor a, der wieder in Bild(X) liegt. Dieser Schatzerkoeffizientenvektor

heißt dann auch der zu ψc gehorende Schatzerkoeffizientenvektor, und der so er-

haltene Schatzer tragt ebenfalls wieder den Namen GM-Schatzer. Die Varianz

des GM-Schatzers ψc ist dann ‖a‖2 σ2.

Fur besonders Interessierte soll dies nun genauer ausgefuhrt werden. Die Design-

matrix kann bei der folgenden Argumentation vollen Rang besitzen oder auch

nicht.

Wenn ψc identifizierbar ist, dann ist c eine Linearkombination der Spalten von

X′, es gibt also einen Vektor a0 mit der Eigenschaft X′a0 = c. Man kann a0


nun mit der orthogonalen Projektion PV auf V = Bild(X) projizieren und erhalt

damit den Vektor a = PV a0. Da alle Spalten von X im Bild von X liegen, wer-

den sie insbesondere durch PV auf sich selbst abgebildet, was man zur Gleichung

PV X = X oder transponiert X′PV = X′ zusammenfassen kann. Daraus folgt

X′a = X′PV a0 = X′a0 = c; man hat also nun eine Moglichkeit gefunden, c als

Linearkombination X′a der Spalten von X′ zu schreiben mit einem Koeffizien-

tenvektor a ∈ V .

Der Vektor a ist dabei der einzige Vektor aus V mit der Eigenschaft X′a = c,

denn wurde dies fur einen weiteren Vektor a1 gelten, so hatte man X′a = X′a1

oder X′(a− a1) = 0. Der Vektor (a− a1) ware damit senkrecht zu allen Spalten

von X und folglich zu V , musste aber andererseits als Differenz von zwei Vektoren

aus V auch wieder in V liegen, womit man einen Vektor hatte, der senkrecht zu

sich selbst ist und daher nur der Nullvektor sein kann. Es muss also a1 = a gelten,

und a ist tatsachlich der einzige Vektor aus V mit X′a = c.

Hervorzuheben ist, dass die Gleichung

X′a = c

zusammen mit der Forderung, dass a ∈ V gelten soll, den Vektor a eindeutig

charakterisiert. Im Fall einer Designmatrix von vollem Rang erfullt der oben de-

finierte Schatzerkoeffizientenvektor a = X(X′X)−1c offenbar beide Bedingungen

und stimmt folglich mit dem hier definierten a uberein.

Ist nun β = (β1, . . . , βk)′ irgendeine Losung der Normalengleichungen, so gilt

Xβ = y. Bildet man nun die Linearkombination∑

cjβj = c′β, so ist dies wegen

c = X′a auch gleich a′Xβ = a′y. Wegen y = PV y ist a′y = <a, y> wiederum

gleich <a, PV y> = <PV a, y> = <a, y> = a′y; da a in V liegt, gilt ja

PV a = a. Der Wert der Linearkombination∑

cjβj = a′y ist folglich unabhangig

von der speziell gewahlten Losung β, da er ja direkt aus y berechnet werden

kann, und kann den Namen ψc bekommen.

Man erhalt also ψc als∑

cjβj, wobei β = (β1, . . . , βk)′ irgendeine Losung der

Normalengleichungen ist, oder auch als a′y. Der so definierte Schatzer heißt auch

wieder Gauß-Markoff-Schatzer, und es ist klar, dass die Definition fur den Fall

einer Designmatrix von vollem Rang mit der vorigen ubereinstimmt. Auch in dem

Fall, dass die Designmatrix nicht vollen Rang besitzt, kann es sein, dass einige

der βj identifizierbar sind. Fur solche Komponenten sind die (hier eindeutigen)

Losungen der Normalengleichungen dann auch die GM-Schatzer.


Der Erwartungswert von ψc ist

E(ψc) = E(a′y) = a′E(y) = a′Xβ = (X′a)′β = c′β = ψc ,

wobei β jetzt wieder fur den wahren Parametervektor steht. Mit anderen Worten

ist ψc erwartungstreu fur ψc.

Man nennt einen Schatzer ψ einer parametrischen Funktion ψ linear, wenn er

sich in der Form ψ = a′y schreiben lasst fur ein geeignetes a, wenn er also eine

lineare Funktion der Daten ist.

In diesem Sinne sind die GM-Schatzer lineare Schatzer, die außerdem erwartungs-

treu sind. Unter allen linearen erwartungstreuen Schatzern besitzen sie zusatzlich

die oben angedeuteten Optimalitatseigenschaften, wie nun gezeigt werden soll.

Dazu sei ein weiterer linearer erwartungstreuer Schatzer fur ψc gegeben durch

einen Koeffizientenvektor a1. Dieser Schatzer a′1y muss dann fur jeden moglichen

Parameter β den gleichen Erwartungswert haben wie ψc = a′y. Da E(y) = Xβ

gilt, bedeutet dies, dass fur alle β die Werte E(a′1y) = a′1E(y) = a′1Xβ und

E(a′y) = a′E(y) = a′Xβ ubereinstimmen mussen; fur alle β ∈ Rk muss also

a′1Xβ = a′Xβ oder (a1 − a)′Xβ = 0 gelten. Mit anderen Worten muss (a1 − a)

senkrecht zu allen Elementen von V sein, also in V ⊥ liegen.

Insbesondere zeigt sich, dass es in V nur einen Koeffizientenvektor a gibt, mit

dem ψc durch a′y erwartungstreu geschatzt wird.

Setzt man nun weiter d = a1 − a, so gilt a1 = a + d und daher a′1y = a′y + d′y.

Die Kovarianz von a′y und d′y ist a′V(y)d = σ2a′Id = σ2<a, d> = 0, da a in

V und d in V ⊥ liegt. Ebenso berechnet man die Varianz von d′y zu σ2‖d‖2. Da

a′y und d′y Kovarianz 0 haben, gilt fur die Varianz von a′1y die Beziehung

V(a′1y) = V((a + d)′y) = V(a′y + d′y) = V(a′y) + V(d′y) = V(a′y) + σ2‖d‖2 .

Die Varianz von a′1y ist also mindestens so groß wie die von a′y = ψc, wobei

Gleichheit genau dann gilt, wenn d = 0 ist, wenn also a = a1 gilt und die beiden

Schatzer ubereinstimmen. Der GM-Schatzer ψc hat also tatsachlich unter allen

linearen erwartungstreuen Schatzern von ψc = c′β minimale Varianz, die man

schließlich leicht zu ‖a‖2 σ2 errechnet.

Die Ergebnisse konnen nun kurz zusammengefasst werden.

Feststellung 12. Fur jede identifizierbare parametrische Funktion ψc gibt es

genau einen linearen erwartungstreuen Schatzer ψc = a′y, dessen Schatzer-


koeffizientenvektor a in V liegt. Dieser Schatzer hat kleinste Varianz unter allen

linearen erwartungstreuen Schatzern von ψc. Der Vektor a ist dabei durch die

Forderungen X′a = c und a ∈ V eindeutig bestimmt. ¤

Die Schatzer der Feststellung sind offenbar genau die GM-Schatzer.

Ubrigens ist jeder Vektor a aus V Schatzerkoeffizientenvektor einer parametri-

schen Funktion, namlich von ψc mit c = X′a. Diese ist naturlich auch identifi-

zierbar, da ihr Koeffizientenvektor eine Linearkombination der Zeilen von X ist.

Verschiedene Vektoren aus V fuhren dabei auch zu verschiedenen parametrischen

Funktionen, da ja a ∈ V durch c wegen der vorangehenden Feststellung bereits

eindeutig bestimmt ist.

Die GM-Schatzer identifizierbarer parametrischer Funktionen entsprechen auf

diese Weise genau den Vektoren in V , was den Namen Schatzerraum fur V noch

verstandlicher macht.

Schatzung der Varianz. In diesem Abschnitt soll σ2 geschatzt werden. Voraus-

gesetzt ist, dass die (n × k)-Designmatrix X den Rang r hat; die Designmatrix

muss also nicht notwendig vollen Rang besitzen.

Die nach dem Prinzip der kleinsten Quadrate geschatzte Modellvorhersage y

ergab sich als orthogonale Projektion von y auf V = Bild(X), den Schatzerraum.

Der geschatzte Fehler e = y − y lasst sich auch schreiben als e = y − PV y =

(I − PV )y = Qy, wobei PV wie ublich die Projektion auf V bezeichnet. Die

Abbildung Q = I−PV ist dann bekanntlich die orthogonale Projektion auf das

orthogonale Komplement V ⊥ von V . Der geschatzte Fehler e ergibt sich also aus

y durch Projektion auf V ⊥.

Die folgende Abbildung illustriert diesen Sachverhalt an dem schon diskutierten

Beispiel von zwei Beobachtungen im Einstichprobenfall. Links sieht man den

Raum V der modellvertraglichen Erwartungswertvektoren, der vom Vektor x =

(1, 1)′ aufgespannt wird und den Punkt y = (1, 3)′, der die beiden Beobachtungen

zusammenfasst; die Schatzung von y ist auch angedeutet. Rechts erkennt man

die Zerlegung von y in die beiden additiven Komponenten y und e, die sich durch

Projektion auf V und V ⊥ ergeben.


1

1............................................................................ ...................

........

........

........

........

........

........

........

....................

...................

.......................................................................................................................

Y1

Y2

x

...................................................................................................................................................................................................................................................................................................................................................................................................................

V

sy ......................sy...........

............

............................

1

1............................................................................ ...................

........

........

........

........

........

........

........

....................

...................

.......................................................................................................................................................................................................

..........................................................................................................................................................................................................................

....................................................

...................................................................

Y1

Y2

...................................................................................................................................................................................................................................................................................................................................................................................................................

V

......................

......................

......................

......................

......................

......................

......................

......................

......................

......................

......................

......................

......................

......................

......................

......................

...........

V ⊥y

.................................................................

y

e

Den Raum V ⊥, der die Eigenschaft hat, dass der auf ihn projizierte Datenvektor

der geschatzte Fehler e ist, tragt auch den Namen Fehlerraum. Als orthogonales

Komplement des Schatzerraums hat er die Dimension n− r, wenn n die Gesamt-

zahl der Beobachtungen ist und r der Rang der Designmatrix X, der ja mit der

Dimension von V = Bild(X) ubereinstimmt.

Der Erwartungswert von e ist Q(E(y)) = QXβ = 0, da bereits QX die Nullma-

trix ist, denn die Spalten von X liegen ja alle in V und werden daher durch Q

auf 0 abgebildet.

Fur die Verteilung von ‖ e‖2/σ2 ergibt sich daraus bekanntlich

‖ e‖2/σ2 ∼ χ2n−r ,

woraus fur den Erwartungswert von ‖ e‖2/(n− r) die Beziehung

E(‖ e‖2/(n− r)) = E((σ2/(n− r))(‖ e‖2/σ2))

= (σ2/(n− r))E(‖ e‖2/σ2)

= (σ2/(n− r))(n− r)

= σ2

folgt. Man hat also mit der Statistik ‖ e‖2/(n−r) einen erwartungstreuen Schatzer

fur σ2 gefunden.

Der erwartungstreue Schatzer ‖ e‖2/(n− r) soll mit s2 abgekurzt werden.

Feststellung 13. Ist in dem Modell E(y) = Xβ mit n Beobachtungen der Rang

der Designmatrix gleich r und ist V = Bild(X), so ist e die Projektion von y auf

V ⊥. Dabei gilt

‖ e‖2/σ2 ∼ χ2n−r


und mit s2 = ‖ e‖2/(n− r) die Beziehung

E(s2) = σ2 . ¤

Alternativ kann man statt ‖ e‖2/σ2 ∼ χ2n−r auch

‖ e‖2 ∼ σ2χ2n−r

formulieren. Mit s2 kann man diesen Sachverhalt auch als

(n− r)s2/σ2 ∼ χ2n−r oder (n− r)s2 ∼ σ2χ2

n−r

ausdrucken.

Weiter oben wurde fur einige Modelle schon der Wert von ‖ e‖2 bestimmt. Aus

diesen Ergebnissen und aus der letzten Feststellung ergeben sich wohlbekannte

erwartungstreue Schatzungen von σ2: im Einstichprobenfall die korrigierte Stich-

probenvarianz nS2Y /(n−1) = s2 und im Fall der Varianzanalyse SSw/(N −J) =

MSw (wobei den ublichen Bezeichnungen entsprechend N statt n fur den Ge-

samtstichprobenumfang geschrieben wurde).

Da sich y als Projektion von y auf V ergibt, erhalt man y und e aus y durch Pro-

jektion auf zwei Unterraume, die orthogonal sind, namlich auf V und V ⊥. Hieraus

folgt bekanntlich die Unabhangigkeit von y und e, da y ja multinormalverteilt

ist mit Kovarianzmatrix σ2I.

Dies hat folgende wichtige Konsequenz:

Feststellung 14. Die Zufallsvektoren y und e sind unabhangig und damit auch

jede Funktion von y und jede Funktion von e. ¤

Genauer musste es eigentlich’jede messbare Funktion‘ heißen. Praktisch alle in-

teressanten Funktionen sind aber messbar, weshalb diese Einschrankung hier un-

terschlagen wird.

Eine wichtige Folgerung der letzten Feststellung betrifft die GM-Schatzer. Ist

namlich ψc ein solcher Schatzer und a der zugehorige Schatzerkoeffizientenvektor,

so gilt ψc = a′y. Da a im Schatzerraum V liegt, gilt PV a = a, woraus

ψc = a′y = (PV a)′y = a′P′V y = a′(PV y) = a′y

folgt. GM-Schatzer lassen sich also als Funktionen von y schreiben und sind daher

unabhangig von e.


Feststellung 15. Gauß-Markoff-Schatzer parametrischer Funktionen sind von e

und s2 unabhangig. ¤

Tests und Konfidenzintervalle fur parametrische Funktionen. Ziel dieses

Abschnitts ist die Herleitung von Tests und Konfidenzintervallen fur einzelne

parametrische Funktionen.

Zur kompakteren Formulierung von Konfidenzintervallen und Tests ist es sinnvoll,

im Zusammenhang mit den Varianzen parametrischer Funktionen eine Abkurzung

einzufuhren. Zunachst soll der Fall einer Designmatrix mit vollem Rang behan-

delt werden. Die Varianz des GM-Schatzers ψc einer parametrischen Funktion

ψc war hier schon zu c′(X′X)−1cσ2 berechnet worden.

Der an vielen Stellen auftauchende Faktor c′(X′X)−1c in diesem Ausdruch soll

mit |||c‖|2 abgekurzt werden. Die Wurzel |||c‖| daraus soll auch als die X-Norm

von c bezeichnet werden.

Mit dieser Abkurzung gilt dann also

V(ψc) = |||c‖|2 σ2 .

Ist a der zu ψc gehorende Schatzerkoeffizientenvektor, so gilt, wie sich schon oben

gezeigt hat, die Beziehung

‖a‖ = |||c‖| .

Auch im Falle einer Designmatrix, die nicht vollen Rang besitzt, soll fur eine

identifizierbare parametrische Funktion ψc der Ausdruck |||c‖| definiert werden.

Hier gibt es zu ψc genau einen Schatzerkoeffizientenvektor a aus Bild(X). Damit

kann |||c‖| hier mit Hilfe von a als |||c‖| = ‖a‖ definiert werden. Auch hier gilt

dann

V(ψc) = |||c‖|2σ2 .

In jedem Fall ist |||c‖|2s2 eine erwartungstreue Schatzung der Varianz von ψc, da

s2 eine erwartungstreue Schatzung von σ2 ist.

Feststellung 16. Hat die Designmatrix X den Rang r, ist ψc = c′β eine

identifizierbare parametrische Funktion, ψc der zugehorige GM-Schatzer und ψ0

eine reelle Zahl, so hat die Statistik

t =ψc − ψ0

|||c‖| s


eine t-Verteilung mit n − r Freiheitsgraden und dem Nonzentralitatsparameter

δ = (ψc − ψ0)/(|||c‖|σ).

Wegen s2 = ‖ e‖2/(n− r) gilt namlich

ψc − ψ0

|||c‖| s =(ψc − ψ0)/(|||c‖|σ)√

1n−r

(‖ e‖2/σ2).

Hier sind wegen Feststellung 15 Zahler und Nenner unabhangig, der Zahler hat

wegen Feststellung 10 eine Normalverteilung mit Varianz 1 und Erwartungswert

(ψc−ψ0)/(|||c‖|σ), und der Nenner besteht wegen Feststellung 13 aus der Wurzel

einer durch ihre Freiheitsgrade dividierten χ2-verteilten Variablen. Daraus folgt

die Behauptung. ¤

Wie ublich soll im Folgenden fur’Freiheitsgrade‘ die Abkurzung df und fur

’Non-

zentralitatsparameter‘ die Abkurzung NZP gebraucht werden. Außerdem wird

der bisweilen unhandliche Index c bei parametrischen Funkionen nun haufig weg-

gelassen.

Naheliegenderweise bezeichnet man den Nenner |||c‖| s des t-Bruchs auch als Stan-

dardfehler von ψc.

Die Feststellung 16 ist die Grundlage fur das Testen von Hypothesen uber pa-

rametrische Funktionen und fur die Konstruktion von Vertrauensintervallen. Als

erstes soll die Moglichkeit des Testens von Hypothesen behandelt werden.

Feststellung 17. Besitzt die Designmatrix X den Rang r, ist ψ = c′β eine

identifizierbare parametrische Funktion mit GM-Schatzer ψ, und ist ψ0 eine feste

Zahl, so konnen die Hypothesen

H0 : ψ = ψ0

H1 : ψ > ψ0

auf dem Niveau α mit der Statistik

t =ψ − ψ0

|||c‖| sgetestet werden. Die Nullhypothese ist zu verwerfen, falls t ≥ tn−r; α gilt.

Die Abkurzung tn−r; α steht wie ublich fur das α-Fraktil der t-Verteilung mit n−r

df, also fur den Wert, der bei dieser Verteilung rechts α abschneidet.


Die Begrundung ergibt sich unmittelbar aus Feststellung 16, da der NZP unter

H0 den Wert 0 besitzt, womit die Verteilung der Teststatistik eine zentrale t-

Verteilung ist. ¤

Als Nullhypothese hatte man hier auch H0 : ψ − ψ0 ≤ 0 wahlen konnen.

Linksseitige und zweiseitige Fragestellungen testet man ganz analog. Die Gute

(power) der Tests kann mit Hilfe des NZP δ bestimmt werden.

Der t-Bruch hat ubrigens die gewohnte Form einer normalverteilten Variable, die

durch eine unabhangige Schatzung ihrer Streuung dividiert wird.

Es folgen nun Beispiele fur konkrete Probleme.

Einstichprobenfall. Das einfachste Beispiel ist das des Einstichprobenfalls, bei

dem der Erwartungswert der n-mal unabhangig erhobenen Variable Y gleich µ

ist. Getestet werden soll die Nullhypothese H0 : µ = µ0.

Es hat sich schon gezeigt, dass der GM-Schatzer µ gleich dem Mittelwert y der

Beobachtungen ist, wahrend ‖ e‖2 das n-fache der Stichprobenvarianz S2Y ist.

Da hier der Rang der Designmatrix gleich 1 ist, erhalt man als erwartungstreuen

Schatzer der Fehlervarianz gerade die korrigierte Stichprobenvarianz s2. Der Test,

ob µ gleich einem gegebenen µ0 ist, erfolgt daher mit der bekannten Statistik

t =y − µ0

s/√

n,

da hier der Vektor c nur eine einzige Komponente besitzt, namlich eine 1, wahrend

X′X die (1 × 1)-Matrix mit der Zahl n ist, ihre Inverse also aus der Zahl 1/n

besteht, womit sich |||c‖|2 zu 1/n errechnet. Der Standardfehler ist hier der auch

als Standardfehler des Mittelwerts bezeichnete Wert s/√

n.

Unter H0 hat die Teststatistik eine tn−1-Verteilung.

Einfache lineare Regression. Die Fragen, die sich bei der einfachen linearen Re-

gression stellen, sind als erstes die nach dem Regressionsgewicht und nach dem

Achsenabschnitt der theoretischen Regressionsgerade. Hier soll zunachst allge-

mein ein Test angegeben fur die Frage angegeben werden, ob das Regressionsge-

wicht 0 ist. Danach wird in einem konkreten Beispiel auch noch der Achsenab-

schnitt untersucht.

Es soll also getestet werden, ob die Steigung β der Geraden, die den Erwartungs-

wert von y in Abhangigkeit von der unabhangigen Variable U liefert, gleich 0 ist.


Nach der Parametertransformation, die durch das Zentrieren der unabhangigen

Variable U bewirkt wird, und die zu den neuen Parametern γ (Erwartungswert

von y an der Stelle u) und β fuhrt, erhalt man fur X′X die Matrix

(n 0

0 nS2U

),

deren Inverse (X′X)−1 offenbar gleich

1

n

(1 0

0 1/S2U

)

ist.

Den gewunschten Parameter β erhalt man mit Hilfe des Koeffizientenvektors

c = (0, 1)′ als parametrische Funktion ψ. Fur |||c‖|2 erhalt man damit den Wert

1/(nS2U). Fur den Fehler gilt ‖ e‖2 = n(1− r2

U,Y )S2Y , woraus die Beziehung

s2 =n (1− r2

U,Y ) S2Y

(n− 2)=

n

(n− 2)(1− r2

U,Y ) S2Y

folgt, denn der Rang der Designmatrix ist hier 2. Die Schatzung s2 ist damit das

(n/(n−2))-fache der aus der deskriptiven Statistik bekannten Schatzfehlervarianz.

Der Standardfehler von β berechnet sich daher zu

|||c‖| s =

√1

nS2U

n(1− r2U,Y )S2

Y

(n− 2)=

√(1− r2

U,Y )

(n− 2)

SY

SU

Die Schatzung ψ = β der Steigung kann bekanntlich auch als rU,Y SY /SU ge-

schrieben werden. Schließlich ist ψ0 hier 0. Damit erhalt man als Teststatistik die

Statistik

t =β

|||c‖| s =rU,Y SY /SU√(1− r2

U,Y )

(n− 2)

SY

SU

=√

n− 2rU,Y√

(1− r2U,Y )

,

die unter H0 eine tn−2-Verteilung besitzt.

Die Statistik sieht ubrigens genauso aus wie die, mit der man testet, ob die theo-

retische Korrelation zwischen einer Variablen U und Y gleich 0 ist (bei entspre-

chenden Verteilungsannahmen). Den hier besprochenen Test kann man allerdings


nicht als einen ansehen, der eine theoretischen Korrelation testet, da ja die Va-

riable U gar keine Zufallsvariable ist, und daher eine theoretische Korrelation

zwischen U und Y auch gar nicht definiert ist. Man kann jedoch das ALM um

Annahmen erweitern, die dann auch diesen Fall mit umfassen.

Der Test, ob das Regressionsgewicht 0 ist, soll nun an einem Beispiel durchgefuhrt

werden, das auch spater gelegentlich benutzt wird. In diesem Beispiel nimmt die

Variable U die Werte −1, 0, 1, 2, 3, 4, 5 an, die zugehorigen Werte von Y sind

2,−1, 2, 3, 4, 3, 8.

Die Daten sind in der folgenden Abbildung dargestellt.

1

1......................................................................................................................................................................................................................................... ..........................................................................................................................................................................................................................................................................................................................................................................................

u

y

sss ss s

s

An diesem Beispiel sollen auch einige bis jetzt eingefuhrte Konzepte noch einmal

illustriert werden; außerdem sollen fur spatere Zwecke schon bestimmte Kenn-

werte bestimmt werden. Daher wird das Beispiel viel ausfuhrlicher behandelt, als

es fur den Test, ob β gleich 0 ist, notig ware. Das Beispiel soll auch das Vorgehen

im allgemeinen Fall verdeutlichen, weshalb zum Teil so gerechnet wird, als waren

die speziellen, gerade hergeleiteten Formeln noch nicht bekannt.

Nach der ublichen Umparametrisierung, die die zentrierten Werte von U benutzt

und als Parameter neben der Steigung β den Wert γ besitzt, der angibt, welchen

Wert die Regressionsgerade an der Stelle u = 2 annimmt, ist die Designmatrix


gleich

X =

1 −3

1 −2

1 −1

1 0

1 1

1 2

1 3

.

Fur die Normalengleichungen erhalt man daraus

X′X =

(7 0

0 28

)und x′y =

(21

28

),

was sofort zu den Losungen γ = 3 und β = 1 fuhrt; fur α = γ − uβ bekommt

man den Wert 3− 2 = 1. Die geschatzte (theoretische) Regressionsgerade ist also

y = u + 1.

Naturlich ist dies die gleiche Gerade wie die, die man mit den bekannten Formeln

erhalt; die notigen Kennwerte berechnet man leicht zu u = 2, S2U = 4, y = 3,

S2Y = 44/7 = 2.588, KovU,Y = 4 und rUY =

√7/11 = 7977.

Die folgende Graphik zeigt die Punktwolke und die geschatzte Regressionsgerade.

1

1......................................................................................................................................................................................................................................... ..........................................................................................................................................................................................................................................................................................................................................................................................

u

y

sss ss s

s

...................................................................................................................................................................................................................................................................................................................................................................................................................

Fur y und e = y − y errechnet man die Vektoren (0, 1, 2, 3, 4, 5, 6, 7)′ und

(2,−2, 0, 0, 0,−2, 2)′. Diese Vektoren enhalten naturlich die vorhergesagten Wer-

te und die Abweichungen der tatsachlichen Werte von den vorhergesagten und

konnen daher auch direkt aus der letzten Abbildung abgelesen werden.

Hieraus folgt ‖ e‖2 = 16 und s2 = ‖ e‖2/(7− 2) = 16/5 = 3.2, was man naturlich


auch mit der Formel s2 = n(1− r2UY )S2

y/(n− 2) erhalt. Dies ist auch das (7/5)-

fache der deskriptiven Schatzfehlervarianz 16/7.

Der Koeffizientenvektor c der parametrischen Funktion β ist hier c = (0, 1)′. Zur

Bestimmung von |||c‖| und zur Bestimmung des zu c gehorenden Schatzerkoeffizien-

tenvektors a berechnet man zunachst

(X′X)−1 =1

28

(4 0

0 1

)und X(X′X)−1 =

1

28

4 −3

4 −2

4 −1

4 0

4 1

4 2

4 3

.

Hieraus ergibt sich |||c‖|2 zu c′(X′X)−1c = 1/28 und der Schatzerkoeffizientenvek-

tor a zu X(X′X)−1c = (1/28)(−3,−2,−1, 0, 1, 2, 3)′. Man kontrolliert leich nach,

dass einerseits β = a′y und andererseits |||c‖|2 = ‖a‖2 gilt.

Damit ergibt sich der Standardfehler von β zu

|||c‖| s =√

1/28√

16/5 =√

4/35 = .338 .

Nun berechnet man die t-Statistik zum Test, ob β gleich 0 ist, leicht zu

t =β − 0

|||c‖| s =1√4/35

=√

35/4 = 2.958 .

Naturlich erhalt man dieselbe Zahl direkt mit der oben hergeleiteten Formel:

t =√

n− 2rU,Y√

(1− r2U,Y )

=√

5

√7/11√

1− 7/11=√

5√

7/4 =√

35/4 .

Fur einen zweiseitigen Test auf dem 5%-Niveau ist dies t zu vergleichen mit

t5; .025 = 2.5706. Das Ergebnis ist also signifikant.

Zusatzlich soll noch die power des Tests bestimmt werden. Dies ist naturlich nur

moglich, wenn man die wahren Werte der Parameter kennt. Oft hat man immer-

hin Vermutungen uber diese wahren Werte und kann dann diese Vermutungen

zur Grundlage machen. In diesem Fall moge es so sein, dass man vermutet, dass


die wahre Regressionsgerade y = u + 2 ist und σ2 gleich 4. Es gilt dann also

β = 1. Damit errechnet man den NZP des Tests zu

δ =β − 0

|||c‖|σ =1√

1/28√

4=√

7 = 2.646 .

Mit geeigneten Hilfsmitteln ergibt sich damit bei 5 df eine power von .5678.

Nun soll noch getestet werden, ob der Achsenabschnitt α gleich 0 ist. Man leitet

auch fur diese Frage leicht eine spezielle Formel her, hier soll jedoch das Vorgehen

im allgemeinen Fall illustriert werden.

Nach der Umparametrisierung ist α eine parametrische Funktion der beiden Pa-

rameter γ und β, namlich γ − uβ, hier γ − 2 β. Der Koeffizientenvektor ist also

c = (1,−2)′. Damit errechnet man einerseits |||c‖|2 zu 8/28 = 2/7, und anderer-

seits den zugehorigen Schatzerkoeffizientenvektor a zu (1/28)(10, 8, 6, 4, 2, 0,−2)′.Zur Kontrolle findet man, das auch ‖a‖2 gleich 224/(28)2 = 2/7 ist. Außerdem

erhalt man mit a′y = 28/28 = 1 die gleiche Schatzung von α wie oben.

Der Standardfehler von α ist damit

|||c‖| s =√

2/7√

16/5 =√

32/35 = .956 .

Die Statistik zum zweiseitigen Test, ob α = 0 gilt, ist so schließlich

t =α− 0

|||c‖| s =1√

32/35=

√35/32 = 1.0458 ,

was bei 5 Freiheitsgraden auf dem 5%-Niveau nicht signifikant ist.

Auch hier kann unter den gleichen Voraussetzungen wie beim ersten Test die

power bestimmt werden. Fur δ erhalt man jetzt den Wert δ = (2−0)/(√

2/7√

4) =√7/2 = 1.871 und daraus die power .3304.

Multiple Regression. Hier soll beispielsweise getestet werden, ob ein bestimmtes

theoretisches Regressionsgewicht βj gleich Null ist. Die unabhangigen Variablen

seien U1, . . . , Um, und das Modell sei wie ublich so umparametrisiert, dass diese

Variablen zentriert sind. Die Parameter sind dann der Wert γ, den die Regressi-

onsfunktion im Zentroid der unabhangigen Variablen annimmt, und die Regres-

sionsgewichte βj. Es sei vorausgesetzt, dass die Designmatrix den vollen Rang


m + 1 besitzt. Fur X′X hatte sich oben schon die Matrix

n 0 . . . 0

0... nS

0

ergeben (S ist die Kovarianzmatrix der Pradiktoren), von der man leicht einsieht,

dass ihre Inverse (X′X)−1 die Gestalt

1

n

1 0 . . . 0

0... S−1

0

besitzt. Will man nun testen, ob das j-te Regressionsgewicht gleich 0 ist, so ist

zunachst dessen Schatzer zu bestimmen. Der Koeffizientenvektor c fur diesen

Schatzer ist der (j +1)-te Einheitsvektor ej+1 (man beachte, dass an erster Stelle

im Parametervektor γ steht). Fur den Wert |||c‖|2 = c′(X′X)−1c ergibt sich damit

das (1/n)-fache des j-ten Diagonalelements von S−1, das hier mit sjj (Indizes

stehen oben) bezeichnet sei. Fur ‖ e‖2 hatte sich der Wert n(1−R2)S2Y ergeben,

der hier durch die Anzahl (n−m− 1) der Nennerfreiheitsgrade zu dividieren ist;

damit erhalt man

s2 =n (1−R2) S2

Y

(n−m− 1)=

n

(n−m− 1)(1−R2) S2

Y ,

hier ist also s2 das (n/(n−m− 1))-fache der deskriptiven Schatzfehlervarianz.

Als Standardfehler von βj erhalt man so

|||c‖| s =

√sjj

n

√n(1−R2)S2

Y

(n−m− 1)=

√sjj (1−R2) S2

Y

(n−m− 1).

Dies fuhrt schließlich zu der Teststatistik

t =βj√

sjj (1−R2) S2Y

(n−m− 1)

=√

n−m− 1βj√

sjj (1−R2) SY

,

die unter H0 eine t-Verteilung mit n−m− 1 Freiheitsgraden besitzt.


Anzumerken ist noch, dass man gelegentlich man auch Formeln findet, in denen

nicht auf die der Kovarianzmatrix der Pradiktoren, sondern auf deren Korrelati-

onsmatrix Bezug genommen wird. Ist rjj das j-te Diagonalelement der Inversen

der Korrelationsmatrix und Sj die Streuung von Uj, so zeigt man leicht die Be-

ziehung sjj = rjj/S2j . Dies ergibt mit einer leichten Umformung

t =√

n−m− 1βj(Sj/SY )√rjj(1−R2)

.

Der Zahler βj(Sj/SY ) kann hier auch als (empirisches) j-tes Regressionsgewicht

nach z-Standardisierung aller beteiligter Variablen interpretiert werden; da Re-

gressionsgewichte nach einer solchen Standardisierung leichter in ihrer Große in-

terpretierbar sind, hat sich in der Praxis fur diesen Zahler ein besonderer Name

eingeburgert, der (unglucklicherweise) βj ist.

Varianzanalyse. Bei der einfaktoriellen Varianzanalyse mit J Gruppen von je-

weils nj Versuchspersonen (∑

nj = n) hatte sich fur X′X oben die (J × J)-

Diagonalmatrix

n1

n2

. . .

nJ

ergeben, deren Inverse (X′X)−1 wieder eine Diagonalmatrix ist, namlich

1/n1

1/n2

. . .

1/nJ

.

Die parametrische Funktion ψ mit dem Koeffizientenvektor c hat hier die Gestalt

ψ =∑

cjµj. Als Schatzer fur die µj hatten sich die entsprechenden Mittelwerte

yj ergeben, und fur ‖ e‖2 die Quadratsumme innerhalb SSw. Die Designmatrix

hat hier J linear unabhangige Spalten, weshalb die Zahl der Freiheitsgrade gleich

N−J ist und sich folglich s2 zu SSw/(N−J) = MSw errechnet (dem gewohnten

Gebrauch folgend wird hier N statt n geschrieben). Den Wert |||c‖|2 errechnet

man wieder uber c′(X′X)−1c, was hier offensichtlich gleich∑

c2j/nj ist. Der Test,

ob ψ gleich einem vorgegebenen Wert ψ0 ist, wird daher mit der Statistik

t =ψ − ψ0

|||c‖|√MSw

=

∑cj yj − ψ0√

(∑

c2j/nj) MSw


durchgefuhrt, die unter H0 eine tn−J -Verteilung besitzt.

Als Spezialfalle erhalt man die bekannten Formeln fur die Kontraste. Daruber

hinaus muss hier ψ nicht der Bedingung∑

cj = 0 (die ja die Kontraste definiert)

genugen. Es ist also auch moglich, Hypothesen uber den’grand mean‘ µ zu for-

mulieren und zu testen (hier ist c = (n1/n, . . . , nJ/n)′), ebenso auch zum Beispiel

uber einzelne µj (hier ware c gleich dem entsprechenden Einheitsvektor).

Im Fall von zwei Gruppen pruft man leicht nach, dass man fur den Test, ob

µ1 = µ2 gilt, ob also die parametrische Funktion µ2−µ1 gleich 0 ist, den bekannten

Zweistichproben-t-Test erhalt.

Zum Abschluss sei vermerkt, dass die Tests der bisherigen Beispiele immer als

Einzeltests gemeint sind; fuhrt man mehrere solcher Tests auf einmal durch, so

hat man sich Gedanken uber die α-Adjustierung zu machen.

Setzt man fur eine identifizierbare parametrische Funktion ψ = ψc in Feststellung

16 fur ψ0 den wahren Wert ψ der parametrischen Funktion ein, so erhalt man die

Aussage, dassψ − ψ

|||c‖| seine t-Verteilung mit (n − r) df besitzt (r war der Rang der Designmatrix). Es

folgt, dass die Wahrscheinlichkeit

P

(∣∣∣∣∣ψ − ψ

|||c‖| s

∣∣∣∣∣ < tn−r; α/2

),

dass der Betrag dieser Statistik kleiner als das α/2-Fraktil der tn−r-Verteilung ist,

gerade gleich (1− α) betragt. Das Ereignis, von dem hier die Wahrscheinlichkeit

berechnet wird, kann man gleichbedeutend mit der Abkurzung k := tn−r; α/2 auch

so ausdrucken:∣∣∣∣∣ψ − ψ

|||c‖| s

∣∣∣∣∣ < k ⇔ |ψ − ψ| < k · |||c‖| s

⇔ ψ ∈(ψ − k · |||c‖| s, ψ + k · |||c‖| s

).

Dies fuhrt unmittelbar zur nachsten Feststellung:

Feststellung 18. Ist ψ = c′β eine parametrische Funktion mit GM-Schatzer ψ,

so ist (ψ − tn−r; α/2 |||c‖| s , ψ + tn−r; α/2 |||c‖| s

)


ein Vertrauensintervall fur ψ zum Niveau 1− α. ¤

Die halbe Breite des Vertrauensintervalls ist also das Produkt des kritischen Wer-

tes der zugehorigen t-Verteilung mit dem Standardfehler von ψ.

Man erkennt sofort, dass der ubliche Zusammenhang zwischen Vertrauensin-

tervallen und entsprechenden Tests besteht: Testet man auf dem α-Niveau die

Hypothesen H0 : ψ = ψ0 und H1 : ψ 6= ψ0 mit dem Verfahren aus Feststel-

lung 17, so wird die Nullhypothese genau dann verworfen, wenn das (1 − α)-

Vertrauensintervall fur ψ den Wert ψ0 nicht enthalt.

Es folgen zwei Beispiele aus der einfachen linearen Regression:

Zunachst soll ein Vertrauensintervall fur die Steigung β der wahren Regressionsge-

raden angegeben werden. Der Standardfehler von β wurde oben schon bestimmt.

Als Vertrauensintervall ergibt sich damitβ − tn−2; α/2

√1− r2

U,Y√n− 2

SY

SU

, β + tn−2; α/2

√1− r2

U,Y√n− 2

SY

SU

.

Im Beispiel von S.74ff war der Standardschatzfehler von β gleich .338; mit t5; .025 =

2.5706 und β = 1 erhalt man hier als 95%-Vertrauensintervall fur β das Intervall

(1− 2.57 · 0.338, 1 + 2.57 · 0.338) = (.131, 1.869) ,

das ubrigens die 0 nicht enthalt, entsprechend der Tatsache, dass der Test, ob β

gleich 0 ist, auf dem 5%-Niveau nicht signifikant wurde.

Als nachstes soll ein Vertrauensintervall fur den Erwartungswert E(y) bei ei-

nem vorgegebenen Wert u der unabhangigen Variable U ermittelt werden. Dieser

Erwartungswert ist gleich βu + α. Druckt man dies in den Parametern β und

γ = βu + α nach der Umparametrisierung aus, so ist dieser Erwartungswert

wegen α = γ − βu gleich βu + γ − βu = β(u − u) + γ. Dies ist eine para-

metrische Funktion ψ des Parametervektors (γ, β)′ mit dem Koeffizientenvektor

c = (1, (u− u))′. Da die Matrix (X′X)−1 hier gleich

1

n

(1 0

0 1/S2U

)

ist, folgt|||c‖|2 = c′(X′X)−1c

=1

n+

(u− u)2

nS2U

=1

n

((u− u)2

S2U

+ 1

).


Berucksichtigt man noch s2 = n(1− r2U,Y )S2

Y /(n− 2), so ergibt sich hier fur den

Standardfehler |||c‖| s der Wert

√((u− u)2

S2U

+ 1

) √(1− r2

U,Y ) S2Y

(n− 2)=

√((u− u)2

S2U

+ 1

)s√n

.

Der zweite Faktor s/√

n hangt dabei nicht von u ab.

Der Standardfehler ist noch mit tn−2; α/2 zu multiplizieren, um zur halben Breite

des Vertrauensintervalls zu gelangen, das naturlich im geschatzten Wert βu+α =

β(u− u) + γ zu zentrieren ist.

Dies Vertrauensintervall ist damit gleich

((βu + α) − tn−2; α/2 |||c‖| s , (βu + α) + tn−2; α/2 |||c‖| s

).

Wie man sieht, ist die Breite des Vertrauensintervalls nicht konstant, sondern

hangt von dem betrachteten Wert u von U ab. Am kleinsten ist sie fur u = u.

Hier ist der Standardfehler dann s/√

n.

Zu bemerken ist ferner, dass hier nur ein Vertrauensintervall an einer festen

Stelle u gebildet wird. Mochte man mehrere Vertrauensintervalle oder gar be-

liebig viele Vertrauensintervalle zu wechselnden Werten von U bilden, so hat

man Uberlegungen zur Adjustierung anzustellen.

Es sollen nun fur das Beispiel von S.74ff zwei 95%-Vertrauensintervalle fur E(y)

gebildet werden (ohne Adjustierung). Als Werte fur U soll einmal der Wert u = 2

gewahlt werden, fur den das Intervall ja die kleinste Breite besitzt, und einmal der

Wert 0, womit man dann gleichzeitig ein Vertrauensintervall fur α konstruiert.

In beiden Fallen benotigt man den Faktor s/√

n, der hier gleich√

3.2/7 = .676

ist. Fur u = u = 2 ist der erste Faktor in dem Ausdruck fur den Standardfehler

gleich 1, so dass .676 bereits der Standardfehler ist. Wegen t5; .025 = 2.5706 und

ψ = α + 2β = 1 + 2 · 1 = 3 erhalt man als 95%-Vertrauensintervall fur den

Erwartungswert von y an der Stelle u = 2 das Intervall

(3− 2.5706 · 0.676, 3 + 2.5706 · 0.676) = (1.262, 4.738) .

Im Falle u = 0 ist der Standardfehler des gerade behandelten Falls noch mit dem

Faktor√

(u− u)2/S2U + 1 =

√(0− 2)2/4 + 1 =

√2 = 1.414 zu multiplizieren,


der gleich .956 ist. Mit α = 1 ergibt sich daher als 95%-Vertrauensintervall fur α

das Intervall

(1− 2.5706 · 0.956, 1 + 2.5706 · 0.956) = (−1.458, 3.458) ,

das die Null enthalt, enstprechend der Tatsache, dass ja hier der Test von α = 0

auf dem 5%-Niveau nicht signifikant wurde.

Bisher wurden Intervalle fur Erwartungswerte von Y bei festen Werten u von U

gebildet. Manchmal mochte man jedoch ein Intervall haben, in dem sich der Wert

einer zufallig zu ziehenden Versuchsperson mit dem Wert u in der Variable U mit

der Wahrscheinlichkeit (1 − α) aufhalten wird (Vorsicht: diese Formulierung ist

nicht ganz zulassig, es handelt sich sozusagen um ein zusammengesetztes Expe-

riment, bei dem zuerst aufgrund einer ersten Stichprobe die Parameter geschatzt

werden und dann eine zusatzliche Person gezogen wird).

Als Erganzung soll nun ein solches Intervall bestimmt werden, das dann den

Namen (1− α)-Vorhersageintervall bekommen soll.

Man hat also zwei unabhangige Experimente, eines, in dem man die Parameter

schatzt, und ein weiteres, in dem eine Person mit einem bestimmten Wert u

von U zufallig gezogen wird. Als Ergebnis des ersten Experiments erhalt man

eine Schatzung ψ des unbekannten Erwartungswertes ψ = βu + α an der Stelle

U = u, die N(ψ, |||c‖|2σ2)-verteilt ist. Fur das Ergebnis y des zweiten Teils des

Experiments gilt y ∼ N(βu + α, σ2).

Bildet man nun die Variable y − ψ, so ist auch diese wegen der Unabhangigkeit

von ψ und y normalverteilt, und zwar mit Erwartungswert βu + α − ψ = 0 und

Varianz (|||c‖|2 + 1) σ2. Die Variable

x = (y − ψ)

/√|||c‖|2 + 1

hat folglich eine N(0, σ2)-Verteilung.

Da s2 von ψ unabhangig ist, ist auch v = (n−2)s2 von y− ψ unabhangig. Außer-

dem besitzt v eine σ2χ2n−2-Verteilung. Insgesamt folgt, dass x/s = x/

√v/(n− 2)

eine tn−2-Verteilung hat.

Setzt man wieder k = tn−2; α/2, so folgt P(|x/s| < k) = 1 − α. Das Ereignis

|x/s| < k ist gleichbedeutend mit

|y − ψ| < k

√|||c‖|2 + 1 s ,


woraus

P

(ψ − k s

√|||c‖|2 + 1 < y < ψ − k s

√|||c‖|2 + 1

)= 1− α

folgt.

Setzt man fur |||c‖| und s die schon hergeleiteten Ausdrucke ein, so erhalt man

das angestrebte Gesamtergebnis, dass die Wahrscheinlichkeit, dass sich y in dem

Intervall um ψ mit der halben Breite

tn−2; α/2

√((u− u)2

S2U

+ n + 1

)(1− r2

U,Y )S2Y

n− 2

aufhalt, gerade gleich 1 − α ist. Dies Intervall ist also das gewunschte (1 − α)-

Vorhersageintervall.

Die halbe Intervallbreite kann auch wieder als

tn−2; α/2

√((u− u)2

S2U

+ n + 1

)s√n

geschrieben werden; alternativ auch als

tn−2; α/2

√(1 +

1

n+

(u− u)2

n S2U

)s ,

was hier vielleicht naheliegender ist, da so die halbe Intervallbreite als Vielfaches

der geschatzten Fehlerstreuung s geschrieben wird.

Der Unterschied zu dem oben hergeleiteten Vertrauensintervall fur den Erwar-

tungswert von y an der Stelle u liegt darin, dass der Summand 1 unter der Wurzel

hier durch n + 1 ersetzt ist, was – nicht unerwartet – zu einer Verbreiterung des

Intervalls fuhrt.

Zum Vergleich mit den oben fur das Beispiel von S.74ff konstruierten Vertrau-

ensintervallen fur die Erwartungswerte von y fur u = 2 und u = 0 sollen nun die

entsprechenden 95%-Vorhersageintervalle angegeben werden.

Die Werte fur s/√

n = .676 und t5; .025 = 2.5706 sind schon bekannt. Es bleibt

noch der dritte Faktor zu bestimmen, fur den sich im Fall u = 2 und u = 0 die

Werte√

0 + 7 + 1 =√

8 = 2.828 und√

(0− 2)2/4 + 7 + 1 =√

9 = 3 ergeben.

Die beiden Vorhersageintervalle sind daher

(3− 2.5706 · 2.828 · 0.676, 3 + 2.5706 · 2.828 · 0.676 = (−1.914, 7.914)


und

(1− 2.5706 · 3 · 0.676, 1 + 2.5706 · 3 · 0.676) = (−4.213, 6.213) .

In der Tat sind diese Intervalle breiter als die Vertrauensintervalle fur die Erwar-

tungswerte. Die Interpretation der konkreten Intervalle ist nicht unkompliziert.

Man muss darauf hinweisen, dass ein solches Intervall nach einem Verfahren kon-

struiert wurde, das, wenn noch ein weiterer Wert y fur Y an der Stelle u un-

abhangig erhoben wird, insgesamt mit Wahrscheinlichkeit 1 − α eine Situation

liefert, in der der Wert y in dem Vorhersageintervall enthalten ist.

Die Aussage, dass ein konkretes Vorhersageintervall mit einer Wahrscheinlichkeit

von 1 − α einen weiteren zufallig erhobenen Wert enthalten wird, ist hingegen

Unsinn (jedenfalls im Rahmen der klassischen Statistik).

Zur Illustration sind in der folgenden Darstellung der Daten mit der Regressions-

geraden die beiden Vertrauensintervalle und die beiden Vorhersageintervalle ein-

gezeichnet. Die Vorhersageintervalle sind durch die breiteren Linien abgegrenzt.

Man sieht, dass die Intervalle großer werden, wenn man sich vom Mittelwert

2 von U entfernt, außerdem, dass die Vorhersageintervalle großer sind als die

Vertrauensintervalle.

1

1

......................................................................................................................................................................................................................................... ...........................

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

....................

...................

u

y

sss ss s

s

...................................................................................................................................................................................................................................................................................................................................................................................................................

...............

...............

...............

...............

...............

................

...............

...............

...............

...............

...............

...............

................

...............

...............

...............

...............

...............

...............

...............

................

...............

...............

...............

........

...........................................

...........................................

......................

......................

................

...............

................

................

...............

................

...............

................

...............

................

...............

................

...............

................

...............

................

...............

................

................

...............

................

...............

........

...........................................

...........................................

......................

......................

Bei der multiplen Regression kann man leicht entsprechende Formeln fur Vertrau-

ensintervalle fur Parameter und Erwartungswerte von y fur vorgegebene Werte

der Pradiktoren herleiten, ebenso fur Vorhersageintervalle.


Der Vollstandigkeit halber sollen auch diese Formeln angegeben werden. Die An-

zahl der Pradiktoren sei wieder m und ihre Kovarianzmatrix S sei invertierbar.

Zunachst galt hier

s =

√n (1−R2) S2

Y

(n−m− 1)=

√n

(n−m− 1)

√(1−R2) SY .

Mit dem schon oben bestimmten Wert fur |||c‖| zu βj erhalt man als (1 − α)-

Vertrauensintervall fur das Regressionsgewicht βj das Intervalle um βj mit halber

Breite

tn−m−1; α/2

√sjj (1−R2) S2

Y

(n−m− 1),

wo sjj wieder das j-te Diagonalelement der Matrix S−1 ist.

Hier wird ubrigens ein wesentlicher Nachteil der Multikollinearitat deutlich, die

ja dann auftritt, wenn die Pradiktoren hohe Korrelationen haben. In diesem Fall

hat die Matrix S oft kleine Eigenwerte, und da die Eigenwerte von S−1 die Kehr-

werte der Eigenwerte von S sind, mussen sich in der Diagonale von S−1 dann

einige große Zahlen befinden – einige der sjj sind dann also ziemlich groß. Es

folgt, dass die Vertrauensintervalle der zugehorigen βj ziemlich groß werden, was

wiederum bedeutet, dass diese Regressionsgewichte nur sehr ungenau geschatzt

werden konnen.

Fur das Vertrauensintervall fur den Erwartungswert von y an der Stelle u be-

rechnet man zunachst |||c‖|2 zu

|||c‖|2 =1

n

(1 + (u− u)′S−1(u− u)

).

Hierbei ist u naturlich der Mittelwertvektor der Pradiktoren. Ubrigens ist der

Ausdruck (u − u)′S−1(u − u) gerade die quadrierte Mahalanobisdistanz von u

zum Zentroid u.

Als (1 − α)-Vertrauensintervall fur den Erwartungswert von y an der Stelle u

erhalt man so das Intervall um den geschatzten Erwartungswert β′u + α mit der

halben Breite

tn−m−1; α/2

√(1 + (u− u)′S−1(u− u)) (1−R2) S2

Y

(n−m− 1),

die man alternativ auch als

tn−m−1; α/2

√1 + (u− u)′S−1(u− u)

s√n


schreiben kann. Setzt man speziell u = 0, so erhalt man ein Vertrauensintervall

fur die Konstante α.

Als (1−α)-Vorhersageintervall fur einen neuen Wert von y an der Stelle u ergibt

sich schließlich das Intervall um β′u + α mit der halben Breite

tn−m−1; α/2

√1 +

1 + (u− u)′S−1(u− u)

ns .

Bemerkenswert ist bei den letzten Formeln, dass die Abhangigkeit der Intervall-

breiten von u in Form einer Abhangigkeit von der quadrierten Mahalanobisdi-

stanz (u− u)′S−1(u− u) von u zu u auftritt.

Tests und Konfidenzbereiche fur mehrdimensionale parametrische Funk-

tionen. Oft interessiert man sich nicht isoliert fur nur einen Parameter oder eine

parametrische Funktion, sondern mochte mehrere Parameter oder Funktionen auf

einmal untersuchen. In einem solchen Fall konnen Konfidenzbereiche eine sinn-

volle Alternative zu isolierten Konfidenzintervallen sein (bei denen gegebenenfalls

das Niveau zu adjustieren ist).

Als einfaches Beispiel soll die einfache lineare Regression dienen. Hier kann es

sein, dass man sich nicht nur isoliert fur den Achsenabschnitt α und die Steigung

β interessiert, sondern fur beide Parameter auf einmal. Daruber hinaus konnen

auch noch Schatzungen des Erwartungswerts von y fur viele Werte des Pradiktors

U wichtig sein; alle diese Erwartungswerte sind von der Form βu+α, also parame-

trische Funktionen mit Koeffizientenvektoren (1, u)′, wenn die Parameter wieder

in der Reihenfolge α, β angeordnet sind.

Allgemein soll die Designmatrix wie ublich eine (n×k)-Matrix sein, die den Rang

r besitzt (in vielen Anwendungsfallen wird dann r = k gelten).

Es sollen nun h parametrische Funktionen ψ1, . . . , ψh auf einmal untersucht wer-

den, die im Fall einer Designmatrix mit Rangdefekt als identifizierbar vorausge-

setzt seien. Die Funktionen fasst man zu einem Vektor ψ zusammen.

Ist cj der Koeffizientenvektor von ψj, so ist ublich, diese Vektoren zeilenweise zu

einer Matrix C zusammenzufassen, die auch Koeffizientenmatrix von ψ heißen

soll. Die Matrix C ist dann eine (h× k)-Matrix, die als j-te Zeile den (transpo-

nierten) Koeffizientenvektor cj von ψj enthalt. Die Beziehungen ψj = c′jβ werden

mit Hilfe von C zu der Gleichung ψ = Cβ zusammengefasst.


Zu jedem Koeffizientenvektor cj gehort ein Schatzerkoeffizientenvektor aj. Ana-

log zur Matrix C bildet man die (h× n)-Matrix A zeilenweise aus den (transpo-

nierten) Schatzerkoeffizientenvektoren aj; diese Matrix soll den Namen Schatzer-

koeffizientenmatrix von ψ erhalten.

Da zwischen dem Koeffizientenvektor c einer identifizierbaren parametrischen

Funktion und dem zugehorigen Schatzerkoeffizientenvektor a die Beziehung c =

X′a besteht, folgt fur die beiden Matrizen C und A die Gleichung C = AX

(dies ist die transponierte Form der Gleichung C′ = X′A′, die ihrerseits alle

Einzelbeziehungen in Matrixform zusammenfasst).

Die neuen Begriffe sollen nun am Beispiel der einfachen linearen Regression illu-

striert werden. Hier soll nach dem Achsenabschnitt α und der Steigung β gefragt

werden. Vorausgesetzt sei dabei, dass die Rechnung auf der Grundlage des wie

ublich umparametrisierten Modells erfolgt, bei dem der erste Parameter γ der

Erwartungswert von y im Mittelwert u von U ist und der zweite Parameter β

die Steigung der Regressionsgerade. Man erhalt dann bekanntlich α und β als

parametrische Funktionen des neuen Parametervektors β = (γ, β)′ mit den Ko-

effizientenvektoren (1,−u)′ und (0, 1)′.

Fasst man die beiden gesuchten Werte α und β nun zu ψ = (α, β)′ zusammen,

so erhalt man die Koeffizientenmatrix C von ψ, indem man die beiden Koeffizi-

entenvektoren als Zeilen untereinanderschreibt. Hier gilt also

C =

(1 −u

0 1

)

und damit ψ = Cβ.

Auch die zugehorige Matrix A soll zur Verdeutlichung bestimmt werden; da-

bei sollen die Daten des Beispiels von S.74ff verwendet werden. Hier waren die

Schatzerkoeffizientenvektoren schon zu (1/28)(10, 8, 6, 4, 2, 0,−2)′ (fur α) und

(1/28)(−3,−2,−1, 0, 1, 2, 3)′ (fur β) bestimmt worden. Die Matrix A erhalt man

nun wieder dadurch, dass man diese beiden Vektoren als Zeilen untereinander-

schreibt als

A =1

28

(10 8 6 4 2 0 −2

−3 −2 −1 0 1 2 3

).

Zur Kontrolle rechnet man leicht nach, dass AX = C gilt – im Falle dieser Daten

ist ja u = 2 und daher

C =

(1 −2

0 1

).


Im allgemeinen Fall soll nun als weitere Voraussetzung C den Rang h besitzen,

was inhaltlich bedeutet, dass keine der parametrischen Funktionen eine Linear-

kombination der ubrigen sein soll, und damit eine vom okonomischen Standpunkt

her sicher sinnvolle Forderung ist.

Die Bedingung, dass C den Rang h besitzt, ist gleichwertig damit, dass A den

Rang h besitzt, was wohl zu erwarten ist und hier fur Interessierte genauer aus-

gefuhrt werden soll. Einerseits gilt Rang(C) ≤ Rang(A), da ja die Beziehung

C = AX gilt. Andererseits liegen die Zeilen von A in Bild(X), so dass es eine

Matrix B gibt mit A′ = XB. Aus C = AX folgt damit CB = AXB = AA′, und

da der Rang von AA′ gleich dem Rang von A ist, folgt Rang(A) = Rang(AA′) ≤Rang(C) und insgesamt Rang(A) = Rang(C).

Um ψ zu schatzen, setzt man naheliegenderweise die Gauß-Markoff-Schatzer ψj

der Komponenten ψj von ψ zu einem Vektor ψ zusammen. Die j-te Komponente

dieses Vektors erhalt man mit Hilfe des entsprechenden Schatzerkoeffizientenvektors

aj auch als a′jy, was zusammengefasst die Gleichung ψ = Ay ergibt.

Man kann die Komponenten von ψ, da sie GM-Schatzer sind, auch in der Form

a′jy schreiben und erhalt damit fur ψ zusammengefasst die Gleichung ψ = Ay.

Aus Feststellung 14 folgt dann wieder, dass ψ = Ay und der Varianzschatzer s2

unabhangig sind.

Die Verteilung von ψ = Ay ist eine Multinormalverteilung mit Erwartungswert

E(ψ) = E(Ay) = AE(y) = AXβ = Cβ = ψ

und Kovarianzmatrix

V(ψ) = V(Ay) = AV(y)A′ = A(σ2I)A′ = σ2AA′ .

Insbesondere ist ψ erwartungstreu fur ψ.

In dem Fall, dass X vollen Rang besitzt, kann man die einzelnen Gleichungen

aj = X(X′X)−1cj spaltenweise zusammenfassen zu A′ = X(X′X)−1C′ oder zu

A = C(X′X)−1X′, woraus

AA′ = (C(X′X)−1X′)(C(X′X)−1X′)′

= C(X′X)−1X′X(X′X)−1C′ = C(X′X)−1C′

folgt.

Fur die Matrix AA′ soll als Hinweis darauf, dass sie eigentlich von der Matrix C

abstammt, auch die Abkurzung KC gebraucht werden. Der Rang von KC = AA′


ist gleich dem von A, also gleich h, weshalb diese Matrix regular ist, außerdem

naturlich auch positiv definit.

Zusammengefasst ergibt sich die nachste Feststellung:

Feststellung 19. Ist ψ = Cβ ein Vektor aus h identifizierbaren parametrischen

Funktionen ψ1, . . . , ψh mit Koeffizientenmatrix C und Schatzerkoeffizientenmatrix

A, und ist ψ der zugehorige Vektor der Gauß-Markoff-Schatzer, so gilt

ψ ∼ Nh(ψ, σ2KC)

mit KC = AA′. Der Zufallsvektor ψ ist von s2 unabhangig. Im Falle einer De-

signmatrix von vollem Rang gilt auch KC = C(X′X)−1C′. ¤

Wahrend die Formel fur die Kovarianzmatrix von ψ den unbekannten Faktor σ2

enthalt, fallt dieser bei der Korrelationsmatrix weg. Ist namlich DC die Diago-

nalmatrix aus den Diagonalelementen von KC, so ist σ2DC die Diagonalmatrix

der Varianzen der Koeffizienten von ψ. Die Korrelationsmatrix von ψ errechnet

sich dann bekanntlich zu

(σ2DC

)−1/2 (σ2KC

) (σ2DC

)−1/2= D

−1/2C KCD

−1/2C ,

womit hier in der Tat der Faktor σ2 wegfallt.

Es soll nun die quadrierte Mahalanobisdistanz von ψ zu einem fest vorgegebenen

Vektor ψ0 berechnet werden. Das Ergebnis ist

(ψ −ψ0)′(σ2 KC)−1(ψ −ψ0) =

(ψ −ψ0)′(KC)−1(ψ −ψ0)

σ2.

Diese neue Variable hat bekanntlich eine χ2-Verteilung mit h Freiheitsgraden und

Nonzentralitatsparameter

δ2 =(ψ −ψ0)

′(KC)−1(ψ −ψ0)

σ2.

Fur weitere Rechnungen ist diese Variable jedoch ungeeignet, da σ2 unbekannt

ist. Ersetzt man nun σ2 durch die erwartungstreue Schatzung s2 und dividiert

außerdem durch h, so erhalt man mit

(1/h) (ψ −ψ0)′(KC)−1(ψ −ψ0)

s2=

(1/h) (ψ −ψ0)′(KC)−1(ψ −ψ0)/σ

2

(1/(n− r)) ((n− r)s2/σ2)

eine Variable, deren Verteilung nach der schon durchgefuhrten Umformung leicht

bestimmt werden kann: Zahler und Nenner sind unabhangig, da der Zahler eine


Funktion von y und der Nenner eine Funktion von e ist und diese beiden Variablen

unabhangig sind. Der Zahler der umgeformten Variable ist eine nichtzentral χ2-

verteilte Variable, die durch die Anzahl h ihrer Freiheitsgrade dividiert wurde,

und deren Nonzentralitatsparameter eben schon bestimmt wurde. Der Nenner ist

nach Feststellung 13 eine χ2-verteilte Variable, die durch die Anzahl (n− r) ihrer

Freiheitsgrade dividiert wurde. Daher ist die Verteilung des gesamten Bruches

eine nonzentrale F -Verteilung mit h Zahler- und (n − r) Nennerfreiheitsgraden

und dem schon oben bestimmten Nonzentralitatsparameter δ2.

Zusammengefasst erhalt man also die nachste Feststellung:

Feststellung 20. Hat die Designmatrix X den Rang r, ist ψ = Cβ ein Vektor

von h identifizierbaren Funktionen, dessen Koeffizientenmatrix C den Rang h

besitzt und ist ψ0 ein fester Vektor, so gilt

(1/h) (ψ −ψ0)′(KC)−1(ψ −ψ0)

s2∼ Fh, n−r, δ2

mit

δ2 =(ψ −ψ0)

′(KC)−1(ψ −ψ0)

σ2.

Im Falle ψ0 = ψ ist δ2 = 0 und die Verteilung eine zentrale F -Verteilung mit h

Zahler und (n− r) Nennerfreiheitsgraden. ¤

Die Feststellung 20 fuhrt sofort zur Moglichkeit eines Hypothesentests:

Feststellung 21. Hat die Designmatrix X den Rang r, ist ψ = Cβ ein Vektor

von h identifizierbaren parametrischen Funktionen, dessen Koeffizientenmatrix C

den Rang h besitzt und ist ψ0 ein fester Vektor, so konnen die Hypothesen

H0 : ψ = ψ0

H1 : ψ 6= ψ0


F =(1/h) (ψ −ψ0)

′(KC)−1(ψ −ψ0)

s2

getestet werden. Die Nullhypothese ist zu verwerfen, falls F ≥ Fh, n−r; α gilt.

Die Begrundung ergibt sich unmittelbar aus Feststellung 20, wenn man berucksich-

tigt, dass der Nonzentralitatsparameter bei Gultigkeit von H0 gleich 0 ist. ¤

Die power dieses Tests ermittelt man mit Hilfe des Nonzentralitatsparameters

δ2 =(ψ −ψ0)

′(KC)−1(ψ −ψ0)

σ2.


Als Beispiel kann nun getestet werden, ob in der Situation der einfachen linearen

Regression mit den Daten von S.74 die Parameter α und β beide 0 sind. Bezeich-

net man mit ψ den Vektor (α, β)′, so geht es nun um die Frage, ob ψ gleich 0

ist, anders formuliert, ob die Regressionsgerade die Gerade y = 0 ist, also die

U -Achse.

Die GM-Schatzer wurden schon zu α = 1 und β = 1 bestimmt; der Schatzer von

ψ = (α, β)′ ist daher ψ = (1, 1)′.

Die Faktoren fur KC = C(X′X)−1C′ wurden ebenfalls schon bestimmt; als Pro-

dukt erhalt man

KC =

(1 −2

0 1

)1

28

(4 0

0 1

)(1 0

−2 1

)=

1

28

(8 −2

−2 1

).

In der Diagonale stehen ubrigens die oben schon berechneten Werte |||c1‖|2 und

|||c2‖|2 (was naturlich immer so sein muss). Man kann außerdem die Korrelation

von α und β zu −2/(√

8√

1) = −√2/2 = −.7071 berechnen. Die beiden Schatzer

besitzen also eine recht hohe negative Korrelation.

Die Matrix (KC)−1 bestimmt man nun zu

(28/4)

(1 2

2 8

)=

(7 14

14 56

).

Da hier getestet werden soll, ob beide Parameter 0 sind, ist ψ0 = 0, und mit

h = 2 und s2 = 16/5 ist schließlich die Teststatistik gleich

F =(1/2) ψ

′(KC)−1ψ

s2=

(1/2) 91

16/5=

455

32= 14.219 .

Dieser Wert ist beim Testen auf dem 5%-Niveau zu vergleichen mit dem 5%-

Fraktil der F2, 5-Verteilung, also mit 5.786. Die Nullhypothese kann also verworfen

werden.

Zur Erganzung soll auch noch die power des Tests bestimmt werden fur den schon

oben untersuchten Fall, dass die wahre Regressionsgerade y = u+2 ist und σ2 = 4

gilt. Fur das wahre ψ gilt dann also ψ = (2, 1)′. Wegen ψ0 = 0 erhalt man jetzt

δ2 =ψ′(KC)−1ψ

σ2=

140

4= 35 .

Die power des Tests ist dann .9687.


Bemerkenswert ist, dass in dieser Situation die power des Gesamttests deutlich

hoher ist als die entsprechenden Werte der power bei den Einzeltests, ob α und β

gleich 0 sind. Man hat hier also einen Fall, in dem der Gesamttest den Einzeltests

vorzuziehen ist.

Bei den Einzeltests hatte sich fur die konkreten Daten nur ein signifikantes Er-

gebnis fur β ergeben, allerdings ohne Adjustierung. Interessant ist daher auch,

was mit Bonferroni-Adjustierung herausgekommen ware. Man hatte dann die

Einzeltests auf dem 2.5%-Niveau durchfuhren mussen, wofur der kritische Wert

t5; .0125 = 3.1634 gewesen ware. In diesem Fall ware keiner der Einzeltests signifi-

kant geworden.

Dies Beispiel darf allerdings nicht vorschnell verallgemeinert werden: Einerseits

hatte es hier bei anderen Werten der Variable Y auch sein konnen, dass ein Ein-

zeltest auf dem adjustierten Niveau signifikant wird, der Gesamttest jedoch nicht

(die Tatsache, dass die power der Einzeltests geringer ist als die des Gesamttests,

darf also nicht missverstanden werden in dem Sinn, dass der Gesamttest etwa im-

mer dann signifikant wurde, wenn ein Einzeltest signifikant wird). Andererseits

sind auch bei der einfachen linearen Regression andere Konstellationen denkbar,

bei denen die power eines der Einzeltests auch bei Adjustierung großer ist als die

des Gesamttests.

Als weiteres Beispiel soll die Frage getestet werden, ob im Fall einer multiplen

Regression alle Regressionsgewichte 0 sind. Es geht also um das Modell

E(y) =∑

βjuj + α .

Die Zahl der Pradiktoren Uj sei m, und es wird vorausgesetzt, dass die Kovarianz-

matrix S der Pradiktoren Rang m besitzt. Nach der ublichen Umparametrisierung

sind die neuen Parameter der Erwartungswert γ im Zentroid u der Pradiktoren

und die Regressionsgewichte βj. Der Parametervektor β ist dann (γ, β1, . . . , βm)′.

Fasst man die Regressionsgewichte βj zu dem Vektor ψ zusammen, so gilt ψ =

Cβ mit der Matrix

C =(0 Im

),

die sich aus einer ersten Nullspalte und einer (m×m)-Einheitsmatrix zusammen-

setzt.

Die Matrix KC ist gleich (1/n)S−1, wie man unmittelbar sieht, wenn man die

Form der Matrix X′X berucksichtigt, die sich ja, wie sich schon gezeigt hat, aus


der Zahl n oben links und der Matrix nS unten rechts zusammensetzt. Der Vektor

ψ besteht aus den geschatzten Regressionsgewichten..

Da hier getestet werden soll, ob alle Regressionsgewichte 0 sind, ist ψ0 = 0. Der

Ausdruck (ψ−ψ0)′(KC)−1(ψ−ψ0) ist daher hier gleich n ψ

′Sψ. Die Zahl ψ

′Sψ

ist die Varianz der fur die gegegeben Werte der Pradiktoren U vorhergesagten

Werte, denn die Kovarianzmatrix der Pradiktoren ist ja S und ψ ist der Vektor

der der Koeffizienten bei der Vorhersage. Es gilt also ψ′Sψ = R2S2

Y .

Da die Matrix C offenbar den Rang m besitzt, ist m auch die Zahl der Zahlerfrei-

heitsgrade des Tests. Der Wert von s2 wurde schon zu (n/(n−m−1))(1−R2)S2Y

bestimmt. Als Teststatistik F erhalt man daher

(1/m) ψ′(KC)−1ψ

s2=

(n/m) R2S2Y

(n/(n−m− 1)) (1−R2)S2Y

=(n−m− 1)

m

R2

(1−R2).

Unter H0 besitzt diese Statistik F eine Fm, (n−m−1)-Verteilung, weshalb die Null-

hypothese auf Niveau α dann zu verwerfen ist, wenn F ≥ Fm, (n−m−1); α gilt.

Ganz analog kann man einen Test der Frage angeben, ob die Regressionsgewichte

gleich gewissen vorgegebenen Zahlen βj0 sind, die dann in ψ0 zusammenzufassen

sind. Man muss nur oben dieses ψ0 an die Stelle des dortigen ψ0 = 0 setzen.

Allgemein lassen sich offenbar viele interessante Fragestellungen im Bereich des

ALM mit Hilfe von Vektoren von parametrischen Funktionen formulieren und

dann mit dem gerade konstruierten Test als Hypothesen untersuchen. Auf weitere

Beispiele wird jedoch vorlaufig verzichtet, da bald ein weiterer Test besprochen

werden soll, der von der Konstruktion her fur viele Fragen zunachst als passender

erscheint. Es wird sich jedoch zeigen, dass dieser neue Test als Spezielfall des hier

besprochenen aufgefasst werden kann, namlich als der mit ψ0 = 0.

Das nachste Ziel ist die Konstruktion eines Vertrauensbereichs fur ψ.

Setzt man in die Statistik aus Feststellung 20 fur ψ0 den Wert ψ ein und multi-

pliziert man beide Differenzen ψ − ψ mit −1, was den Wert der Statistik nicht

andert, so erhalt man das Ergebnis

(1/h) (ψ − ψ)′(KC)−1(ψ − ψ)

s2∼ Fh, n−r ,

woraus beispielsweise

P

((1/h) (ψ − ψ)′(KC)−1(ψ − ψ)

s2< Fh, n−r; α

)= 1− α


folgt.

Das Ereignis(1/h) (ψ − ψ)′(KC)−1(ψ − ψ)

s2< Fh, n−r; α

tritt genau dann ein, wenn

(ψ − ψ)′(KC)−1(ψ − ψ) < h s2 Fh, n−r; α

eintritt, was sich auch als

ψ ∈ E(KC, ψ,

√hFh, n−r; α s

)

schreiben lasst. Das Ergebnis der Umformung,

P(ψ ∈ E

(KC, ψ,

√hFh, n−r; α s

))= 1− α ,

zeigt, dass man einen (1 − α)-Konfidenzbereich fur den unbekannten Vektor ψ

gefunden hat.

Feststellung 22. Hat die Designmatrix X den Rang r und ist ψ = Cβ ein Vektor


besitzt, so ist das Ellipsoid

E(KC, ψ,

√hFh, n−r; α s

)

ein (1− α)-Konfidenzbereich fur ψ. ¤

Mit der Umformung

E(KC, ψ,

√h Fh, n−r; α s

)= E

(s2 KC, ψ,

√hFh, n−r; α

),

erhalt man eine Alternativbeschreibung des Ellipsoids, die fur manche Zwecke

praktischer ist.

Als Beispiel soll fur die einfache lineare Regression mit den schon mehrfach unter-

suchten Daten von S.17 ein Konfidenzbereich fur die beiden Parameter α (Ach-

senabschnitt) und β (Steigung) konstruiert werden.

Nach der ublichen Umparametrisierung waren α und β parametrische Funktionen

der neuen Parameter γ und β; mit ψ = (α, β)′ und β = (γ, β)′ ergab sich

ψ = Cβ, wo C die Matrix mit den Koeffizientenvektoren war.


Die Schatzung von ψ war ψ = (1, 1)′.

Die Matrix KC war schon bestimmt worden zu

1

28

(8 −2

−2 1

)=

(.2857 −.0714

−.0714 .0357

).

Die Eigenwerte dieser Matrix sind 1/56 (9 ± √65), also .3047 und .0167. Als

Eigenvektoren der Lange 1 erhalt man (.9665,−.2567)′ und (.2567, .9665)′. Um

die Halbmesser eines 95%-Konfidenzbereichs zu ermitteln, braucht man noch den

Faktor√

2 F2, 5; .05 s =√

2 · 5.7861√

3.2 = 6.0853; die Halbmesser erhalt man

dann durch Multiplikation mit den Wurzeln aus den Eigenwerten, was schließlich

die Werte 3.3590 und .7875 liefert.

Die nachste Abbildung zeigt den aus diesen Ergebnissen ermittelten 95%-Kon-

fidenzbereich fur (α, β)′.

1

1

.............................................................................................................................................................................................................................................................................................................................................................................................................................................................. ...........................

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

....................

...................

α

β

.........................................................................................................................................................................................................

.................................................................

.....................................................

..............................................

.......................................

.................................

...............................

.....................

.........................................

........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

r(α, β)

Der konstruierte Konfidenzbereich schließt den Punkt (0, 0)′ aus, enthalt je-

doch Punkte, die in der ersten oder in der zweiten Komponente eine 0 besitzen.

Ubersetzt bedeutet dies, dass nicht ausgeschlossen werden kann, dass die gesuch-

te Gerade durch den Nullpunkt geht, oder dass ihre Steigung gleich 0 ist, dass

hingegen (auf dem gegebenen Niveau) ausgeschlossen werden kann, dass beides

der Fall ist, dass also der Erwartungswert von y fur alle Werte von u gleich 0 ist.

Die letzte Tatsache steht im Einklang damit, dass die Moglichkeit ψ = (0, 0)′ oben

bereits als Nullhypothese getestet und auf dem 5%-Niveau verworfen wurde.

Dies ist ein Beispiel fur einen allgemeinen Zusammenhang zwischen Tests und

Vertrauensbereichen, der jetzt hergestellt werden soll.


Der oben besprochene Test, ob ψ = ψ0 gilt, wird genau dann signifikant, wenn

(1/h) (ψ −ψ0)′(KC)−1(ψ −ψ0)

s2≥ Fh, n−r; α

ist; dies tritt genau dann ein, wenn

(ψ0 − ψ)′(KC)−1(ψ0 − ψ) ≥ h s2 Fh, n−r; α

gilt, was sich auch als

ψ0 /∈ E(KC, ψ,

√hFh, n−r; α s

)

schreiben lasst.

Man erhalt so in der Tat eine Beziehung zwischen Hypothesentests und Konfi-

denzbereichen, wie sie auch aus vielen anderen Zusammenhangen bekannt ist.

Feststellung 23. Der Test der Hypothesen

H0 : ψ = ψ0

H1 : ψ 6= ψ0


F =(1/h) (ψ −ψ0)

′(KC)−1(ψ −ψ0)

s2

wird genau dann signifikant, wenn ψ0 nicht in dem (1− α)-Konfidenzbereich

E(KC, ψ,

√hFh, n−r; α s

)

fur ψ liegt. ¤

Simultane Kondidenzintervalle. Oft interessiert man sich nicht nur fur einige

wenige parametrische Funktionen, sondern fur sehr viele. Es sei dabei vorausge-

setzt, dass die interessierenden parametrischen Funktionen sich alle als Linear-

kombinationen von einigen wenigen schreiben lassen, die ψ1, . . . , ψh heißen sollen

(es wird sich gleich zeigen, dass diese scheinbare Einschrankung in Wirklichkeit

gar keine ist). Naturlich ist von den interessierenden parametrischen Funktionen

wie auch von den ψj vorauszusetzen, dass sie identifizierbar sind.

Es kann beispielsweise sein, dass in einer varianzanalytischen Situation fur eine

spezielle Auswertung gar nicht alle Erwartungswerte wichtig sind, sondern nur


die von bestimmten Gruppen, und zusatzlich Kontraste, die sich auf diese Grup-

pen beziehen. Ein weiteres Beispiel sind in der Situation einer einfachen linearen

Regression E(y) = βu+α die Erwartungswerte von Y fur unterschiedliche Werte

des Pradiktors U , die sich ja alle als Linearkombinationen von α und β schreiben

lassen.

In diesem Abschnitt soll gezeigt werden, wie man fur beliebig viele derartige

parametrische Funktionen Konfidenzintervalle konstruieren kann, ohne dabei in

Adjustierprobleme zu geraten.

Als erstes ist genauer zu klaren, was unter einer Linearkombination von gegebenen

ψj zu verstehen ist. Naturlich ist damit eine parametrische Funktion der Form

φ =∑

djψj gemeint. Sind die Koeffizientenvektoren der ψj die Vektoren cj, gilt

also ψj = c′jβ, so folgt wegen φ =∑

djψj =∑

djc′jβ = (

∑djcj)

′β, dass der

Koeffizientenvektor von φ gleich∑

djcj ist, also die Linearkombination der cj

mit den Koeffizienten dj aus der Darstellung φ =∑

djψj.

Sind dabei alle ψj identifizierbar, so ist auch φ identifizierbar. Es sei namlich

allgemein daran erinnert, dass eine parametrische Funktion ψ genau dann iden-

tifizierbar ist, wenn ihr Koeffizientenvektor c eine Linearkombination der Zeilen

von X ist, anders ausgedruckt in Bild(X′) liegt. Sind nun alle ψj identifizierbar,

so liegen alle cj in Bild(X′), damit auch∑

djcj, weshalb auch φ identifizierbar

ist.

Zunachst soll gezeigt werden, dass man in der Tat fur beliebige Mengen identifi-

zierbarer parametrischer Funktionen ψ eine endliche Anzahl von identifizierbaren

parametrischen Funktionen ψj finden kann, als deren Linearkombinationen sich

alle ψ schreiben lassen.

Die Koeffizientenvektoren c der interessierenden ψ liegen wegen der Identifizier-

barkeit alle in Bild(X′), moglicherweise sogar in einem echten Unterraum davon.

Nun wahlt man eine Basis c1, . . . , ch dieses Unterraums (oder von Bild(X′)) und

nimmt als ψj die parametrischen Funktionen, deren Koeffizientenvektoren die cj

sind. Die ψj sind dann, da ihre Koeffizientenvektoren in Bild(X′) liegen, eben-

falls identifizierbar. Da alle Koeffizientenvektoren c der interessierenden ψ sich

als Linearkombinationen der cj schreiben lassen, sind die ψ selber nun die ent-

sprechenden Linearkombinationen der ψj.

Es ist sinnvoll, bei dieser Konstruktion fur den Unterraum, der die Koeffizien-

tenvektoren der interessierenden ψ enthalt, den kleinsten zu wahlen, fur den dies


der Fall ist, denn eine kleine Dimension hat Vorteile fur die Breite der zu kon-

struierenden Konfidenzintervalle.

Ausgangspunkt ist also eine Menge von identifizierbaren parametrischen Funk-

tionen ψ1, . . . , ψh mit Koeffizientenvektoren c1, . . . , cj. Interessant sind spater

beliebige Linearkombinationen dieser Funktionen, also beliebige parametrische

Funktionen der Form φ =∑

djψj.

Von den ψj kann vorausgesetzt werden, dass kein ψk als Linearkombination der

ubrigen ψj geschrieben werden kann; sonst konnte man ein solches ψk namlich

auch weglassen, ohne die Menge der Linearkombinationen der restlichen ψj im

Vergleich zum Ausgangspunkt zu verringern (in einer beliebigen Linearkombinati-

on φ aller ψj ersetzt man ψk durch eine Linearkombination der ubrigen, gruppiert

um, und druckt so φ auch als Linearkombination der ψj ohne ψk aus).

Was die cj angeht, so ist diese Voraussetzung offenbar genau dann erfullt, wenn

kein ck als Linearkombination der ubrigen cj geschrieben werden kann, was wieder

gerade bedeutet, dass die cj linear unabhangig sind (in dem hier uninteressanten

Grenzfall h = 1 ist naturlich vorauszusetzen, dass ψ1 und damit c1 nicht Null

sind).

Sinnvollerweise fasst man die parametrischen Funktionen ψj nun wieder zu einem

h-Vektor ψ zusammen und die zugehorigen Koeffizientenvektoren zeilenweise zu

einer (h × k)-Matrix C. Offenbar gilt dann ψ = Cβ. Die Zusatzvoraussetzung

uber die ψj bedeutet gerade, dass die Matrix C linear unabhangige Zeilen hat,

also den Rang h besitzt.

Fur eine Linearkombination φ =∑

djψj der ψj mit Koeffizienten dj fasst man wie

ublich die Koeffizienten in einem Koeffizentenvektor d zusammen und schreibt

dann kurz φ =∑

djψj = d′ψ; zur Verdeutlichung soll φ auch als φd geschrieben

werden. Wegen ψ = Cβ gilt

φd = d′ψ = d′(Cβ) = (C′d)′β ,

so dass das untersuchte φd den Koeffizientenvektor C′d bezuglich der Parameter

βj besitzt (wie sich ja auch schon oben gezeigt hatte). Setzt man c = C′d, so kann

man zusammenfassend auch kurz φd = ψc schreiben. Die beiden Schreibweisen

heben hervor, dass man die betrachtete parametrische Funktion einerseits als

Linearkombination der Komponenten von ψ schreiben kann, andererseits aber

auch direkt als Linearkombination der Parameter βj.

Da der Koeffizientenvektor von φd gleich C′d ist und damit eine Linearkombi-


nation der Spalten cj von C′, und da diese cj wegen der Identifizierbarkeit der

ψj ihrerseits Linearkombinationen der Zeilen von X sind, ist insgesamt auch C′deine Linearkombination der Zeilen von X. Die parametrische Funktion φd ist

folglich identifizierbar.

Betrachtet man nun alle Linearkombinationen φd fur beliebige d, so bilden deren

Koeffizientenvektoren C′d zusammen gerade das Bild von C′, anders ausgedruckt

den Unterraum der Rk, der durch die cj erzeugt wird. Dieser Unterraum soll

auch mit U bezeichnet werden. Wegen der Zusatzvoraussetzung hat U gerade die

Dimension h.

So gesehen sollen also nun alle parametrischen Funktionen betrachtet werden,

deren Koeffizientenvektoren in dem h-dimensionalen Erzeugnis U der cj liegen.

In gewisser Weise bilden diese parametrischen Funktionen daher so etwas wie

einen h-dimensionalen Unterraum aller parametrischen Funktionen.

Das Ziel der weiteren Untersuchungen ist das, fur viele oder sogar alle derartigen

d′ψ auf einem vorgegebenen Konfidenzniveau Vertrauensintervalle anzugeben.

Man gerat bei diesem Ziel in die bekannte Adjustierproblematik, die darin be-

steht, dass die Wahrscheinlichkeit, dass mehrere Intervalle ihren zu schatzenden

Wert enthalten, kleiner ist als die Wahrscheinlichkeit fur ein festes einzelnes In-

tervall.

Um diesem Problem zu entgehen, wird die folgende Forderung aufgestellt: Die

Wahrscheinlichkeit, dass nicht nur ein einzelnes Vertrauensintervall seinen zu

schatzenden Wert enthalten wird, sondern dass dies fur alle Intervalle der Fall

ist, soll mindestens gleich einem vorgegebenen Wert (1− α) sein.

Fur eine kleine Zahl m interessierender Intervalle kann man das Ziel naturlich

beispielsweise durch eine Bonferroni-Adjustierung erreichen, indem man fur die

einzelnen Intervalle das Niveau (1 − α/m) wahlt. Wird die Zahl der Intervalle

großer, ist jedoch das nun zu schildernde Verfahren der simultanen Konfidenzin-

tervalle vorzuziehen.

Die Grundidee der Konstruktion ist einfach: Eine Linearkombination φd = d′ψist eine Funktion des Vektors ψ, was man auch etwas abstrakter als φd = fd(ψ)

schreiben kann – fd ist hier die lineare Abbildung, die einem Vektor x ∈ Rh die

Zahl d′x zuordnet.

Fur ψ selber hat man schon einen Konfidenzbereich, namlich das oben konstru-


ierte Ellipsoid, das hier kurz E heißen soll. Es gilt also

P (ψ ∈ E) = 1− α .

Wenn aber ψ in E liegt, so liegt auch φd = fd(ψ) in fd(E), kurz:

ψ ∈ E ⇒ fd(ψ) ∈ fd(E) .

Die folgende Illustration soll dies veranschaulichen: Der Konfidenzbereich fur ψ

ist die eingezeichnete Ellipse, die lineare Abbildung ist die Projektion auf den

eingezeichneten Unterraum V (bei geeigneter Wahl des Unterraums V und seiner

Basis kann man ja alle Linearkombinationen geometrisch so deuten). Das Bild

der Ellipse ist das eingezeichnete Intervall. Der Punkt im Innern der Ellipse soll

das wahre ψ sein, und wenn dies in E liegt, so muss offenbar das Bild unter fdin dem Intervall liegen.

1

1

.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................. ...........................

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

....................

...................

ψ1

ψ2

rψ ψ

φ

E

................................

..........................................................................................................

................................................................................................................................................................................................................................................................................................................................................................

....................

........................................................

........................................................

........................................................

........................................................

........................................................

........................................................

........................................................

........................................................

........................................................

........................................................

........................................................

.........................

Vrrr.................................

........................................................................................................................................................... φ

..........................................................................................................................................................................................................................

Bezeichnet man das Ereignis, dass E den wahren Vektor ψ enthalt, mit A, und

das Ereignis, dass fd(E) den wahren Wert φd = fd(ψ) enthalt, mit Ad, so folgt,

dass das Ereignis A das Ereignis Ad nach sich zieht; immer, wenn A eintritt, tritt

also auch Ad ein, was man auch als

A ⊆ Ad

schreiben kann.

Dies gilt jedoch nicht nur fur ein spezielles d, sondern fur alle d 6= 0. Es folgt

A ⊆⋂

d6=0

Ad .


Aus der linearen Algebra ist bekannt, dass hier sogar Gleichheit gilt, denn fur

Ellipsoide E gilt bekanntlich, dass ein Punkt genau dann in E liegt, wenn fur alle

eindimensionalen linearen Abbildungen f das Bild des Punktes unter f im Bild

des Ellipsoids liegt.

Bildet man die Wahrscheinlichkeiten der untersuchten Ereignisse, so folgt

1− α = P (A) = P

(⋂

d6=0

Ad

).

Liest man dies von rechts nach links, so hat man das Ergebnis, dass die Wahr-

scheinlichkeit, dass alle Ad eintreten, dass also alle fd(E) das zugehorige wahre

φd enthalten, gleich 1 − α ist; mit anderen Worten hat man so unendlich viele

Konfidenzbereiche fur alle φd gefunden, wobei die Wahrscheinlichkeit, dass alle

ihren gesuchten Wert enthalten, gerade 1− α ist.

Es bleibt noch die Aufgabe, die Form der fd(E) zu bestimmen; das Ellipsoid Eist genauer gleich

E(KC, ψ,

√hFh, n−r; α s

)

und sein Bild unter der linearen Abbildung d′ folglich das Intervall mit Mittel-

punkt d′ψ und halber Seitenlange√

hFh, n−r; α s√

d′KCd. Diese beiden Bestim-

mungsgroßen sollen nun ausgerechnet werden.

Der Koeffizientenvektor von φd oder kurz φ in Bezug auf die Parameter β wurde

oben schon zu C′d berechnet, was mit c abgekurzt werden soll; es gilt dann

φ = ψc.

In dem einfacheren Fall, dass X vollen Rang hat, gilt ψ = Cβ und daher

d′ψ = d′(Cβ) = (C′d)′β = c′β ,

was gerade der GM-Schatzer ψc = φ ist. Fur d′KCd ergibt sich in diesem Fall

d′KCd = d′C(X′X)−1C′d = c′(X′X)−1c = |||c‖|2 ,

was auch als |||C′d‖|2 geschrieben werden kann.

Fur Interessierte folgt die Diskussion des Falls, dass X nicht vollen Rang besitzt.

Ist dann A die Schatzerkoeffizientenmatrix von ψ, so gilt C = AX, woraus

c = C′d = X′A′d folgt. Der Vektor A′d, der ja mit den Spalten von A im Bild


von X liegt, ist daher der Schatzerkoeffizientenvektor von φ = ψc. Mit diesen

Ergebnissen folgt

d′ψ = d′Ay = (A′d)′y ,

weshalb φ = d′ψ der GM-Schatzer von φ ist. Den Wert von |||c‖|2 errechnet man

zu

|||c‖|2 = (A′d)′(A′d) = d′(AA′)d = d′KCd ,

so dass man die gleichen Ergebnisse hat wie im Fall einer Matrix X von vollem

Rang.

Das Konfidenzintervall, das man mit dem geschilderten Verfahren fur φd = ψcerhalt, ist so das Intervall

(ψc −

√hFh, n−r; α |||c‖| s , ψc +

√hFh, n−r; α |||c‖| s

),

das sich von dem Intervall ohne Adjustierung nur dadurch unterscheidet, dass

der Faktor tn−r; α/2, mit dem der Standardfehler |||c‖| s im Ausdruck fur die hal-

be Intervallbreite zu multiplizieren ist, hier durch√

hFh, n−r; α ersetzt ist. Man

erkennt so unmittelbar die Kosten fur die gleichzeitige Untersuchung von vielen

parametrischen Funktionen. Etwas einpragsamer wird der Unterschied vielleicht,

wenn man tn−r; α/2 gleichwertig als√

1 · F1, n−r; α schreibt.

Man erkennt hier auch die Rolle der Dimension h: Je großer h ist, um so breiter

werden die simultanen Konfidenzintervalle. Aus diesem Grund sollte man, wenn

man viele parametrische Funktionen ψ untersuchen will und zu diesen ψ die ψj,

als deren Linearkombinationen die ψ dann geschrieben werden sollen, erst noch

geeignet wahlen kann, die Zahl h so klein wie moglich halten.

Insgesamt gilt fur die nun konstruierten simultanen Konfidenzinervalle die fol-

gende Feststellung:

Feststellung 24. Hat die Designmatrix X den Rang r und ist ψ = Cβ ein Vektor


besitzt, so ist die Wahrscheinlichkeit, dass fur alle d 6= 0 und c = C′d die

simultanen Konfidenzintervalle(ψc −

√hFh, n−r; α |||c‖| s , ψc +

√hFh, n−r; α |||c‖| s

),

den zugehorigen Wert d′ψ = ψc enthalten, gleich 1− α. ¤

In der nachsten Abbildung sind fur das oben untersuchte Beispiel einer einfachen

linearen Regression zusatzlich zu der bereits gefundenen Vertrauensellipse fur den


Achsenabschnitt α und die Steigung β der Regressionsgeraden die Intervalle ein-

gezeichnet, die man fur α und β einzeln mit dem Verfahren der simultanen Konfi-

denzintervalle zum 95%-Niveau erhalt. Diese Intervalle sind die Projektionen der

Ellipse auf die jeweiligen Achsen. Zusatzlich sind die Grenzen der kleineren 95%-

Vertrauensintervalle ohne Adjustierung eingezeichnet, und außerdem die Grenzen

der Vertrauensintervalle mit Bonferroni-Adjustierung zu 97.5%, die zwischen den

nicht adjustierten und den simultanen Konfidenzintervallen liegen. Man erkennt

hier, wie stark sich die Intervalle bei den unterschiedlichen Adjustiermethoden

vergroßern, also gewissermaßen die Kosten fur die Untersuchung von 2 parame-

trischen Funktionen und fur die Untersuchung aller Linearkombinationen von α

und β, wofur α und β selber nur zwei spezielle Beispiele sind.

1

1

.............................................................................................................................................................................................................................................................................................................................................................................................................................................................. ...........................

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

....................

...................

α

β

.........................................................................................................................................................................................................

.................................................................

.....................................................

..............................................

.......................................

.................................

...............................

.....................

.........................................

........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

r(α, β)

......

....................................................

..........................................................

.............................r .............................

.............................

.............................

.............................

.....................................

...........................................................................................................................

.............................

.............................

r..........................................................

.............................

.............................

An diesem Beispiel sieht man ubrigens auch, dass die Bonferroni-Adjustierung

bei wenigen Fragestellungen uberlegen sein kann: Interessiert man sich hier aus-

schließlich fur α und β, so sind die Bonferroni-adjustierten Intervalle gunstiger

als die simultanen.

Ab welcher Anzahl von Fragestellungen die simultanen Intervalle schließlich gun-

stiger werden als die Bonferroni-adjustierten, bestimmt man leicht durch Ver-

gleich der Faktoren, mit denen der Standardfehler zu multiplizieren ist; diese

Faktoren sind ja tn−r; α/(2m) fur die Bonferroni-Adjustierung fur m Intervalle und√hFh, n−r; α fur die simultanen Intervalle.

Ein gutes Beispiel fur die Nutzlichkeit der simultanen Konfidenzintervalle ergibt

sich bei der Regression aus dem Wunsch, fur den Erwartungswert von y bei unter-

schiedlichen Werten der Pradiktoren adjustierte Vertrauensintervalle anzugeben.

Die simultanen Konfidenzintervalle sind sogar adjustierte Vertrauensintervalle fur

alle Wertekombinationen der Pradiktoren, also fur unendlich viele Situationen.

Im Beispiel der einfachen linearen Regression erhalt man aus den nicht adju-


stierten Intervallen die simultanen Intervalle, indem man den Faktor tn−2; α/2 im

Ausdruck fur die halbe Intervallbreite durch√

2 F2, n−2; α ersetzt. Dies fuhrt fur

die Werte u des Pradiktors U zu Intervallen, deren Mittelpunkte die Schatzungen

βu+α sind – sie machen zusammen gerade die Regressionsgerade aus – und deren

halbe Breite gerade

√2 F2, n−2; α

√((u− u)2

S2U

+ 1

)(1− r2

U,Y ) S2Y

n− 2

ist.

In der nachsten Abbildung sind die Regressionsgerade und die Grenzen der si-

multanen Intervalle fur das oben behandelte konkrete Beispiel eingezeichnet. Zur

Verdeutlichung sind zwei derartige Intervalle hervorgehoben, das eine an der Stel-

le u, an der die Breite minimal ist.

Zum Vergleich geben die gepunkteten Geraden die Grenzen der Vertrauensinter-

valle ohne Adjustierung an; der Quotient der Intervallbreiten ist dabei√

2 F2, 5; .05/t5; .025 = 3.4018/2.57058 = 1.32336 .

1

1......................................................................................................................................................................................................................................... ..........................................................................................................................................................................................................................................................................................................................................................................................

u

y

rrr rr r

r

...................................................................................................................................................................................................................................................................................................................................................................................................................

.............................................................................................................

..........................................................................................................................................................................................................

............................................................................................................................................................................

..................................................................................................

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

....

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

....

.............

.........

......

.........................................

....................................

.......

...........

.......

Da die wahre Regressionsgerade sich aus den Punkten zusammensetzt, die als

zweite Koordinate den zur ersten Koordinate geschatzten Erwartungswert besit-

zen, gibt der Bereich zwischen den eingezeichneten Grenzen gewissermaßen einen

95%-Vertrauensbereich fur diese Gerade an. Genauer: Er wurde nach einem Ver-

fahren konstruiert, das einen Bereich liefert, der mit einer Wahrscheinlichkeit von

.95 die wahre Regressionsgerade enthalt.

Ganz gerechtfertigt ist allerdings diese Aussage durch die bisherigen Uberlegungen

nicht, denn hier wird ja nur eine Teilmenge aller moglichen Linearkombinationen

5.4 Hypothesentests ALM07 106

von α und β untersucht, namlich die derjenigen Linearkombinationen, die Er-

wartungswerte von Y fur mogliche Werten u von U ausdrucken. Dadurch wird

jedoch einerseits die Aussage eher starker, namlich in der Form, dass die Wahr-

scheinlichkeit, dass der angegebene Bereich die Regressionsgerade enthalt und

dass zusatzlich auch alle hier nicht betrachteten Konfindenzintervalle ihren ge-

suchten Wert enthalten, gleich 1 − α ist. Andererseits kann man jedoch auch

zeigen, dass die Aussage auch in der ursprunglichen Form richtig ist, was daran

liegt, dass hier’hinreichend viele‘ Intervalle gebildet werden.

5.4 Hypothesentests

Testen von linearen Hypothesen. In diesem Abschnitt soll eine alternative

Art des Hypothesentestens besprochen werden.

Eine Art von Hypothesen, die uber die Fragestellungen hinausgehen, die man mit

einer einzigen (eindimensionalen) parametrischen Funktion formulieren kann, sind

die, die man als lineare Hypothesen bezeichnen konnte. Vorausgesetzt ist immer,

dass ein Modell vom Typ des ALM durch seine Designmatrix X vorgegeben ist.

Dies Modell besagt insbesondere, dass sich der Erwartungswertvektor von y in

dem Unterraum V befindet, der durch die Spalten der Designmatrix X erzeugt

wird. Eine einschrankende Hypothese kann dann behaupten, dass dieser Erwar-

tungswertvektor sich in einem echten linearen Unterraum V0 von V befindet.

Eine solche Hypothese soll lineare Hypothese heißen, und es soll nun untersucht

werden, wie solche lineare Hypothesen (als Nullhypothesen) zu testen sind.

Meistens wird man den Unterraum V0 dadurch spezifizieren, dass man ein System

von Vektoren angibt, die ihn erzeugen, und die man spaltenweise zu einer Matrix

X0 zusammenstellt. Die einschrankende Hypothese behauptet dann also, dass der

Erwartungswertvektor in dem durch die Spalten von X0 erzeugten Unterraum

liegt. Mit anderen Worten gilt auch unter der einschrankenden Hypothese ein

Modell vom Typ des ALM, und zwar das, dessen Designmatrix gerade X0 ist.

In diesem Sinn testet man zwei Modelle gegeneinander, die beide vom Typ des

ALM sind. Naheliegenderweise sollen diese beiden Modelle auch das allgemeine

und das spezielle oder eingeschrankte Modell heißen. Das allgemeine Modell ist

jetzt also durch seine Designmatrix X gegeben und das spezielle durch die De-

signmatrix X0. Die Range der beiden Designmatrizen sollen r und r0 sein, und

es ist klar, dass dann sinnvollerweise r0 < r gelten muss (bei Gleichheit wurden


die Modelle, d.h. die zugehorigen Unterraume V und V0 ja ubereinstimmen).

Die Ausgangssituation kann also jetzt auch so beschrieben werden, dass zwei

Modelle fur dieselbe Situation gegeben sind (insbesondere stimmen naturlich die

Zeilenzahlen der Designmatrizen, also die Zahl der Beobachtungen, auf die sich

ja beide Modelle beziehen, uberein). Dabei liegt der von der Designmatrix X0 er-

zeugte Unterraum V0 der Dimension r0, der zum speziellen Modell gehort, in dem

von der Designmatrix X erzeugten Unterraum V der Dimension r, der zum all-

gemeineren Modell gehort. Die Forderung V0 ⊂ V kann man naturlich alternativ

auch als Bild(X0) ⊂ Bild(X) schreiben.

Die Hypothesen konnen dann so formuliert werden:

H0 : E(y) ∈ V0

H1 : E(y) 6∈ V0 ,

wobei generell E(y) ∈ V vorausgesetzt wird.

Zunachst soll an Beispielen gezeigt werden, dass man auf diese Weise tatsachlich

interessante Hypothesen formulieren kann. Voraussetzung ist dabei immer, dass

der von den Spalten der Matrix X0 erzeugte Unterraum in dem enthalten ist,

der von den Spalten von X erzeugt wird. Um nachzuprufen, ob diese Eigenschaft

wirklich gilt, hat man nur zu untersuchen, ob alle Spalten von X0 auch in V

liegen, sich also als Linearkombinationen der Spalten von X schreiben lassen.

Varianzanalyse. Eine typische Designmatrix X fur die Varianzanalyse ist die fol-

gende (je zwei Versuchspersonen in den ersten beiden Zellen und eine in der

letzten):

1 0 0

1 0 0

0 1 0

0 1 0

0 0 1

.

Die Nullhypothese der Varianzanalyse behauptet, dass alle Erwartungswerte gleich

sind. Die zugehorige Designmatrix X0 ist die, die nur aus einer Spalte mit lauter

Einsen besteht. Offenbar ist diese Spalte Linearkombination der Spalten von X.

Die ubliche Nullhypothese der Varianzanalyse ordnet sich also den linearen Hypo-

thesen unter. Allgemein ist hier ubrigens r = J (Anzahl der Gruppen), wahrend

r0 = 1 ist.

Multiple Regression: Test, ob alle βj gleich 0 sind. Die Nullhypothese ist hier

die, dass alle Regressionsgewichte gleich 0 sind, dass also anschaulich gesprochen


kein Pradiktor Einfluss hat. Auch hier ist die Matrix X0 die, die nur aus einer

einzigen Spalte mit Einsen besteht, denn wenn alle Regressionsgewichte gleich

0 sind, so mussen alle Erwartungswerte ubereinstimmen. Ist m die Anzahl der

Pradiktoren, so ist r = m+1 (falls man wie ublich voraussetzt, dass kein Pradiktor

Linearkombination der anderen ist) und r0 = 1.

Multiple Regression: Test, ob einige βj gleich 0 sind. Die Nullhypothese ist die,

dass fur eine bestimmte Teilmenge der Pradiktoren alle zugehorigen Regressions-

gewichte gleich 0 sind, dass also anschaulich gesprochen keiner dieser Pradiktoren

Einfluss hat. Hier entsteht die Matrix X0 aus der Matrix X einfach dadurch, dass

man die zu den fraglichen Pradiktoren gehorenden Spalten weglasst. Hat man all-

gemein m und im eingeschrankten Modell nur m0 Pradiktoren, so gilt r = m + 1

und r0 = m0 +1 (wobei wieder vorausgesetzt ist, dass kein Pradiktor Linearkom-

bination der ubrigen ist).

Gleichheit von Regressionsgewichten. Die Frage ist die, ob Regressionsgewichte in

mehreren Gruppen gleich sind. Hier besteht das allgemeine Modell darin, dass in

jeder von mehreren Gruppen der Erwartungswert der abhangigen Variable von

mehreren unabhangigen Variablen in der Art der multiplen Regression abhangt.

Wahrend im allgemeinen Modell die Regressionsgewichte jeder der unabhangigen

Variablen in den Gruppen unterschiedlich sein konnen (’die Variablen sich in

den Gruppen unterschiedlich auswirken‘), konnte ein spezielles Modell behaup-

ten, dass fur jede der unabhangigen Variablen die Regressionsgewichte in allen

Gruppen gleich sind (’die Variablen also in allen Gruppen gleich wirken‘). Es

konnte zum Beispiel die Frage auftreten, ob bei Mannern und Frauen die Abitur-

ergebnisse in Deutsch und Turnen den jeweils gleichen Einfluss auf die Note des

Studienabschlusses haben, oder ob diese Einflusse (d.h. die theoretischen Regres-

sionsgewichte, wenn man an dies Modell glauben will) bei Mannern und Frauen

unterschiedlich sind.

Hat man beispielsweise zwei Gruppen und zwei Pradiktoren und bestehen die

Gruppen aus drei bzw. vier Versuchspersonen, wobei der erste Pradiktor in der

ersten Gruppe die Werte 1, 2, 3 und in der zweiten die Werte 4, 5, 6, 7 annimmt,

wahrend der zweite Pradiktor die Werte 9, 8, 8 bzw. 6, 6, 4, 3 besitzt, so kann man


folgende Designmatrizen wahlen:

X =

1 1 9 0 0 0

1 2 8 0 0 0

1 3 8 0 0 0

0 0 0 1 4 6

0 0 0 1 5 6

0 0 0 1 6 4

0 0 0 1 7 3

X0 =

1 0 1 9

1 0 2 8

1 0 3 8

0 1 4 6

0 1 5 6

0 1 6 4

0 1 7 3

Offenbar sind hier tatsachlich die Spalten der zweiten Matrix Linearkombinatio-

nen der Spalten der ersten. Ferner gilt hier r = 6 und r0 = 4.

Die Kovarianzanalyse. Hier ist die Situation die, dass der Erwartungswert der

abhangigen Variable Y einerseits von gewissen (z.B. experimentellen) Bedingun-

gen, andererseits aber auch von einer oder mehreren quantitativen Variablen (so-

genannten Kovariaten) abhangt. Beispielsweise kann das Ergebnis beim Losen

einer bestimmten Aufgabe einerseits abhangen von der speziellen Schulung, die

vorher durchgefuhrt wurde (experimentelle Bedingung), andererseits auch von

der Intelligenz der Versuchsperson (Kovariate).

Im allgemeinen wird hier vorausgesetzt, dass der Einfluss der Kovariaten von der

Art der multiplen linearen Regression ist, und dass die Gewichte in allen Gruppen

ubereinstimmen. Der Einfluss der experimentellen Bedingung soll sich in unter-

schiedlichen Y -Achsenabschnitten zeigen. Die Nullhypothese behauptet dement-

sprechend, dass alle Y -Achsenabschnitte gleich sind. Zur Veranschaulichung sei

eine Situation einer Kovariate U bei drei Bedingungen betrachtet. Die folgenden

Schaubilder zeigen die Lage der Erwartungswerte von Y in Abhangigkeit von U

unter Gultigkeit des allgemeinen Modells und unter Gultigkeit der Nullhypothese.

.............................................................. ...................

........

........

........

........

........

......................

...................

U

E(Y )

..................................

..................................

..................................

..................................

..................................

..................................

..................................

..................................

...............

..................................

..................................

..................................

..................................

..................................

..................................

..................................

..................................

...............

..................................

..................................

..................................

..................................

..................................

..................................

..................................

..................................

............... Bedingung 2

Bedingung 1

Bedingung 3

Allgemeines Modell

.............................................................. ...................

........

........

........

........

........

......................

...................

U

E(Y )

..................................

..................................

..................................

..................................

..................................

..................................

..................................

..................................

...............

alle Bedingungen

Nullhypothese


Die Designmatrizen sehen beispielsweise fur den Fall von drei Gruppen, in denen

die Variable U die Werte 1, 2, 3 (Gruppe 1), 2, 4 (Gruppe 2) und 3, 2 (Gruppe 3)

annimmt, folgendermaßen aus:

X =

1 1 0 0

2 1 0 0

3 1 0 0

2 0 1 0

4 0 1 0

3 0 0 1

2 0 0 1

X0 =

1 1

2 1

3 1

2 1

4 1

3 1

2 1

Die zweite Designmatrix ist dabei die einer einfachen linearen Regression. Ent-

sprechend sehen die Matrizen fur mehrere Kovariaten aus – fur jede Kovariate

gibt es dann eine Spalte. Ubrigens ist man nicht auf die Modellierung linearer Ein-

flusse beschrankt, entsprechend der polynomialen Regression konnen z.B. auch

quadratische Funktionen der Kovariaten aufgenommen werden etc.

Nach diesen Beispielen geht es nun darum, einen Test fur die Nullhypothese

zu entwickeln, dass das spezielle, durch die Designmatrix X0 gegebene Modell

richtig ist. Als Test fur die Fragestellung, ob das allgemeine Modell gilt, gegen

die Nullhypothese des speziellen Modells bietet es sich an, zu vergleichen, wie gut

die beiden Modelle zu den Daten passen. Ein naheliegendes Maß dafur, wie gut

ein Modell passt, ist die’Große‘ des geschatzten Fehlers, gemessen durch seine

Norm.

Bezeichnet man jetzt den geschatzen Fehler unter dem speziellen Modell mit e0

und den geschatzten Fehler unter dem allgemeinen Modell mit e, so wird man

nach den angestellten Uberlegungen den Quotienten

Q =‖ e0‖‖ e‖

bilden. Ist dieser Quotient sehr groß, so heißt das, daß der geschatzte Fehler

im speziellen Modell viel großer ist als im allgemeinen, daß also das spezielle

Modell viel schlechter zu den Daten paßt als das allgemeine. Man wird also die

Nullhypothese fur große Wert von Q verwerfen.

Damit man auf bekannte Verteilungen zum Testen zuruckgreifen kann, fuhrt man

mit Q noch eine monotone Transformation durch; man betrachtet namlich an-


stelle von Q zunachst die Statistik

Q2 − 1 =‖ e0‖2

‖ e‖2 − 1 =‖ e0‖2 − ‖ e‖2

‖ e‖2 .

Man kann diesen Quotienten auch so verstehen, dass er angibt, um wieviel sich

die Fehlerquadratsumme im speziellen Modell erhoht, relativiert an der Fehler-

quadratsumme im allgemeinen Modell.

Bezeichnet man die geschatzten Erwartungswertvektoren im allgemeinen und im

speziellen Modell mit y und y0, so gilt y = y + e und y = y0 + e0. Daraus folgt

e0 − e = (y − y0)− (y − y) = y − y0 ,

und da sowohl y0 als auch y in dem Unterraum V der im allgemeinen Modell

modellvertraglichen Erwartungswerte liegen, gilt dies auch fur die Differenz y−y0.

Dieser Vektor, und damit auch e0 − e, steht also insbesondere senkrecht auf e.

Wegen

e0 = (e0 − e) + e

und weil die beiden letzten Vektoren senkrecht aufeinander stehen, gilt nach dem

Satz des Pythagoras

‖ e0‖2 = ‖(e0 − e)‖2 + ‖ e‖2

oder

‖ e0‖2 − ‖ e‖2 = ‖(e0 − e)‖2 = ‖(y − y0)‖2 .

In der folgenden Abbildung sind diese Verhaltnisse fur das Beispiel einer einfa-

chen linearen Regression mit drei Datenpaaren veranschaulicht. Die Werte der

Pradiktorvariable sind 0, 1 und 2, wahrend die Kriteriumsvariable Y hierzu die

Werte 1, −2 und 5 annimmt. Die Designmatrix sieht dann so aus:

X =

1 0

1 1

1 2

,

ihre Spalten sind die Vektoren x1 und x2, die den Unterraum V der modellver-

traglichen Erwartungswertvektoren aufspannen. Die linke Abbildung zeigt diese

beiden Vektoren und den Punkt y = (1,−2, 5)′ der Werte der Kriteriumsvaria-

blen. Auf der mittleren Abbildung sieht man die von x1 und x2 aufgespannte

Ebene im Koordinatensystem. Auf der rechten Abbildung erkennt man dann die

Projektion y von y auf die Ebene V und die Projektion y0 von y auf die durch


den Vektor x1 = (1, 1, 1)′ erzeugte Gerade V0, die aus den modellvertraglichen Er-

wartungswertvektoren im eingeschrankten Modell besteht, das wie ublich besagt,

dass das Regressionsgewicht gleich 0 ist. Die Abbildungen sind ubrigens zentral-

perspektivisch, und bei einer geeigneten Wahl des Augpunktes sollte deutlich

werden, dass der rechte Winkel des Dreiecks (y, y, y0) sich bei y befindet.

................................................................................................................................................... ............

y1.....................................................................................................................................................................

......................

......................

.........................................y2

...................................................................................................................

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

...............

............y3

...........................................................................................

....................

................

...................

.........

......................

............

..........

..........

...........

...........

...........

..........

py

ppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppx2

pppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp x1

............................................................................................................................................................................................................................................................

......

......

......

......

......

......

......

......

......

....

.....................................

.................................. p................................................................................................................................................... ............

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

...............

............

....................

........ ......................

............

..........

..........

...........

...........

...........



.......................................................................................................................................

..........

................................................................................................

...................................................................................................................

..............................

....................................................

........................

........................

........................

........................

........................

........................

........................

........................

........................

.........

...............................................

........................

........................

........................

........................

........................

........................

........................

........................

........................

.....................

..........................................................................................................................................................................................................................................................................................................................................................................................................................................

......................

......................

..

...........................................................................................................................................

................................................................................................................................................................................................................... V

..........................

...........................

...

.......................

...

........

...........

.........................

............................

.............

............

...

......

.............

............................

.............................

............................

...........................

........

..................

.........

.................

...........................

............

..............

...........................

...............

...........

..........................

..........

....

.......

........................

..........

.......

.....

.........

..........

....

......................

..

.........................

..........................

............................

.............................

.............................

.............................

.........................

.

..........................

.

..........................

.............................

p

p



y

V

................................................................................................................................................................................................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

.........

...................................................................................................................................................................................................................

.....................................................................................................................................................................................................

V0

........................................................................................................................................................................................

d1py ......................

......................

...........

...........................................................

..............................................................................................................................................................................................................

......................................................................

..............................................................................................................................................................................................................

d0

py0

...................................................................................................................................

d2

.............................

.............................

.............................

...............

...........

.

......................

.

...............

.......

.

.............

.......

..........

..

.......

.

................

.......

.............................

....................

..

.........................

.............................

.............................

.............................

.............................

.............................

...........................

..................

.......

..........

......

........

................

.......

..........

................

.........

.................

............................

.............................

..........................

......................

.

.....................

...

...................

.......

.............................

..........

...........

.

.............

..........

.

.........................

.............................

.....................................

Die fur die weitere Rechnung wichtigen Abstande sind mit d0, d1 und d2 bezeich-

net. Dabei ist d0 die Lange ‖ e0‖ des Fehlervektors im eingeschrankten Modell,

d1 die Lange ‖ e‖ des Fehlervektors im allgemeinen Modell und d2 die Lange des

Differenzvektors e0 − e = y − y0. Die Zerlegung von ‖ e‖2 wird hier durch den

Satz des Pythagoras in der Form

d20 = d2

2 + d21

gegeben, wobei die zu d1 und d2 gehorenden Vektoren orthogonal sind.

Die Grundidee bestand darin, die Werte d0 und d1 uber deren Quotienten Q =

d0/d1 miteinander zu vergleichen, nach der monotonen Umformung zu Q2−1 soll

nun gleichbedeutend der Quotient d22/d

21 untersucht werden, wobei große Werte

gegen die Nullhypothese sprechen.

Betrachtet man die Unterraume V und V0 der im allgemeinen Fall bzw. im spe-

ziellen Fall modellvertraglichen Erwartungswertvektoren, und nennt man die or-

thogonalen Projektionen auf diese Unterraume P und P0, so gilt y = Py und

y0 = P0y. Die Differenz y − y0 lasst sich dann auch schreiben als Py − P0y =

(P − P0)y. Um zu Verteilungsaussagen zu gelangen, muss nun erst die Abbil-

dung P−P0 genauer untersucht werden; sie wird sich als orthogonale Projektion


erweisen.

Wichtig ist hierbei die Beziehung

PP0 = P0P = P0 .

Dass PP0 = P0 ist, liegt daran, dass alle Spalten von P0 im Bild von P0, also

in V0 und damit insbesondere in V liegen und daher bei Multiplikation mit P

nicht mehr geandert werden. Anschaulich ist diese Beziehung auch klar: PP0

bedeutet, dass zuerst auf V0 und dann auf V projiziert wird; da V0 aber in V liegt,

andert die zweite Projektion nichts mehr am Ergebnis der ersten. Die Beziehung

P0P = P0 folgt dann unmittelbar durch Transponieren des schon gefundenen

Ergebnisses, was P′0P

′ = P′0 liefert, unter Berucksichtigung der Tatsache, dass

P und P0 orthogonale Projektionen sind und folglich mit ihren Transponierten

ubereinstimmen.

Hieraus folgert man als nachstes, dass P − P0 eine orthogonale Projektion ist.

Man pruft dazu die beiden Bedingungen fur eine solche Projektion nach, ob

namlich die Matrix beim Quadrieren und beim Transponieren gleich bleibt. Fur

das Transponieren folgt das unmittelbar daraus, dass sich P und P0 dabei nicht

andern, und Quadrieren ergibt

(P−P0)2 = P2 −P0P−PP0 + P2

0 = P−P0 −P0 + P0 = P−P0 ,

wegen der gerade hergeleiteten Beziehung und der Tatsache, dass P und P0 beim

Quadrieren gleich bleiben.

Die Abbildung P−P0 ist also eine orthogonale Projektion. Das Bild dieser Pro-

jektion soll U heißen und noch genauer untersucht werden; dabei soll fur P−P0

kurz PU geschrieben werden.

Die Dimension von U , also der Rang von PU = P− P0 stimmt bekanntlich mit

der Spur von P−P0 uberein, die hier gleich der Differenz der Spuren von P und

P0 ist, also die Differenz von deren Rangen. Das Ergebnis ist r − r0.

Der Unterraum U ist in V gelegen, da sowohl das Bild von P als auch das von

P0 in V liegen, und damit auch das Bild von P−P0, was ja gerade U ist. Dieser

Unterraum ist daher senkrecht zu V ⊥, dem Fehlerraum des allgemeinen Modells.

Der Unterraum U ist auch senkrecht zu V0, was man beispielsweise einsieht, in-

dem man die Gleichung P′0(P − P0) = 0 zeigt; alle Elemente von V0 sind ja

Linearkombinationen der Spalten von P0 und alle Elemente von U Linearkombi-

nationen der Spalten von P−P0, und aus der Gleichung folgt dann sofort, dass


alle Skalarprodukte von Elementen von V0 und U gleich 0 sind. Die Gleichung

folgt ihrerseits sofort aus den Eigenschaften von P und P0:

P′0(P−P0) = P0(P−P0) = P0P−P2

0 = P0 −P0 = 0 .

Insgesamt sieht man, dass man U auch als orthogonales Komplement von V0 in

V bezeichnen konnte.

Aus der Orthogonalitat der Unterraume U und V ⊥ folgt, dass die Projektion

PUy = (P − P0)y = y − y0 = e0 − e von y auf U und die Projektion e von y

auf V ⊥ unabhangig sind. Dies fuhrt leicht zu der folgenden Feststellung:

Feststellung 1. Die Statistik

F =n− r

r − r0

(Q2 − 1) =(‖ e0‖2 − ‖ e‖2)/(r − r0)

‖ e‖2/(n− r)

ist Fr−r0, n−r, δ2 -verteilt mit δ2 = ‖Xβ −P0Xβ‖2/σ2.

Nach den vorangehenden Uberlegungen gilt namlich

n− r

r − r0

(Q2 − 1) =‖PU(y)‖2/(r − r0)

‖ e‖2/(n− r)=

(‖PU(y)‖2/σ2)/(r − r0)

(‖ e‖2/σ2)/(n− r).

Hier sind Zahler und Nenner unabhangige χ2-verteilte Variablen, die jeweils durch

die Anzahl ihrer Freiheitsgrade geteilt sind, der Nenner ist zentral χ2-verteilt.

Hieraus folgt, daß der Quotient tatsachlich F -verteilt ist. Es bleibt nur der Non-

zentralitatsparameter δ2 zu bestimmen.

Dieser ist gleich

‖PU(E(y))‖2/σ2 = ‖PU(Xβ)‖2/σ2 = ‖P(Xβ)−P0(Xβ)‖2/σ2

= ‖Xβ −P0Xβ‖2/σ2 ,

da Xβ bereits in V liegt und daher durch die Projektion P unverandert bleibt.

¤

Damit ergibt sich ein Test der linearen Hypothese:

Feststellung 2. Es sei die Gultigkeit des allgemeinen Modells y ∼ N(Xβ, σ2I)

vorausgesetzt; die Designmatrix X besitze Rang r und der von ihren Spalten

erzeugte Unterraum sei V . Ein eingeschranktes Modell sei gegeben durch eine


Designmatrix X0, die den Rang r0 besitzt. Der durch die Spalten von X0 erzeugte

Unterraum V0 sei in V gelegen. Dann konnen die Hypothesen

H0 : E(y) ∈ V0

H1 : E(y) 6∈ V0 ,

auf dem Niveau α mit Hilfe der Statistik

F =(‖ e0‖2 − ‖ e‖2)/(r − r0)

‖ e‖2/(n− r)

gestestet werden, wobei e0 und e die geschatzten Fehler im eingeschrankten

und im allgemeinen Modell sind. Unter H0 besitzt diese Statistik eine Fr−r0,n−r-

Verteilung; die Nullhypothese ist daher zu verwerfen, falls

F ≥ Fr−r0, n−r; α

gilt. ¤

Anmerkungen. Bevor diese Form des Hypothesentestens durch Beispiele illu-

striert wird, folgen noch einige Anmerkungen.

Die erste Anmerkung betrifft den Zahler des F -Bruchs. Der entscheidende Faktor

(‖ e0‖2 − ‖ e‖2) lasst sich auch anders schreiben:

‖ e0‖2 − ‖ e‖2 = ‖ e0 − e‖2 = ‖ y − y0‖2 = ‖ y‖2 − ‖ y0‖2 .

Dass die ersten beiden Gleichheiten gelten, hat sich schon oben gezeigt, die letzte

folgt aus dem Satz des Pythagoras, weil (y − y0) orthogonal zu y0 ist, denn der

erste Vektor liegt in U und der zweite in V0.

Je nachdem, welche Schreibweise man fur diesen Faktor wahlt, kann man ihn

unterschiedlich interpretieren. Der Ausdruck ‖ e0‖2 − ‖ e‖2 ist die Differenz der

Fehlerquadratsummen in den beiden Modellen, wahrend ‖ e0 − e‖2 die Quadrat-

summe der Fehlerdifferenzen ist. Die Form ‖ y − y0‖2 lasst sich deuten als Qua-

dratsumme der Differenz der Vorhersagen der beiden Modelle, wahrend der letzte

Ausdruck die Differenz der Quadratsummen der Vorhersagevektoren der beiden

Modelle ist. Der Terminus’Quadratsumme‘ in Bezug auf einen Vektor meint

dabei einfach die Summe der quadrierten Komponenten des Vektors.

Aus dem Satz des Pythagoras folgt einerseits ‖y‖2 = ‖ y‖2 + ‖ e‖2 und anderer-

seits ‖ y‖2 = ‖ y0‖2 + ‖ y − y0‖2, was man kombinieren kann zu

‖y‖2 = ‖ y0‖2 + ‖ y − y0‖2 + ‖ e‖2 .


Dies lasst sich als eine Quadratsummenzerlegung verstehen: Die Quadratsumme

von y setzt sich additiv zusammen aus der Quadratsumme der Vorhersage unter

H0, der Quadratsumme der Vorhersagedifferenz und der Fehlerquadratsumme.

Gelegentlich fuhrt man die Sprechweisen der’Quadratsumme eines Modells‘ und

der’Freiheitsgrade eines Modells‘ ein, deren Gebrauch jedoch leider nicht ganz

einheitlich ist. Zunachst sei mit dem Term’Quadratsumme‘ die Summe der qua-

drierten Modellvorhersagen bezeichnet und mit dem Term’Freiheitsgrade‘ die

Dimension des zum Modell gehorenden Unterraums. Solche Sprechweisen sind

besonders dann praktisch, wenn man mehrere teilweise hierarchisch geordnete

Modelle hat, bei denen unterschiedliche Tests durchgefuhrt werden sollen, wie

beispielsweise bei der zweifaktoriellen Varianzanalyse.

In diesem Sprachgebrauch ist die Quadratsumme des Modells der Nullhypothese

gleich ‖ y0‖2 und die Anzahl der Freiheitsgrade dieses Modells ist r0; diese Großen

seien alternativ mit SS0 und df0 bezeichnet (die Abkurzungen stehen naturlich fur

’Sum of Squares‘ und

’Degrees of Freedom‘). Entsprechend ist die Quadratsumme

des Modells der Alternativhypothese gleich ‖ y‖2 mit r Freiheitsgraden; hier sollen

alternativ die Ausdrucke SS1 und df1 Verwendung finden. Praktisch ist es auch,

von einem’Modell‘ ohne Einschrankung zu sprechen, bei dem der zugehorige

Vektorraum der gesamte Personenraum ist und die’Vorhersage‘ der Datenvektor

selbst (es gibt hier eigentlich gar kein Modell). Die Quadratsumme ware hier ‖y‖2

und die Anzahl der Freiheitsgrade gleich n; als Abkurzungen sollen SSt und dft

benutzt werden (wobei t fur’total‘ steht).

Mit diesen Vereinbarungen lasst sich der F -Bruch nach den vorangehenden Uber-

legungen auch in der folgenden eingangigen Form schreiben:

F =(SS1 − SS0)/(df1 − df0)

(SSt − SS1)/(dft − df1),

der F -Bruch ist dann dargestellt als ein Quotient von Differenzen von Quadrat-

summen, die durch die zugehorigen Differenzen ihrer Freiheitsgrade geteilt sind.

Eine spezielle Situation liegt dann vor, wenn der Vektor 1 in V0 und damit ins-

besondere auch in V liegt, wenn also der Fall, dass die Erwartungswerte aller

Beobachtungen gleich sind, mit beiden Modellen vertraglich ist. In diesem Fall

kann man die Quadratsummen um die zugehorige Konstante gewissermaßen be-

reinigen, wie nun dargelegt werden soll.

Mit Pm sei dazu die Projektion auf den durch 1 erzeugten Unterraum bezeich-

net (m fur Mittelwert) und mit Q = I−Pm die Projektion auf das orthogonale


Komplement dieses Unterraums (Q ist naturlich dann die Zentriermatrix). Be-

kanntlich ist dann fur einen beliebigen Vektor y die Projektion Pmy gleich y1

(der mit dem Mittelwert y der Komponenten von y multiplizierte Vektor 1) und

Qy der Vektor der Abweichungen vom Mittelwert, der sonst oft mit y bezeichnet

wurde. Die Vektoren Pmy und Qy stehen senkrecht aufeinander, und schließlich

ist ‖Pmy‖2 = n y2 und ‖Qy‖2 die Summe der quadrierten Abweichungen von y,

also das n-fache der Varianz der Komponenten von y. Es gilt

‖y‖2 = ‖Pmy‖2 + ‖Qy‖2 .

Auch ‖Qy‖2, also das n-fache der Varianz von y wird nun gelegentlich als Qua-

dratsumme bezeichnet (was es ja auch ist), und es ist nicht ganz falsch, sie als

um den Mittelwert bereinigt anzusehen.

Ist P0 die Projektion auf V0, so gilt wegen 1 ∈ V0 die Beziehung

<1, y> = <P01, y> = <1, P0y> = <1, y0 > ,

und Division durch n zeigt, dass der Mittelwert der Komponenten von y gleich

dem Mittelwert der Komponenten von y0 ist – mit anderen Worten: der Mittel-

wert der Daten ist gleich dem Mittelwert der unter H0 geschatzen Vorhersage.

Dies gilt naturlich mit der gleichen Argumentation auch fur die Vorhersage y

unter H1.

Hieraus folgt sofort

Pmy = Pmy = Pmy0 ,

weshalb auch die quadrierten Normen dieser drei Vektoren gleich sind. Außerdem

folgt, dass der Mittelwert der Komponenten von e = y − y als Differenz der

Mittelwerte von y und y gleich 0 ist – der Mittelwert der geschatzten Fehler ist

also gleich 0. Ebenso folgt, dass der Mittelwert der Komponenten von y − y0

gleich 0 ist.

Die Vektoren e und y − y0 sind also bereits zentriert, werden also durch Q auf

sich selbst abgebildet, es gilt also Qe = e und Q(y − y0) = y − y0. Bei den

Gleichungen

‖y‖2 = ‖Pmy‖2 + ‖Qy‖2

‖ y‖2 = ‖Pmy‖2 + ‖Qy‖2

‖ y0‖2 = ‖Pmy0‖2 + ‖Qy0‖2


sind die ersten Summanden auf der rechten Seite gleich groß, woraus beispiels-

weise

‖y‖2 − ‖ y‖2 = ‖Qy‖2 − ‖Qy‖2

folgt; entsprechende Ergebnisse gelten fur die weiteren Differenzen.

Die gesammelten Teilergebnisse fur den Fall 1 ∈ V0 konnen jetzt kombiniert

werden. Zunachst kann man die Quadratsummenzerlegung

‖y‖2 = ‖ y0‖2 + ‖ y − y0‖2 + ‖ e‖2

umschreiben zu

‖Pmy‖2 + ‖Qy‖2 = ‖Pmy0‖2 + ‖Qy0‖2 + ‖Q(y − y0)‖2 + ‖Qe‖2

und gelangt wegen ‖Pmy‖2 = ‖Pmy0‖2 zu

‖Qy‖2 = ‖Qy0‖2 + ‖Q(y − y0)‖2 + ‖Qe‖2 .

Dies ist eine wieder eine Quadratsummenzerlegung, hier eine, bei der es bei den

Quadratsummen um die Summen der quadrierten Abweichungen vom Mittelwert

geht (dies wird ja gerade durch Q bewirkt). Dividiert man durch n, so hat man

eine Varianzzerlegung: Die Varianz der Daten ist die Summe der Varianz der

geschatzten Vorhersage unter H0, der Varianz der Differenzen der geschatzten

Vorhersagen unter H1 und H0 und der Varianz der Fehler. Bei den letzten beiden

Summanden rechts kann man, wie sich gezeigt hat, die Matrix Q auch weglassen;

hier steht sie nur zur Verdeutlichung.

Naturlich kann man zur letzten Gleichung ‖Pmy‖2, beispielsweise in der Form

n y2 wieder hinzuaddieren, um zu folgender Zerlegung zu gelangen:

‖y‖2 = n y2 + ‖Qy0‖2 + ‖Q(y − y0)‖2 + ‖Qe‖2 ,

in der die drei letzten Ausdrucke wieder mit n multiplizierte Varianzen sind.

Bei Modellen, bei denen der Vektor 1 in V0 enthalten ist, hat gelegentlich der

Ausdruck’Quadratsumme eines Modells‘ eine andere Bedeutung, namlich nicht

die der Summe der quadrierten Komponenten der geschatzten Vorhersage, son-

dern die der Summe der quadrierten Abweichungen vom Mittelwert (die n-fache

Varianz). Als Quadratsumme des H0-Modells wird dann nicht ‖ y0‖2 verstanden,

sondern ‖Qy0‖2 . Entsprechend wird als Quadratsumme des H1-Modells der Aus-

druck ‖Qy‖2 (statt ‖ y‖2) und als Gesamtquadratsumme ‖Qy‖2 (statt ‖y‖2) be-

zeichnet. Die zugehorigen Freiheitsgrade werden entsprechend um 1 vermindert.


Wegen der oben gefundenen Beziehungen ‖ e‖2 = ‖y‖2−‖ y‖2 = ‖Qy‖2−‖Qy‖2

und ‖ y‖2 − ‖ y0‖2 = ‖Qy‖2 − ‖Qy0‖2 bleibt jedoch die Formel

F =(SS1 − SS0)/(df1 − df0)

(SSt − SS1)/(dft − df1)

auch richtig, wenn man den SS und df die neuen Bedeutungen verleiht, da sich

auch die Verminderungen der Freiheitsgrade um 1 gerade in der Subtraktion

kompensieren. Zur Unterscheidung sollen diese Quadratsummen auch’bereinigt‘

heißen, im Gegensatz zu den zuerst behandelten’unbereinigten‘.

In Ausdrucken von Computerprogrammen findet man unter der Rubrik Qua-

dratsumme bisweilen die Quadratsummen im Sinne der quadrierten Werte, in

dem Fall, dass 1 in V0 liegt, stattdessen die Summen der quadrierten Abweichun-

gen vom Mittelwert, haufig jedoch auch eine Differenz von Quadratsummen, also

einen Ausdruck der Form (SS1 − SS0). Die Bedeutung des Ausdrucks’Quadrat-

summe‘ im konkreten Fall sollte sich meist aus dem Kontext leicht herausfinden

lassen.

Es folgt schließlich eine Veranschaulichung der Bildung des NZP

δ2 = ‖Xβ −P0Xβ‖2/σ2 :

Man setzt den wahren Erwartungswertvektor Xβ als Datenvektor ein und schatzt

die Parameter unter dem speziellen Modell; der geschatzte Erwartungswertvek-

tor im Modell der Nullhypothese ist dann P0Xβ. Der geschatzte Fehlervektor

unter H0 ist folglich Xβ−P0Xβ. Der NZP kann damit kurz beschrieben werden

als die durch σ2 dividierte Fehlerquadratsumme des als Datenvektor aufgefassten

wahren Erwartungswertvektors unter dem Modell der Nullhypothese. Insbeson-

dere ist bei Gultigkeit des speziellen Modells der NZP gleich Null, da dann ja der

Erwartungswertvektor bereits in V0 liegt.

Gelegentlich mochte man den NZP δ2 aufgrund von erhobenen Daten schatzen.

Eine naheliegende Moglichkeit soll nun beschrieben werden. Man schatzt Xβ

erwartungstreu durch y und entsprechend P0Xβ erwartungstreu durch P0y =

P0Py = P0y = y0. Hieraus gewinnt man ‖ y − y0‖2 als’Schatzung‘ des Zahlers

‖Xβ −P0Xβ‖2 des NZP (sie ist nicht mehr erwartungstreu); den Nenner σ2

kann man erwartungstreu mit ‖ e‖2/(n − r) schatzen. Schatzt man dann den

Quotienten δ2 durch den Quotienten der Schatzer, so erhalt man als Schatzung

‖ y − y0‖2

‖ e‖2/(n− r)= (r − r0) F ,


also das (r − r0)-fache des empirischen F -Bruchs. Dass diese doch recht naive

Schatzung nicht erwartungstreu sein wird, erkennt man beispielsweise daran, dass

sich bei Gultigkeit der Nullhypothese als Erwartungswert das (r − r0)-fache des

Erwartungswerts der entsprechenden F -Verteilung ergibt, wahrend der NZP hier

gleich 0 ist.

Beispiele. Zunachst soll die einfaktorielle Varianzanalyse besprochen werden. In

J Gruppen mit jeweils nj Beobachtungen liegen insgesamt N =∑

nj Einzeldaten

vor, die wie ublich zu einem Vektor y zusammengefasst seien.

Das Modell der Varianzanalyse war oben schon dargestellt worden, der Unterraum

V ist J-dimensional und wird durch die Spalten der Designmatrix aufgespannt.

Die Nullhypothese, dass alle Gruppenerwartungswerte gleich sind, entspricht dem

Unterraum V0, der durch den Vektor 1 erzeugt wird. Hier hat man also ein Beispiel

dafur, dass 1 in V0 liegt; in diesem Fall besteht V0 sogar aus nicht mehr als den

Vielfachen von 1.

Fur das varianzanalytische Modell hatte sich schon herausgestellt, dass der Vektor

y aus y dadurch entsteht, dass man alle Beobachtungen durch ihren gruppen-

spezifischen Mittelwert ersetzt. Entsprechend erhalt man die Schatzung y0 unter

dem Modell der Nullhypothese dadurch, dass man alle Beobachtungen durch den

Gesamtmittelwert y ersetzt.

Fur den Fehler (unter H1) war schon ‖ e2‖ = SSw ermittelt worden, und da die

Dimension von V gleich N −J ist, erhalt man als erwartungstreue Schatzung fur

σ2 den Ausdruck SSw/(N − J) = MSw.

Der Vektor y − y0 besitzt als Komponente an der Stelle jeder einzelnen Beob-

achtung die Abweichung des gruppenspezifischen Mittelwerts vom Gesamtmit-

telwert. Daher ist ‖ y − y0‖2 gerade SSb, die Quadratsumme zwischen. Da die

Dimensionen von V und V0 hier J und 1 sind, erhalt man als Test den wohlbe-

kannten F -Bruch:

F =SSb/(J − 1)

SSw/(N − J)=

MSb

MSw

.

Am Beispiel der Varianzanalyse sollen auch die oben gemachten Anmerkungen

weiter verdeutlicht werden. Vielleicht ist es nicht ganz uberflussig, das Beispiel

sogar ganz konkret zu machen und auch einen moglichen Datensatz zu untersu-

chen.

Es seien also drei Gruppen vom Umfang 3, 2, 3 gegeben. Die Designmatrizen fur


das Modell der Varianzanalyse und das der Nullhypothese sind dann

X =

1 0 0

1 0 0

1 0 0

0 1 0

0 1 0

0 0 1

0 0 1

0 0 1

, X0 =

1

1

1

1

1

1

1

1

In den drei Gruppen mogen nacheinander die Daten 1, 2, 3, 3, 5, 5, 5, 8 erhoben

worden sein, was zu Mittelwerten 2, 4, 6 und zum Gesamtmittelwert 4 fuhrt. Man

erhalt damit sofort

y =

1

2

3...3

5...5

5

8

, y =

2

2

2...4

4...6

6

6

, y0 =

4

4

4...4

4...4

4

4

, y − y0 =

−2

−2

−2...0

0...2

2

2

, e = y − y =

−1

0

1...−1

1...−1

−1

2

,

wobei eingestreuten Punkte nur die Grenzen zwischen den Gruppen verdeutlichen

sollen.

Wer sich am konkreten Fall von den oben allgemein gegebenen Tatsachen uberzeu-

gen will, rechnet beispielsweise leicht nach, dass die Vektoren y0, y − y0 und

e senkrecht aufeinander stehen. Fur die quadrierten Normen der Vektoren gilt

‖y‖2 = 162, ‖ y‖2 = 152, ‖ y0‖2 = 128, ‖ y − y0‖2 = 24, ‖ e‖2 = 10, in der Tat

gelten also die Gleichungen ‖ y‖2 = ‖ y‖2 + ‖ e‖2, ‖ y − y0‖2 = ‖ y‖2 − ‖ y0‖2

und die Quadratsummenzerlegung ‖ y‖2 = ‖ y0‖2 + ‖ y − y0‖2 + ‖ e‖2.

Die Bemerkung uber die unterschiedlichen Schreibweisen fur ‖ y − y0‖2 hat bei-

spielsweise die Konsequenz, dass man SSb auch berechnen kann als ‖ y‖2−‖ y0‖2,

also als∑

nj y2j −N y2.

Im konkreten Beispiel kann man nun die bekannte Ergebnistabelle der Varianz-


analyse aufschreiben:

Varianzquelle SS df MS F

between 24 2 12 6

within 10 5 2

total 34 7

Auch die Moglichkeit, Modellen Quadratsummen und Freiheitsgrade zuzuordnen,

aus denen sich dann die Teststatistik ergibt, soll an diesem einfachsten Beispiel

erlautert werden. Zunachst soll die Version ohne Bereinigung um den Mittelwert

vorgestellt werden. Man hat dann:

Modell SS df

H0 SS0 = ‖ y0‖2 1

H1 SS1 = ‖ y‖2 J

kein Modell SSt = ‖y‖2 N

Fur das konkrete Beispiel erhalt man

Modell SS df

H0 128 1

H1 152 3

kein Modell 162 8

Man erkennt sofort, wie man die Quadratsummen und Freiheitsgrade der Ergeb-

nistabelle der Varianzanalyse durch Differenzbildung der entsprechenden Zeilen

dieser Tabelle errechnet.

Im Falle der Varianzanalyse ist der Vektor 1 ein Element von V0, und deshalb

wird man meistens nicht die eben vorgenommene Aufstellung machen, sondern

die, in denen man mit den Summen der quadrierten Abweichungen vom jeweiligen

Mittelwert rechnet. Dabei andert der Terminus’Quadratsumme‘ entsprechend

seine Bedeutung. Zunachst erkennt man aber, dass in der Tat die Mittelwerte

der Komponenten der Vektoren y, y und y0 alle gleich, namlich 4 sind, und dass

die Mittelwerte der Komponenten des geschatzten Fehlers und von y− y0 gleich

0 sind.

Hier ist zunachst die Tabelle der’bereinigten‘ Quadratsummen mit den entspre-

chend um 1 verminderten Freiheitsgraden:

Modell SS df

H0 SS0 = ‖Qy0‖2 0

H1 SS1 = ‖Qy‖2 J − 1

kein Modell SSt = ‖Qy‖2 N − 1


Dabei bezeichnet Q wieder die Zentriermatrix. Man uberzeugt sich leicht, dass

im konkreten Fall die’bereinigten‘ Quadratsummen sich aus den

’unbereinigten‘

tatsachlich dadurch ergeben, dass man N y2, hier also 128 abzieht. Damit erhalt

man konkret die Tabelle

Modell SS df

H0 0 0

H1 24 2

kein Modell 34 7

Es sei nochmals darauf hingewiesen, dass hier die Quadratsummen bis auf den

Faktor 1/8 die Varianzen der Komponenten der Vektoren y0, y und y sind.

Auch aus dieser Tabelle erhalt man die Ergebnistabelle der Varianzanalyse durch

Differenzbildung.

Schließlich sei noch erwahnt, dass in der Quadratsummenzerlegung

‖Qy‖2 = ‖Qy0‖2 + ‖Q(y − y0)‖2 + ‖Qe‖2

der erste Summand auf der rechten Seite hier gleich 0 ist (y0 liegt ja in V0 und

ist daher hier ein Vielfaches von 1) und damit die bekannte Zerlegung

SStot = SSb + SSw

ubrigbleibt (wie oben schon erwahnt, kann man bei den beiden letzten Summan-

den auf der rechten Seite die Matrix Q weglassen, da ja die dort durch Q zu

zentrierenden Vektoren bereits zentriert sind).

Will man im konkreten Beispiel noch den NZP nach dem oben gemachten Vor-

schlag schatzen, so muss man nur den Wert des F -Bruchs mit der Anzahl der

Zahlerfreiheitsgrade multiplizieren und erhalt als Schatzung den Wert 12.

Die nachsten beiden Beispiele gehoren zur multiplen Regression.

Sind zunachst m Pradiktoren gegeben (von denen wie ublich keiner Linearkombi-

nation der ubrigen sein soll), so kann die Nullypothese getestet werden, dass alle

Regressionsgewichte gleich Null sind. Hier ist die quadrierte Norm des geschatzten

Fehlers im allgemeinen Modell gleich n(1−R2)S2Y , wahrend sie im speziellen Mo-

dell einfach nS2Y ist (dies ist die Situation des Ein-Stichproben-Tests). Die Zahl

der Fehlerfreiheitsgrade ist n − m − 1, wahrend die Range der Designmatrizen

m + 1 und 1 sind. Die Nullhypothese wird daher getestet mit der Statistik

F =(nS2

Y − n(1−R2)S2Y )/m

n(1−R2)S2Y /(n−m− 1)

=n−m− 1

m

R2

1−R2,


die unter H0 eine F -Verteilung mit m Zahler- und n−m−1 Nennerfreiheitsgraden

besitzt.

Der entscheidende Teil der Teststatistik, namlich R2/(1−R2), ist eine monotone

Funktion von R2; unter sonst gleichen Umstanden wird die Statistik also um so

leichter signifikant, je großer R2 ist, was auch sehr plausibel ist. Die Tatsache, dass

es im Wesentlichen beim Testen um die Große von R2 geht, verleitet manchmal

zu der Formulierung, man wurde hier testen,’ob sich R2 signifikant von 0 unter-

scheidet‘. Obwohl diese Formulierung offensichtlich schief bis unsinnig ist, hat sie

doch den kleinen Vorteil, darauf hinzuweisen, worauf es beim Test hauptsachlich

ankommt.

Bisher wurde das Modell der multiplen Regression im Rahmen des ALM be-

handelt, was unter anderem bedeutet, dass die Werte der Pradiktoren als vom

Untersucher gesetzt behandelt werden. Keinesfalls sind die Pradiktoren also also

Zufallsvariablen aufzufassen.

Fur viele inhaltliche Fragestellungen durfte diese Voraussetzung nicht zutreffen,

vielmehr wird es oft so sein, dass auch die Pradiktoren ihre Werte durch einen

Zufallsprozess erhalten. Damit wird der Rahmen des ALM gesprengt.

Dennoch lasst sich der oben besprochene Test unter gewissen Voraussetzungen

auch in diesem Fall anwenden, was nun kurz skizziert werden soll.

Die Voraussetzungen konnen beispielsweise darin bestehen, dass sich die gemein-

same Verteilung der Pradiktoren durch eine Dichtefunktion kennzeichnen lasst,

(Normalverteilung wird hier also nicht benotigt), dass sich die Kriteriumsvariable

fur jede mogliche Wertekombination der Pradiktoren so ergibt, wie es das ALM

fordert (Normalverteilung des Fehlers mit Varianzhomogenitat), und dass die ein-

zelnen Beobachtungen unabhangig voneinander sind. Ferner ist vorauszusetzen,

dass die Kovarianzmatrix der Pradiktoren Maximalrang m besitzt (hier handelt es

sich jetzt wirklich um eine Kovarianzmatrix im wahrscheinlichkeitstheoretischen

Sinn, nicht nur um eine deskriptive Kovarianzmatrix wie im ALM).

Es lasst sich dann zeigen, dass bei mindestens m+1 Beobachtungen die Designma-

trix, die man mit den Zufallswerten der Pradiktoren genau wie im ALM herstellen

kann, mit Wahrscheinlichkeit 1 den Rang m + 1 besitzt, so dass man formal den

oben angegebenen Test durchfuhren kann. Bei Gultigkeit der Nullhypothese, dass

alle Gewichte in den Vorhersagegleichungen gleich 0 sind, ist dann die bedingte

Verteilung der Teststatistik die oben angegebene F -Verteilung, wenn als Bedin-


gung die genommen wird, dass die Pradiktoren irgendwelche festen Werte haben,

die zu einer Designmatrix mit maximalem Rang fuhren.

Unter der Nullhypothese stimmen also die bedingten Verteilung der Teststati-

stik fur fast alle moglichen Werte der Pradiktoren uberein, weshalb dann die

’unbedingte‘ Verteilung der Teststatistik (sozusagen die Randverteilung) eben-

falls gleich der angegebenen F -Verteilung ist. Der Test kann also so durchgefuhrt

werden wie oben angegeben.

Es soll noch kurz auf Schwierigkeiten bei dieser eigentlich ziemlich einleuchten-

den Argumentation hingewiesen werden, um zu vermeiden, dass Plausibilitat mit

Begrundung verwechselt wird. Eine Hauptschwierigkeit liegt in der bei stetigen

Verteilungen alles andere als einfachen Definition einer bedingten Verteilung –

man kann ja nicht einfach die Wahrscheinlichkeiten fur gewisse Ereignisse durch

die Wahrscheinlichkeit dividieren, dass die Bedingungsvariable einen bestimm-

ten Wert annimmt, denn diese letzte Wahrscheinlichkeit ist immer 0. Auch der

Nachweis, dass die sich zufallig ergebende Designmatrix mit Wahrscheinlichkeit 1

maximalen Rang besitzt, ist nicht ganz trivial. Diese Schwierigkeiten lassen sich

jedoch mit den Hilfsmitteln einer entsprechend ausgebauten Wahrscheinlichkeits-

theorie uberwinden.

Uber die Verteilung der Teststatistik unter der Alternativhypothese konnen oh-

ne weitere Voraussetzungen uber die Verteilung der Pradiktoren keine Aussagen

gemacht werden. Hier kann die Voraussetzung der Multinormalverteilung der

Pradiktoren vorteilhaft sein. Eine nonzentrale F -Verteilung wird sich jedoch im

Allgemeinen nicht ergeben, so dass auch die power nicht in der gewohnten Weise

ermittelt werden kann.

Es sei noch angemerkt, dass man hier die Alternativhypothese so formulieren

kann, dass die theoretische(!) multiple Korrelation zwischen Pradiktoren und Kri-

teriumsvariable nicht 0 ist; die oben missbilligte Formulierung lasst sich also im

Fall stochastischer Pradiktoren durch eine leichte Modifikation retten (eine sol-

che Formulierung impliziert naturlich nicht die anderen Voraussetzungen, wie

beispielsweise die Linearitatsvoraussetzungen).

Es gibt einen weiteren Fall, in dem man den geschilderten F -Test gerne anwenden

wurde, in dem er jedoch nicht gerechtfertigt ist, und das ist der Fall von fehler-

behafteten Pradiktoren. Wenn man sich im Sinne der Klassischen Testtheorie die

Pradiktoren als fehlerbehaftet denkt und von der Kriteriumsvariable voraussetzt,

dass sie im Sinne des ALM beeinflusst wird durch die wahren Pradiktorwerte, also


eben nicht durch die gemessenen (also beispielsweise nicht durch die gemessene

Intelligenz sondern durch die dahinterliegende wahre Intelligenz, die gerade nicht

in gemessener Form vorliegt), so ist eine inferenzstatistische Regression (mit den

gemessenen Pradiktoren) leider nicht adaquat. In solchen Fallen muss man auf

andere Methoden zuruckgreifen.

Die hier gemachten Anmerkungen uber stochastische Pradiktoren gelten in ent-

sprechender Form auch fur den als nachstes zu besprechenden Fall, dass man nur

den Einfluss eines Teils der Pradiktoren untersucht, oder auch fur die Kovarian-

zanalyse.

Im nachsten Beispiel geht es, wieder in der Situation der Regression im Rahmen

des ALM, um die Frage, ob alle Regressionsgewichte einer gewissen Teilmenge

von q der m Pradiktoren gleich Null sind (Nullhypothese). Zur Untersuchung

dieser Frage ist wieder der Fehler unter beiden Modellen zu schatzen. Sind die

multiplen R2-Werte fur das spezielle Modell gleich R20 und fur das allgemeine

gleich R2, so erhalt man als Teststatistik wie oben

F =(n(1−R2

0)S2Y − n(1−R2)S2

Y )/q

n(1−R2)S2Y /(n−m− 1)

=n−m− 1

q

R2 −R20

1−R2,

die unter H0 eine F -Verteilung mit q Zahler- und n−m−1 Nennerfreiheitsgraden

besitzt.

Hier spielt in der Teststatistik die Differenz R2 − R20 eine entscheidende Rolle,

also der relative Zuwachs an aufgeklarter Varianz bei Hinzufugung der untersuch-

ten q Pradiktoren. Dies verfuhrt wieder zu einer suggestiven, aber schiefen bis

unsinnigen Formulierung, namlich der, man wurde hier testen,’ob der Zuwachs

an aufgeklarter Varianz signifikant ist‘.

Nun ein konkretes Beispiel zur Kovarianzanalyse. Zu untersuchen sind drei Grup-

pen im Hinblick auf eine abhangige Variable Y . Zum Beispiel konnte die Frage

lauten, ob sich Absolventen dreier Studiengange in der Fahigkeit, komplexe Pro-

bleme zu losen, unterscheiden. Es ist davon auszugehen, daß noch eine weitere,

zusatzlich erhobene Variable U eine Rolle spielt, zum Beispiel die Intelligenz. Den

Einfluß dieser Variable halt man in jeder Gruppe fur linear, wobei Gleichheit der

Steigungen vorausgesetzt ist. Dies fuhrt zum Ansatz der Kovarianzanalyse:

yij = βuij + µj + eij ,

wobei β die gemeinsame Steigung ist und µj der Achsenabschnitt in der j-ten

Gruppe; die Werte yij sind mit der Gruppe j und dem Index i der Person inner-

halb der Gruppe indiziert.


Zur Interpretation: Die µj sind die Erwartungswerte fur den Fall, daß die Ko-

variate U den Wert 0 annimmt. Man bildet hier sozusagen die Erwartungswerte

der Gruppen unter gleichen Bedingungen, was U angeht, bzw. man extrapoliert

(linear) auf den gleichen Wert von U .

Es ist ubrigens bei Betrachtung der Unterschiede zwischen den Gruppen unwe-

sentlich, ob man die Erwartungswerte fur den Wert 0 von U oder fur irgendeinen

anderen gemeinsamen Wert bildet, da Differenzen wegen der gleichen Steigung

in den Gruppen uberall gleich sind. Ublich ist es, die Erwartungswerte fur den

Durchschnitt u von U zu betrachten; fur Gruppe j ist dieser Erwartungswert, der

γj heißen soll, gleich βu + µj.

Dies entspricht einer Parametertransformation, namlich der, bei man in der De-

signmatrix den zu der Kovariate gehorenden Spaltenvektor zentriert. Wahlt man

die Reihenfolge der Spalten in der Designmatrix so, dass als erstes der zur Ko-

variate gehorende Vektor kommt, dem dann die aus Nullen und Einsen beste-

henden Vektoren folgen, die die Gruppenzugehorigkeit kodieren, so erhalt man

die Transformation der neuen Designmatrix zur alten, indem man das u-fache

aller Gruppenkodiervektoren zum Kovariatenvektor hinzuaddiert; die Transfor-

mationsmatrix T hat also die Gestalt

1 0 . . . 0

u 1...

. . .

u 1

,

wobei die leeren Stellen durch Nullen aufzufullen sind. Da diese Matrix auch die

Transformationsmatrix des alten Parametervektors zum neuen ist, erkennt man,

dass der erste Parameter β gleich bleibt und seine Bedeutung als Steigung behalt,

wahrend die folgenden Parameter µj ersetzt werden durch βu + µj, also in der

Tat durch die Erwartungswerte der Gruppen fur U = u.

Die Werte der Variablen U in den drei Gruppen seien die folgenden: 8, 9, 10 (erste

Gruppe), 0, 3, 6 (zweite Gruppe), 1, 3 (dritte Gruppe). Die abhangige Variable

Y soll (gleiche Reihenfolge) folgende Werte angenommen haben: -6, -10, -2 (erste

Gruppe), 8, 2, 20 (zweite Gruppe), 0, 4 (dritte Gruppe). Die Datensituation ist

in der folgenden Graphik veranschaulicht.


......................................................................................................................................................................................................................................... ...........................

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

....................

...................

U

Y

p p

p` ` p Gruppe 1

Gruppe 2` Gruppe 3

Der einfacheren Rechnung wegen werden die Parametertransformationen durch-

gefuhrt, die den u-Vektor zentrieren, also uberall den Mittelwert u = 5 abziehen.

Mit der gewohnten Reihenfolge der Spalten erhalt man dann die Designmatrizen

X =

3 1 0 0

4 1 0 0

5 1 0 0

−5 0 1 0

−2 0 1 0

1 0 1 0

−4 0 0 1

−2 0 0 1

, X0 =

1 3

1 4

1 5

1 −5

1 −2

1 1

1 −4

1 −2

.

Man erhalt daraus die folgenden Koeffizientenschemata der Normalengleichun-

gen:100 12 −6 −6 . −100

12 3 0 0 . −18

−6 0 3 0 . 30

−6 0 0 2 . 4

,8 0 . 16

0 100 . −100

Fur das Modell unter H1 ergeben sich aus den Normalengleichungen die Schat-

zungen β = 2, γ1 = −14, γ2 = 14, γ3 = 8. Daraus ergeben sich durch Rucktrans-

formation die Schatzungen µ1 = −24, µ2 = 4, µ3 = −2. Als Wert fur ‖ y‖2

ermittelt man 504 (indem man beispielsweise die geschatzten Parameter mit

der rechten Seite der Normalengleichungen multipliziert) und als Wert fur ‖y‖2


erhalt man 624. Hieraus ergibt sich ‖ e‖2 = 120, was bei 4 Freiheitsgraden zu der

Schatzung 30 fur die Fehlervarianz fuhrt.

Das Modell unter H0 liefert die Parameterschatzung β = −1 und γ = 2 (γ ist

nach der Reparametrisierung naturlich wieder der Erwartungswert fur U = u),

womit man fur den Achsenabschnitt die Schatzung α = 7 erhalt. Fur ‖ y0‖2 ergibt

sich damit 132.

Die Geraden, auf denen die geschatzten Erwartungswerte liegen, sind fur H1

und H0 in den nachsten beiden Graphiken eingezeichnet; wie man sieht, wird

der’Einfluss‘ von U ganz unterschiedlich geschatzt, je nachdem, ob man dem

Gruppierungsfaktor eine Wirkung zugesteht oder nicht.

......................................................................................................................................................................................................................................... ...........................

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

....................

...................

U

Y

p p

p` `

...............................................................................................................................................................................................

..............................................................................................................................................................................................................................................................................................................................................................

..............................................................................................................................................................................................................................................................................................................................................................................................................................................................

......................................................................................................................................................................................................................................... ...........................

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

....................

...................

U

Y

p p

p` `..................................................................................................................................................................................................................................................................................................................................

Nun kann unter Berucksichtigung der Tatsache, dass die Differenz der Range der

beiden Designmatrizen gleich 2 ist, die Teststatistik zu

F =(‖ y‖2 − ‖ y0‖2)/2

‖ e‖2/4=

372/2

120/4= 6.2

bestimmt werden. Dieser Wert ist mit dem α-Fraktil der F2,4-Verteilung zu ver-

gleichen.

Die Rechnung wurde hier mit den allgemeinen Formeln des ALM durchgefuhrt.

Es gibt auch in diesem Fall, ahnlich wie bei der multiplen Regression, speziell an-

gepasste Formeln, die man herleitet, indem man die allgemeinen Formeln fur die

speziellen Bedinungen der Kovarianzanalyse umformt. Naturlich hatte man mit

diesen Formeln das gleiche Ergebnis gefunden. Das Beispiel soll auch zeigen, dass


die allgemeine Vorgehensweise auf jeden Fall zum Ziel fuhrt, wenn auch vielleicht

nicht so bequem wie bei Benutzung von einfacheren Formeln fur Spezialfalle.

Das Modell der Kovarianzanalyse enthalt nicht nur den Gruppierungsfaktor son-

dern auch noch die Kovariate und ist daher komplexer als die bisher betrachteten.

Neben der’Wirkung‘ des Gruppierungsfaktors kann auch die der Kovariate inter-

essant sein, und damit hat man eine Situation, in der das Konzept der Quadrat-

summen unterschiedlicher Modelle seine Vorzuge erweist. Dies soll jetzt breiter

ausgefuhrt werden.

Es sollen jetzt vier Modelle betrachtet werden, namlich zunachst das, in dem

weder die Kovariate noch der Gruppierungsfaktor’Einfluss‘ haben, das Modell

ohne Kovariate, das ohne Gruppierungsfaktor und schließlich das Modell der Ko-

varianzanalyse, in dem mit beiden’Einflussen‘ gerechnet wird. Als funftes Modell

kommt wie ublich noch das ohne Restriktionen hinzu.

Im ersten Fall sollte der Erwartungswert fur alle Beobachtungen gleich sein, man

hat also als Designmatrix die Matrix, die nur aus einer Einserspalte besteht; dies

Modell sei hier M0 genannt. Das zweite Modell ist das der Varianzanalyse, das

dritte das der einfachen linearen Regression und das vierte das der Kovarianzana-

lyse. Diese Modelle seien hier der Reihe nach mit MV , MR und MK bezeichnet,

das Modell ohne Restriktionen wie oben mit Mt.

Man erkennt sofort, dass es zwischen diesen Modellen gewisse Hierarchien gibt:

alle Modelle sind Obermodelle von M0 (was bedeutet, dass die Spalte der Design-

matrix von M0 in den Erzeugnissen aller anderen Designmatrizen liegt) und MK

ist Obermodell von MV und MR. In Abanderung der oben benutzten Terminolo-

gie sollen jetzt die geschatzten Vorhersagen des Erwartungswertvektors mit y0,

yV , yR und yK bezeichnet werden (yR wurde also oben als y0 bezeichnet und

yK als y).

Das Modell M0 besitzt nur einen Parameter, der durch den Mittelwert aller Beob-

achtungen (hier 2) geschatzt wird, das Modell MV besitzt die Erwartungswerte

der einzelnen Gruppen als Parameter, die durch die Gruppenmittelwerte (hier

−6, 10 und 2) geschatzt werden.

Zum Vergleich mit den Schatzungen der anderen Modelle sind auch fur MV und

M0 in den nachsten beiden Graphiken die Geraden der geschatzten Erwartungs-

werte eingezeichnet. Im Vergleich zu MK fallt bei MV auf, dass die Differenzen

zwischen den Wirkungen der drei Stufen des Gruppierungsfaktors ganz anders


geschatzt werden.

......................................................................................................................................................................................................................................... ...........................

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

....................

...................

U

Y

p p

p` `....................................................................................................................................................................................................................................

....................................................................................................................................................................................................................................

....................................................................................................................................................................................................................................

......................................................................................................................................................................................................................................... ...........................

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

....................

...................

U

Y

p p

p` `....................................................................................................................................................................................................................................

Zur besseren Veranschaulichung sollen die geschatzten Erwartungswertvektoren

der Modelle hier mit aufgefuhrt werden; man erhalt

y =

−6

−10

−2....8

2

20....0

4

, y0 =

2

2

2....2

2

2....2

2

, yV =

−6

−6

−6....10

10

10....2

2

, yR =

−1

−2

−3....7

4

1....6

4

, yK =

−8

−6

−4....4

10

16....−2

6

.

Die Punkte verdeutlichen wieder nur die Gruppengrenzen. Da der Vektor 1 im

Erzeugnis aller Designmatrizen liegt, stimmen die Mittelwerte der Komponenten

aller dieser Vektoren uberein – man erhalt uberall den Wert 2.

Als Quadratsummen der Modelle wird man hier die’bereinigten‘ nehmen, wieder

aus dem Grund, dass 1 im Erzeugnis aller Designmatrizen liegt; die Freiheitsgra-

de sind entsprechend die um 1 verminderten Range der Designmatrizen. Diese

Quadratsummen sind also die Summen der quadrierten Abweichungen vom Mit-

telwert. Man kann sie andererseits auch dadurch erhalten, dass man von der Sum-

me der quadrierten Komponenten n y2 = 32 abzieht. Die Summe der quadrierten

Komponenten erhalt man naturlich auch einfacher, indem man den geschatzten

Parametervektor mit der rechten Seite der jeweiligen Normalengleichung multi-


pliziert. Es ergibt sich dann in Ubereinstimmung mit den zum Teil oben schon

durchgefuhrten Rechnungen die folgende Tabelle:

Modell SS df

M0 0 0

MV 384 2

MR 100 1

MK 472 3

Mt 592 7

In der Tabelle mit den’unbereinigten‘ Quadratsummen waren die Quadratsum-

men alle um 32 und die Zahl der Freiheitsgrade um 1 großer gewesen.

Mit Hilfe dieser Tabelle konnen nun die verschiedenen Modelle gegeneinander ge-

testet werden. Die schon oben beantwortete Frage nach der Wirkung des Grup-

pierungsfaktors kann man mit Hilfe der Tabelle erneut beantworten, indem man

die Modelle MK und MR vergleicht. Die Frage, ob die Kovariate einen Einfluss

hat, beantwortet man durch den Vergleich der Modelle MK und MV ; man erhalt

F =(SSK − SSV )/(dfK − dfV )

(SSt − SSK)/(dft − dfK)=

88/1

120/4= 2.933 ,

was mit dem α-Fraktil der F1,4-Verteilung zu vergleichen ist.

Man kann auch die Nullhypothese testen, dass weder die Kovariate noch der

Gruppierungsfaktor Einfluss haben. Dann vergleicht man die Modelle MK und

M0 und erhalt

F =(SSK − SS0)/(dfK − df0)

(SSt − SSK)/(dft − dfK)=

472/3

120/4= 5.244 ,

was diesmal mit am α-Fraktil der F3,4-Verteilung zu messen ist.

Vielleicht gelangt man auch aus irgendwelchen Grunden zu der Uberzeugung, dass

die Kovariate keinen Einfluss hat. In vergleichbaren Situationen konnte beispiels-

weise der Einfluss der Kovariate nicht signifikant sein, was als Beleg herangezogen

werden konnte – naturlich ware das nicht nur ein außerst schwaches Argument,

sondern auch eines, das nicht gerade von statistischem Verstandnis zeugt. Gleich-

wohl sei angenommen, dass es Grunde dafur gibt, einen Einfluss der Kovariate zu

verneinen. In diesem Fall wurde man eine einfache Varianzanalyse rechnen, fur

die die notigen Zahlen ebenfalls schon in der Tabelle enthalten sind. Hier sind die

Modelle M0 und MV gegeneinander zu testen und man erhalt

F =(SSV − SS0)/(dfV − df0)

(SSt − SSV )/(dft − dfV )=

384/2

208/5= 4.615


mit 2 Zahler- und 5 Nennerfreiheitsgraden.

Ebenso kann es sein, dass man einen Einfluss des Gruppierungsfaktors ausschließt

und nur testen mochte, ob die Steigung der Regression gleich 0 ist. Dann testet

man MR gegen M0 mit

F =(SSR − SS0)/(dfR − df0)

(SSt − SSR)/(dft − dfR)=

100/1

492/6= 1.220

mit einem Zahler- und 6 Nennerfreiheitsgraden.

Diese Uberlegungen sollten die Nutzlichkeit der Tabelle mit den Quadratsum-

men deutlich gemacht haben. Hatte man die’unbereinigten‘ Quadratsummen

mit den zugehorigen Freiheitsgraden genommen, so hatte man naturlich die glei-

chen Ergebnisse herausbekommen, wobei man sogar noch ein weiteres Modell fur

mogliche Nullhypothesen gehabt hatte, namlich das, dass alle Erwartungswerte

gleich 0 sind.

Selbstverstandlich wird man in einer Anwendung nicht, wie hier zur Demonstra-

tion geschehen, alles rechnen, was moglich ist, sondern nur die im konkreten Fall

sinnvollen Hypothesen testen, wobei man sich auch uber die α-Adjustierung Ge-

danken machen wird.

Zum Schluss soll noch die Frage nach der power gestellt werden. Diese Frage

kann man naturlich nur beantworten, wenn man die wahren Werte der Parameter

kennt. Man kann aber, auch wenn das nicht der Fall ist, fur die Parameter Werte

vorgeben, die man fur plausibel erachtet, und dann die power berechnen unter der

Voraussetzung, daß diese Werte richtig sind. Solche Werte konnen zum Beispiel

Schatzungen aus fruheren Untersuchungen sein.

Hier sollen folgende Werte fur die Parameter plausibel sein: β = 1, µ1 = −21,

µ2 = 7, µ3 = 1 und σ = 5. Der erste Schritt bei der Berechnung der power ist die

Berechnung des Datenvektors, der sich bei diesen Parametern fehlerfrei ergeben

hatte (also von Xβ). Dies fuhrt hier zu (−13,−12,−11, 7, 10, 13, 2, 4)′.

Zunachst soll die power fur die kovarianzanalytische Fragestellung nach der Wir-

kung des Gruppierungsfaktors bestimmt werden. Hier ist das Modell der Null-

hypothese das der einfachen linearen Regression. Zur Bestimmung der Parame-

terschatzung (nach der ublichen Transformation) kann die linke Seite der Nor-

malengleichungen von oben ubernommen werden, die rechte Seite ergibt sich zu

(0,−200)′, woraus man γ = 0 und β = −2 erhalt. Multipliziert man diese Werte

mit der rechten Seite der Normalengleichungen, so erhalt man fur die quadrierte


Norm des Vorhersagevektors den Wert 400. Die Summe der quadrierten Werte

des’Datenvektors‘ ist 772, woraus man die Summe der quadrierten Fehler zu 372

bestimmt. Mit Division durch σ2 erhalt man den NZP 14.88, was bei einem Test

auf dem 5%-Niveau zu einer power von .63 ergibt.

Naturlich hatte man auch auf anderen Wegen zu diesem Resultat kommen konnen:

beispielsweise liefert ein Auswertungsprogramm als Korrelation r zwischen den

Werten des Pradiktors U und den als Werte einer Kriteriumsvariable Y aufgefas-

sten Komponenten des’Datenvektors‘ den Wert .72 und als korrigierte Stichpro-

benvarianz von Y den Wert 110.286. Das Produkt dieser Varianz mit (1−r2) und

dem um 1 verminderten Stichprobenumfang ist dann die Summe der quadrier-

ten Fehler; hier erhalt man den Wert 371.796, was im Rahmen der Rechenge-

nauigkeit mit dem oben ermittelten korrekten Wert 372 ubereinstimmt. Je nach

zur Verfugung stehenden Programmen kann man sich noch weitere Methoden

uberlegen, so hatte ein Programm, das im Rahmen des ALM auch die Quadrat-

summen bestimmt, die Zahl 372 in der Ergebnisdarstellung direkt angezeigt.

Man kann auch nach der power des Tests nach dem Einfluss der Kovariate fragen.

Das Modell der Nullhypothese ist dann das der Varianzanalyse, die Summe der

quadrierten Fehler ist also SSw, was sich hier zu 22 errechnet. Der zugehorige

NZP ist .88 und die power bei einem Test auf dem 5%-Niveau .11.

Documents

5 Das Allgemeine Lineare Modell - uni-kiel.de · 5.1 Modell und Fragestellungen ALM07 3 geleistet werden { auf keinen Fall kann die Statistik die Denkanstrengung im inhaltlichen Bereich