25
Kapitel 8 Regressionsmodeller Vi vil i dette kapitel diskutere eksempler på mere kompliceret modeller, med obser- vationer, der nok er uafhængige, men ikke identisk fordelte. I sådanne modeller kan der opstå et naturligt behov for reskaleringsskemaer, der er mere komplicerede end den sædvanlige n-skalering. 8.1 Ikke-lineær regression I den generelle regressionsmodel med homogen støj har observationerne formen Y i = f i (β) + ǫ i for i = 1, 2,... (8.1) Her er β R k en ukendt vektor af middelværdiparametre, og ǫ 1 2 ,... er uafhængige, identisk fordelte støjvariable med middelværdi 0 (og et passende antal momenter). Funktionerne f 1 , f 2 ,... antages kendte. Som regel er der til hver observation knyttet en vektor t af kovariater, og f i ’erne er givet ved at f i (β) = f (β, t i ) hvor f er en funktion, der er fælles for alle observationerne. De lineære modeller fremkommer hvis f i (β) = β, t i for i = 1, 2,... 139

Regressionsmodeller - kuweb.math.ku.dk/~erhansen/asympteo_11/noter/kap8.pdf · til stede - katalysatormængden udgør en slags flaskehals for reaktionen. Og dels af hvor meget substratder

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

  • Kapitel 8

    Regressionsmodeller

    Vi vil i dette kapitel diskutere eksempler på mere kompliceret modeller, med obser-vationer, der nok er uafhængige, men ikke identisk fordelte. I sådanne modeller kander opstå et naturligt behov for reskaleringsskemaer, der er mere komplicerede endden sædvanlige

    √n-skalering.

    8.1 Ikke-lineær regression

    I den generelle regressionsmodel med homogen støj har observationerne formen

    Yi = fi(β) + ǫi for i = 1, 2, . . . (8.1)

    Her erβ ∈ Rk en ukendt vektor af middelværdiparametre, ogǫ1, ǫ2, . . . er uafhængige,identisk fordelte støjvariable med middelværdi 0 (og et passende antal momenter).Funktionernef1, f2, . . . antages kendte. Som regel er der til hver observation knytteten vektort af kovariater, ogfi ’erne er givet ved at

    fi(β) = f (β, ti)

    hvor f er en funktion, der er fælles for alle observationerne.

    De lineæremodeller fremkommer hvis

    fi(β) = 〈β, ti〉 for i = 1, 2, . . .

    139

  • 140 Kapitel 8. Regressionsmodeller

    hvor ti er en kovariatvektor hørende til deni’te observation. Men metamodellen (8.1)indeholder naturligvis mange andre modelklasser. For eksempel middelværdispecifi-kationer af formen

    fi(β) = g (〈β, ti〉) for i = 1, 2, . . .

    hvor ti er en kovariatvektor hørende til deni’te observation, og hvorg : R → R eren såkaldtlink funktion . I så fald bevæger vi os ind på området for generaliseredelineære modeller, ofte forkortet GLM.

    Eksempel 8.1 Et vitterligt ikke-lineært eksempel er Michaelis-Menten funktionenfra enzymkinetik,

    fi(α, β) =β tiα + ti

    . (8.2)

    Her indgårβ lineært, mensα indgår ikke-lineært. I anvendelser vilfi repræsenteresteady-state dannelseshastigheden af et kemisk produkt, når der i dannelsesreaktionenindgår en katalysator - altså et stof, der er nødvendigt for reaktionen, og som muligvisomdannes undervejs, men som ved reaktionens afslutning harsamme form som vedreaktionens begyndelse.

    I så fald vil produktionshastigheden afhænge dels af hvor meget katalysator, der ertil stede - katalysatormængden udgør en slags flaskehals forreaktionen. Og dels afhvor megetsubstratder er til stede - substrat er betegnelsen for det stof, der omdan-nes til produkt i reaktionen. Michaelis-Menten funktionenbeskriver produktionsha-stigheden som funktion af substratmængdenti , under antagelse af en fast mængdekatalysator (proportional med parameterenβ). Der er tale om en såkaldtsteady stateapproksimation til den rigtige produktionshastighed, derkun svarer til virkelighedeni det omfang produktionshastigheden er så lav at mængden af substrat essentielt ikkeændres.

    t Y t Y t Y

    2.000 0.0615 0.400 0.0138 0.222 0.00832.000 0.0527 0.400 0.0258 0.222 0.01690.667 0.0334 0.286 0.0129 0.200 0.01290.667 0.0258 0.286 0.0183 0.200 0.0087

    Tabel 8.1:Data fra et enzymkinetisk eksperiment. I hvert deleksperiment repræsentererten nøje afvejet substratmængde, mensY repræsenterer en eksperimentets respons: en måltproduktionshastighed. Data er optegnet i figur 8.1.

  • 8.1. Ikke-lineær regression 141

    0.0 0.5 1.0 1.5 2.0

    0.00

    0.01

    0.02

    0.03

    0.04

    0.05

    0.06

    Substrat

    Has

    tighe

    d

    Figur 8.1:Samhørende værdier af substratmængde og produktionshastighed fra tabel 8.1.Der er også optegnet en estimeret Michaelis-Menten kurve, medα̂ = 0.11og β̂ = 1.7. Estima-teterne er opnået ved at minimere den relevante version af (8.7) ved hjælp af en quasi-Newtonalgoritme.

    I praksis kan det være lidt tvivlsomt at anvende (8.1) med Michaelis-Menten funk-tionen som regressionsfunktion. Problemet er at der ofte vil være variansheteroge-nitet: målinger med lavet-værdier vil have mindre varians end målinger med højet-værdier. Man forsøger gerne at løse problemet ved at se på logaritmen af produk-tionshastighederne. Men det fører naturligvis til at man erstatter Michaelis-Mentenfunktionen med dens logaritme.

    Vi ved at for lineære modeller spilder designmatricen en stor rolle. Det er denn× kmatrix man får frem ved at samle kovariaterne for den første observationer. Det visersig at den såkaldtelokale designmatrix

    D fn(β) = D

    f1f2...

    fn

    (β) (8.3)

    i høj grad spiller den samme rolle i den generelle teori. Skriver man den lokale de-

  • 142 Kapitel 8. Regressionsmodeller

    signmaterix ud i koordinater, ser man at

    D fn(β) =

    ∂ f1∂β1

    ∂ f1∂β2

    . . .∂ f1∂βk

    ∂ f2∂β1

    ∂ f2∂β2

    . . .∂ f2∂βk

    ....... . .

    ...∂ fn∂β1

    ∂ fn∂β2

    . . .∂ fn∂βk

    .

    For en lineær model erD fn(β) netop designmatricen. Vi kommer ofte til at møde den

    lokale designmatrix i en lidt anderledes form, nemlig via

    D fn(β)T D f

    n(β) . (8.4)

    Denne matrix er automatisk symmetrisk og positivt semidefinit. En essentiel betin-gelse vil være at den er positivt definit fra et vist trin, og dermed invertibel set somlineær afbildning. Det er en ikke-trivialitetsbetingelsepå de kovariater, der indgår idesignet. Hvis man i praksis skal regne denne matrix ud, kan det være hensigstmæs-sigt at indføre notationen

    x⊗ y = x yT =

    x1y1 x1y2 . . . x1ykx2y1 x2y2 . . . x2yk...

    .... . .

    ...

    xky1 xky2 . . . xkyk

    for x, y ∈ Rk (8.5)

    og observere at

    D fn(β)T D f

    n(β) =

    n∑

    i=1

    ∇ fi(β) ⊗ ∇ fi(β) . (8.6)

    Rigtigheden af denne formel indses ved at sammenligne matricerne på venstre oghøjre side og konstatere at de er ens koordinat for koordinat.

    Eksempel 8.2Hvis vi ser på en simpel lineær regression af formen

    fi(α, β) = α + β ti

    så er

    ∇ fi(α, β) =(

    1ti

    )

    , ∇ fi(α, β) ⊗ ∇ fi(α, β) =(

    1 titi ti2

    )

    Vi ser at∇ fi(α, β) ⊗ ∇ fi(α, β) har egenværdier 1+ t2i og 0, og den er således positivtsemi-definit, men ikke positivt definit. En egenvektor hørende til egenværdien 0 er

  • 8.1. Ikke-lineær regression 143

    (

    ti−1

    )

    . Det er klart at tager vi en sekvenst1, t2, . . . af kovariater, vil (8.4) være positivt

    definit medmindre de enkelte matricers nul-rum er sammenfaldende. Så medmindrealle kovariaterne er ens, vil vi få positiv definithed nårn ≥ 2.

    Eksempel 8.3Hvis vi ser på en Michaelis-Menten model af formen

    fi(α, β) =β tiα + ti

    så er

    ∇ fi(α, β) =

    −βti(α+ti )2

    tiα+ti

    , ∇ fi(α, β) ⊗ ∇ fi(α, β) =t2i

    (α + ti)2

    β2

    (α+ti )2−βα+ti

    −βα+ti

    1

    Vi ser at∇ fi(α, β) ⊗ ∇ fi(α, β) har egenværdier 1+ β2

    (α+ti )2og 0, og den er således po-

    sitivt semi-definit, men ikke positivt definit. En egenvektor hørende til egenværdien

    0 er

    (

    α+ti

    )

    . Det er klart at tager vi en sekvenst1, t2, . . . af kovariater, vil (8.4) væ-

    re positivt definit medmindre de enkelte matricers nul-rum er sammenfaldende. Såmedmindre alle kovariaterne er ens, vil vi få positiv definithed nårn ≥ 2.

    Foreløbig har vi ikke sagt noget om støjvariableneǫ1, ǫ2, . . . ud over at skal være iidog have middelværdi 0. Ofte antager man at støjvariablene ernormalfordelte medukendt varians. Vi har et højere ambitionsniveau, og vil gennemføre så meget sommuligt af analysen uden at have en præcis beskrivelse af støjfordelingen. Den ’fuldeparameter’ involverer altsåβ ∈ Rk og støjfordelingen, men interesseparameteren erkunβ. Når vi skal opstille en konkordankombinant er det derfor fristende at bruge

    h′n(x, β) =n

    i=1

    (

    Yi − fi(β))2, (8.7)

    Hvis ǫi ’erne er normalfordelt erh′n ækvivalent med profilloglikelihoodfunktionen forβ, og den er således uomgængelig. Men også uden en normalfordelingsantagelse gi-verh′n god intuitiv mening.

    Det viser sig dog at der er faldgruber, når man forsøger at drage drage inferens omβpå denne baggrund. Selv i de lykkelige tilfælde hvor man kan vise at M-estimatoren

  • 144 Kapitel 8. Regressionsmodeller

    på baggrund afh′n er asymptotisk normalfordelt, så vil der i grænsefordelingen op-træde en skalafaktor som et udtryk for hvor stor støjen er - det kan vist ikke kommebag på nogen med erfaring i lineære normale modeller. Denne skalafaktor er ukendtfor os, og den har den forskellige beklagelige tekniske konsekvenser. For eksempel erregularitetsbetingelse D ikke er opfyldt. Derfor er deviancestørrelserne ikke asymp-totiskχ2-fordelte, og testteknikkerne fungerer ikke uden videre.

    En ofte brugt angrebsvinkel på dette problem er at producereen ekstern estimator afskalafaktoren, hvor vi med ’ekstern’ mener at estimatoren findes ved ad hoc metoder,nærmere end ved overvejelser om konkordanskombinanten. Hvis man kan producereen konsistent estimator af skalafaktoren, kan man ved håndkraft korrigere deviance-størrelserne, og dermed opnå teststørrelser derer asymptotiskχ2-fordelte.

    Vi vil i stedet inkludere skalafaktoren i interesseparameteren. Ikke fordi vi egentliginteresserer os for den, men fordi vi under alle omstændigheder er nødt til at sigenoget om den. Vi antager derfor atǫi = σUi hvor U1,U2, . . . er iid variable medmiddelværdi 0 og varians 1. Vi betragter en ’udvidet interesseparameter’ af formen(β, σ2), og konkordanskombinanten

    hn(x, β, σ2) =

    n2

    logσ2 +1

    2σ2

    n∑

    i=1

    (

    Yi − fi(β))2. (8.8)

    Hvis Ui ’erne er normalfordelte er denne kombinant simpelthen loglikelihoodfunktio-nen. I praksis er der meget lidt forskel på at arbejde medhn ogh′n: ved at gå frem somi den lineære normale model ser vi at man finderβ̂n ved at minimereh′n, og dereftersætte

    σ̂2 =1n

    n∑

    i=1

    (

    Yi − fi(β̂n))2. (8.9)

    Problemet med den ukendte skalaparameter i den semi-parametriske ramme bliverfor så vidt ikke løst på den denne måde - det bliver bare flyttet. I den asymptoti-ske normalfordeling vil der nu indgå forskellige karakteristika for U-fordelingen, isærdeleshed

    κ3 = E U3i , κ4 = E U

    4i .

    Disse størrelser kan man så producere ad hoc estimatorer for. Men hvis vi er villigetil at antage atκ3 = 0 (hvilket som regel ikke koster nogen tårer) så skal vi se at mankan klare sig uden en ad hoc estimatorer forκ4, så længe man indskrænker sig til atdrage inferens omβ. Det var jo det vi ville, så det kan næppe opfattes som en alvorligindskrænkning.

  • 8.1. Ikke-lineær regression 145

    For at komme i gang med den asymptotiske analyse, må vi have fat på et reskale-ringsskema. Det viser sig at i denne sammenhæng er det frugtbart at vælge skemaetud fra regularitetsbetingelse C, eller måske nærmere C∗∗. For at få mening i det, skalvi diskutere Hájeks CLT.

    Lemma 8.4 LadΣ være en positivt definit symmetrisk k×k matrix. Da definerer〈〈·, ·〉〉givet ved

    〈〈A, B〉〉 = Tr(AΣBT) for A, B ∈ Mk

    et indre produkt påMk.

    B: Det er klart at den definerede afbildning er bilineær. Hvis vi lader e1, . . . , ekvære den kanoniske basis iRk ser vi at

    〈〈A, B〉〉 =n

    i=1

    (

    AΣB∗)

    ii =

    n∑

    i=1

    〈AΣB∗ei , ei〉

    Heraf følger det at

    〈〈A,A〉〉 =n

    i=1

    〈ΣA∗ei ,A∗ei〉

    og daΣ er antaget at være positivt definit, vil hver led i denne sum være ikke-negativt.Hvis summener nul, må hver led være nul, det vil sige atA∗ei = 0 for alle i. Men såmåA∗ være nulafbildningen, og da må ogsåA være nulmatricen.

    Vi ser umiddelbart ud fra lemma 8.4 at der for hver positivt definit matrix Σ findes enkonstantC = CΣ sådan at

    ‖A‖2 ≤ C Tr(

    AΣAT)

    for alle A ∈ Mk . (8.10)

    Her er‖A‖ operatornormen påMk (eller en hvilken som helst anden norm, for densags skyld).

    Husk at hvisΣ er en positivt definit symmetriskk × k matrix, så har den en matrix-kvadratrodΣ1/2, altså en ligeledes positivt definit symmetriskk× k-matrix der opfyl-der at

    Σ1/2Σ

    1/2= Σ . (8.11)

  • 146 Kapitel 8. Regressionsmodeller

    Det er nemt at se atΣ1/2 må være injektiv som lineær afbildning, og da matricen erkvadratisk må den oven i købet være invertibel. De inverse afbildnig kaldesΣ−1/2.Ved at gange relationen (8.11) fra højre og venstre medΣ−1/2 får vi at

    Σ−1/2Σ Σ−1/2= I . (8.12)

    Sætning 8.5 (Hájek) Lad Z1,Z2, . . . være iid variable med værdier iRk med 3. mo-ment. Antag at E Zi = 0 og at V Zi = Σ er positivt definit. Lad Dn være en følge afm× k matricer. Antag at

    ∑ni=1 Di ΣD

    Ti er positivt definit fra et vist trin. Hvis

    maxi=1,...,n

    n∑

    j=1

    D j ΣDTj

    −1/2

    Di

    → 0 for n→ ∞ (8.13)

    så vil

    n∑

    j=1

    D j ΣDTj

    −1/2 n∑

    i=1

    Di ZiD→ N(0, I ) .

    B: Vi ser på et trekantsskema (Xnm) hvor

    Xnm =

    n∑

    j=1

    D j ΣDTj

    −1/2

    Dm Zm

    Disse variable har alle middelværdi 0, og de har varians

    V Xnm =

    n∑

    j=1

    D j ΣDTj

    −1/2

    DmΣDTm

    n∑

    j=1

    D j ΣDTj

    −1/2

    Derfor er har rækkesummerne varians

    Vn

    m=1

    Xnm =

    n∑

    j=1

    D j ΣDTj

    −1/2

    n∑

    m=1

    DmΣDTm)

    n∑

    j=1

    D j ΣDTj

    −1/2

    = I ,

    ifølge (8.12). Resultatet vil altså følge, hvis vi kan vise at (Xnm) opfylder Lyapounovsbetingelse. Vi se at

    n∑

    m=1

    E

    n∑

    j=1

    D jΣDTj

    −1/2

    DmZm

    3

    ≤n

    m=1

    n∑

    j=1

    D jΣDTj

    −1/2

    Dm

    3

    E ‖Zm‖3

    maxm=1,...,n

    n∑

    j=1

    D jΣDTj

    −1/2

    Dm

    n∑

    m=1

    n∑

    j=1

    D jΣDTj

    −1/2

    Dm

    2

    E ‖Z1‖3

  • 8.1. Ikke-lineær regression 147

    Den første maksimumsfaktor går mod nul per antagelse, ogE ‖Z1‖3 er konstant. Såhele udtrykket vil gå mod nul, hvis summen holder sig begrænset. Ved at bruge (8.10)ser vi at

    n∑

    m=1

    n∑

    j=1

    D jΣDTj

    −1/2

    Dm

    2

    ≤ Cn

    m=1

    Tr

    n∑

    j=1

    D jΣDTj

    −1/2

    DmΣDTm

    n∑

    j=1

    D jΣDTj

    −1/2

    = CTr

    n∑

    j=1

    D jΣDTj

    −1/2

    n∑

    j=1

    D jΣDTj

    n∑

    j=1

    D jΣDTj

    −1/2

    = CTr(I ) = mC

    Den praktiske måde at eftervise (8.13) på, ser som regel at udnytte at det for opera-tornormen gælder at‖BTB‖ = ‖B‖2. Derfor kan vi lige så godt vise at

    maxi=1,...,n

    DTi

    n∑

    j=1

    D jΣDTj

    −1

    Di

    → 0 for n→ ∞ (8.14)

    hvorved vi slipper uden om at finde matrixkvadratroden eksplicit.

    Lad os nu vende tilbage til analysen af konkordanskombinanten (8.8). Vi ser at

    ∂hn∂β j= − 1

    2σ2

    n∑

    i=1

    2(Yi − fi(β))∂ fi(β)∂β j

    ,∂hn∂σ2=

    n2

    1

    σ2− 1

    2σ4

    n∑

    i=1

    (

    Yi − fi(β))2,

    Derfor kan vi stille∇hn op på blokform som

    ∇hn(Xn, β) = −n

    i=1

    1σ2∇ fi(β) 0

    0 12σ4

    Yi − fi(β)(

    Yi − fi(β))2 − σ2

    Der gælder at

    E

    Yi − fi(β∗)(

    Yi − fi(β∗))2 − σ2

    =

    0

    0

    og at

    V

    Yi − fi(β∗)(

    Yi − fi(β∗))2 − σ2

    = Σ =

    σ2 σ3 κ3

    σ3 κ3 σ4(κ4 − 1)

    .

  • 148 Kapitel 8. Regressionsmodeller

    Hvis vi vælger det parameterafhængige reskaleringsskema

    An =

    n∑

    i=1

    1σ2∇ fi(β∗) 0

    0 12σ4

    σ2 σ3 κ3

    σ3 κ3 σ4(κ4 − 1)

    1σ2∇ fi(β∗) 0

    0 12σ4

    T

    1/2

    ser vi fra Hájeks sætning at

    A−1n ∇hn(Xn, β∗)D→ N(0, I )

    hvis vi kan gøre rede for atAn er invertibel fra et vist trin og for at den relevanteversion af betingelse (8.13) er opfyldt.

    Det er svært at regne påAn helt generelt, så vi antager fremover atκ3 = 0. I så faldreducerer udtrykket til

    An =

    1σ2

    ∑ni=1∇ fi(β∗) ⊗ ∇ fi(β∗) 0

    0 n (κ4−1)4σ4

    1/2

    (8.15)

    Hermed antager (8.14) følgende form:

    maxm=1,...,n

    1σ2∇ fm(β∗)T

    (

    ∑ni=1∇ fi(β∗) ⊗ ∇ fi(β∗)

    )−1∇ fm(β∗) 0

    0 1n1

    σ2(κ4−1)

    → 0

    Den nederste diagonalkoordinat volder ingen problemer, for den går af sig selv modnul. Og ved at udnytte at operatornormen er ækvivialent med spornormen, simplifi-cerer betingelsen til

    maxm=1,...,n

    ∇ fm(β∗)T

    n∑

    i=1

    ∇ fi(β∗) ⊗ ∇ fi(β∗)

    −1

    ∇ fm(β∗)

    → 0 (8.16)

    Om denne betingelse er opfyldt eller ej, må man undersøge i hvert konkret tilfældefor sig. Deter muligt at overtræde betingelsen, selv for lineære modeller.

    Eksempel 8.6 Lad os undersøge hvordan betingelse (8.16) tager sig ud i klassisksimpel lineær regression, hvor

    fi(α, β) = α + β ti

    for en skalar kovariatti . Vi ser at

    ∇ fi(α, β) =(

    1ti

    )

    , ∇ fi(α, β) ⊗ ∇ fi(α, β) =(

    1 titi t2i

    )

  • 8.1. Ikke-lineær regression 149

    og dermedn

    i=1

    ∇ fi(α, β) ⊗ ∇ fi(α, β) =(

    n SnSn SSn

    )

    ,

    hvor vi har brugt de sædvanlige forkortelser. Vi har såledesat

    n∑

    i=1

    ∇ fi(α, β) ⊗ ∇ fi(α, β)

    −1

    =1

    nSSDn

    (

    SSn −Sn−Sn n

    )

    og dermed at

    ∇ fm(α, β)T

    n∑

    i=1

    ∇ fi(α, β) ⊗ ∇ fi(α, β)

    −1

    ∇ fm(α, β) =1

    nSSDn(SS− 2tmS+ n tm2)

    =1

    nSSDn

    n∑

    i=1

    (ti − tm)2 =1

    nSSDn(SSDn + n(tm − tn)2 =

    1n+

    (tm− tn)2

    SSDn

    Hájeks betingelse blive i dette tilfælde altså til

    maxm=1,...,n

    (tm − tn)2

    SSDn→ 0

    Denne betingelse er opfyldt i alle rimelige tilfælde, men den bryder sammen hviskovariaterne koncentreres for kraftigt - f.eks. viltn = 1n for alle n føre til at SSDn erbegrænset - og hvis kovariaterne vokser hysterisk - f.eks. vil tn = n! for alle n ikkeopfylde betingelsen.

    For at opsummere de hidtidige regninger kan vi sige at hvis betingelse (8.16) er op-fyldt, så vil reskaleringsskemaet (8.15) føre til at

    ∇h̃n(Xn, 0)D→ N(0, I )

    og regularitetsbetingelse C∗∗ er således opfyldt. Hvis vi kan antage at støjvariableneer normalfordelte, behøver vi ikke engang betingelse (8.16), for i det tilfælde vil∇h̃n(Xn, 0) simpelthen være standard normalfordelt for allen.

    Lad os vende os mod regularitetsbetingelse A. Vi finder de partielle afledede,

    ∂2hn∂β j ∂βk

    =1σ2

    n∑

    i=1

    ∂ fi(β)∂β j

    ∂ fi(β)∂βk

    − (Yi − fi(β)) ∂2 fi(β)∂β j ∂βk

  • 150 Kapitel 8. Regressionsmodeller

    og

    ∂2hn∂β j ∂σ2

    =1

    σ4

    n∑

    i=1

    (Yi − fi(β))∂ fi(β)∂β j

    ,∂2hn

    (∂σ2)2= − n

    2σ4+

    1

    σ6

    n∑

    i=1

    (Yi − fi(β))2

    Dermed kan vi opstilleD2hn(Xn, β, σ2) i blokform,

    1σ2

    ∑ni=1∇ fi(β) ⊗ ∇ fi(β) −

    (

    Yi − fi(β))

    D2 fi(β) 1σ4∑n

    i=1(

    Yi − fi(β))

    ∇ fi(β)

    ( 1σ4

    ∑ni=1

    (

    Yi − fi(β))∇ fi(β))T − n2σ4 +

    1σ6

    ∑ni=1(Yi − fi(β))2

    Vi udregner

    D2h̃n(Xn, 0, 0) = An−1D2hn(Xn, β

    ∗, σ∗2)An−1=

    (

    Ω11n Ω

    12n

    Ω21n Ω

    22n

    )

    idet vi udnytter atAn ifølge (8.15) er symmetrisk. Vi har skrevet den op på anonymblokform, fordi udtrykkene er for lange til at den fulde matrix kan stå på en enkeltlinie. Ganger man ud, ser man at

    Ω11n =

    n∑

    i=1

    ∇ fi(β∗) ⊗ ∇ fi(β∗)

    −1/2

    n∑

    i=1

    ∇ fi(β∗) ⊗ ∇ fi(β∗)

    n∑

    i=1

    ∇ fi(β∗) ⊗ ∇ fi(β∗)

    −1/2

    +

    n∑

    i=1

    ∇ fi(β∗) ⊗ ∇ fi(β∗)

    −1/2

    n∑

    i=1

    (

    Yi − fi(β))

    D2 fi(β∗)

    n∑

    i=1

    ∇ fi(β∗) ⊗ ∇ fi(β∗)

    −1/2

    = I +

    n∑

    i=1

    ∇ fi(β∗) ⊗ ∇ fi(β∗)

    −1/2

    n∑

    i=1

    (

    Yi − fi(β))

    D2 fi(β∗)

    n∑

    i=1

    ∇ fi(β∗) ⊗ ∇ fi(β∗)

    −1/2

    Det er overhovedet ikke klart om det konvergerer eller ej, sådet vil vi antage os udaf. Hvis vi antager at

    n∑

    i=1

    ∇ fi(β∗) ⊗ ∇ fi(β∗)

    −1/2

    n∑

    i=1

    (

    Yi − fi(β∗))

    D2 fi(β∗)

    n∑

    i=1

    ∇ fi(β∗) ⊗ ∇ fi(β∗)

    −1/2P→ 0

    (8.17)så vil

    Ω11n

    P→ I ,

    Nogle gange kan (8.17) eftervises elementært ved hjælp af Chebyshevs ulighed, menofte må man ud i mere komplicerede argumenter hvor man viser næsten sikker kon-vergens mod 0 ved hjælp at Kroneckers lemma.

  • 8.1. Ikke-lineær regression 151

    De øvrige blokke er nemmere at håndtere. Ifølge store tals lov har vi at

    Ω22n =

    4σ4

    n (κ4 − 1)

    − n2σ4+

    1

    σ6

    n∑

    i=1

    (Yi − fi(β∗))2

    = − 2κ4 − 1

    +4

    (κ4 − 1)σ21n

    i=1

    (

    Yi − fi(β∗))2

    n.s.→ − 2κ4 − 1

    +4

    (κ4 − 1)σ2σ2 =

    2κ4 − 1

    Og

    Ω12n =

    n∑

    i=1

    ∇ fi(β∗) ⊗ ∇ fi(β∗)

    −1/2 n∑

    i=1

    2(

    Yi − fi(β∗))

    √n (κ4 − 1)

    ∇ fi(β∗)

    Det er let at se atΩ12n er en stokastisk vektor med middelværdiEΩ12n = 0, og vari-

    ansmatrix

    VΩ12n =4κ4 − 1

    1n

    I

    Lemma 8.7 Lad Z være en stokastisk variable med værdier iRk. Lad E Z = 0 ogV Z = Σ. For alle ǫ > 0 er

    P(‖Z‖ ≥ ǫ) ≤ Tr(Σ)ǫ2.

    B: LadZ = (Z1, . . . ,Zk). Vi har ud fra Markovs ulighed at

    P(‖Z‖ ≥ ǫ) = P(Z21 + . . . ,Z2k ≥ ǫ

    2) ≤E Z21 + . . .Z

    2k

    ǫ2=Σ11+ . . . + Σkk

    ǫ2

    Det følger oplagt herudfra at hvisZ1,Z2, . . . er stokastiske variable med værdier iRk

    og middelværdi 0, så vilZnP→ 0 hvis V Zn → 0. Det kan bruges direkte påΩ12n

    foroven.

    Så vi konkluderer: under antagelse af (8.17) vil der gælde at

    D2h̃n(Xn, 0, 0)P→

    (

    I 00 2

    κ4−1

    )

    , (8.18)

  • 152 Kapitel 8. Regressionsmodeller

    det vil sige at regularitetsbetingelse A opfyldt. Det er på ingen måde klart om (8.17)er opfyldt eller ej. Betingelsener naturligvis opfyldt i det lineære tilfælde, for derer D2 fi(β∗) = 0 for alle i. Men i det ikke-lineære tilfælde kan betingelsen voldeproblemer.

    Eksempel 8.8Hvis k = 1, således atβ er en skalar, kan (8.17) skrives på en marginaltmere læselig form som

    ∑ni=1 f

    ′′i (β

    ∗)(

    Yi − fi(β∗))

    ∑ni=1 f

    ′i (β∗)2

    P→ 0

    Vi ser af Chebyshevs ulighed at betingelsen er opfyldt hvis

    i=1 f′′i (β

    ∗)2(

    ∑ni=1 f

    ′i (β∗)2

    )2→ 0

    Hvis vi f.eks. har at| f ′′i (β∗)| < b for alle i, og at| f ′i (β

    ∗)| > a > 0 for alle i, så er∑

    i=1 f′′i (β

    ∗)2(

    ∑ni=1 f

    ′i (β∗)2

    )2≤ n b

    2

    (n a2)2=

    b2

    a41n→ 0

    som ønsket.◦

    Som man kunne forvente det, er regularitetsbetingelse B svær at få sagt noget om idenne generalitet, ikke mindst fordi reskaleringsskemaeter angivet på en temmeliguhåndterlig form. Vi nøjes med at regne på tilfældet medk = 1, hvor problemernemed matrixkvadratrødder i det mindste forsvinder. Som i eksempel 8.8 vil vi arbejdeunder antagelse af at| f ′′i (β

    ∗)| < b for alle i, og at| f ′i (β∗)| > a > 0 for alle i. Vi skal da

    vise at

    sup|an(β−β∗)| 0. Bemærk at

    h′′n (β) =1σ2

    n∑

    i=1

    f ′i (β)2+

    1σ2

    n∑

    i=1

    (

    fi(β) − fi(β∗))

    f ′′i (β)

    − 1σ2

    n∑

    i=1

    (

    Yi − fi(β∗))

    f ′′i (β) ,

  • 8.1. Ikke-lineær regression 153

    hvor vi har sørget for at den stokastiske del har middelværdi0. For fastβ har vi at

    ∞∑

    i=1

    Eβ∗((

    Yi − fi(β∗))

    f ′′i (β)

    i

    )2

    ≤∞∑

    i=1

    σ2 b2

    i2< ∞ .

    Et klassisk resultat om summer af uafhængige stokastiske variable giver derfor at

    ∞∑

    i=1

    (

    Yi − fi(β∗))

    f ′′i (β)

    i

    er næsten sikkert konvergent underPβ∗ . Og videre sikrer Kroneckers lemma at

    1n

    n∑

    i=1

    (

    Yi − fi(β∗))

    f ′′i (β)n.s.→ 0 for n→ ∞ .

    Analogt med beviset for den uniforme SLLN, sætning 7.3, kan man udstrække argu-mentet til at give at

    sup|β−β∗ |

  • 154 Kapitel 8. Regressionsmodeller

    for et passende mellempunktηi . Dermed giver Cauchy-Schwarz’ ulighed at

    ∑ni=1

    (

    fi(β) − fi(β∗))

    f ′′i (β)∑n

    i=1 f′i (β∗)2

    =

    ∑ni=1 f

    ′i (β∗) f ′′i (β)

    ∑ni=1 f

    ′i (β∗)2

    (β − β∗) + 12

    ∑ni=1 f

    ′′i (ηi) f

    ′′i (β)

    ∑ni=1 f

    ′i (β∗)2

    (β − β∗)2∣

    (

    ∑ni=1 f

    ′i (β∗)2

    )1/2(nb2)1/2

    ∑ni=1 f

    ′i (β∗)2

    |β − β∗| + 12

    n b2∑n

    i=1 f′i (β∗)2

    (β − β∗)2 .

    Vi ser således at

    sup|an(β−β∗)|

  • 8.1. Ikke-lineær regression 155

    på underrummet frembragt afH med hensyn til præcisionen af den stokastiske vari-abelQ−1Z. Det er trivielt rigtigt under regularitetsbetingelseD, for der harZ variansA, såQ−1Z har variansQ−1 opg dermed præcisionQ.

    I vores tilfælde uden regularitetsbetingeselse D erZ standard normalfordelt i stedetfor at have variansQ. Vi ser at variansen afQ−1Z er Q−2, så præcisionen er givet vedQ2. Hvis vi kan vise at

    H(HTQH)−1HTQ = H(HTQ2H)−1HTQ2 , (8.19)

    så kan vi erstatte (6.15) med en formel, der uden videre giver(6.16) og dermed kanden asymptotiskeχ2-fordeling af den lokale deviancestørrelse opretholdes.

    Eksempel 8.9 Lad os se på regressionsmodellen med middeværdistruktur beskrevetved Michelis-Menten funktionen (8.2), og lad os undersøge hypotesen om atα haren på forhånd kendt værdiα0. Under hypotesen har vi altså middelværdistrukturen

    gi(β) =β tiα0 + ti

    .

    Hypotesen kan beskrives som en parametriset mangfoldighedved hjælp af indlejrin-genγ : R2→ R3 givet ved

    γ

    (

    β

    σ2

    )

    =

    α0β

    σ2

    Specielt er

    (

    β

    σ2

    )

    =

    0 01 00 1

    .

    Uden for hypotesen bruger vi reskaleringsskemaet

    An =

    1σ2

    ∑ni=1∇ fi(α∗, β∗) ⊗ ∇ fi(α∗, β∗) 0

    0 n (κ4−1)4σ4

    1/2

    hvor den centrale komponent∑∇ fi ⊗∇ fi er en 2×2 matrix. Under hypotesen bruger

    reskaleringsskemaet

    Bn =

    1σ2

    ∑ni=1∇gi(β∗) ⊗ ∇gi (β∗) 0

    0 n (κ4−1)4σ4

    1/2

  • 156 Kapitel 8. Regressionsmodeller

    hvor den centrale komponent∑∇gi ⊗ ∇gi er en 1× 1 matrix, det vil sig et reelt tal.

    Vi ser at

    An Dγ(β∗, σ2) Bn

    −1=

    ∑ni=1∇ fi⊗∇ fi

    01

    ∑ni=1∇gi⊗∇gi

    0

    0 1

    ,

    hvor øverste venstre hjørne er en kompliceret udseende 2× 1 matrix. Vi vil ikke herdiskutere om regularitetsbetingelse E er opfyldt, men vi ser athvis An Dγ Bn−1→ H,så måH have formen

    H =

    h1 0h2 00 1

    .

    Med et H af denne form, og medQ fra (8.18) kan man nu kontrollere (8.19) vedsimpelthen at regne venstre og højre side ud. Man finder at

    H(HT QH)−1HTQ =

    h21h21+h

    22

    h1 h2h21+h

    22

    0

    h1 h2h21+h

    22

    h22h21+h

    22

    0

    0 0 1

    og præcis samme formel dukker op når man regner højre side ud (hvilket man kangætte på forhånd, fordi den eneste mådeQ og Q2 afviger fra hinanden på, er vedhvordanκ4 indgår, ogκ4 forsvinder i ovenstående matrixprodukt).

    Regningerne i eksempel 8.9 bruger ikke Michaelis-Menten specifikationen til nogetsom helst. Når man forstår hvad der foregår i eksemplet, er det klart at man heltgenerelt ved glatte hypoteser omβ af formenβ = ρ(ζ) ser at regularitetsantagelseEkun kan være opfyldt med etH med blokstruktur

    H =

    (

    G 00 1

    )

    for en passende matrixG. Regning med blokmatricer fører til samme konklusion somi eksemplet:κ4 indgår ikke produktetH(HTQH)−1HTQ, og derfor er (8.19) opfyldt.

    Tilbage står selvfølgelig spørgsmålet om hvorvidt regularitetsbetingelse E faktisk eropfyldt. Det er der desværre ikke nogen garanti for, men det er på sin vis lige me-get. Konklusionen om atDn kovergergerer svagt mod enχ2-fordeling kan i hvert faldopretholdes langs enhver delfølge hvorAn Dγ Bn−1 faktisk er konvergent. Men efter-som grænsefordelingen er den samme for alle delfølger, vil et udtyndingsargumentvise at den svage konvergens må gælde for den fuldeDn-følge.

  • 8.2. Poissonregression 157

    8.2 Poissonregression

    Poissonregressionsmodeller er modeller for stokastiske variableY1,Y2, . . . der er u-afhængige og Poissonfordelte med hver sin middelværdi. Typisk afhænger middel-værdien af en eller flere kovariater, og den sædvanlige antagelse er at logaritmen afmiddelværdien er en lineær kombination af disse kovariater. Den model, der i denneramme svarer til sædvanlig lineær regression, er altså

    EYn = eα+β tn for n = 1, 2, . . . (8.20)

    Vi vil undersøge (8.20) for et helt specielt valg af kovariater, nemligtn = n for allen. Dette valg af kovariater svarer næppe til nogen realistiskmålesituation - det fø-rer til en målingseksplosion nårn vokser, og der er næppe noget fysisk måleapparat,der vil være i stand til at følge med ret langt. Det forekommernok en kende spe-kulativt at analysere et praktisk eksperiment, hvor man jo kun har endeligt mangekovariater, under den forudsætning athvis man skulle tage flere målinger, så villeman indstille apparaturet mere og mere forrykt. Men kovariaternetn = n illustrerer idette eksempel på ret dramatisk vis hvad der kan ske med den asymptotiske analyse,når enkeltmålingerne har meget forskelligt informationsindhold.

    Vi finder på baggrund af observationenXn = (Y1, . . . ,Yn) likelihoodfunktionen

    Ln(α, β) =n

    i=1

    (

    eα+β i)Yi

    Yi !e−e

    α+β i=

    eα∑n

    i=1 Yi+β∑n

    i=1 i Yi∏n

    i=1 Yi!e−

    ∑ni=1 e

    α+β i,

    hvoraf vi ser at der for hvert fastn er tale om en eksponentiel familie med kanoniskstikprøvefunktion

    (

    ∑ni=1 Yi ,

    ∑ni=1 i Yi

    )

    . Når det er en eksponentiel familie, så ved vi

    uden at behøve at regne at de to Bartlett-identiteter er opfyldt, at D2ℓn er en deter-ministisk funktion, hvor observationerneY1, . . . ,Yn slet ikke indgår, og atD2ℓn erpositivt semidefinit. Vi ved også at hvis vi kan få regularitetsbetingelserne opfyldt, såer der en uproblematisk kobling mellem den lokale og den globale M-estimator.

    Der er derfor en ret oplagt strategi til at undersøge om regularitetsbetingelserne eropfyldt: Hvis vi kan vise atD2ℓn er positivt definit så kan vi bruge reskaleringsske-

    maet(

    D2ℓn)1/2

    - det vil føre til at regularitetsbetingelse A er opfyldt medF = I .Det er muligvis ikke helt klart at (4.1) er opfyldt, så det må vi vel også checke efterundervejs. Dernæst følger det på grund af Bartlett-identiteterne at

    E∇ℓ̃n(Xn, α∗, β∗) = 0 , V∇ℓ̃n(Xn, α∗, β∗) = I .

  • 158 Kapitel 8. Regressionsmodeller

    Hvis vi kan vise at∇ℓ̃n(Xn, α∗, β∗) konvergerer mod en normalfordeling (hvilket ikkenødvendigvis er trivielt) vil det være meget forbløffende om ikke denne normalfor-deling netop erN(0, I ). I så fald er regularitetsbetingelseC∗∗ og D opfyldt. Tilbagestår det sædvanlige problem med at undersøge regularitetsbetingelse B.

    Vi ser at loglikelihoodfunktion er

    ℓn(α, β) = −αn

    i=1

    Yi − βn

    i=1

    i Yi +n

    i=1

    eα+β i +n

    i=1

    logYi! .

    Det fører til de partielle afledede

    ∂ℓn(α, β)∂α

    = −n

    i=1

    Yi +n

    i=1

    eα+β i ,∂ℓn(α, β)∂β

    = −n

    i=1

    iYi +n

    i=1

    i eα+β i .

    og dermed

    ∇ℓn(α.β) = −n

    i=1

    (

    Yii Yi

    )

    −(

    eα+β i

    i eα+β i

    )

    = −n

    i=1

    (

    1i

    )

    (

    Yi − eα+β i)

    , (8.21)

    Endvidere er

    ∂2ℓn(α, β)

    ∂α2=

    n∑

    i=1

    eα+β i ,∂2ℓn(α, β)∂α∂β

    =

    n∑

    i=1

    i eα+β i ,∂2ℓn(α, β)

    ∂β2=

    n∑

    i=1

    i2eα+β i ,

    der er deterministisk, som tidligere bemærket. Lad os erindre om formlerne

    ∞∑

    k=0

    xk = (1− x)−1 ,∞∑

    k=0

    k xk = x (1− x)−2 ,∞∑

    k=0

    k2 xk = x (1+ x) (1− x)−3 ,

    der alle gælder for|x| < 1. Den første af disse formler er utvivlsomt velkendt, deto øvrige kan opnås ud fra den første ved ledvis differentation (og lidt fingerfærdigmanipulation). Formlerme tillader os at styre den anden afledede af likelihoodfunk-tionen. Lad os indføre de treβ-afhængige følger

    γ1n =

    n−1∑

    j=0

    e−β j , γ2n =n−1∑

    j=0

    j e−β j , γ3n =n−1∑

    j=0

    j2 e−β j .

    Det følger af potensrækkeformlerne at forβ > 0 er de tre følger konvergente med

    limn→∞γ1n =

    11− e−β

    , limn→∞γ2n =

    e−β(

    1− e−β)2, lim

    n→∞γ3n =

    e−β(

    1+ e−β)

    (

    1− e−β)3.

  • 8.2. Poissonregression 159

    Vi kan udtrykkeD2ℓn ved hjælp afγ-følgerne. Vi har at

    ∂2ℓn(α, β)

    ∂α2= eα+β n

    n∑

    i=1

    e−β (n−i) = eα+β nn−1∑

    j=0

    e−β j = eα+β n γ1n .

    Tilsvarende har vi at

    ∂2ℓn(α, β)∂α∂β

    = eα+β nn

    i=1

    i e−β (n−i) = eα+β nn−1∑

    j=0

    (n− j) e−β j

    = eα+β n

    nn−1∑

    j=0

    e−β j −n−1∑

    j=0

    j e−β j

    = eα+β n (nγ1n − γ2n) ,

    og vi har at

    ∂2ℓn(α, β)

    ∂β2= eα+β n

    n∑

    i=1

    i2e−β (n−i) = eα+β nn−1∑

    j=0

    (n− j)2e−β j

    = eα+β n

    n2n−1∑

    j=0

    e−β j − 2nn−1∑

    j=0

    e−β j +n−1∑

    j=0

    j2e−β j

    = eα+β n(

    n2γ1n − 2nγ2n + γ3n)

    .

    Det følger af disse regninger at

    D2ℓn(α, β) = eα+β n

    γ1n nγ1n − γ2nnγ1n − γ2n n2γ1n − 2nγ2n + γ3n

    .

    Vi ser hvisβ > 0 så vil

    det

    γ1n nγ1n − γ2nnγ1n − γ2n n2γ1n − 2nγ2n + γ3n

    = n2γ1n − 2nγ1nγ2n + γ1nγ3n −(

    nγ21n + γ2n)2

    = γ1nγ3n − γ22n

    → e−β

    (

    1− e−β)4.

    Det viser atD2ℓn er invertibel (og dermed strengt positivt definit) fra et vist trin nårβ > 0. Det er muligt at undgå grænseargumentet og vise atγ1nγ3n − γ22n > 0 for allen, men det bliver lidt rodet.

  • 160 Kapitel 8. Regressionsmodeller

    Første trin i vores strategi er således på plads, og vi vil forsøge os med reskalerings-skemaet

    An =(

    D2ℓn(α∗, β∗)

    )1/2. (8.22)

    Lad os vise at dette skema opfylder (4.1). DaD2ℓn er symmetrisk, erAn også sym-metrisk. Dermed erAn−1 symmetrisk, og ifølge (2.4) er

    ∥An−1∥∥

    2=

    (

    D2ℓn(α∗, β∗)

    )−1∥

    = e−(α+β n)

    γ1n nγ1n − γ2nnγ1n − γ2n n2γ1n − 2nγ2n + γ3n

    −1∥∥∥

    =e−(α+β n)

    γ1nγ3n − γ22n

    n2γ1n − 2nγ2n + γ3n −nγ1n + γ2n−nγ1n + γ2n γ1n

    Den sidste matrix har koordinater der højst vokser som et andengradspolynomiumi n, og derfor kan operatornormen højst vokse med denne hastighed. Faktoren udeforan får med sikkerhed det samlede udtryk til at gå mod nul, og dermed er (4.1)opfyldt for β > 0.

    Det er ikke helt nemt at argumentere for at∇ℓn(α∗, β∗) er asymptotisk normalfordelt.De sædvanlige argumenter ville gå ud på at sikre at enkelt-bidragene i summen (8.21)hver for sig er små, men i dette tilfælde ern-leddet faktisk af samme størrelsesordensom hele summen. Redningen er atYn som Poissonfordelt variabel med stor parame-ter selv er stort set normalfordelt. Poissonfordelingerneudgør jo en foldningssemi-gruppe, så vi kan skrive hvertYi som en sum af et megt stort antal Poissonfordelingermed parameter∼ 1. Gør man det, og indsætter i (8.21), kan man se at hvert led idensum er forsvindende i forhold til summen, og man kan bruge Lyapounovs sætning til

    at vise at(

    D2ℓn(α∗, β∗))−1/2

    ∇ℓn(α∗, β∗) konvergerer modN(0, I ) hvis β > 0 - mangår frem stort set som i beviset for Hájeks CLT.

    Nu har vi alle regularitetsbetingelserne pånær B opfyldt. Til gengæld er det stort setumuligt at gøre noget ved B, så længe reskaleringsskemaet erså ukonkret som (8.22)- udtrykket involverer en matrixkvadratrod, som vi næppe kan finde eksplicit. Så der-for vil vi gerne erstatte reskaleringsskemaet med et, der egner sig bedre til konkreteregninger. Et kvalificeret bud på et brugbart skema kunne være

    Bn = eβ∗ n/2

    (

    1 00 n

    )

    .

  • 8.2. Poissonregression 161

    Denne normering ville føre til at

    D2ℓ̃n(0, 0) =(

    Bn−1

    )TD2ℓ(α∗, β∗)Bn

    −1

    = eα∗

    (

    1 00 1n

    )

    γ1n nγ1n − γ2nnγ1n − γ2n n2γ1n − 2nγ2n + γ3n

    (

    1 00 1n

    )

    = eα∗

    γ1n γ1n − 1n γ2nγ1n − 1n γ2n γ1n −

    2n γ2n +

    1n2γ3n

    .

    Heraf aflæses let at

    D2ℓ̃n(0, 0) →eα∗

    1− e−β∗(

    1 11 1

    )

    for n→∞ .

    Og alt ser således strålende ud - indtil man opdager at grænsematricen ikke er posi-tivt definit: de to søjler er lineært afhængige. Så (Bn)-sekvensen fører til reskaleredekombinanter, derikke opfylder regularitetsbetingelse A.

    En væsentlig mindre oplagt ide er at bruge reskaleringsskemaet

    Cn = eβ n/2

    (

    1 n0 1

    )

    .

    Vi har at

    Cn−1= e−β n/2

    (

    1 −n0 1

    )

    ,(

    Cn−1

    )T= e−β n/2

    (

    1 0−n 1

    )

    .

    Og dermed vil den reskalerede loglikelihoodfunktion få anden afledet

    D2ℓ̃n(0, 0) =(

    Cn−1

    )TD2ℓ(α∗, β∗)Cn

    −1

    = eα∗(

    1 0−n 1

    )

    γ1n nγ1n − γ2nnγ1n − γ2n n2γ1n − 2nγ2n + γ3n

    (

    1 −n0 1

    )

    = eα∗

    γ1n −γ2n−γ2n γ3n

    → eα∗

    (

    1− e−β∗)−1

    −e−β∗(

    1− e−β∗)−2

    −e−β∗(

    1− e−β∗)−2

    e−β∗ (

    1+ e−β∗) (

    1− e−β∗)−3

    .

  • 162 Kapitel 8. Regressionsmodeller

    Grænsematricen er symmetrisk, med determinant

    e2α∗e−β

    ∗ (1+ e−β

    ∗) (1− e−β∗

    )−4− e2α∗ e−2β∗

    (

    1− e−β∗)−4= e2α

    ∗e−β

    ∗ (1− e−β∗

    )−4,

    der ses at være skarpt positiv. Da diagonalelementerne er positive, ser vi også atgrænsen har positivt spor. Heraf følger at begge egenværdier er strengt positive. Altsåer denne grænsematrix positivt definit!

    Med lidt arbejde kan man overføre de øvrige regularitetsbetingelser fra (An)-skemaettil (Cn)-skemaet. Vi vil ikke gå i detaljer med det her, ligesom vi ikke vil forsøge atbevise at regularitetsbetingelse B er opfyldt med (Cn)-skemaet - deter det, men deter ikke specielt nemt at få regningerne til at gå op. Når vi springer disse regningerover, er det fordi pointen med eksemplet ikke så meget er at regularitetsbetingelserneer opfyldt - det er i stedet en illustration af at ret komplekse reskaleringsskemaer kanvære nødvendige.

    I den indledende gennemgang af den asymptotiske teori fokuserede vi udelukken-de på

    √n-reskalering. Det er også fuldt tilstrækkeligt for iid-modeller, men det er

    ikke altid det rigtige når enkeltobservationerne har varierende fordeling. Vi har seten række regressionsmodeller, hvor den oplagte reskalering involverer kovariaterne,og også ofte den sande parameter. Det er dog ikke nødvendigvis anderledes end densimple

    √n-reskalering. Ofte giver det god mening at forestille sig atkovariaterne til

    de enkelte observationer er tilfældige - at der er tale om iidobservationer fra en ko-variatfordeling. Kovariatfordelingen er i så fald en del afden fulde specifikation afmodellen, men den er ikke inkluderet i interesseparameteren. Hvis denne forestillinggiver mening, så kan store tals lov som regel bruges til at vise at det kovariatafhæn-gige reskaleringsskema er asymptotisk ækvivalent med et

    √n-skema. Og det betyder

    at de indviklede reskaleringsskemaer blot er et teknisk hjælpemiddel.

    Men hvis kovariaterne ikke kan opfattes som tilfældige, kanman få situationer fremhvor

    √n-skalering ikke slår til, og det er sådan et eksempel vi har set på her. Det ’na-

    turlige’ reskaleringsskema (8.22), baseret på overvejelser om eksponentielle familier,kan ganske vist erstattes af simplere skemaer. Mensåsimple kan disse skemaer nuikke gøres. En ting er at

    √n-skalering er helt irrelevant - det skyldes den eksplosive

    opførsel af kovariaterne. Men man kan heller ikke bruge et andet isotropt skema, detvil sige et skema af formenDn = dn I hvor (dn) er en reel talfølge. Et isotropt skemabehandler alle retninger ens, men i dette tilfælde må man nødvendigvis bruge for-skellige skaleringer i forskellige retninger. Og for at gøre det endnu være: Man kanikke bruge et reskaleringsskema bestående af diagonalmatricer. Forsøger man det, vil

  • 8.2. Poissonregression 163

    man se samme defekt som vi observerede med (Bn)-skemaet - det kan godt være atman kan få konvergens afD2ℓ̃n mod en grænsematrix, men grænsematricen vil ikkevære positivt definit. Man er nødt til at skulle ud i ikke-diagonale skemaer for at derer håb om at regularitetsbetingelserne kan være opfyldt.

    Lad os slutte af med kort at diskutere hvad der sker hvisβ < 0, for så er sagen ivirkeligheden endnu værre end hvad ovenstående diskussionlader ane. Middelvær-disætningen fortæller at

    1− e−x

    x∈ (1, e) for x ∈ (0, 1) .

    Hvis β < 0, så vileα+β n ∈ (0, 1) nårn er større end et passenden0. Dermed er

    ∞∑

    n=n0

    P(Yn , 0) =∞∑

    n=n0

    (

    1− e−eα+βn)

    <

    ∞∑

    n=n0

    eα+β n+1 < ∞ .

    Borel-Cantellis lemma fortæller atYn = 0 fra et vist trin. Efter det trin får vi sim-pelthen ingen information om noget som helst, og slet ikke omα og β. Derfor ermaksimaliseringsestimatoren ikke konsistent (det er der for den sags skyld heller ik-ke andre estimatorer, der er). Konklusionen er at regularitetsbetingelserne umuligtkan være opfyldt, uanset hvilket reskaleringsskema vi forsøger os med.