34

Simuloinnin strategisia kysymyksiä - users.jyu.fiusers.jyu.fi/~tiihonen/simul/luennot/luento8/Simulointi8.pdf · Regressioanalyysi Millainen malli on hyvä ja miten se määrätään:

  • Upload
    dangthu

  • View
    250

  • Download
    0

Embed Size (px)

Citation preview

Simuloinnin strategisia kysymyksiä

Timo Tiihonen

Tietotekniikan laitos

2010

Simuloinnin strategisia kysymyksiä

Miten toimitaan, kun halutaan tietää enemmän kuin yhdensimulointimallin tulos.

I Miten tulos riippuu mallin syöttötiedoista.

I Miten tulos riippuu mallin rakenteellisista vaihtoehdoista.

I Miten parametrien epävarmuus vaikuttaa tuloksen luotettavuuteen.

I Mikä systeemivariantti tai parametrikombinaatio antaa parhaantuloksen.

Miten kysymyksiin vastataan systemaattisemmin kuin tekemällä runsaastikokeita ja vertailemalla tuloksia silmämääräisesti (graa�en jayhteenvetojen avulla).

Metamallinnus

Metamallinnuksessa

I Kiinnitetään yksinkertainen malliluokka selittämään tutkittavaailmiötä.

I Sovitetaan apumalli eri simulointikokeista saatuun dataan.

I Tutkitaan selittääkö apumalli havainnot.

I Tarvitaanko kaikkia apumallin muuttujia.

I Tuotetaan �pieni� malli, joka selittää havainnot.

Formaali metamallinnus

Todellinen systeemi voidaan kuvata funktiolla

y = f0(V1,V2, . . .),

missä, f0 on tuntematon ja vain osa muuttujista Vi tunnetaan.Simulointimalli on muotoa

y = f1(z1, . . . , zk ,R0),

jossa funktio f1 tunnetaan implisiittisesti (evaluoidaan simulointikoodilla),

R0 kuvaa satunnaislukujen siemenarvoa.

Formaali metamallinnus

Etsittävä metamalli on yleensä muotoa

y =

q−1∑i=0

βixi + e,

missä xi :t ovat tunnettuja funktioita zj :stä (potensseja, logaritmeja,jne). (Tarvittaessa myös y voi olla muunnos �oikeasta� tuloksesta).Tällaista mallia kutsutaan regressiomalliksi, xi :t ovatregressiomuuttujia ja βi :t regressiokertoimia. e onnollakeskiarvoinen stokastinen virhe.

Regressioanalyysi

Regressioanalyysissä suoritetaan n (n ≥ q) koetta eri zk :denarvokombinaatioilla. Tällöin myös xj :den arvot vaihtelevat.Merkitään Xij = xj kokeessa i , i = 1, . . . , n, j = 0, . . . , q − 1.(Xi0 = 1, ∀i). X = {Xij}ij . Kokeiden tuloksia merkitään vektorillaY = {yi}i , i = 1, . . . , n.Tavoitteena on määrätä kertoimet β = {βl}l , l = 0, . . . , q − 1.Yleensä yhtälö Y = Xβ ei ole ratkeava (jos n > q). Etsitään ns.PNS-ratkaisu β, joka minimoi virheen ‖Y − Xβ‖2,

β = (X tX )−1X tY .

Koska Y on satunnaismuuttuja, myös β on satunnaissuure.

Regressioanalyysi

Millainen malli on hyvä ja miten se määrätään:

I Tarvitaanko kaikki muuttujat xi (onko βi ≈ 0).

I Selittävätkö xi :t tuloksen (onko Y − Xβ pieni).

I Miten luotettavia ovat β:t.

I Miten β:t löydetään tehokkaasti ja luotettavasti.

Analysoidaan kertoimien määräämistä tapauksessa, jossa malli ontarkka. Ts. annetuille X ,

yi = (Xβ)i + ei ,

jollekin β, ei :t riippumattomia N(0, σ2) muuttujia. Siis, kokeet ovatriipumattomia ja Var(y) = σ2 kaikissa koepisteissä.

Regressioanalyysi

Tällöin β = (X tX )−1X tY on harhaton estimaatti β:lle. β:nkomponentit ovat keskenään korreloituneita

Cov(β) = Cov(βi , βj)ij

= (X tX )−1X tCov(Y )[(X tX )−1X t ]t

= (X tX )−1σ2

koska Cov(Y ) = σ2I .Yksittäisen koepisteen varianssi σ2 voidaan määrätä toistamallayksittäisiä kokeita riittävän usein tai tekemällä n >> q koetta,jolloin

σ2 =n∑

i=1

(yi − (X β)i )2

n − q.

Regressioanalyysi

Miten tunnistaa tarpeettomat muuttujat x?

I Muodostetaan aluksi kaikki potentiaaliset regressiomuuttujat(zj :t, z

2j :t, zizj :t, jne).

I Tehdään n koetta (n > 2q).

I Poistetaan xi :t, joille βi ≈ 0.

I Lasketaan uudet β:t käyttäen jo suoritettuja kokeita (samaty :n arvot, mutta matriisissa X vähemmän sarakkeita).

Oletukset

Onko tehty oletus y = Xβ + e, e:t riippumattomia ja N(0, σ2)realistinen.

I Jos koepisteet valitaan sopivasti ja valitaan riittävän rikas joukkoregressiomuuttujia x , perusoletus y = Xβ on OK.

I Riippumattomuus voidaan taata valitsemalla riippumattomatsatunnaislukujonot eri kokeisiin (jos näin halutaan).

I Havaintoarvojen normaalisuus pätee yleensä, jos simuloinnit ovatriittävän pitkiä.

I Varianssia ei käytännössä ole mahdollista vakioida koepisteidenvälillä.

Varianssin vaihtelujen huomioimiseksi jokainen koepiste on uusittava

useaan kertaan, jotta varianssi voidaan estimoida.

Riippuvat kokeet

Jos koepisteet ovat keskenään riippuvia (samat satunnaisluvut), myöskovarianssi on estimoitava. Jos tehdään m toistoa jokaiselle kokeelle,kovarianssille saadaan estimaatti

σij =1

m(m − 1)

m∑l=1

(yil − yi )(yjl − yj).

Regressiokertoimet määrätään yleistetystä PNS-tehtävästä

minβ

(y − Xβ)t(Cov(y))−1(y − Xβ)

jonka ratkaisun kovarianssimatriisi on Cov(β) = (X t(Cov(y))−1X )−1

Riippuvat kokeet

Miten yhteiset satunnaisluvut vaikuttavat. Tarkastellaanyksinkertaisinta regressiomallia y = β0 + β1x . Voidaan olettaa, ettäkokeessa x = 0 ja (merkintöjen helpottamiseksi) y = 0.Oletetaan, että varianssi on vakio (σ2) jokaisessa koepisteessä.Tällöin PNS-estimaatit ovat

β1 =

∑i (xi − x)(yi − y)∑

i (xi − x)2=

∑i xiyi∑i x

2i

ja β0 = y − β1x .

Riippuvat kokeet

Merkitään ai = xiPj x

2

j

, jolloin β1 =∑

i aiyi .

Jos kokeet riippumattomia, Var(β1) =∑

i a2i Var(yi ) = σ2

∑i a

2i .

Jos kokeet ovat riippuvia, Var(AtY ) = ACov(Y )At ,

Var(β1) = σ2∑i

a2i +∑i 6=j

aiajCov(yi , yj)

Nyt∑

i 6=j aiaj < 0. Jos Cov(yi , yj) on ei-negatiivinen ∀i , j , β1:nvarianssi on pienempi, kuin riippumattomille kokeille.Positiivinen korrelaatio saadaan mm. käyttämällä samojasatunnaislukuja eri koepisteissä.Vastaavasti Var(β0) on suurempi, jos kokeilla on positiivinenkorrelaatio.

Mallin validointi

Regressiomallin rakentaminen ja validointi etenevät seuraavasti

I Määritetään mallin yleinen muoto (y = Xβ + e),

I Määrätään mallin kertoimet (β = (X tX )−1X ty).

I Testataan mallin ennustuskykyä. Suoritetaan uusi koe pisteessä xn+1

ja verrataan tulosta yn+1 ennusteeseen x tn+1

β.

Testisuureen

zn+1 =yn+1 − x t

n+1β√

Var(yn+1) + Var(βxn+1)

tulisi noudattaa N(0, 1) jakaumaa. Jos zn+1 liian suuri, regressiomallihylätään.

Yleensä kertoimien β määräämiseen käytetään input muuttujien

äärimmäisiä arvoja, testaamiseen puolestaan keskimääräisiä arvoja.

(Paljastaa kvadraattisen riippuvuuden).

Mallin validointi

Toinen suosittu tapa on ristiin validointi. Jätetään vuorotellen yksikoe huomioimatta mallia kalibroitaessa ja ennustetaan sen tulos.Saadaan n eri validointitestiä. Jos riittävän moni testi menee läpi,hyväksytään malli.Kun malli on validoitu, voidaan testata, mitkä yhteisvaikutuksetovat merkittäviä (vastaava β poikkeaa merkittävästi nollasta).Poistamalla muut yhteisvaikutukset saadaan pienempi (vähemmänkertoimia/tuntemattomia) malli, joka selitää havainnot.Jos malli ei ole validi, sitä voidaan joko täydentää (korkeammanasteen termeillä ja yhteisvaikutuksilla) tai muokata (muuttamallaregressiomuuttujia).

Mallin validointi

Esimerkki: haetaan mallia jonosysteemin odotusajalle w palveluajans ja saapumisajan a funktiona. Malli w = β0 + β1s + β2a ei oleluonteva (odotusaika kasvaa oikeasti rajatta jos s ylittää a:n).Sopivampi malli on esim. w = (β0) + aβ1 + β2

asa−s

. Tässä w kasvaarajatta kun s lähestyy a:ta.

Koesuunnittelu

Koesuunnittelun (Experiment design) tavoite on määrittää koejärjestely,jolla konstruoidaan tehokkaasti ja luotettavasti sopiva regressiomalliselittämään todellista systeemiä/simulointimallia.Alunperin kehitetty vaativia, pitkäkestoisia ja ulkoisista olosuhteistariippuvia koejärjestelyjä varten (esim. kasvinjalostuskokeet).Simulointikokeiden yhteydessä koesuunnittelu on periaatteessa helppoa.

I Kaikkia koeparametreja voi hallita täydellisesti.

I Jokainen koe(piste) on tarvittaessa toistettavissa.

I Yksittäisen kokeen vaatima aika on yleensä kohtuullisen lyhyt.

Koesuunnittelu

Tavoitteena on sovittaa malli y =∑q

i=1βixi käyttäen n (n ≥ q)

koetta.Minimiehto on, että q × q matriisi X tX on kääntyvä. Muutenkoepisteet ovat vapaasti valittavissa.Jos regressiomuuttujat ovat simulointimallin parametrienpotensseja, tuloja jne, kaikkia x :n arvoja ei voi varioida vapaastitoisista riippumatta. Tekijää, jonka arvoa varioidaan itsenäisestikoesarjan aikana, kutsutaan faktoriksi. Tasolla puolestaantarkoitetaan faktorin mahdollista arvoa (koesarjassa).Yksittäisen faktorin osalta lineaarisen riippuvuuden havaitseminenedellyttää kahta tasoa, kvadraattisen kolmea jne.

Koesuunnittelu

Jos meillä on k faktoria, i :nnellä faktorilla Li tasoa, täydellisenmallin määrääminen edellyttää (kaikkine yhteisvaikutuksineen)L1L2 . . . Lk kerrointa/koetta, mikä yleensä on liikaa, jos vaikuttaviatekijöitä (faktoreita) on paljon.Koesuunnittelulla pyritään siihen, että

I Halutut vaikutukset voidaan määrätä luotettavasti.

I Kokeiden määrää minimoidaan jättämällä vähäisiksi arvioitujayhteisvaikutuksia määrittämättä.

I Yhteisvaikutukset eivät sekoita päävaikutusten arviointia.

I Havaittujen vaikutusten luotettavuus on suuri (kerrointenkovarianssimatriisi on �pieni�).

Koesuunnittelu

Kaksi äärimmäistä lähestymistapaa ovat: yksi faktori kerrallaan(yhteensä 1 +

∑i (Li − 1) koetta, joilla saadaan päävaikutukset,

mutta yhteisvaikutuksia ei pyritä hallitsemaan mitenkään. Kaikkifaktori-taso kombinaatiot (täydellinen koe, joka on kallis ja antaakaiken tarvittavan tiedon).Näiden väliin sijoittuvat menettelyt kuuluvat koesuunnittelun piiriin.

Esimerkki

Tarkastellaan yksinkertaista tapausta, jossa kaikilla faktoreilla on kaksitasoa. Ts vain lineaariset efektit (ja niiden yhteisvaikutukset) esiintyvätmallissa.Yleensä tasoja merkitään �+� ja �-� (+1 ja −1 riippumatta siitä, mitäarvoja oikea faktori saa (reaalinen, kokonaisluku, looginen)).

Tarkastellaan esimerkkinä kolmen faktorin mallia, y = β0 +∑

3

i=1βixi .

Esimerkki

Yksi faktori kerrallaan koejärjestely voi olla esim.

Koe x1 x2 x31 − − −2 + − −3 − + −4 − − +

Faktorin j vaikutusta voi arvioida laskemalla estimaatinβj = (yj+1 − yj)/2. (Oletettiin faktorien tasoiksi +1 ja −1).Jos lineaarinen malli on validi (ei yhteisvaikutuksia), estimaatti onharhaton

E (βj) =1

2(E (yj+1)− E (yj)) = βj .

Esimerkki

Jos kokeet ovat riippumattomia ja yi :n varianssi on σ2,Var(βj) = σ2/2.Jos malli sisältääkin yhteisvaikutuksia(y = β0

∑i βixi +

∑i 6=j βijxixj , estimaatti on harhainen.

Koe x1 x2 x3 x1x2 x2x3 x3x1 x1x2x31 − − − + + + −2 + − − − + − +3 − + − − − + +4 − − + + − − +

E (β1) = β1 − β13 − β12(+β123)

Esimerkki

Tekemällä kaikki faktori-taso kombinaatiot

Koe x1 x2 x3 x1x2 x2x3 x3x1 x1x2x31 − − − + + + −2 + − − − + − +3 − + − − − + +4 + + − + − − −5 − − + + − − +6 + − + − − + −7 − + + − + − −8 + + + + + + +

teemme kaksi kertaa enemmän työtä.

Esimerkki

Jotta kaikki informaatio tulee käytettyä, estimoimme

βj =∑i

xijyj/n

Koska matriisille X pätee∑i

xij = 0 ∀j ,∑i

xijxil = 0, j 6= q

saamme

E (βj) =1

n

∑i

xijE (yi )

=1

n

∑i

xij(β0 +∑l

βlxil ) = βj

Esimerkki

Vastaavasti varianssi on

Var(βj) =1

n2

∑i

x2ijVar(yi ) = σ2/n

Kolmen faktorin tapauksessa varianssi pieneni neljäsosaankaksinkertaisella työllä, joten täysi koe on tehokkaampi kuinfaktoreittain tehty. Lisäksi yhteisvaikutukset eivät aiheuta harhoja(ja ne voidaan jopa ratkaista).

Esimerkki

Miten samaan tehokkuuteen päästään muilla kuin täysillä kokeilla.Tehdään ns valikoitu koe (23−1) koe.Valitaan täydestä kokeesta ne, joille x1x2x3 = +1. Ts suoritetaankokeet

Koe x1 x2 x3 x1x2 x2x3 x3x1 x1x2x32 + − − − + − +3 − + − − − + +5 − − + + − − +8 + + + + + + +

Esimerkki

Päävaikutuksille saadaan estimaatit samalla tavalla kuin täydessäkokeessa

βj =∑i

xijyj/n

Estimaatin varianssi Var(β) = σ2/4 on pienempi kuin yksi faktorikerrallaan kokeessa, vaikka työmäärä on sama.Jos yhteisvaikutukset ovat merkittäviä, aiheuttavat ne harhanpäävaikutuksiin. Esimerkiksi

E (β1) = β1 + β23.

2k−p- kaaviot

Edellä valitsimme neljä (q + 1) koetta kahdeksasta (2q) mahdollisesta.Yleisessä tapauksessa (suuremmille q) tämä voidaan tehdä hyvin monellatavalla. Miten valinnalla voidaan hallita malliin jääviä harhoja.Esimerkissä valittiin kokeet, joissa x1x2x3 = 1. Tällöin kolmen muuttujanyhteisvaikutus samaistuu vakiotekijään x0 ja aiheuttaa vastaavan harhankertoimeen β0.

Vastaavasti x1 ja tulo x2x3 samaistuvat (kuten mikä tahansa päävaikutus

kaikkien muiden faktorien yhteisvaikutukseen).

2k−p- kaaviot

Jos faktoreita on enemmän, valitsemalla osakokeet, joissa kaikkienfaktorien tulo saa vakioarvon, kokeiden määrä puolittuu japäävaikutukset samaistuvat kaikkien muiden faktorienyhteisvaikutukseen. (Eivät siis sekoitu esim. kahden faktorinyhteisvaikutuksiin).Puolet täydestä kokeesta on yleensä vielä liikaa, joten kokeidenmäärää halutaan rajoittaa enemmän.Yleinen menettely on ns 2k−p kokeiden konstruointi. Näissä valitaanp yhteisvaikutusta, jotka samaistetaan vakiotapaukseen. (Edelläp = 1 ja samaistettavana kaikkien faktorien yhteisvaikutus.)Samaistettavia yhteisvaikutuksia kutsutaan kaaviongeneraattoreiksi.

2k−p- kaaviot

Esimerkiksi, jos q = 5, tarvitsemme minimissäänn = q + 1 = 6 < 2q−2 koetta. Tällöin päävaikutustenratkaisemiseksi voimme luoda kaavion, jossa on kaksivakiotapaukseen samaistettavaa yhteisvaikutusta. Nämä voidaanvalita monella tavalla. Jos valitaan 1 = x1x2x3 = x1x4x5, seuraa,että samaistetaan myös mm. x1 = x2x3 = x4x5, x2 = x1x3, jne.Jos voimme perustellusti olettaa, että jokin yhteisvaikutus on pienija toisaalta haluamme saada luotettavan arvion tietyllepäävaikutukselle, voimme valita samaistettavat vaikutuksetsopivasti.

2k−p- kaaviot

Jos halutaan välttää kahden muuttujan yhteisvaikutustensekoittuminen päävaikutuksiin, kokeita on tehtävä enemmän kuinq + 1. Tarkastellaan tapausta q = 5 ja luodaan 25−1 koesamaistamalla x1x2x3x4x5 vakioon. Tällöin päävaikutuksetsamaistuvat neljän faktorin yhteisvaikutuksiin ja kahden faktorinyhteisvaikutukset kolmen faktorin yhteisvaikutuksiin, joten sekäpäävaikutukset että kahden faktorin yhteisvaikutukset saadaansuhteellisen harhattomiksi. Hintana on 16 koetta 6 kerrointa varten.Yleisessä tapauksessa 2k−p ei ole aina tehokain tapa luoda kaaviota.

2k−p- kaaviot

Yleiset kaaviot luokitellaan erottelukykynsä mukaisesti seuraavasti:

I Resoluutio III, joille mitkään päävaikutukset eivät sekoitu

I Resoluutio IV, joille päävaikutukset eivät sekoitu kahdenfaktorin yhteivaikutuksiin.

I Resoluutio V, joille kahden faktorin yhteisvaikutukset eivätsekoitu keskenään

Luokkien nimillä on yhteys vastaavan erottelukyvyn omaavien 2k−p

kaavioiden generaattoreiden pituuksiin.

2k−p- kaaviot

R-III kaaviossa on vähintään q + 1 koetta, (vrt faktori kerrallaan).Optimaalinen varianssi voidaan saavuttaa, jos kokeita on neljälläjaollinen määrä (n = 4m). Jos 4m = 2s , saadaan kaavio 2k−p

tekniikalla. Muille arvoille yleistä menettelyä ei ole, mutta kaavioitaon taulukoitu eri lähteissä.R-IV kaavio saadaan toistamalla R-III kaavio vaihtamalla kaikkifaktorit vastaluvuikseen (päävaikutusten merkki vaihtuu, muttayhteisvaikutusten ei).R-V kaaviossa tarvitaan minimissään 1 + q + (q − 1)q/2 koetta.