Odkrivanje interakcij

Odkrivanje interakcijOdkrivanje interakcij

Aleks JakulinAleks Jakulin

[email protected]

http://www.ailab.si/alekshttp://www.ailab.si/aleks/

mailto:[email protected]

ladjica

kvadrat in krog

VSEBINAVSEBINA

• Statistični modeli in teorija informacij• 2-interakcije med spremenljivkami

– Primer “US Senate”• Statistična značilnost interakcij in intervali

zaupanja• 3-interakcije med spremenljivkami

– Negativne 3-interakcije • Primer “Harris hip score”

– Pozitivne 3-interakcije• Primer “Pajki”

• Druge uporabe interakcij

BayesovskoBayesovskommodeliranjeodeliranje

koristnost

MODEL

algoritem

vzorciprostordomnev

B { A: “A omejuje B”

dani (fiksni) vzorec omejujejo množico možnih modelov

- vzorec določa obliko modela

- model je sestavljen v prostoru domnev

- model “povzročimo” z algoritmom

- koristnost je cilj modela

Klasično modeliranjeKlasično modeliranjekoristnost

MODEL

algoritem

vzorecprostordomnev

Klasična statistika:Dani vzorec je le en od možnih vzorcev, ki bi jih generiral isti model.

Bayesovska statistika: Veliko modelov bi lahko generiralo tak vzorec.

A } B: “A omejuje B”

dani (fiksni) model omejuje množico možnih vzorcev

Današnji Današnji (klasi(klasični) pristop:čni) pristop:

koristnost: maksimalna zanesljivost(“maximum likelihood”)

MODEL

algoritem: nepristranske cenilke ali optimizacijski postopki

podatki: vzorec z opisnima

spremenljivkama A in B

domneve:naj dopušča

oz. ne dopušča obstoja

interakcije

ShannonShannonovaova entropijaentropija

C

Entropija, negotovost glede C, če vemo le P(C).

Površina kroga ustreza “količini” negotovosti.

A

H(A)Informacijapodana s

spremenljivko AI(A;C)=H(A)+H(C)-H(A,C)

Medsebojna informacija ali informacijski prispevek ---Koliko informacije je skupne A in C?

H(C|A) = H(C)-I(A;C)Pogojna entropija --- Preostala negotovost o C, ko poznamo A.

H(A,B)Skupna entropija

Začnemo z verjetnostnim modelom P(A,C) za spremenljivki A in C.Brez modela ni entropije.

Napake modelovNapake modelov• Entropija je mera

koristnosti: nižjo entropijo kot ima neka porazdelitev P, bolje poznamo pojav, ki ga P opisuje.

• Kullback-Leiblerjeva divergenca je mera napake alternativnega modela (desna stran) ob opisovanju referenčnega modela (leva stran).

• Imamo dva modela:– interakcija se dopušča:

P(A,B)– interakcija ni dovoljena:

P(A)P(B)• Razlika med njima je

medsebojna informacija.

ji

jiK

i

K

jji q

ppBAQBAPD

A B

,

,

12

1, log)),(||),((

A BK

iji

K

jji ppBAH

1,2

1, log),(

,**,

,

12

1, log

);())()(||),((

ij

jiK

i

K

jji pp

pp

BAIBPAPBAPDA B

Domena “US Senate”Domena “US Senate”

• Vsa glasovanja Ameriškega senata v letu 2003 (108th Congress, 1st Session)

• Spremenljivke:– 100 senatorjev in izid glasovanja

• Zaloga vrednosti vsake spremenljivke:{Yea, Nay, Not Voting}

• Analiza 2-interakcij, kjer uporabljamo medsebojno informacijo kot izmero pomembnosti interakcije.

• Skupno delo z Wrayem Buntineom (HIIT, Helsinki)

Matrika podobnosti med Matrika podobnosti med glasovi glasovi senatorjevsenatorjevDem

okrati

Republikanci

temno: interakcija,visoka medsebojna informacija

svetlo: ni interakcijenizka medsebojna informacija

KK=20=20 najbolj izrazitih interakcij med Demokrati najbolj izrazitih interakcij med Demokrati::

število glasov

verjetnost identičnegaglasovanja

• Analiza s hierarhičnim razvrščanjem (algoritem “agnes”):– uporabljena razdalja Rajskega:

d(A,B) = 1 - I(A;B)/H(A;B)• 5 blokov:

– A: glavna republikanska skupina (zelo vplivna)– B: ekstremna republikanska skupina republikanci (nevplivna)– C: zmerna republikanska skupina (nevplivna)– D: manjša mejna demokratska skupina (vplivna)– E: glavna demokratska skupina (nevplivna)

Domena: Referendum 1991Domena: Referendum 1991

nepričakovano veliko parov:(Da,Da), (?,?), (Ne,Ne)

nepričakovano malo parov:(Da, ?), (?,Da), (Da,Ne), (Ne,Da)

Ljudje, ki so bili proti odcepitvi,se niso udeležili referenduma v

tako velikem številu.

Kako izgleda interakcija od znotraj?

Kakšna je napaka modela ob predpostavki neodvisnosti med odgovori na “Boste šli na referendum?” in “Ali zagovarjate odcepitev?”

Površina ustreza verjetnosti:• črn kvadratek: dejanska verjetnost. • barvni kvadratek: napovedana verjetnost

Barve kodirajo napako v napovedi. Bolj izrazita, kot je barva, bolj značilna je napaka. Kode:•modra: precenimo•rdeča: podcenimo•bela: ravno prav

15σ

Preizkus značilnosti interakcijePreizkus značilnosti interakcije• Ničelna hipoteza:

interakcija da P(a,b)

• Asimptotična porazdelitev napake ničelne hipoteze glede na oceno P* pri dani velikosti vzorca: D(P*(a,b)||P(a,b)). Število prostorskih stopenj df je število neničelnih celic P(a,b) minus 1.

• Alternativna hipoteza: interakcija ne

P’(a,b) = P(a)P(b)

• Ocenimo napako alternativne h.:

D(P*(a,b)||P’(a,b)) = I(A;B)

• Določimo P-vrednost.

napaka na začetnem vzorcu ob predpostavki, da interakcije ni

integral pod delom krivulje ustreza P-vrednosti

To je Pearsonov neparametrični preizkus značilnosti z Wilksovo

statistiko G2, ki je tesno povezana s KL-divergenco.

porazdelitev napake obpredpostavki ničelne

hipoteze

““Bootstrap”Bootstrap”• Ustvarjamo naključne vzorce P*(a,b) iz

ničelne hipoteze P(a,b), na vsakem ocenimo napako in tako dobimo porazdelitev: Pr{D(P*(a,b)||P(a,b)) < w}

• P-vrednost je dobljena na podlagi percentila, kjer je

w = D(P(a,b)||P(a)P(b))• Zelo podobni rezultati! Tudi na majhnih

vzorcih.• Asimptotika je relativno zanesljiva.• POZOR 1: ponavadi ničelna hipoteza

predpostavi neodvisnost, pri nas pa je ravno obratno.

• POZOR 2: običajno se za 2-interakcije uporabljata Fisherjev in permutacijski test, vendar nista neposredno primerna za interakcije višjih redov.

• POZOR 3: izbira prostorskih stopenj ni običajna.

Intervali zaupanjaIntervali zaupanja

Postopek:1. Ocenimo ničelno hipotezo in vzorčimo iz nje.2. Ocenimo porazdelitev napake, ki jo na vzorcih doživi ocenjena

alternativna hipoteza preko ničelne hipoteze.3. Porazdelitev napake opišemo z intervalom zaupanja.

D(P(A,B)*||D(A)P(B)) - D(P(A,B)*||P(A,B))

Medsebojna informacija (ML): I(A;B) = 0.08199% konfidenčni interval: [0.053, 0.109]

Mini-PovzetekMini-Povzetek

• Entropija je mera koristnosti, podobno kot varianca.

• Informacija je razgradnja entropije na posamične spremenljivke in njihove preseke. Malce podobno ANOVA. Definicija interkacije #1.

• Bistvo pa je v tem, da je medsebojna informacija tudi primerjava skladnosti dveh modelov, ob uporabi KL-divergence. Definicija interakcije #2.

Odvisnosti med spremenljivkamiOdvisnosti med spremenljivkami

C

BA

odvisna spremenljivka (rezultat, izhod, razred)

neodv.spremenljivka

neodv.spremenljivka

pomembnost spremenljivke B

pomembnost spremenljivke A

3-interakcija: Kar je skupno A, B in C;

in ni razvidno iz posamičnih parov.

korelacija med A in B

2-interkacije

Interakcijski prispevekInterakcijski prispevek

• Interakcijski prispevek je lahko:– NEGATIVEN – soodvisnost atributov (podvajanje)– ZANEMARLJIV – ni interakcije– POZITIVEN – sodejavnost atributov (sinergija)

I(A;B;C) :=

I(AB;C) - I(B;C)- I(A;C)

= I(A;B|C) - I(A;B)

Zgodovina Zgodovina interainterakcijskega kcijskega prispevkaprispevka

• Quastler ’53 (Info. Theor. in Biology) - measure of specificity• McGill ‘54 (Psychometrika) - interaction information• Darroch ’74 (Biometrika) - multiplicative interaction• Han ‘80 (Information & Control) - multiple mutual information• Yeung ‘91 (IEEE Trans. Inf. Theory) - mutual information• Cerf & Adami ’97 (Physical Review) - ternary mutual information• Yairi et al. ’98 (Intell. Engin. Systems) - measure of mutual similarity• Grabisch&Roubens ‘99 (game theor.) - Banzhaf interaction index• Brenner et al. ‘00 (Neural Comp.) - average synergy• Demšar ’02 (machine learning) - relative information gain• Orlóci ’02 (ecology) - mutual portion of tot. diversity• Bell ‘03 (NIPS02, ICA2003) - co-information

Domena “Harris Hip Score”Domena “Harris Hip Score”

• Neodvisne spremenljivke:– lastnosti bolnikov

• Odvisna spremenljivka:– uspešnost operacije, merjena s “Harrisovo oceno

kolka”. Spremenljivka je opisna s tremi vrednostmi.

• Analiza 3-interakcij, kjer ugotavljamo povezave med atributi.

• Skupno delo z B. Zupanom, D. Smrketovo, J. Demšarjem in I. Bratkom (AIME 2003)

Pozitivna interakcijaPozitivna interakcija

Zato moramo upoštevati

interakcijo, lahko s pravilom, lahko z drevesom, lahko s tvorjenjem

kombiniranega atributa A*B (Kartezični produkt).

Ta dva atributa sta tudi korelirana! To ne pomeni, da ne mora med

njima pridi do sinergije.

odličen dober slab

Atributa sta neuporabna vsak posamično;porazdelitev ostane nespremenjena

Ampak uporabna skupaj:

Bayesova Bayesova mmrerežaža

Pomembnost

spremenljivke

Tip endoproteze in čas trajanja operacije nista v tem modelu. Glede

na model ne povesta nič novega. Njuno interakcijo lahko (deloma) razumemo tudi skozi drugi vplive.

Vzročni diagramVzročni diagram

HHSpljučna bolezen

sladkornabolezen

nevrološkabolezen čas hospitalizacije

čas dooperacije

izpah

moderator

posledica vzrok

Interakcijski grafInterakcijski graf

Primer:• Nevrološka bolezen

sama po sebi odstrani 2.96% negotovosti glede izida.

• Sladkorna bolezen sama po sebi odstrani 0.39% negotovosti glede izida.

• Skupaj odstranita še dodatnih 3.99%

• Skupaj: 2.96+0.39+3.99=7.34%

Domena “Pajki”Domena “Pajki”

• Odvisna spremenljivka: število vrst pajkov, ki živijo med polji

• Neodvisne spremenljivke:• število traktorskih intervencij na leto• širina in gostota robov med polji• zelišča ob poljih• usmerjenost terena• lastnosti klime, rastlinstev, ipd.

• Skupno delo z Martinom Žnidaršičem in Sašom Džeroskim (EAML-2004)

Avtomatsko Avtomatsko izdelana izdelana

taksonomija taksonomija spremenljivkspremenljivk

4 skupine spremenljivk:– oblika polja– človekovi vplivi + pajki– rastlinstvo– oblika rastja

InterakcijskiInterakcijskidendrogramdendrogram

uporabne spremenljivke

neuporabne spremenljivke

Negativna interakcijaNegativna interakcija

• Razlaga:– Ko imamo enkrat visoko

gostoto robov med polji, število “posegov” ne igra nobene bistvene vloge več.

– Ko enkrat vemo za gostoto med polji, nam število “posegov” pove le 12.6 - 7.16 = 5.44% negotovosti glede odvisne spremenljivke.

Raznolikost: majhna velika

Nekaj dodatnih temNekaj dodatnih tem

• O taksonomijah vrednosti opisnih spremenljivk:– Interakcijsko analizo lahko uporabimo za

organiziranje kompleksnih in velikih tabel.

• Interakcijska analiza na linearnih modelih.

• O pomembnosti spremenljivk:– Ali lahko sklepamo na pomembnost

spremenljivke glede na koeficient v regresijskem modelu?

RazvrRazvrščanje ščanje vrednosti vrednosti

spremenljivkspremenljivk

narodnost (US Census)

vonj gob

izobrazba (US Census)

Izobrazba z dvorazsežnim Izobrazba z dvorazsežnim lestvičenjemlestvičenjem

Spremenljivke: zaslužek, poročni status, poklic, spol, količina dela, ...

Interakcije in linearni modeliInterakcije in linearni modeli

• Multivariatni normalni model

• Diferenčna entropija tega modela

univariatna multivariatna

Medsebojna informacija z Medsebojna informacija z linearnimi modelilinearnimi modeli

• Razbijemo kovariančno matriko

• Primerjamo A in B

• Povezava s korelacijo - monotona:

Regresija in Regresija in interakcijeinterakcije

odvisna spremenljivka:cena avtomobila

PovzetekPovzetek• Interakcije so dobra stvar • Z njimi si pomagamo, ko poskušamo razumeti odnose

med spremenljivkami.– 2-interakcije so primerljive s korelacijami– 3-interakcije delimo v pozitivne in negativne

• Lahko izvedemo teste značilnosti interakcij in ocenimo interval zaupanja v njihovo pomembnost. Pomembnost merimo s KL-divergenco.

• Izdelamo lahko različne vizualizacije:– interakcijski graf– interakcijski dendrogram– pogled v interakcijo– razvrščanje vrednosti spremenljivk

• Nekatere od teh vizualizacij temeljijo na tem, da je informacija metrika.

OrangeOrange

[email protected]

http://www.ailab.si/aleks

mailto:[email protected]

Documents

Odkrivanje interakcij