37
Odkrivanje interakcij Odkrivanje interakcij Aleks Jakulin Aleks Jakulin [email protected] http://www.ailab.si/aleks http://www.ailab.si/aleks/

Odkrivanje interakcij

  • Upload
    tannar

  • View
    61

  • Download
    0

Embed Size (px)

DESCRIPTION

Odkrivanje interakcij. Aleks Jakulin [email protected] http://www.ailab.si/aleks /. ladjica. kvadrat in krog. VSEBINA. Statistični modeli in teorija informacij 2-interakcije med spremenljivkami Primer “US Senate” Statistična značilnost interakcij in intervali zaupanja - PowerPoint PPT Presentation

Citation preview

Page 1: Odkrivanje interakcij

Odkrivanje interakcijOdkrivanje interakcij

Aleks JakulinAleks Jakulin

[email protected]

http://www.ailab.si/alekshttp://www.ailab.si/aleks/

Page 2: Odkrivanje interakcij

ladjica

kvadrat in krog

Page 3: Odkrivanje interakcij

VSEBINAVSEBINA

• Statistični modeli in teorija informacij• 2-interakcije med spremenljivkami

– Primer “US Senate”• Statistična značilnost interakcij in intervali

zaupanja• 3-interakcije med spremenljivkami

– Negativne 3-interakcije • Primer “Harris hip score”

– Pozitivne 3-interakcije• Primer “Pajki”

• Druge uporabe interakcij

Page 4: Odkrivanje interakcij

BayesovskoBayesovskommodeliranjeodeliranje

koristnost

MODEL

algoritem

vzorciprostordomnev

B { A: “A omejuje B”

dani (fiksni) vzorec omejujejo množico možnih modelov

- vzorec določa obliko modela

- model je sestavljen v prostoru domnev

- model “povzročimo” z algoritmom

- koristnost je cilj modela

Page 5: Odkrivanje interakcij

Klasično modeliranjeKlasično modeliranjekoristnost

MODEL

algoritem

vzorecprostordomnev

Klasična statistika:Dani vzorec je le en od možnih vzorcev, ki bi jih generiral isti model.

Bayesovska statistika: Veliko modelov bi lahko generiralo tak vzorec.

A } B: “A omejuje B”

dani (fiksni) model omejuje množico možnih vzorcev

Page 6: Odkrivanje interakcij

Današnji Današnji (klasi(klasični) pristop:čni) pristop:

koristnost: maksimalna zanesljivost(“maximum likelihood”)

MODEL

algoritem: nepristranske cenilke ali optimizacijski postopki

podatki: vzorec z opisnima

spremenljivkama A in B

domneve:naj dopušča

oz. ne dopušča obstoja

interakcije

Page 7: Odkrivanje interakcij

ShannonShannonovaova entropijaentropija

C

Entropija, negotovost glede C, če vemo le P(C).

Površina kroga ustreza “količini” negotovosti.

A

H(A)Informacijapodana s

spremenljivko AI(A;C)=H(A)+H(C)-H(A,C)

Medsebojna informacija ali informacijski prispevek ---Koliko informacije je skupne A in C?

H(C|A) = H(C)-I(A;C)Pogojna entropija --- Preostala negotovost o C, ko poznamo A.

H(A,B)Skupna entropija

Začnemo z verjetnostnim modelom P(A,C) za spremenljivki A in C.Brez modela ni entropije.

Page 8: Odkrivanje interakcij

Napake modelovNapake modelov• Entropija je mera

koristnosti: nižjo entropijo kot ima neka porazdelitev P, bolje poznamo pojav, ki ga P opisuje.

• Kullback-Leiblerjeva divergenca je mera napake alternativnega modela (desna stran) ob opisovanju referenčnega modela (leva stran).

• Imamo dva modela:– interakcija se dopušča:

P(A,B)– interakcija ni dovoljena:

P(A)P(B)• Razlika med njima je

medsebojna informacija.

ji

jiK

i

K

jji q

ppBAQBAPD

A B

,

,

12

1, log)),(||),((

A BK

iji

K

jji ppBAH

1,2

1, log),(

,**,

,

12

1, log

);())()(||),((

ij

jiK

i

K

jji pp

pp

BAIBPAPBAPDA B

Page 9: Odkrivanje interakcij

Domena “US Senate”Domena “US Senate”

• Vsa glasovanja Ameriškega senata v letu 2003 (108th Congress, 1st Session)

• Spremenljivke:– 100 senatorjev in izid glasovanja

• Zaloga vrednosti vsake spremenljivke:{Yea, Nay, Not Voting}

• Analiza 2-interakcij, kjer uporabljamo medsebojno informacijo kot izmero pomembnosti interakcije.

• Skupno delo z Wrayem Buntineom (HIIT, Helsinki)

Page 10: Odkrivanje interakcij

Matrika podobnosti med Matrika podobnosti med glasovi glasovi senatorjevsenatorjevDem

okrati

Republikanci

temno: interakcija,visoka medsebojna informacija

svetlo: ni interakcijenizka medsebojna informacija

Page 11: Odkrivanje interakcij

KK=20=20 najbolj izrazitih interakcij med Demokrati najbolj izrazitih interakcij med Demokrati::

število glasov

verjetnost identičnegaglasovanja

Page 12: Odkrivanje interakcij

• Analiza s hierarhičnim razvrščanjem (algoritem “agnes”):– uporabljena razdalja Rajskega:

d(A,B) = 1 - I(A;B)/H(A;B)• 5 blokov:

– A: glavna republikanska skupina (zelo vplivna)– B: ekstremna republikanska skupina republikanci (nevplivna)– C: zmerna republikanska skupina (nevplivna)– D: manjša mejna demokratska skupina (vplivna)– E: glavna demokratska skupina (nevplivna)

Page 13: Odkrivanje interakcij

Domena: Referendum 1991Domena: Referendum 1991

nepričakovano veliko parov:(Da,Da), (?,?), (Ne,Ne)

nepričakovano malo parov:(Da, ?), (?,Da), (Da,Ne), (Ne,Da)

Ljudje, ki so bili proti odcepitvi,se niso udeležili referenduma v

tako velikem številu.

Kako izgleda interakcija od znotraj?

Kakšna je napaka modela ob predpostavki neodvisnosti med odgovori na “Boste šli na referendum?” in “Ali zagovarjate odcepitev?”

Površina ustreza verjetnosti:• črn kvadratek: dejanska verjetnost. • barvni kvadratek: napovedana verjetnost

Barve kodirajo napako v napovedi. Bolj izrazita, kot je barva, bolj značilna je napaka. Kode:•modra: precenimo•rdeča: podcenimo•bela: ravno prav

15σ

Page 14: Odkrivanje interakcij

Preizkus značilnosti interakcijePreizkus značilnosti interakcije• Ničelna hipoteza:

interakcija da P(a,b)

• Asimptotična porazdelitev napake ničelne hipoteze glede na oceno P* pri dani velikosti vzorca: D(P*(a,b)||P(a,b)). Število prostorskih stopenj df je število neničelnih celic P(a,b) minus 1.

• Alternativna hipoteza: interakcija ne

P’(a,b) = P(a)P(b)

• Ocenimo napako alternativne h.:

D(P*(a,b)||P’(a,b)) = I(A;B)

• Določimo P-vrednost.

napaka na začetnem vzorcu ob predpostavki, da interakcije ni

integral pod delom krivulje ustreza P-vrednosti

To je Pearsonov neparametrični preizkus značilnosti z Wilksovo

statistiko G2, ki je tesno povezana s KL-divergenco.

porazdelitev napake obpredpostavki ničelne

hipoteze

Page 15: Odkrivanje interakcij

““Bootstrap”Bootstrap”• Ustvarjamo naključne vzorce P*(a,b) iz

ničelne hipoteze P(a,b), na vsakem ocenimo napako in tako dobimo porazdelitev: Pr{D(P*(a,b)||P(a,b)) < w}

• P-vrednost je dobljena na podlagi percentila, kjer je

w = D(P(a,b)||P(a)P(b))• Zelo podobni rezultati! Tudi na majhnih

vzorcih.• Asimptotika je relativno zanesljiva.• POZOR 1: ponavadi ničelna hipoteza

predpostavi neodvisnost, pri nas pa je ravno obratno.

• POZOR 2: običajno se za 2-interakcije uporabljata Fisherjev in permutacijski test, vendar nista neposredno primerna za interakcije višjih redov.

• POZOR 3: izbira prostorskih stopenj ni običajna.

Page 16: Odkrivanje interakcij

Intervali zaupanjaIntervali zaupanja

Postopek:1. Ocenimo ničelno hipotezo in vzorčimo iz nje.2. Ocenimo porazdelitev napake, ki jo na vzorcih doživi ocenjena

alternativna hipoteza preko ničelne hipoteze.3. Porazdelitev napake opišemo z intervalom zaupanja.

D(P(A,B)*||D(A)P(B)) - D(P(A,B)*||P(A,B))

Medsebojna informacija (ML): I(A;B) = 0.08199% konfidenčni interval: [0.053, 0.109]

Page 17: Odkrivanje interakcij

Mini-PovzetekMini-Povzetek

• Entropija je mera koristnosti, podobno kot varianca.

• Informacija je razgradnja entropije na posamične spremenljivke in njihove preseke. Malce podobno ANOVA. Definicija interkacije #1.

• Bistvo pa je v tem, da je medsebojna informacija tudi primerjava skladnosti dveh modelov, ob uporabi KL-divergence. Definicija interakcije #2.

Page 18: Odkrivanje interakcij

Odvisnosti med spremenljivkamiOdvisnosti med spremenljivkami

C

BA

odvisna spremenljivka (rezultat, izhod, razred)

neodv.spremenljivka

neodv.spremenljivka

pomembnost spremenljivke B

pomembnost spremenljivke A

3-interakcija: Kar je skupno A, B in C;

in ni razvidno iz posamičnih parov.

korelacija med A in B

2-interkacije

Page 19: Odkrivanje interakcij

Interakcijski prispevekInterakcijski prispevek

• Interakcijski prispevek je lahko:– NEGATIVEN – soodvisnost atributov (podvajanje)– ZANEMARLJIV – ni interakcije– POZITIVEN – sodejavnost atributov (sinergija)

I(A;B;C) :=

I(AB;C) - I(B;C)- I(A;C)

= I(A;B|C) - I(A;B)

Page 20: Odkrivanje interakcij

Zgodovina Zgodovina interainterakcijskega kcijskega prispevkaprispevka

• Quastler ’53 (Info. Theor. in Biology) - measure of specificity• McGill ‘54 (Psychometrika) - interaction information• Darroch ’74 (Biometrika) - multiplicative interaction• Han ‘80 (Information & Control) - multiple mutual information• Yeung ‘91 (IEEE Trans. Inf. Theory) - mutual information• Cerf & Adami ’97 (Physical Review) - ternary mutual information• Yairi et al. ’98 (Intell. Engin. Systems) - measure of mutual similarity• Grabisch&Roubens ‘99 (game theor.) - Banzhaf interaction index• Brenner et al. ‘00 (Neural Comp.) - average synergy• Demšar ’02 (machine learning) - relative information gain• Orlóci ’02 (ecology) - mutual portion of tot. diversity• Bell ‘03 (NIPS02, ICA2003) - co-information

Page 21: Odkrivanje interakcij

Domena “Harris Hip Score”Domena “Harris Hip Score”

• Neodvisne spremenljivke:– lastnosti bolnikov

• Odvisna spremenljivka:– uspešnost operacije, merjena s “Harrisovo oceno

kolka”. Spremenljivka je opisna s tremi vrednostmi.

• Analiza 3-interakcij, kjer ugotavljamo povezave med atributi.

• Skupno delo z B. Zupanom, D. Smrketovo, J. Demšarjem in I. Bratkom (AIME 2003)

Page 22: Odkrivanje interakcij

Pozitivna interakcijaPozitivna interakcija

Zato moramo upoštevati

interakcijo, lahko s pravilom, lahko z drevesom, lahko s tvorjenjem

kombiniranega atributa A*B (Kartezični produkt).

Ta dva atributa sta tudi korelirana! To ne pomeni, da ne mora med

njima pridi do sinergije.

odličen dober slab

Atributa sta neuporabna vsak posamično;porazdelitev ostane nespremenjena

Ampak uporabna skupaj:

Page 23: Odkrivanje interakcij

Bayesova Bayesova mmrerežaža

Pomembnost

spremenljivke

Tip endoproteze in čas trajanja operacije nista v tem modelu. Glede

na model ne povesta nič novega. Njuno interakcijo lahko (deloma) razumemo tudi skozi drugi vplive.

Page 24: Odkrivanje interakcij

Vzročni diagramVzročni diagram

HHSpljučna bolezen

sladkornabolezen

nevrološkabolezen čas hospitalizacije

čas dooperacije

izpah

moderator

posledica vzrok

Page 25: Odkrivanje interakcij

Interakcijski grafInterakcijski graf

Primer:• Nevrološka bolezen

sama po sebi odstrani 2.96% negotovosti glede izida.

• Sladkorna bolezen sama po sebi odstrani 0.39% negotovosti glede izida.

• Skupaj odstranita še dodatnih 3.99%

• Skupaj: 2.96+0.39+3.99=7.34%

Page 26: Odkrivanje interakcij

Domena “Pajki”Domena “Pajki”

• Odvisna spremenljivka: število vrst pajkov, ki živijo med polji

• Neodvisne spremenljivke:• število traktorskih intervencij na leto• širina in gostota robov med polji• zelišča ob poljih• usmerjenost terena• lastnosti klime, rastlinstev, ipd.

• Skupno delo z Martinom Žnidaršičem in Sašom Džeroskim (EAML-2004)

Page 27: Odkrivanje interakcij

Avtomatsko Avtomatsko izdelana izdelana

taksonomija taksonomija spremenljivkspremenljivk

4 skupine spremenljivk:– oblika polja– človekovi vplivi + pajki– rastlinstvo– oblika rastja

Page 28: Odkrivanje interakcij

InterakcijskiInterakcijskidendrogramdendrogram

uporabne spremenljivke

neuporabne spremenljivke

Page 29: Odkrivanje interakcij

Negativna interakcijaNegativna interakcija

• Razlaga:– Ko imamo enkrat visoko

gostoto robov med polji, število “posegov” ne igra nobene bistvene vloge več.

– Ko enkrat vemo za gostoto med polji, nam število “posegov” pove le 12.6 - 7.16 = 5.44% negotovosti glede odvisne spremenljivke.

Raznolikost: majhna velika

Page 30: Odkrivanje interakcij

Nekaj dodatnih temNekaj dodatnih tem

• O taksonomijah vrednosti opisnih spremenljivk:– Interakcijsko analizo lahko uporabimo za

organiziranje kompleksnih in velikih tabel.

• Interakcijska analiza na linearnih modelih.

• O pomembnosti spremenljivk:– Ali lahko sklepamo na pomembnost

spremenljivke glede na koeficient v regresijskem modelu?

Page 31: Odkrivanje interakcij

RazvrRazvrščanje ščanje vrednosti vrednosti

spremenljivkspremenljivk

narodnost (US Census)

vonj gob

izobrazba (US Census)

Page 32: Odkrivanje interakcij

Izobrazba z dvorazsežnim Izobrazba z dvorazsežnim lestvičenjemlestvičenjem

Spremenljivke: zaslužek, poročni status, poklic, spol, količina dela, ...

Page 33: Odkrivanje interakcij

Interakcije in linearni modeliInterakcije in linearni modeli

• Multivariatni normalni model

• Diferenčna entropija tega modela

univariatna multivariatna

Page 34: Odkrivanje interakcij

Medsebojna informacija z Medsebojna informacija z linearnimi modelilinearnimi modeli

• Razbijemo kovariančno matriko

• Primerjamo A in B

• Povezava s korelacijo - monotona:

Page 35: Odkrivanje interakcij

Regresija in Regresija in interakcijeinterakcije

odvisna spremenljivka:cena avtomobila

Page 36: Odkrivanje interakcij

PovzetekPovzetek• Interakcije so dobra stvar • Z njimi si pomagamo, ko poskušamo razumeti odnose

med spremenljivkami.– 2-interakcije so primerljive s korelacijami– 3-interakcije delimo v pozitivne in negativne

• Lahko izvedemo teste značilnosti interakcij in ocenimo interval zaupanja v njihovo pomembnost. Pomembnost merimo s KL-divergenco.

• Izdelamo lahko različne vizualizacije:– interakcijski graf– interakcijski dendrogram– pogled v interakcijo– razvrščanje vrednosti spremenljivk

• Nekatere od teh vizualizacij temeljijo na tem, da je informacija metrika.

Page 37: Odkrivanje interakcij

OrangeOrange

[email protected]

http://www.ailab.si/aleks