Upload
tannar
View
61
Download
0
Embed Size (px)
DESCRIPTION
Odkrivanje interakcij. Aleks Jakulin [email protected] http://www.ailab.si/aleks /. ladjica. kvadrat in krog. VSEBINA. Statistični modeli in teorija informacij 2-interakcije med spremenljivkami Primer “US Senate” Statistična značilnost interakcij in intervali zaupanja - PowerPoint PPT Presentation
Citation preview
Odkrivanje interakcijOdkrivanje interakcij
Aleks JakulinAleks Jakulin
http://www.ailab.si/alekshttp://www.ailab.si/aleks/
ladjica
kvadrat in krog
VSEBINAVSEBINA
• Statistični modeli in teorija informacij• 2-interakcije med spremenljivkami
– Primer “US Senate”• Statistična značilnost interakcij in intervali
zaupanja• 3-interakcije med spremenljivkami
– Negativne 3-interakcije • Primer “Harris hip score”
– Pozitivne 3-interakcije• Primer “Pajki”
• Druge uporabe interakcij
BayesovskoBayesovskommodeliranjeodeliranje
koristnost
MODEL
algoritem
vzorciprostordomnev
B { A: “A omejuje B”
dani (fiksni) vzorec omejujejo množico možnih modelov
- vzorec določa obliko modela
- model je sestavljen v prostoru domnev
- model “povzročimo” z algoritmom
- koristnost je cilj modela
Klasično modeliranjeKlasično modeliranjekoristnost
MODEL
algoritem
vzorecprostordomnev
Klasična statistika:Dani vzorec je le en od možnih vzorcev, ki bi jih generiral isti model.
Bayesovska statistika: Veliko modelov bi lahko generiralo tak vzorec.
A } B: “A omejuje B”
dani (fiksni) model omejuje množico možnih vzorcev
Današnji Današnji (klasi(klasični) pristop:čni) pristop:
koristnost: maksimalna zanesljivost(“maximum likelihood”)
MODEL
algoritem: nepristranske cenilke ali optimizacijski postopki
podatki: vzorec z opisnima
spremenljivkama A in B
domneve:naj dopušča
oz. ne dopušča obstoja
interakcije
ShannonShannonovaova entropijaentropija
C
Entropija, negotovost glede C, če vemo le P(C).
Površina kroga ustreza “količini” negotovosti.
A
H(A)Informacijapodana s
spremenljivko AI(A;C)=H(A)+H(C)-H(A,C)
Medsebojna informacija ali informacijski prispevek ---Koliko informacije je skupne A in C?
H(C|A) = H(C)-I(A;C)Pogojna entropija --- Preostala negotovost o C, ko poznamo A.
H(A,B)Skupna entropija
Začnemo z verjetnostnim modelom P(A,C) za spremenljivki A in C.Brez modela ni entropije.
Napake modelovNapake modelov• Entropija je mera
koristnosti: nižjo entropijo kot ima neka porazdelitev P, bolje poznamo pojav, ki ga P opisuje.
• Kullback-Leiblerjeva divergenca je mera napake alternativnega modela (desna stran) ob opisovanju referenčnega modela (leva stran).
• Imamo dva modela:– interakcija se dopušča:
P(A,B)– interakcija ni dovoljena:
P(A)P(B)• Razlika med njima je
medsebojna informacija.
ji
jiK
i
K
jji q
ppBAQBAPD
A B
,
,
12
1, log)),(||),((
A BK
iji
K
jji ppBAH
1,2
1, log),(
,**,
,
12
1, log
);())()(||),((
ij
jiK
i
K
jji pp
pp
BAIBPAPBAPDA B
Domena “US Senate”Domena “US Senate”
• Vsa glasovanja Ameriškega senata v letu 2003 (108th Congress, 1st Session)
• Spremenljivke:– 100 senatorjev in izid glasovanja
• Zaloga vrednosti vsake spremenljivke:{Yea, Nay, Not Voting}
• Analiza 2-interakcij, kjer uporabljamo medsebojno informacijo kot izmero pomembnosti interakcije.
• Skupno delo z Wrayem Buntineom (HIIT, Helsinki)
Matrika podobnosti med Matrika podobnosti med glasovi glasovi senatorjevsenatorjevDem
okrati
Republikanci
temno: interakcija,visoka medsebojna informacija
svetlo: ni interakcijenizka medsebojna informacija
KK=20=20 najbolj izrazitih interakcij med Demokrati najbolj izrazitih interakcij med Demokrati::
število glasov
verjetnost identičnegaglasovanja
• Analiza s hierarhičnim razvrščanjem (algoritem “agnes”):– uporabljena razdalja Rajskega:
d(A,B) = 1 - I(A;B)/H(A;B)• 5 blokov:
– A: glavna republikanska skupina (zelo vplivna)– B: ekstremna republikanska skupina republikanci (nevplivna)– C: zmerna republikanska skupina (nevplivna)– D: manjša mejna demokratska skupina (vplivna)– E: glavna demokratska skupina (nevplivna)
Domena: Referendum 1991Domena: Referendum 1991
nepričakovano veliko parov:(Da,Da), (?,?), (Ne,Ne)
nepričakovano malo parov:(Da, ?), (?,Da), (Da,Ne), (Ne,Da)
Ljudje, ki so bili proti odcepitvi,se niso udeležili referenduma v
tako velikem številu.
Kako izgleda interakcija od znotraj?
Kakšna je napaka modela ob predpostavki neodvisnosti med odgovori na “Boste šli na referendum?” in “Ali zagovarjate odcepitev?”
Površina ustreza verjetnosti:• črn kvadratek: dejanska verjetnost. • barvni kvadratek: napovedana verjetnost
Barve kodirajo napako v napovedi. Bolj izrazita, kot je barva, bolj značilna je napaka. Kode:•modra: precenimo•rdeča: podcenimo•bela: ravno prav
15σ
Preizkus značilnosti interakcijePreizkus značilnosti interakcije• Ničelna hipoteza:
interakcija da P(a,b)
• Asimptotična porazdelitev napake ničelne hipoteze glede na oceno P* pri dani velikosti vzorca: D(P*(a,b)||P(a,b)). Število prostorskih stopenj df je število neničelnih celic P(a,b) minus 1.
• Alternativna hipoteza: interakcija ne
P’(a,b) = P(a)P(b)
• Ocenimo napako alternativne h.:
D(P*(a,b)||P’(a,b)) = I(A;B)
• Določimo P-vrednost.
napaka na začetnem vzorcu ob predpostavki, da interakcije ni
integral pod delom krivulje ustreza P-vrednosti
To je Pearsonov neparametrični preizkus značilnosti z Wilksovo
statistiko G2, ki je tesno povezana s KL-divergenco.
porazdelitev napake obpredpostavki ničelne
hipoteze
““Bootstrap”Bootstrap”• Ustvarjamo naključne vzorce P*(a,b) iz
ničelne hipoteze P(a,b), na vsakem ocenimo napako in tako dobimo porazdelitev: Pr{D(P*(a,b)||P(a,b)) < w}
• P-vrednost je dobljena na podlagi percentila, kjer je
w = D(P(a,b)||P(a)P(b))• Zelo podobni rezultati! Tudi na majhnih
vzorcih.• Asimptotika je relativno zanesljiva.• POZOR 1: ponavadi ničelna hipoteza
predpostavi neodvisnost, pri nas pa je ravno obratno.
• POZOR 2: običajno se za 2-interakcije uporabljata Fisherjev in permutacijski test, vendar nista neposredno primerna za interakcije višjih redov.
• POZOR 3: izbira prostorskih stopenj ni običajna.
Intervali zaupanjaIntervali zaupanja
Postopek:1. Ocenimo ničelno hipotezo in vzorčimo iz nje.2. Ocenimo porazdelitev napake, ki jo na vzorcih doživi ocenjena
alternativna hipoteza preko ničelne hipoteze.3. Porazdelitev napake opišemo z intervalom zaupanja.
D(P(A,B)*||D(A)P(B)) - D(P(A,B)*||P(A,B))
Medsebojna informacija (ML): I(A;B) = 0.08199% konfidenčni interval: [0.053, 0.109]
Mini-PovzetekMini-Povzetek
• Entropija je mera koristnosti, podobno kot varianca.
• Informacija je razgradnja entropije na posamične spremenljivke in njihove preseke. Malce podobno ANOVA. Definicija interkacije #1.
• Bistvo pa je v tem, da je medsebojna informacija tudi primerjava skladnosti dveh modelov, ob uporabi KL-divergence. Definicija interakcije #2.
Odvisnosti med spremenljivkamiOdvisnosti med spremenljivkami
C
BA
odvisna spremenljivka (rezultat, izhod, razred)
neodv.spremenljivka
neodv.spremenljivka
pomembnost spremenljivke B
pomembnost spremenljivke A
3-interakcija: Kar je skupno A, B in C;
in ni razvidno iz posamičnih parov.
korelacija med A in B
2-interkacije
Interakcijski prispevekInterakcijski prispevek
• Interakcijski prispevek je lahko:– NEGATIVEN – soodvisnost atributov (podvajanje)– ZANEMARLJIV – ni interakcije– POZITIVEN – sodejavnost atributov (sinergija)
I(A;B;C) :=
I(AB;C) - I(B;C)- I(A;C)
= I(A;B|C) - I(A;B)
Zgodovina Zgodovina interainterakcijskega kcijskega prispevkaprispevka
• Quastler ’53 (Info. Theor. in Biology) - measure of specificity• McGill ‘54 (Psychometrika) - interaction information• Darroch ’74 (Biometrika) - multiplicative interaction• Han ‘80 (Information & Control) - multiple mutual information• Yeung ‘91 (IEEE Trans. Inf. Theory) - mutual information• Cerf & Adami ’97 (Physical Review) - ternary mutual information• Yairi et al. ’98 (Intell. Engin. Systems) - measure of mutual similarity• Grabisch&Roubens ‘99 (game theor.) - Banzhaf interaction index• Brenner et al. ‘00 (Neural Comp.) - average synergy• Demšar ’02 (machine learning) - relative information gain• Orlóci ’02 (ecology) - mutual portion of tot. diversity• Bell ‘03 (NIPS02, ICA2003) - co-information
Domena “Harris Hip Score”Domena “Harris Hip Score”
• Neodvisne spremenljivke:– lastnosti bolnikov
• Odvisna spremenljivka:– uspešnost operacije, merjena s “Harrisovo oceno
kolka”. Spremenljivka je opisna s tremi vrednostmi.
• Analiza 3-interakcij, kjer ugotavljamo povezave med atributi.
• Skupno delo z B. Zupanom, D. Smrketovo, J. Demšarjem in I. Bratkom (AIME 2003)
Pozitivna interakcijaPozitivna interakcija
Zato moramo upoštevati
interakcijo, lahko s pravilom, lahko z drevesom, lahko s tvorjenjem
kombiniranega atributa A*B (Kartezični produkt).
Ta dva atributa sta tudi korelirana! To ne pomeni, da ne mora med
njima pridi do sinergije.
odličen dober slab
Atributa sta neuporabna vsak posamično;porazdelitev ostane nespremenjena
Ampak uporabna skupaj:
Bayesova Bayesova mmrerežaža
Pomembnost
spremenljivke
Tip endoproteze in čas trajanja operacije nista v tem modelu. Glede
na model ne povesta nič novega. Njuno interakcijo lahko (deloma) razumemo tudi skozi drugi vplive.
Vzročni diagramVzročni diagram
HHSpljučna bolezen
sladkornabolezen
nevrološkabolezen čas hospitalizacije
čas dooperacije
izpah
moderator
posledica vzrok
Interakcijski grafInterakcijski graf
Primer:• Nevrološka bolezen
sama po sebi odstrani 2.96% negotovosti glede izida.
• Sladkorna bolezen sama po sebi odstrani 0.39% negotovosti glede izida.
• Skupaj odstranita še dodatnih 3.99%
• Skupaj: 2.96+0.39+3.99=7.34%
Domena “Pajki”Domena “Pajki”
• Odvisna spremenljivka: število vrst pajkov, ki živijo med polji
• Neodvisne spremenljivke:• število traktorskih intervencij na leto• širina in gostota robov med polji• zelišča ob poljih• usmerjenost terena• lastnosti klime, rastlinstev, ipd.
• Skupno delo z Martinom Žnidaršičem in Sašom Džeroskim (EAML-2004)
Avtomatsko Avtomatsko izdelana izdelana
taksonomija taksonomija spremenljivkspremenljivk
4 skupine spremenljivk:– oblika polja– človekovi vplivi + pajki– rastlinstvo– oblika rastja
InterakcijskiInterakcijskidendrogramdendrogram
uporabne spremenljivke
neuporabne spremenljivke
Negativna interakcijaNegativna interakcija
• Razlaga:– Ko imamo enkrat visoko
gostoto robov med polji, število “posegov” ne igra nobene bistvene vloge več.
– Ko enkrat vemo za gostoto med polji, nam število “posegov” pove le 12.6 - 7.16 = 5.44% negotovosti glede odvisne spremenljivke.
Raznolikost: majhna velika
Nekaj dodatnih temNekaj dodatnih tem
• O taksonomijah vrednosti opisnih spremenljivk:– Interakcijsko analizo lahko uporabimo za
organiziranje kompleksnih in velikih tabel.
• Interakcijska analiza na linearnih modelih.
• O pomembnosti spremenljivk:– Ali lahko sklepamo na pomembnost
spremenljivke glede na koeficient v regresijskem modelu?
RazvrRazvrščanje ščanje vrednosti vrednosti
spremenljivkspremenljivk
narodnost (US Census)
vonj gob
izobrazba (US Census)
Izobrazba z dvorazsežnim Izobrazba z dvorazsežnim lestvičenjemlestvičenjem
Spremenljivke: zaslužek, poročni status, poklic, spol, količina dela, ...
Interakcije in linearni modeliInterakcije in linearni modeli
• Multivariatni normalni model
• Diferenčna entropija tega modela
univariatna multivariatna
Medsebojna informacija z Medsebojna informacija z linearnimi modelilinearnimi modeli
• Razbijemo kovariančno matriko
• Primerjamo A in B
• Povezava s korelacijo - monotona:
Regresija in Regresija in interakcijeinterakcije
odvisna spremenljivka:cena avtomobila
PovzetekPovzetek• Interakcije so dobra stvar • Z njimi si pomagamo, ko poskušamo razumeti odnose
med spremenljivkami.– 2-interakcije so primerljive s korelacijami– 3-interakcije delimo v pozitivne in negativne
• Lahko izvedemo teste značilnosti interakcij in ocenimo interval zaupanja v njihovo pomembnost. Pomembnost merimo s KL-divergenco.
• Izdelamo lahko različne vizualizacije:– interakcijski graf– interakcijski dendrogram– pogled v interakcijo– razvrščanje vrednosti spremenljivk
• Nekatere od teh vizualizacij temeljijo na tem, da je informacija metrika.