Konstruktivna indukcija s kr čenjem prostora atributov

Konstruktivna indukcijas krčenjem prostora

atributov

(diskusija na temodela za doktorsko disertacijo)

Konstruktivna indukcijain krčenje prostora

atributov?!

• Prostor atributov se ne more širiti• Nasprotno – od konstruktivne indukcije smemo

krčenje celo pričakovati.• Naslov namiguje na način tvorbe atributov:

konstruktivna indukcija z minimizacijo kartezičnega produkta vezanih atributov

Vsebina

1. Operatorji in njih ocenjevanje2. Dve “znani” metodi CI s splošnimi operatorji3. Splošni okvir CI z minimizacijo kartezičnega

produkta4. Modifikacije funkcijske dekompozicije in

posledice5. Še dve metodi iz splošnejšega okvira

Določanje operatorja1CI združi enega ali več atributov v nov atribut s pomočjo

primernega operatorja.

Vnaprej predpisana množica operatorjev (Fringe, LFC... ...)

Splošni operatorji (operator-free) (Pazzani, CN2-MCI, Hint)

+išče po večjem prostoru (tudi med modeli, kakršne generiramo z Dexom)

– je v splošnem počasnejše– je v splošnem manj odporno na šum

Minimizacija kartezičnega produkta

• Nov atribut sestavimo kot kartezični produkt enega, dveh ali več starih

• Posamezne vrednosti novega atributa združimo v podmnožice “ekvivalentnih” vrednosti

• Operator slika iz originalnih vrednosti v ekvivalenčne razrede

1

0

10

(and)

1

0

10

(xor)

1

0

10

(or)

Kako oceniti operator?

Kaj pričakujemo od operatorja oz. novega atributa?

Razumljivost človeku• logičnost, pričakovanost, skladnost s poznavanjem

domene (oz. z definicijo domene, če gre za umetno domeno)

• navadno iz neke množice znanih operatorjev ali iz nekega razreda operatorjev (npr. nepadajoče funkcije)

Uporabnost pri učenju• odvisen od metode učenja, ki jo nameravamo uporabiti

(Bayes, klasifikacijska drevesa, HINT)

Učenje s sestavljanjem disjunktnih hierarhij:Koncepti, ki jih potrebujemo za učenje, imajo več vrednosti, kot bi jih pričakovali, in so človeku nerazumljivi

Razdalja med pravim in “napovedanim”

operatorjem• Manhattanska razdalja (uporabna le za binarne

konstrukte)• Splošno – število kršitev ekvivalenčne relacije

f(x)=f(y) g(x)=g(y)

f g Kršitve:

() razdruženi 3() združeni 3() razdalja 6

Razdalja med pravim in “napovedanim” operatorjem

(2)Dobro:

Zanimivo:

Slabo:

učinkovita implementacija

meri sta pri binarnih konstruktih ekvivalentni(= enako rangirata operatorje)

dobljene razdalje so neintuitivne (ne merijo tistega, kar bi želeli meriti; metode rangirajo drugače, kot bi jih “očividec”)


(3)metoda w_sep w_join w_pairs

skupine

ciljni koncept{0, …, 25}, {26}

FD-m 0.80 0.00 0.77{0}, {1, 3, 9, 13},

{2, 4, 6, 10, 12, 18},{5, 7, 11, 15, 19, 21},{8, 14, 16, 20, 22, 24},{17, 23, 25}, {26}

Kramer-m 0.00 1.00 0.07{0, …, 26}

Tolažba:Mera nudi vpogled v to, katera metoda združi preveč in katera premalo vrednosti


(4)

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

FD

-m

F

D-m

_bin

F

D-g

ainr

_bin

FD

-rel

ief

F

D-r

elie

f_bi

n

F

D-c

ompl

K

ram

er

K

ram

er-m

K

ram

er-m

_bin

Kra

mer

-gai

nr_b

in

K

ram

er-r

elie

f

Kra

mer

-rel

ief_

bin

Bay

es

w sep w join

Uporabnost pri učenju

Ovijanje (Kohavi: wrapper approach)• sestavi atribute z različnimi metodami in jih

dodaj k obstoječim; vsaka metoda definira množico atributov

• nad dobljenimi množicami se uči z enim od običajnih algoritmov učenja (Bayes, C45, Hint...)

• izmeri klasifikacijsko točnostZa izbrani učni algoritem je najboljša tista

metoda konstrukcije atributov, ki da najvišjo klasifikacijsko točnost.

Pričakovati je razlike glede na metodo učenja.

2Dva ali trije znani postopki

• HINT (min. kompl.): min. števila vrednosti z omejitvami

• HINT (min. napake): min. napake z m-oceno • CN2-MCI – minimizacija nečistoče novega

atributa

CN2-MCI(korak minimizacije kartezičnega

produkta)

Nečistost clustra:

Postopek:• v začetku je vsak element svoj cluster• izračunaj vsoto nečistoč po vseh clustrih• združi clustra, ki najmanj povečata vsoto

nečistoč• ponavljaj, dokler ne ostaneta le dva clustra

negativepositiveegativepositive*n

E(c)+

=

Kratkovidnost! Relief?!

Funkcijska dekompozicijakom

bin

aci

je v

red

nost

ip

rost

ih a

trib

uto

v

kombinacije vrednosti

vezanih atributov

Funkcijska dekompozicijaminimizacija kompleksnosti

• Združi dva združljiva stolpca (“clustra”)

• Ponavljaj, dokler ne zmanjka združljivih stolpcev

(V resnici: barvanje grafov)

0 0

1

0

3 3

2

0 1

1

0 0

2 2

2

Funkcijska dekompozicijaminimizacija napake

• Za vsak par stolpcev izračunaj vsoto zmanjšanja m-ocen napake pri združitvi vsakega para celic

• Združi stolpca, pri katerih se napaka najbolj zmanjša

• Ponavljaj, dokler obstajajo pari stolpcev, ki manjšajo napako

<0, 1, 4>

<0, 2, 0>

<4, 1, 1>

<2, 5, 1>

<0, 0, 4>

<3, 0, 3>

<1, 0, 0>

<0, 0, 4>

<4. 1, 2>

<1, 1, 0>

<1, 4, 4>

<1, 1, 2>

<0, 1, 0>

<1, 2, 0>

<1, 2, 0>

FD, CN2-MCI in kratkovidnost

CN2-MCI je kratkoviden, funkcijska dekompozicija pa ne

Nekratkovidnost funkcijske dekompozicije ima isti izvor kot Reliefova nekratkovidnost: primerjanje elementov po vrsticah ima učinek je podobno jemanju najbližjih (oz. “enakih” sosedov)

Vendar:

nekratkovidnost ni vedno potrebna; včasih le zmanjšuje natančnost

(Pri naivnem Bayesovem klasifikatorju je govorjenje o nekratkovidnosti greh!)

Slabosti funkcijske dekompozicije

DisjunktnostKer vrstice particijske matrike ustrezajo različnim vrednostim prostih (in ne vseh!) atributov, je novi atribut sestavljen tako, kot da bomo vezane atribute odstranili.

(Kaj je nedisjunktnost?! Lahko govorimo o njej že med sestavljanjem atributov?! Kako prepoznati dober “nedisjunktni” atribut?!)

Počasna rast krivulj učenjaKadar je pokritost prostora slaba, je particijska matrika redka in postopek združevanja stolpcev slabo voden

3Splošni okvir postopkov CI z minimizacijo kartezičnega

produkta• sestavi kartezični

produkt podmnožice atributov

• iz učnih primerov izračunaj informacijo o vsaki vrednosti kartezičnega produkta (DCI)

• upoštevajočkriterijsko funkcijoin kriterij ustavljanja poišči optimalni operator

ostali samo še dve

vrednosti

napaka je (lokalno)

minimalna

vsi stolpci nezdružljivi

nečistočam-ocena napake

število vrednosti +

nedvoumnost

distribucije razredov

particijska matrika

distribucij

particijska matrika

vrednosti

CN2-MCIHINT – min napake

HINT – min kompleksno

sti

4Različice postopkov

funkcijske dekompozicije

Particijska matrika• običajna matrika• vse elemente v stolpcu seštejemo (CN2-MCI)• vmesne različice

• seštevanje sosednjih vrstic• Relief

• vezani atributi tudi v vrsticah

Postopek združevanja• hill-climbing• druge vrste clusteringa• omejitve (monotone funkcije)

Različice postopkov funkcijske dekompozicije

Različne kriterijske funkcije• m-ocena• nečistoče (CN2-MCI, informacijski prispevek, Gini-

index)• druge mere (nezdružljivost, ???)

Različni kriteriji ustavljanja• lokalni maksimum kriterijske funkcije• binarni, n-arni koncepti

Različni kriteriji ustavljanja

• Lokalni ekstrem kriterijske funkcije (m-ocena, Relief)

• Binarni koncepti in n-arni koncepti – za ocene brez lokalnih ekstremov in za nedisjunktnost

Različni kriteriji ustavljanja:

Binarni koncepti(a=b or a=c) = (d=e or d=f), vsi atributi 3-vrednostni

Običajna minimizacija kompleksnosti/napake:

• a=b• a<>b

2

1

1 2 3

3

ab

Običajna minimizacija kompleksnosti/napake:

• a=b• a=1• a=2• a=3

2

1

1 2 3

3

ab

2

1

1 2 3

3

ab


N-arni konceptis= a=b, če c>2 Atributi so 4-vrednostni.

a>b, sicer Običajno ustavljanje

f(a, b, c, d, e) = s xor (d=e)

2

1

1 2 3

3

ab 4

4


N-arni koncepti

s= a=b, če c>a; a>b, sicer...

2

1

1 2 3

3

ab 4

4

3-vrednostni koncept

2

1

1 2 3

3

ab 4

4

običajno ustavljanje

Da bi dobili želene nedisjunktne koncepte, “optimiziramo” isto kriterijsko funkcijo; spremenimo le kriterij ustavljanja

Različne kriterijske funkcije

Ni je čez m-oceno!

• Na trivialnih domenah (Monk1, parnost...) funkcijska dekompozicija deluje sorazmerno neodvisno od izbire kriterijske funkcije

• Na zahtevnejših domenah (od “a=b or a=c” naprej) ji za silo konkurira le še Gini-indexu podobna mera nečistoče, izpeljana iz Reliefa (simetričnega: referenčni in sosednji primer sta obravnavana enako)

2pi2 – ( pi)2

Razlaga uspešnosti m-ocene:

Drugačna narava m-ocene

M-ocena je “absolutna”:Koliko bi se zmotili, če bi morali napovedovati razred za dano podmnožico?

Mere nečistoč so “relativne”Koliko dela opravi ta atribut? (nadaljevali bodo drugi atributi)

V particijski matriki so ostali atributi že upoštevani!Zato je potrebno oceniti sposobnost napovedovanja (m-ocena) in ne, koliko čistejše podmnožice smo dobili.

Vendar ta razlika obstaja le pri večrazrednih problemih, m-ocena pa je najboljša tudi pri dvorazrednih!


M-ocena vsebuje kriterij ustavljanja

M-ocena ni samo kriterij za združevanje, temveč ponuja tudi kriterij za ustavljanje, ki ga je mogoče naravnati.

• Pri poskusih z merami nečistoče smo vedno sestavljali

binarne koncepte, saj je nečistoča nepadajoča.V domenah, ki imajo binarne razrede (prejšnja stran) in

zahtevajo binarne koncepte, dajejo mere nečistoče pravilne operatorje.

• Mera, izpeljana iz Reliefa nekaj časa narašča, nato pada – podobno kot m-ocena.

V domenah, ki zahtevajo binarne koncepte, daje ta mera enako dobre rezultate kot m-ocena (tudi, če razred ni binaren)


PoskusAtributi: a, b, c, d, e (4-vrednostni)Razred: random(0, 9) + 10*(a==b)Naloga: poiskati smiseln binarni operator za g(a, b)

Predpostavljamo:• m-ocena bo zatajila, saj ni večinskega razreda• mere nečistoč bodo delovale

Rezultat:• m-ocena deluje• mere nečistoč ne delujejo ?!

Mehčanje particijske matrikeMotivacija: particijska matrika razprši učne primere;

pri premalo primerih je redka.

Možnosti:

• vsaka vrstica predstavlja kombinacijo vrednosti prostih atributov

• k vsaki vrstici prištejemo (z za velikostni razred manjšo utežjo) vrstice, ki se razlikujejo le v vrednosti enega atributa

• vsaka vrstica predstavlja k najbližjih sosedov enega referenčnega primera (ideja iz Reliefa)

• na proste atribute se ne oziramo, vse vrstice so združene v eno

Rezultati mehčanja part. matrike

Domena nurseryz 10% šumana 20, 40, ..., 640 primerih

0

0.2

0.4

0.6

0.8

1

0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016

err-merr-m -b lur

c45-m

Včasih prej naraste; včasih je stalno boljša za 5-20%; nikoli ni slabša

Časovna zahtevnost večja, časi izvajanja podobni (lahko tudi krajši)

Mehčanje po vzoru Reliefa

Ni pametnih rezultatov.

Opcije:• določitev števila ref. primerov (le nekaj ali vsi)• določitev števila sosedov (konstantno ali

sorazmerno številu stolpcev?)• ignorirati enake primere ALI vzeti vse enake

primere ALI obnašati se do njih kot do ostalih• pretvoriti porazdelitev v binarno

Vezani atributi tudi v vrsticah

Motivacija: Prosti atributi določajo kontekst. Včasih atribut tvori svoj kontekst – oblika g(a, b) je odvisna (tudi) od vrednosti atributov a in b. Tudi to je oblika nedisjunktnosti!

Težava: Luknjasta matrika nezdružljivosti – (n/2)! enakovrednih operatorjev

ab

b c d

00

01

10

11

0 0 0

0 0 1

0 1 0

0 1 1

1 0 0

1 0 1

1 1 0

1 1 1Mar to res potrebujemo?

Minimizacija z naivnim Bayesovim klasifikatorjem

Cilj: sestaviti koncepte, ki bodo pomagali naivnemu Bayesovemu klasifikatorju

Ideja: kriterijska funkcija naj bo klasifikacijska točnost klasifikatorja na učnih podatkih.

Rezultati: koncepti, dobljeni z minimizacijo napake so boljši

Možna razlaga: hill-climbing je v tem primeru kratkoviden, lokalne odločitve so nezanesljive...

5

Minimizacija z naivnim Bayesovim klasifikatorjem:

Poskus na domeni Car

0.8

0.82

0.84

0.86

0.88

0.9

0.92

0.94

0.96

0.98

1

0 0.2 0.4 0.6 0.8 1

without CIFD-m

FD-m_binFD-gainr_bin

FD-re liefFD-re lief_bin

FD-com plKram er-m

Kram er-m _binKram er-gain r_b in

Kram er-relie fKram er-relie f_bin

Bayesbayes

min compl, min err,min err+bin

Clustering z Reliefom

Cilj: sestavljati atribute z visoko oceno Relief.

Algoritem: časovna zahtevnost ne presega zahtevnosti enega izračuna Reliefa

Rezultati: prvi testi niso ohrabrujoči. Ideja zahteva več resnih poskusov.

Documents

Konstruktivna indukcija s kr čenjem prostora atributov