36
Konstruktivna indukcija s krčenjem prostora atributov (diskusija na temo dela za doktorsko disertacijo)

Konstruktivna indukcija s kr čenjem prostora atributov

  • Upload
    calix

  • View
    61

  • Download
    0

Embed Size (px)

DESCRIPTION

Konstruktivna indukcija s kr čenjem prostora atributov. (diskusija na temo dela za doktorsko disertacijo). Konstruktivna indukcija in krčenje prostora atributov?!. Prostor atributov se ne more širiti Nasprotno – od konstruktivne indukcije smemo kr čenje celo pričakovati. - PowerPoint PPT Presentation

Citation preview

Page 1: Konstruktivna indukcija s kr čenjem prostora atributov

Konstruktivna indukcijas krčenjem prostora

atributov

(diskusija na temodela za doktorsko disertacijo)

Page 2: Konstruktivna indukcija s kr čenjem prostora atributov

Konstruktivna indukcijain krčenje prostora

atributov?!

• Prostor atributov se ne more širiti• Nasprotno – od konstruktivne indukcije smemo

krčenje celo pričakovati.• Naslov namiguje na način tvorbe atributov:

konstruktivna indukcija z minimizacijo kartezičnega produkta vezanih atributov

Page 3: Konstruktivna indukcija s kr čenjem prostora atributov

Vsebina

1. Operatorji in njih ocenjevanje2. Dve “znani” metodi CI s splošnimi operatorji3. Splošni okvir CI z minimizacijo kartezičnega

produkta4. Modifikacije funkcijske dekompozicije in

posledice5. Še dve metodi iz splošnejšega okvira

Page 4: Konstruktivna indukcija s kr čenjem prostora atributov

Določanje operatorja1CI združi enega ali več atributov v nov atribut s pomočjo

primernega operatorja.

Vnaprej predpisana množica operatorjev (Fringe, LFC... ...)

Splošni operatorji (operator-free) (Pazzani, CN2-MCI, Hint)

+išče po večjem prostoru (tudi med modeli, kakršne generiramo z Dexom)

– je v splošnem počasnejše– je v splošnem manj odporno na šum

Page 5: Konstruktivna indukcija s kr čenjem prostora atributov

Minimizacija kartezičnega produkta

• Nov atribut sestavimo kot kartezični produkt enega, dveh ali več starih

• Posamezne vrednosti novega atributa združimo v podmnožice “ekvivalentnih” vrednosti

• Operator slika iz originalnih vrednosti v ekvivalenčne razrede

1

0

10

(and)

1

0

10

(xor)

1

0

10

(or)

Page 6: Konstruktivna indukcija s kr čenjem prostora atributov

Kako oceniti operator?

Kaj pričakujemo od operatorja oz. novega atributa?

Razumljivost človeku• logičnost, pričakovanost, skladnost s poznavanjem

domene (oz. z definicijo domene, če gre za umetno domeno)

• navadno iz neke množice znanih operatorjev ali iz nekega razreda operatorjev (npr. nepadajoče funkcije)

Uporabnost pri učenju• odvisen od metode učenja, ki jo nameravamo uporabiti

(Bayes, klasifikacijska drevesa, HINT)

Učenje s sestavljanjem disjunktnih hierarhij:Koncepti, ki jih potrebujemo za učenje, imajo več vrednosti, kot bi jih pričakovali, in so človeku nerazumljivi

Page 7: Konstruktivna indukcija s kr čenjem prostora atributov

Razdalja med pravim in “napovedanim”

operatorjem• Manhattanska razdalja (uporabna le za binarne

konstrukte)• Splošno – število kršitev ekvivalenčne relacije

f(x)=f(y) g(x)=g(y)

f g Kršitve:

() razdruženi 3() združeni 3() razdalja 6

Page 8: Konstruktivna indukcija s kr čenjem prostora atributov

Razdalja med pravim in “napovedanim” operatorjem

(2)Dobro:

Zanimivo:

Slabo:

učinkovita implementacija

meri sta pri binarnih konstruktih ekvivalentni(= enako rangirata operatorje)

dobljene razdalje so neintuitivne (ne merijo tistega, kar bi želeli meriti; metode rangirajo drugače, kot bi jih “očividec”)

Page 9: Konstruktivna indukcija s kr čenjem prostora atributov

Razdalja med pravim in “napovedanim” operatorjem

(3)metoda w_sep w_join w_pairs

skupine

ciljni koncept{0, …, 25}, {26}

FD-m 0.80 0.00 0.77{0}, {1, 3, 9, 13},

{2, 4, 6, 10, 12, 18},{5, 7, 11, 15, 19, 21},{8, 14, 16, 20, 22, 24},{17, 23, 25}, {26}

Kramer-m 0.00 1.00 0.07{0, …, 26}

Page 10: Konstruktivna indukcija s kr čenjem prostora atributov

Tolažba:Mera nudi vpogled v to, katera metoda združi preveč in katera premalo vrednosti

Razdalja med pravim in “napovedanim” operatorjem

(4)

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

FD

-m

F

D-m

_bin

F

D-g

ainr

_bin

FD

-rel

ief

F

D-r

elie

f_bi

n

F

D-c

ompl

K

ram

er

K

ram

er-m

K

ram

er-m

_bin

Kra

mer

-gai

nr_b

in

K

ram

er-r

elie

f

Kra

mer

-rel

ief_

bin

Bay

es

w sep w join

Page 11: Konstruktivna indukcija s kr čenjem prostora atributov

Uporabnost pri učenju

Ovijanje (Kohavi: wrapper approach)• sestavi atribute z različnimi metodami in jih

dodaj k obstoječim; vsaka metoda definira množico atributov

• nad dobljenimi množicami se uči z enim od običajnih algoritmov učenja (Bayes, C45, Hint...)

• izmeri klasifikacijsko točnostZa izbrani učni algoritem je najboljša tista

metoda konstrukcije atributov, ki da najvišjo klasifikacijsko točnost.

Pričakovati je razlike glede na metodo učenja.

Page 12: Konstruktivna indukcija s kr čenjem prostora atributov

2Dva ali trije znani postopki

• HINT (min. kompl.): min. števila vrednosti z omejitvami

• HINT (min. napake): min. napake z m-oceno • CN2-MCI – minimizacija nečistoče novega

atributa

Page 13: Konstruktivna indukcija s kr čenjem prostora atributov

CN2-MCI(korak minimizacije kartezičnega

produkta)

Nečistost clustra:

Postopek:• v začetku je vsak element svoj cluster• izračunaj vsoto nečistoč po vseh clustrih• združi clustra, ki najmanj povečata vsoto

nečistoč• ponavljaj, dokler ne ostaneta le dva clustra

negativepositiveegativepositive*n

E(c)+

=

Kratkovidnost! Relief?!

Page 14: Konstruktivna indukcija s kr čenjem prostora atributov

Funkcijska dekompozicijakom

bin

aci

je v

red

nost

ip

rost

ih a

trib

uto

v

kombinacije vrednosti

vezanih atributov

Page 15: Konstruktivna indukcija s kr čenjem prostora atributov

Funkcijska dekompozicijaminimizacija kompleksnosti

• Združi dva združljiva stolpca (“clustra”)

• Ponavljaj, dokler ne zmanjka združljivih stolpcev

(V resnici: barvanje grafov)

0 0

1

0

3 3

2

0 1

1

0 0

2 2

2

Page 16: Konstruktivna indukcija s kr čenjem prostora atributov

Funkcijska dekompozicijaminimizacija napake

• Za vsak par stolpcev izračunaj vsoto zmanjšanja m-ocen napake pri združitvi vsakega para celic

• Združi stolpca, pri katerih se napaka najbolj zmanjša

• Ponavljaj, dokler obstajajo pari stolpcev, ki manjšajo napako

<0, 1, 4>

<0, 2, 0>

<4, 1, 1>

<2, 5, 1>

<0, 0, 4>

<3, 0, 3>

<1, 0, 0>

<0, 0, 4>

<4. 1, 2>

<1, 1, 0>

<1, 4, 4>

<1, 1, 2>

<0, 1, 0>

<1, 2, 0>

<1, 2, 0>

Page 17: Konstruktivna indukcija s kr čenjem prostora atributov

FD, CN2-MCI in kratkovidnost

CN2-MCI je kratkoviden, funkcijska dekompozicija pa ne

Nekratkovidnost funkcijske dekompozicije ima isti izvor kot Reliefova nekratkovidnost: primerjanje elementov po vrsticah ima učinek je podobno jemanju najbližjih (oz. “enakih” sosedov)

Vendar:

nekratkovidnost ni vedno potrebna; včasih le zmanjšuje natančnost

(Pri naivnem Bayesovem klasifikatorju je govorjenje o nekratkovidnosti greh!)

Page 18: Konstruktivna indukcija s kr čenjem prostora atributov

Slabosti funkcijske dekompozicije

DisjunktnostKer vrstice particijske matrike ustrezajo različnim vrednostim prostih (in ne vseh!) atributov, je novi atribut sestavljen tako, kot da bomo vezane atribute odstranili.

(Kaj je nedisjunktnost?! Lahko govorimo o njej že med sestavljanjem atributov?! Kako prepoznati dober “nedisjunktni” atribut?!)

Počasna rast krivulj učenjaKadar je pokritost prostora slaba, je particijska matrika redka in postopek združevanja stolpcev slabo voden

Page 19: Konstruktivna indukcija s kr čenjem prostora atributov

3Splošni okvir postopkov CI z minimizacijo kartezičnega

produkta• sestavi kartezični

produkt podmnožice atributov

• iz učnih primerov izračunaj informacijo o vsaki vrednosti kartezičnega produkta (DCI)

• upoštevajočkriterijsko funkcijoin kriterij ustavljanja poišči optimalni operator

ostali samo še dve

vrednosti

napaka je (lokalno)

minimalna

vsi stolpci nezdružljivi

nečistočam-ocena napake

število vrednosti +

nedvoumnost

distribucije razredov

particijska matrika

distribucij

particijska matrika

vrednosti

CN2-MCIHINT – min napake

HINT – min kompleksno

sti

Page 20: Konstruktivna indukcija s kr čenjem prostora atributov

4Različice postopkov

funkcijske dekompozicije

Particijska matrika• običajna matrika• vse elemente v stolpcu seštejemo (CN2-MCI)• vmesne različice

• seštevanje sosednjih vrstic• Relief

• vezani atributi tudi v vrsticah

Postopek združevanja• hill-climbing• druge vrste clusteringa• omejitve (monotone funkcije)

Page 21: Konstruktivna indukcija s kr čenjem prostora atributov

Različice postopkov funkcijske dekompozicije

Različne kriterijske funkcije• m-ocena• nečistoče (CN2-MCI, informacijski prispevek, Gini-

index)• druge mere (nezdružljivost, ???)

Različni kriteriji ustavljanja• lokalni maksimum kriterijske funkcije• binarni, n-arni koncepti

Page 22: Konstruktivna indukcija s kr čenjem prostora atributov

Različni kriteriji ustavljanja

• Lokalni ekstrem kriterijske funkcije (m-ocena, Relief)

• Binarni koncepti in n-arni koncepti – za ocene brez lokalnih ekstremov in za nedisjunktnost

Page 23: Konstruktivna indukcija s kr čenjem prostora atributov

Različni kriteriji ustavljanja:

Binarni koncepti(a=b or a=c) = (d=e or d=f), vsi atributi 3-vrednostni

Običajna minimizacija kompleksnosti/napake:

• a=b• a<>b

2

1

1 2 3

3

ab

Običajna minimizacija kompleksnosti/napake:

• a=b• a=1• a=2• a=3

2

1

1 2 3

3

ab

2

1

1 2 3

3

ab

Page 24: Konstruktivna indukcija s kr čenjem prostora atributov

Različni kriteriji ustavljanja:

N-arni konceptis= a=b, če c>2 Atributi so 4-vrednostni.

a>b, sicer Običajno ustavljanje

f(a, b, c, d, e) = s xor (d=e)

2

1

1 2 3

3

ab 4

4

Page 25: Konstruktivna indukcija s kr čenjem prostora atributov

Različni kriteriji ustavljanja:

N-arni koncepti

s= a=b, če c>a; a>b, sicer...

2

1

1 2 3

3

ab 4

4

3-vrednostni koncept

2

1

1 2 3

3

ab 4

4

običajno ustavljanje

Da bi dobili želene nedisjunktne koncepte, “optimiziramo” isto kriterijsko funkcijo; spremenimo le kriterij ustavljanja

Page 26: Konstruktivna indukcija s kr čenjem prostora atributov

Različne kriterijske funkcije

Ni je čez m-oceno!

• Na trivialnih domenah (Monk1, parnost...) funkcijska dekompozicija deluje sorazmerno neodvisno od izbire kriterijske funkcije

• Na zahtevnejših domenah (od “a=b or a=c” naprej) ji za silo konkurira le še Gini-indexu podobna mera nečistoče, izpeljana iz Reliefa (simetričnega: referenčni in sosednji primer sta obravnavana enako)

2pi2 – ( pi)2

Page 27: Konstruktivna indukcija s kr čenjem prostora atributov

Razlaga uspešnosti m-ocene:

Drugačna narava m-ocene

M-ocena je “absolutna”:Koliko bi se zmotili, če bi morali napovedovati razred za dano podmnožico?

Mere nečistoč so “relativne”Koliko dela opravi ta atribut? (nadaljevali bodo drugi atributi)

V particijski matriki so ostali atributi že upoštevani!Zato je potrebno oceniti sposobnost napovedovanja (m-ocena) in ne, koliko čistejše podmnožice smo dobili.

Vendar ta razlika obstaja le pri večrazrednih problemih, m-ocena pa je najboljša tudi pri dvorazrednih!

Page 28: Konstruktivna indukcija s kr čenjem prostora atributov

Razlaga uspešnosti m-ocene:

M-ocena vsebuje kriterij ustavljanja

M-ocena ni samo kriterij za združevanje, temveč ponuja tudi kriterij za ustavljanje, ki ga je mogoče naravnati.

• Pri poskusih z merami nečistoče smo vedno sestavljali

binarne koncepte, saj je nečistoča nepadajoča.V domenah, ki imajo binarne razrede (prejšnja stran) in

zahtevajo binarne koncepte, dajejo mere nečistoče pravilne operatorje.

• Mera, izpeljana iz Reliefa nekaj časa narašča, nato pada – podobno kot m-ocena.

V domenah, ki zahtevajo binarne koncepte, daje ta mera enako dobre rezultate kot m-ocena (tudi, če razred ni binaren)

Page 29: Konstruktivna indukcija s kr čenjem prostora atributov

Razlaga uspešnosti m-ocene:

PoskusAtributi: a, b, c, d, e (4-vrednostni)Razred: random(0, 9) + 10*(a==b)Naloga: poiskati smiseln binarni operator za g(a, b)

Predpostavljamo:• m-ocena bo zatajila, saj ni večinskega razreda• mere nečistoč bodo delovale

Rezultat:• m-ocena deluje• mere nečistoč ne delujejo ?!

Page 30: Konstruktivna indukcija s kr čenjem prostora atributov

Mehčanje particijske matrikeMotivacija: particijska matrika razprši učne primere;

pri premalo primerih je redka.

Možnosti:

• vsaka vrstica predstavlja kombinacijo vrednosti prostih atributov

• k vsaki vrstici prištejemo (z za velikostni razred manjšo utežjo) vrstice, ki se razlikujejo le v vrednosti enega atributa

• vsaka vrstica predstavlja k najbližjih sosedov enega referenčnega primera (ideja iz Reliefa)

• na proste atribute se ne oziramo, vse vrstice so združene v eno

Page 31: Konstruktivna indukcija s kr čenjem prostora atributov

Rezultati mehčanja part. matrike

Domena nurseryz 10% šumana 20, 40, ..., 640 primerih

0

0.2

0.4

0.6

0.8

1

0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016

err-merr-m -b lur

c45-m

Včasih prej naraste; včasih je stalno boljša za 5-20%; nikoli ni slabša

Časovna zahtevnost večja, časi izvajanja podobni (lahko tudi krajši)

Page 32: Konstruktivna indukcija s kr čenjem prostora atributov

Mehčanje po vzoru Reliefa

Ni pametnih rezultatov.

Opcije:• določitev števila ref. primerov (le nekaj ali vsi)• določitev števila sosedov (konstantno ali

sorazmerno številu stolpcev?)• ignorirati enake primere ALI vzeti vse enake

primere ALI obnašati se do njih kot do ostalih• pretvoriti porazdelitev v binarno

Page 33: Konstruktivna indukcija s kr čenjem prostora atributov

Vezani atributi tudi v vrsticah

Motivacija: Prosti atributi določajo kontekst. Včasih atribut tvori svoj kontekst – oblika g(a, b) je odvisna (tudi) od vrednosti atributov a in b. Tudi to je oblika nedisjunktnosti!

Težava: Luknjasta matrika nezdružljivosti – (n/2)! enakovrednih operatorjev

ab

b c d

00

01

10

11

0 0 0

0 0 1

0 1 0

0 1 1

1 0 0

1 0 1

1 1 0

1 1 1Mar to res potrebujemo?

Page 34: Konstruktivna indukcija s kr čenjem prostora atributov

Minimizacija z naivnim Bayesovim klasifikatorjem

Cilj: sestaviti koncepte, ki bodo pomagali naivnemu Bayesovemu klasifikatorju

Ideja: kriterijska funkcija naj bo klasifikacijska točnost klasifikatorja na učnih podatkih.

Rezultati: koncepti, dobljeni z minimizacijo napake so boljši

Možna razlaga: hill-climbing je v tem primeru kratkoviden, lokalne odločitve so nezanesljive...

5

Page 35: Konstruktivna indukcija s kr čenjem prostora atributov

Minimizacija z naivnim Bayesovim klasifikatorjem:

Poskus na domeni Car

0.8

0.82

0.84

0.86

0.88

0.9

0.92

0.94

0.96

0.98

1

0 0.2 0.4 0.6 0.8 1

without CIFD-m

FD-m_binFD-gainr_bin

FD-re liefFD-re lief_bin

FD-com plKram er-m

Kram er-m _binKram er-gain r_b in

Kram er-relie fKram er-relie f_bin

Bayesbayes

min compl, min err,min err+bin

Page 36: Konstruktivna indukcija s kr čenjem prostora atributov

Clustering z Reliefom

Cilj: sestavljati atribute z visoko oceno Relief.

Algoritem: časovna zahtevnost ne presega zahtevnosti enega izračuna Reliefa

Rezultati: prvi testi niso ohrabrujoči. Ideja zahteva več resnih poskusov.