Upload
calix
View
61
Download
0
Embed Size (px)
DESCRIPTION
Konstruktivna indukcija s kr čenjem prostora atributov. (diskusija na temo dela za doktorsko disertacijo). Konstruktivna indukcija in krčenje prostora atributov?!. Prostor atributov se ne more širiti Nasprotno – od konstruktivne indukcije smemo kr čenje celo pričakovati. - PowerPoint PPT Presentation
Citation preview
Konstruktivna indukcijas krčenjem prostora
atributov
(diskusija na temodela za doktorsko disertacijo)
Konstruktivna indukcijain krčenje prostora
atributov?!
• Prostor atributov se ne more širiti• Nasprotno – od konstruktivne indukcije smemo
krčenje celo pričakovati.• Naslov namiguje na način tvorbe atributov:
konstruktivna indukcija z minimizacijo kartezičnega produkta vezanih atributov
Vsebina
1. Operatorji in njih ocenjevanje2. Dve “znani” metodi CI s splošnimi operatorji3. Splošni okvir CI z minimizacijo kartezičnega
produkta4. Modifikacije funkcijske dekompozicije in
posledice5. Še dve metodi iz splošnejšega okvira
Določanje operatorja1CI združi enega ali več atributov v nov atribut s pomočjo
primernega operatorja.
Vnaprej predpisana množica operatorjev (Fringe, LFC... ...)
Splošni operatorji (operator-free) (Pazzani, CN2-MCI, Hint)
+išče po večjem prostoru (tudi med modeli, kakršne generiramo z Dexom)
– je v splošnem počasnejše– je v splošnem manj odporno na šum
Minimizacija kartezičnega produkta
• Nov atribut sestavimo kot kartezični produkt enega, dveh ali več starih
• Posamezne vrednosti novega atributa združimo v podmnožice “ekvivalentnih” vrednosti
• Operator slika iz originalnih vrednosti v ekvivalenčne razrede
1
0
10
(and)
1
0
10
(xor)
1
0
10
(or)
Kako oceniti operator?
Kaj pričakujemo od operatorja oz. novega atributa?
Razumljivost človeku• logičnost, pričakovanost, skladnost s poznavanjem
domene (oz. z definicijo domene, če gre za umetno domeno)
• navadno iz neke množice znanih operatorjev ali iz nekega razreda operatorjev (npr. nepadajoče funkcije)
Uporabnost pri učenju• odvisen od metode učenja, ki jo nameravamo uporabiti
(Bayes, klasifikacijska drevesa, HINT)
Učenje s sestavljanjem disjunktnih hierarhij:Koncepti, ki jih potrebujemo za učenje, imajo več vrednosti, kot bi jih pričakovali, in so človeku nerazumljivi
Razdalja med pravim in “napovedanim”
operatorjem• Manhattanska razdalja (uporabna le za binarne
konstrukte)• Splošno – število kršitev ekvivalenčne relacije
f(x)=f(y) g(x)=g(y)
f g Kršitve:
() razdruženi 3() združeni 3() razdalja 6
Razdalja med pravim in “napovedanim” operatorjem
(2)Dobro:
Zanimivo:
Slabo:
učinkovita implementacija
meri sta pri binarnih konstruktih ekvivalentni(= enako rangirata operatorje)
dobljene razdalje so neintuitivne (ne merijo tistega, kar bi želeli meriti; metode rangirajo drugače, kot bi jih “očividec”)
Razdalja med pravim in “napovedanim” operatorjem
(3)metoda w_sep w_join w_pairs
skupine
ciljni koncept{0, …, 25}, {26}
FD-m 0.80 0.00 0.77{0}, {1, 3, 9, 13},
{2, 4, 6, 10, 12, 18},{5, 7, 11, 15, 19, 21},{8, 14, 16, 20, 22, 24},{17, 23, 25}, {26}
Kramer-m 0.00 1.00 0.07{0, …, 26}
Tolažba:Mera nudi vpogled v to, katera metoda združi preveč in katera premalo vrednosti
Razdalja med pravim in “napovedanim” operatorjem
(4)
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
FD
-m
F
D-m
_bin
F
D-g
ainr
_bin
FD
-rel
ief
F
D-r
elie
f_bi
n
F
D-c
ompl
K
ram
er
K
ram
er-m
K
ram
er-m
_bin
Kra
mer
-gai
nr_b
in
K
ram
er-r
elie
f
Kra
mer
-rel
ief_
bin
Bay
es
w sep w join
Uporabnost pri učenju
Ovijanje (Kohavi: wrapper approach)• sestavi atribute z različnimi metodami in jih
dodaj k obstoječim; vsaka metoda definira množico atributov
• nad dobljenimi množicami se uči z enim od običajnih algoritmov učenja (Bayes, C45, Hint...)
• izmeri klasifikacijsko točnostZa izbrani učni algoritem je najboljša tista
metoda konstrukcije atributov, ki da najvišjo klasifikacijsko točnost.
Pričakovati je razlike glede na metodo učenja.
2Dva ali trije znani postopki
• HINT (min. kompl.): min. števila vrednosti z omejitvami
• HINT (min. napake): min. napake z m-oceno • CN2-MCI – minimizacija nečistoče novega
atributa
CN2-MCI(korak minimizacije kartezičnega
produkta)
Nečistost clustra:
Postopek:• v začetku je vsak element svoj cluster• izračunaj vsoto nečistoč po vseh clustrih• združi clustra, ki najmanj povečata vsoto
nečistoč• ponavljaj, dokler ne ostaneta le dva clustra
negativepositiveegativepositive*n
E(c)+
=
Kratkovidnost! Relief?!
Funkcijska dekompozicijakom
bin
aci
je v
red
nost
ip
rost
ih a
trib
uto
v
kombinacije vrednosti
vezanih atributov
Funkcijska dekompozicijaminimizacija kompleksnosti
• Združi dva združljiva stolpca (“clustra”)
• Ponavljaj, dokler ne zmanjka združljivih stolpcev
(V resnici: barvanje grafov)
0 0
1
0
3 3
2
0 1
1
0 0
2 2
2
Funkcijska dekompozicijaminimizacija napake
• Za vsak par stolpcev izračunaj vsoto zmanjšanja m-ocen napake pri združitvi vsakega para celic
• Združi stolpca, pri katerih se napaka najbolj zmanjša
• Ponavljaj, dokler obstajajo pari stolpcev, ki manjšajo napako
<0, 1, 4>
<0, 2, 0>
<4, 1, 1>
<2, 5, 1>
<0, 0, 4>
<3, 0, 3>
<1, 0, 0>
<0, 0, 4>
<4. 1, 2>
<1, 1, 0>
<1, 4, 4>
<1, 1, 2>
<0, 1, 0>
<1, 2, 0>
<1, 2, 0>
FD, CN2-MCI in kratkovidnost
CN2-MCI je kratkoviden, funkcijska dekompozicija pa ne
Nekratkovidnost funkcijske dekompozicije ima isti izvor kot Reliefova nekratkovidnost: primerjanje elementov po vrsticah ima učinek je podobno jemanju najbližjih (oz. “enakih” sosedov)
Vendar:
nekratkovidnost ni vedno potrebna; včasih le zmanjšuje natančnost
(Pri naivnem Bayesovem klasifikatorju je govorjenje o nekratkovidnosti greh!)
Slabosti funkcijske dekompozicije
DisjunktnostKer vrstice particijske matrike ustrezajo različnim vrednostim prostih (in ne vseh!) atributov, je novi atribut sestavljen tako, kot da bomo vezane atribute odstranili.
(Kaj je nedisjunktnost?! Lahko govorimo o njej že med sestavljanjem atributov?! Kako prepoznati dober “nedisjunktni” atribut?!)
Počasna rast krivulj učenjaKadar je pokritost prostora slaba, je particijska matrika redka in postopek združevanja stolpcev slabo voden
3Splošni okvir postopkov CI z minimizacijo kartezičnega
produkta• sestavi kartezični
produkt podmnožice atributov
• iz učnih primerov izračunaj informacijo o vsaki vrednosti kartezičnega produkta (DCI)
• upoštevajočkriterijsko funkcijoin kriterij ustavljanja poišči optimalni operator
ostali samo še dve
vrednosti
napaka je (lokalno)
minimalna
vsi stolpci nezdružljivi
nečistočam-ocena napake
število vrednosti +
nedvoumnost
distribucije razredov
particijska matrika
distribucij
particijska matrika
vrednosti
CN2-MCIHINT – min napake
HINT – min kompleksno
sti
4Različice postopkov
funkcijske dekompozicije
Particijska matrika• običajna matrika• vse elemente v stolpcu seštejemo (CN2-MCI)• vmesne različice
• seštevanje sosednjih vrstic• Relief
• vezani atributi tudi v vrsticah
Postopek združevanja• hill-climbing• druge vrste clusteringa• omejitve (monotone funkcije)
Različice postopkov funkcijske dekompozicije
Različne kriterijske funkcije• m-ocena• nečistoče (CN2-MCI, informacijski prispevek, Gini-
index)• druge mere (nezdružljivost, ???)
Različni kriteriji ustavljanja• lokalni maksimum kriterijske funkcije• binarni, n-arni koncepti
Različni kriteriji ustavljanja
• Lokalni ekstrem kriterijske funkcije (m-ocena, Relief)
• Binarni koncepti in n-arni koncepti – za ocene brez lokalnih ekstremov in za nedisjunktnost
Različni kriteriji ustavljanja:
Binarni koncepti(a=b or a=c) = (d=e or d=f), vsi atributi 3-vrednostni
Običajna minimizacija kompleksnosti/napake:
• a=b• a<>b
2
1
1 2 3
3
ab
Običajna minimizacija kompleksnosti/napake:
• a=b• a=1• a=2• a=3
2
1
1 2 3
3
ab
2
1
1 2 3
3
ab
Različni kriteriji ustavljanja:
N-arni konceptis= a=b, če c>2 Atributi so 4-vrednostni.
a>b, sicer Običajno ustavljanje
f(a, b, c, d, e) = s xor (d=e)
2
1
1 2 3
3
ab 4
4
Različni kriteriji ustavljanja:
N-arni koncepti
s= a=b, če c>a; a>b, sicer...
2
1
1 2 3
3
ab 4
4
3-vrednostni koncept
2
1
1 2 3
3
ab 4
4
običajno ustavljanje
Da bi dobili želene nedisjunktne koncepte, “optimiziramo” isto kriterijsko funkcijo; spremenimo le kriterij ustavljanja
Različne kriterijske funkcije
Ni je čez m-oceno!
• Na trivialnih domenah (Monk1, parnost...) funkcijska dekompozicija deluje sorazmerno neodvisno od izbire kriterijske funkcije
• Na zahtevnejših domenah (od “a=b or a=c” naprej) ji za silo konkurira le še Gini-indexu podobna mera nečistoče, izpeljana iz Reliefa (simetričnega: referenčni in sosednji primer sta obravnavana enako)
2pi2 – ( pi)2
Razlaga uspešnosti m-ocene:
Drugačna narava m-ocene
M-ocena je “absolutna”:Koliko bi se zmotili, če bi morali napovedovati razred za dano podmnožico?
Mere nečistoč so “relativne”Koliko dela opravi ta atribut? (nadaljevali bodo drugi atributi)
V particijski matriki so ostali atributi že upoštevani!Zato je potrebno oceniti sposobnost napovedovanja (m-ocena) in ne, koliko čistejše podmnožice smo dobili.
Vendar ta razlika obstaja le pri večrazrednih problemih, m-ocena pa je najboljša tudi pri dvorazrednih!
Razlaga uspešnosti m-ocene:
M-ocena vsebuje kriterij ustavljanja
M-ocena ni samo kriterij za združevanje, temveč ponuja tudi kriterij za ustavljanje, ki ga je mogoče naravnati.
• Pri poskusih z merami nečistoče smo vedno sestavljali
binarne koncepte, saj je nečistoča nepadajoča.V domenah, ki imajo binarne razrede (prejšnja stran) in
zahtevajo binarne koncepte, dajejo mere nečistoče pravilne operatorje.
• Mera, izpeljana iz Reliefa nekaj časa narašča, nato pada – podobno kot m-ocena.
V domenah, ki zahtevajo binarne koncepte, daje ta mera enako dobre rezultate kot m-ocena (tudi, če razred ni binaren)
Razlaga uspešnosti m-ocene:
PoskusAtributi: a, b, c, d, e (4-vrednostni)Razred: random(0, 9) + 10*(a==b)Naloga: poiskati smiseln binarni operator za g(a, b)
Predpostavljamo:• m-ocena bo zatajila, saj ni večinskega razreda• mere nečistoč bodo delovale
Rezultat:• m-ocena deluje• mere nečistoč ne delujejo ?!
Mehčanje particijske matrikeMotivacija: particijska matrika razprši učne primere;
pri premalo primerih je redka.
Možnosti:
• vsaka vrstica predstavlja kombinacijo vrednosti prostih atributov
• k vsaki vrstici prištejemo (z za velikostni razred manjšo utežjo) vrstice, ki se razlikujejo le v vrednosti enega atributa
• vsaka vrstica predstavlja k najbližjih sosedov enega referenčnega primera (ideja iz Reliefa)
• na proste atribute se ne oziramo, vse vrstice so združene v eno
Rezultati mehčanja part. matrike
Domena nurseryz 10% šumana 20, 40, ..., 640 primerih
0
0.2
0.4
0.6
0.8
1
0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016
err-merr-m -b lur
c45-m
Včasih prej naraste; včasih je stalno boljša za 5-20%; nikoli ni slabša
Časovna zahtevnost večja, časi izvajanja podobni (lahko tudi krajši)
Mehčanje po vzoru Reliefa
Ni pametnih rezultatov.
Opcije:• določitev števila ref. primerov (le nekaj ali vsi)• določitev števila sosedov (konstantno ali
sorazmerno številu stolpcev?)• ignorirati enake primere ALI vzeti vse enake
primere ALI obnašati se do njih kot do ostalih• pretvoriti porazdelitev v binarno
Vezani atributi tudi v vrsticah
Motivacija: Prosti atributi določajo kontekst. Včasih atribut tvori svoj kontekst – oblika g(a, b) je odvisna (tudi) od vrednosti atributov a in b. Tudi to je oblika nedisjunktnosti!
Težava: Luknjasta matrika nezdružljivosti – (n/2)! enakovrednih operatorjev
ab
b c d
00
01
10
11
0 0 0
0 0 1
0 1 0
0 1 1
1 0 0
1 0 1
1 1 0
1 1 1Mar to res potrebujemo?
Minimizacija z naivnim Bayesovim klasifikatorjem
Cilj: sestaviti koncepte, ki bodo pomagali naivnemu Bayesovemu klasifikatorju
Ideja: kriterijska funkcija naj bo klasifikacijska točnost klasifikatorja na učnih podatkih.
Rezultati: koncepti, dobljeni z minimizacijo napake so boljši
Možna razlaga: hill-climbing je v tem primeru kratkoviden, lokalne odločitve so nezanesljive...
5
Minimizacija z naivnim Bayesovim klasifikatorjem:
Poskus na domeni Car
0.8
0.82
0.84
0.86
0.88
0.9
0.92
0.94
0.96
0.98
1
0 0.2 0.4 0.6 0.8 1
without CIFD-m
FD-m_binFD-gainr_bin
FD-re liefFD-re lief_bin
FD-com plKram er-m
Kram er-m _binKram er-gain r_b in
Kram er-relie fKram er-relie f_bin
Bayesbayes
min compl, min err,min err+bin
Clustering z Reliefom
Cilj: sestavljati atribute z visoko oceno Relief.
Algoritem: časovna zahtevnost ne presega zahtevnosti enega izračuna Reliefa
Rezultati: prvi testi niso ohrabrujoči. Ideja zahteva več resnih poskusov.