18
INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTU OBLAST: Classificaton ČVOROVI (WIDGET): C4.5, Naive Bayes, Test learners, Predictions SKUPOVI PODATAKA: Primary tumor AUTOR: Uroš Andrijašević 459/03 2011, Beograd

INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/C4.5-Naive-Bayes-Test... · INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTU OBLAST: Classificaton

  • Upload
    lenhan

  • View
    218

  • Download
    0

Embed Size (px)

Citation preview

Page 1: INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/C4.5-Naive-Bayes-Test... · INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTU OBLAST: Classificaton

INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTU

OBLAST: Classificaton

ČVOROVI (WIDGET): C4.5, Naive Bayes, Test learners, Predictions

SKUPOVI PODATAKA: Primary tumor

AUTOR: Uroš Andrijašević 459/03

2011, Beograd

Page 2: INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/C4.5-Naive-Bayes-Test... · INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTU OBLAST: Classificaton

C4.5

Čvor C4.5 nalazi se u grupi Classify glavnog menija i služi za generisanje stabla odlučivanja. Sam

algoritam C4.5 razvijen je od strane Ross Quinlan-a i predstavlja proširenje poznatog algoritna ID3.

Uvođenje čvora C4.5 na radnu površinu programa vrši se, kao i kod svih ostalih čvorova, jednostavnim

klikom na ikonu čvora u pomenutoj grupi Classify glavnog menija. Pozicioniranjem kursora na čvor

automatski se otvara manji prozor u kome se može videti kako se čvor može povezati sa drugim

čvorovima prilikom generisanja modela.

Kao što se na slici može videti, ulazi u čvor mogu biti Examples, odnosno primeri nekog Dataset-a i

Preprocess, odnosno, u samom programu preradjeni primeri nekog Dataset-a. Na izlazu čvora C4.5

mogude je povezati neki od programom predvidjenih Learner-a ili Classification Tree kao što su

Classification Tree Viewer i Classification Tree Graph. Važno je napomenuti da je za uspešno korišdenje

čvora u kreiranju modela neophodno poznavati ove elemente i shodno tome pravilno pozicionirati čvor

u modelu. Drugim rečima, obezbediti da do čvora ’dolaze’ odgovarajudi ulazi i da je čvor dalje povezan sa

odgovarajudim čvorovima u niz.

Kao što je ved rečeno, čvor C4.5 služi za klasifikaciju, odnosno, generisanje stabla odlučivanja.

Podešavanje parametara generisanja stabla odlučivanja vrši se u prozoru koji se otvara dvostrukim

klikom na ikonu čvora na radnoj površini programa. Izgled ovog prozora prikazan je na slededoj slici.

Page 3: INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/C4.5-Naive-Bayes-Test... · INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTU OBLAST: Classificaton

Prozor za porešavanje parametara čvora C4.5 podeljen je u četiri dela.

Learner/Classifier Name

Splitting

Pruning

Iterative Generation

U prvom delu mogude je zadati ime čvoru. Podrazumevano podešavanje je ime samog algoritma, dakle,

C4.5.

Splitting (cepanje, deljenje) se odnosi na generisanje ’grana’ u stablu odlučivanja i sastoji se od tri

moguda podešavanja. Prvo, Use information gain instead of a ratio služi da se odredi da li de stablo biti

generisano na bazi informacione dobiti ili racia (odnosa). Drugo, Subsetting aktivira podpodešavanja. I

trede, Probabilistic threshold for continuous attributes uključuje prag verovatnode za kontinualne

atribute. Podrazumevano podešavanje sva tri elementa je negativno, odnosno, sva tri ’check box-a’ su

neobeležena. Korišdenje ovih podešavanja podrazumeva poznavanje samog algoritma C4.5 koji se bazira

Page 4: INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/C4.5-Naive-Bayes-Test... · INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTU OBLAST: Classificaton

na određivanju entropije za atibut klasifikacije i za svaki atribut posebno u ondosu na atribut klasifikacije

itd. Imajudi u vidu prirodu ovog materijala, nedemo detaljnije ulaziti u elemente samoga algoritna.

Pruning (orezivanje) se takođe odnosi na generisanje stabla ali ovde na smanjenje broja ’grana’,

odnosno, smanjenje samog stabla. U ovom delu mogude je definisati minimalan broj instanci u ’listu’ i

post orezivanje sa definisanim nivoom poverenja. Preporučeno podešavanje vezano za minimalan broj

listova je 2. Kao i kod prethodne grupe podešavanja vezanih za deljenje, i ovde je neophodno poznavati

prirodu samog algoritma.

U poslednjem, četvrtom delu, Iterative generation mogude je podešavati generisanje stabla imajuci u

vidu broj iteracija koje de izvršiti algoritam prilikom generisanja stabla odlučivanja. Kao i u prethodinim

grupama podešavanja, i ovde je za uspešno korišdenje raspoloživih podešavanja, neophodno minimalno

poznavanje samoga algoritma C4.5.

U dnu prozora postoje i dva komandna dugmeta, Apply i Report. Dugme Apply služi da čvor primeni

eventualne izmene načinjene u prozoru za podešavanja, odnosno da generiše stablo na nov način.

Dugme Report otvara prozor izveštaja u kome je mogude videti koji i kakvi podaci dolaze do čvora, kakvi

podaci iz čvora izlaze itd. Takođe, izveštaj je mogude sačuvati ili štampati.

Primer korišćenja čvora C4.5

U nastavku de biti prikazan jedan uprošden primer korišdenja čvora C4.5. Za potrebe primera korišden je

Dataset pod imenom primary-tumor.tab koji dolazi u paketu sa programom. Takodje, za potrebe

primera korišdeni su i čvorovi File, Select Attributes i Classification Tree Graph. Model je prikazan na

slededoj slici.

Pomodu čvora File učitavamo Dataset u program. Program automatski prepoznaje poslednji atribut kao

atribut klase. Čvor Select Attributes nam omogudava da operišemo sa atributima na različite načine,

između ostalog i da izaberemo neki drugi atribut klase. Dataset primary-tumor sadrži više atributa kao

što su godine, pol, oboljenja pojedinih organa i sistema organa itd. U ovom primeru definisali smo pol

kao atribut klase. Podešavanja čvora C4.5 odstupaju od podrazumevanih samo u pogledu minimalnog

broja primera u listovima, kome je za potrebe ovog primera dodeljena vrednost 20 pre svega zbog

preglednosti samog stabla. Na kraju, Classification Tree Graph grafički prikazuje generisano drvo

odlučivanja. Taj grafički prikaz dat je na sledečoj slici.

Page 5: INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/C4.5-Naive-Bayes-Test... · INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTU OBLAST: Classificaton

Kao što se sa slike jasno vidi, u prozoru Classification Tree Grap-a mogude je izvršiti neka podešavanja

vezana za stablo. Iako se vedina podešavanja odnosi na grafički prikaz stabla, postoje i podešavanja,

poput Max tree depth, koja u značajnoj meri definišu samo stablo.

Prikazano stablo pokazuje raspodelu pojavljivanja odredjenih bolesti prema polu. Suprotno ustaljenom

dodeljivanju boja, u ovom primeru su muškarci prikazani crvenom bojom a žene plavom. Očekivano,

oboljenja vagine su 100% plave boje, odnosno, svi primeri iz pomenutog dataset-a koji imaju oboljenja

vagine su ženskoga roda. Slična situacija je i sa oboljenjima prostate i testisa, s tom razlikom da su u tom

slučaju 100% muškarci oboljevali. Zanimljivo je osvrnuti se na bolest pluda prikazanoj na slededoj slici.

Page 6: INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/C4.5-Naive-Bayes-Test... · INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTU OBLAST: Classificaton

Generisano stablo odlučivanja pokazuje da je odnos bolesti pluda 65.5% u korist muškaraca. Dalje,

posmatrano po starosnoj strukturi, vidimo da se kod pacijenata do 30 godina starosti bolest javljala u

66.7% u korist žena, u intervalu izmedju 30 i 60 godina starosti 75.4% u korist muškaraca, dok se u

kategoriji iznad 60 godina starosti, bolest javljala skoro podjednako, odnosno, 52.4% u korist pacijenata

ženskoga roda.

Na kraju treba napomenuti i to da je prikazano stablo jedno mogude stablo i mogude ga je dalje

analizirati i podešavati i na taj način otkrivati različite, na prvi poglet ne-očigledne, zakonomernosti u

podacima. Na taj način, algoritam C4.5 obezbedjuje širok spektar mogudnosti za rešavanje najrazličitijih

problema Data mining-a.

Naive Bayes

Grupa Classify glavnog menija sadrži niz čvorova namenjenih rešavanju jednog od osnovnih zadataka

Data mining-a, klasifikacije. Prvi u nizu tih čvorova je čvor pod imenom Naive Bayes. Čvor Naive Bayes

spada u grupu jednostavnijih klasifikatora i zasnovan je na Bajesovoj teoremi uslovnih verovatnoda. Bez

ulaženja u dublju analizu same teoreme, dajemo prikaz Bajesove formule.

Kao i svi drugi čvorovi, Naive Bayes se uvodi na radnu površinu programa jednostavnim klikom na ikonu

čvora u glavnom meniju. Pozicioniranjem kursona na ikonu čvora u okviru radne površine automatski se

otvara prozor u kome je mogude videti kako se ovaj čvor može povezati sa drugim čvorovima, odnosno,

koji ulazi i izlazi odgovaraju ovom čvoru.

Kao što se na slici može videti, ulazi u čvor mogu biti Examples, odnosno primeri nekog Dataset-a i

Preprocess, odnosno, u samom programu preradjeni primeri nekog Dataset-a. Na izlazu čvora Naive

Bayes mogude je povezati neki od programom predvidjenih Learner-a ili neki drugi čvor kod koga je kao

ulaz definisan Naive Bayesian Classifier. Važno je napomenuti da je za uspešno korišdenje čvora u

Page 7: INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/C4.5-Naive-Bayes-Test... · INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTU OBLAST: Classificaton

kreiranju modela neophodno poznavati ove elemente i shodno tome pravilno pozicionirati čvor u

modelu. Drugim rečima, obezbediti da do čvora ’dolaze’ odgovarajudi ulazi i da je čvor dalje povezan sa

odgovarajudim čvorovima u niz.

Podešavanje funkcija samog čvora mogude je vršiti u prozoru koji se otvara dvostrukim klikom na ikonu

čvora koja se nalazi na radnoj površini programa. Izgled ovog prozora prikazan je na slededoj slici.

Prozor za porešavanje parametara čvora Naive Bayes podeljen je u tri osnovna dela.

Learner/Classifier Name

Probability estimation

Threshold

U prvom delu mogude je zadati ime čvoru. Podrazumevano podešavanje je ime samog čvora, dakle,

Naive Bayes.

U drugom delu, Probabiliy estimation (procena verovatnode) mogude je, pomodu dva padajuda menija,

porešavati kako se procenjuju apriori i uslovna veroratnoda i to kao, Laplace i Relative Frequency za

apriori i Laplace, Relative Frequenc, m-Estimate za uslovnu. U tredem polju mogude je postaviti vrednost

parametra kod m-Estimate. Podrazumevano podešavanje vrednosti ovoga parametra je 2. Takodje, u

ovom delu mogude je podesiti veličinu LOESS prozora kao i LOESS sample points. Podrazumevana

podešavanja vrednosti ova dva parametra su 0.5 i 100.

Page 8: INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/C4.5-Naive-Bayes-Test... · INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTU OBLAST: Classificaton

U tredem delu Threshold (prag) mogude uključiti prag za binarne klase. Ovde takođe treba napomenuti

da je za uspešno podešavanje bilo kog od pomenutih parametara neophodno makar elementarno

poznavanje prirode samo algoritma odnosno, u ovom slučaju, Bajesove teoreme.

U dnu prozora postoje i dva komandna dugmeta, Apply i Report. Dugme Apply služi da čvor primeni

eventualne izmene načinjene u prozoru za podešavanja. Dugme Report otvara prozor izveštaja u kome

je mogude videti koji i kakvi podaci dolaze do čvora, kakvi podaci iz čvora izlaze itd. Takođe, izveštaj je

mogude sačuvati ili štampati.

Primer korišćenja čvora Naive Bayes

U nastavku de biti prikazan jedan uprošden primer korišdenja čvora Naive Bayes. Za potrebe primera

korišden je dataset pod imenom primary-tumor.tab koji dolazi u paketu sa programom. Takodje, za

potrebe primera korišdeni su i čvorovi File, Impute i Nomogram. Model je prikazan na slededoj slici.

Pomodu čvora File učitavamo Dataset u program. Dataset primary-tumor sadrži više atributa kao što su

godine, pol, oboljenja pojedinih organa i sistema organa itd. Veliki broj instanci ovog dataset-a ima

nedostajude vrednosti (missing values) za pojedine atribute. Čvorom Impute mogude je definisati na koji

de način program tretirati primere koji sadrže nedostajude vrednosti. Programom je predviđeno pet

osnovnih metoda dodavanja vrednosti a to su:

Don’t Impute – ne dodavati

Average/Most frequent – prosečna vrednost atributa ili vrednost koja se najčešde pojavljuje

Model-based Imputer – dodavanje bazirano na modelu

Random values – nasumice dodati nedostajude vrednosti

Remove examples with missing values – isključiti primere koji sadrže nedostajude vrednosti

Takođe, čvorom Impute mogude je definisati podešavanja za svaki atribut posebno kao i dodavanje

vrednosti atributu klase itd. U ovom slučaju, izabrali smo Average/Most frequent, odnosno, program je

nedostajude vrednosti primary-tumor dataset-a zamenio prosečnim vrednostima odnosnih atributa. Za

potrebe ovog uprošdenog primera podešavanja čvora Naive Bayes ostala su na preporučeniv

vrednostima. Nomogram je čvor koji služi za prikazivanje rezultata i u ovom slučaju ti rezultati izgledaju

kao na slededoj slici.

Page 9: INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/C4.5-Naive-Bayes-Test... · INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTU OBLAST: Classificaton

U prozoru čvora Nomogram potoje mnoga podešavanja grafičkog prikaza dobijenih rezultata. Takođe,

postoje i mogudnosti čuvanja grafika kao i mogudnost generisanja izveštaja. Jedna od interesantnijih

opcija koje nudi ovaj čvor je i izbor željene klase. Izabrana klasa, u ovom slučaju je, ’vagina’ i na osnovu

te klase dobijene su verovatnode pojavljivanja oboljenja vagine shodno vrednostima ostalih atributa.

Drugim rečima, na prikazanom grafiku možemo videti da je, mereno korišdenim dataset-om, jako mala

verovatnoda pojavljivanja oboljenja vagine kod osoba mlađih od 30 i starijih od 60 godina. Dalje, vidimo

da je jednako mala verovatnoda da se ova vrsta oboljenja pojavi kod osoba muškoga pola itd.

Na kraju treba napomenuti i to da je prikazani model jedno od mnogobrojnih mogudih rešenja i mogude

ga je dalje analizirati i podešavati i na taj način otkrivati različite, na prvi poglet ne tako očigledne,

zakonomernosti u podacima. Na taj način, čvor Naive Bayes obezbedjuje širok spektar mogudnosti za

rešavanje najrazličitijih problema Data mining-a.

Page 10: INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/C4.5-Naive-Bayes-Test... · INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTU OBLAST: Classificaton

Test Learner

Grupa Evaluate glavnog menija sadrži niz čvorova namenjenih evaluaciji, odnosno, proveri generisanih

modela. Prvi u nizu tih čvorova je čvor pod imenom Test Learner. Funkcija ovoga čvora je da utvrdi

kvalitet klasifikacije nekog od, programom predviđenih, klasifikatora.

Uvođenje čvora Test Learner na radnu površinu programa vrši se, kao i kod svih ostalih čvorova,

jednostavnim klikom na ikonu čvora u pomenutoj grupi Evaluate glavnog menija. Pozicioniranjem

kursora na čvor automatski se otvara manji prozor u kome se može videti kako se čvor može povezati sa

drugim čvorovima, odnosno koji su ulaz potrebni čvoru i koje izlaze on obezbeđuje. Izgled ovoga prozora

prikazan je na slededoj slici.

Predviđeni ulazi ogoga čvora su, kao što se vidi, Data, Separate Test Data, Learner i Preprocess, dok je

kao izlaz predviđen Evaluation Results, odnosno tok podataka koji dalje može biti upotrebljen u drugim

čvorovima, kao što su ROC Analysis ili Confusion Matrix, za dalju analizu kvaliteta klasifikatora. I ovde je

važno napomenuti da je za uspešnu primenu svakoga čvora veoma važno poznavati ulaze i izlaze koje

jedan čvor zahteva, odnosno, obezbeđuje.

Duplim klikom na ikonu čvora koja se nalazi na radnoj površini programa otvara se prozor sa

podešavanjima i rezultatima čvora Test Learner. Izgled dela za podešavanje ovoga prozora prikazan je na

slededoj slici.

Page 11: INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/C4.5-Naive-Bayes-Test... · INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTU OBLAST: Classificaton

Deo prozora za porešavanje parametara čvora Test Learner podeljen je u tri dela.

Sampling

Performance scores

Target class

U prvom delu, Sampling, možemo podesiti način na koji de podaci biti uzorkovani. Na raspolaganju su

nam četiri opcije, kros validacija, izostavljanje jednog, nasumično uzorkovanje i testiranje na trening

podacima. Takođe, mogude je podešavati i određene parametre pojedinih metoda uzorkovanja.

Drugi deo pod imenom Performance scores nam omogudana da određene parametre uključimo,

odnosno, isključimo iz rezultata. Program nudi ukupno deset parametara performansi ali demo se mi

zbog prirode ovog materijala ograničiti samo na osnovna četiri a to su:

Page 12: INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/C4.5-Naive-Bayes-Test... · INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTU OBLAST: Classificaton

Classification accuracy – predstavlja odnos pravilno klasifikovanih primera

Sensitivity – odnos broja pozitivno klasifikovanih primera i svih pozitivnih primerima

Specificity – odnos broja negativno klasifikovanih primera i svih negativnih primera

Area under ROC curve – oblast ispod ROC krive

U tredem delu možemo odabrati ciljnu klasu.

U dnu prozora nalazi se i dugme Report koje generiše standardizovani izveštaj koji je mogude sačuvati

i/ili štampati.

Primer korišćenja čvora Test Learner

Kao što je ved rečeno, ovaj čvor služi za merenje kvaliteta klasifikatora. Za potrebe ovog primera koristili

smo data-set pod imenom primary-tumor.tab koji dolazi u paketu sa programom kao i čvorove File, Data

Sampler, Naive Bayes i C4.5. Na slededoj slici prikazan je pojednostavljeni model.

Pomodu čvora File učitavamo Dataset u program. Data Sampler čvor je jedan od čvorova neophodnih za

proveru kvaliteta modela za klasifikaciju. Njegova uloga je da jedan set podeli na dva dela. Prvi deo seta

se koristi kao set za učenje, Learning Set, na kome de neki od modela klasifikacije definisati pravila. Drugi

deo je set za kontrolu dobijenog algoritma, takozvani Test Set. Preporučeni odnos za deljenje osnovnog

seta podataka je 30 prema 70 u korist seta za učenje. Za ovaj primer odabrali smo da testiramo kvalitet

klasifikacije dva poznata klasifikatora Naive Bayes i C4.5. Modelovani na ovakav način, podaci iz

osnovnog seta stižu do čvora Test Learner na dva načina. Prvi, u vidu naučenih modela kroz pomenute

čvorove klasifikacije i drugi, kao test podaci kojima Test Learner meri kvalitet naučenih modela

upoređujudi stvarne klase primera iz test seta i procenjene klase iz naučenih modela. Na ovaj način smo

izbegli da Test Learner meri preciznost modela klasifikacije na podacima na kojima su modeli izgrađeni.

Page 13: INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/C4.5-Naive-Bayes-Test... · INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTU OBLAST: Classificaton

Rezultat ovog merenja možemo videti otvaranjem prozora Test Learner-a. Slededa slika prikazuje te

rezultate.

Ovako prikazani rezultati pogodni su za uporednu analizu različitih klasifikatora. U ovom primeru vidimo

da su vrednosti CA relativno niske, dok su vrednosti Sens i Spec relativno visoke što zajedno ukazuje na

relativno slab kvalitet naučenih modela. Sa druge strane, možemo zaključiti i da je u ovom slučaju Naive

Bayes klasifikator pokazao nešto bolje rezultate u odnosu na C4.5.

Page 14: INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/C4.5-Naive-Bayes-Test... · INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTU OBLAST: Classificaton

Predictions

Čvor Predictions nalazi se u grupi Evaluate glavnog menija. Funkcija Predictions čvora jeste upotreba

pravila klasifikacije, dobijenih korišdenjem nekog od ponuđenih algoritama za klasifikaciju, na novim

podacima.

Uvođenje čvora Predictions na radnu površinu programa vrši se, kao i kod svih ostalih čvorova,

jednostavnim klikom na ikonu čvora u pomenutoj grupi Evaluate glavnog menija. Pozicioniranjem

kursora na čvor automatski se otvara manji prozor u kome se može videti kako se čvor može povezati sa

drugim čvorovima prilikom generisanja modela.

Kao što se na slici može videti, ulazi u čvor mogu biti Examples, odnosno primeri nekog Dataset-a i

Predictors, odnosno, neki modeli klasifikacije dobijeni željenom tehnikom. Na izlazu čvora Predictions

mogude je povezati tabelu za prikaz dobijenih rezultata. Važno je napomenuti da je za uspešno

korišdenje čvora u kreiranju modela neophodno poznavati ove elemente i shodno tome pravilno

pozicionirati čvor u modelu. Drugim rečima, obezbediti da do čvora ’dolaze’ odgovarajudi ulazi, pri čemu

treba naglasiti da u ovom slučaju neophodno obezbediti obe vrste ulaza, odnosno DataSet i model

klasifikacije, i da je čvor dalje povezan sa odgovarajudim čvorovima u niz.

Kako je ved pomenutio, ovaj čvor služi za klasifikaciju novih podataka na bazi naučenih modela

klasifikacije. Podešavanje parametara vrši se u prozoru koji se otvara dvostrukim klikom na ikonu čvora

na radnoj površini programa. Izgled ovog prozora prikazan je na slededoj slici.

Page 15: INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/C4.5-Naive-Bayes-Test... · INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTU OBLAST: Classificaton

Kao što se može videti sa slike, prozor je podeljen u četiri dela, i to:

Info

Options

Data attributes

Output

U Info delu prozora stoje informacije o obimu podataka koji dolaze u čvor, kao i broju Prediktora koje je

mogude koristiti, u našem slučaju jedan, takođe i tip prediktora, odnosno klasifikacija.

Options deo omogudava da prilagodimo prikaz dobijenih rezultata željenom formatu. Možemo podesiti

prikaz verovatnoda željenih kategorija, kao i broj decimala dobijenih vrednosti verovatnode. U ovom

delu, takođe, biramo i da li želimo da nam softver prikaže rezultate predviđanja.

Page 16: INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/C4.5-Naive-Bayes-Test... · INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTU OBLAST: Classificaton

Primer korišćenja čvora Predictions

U nastavku de biti prikazan jedan uprošden primer korišdenja čvora Predictions. Za potrebe primera

korišden je Dataset pod imenom primary-tumor.tab koji dolazi u paketu sa programom. Takodje, za

potrebe primera korišdeni su i čvorovi File, Impute, Data Sampler, Naive Bayes i Data table. Model je

prikazan na slededoj slici.

Pomodu čvora File učitavamo Dataset u program. Program automatski prepoznaje poslednji atribut kao

atribut klase. Čvor Impute omogudava da se na željeni način popune nedostajude vrednosti u podacima.

Dataset primary-tumor sadrži više atributa kao što su godine, pol, oboljenja pojedinih organa i sistema

organa itd. Data Sampler je čvor čija uloga je da jedan set podeli na dva dela. Prvi deo seta se koristi kao

set za učenje, Learning Set, na kome de neki od modela klasifikacije definisati pravila. Drugi deo je set za

kontrolu dobijenog algoritma, takozvani Test Set. Preporučeni odnos za deljenje osnovnog seta podataka

je 30 prema 70 u korist seta za učenje.

Iz ovog čvora, odgovarajudi skup podataka se šalje u neki od modela, u našem slučaju Naive Bayes. U

ovom delu potrebno je definisati odgovarajudi set povezivanjem kudica.

Page 17: INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/C4.5-Naive-Bayes-Test... · INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTU OBLAST: Classificaton

Drugi deo podataka sprovodi se do čvora Predictions, uz napomenu da treba voditi računa o delu

podataka koji se prosleđuje. Ovo podešavanje mogude je izvesti u prozoru koji se pojavljuje kada se dva

puta klikne na vezu između čvorova. Na ovaj način smo dobili grupu podataka za koje de čvor vršiti

predviđanje. Pored ovoga, čvor Predictions, potrebno je povezati sa čvorom Naive Bayes, koji

obezbeđuje model.

Poslednji čvor modela je jednostavni čvor Data table čija je osnovna namena da tabelarno prikaže

podatke. Kao krajnji rezultat ovoga primera dobijamo tabelu sa uporednim prikazom klasa dobijenih

pomodu definisanog modela i klasa koje su dobijene u osnovnom setu. Izgled tabele rezultata dat je na

slici ispod. Očigledno je da u ovom primeru model pravi i izvesne greške. U slučajevima 6 i 12 stvarno

dijagnostikovana oboljenja su oboljenja pluda dok su ’predviđene’ klase oboljenja glava i vrat i oboljenja

tiroidne žlezde. Ipak, model u ostalim slučajevima ispravno predviđa oboljenja pluda. Osnovna namena

čvora Predictions je da nam omogudi da odredimo (predvidimo) klasu oboljenja za primere u kojima nam

ona nije poznata. Da bi ovo uspešno uradili nephodno bi bilo generisati takav model kod koga bi ova

vrsta grešaka bila svedena na minimum.

Page 18: INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/C4.5-Naive-Bayes-Test... · INFORMA IONI SISTEMI ZA PODRŠKU MENADŽMENTU OBLAST: Classificaton