22
Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti Kotryna Paulauskienė Vilniaus universiteto Matematikos ir informatikos instituto doktorantė Kompiuterininkų dienos – 2013

Paulauskienė, Kotryna ; Kurasova, Olga „Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti“ (VU MII)

Embed Size (px)

DESCRIPTION

Pranešimas XVI kompiuterininkų konferencijos sekcijoje „Tikimybinių ir statistinių metodų taikymai“, „Kompiuterininkų dienos – 2013“, Šiauliai 2013-09-21

Citation preview

Page 1: Paulauskienė, Kotryna ; Kurasova, Olga „Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti“ (VU MII)

Duomenų tyrybos sistemų galimybių tyrimas įvairių

apimčių duomenims analizuoti

Kotryna PaulauskienėVilniaus universiteto Matematikos ir informatikos

instituto doktorantė

Kompiuterininkų dienos – 2013

Page 2: Paulauskienė, Kotryna ; Kurasova, Olga „Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti“ (VU MII)

Tyrimo objektas ir tikslas

• Tyrimo objektas – įvairių apimčių duomenys ir duomenų tyrybos sistemos.

• Tyrimo tikslas – nustatyti, kokių apimčių duomenis per priimtiną laiką geba ištirti populiarios duomenų tyrybos sistemos, sprendžiant klasifikavimo ir klasterizavimo uždavinius.

• Nagrinėjamos ir lyginamos šios atvirojo kodo duomenų tyrybos sistemos:o WEKA (Waikato Environment for Knowledge

Analysis)o KNIME (Konstanz Information Miner),o ORANGE.

Page 3: Paulauskienė, Kotryna ; Kurasova, Olga „Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti“ (VU MII)

WEKA• WEKA – atvirojo kodo programa, realizuota Java

programavimo kalba. • Sistema paprasta naudoti pradedančiajam

vartotojui. WEKA sistemoje realizuoti įrankiai: duomenų pradinis apdorojimas, klasterizavimas, klasifikavimas, loginės taisyklės, regresija, vizualizavimas.

• Sistemos pagrindinė vartotojo sąsaja yra Explorer, be jos dar įgyvendinta darbo eigos moduliu paremta sąsaja Knoweldge Flow ir komandų eilutė.

Page 4: Paulauskienė, Kotryna ; Kurasova, Olga „Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti“ (VU MII)

KNIME• KNIME – vartotojui draugiška atvirojo kodo

duomenų apdorojimo, analizės ir vizualizavimo sistema, kurios veikimas paremtas darbo eigos moduliu.

• Sistemą sudaro virš 1000 mazgų, kuriuos jungiant sukuriamos darbo eigos schemos.

• Sistemoje yra integruoti visi WEKA sistemos moduliai.

Page 5: Paulauskienė, Kotryna ; Kurasova, Olga „Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti“ (VU MII)

ORANGE• ORANGE – atvirojo kodo duomenų analizės

sistema, skirta ir pradedantiesiems, ir ekspertams.

• Sistemoje duomenų tyryba vykdoma naudojant darbų eigos sudarymo įrankį Orange Canvas arba programuojant Phyton kalba.

• ORANGE sistemoje realizuotas duomenų pradinis apdorojimas bei populiarūs klasifikavimo, klasterizavimo, vizualizavimo, loginių taisyklių, mokymo be mokytojo, regresijos metodai.

Page 6: Paulauskienė, Kotryna ; Kurasova, Olga „Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti“ (VU MII)

Tyrime nagrinėjami klasifikavimo ir klasterizavimo algoritmai

Klasifikavimo metodai:• Bajeso klasifikatorius,• k artimiausių kaimynų, • sprendimų medis, • daugiasluoksnis neuroninis tinklas, • atraminių vektorių klasifikatorius. Klasterizavimo metodai:• k vidurkių,• hierarchinis klasterizavimas.

Page 7: Paulauskienė, Kotryna ; Kurasova, Olga „Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti“ (VU MII)

Nagrinėjami matai• Tyrime nagrinėjama klasifikavimo ir

klasterizavimo algoritmų greitaveika naudojant skirtingos apimties duomenų aibes.

• Klasifikavimo kokybei vertinti pasirinkti šie matai:

o ;o ;

kur TT – tikrai teigiamas; TN – tikrai neigiamas; KN – klaidingai neigiamas.

Page 8: Paulauskienė, Kotryna ; Kurasova, Olga „Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti“ (VU MII)

Nagrinėjami matai• Klasterizavimo kokybei įvertinti parinktas

klasterizavimo rezultatų su stebimomis klasėmis patikrinimo metodas (rezultatuose nagrinėjama neteisingai suklasterizuotų stebėjimų dalis procentais).

Page 9: Paulauskienė, Kotryna ; Kurasova, Olga „Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti“ (VU MII)

Tyrimo duomenys• Dirbtinai sugeneruotos įvairių apimčių duomenų

aibės, kurių požymių reikšmės tolygiai pasiskirsčiusios intervaluose (0; 1) ir (0,8; 2,2).

• Požymių skaičius fiksuotas – 100.• Objektų skaičius įvairus – 5000, 15000, 30000,

50000, 150000, 200000, 400000, 600000.• Objektai iš pirmojo intervalo priskiriami I-ajai

klasei, iš antro – II-ajai.

Page 10: Paulauskienė, Kotryna ; Kurasova, Olga „Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti“ (VU MII)

Tyrime naudoto kompiuterio

parametraiEksperimentams atlikti naudotas kompiuteris, kurio pagrindinės charakteristikos yra šios: • operacinė sistema – Windows 8,• operatyvioji atmintis (RAM) – 4 GB,• procesorius – Intel i5-3317U, kurio taktinis

dažnis – 1,7 GHz (Max Turbo dažnis 2,6 GHz).

Atlikus eksperimentus, naudojant kitų charakteristikų kompiuterį, rezultatų skaitinių išraiškų absoliutūs dydžiai pasikeistų, tačiau išliktų toks pat santykis tarp skirtingomis sistemomis gautų rezultatų.

Page 11: Paulauskienė, Kotryna ; Kurasova, Olga „Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti“ (VU MII)

Klasifikavimo rezultatai

Page 12: Paulauskienė, Kotryna ; Kurasova, Olga „Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti“ (VU MII)

Klasifikavimo rezultatai

Page 13: Paulauskienė, Kotryna ; Kurasova, Olga „Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti“ (VU MII)

Klasifikavimo rezultatai

Page 14: Paulauskienė, Kotryna ; Kurasova, Olga „Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti“ (VU MII)

Klasifikavimo rezultatai

Page 15: Paulauskienė, Kotryna ; Kurasova, Olga „Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti“ (VU MII)

Klasifikavimo rezultatai

Page 16: Paulauskienė, Kotryna ; Kurasova, Olga „Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti“ (VU MII)

Klasifikavimo kokybės rezultatai (bendras klasifikavimo tikslumas)

Metodas Klasė ORANGE WEKA KNIME

Naive Bajeso klasifikatorius

I klasė 97,34–97,62 96,48–97,60 92,22–97,50

II klasė

k – artimiausių kaimynų klasifikatorius

I klasė 100 100 100

II klasė

Neuroninis tinklas I klasė - 100 99,66–99,87

II klasė

Sprendimų medis I klasė 99,06–99,89 99,40-99,97 99,02–99,97

II klasė

Atraminių vektorių klasifikatorius

I klasė 100 100 100

Page 17: Paulauskienė, Kotryna ; Kurasova, Olga „Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti“ (VU MII)

Klasterizavimo rezultatai

Page 18: Paulauskienė, Kotryna ; Kurasova, Olga „Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti“ (VU MII)

Klasterizavimo kokybė (neteisingai suklasterizuotų stebėjimų dalis (%))

Objektų skaičius Sistema

WEKA KNIME ORANGE

5000 1,9 1,9 4,0

15000 1,7 1,7 2,0

30000 1,6 1,6 1,9

50000 2,5 2,4 4,3

150000 1,7 1,7 2,0

200000 *  2,3  *

* – trūksta kompiuterio operatyviosios atminties

Page 19: Paulauskienė, Kotryna ; Kurasova, Olga „Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti“ (VU MII)

Išvados• ORANGE sistemą galima naudoti kaip duomenų

tyrybos įrankį analizuojant duomenų aibes iki 50 000 objektų, kai kiekvieną objektą charakterizuoja 100 požymių.

• Galima teigti, kad turint tik ORANGE sistemą, didelės apimties duomenys yra tie, kurie sudaryti iš daugiau nei 50 000 objektų.

• Naudojant didesnės aibės duomenis, vertėtų rinktis WEKA arba KNIME sistemą.

• Analizuojant duomenų aibes iki 50 000 objektų, nustatytas panašus WEKA ir KNIME sistemų skaičiavimo laikas vykdant visus nagrinėtus algoritmus.

Page 20: Paulauskienė, Kotryna ; Kurasova, Olga „Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti“ (VU MII)

Išvados• Analizuojant duomenis WEKA ar KNIME sistemomis,

didesnės nei 200 000 objektų duomenų aibės jau yra didelės apimties, nors naudojant nesudėtingus klasifikavimo metodus pastarosios dvi sistemos pajėgios apdoroti ir didesnės apimties duomenis – 400000 objektų, o KNIME dar ir 600 000 objektų.

• Jei duomenų apimtys yra didesnės, būtinos didelėms duomenų aibėms pritaikytos duomenų tyrybos sistemos, pajėgios pasitelkti lygiagrečiuosius ir paskirstytuosius skaičiavimus.

• Tyrimo rezultatai parodė, kad taikyti klasifikavimo metodai duoda tikslius klasifikavimo rezultatus, sprendžiant testinį uždavinį, kai klasės tik šiek tiek persidengia.

Page 21: Paulauskienė, Kotryna ; Kurasova, Olga „Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti“ (VU MII)

Išvados• Prieš pasirenkant duomenų tyrybos sistemą derėtų

atsižvelgti ne tik į turimų duomenų aibės dydį, bet ir įvertinti pasirinktų algoritmų sudėtingumą, kuris daro įtaką skaičiavimo laikui.

• Ateityje būtina atlikti:o eksperimentinius tyrimus naudojant įvairesnius

duomenis, esančius iš daugiau nei dvi klasės, sudarytus iš įvairių požymių skaičių;

o nagrinėti kitas populiarias duomenų tyrybos sistemas. Tas leistų daryti tikslesnes išvadas apie sistemų galimybes analizuojant įvairių apimčių duomenis.

Page 22: Paulauskienė, Kotryna ; Kurasova, Olga „Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti“ (VU MII)

Ačiū už dėmesį.