33
Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis Viktor Medvedev Vilniaus universitetas Matematikos ir informatikos institutas [email protected] Kompiuterininkų dienos – 2013, Šiauliai

Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

Embed Size (px)

DESCRIPTION

Pranešimas XVI kompiuterininkų konferencijos sekcijoje „Duomenų tyryba ir jos taikymai“, „Kompiuterininkų dienos – 2013“, Šiauliai 2013-09-20

Citation preview

Page 1: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis

Viktor Medvedev

Vilniaus universitetas Matematikos ir informatikos institutas

[email protected]

Kompiuterininkų dienos – 2013, Šiauliai

Page 2: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

Bendraautoriai

• Olga Kurasova, [email protected]• Virginijus Marcinkevičius, [email protected]• Aurimas Rapečka, [email protected]

Šis tyrimas atliktas Europos socialinio fondo finansuojamo projekto „Paslaugų interneto technologijų kūrimo ir panaudojimo našių skaičiavimų platformose teoriniai ir inžineriniai aspektai“ (Nr. VP1-3.1-ŠMM-08-K-01-010) lėšomis.

Page 3: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis

• Tyrimo objektas – duomenų tyrybos sistemos, pagrįstos saityno paslaugomis

• Tyrimo metodika – analizuojamų sistemų lyginamoji analizė.

• Tikslas – apžvelgti esamas duomenų tyrybos sistemas, pagrįstas saityno paslaugomis; parinkti kriterijus, pagal kuriuos atlikti šių sistemų lyginamąją analizę, ir išryškinti lyginamų sistemų privalumus ir trūkumus.

Atlikta sistemų lyginamoji analizė bus naudinga kuriant naują duomenų tyrybos sistemą.

Page 4: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

Duomenų tyryba• Duomenų tyryba (angl. data mining) yra svarbi žinių

radimo duomenų bazėse proceso dalis. • Kurį laiką tyrimai buvo nukreipti į duomenų tyrybos metodų

kūrimą ir jų taikymą. • Duomenų tyrybos sistemos kuriamos naudojant paslaugų

architektūrą (angl. Service-Oriented Architecture, SOA).

Page 5: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

Duomenų tyryba• Yra bandymų sukurti duomenų tyrybos algoritmus, kaip

saityno paslaugas, kurios gali būti panaudotos kitose sistemose, praplečiant jų galimybes be papildomo programavimo.

• Aktuali duomenų tyrybos problema – didelių apimčių duomenų analizė, reikalaujanti ne tik specialių algoritmų, bet ir naujų technologijų.

Page 6: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis

Page 7: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis

Page 8: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis

Page 9: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

Pagrindinės sąvokos• Paslaugų architektūra (angl. Service-Oriented

Architecture, SOA) – Išskirstytos sistemos architektūra, kai visos esybės (programiniai komponentai) yra paslaugos ir visos matomos operacijos yra keitimosi pranešimais rezultatas.

• Visos SOA sąsajos yra apibrėžiamos nepriklausomai viena nuo kitos realizacijos ir nepriklausomai nuo realizavimo platformų; SOA paslaugos gali būti iškviečiamos dinamiškai.

Page 10: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

Pagrindinės sąvokos• Saityno paslaugos (angl. web services) – standartizuota

saityno taikomųjų programų paslauga, sukurta remiantis atviraisiais interneto standartais: – XML (duomenims žymėti), – SOAP (duomenims siųsti), – WSDL (paslaugoms aprašyti), – UDDI (paslaugų žinynams, viešiesiems registrams

sudaryti) ir atitinkanti paslaugomis grindžiamą architektūrą.

Page 11: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

Pagrindinės sąvokos• Saityno paslaugos (angl. web services) – standartizuota

saityno taikomųjų programų paslauga, sukurta remiantis atviraisiais interneto standartais: – XML (duomenims žymėti), – SOAP (duomenims siųsti), – WSDL (paslaugoms aprašyti), – UDDI (paslaugų žinynams, viešiesiems registrams

sudaryti) ir atitinkanti paslaugomis grindžiamą architektūrą.

• Saityno paslaugos – protokolų ir standartų rinkinys, naudojamas duomenų apsikeitimui tarp aplikacijų ir sistemų.

Page 12: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

Pagrindinės sąvokos• Saityno paslaugų apibrėžimo kalba (angl. Web Service

Definition Language, WSDL) – saityno paslaugų aprašymo kalba, kuri yra pagrįsta XML technologija ir leidžia aprašyti saityno paslaugas.

Page 13: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

Darbų sekos (Workflows)

Page 14: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

Saityno paslaugų realizavimo technologijos

• SOAP (Service Oriented Architecture Protocol) Microsoft• REST (Representational State Transfer)

Duomenų saugumas

Produktyvumas

Paprastumas

Jungiamumas

Palaikymas

Patikimumas

Lankstumas

SOAP

RESTful

Saugumas

Page 15: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

Saityno paslaugų realizavimo technologijos

• SOAP (Service Oriented Architecture Protocol) Microsoft• REST (Representational State Transfer)

Page 16: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

Rest

Page 17: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

Saityno paslaugų architektūra

• Kuriant saityno paslaugas ir naudojant paslaugų stiliaus architektūrą dalyvauja trys veikėjai: – paslaugų registras, – paslaugų tiekėjas,– paslaugų užsakovas.

Page 18: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

Saityno paslaugų architektūra

Paslaugų tiekėjas

Paslaugų užsakovas

Paslaugų registras

Sąsaja

Page 19: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis

• Weka4WS - Weka sistemos praplėtimas• Orange4WS – Orange sistemos praplėtimas• KNIME - įgyvendintas saityno paslaugų klientas• ClowdFlows - duomenų tyrybos saityno programos, kurios

naudojamos ir valdomos interneto naršykle• Taverna - darbų sekų valdymo sistema • DAME (DAta Mining & Exploration)- paskirstytos duomenų

tyrybos infrastruktūra, skirta didelės apimties duomenims analizuoti

Page 20: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

Weka4WS

Page 21: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

Orange4WS

Page 22: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

KNIME

Page 23: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

Taverna

Page 24: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

ClowdFlows

Page 25: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

Sistemų lyginimo kriterijaiKriterijus Galimos reikšmės

Informacijos perdavimo tarp saityno paslaugų būdas

SOAP,RESTful

Operacinės sistemos MS Windows,Linux,Mac OS X

Praplečiamumas Taip / Ne

Darbų sekos (Workflows) Taip / Ne

Saityno programa Taip / Ne

Duomenų tyrybos metodai klasifikavimo, grupavimo, asociatyvių taisyklių,teksto tyryba

Page 26: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

Duomenų tyrybos sistemų palyginimas

Kriterijai

   

Sistemos 

Inform. perdavim

as

Operacinės sistemos Pr

aplečiamumas

Darbų sekos

Saityno

programa

Duomenų tyryba

VisoSOAP

RESTful

MS Win

Linux

Mac OS X

Klasifika-vimo

Grupa- vi

mo

asociat. taisyklių

teksto tyryba

Weka4WS + – + + – – + – + + + – 7

Orange4WS + – + + + + + – + + + – 9

KNIME + – + + + + + – + + + + 10

ClowdFlows + – + + + + + + + + – + 10

Taverna + + + + + + + – –* –* –* –* 7

DAME – + + + + – – + + + – – 7

Viso 5 2 6 6 5 4 5 2 5 5 3 2  

Page 27: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

•Weka4WS, Orange4WS, KNIME, ClowdFlows: sistemose saityno paslaugos sukurtos naudojant tik SOAP informacijos perdavimo būdą. •DAME sistemoje naudojamas RESTful• Taverna galima įkelti SOAP ir RESTful saityno paslaugas.

Duomenų tyrybos sistemų palyginimas

Page 28: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

• Visos sistemos veikia MS Windows ir Linux operacinėse sistemose, o Mac OS X sistemoje neveikia tik Weka4WS. • Orange4Ws, KNIME, ClowdFlows ir Taverna sistemose yra įgyvendinta galimybė įkelti kitur sukurtas (išorines) saityno paslaugas be papildomo programavimo. • Darbų sekos įgyvendintos visose tirtose sistemose, išskyrus DAME. • ClowdFlows ir DAME yra saityno programos.

Duomenų tyrybos sistemų palyginimas

Page 29: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

• Visos keturios duomenų tyrybos metodų grupės (klasifikavimas, grupavimas, asociatyvios taisyklės bei teksto tyryba) yra įgyvendintos tik KNIME sistemose. ClowdFlows sistemoje kol kas nėra įgyvendinti asociatyvių taisyklių sudarymo algoritmai. • Taverna sistemoje nėra nei vieno duomenų tyrybos metodo, tačiau yra galimybė prijungti kitur sukurtas duomenų tyrybos paslaugas.• DAME yra įgyvendinti keli klasifikavimo ir grupavimo metodai.

Duomenų tyrybos sistemų palyginimas

Page 30: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

• Pagal atliktus vertinimus didžiausiais balais įvertintos KNIME ir ClowdFlows sistemos (10 iš 12 galimų). • ClowdFlows sistemos pranašumas yra tas, kad ji yra naudojama ir valdoma interneto naršykle. Be to ji intensyviai tebevystoma, todėl ateityje tikėtinas dar didesnis funkcionalumas.

Duomenų tyrybos sistemų palyginimas

Page 31: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

• Yra kuriamos sistemos, pagrįstos saityno paslaugomis, tačiau wsdl failai yra neprieinami (pvz, FAEHIM).• Biocatalogue (http://www.biocatalogue.org/services) - saityno paslaugų telkinys, tačiau saityno paslaugų duomenų tyrybai jame nėra.• Sistemos, pagrįstos saityno paslaugomis, yra kuriamos gavus papildomą finansavimą. Pasibaigus projektui, sistemos toliau nebevystomos.

Problemos

Page 32: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

Išvados

• Darbe parinkti kriterijai, pagal kuriuos palygintos kelios saityno paslaugomis pagrįstos sistemos. • Lyginamoji analizė parodė, kad pagal vertinamus kriterijus aukščiausiai įvertintos KNIME ir ClowdFlows sistemos. • Atliktos lyginamosios analizės rezultatai bus panaudoti kuriant naują duomenų tyrybos sistemą, pagrįstą saityno paslaugomis.

Page 33: Kurasova, Olga ; Marcinkevičius, Virginijus ; Medvedev, Viktor ; Rapečka, Aurimas „Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis“ (VU MII)

Ačiū už dėmesį