Tomas PRANCKEVIČIUS. Debesų kompiuterijos technologijų lygiagrečių skaičiavimo priemonių paslaugos

2015-09-19Panevėžys

DEBESŲ KOMPIUTERIJOS TECHNOLOGIJŲ LYGIAGREČIŲ

SKAIČIAVIMO PRIEMONIŲ PASLAUGOS

Tomas Pranckevičius

Pranešimo struktūra

Ø Temos aktualumasØ Tyrimo tikslas ir uždavinysØ Modernių didelės apimties duomenų

apdorojimo platformų apžvalgaØ IšvadosØ Literatūra

2015-09-19 Vilniaus universitetas

Temos aktualumas


Ø Duomenų analizės svarba pasireiškia įvairiose srityse: ekonomikoje, medicinoje, sociologijoje, biologijoje ir t.t.

Ø Duomenų analizės tikslas – duomenis apdoroti ir pateikti kuo suprantamesne forma, padedančia geriau juos suvokti: nustatyti struktūrą, tarpusavio ryšius, susidariusias grupes, prognozuojamus įverčius ir pan.

Ø Pasaulyje duomenų kiekiai auga eksponentiškai, todėl iškyla daug ir įvairių problemų, kuomet norima išanalizuoti šiuos duomenis.

Įrankiai ir projektai


Tyrimo tikslas ir uždavinysØ Tyrimo tikslasAtlikti modernių debesų kompiuterijos technologijomis pagrįstųlygiagrečių skaičiavimo priemonių paslaugų apžvalgą.

Ø Tyrimo uždavinysPagal būdingus kriterijus atlikti klasifikavimo algoritmųrealizuojančių skaičiavimo priemonių apžvalgą, lyginamąją analizę,nustatyti jų skirtumus, privalumus ir trūkumus.

ØProblemaDaugiamačių duomenų (angl. Multidimensional data), didelės apimtiesduomenų (angl. Big data) apdorojimas naudojantis klasifikavimoalgoritmais debesų kompiuterijos technologijomis paremtuosesprendimuose.


Debesų kompiuterijaØDebesų kompiuterijos paslaugos• Programinė įranga kaip paslauga (angl. software as a service).• Platforma kaip paslauga (angl. platform as a service).• Infrastruktūra kaip paslauga (angl. infrastructure as a service).• Įranga kaip paslauga (angl. hardware as service).

ØDebesų kompiuterijos charakteristikos• Savitarnos paslaugos pagal poreikį (angl. on-demand self-

service).• Plati tinklo prieiga (angl. broad network access).• Išteklių telkimas (angl. resource pooling).• Greitas elastingumas ir išmatuojamos paslaugos (angl. rapid

elasticity and measured service ).


Didelės apimties duomenų apdorojimo architektūrinis modelis

Debesų kompiuterijos technologija

Duomenų apdorojimo sprendimai, paskirstytiems/lygiagretiems skaičiavimams atlikti

Klasifikavimo ir vizualizavimo algoritmai


Hadoop MapReduce


Apache Hadoop

Apache Hadoop - tai atviro kodo programinėįranga skirta paskirstytos atminties skaičiavimamsatlikti, kuomet naudojami didelės apimtiesduomenys. Turi šiuos modulius:


Apache Hadoop

Hadoop Common

Hadoop Distributed File System (HDFS)

Hadoop YARN MapReduce

Apache Spark

Apache Spark - tai atviro kodo programinė įrangaskirta paskirstytos atminties lygiagretiemsskaičiavimams atlikti su didelės apimtiesduomenimis. Turi šiuos modulius:


Apache Spark

Shark SQL

Spark Streaming MLlib GraphX

graph

H2O

H2O - tai atviro kodo programinė įranga skirta darbui sudidelės apimties duomenimis, gali būti pritaikyta integruotiį debesų kompiuterijos technologijos sprendimus ir HDFSsistemą. Suderinama su Linux, Microsoft Windows ir Mac.


H2O

MapReduce Spark MLlib SQL HDFS H2ORDD

Paslaugos projektinis modelis

Debesų kompiuterijos technologijų lygiagrečiųskaičiavimo priemonių paslaugų realizuojančiųdaugiamačius duomenų tyrybos metodus koncepcinismodelis


GRAPHICAL USER INTERFACE

DATA AND STREAMING

MACHINE LEARNING ALGORITHMS

H2O / SPARK / HADOOP FRAMEWORK

CLOUD COMPUTING TECHNOLOGY RESOURCES

Spark Hadoop MapReduce H2O

Supported API and interoperabilityR, Scala, JavaScript, Java and Python, Spark SQL (Shark)

R, Scala, JavaScript, Java, Python, Hive SQL

R, Java, Scala, Python, JSON, Hadoop, Spark

OperationsMap, filter, Group By, count, collect, reduce, save

Map, filter, Group By, count, collect, reduce, save

Map, filter, Group By, count, collect, reduce, save

Data processing architectureIn-memory Two-stage disk-based In-memory

Deployment possibilitiesCommodity serversCloud computingSingle computer

Commodity serversCloud computingSingle computer

Commodity serversCloud computingSingle computer

Hardware provisioningCores 8-16 Cores 4 Cores 8-16Memory 8 GB to hundreds of gigabytes Memory 24 GB Memory 8 GB to hundreds of

gigabytesDisks 4-8 one TB disks Disks 4-6 one TB disks Disks 4-8 one TB disksNetwork 10 GB or more Network 1 GB Ethernet all-to-all Network 10 GB or more

Graphical user interfaceYes No Yes

Supported file systemsHDFS HDFS HDFS

DocumentationYes Yes Yes

Fault-toleranceYes Yes Yes

Išvados

Ø Tyrimas parodė, kad daugiamačių duomenų tyrybos metodai, galibūti sėkmingai perkelti į debesų technologija paremtus didelėsapimties duomenų apdorojimo platformas, o skaičiavimaiteikiami kaip paslaugos.

Ø Egzistuojančių lygiagretiems skaičiavimais pritaikytų didelėsapimties duomenų analizės algoritmų pasirinkimas didėja beiformuojasi juos realizuojančių sprendimų pasiūla, tačiau kol kasduomenų analizės algoritmų perkėlimas yra lėtas ir sudėtingasprocesas.


Literatūra1. Apache Software Foundation. Apache Spark. [Online] [Cited: March 5, 2015.] https://spark.apache.org/.—. Hadoop. [Online] [Cited: February 1,

2015.] www.hadoop.apache.org.—. Mahout 0.10.0 Features. 2. Barney, Blaise. 2012. Introduction to Parallel Computing. LawrenceLivermoreNationalLaboratory. [Online] 06 12, 2012. [Cited: 06 18, 2012.]

https://computing.llnl.gov/tutorials/parallel_comp/.3. Čiegis, R. 2005. Lygiagretieji algoritmai ir tinklinės technologijos. Vilnius : Technika, 2005.4. Cloud computing: state-of-the-art and research challanges. Qi Zhang, Lu Cheng, Rouf Boutaba. 2010. s.l. : The Brazilian Computer Society, 2010,

Internet Service Applications, pp. 7-18.5. Electronic Privacy Information Center. 2015. Types of Cloud Computing Services. [Online] 2015. [Cited: May 20, 2015.]

http://epic.org/privacy/cloudcomputing/.6. Gerald. J. Popek, Robert P. Goldberg. 1974. Formal Requirements for Virtualizable Third Generation Architectures. 1974. 7. Hortonworks. Apache Hadoop YARN – Concepts and Applications. [Online] [Cited: February 25, 2015.] http://hortonworks.com/blog/apache-

hadoop-yarn-concepts-and-applications/.—. Cluster planning guide. s.l. : Hortonworks.8. IBM. 2011. DeepQA Project: FAQ. 2011.Jackson, Joab. 2011. IBM Watson Vanquishes Human Jeopardy Foes. s.l. : PC World, IDG News, 2011.9. Jessica Lanford, Tomas Nykodym, Ariel Rao, Amy Wang. 2015. Generalized Linear Modeling with H2O’s R. s.l. : H2O.ai, 2015.10. Lei Gu, Huan Li. 2013. Memory or Time: Performance Evaluation for Iterative Operation on Hadoop and Spark. Zhangjiajie : Institute of Electrical

and Electronics Engineers ( IEEE ), 2013. 978-0-7695-5088-6.11. Ni, Ze. 2013. Comparative Evaluation of Spark and Stratosphere. s.l. : KTH Information and Communication Technlogy, 2013.12. Parallel Implementation of Classification Algorithms Based on Cloud Computing Environment. Lijuan Zhou, Hui Wang, Wenbo Wang. 2012. 2012,

TELKOMNIKA, Vol. 10, pp. 1087-1092.Parkhill, Douglas. 1966. The challenge of the computer utility. s.l. : Addison-Wesley, 1966.13. The NIST Definition of Cloud Computing. Peter Mell, Timothy Grance. 2011. s.l. : U.S. Department of Commerce, 2011, Computer security: Special

Publication 800-145.14. Valentina Dagienė, Gintautas Grigas, Tatjana Jevsikova. 2009. 15. Anglų–lietuvių kalbų kompiuterijos žodynėlis, Matematikos ir informatikos institutas. LIKIT. [Tinkle] 2009 m. [Cituota: 2012 m. 06 17 d.]

http://www.likit.lt/term/enc.html.16. White, Tom. 2012. Hadoop: The Definitive Guide. s.l. : O'REILLY, 2012.Yukiya Aoyama, Jun Nakano. 1999. RS/6000 SP: Practical MPI

Programming. www.redbooks.ibm.com. [Online] August 1999. [Cited: Rugsėjis 8 d., 2012.] http://www.redbooks.ibm.com/redbooks/pdfs/sg245380.pdf.

Ačiū už dėmesį!


Technology

Tomas PRANCKEVIČIUS. Debesų kompiuterijos technologijų lygiagrečių skaičiavimo priemonių paslaugos