View
364
Download
3
Embed Size (px)
Citation preview
2015-09-19Panevėžys
DEBESŲ KOMPIUTERIJOS TECHNOLOGIJŲ LYGIAGREČIŲ
SKAIČIAVIMO PRIEMONIŲ PASLAUGOS
Tomas Pranckevičius
Pranešimo struktūra
Ø Temos aktualumasØ Tyrimo tikslas ir uždavinysØ Modernių didelės apimties duomenų
apdorojimo platformų apžvalgaØ IšvadosØ Literatūra
2015-09-19 Vilniaus universitetas
Temos aktualumas
2015-09-19 Vilniaus universitetas
Ø Duomenų analizės svarba pasireiškia įvairiose srityse: ekonomikoje, medicinoje, sociologijoje, biologijoje ir t.t.
Ø Duomenų analizės tikslas – duomenis apdoroti ir pateikti kuo suprantamesne forma, padedančia geriau juos suvokti: nustatyti struktūrą, tarpusavio ryšius, susidariusias grupes, prognozuojamus įverčius ir pan.
Ø Pasaulyje duomenų kiekiai auga eksponentiškai, todėl iškyla daug ir įvairių problemų, kuomet norima išanalizuoti šiuos duomenis.
Tyrimo tikslas ir uždavinysØ Tyrimo tikslasAtlikti modernių debesų kompiuterijos technologijomis pagrįstųlygiagrečių skaičiavimo priemonių paslaugų apžvalgą.
Ø Tyrimo uždavinysPagal būdingus kriterijus atlikti klasifikavimo algoritmųrealizuojančių skaičiavimo priemonių apžvalgą, lyginamąją analizę,nustatyti jų skirtumus, privalumus ir trūkumus.
ØProblemaDaugiamačių duomenų (angl. Multidimensional data), didelės apimtiesduomenų (angl. Big data) apdorojimas naudojantis klasifikavimoalgoritmais debesų kompiuterijos technologijomis paremtuosesprendimuose.
2015-09-19 Vilniaus universitetas
Debesų kompiuterijaØDebesų kompiuterijos paslaugos• Programinė įranga kaip paslauga (angl. software as a service).• Platforma kaip paslauga (angl. platform as a service).• Infrastruktūra kaip paslauga (angl. infrastructure as a service).• Įranga kaip paslauga (angl. hardware as service).
ØDebesų kompiuterijos charakteristikos• Savitarnos paslaugos pagal poreikį (angl. on-demand self-
service).• Plati tinklo prieiga (angl. broad network access).• Išteklių telkimas (angl. resource pooling).• Greitas elastingumas ir išmatuojamos paslaugos (angl. rapid
elasticity and measured service ).
2015-09-19 Vilniaus universitetas
Didelės apimties duomenų apdorojimo architektūrinis modelis
Debesų kompiuterijos technologija
Duomenų apdorojimo sprendimai, paskirstytiems/lygiagretiems skaičiavimams atlikti
Klasifikavimo ir vizualizavimo algoritmai
2015-09-19 Vilniaus universitetas
Apache Hadoop
Apache Hadoop - tai atviro kodo programinėįranga skirta paskirstytos atminties skaičiavimamsatlikti, kuomet naudojami didelės apimtiesduomenys. Turi šiuos modulius:
2015-09-19 Vilniaus universitetas
Apache Hadoop
Hadoop Common
Hadoop Distributed File System (HDFS)
Hadoop YARN MapReduce
Apache Spark
Apache Spark - tai atviro kodo programinė įrangaskirta paskirstytos atminties lygiagretiemsskaičiavimams atlikti su didelės apimtiesduomenimis. Turi šiuos modulius:
2015-09-19 Vilniaus universitetas
Apache Spark
Shark SQL
Spark Streaming MLlib GraphX
graph
H2O
H2O - tai atviro kodo programinė įranga skirta darbui sudidelės apimties duomenimis, gali būti pritaikyta integruotiį debesų kompiuterijos technologijos sprendimus ir HDFSsistemą. Suderinama su Linux, Microsoft Windows ir Mac.
2015-09-19 Vilniaus universitetas
H2O
MapReduce Spark MLlib SQL HDFS H2ORDD
Paslaugos projektinis modelis
Debesų kompiuterijos technologijų lygiagrečiųskaičiavimo priemonių paslaugų realizuojančiųdaugiamačius duomenų tyrybos metodus koncepcinismodelis
2015-09-19 Vilniaus universitetas
GRAPHICAL USER INTERFACE
DATA AND STREAMING
MACHINE LEARNING ALGORITHMS
H2O / SPARK / HADOOP FRAMEWORK
CLOUD COMPUTING TECHNOLOGY RESOURCES
Spark Hadoop MapReduce H2O
Supported API and interoperabilityR, Scala, JavaScript, Java and Python, Spark SQL (Shark)
R, Scala, JavaScript, Java, Python, Hive SQL
R, Java, Scala, Python, JSON, Hadoop, Spark
OperationsMap, filter, Group By, count, collect, reduce, save
Map, filter, Group By, count, collect, reduce, save
Map, filter, Group By, count, collect, reduce, save
Data processing architectureIn-memory Two-stage disk-based In-memory
Deployment possibilitiesCommodity serversCloud computingSingle computer
Commodity serversCloud computingSingle computer
Commodity serversCloud computingSingle computer
Hardware provisioningCores 8-16 Cores 4 Cores 8-16Memory 8 GB to hundreds of gigabytes Memory 24 GB Memory 8 GB to hundreds of
gigabytesDisks 4-8 one TB disks Disks 4-6 one TB disks Disks 4-8 one TB disksNetwork 10 GB or more Network 1 GB Ethernet all-to-all Network 10 GB or more
Graphical user interfaceYes No Yes
Supported file systemsHDFS HDFS HDFS
DocumentationYes Yes Yes
Fault-toleranceYes Yes Yes
Išvados
Ø Tyrimas parodė, kad daugiamačių duomenų tyrybos metodai, galibūti sėkmingai perkelti į debesų technologija paremtus didelėsapimties duomenų apdorojimo platformas, o skaičiavimaiteikiami kaip paslaugos.
Ø Egzistuojančių lygiagretiems skaičiavimais pritaikytų didelėsapimties duomenų analizės algoritmų pasirinkimas didėja beiformuojasi juos realizuojančių sprendimų pasiūla, tačiau kol kasduomenų analizės algoritmų perkėlimas yra lėtas ir sudėtingasprocesas.
2015-09-19 Vilniaus universitetas
Literatūra1. Apache Software Foundation. Apache Spark. [Online] [Cited: March 5, 2015.] https://spark.apache.org/.—. Hadoop. [Online] [Cited: February 1,
2015.] www.hadoop.apache.org.—. Mahout 0.10.0 Features. 2. Barney, Blaise. 2012. Introduction to Parallel Computing. LawrenceLivermoreNationalLaboratory. [Online] 06 12, 2012. [Cited: 06 18, 2012.]
https://computing.llnl.gov/tutorials/parallel_comp/.3. Čiegis, R. 2005. Lygiagretieji algoritmai ir tinklinės technologijos. Vilnius : Technika, 2005.4. Cloud computing: state-of-the-art and research challanges. Qi Zhang, Lu Cheng, Rouf Boutaba. 2010. s.l. : The Brazilian Computer Society, 2010,
Internet Service Applications, pp. 7-18.5. Electronic Privacy Information Center. 2015. Types of Cloud Computing Services. [Online] 2015. [Cited: May 20, 2015.]
http://epic.org/privacy/cloudcomputing/.6. Gerald. J. Popek, Robert P. Goldberg. 1974. Formal Requirements for Virtualizable Third Generation Architectures. 1974. 7. Hortonworks. Apache Hadoop YARN – Concepts and Applications. [Online] [Cited: February 25, 2015.] http://hortonworks.com/blog/apache-
hadoop-yarn-concepts-and-applications/.—. Cluster planning guide. s.l. : Hortonworks.8. IBM. 2011. DeepQA Project: FAQ. 2011.Jackson, Joab. 2011. IBM Watson Vanquishes Human Jeopardy Foes. s.l. : PC World, IDG News, 2011.9. Jessica Lanford, Tomas Nykodym, Ariel Rao, Amy Wang. 2015. Generalized Linear Modeling with H2O’s R. s.l. : H2O.ai, 2015.10. Lei Gu, Huan Li. 2013. Memory or Time: Performance Evaluation for Iterative Operation on Hadoop and Spark. Zhangjiajie : Institute of Electrical
and Electronics Engineers ( IEEE ), 2013. 978-0-7695-5088-6.11. Ni, Ze. 2013. Comparative Evaluation of Spark and Stratosphere. s.l. : KTH Information and Communication Technlogy, 2013.12. Parallel Implementation of Classification Algorithms Based on Cloud Computing Environment. Lijuan Zhou, Hui Wang, Wenbo Wang. 2012. 2012,
TELKOMNIKA, Vol. 10, pp. 1087-1092.Parkhill, Douglas. 1966. The challenge of the computer utility. s.l. : Addison-Wesley, 1966.13. The NIST Definition of Cloud Computing. Peter Mell, Timothy Grance. 2011. s.l. : U.S. Department of Commerce, 2011, Computer security: Special
Publication 800-145.14. Valentina Dagienė, Gintautas Grigas, Tatjana Jevsikova. 2009. 15. Anglų–lietuvių kalbų kompiuterijos žodynėlis, Matematikos ir informatikos institutas. LIKIT. [Tinkle] 2009 m. [Cituota: 2012 m. 06 17 d.]
http://www.likit.lt/term/enc.html.16. White, Tom. 2012. Hadoop: The Definitive Guide. s.l. : O'REILLY, 2012.Yukiya Aoyama, Jun Nakano. 1999. RS/6000 SP: Practical MPI
Programming. www.redbooks.ibm.com. [Online] August 1999. [Cited: Rugsėjis 8 d., 2012.] http://www.redbooks.ibm.com/redbooks/pdfs/sg245380.pdf.