33
Big Data Big Mystery?

Big data big mystery ?

Embed Size (px)

Citation preview

Big Data Big Mystery?

O czym opowiem ?

• Big Data - co to takiego?• Dane „Big” i Internet of Things• Technologie Big Data• Matematyka, statystyka i machine learning• O prawdziwych superbohaterach Big Data

Big Dataco to takiego?

Big Data - co to takiego?

Big Data jest jak seks nastolatków wszyscy o tym mówią, nikt tak naprawdę nie wie, jak to się robi, wszyscy myślą, że wszyscy to robią, więc każdy twierdzi, że to już robi.

Dan Ariely

Big Data - co to takiego?

Definicja

Meta Group (2001 r.) – 3VVolume – duża ilość danych Velocity – duża zmienność danych Variety – duża różnorodność danych

Definicja

Meta Group (2001 r.) – 3VVolume – duża ilość danych Velocity – duża zmienność danych Variety – duża różnorodność danych

+2VVeracity – wiarygodność danych Value – ich wartość

Definicja

"Big Data represents the Information assets characterized by such a High Volume, Velocity and Variety to require specific Technology and Analytical Methods for its transformation into Value”.

„Przez Big Data rozumiemy zasoby informacji, które charakteryzują się tak dużym Rozmiarem, Zmiennością i Różnorodnością, że wymagane są specyficzne Technologie i Metody Analityczne aby uzyskać z nich wartość.”

Źródło: De Mauro, Andrea; Greco, Marco; Grimaldi, Michele (2015). "What is big data? A consensual definition and a review of key research topics"

Big Data i IoT

Dane „Big”

2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 20200

5

10

15

20

25

30

35

40

45

50

Estymacja przyrostu danych do roku 2020 (w ZB)

Źródło: Oracle 2012 1 ZB = 1021 bajtów

Internet of Things (IoT)

Obecnie mamy 5 mld urządzeń podpiętych do sieci.

W 2020 roku ich liczba wzrośnie do 20 mld.

Internet of Trash

Projekt polegający na opracowaniu matematycznych modeli, służących do wyceny

nieruchomości przy użyciu danych dostępnych w sieci.

Ilość nieruchomości: 163.247

Ilość parametrów: 22

opis prawidłowy1%

opis niepełny99%

Źródło: Vsoft SA 2015

Walka z chaosem

Matematyka, algorytmy,i inne

Matematyka, Algorytmy, Machine Learning

Technologie

Technologie Big Data

Technologie Big Data - ryzyka

Nowe i szybko zmieniające się technologie:• stabilność działania,• stabilność API,• niskopoziomowa obsługa i wysoki próg wejścia,• często nieintuicyjne z poziomu początkującego użytkownika,• niepewna przyszłość,• dostępność specjalistów na rynku pracy.

Technologie Big Data Appliance i Chmura

Appliance• IBM• Microsoft• Oracle

Chmura• Amazon• Cloudera• Hortonworks

Pierwsze starcie z Big Data

Hadoop-master

Hadoop-slave-1

Hadoop-slave-2

Hadoop-slave-3

vs

Drugie starcie z hadoop

Hadoop-master

Hadoop-slave-1…102

vs

Drugie starcie z hadoop

Moc clustra• Około 105 wirtualnych maszyn• 200 core• 200 GB RAM• 4 Tera miejsca• 100 dysków

Dane800 mln klientówOkoło 1 TB danych z replikacją

Drugie starcie z hadoop

Drugie starcie z hadoop

Moc clustra• Około 105 wirtualnych maszyn• 200 core• 200 GB RAM• 4 Tera miejsca• 100 dysków

Obliczenia• 1 mln 14s• 10 mln 2:20 min• Polska 9:30 min• Europa 2:50 h• Świat 26 h

Dane800 mln klientówOkoło 1 TB danych z replikacją

Superbohaterowie

Data Scientist & Data Engineer

Wykształcenie• doktorat w zakresie nauk ścisłych

związanych z analizą danych

Technologie• R, Python, Scala, SAS, Java, C++, Gephi,

Protovis, D3, GIT, Hadoop, Pig, Impala, Spark, Hive, Shark, MS Office, Linux, OSX

Zagadnienia• biegła znajomość metod i algorytmów

analizy danych i uczenia maszynowego• znajomość problematyki wstępnej

obróbki danych, znajomość systemów bazodanowych

• umiejętność przygotowywania dokumentacji

• znajomość technologii analizy języka naturalnego („text mining”) i technologii semantycznych (ontologie)

Czyli co musi umieć?

Inne• umiejętność i chęć pracy w

zespole• analityczne myślenie• umiejętności prezentacyjne• odporność na stres

To co to jest to Big Data?

Gdzie leży przyszłość?

Gdzie leży przyszłość?

2015 20200

5

10

15

20

25

30

35

40

45

50

Dane (ZB) Urządzenia (mld) Populacja (mld)

Źródło: Oracle 2012, populationpyramid,net 2015, gartner.com 2014

Gdzie leży przyszłość?

The United States alone faces a shortage of 140,000 to 190,000 people with analytical expertise and 1.5 million managers and analysts with the skills to understand and make decisions based on the analysis of big data. In this interactive we explore where in the US economy analytical talent is employed.

McKinsey

Gdzie leży przyszłość?

Dziękuję za uwagę

Paweł [email protected]