Upload
pawel-ociepka
View
589
Download
2
Embed Size (px)
Citation preview
O czym opowiem ?
• Big Data - co to takiego?• Dane „Big” i Internet of Things• Technologie Big Data• Matematyka, statystyka i machine learning• O prawdziwych superbohaterach Big Data
Big Data - co to takiego?
Big Data jest jak seks nastolatków wszyscy o tym mówią, nikt tak naprawdę nie wie, jak to się robi, wszyscy myślą, że wszyscy to robią, więc każdy twierdzi, że to już robi.
Dan Ariely
Definicja
Meta Group (2001 r.) – 3VVolume – duża ilość danych Velocity – duża zmienność danych Variety – duża różnorodność danych
Definicja
Meta Group (2001 r.) – 3VVolume – duża ilość danych Velocity – duża zmienność danych Variety – duża różnorodność danych
+2VVeracity – wiarygodność danych Value – ich wartość
Definicja
"Big Data represents the Information assets characterized by such a High Volume, Velocity and Variety to require specific Technology and Analytical Methods for its transformation into Value”.
„Przez Big Data rozumiemy zasoby informacji, które charakteryzują się tak dużym Rozmiarem, Zmiennością i Różnorodnością, że wymagane są specyficzne Technologie i Metody Analityczne aby uzyskać z nich wartość.”
Źródło: De Mauro, Andrea; Greco, Marco; Grimaldi, Michele (2015). "What is big data? A consensual definition and a review of key research topics"
Dane „Big”
2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 20200
5
10
15
20
25
30
35
40
45
50
Estymacja przyrostu danych do roku 2020 (w ZB)
Źródło: Oracle 2012 1 ZB = 1021 bajtów
Internet of Things (IoT)
Obecnie mamy 5 mld urządzeń podpiętych do sieci.
W 2020 roku ich liczba wzrośnie do 20 mld.
Internet of Trash
Projekt polegający na opracowaniu matematycznych modeli, służących do wyceny
nieruchomości przy użyciu danych dostępnych w sieci.
Ilość nieruchomości: 163.247
Ilość parametrów: 22
opis prawidłowy1%
opis niepełny99%
Źródło: Vsoft SA 2015
Technologie Big Data - ryzyka
Nowe i szybko zmieniające się technologie:• stabilność działania,• stabilność API,• niskopoziomowa obsługa i wysoki próg wejścia,• często nieintuicyjne z poziomu początkującego użytkownika,• niepewna przyszłość,• dostępność specjalistów na rynku pracy.
Technologie Big Data Appliance i Chmura
Appliance• IBM• Microsoft• Oracle
Chmura• Amazon• Cloudera• Hortonworks
Drugie starcie z hadoop
Moc clustra• Około 105 wirtualnych maszyn• 200 core• 200 GB RAM• 4 Tera miejsca• 100 dysków
Dane800 mln klientówOkoło 1 TB danych z replikacją
Drugie starcie z hadoop
Moc clustra• Około 105 wirtualnych maszyn• 200 core• 200 GB RAM• 4 Tera miejsca• 100 dysków
Obliczenia• 1 mln 14s• 10 mln 2:20 min• Polska 9:30 min• Europa 2:50 h• Świat 26 h
Dane800 mln klientówOkoło 1 TB danych z replikacją
Wykształcenie• doktorat w zakresie nauk ścisłych
związanych z analizą danych
Technologie• R, Python, Scala, SAS, Java, C++, Gephi,
Protovis, D3, GIT, Hadoop, Pig, Impala, Spark, Hive, Shark, MS Office, Linux, OSX
Zagadnienia• biegła znajomość metod i algorytmów
analizy danych i uczenia maszynowego• znajomość problematyki wstępnej
obróbki danych, znajomość systemów bazodanowych
• umiejętność przygotowywania dokumentacji
• znajomość technologii analizy języka naturalnego („text mining”) i technologii semantycznych (ontologie)
Czyli co musi umieć?
Inne• umiejętność i chęć pracy w
zespole• analityczne myślenie• umiejętności prezentacyjne• odporność na stres
Gdzie leży przyszłość?
2015 20200
5
10
15
20
25
30
35
40
45
50
Dane (ZB) Urządzenia (mld) Populacja (mld)
Źródło: Oracle 2012, populationpyramid,net 2015, gartner.com 2014
Gdzie leży przyszłość?
The United States alone faces a shortage of 140,000 to 190,000 people with analytical expertise and 1.5 million managers and analysts with the skills to understand and make decisions based on the analysis of big data. In this interactive we explore where in the US economy analytical talent is employed.
McKinsey