Upload
ivoriofinland
View
898
Download
2
Embed Size (px)
DESCRIPTION
Esitys big datasta Aalto-yliopistolla "Taulukkolaskenta ja analytiikka"-kurssilla 04.11.2013. - Mitä on big data? - Mikä on Hadoop? - Case-esimerkkejä - Microsoft PowerPivot - Google BigQuery
Citation preview
Ivorion missio
Ivorio on Pohjoismaiden johtava riippumaton big data -asiantuntija.
Autamme asiakkaitamme ratsastamaan tiedon vallankumouksen aallonharjalla.
Mistä big datassa on kysymys?1. Volume
Tietoa (dataa) on koko ajan enemmän. Se pitäisi pystyä tallentamaan ja hyödyntämään.
2. VelocityTietoa (dataa) tulee koko ajan nopeammin. Päätöksiä pitäisi pystyä tekemään nopeasti.
3. VarietyTietoa (dataa) tulee kiihtyvällä tahdilla erilaisista lähteistä, eikä se istu hyvin nykyisiin toimintamalleihin
Veracity, Value Virality, Validity, Viscosity… myös muita V-kirjaimia on jälkeenpäin lisätty kuvaamaan ilmiötä.
Ensimmäisenä tämän esitti META Group, jonka Gartner osti vuonna 2005
Datan alkuperä
© Ivorio 2013
Digitaalinen todellisuus(internet, sosiaalinen media)
Organisaation hallussa tai
saatavilla oleva data (ERP, CRM,
DW, RDBMS)
Datan alkuperä
© Ivorio 2013
Digitaalinen todellisuus(internet, sosiaalinen media)
Fyysinen todellisuus(sensorit, esineiden internet)Organisaation
hallussa tai saatavilla oleva data (ERP, CRM,
DW, RDBMS)
Datan alkuperä
© Ivorio 2013
Saatavilla olevat datavarannot(avoin data, datamarkkinat)
Digitaalinen todellisuus(internet, sosiaalinen media)
Fyysinen todellisuus(sensorit, esineiden internet)Organisaation
hallussa tai saatavilla oleva data (ERP, CRM,
DW, RDBMS)
Datan alkuperä
© Ivorio 2013
Saatavilla olevat datavarannot(avoin data, datamarkkinat)
Potentiaalinen data(ei vielä kerätä)
Digitaalinen todellisuus(internet, sosiaalinen media)
Fyysinen todellisuus(sensorit, esineiden internet)Organisaation
hallussa tai saatavilla oleva data (ERP, CRM,
DW, RDBMS)
“McKinsey:
By 2009, nearly all sectors in US economy had at least an average of 200 terabytes of stored data per company with more than 1 000 employees.
“
© Ivorio 2013
“Accenture:
Räjähdysmäisesti kasvavat tietomäärät avaavat uusia mahdollisuuksia ja potentiaalisia kilpailuetuja monilla aloilla ja monissa yrityksissä.
“
© Ivorio 2013
Kuinka suuret ovat big data -markkinat?
Yleisin luku on välillä 15-50 mrd €
○ IDC sanoo (12/2012), että vuonna 2016 markkinoiden koko on n. 26 mrd $
○ Gartner sanoo (10/2012), että vuonna 2012 big data -markkinat olivat n. 28 mrd $
○ Wikibon ennustaa (02/2012), että big data -markkinat ovat vuonna 2015 n. 54 mrd $
○ McKinseyn raportissa (05/2011) arvioitiin big datan vuotuisen lisäarvo- ja kustannussäästöpotentiaalin olleen jo vuonna 2011 arviolta 1 000 mrd €
© Ivorio 2013
Pääomasijoittajien sijoitukset big data-yritykseen, Top 10
© Ivorio 2013
Yritys Sijoitus (milj. $)
MongoDB 231 milj. $
Mu Sigma 208 milj. $
Cloudera 141 milj. $
Opera Solutions 114 milj. $
Hortonworks 98 milj. $
DataStax 83.7 milj. $
Guavus 75.5 milj. $
GoodData 75.5 milj. $
Talend 61.6 milj. $
CouchBase 56.0 milj. $
Koska big data -hankkeet aloitetaan Suomessa?
Julkishallinnon organisaatiot“Big data -selvitys, 09/2013”
© Ivorio 2013
“McKinsey, 2011:
By 2018, the United States alone could face a shortage of 140,000 to 190,000 people with deep analytical skills.
“
© Ivorio 2013
Big datan teknologiat
● Hadoop (tunnetuin yksittäinen uusi teknologia)
● Appliancet (valmisratkaisut)
● In-memory -analytics, NoSQL (muotiteknologioita)
● Pilvipalvelut ja big data
○ Amazon (Elastic MapReduce...)○ Google (BigQuery...)○ Microsoft (HDInsight...)○ IBM (SoftLayer...)○ jne...
© Ivorio 2013
Hadoop - big datan tunnetuin teknologia
Google-haun “big data” suosio 1.11.2013 asti
Google-haun “hadoop” suosio 1.11.2013 asti
Hadoop - innoittajana Google
Googlen julkaisu Vuosi
Avoimen lähdekoodin projekti Vuosi Mihin tarkoitukseen?
GFS ja MapReduce
2004 Hadoop 2006 Datan tallentaminen ja analysointi (klusteri)
Sawzall 2005 Pig ja Hive 2008 Massa-analytiikka
BigTable 2006 HBase 2008 Avain-arvopari -tietokanta (NoSQL)
Pregel 2010 Giraph 2011 Graph-tietokanta
Dremel / F1 2010 Cloudera Impala
2012 Nopeat kyselyt(SQL)
Spanner 2012 ? ???? Transaktiot
Googlen MapReduce -patenttejaPatentti Teknologia, johon liityyy
US 8,123,909 MapReduce
US 7,756,919 MapReduce
US 7,650,331 MapReduce
US 2012/0278323 MapReduce
US 2012/0254193 MapReduce
US 2012/0215787 MapReduce
US 2012/0122065 MapReduce
PCT/US2012/030941 MapReduce
PCT/US2012/030897 MapReduce
Open Patent Non-Assertion PledgeGoogle lupaa olla hyödyntämättä patentteja tai estämästä niiden kattaman teknologian käyttöä
Google promises to each person or entity that develops, distributes or uses Free or Open Source Software (a “Pledge Recipient”) that Google will not bring a lawsuit or other legal proceeding against a Pledge Recipient for patent infringement under any Pledged Patents based...
Mitä Hadoop tekee?
Hadoop auttaa rakentamaan klusterin palvelimista
Miksi haluaisin Hadoop-klusterin?- edullista tallennustilaa- tehokasta prosessointia- toimintavarmuutta- skaalautuvuutta- ekosysteemi, lisäosia ja laajennoksia!
Hadoopin asema big data -ilmiössä
Hadoop
Tiedon määrä
Tied
on r
aken
teis
uus
2 Tb1 Gb 20 Tb 200 Tb
Nearly all sectors in the US economy had at least an average of 200 terabytes of stored data per company with more than 1,000 employees.McKinsey 2011
By 2015, 65 percent of packaged analytic applications with advanced analytics will come embedded with Hadoop.Gartner 2013
© Ivorio 2013
Hadoop Suomessa
© Ivorio 2013
Käyttäjiä v. 2013 mm.
Käyttäjiä lähitulevaisuudessa
Rovio
Sanoma
Supercell
Vähittäiskauppa
Teollisuus
Telekommunikaatio
MediaPalvelualat
Amazon, Google, Microsoft
© Ivorio 2013
Dataa yht. Amazon (S3) Google Storage Microsoft Azure Storage
< 1 TB 0.095 $ 0.085 $ 0.095 $
< 50 TB 0.080 $ 0.076 $ 0.080 $
< 500 TB 0.070 $ 0.063 $ 0.070 $
< 1000 TB 0.065 $ 0.063 $ 0.065 $
< 5000 TB 0.060 $ 0.054 $ 0.055 $
Mitä maksaa gigatavun tallentaminen per kuukausi julkisessa pilvessä?
Kustannussäästöt eivät ole olennaisin asia pilvipalveluissa!
Datan analysoiminen pilvessä
© Ivorio 2013
Terasortin maailmanennätys Googlen pilvipalvelussa:
MapR (Hadoop-jakeluyritys):“Benchmark broke the one minute barrier with 1,003 servers, 4,012 cores and 1,003 disks as compared to the previous record set by Yahoo. The prior documented record of 62 seconds was set by Yahoo running Apache Hadoop on 1,460 servers, 11,680 cores and 5,840 disks.”
Mitä maailmanennätys maksoi?
Datan analysoiminen pilvessä
© Ivorio 2013
Terasortin maailmanennätys Googlen pilvipalvelussa:
“Since the servers used in MapR’s world record were virtually instantiated in the Cloud, the cost estimate for running the TeraSort was about $9 compared to the over $5M estimate to run the previous record.”
joustavuudesta!
Tästä on kysymys:
$ 9 vs. $ 5 000 000
Googlen tutkimus- ja tuotekehitysmenot
© Ivorio 2013
Vuosi Investoinnit tutkimus- ja tuotekehitykseen
2013 7 900 milj. $ (arvio Q3-lukujen perusteella)
2012 6 800 milj. $
... …
2004 226 milj. $
2003 91 milj. $
2002 32 milj. $
2001 17 milj. $
2000 11 milj.$
Esimerkkejä luvuista: Amazon ja Google
© Ivorio 2013
Nettoinvestoinnit teknologiaan v. 2012 (palvelimet yms.)
Yritys Nettoinvestoinnit Taserivi Liikevaihto
Amazon 1 655 milj. $Technology and content
+ 13 016 milj. $
Google 1 657 milj. $Information technology assets
+ 8 134 milj. $*
*) Motorola-kauppaa ei mukana tässä
“Investoinnit ovat suuria, mutta liiketoiminnan kasvu monin verroin suurempi. Palvelinkeskukset ovat databisneksen raaka-ainetta, bulkkia.”
© Ivorio 2013
Big dataa arkipäivässä
● Hakukoneet○ Google on maailman johtava big data -yritys
● Suositukset○ Amazon, Spotify, YouTube, Netflix
● Mainonta○ Google AdSense, Facebook
© Ivorio 2013
Keskosten tarkkailu
● Hengenvaarallisten tulehdusten riski korkea● Monipuolisen tilastoinnin ja analysoinnin myötä
tunnistetaan tulevat ongelmat jo vuorokautta aikaisemmin -> reagoidaan, valmistaudutaan
● Toronto’s Hospital for Sick Children, University of Ontario, IBM
© Ivorio 2013
Ennakoiva huolto
● Koneiden, laitteiden, ajoneuvojen sensorista dataa ja vikatilastoja yhdistellään
● Analytiikka tunnistaa toistuvia tapahtumia, korrelaatioita datan ja vikaantumisen välillä
● Huollot voidaan ennakoida ennen suurempien vahinkojen syntymistä
● Vältetään odottamattomia keskeytyksiä prosesseissa
© Ivorio 2013
Big Cities, Big Challenges
● Chicago, rikosten ennakointi analysoimalla tilastoja, hätäpuheluja, videokuvaa
● New York, paloturvallisuusriskien tunnistaminen vuokrakiinteistöistä tilastojen avulla
● Liikenneonnettomuudet, ruuhkat, ennakoiva terveydenhuolto, petosten tunnistaminen, mielipideanalyysit ...
© Ivorio 2013
● Mukana Excel 2013 -tuotteessa● Ilmainen laajennusosa Excel 2010 -tuotteeseen
Microsoft PowerPivot Excel plug-in“BI työkalupakki ja suuremmat taulukot ”
© Ivorio 2013
● Yhteen taulukkoon enemmän dataa, n. 1M -> 100M+
● Silti kaikki paikallisessa työasemassa
PowerPivot: keskeiset piirteet
© Ivorio 2013
● Analyysin taustalla taulukon sijaan malli: tauluja ja relaatioita
PowerPivot: keskeiset piirteet
© Ivorio 2013
● Työkaluja näkymien/BI työkalujen rakentamiseksi, nopeasti ja ilman ohjelmointia -> julkaistavissa mm. SharePointissa
● Keskeisenä laskennan apuvälineenä tutut pivot-taulukot
PowerPivot: keskeiset piirteet
© Ivorio 2013
● Datan tuominen ulkopuolisesta lähteestä● Mallin luominen● Pivot-kyselyt
● Kuvataan tarkemmin luokkaharjoituksissa
PowerPivot: harjoitustyö osana kurssia
© Ivorio 2013
● Pilvipalvelu, tuhansien palvelinten laskentateho● Kokeiltavissa rajoitetusti (<100Gb/kk) ilmaiseksi,
vaatii kuitenkin Google-tilin
BigQuery: keskeiset piirteet
© Ivorio 2013
● SQL:n kaltainen kyselykieli● Käyttöliittymät
○ Selain○ Komentorivi○ REST API
● Laskutus käytön perusteella
BigQuery: keskeiset piirteet