53
© Ivorio 2013

Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

Embed Size (px)

DESCRIPTION

Esitys big datasta Aalto-yliopistolla "Taulukkolaskenta ja analytiikka"-kurssilla 04.11.2013. - Mitä on big data? - Mikä on Hadoop? - Case-esimerkkejä - Microsoft PowerPivot - Google BigQuery

Citation preview

© Ivorio 2013

Ivorion missio

Ivorio on Pohjoismaiden johtava riippumaton big data -asiantuntija.

Autamme asiakkaitamme ratsastamaan tiedon vallankumouksen aallonharjalla.

Tiedon

Markkinat jaetaan nyt uudelleen

vallankumous

© Ivorio 2013

Big data ilmiö vuodesta 2011

“Big Data” kiinnostus nousee nopeasti

© Ivorio 2013

Google-haun “big data” suosio 1.11.2013 asti

Mistä big datassa on kysymys?1. Volume

Tietoa (dataa) on koko ajan enemmän. Se pitäisi pystyä tallentamaan ja hyödyntämään.

2. VelocityTietoa (dataa) tulee koko ajan nopeammin. Päätöksiä pitäisi pystyä tekemään nopeasti.

3. VarietyTietoa (dataa) tulee kiihtyvällä tahdilla erilaisista lähteistä, eikä se istu hyvin nykyisiin toimintamalleihin

Veracity, Value Virality, Validity, Viscosity… myös muita V-kirjaimia on jälkeenpäin lisätty kuvaamaan ilmiötä.

Ensimmäisenä tämän esitti META Group, jonka Gartner osti vuonna 2005

© Ivorio 2013

Organisaation hallussa tai

saatavilla oleva data (ERP, CRM,

DW, RDBMS)

Datan alkuperä

Datan alkuperä

© Ivorio 2013

Digitaalinen todellisuus(internet, sosiaalinen media)

Organisaation hallussa tai

saatavilla oleva data (ERP, CRM,

DW, RDBMS)

Datan alkuperä

© Ivorio 2013

Digitaalinen todellisuus(internet, sosiaalinen media)

Fyysinen todellisuus(sensorit, esineiden internet)Organisaation

hallussa tai saatavilla oleva data (ERP, CRM,

DW, RDBMS)

Datan alkuperä

© Ivorio 2013

Saatavilla olevat datavarannot(avoin data, datamarkkinat)

Digitaalinen todellisuus(internet, sosiaalinen media)

Fyysinen todellisuus(sensorit, esineiden internet)Organisaation

hallussa tai saatavilla oleva data (ERP, CRM,

DW, RDBMS)

Datan alkuperä

© Ivorio 2013

Saatavilla olevat datavarannot(avoin data, datamarkkinat)

Potentiaalinen data(ei vielä kerätä)

Digitaalinen todellisuus(internet, sosiaalinen media)

Fyysinen todellisuus(sensorit, esineiden internet)Organisaation

hallussa tai saatavilla oleva data (ERP, CRM,

DW, RDBMS)

“McKinsey:

By 2009, nearly all sectors in US economy had at least an average of 200 terabytes of stored data per company with more than 1 000 employees.

© Ivorio 2013

“Accenture:

Räjähdysmäisesti kasvavat tietomäärät avaavat uusia mahdollisuuksia ja potentiaalisia kilpailuetuja monilla aloilla ja monissa yrityksissä.

© Ivorio 2013

Kuinka suuret ovat big data -markkinat?

Yleisin luku on välillä 15-50 mrd €

○ IDC sanoo (12/2012), että vuonna 2016 markkinoiden koko on n. 26 mrd $

○ Gartner sanoo (10/2012), että vuonna 2012 big data -markkinat olivat n. 28 mrd $

○ Wikibon ennustaa (02/2012), että big data -markkinat ovat vuonna 2015 n. 54 mrd $

○ McKinseyn raportissa (05/2011) arvioitiin big datan vuotuisen lisäarvo- ja kustannussäästöpotentiaalin olleen jo vuonna 2011 arviolta 1 000 mrd €

© Ivorio 2013

Pääomasijoittajien sijoitukset big data-yritykseen, Top 10

© Ivorio 2013

Yritys Sijoitus (milj. $)

MongoDB 231 milj. $

Mu Sigma 208 milj. $

Cloudera 141 milj. $

Opera Solutions 114 milj. $

Hortonworks 98 milj. $

DataStax 83.7 milj. $

Guavus 75.5 milj. $

GoodData 75.5 milj. $

Talend 61.6 milj. $

CouchBase 56.0 milj. $

Koska big data -hankkeet aloitetaan Suomessa?

Julkishallinnon organisaatiot“Big data -selvitys, 09/2013”

© Ivorio 2013

“McKinsey, 2011:

By 2018, the United States alone could face a shortage of 140,000 to 190,000 people with deep analytical skills.

© Ivorio 2013

Big datan teknologiat

● Hadoop (tunnetuin yksittäinen uusi teknologia)

● Appliancet (valmisratkaisut)

● In-memory -analytics, NoSQL (muotiteknologioita)

● Pilvipalvelut ja big data

○ Amazon (Elastic MapReduce...)○ Google (BigQuery...)○ Microsoft (HDInsight...)○ IBM (SoftLayer...)○ jne...

© Ivorio 2013

Hadoop - big datan tunnetuin teknologia

Google-haun “big data” suosio 1.11.2013 asti

Google-haun “hadoop” suosio 1.11.2013 asti

© Ivorio 2013

Hadoopin tausta Googlessa

Hadoop - innoittajana Google

Googlen julkaisu Vuosi

Avoimen lähdekoodin projekti Vuosi Mihin tarkoitukseen?

GFS ja MapReduce

2004 Hadoop 2006 Datan tallentaminen ja analysointi (klusteri)

Sawzall 2005 Pig ja Hive 2008 Massa-analytiikka

BigTable 2006 HBase 2008 Avain-arvopari -tietokanta (NoSQL)

Pregel 2010 Giraph 2011 Graph-tietokanta

Dremel / F1 2010 Cloudera Impala

2012 Nopeat kyselyt(SQL)

Spanner 2012 ? ???? Transaktiot

Googlen MapReduce -patenttejaPatentti Teknologia, johon liityyy

US 8,123,909 MapReduce

US 7,756,919 MapReduce

US 7,650,331 MapReduce

US 2012/0278323 MapReduce

US 2012/0254193 MapReduce

US 2012/0215787 MapReduce

US 2012/0122065 MapReduce

PCT/US2012/030941 MapReduce

PCT/US2012/030897 MapReduce

Open Patent Non-Assertion PledgeGoogle lupaa olla hyödyntämättä patentteja tai estämästä niiden kattaman teknologian käyttöä

Google promises to each person or entity that develops, distributes or uses Free or Open Source Software (a “Pledge Recipient”) that Google will not bring a lawsuit or other legal proceeding against a Pledge Recipient for patent infringement under any Pledged Patents based...

© Ivorio 2013

Mitä se Hadoop oikein tekee?

Hadoopissa kaksi keskeistä komponenttia

HDFS MapReduce

tiedostojärjestelmä tiedonlouhintaa

Mitä Hadoop tekee?

Hadoop auttaa rakentamaan klusterin palvelimista

Miksi haluaisin Hadoop-klusterin?- edullista tallennustilaa- tehokasta prosessointia- toimintavarmuutta- skaalautuvuutta- ekosysteemi, lisäosia ja laajennoksia!

Hadoopin asema big data -ilmiössä

Hadoop

Tiedon määrä

Tied

on r

aken

teis

uus

2 Tb1 Gb 20 Tb 200 Tb

Nearly all sectors in the US economy had at least an average of 200 terabytes of stored data per company with more than 1,000 employees.McKinsey 2011

By 2015, 65 percent of packaged analytic applications with advanced analytics will come embedded with Hadoop.Gartner 2013

© Ivorio 2013

Hadoop Suomessa

© Ivorio 2013

Käyttäjiä v. 2013 mm.

Käyttäjiä lähitulevaisuudessa

Rovio

Sanoma

Supercell

Vähittäiskauppa

Teollisuus

Telekommunikaatio

MediaPalvelualat

Hadoop-työpaikkojen tarjonta

© Ivorio 2013

Lähde: Indeed.comTyöpaikat pääasiassa Yhdysvalloissa

© Ivorio 2013

Datan tallentaminen pilvessä

Amazon, Google, Microsoft

© Ivorio 2013

Dataa yht. Amazon (S3) Google Storage Microsoft Azure Storage

< 1 TB 0.095 $ 0.085 $ 0.095 $

< 50 TB 0.080 $ 0.076 $ 0.080 $

< 500 TB 0.070 $ 0.063 $ 0.070 $

< 1000 TB 0.065 $ 0.063 $ 0.065 $

< 5000 TB 0.060 $ 0.054 $ 0.055 $

Mitä maksaa gigatavun tallentaminen per kuukausi julkisessa pilvessä?

Kustannussäästöt eivät ole olennaisin asia pilvipalveluissa!

© Ivorio 2013

Datan hyödyntäminen pilvessä

Datan analysoiminen pilvessä

© Ivorio 2013

Terasortin maailmanennätys Googlen pilvipalvelussa:

MapR (Hadoop-jakeluyritys):“Benchmark broke the one minute barrier with 1,003 servers, 4,012 cores and 1,003 disks as compared to the previous record set by Yahoo. The prior documented record of 62 seconds was set by Yahoo running Apache Hadoop on 1,460 servers, 11,680 cores and 5,840 disks.”

Mitä maailmanennätys maksoi?

Datan analysoiminen pilvessä

© Ivorio 2013

Terasortin maailmanennätys Googlen pilvipalvelussa:

“Since the servers used in MapR’s world record were virtually instantiated in the Cloud, the cost estimate for running the TeraSort was about $9 compared to the over $5M estimate to run the previous record.”

joustavuudesta!

Tästä on kysymys:

$ 9 vs. $ 5 000 000

© Ivorio 2013

Investoinnit teknologiaan sekä tutkimus- ja kehitystyöhön valtavia

Googlen tutkimus- ja tuotekehitysmenot

© Ivorio 2013

Vuosi Investoinnit tutkimus- ja tuotekehitykseen

2013 7 900 milj. $ (arvio Q3-lukujen perusteella)

2012 6 800 milj. $

... …

2004 226 milj. $

2003 91 milj. $

2002 32 milj. $

2001 17 milj. $

2000 11 milj.$

Esimerkkejä luvuista: Amazon ja Google

© Ivorio 2013

Nettoinvestoinnit teknologiaan v. 2012 (palvelimet yms.)

Yritys Nettoinvestoinnit Taserivi Liikevaihto

Amazon 1 655 milj. $Technology and content

+ 13 016 milj. $

Google 1 657 milj. $Information technology assets

+ 8 134 milj. $*

*) Motorola-kauppaa ei mukana tässä

“Investoinnit ovat suuria, mutta liiketoiminnan kasvu monin verroin suurempi. Palvelinkeskukset ovat databisneksen raaka-ainetta, bulkkia.”

© Ivorio 2013

Big data, esimerkein

© Ivorio 2013

Big dataa arkipäivässä

● Hakukoneet○ Google on maailman johtava big data -yritys

● Suositukset○ Amazon, Spotify, YouTube, Netflix

● Mainonta○ Google AdSense, Facebook

© Ivorio 2013

Google Flu Trends

© Ivorio 2013

Keskosten tarkkailu

● Hengenvaarallisten tulehdusten riski korkea● Monipuolisen tilastoinnin ja analysoinnin myötä

tunnistetaan tulevat ongelmat jo vuorokautta aikaisemmin -> reagoidaan, valmistaudutaan

● Toronto’s Hospital for Sick Children, University of Ontario, IBM

© Ivorio 2013

Ennakoiva huolto

● Koneiden, laitteiden, ajoneuvojen sensorista dataa ja vikatilastoja yhdistellään

● Analytiikka tunnistaa toistuvia tapahtumia, korrelaatioita datan ja vikaantumisen välillä

● Huollot voidaan ennakoida ennen suurempien vahinkojen syntymistä

● Vältetään odottamattomia keskeytyksiä prosesseissa

© Ivorio 2013

Big Cities, Big Challenges

● Chicago, rikosten ennakointi analysoimalla tilastoja, hätäpuheluja, videokuvaa

● New York, paloturvallisuusriskien tunnistaminen vuokrakiinteistöistä tilastojen avulla

● Liikenneonnettomuudet, ruuhkat, ennakoiva terveydenhuolto, petosten tunnistaminen, mielipideanalyysit ...

© Ivorio 2013

Nopeasti kohti big data -toteutuksia

Microsoft PowerPivot

© Ivorio 2013

● Mukana Excel 2013 -tuotteessa● Ilmainen laajennusosa Excel 2010 -tuotteeseen

Microsoft PowerPivot Excel plug-in“BI työkalupakki ja suuremmat taulukot ”

© Ivorio 2013

● Yhteen taulukkoon enemmän dataa, n. 1M -> 100M+

● Silti kaikki paikallisessa työasemassa

PowerPivot: keskeiset piirteet

© Ivorio 2013

● Analyysin taustalla taulukon sijaan malli: tauluja ja relaatioita

PowerPivot: keskeiset piirteet

© Ivorio 2013

● Työkaluja näkymien/BI työkalujen rakentamiseksi, nopeasti ja ilman ohjelmointia -> julkaistavissa mm. SharePointissa

● Keskeisenä laskennan apuvälineenä tutut pivot-taulukot

PowerPivot: keskeiset piirteet

© Ivorio 2013

● Datan tuominen ulkopuolisesta lähteestä● Mallin luominen● Pivot-kyselyt

● Kuvataan tarkemmin luokkaharjoituksissa

PowerPivot: harjoitustyö osana kurssia

© Ivorio 2013

Nopeasti kohti big data -toteutuksia

Google BigQuery

© Ivorio 2013

● Pilvipalvelu, tuhansien palvelinten laskentateho● Kokeiltavissa rajoitetusti (<100Gb/kk) ilmaiseksi,

vaatii kuitenkin Google-tilin

BigQuery: keskeiset piirteet

© Ivorio 2013

● SQL:n kaltainen kyselykieli● Käyttöliittymät

○ Selain○ Komentorivi○ REST API

● Laskutus käytön perusteella

BigQuery: keskeiset piirteet

Kiitos

© Ivorio 2013

Immo [email protected] 1233 563

Markku [email protected] 1301 943