Big data -esitys, joulukuu 2014

Preview:

Citation preview

Big DataMEGATRENDI 2011 ⇒

"The next frontier for innovation, competition and productivity"

“Cloud Computing” ja “Big Data”

cloud co

mputing

big data

Google-haut vuosina 2009-2014

Määritelmä ja viitekehys

Mitä tarkoittaa big data?1. Havaintoa siitä, että dataa on koko ajan määrällisesti

enemmän ja sen muoto ja laatu vaihtelevat suuresti

2. Haastetta hallita ja hyödyntää tuota tietomäärää perinteisten järjestelmien ja ratkaisujen avulla

3. Ratkaisuja (tuotteet, palvelut, ohjelmistot, teknologiat), joilla tuohon haasteeseen tartutaan

Big datan 3 V:täVolume Tietoa (dataa) on koko ajan enemmän. Se pitäisi pystyä tallentamaan ja hyödyntämään.

Velocity Tietoa (dataa) tulee koko ajan nopeammin. Päätöksiä pitäisi pystyä tekemään nopeasti.

Variety Tietoa (dataa) tulee eri muodoissa ja erilaisista lähteistä, eikä se istu hyvin nykyisiin toimintamalleihin.

Veracity, Value, Virality, Validity, Viscosity, Vulnerability… myös muita V-kirjaimia on jälkeenpäin lisätty kuvaamaan ilmiötä.

= paljon nopeasti lisääntyvää monimuotoista dataa

Big datan 3 V:tä

velocity →vo

lum

e →

variety →

Big data

● IDC sanoo (04/2014), että vuonna 2014 markkinat ovat 14 mrd $ ja kasvavat vuonna 2017 tasolle 32 mrd $

● Gartner sanoo (10/2012), että vuonna 2012 big data -markkinat olivat jo 28 mrd $

● McKinseyn raportissa (05/2011) arvioitiin big datan vuotuisen lisäarvo- ja kustannussäästöpotentiaalin olleen jo vuonna 2011 arviolta 1 000 mrd €

Big data -markkinoiden koko

Muita käsitteitä?

Ilmiöllä on monta nimeä● Internet of Things + Social Media

○ esineiden internet + ihmisten internet

● Big data○ massadata yms. (mm. McKinsey)

● Internet of Everything○ kaiken internet (Gartner → ihmiset, esineet, informaatio, paikat)

● Industrial Internet○ teollinen internet (General Electric)

● Industrial Internet of Things○ asioiden teollinen internet (Accenture)

Data on öljy?

Datan määrä maailmassa

v 2011

2 ZB

v 2020

v 2030

44 ZB 1 333 ZB

Esimerkkejä määrästä ja tiedon lähteistä

PB

TB

GB

MB

Monimuotoisuus

Big data

Web

CRM

ERP Purchase detailPurchase recordPayment record

SegmentationOffer detailsCustomer touchesSupport contacts

Web logsOffer historyA/B testingDynamic pricingAffiliate networksSearch marketingBehavioral targetingDynamic funnels

Sensors / RFID / DevicesMobile WebUser click streamSentimentUser generated contentSocial interactions & feedsSpatial & GPS coordinatesExternal demographicsBusiness data feedsHD video, audio, imagesSpeech to textProduct / service logsSMS / MMS

Määrä

Lähde: mukaillen Yli-Pietilä, Backman & Ahlgren

Data

Informaatio

Tietämys

Älykkyys

Näkemys

Ymmärrys

Viisaus

ARVO

Tiedon tasot

Lähde: mukaillen Laihonen et al. Tuomi, Thierauf Ackoff

Analytiikan askeleet kohti kilpailuetua

kohti reaaliaikaisuutta

Raportointi Ennustaminen Automatisointi

Datan lähteet

Mistä sitä dataa oikein tulee?

Saatavilla olevat datavarannot

(avoin data, datamarkkinat)

Potentiaalinen data(ei vielä kerätä)

Digitaalinen todellisuus(internet, sosiaalinen media)

Fyysinen todellisuus(sensorit, esineiden internet)

Organisaation hallussa tai saatavilla oleva data

(ERP, CRM, DW, RDBMS)

Suppein näkökulma dataan

Tästä näkökulmasta big data koskettaa ilmiönä n. 0,2 % maailman organisaatioista

“Eihän meillä edes ole big dataa!”

Yrityksen oma strukturoitu dataYrityksen vielä hyödyntämätön data

Yrityksen vielä keräämätön data

Suppeahko näkökulma dataan

Tästä näkökulmasta big data koskettaa ilmiönä n. 3 % maailman organisaatioista

“Entä jos hyödyntäisimme kaiken sen datan jota jo keräämme?”

Yrityksen oma strukturoitu dataYrityksen vielä hyödyntämätön data

Yrityksen vielä keräämätön data

Verkostoitunut näkökulma dataan

Tästä näkökulmasta big data koskettaa ilmiönä n. 22 % maailman organisaatioista

“Voisimmeko kerätä enemmän dataa toiminnastamme?”

Yrityksen oma strukturoitu dataYrityksen vielä hyödyntämätön data

Yrityksen vielä keräämätön data

Verkostoitunut näkökulma dataan

Tästä näkökulmasta big data koskettaa ilmiönä n. 72 % maailman organisaatioista

“Verkottunut yritys ei voi piilotella dataansa!”

Organisaatio

Kumppani Kumppani

Kumppani Kumppani

Kumppani Kumppani

Kokonaisvaltainen näkökulma dataan“Pelkkä omaan dataan tuijottelu ei tuota ikuisesti kilpailuetua!”

Tästä näkökulmasta big data koskettaa ilmiönä n. 98 % maailman organisaatioista

Avoin data

Datamarkkinat

Tietosuoja?

● Avoimuuteen patistetaan○ Esim. PSI-direktiivi (julk 06/2013, implementointi 07/2015)

● Tietosuoja huolettaa○ Esim. oikeus poistaa omat tietonsa Googlesta

● Henkilötietojen omistajuus?○ Lue LVM:n MyData-selvitys

Tietosuoja ja yksityisyys iso huoli

My Data on henkilötietojen osajoukkoMikäli yksilöllä ei ole mahdollisuutta hyödyntää ja hallinnoida jonkun muun hänestä keräämää henkilötietoa, niin sitä ei voida kutsua my dataksi.

Jos hyödyntämisen ja hallinnan mahdollisuudet ovat kaikkiin henkilötietoihin, voivat my data ja henkilötiedot olla myös sama asia.

Uusi ammatti:datatieteilijä

Toistaiseksi datatieteen osaamisvaatimuksia voidaan harvoin täyttää vain yhden työntekijän voimin. Organisaation data-analyysi -toiminnot ovatkin tavallisimmin koottu tiimeihin.

Datatieteilijän rooli big datassa

Lähde: NIST / USA

Big datan teknologiat● Hadoop (tunnetuin yksittäinen uusi teknologia)● NoSQL (uudenlaiset tietokannat)● Appliance (valmisratkaisut)● In-memory -analytics

● Pilvipalvelut○ Amazon○ Google○ IBM○ Microsoft

Big DataLandscape

Teknologiakirjo kasvaa..

ERP

SCM

Images

Audio

Video

Logs

Text

Web & Social

Input

Marketing Analytics

Applicatios

Business Intelligence

Data Mining

Math & Stats

Analytic toolsMarketing Executives

Frontline Employees

Business Analysts

Statisticians

Data Scientists

Engineers

Event ProcessingReal Time

Data PlatformStore and Refine

Integrated Data Warehouse

Operationalize

Discovery PlatformExploration

Lähde: mukaillen Teradata

HadoopBig datan teollisuusstandardi

Googlen julkaisu Vuosi Avoimen lähdekoodin projekti Vuosi Mihin tarkoitukseen?

GFS ja MapReduce

2003,2004 Hadoop 2006 Datan tallentaminen ja analysointi

(klusteri)

Sawzall 2005 Pig ja Hive 2008 Massa-analytiikka

BigTable 2006 HBase 2008 Avain-arvopari -tietokanta (NoSQL)

Pregel 2010 Giraph 2011 Graph-tietokanta

Dremel / F1 2010 Cloudera Impala 2012 Nopeat kyselyt (SQL)

Spanner 2012 ? ???? Transaktiot

Innoittajana Google

Mitä Hadoop tekee?Hadoop valjastaa palvelinklusterin vastaamaan datan tallennuksesta ja prosessoinnista.

Miksi haluaisin Hadoop-klusterin?- edullista tallennustilaa (mikä vaan x86-palvelin käy)- tehokasta prosessointia (rinnakkaisuus)- toimintavarmuutta (moninkertainen tallennus)- skaalautuvuutta (klusteria helppo laajentaa)- ekosysteemit, lisäosia ja laajennoksia!

Klusteri?Klusteri = joukko toisiinsa kytkettyjä palvelimia (nodes), jotka suorittavat annettua tehtävää hajautettuna, mutta näkyvät käyttäjälle yhtenä järjestelmänä

Hadoop sopii datan tallentamiseen

Hadoop Distributed File System: HDFS

Node 1

data piece

Big Data(= 1 or more files)

data piecedata piece

Node 2

data piecedata piecedata piece

Node 3

data piecedata piecedata piece

Node 4

data piecedata piecedata piece

HDFS

Lähde: mukaillen www.glennklockwood.com

Hadoop sopii datan prosessointiin

Hadoop: Prosessoinnin logiikkaMapReduce: Viedään prosessointi datan luo!

Lähde: www.glennklockwood.com

“Map/reduce is ideally suited for trivially parallel calculations on large quantities of data.”

Hadoopin roolin ennustetaan olevan keskeinen

Hadoopin asema big data -ilmiössä

Hadoop

Datan määrä

Dat

an r

aken

teis

uus

2 Tb1 Gb 20 Tb 200 Tb

HadoopMistä sellaisen saa?

Neljä vaihtoehtoa1. hadoop.apache.org2. Valmis jakelu3. Hadoop osana laajempaa kokonaisuutta4. Pilvipalvelu

Hadoopin käyttöönotto

1. hadoop.apache.org

“Harva organisaatio päätyy käyttämään Hadoopia näin. Startup-yritysten, tutkimuslaitosten ja yliopistojen vaihtoehto.”

Vahvuudet (+) Ilmainen

Heikkoudet (-) Joutuu tekemään kaiken itse

2. Valmis jakelu

Vahvuudet (+) Helppous, tuki, koulutus, partnerit ja optimoitu suorituskyky

Heikkoudet (-) Lukittumisuhka (lock-in), maksullinen

“Tyypillinen tapa tällä hetkellä ottaa Hadoop käyttöön. Objektiivinen vertailu hankalaa, tietoa vaikea saada. Vaatii vahvaa kehitystiimiä.”

3. Hadoop osana kokonaisuutta

Vahvuudet (+) Kehittyneet ominaisuudet, integroitavuus, tuki- ja partneriverkosto

Heikkoudet (-) Kallis, vendor lock-in

“Tämä on se todennäköinen tapa, jolla Hadoop hiipii yrityksiin, joilla on voimakas toimittajasuhde. Hadoop osana isompaa kokonaisuutta.”

Vahvuudet (+) Nopea käyttöönotto, joustavuus, kustannusten ennakointi

Heikkoudet (-) Tietoturvahuolet, lainsäädäntö, lisää osaamisvaatimuksia

“Helpoin, riskittömin ja nopein tapa pilotointiin, demoamiseen ja testaamiseen. Todennäköisesti tulevaisuudessa yhä merkittävämpi vaihtoehto myös tuotantokäyttöön.”

3. Hadoop pilvipalveluna

Pilvipalvelut“Vuokrataan tallennustila ja laskentateho”

2008

2009

2010

2011

2012

2013

2014

Cloud computing in GartnerHype Cycle for Emerging Technologies2008-2014

2015

Aika

Odo

tuks

et

Pilvipalvelut vahvassa kasvussa!Company Market Share Growth-% (Q1 2014)

Amazon 28 % 67 %

Microsoft 8 % 154 %

IBM 7 % 80 %

Salesforce 6 % 37 %

Google 5 % 60 %

Synergy Research Group

Datan analysoiminen pilvessäTerasortin maailmanennätys Googlen pilvipalvelussa:

“Since the servers used in MapR’s world record were virtually instantiated in the Cloud, the cost estimate for running the TeraSort was about $9 compared to the over $5M estimate to run the previous record.”

joustavuudesta!

Tästä on kysymys:

$ 9 vs. $ 5 000 000

Big data SuomessaIvorio toteutti Liikenne- ja viestintäministeriölle selvityksen suomalaisesta big data -markkinasta. Mukana olivat julkishallinnon, yritysten, palveluntarjoajien ja oppilaitosten edustajat.

http://www.lvm.fi/julkaisu/4156840/big-data-suomessa-keskustelualoite

Big data hyödyntäminenLiikenne- ja viestintäministeriön big datan käyttö -työryhmän raportissa esitetään luonnos kansalliseksi strategiaksi ja ehdotuksia kansallisiksi strategisiksi toimenpiteiksi, joiden avulla voidaan lisätä suurten tietoaineistojen hyödyntämistä Suomessa.http://www.lvm.fi/julkaisu/4417803/big-datan-hyodyntaminen

Kiitos!Immo Salo@immonfi.linkedin.com/in/immosaloimmo.salo@ivorio.fi045 1233 563