50

Big data esitys, 14.11.2013, Ivorio Oy

Embed Size (px)

DESCRIPTION

Big data -esitys 14.11.2013 tilaisuudesta.

Citation preview

Page 1: Big data  esitys, 14.11.2013, Ivorio Oy
Page 2: Big data  esitys, 14.11.2013, Ivorio Oy

Ivorion missio

Ivorio on Suomen johtava riippumaton big data -asiantuntija.

Autamme asiakkaitamme selvitymään tiedon vallankumouksesta voittajina.

Page 3: Big data  esitys, 14.11.2013, Ivorio Oy

Mitä tarkoittaa big data?

● Big data tarkoittaa kahta asiaa:

1. Havaintoa siitä, että dataa on koko ajan määrällisesti enemmän ja sen muoto ja laatu vaihtelee suuresti

2. Ratkaisuja (tuotteet, palvelut, ohjelmistot, teknologiat), joilla tuohon haasteeseen tartutaan

Page 4: Big data  esitys, 14.11.2013, Ivorio Oy

Big datan 3 V:tä, se käytetyin määritelmä

1. VolumeTietoa (dataa) on koko ajan enemmän. Se pitäisi pystyä tallentamaan ja hyödyntämään.

2. VelocityTietoa (dataa) tulee koko ajan nopeammin. Päätöksiä pitäisi pystyä tekemään nopeasti.

3. VarietyTietoa (dataa) tulee kiihtyvällä tahdilla erilaisista lähteistä, eikä se istu hyvin nykyisiin toimintamalleihin

Veracity, Value Virality, Validity, Viscosity… myös muita V-kirjaimia on lisätty kuvaamaan ilmiötä.

Page 5: Big data  esitys, 14.11.2013, Ivorio Oy

Saatavilla olevat datavarannot(avoin data, datamarkkinat)

Potentiaalinen data(ei vielä kerätä)

Digitaalinen todellisuus(internet, sosiaalinen media)

Fyysinen todellisuus(sensorit, esineiden internet)

Mistä sitä dataa oikein tulee?

Organisaation hallussa tai saatavilla oleva data(ERP, CRM, DW, RDBMS)

© Ivorio 2013

Page 6: Big data  esitys, 14.11.2013, Ivorio Oy

Suppein näkökulma dataan

Tästä näkökulmasta big data koskettaa ilmiönä n. 0.2 % maailman organisaatioista

“Eihän meillä edes ole big dataa!” “Pilvipalvelut sopivat pilotointiin.”

Yrityksen oma strukturoitu dataYrityksen vielä hyödyntämätön data

Yrityksen vielä keräämätön data

© Ivorio 2013

Page 7: Big data  esitys, 14.11.2013, Ivorio Oy

Suppeahko näkökulma dataan

Tästä näkökulmasta big data koskettaa ilmiönä n. 3 % maailman organisaatioista

“Liiketoimintakriittistä dataa ei voida laittaa pilveen, ehkä jotain lokitietoja tms.”“Privaattipilvi kiinnostaa!”

Yrityksen oma strukturoitu dataYrityksen vielä hyödyntämätön data

Yrityksen vielä keräämätön data

© Ivorio 2013

Page 8: Big data  esitys, 14.11.2013, Ivorio Oy

Laaja näkökulma dataan

Tästä näkökulmasta big data koskettaa ilmiönä n. 22 % maailman organisaatioista

“Mihinkäs me laitetaan kaikki tuo data...”“Olisiko julkisilla pilvipalveluilla jotain annettavaa?”

Yrityksen oma strukturoitu dataYrityksen vielä hyödyntämätön data

Yrityksen vielä keräämätön data

© Ivorio 2013

Page 9: Big data  esitys, 14.11.2013, Ivorio Oy

Verkostoitunut näkökulma dataan

Tästä näkökulmasta big data koskettaa ilmiönä n. 72 % maailman organisaatioista

“Verkottunut yritys ei voi hillota dataansa!”

Organisaatio

Kumppani Kumppani

Kumppani Kumppani

Kumppani Kumppani

© Ivorio 2013

Page 10: Big data  esitys, 14.11.2013, Ivorio Oy

Kokonaisvaltainen näkökulma dataan

Tästä näkökulmasta big data koskettaa ilmiönä n. 98 % maailman organisaatioista

“Palvelinkellarissa homehtuva data ei tuota lisäarvoa tai kilpailuetua!”

Avoin data(dokumentoidut rajapinnat)

Data marketplace(pilvessä olevat datan markkinapaikat)

Datakauppiaat(yksittäiset suoraan omaa tai

verkostonsa dataa myyvät)

Puoliavoin data(ei rajapintoja, hajallaan)

© Ivorio 2013

Page 11: Big data  esitys, 14.11.2013, Ivorio Oy

Big datan hyödyntämiskohteita

● Markkinointi

● Suositukset (recommendation engine)

● Tilastollinen analyysi

● Tutkimus- ja kehitystyö

● Mallintaminen ja ennustaminen

● Resurssien kohdentaminen

Mahdollisuuksien tunnistaminen vaatii toimialan ja organisaation ymmärtämistä.

Page 12: Big data  esitys, 14.11.2013, Ivorio Oy

Kuinka suuret ovat big data -markkinat?

● Yleisin luku on välillä 15-50 mrd €

○ IDC sanoo (12/2012), että vuonna 2016 markkinoiden koko on n. 26 mrd $

○ Gartner sanoo (10/2012), että vuonna 2012 big data -markkinat olivat n. 28 mrd $

○ Wikibon ennustaa (02/2012), että big data -markkinat ovat vuonna 2015 n. 54 mrd $

○ McKinseyn raportissa (05/2011) arvioitiin big datan vuotuisen lisäarvo- ja kustannussäästöpotentiaalin olevan vuonna 2011 arviolta 1 000 mrd €

Page 13: Big data  esitys, 14.11.2013, Ivorio Oy

“McKinsey 2011:Big data: The next frontier for innovation, competition and productivity

€250 billion - potential annual value to Europe’s public sector administration in use of big data more efficiently.

Page 14: Big data  esitys, 14.11.2013, Ivorio Oy

“General Electrics 2012Industrial Internet: Pushing the Boundaries of Minds and Machines

Today, the people that manage big data systems or perform advanced analytics have developed unique talents through self-driven specialization, rather than through any programs that build a standard set of skills or principles

Page 15: Big data  esitys, 14.11.2013, Ivorio Oy

“Gartner, 2013:Survey Analysis: Big Data Adoption in 2013

64 % of organizations investing or planning to invest in big data technology.

Page 16: Big data  esitys, 14.11.2013, Ivorio Oy

“Tieto Oyj, Q3/2013:Osavuosikatsaus Q3 2013

Big datan odotetaan olevan yksi tietotekniikkapalvelujen nopeimmin kasvavista alueista keskipitkällä aikavälillä.

Page 17: Big data  esitys, 14.11.2013, Ivorio Oy

Big datan haasteet Suomessa

1. Osaajapula (teknologiat, datatieteilijät)2. Lähdedatan vaihteleva laatu ja kasvava määrä3. Ilmiön ja teknologioiden jäsentymättömyys

%

Lähde: LVM:n Big data Suomessa -selvitys 09/2013

Page 18: Big data  esitys, 14.11.2013, Ivorio Oy

“McKinsey, 2011:Big data: The next frontier for innovation, competition and productivity

By 2018, the United States alone could face a shortage of 140,000 to 190,000 people with deep analytical skills.

Page 19: Big data  esitys, 14.11.2013, Ivorio Oy

“Opetus- ja kulttuuriministeriö:

Huippuosaamisella on vaikutusta niin julkishallinnon sisäiseen toiminnan tehokkuuteen ja läpinäkyvyyteen kuin pysyvän kilpailuedun saavuttamiseen globaaleilla markkinoilla.

Page 20: Big data  esitys, 14.11.2013, Ivorio Oy

Big datan teknologiat

● Hadoop (tunnetuin yksittäinen uusi teknologia)

● NoSQL (uudenlaiset tietokannat)

● “Appliancet” (valmisratkaisut)

● In-memory-, In-database analytics

● Pilvipalvelut○ Amazon Elastic MapReduce

○ Google BigQuery

○ Microsoft HDInsight

Page 21: Big data  esitys, 14.11.2013, Ivorio Oy

HadoopBig datan teollisuusstandardi

Page 22: Big data  esitys, 14.11.2013, Ivorio Oy

Hadoopin asema big data -ilmiössä

Hadoop

Tiedon määrä

Tied

on r

aken

teis

uus

2 Tb1 Gb 20 Tb 200 Tb

Nearly all sectors in the US economy had at least an average of 200 terabytes of stored data per company with more than 1,000 employees.McKinsey 2011

By 2015, 65 percent of packaged analytic applications with advanced analytics will come embedded with Hadoop.Gartner 2013

© Ivorio 2013

Page 23: Big data  esitys, 14.11.2013, Ivorio Oy

Innoittajana Google

Googlen julkaisu Vuosi

Avoimen lähdekoodin projekti Vuosi Mihin tarkoitukseen?

GFS ja MapReduce

2004 Hadoop 2006 Datan tallentaminen ja analysointi (klusteri)

Sawzall 2005 Pig ja Hive 2008 Massa-analytiikka

BigTable 2006 HBase 2008 Avain-arvopari -tietokanta (NoSQL)

Pregel 2010 Giraph 2011 Graph-tietokanta

Dremel / F1 2010 Cloudera Impala

2012 Nopeat kyselyt(SQL)

Spanner 2012 ? ???? Transaktiot

Page 24: Big data  esitys, 14.11.2013, Ivorio Oy

Hadoop Suomessa

© Ivorio 2013

Käyttäjiä v. 2013 mm.

Käyttäjiä lähitulevaisuudessa

Rovio

Sanoma

Supercell

Vähittäiskauppa

Teollisuus

Telekommunikaatio

MediaPalvelualat

Page 25: Big data  esitys, 14.11.2013, Ivorio Oy

Hadoop-työpaikkojen tarjonta

© Ivorio 2013

Lähde: Indeed.comTyöpaikat pääasiassa Yhdysvalloissa

Page 26: Big data  esitys, 14.11.2013, Ivorio Oy

Mitä Hadoop tekee?

Hadoop auttaa rakentamaan klusterin palvelimista

Miksi haluaisin Hadoop-klusterin?- edullista tallennustilaa (mikä vaan x86-palvelin käy)

- tehokasta prosessointia (rinnakkaisuus)

- toimintavarmuutta (moninkertainen tallennus)

- skaalautuvuutta (klusteria helppo laajentaa)

- ekosysteemi, lisäosia ja laajennoksia!

Page 27: Big data  esitys, 14.11.2013, Ivorio Oy

Hadoopissa kaksi keskeistä komponenttia

HDFS MapReduce

tiedostojärjestelmä tiedonlouhintaa

Page 28: Big data  esitys, 14.11.2013, Ivorio Oy

Node 1

Node 1

Hadoop: arkkitehtuuri

“raakadata”MapReducen idea/vahvuus on rinnakkaistaa ja hajauttaa analytiikka.

Map

“välitulokset”

Reduce

HDFS

Node 2

Node2

“raakadata”

Map

“välitulokset”

Reduce

HDFS

Data

Page 29: Big data  esitys, 14.11.2013, Ivorio Oy

Hadoopin käyttöönotto

Neljä vaihtoehtoa1. http://hadoop.apache.org2. Valmis jakelu3. Hadoop osana Appliance-ratkaisua4. Pilvipalvelu

Page 30: Big data  esitys, 14.11.2013, Ivorio Oy

1. http://hadoop.apache.org

Lataa, asenna ja konfiguroi

Page 31: Big data  esitys, 14.11.2013, Ivorio Oy

1. http://hadoop.apache.org

Vahvuudet (+) Ilmainen

Heikkoudet (-) Joutuu tekemään kaiken itse

“Harva organisaatio päätyy käyttämään Hadoopia näin. Startup-yritysten, tutkimuslaitosten ja yliopistojen vaihtoehto.”

Page 32: Big data  esitys, 14.11.2013, Ivorio Oy

2. Valmis jakelu

Otetaan käyttöön valmiiksi paketoitu kokonaisuusAmazon (AWS EMR)

Cloudera (CHD)

Hortonworks (HDP)

MapR (M7)

Microsoft (HDInsight)

Pivotal (Pivotal HD)

IBM (IHC)

Intel (Intel Distribution for Apache Hadoop)

Page 33: Big data  esitys, 14.11.2013, Ivorio Oy

2. Valmis jakelu

Vahvuudet (+) Helppous, tuki, koulutus, partnerit ja optimoitu suorituskyky

Heikkoudet (-) Lukittumisuhka (lock-in), maksullinen

“Tyypillinen tapa tällä hetkellä ottaa Hadoop käyttöön. Objektiivinen vertailu hankalaa, tietoa vaikea saada.”

Page 34: Big data  esitys, 14.11.2013, Ivorio Oy

Hadoop-jakeluyritysten tunnettuus

Page 35: Big data  esitys, 14.11.2013, Ivorio Oy

3. Hadoop osana Appliance-ratkaisua

Big data Appliancet (esimerkkilista tunnetuista)HP (HAVEn)

IBM (Infosphere BigInsights)

Microsoft (Parallel Datawarehouse)

Oracle (Big Data Appliance)

Pivotal (Pivotal)

SAP (SAP HANA Platform)

Teradata (Teradata Aster Big Analytics Appliance)

Page 36: Big data  esitys, 14.11.2013, Ivorio Oy

3. Hadoop osana Appliance-ratkaisua

Hadoop-kytköksetHP (all leading distros)

IBM (Cloudera)

Microsoft (Hortonworks)

Oracle (Cloudera)

Pivotal (Pivotal HD)

SAP (Intel, Hortonworks)

Teradata (Hortonworks)

Page 37: Big data  esitys, 14.11.2013, Ivorio Oy

3. Hadoop osana Appliance-ratkaisua

Vahvuudet (+) Kehittyneet ominaisuudet, integroitavuus, tuki- ja partneriverkosto

Heikkoudet (-) Kallis, vendor lock-in

“Tämä on se todennäköinen tapa, jolla Hadoop hiipii yrityksiin osana isompaa kokonaisuutta.”

Page 38: Big data  esitys, 14.11.2013, Ivorio Oy

4. Hadoop pilvipalveluna

Hadoop pilvipalveluna tarjolla mm.:Amazon (AWS Elastic MapReduse, EC2)

Microsoft (Windows Azure HDInsight)

Joyent (Joyent Hadoop)

Lisäksi esim. MapR M7:lla tehty terasortin maailmanennätysGoogle (Google Compute Cloud)

Page 39: Big data  esitys, 14.11.2013, Ivorio Oy

Datan analysoiminen pilvessä

© Ivorio 2013

Terasortin maailmanennätys Googlen pilvipalvelussa:

“Since the servers used in MapR’s world record were virtually instantiated in the Cloud, the cost estimate for running the TeraSort was about $9 compared to the over $5M estimate to run the previous record.”

joustavuudesta!

Tästä on kysymys:

$ 9 vs. $ 5 000 000

Page 40: Big data  esitys, 14.11.2013, Ivorio Oy

4. Hadoop pilvipalveluna

Vahvuudet (+) Nopea käyttöönotto, joustavuus

Heikkoudet (-) Tietoturvahuolet, lainsäädäntö, lisää osaamisvaatimuksia

“Helpoin, riskittömin ja nopein tapa pilotointiin, demoamiseen ja testaamiseen. Todennäköisesti tulevaisuudessa yhä merkittävämpi vaihtoehto myös tuotantokäyttöön.”

Page 41: Big data  esitys, 14.11.2013, Ivorio Oy

4. Hadoop pilvipalveluna

Page 42: Big data  esitys, 14.11.2013, Ivorio Oy

Hadoopin käyttökohteita

Lähde: Hortonworks

Toimialue Käyttökohde (case) Datatyyppi

Finanssisektori

RiskianalyysiPetosten tunnistaminenPäätöksenteon nopeuttaminen (lainahakemukset yms.)

Paikkatieto

Palvelin- ja muut lokit

Tekstiaineistot

Sensoridata

Sentimenttianalyysi

Clickstream

KommunikaatioPuhelulokitietojen louhiminen (CDR)Investointipäätösten tukeminenResurssien allokointi (tietoliikennekaista yms.)

Vähittäis- ja verkkokauppa

360-asteen näkyvyys asiakkaaseenTuotekehitys, hankintapäätöksetMarkkinoinnin vaikuttavuuden mittaaminen

Teollisuus

Tilaus-toimitusketjun optimointiTuotennon sujuvoittaminen (lean manufacturing)Varastoarvojen minimointiLaadun parantaminen

Page 43: Big data  esitys, 14.11.2013, Ivorio Oy

Kannattaako versio 2 ottaa käyttöön?

Kyllä.

Nyt liikkeelle lähdettäessä ei ole mielekästä takertua versioon 1.x. Harjoitteluun, konseptointiin ja pilotointiin versio 1.x käy hyvin tietenkin edelleen.

Page 44: Big data  esitys, 14.11.2013, Ivorio Oy

Ivorio tarjoaa Pohjoismaiden ensimmäisen Hadoop-sertifikaatin. Ensimmäinen versio tuli saataville syyskuussa 2013 suomeksi ja myöhemmin sertifikaatista tulevat myös ruotsin- ja englanninkieliset versiot.

Page 45: Big data  esitys, 14.11.2013, Ivorio Oy

MITÄ PITÄISI TEHDÄ?

Page 46: Big data  esitys, 14.11.2013, Ivorio Oy

Ehdotus 1: Lähteä liikkeelle

Pilvipalveluiden kohdalla mm. Accenture suositteli jo vuonna 2009, että liikkeelle kannattaa lähteä heti ja ei niille vähäarvoisimmilla sovelluksilla, vaan liiketoiminnalle merkityksellisillä.

Kuunneltiinko? Olisko kannattanut?

Page 47: Big data  esitys, 14.11.2013, Ivorio Oy

Ehdotus 2: Datakartoitus

Kartoitetaan datalähteet (nykyiset, potentiaaliset), arvioidaan kiinnostavuutta liiketoiminnan ongelmien näkökulmasta.

Page 48: Big data  esitys, 14.11.2013, Ivorio Oy

Ehdotus 3: Teknologiakartoitus

Peilataan omien datalähteiden mahdollisuuksia tarjolla olevien teknologioiden tarjoamiin vaihtoehtoihin. Otetaan huomioon osaaminen, teknologioiden kypsyys, kustannuskset (elinkaari) ja odotettavissa olevat hyödyt.

Page 49: Big data  esitys, 14.11.2013, Ivorio Oy

Ehdotus 4: Laaditaan datastrategia

Laaditaan strateginen kartta tulevaisuuteen.

Miten tulevaisuuden markkinoilla aiotaan tuottaa lisäarvoa ja pitää sekä parantaa omaa asemaa arvoketjussa?

Page 50: Big data  esitys, 14.11.2013, Ivorio Oy

Kiitos