Upload
ivoriofinland
View
228
Download
1
Embed Size (px)
DESCRIPTION
Big data
Citation preview
Ivorion missio
Ivorio on Suomen johtava riippumaton big data -asiantuntija.
Autamme asiakkaitamme selvitymään tiedon vallankumouksesta voittajina.
Big data?
Joko olet kuullut siitä?
Kuinka usein käsitettä “big data” on haettu Googlesta
Hypekäyrä on huipussa
an
Yleisesittely big data -ilmiöstäBig datan lyhyt historia, viitekehykset ja tunnetuimmat esimerkit
Mitä tarkoittaa big data?
● Big data tarkoittaa kahta asiaa:
1. Havaintoa siitä, että dataa on koko ajan määrällisesti enemmän ja sen muoto ja laatu vaihtelee suuresti
2. Ratkaisuja (tuotteet, palvelut, ohjelmistot, teknologiat), joilla tuohon haasteeseen tartutaan
Big datan 3 V:tä, se käytetyin määritelmä
1. VolumeTietoa (dataa) on koko ajan enemmän. Se pitäisi pystyä tallentamaan ja hyödyntämään.
2. VelocityTietoa (dataa) tulee koko ajan nopeammin. Päätöksiä pitäisi pystyä tekemään nopeasti.
3. VarietyTietoa (dataa) tulee kiihtyvällä tahdilla erilaisista lähteistä, eikä se istu hyvin nykyisiin toimintamalleihin
Veracity, Value Virality, Validity, Viscosity… myös muita V-kirjaimia on lisätty kuvaamaan ilmiötä.
Saatavilla olevat datavarannot(avoin data, datamarkkinat)
Potentiaalinen data(ei vielä kerätä)
Digitaalinen todellisuus(internet, sosiaalinen media)
Fyysinen todellisuus(sensorit, esineiden internet)
Mistä sitä dataa oikein tulee?
Organisaation hallussa tai saatavilla oleva data(ERP, CRM, DW, RDBMS)
© Ivorio 2013
Suppein näkökulma dataan
Tästä näkökulmasta big data koskettaa ilmiönä n. 0.2 % maailman organisaatioista
“Eihän meillä edes ole big dataa!”
Yrityksen oma strukturoitu dataYrityksen vielä hyödyntämätön data
Yrityksen vielä keräämätön data
© Ivorio 2013
Suppeahko näkökulma dataan
Tästä näkökulmasta big data koskettaa ilmiönä n. 3 % maailman organisaatioista
“Entä jos hyödyntäisimme kaiken sen datan jota jo keräämme?”
Yrityksen oma strukturoitu dataYrityksen vielä hyödyntämätön data
Yrityksen vielä keräämätön data
© Ivorio 2013
Laaja näkökulma dataan
Tästä näkökulmasta big data koskettaa ilmiönä n. 22 % maailman organisaatioista
“Itse asiassa voisimme tallentaa ja analysoida kaiken, mitä asiakkaat sanovat puhelimessa!”
Yrityksen oma strukturoitu dataYrityksen vielä hyödyntämätön data
Yrityksen vielä keräämätön data
© Ivorio 2013
Verkostoitunut näkökulma dataan
Tästä näkökulmasta big data koskettaa ilmiönä n. 72 % maailman organisaatioista
“Verkottunut yritys ei voi hillota dataansa!”
Organisaatio
Kumppani Kumppani
Kumppani Kumppani
Kumppani Kumppani
© Ivorio 2013
Avoin dataJulkishallinnon avaamat datavarannot
Kokonaisvaltainen näkökulma dataan
Tästä näkökulmasta big data koskettaa ilmiönä n. 98 % maailman organisaatioista
“Palvelinkellarissa homehtuva data ei tuota lisäarvoa tai kilpailuetua!”
Datamarkkinatpilvessä olevat datan markkinapaikat
Datakauppiaatyksittäiset dataansa myyvät toimijat
© Ivorio 2013
Puoliavoin dataei rajapintoja, hajallaan
Mitä pitäisi tehdä?
Ottaa kaikki data käyttöön!
Kerää
Tallenna
Analysoi
Hyödynnä
Ennusta
Automatisoi
Datavirrat on analysoitava heti
Lopullinen tavoite
Kuinka suuret ovatmarkkinat?
Kuinka suuret ovat big data -markkinat?
● IDC sanoo (12/2012), että vuonna 2016 markkinoiden koko on n. 26 mrd $
● Gartner sanoo (10/2012), että vuonna 2012 big data -markkinat olivat n. 28 mrd $
● Wikibon ennustaa (02/2012), että big data -markkinat ovat vuonna 2015 n. 54 mrd $
Entä kuinka suuri on potentiaali?
“McKinsey 2011:Big data: The next frontier for innovation, competition and productivity
McKinseyn raportissa (05/2011) arvioitiin big datan vuotuisen lisäarvo- ja kustannussäästöpotentiaalin olevan vuonna 2011 arviolta 1 000 mrd €
“
Kuka on innostunut?Kaikki!
“General Electrics 2012Industrial Internet: Pushing the Boundaries of Minds and Machines
Today, the people that manage big data systems or perform advanced analytics have developed unique talents through self-driven specialization, rather than through any programs that build a standard set of skills or principles
“
“Gartner, 2013:Survey Analysis: Big Data Adoption in 2013
64 % of organizations investing or planning to invest in big data technology.
“
“Tieto Oyj, Q3/2013:Osavuosikatsaus Q3 2013
Big datan odotetaan olevan yksi tietotekniikkapalvelujen nopeimmin kasvavista alueista keskipitkällä aikavälillä.
“
Osaajapula uhkaa!
Big datan haasteet Suomessa
1. Osaajapula (teknologiat, datatieteilijät)2. Lähdedatan vaihteleva laatu ja kasvava määrä3. Ilmiön ja teknologioiden jäsentymättömyys
%
Lähde: LVM:n Big data Suomessa -selvitys 09/2013
“McKinsey, 2011:Big data: The next frontier for innovation, competition and productivity
By 2018, the United States alone could face a shortage of 140,000 to 190,000 people with deep analytical skills.
“
Big data -teknologiat
Big datan teknologiat
● Hadoop (tunnetuin yksittäinen uusi teknologia)
● NoSQL (uudenlaiset tietokannat)
● “Appliancet” (valmisratkaisut)
● In-memory-, In-database analytics
● Pilvipalvelut○ Amazon Elastic MapReduce
○ Google BigQuery
○ Microsoft HDInsight
HadoopBig datan moottori
Innoittajana Google
Googlen julkaisu Vuosi
Avoimen lähdekoodin projekti Vuosi Mihin tarkoitukseen?
GFS ja MapReduce
2004 Hadoop 2006 Datan tallentaminen ja analysointi (klusteri)
Sawzall 2005 Pig ja Hive 2008 Massa-analytiikka
BigTable 2006 HBase 2008 Avain-arvopari -tietokanta (NoSQL)
Pregel 2010 Giraph 2011 Graph-tietokanta
Dremel / F1 2010 Cloudera Impala
2012 Nopeat kyselyt(SQL)
Spanner 2012 ? ???? Transaktiot
Hadoopin asema big data -ilmiössä
Hadoop
Tiedon määrä
Tied
on r
aken
teis
uus
2 Tb1 Gb 20 Tb 200 Tb
Nearly all sectors in the US economy had at least an average of 200 terabytes of stored data per company with more than 1,000 employees.McKinsey 2011
By 2015, 65 percent of packaged analytic applications with advanced analytics will come embedded with Hadoop.Gartner 2013
© Ivorio 2013
Hadoop Suomessa
© Ivorio 2013
Käyttäjiä v. 2013 mm.
Käyttäjiä lähitulevaisuudessa
Rovio
Sanoma
Supercell
Vähittäiskauppa
Teollisuus
Telekommunikaatio
MediaPalvelualat
Mitä Hadoop tekee?
Hadoop auttaa rakentamaan klusterin palvelimista
Miksi haluaisin Hadoop-klusterin?- edullista tallennustilaa (mikä vaan x86-palvelin käy)
- tehokasta prosessointia (rinnakkaisuus)
- toimintavarmuutta (moninkertainen tallennus)
- skaalautuvuutta (klusteria helppo laajentaa)
- ekosysteemi, lisäosia ja laajennoksia!
HadoopKäyttöönotto
Hadoopin käyttöönotto
Neljä vaihtoehtoa1. http://hadoop.apache.org2. Valmis jakelu3. Hadoop osana kokonaisratkaisua4. Pilvipalvelu
1. http://hadoop.apache.org
Vahvuudet (+) Ilmainen
Heikkoudet (-) Joutuu tekemään kaiken itse
“Harva organisaatio päätyy käyttämään Hadoopia näin. Startup-yritysten, tutkimuslaitosten ja yliopistojen vaihtoehto.”
2. Valmis jakelu
Otetaan käyttöön valmiiksi paketoitu kokonaisuusAmazon (AWS EMR)
Cloudera (CHD)
Hortonworks (HDP)
MapR (M7)
Microsoft (HDInsight)
Pivotal (Pivotal HD)
IBM (IHC)
Intel (Intel Distribution for Apache Hadoop)
2. Valmis jakelu
Vahvuudet (+) Helppous, tuki, koulutus, partnerit ja optimoitu suorituskyky
Heikkoudet (-) Lukittumisuhka (lock-in), maksullinen
“Tyypillinen tapa tällä hetkellä ottaa Hadoop käyttöön. Objektiivinen vertailu hankalaa, tietoa vaikea saada.”
3. Hadoop osana Appliance-ratkaisua
Big data Appliancet (esimerkkilista tunnetuista)HP (HAVEn)
IBM (Infosphere BigInsights)
Microsoft (Parallel Data Warehouse)
Oracle (Big Data Appliance)
Pivotal (Pivotal)
SAP (SAP HANA Platform)
Teradata (Teradata Aster Big Analytics Appliance)
3. Hadoop osana Appliance-ratkaisua
Hadoop-kytköksetHP (all leading distros)
IBM (Cloudera)
Microsoft (Hortonworks)
Oracle (Cloudera)
Pivotal (Pivotal HD)
SAP (Intel, Hortonworks)
Teradata (Hortonworks)
3. Hadoop osana Appliance-ratkaisua
Vahvuudet (+) Kehittyneet ominaisuudet, integroitavuus, tuki- ja partneriverkosto
Heikkoudet (-) Kallis, vendor lock-in
“Tämä on se todennäköinen tapa, jolla Hadoop hiipii yrityksiin osana isompaa kokonaisuutta.”
4. Hadoop pilvipalveluna
Vahvuudet (+) Nopea käyttöönotto, joustavuus
Heikkoudet (-) Tietoturvahuolet, lainsäädäntö, lisää osaamisvaatimuksia
“Helpoin, riskittömin ja nopein tapa pilotointiin, demoamiseen ja testaamiseen. Todennäköisesti tulevaisuudessa yhä merkittävämpi vaihtoehto myös tuotantokäyttöön.”
Datan analysoiminen pilvessä
Terasortin maailmanennätys Googlen pilvipalvelussa:
“Since the servers used in MapR’s world record were virtually instantiated in the Cloud, the cost estimate for running the TeraSort was about $9 compared to the over $5M estimate to run the previous record.”
joustavuudesta!
Tästä on kysymys:
$ 9 vs. $ 5 000 000
Teratavun tallentaminen paikallisesti
© Ivorio 2013
Ulkoinen kovalevy LaCie Rikiki 1 TB USB 3.0
Hinta: 106,90 €
Ulkoinen kovalevy LaCie Rikiki 1 TB USB 3.0
Hinta: 320,70 €
TAI JOS HALUTAAN KOLMINKERTAINEN VARMENNUS
Datan tallentaminen pilveen
© Ivorio 2013
Dataa yht. Amazon (S3) Google Storage Microsoft Azure Storage
< 1 TB 0.095 $ 0.085 $ 0.095 $
< 50 TB 0.080 $ 0.076 $ 0.080 $
< 500 TB 0.070 $ 0.063 $ 0.070 $
< 1000 TB 0.065 $ 0.063 $ 0.065 $
< 5000 TB 0.060 $ 0.054 $ 0.055 $
Mitä maksaa gigatavun tallentaminen per kuukausi julkisessa pilvessä?
Kustannussäästöt eivät ole olennaisin asia pilvipalveluissa!Olennaista on joustavuus, toimintatapojen sekä prosessien muutos ja uusien liiketoimintamallien mahdollistuminen.
Teratavun tallentaminen pilveen
© Ivorio 2013
Amazon Web Services Glacier -palvelu
Hinta:99,60 € / vuosi298,80 € / 3 vuotta
Säilyvyys (Durability) 99,999999999 %
Objektien määrä AWS S3-palvelussa
© Ivorio 2013
Tila
nne
suun
nille
en v
uode
n 20
13 p
uoliv
älis
sä
Eufris aloitti käytön
Objektin ko
ko 1B - 5
TB
Keskustelua.
Kiitos