Hadoop
Hadoopin lyhyt historiaVuosi Keskeinen teema
2005 Hadoop-projekti alkaa, tavoitteena tukea avoimen lähdekoodin hakukonetta nimeltä Nutch
2007 Projekti julkistetaan v. 0.14
2008 Ensimmäinen Hadoop-yritys (Cloudera) perustetaan
2009 Versio 0.20 julkistetaan
2010 Sisarprojektien julkistuksia ja kehitystä (esim. HBase julkistettiin)
2011 Versio 1.0 julkistetaan, MapR tulee julkisuuteen, Hortonworks perustetaan, Microsoft luopuu Dryad-projektista
2012 Teema: nopeus, mm. Cloudera Impala julkistetaan
2013 Teema: Hadoop ja SQL, Hadoopin versio 2 julkistetaan
2014 Teema: Hadoop sekä In-Memory- ja Stream analytiikka (esim. Spark ja Storm)
2015 Teema: Hadoopin tietoturva ja käyttäjien sekä klusterin hallinta
Innoittajana Google
Googlen julkaisu Vuosi
Avoimen lähdekoodin projekti Vuosi Mihin tarkoitukseen?
GFS ja MapReduce
2004 Hadoop 2006 Datan tallentaminen ja analysointi (klusteri)
Sawzall 2005 Pig ja Hive 2008 Massa-analytiikka
BigTable 2006 HBase 2008 Avain-arvopari -tietokanta (NoSQL)
Pregel 2010 Giraph 2011 Graph-tietokanta
Dremel / F1 2010 Impala, Drill 2012 Nopeat kyselyt(SQL)
Spanner 2012 ? - Transaktiot
Spanner“Spanner is Google's scalable, multi-version, globally-distributed, and synchronously-replicated database. It is the first system to distribute data at global scale and support externally-consistent distributed transactions. This paper describes how Spanner is structured, its feature set, the rationale underlying various design decisions, and a novel time API that exposes clock uncertainty. This API and its implementation are critical to supporting external consistency and a variety of powerful features: non-blocking reads in the past, lock-free read-only transactions, and atomic schema changes, across all of Spanner.”
http://research.google.com/archive/spanner.html
Hadoopin asema Big data -ilmiössä
Hadoop
Tiedon määrä
Tied
on r
aken
teis
uus
2 Tb1 Gb 20 Tb 200 Tb
Nearly all sectors in the US economy had at least an average of 200 terabytes of stored data per company with more than 1,000 employees.McKinsey 2011
By 2015, 65 percent of packaged analytic applications with advanced analytics will come embedded with Hadoop.Gartner 2013
Hadoop Suomessa
Käyttäjiä v. 2015 esim.
Käyttäjiä lähitulevaisuudessa
RovioSanoma
Huawei
Vähittäiskauppa
Teollisuus
Telekommunikaatio
Media PalvelualatFonecta
Hadoop-työpaikat
Työpaikkailmoitukset, joissa sana “Hadoop” 02/2015 Indeed.com
Taas nopeassa nousussa vuoden 2015 alusta lähtien
Mitä Hadoop tekee?Klusterin.
● Hadoop valjastaa palvelinklusterin vastaamaan datan tallennuksesta ja prosessoinnista.
Klusteri?
Klusteri = joukko toisiinsa kytkettyjä palvelimia, jotka suorittavat annettua tehtävää hajautettuna, mutta näkyvät käyttäjälle yhtenä järjestelmänä
Commodity hardware?
Yleisesti saatavilla olevista komponenteista koottuja palvelimia. Ei kallista palvelinrautaa.
CPU: 2 x 4/6/8 -coreMem: 48Gb+Disk: 12 x 2-3TbNet: 1Gb+ Ethernet
~ 5 000 €
Laskentateho vai tallennustila?
Laskentaoptimoitu
Matalinvirrankulutus
Laskentapainotteinen Tasapainoinen:enemmän tehoa / node
Tallennukseenoptimoitu
CPU
Tallennuskapasiteetti
Tallennuspainotteinen
Miksi Hadoop kiinnostaa?
Miksi haluaisin Hadoop-klusterin?
- edullista tallennustilaa (mikä vaan x86-palvelin käy)
- tehokasta prosessointia (rinnakkaisuus)
- toimintavarmuutta (moninkertainen tallennus)
- skaalautuvuutta (klusteria helppo laajentaa)
- ekosysteemi, lisäosia ja laajennoksia!
Hadoop - komponentit
MapReduce(hajautettu laskenta/analytiikka)
HDFS(hajautettu tiedostojärjestelmä)
YARN(Yet Another Resource Negotiator) Common utilities
Hadoopin ilmeiset edut
Ohjelmoijan/käyttäjän ei tarvitse välittää:
● Mille palvelimille data on tallennettu
● Datan varmistamisesta
● Koodin hajauttamisesta
● Skaalautuvuudesta
Hadoop versiosta 1 versioon 2
Lähde: Hortonworks
Analytiikan siiloutuminen
Analytics Batch processing Point queries Interactive
reportingOperational
analyticsInvestigative
analyticsData stream processing
SQL-on-Hadoop Engines Explained, R20 Consultancy
Hadoopin lähtökohta alunperin
Analytics Batch processing Point queries Interactive
reportingOperational
analyticsInvestigative
analyticsData stream processing
SQL-on-Hadoop Engines Explained, R20 Consultancy
Integraatiot ja yhteiskäyttö haaste
Siilo 1
Analytics Batch processing
Siilo 2 Siilo 3
Point queries Interactive reporting
Siilo 4 Siilo 5
Operational analytics
Investigative analytics
Siilo 6
Data stream processing
Siilo 7
SQL-on-Hadoop Engines Explained, R20 Consultancy
Tavoite: yksi alusta, Hadoop
Analytics Batch processing Point queries Interactive
reportingOperational
analyticsInvestigative
analyticsData stream processing
Yksi data-alusta (Data Management Platform)
DW (HDFS?)
SQL-on-Hadoop Engines Explained, R20 Consultancy
Hadoop-klusteriAnalysis (Excel, SAS, SAP, Tableau, Revolution, Talend, Datameer...)
Linear Scale Compute & HDFS Storage
Operations (Ambari)
Security (Knox, etc.)
Ingest
Multitenant Processing: YARN (Hadoop Operating System)
BatchMapReduce
ScriptPig
SQLHive
OnlineHBase
Accumulo
Real-timeStorm
In-memorySpark
Others...
Kokeile jakeluja
Ilmainen kokeilu auttaa vertailemaan
ClouderaQuickStart VMs for CDH 5.3.x(VMWare, KVM, Virtualbox)
http://www.cloudera.com/content/cloudera/en/downloads/quickstart_vms/cdh-5-3-x.html
HortonworksHDP 2.2 on Sandbox(VMWare, Virtualbox)
http://hortonworks.com/hdp/downloads/
MapRMapR Sandbox (M7)(VMWare, Virtualbox)
https://www.mapr.com/products/mapr-sandbox-hadoop/download
IBM InfoSphere BigInsightsIBM InfoSphere BigInsights Quick Start Edition(Linux, Windows)
http://www.ibm.com/developerworks/downloads/im/biginsightsquick/
Microsoft HDInsightWindows Azure HDInsight Emulator(Windows)
http://azure.microsoft.com/en-us/documentation/articles/hdinsight-get-started-emulator/#install
Pivotal HDPivotal HD 2.1.0 Single Node VM(Linux)
https://network.pivotal.io/products/pivotal-hd
Kiitos!Immo [email protected]@immonfi.linkedin.com/in/immosalo+358 41 368 1048