NoSQL alternatívák „big data feladatok megoldásához · 4/4/2011 · „Big Data” • „big data”: a probléma maga az adatméret –“big data is when the size of the

NoSQL alternatívák „big data”

feladatok megoldásához

Sidló Csaba István

[email protected]

Adattárházak és Üzleti Intelligencia Csoport

http://dms.sztaki.hu

http://bigdatabi.sztaki.hu

Adattárház Fórum, 2012. június 12.

mailto:[email protected]



http://dms.sztaki.hu/

http://bigdatabi.sztaki.hu/

http:dms.sztaki.hu http://bigdatabi.sztaki.hu

„Big Data”

• „big data”: a probléma maga az adatméret – “big data is when the size of the data itself becomes

part of the problem”

– “big data is data that becomes large enough that it cannot be processed using conventional methods”

– „4 (3) V: volume, variety, velocity, variability”

– Gartner 2011 trend No. 5: Next Generation Analytics: „significant changes to existing operational and business intelligence infrastructures”

• példák: – Google:1PB rendezése 33 percben

(2011.07.09.)

– Amazon S3 store: 762B objektum (2012.01.31.)

– New Relic: 20B+ application metrika egy nap alatt (2011.07.18.)

– Walmart: 100M entitás monitorozása valós időben (2011.09.12.)

forrás: 1. The Emerging Big Data slide from the Intelligent Information Management DG INFSO/E2 Objective, ICT-2011.4.4, Info day

2. http://aws.typepad.com/aws/2012/01/amazon-s3-growth-for-2011-now-762-billion-objects.html

Amazon S3




http://aws.typepad.com/aws/2012/01/amazon-s3-growth-for-2011-now-762-billion-objects.html


















SZTAKI és big data

• Informatika Kutató Laboratórium: http://dms.sztaki.hu

– adatbányászat, Webes keresés, üzleti intelligencia, adattárházak

– kutatás – fejlesztés, teljes innovációs lánc

– kb. 30-40 tag, kutatók, fejlesztők, hallgatók

– infrastruktúra fejlődőben, most: 50 régi dual core, 4 GB, 1.5 TB, 7 új 2 x quad, 50+ GB, össz. 40 TB

• Big Data Üzleti Intelligencia Csoport: http://bigdatabi.sztaki.hu

partner: Mérnöki és Üzleti Intelligencia Laboratórium, Dr. Viharos Zsolt János

• 2012 „Big Data” MTA Lendület Fiatal Kutatói Díj: Benczúr András

• projektek valódi „big data” feladatokkal

– logelemzés, webanalitika, webes keresés, spam detektálás, ajánlórendszerek, csalásfelderítés

– smart city / home / country, mobilitás, „internet of things”

• SZTAKI Cloud










Big data rétegek

Fast Data

Big Analytics

Big Data Services

forrás: The

Emerging Big

Data slide from

the Intelligent

Information

Management

DG INFSO/E2

Objective, ICT-

2011.4.4 Info

day





Big data: osztott eszközök,

szolgáltatások

• big data feladatok:

– adatintenzív (logelemzés,

Web-adatok stb.)

– számításintenzív (genom,

képkeresés stb.)

– adat és számításintenzív

(pl. hálózatelemzés)

• melyeket válasszuk,

milyen részfeladatra?

• hagyományos RDBMS

(SQL): új bővítmények

• NoSQL, Not Only SQL,

NewSQL

• eszközök, egész stack-

ek, szolgáltatások,

szolgáltatók, Cloud,

SasS





NoSQL: „CAP tétel” és adatmodell

P

C A

ábra forrás: http://blog.nahurst.com/visual-guide-to-nosql-systems

ACID vs.

gyengített

kritériumok, pl.

BASE: Basically

Available, Soft

state, Eventual

consistency

kettőt

választhatsz

!

CP: nincs válasz, ha nincs egyetértés a replikákkal MongoDB, Redis, HBase,

Hypertable, BigTable, …

CA: nincs partíció RDBMS (Oracle,

PostgreSQL,

MSSQL, DB2 …),

Greenplum, Vertica,

Membase, OrientDB,

Neo4j, …

AP: replika válaszolhat hibásan Dynamo, Project

Voldemort, Riak,

Tokyo Cabinet,

Cassandra,

CouchDB, OrientDB,

A

C P „Consistency”:

minden node

mindig ugyanazt

az adatot látja

„Partition

tolerance”:

kieshetnek

node-ok, de a

rendszer

működik

„Avalilability”:

mindig van

visszajelzés

adatmodell:

SQL

key-value

„wide column”

dokumentum-

orientált

gráf




http://blog.nahurst.com/visual-guide-to-nosql-systems










SQL, NoSQL eszközkombinációk

• ábra: alkalmazók, eszközök, szolgáltatók; teljesség igénye nélküli gyűjtés!

• „polyglot persistence”

• hagyományos alkalmazások?

– főleg Web 2.0 alkalmazók és fejlesztők!

– ld. „hype cycle”, „crossing the chasm”

• Mo.?

• nagy szereplők:

– saját eszközkészlet





: Longitudinal Analytics of Web Archive Data,

virtual Web observatory

• indexelés, spam weboldal azonosítás

• hardware megközelítések:

– Hanzo Archives: Amazon EC2 cloud + S3

– IM, SZTAKI: 50 low-end szerver

(hardware kb. €10,000; Amazon ár kb. €5000 / hó)

• software, osztott eszközök: Hadoop, Hbase, Project

Voldemort

• tesztek: 3TB adat tömörítve, ~ 0.5 milliárd oldal

Webarchívum





Webarchívum: tapasztalatok

• indexelés kereséshez: – napon belüli futásidők

– open-source indexelő eszközök még nem tűnnek kiforrotnak (Lucene, Solr, ElasticSearch, IndexTank)

– iteratív feldolgozás, gráfbejárás (PageRank pl.): MapReduce nem ideális – nincs adatlokalitás

• spam azonosítás – adatfeldolgozás, elérés:

• Hadoop: feature generálás,

• Hbase: alapadatok,

• Project Voldemort – host információk

– klasszifikáció: • feature-ök előállítása: Hadoop, egyszerű szétosztás; minden node egy-

egy host oldalait dolgozza fel

• osztott gépi tanuló eszközök (GiRaph, GraphLab, Radoop, Mahout) használhatóságát vizsgáljuk, jelenleg nem elosztott eszközök is elegendőek (ebben a fázisban már viszonylag kevés az adat)





Azonosságfeloldás: ügyféladatok

azonosságfeloldás (entity resolution, (iteratív) deduplikáció): rejtett,

való világbeli entitásokhoz köthető megfigyelések csoportosítása az

entitások köré

• „Hány ügyfelünk van igazából?”

• adatintegráció, ETL: heterogén formátumok, tartalom

• bonyolult feladat: rekordok számában négyzetes futásidő elosztott

megoldás szükséges





Azonosságfeloldás: elosztási változatok

osztott Key-Value Store

– eloszott B-fa index

– okos és gyors feature-alapú keresés

– szekvenciális, nem osztott algoritmus

MapReduce

– map reduce műveletek

– disk alapú, rendezés-központú algoritmus

Bulk Synchronous Parallel (BSP)

– superstep: számítás →

kommunikáció → barrier sync

– in-memory, okos algoritmus

Project Voldemort





Azonosságfeloldás: tapasztalatok

15 öreg szerver: 4GB memory, 3GHz CPU

biztosító ügyféladat (személyenként átlag 2 előfordulás)

Sidló, Benczúr, Garzó, Molnár,

Infrastructures and bounds for

distributed entity resolution.

QDB 2011





15 öreg szerver: 4GB memory, 3GHz CPU

biztosító ügyféladat (személyenként átlag 2 előfordulás)


Sidló, Benczúr, Garzó, Molnár,

Infrastructures and bounds for

distributed entity resolution.

QDB 2011





• osztott Key-Value store, Project Voldemort:

– nem valódi párhuzamos algoritmus nem jól skálázódik

– memória-korlát kitolására jó lehet; fölötte: nagyságrenddel lassabb

• Apache HAMA:

– számításigényes feladatokhoz (ld. még:

Pregel, S4, Storm)

– igéretes koncepció, kiforratlan eszköz

– rendezéshez lassú

• Hadoop:

– adatintenzív feladatokhoz, diszk-alapú

– kiforrott, megbízható, jól skálázódik

– iteratív feldolgozáshoz nem szerencsés

(összefüggő komponensek keresése)

– nincs lokális adat

HAMA fázisok

Rendezés


Hadoop fázisok

Összefüggő komponensek





Web és Big Data fejlődése

Posted by John Klossner on Aug 03, 2009

• WEB 1.0 (browsers) – Users find data

WEB 2.0 (social networks) – Users find each other

WEB 3.0 (semantic Web) – Data find each other

• WEB 4.0 – Data create their own Facebook page, restrict friends.

• WEB 5.0 – Data decide they can work without humans, create their

own language.

• WEB 6.0 –Human users realize that they no longer can find data

unless invited by data.

• WEB 7.0 – Data get cheaper cell phone rates.

• WEB 8.0 – Data horde all the good YouTube videos, leaving human

users with access to bad ’80′s music videos only.

• WEB 9.0 – Data create and maintain own blogs, are more popular

than human blogs.

• WEB 10.0 – All episodes of Battlestar Gallactica will now be shown

from the Cylons’ point of view.

Big Data interpetation:

recommenders, personalization, info extraction




Documents

NoSQL alternatívák „big data feladatok megoldásához · 4/4/2011 · „Big Data” • „big data”: a probléma maga az adatméret –“big data is when the size of the