Hadoop Graph Analysis par Thomas Vial

1© OCTO 2012

Hadoop et les graphesHUG France, 17/10/2012

Des outils pour traiter des graphes ?

Modèle relationnel et SQL

Hadoop & consortsGénéralités

MapReduce

Hive, Pig

BSP : Hama et Giraph

Conclusion

Liens utiles

AGENDA

Des outils pour traiter des graphes ?

RelationnelGraphDB

MapReduce

Faire glisser l'image vers l'espace réservé ou cliquer sur l'icône pour l'ajouter

Vertex

-- Recherche des voisins de :source_idselect

vertex.*from

vertexjoin edge on edge.to_id = vertex.id

where edge.from_id = :source_id

Source

Vertex

-- Recherche des voisins des voisinsselect -- [distinct]

vertex.*from

vertexjoin edge e2 on e2.to_id = vertex.idjoin edge e1 on e1.from_id = e2.to_id

where e1.from_id = :source_id

Source

Vertex

-- Déductions de niveau arbitraire???

-- Peut-être avec les CTE(*) si supportées !-- (* Common Table Expressions)

Source

Vertex

Adapté pour des accès TP ciblés sur les nœuds !Grâce à l’ndexation des nœuds

Mais en requêtage le langage SQL a vite des limitesNiveaux de profondeurs multiples, élevés ou non connus à l’avance

Peut-être une piste du côté des Common Table Expressions

Pour les algos de graph processing, il faut faire de l’itératifMais chaque nœud du graphe parcouru induit au moins 1 accès aléatoire sur le disque (lookup de l’index de FK)

La scalabilité du modèle est celle du SGBDQuelques nœuds de stockage/traitement

Quelle clef de partitionnement pour des requêtes optimales ?

Vertex

Vertex & Edge properties

// API Traversal de Neo4j == automatefor ( Path position : Traversal.description() .depthFirst() .relationships( Rels.KNOWS ) .relationships( Rels.LIKES, Direction.INCOMING ) .evaluator( Evaluators.toDepth( 5 ) ) .traverse( node ) ) { // Traitement du chemin ‘position’}

// Alternative : langage Gremlin (TinkerPop)

Construction du traverser

Méthode de parcours

Nœud de départLimite de profondeur

Prédicats d’étapesPrédicats d’étapes

// Cypher == DSL de pattern matching (and more...)START me=node:node_auto_index(name = "me")MATCH me-[r1:ATE]->food<-[r2:ATE]-you==== me,count(distinct r1) as H1,count(distinct r2) as H2,you ====MATCH me-[r1:ATE]->food<-[r2:ATE]-youRETURN uneFonctionCompliquée(…) as similarity

Patterns sur les relations & nœuds connectés

Nœud de départ de la recherche

Expression de retour

// Recherche de plus court cheminPathFinder algo = GraphAlgoFactory.dijkstra(expander, costEval);Iterable res = algo.findAllPaths(startNode, endNode);

// Algos disponibles// - énumération des chemins (complets ou de longueur L)// - recherche du plus court chemin (A*, Dijkstra)

Fonction de coût des nœuds/liens traversés, à

minimiser

Très bonnes perfs en TP (avec ACID) et en mono-serveur

Très bonnes perfs en requêtage (Traversal, DSL) sur des parcours de complexité moyenne

Le TP, le pattern-matching et les algorithmes pré-câblés permettent de traiter bien plus de cas qu’avec un graphe modélisé en SQL

Les algos pré-câblés sont en nombre limité mais les API Traversal et Evaluator permettent d’en implémenter sans limitation

Mais, Neo4j est aujourd’hui mono-serveurIl n’est pas encore capable de sharder un graphe

Il peut tout de même stocker des millions de nœuds sur un seul serveur

Des bases graphes distribuées à surveillerTitan (Aurelius)

Trinity (Microsoft) – non publique

Hadoop & consorts

Deux bénéfices attendus avec Hadoop & consortsRépartir et traiter des graphes très gros (≥ 1B nœuds, au-delà de Neo4j sur du commodity)

Paralléliser les traitements… si l’algorithme s’y prête

Le tout au prix d’une approche exclusivement batch

Représentation typique d’un graphe dirigé en fichier HDFS : liste d’adjacence

Hadoop & consorts

V1 V2V2 V3,V4V3 V4,V5...

Exploration depth-first : difficile à paralléliser

Exploration breadth-first : parallélisable !

Hadoop & consorts

Vtx Vtx

VtxVtx Vtx

Vtx Vtx

VtxVtx Vtx

Computation nodes

Exploration breadth-first avec MapReduce

Oozie ou while() {…}

Job JobJobJob

Hadoop & consorts

Vtx Vtx

VtxVtx Vtx

Hadoop & consorts

-- Requête Hive, un air de déjà vu :)select

vertex.*from

vertexjoin edge on edge.to_id = vertex.id

where edge.from_id = :source_id

Source

Vertex

Un script Pig fait aussi le job !

Algorithme BSP adapté aux graphes : le modèle de Google PregelAPI « vertex-centric » reposant sur du passage de messages entre les sommets

… typiquement le long des arcs

Hadoop & consorts

Vertex

Compute()Inbox Outbox

Coordinateur

BSP en pratique – Superstep 1

Hadoop & consorts

BSP en pratique – Fin du job

Hadoop & consorts

Autre exemple

Hadoop & consorts

Hadoop et consorts

// Code vertex-centric avec Hama 0.5.0public static class ShortestPathVertex extends Vertex<Text, IntWritable, IntWritable> { @Override public void compute(Iterator<IntWritable> messages) throws IOException { int minDist = isStartVertex() ? 0 : Integer.MAX_VALUE;

while (messages.hasNext()) { IntWritable msg = messages.next(); if (msg.get() < minDist) { minDist = msg.get(); } }

if (minDist < this.getValue().get()) { this.setValue(new IntWritable(minDist)); for (Edge<Text, IntWritable> e : this.getEdges()) { sendMessage(e, new IntWritable(minDist + e.getValue().get())); } } else { voteToHalt(); } }}

ApplicationsRecherche de chemins

Calcul d’indicateurs sur les nœuds (centralité, …)

… tout ce qui nécessite une exploration complète d’un gros graphe

… du moment que l’algorithme peut se traiter avec du passage de messages

HAMA 0.5.0Top-level project Apache

Framework « BSP pur » avec une surcouche pour les graphes

Repose sur YARN

Giraph 0.1-alphaEn incubation chez Apache

Framework calqué sur le papier Google Pregel : « BSP pour les graphes »

Twitter, Facebook, Yahoo! … committers sur le projet

Repose sur MapReduce (les mappers bouclent sur les supersteps, pas de reducer)

Hadoop & consorts

Conclusion

Les critères qui différencient les outils sontDistribué vs non (ou peu) distribué

Traitement local vs global de la topologie du graphe

Conclusion

Top. locale Top. globalePe

istrib

Neo4j et équivalents

MapReduceHive, Pig

(BSP)HAMAGiraph

Titan, Trinity ?

Le papier de Google décrivant Pregelhttp://portal.acm.org/citation.cfm?id=1807167.1807184

Les sites Apache de Hama & Giraphhttp://hama.apache.org/

http://incubator.apache.org/giraph/

Le site de Titanhttps://github.com/thinkaurelius/titan/wiki

Des articles du blog OCTO traitant de grapheshttp://blog.octo.com/bases-de-donnees-graphes-un-tour-dhorizon/

http://blog.octo.com/introduction-aux-graphes-avec-neo4j-et-gephi/

http://blog.octo.com/en/introduction-to-large-scale-graph-processing/

Quelques liens pour finir

Hadoop Graph Analysis par Thomas Vial

Documents

hadoop ch1

Graph Indexing: Tree + Δ ≥ Graph

Hadoop Tutorial

Hadoop Management Console from eBay at China Hadoop 2015

Hadoop 2.0 Introduction – with HDP for Windows...2015/05/14 · Agenda • What is Big Data – The Need for Hadoop • Hadoop Introduction – What is Hadoop 2.0 • Hadoop Architecture

Teori graph: Eulerian dan Hamiltonian Graph

Hadoop Overview

Hadoop Trends & Hadoop on EC2

Hadoop ecosystem - hadoop 生態系

Graph Homomorphism Revisited for Graph Matching

GRAPH - gfhsheima.files.wordpress.com · Graph Graph Graph digunakan untuk merepresentasikan objek-objek diskrit dan hubungan antara objek-objek tersebut. Gambar berikut ini sebuah

Hadoop operations

Big$Data$Processing$using$ Hadoop$ - prace.it4i.czprace.it4i.cz/sites/prace.it4i.cz/files/files/hadoop-10-2015... · Original Hadoop distributed grep Hadoop+BlobSeer sort Execution

Hadoop install

S7-GRAPH - Primeiros Passos Com S7 GRAPH

ElasticES-Hadoop: Bridging the world of Hadoop and Elasticsearch

Adattárház alapú vezetői információs rendszerek · Yahoo! Hadoop, PNUTS Columnar NoSQL Twitter FlockDB, Cassandra, Hadoop/Hbase Graph, Columnar NoSQL Wikipedia Memcached, Flatfile,

Hadoop @ devveri.com

Stuart Pérez A12729. Agenda Que es Hadoop Porque usarlo Componentes de Hadoop HDFS MapReduce Cluster Hadoop (HDFS + MR) Hadoop Scheduler Conclusiones

Pertemuan 11 · atau sisi) Graph seperti ... self-loop, sering disebut juga sebagai Graph sederhana atau simple Graph. Suatu Graph G’ ... Jumlah derajat semua simpul suatu Graph