Big Data, kesako ?

www.groupeastek.comModèle : ASO-2007-M_PPT-0012 v2.1

Big Data, Kesako ?

Christophe Aran, Consultant décisionnel Référence : ASO-XXXVersion : 1.0

Du : 06/11/2012

ww

w.g

rou

pea

stek

.co

m

Modèle : ASO-2007-M_PPT-0012 v2.1

Sommaire

• Contexte actuel

• Définition du Big Data

• L’écosystème Hadoop

• Les intérêts business du Big Data

• Un cas concret : Karma chez Air France

• Conclusion

ww

w.g

rou

pea

stek

.co

m


Un déluge de données

YouTube reçoit 24h de vidéo toutes les minutes

500 téraoctets de données transitent chaque jour sur Facebook

140 millions de tweets par jour

6 milliards de téléphones mobiles en activité en 2012

Des pics de 22 commandes à la seconde chez Spartoo pendant les soldes

90% des données créées dans le monde l’ont été au cours des 2 dernières années

ww

w.g

rou

pea

stek

.co

m


Et une collecte de données incessantesDonnées commerciales• Transactions

Informations Client• CRM• Dossiers médicaux

Informations Produits• Codes barres• RFID

Web• Pages• Journaux d’accès

Informations non structurées• Réseaux sociaux• GPS• Mobile

ww

w.g

rou

pea

stek

.co

m


Les limites des SGBD actuels

Coût du stockage

Scalabilité

Performance

Format des données

Schémas figés

ww

w.g

rou

pea

stek

.co

m


Le besoin

Système qui peut gérer de gros volumes de données

Scalable

Robuste

Haute disponibilité

Economique

Nouvelle approche

ww

w.g

rou

pea

stek

.co

m


Définition du Big Data

« Le Big Data fait référence à l'explosion du volume des données dans l'entreprise et des nouveaux moyens technologiques proposés par les éditeurs pour y répondre »

Gartner

ww

w.g

rou

pea

stek

.co

m


Le concept des 3 V

Valeur

VolumeLes entreprises sont submergées de volumes de données croissants de tous types, qui se comptent en téraoctets, voire en pétaoctets.

VitesseParfois, 2 minutes c'est trop. Pour la détection de fraudes par exemple, le Big Data doit être utilisé au fil de l'eau, à mesure que les données sont collectées par l’entreprise afin d'en tirer le maximum de valeur.

VariétéLe Big Data se présente sous la forme de données structurées ou non structurées (texte, données de capteurs, son, vidéo, fichiers journaux, etc.).

ww

w.g

rou

pea

stek

.co

m


Hadoop, kesako ?

Inspiré de publications Google (2004)Google Filesystem

Google Map Reduce

Créé par Doug Cutting, salarié chez Yahoo

Framework Open Source écrit en Java

Géré sous l'égide de la fondation Apache

Communauté très active, développement rapide

Un périmètre qui s’élargit constamment

Orienté « batch »

ww

w.g

rou

pea

stek

.co

m


L’écosystème Hadoop

ww

w.g

rou

pea

stek

.co

m


HDFS

Système de fichiers distribué

Traitement de volumes de données considérables

Découpage des fichiers par blocs

Fonctionne sur des serveurs “low cost” (au minimum 3)

Fault Tolerant

Scalable

NameNode : gestion des métadonnées

DataNode : stockage des données

ww

w.g

rou

pea

stek

.co

m


Map Reduce

Calcul distribué

Input | Map() | Sort | Reduce() | Output

JobTracker : gestion des jobs

TaskTracker : exécution des tâches Map() et Reduce() sur chaque noeud

ww

w.g

rou

pea

stek

.co

m


Cas pratique (1/2) : stockage dans le HDFS

Notre fichier sera réparti en un ensemble de blocs répliqués dans les nœuds du HDFS.La réplication des blocs est configurable, dans notre exemple elle est de 3.

ww

w.g

rou

pea

stek

.co

m


Cas pratique (2/2) : comptage des mots

Parallélisation des traitements sur l’ensemble des nœuds du HDFS grâce à Map Reduce

ww

w.g

rou

pea

stek

.co

m


PIG

• Langage de script• Né chez Yahoo• Flexible / simple• ETL• Mise en œuvre UDF

HIVE

• Pseudo-SQL• Né chez Facebook• Rigide / Connu• Interrogation• JDBC / ODBC

Pig vs Hive

Objectif commun : s’abstraire de la complexité de Map/Reduce

ww

w.g

rou

pea

stek

.co

m


Hbase et le NoSQL

Montée en puissance du mouvement NoSQLPour contourner les contraintes du modèle relationnel

Pas de jointures, très flexible

Forte scalabilité horizontale

Une éclosion de différents paradigmes

HBaseImplémentation open source de Google BigTable

Basé sur HDFS (non obligatoire)

Base de données orientée colonnes

En concurrence avec Cassandra

ww

w.g

rou

pea

stek

.co

m


Exemple : modélisation d’un fichier Achat

Format : (Table, RowKey, Family, Column, Timestamp) -> Value

Création d’une table :create ‘achat’, {NAME => ‘acheteur’}, {NAME => ‘produit’, {NAME => ‘achat’}

Insertion d’une ligne :put ‘achat’, ‘1’, ‘acheteur:nom’, ‘MARIE’put ‘achat’, ‘1’, ‘acheteur:type’, ‘particulier’

Suppression d’une ligne :delete 'achat', 1, 'achat:date‘deleteall 'achat', 1

Lecture d’un enregistrement :get 'achat', 1get 'achat', 1, {COLUMN => 'produit:marque'}

ww

w.g

rou

pea

stek

.co

m


Et pour l’intégration au SI existant

Sqoop• Import / Export de données• Import automatique• Prise en charge de nombreuses

bases relationnelles

Flume• Collecte de logs• Data streaming

ww

w.g

rou

pea

stek

.co

m


La solution Big Data de Talend

Lancement de Talend Open Studio for Big Data

Simplification des développements Big Data• Environnement de développement graphique• Connecteurs Big Data prêts à l’emploi

Depuis Octobre 2012, support des bases de données NoSQL et connecteurs disponibles pour :• HBase• Cassandra• MongoDB

ww

w.g

rou

pea

stek

.co

m


Les intérêts business du Big Data

Enfin un supercalculateur à la disposition de tous

De nouveaux horizons jusque-là inexplorés• CRM : segmentation en exploitant les goûts et sentiments des

clients/prospects récoltés sur les réseaux sociaux• Finance : contrôle en temps réel des transactions

frauduleuses ou à risques• RH : exploitation des données LinkedIn (par exemple) pour

anticiper la volonté de départ d’un collaborateur clé• Logistique : optimisation des flux de transport en temps réel

en fonction du trafic routier• …

ww

w.g

rou

pea

stek

.co

m


Un cas concret : Karma chez Air France

Karma : Revenue Management AF/KLM

Composants Hadoop utilisées• HDFS / Map Reduce / Sqoop / Pig• Développement en interne : scheduler + interface web

Mise en Production courant 2013

Quelques chiffres :• Un cluster de 90 serveurs pour déployer Hadoop• 80 développeurs à Valbonne pour l’écriture des jobs MR• 130 jobs déjà développés, 400 d’ici 2 ans• 7h de traitement batch quotidien pour lancer les jobs MR et

mettre à jour les bases Oracle• 300 analystes à Roissy pour analyser les données

ww

w.g

rou

pea

stek

.co

m


Conclusion

Un bol d’oxygène pour le traitement des données volumineuses et pour la BI en particulier

Limites• Un écosystème évoluant très rapidement, nécessite

encore du temps pour stabiliser les différents modules• Si les volumes sont faibles (inférieur à 10To), un SGBD

classique suffira la plupart du temps

A suivre• Google Dremel / Cloudera Impala / Apache Drill• Positionnement des éditeurs « traditionnels »• Google, futur acteur majeur de la BI ?• Un nouveau métier : Data Scientist

ww

w.g

rou

pea

stek

.co

m


Pour plus d’informations

http://hadoop.apache.org/

http://pig.apache.org/

http://hive.apache.org/

https://developers.google.com/bigquery/

http://code.google.com/edu/parallel/mapreduce-tutorial.html

http://www.kimballgroup.com/html/articles.html : The Evolving Role of the Enterprise Data Warehouse in the Era of Big Data Analytics (Ralph Kimball)

ww

w.g

rou

pea

stek

.co

m


Merci. Des questions ?

ww

w.g

rou

pea

stek

.co

m


Annexe 1 : un autre exemple Map Reduce

Jeu de données :

Algorithme MapReduce afin de sortir le nombre d’occurrences des mots constituant le texte :

ww

w.g

rou

pea

stek

.co

m


Annexe 2 : une architecture BI transformée

Documents

Big Data, kesako ?