26
www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1 Big Data, Kesako ? Christophe Aran, Consultant décisionnel Référence : ASO-XXX Version : 1.0 Du : 06/11/2012

Big Data, kesako ?

Embed Size (px)

DESCRIPTION

Christophe Aran, spécialiste de la BI nous présente le Big Data : Du premier jour de l'humanité jusqu'à l'an 2003, les hommes ont produit quelque 5 millions de téraoctets de données. En 2012, deux jours suffisent pour produire la même quantité. Ces données proviennent de partout : de messages sur les médias sociaux, d'images et de vidéos publiées en ligne, d'enregistrements transactionnels d'achats en ligne, de signaux GPS de téléphones mobiles… pour ne citer que quelques sources. Ces données sont appelées Big Data ou volumes massifs de données. Les sociétés du Web tels que Google, Facebook et Amazon ont investi massivement afin de gérer ces Big Data. En effet, leur survie en dépend. C’est ainsi qu’un ensemble de technologies open source et de concepts est né : MapReduce, Apache Hadoop, bases de données NoSQL,… Qu’est-ce que le big Data et quels en sont les différents concepts ? Comment utiliser ces technologies dans des applications opérationnelles ou décisionnelles ? Pourquoi le Big Data ouvre-t-il de nouvelles perspectives ? Est-ce une révolution technologique ou un effet de mode ?

Citation preview

Page 1: Big Data, kesako ?

www.groupeastek.comModèle : ASO-2007-M_PPT-0012 v2.1

Big Data, Kesako ?

Christophe Aran, Consultant décisionnel Référence : ASO-XXXVersion : 1.0

Du : 06/11/2012

Page 2: Big Data, kesako ?

ww

w.g

rou

pea

stek

.co

m

Modèle : ASO-2007-M_PPT-0012 v2.1

Sommaire

• Contexte actuel

• Définition du Big Data

• L’écosystème Hadoop

• Les intérêts business du Big Data

• Un cas concret : Karma chez Air France

• Conclusion

Page 3: Big Data, kesako ?

ww

w.g

rou

pea

stek

.co

m

Modèle : ASO-2007-M_PPT-0012 v2.1

Un déluge de données

YouTube reçoit 24h de vidéo toutes les minutes

500 téraoctets de données transitent chaque jour sur Facebook

140 millions de tweets par jour

6 milliards de téléphones mobiles en activité en 2012

Des pics de 22 commandes à la seconde chez Spartoo pendant les soldes

90% des données créées dans le monde l’ont été au cours des 2 dernières années

Page 4: Big Data, kesako ?

ww

w.g

rou

pea

stek

.co

m

Modèle : ASO-2007-M_PPT-0012 v2.1

Et une collecte de données incessantesDonnées commerciales• Transactions

Informations Client• CRM• Dossiers médicaux

Informations Produits• Codes barres• RFID

Web• Pages• Journaux d’accès

Informations non structurées• Réseaux sociaux• GPS• Mobile

Page 5: Big Data, kesako ?

ww

w.g

rou

pea

stek

.co

m

Modèle : ASO-2007-M_PPT-0012 v2.1

Les limites des SGBD actuels

Coût du stockage

Scalabilité

Performance

Format des données

Schémas figés

Page 6: Big Data, kesako ?

ww

w.g

rou

pea

stek

.co

m

Modèle : ASO-2007-M_PPT-0012 v2.1

Le besoin

Système qui peut gérer de gros volumes de données

Scalable

Robuste

Haute disponibilité

Economique

Nouvelle approche

Page 7: Big Data, kesako ?

ww

w.g

rou

pea

stek

.co

m

Modèle : ASO-2007-M_PPT-0012 v2.1

Définition du Big Data

« Le Big Data fait référence à l'explosion du volume des données dans l'entreprise et des nouveaux moyens technologiques proposés par les éditeurs pour y répondre »

Gartner

Page 8: Big Data, kesako ?

ww

w.g

rou

pea

stek

.co

m

Modèle : ASO-2007-M_PPT-0012 v2.1

Le concept des 3 V

Valeur

VolumeLes entreprises sont submergées de volumes de données croissants de tous types, qui se comptent en téraoctets, voire en pétaoctets.

VitesseParfois, 2 minutes c'est trop. Pour la détection de fraudes par exemple, le Big Data doit être utilisé au fil de l'eau, à mesure que les données sont collectées par l’entreprise afin d'en tirer le maximum de valeur.

VariétéLe Big Data se présente sous la forme de données structurées ou non structurées (texte, données de capteurs, son, vidéo, fichiers journaux, etc.).

Page 9: Big Data, kesako ?

ww

w.g

rou

pea

stek

.co

m

Modèle : ASO-2007-M_PPT-0012 v2.1

Hadoop, kesako ?

Inspiré de publications Google (2004)Google Filesystem

Google Map Reduce

Créé par Doug Cutting, salarié chez Yahoo

Framework Open Source écrit en Java

Géré sous l'égide de la fondation Apache

Communauté très active, développement rapide

Un périmètre qui s’élargit constamment

Orienté « batch »

Page 10: Big Data, kesako ?

ww

w.g

rou

pea

stek

.co

m

Modèle : ASO-2007-M_PPT-0012 v2.1

L’écosystème Hadoop

Page 11: Big Data, kesako ?

ww

w.g

rou

pea

stek

.co

m

Modèle : ASO-2007-M_PPT-0012 v2.1

HDFS

Système de fichiers distribué

Traitement de volumes de données considérables

Découpage des fichiers par blocs

Fonctionne sur des serveurs “low cost” (au minimum 3)

Fault Tolerant

Scalable

NameNode : gestion des métadonnées

DataNode : stockage des données

Page 12: Big Data, kesako ?

ww

w.g

rou

pea

stek

.co

m

Modèle : ASO-2007-M_PPT-0012 v2.1

Map Reduce

Calcul distribué

Input | Map() | Sort | Reduce() | Output

JobTracker : gestion des jobs

TaskTracker : exécution des tâches Map() et Reduce() sur chaque noeud

Page 13: Big Data, kesako ?

ww

w.g

rou

pea

stek

.co

m

Modèle : ASO-2007-M_PPT-0012 v2.1

Cas pratique (1/2) : stockage dans le HDFS

Notre fichier sera réparti en un ensemble de blocs répliqués dans les nœuds du HDFS.La réplication des blocs est configurable, dans notre exemple elle est de 3.

Page 14: Big Data, kesako ?

ww

w.g

rou

pea

stek

.co

m

Modèle : ASO-2007-M_PPT-0012 v2.1

Cas pratique (2/2) : comptage des mots

Parallélisation des traitements sur l’ensemble des nœuds du HDFS grâce à Map Reduce

Page 15: Big Data, kesako ?

ww

w.g

rou

pea

stek

.co

m

Modèle : ASO-2007-M_PPT-0012 v2.1

PIG

• Langage de script• Né chez Yahoo• Flexible / simple• ETL• Mise en œuvre UDF

HIVE

• Pseudo-SQL• Né chez Facebook• Rigide / Connu• Interrogation• JDBC / ODBC

Pig vs Hive

Objectif commun : s’abstraire de la complexité de Map/Reduce

Page 16: Big Data, kesako ?

ww

w.g

rou

pea

stek

.co

m

Modèle : ASO-2007-M_PPT-0012 v2.1

Hbase et le NoSQL

Montée en puissance du mouvement NoSQLPour contourner les contraintes du modèle relationnel

Pas de jointures, très flexible

Forte scalabilité horizontale

Une éclosion de différents paradigmes

HBaseImplémentation open source de Google BigTable

Basé sur HDFS (non obligatoire)

Base de données orientée colonnes

En concurrence avec Cassandra

Page 17: Big Data, kesako ?

ww

w.g

rou

pea

stek

.co

m

Modèle : ASO-2007-M_PPT-0012 v2.1

Exemple : modélisation d’un fichier Achat

Format : (Table, RowKey, Family, Column, Timestamp) -> Value

Création d’une table :create ‘achat’, {NAME => ‘acheteur’}, {NAME => ‘produit’, {NAME => ‘achat’}

Insertion d’une ligne :put ‘achat’, ‘1’, ‘acheteur:nom’, ‘MARIE’put ‘achat’, ‘1’, ‘acheteur:type’, ‘particulier’

Suppression d’une ligne :delete 'achat', 1, 'achat:date‘deleteall 'achat', 1

Lecture d’un enregistrement :get 'achat', 1get 'achat', 1, {COLUMN => 'produit:marque'}

Page 18: Big Data, kesako ?

ww

w.g

rou

pea

stek

.co

m

Modèle : ASO-2007-M_PPT-0012 v2.1

Et pour l’intégration au SI existant

Sqoop• Import / Export de données• Import automatique• Prise en charge de nombreuses

bases relationnelles

Flume• Collecte de logs• Data streaming

Page 19: Big Data, kesako ?

ww

w.g

rou

pea

stek

.co

m

Modèle : ASO-2007-M_PPT-0012 v2.1

La solution Big Data de Talend

Lancement de Talend Open Studio for Big Data

Simplification des développements Big Data• Environnement de développement graphique• Connecteurs Big Data prêts à l’emploi

Depuis Octobre 2012, support des bases de données NoSQL et connecteurs disponibles pour :• HBase• Cassandra• MongoDB

Page 20: Big Data, kesako ?

ww

w.g

rou

pea

stek

.co

m

Modèle : ASO-2007-M_PPT-0012 v2.1

Les intérêts business du Big Data

Enfin un supercalculateur à la disposition de tous

De nouveaux horizons jusque-là inexplorés• CRM : segmentation en exploitant les goûts et sentiments des

clients/prospects récoltés sur les réseaux sociaux• Finance : contrôle en temps réel des transactions

frauduleuses ou à risques• RH : exploitation des données LinkedIn (par exemple) pour

anticiper la volonté de départ d’un collaborateur clé• Logistique : optimisation des flux de transport en temps réel

en fonction du trafic routier• …

Page 21: Big Data, kesako ?

ww

w.g

rou

pea

stek

.co

m

Modèle : ASO-2007-M_PPT-0012 v2.1

Un cas concret : Karma chez Air France

Karma : Revenue Management AF/KLM

Composants Hadoop utilisées• HDFS / Map Reduce / Sqoop / Pig• Développement en interne : scheduler + interface web

Mise en Production courant 2013

Quelques chiffres :• Un cluster de 90 serveurs pour déployer Hadoop• 80 développeurs à Valbonne pour l’écriture des jobs MR• 130 jobs déjà développés, 400 d’ici 2 ans• 7h de traitement batch quotidien pour lancer les jobs MR et

mettre à jour les bases Oracle• 300 analystes à Roissy pour analyser les données

Page 22: Big Data, kesako ?

ww

w.g

rou

pea

stek

.co

m

Modèle : ASO-2007-M_PPT-0012 v2.1

Conclusion

Un bol d’oxygène pour le traitement des données volumineuses et pour la BI en particulier

Limites• Un écosystème évoluant très rapidement, nécessite

encore du temps pour stabiliser les différents modules• Si les volumes sont faibles (inférieur à 10To), un SGBD

classique suffira la plupart du temps

A suivre• Google Dremel / Cloudera Impala / Apache Drill• Positionnement des éditeurs « traditionnels »• Google, futur acteur majeur de la BI ?• Un nouveau métier : Data Scientist

Page 23: Big Data, kesako ?

ww

w.g

rou

pea

stek

.co

m

Modèle : ASO-2007-M_PPT-0012 v2.1

Pour plus d’informations

http://hadoop.apache.org/

http://pig.apache.org/

http://hive.apache.org/

https://developers.google.com/bigquery/

http://code.google.com/edu/parallel/mapreduce-tutorial.html

http://www.kimballgroup.com/html/articles.html : The Evolving Role of the Enterprise Data Warehouse in the Era of Big Data Analytics (Ralph Kimball)

Page 24: Big Data, kesako ?

ww

w.g

rou

pea

stek

.co

m

Modèle : ASO-2007-M_PPT-0012 v2.1

Merci. Des questions ?

Page 25: Big Data, kesako ?

ww

w.g

rou

pea

stek

.co

m

Modèle : ASO-2007-M_PPT-0012 v2.1

Annexe 1 : un autre exemple Map Reduce

Jeu de données :

Algorithme MapReduce afin de sortir le nombre d’occurrences des mots constituant le texte :

Page 26: Big Data, kesako ?

ww

w.g

rou

pea

stek

.co

m

Modèle : ASO-2007-M_PPT-0012 v2.1

Annexe 2 : une architecture BI transformée