Download pdf - BigData et Hadoop

Qu’est-ce que le Big Data ?

De plus en plus interconnecté

Le monde change

2 milliards

4.6 milliards

utilisateurs d’Internet

téléphones cellulaires

Le monde change


De plus en plus instrumentalisé

Le monde change

Web 3.0

L'Internet des objets représente l'extension d'Internet à des choses et à des lieux dans le monde physique.

Alors qu'Internet ne se prolonge habituellement pas au-delà du monde électronique, l'internet des objets (IdO) a pour but de l'étendre au monde réel

en associant des étiquettes munies de codes, de puces RFID ou d'URLs aux objets ou aux lieux.

Ces étiquettes pourront être lues par des dispositifs mobiles sans fil, ce qui devrait favoriser l’émergence de la réalité augmentée.

Le monde change


De plus en plus intelligent

De plus en plus instrumentalisé

Qu’est ce que le Big Data ?

Qu’est ce que le Big Data ?

Ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de

gestion de l'information.

Dans ces nouveaux ordres de grandeur, la capture, le stockage, la recherche, le partage, l'analyse et la visualisation des données doivent être redéfinis

Caractéristiques

44x plus de données en une décennie

L’information grandit à une vitesse incroyable !

Caractéristiques

20%

80%

80% des données sont non structurées

Deux types de Big Data

Données en mouvement

Le reste

• Tweets / Posts Facebook• Données boursières• Capteurs : Signes vitaux d’un nouveau-né

• Historique de données en mouvement• Données non structurées : formulaires ...• Données structurées depuis des systèmes disparates

Exemples de Big Data

100 TB de données / jour

230 M de tweets / jour

294 M de courriels / jour

50 Petabytes de données dans le domaine de la

santé

Examples

• Analyse multicanal du sentiment et de l’expérience utilisateur • Détecter les signes inquiétants d’un patient dans les hôpitaux afin d’intervenir à

temps• Prendre des décisions risquées basées sur les données transactionnelles en

temps réel • Identifier les criminels et menaces depuis de nombreuses sources vidéos, audio et

flux de données • Prédire les modèles climatiques afin de choisir un emplacement optimisé pour les

éoliennes

Comment analyser ces données et en extraire l’essentiel ?

Challenges

Ranger 10TB sur 1 noeud :

sur 100 noeuds :

2.5 jours35 min

Challenges

Gros noeuds implique un cout élevé

Grand nombre de noeuds bon marché impliquent un gros nombre d’erreurs

Plusieurs Noeuds bon marché

Système Fault-tolerant automatique

Challenges

On a besoin d’un nouveau modèle de traitement parallèle pour des clusters de

machines

À la rescousse

Map Reduce

Publié par Google en .

Rendu populaire par le projet Apache Hadoop

Utilisé par :

2004

Map Reduce

Map Reduce

Philosophie

• Masque la complexité• Rends le processus évolutif (scalability)• Le rend peu onéreux

Coeur de Hadoop

Map ReduceHDFS Système de fichier distribué

Planification / Execution

Coeur de Hadoop

Map ReduceSystème de fichier distribué


HDFS

• Name Node garde les métadonnées• Fichiers coupés en blocs de 64 MB• Blocs répliqués sur 3 Data Node

Coeur de Hadoop

Map Reduce

Système de fichier distribué


HDFS

• Name Node garde les métadonnées• Fichiers coupés en blocs de 64 MB• Blocs répliqués sur 3 Data Node

• Job tracker distribue les taches et gères les erreurs

• Tâches assignées selon les données locales• Task Tracker peut exécuter plusieurs tâches

Coeur de Hadoop

Job Tracker

Name Node Data Node

Task Tracker

Clien

t

Suite HadoopZo

okee

per

Avro

Pig (ETL) Hive (BI) Sqoop (RDBMS)

MapReduce

HDFS

Pig

Hive

Coeur de HadoopZo

okee

per

Avro

Mahout HBase Cassandra

MapReduce

HDFS

Des Questions ?

a Storm is coming ...