Gestion de gros volumes de données...Ubuntu 64 bit 12.04 300 GB SATA HDD 16 GB Main Memory Experiments with SHARD - Phase II Results (Single-node Cluster) Hardware Specification Intel(R)

Laboratoire d'InfoRmatique en Image et Systèmes d'information

LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université Lumière Lyon 2/Ecole Centrale de Lyon Université Claude Bernard Lyon 1, bâtiment Nautibus

43, boulevard du 11 novembre 1918 — F-69622 Villeurbanne cedex http://liris.cnrs.fr

Gestion de gros volumes de données

Cas des projets CEDAR et PetaSky

PetaSky: Gestion et exploration des grandes masses de données scientifiques issues d’observations astronomiques grand Champ Scientific data management and analysis – Data acquired from the Large Synoptic Survey Telescope (LSST) http://com.isima.fr/Petasky

CEDAR: Contraintes et Evènements Dirigeant l’Automatisation du Raisonnement Constraint Event-Driven Automated Reasoning

http://cedar.liris.cnrs.fr/

CEDAR Partie 1

Présentée par : Rafiqul Haque

Empirical Study of High-Performance TripleStore

Outline

• Experiment Platform • Data Generation • Experiment and Results – Part 1 ▫ Experiment with SHARD ▫ Experiment with RDFPig

• Lesson Learnt • Intensive Experiment

Outline



Experiment Platform

• We use the following technologies for our experiments ▫ Apache Hadoop/MapReduce

Framework ▫ LUBM Data Generator ▫ SHARD Triplestore ▫ RDFPig TripleStore ▫ Ganglia Hadoop Cluster

Monitor ▫ Bzip2 Codec ▫ RDF2RDF Converter

Hadoop/MapReduce

Data Converter

Triplestores

Ganglia Monitor

High-Level Architecture of Experiment Platform

Data Generator

Outline



Data Generation

• We generated 220 GB N3 triples which we partitioned into different datasets (the datasets are shown in table)

Datasets Size (in GB) U_Dataset_S1 20

U_Dataset_S2 40

U_Dataset_S3 60

U_Dataset_S4 80

U_Dataset_S5 97

U_Dataset_S6 120

U_Dataset_S7 140

U_Dataset_S8 160

U_Dataset_S9 180

U_Dataset_S10 200

U_Dataset_S11 220

Outline



Experiments with SHARD - Phase I Results

Hardware Specification ▫ Intel(R) Core I3 ▫ CPU 3.20 Ghz ▫ 64 bit Processor ▫ Linux 64 bit ▫ 1 TB SATA HDD ▫ 8 GB Main Memory

(Single-node Cluster)

Time in second

Hardware Specification ▫ Intel(R) Quad Core (TM)

I5 ▫ CPU 2.70 Ghz ▫ 64 bit Processor ▫ Ubuntu 64 bit 12.04 ▫ 300 GB SATA HDD ▫ 16 GB Main Memory

Experiments with SHARD - Phase II Results (Single-node Cluster)

Hardware Specification ▫ Intel(R) XEON (R) ▫ CPU 1.87 Ghz ▫ 64 bit Processor ▫ Debian 64 bit 3.2.35.2 ▫ 1 TB SATA HDD ▫ 18.542640 GB Main

Memory

Experiments with SHARD - Phase III Results (3-node Cluster)

Hardware Specification ▫ Intel(R) Core Duo ▫ CPU 2.20 Ghz ▫ 64 bit Processor ▫ Ubuntu 64 bit 12.04 ▫ 600 GB SATA HDD ▫ 8 GB Main Memory

Experiments with SHARD - Phase IV Results (20-node Cluster)

Outline

• Experiment Platform • Experiment and Results – Part 1 ▫ Experiment with SHARD ▫ Experiment with RDFPig


Data Conversion

• We convert N3 triples to N-Triples

Datasets Size (in GB) U_Dataset_S1 27

U_Dataset_S2 54

U_Dataset_S3 81

U_Dataset_S4 108

U_Dataset_S5 135

U_Dataset_S6 159

U_Dataset_S7 186

U_Dataset_S8 216

U_Dataset_S9 243

U_Dataset_S10 270

U_Dataset_S11 297

Hardware Specification

▫ Intel(R) Core I3 ▫ CPU 3.20 Ghz ▫ 64 bit Processor ▫ Linux 64 bit ▫ 1 TB SATA HDD ▫ 8 GB Main Memory

Experiments with RDFPig- Phase I Results (Single-node Cluster)

Hardware Specification ▫ Intel(R) Quad Core (TM)

I5 ▫ CPU 2.70 Ghz ▫ 64 bit Processor ▫ Ubuntu 64 bit 12.04 ▫ 300 GB SATA HDD ▫ 16 GB Main Memory

Experiments with RDFPig- Phase II Results (Single-node Cluster)

Outline



• Larger Hadoop cluster is required for experimenting triplestores with bigger datasets.

• An investigation of Hadoop cluster with larger scale is necessary to understand the performance of triplestores.

Lessons Learnt

Outline


• Lesson Learnt • Intensive Experiment ▫ Experiment Setting

• Dataset: We are in the process of generating 100 TB data. ▫ Dataset are generating from two different sources: The Lehigh University Public Repository The PetaSky Project

• Technologies: We will experiment with the following technologies: ▫ Databases Cassandra MongoDB Hbase PostGreSQL

Experiment Setting

• Technologies ▫ Triplestores SHARD RDFPig Bigdata (R) JAK

• Cluster: We will conduct experiments in three different clusters ▫ Cluster 1: 100 nodes ▫ Cluster 2: 200 nodes ▫ Cluster 3: 300 nodes

Experiment Setting

We will repeat experiments with SHARD and RDFPig to record their performance in the large Hadoop cluster

The number of nodes in these clusters is subject to change

Experiment Plan

CEDAR Partie 2

Présentée par : Samir Amir

Reasoning steps

Existing ontologies

- BGW - ChEBI - CPO - EMAP - FMA - NCBI - Galen - GO - ICNP

Number of classes: 903 617 Number of individuals: 0 Number of properties: 0 Maximum depth: 42 Maximum number of siblings: 45427 Average number of siblings: 840 Classes with a single subclass: 45318 Classes with more than 25 subclasses: 464223 Classes with no definition: 847760

Benchmarks

Experimentations using Taxonomies (centralized version)

Hardware Specification ▫ Intel(R) Core Duo ▫ CPU 2.20 Ghz ▫ 64 bit Processor ▫ Windows 64 bit ▫ 250 GB SATA HDD ▫ 16 GB Main Memory

65.22 47.62

671

270 295

120

0

100

200

300

400

500

600

700

800

FaCT++

HermiT

TrOWL

Pellet

RacerPro

CEDAR

time (s)

NCBI (903 617 sorts)

Scalable Distributed Reasoning (future work)

- Consider properties, sub-properties and other axioms will increase reasoning complexity. Thus, more resources are required. - Combining TBox and Abox need more resources in terms of memory. - Using MapReduce technology for query optimization.

• 100 machines Physical Nodes • Each machine

– 8 Go de RAM – 200 Go (HDD) – OS: Ubuntu

Required Configuration

PetaSky Présentée par :

Amin Mesmoudi

PetaSky: Expérimentations avec HadoopDB et Hive

Présentateur

Commentaires de présentation

Gestion de données issue d’observation astronomique Aider les astrophysiciens pour interroger des bases de données … Les outils existants ne leur permettent pas d’exploiter efficacement les données collectés Soit a cause du temps nécessaire pour traiter certain type de requête

Petasky : actuellement (1/3)

• Mise en place d’une plateforme de gestion de données avec 50 machines virtuelles.

• Déploiement de systèmes de gestion de données: – Centralisés: Mysql, PostgresQL et Oracle – Distribués (Map/Reduce): Hive et HadoopDB

• Caractérisation des requêtes selon la difficulté du traitement – Extraction d’un jeu de données de 13 requêtes types

compatibles avec les systèmes existants • Caractérisation et analyse des données issues du

Projet PetaSky

• Développement d’un outil de génération de données qui permet de préserver les caractéristiques de données réelles – 4 To de données ont été générées afin d’évaluer la capacité

des systèmes existants (centralisés et distribués) • Développement d’un benchmark comprenant:

– Un outil de déploiement massif des systèmes distribués sur un cluster de plusieurs centaines de machines

– Des métriques d’évaluation des systèmes existants: l’accélération, le passage a l’échelle, la latence et la tolérance aux pannes

PetaSky : actuellement (2/3)

• Evaluation expérimentale de la capacité des systèmes existants à gérer les données et les requêtes PetaSky: – Utilisation de nos métriques de Benchmarking – Evaluation des techniques d’optimisation

disponibles (compression de données, distribution des calculs, indexation, utilisation de cache, …)

PetaSky: actuellement (3/3)

Matériels La plateforme est constituée de 10 machines DELL C6220

Configuration matérielle des machines •24 processeurs (Xeon E5-2620 avec 6 cœurs) •8X6 disques 1To SATA 7200rpm •2X2 disques 1To SATA 7200rpm •3X64 Go de RAM •3X92 Go de RAM •2X128 GO de RAM •1X240 Go de RAM •1X32 Go de RAM (contrôleur)

•Taux de transfert Réseau: 2 Gb/s •Virtualisation: OpenStack (Libvirt, Ceph, KVM, …) •OS: Ubuntu 12.04 •Deux clusters de 25 et 50 machines virtuelles •Chaque machine: 8 Go de RAM, 2X Intel T7700 @2.40GHz et 300 Go d’espace de stockage

Resource disponible

RAM 1 TO

Espace Disque 52 TO

#Processeurs 240

Description de la plate-forme

Quelques Résultats (1/3)

Hive : – Purement Map/Reduce – Indexation globale et distribuée – Temps proportionnel à la volumétrie – 16 heures pour 2 TB / 50 machines

HadoopDB : Map/reduce + PostgreSQL

– Partitionnement personnalisé – Tolérance aux pannes non garanti – Indexation gérée par nœud (parallélisable) – 60 - 120 minute s/ 5 index


Hive > HadoopDB • Sélection avec indexes • GROUP BY sur des requêtes non sélectives

(HadoopDB ne profite pas des indexes) • Jointures (traitement parallèle) HadoopDB > Hive • Sélection sans index • GROUP BY sur des requêtes sélectives; avec

optimisation sur l'attribut de partitionnement • ORDER BY (non parallélisable en Map/Reduce)


Sélection sans index Sélection avec index

Pour plus de détails: http://com.isima.fr/Petasky/hive-vs-hadoopdb

Prochaines étapes …

• Passage l’échelle en termes de machines: – 100, 200 et 300 machines

• Passage a l’échelle en termes de volumétrie: – 4, 8 et 16 To de données

• Outils: – Hive, HadoopDB et Oracle RAC

• Métriques: – Performances, accélération et tolérance aux pannes

• Impact de l’indexation, de la compression, de l’utilisation du cache et du partitionnement

Configuration nécessaire

• Type de machines: physiques ou virtuelles • Chaque machine

– 7.5 - 8 Go de RAM – 200 – 300 Go d’espace de stockage – OS: Ubuntu ou Debian – Hadoop 1.1 et Hadoop 0.19 – PostgreSQL

• Le Master sera équipé de HadoopDB et Hive • Accès aux machines via SSH

MERCI

Documents

Gestion de gros volumes de données...Ubuntu 64 bit 12.04 300 GB SATA HDD 16 GB Main Memory Experiments with SHARD - Phase II Results (Single-node Cluster) Hardware Specification Intel(R)