Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Laboratoire d'InfoRmatique en Image et Systèmes d'information
LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université Lumière Lyon 2/Ecole Centrale de Lyon Université Claude Bernard Lyon 1, bâtiment Nautibus
43, boulevard du 11 novembre 1918 — F-69622 Villeurbanne cedex http://liris.cnrs.fr
Gestion de gros volumes de données
Cas des projets CEDAR et PetaSky
PetaSky: Gestion et exploration des grandes masses de données scientifiques issues d’observations astronomiques grand Champ Scientific data management and analysis – Data acquired from the Large Synoptic Survey Telescope (LSST) http://com.isima.fr/Petasky
CEDAR: Contraintes et Evènements Dirigeant l’Automatisation du Raisonnement Constraint Event-Driven Automated Reasoning
http://cedar.liris.cnrs.fr/
CEDAR Partie 1
Présentée par : Rafiqul Haque
Empirical Study of High-Performance TripleStore
Outline
• Experiment Platform • Data Generation • Experiment and Results – Part 1 ▫ Experiment with SHARD ▫ Experiment with RDFPig
• Lesson Learnt • Intensive Experiment
Outline
• Experiment Platform • Data Generation • Experiment and Results – Part 1 ▫ Experiment with SHARD ▫ Experiment with RDFPig
• Lesson Learnt • Intensive Experiment
Experiment Platform
• We use the following technologies for our experiments ▫ Apache Hadoop/MapReduce
Framework ▫ LUBM Data Generator ▫ SHARD Triplestore ▫ RDFPig TripleStore ▫ Ganglia Hadoop Cluster
Monitor ▫ Bzip2 Codec ▫ RDF2RDF Converter
Hadoop/MapReduce
Data Converter
Triplestores
Ganglia Monitor
High-Level Architecture of Experiment Platform
Data Generator
Outline
• Experiment Platform • Data Generation • Experiment and Results – Part 1 ▫ Experiment with SHARD ▫ Experiment with RDFPig
• Lesson Learnt • Intensive Experiment
Data Generation
• We generated 220 GB N3 triples which we partitioned into different datasets (the datasets are shown in table)
Datasets Size (in GB) U_Dataset_S1 20
U_Dataset_S2 40
U_Dataset_S3 60
U_Dataset_S4 80
U_Dataset_S5 97
U_Dataset_S6 120
U_Dataset_S7 140
U_Dataset_S8 160
U_Dataset_S9 180
U_Dataset_S10 200
U_Dataset_S11 220
Outline
• Experiment Platform • Data Generation • Experiment and Results – Part 1 ▫ Experiment with SHARD ▫ Experiment with RDFPig
• Lesson Learnt • Intensive Experiment
Experiments with SHARD - Phase I Results
Hardware Specification ▫ Intel(R) Core I3 ▫ CPU 3.20 Ghz ▫ 64 bit Processor ▫ Linux 64 bit ▫ 1 TB SATA HDD ▫ 8 GB Main Memory
(Single-node Cluster)
Time in second
Hardware Specification ▫ Intel(R) Quad Core (TM)
I5 ▫ CPU 2.70 Ghz ▫ 64 bit Processor ▫ Ubuntu 64 bit 12.04 ▫ 300 GB SATA HDD ▫ 16 GB Main Memory
Experiments with SHARD - Phase II Results (Single-node Cluster)
Hardware Specification ▫ Intel(R) XEON (R) ▫ CPU 1.87 Ghz ▫ 64 bit Processor ▫ Debian 64 bit 3.2.35.2 ▫ 1 TB SATA HDD ▫ 18.542640 GB Main
Memory
Experiments with SHARD - Phase III Results (3-node Cluster)
Hardware Specification ▫ Intel(R) Core Duo ▫ CPU 2.20 Ghz ▫ 64 bit Processor ▫ Ubuntu 64 bit 12.04 ▫ 600 GB SATA HDD ▫ 8 GB Main Memory
Experiments with SHARD - Phase IV Results (20-node Cluster)
Outline
• Experiment Platform • Experiment and Results – Part 1 ▫ Experiment with SHARD ▫ Experiment with RDFPig
• Lesson Learnt • Intensive Experiment
Data Conversion
• We convert N3 triples to N-Triples
Datasets Size (in GB) U_Dataset_S1 27
U_Dataset_S2 54
U_Dataset_S3 81
U_Dataset_S4 108
U_Dataset_S5 135
U_Dataset_S6 159
U_Dataset_S7 186
U_Dataset_S8 216
U_Dataset_S9 243
U_Dataset_S10 270
U_Dataset_S11 297
Hardware Specification
▫ Intel(R) Core I3 ▫ CPU 3.20 Ghz ▫ 64 bit Processor ▫ Linux 64 bit ▫ 1 TB SATA HDD ▫ 8 GB Main Memory
Experiments with RDFPig- Phase I Results (Single-node Cluster)
Hardware Specification ▫ Intel(R) Quad Core (TM)
I5 ▫ CPU 2.70 Ghz ▫ 64 bit Processor ▫ Ubuntu 64 bit 12.04 ▫ 300 GB SATA HDD ▫ 16 GB Main Memory
Experiments with RDFPig- Phase II Results (Single-node Cluster)
Outline
• Experiment Platform • Experiment and Results – Part 1 ▫ Experiment with SHARD ▫ Experiment with RDFPig
• Lesson Learnt • Intensive Experiment
• Larger Hadoop cluster is required for experimenting triplestores with bigger datasets.
• An investigation of Hadoop cluster with larger scale is necessary to understand the performance of triplestores.
Lessons Learnt
Outline
• Experiment Platform • Experiment and Results – Part 1 ▫ Experiment with SHARD ▫ Experiment with RDFPig
• Lesson Learnt • Intensive Experiment ▫ Experiment Setting
• Dataset: We are in the process of generating 100 TB data. ▫ Dataset are generating from two different sources: The Lehigh University Public Repository The PetaSky Project
• Technologies: We will experiment with the following technologies: ▫ Databases Cassandra MongoDB Hbase PostGreSQL
Experiment Setting
• Technologies ▫ Triplestores SHARD RDFPig Bigdata (R) JAK
• Cluster: We will conduct experiments in three different clusters ▫ Cluster 1: 100 nodes ▫ Cluster 2: 200 nodes ▫ Cluster 3: 300 nodes
Experiment Setting
We will repeat experiments with SHARD and RDFPig to record their performance in the large Hadoop cluster
The number of nodes in these clusters is subject to change
Experiment Plan
CEDAR Partie 2
Présentée par : Samir Amir
Reasoning steps
Existing ontologies
- BGW - ChEBI - CPO - EMAP - FMA - NCBI - Galen - GO - ICNP
Number of classes: 903 617 Number of individuals: 0 Number of properties: 0 Maximum depth: 42 Maximum number of siblings: 45427 Average number of siblings: 840 Classes with a single subclass: 45318 Classes with more than 25 subclasses: 464223 Classes with no definition: 847760
Benchmarks
Experimentations using Taxonomies (centralized version)
Hardware Specification ▫ Intel(R) Core Duo ▫ CPU 2.20 Ghz ▫ 64 bit Processor ▫ Windows 64 bit ▫ 250 GB SATA HDD ▫ 16 GB Main Memory
65.22 47.62
671
270 295
120
0
100
200
300
400
500
600
700
800
FaCT++
HermiT
TrOWL
Pellet
RacerPro
CEDAR
time (s)
NCBI (903 617 sorts)
Scalable Distributed Reasoning (future work)
- Consider properties, sub-properties and other axioms will increase reasoning complexity. Thus, more resources are required. - Combining TBox and Abox need more resources in terms of memory. - Using MapReduce technology for query optimization.
• 100 machines Physical Nodes • Each machine
– 8 Go de RAM – 200 Go (HDD) – OS: Ubuntu
Required Configuration
PetaSky Présentée par :
Amin Mesmoudi
PetaSky: Expérimentations avec HadoopDB et Hive
Petasky : actuellement (1/3)
• Mise en place d’une plateforme de gestion de données avec 50 machines virtuelles.
• Déploiement de systèmes de gestion de données: – Centralisés: Mysql, PostgresQL et Oracle – Distribués (Map/Reduce): Hive et HadoopDB
• Caractérisation des requêtes selon la difficulté du traitement – Extraction d’un jeu de données de 13 requêtes types
compatibles avec les systèmes existants • Caractérisation et analyse des données issues du
Projet PetaSky
• Développement d’un outil de génération de données qui permet de préserver les caractéristiques de données réelles – 4 To de données ont été générées afin d’évaluer la capacité
des systèmes existants (centralisés et distribués) • Développement d’un benchmark comprenant:
– Un outil de déploiement massif des systèmes distribués sur un cluster de plusieurs centaines de machines
– Des métriques d’évaluation des systèmes existants: l’accélération, le passage a l’échelle, la latence et la tolérance aux pannes
PetaSky : actuellement (2/3)
• Evaluation expérimentale de la capacité des systèmes existants à gérer les données et les requêtes PetaSky: – Utilisation de nos métriques de Benchmarking – Evaluation des techniques d’optimisation
disponibles (compression de données, distribution des calculs, indexation, utilisation de cache, …)
PetaSky: actuellement (3/3)
Matériels La plateforme est constituée de 10 machines DELL C6220
Configuration matérielle des machines •24 processeurs (Xeon E5-2620 avec 6 cœurs) •8X6 disques 1To SATA 7200rpm •2X2 disques 1To SATA 7200rpm •3X64 Go de RAM •3X92 Go de RAM •2X128 GO de RAM •1X240 Go de RAM •1X32 Go de RAM (contrôleur)
•Taux de transfert Réseau: 2 Gb/s •Virtualisation: OpenStack (Libvirt, Ceph, KVM, …) •OS: Ubuntu 12.04 •Deux clusters de 25 et 50 machines virtuelles •Chaque machine: 8 Go de RAM, 2X Intel T7700 @2.40GHz et 300 Go d’espace de stockage
Resource disponible
RAM 1 TO
Espace Disque 52 TO
#Processeurs 240
Description de la plate-forme
Quelques Résultats (1/3)
Hive : – Purement Map/Reduce – Indexation globale et distribuée – Temps proportionnel à la volumétrie – 16 heures pour 2 TB / 50 machines
HadoopDB : Map/reduce + PostgreSQL
– Partitionnement personnalisé – Tolérance aux pannes non garanti – Indexation gérée par nœud (parallélisable) – 60 - 120 minute s/ 5 index
Quelques Résultats (2/3)
Hive > HadoopDB • Sélection avec indexes • GROUP BY sur des requêtes non sélectives
(HadoopDB ne profite pas des indexes) • Jointures (traitement parallèle) HadoopDB > Hive • Sélection sans index • GROUP BY sur des requêtes sélectives; avec
optimisation sur l'attribut de partitionnement • ORDER BY (non parallélisable en Map/Reduce)
Quelques Résultats (3/3)
Sélection sans index Sélection avec index
Pour plus de détails: http://com.isima.fr/Petasky/hive-vs-hadoopdb
Prochaines étapes …
• Passage l’échelle en termes de machines: – 100, 200 et 300 machines
• Passage a l’échelle en termes de volumétrie: – 4, 8 et 16 To de données
• Outils: – Hive, HadoopDB et Oracle RAC
• Métriques: – Performances, accélération et tolérance aux pannes
• Impact de l’indexation, de la compression, de l’utilisation du cache et du partitionnement
Configuration nécessaire
• Type de machines: physiques ou virtuelles • Chaque machine
– 7.5 - 8 Go de RAM – 200 – 300 Go d’espace de stockage – OS: Ubuntu ou Debian – Hadoop 1.1 et Hadoop 0.19 – PostgreSQL
• Le Master sera équipé de HadoopDB et Hive • Accès aux machines via SSH
MERCI