24
Sélection automatique d’index et de vues matérialisées dans les entrepôts de données Nora MAIZ, Kamel AOUICHE et Jérôme DARMONT Laboratoire ERIC 5 avenue pierre Mendès-France 69676 Bron Courriel : [email protected] EDA 2006 - Versailles

Sélection automatique dindex et de vues matérialisées dans les entrepôts de données Nora MAIZ, Kamel AOUICHE et Jérôme DARMONT Laboratoire ERIC 5 avenue

Embed Size (px)

Citation preview

Page 1: Sélection automatique dindex et de vues matérialisées dans les entrepôts de données Nora MAIZ, Kamel AOUICHE et Jérôme DARMONT Laboratoire ERIC 5 avenue

Sélection automatique d’index

et de vues matérialisées dans les entrepôts de

données

Nora MAIZ, Kamel AOUICHE et Jérôme DARMONT

Laboratoire ERIC

5 avenue pierre Mendès-France

69676 Bron

Courriel : [email protected]

EDA 2006 - Versailles

Page 2: Sélection automatique dindex et de vues matérialisées dans les entrepôts de données Nora MAIZ, Kamel AOUICHE et Jérôme DARMONT Laboratoire ERIC 5 avenue

2

Plan Contexte et motivation État de l’art Sélection simultanée d’index et de

vues matérialisées Expérimentation Conclusion et perspectives

Page 3: Sélection automatique dindex et de vues matérialisées dans les entrepôts de données Nora MAIZ, Kamel AOUICHE et Jérôme DARMONT Laboratoire ERIC 5 avenue

3

Contexte et motivation

Optimiser les performances Automatisation des tâches

d’administration Auto-administration des entrepôts de

données

Page 4: Sélection automatique dindex et de vues matérialisées dans les entrepôts de données Nora MAIZ, Kamel AOUICHE et Jérôme DARMONT Laboratoire ERIC 5 avenue

4

Problème de sélection d’index

Charge de

requêtes

Charge de

requêtes

Temps de réponse

Temps

Configuration d’index

Configuration d’index

Temps de réponse

Sélection d’index

Gain

Contrainte

d’espace de stockage

Configuration d’index

MaximiserMaximiser

Page 5: Sélection automatique dindex et de vues matérialisées dans les entrepôts de données Nora MAIZ, Kamel AOUICHE et Jérôme DARMONT Laboratoire ERIC 5 avenue

5

Problème de sélection de vues matérialisées

Gain

Configuration de vues

Configuration de vues

Temps de réponse

Sélection de vues

matérialisées

Temps

Charge de

requêtes

Charge de

requêtes

Temps de réponse

Contrainte

d’espace de stockage

ou de maintenance

MaximiserMaximiser

Configuration de vues

Page 6: Sélection automatique dindex et de vues matérialisées dans les entrepôts de données Nora MAIZ, Kamel AOUICHE et Jérôme DARMONT Laboratoire ERIC 5 avenue

6

Problème de sélection simultanée d’index et de vues matérialisées

Index candidats

Index candidats Vues

candidates

Vues candidates

Sélection d’index Sélection de vues matérialisées

Configuration de vues et d’index

Configuration de vues et d’index

•Contrainte d’espace de stockage •Partage statique de l’espace de stockage •Sélection isolée d’index et de vues

Sélection simultanée

Index candidats

Index candidats

Vues candidates

Vues candidates

Configuration de vues et d’index

Configuration de vues et d’index

•Contrainte d’espace de stockage •Prise en compte des interactions index-vues•Gestion efficace de l’espace de stockage

Page 7: Sélection automatique dindex et de vues matérialisées dans les entrepôts de données Nora MAIZ, Kamel AOUICHE et Jérôme DARMONT Laboratoire ERIC 5 avenue

7

État de l’art

Bellatreche et al. (2000) Agrawal et al. (2000) Rizzi et Saltarelli (2003)

Page 8: Sélection automatique dindex et de vues matérialisées dans les entrepôts de données Nora MAIZ, Kamel AOUICHE et Jérôme DARMONT Laboratoire ERIC 5 avenue

8

État de l’art Bellatreche et al. (2000)

Redistribution de l’espace de stockage

Compétition entre deux espions d’index et de vues

Politique de remplacement

Page 9: Sélection automatique dindex et de vues matérialisées dans les entrepôts de données Nora MAIZ, Kamel AOUICHE et Jérôme DARMONT Laboratoire ERIC 5 avenue

9

État de l’art Agrawal et al. (2000)

Trois alternatives : MVFIRST INDFIRST Joint enumeration

Page 10: Sélection automatique dindex et de vues matérialisées dans les entrepôts de données Nora MAIZ, Kamel AOUICHE et Jérôme DARMONT Laboratoire ERIC 5 avenue

10

État de l’art Rizzi et Saltarelli (2003)

Détermination a priori d’un compromis entre l’espace de stockage alloué aux index et aux vues

Niveau d’agrégation de la requête Liste des attributs de la clause Group by Sélectivité des attributs présents dans les

clauses having et where

Page 11: Sélection automatique dindex et de vues matérialisées dans les entrepôts de données Nora MAIZ, Kamel AOUICHE et Jérôme DARMONT Laboratoire ERIC 5 avenue

11

Sélection simultanée d’index et de vues matérialisées

chargecharge

Entrepôt de données

Métadonnées, schéma, statistiques

1

1. Extraction des requêtes résolues par le système

Page 12: Sélection automatique dindex et de vues matérialisées dans les entrepôts de données Nora MAIZ, Kamel AOUICHE et Jérôme DARMONT Laboratoire ERIC 5 avenue

12

Sélection simultanée d’index et de vues matérialisées

Entrepôt de données

Métadonnées, schéma, statistiques

chargecharge1

Configuration de vues

Configuration de vues

2

2. Construction de l’ensemble des vues matérialisées

candidates

Matrice requêtes-vues candidates QV

Page 13: Sélection automatique dindex et de vues matérialisées dans les entrepôts de données Nora MAIZ, Kamel AOUICHE et Jérôme DARMONT Laboratoire ERIC 5 avenue

13

Sélection simultanée d’index et de vues matérialisées

Configuration d’index

Configuration d’index

Entrepôt de données

Métadonnées, schéma, statistiques

chargecharge1

Configuration de vues

Configuration de vues

2

3 3. Construction de l’ensemble d’index candidats

Matrice requêtes-index candidats QI

Page 14: Sélection automatique dindex et de vues matérialisées dans les entrepôts de données Nora MAIZ, Kamel AOUICHE et Jérôme DARMONT Laboratoire ERIC 5 avenue

14

Sélection simultanée d’index et de vues matérialisées

Matrice vues-index VI

3. Construction de l’ensemble d’index candidats

Entrepôt de données

Métadonnées, schéma, statistiques

chargecharge1

Configuration de vues

Configuration de vues

2

Configuration d’index

Configuration d’index

3

Configuration d’index

Configuration d’index

3

Page 15: Sélection automatique dindex et de vues matérialisées dans les entrepôts de données Nora MAIZ, Kamel AOUICHE et Jérôme DARMONT Laboratoire ERIC 5 avenue

15

Entrepôt de données

Métadonnées, schéma, statistiques

chargecharge1

Configuration de vues

Configuration de vues

2

Configuration d’index

Configuration d’index

3

Configuration d’index

Configuration d’index

Modèles de coûtModèles de coût

4

Configuration d’index et de vues

Configuration d’index et de vues

4. Sélection simultanée d’index et de vues matérialisées

Algorithme glouton bénéfice de matérialisation et d’indexation

Algorithme glouton bénéfice de matérialisation et d’indexation

Sélection simultanée d’index et de vues matérialisées

Page 16: Sélection automatique dindex et de vues matérialisées dans les entrepôts de données Nora MAIZ, Kamel AOUICHE et Jérôme DARMONT Laboratoire ERIC 5 avenue

16Configuration

d’index et de vues

Configuration d’index et de vues

Entrepôt de données

Métadonnées, schéma, statistiques

chargecharge1

Configuration de vues

Configuration de vues

2

Configuration d’index

Configuration d’index

3

Configuration d’index

Configuration d’index

Modèles de coûtModèles de coût

4

5

5. Construction de la configuration finale d’index et de vues matérialisées

Algorithme glouton bénéfice de matérialisation et d’indexation

Algorithme glouton bénéfice de matérialisation et d’indexation

Sélection simultanée d’index et de vues matérialisées

Page 17: Sélection automatique dindex et de vues matérialisées dans les entrepôts de données Nora MAIZ, Kamel AOUICHE et Jérôme DARMONT Laboratoire ERIC 5 avenue

17

Calcul de bénéfice d’indexation

L’ajout d’un index donné à la configuration Config peut améliorer le coût des requêtes de la charge : de façon directe de façon indirecte à travers les vues auxquelles

cet index est associé

Page 18: Sélection automatique dindex et de vues matérialisées dans les entrepôts de données Nora MAIZ, Kamel AOUICHE et Jérôme DARMONT Laboratoire ERIC 5 avenue

18

Calcul du bénéfice de matérialisation

L’ajout d’une vue à la configuration Config peut améliorer le coût des requêtes de la charge : De façon directe De façon collaborative avec les index

associés à cette vue

Page 19: Sélection automatique dindex et de vues matérialisées dans les entrepôts de données Nora MAIZ, Kamel AOUICHE et Jérôme DARMONT Laboratoire ERIC 5 avenue

19

Algorithme de sélection simultanée d’index et de vues matérialisées

Coût de la charge

1

V1

Contrainte d’espace de stockage

Configuration finale d’index et de vues matérialisées

i2

i2

V2i0

2i1

V1

i1

3

ij …

itérations

k

i1

inin-1… Configuration d’index et de vues

Fonction objectif

VmV2i0

i2

V1i1

Charge

Page 20: Sélection automatique dindex et de vues matérialisées dans les entrepôts de données Nora MAIZ, Kamel AOUICHE et Jérôme DARMONT Laboratoire ERIC 5 avenue

20

Expérimentation

Conditions Entrepôt de données test au sein du SGBD Oracle 9i PC : Windows XP Pro, processeur Pentium 4 à 2.4

GHz, RAM 512 Mo, Disque dur IDE de 120 Go La charge de requêtes est composée de 64 requêtes

Stratégie Mesures observées : le temps d’exécution de la charge :

sans vues matérialisées ni index avec index avec vues matérialisées avec vues matérialisées et index

Page 21: Sélection automatique dindex et de vues matérialisées dans les entrepôts de données Nora MAIZ, Kamel AOUICHE et Jérôme DARMONT Laboratoire ERIC 5 avenue

21

Résultats expérimentaux

Page 22: Sélection automatique dindex et de vues matérialisées dans les entrepôts de données Nora MAIZ, Kamel AOUICHE et Jérôme DARMONT Laboratoire ERIC 5 avenue

22

Conclusion

Une stratégie d’optimisation des performances des entrepôts de données :

Sélection simultanée d’index et de vues matérialisées

Prend en compte l’interaction vue-index Traite la sélection de vues et d’index simultanément

Notre solution : Générique Modulaire Validée par des expérimentations

Page 23: Sélection automatique dindex et de vues matérialisées dans les entrepôts de données Nora MAIZ, Kamel AOUICHE et Jérôme DARMONT Laboratoire ERIC 5 avenue

23

Perspectives Poursuivre les expérimentations et les comparer

avec les approches existantes

Rendre la sélection de vues et d’index dynamique : Appliquer les travaux de YAO et al. (2005) pour la

détection des sessions basée sur le calcul d’entropie

Rendre la méthode orientée utilisateur (profil): Groupe d’utilisateurs

Intégrer ou coupler avec d’autres mécanismes d’optimisation de performance comme la gestion de cache, le regroupement et le partitionnement.

Agrawal et al.(2004), Zilio et al.(2004), Bellatreche et al.(2005)

Page 24: Sélection automatique dindex et de vues matérialisées dans les entrepôts de données Nora MAIZ, Kamel AOUICHE et Jérôme DARMONT Laboratoire ERIC 5 avenue

24

Merci de votre attention Questions?