54
Université Sidi Mohammed Ben Abdellah Ecole Nationale des Sciences Appliquées – Fès Filière : Génie informatique Compte Rendu Pentaho Informatique Décisionnelle Réalisé par : OU QA S Mo Encad par : M m e .

Pentaho & Talend

Embed Size (px)

DESCRIPTION

êf

Citation preview

Page 1: Pentaho & Talend

Université Sidi Mohammed Ben AbdellahEcole Nationale des Sciences Appliquées – Fès

Filière : Génie informatique

Compte Rendu

Année universitaire : 2014 – 2015

Pentaho

Informatique Décisionnelle

Réalisé par :

OU

QA

S

Mo

ham

med

Encadr

é par :

M

m

e

.

N

.

H

Page 2: Pentaho & Talend

Utilisation de la plateforme Pentaho B.I La plateforme Pentaho B.l. intègre différents composants utiles pour élaborer une

solution décisionnelle d'entreprise:

une base de données multidimensionnelle: Mondrian un outil E.T.L. (Extract Transform and Load) : Kettle un outil d'aide à la création de rapports : Report Designer un outil d'aide à la création de processus décisionnels pour Pentaho : Pentaho

Design Studio un ensemble d'outils de data mining : Weka un serveur application : JBoss/Tomcat

Le fonctionnement de la plateforme est de type client-serveur. Les solutions sont stockées sur un serveur et peuvent être utilisées via un navigateur web (Firefox, 1E,,.), Donc, si nous sommes < utilisateurs > des solutions mises en place sur la plateforme décisionnelle, nous nous connecterons à cette plateforme en utilisant notre navigateur intemet. En revanche, si nous souhaitons élaborer de nouvelles solutions, alors il faudra les << créer > ou les < pubtier > sur le serueur.

La première partie de ce TP est consacrée à la découverte des solutions décisionnelles côté utilisateur. ll s'agira essentiellement d'une exploration des exemples proposés dans la plateforme Pentaho. La deuxième partie du TP sera consacrée à l'étude d'une solution déjà mise en place. Le troisième volet consistera en la mise en place d'une solution nouvelle.

Découverte des solutions décisionnelles coté utilisateur :

1. Ouvrir un navigateur internet (Internet Explorer)2. Se connecter à l'adresse du serveur : http://localhost:8080/pentaho

Voici l’interface pentaho :

Page 3: Pentaho & Talend

3. Utiliser le bouton < Pentaho User Console Login > puis choisir l'utilisateur Joe (valider)

Page 4: Pentaho & Talend

4. A gauche apparaît le navigateur de solutions (répertoires en haut, fichiers en bas)

Page 5: Pentaho & Talend

5. Sélectionner Reporting  >> Inventory Report

En choisissant « Classic Cars » comme « product line » et « PDF » comme « report format », on visualise l’apparition du PDF sur l’interface Pentaho, contenant les différentes informations sur le produit.

Page 6: Pentaho & Talend

Si on choisit le format Excel pour le rapport, on aura le résultat ci-dessous :

6. On a exploré les répertoires Charts puis Dashboard.

Page 7: Pentaho & Talend

7. On sélectionne le répertoire « Analysis » >> « Product Line Analysis »

En haut, on aura une barre d’outils :

Q1 : les dimensions d’analyse sont :- Produit- Market- Time

Q2 : les mesures d’analyse :

- Quantity- Sales

8. On sélectionne l’outil «  Drill Member » dans la barre d’outils, puis l’outil OLAP pour sélectionner « All Markets » :

Page 8: Pentaho & Talend

Et on obtient le tableau suivant :

« Drill Member » nous donne plus de détails : lorsqu’on clique sur le « + » de « All Markets » ou de « All products » on obtient plus de détails sur ces derniers.

9. On sélectionne l’outil «  Drill position » dans la barre d’outils, puis « +All Markets », « +EMEA », puis « +France », puis « + All Products » pour la France .On obtient le tableau suivant :

Page 9: Pentaho & Talend

« Drill Position » nous donne les positions dans le cube.

Q4 : le quantité de trains commandés à Steel Wheels en France pour toute la durée d’enregistrement des informations du système :

On a fait la somme des quantités des quantités commandée des années 2004 et 2005 et on obtient : 27341

Q5 : la quantité de trains commandés à Steel Wheels en Novembre 2004 :On rassemble toutes les valeurs correspondantes à la quantité des trains commandés à Steel Wheels en Novembre 2004 et on trouve la valeur : 124 750.

10. On sélectionne l’outil « Drill remplacement » dans la barre d’outils puis on sélectionne la flèche descendante de la colonne « All Markets » puis celle de la zone EMEA puis celle de la colonne « All Products » pour la France puis celle de la colonne « All Products » correspondant aux trains :

Q6 : On remarque que Drill remplacement affiche tous les produits concernant les trains pour la France et aussi pour tous les membres de l’EMEA. On remarque aussi

Page 10: Pentaho & Talend

qu’il n’affiche pas le type trains. Donc plus de détails (on peut revenir en arrière à travers les flèches).

11. On referme toutes les colonnes on utilisant la flèche ascendante

12. On sélectionne l’outil «  Drill position » dans la barre d’outils puis on sélectionne le + de la colonne « All Markets » puis celui de la zone EMEA puis ceui de la colonne « All Products » pour la France puis celui de la colonne correspondant aux trains.

13. Pui on sélectionne l’outil «  Drill through » dans la barre d’outils puis la mesure correspondant à la quantité de trains commandée en France.

A la fin de la page on obtient le résultat suivant :

Q7 : On remarque que Drill Through nous donne plus de détails sur les ventes en termes de ligne de production, de quantité, de produit, …

On conclut que Drill Throught accède dans la dimension pour en afficher les détails.

14. On referme toutes les colonnes.

Page 11: Pentaho & Talend

15. On sélectionne l’outils « Drill remplacement » dans la barre d’outils puis la flèche descendante de la colonne « All Markets », après on sélectionne l’outil de paramétrage de diagramme et on choisit « Pie Charts by Row » comme type de diagramme, puis on paramètre le champ « Show Legend » à « Right »:

On sélectionne l’affichage du diagramme :

Page 12: Pentaho & Talend

Cela nous donne des graphes pour chaque pays avec les distributions de chaque année. On remarque aussi que lorsqu’on clique sur All years, on pour chaque pays les achats

de tous les produits et de tous les clients par année. Ce qui est clair sue le graphe.

16. On sélectionne l’outil de paramétrage de diagramme, puis on choisit «  Stacked Horizontal Bar » comme type de diagramme. Voici le résultat observé :

Page 13: Pentaho & Talend

Le résultat est sous forme de barres. Stacked Horizontal Bar permet de transformer le diagramme en cercle en barres horizontales. En effet il affiche les mêmes résultats.

17. On referme toutes les colonnes après avoir enlever l’affichage du diagramme.

18. On affiche l’outils navigateur « OLAP ». cet outil permet de modifier la manière d’afficher les informations dans le tableau d’analyse. On peut voir que les mesures sont affichées en colonnes et les dimensions sont affichées en lignes dans le tableau initial.

Page 14: Pentaho & Talend

19. On sélectionne « Mesures » puis on choisit d’afficher «  Quantity et Sales », et puis valider « OK » :

Le tableau modifié apparait :

On remarque les 2 colonnes Quantity et Sales.

20. On affiche l’outil « Navigateur OLAP ». on va placer un filtre sur la dimension temporelle. Pour cela, on transforme la dimension « Time » en filtre en utilisant l’opérateur de filtre :

La dimension Time est alors passée dans les filtres. Une fois filtrée, on peut choisir la valeur du filtrage ( on choisit l’année 2004).

Page 15: Pentaho & Talend

On obtient le résultat suivant :

On obtient les mesures dans l’année 2004.

21. on affiche l’outil « Navigateur OLAP » on sélectionne « Market » en ne sélectionnant que la zone EMEA comme zone à afficher.

on obtient les mesures que sur EMEA.

Page 16: Pentaho & Talend

22. on affiche l’outil « Navigateur OLAP » on passe la dimension « Product » en colonne .

Voici le résultat obtenu :

Étude d'une solution déjà réalisée (côté serveur)- Utilisation de Pentaho Design Studio

23. on entre dans Pentaho Design Studio.24. On choisit un nouveau workspace, puis on sélectionne workBench.

25. Nous allons maintenant sélectionner le fichier < .xaction > qui contient les traitements à réaliser pour l'exemple. Ce fichier est situé dans le répertoire /home/pentaho/Desktop/biserver-ce/pentahosolutions/steel-wheels/reports et s'appelle << Inventory List.xaction >. L'ouvrir en utilisant le menu < File > < Open File > de Pentaho Design Studio.

26. On voit 3 zones apparaître < Process Inputs >, < Process Actions >, << Process Outputs >>

Page 17: Pentaho & Talend

27. Les zones :

Process Inputs:

Sont des paramètres de programmeur définis qui fournissent la matière première pour une action de séquence. Ils peuvent également être désignés comme paramètres d’entrée. Process input ainsi que les ressources définissent les paramètres qui seront transmis à un composant quand il s’exécute. Certaines entrées sont facultatives, et certaines sont nécessaires afin d’éviter des erreurs pendant l’exécution. Il y’a plusieurs façon de satisfaire une entrée requise. Il peut être soit : passé en paramètre avec le même nom, soit correspond à un nom différent soit passé en paramètre codé en hard avec une valeur constante.

Page 18: Pentaho & Talend

Process Action:

Process Action sont des opérations qui sont utilisés sur les process input. Il contient toutes les actions que Pentaho doit faire. Avec un simple clic gauche sur le nom d’une action, à droite s’affiche les éléments qui la composent. Pour définir les Process Action, Pentaho Design studio Action Sequence Editor fournit les options suivantes :- Get Data : permet de définir une Data Source. -Prompt : permet de définir un filtre concernant la base de donnée à qui on va appliquer un stylsheet.

Process Outputs:

Pentaho Design studio Action sequence permet de définir les destinations pour le process Output. Les process Output dépendent du process input que nous avons défini.

Q8 : Le type de l’entrée Product Line est : string [chaîne de caractère].

Cette entrée à une valeur par défaut : Classic Cars.

Q9 : La liste des productLines est obtenue à partir d’un fichier XML se trouvant dans le répertoire « Dashboard » de « steel-wheels »

Il doit avoir le même nom que le productLine ajouté dans le process Input productLine.

Q10 : les choix possibles pour le format du rapport (outputType)

Page 19: Pentaho & Talend

28. Nous allons modifier le processus de manière simple. Pour cela, dans l'action de saisie du format du rapport, nous allons modifier le < Prompt Style > de < Radio Buttons >en <Pulldown >. puis nous allons enregistrer le résultat en lui donnant un nom particularisés pour chaque groupe de Tp dans le répertoire /home/pentaho/Desktop/biserver-ce/pentahosolutions/steel-wheels/reports (File, Save As)

Nous allons modifier le Prompt Style de Radio Buttons en Pulldown.

Page 20: Pentaho & Talend

29. Test du nouveau processus en utilisent le Client [serveur web].

Le résultat qu’on obtient est le suivant :

30. Etude du fichier ChartComponent_ChartTypes.xaction : 

Page 21: Pentaho & Talend
Page 22: Pentaho & Talend

Conclusion :Cette séance de TP nous à permit de se familiariser avec l’interface Pentaho comme outils décisionnel.

Page 23: Pentaho & Talend

http://www.talendforge.org/tutorials/tutorial.php?language=french&idTuto=62

Nettoyer et améliorer vos données avec des données de référence

Apprenez à identifier des données de mauvaise qualité, à les nettoyer et à les améliorer avec Talend Enterprise Data Quality

Dans ce tutoriel, nous allons analyser les données dans la perspective Profiling de Talend Enterprise Data Quality afin de voir les corrélations entre elles.Ensuite, nous allons les nettoyer et améliorer dans la perspective Design workspace.

Pour ce faire, vous devez télécharger le fichier exampleFile.zip rassemblant les fichiers de données, ainsi que les Jobs utilisés dans ce tutoriel.

Prérequis : Vous devez d'abord importer les Jobs disponibles dans le fichier exampleFile.zip dans votre Studio, et exécuter le Job Load_customer_data du dossier Prerequisite. Ce Job chargera les données client dans votre base de données, qui les analysera dans ce tutoriel.

Créer une analyse

Dans ce tutoriel, nous utilisons un exemple de fichier de données client.

Dans ce fichier, nous pouvons voir que les données semblent contenir des codes postaux valides, mais le nom des villes paraît mal orthographié.

Nous pouvons descendre dans le fichier pour voir d'autres données client.

Page 24: Pentaho & Talend

Des erreurs dans l'orthographe des villes peuvent également être vues dans le reste du fichier, et des lieux de la ville de New York sont mentionnés dans le champ City (ville).

Les codes postaux semblent être correctement définis.

Page 25: Pentaho & Talend

Dans la vue DQ Repository, à gauche de Talend Enterprise Data Quality :

Cliquez-droit sur le noeud DB Connections.

Dans le menu, cliquez sur New connection, afin d'ouvrir l'assistant Database Connection

Page 26: Pentaho & Talend

Dans l'assistant Database Connection :

Dans le champ Name, saisissez le nom que vous souhaitez donner à votre connexion à la base de données : CustomerDB.

Cliquez sur Next pour passer à l'étape suivante

Page 27: Pentaho & Talend

Dans cette étape, renseignez les paramètres de connexion à la base de données :

Dans les champs Login et Password, saisissez votre identifiant et votre mot de passe de connexion à la base de données.

Dans la liste DB Type, sélectionnez le type de base de données. Pour ce tutoriel, nous utilisons une base de données MySQL.

Décochez la case retrieve all metadata pour ne retourner que les métadonnées de la base de données utilisée dans ce tutoriel.

Dans la zone DB URL, saisissez l'URL de la base de données. Pour ce tutoriel, nous utilisons une base de données nommée talend-dbms.

Dans le champ DBname, renseignez le nom de la base de données, ici : tutorials.

Cliquez sur Finish pour fermer l'assistant et créer la connexion.

Page 28: Pentaho & Talend

La connexion s'affiche dans la vue DQ Repository.

Vous pouvez naviguer dans la base de données et ses tables.

Pour ce tutoriel, nous allons utiliser la table Customer_sample. Vous pouvez la développer pour vérifier ses colonnes.

Nous souhaitons analyser la colonne Zip. Cliquez-droit sur la colonne Zip et sélectionnez Analyze correlation dans le menu, afin d'ouvrir l'assistant New Analysis.

Page 29: Pentaho & Talend

Dans l'assistant New Analysis :Dans le champ Name, donnez un nom à votre analyse : corranalysis.Cliquez sur Finish pour fermer l'assistant et créer l'analyse.Next

Page 30: Pentaho & Talend

La nouvelle analyse s'affiche dans l'éditeur d'analyse.

Cliquez sur Select column to analyze, afin d'ajouter une nouvelle colonne à l'analyse.

Page 31: Pentaho & Talend

Dans l'assistant Column Selection :

La structure de la base de données s'affiche à gauche de l'assistant.

A droite de l'assistant, cochez la case City.

Cliquez sur OK pour valider.

Exécuter et vérifier l'analyse

La nouvelle colonne apparaît dans l'éditeur d'analyse.

Cliquez sur l'icône du bonhomme qui court afin de lancer l'analyse.

Une fois l'analyse exécutée, cliquez sur l'onglet Analysis Results, en bas de la fenêtre, pour voir les résultats.

Page 32: Pentaho & Talend

Dans l'onglet des résultats de corranalysis :

Descendez jusqu'à la zone Graphics.

Nous pouvons voir la corrélation entre le code postal 55555 et la ville de Young America, la corrélation entre 02026 et Dedham, etc.

Page 34: Pentaho & Talend

Vous pouvez clarifier l'affichage de ces corrélations. Pour ce faire :

Allez au bas de la zone Graphics.

Cochez la case Picking.

Une fois la case Picking cochée, vous pouvez cliquer sur chaque point bleu ou vert de la corrélation et le déplacer pour espacer les corrélations, afin de clarifier l'affichage des liens et des données.

Page 35: Pentaho & Talend

Descendez jusqu'à la zone Data de l'analyse.

Cliquez sur le nom de colonne Count, afin de trier les données par nombre d'occurrences.

Nous pouvons voir que les données les plus fréquentes sont celles dont l'orthographe est correcte.

Les autres sont les données devant être nettoyées.

Page 36: Pentaho & Talend

Nettoyer et enrichir vos données

Afin de nettoyer les données, nous allons utiliser le fichier census_data.csv, téléchargé pour ce tutoriel, qui est un fichier de référence téléchargé du Bureau du Recensement des États-Unis.

Ce fichier contient tous les codes postaux, tous les noms de villes, les ID des états, et le nom des Comtés, ainsi que la latitude, la longitude et la classe des codes postaux.

Nous allons également utiliser ce fichier pour nettoyer et enrichir les données client.

Page 37: Pentaho & Talend

Pour nettoyer les données, nous allons utiliser le Job Census_Lookup que vous avez téléchargé et importé depuis la section Download de ce tutoriel.

Pour ce faire, cliquez sur le bouton Design Workspace dans le coin supérieur droit du Studio.

Page 38: Pentaho & Talend

Le bouton Design Workspace est uniquement disponible dans Talend Enterprise Data Quality. Si vous utilisez Talend Open Studio for Data Quality, vous devez utiliser Talend Open Studio for Data Integration pour effectuer les étapes suivantes.

Dans le Repository :

Développez le noeud Metadata.

Mettez à jour la connexion RemoteDBMS, et les métadonnées du fichier Excel Customers File, avec votre emplacement de fichier et vos informations de connexion.

Développez le noeud Job Designs et double-cliquez sur le Job Census_Lookup pour l'ouvrir.

Page 39: Pentaho & Talend

Le Job comprend deux composants fichiers d'entrée : notre fichier de données client et le fichier des données de recensement ; un tMap, qui permettra d'effectuer une jointure entre les données de deux fichiers, et donc de nettoyer et d'enrichir nos données client ; et deux composants fichiers de sortie, contenant nos données nettoyées et les données rejetées.

Double-cliquez sur le tMap pour ouvrir son éditeur.

Page 40: Pentaho & Talend

Dans l'éditeur du tMap :

Les schémas des composants fichiers d'entrée s'affichent dans la zone en haut à gauche de l'éditeur.Les schémas des composants fichiers de sortie s'affichent dans la zone en haut à droite de l'éditeur.

Dans l'onglet Schema editor, en bas de l'éditeur, s'affichent les colonnes sélectionnées des schémas d'entrée et de sortie.

Page 41: Pentaho & Talend

Dans la zone d'entrée, nous pouvons voir que nos deux schémas customers et census_data sont liés par une jointure entre leur colonne Zip.

Page 42: Pentaho & Talend

C'est grâce à cette relation que nous pourrons enrichir et améliorer les données de notre fichier client, ainsi que d'ajouter les informations du type latitude et longitude.

Le tMap a aussi été défini pour remplacer le nom des villes dans le champ City et de l'état dans le champ State.

Page 43: Pentaho & Talend

Si la relation entre les deux fichiers ne peut être trouvée entre les codes postaux de la liste des clients et les données du recensement, l'enregistrement sera considéré en sortie comme flux de rejet.

Page 44: Pentaho & Talend

Dans le Job Designer :

Double-cliquez sur le composant Standardized Customers afin d'afficher sa vue Component.

Dans la vue Component :

Dans le champ File Name, cliquez sur le bouton [...], afin de définir le chemin d'accès et le nom du fichier contenant les données nettoyées.

Vous pouvez également cliquer sur le bouton Sync columns pour récupérer le schéma du composant précédent.

Page 45: Pentaho & Talend

Dans le Job Designer :

Double-cliquez sur le composant Zip Rejects afin d'afficher sa vue Component.

Dans la vue Component :

Dans le champ File Name, cliquez sur le bouton [...], afin de définir le chemin d'accès et le nom du fichier contenant les données rejetées.

Vous pouvez également cliquer sur le bouton Sync columns pour récupérer le schéma du composant précédent.

Page 46: Pentaho & Talend

Dans le Job Designer :

Appuyez sur Ctrl+S afin de sauvegarder votre Job.

Appuyez sur F6 pour l'exécuter.

La vue Run s'affiche en bas de Talend Open Studio, et la console suit l'exécution du Job.

Page 47: Pentaho & Talend

A présent, pour voir le résultat de notre opération de nettoyage et d'amélioration des données, dans le Job Designer :

Cliquez-droit sur le composant Zip Rejects, et sélectionnez data viewer dans le menu.

Nous pouvons voir dans l'assistant Data Preview que toutes les données rejetées sont rassemblées dans le fichier de rejet.

Cliquez sur Close pour fermer cet assistant.Next

Le Data Preview est uniquement disponible dans Talend Enterprise Data Quality. Si vous utilisez Talend Open Studio for Data Integration, vous ne pourrez pas visualiser les données à partir du studio.

Page 48: Pentaho & Talend

Cliquez-droit sur le composant Standardized Customers et sélectionnez data viewer dans le menu.

Nous pouvons voir dans l'assistant Data Preview que toutes les données correctes ont été nettoyées et améliorées par notre Job.

Cliquez sur Close pour fermer l'assistant.

Le Data Preview est uniquement disponible dans Talend Data Quality Studio. Si vous utilisez Talend Open Studio, vous ne pourrez pas visualiser les données à partir du studio.