Pentaho & Talend

Télécharger au format docx, pdf ou txt
Télécharger au format docx, pdf ou txt
Vous êtes sur la page 1sur 50

Universit Sidi Mohammed Ben Abdellah

Ecole Nationale des Sciences Appliques Fs


Filire : Gnie informatique

Compte Rendu

Pentaho
Informatique Dcisionnelle

Ralis par :

OUQA
S

Encadr

Moha

par :

mme
d

M
m
e.

ZINE-

N.
H.
C
H
A

Anne universitaire : 2014 2015

Utilisation de la plateforme Pentaho B.I


La plateforme Pentaho B.l. intgre diffrents composants utiles
pour laborer une solution dcisionnelle d'entreprise:

une base de donnes multidimensionnelle: Mondrian

un outil E.T.L. (Extract Transform and Load) : Kettle

un outil d'aide la cration de rapports : Report Designer

un outil d'aide la cration de processus dcisionnels pour


Pentaho : Pentaho Design Studio

un ensemble d'outils de data mining : Weka

un serveur application : JBoss/Tomcat

Le fonctionnement de la plateforme est de type client-serveur. Les


solutions sont stockes sur un serveur et peuvent tre utilises via un
navigateur web (Firefox, 1E,,.), Donc, si nous sommes < utilisateurs >
des solutions mises en place sur la plateforme dcisionnelle, nous nous
connecterons cette plateforme en utilisant notre navigateur intemet.
En revanche, si nous souhaitons laborer de nouvelles solutions, alors
il faudra les << crer > ou les < pubtier > sur le serueur.
La premire partie de ce TP est consacre la dcouverte des
solutions dcisionnelles ct utilisateur. ll s'agira essentiellement d'une
exploration des exemples proposs dans la plateforme Pentaho. La
deuxime partie du TP sera consacre l'tude d'une solution dj
mise en place. Le troisime volet consistera en la mise en place d'une
solution nouvelle.

Dcouverte des solutions dcisionnelles cot utilisateur :


1. Ouvrir un navigateur internet (Internet Explorer)
2. Se connecter l'adresse du serveur :
http://localhost:8080/pentaho
Voici linterface pentaho :

3. Utiliser le bouton < Pentaho User Console Login > puis choisir
l'utilisateur Joe (valider)

4. A gauche apparat le navigateur de


solutions (rpertoires en haut, fichiers en
bas)

5. Slectionner Reporting >> Inventory Report

En choisissant Classic Cars comme product line et PDF


comme report format , on visualise lapparition du PDF sur

linterface Pentaho, contenant les diffrentes informations sur le


produit.

Si on choisit le format Excel pour le rapport, on aura le rsultat cidessous :

6. On a explor les rpertoires Charts puis Dashboard.

7. On slectionne le rpertoire Analysis >> Product Line


Analysis

En haut, on aura une barre doutils :

Q1 : les dimensions danalyse sont :


-

Produit

Market

Time

Q2 : les mesures danalyse :


-

Quantity

Sales

8. On slectionne loutil Drill Member dans la barre doutils, puis


loutil OLAP pour slectionner All Markets :

Et on obtient le tableau suivant :

Drill Member nous donne plus de dtails : lorsquon clique sur le


+ de All Markets ou de All products on obtient plus de
dtails sur ces derniers.

9. On slectionne loutil Drill position dans la barre doutils, puis


+All Markets , +EMEA , puis +France , puis + All
Products pour la France .On obtient le tableau suivant :

Drill Position nous donne les positions dans le cube.


Q4 : le quantit de trains commands Steel Wheels en France pour
toute la dure denregistrement des informations du systme :
On a fait la somme des quantits des quantits
commande des annes 2004 et 2005 et on
obtient : 27341

Q5 : la quantit de trains commands Steel


Wheels en Novembre 2004 :
On rassemble toutes les valeurs correspondantes la quantit des
trains commands Steel Wheels en Novembre 2004 et on trouve la
valeur : 124 750.
10.
On slectionne loutil Drill remplacement dans la barre
doutils puis on slectionne la flche descendante de la colonne All
Markets puis celle de la zone EMEA puis celle de la colonne All
Products pour la France puis celle de la colonne All Products
correspondant aux trains :

Q6 : On remarque que Drill remplacement affiche tous les produits


concernant les trains pour la France et aussi pour tous les membres
de lEMEA. On remarque aussi quil naffiche pas le type trains. Donc
plus de dtails (on peut revenir en arrire travers les flches).

11.

On referme toutes les colonnes on utilisant la flche ascendante

12.
On slectionne loutil Drill position dans la barre doutils
puis on slectionne le + de la colonne All Markets puis celui de
la zone EMEA puis ceui de la colonne All Products pour la France
puis celui de la colonne correspondant aux trains.

13.
Pui on slectionne loutil Drill through dans la barre doutils
puis la mesure correspondant la quantit de trains commande en
France.

A la fin de la page on obtient le rsultat suivant :

Q7 : On remarque que Drill Through nous donne plus de dtails sur les
ventes en termes de ligne de production, de quantit, de produit,
On conclut que Drill Throught accde dans la dimension pour en
afficher les dtails.

14.

On referme toutes les colonnes.

15.
On slectionne loutils Drill remplacement dans la barre
doutils puis la flche descendante de la colonne All Markets ,
aprs on slectionne loutil de paramtrage de diagramme et on
choisit Pie Charts by Row comme type de diagramme, puis on
paramtre le champ Show Legend Right :

On slectionne laffichage du diagramme :

Cela nous donne des graphes pour chaque pays avec les
distributions de chaque anne.
On remarque aussi que lorsquon clique sur All years, on pour
chaque pays les achats de tous les produits et de tous les clients par
anne. Ce qui est clair sue le graphe.

16.
On slectionne loutil de paramtrage de diagramme, puis on
choisit Stacked Horizontal Bar comme type de diagramme. Voici
le rsultat observ :

Le rsultat est sous forme de barres. Stacked Horizontal Bar permet


de transformer le diagramme en cercle en barres horizontales. En
effet il affiche les mmes rsultats.

17.
On referme toutes les colonnes aprs avoir enlever laffichage
du diagramme.

18.
On affiche loutils navigateur OLAP . cet outil permet de
modifier la manire dafficher les informations dans le tableau
danalyse. On peut voir que les mesures sont affiches en colonnes
et les dimensions sont affiches en lignes dans le tableau initial.

19.
On slectionne Mesures puis on choisit dafficher
Quantity et Sales , et puis valider OK :

Le tableau modifi apparait :

On remarque les 2 colonnes Quantity et Sales.

20.
On affiche loutil Navigateur OLAP . on va placer un filtre sur
la dimension temporelle. Pour cela, on transforme la dimension
Time en filtre en utilisant loprateur de filtre :

La dimension Time est alors passe dans les filtres. Une fois filtre,
on peut choisir la valeur du filtrage ( on choisit lanne 2004).

On obtient le rsultat suivant :

On obtient les mesures dans lanne 2004.

21.
on affiche loutil Navigateur OLAP on slectionne
Market en ne slectionnant que la zone EMEA comme zone
afficher.

on obtient les mesures que sur EMEA.

22.
on affiche loutil Navigateur OLAP on passe la dimension
Product en colonne .

Voici le rsultat obtenu :

tude d'une solution dj ralise


(ct serveur)- Utilisation de Pentaho
Design Studio
23.

on entre dans Pentaho Design Studio.

24.
On choisit un nouveau workspace, puis on slectionne
workBench.

25.
Nous allons maintenant slectionner le fichier < .xaction >
qui contient les traitements raliser pour l'exemple. Ce fichier
est situ dans le rpertoire /home/pentaho/Desktop/biserverce/pentahosolutions/steel-wheels/reports et s'appelle <<
Inventory List.xaction >. L'ouvrir en utilisant le menu < File >
< Open File > de Pentaho Design Studio.

26.
On voit 3 zones apparatre < Process Inputs >, < Process
Actions >, << Process Outputs >>

27.

Les zones :

Process Inputs:
Sont des paramtres de programmeur dfinis qui fournissent la
matire premire pour une action de squence. Ils peuvent galement
tre dsigns comme paramtres dentre. Process input ainsi que les
ressources dfinissent les paramtres qui seront transmis un
composant quand il sexcute. Certaines entres sont facultatives, et
certaines sont ncessaires afin dviter des erreurs pendant
lexcution. Il ya plusieurs faon de satisfaire une entre requise. Il
peut tre soit : pass en paramtre avec le mme nom, soit correspond

un nom diffrent soit pass en paramtre cod en hard avec une


valeur constante.
Process Action:
Process Action sont des oprations qui sont utiliss sur les process
input. Il contient toutes les actions que Pentaho doit faire. Avec un
simple clic gauche sur le nom dune action, droite saffiche les
lments qui la composent. Pour dfinir les Process Action, Pentaho
Design studio Action Sequence Editor fournit les options suivantes :
- Get Data : permet de dfinir une Data Source.
-Prompt : permet de dfinir un filtre concernant la base de donne
qui on va appliquer un stylsheet.
Process Outputs:
Pentaho Design studio Action sequence permet de dfinir les
destinations pour le process Output. Les process Output dpendent du
process input que nous avons dfini.
Q8 : Le type de lentre Product Line est : string [chane de caractre].

Cette entre une valeur par dfaut : Classic Cars.

Q9 : La liste des productLines est obtenue partir dun fichier XML se


trouvant dans le rpertoire Dashboard de steel-wheels
Il doit avoir le mme nom que le productLine ajout dans le process
Input productLine.
Q10 : les choix possibles pour le format du rapport (outputType)

28.
Nous allons modifier le processus de manire simple. Pour
cela, dans l'action de saisie du format du rapport, nous allons
modifier le < Prompt Style > de < Radio Buttons >en <Pulldown
>. puis nous allons enregistrer le rsultat en lui donnant un
nom particulariss pour chaque groupe de Tp dans le
rpertoire /home/pentaho/Desktop/biserverce/pentahosolutions/steel-wheels/reports (File, Save As)

Nous allons modifier le Prompt Style de Radio Buttons en Pulldown.

29.

Test du nouveau processus en utilisent le Client [serveur web].

Le rsultat quon obtient est le suivant :

30.

Etude du fichier ChartComponent_ChartTypes.xaction :

Conclusion :

Cette sance de TP nous permit de se familiariser avec linterface


Pentaho comme outils dcisionnel.

http://www.talendforge.org/tutorials/tutorial.php?language=french&idTuto=62

Nettoyer et amliorer vos donnes avec des donnes de rfrence


Apprenez identifier des donnes de mauvaise qualit, les nettoyer et les
amliorer avec Talend Enterprise Data Quality
Dans ce tutoriel, nous allons analyser les donnes dans la perspective Profiling de Talend
Enterprise Data Quality afin de voir les corrlations entre elles.
Ensuite, nous allons les nettoyer et amliorer dans la perspective Design workspace.
Pour ce faire, vous devez tlcharger le fichier exampleFile.zip rassemblant les fichiers de
donnes, ainsi que les Jobs utiliss dans ce tutoriel.
Prrequis
:
Vous devez d'abord importer les Jobs disponibles dans le fichier exampleFile.zip dans votre
Studio, et excuter le Job Load_customer_data du dossier Prerequisite. Ce Job chargera les
donnes client dans votre base de donnes, qui les analysera dans ce tutoriel.

Crer une analyse


Dans

ce

tutoriel,

nous

utilisons

un

exemple

de

fichier

de

donnes

client.

Dans ce fichier, nous pouvons voir que les donnes semblent contenir des codes postaux valides, mais
le
nom
des
villes
parat
mal
orthographi.
Nous pouvons descendre dans le fichier pour voir d'autres donnes client.

Des erreurs dans l'orthographe des villes peuvent galement tre vues dans le reste du fichier, et des
lieux de la ville de New York sont mentionns dans le champ City (ville).
Les codes postaux semblent tre correctement dfinis.

Dans la vue DQ Repository, gauche de Talend Enterprise Data Quality :


Cliquez-droit sur le noeud DB Connections.
Dans le menu, cliquez sur New connection, afin d'ouvrir l'assistant Database Connection

Dans l'assistant Database Connection :


Dans le champ Name, saisissez le nom que vous souhaitez donner votre connexion la base de
donnes : CustomerDB.
Cliquez sur Next pour passer l'tape suivante

Dans cette tape, renseignez les paramtres de connexion la base de donnes :


Dans les champs Login et Password, saisissez votre identifiant et votre mot de passe de connexion
la base de donnes.
Dans la liste DB Type, slectionnez le type de base de donnes. Pour ce tutoriel, nous utilisons une
base de donnes MySQL.
Dcochez la case retrieve all metadata pour ne retourner que les mtadonnes de la base de donnes
utilise dans ce tutoriel.
Dans la zone DB URL, saisissez l'URL de la base de donnes. Pour ce tutoriel, nous utilisons une base
de donnes nomme talend-dbms.
Dans le champ DBname, renseignez le nom de la base de donnes, ici : tutorials.
Cliquez sur Finish pour fermer l'assistant et crer la connexion.

La connexion s'affiche dans la vue DQ Repository.


Vous pouvez naviguer dans la base de donnes et ses tables.
Pour ce tutoriel, nous allons utiliser la table Customer_sample. Vous pouvez la dvelopper pour
vrifier ses colonnes.
Nous souhaitons analyser la colonne Zip. Cliquez-droit sur la colonne Zip et slectionnez Analyze
correlation dans le menu, afin d'ouvrir l'assistant New Analysis.

Dans l'assistant New Analysis :


Dans le champ Name, donnez un nom votre analyse : corranalysis.
Cliquez sur Finish pour fermer l'assistant et crer l'analyse.
Next

La

nouvelle

analyse

s'affiche

dans

l'diteur

Cliquez sur Select column to analyze, afin d'ajouter une nouvelle colonne l'analyse.

d'analyse.

Dans
La

l'assistant
structure

de

la

droite

Column

base

de

de

donnes

l'assistant,

Selection

s'affiche

cochez

gauche
la

:
de

l'assistant.

case

City.

Cliquez sur OK pour valider.

Excuter et vrifier l'analyse


La

nouvelle

Cliquez

sur

l'icne

colonne
du

apparat

bonhomme

qui

dans
court

afin

l'diteur

d'analyse.

de

l'analyse.

lancer

Une fois l'analyse excute, cliquez sur l'onglet Analysis Results, en bas de la fentre, pour voir les
rsultats.

Dans
Descendez

l'onglet

des
jusqu'

rsultats
la

de

corranalysis
zone

:
Graphics.

Nous pouvons voir la corrlation entre le code postal 55555 et la ville de Young America, la corrlation
entre 02026 et Dedham, etc.

Descendez pour voir les autres corrlations et les diffrences d'orthographe de North Reading.

Vous
Allez

pouvez

clarifier
au

l'affichage
bas

de
de

ces

corrlations.
la

Pour
zone

ce

faire

Graphics.

Cochez la case Picking.

Une fois la case Picking coche, vous pouvez cliquer sur chaque point bleu ou vert de la corrlation et
le dplacer pour espacer les corrlations, afin de clarifier l'affichage des liens et des donnes.

Descendez

jusqu'

la

zone

Data

de

l'analyse.

Cliquez sur le nom de colonne Count, afin de trier les donnes par nombre d'occurrences.
Nous pouvons voir que les donnes les plus frquentes sont celles dont l'orthographe est correcte.
Les autres sont les donnes devant tre nettoyes.

Nettoyer et enrichir vos donnes


Afin de nettoyer les donnes, nous allons utiliser le fichier census_data.csv, tlcharg pour ce
tutoriel, qui est un fichier de rfrence tlcharg du Bureau du Recensement des tats-Unis.
Ce fichier contient tous les codes postaux, tous les noms de villes, les ID des tats, et le nom des
Comts, ainsi que la latitude, la longitude et la classe des codes postaux.
Nous allons galement utiliser ce fichier pour nettoyer et enrichir les donnes client.

Pour nettoyer les donnes, nous allons utiliser le Job Census_Lookup que vous avez tlcharg et
import
depuis
la
section
Download
de
ce
tutoriel.
Pour ce faire, cliquez sur le bouton Design Workspace dans le coin suprieur droit du Studio.

Le bouton Design Workspace est uniquement disponible dans Talend Enterprise Data
Quality. Si vous utilisez Talend Open Studio for Data Quality, vous devez utiliser Talend
Open Studio for Data Integration pour effectuer les tapes suivantes.

Dans
Dveloppez

le

Repository
le

noeud

:
Metadata.

Mettez jour la connexion RemoteDBMS, et les mtadonnes du fichier Excel Customers File, avec
votre
emplacement
de
fichier
et
vos
informations
de
connexion.
Dveloppez le noeud Job Designs et double-cliquez sur le Job Census_Lookup pour l'ouvrir.

Le Job comprend deux composants fichiers d'entre : notre fichier de donnes client et le fichier des
donnes de recensement ; un tMap, qui permettra d'effectuer une jointure entre les donnes de deux
fichiers, et donc de nettoyer et d'enrichir nos donnes client ; et deux composants fichiers de sortie,
contenant
nos
donnes
nettoyes
et
les
donnes
rejetes.
Double-cliquez sur le tMap pour ouvrir son diteur.

Dans

l'diteur

du

tMap

Les schmas des composants fichiers d'entre s'affichent dans la zone en haut gauche de l'diteur.
Les schmas des composants fichiers de sortie s'affichent dans la zone en haut droite de l'diteur.
Dans l'onglet Schema editor, en bas de l'diteur, s'affichent les colonnes slectionnes des schmas
d'entre et de sortie.

Dans la zone d'entre, nous pouvons voir que nos deux schmas customers et census_data sont lis par
une jointure entre leur colonne Zip.

C'est grce cette relation que nous pourrons enrichir et amliorer les donnes de notre fichier client,
ainsi
que
d'ajouter
les
informations
du
type
latitude
et
longitude.
Le tMap a aussi t dfini pour remplacer le nom des villes dans le champ City et de l'tat dans le
champ State.

Si la relation entre les deux fichiers ne peut tre trouve entre les codes postaux de la liste des clients
et les donnes du recensement, l'enregistrement sera considr en sortie comme flux de rejet.

Dans

le

Job

Designer

Double-cliquez sur le composant Standardized Customers afin d'afficher sa vue Component.


Dans

la

vue

Component

Dans le champ File Name, cliquez sur le bouton [...], afin de dfinir le chemin d'accs et le nom du
fichier
contenant
les
donnes
nettoyes.
Vous pouvez galement cliquer sur le bouton Sync columns pour rcuprer le schma du composant
prcdent.

Dans
Double-cliquez
Dans

le
sur

le
la

Job
composant

Zip

Rejects
vue

Designer
afin

d'afficher

sa

Component

:
vue

Component.
:

Dans le champ File Name, cliquez sur le bouton [...], afin de dfinir le chemin d'accs et le nom du
fichier
contenant
les
donnes
rejetes.
Vous pouvez galement cliquer sur le bouton Sync columns pour rcuprer le schma du composant
prcdent.

Dans
Appuyez
Appuyez

le
sur

Job
Ctrl+S

sur

afin

Designer
de

F6

sauvegarder

:
votre

pour

La vue Run s'affiche en bas de Talend Open Studio, et la console suit l'excution du Job.

Job.
l'excuter.

A prsent, pour voir le rsultat de notre opration de nettoyage et d'amlioration des donnes, dans le
Job
Designer
:
Cliquez-droit sur le composant Zip Rejects, et slectionnez data viewer dans le menu.
Nous pouvons voir dans l'assistant Data Preview que toutes les donnes rejetes sont rassembles
dans
le
fichier
de
rejet.
Cliquez sur Close pour fermer cet assistant.
Next
Le Data Preview est uniquement disponible dans Talend Enterprise Data Quality. Si vous
utilisez Talend Open Studio for Data Integration, vous ne pourrez pas visualiser les donnes
partir du studio.

Cliquez-droit sur le composant Standardized Customers et slectionnez data viewer dans le menu.
Nous pouvons voir dans l'assistant Data Preview que toutes les donnes correctes ont t nettoyes et
amliores
par
notre
Job.
Cliquez sur Close pour fermer l'assistant.
Le Data Preview est uniquement disponible dans Talend Data Quality Studio. Si vous
utilisez Talend Open Studio, vous ne pourrez pas visualiser les donnes partir du studio.

Vous aimerez peut-être aussi

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy