Pentaho & Talend
Pentaho & Talend
Pentaho & Talend
Compte Rendu
Pentaho
Informatique Dcisionnelle
Ralis par :
OUQA
S
Encadr
Moha
par :
mme
d
M
m
e.
ZINE-
N.
H.
C
H
A
3. Utiliser le bouton < Pentaho User Console Login > puis choisir
l'utilisateur Joe (valider)
Produit
Market
Time
Quantity
Sales
11.
12.
On slectionne loutil Drill position dans la barre doutils
puis on slectionne le + de la colonne All Markets puis celui de
la zone EMEA puis ceui de la colonne All Products pour la France
puis celui de la colonne correspondant aux trains.
13.
Pui on slectionne loutil Drill through dans la barre doutils
puis la mesure correspondant la quantit de trains commande en
France.
Q7 : On remarque que Drill Through nous donne plus de dtails sur les
ventes en termes de ligne de production, de quantit, de produit,
On conclut que Drill Throught accde dans la dimension pour en
afficher les dtails.
14.
15.
On slectionne loutils Drill remplacement dans la barre
doutils puis la flche descendante de la colonne All Markets ,
aprs on slectionne loutil de paramtrage de diagramme et on
choisit Pie Charts by Row comme type de diagramme, puis on
paramtre le champ Show Legend Right :
Cela nous donne des graphes pour chaque pays avec les
distributions de chaque anne.
On remarque aussi que lorsquon clique sur All years, on pour
chaque pays les achats de tous les produits et de tous les clients par
anne. Ce qui est clair sue le graphe.
16.
On slectionne loutil de paramtrage de diagramme, puis on
choisit Stacked Horizontal Bar comme type de diagramme. Voici
le rsultat observ :
17.
On referme toutes les colonnes aprs avoir enlever laffichage
du diagramme.
18.
On affiche loutils navigateur OLAP . cet outil permet de
modifier la manire dafficher les informations dans le tableau
danalyse. On peut voir que les mesures sont affiches en colonnes
et les dimensions sont affiches en lignes dans le tableau initial.
19.
On slectionne Mesures puis on choisit dafficher
Quantity et Sales , et puis valider OK :
20.
On affiche loutil Navigateur OLAP . on va placer un filtre sur
la dimension temporelle. Pour cela, on transforme la dimension
Time en filtre en utilisant loprateur de filtre :
La dimension Time est alors passe dans les filtres. Une fois filtre,
on peut choisir la valeur du filtrage ( on choisit lanne 2004).
21.
on affiche loutil Navigateur OLAP on slectionne
Market en ne slectionnant que la zone EMEA comme zone
afficher.
22.
on affiche loutil Navigateur OLAP on passe la dimension
Product en colonne .
24.
On choisit un nouveau workspace, puis on slectionne
workBench.
25.
Nous allons maintenant slectionner le fichier < .xaction >
qui contient les traitements raliser pour l'exemple. Ce fichier
est situ dans le rpertoire /home/pentaho/Desktop/biserverce/pentahosolutions/steel-wheels/reports et s'appelle <<
Inventory List.xaction >. L'ouvrir en utilisant le menu < File >
< Open File > de Pentaho Design Studio.
26.
On voit 3 zones apparatre < Process Inputs >, < Process
Actions >, << Process Outputs >>
27.
Les zones :
Process Inputs:
Sont des paramtres de programmeur dfinis qui fournissent la
matire premire pour une action de squence. Ils peuvent galement
tre dsigns comme paramtres dentre. Process input ainsi que les
ressources dfinissent les paramtres qui seront transmis un
composant quand il sexcute. Certaines entres sont facultatives, et
certaines sont ncessaires afin dviter des erreurs pendant
lexcution. Il ya plusieurs faon de satisfaire une entre requise. Il
peut tre soit : pass en paramtre avec le mme nom, soit correspond
28.
Nous allons modifier le processus de manire simple. Pour
cela, dans l'action de saisie du format du rapport, nous allons
modifier le < Prompt Style > de < Radio Buttons >en <Pulldown
>. puis nous allons enregistrer le rsultat en lui donnant un
nom particulariss pour chaque groupe de Tp dans le
rpertoire /home/pentaho/Desktop/biserverce/pentahosolutions/steel-wheels/reports (File, Save As)
29.
30.
Conclusion :
http://www.talendforge.org/tutorials/tutorial.php?language=french&idTuto=62
ce
tutoriel,
nous
utilisons
un
exemple
de
fichier
de
donnes
client.
Dans ce fichier, nous pouvons voir que les donnes semblent contenir des codes postaux valides, mais
le
nom
des
villes
parat
mal
orthographi.
Nous pouvons descendre dans le fichier pour voir d'autres donnes client.
Des erreurs dans l'orthographe des villes peuvent galement tre vues dans le reste du fichier, et des
lieux de la ville de New York sont mentionns dans le champ City (ville).
Les codes postaux semblent tre correctement dfinis.
La
nouvelle
analyse
s'affiche
dans
l'diteur
Cliquez sur Select column to analyze, afin d'ajouter une nouvelle colonne l'analyse.
d'analyse.
Dans
La
l'assistant
structure
de
la
droite
Column
base
de
de
donnes
l'assistant,
Selection
s'affiche
cochez
gauche
la
:
de
l'assistant.
case
City.
nouvelle
Cliquez
sur
l'icne
colonne
du
apparat
bonhomme
qui
dans
court
afin
l'diteur
d'analyse.
de
l'analyse.
lancer
Une fois l'analyse excute, cliquez sur l'onglet Analysis Results, en bas de la fentre, pour voir les
rsultats.
Dans
Descendez
l'onglet
des
jusqu'
rsultats
la
de
corranalysis
zone
:
Graphics.
Nous pouvons voir la corrlation entre le code postal 55555 et la ville de Young America, la corrlation
entre 02026 et Dedham, etc.
Descendez pour voir les autres corrlations et les diffrences d'orthographe de North Reading.
Vous
Allez
pouvez
clarifier
au
l'affichage
bas
de
de
ces
corrlations.
la
Pour
zone
ce
faire
Graphics.
Une fois la case Picking coche, vous pouvez cliquer sur chaque point bleu ou vert de la corrlation et
le dplacer pour espacer les corrlations, afin de clarifier l'affichage des liens et des donnes.
Descendez
jusqu'
la
zone
Data
de
l'analyse.
Cliquez sur le nom de colonne Count, afin de trier les donnes par nombre d'occurrences.
Nous pouvons voir que les donnes les plus frquentes sont celles dont l'orthographe est correcte.
Les autres sont les donnes devant tre nettoyes.
Pour nettoyer les donnes, nous allons utiliser le Job Census_Lookup que vous avez tlcharg et
import
depuis
la
section
Download
de
ce
tutoriel.
Pour ce faire, cliquez sur le bouton Design Workspace dans le coin suprieur droit du Studio.
Le bouton Design Workspace est uniquement disponible dans Talend Enterprise Data
Quality. Si vous utilisez Talend Open Studio for Data Quality, vous devez utiliser Talend
Open Studio for Data Integration pour effectuer les tapes suivantes.
Dans
Dveloppez
le
Repository
le
noeud
:
Metadata.
Mettez jour la connexion RemoteDBMS, et les mtadonnes du fichier Excel Customers File, avec
votre
emplacement
de
fichier
et
vos
informations
de
connexion.
Dveloppez le noeud Job Designs et double-cliquez sur le Job Census_Lookup pour l'ouvrir.
Le Job comprend deux composants fichiers d'entre : notre fichier de donnes client et le fichier des
donnes de recensement ; un tMap, qui permettra d'effectuer une jointure entre les donnes de deux
fichiers, et donc de nettoyer et d'enrichir nos donnes client ; et deux composants fichiers de sortie,
contenant
nos
donnes
nettoyes
et
les
donnes
rejetes.
Double-cliquez sur le tMap pour ouvrir son diteur.
Dans
l'diteur
du
tMap
Les schmas des composants fichiers d'entre s'affichent dans la zone en haut gauche de l'diteur.
Les schmas des composants fichiers de sortie s'affichent dans la zone en haut droite de l'diteur.
Dans l'onglet Schema editor, en bas de l'diteur, s'affichent les colonnes slectionnes des schmas
d'entre et de sortie.
Dans la zone d'entre, nous pouvons voir que nos deux schmas customers et census_data sont lis par
une jointure entre leur colonne Zip.
C'est grce cette relation que nous pourrons enrichir et amliorer les donnes de notre fichier client,
ainsi
que
d'ajouter
les
informations
du
type
latitude
et
longitude.
Le tMap a aussi t dfini pour remplacer le nom des villes dans le champ City et de l'tat dans le
champ State.
Si la relation entre les deux fichiers ne peut tre trouve entre les codes postaux de la liste des clients
et les donnes du recensement, l'enregistrement sera considr en sortie comme flux de rejet.
Dans
le
Job
Designer
la
vue
Component
Dans le champ File Name, cliquez sur le bouton [...], afin de dfinir le chemin d'accs et le nom du
fichier
contenant
les
donnes
nettoyes.
Vous pouvez galement cliquer sur le bouton Sync columns pour rcuprer le schma du composant
prcdent.
Dans
Double-cliquez
Dans
le
sur
le
la
Job
composant
Zip
Rejects
vue
Designer
afin
d'afficher
sa
Component
:
vue
Component.
:
Dans le champ File Name, cliquez sur le bouton [...], afin de dfinir le chemin d'accs et le nom du
fichier
contenant
les
donnes
rejetes.
Vous pouvez galement cliquer sur le bouton Sync columns pour rcuprer le schma du composant
prcdent.
Dans
Appuyez
Appuyez
le
sur
Job
Ctrl+S
sur
afin
Designer
de
F6
sauvegarder
:
votre
pour
La vue Run s'affiche en bas de Talend Open Studio, et la console suit l'excution du Job.
Job.
l'excuter.
A prsent, pour voir le rsultat de notre opration de nettoyage et d'amlioration des donnes, dans le
Job
Designer
:
Cliquez-droit sur le composant Zip Rejects, et slectionnez data viewer dans le menu.
Nous pouvons voir dans l'assistant Data Preview que toutes les donnes rejetes sont rassembles
dans
le
fichier
de
rejet.
Cliquez sur Close pour fermer cet assistant.
Next
Le Data Preview est uniquement disponible dans Talend Enterprise Data Quality. Si vous
utilisez Talend Open Studio for Data Integration, vous ne pourrez pas visualiser les donnes
partir du studio.
Cliquez-droit sur le composant Standardized Customers et slectionnez data viewer dans le menu.
Nous pouvons voir dans l'assistant Data Preview que toutes les donnes correctes ont t nettoyes et
amliores
par
notre
Job.
Cliquez sur Close pour fermer l'assistant.
Le Data Preview est uniquement disponible dans Talend Data Quality Studio. Si vous
utilisez Talend Open Studio, vous ne pourrez pas visualiser les donnes partir du studio.