Memoire Jihene Sellami
Memoire Jihene Sellami
Memoire Jihene Sellami
MÉMOIRE DE MASTERE
MASTÉRE PROfESSIOnnEL
IngÉnIERIE DES SySTÈMES D’InfoRMATIOn ET DES
ConnAISSAncES
SOUS LA DIRECTIOn dE :
M. RIADH KHAncHEL M. HEITHEM DRIDI
FSEG NABEUL BIAT TUnISIE
Je souhaite adresser mes remerciements les plus sincères aux personnes qui m’ont ap-
porté leur aide et ont contribué à l’élaboration de ce travail.
Je saisis cette occasion pour remercier les membres du jury en espérant qu’ils
trouvent dans ce mémoire les qualités de clarté et de motivation qu’il attendent.
Enfin, je remercie tous ceux qui m’ont aidé de près ou de loin dans l’élaboration de
ce travail.
2
Dédicaces
Ma mère Fatma,
Pour sa précieuse attention à mon égard.
3
Table des matières
1 L’informatique décisionnelle 13
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2 Concepts généraux du BI . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2.1 La Business Intelligence . . . . . . . . . . . . . . . . . . . . . . 13
1.2.2 Les domaines d’application de la Business Intelligence . . . . . 13
1.2.3 Les enjeux des applications de Business Intelligence . . . . . . 14
1.3 Démarche de construction d’un entrepôt de données . . . . . . . . . . 14
1.3.1 Modélisation et Conception de l’entrepôt . . . . . . . . . . . . . 14
1.3.1.1 Approche ascendante . . . . . . . . . . . . . . . . . . 15
1.3.1.2 Approche descendante . . . . . . . . . . . . . . . . . 15
1.3.2 Alimentation de l’entrepôt . . . . . . . . . . . . . . . . . . . . . 15
1.3.2.1 Extraction des données . . . . . . . . . . . . . . . . . 15
1.3.2.2 Transformation des données . . . . . . . . . . . . . . 15
1.3.2.3 Chargement des données . . . . . . . . . . . . . . . . 16
1.3.3 Administration . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3.4 Restitution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4 Modélisation dimensionnelle . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4.1 Concept de fait . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4.2 Concept de dimension . . . . . . . . . . . . . . . . . . . . . . . 17
1.4.3 Différents modèles de la modélisation dimensionnelle . . . . . 18
1.5 Le Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.5.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.5.2 Les bases des données NoSQL . . . . . . . . . . . . . . . . . . . 19
1.5.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . 19
1.5.2.2 La différence entre SQL et NoSQL . . . . . . . . . . . 19
1.5.2.3 Schémas de données dans les bases NoSQL . . . . . . 19
1.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2 Cadre du projet 21
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2 Présentation de l’organisme d’accuei : BIAT . . . . . . . . . . . . . . . 21
2.2.1 Présentation générale . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.2 Organigrammme global . . . . . . . . . . . . . . . . . . . . . . 22
2.2.3 Les missions du département système d’information . . . . . . 22
2.3 Cadre du projet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3.1 contexte du projet . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3.2 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4
Table des
4 Réalisation 40
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2 Environnement de réalisation . . . . . . . . . . . . . . . . . . . . . . . 40
4.2.1 Environnement matériel . . . . . . . . . . . . . . . . . . . . . . 40
4.2.2 Environnement logiciels . . . . . . . . . . . . . . . . . . . . . . 40
4.3 Description des processus ETL . . . . . . . . . . . . . . . . . . . . . . . 42
4.3.1 Les outils ETL . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.3.2 Étapes ETL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.3.2.1 Extraction des données . . . . . . . . . . . . . . . . . 44
4.3.2.2 Transformation des données . . . . . . . . . . . . . . 45
4.3.2.3 Chargement des données . . . . . . . . . . . . . . . . 48
4.3.2.4 Création et chargement du Data mart . . . . . . . . . 50
5
Table des
6
Table des figures
1.1 "Démarche de construction d’un entrepôt de données".................................14
1.2 "Le cycle de vie d’un projet en BI".................................................................17
1.3 "types de bases de données NoSQL"..............................................................20
7
Table des figures
8
Liste des tableaux
2.1 Backlog du produit..........................................................................................28
9
Abréviations
1
Introduction générale
De nos jours, l’information est omniprésente, la difficulté n’est plus de la recueilli,
mais de la rendre disponible sous la bonne forme, au bon moment, pour l’exploiter et
en tirer la valeur ajoutée.
Dans cette optique, la plupart des entreprises se dirigent vers l’informatique décision-
nelle afin de faire face aux énormes masses de données, extraire des informations si-
gnificatives, enrichir les analyses tactiques et opérationnelles et de mieux éclairer les
prises de décision.
1
Liste des tableaux
Au fil des pages suivantes nous présentons l’illustration du travail effectué qui est
articulé autour de quatre chapitres :
Finalement, la clôture du projet sera avec une conclusion générale et quelques pers-
pectives pour la continuité de ce travail.
1
1
CHAPITR
L’informatique
décisionnelle
1.1 Introduction
Ce chapitre, présente l’informatique décisionnelle en détallaient ses termes, ses
concepts clés, la notion d’ETL et d’entrepôt de données. Puis il décrit les notions de
Big Data et de bases de données NoSQL.
1
CHAPITRE 1. L’INFORMATIQUE
— Ressources humaines : Suivi des effectifs, masse salariale, la gestion des car-
rières.
— Commercial - Force de vente : Suivi des objectifs, analyse des actions, générer
des prévisions des ventes, détection de nouvelles opportunités.
— Logistique : Suivi des volumes, optimisation des transport et approvisionne-
ments .
1
CHAPITRE 1. L’INFORMATIQUE
Commence par construire les magasins de données, puis les combines au sein d’un
unique entrepôt de données.
Cette phase revient à extraire de gros volumes de données brutes depuis différentes
sources, comme des fichiers, des feuilles de calcul, des systèmes de base de données et
des applications.
La taille des données extraites varie de quelques centaines de kilo-octets à plusieurs
Giga-octets, selon le système source et la situation commerciale.
Une fois les données extraites, elles doivent être physiquement transportées vers la
destination cible et converties dans le format approprié. Cette transformation passe par
plusieurs étapes tel que :
— Résolution des informations manquantes.
— Validation des données.
— Conversion en format standard.
— Nettoyage des données.
— Assemblages des données.
— Construction d’agrégats pour optimiser les performances des requêtes les plus
courantes.
— Application des filtres.
1
CHAPITRE 1. L’INFORMATIQUE
Cette phase vise à transférer les données qualifiées vers un emplacement cible qui peut
être une base de données ou un Data Warehouse. Il existe deux méthodes de
chargement de données :
— Chargement complet : Implique un chargement complet de données qui a
lieu la première fois que la source est chargée dans l’entrepôt.
— Chargement incrémental : qui a lieu à intervalles réguliers. Ces intervalles
peuvent être des incréments de flux (meilleurs pour de plus petits volumes de
données) ou des incréments de lots (meilleurs pour de plus grands volumes
de données).
1.3.3 Administration
L’étape de l’administration est constitué de plusieurs taches pour assurer :
— La qualité des données.
— La maintenance et le suivi.
— La gestion de la configuration.
— L’organisation et l’optimisation du système d’information.
1.3.4 Restitution
Cette dernière étape, également appelée reporting. Il s’agit de présenter les
informa- tions à valeur ajoutée pour qu’elles apparaissent de la façon la plus lisible
possible dans le cadre de l’aide à la décision.
Les données sont principalement modélisées par des représentations à base des
requêtes pour constituer des tableaux de bord ou des rapports avec des outils d’analyse
décision- nelle.
Le reporting permet aux décideurs de :
— Sélectionner, tirer, regrouper ou répartir les données selon des critères de choix.
— Réaliser des calculs.
— Présenter les données d’une manière synthétique ou détaillée, généralement sous
forme de graphes.
1
CHAPITRE 1. L’INFORMATIQUE
1
CHAPITRE 1. L’INFORMATIQUE
1.5.1 Définition
Littéralement, ces termes signifient Mégadonnées, grosses données ou encore don-
nées massives. Ces termes désignent un ensemble très volumineux de données qui ne
peut pas être traiter par les outils classiques de gestion de base de données. Des nou-
velles technologies sont apparues pour faire face à ces énormes volumes de données
comme Hadoop, MapReduce ou les bases de données NoSQL.
Les caractéristiques de Big Data sont résumés par :
— Volume : La quantité de données générée est en pleine expansion et suit une loi
quasi exponentielle.
— Vélocité : Ou vitesse, énorme rapidité avec laquelle les données sont générées et
traitées.
— Variété : Des données structurées ou non structurées(Texte, Son, Vidéo ...)
peuvent être gérée.
— Véracité : Fait référence à la fiabilité de la donnée.
1
CHAPITRE 1. L’INFORMATIQUE
1.5.2.1 Définition
— Stockage de données :
Les base de données SQL sont stockées dans un modèle relationnel des tables
avec des lignes et des colonnes, alors que les données NoSQL sont stockées dans
des documents, graphes, clé-valeur ou colonne.
— Architecture :
Contrairement à SQL, NoSQL utilise une architecture distribuée qui permet l’uti-
lisation d’un grand nombre de serveurs afin d’atténuer les limitations de taille, de
haute disponibilité ou de redondance.
— Les caractéristiques et les performances :
SQL a plus de fonctions intensives que NoSQL et offre plus de souplesse
d’exécu- tion.
NoSQL est un choix plus approprié pour la manipulation de grands volumes
de données.
SQL est un meilleur choix pour les données structurées limités.
Les solution NoSQL existantes peuvent être divisées en quatre catégories principales :
1
CHAPITRE 1. L’INFORMATIQUE
1.6 Conclusion
Dans ce chapitre, nous avons détaillé toutes les notions relatives aux systèmes déci-
sionnels, aux Big Data et aux bases de données NoSQL pour les maîtriser afin de favo-
riser le bon déroulement du projet.
2
2
CHAPITR
Cadre du projet
2.1 Introduction
Ce deuxième chapitre, présente le cadre général du projet. Tout d’abord, il présente
l’organisme d’accueil qui est le cadre de réalisation du projet. Ensuite, il définit la pro-
blématique, suivie d’une analyse de l’existant et les objectifs de la solution proposée.
Finalement, il précise la méthodologie adopté pour la conduite du projet.
2
CHAPITRE 2. CADRE DU
Le département système d’information est composé de six directions. Notre stage est
effectué au sein de la direction "Digital Factory et Données"
2
CHAPITRE 2. CADRE DU
— Veiller au cadrage des projets, à l’élaboration des cahiers de charges qui en dé-
coulent, au dépouillement des offres des prestataires et des fournisseurs et à l’éla-
boration des contrats d’acquisition ou de maintenance conformément aux pro-
cessus et aux procédures en vigueur.
— Gérer et suivre les relations avec les prestataires externes (matériels, progiciels,
développements spécifiques, intégration de systèmes . . . ) et veiller à la bonne
exé- cution de leurs contrats avec la BIAT.
2.3.2 Problématique
En vue de satisfaire leur clientèle, la BIAT propose une application « BIATNET
». Celle-ci permet aux différents clients, de consulter leurs comptes en temps
réel, d’effectuer certaines opérations bancaires à distance sans déplacement aux
agences. Cette application qui subit quotidiennement des milliers de transactions
génère un fichier log qui contient les différentes informations relatives aux
activi- tés financières des clients. Face à ce très grand volume de données, en
croissance exponentielle, la BIAT se trouve en difficulté à analyser et à
construire un sup- port sur lequel se basent les décideurs afin de prendre les
bonnes et meilleures décisions, et afin d’avoir une vue globale sur les
opérations financières.
2
CHAPITRE 2. CADRE DU
2
CHAPITRE 2. CADRE DU
2
CHAPITRE 2. CADRE DU
délais de rafraîchissement.
En temps de traitement : Fonctions, calculs, importations/exportations
de données.
L’interrogation de données et Rapports – temps de chargement initial et des
chargements suivantes.
. Ergonomie : Les standards d’ergonomie : La densité d’éléments sur les
écrans, la disposition et le flux, les couleurs, l’Interface Utilisateur, les rac-
courcis clavier.
Internationalisation / besoins de localisation – langages, orthographe,
cla- viers, formats de papier.
2
CHAPITRE 2. CADRE DU
L’équipe Scrum est auto-organisée, elle choisit la meilleure façon d’accomplir son tra-
vail et elle possède toutes les compétences nécessaires à l’accomplissement du projet.
La flexibilité, la créativité et la productivité de l’équipe sont ainsi optimisées.
2
CHAPITRE 2. CADRE DU
2
CHAPITRE 2. CADRE DU
Sprint 1 : Analyse des agences par zone, par région, et par gouvernorat.
— Élaboration du backlog sprint.
— Analyse et conception.
— Réalisation.
— Test.
Sprint 2 : Analyse des opérations réalisées à travers l’application BIATNET.
— Élaboration du backlog sprint.
— Analyse et conception.
— Réalisation.
— Test.
Sprint 3 : Analyse des opérations réalisées à travers les agences.
— Élaboration du backlog sprint.
— Analyse et conception.
— Réalisation.
— Test.
2
CHAPITRE 2. CADRE DU
2.6 Conclusion
Ce chapitre, nous a permis de présenter l’organisme d’accueil et de définir le périmètre
général de projet en spécifiant les besoins qui nous permettra de passer à la
construction du Data Mart. Ainsi, le chapitre présente la méthodologie adopté afin
avoir une vision générale des procédures d’élaboration de rapports et de consolidation
des données.
La modélisation de la solution proposée fera l’objet du chapitre suivant.
3
3
CHAPITR
Modélisation de la
Solution Proposée
3.1 Introduction
Ce chapitre, présente la structure de la base de données. Puis, il présente la conception
multidimensionnelle de l’entrepôt de données.
3
CHAPITRE 3. MODÉLISATION DE LA SOLUTION
3
CHAPITRE 3. MODÉLISATION DE LA SOLUTION
3
CHAPITRE 3. MODÉLISATION DE LA SOLUTION
3
CHAPITRE 3. MODÉLISATION DE LA SOLUTION
3
CHAPITRE 3. MODÉLISATION DE LA SOLUTION
3
CHAPITRE 3. MODÉLISATION DE LA SOLUTION
3
CHAPITRE 3. MODÉLISATION DE LA SOLUTION
3
CHAPITRE 3. MODÉLISATION DE LA SOLUTION
3.7 Conclusion
Ce chapitre, a présenté la conception du projet, ainsi que les tables des dimensions et la
table de fait.
Le chapitre suivant, sera une présentation de toutes les étapes de la réalisation de la
solution décisionnelle.
3
4
CHAPITR
Réalisation
4.1 Introduction
La réalisation est la dernière phase de la mise en place de la solution business intelli-
gence que nous proposons pour la BIAT. Le but de ce chapitre est d’avoir une
application fonctionnelle à travers l’interaction de l’environnement logiciel et matériel
en exposant les différentes étapes depuis la phase ETL jusqu’à la phase reporting.
4
CHAPITRE 4.
— Oracle Database
Talend pour la partie ETL, permet d’extraire les données d’une source, de les
modifier et les recharger vers une destination.
— Dbeaver
ELK est une pile logicielle composée d’Elasticsearch, Logstash et Kibana. Ces
trois outils ont chacun un rôle bien précis dans le workflow permettant de
rechercher, d’analyser et de visualiser, en toute fiabilité et sécurité, ainsi qu’en
temps réel, des données issues de n’importe quelle source et sous n’importe quel
format.
4
CHAPITRE 4.
1. Elasticsearch : Est une base NoSQL qui est orientée Big Data il peut donc gérer
un très grand volume de données. Elasticsearch permet l’indexation et recherche de
don- nées. Il fournit un moteur de recherche distribué et multi-entité à travers une
interface REST. Elasticsearch est un logicile écrit en Java distribué sous licence
Elastic.
4
CHAPITRE 4.
Les deux outils sont fiables, performants et conviviaux mais étant donné que Talend
est une plate-forme de gestion des données plus générale et complète, nous avons opté
de l’utiliser dans la partie intégration.
4
CHAPITRE 4.
4
CHAPITRE 4.
— Une fois la connexion est établie avec succés, nous pouvons parcourir l’ensemble
des fichiers.CSV : "Affectation", "LONG_LATITUDE_AGENCE", "PREProto-
col", "TCPROTOCOL".
La figure suivante montre l’extraction et le chargement des données à partir des
fichiers.
La transformation des données a pour but de vérifier les types des données
importées et contrôler l’intégrité de ces données.
Dans cette étape nous avons appelé le composant Tmap, c’est l’un des composant
prin- cipaux utilisé pour mapper les données d’entrée vers les données de sortie
( mapper un schéma à un autre). Il permet aussi d’appliquer des filtres et des jointures.
4
CHAPITRE 4.
4
CHAPITRE 4.
4
CHAPITRE 4.
4
CHAPITRE 4.
4
CHAPITRE 4.
Toutes les dimensions ont été construites de la même manière. Leurs transformations
se différencient soit par élimination de quelques attributs qui ne sont pas utiles ou bien
qui sont redondants, soit par les règlements de certains types d’attributs qu’ils
soient conformes ou pour assurer leur chargement d’une manière correcte.
La première étape à réaliser pour mettre en place notre solution Big Data est de créer
le schéma multidimensionnel en étoile avec l’outil Talend.
5
CHAPITRE 4.
5
CHAPITRE 4.
Pour effectuer le chargement d‘une table de fait nous avons recours aux dimensions
déjà alimentées(Dim_Agence, Dim_AgenceR, Dim_User, Dim_Date, Dim_Zone,
Dim_Transaction) pour référencer les données à alimenter. Tout cela est assuré par
l‘outil « tmap » qui nous a permis d‘effectuer les jointures nécessaires.
Nous avons combiner les tables de dimensions et la table de fait à travers "main row"
avec le maximum des colonnes.
5
CHAPITRE 4.
5
CHAPITRE 4.
5
CHAPITRE 4.
Elasticsearch ne comprendra pas les coordonnées des agences avant de les trans-
former en type de géopoint.
— Nous avons créé une variable de type de géolocalisation nommée loca- tion.
— Nous avons converti les attributs "lr_latitude" et "lr_longitude" en type float.
5
CHAPITRE 4.
4. Index_biatnet :
La figure suivante présente le résultat du chargement de la base de données dans
Elasticsearch.
5
CHAPITRE 4.
Grâce à la page DISCOVER de l’interface Kibana nous pouvons explorer les données .
Cette interface se décompose en trois parties :
— Un Toolbar pour les recherches.
— Un histogramme pour voir la distribution des indexe dans le temps.
— Un tableau des documents qui comporte l’ensemble des indexes. Par conséquent,
nous pouvons accéder à chaque indexe qui représente un enregistrement de la
base de donnée et qui est représenté sous forme de document JSON.
Ainsi nous pouvons faire des requêtes de recherche, filtrer les résultats et afficher les
données. Nous avons la possibilité finalement de configurer le champ du temps pour
changer la distribution des documents au fil du temps dans l’histogramme et
paramétrer la durée de rafraîchissement des données pour récupérer les données
rajoutées à Elasticsearch comme le montre la figure suivante.
5
CHAPITRE 4.
5
CHAPITRE 4.
5
CHAPITRE 4.
6
CHAPITRE 4.
6
CHAPITRE 4.
4.5 Conclusion
Dans ce chapitre nous avons présenté l’environnement logiciel et matériel avec lequel
cette solution a été réalisé. Ensuite, les interfaces d’ETL et de reporting de la solution
d’analyse multidimensionnel, puis nous avons présenté les tableaux de bord réalisés.
Le tableaux de bord permettra au décideur d’organiser ses données et en retenant que
l’essentiel. Cette synthèse sera une sorte de bilan de certains point bien précis de l’ac-
tivité.
6
Conclusion
Exploiter les données à disposition de l’entreprise afin de leur donner de la valeur
ajouté, tel est le défi des entreprises modernes.
Dans ce cadre, et afin de palier à des problèmes récurrents dans le processus de prise de
décision, la Banque Internationale Arabe de Tunisie a initié le projet de réalisation d‘un
Data Mart pour permettre la mise en place d‘un système décisionnel fiable et efficace.
Tout au long de notre travail, nous avons essayé de suivre la démarche de conduite
d’un projet BI, allant de l’identification des sources de données jusqu’à la phase de
restitu- tion.
Nous avons opté pour la méthodologie Scrum au cours du développement de notre so-
lution. Nous avons détaillé en premier lieu les besoins des décideurs, les outils et les
méthodes BI. Puis nous nous sommes tournés en second lieu vers la modélisation de
notre Datamart, nous avons suivi les régles de la modélisation dimensionnelle pour
aboutir au schéma en étoile de notre Datamart. Nous avons par conséquent appliqué
un processus d’extraction, de transformation et de stockage pour mettre en place cette
solution. Cette partie ETL a été la partie du projet la plus fastidieuse et consommatrice
en temps. Cette partie nous a permis de concevoir et de réaliser les routines
d’extraction, de transformation et de chargementdes données sous l’outil TOS (Talend
Open Studio For Data Integration).
En dernier lieu, nous avons arrivé à consolider et restituer les données via la suite ELK
(Elasticsearch Logstash Kibana).
Avant de clôturer cette conclusion, nous pourrons dire que ce stage au sein de la
BIAT nous a permis de faire évoluer considérablement nos connaissance dans le
domaine BI et de renforcer ainsi nos compétences sur les outils associés à ce domaine à
savoir base de données, ETL, Tableau de bord, ect. Nous avons également améliorer
nos connais- sances en matière de gestion des projets en générale en BI en particulier.
La solution a été exposé et testée devant les responsables du département d’accueil qui
ont exprimé leur satisfaction.
6
Bibliographi
[1] : https:
//www.biat.com.tn/la-biat/presentation-generale
[2] : https://www.biat.com.tn/sites/default/files/
2020-09/BIAT-RA2019-vfr.pdf
[3] : https://www.journaldunet.com/solutions/dsi/
1194284-base-nosql-laquelle-choisir-pour-quels-besoins/
[4] : https://www.lemagit.fr/definition/
NoSQL-base-de-donnees-Not-Only-SQL
[5] : https://community.talend.com/
[6] : https://www.elastic.co/fr/what-is/elk-stack
[7] : https://www.elastic.co/
[8] : https://www.next-decision.fr/
[9] : https://www.overleaf.com/
[10] : https://openclassrooms.com/
Thèse
Ouvrage
framabook5_latex_v1_art-libre, 2e semestre 2008
support de formation Formation Talend Open Studio for Data Integration, : 19/06/2017
elasticsearch-fr.pdf
Introduction aux technologies et applications Big Data, 2018
6
Bibliographie
Résumé
Abstract