BD2 - Cours5 - Final

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 62

Évolution des Les métiers du

Concepts Cas d’utilisation BI ou Big Data


données big data

Approche -
Modèles Approche – Conception d’un système d’information : BI vs
données
d’affaires besoins Big Data, extraction/stockage/analyse
disponibles

Examen Intra

Architectures - Processus Big Data – Solutions Solutions et


- NoSQL composantes de la pile Hadoop outils

Légal Éthique Gouvernance


Petit devoir : Offre d’emploi – Entreprise Big Data

Intérêts ?
SQL avancé : requêtes avancées (imbriquées, CTE, tables temporaires, curseurs, triggers, fonctions analytiques…)
Neo4j intro : bd graph, cypher, quelques exemples et fonctions, visualisation

Horaire :
TP ce soir minuit
Examen Intra : mardi prochain
- questions de compréhension (illustrez-justifiez-expliquez)
-
Pas de cours jeudi 13 mais cours samedi le 15
Classer/Organiser/Segmenter/Caractériser les

- les types de structures de données,


- Les besoins d’affaires
- Les décisions,
- Les systèmes qui nous aident (SAD)
Gaston Lagaffe,
Franquin
Le chat, P Geluck
L’entreprise est un lieu de prise de décision : chaque entreprise
oriente en effet son activité par de multiples décisions, d’inégale
importance, afin d’atteindre les objectifs fixés.
MOULY Management des entreprises
Hiérarchie(s) des décisions,
Processus de décision
et Systèmes d’Aide à la Décision (SAD)

http://mmanagement.e-monsite.com/medias/files/les-decisions-et-le-processus-de-decision.pdf
http://mmanagement.e-monsite.com/medias/files/les-
decisions-et-le-processus-de-decision.pdf

Classification des décisions selon leur objet (Igor Ansoff) :


- décisions stratégiques / tactiques / opérationnelles

Classification des décisions selon leur échéance, leur incidence dans le temps :
- décisions de planification, de pilotage, de régulation

Classification des décisions selon leur degré de structure :


- décisions programmables, non programmables structurées, non structurées
Herbert Simon (1916-2001)
Le processus décisionnel de Simon
• Économiste et psychologue
Selon l'économiste H. Simon, le processus décisionnel repose sur le modèle IMC qui
américain.
englobe trois étapes :
• Prix Nobel d’économie en 1978
• Est l’auteur du modèle IMC
- Intelligence : on cherche à constater le problème, le délimiter, définir
(Intelligence, Modélisation,
les objectifs et rechercher les informations ;
Choix).
- Modélisation : on va délimiter les solutions alternatives, mesurer les solutions
alternatives (coûts et conséquences) et définir les critères pour choisir la solution.

- Choix : on va préparer la mise en œuvre de la solution et l'appliquer.


https://www.maxicours.com/se/c
ours/la-decision-dans-la-
direction-de-l-
organisation/#:~:text=Le%20mod
%C3%A8le%20IMC%20de%20
Le modèle IMC de Simon ne retient que les étapes jusqu'à la prise de décision. Cependant, Simon,%C3%A0%20la%20prise
%20de%20d%C3%A9cision.&te

intervient à l'issue de la troisième étape une ultime phase : l'évaluation, c'est-à-dire que xt=La%20d%C3%A9cision%20r
el%C3%A8ve%20de%20tout,Ch

l'on va évaluer et contrôler les résultats de l'action. Critique : le processus est


oix%20de%20la%20solution%2
0ad%C3%A9quate.

essentiellement rationnel.
Le processus
décisionnel
de Simon : IMC

Trop de
paramètres
, trop de
complexité, Solution
on a besoin BI/Entrepôt
d’un outil de données
pour aider comme outil
à la central
décision d’aide à la
dans un décision
cadre
rationnel.
Comprendre le
besoin d’affaires :
20% du temps

Travailler avec les données : 60 % du temps


ML : 5% du temps

15% du temps

Datalab
https://www.linkedin.com/pulse/data-science-workflow-matt-dancho/
Herbert Simon (1916-2001), encore lui !
• Est l’auteur du livre : Le nouveau
management – la décision par les
ordinateurs, 1980

1971 : A. Gorry et M. Scott Morton ont définit les SAD (système d’aide à la décision) de la manière suivante :

« système informatisé interactif aidant le décideur à manipuler des données et des modèles pour résoudre
des problèmes mal structurés ».

1978 : P. Keen et M. Scott Morton

Les SAD réunissent les ressources intellectuelles des individus avec les potentialités des ordinateurs dans
le but d’améliorer les décisions prises https://halshs.archives-ouvertes.fr/halshs-
00264398/document
Jean-Fabrice Lebraty. Les systèmes
1977 : S. Alter propose de classer les SAD en 2 grands types : décisionnels. Akoka, A, Comyn-Wattiau, I.
- Orienté modèles (simulations, suggestions) Encyclopédie de l’informatique et des
systèmes d’information, Vuibert, pp.1338-
- Orienté données (recherches de données, analyse de données) 1349, 2006. ffhalshs-00264398

Avec le temps, les SAD se sont enrichis d’autres domaines comme les sciences cognitives, les sciences de
gestion, … On parle parfois de gestion des systèmes d’information qui englobe les SAC
Le schéma suivant, illustre le modèle qui constitue le fondement de la majorité des SAD mis en œuvre à ce jour :

A. Newell et H. Simon – 1972 :


« General problem solver », un
premier modèle complet de
traitement humain de l’information

https://halshs.archives-ouvertes.fr/halshs-
00264398/document
Le schéma suivant, illustre le modèle qui constitue le fondement de la majorité des SAD mis en œuvre à ce jour :

Intelligence

Modélisation

https://halshs.archives-ouvertes.fr/halshs-
00264398/document
Le schéma suivant, illustre le modèle qui constitue le fondement de la majorité des SAD mis en œuvre à ce jour :

Angle des besoins

Il faut bien cerner le


besoin d’affaires avant
de se lancer dans
l’exécution du projet BI

https://halshs.archives-ouvertes.fr/halshs-
00264398/document
Le schéma suivant, illustre le modèle qui constitue le fondement de la majorité des SAD mis en œuvre à ce jour :

Angle des données

L’exploration des
données, la créativité
versus leur exploitabilité
est un nouvel angle
porteur de valeur.

https://halshs.archives-ouvertes.fr/halshs-
00264398/document
Le schéma suivant, illustre le modèle qui constitue le fondement de la majorité des SAD mis en œuvre à ce jour :
La place de l’être humain est-
elle en train de disparaître ?

Un SAD : système à la décision


devient-il un SD : système de
décision ?

Nous y reviendront dans la


section éthique. Bien sûr, il y a
l’IA mais même sans l’IA, où
est notre place : appliquer une
décision déterminée par un
SAD ?
Le schéma suivant, illustre le modèle qui constitue le fondement de la majorité des Systèmes d’Aide à la Décision :

C’est ici que se différencient les deux


approches : l’approche données
cherche dans les données une valeur
insoupçonnée, qui n’a peut-être
même pas envisagée au moment de
la collecte de données
Solution « entrepôt de données, modèle rigide, très
structuré. doit être robuste, single source of truth

1. Besoins d’affaires
haut niveau
Angle des 2. Besoins non fonctionnels Mentalité
besoins (des usagers/clients
usagers) 3. Besoins fonctionnels davantage BI
comment Analyses
4. Besoins techniques descriptives
INTELLIGENCE MODÉLISATION CHOIX

Intelligence des
besoins/valeur Analyses prédictives et
prescriptives, Machine
Solution « datalake » doit être flexible, Learning….
scalable, … agile, en constante évolution
Angle des (souvent des changement de modèles de
données Mentalité données,
données en cours de route donc
davantage Big Data
bénéfices/coûts), ne cherche pas à
être « single source of truth » mais plutôt à
explorer des futurs possibles,
3 6
L’objectif ici est d’avoir
l’accord
2
de l’entreprise que les
livrables du DW/BI sont
là comme support/aide à 1
4 7 8
la decision.

Cet objectif (alignment


besoins d’affaires et BI) 10 11
doit rester tout au long 5 9
du design, du
développement et du
déploiement d’une
solution BI/DW)

https://www.kimballgroup.com/data-warehouse-business-intelligence-resources/kimball-techniques/dw-bi-lifecycle-method/
Angle des
besoins (des
usagers)

Apparu au début des années 1990 et mis en avant par W. Inmon et par R. Kimball, des spécialistes du monde des bases de
données :

« Un système de DW organise et conserve les données nécessaires aux processus informationnels et analytiques dans une
perspective de long terme. Ce système correspond à un ensemble de données orientées selon un sujet, intégrées, évoluant
dans le temps et non volatiles, qui a pour but l'aide aux processus de prise de décision de gestion. » (Inmon, 1996).

L’originalité d’un système de DW réside dans le fait que les SAD n’interrogent plus directement les bases transactionnelles.
En effet, l’entrepôt de données est une base de données dont la structure est orientée vers la prise de décision et qui se
positionne entre les applications transactionnelles et les SAD.

Interroger directement les bases données métiers : désavantages:


- historique des données non prévu passées
- difficulté de créer des requêtes non prévues à l’avance et/ou d’interroger plusieurs bases de données ;
- le SAD utilise la définition des champs de données de la base de données source. Or, souvent, les différentes bases de
données de l’organisation ne partagent pas la même définition des champs. Il y a donc des risques élevés d’incohérences
Angle des
besoins (des
usagers)

« La partie la plus difficile de la spécification des besoins n’est pas de documenter ce


que les utilisateurs veulent; il s’agît plutôt de l’effort pour aider ceux-ci à déterminer
ce dont ils ont besoin qui peut leur être fourni avec succès »

− Steve McConnell (Software Project Survival Guide, Microsoft Press)


Angle des
besoins (des
usagers)

Niveau programme:
– Comprendre les besoins d’affaires dans une perspective englobant toute l’entreprise;
– Surtout les besoins de la haute direction;
– Normalement fait une seule fois au début.

Niveau projet:
– Analyse plus détaillée des besoins, concentrée sur un projet (sujet) bien défini;
– Surtout les besoins des cadres intermédiaires et des analystes d’affaires;
– Fait pour chacun des projets.
Angle des
besoins (des
usagers)
Angle des
besoins (des
usagers)

Niveau programme Niveau projet

Besoin d’affaires Besoins fonctionnels


- Objectifs à haut niveau qui justifient la valeur d’un projet - Action que doit effectuer le système en réponse à une
- Ex : Augmenter le taux de réponse aux campagnes de demande en lien avec le besoin d’affaires
marketing web ciblées - Ex.: Produire automatiquement un rapport de synthèse
des ventes hebdomadaires

Besoin non fonctionnels Besoins techniques


- Décrivent les « qualités » que le système doit avoir - Décrivent en détails les besoins fonctionnels et non
- Ex.: utilisabilité, performance, disponibilité/fiabilité, fonctionnels
sécurité, etc. - Ex.: outils de forage de données, portail Web, cube
de données, etc.
Angle des
besoins (des
usagers)

5 étapes

1.Planifier les entretiens

2.Conduire des entretiens avec les utilisateurs («clients» internes)


On se concentre sur les
usagers et non sur les
3.Synthétiser chaque entretien
données
4.Faire un compte rendu des entretiens

5.Évaluer les demandes par rapport à


ce qui existe/est disponible
et aux besoins
https://cours.etsmtl.ca/mti820/public_docs/acetates/MTI820-Acetates-SpecificationDesBesoins_1pp.pdf
https://cours.etsmtl.ca/mti820/public_docs/acetates/MTI820-Acetates-CycleDeVieProjetBI_1pp.pdf
Angle des
besoins (des
usagers)

ÉTAPE #1: Planifier les entretiens

Recherche
Se renseigner sur l’entreprise et le domaine d’affaire ciblé dans le projet
Sélection des personnes à interviewer
Impossible de s’entretenir avec tout le monde
Choisir les personnes clé: connaissances, influence, ouverture d’esprit, etc.
Demander l’avis du sponsor du projet pour sélectionner ces personnes clé
Utilise l’organigramme
Attention: La disponibilité d’une personne n’est pas nécessairement un bon critère de sélection
Préparation des questions
Doit absolument être fait à l’avance
Les questions varient généralement selon la fonction et le niveau hiérarchique de la personne rencontrée
Si nécessaire, demander au sponsor de réviser les questions
Angle des
besoins (des
usagers)

ÉTAPE #2: Conduire un entretien (avec le personnel d’affaires)


Introduction
Tour de table des participants (nom et rôle)
Durée prévue et objectifs de l’entrevue
Discussion sur les responsabilités
Ex. Pouvez-vous décrire votre département? / Quels sont vos principales responsabilités?
Discussion sur les objectifs d’affaires et les défis
Ex. (haute direction): Quels sont les objectifs de votre organisation? Comment mesurez-vous le succès de
l'entreprise? Quels sont les principaux défis auxquels vous faites présentement face?
Ex.: (gestionnaires et analystes): Décrivez vos produits? Comment identifiez-vous les problèmes?
Discussion sur les besoins fonctionnels d’analyse
Ex. (haute direction):Quelle information est jugée primordiale pour prendre et supporter les décisions au
sein de votre organisation?
Ex. (gestionnaires et analystes): Quelles sont les données utilisées?
Établissement des critères de succès du projet
Critère S.M.A.R.T: Spécifique, Mesurable, orienté Action, Réaliste, défini dans le Temps
Angle des
besoins (des
usagers)

ÉTAPE #2: Conduire un entretien (avec le personnel des TI/BI)


Introduction
Tour de table des participants (nom et rôle)
Durée prévue et objectifs de l’entrevue
Discussion sur les disponibilités de données
Détermine la faisabilité du projet en termes de disponibilité de données, ex.: est-ce que la quantité de
données est suffisante
Discussion sur la qualité des données
Est-ce qu’il y a des problèmes avec la qualité des données, si oui de quelle nature?
Discussion sur la conformité et la sécurité du projet (besoins non fonctionnels)
Déterminer les directives, standards et mandats réglementaires de l’entreprise par rapport a l’accès et
l’utilisation des données
Ex: politique de purge / rétention de données, vie privée, etc.
Les règles de gouvernance sont à prendre en compte dès le début du projet
Angle des
besoins (des
usagers)

ÉTAPE #3: Synthétiser chaque entretien


Faire une description des responsabilités de la personne interrogée.
Identifier les « Business Process owner », les propriétaires » des processus d’affaires
Résumer les éléments identifiés lors d’une entrevue
Objectifs
Défis
Processus
Besoins fonctionnels d’analyse
Critères de succès du projet
Angle des
besoins (des
usagers)

ÉTAPE #4: Compte rendu des entretiens


Décrire la vue d’ensemble de l’entreprise
Décrire le projet
In scope
Out of scope
Regrouper les besoins par processus d’affaires
Ne pas oublier qu’il faut aligner le BI et les BP (processus d’affaires)
Évaluer la faisabilité en termes de données
Vouloir/Pouvoir
Résumer les principaux critères de succès
MVP : Minimum Value Product : « on sauve d’abord sa peau »
Livrables et approche SMART : Spécifique, Mesurable, orienté Action, Réaliste, défini dans le Temps
Angle des
besoins (des
usagers)

ÉTAPE #5: Évaluer et prioriser les demandes


Points à considérer :
Ce qui existe, ce qui est disponible actuellement
Les besoins exprimés par les utilisateurs
Les besoins réels de l’entreprise / les impacts de leur réalisation et de leur non réalisation
La faisabilité des demandes
Matrice de priorité : valeur-impact versus
effort (1/faisabilité)
Angle des
besoins (des
usagers)

ÉTAPE #2: Exemples de questions pour la haute direction : discussion sur les objectifs d’affaires

Quels sont les objectifs de votre organisation? Qu’est ce que l'entreprise tente d'accomplir? Quels sont vos principaux objectifs d'affaires?
Comment identifiez-vous les attentes reliées à votre domaine d'affaire? Comment fixez-vous les attentes de votre entreprise?

Comment mesurez-vous le succès de l'entreprise? Quelles métriques utilisez-vous? Dans quelle mesure êtes-vous capable de savoir que vous
avez obtenu les résultats escomptés? Que vous allez dans la bonne direction? A quelle fréquence mesurez-vous votre performance?

Quels sont les fonctions et départements au sein de votre organisation qui sont primordiaux dans l'atteinte de vos objectifs? Quels rôles jouent-
ils? Comment collaborent-ils pour assurer le succès de l'organisation?

Quels sont les principaux défis auxquels vous faites présentement face? Selon vous, qu'est ce qui pourrait vous empêcher de surmonter ces défis
et d'atteindre vos objectifs? Quel serait l'impact de ne pas être en mesure de surmonter ces défis sur l'entreprise?

Voyez-vous présentement ou dans le futur de votre organisation des opportunités de profits qui ne sont pas adressées aujourd'hui?
Comment vous comparez vous à la compétition sur le plan de l'utilisation des technologies de l'information sur le plan global et sur le plan
décisionnel?
Êtes-vous en mesure de réagir rapidement aux conditions changeantes du marché?
Angle des
besoins (des
usagers)

ÉTAPE #2: Exemples de questions pour la haute direction : discussion sur les besoins fonctionnels d’analyse

Quelle est l'importance qu'occupe l'analyse des données au niveau des décisions que vous et vos principaux gestionnaires
prenez pour gérer les opérations de votre organisation?

Quelle information est jugée primordiale pour prendre et supporter les décisions au sein de votre organisation? Comment
obtenez-vous cette information aujourd'hui?

A votre connaissance, il y a de l'information qui ne vous est pas disponible ou qui n'est pas accessible aujourd’hui mais qui aurait
un impact important sur l'atteinte de vos objectifs?

Quels rapports utilisez-vous aujourd'hui? Quelle est l'information importante sur ces rapports? Comment utilisez vous cette
information? Si ces rapports étaient dynamiques, que feraient-ils de différent?

Quelles sont les opportunités qui s'offriraient à vous si vous étiez en mesure de bénéficier d'un meilleur accès à votre
information? Quel en serait l'impact financier? Quel en serait l'impact sur l'organisation?
Angle des
besoins (des
usagers)

ÉTAPE #2: Exemples de questions pour les analystes et gestionnaires : discussion sur les objectifs d’affaires

Quels sont les objectifs de votre organisation? Qu’est ce que l'entreprise tente d'accomplir? Quels sont vos principaux objectifs d'affaires?
Comment identifiez-vous les attentes reliées à votre domaine d'affaire? Comment fixez-vous les attentes de votre entreprise?

Quels sont les principaux défis auxquels vous faites présentement face? Selon vous, qu'est ce qui pourrait vous empêcher de surmonter ces défis
et d'atteindre vos objectifs? Quel serait l'impact de ne pas être en mesure de surmonter ces défis sur l'entreprise?

Comment identifiez-vous les problèmes et les exceptions? Dans quelle mesure êtes-vous capable de dire que des problèmes pointent à l’horizon?

Décrivez vos Produits? Comment distinguez entre vos différents produits? Comment les catégorisez-vous? Si nous assumons que le volume de
votre catalogue nous empêche de passer en revue l'ensemble de vos produits lors de la recherche d'un produit spécifique, comment faite vous
pour cibler votre recherche précisément?

Ces différentes catégories sont-elles stables ou sont-elles appelées à changer fréquemment? Dans la mesure où elles sont appelées à changer,
quel est l’impact de ce changement sur vos processus d’analyse?

Recommencez l’exercice précédent pour l’ensemble des axes d’analyse important: clients, fournisseurs, territoires ….
Angle des
besoins (des
usagers)

ÉTAPE #2: Exemples de questions pour les analystes et gestionnaires : discussion sur les besoins fonctionnels d’analyse

Quelles sont les données utilisées? Comment obtenez-vous présentement ces données? Que faites-vous avec ces données une fois obtenues?
Devez vous les manipuler?
Quel type d'analyse voudriez-vous être en mesure d'effectuer? Voyez-vous des potentielles améliorations possibles aux méthodes/processus que
vous utilisez actuellement?

Quel sont les types d'analyse ad-hoc que vous effectuez de façon régulière? Qui sont les membres de votre équipe qui typiquement effectuent
ou demandent ce genre d'analyse? Quel est le but de ces analyses? Quel est le niveau de satisfaction face au temps requis pour obtenir les
résultats de ces analyses? Les membres de votre équipe ont ils le temps de pousser plus à fond ces analyses?

En vous basant sur la qualité et sur le niveau de détail des données avec lequel vous devez traiter, quel pourcentage de temps passez-vous à
manipuler les données et quel pourcentage de votre temps passez-vous à les analyser? – « data monkey »
Quels sont les types d’analyses prédéfinies (rapports) que vous effectuez le plus souvent? Quelle est l'information importante sur ces rapports?
Comment utilisez-vous cette information? Si ces rapports étaient dynamiques, que feraient-ils de différent?

Devez vous retravailler ces rapports? Quelles informations aimeriez-vous voir ajoutées aux rapports? Quelles informations sont inutiles et
pourrait être retirées? Quelles sont les capacités analytiques que vous aimeriez avoir? Existe-il aujourd’hui des goulots d’étranglement important
qui nuisent à l’accès à l’information? Quel horizon de données historique avez-vous besoin dans le système?
Solution « entrepôt de données, modèle rigide, très
structuré. doit être robuste, single source of truth

1. Besoins d’affaires
haut niveau
Angle des 2. Besoins non fonctionnels Mentalité
besoins (des usagers/clients
usagers) 3. Besoins fonctionnels davantage BI
comment Analyses
4. Besoins techniques descriptives
INTELLIGENCE MODÉLISATION CHOIX

Intelligence des
besoins/valeur Analyses prédictives et
prescriptives, Machine
Solution « datalake » doit être flexible, Learning….
scalable, … agile, en constante évolution
Angle des (souvent des changement de modèles de
données Mentalité données,
données en cours de route donc
davantage Big Data
bénéfices/coûts), ne cherche pas à
être « single source of truth » mais plutôt à
explorer des futurs possibles,
1) Imaginer un produit / une solution Comprendre le besoin d’affaires

2)
3)
Collecter les données
Préparer les données Travailler avec
4) Concevoir un modèle
5)
6)
Visualiser les résultats
Optimiser le modèle
les données
7) Déployer et industrialiser Communiquer les résultats
Comprendre le
besoin d’affaires :
20% du temps

Travailler avec les données : 60 % du temps


ML : 5% du temps

15% du temps

Datalab
https://www.linkedin.com/pulse/data-science-workflow-matt-dancho/
Certaines décisions peuvent venir en retour influencer et modifier les systèmes métiers

Systèmes métiers Zone d’


ETL Data Warehouse /
exploitation/analyse des
BI/DW / environnement Entrepôt de
de production données
données
Rapports /
Enrichissement Tableaux de bords
potentiel Décisions
(humaines ou IA)
Sources 3V : Web, ELT Machine Learning /
Big Data Lake / IA / Data Mining /
IoT, sources
Data Ingestion Hadoop …
externes…
Les 7 étapes de sciences de données / Data science

Environnement décisionnel
Quelques concepts clefs :
- l’ingestion/acquisition de données
- la préparation des données

Data ingestion (à cause du big data)/ Ingestion de Data wrangling / Data preparation /préparation de
données / ETL – ELT données/ querelle des données https://www.trifacta.com/data-munging/

L'ingestion de données est définie comme le processus Processus consistant à prendre les données dans leur forme
d'absorption des données provenant de diverses sources d’origine et à les “apprivoiser” jusqu’à ce qu’elles
et de leur transfert vers un site cible où elles peuvent être fonctionnent mieux dans un flux de travail ou un projet plus
déposées et analysées. De manière générale, ces large.
destinations peuvent être une base de données, un
entrepôt de données, un magasin de données, etc.. Apprivoiser signifie rendre les valeurs cohérentes avec un
ensemble de données plus volumineux, remplacer ou
Data munging /Data cleaning /Nettoyage de données supprimer des valeurs susceptibles d’affecter l’analyse ou
les performances ultérieurement, etc.
Le processus de nettoyage (data cleaning) des données
qui precede l’analyse s’appellee le data munging Ce processus vise à implanter une stratégie de données
Ce processus peut être particulièrement lourd si effectué appellee “integration des données”.
manuellement.
Wrangling in 6 steps (data pipeline) : découverte/structurer/nettoyage/enrichissement/validation/publication pour analytics
https://www.trifacta.com/data-munging/
Discovering: Learn what’s in your raw dataset to think ahead about the best approach for your analytic explorations. This allows you to understand unique
elements of the data such as outliers and value distribution to inform the analysis process.

Structuring: This is a critical step because your data comes in all shapes and sizes, and it is up to you to decide the best format to visualize and explore it.
Separating, blending, and un-nesting are all important actions in this step.

Cleaning: This step is essential to standardizing your data to ensure that all inconsistencies (such as null and misspelled values) are addressed. Other data may
need to be standardized to a single format such as state abbreviations.

Enriching: At this point, you’ve gotten a clear handle on your data – what else could you add to provide more value to your analysis? Enrichment is often about
joins and complex derivations. For example, if you’re looking at biking data, perhaps a weather dataset would be an important factor in your analysis.

Validating: Verify if you’ve caught all of the data quality and consistency issues and go back to address anything you may have missed. Validation should be
done on multiple dimensions.

Publishing: This is where you can download and deliver the results of your wrangling effort to downstream analytics tools. Once you’ve published your data it’s
time to move onto the next step: analytics!
Ingestion de données – Big Data
ETL - BI

Ingestion de données ETL


Priorité Absorber les données en temps réel et les Appliquer une série de transformation avant de https://www.quora.co
stocker pour analyses futures charger les données
m/What-is-the-
difference-between-
Domaine d'application Surtout les données non structurées voire Données structurées
Data-ingestion-and-
aléatoires
ETL
Types de données Streaming / données en continu batch data / données en lots
Type de processus Push Pull
Résumé des tâches Un grand volume de données brutes Les données brutes d'origine différente doivent
différentes est lu et ingéré vers un Data Lake être nettoyées, agrégées, filtrées, ordonnées, …
pour analyse ultérieure puis elles seront chargées dans un entrepôt de
données pour de futures autres opérations

Réflexion « Yvesque » : Qui est le plus rapide entre les deux et pourquoi ?
Angle des
données

Le Big Data introduit de nouvelles opportunités d’analyses créatrices de valeur

Par opposition aux données traditionnelles


Le Big data ne se veut pas LA source de vérité de l’organisation
Les données ne sont pas nécessairement:
Jointes et synchrones
Intègres
Complètes
Claires
Changement de philosophie : Au lieu de définir les données en fonction des
besoins, on cherche plutôt qu’est ce que ces Big Data peuvent nous révéler!
Attention : ce dernier point est un besoin de niveau projet. Lors d’une implantation
d’une infrastructure Big Data, les besoins de niveau « programme » sont davantage
orientés Angle de besoins.
Angle des
données
Angle des
données Angle des
besoins (haute
direction)

TRAITEMENT DES DONNEES COLLECTE STOCKAGE RESTITUTION


Angle des
données
Angle des
besoins (haute
direction)

C’est un changement de
culture, autant pour la
direction que pour les
usagers

https://www.scnsoft.com/blo
g/big-data-implementation
Angle des
Angle des
données
Angle des
données
Angle des
données
Angle des
données
données

Angle des
Angle des
données
Angle des
données
Angle des
C’est un changement de culture, autant pour la direction que pour les usagers données
Angle des
données
Angle des
données
Opportunité de création de valeur : données

Avec ce que nous avons en tant qu’entreprise : site Web, archives de courriel, vidéos de surveillance, capteurs de
données IoT, enregistrements de conversations du service à la clientèle, …., pourrions nous en extraire de la valeur ?
En enrichissant nos données avec des sources externes (météo, statistiques canada, …) pouvons nous faire mieux ?
Approche de test de performances de certaines publicités selon certains facteurs sur notre site Web.

Ex : datascientist chez LinkedIn, Jonathan Goldman, À L’ÉCART DE TOUS, avait une autorisation haut niveau de
tester ses hypothèses sur des sous-sections de site. Il étudiait les appartenances aux groupes des usagers, … et a mis
au point le « people you may know ». Depuis, c’est l’un des facteurs principaux d’appréciation de LinkedIn.

Mur que nous frappons avec les méthodes traditionnelles :


- Arnaque du carroussel : comment traiter cette quantité d’info qui circulent à une vitesse gigantesque, provenant de
sources différentes, … pour identifier plus rapidement et plus sûrement une arnaque qu’un expert
- Assurance maison versus proximité d’un cours d’eau : évaluer le risque, mais comment. Modèle de machine learning.
Angle des
Angle des
données
Angle des
données
Angle des
données
Angle des
données
données

Angle des
Angle des
données
Angle des
données
Angle des
C’est un changement de culture, autant pour la direction que pour les usagers données
Angle des
données
Angle des
données
Implanter une culture de l’échec probable données

Implanter un datalab : être « agile », flexible, … Il faut expérimenter, découvrir, chercher sans trop savoir quoi
chercher parfois, pour trouver de nouvelles valeurs

Orienter les solutions pour être très modulables, … cloud ?


il est beaucoup plus facile de changer de schéma et de modèle versus une solution entrepôt de
données / SGBDR

Avec en tête TOUJOURS… les besoins d’entreprise (haut niveau) et les coûts que cela représente. DONC

- Nécessité de mettre en place des vigies sur les meilleures pratiques émergentes
- Proposer un MVP : minimum value product, avec un suivi régulier des progrès pour convaincre que cela vaut la
peine
- Approche datalab : on expérimente avant d’implanter
Pipeline des données lors d’une ingestion 2.0 (= wrangling)
Leading analyst firms have been quoting data lake failure rates of 85% for some time now. (Teradata)
Angle des
données

https://dataladder.com/data-lake-eco-system-unique-data-ingestion-challenges/
Ingestion de données 1.0
Les données peuvent arriver en streaming/fichiers/données structurées
Système
décisionnel
classique
Angle différent
(usagers/données)

Source de type
différents (riche en
info par qté de
données, pauvre en
info …)

Méthodes
différentes (stat
descriptive vs
inférentielle)

Objectif différents :
prédire, prescrire…
plutôt que décrire
« La partie la plus difficile de la spécification des besoins n’est pas de documenter ce que les utilisateurs veulent;
il s’agît plutôt de

- l’effort pour aider ceux-ci à déterminer ce dont ils ont besoin qui peut leur être fourni avec succès » −
Steve McConnell (Software Project Survival Guide, Microsoft Press)

J’ajouterai quelque chose du genre :

- Mais aussi d’OSER explorer, expérimenter (et échouer parfois-souvent) des nouvelles idées en partant
des données inexploitées ou peu exploitées, et d’en extraire une valeur parfois difficile à deviner au début
de l’aventure, en parvenant à convaincre la haute direction que le jeu en vaut la chandelle.

L’effort est sur les personnes / L’effort est sur les données : que cherchent-elles à me dire ?
Kimball and Big Data

https://www.kimballgroup.com/2015/12/design-tip-180-the-future-is-bright/

http://www.kimballgroup.com/wp-content/uploads/2012/09/Newly-Emerging-Best-Practices-for-Big-Data1.pdf
Comment rater son projet Big Data en 10 leçons

https://www.usine-digitale.fr/article/comment-rater-son-projet-big-data-en-10-lecons.N376133

Cours intéressant
https://cours.etsmtl.ca/mti820/public_docs/acetates/MTI820-Acetates-SpecificationDesBesoins_1pp.pdf
https://cours.etsmtl.ca/mti820/public_docs/acetates/MTI820-Acetates-CycleDeVieProjetBI_1pp.pdf

Big Data Life Cycle


https://slideplayer.com/slide/13608952/

https://datatherapy.org/2015/07/20/architectures-for-building-a-data-culture/
Business intelligence (BI) is a technology-driven process for analyzing data and presenting actionable information
to help corporate executives, business managers and other end users make more informed business

decisions. BI encompasses a variety of tools, applications and methodologies that enable organizations to
collect data from internal systems and external sources, prepare it for analysis, develop and run queries against the
data, and create reports, dashboards and data visualizations to make the analytical results available to corporate
decision makers as well as operational workers.

Data Science = Statistics + Math + CS + Domain Knowledge + Excellent Comm Skills

Data science involves methods to analyze massive amounts of data and to extract knowledge from them.

https://datatherapy.org/2015/07/20/architectures-for-
building-a-data-culture/
https://www.getsmarter.com/blog/career-advice/difference-data-analytics-data-analysis/#:~:text=Data%20analysis%20refers%20to%20the,the%20complete%20management%20of%20data.
https://itchronicles.com/big-data/data-analytics-vs-data-analysis-whats-the-difference/
ML = Machine Learning /
Data analysis et data analytics Apprentissage machine

Ils ont chacun deux définitions différentes, ce qui apporte une certaine confusion. Je
distinguerai ici les deux par les adjectifs restreint et étendue.
Analytique étendue
Analyse de données restreinte / étendue : que s’est-il passé Analyse étendue
- restreinte : analyse de données dans un cadre BI : processus qui consiste à examiner
Analytique
(descriptif) les données, les composantes, les séparer et les mettre en relation les uns avec les autres. restreinte
- étendue : restreinte + ajout des techniques de modélisation et de ML, analyse de ces résultats Analyse
restreinte

Analytique de données restreinte / étendue : qu’est-ce qu’il pourrait se passer


- restreinte : uniquement les outils/techniques de modélisation (modèles d’analyse de
données) et de ML, analyse des résultats, patterns observés, …
- étendue : discipline qui regroupe : tout le processus (collecte, préparation, stockage,
gouvernance et analyse des données) et les outils d’analyse, ML y compris
Rightly mentioned by several people here, the basic
difference between analysis and analytics

is the timeline of the result with respect to current time.


Analysis will restructure (or not) existing available
information or data. This restructuring helps us understand
what happened or what is happening. Analytics may use
this information to predict what may happen. Generally
speaking, analytics could be perceived as a subset of
analysis.

However, the meanings vary across companies, geography


and people.

It is not to be confused with descriptive and inferential


statistics.
Cleaning, manipulation and extraction of data is a
prerequisite to both analysis and analytics. Tools for data
analysis and analytics do not necessarily differ.

https://www.quora.com/What-is-the-difference-between-
Analytics-and-analysis-data-analytics
https://www.getsmarter.com/blog/career-advice/difference-data-analytics-data-
analysis/#:~:text=Data%20analysis%20refers%20to%20the,the%20complete%20management%20of
%20data.

Data analysis and data analytics

https://itchronicles.com/big-data/data-analytics-vs-data-analysis-whats-the-difference/

https://clarkstonconsulting.com/insights/marketing-analytics-data-analysis/
https://www.selecthub.com/business-analytics/web-analytics-vs-business-analytics/
https://www.quora.com/What-is-the-difference-between-Analytics-and-analysis-data-analytics

Vous aimerez peut-être aussi

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy