BD2 - Cours5 - Final
BD2 - Cours5 - Final
BD2 - Cours5 - Final
Approche -
Modèles Approche – Conception d’un système d’information : BI vs
données
d’affaires besoins Big Data, extraction/stockage/analyse
disponibles
Examen Intra
Intérêts ?
SQL avancé : requêtes avancées (imbriquées, CTE, tables temporaires, curseurs, triggers, fonctions analytiques…)
Neo4j intro : bd graph, cypher, quelques exemples et fonctions, visualisation
Horaire :
TP ce soir minuit
Examen Intra : mardi prochain
- questions de compréhension (illustrez-justifiez-expliquez)
-
Pas de cours jeudi 13 mais cours samedi le 15
Classer/Organiser/Segmenter/Caractériser les
http://mmanagement.e-monsite.com/medias/files/les-decisions-et-le-processus-de-decision.pdf
http://mmanagement.e-monsite.com/medias/files/les-
decisions-et-le-processus-de-decision.pdf
Classification des décisions selon leur échéance, leur incidence dans le temps :
- décisions de planification, de pilotage, de régulation
intervient à l'issue de la troisième étape une ultime phase : l'évaluation, c'est-à-dire que xt=La%20d%C3%A9cision%20r
el%C3%A8ve%20de%20tout,Ch
essentiellement rationnel.
Le processus
décisionnel
de Simon : IMC
Trop de
paramètres
, trop de
complexité, Solution
on a besoin BI/Entrepôt
d’un outil de données
pour aider comme outil
à la central
décision d’aide à la
dans un décision
cadre
rationnel.
Comprendre le
besoin d’affaires :
20% du temps
15% du temps
Datalab
https://www.linkedin.com/pulse/data-science-workflow-matt-dancho/
Herbert Simon (1916-2001), encore lui !
• Est l’auteur du livre : Le nouveau
management – la décision par les
ordinateurs, 1980
1971 : A. Gorry et M. Scott Morton ont définit les SAD (système d’aide à la décision) de la manière suivante :
« système informatisé interactif aidant le décideur à manipuler des données et des modèles pour résoudre
des problèmes mal structurés ».
Les SAD réunissent les ressources intellectuelles des individus avec les potentialités des ordinateurs dans
le but d’améliorer les décisions prises https://halshs.archives-ouvertes.fr/halshs-
00264398/document
Jean-Fabrice Lebraty. Les systèmes
1977 : S. Alter propose de classer les SAD en 2 grands types : décisionnels. Akoka, A, Comyn-Wattiau, I.
- Orienté modèles (simulations, suggestions) Encyclopédie de l’informatique et des
systèmes d’information, Vuibert, pp.1338-
- Orienté données (recherches de données, analyse de données) 1349, 2006. ffhalshs-00264398
Avec le temps, les SAD se sont enrichis d’autres domaines comme les sciences cognitives, les sciences de
gestion, … On parle parfois de gestion des systèmes d’information qui englobe les SAC
Le schéma suivant, illustre le modèle qui constitue le fondement de la majorité des SAD mis en œuvre à ce jour :
https://halshs.archives-ouvertes.fr/halshs-
00264398/document
Le schéma suivant, illustre le modèle qui constitue le fondement de la majorité des SAD mis en œuvre à ce jour :
Intelligence
Modélisation
https://halshs.archives-ouvertes.fr/halshs-
00264398/document
Le schéma suivant, illustre le modèle qui constitue le fondement de la majorité des SAD mis en œuvre à ce jour :
https://halshs.archives-ouvertes.fr/halshs-
00264398/document
Le schéma suivant, illustre le modèle qui constitue le fondement de la majorité des SAD mis en œuvre à ce jour :
L’exploration des
données, la créativité
versus leur exploitabilité
est un nouvel angle
porteur de valeur.
https://halshs.archives-ouvertes.fr/halshs-
00264398/document
Le schéma suivant, illustre le modèle qui constitue le fondement de la majorité des SAD mis en œuvre à ce jour :
La place de l’être humain est-
elle en train de disparaître ?
1. Besoins d’affaires
haut niveau
Angle des 2. Besoins non fonctionnels Mentalité
besoins (des usagers/clients
usagers) 3. Besoins fonctionnels davantage BI
comment Analyses
4. Besoins techniques descriptives
INTELLIGENCE MODÉLISATION CHOIX
Intelligence des
besoins/valeur Analyses prédictives et
prescriptives, Machine
Solution « datalake » doit être flexible, Learning….
scalable, … agile, en constante évolution
Angle des (souvent des changement de modèles de
données Mentalité données,
données en cours de route donc
davantage Big Data
bénéfices/coûts), ne cherche pas à
être « single source of truth » mais plutôt à
explorer des futurs possibles,
3 6
L’objectif ici est d’avoir
l’accord
2
de l’entreprise que les
livrables du DW/BI sont
là comme support/aide à 1
4 7 8
la decision.
https://www.kimballgroup.com/data-warehouse-business-intelligence-resources/kimball-techniques/dw-bi-lifecycle-method/
Angle des
besoins (des
usagers)
Apparu au début des années 1990 et mis en avant par W. Inmon et par R. Kimball, des spécialistes du monde des bases de
données :
« Un système de DW organise et conserve les données nécessaires aux processus informationnels et analytiques dans une
perspective de long terme. Ce système correspond à un ensemble de données orientées selon un sujet, intégrées, évoluant
dans le temps et non volatiles, qui a pour but l'aide aux processus de prise de décision de gestion. » (Inmon, 1996).
L’originalité d’un système de DW réside dans le fait que les SAD n’interrogent plus directement les bases transactionnelles.
En effet, l’entrepôt de données est une base de données dont la structure est orientée vers la prise de décision et qui se
positionne entre les applications transactionnelles et les SAD.
Niveau programme:
– Comprendre les besoins d’affaires dans une perspective englobant toute l’entreprise;
– Surtout les besoins de la haute direction;
– Normalement fait une seule fois au début.
Niveau projet:
– Analyse plus détaillée des besoins, concentrée sur un projet (sujet) bien défini;
– Surtout les besoins des cadres intermédiaires et des analystes d’affaires;
– Fait pour chacun des projets.
Angle des
besoins (des
usagers)
Angle des
besoins (des
usagers)
5 étapes
Recherche
Se renseigner sur l’entreprise et le domaine d’affaire ciblé dans le projet
Sélection des personnes à interviewer
Impossible de s’entretenir avec tout le monde
Choisir les personnes clé: connaissances, influence, ouverture d’esprit, etc.
Demander l’avis du sponsor du projet pour sélectionner ces personnes clé
Utilise l’organigramme
Attention: La disponibilité d’une personne n’est pas nécessairement un bon critère de sélection
Préparation des questions
Doit absolument être fait à l’avance
Les questions varient généralement selon la fonction et le niveau hiérarchique de la personne rencontrée
Si nécessaire, demander au sponsor de réviser les questions
Angle des
besoins (des
usagers)
ÉTAPE #2: Exemples de questions pour la haute direction : discussion sur les objectifs d’affaires
Quels sont les objectifs de votre organisation? Qu’est ce que l'entreprise tente d'accomplir? Quels sont vos principaux objectifs d'affaires?
Comment identifiez-vous les attentes reliées à votre domaine d'affaire? Comment fixez-vous les attentes de votre entreprise?
Comment mesurez-vous le succès de l'entreprise? Quelles métriques utilisez-vous? Dans quelle mesure êtes-vous capable de savoir que vous
avez obtenu les résultats escomptés? Que vous allez dans la bonne direction? A quelle fréquence mesurez-vous votre performance?
Quels sont les fonctions et départements au sein de votre organisation qui sont primordiaux dans l'atteinte de vos objectifs? Quels rôles jouent-
ils? Comment collaborent-ils pour assurer le succès de l'organisation?
Quels sont les principaux défis auxquels vous faites présentement face? Selon vous, qu'est ce qui pourrait vous empêcher de surmonter ces défis
et d'atteindre vos objectifs? Quel serait l'impact de ne pas être en mesure de surmonter ces défis sur l'entreprise?
Voyez-vous présentement ou dans le futur de votre organisation des opportunités de profits qui ne sont pas adressées aujourd'hui?
Comment vous comparez vous à la compétition sur le plan de l'utilisation des technologies de l'information sur le plan global et sur le plan
décisionnel?
Êtes-vous en mesure de réagir rapidement aux conditions changeantes du marché?
Angle des
besoins (des
usagers)
ÉTAPE #2: Exemples de questions pour la haute direction : discussion sur les besoins fonctionnels d’analyse
Quelle est l'importance qu'occupe l'analyse des données au niveau des décisions que vous et vos principaux gestionnaires
prenez pour gérer les opérations de votre organisation?
Quelle information est jugée primordiale pour prendre et supporter les décisions au sein de votre organisation? Comment
obtenez-vous cette information aujourd'hui?
A votre connaissance, il y a de l'information qui ne vous est pas disponible ou qui n'est pas accessible aujourd’hui mais qui aurait
un impact important sur l'atteinte de vos objectifs?
Quels rapports utilisez-vous aujourd'hui? Quelle est l'information importante sur ces rapports? Comment utilisez vous cette
information? Si ces rapports étaient dynamiques, que feraient-ils de différent?
Quelles sont les opportunités qui s'offriraient à vous si vous étiez en mesure de bénéficier d'un meilleur accès à votre
information? Quel en serait l'impact financier? Quel en serait l'impact sur l'organisation?
Angle des
besoins (des
usagers)
ÉTAPE #2: Exemples de questions pour les analystes et gestionnaires : discussion sur les objectifs d’affaires
Quels sont les objectifs de votre organisation? Qu’est ce que l'entreprise tente d'accomplir? Quels sont vos principaux objectifs d'affaires?
Comment identifiez-vous les attentes reliées à votre domaine d'affaire? Comment fixez-vous les attentes de votre entreprise?
Quels sont les principaux défis auxquels vous faites présentement face? Selon vous, qu'est ce qui pourrait vous empêcher de surmonter ces défis
et d'atteindre vos objectifs? Quel serait l'impact de ne pas être en mesure de surmonter ces défis sur l'entreprise?
Comment identifiez-vous les problèmes et les exceptions? Dans quelle mesure êtes-vous capable de dire que des problèmes pointent à l’horizon?
Décrivez vos Produits? Comment distinguez entre vos différents produits? Comment les catégorisez-vous? Si nous assumons que le volume de
votre catalogue nous empêche de passer en revue l'ensemble de vos produits lors de la recherche d'un produit spécifique, comment faite vous
pour cibler votre recherche précisément?
Ces différentes catégories sont-elles stables ou sont-elles appelées à changer fréquemment? Dans la mesure où elles sont appelées à changer,
quel est l’impact de ce changement sur vos processus d’analyse?
Recommencez l’exercice précédent pour l’ensemble des axes d’analyse important: clients, fournisseurs, territoires ….
Angle des
besoins (des
usagers)
ÉTAPE #2: Exemples de questions pour les analystes et gestionnaires : discussion sur les besoins fonctionnels d’analyse
Quelles sont les données utilisées? Comment obtenez-vous présentement ces données? Que faites-vous avec ces données une fois obtenues?
Devez vous les manipuler?
Quel type d'analyse voudriez-vous être en mesure d'effectuer? Voyez-vous des potentielles améliorations possibles aux méthodes/processus que
vous utilisez actuellement?
Quel sont les types d'analyse ad-hoc que vous effectuez de façon régulière? Qui sont les membres de votre équipe qui typiquement effectuent
ou demandent ce genre d'analyse? Quel est le but de ces analyses? Quel est le niveau de satisfaction face au temps requis pour obtenir les
résultats de ces analyses? Les membres de votre équipe ont ils le temps de pousser plus à fond ces analyses?
En vous basant sur la qualité et sur le niveau de détail des données avec lequel vous devez traiter, quel pourcentage de temps passez-vous à
manipuler les données et quel pourcentage de votre temps passez-vous à les analyser? – « data monkey »
Quels sont les types d’analyses prédéfinies (rapports) que vous effectuez le plus souvent? Quelle est l'information importante sur ces rapports?
Comment utilisez-vous cette information? Si ces rapports étaient dynamiques, que feraient-ils de différent?
Devez vous retravailler ces rapports? Quelles informations aimeriez-vous voir ajoutées aux rapports? Quelles informations sont inutiles et
pourrait être retirées? Quelles sont les capacités analytiques que vous aimeriez avoir? Existe-il aujourd’hui des goulots d’étranglement important
qui nuisent à l’accès à l’information? Quel horizon de données historique avez-vous besoin dans le système?
Solution « entrepôt de données, modèle rigide, très
structuré. doit être robuste, single source of truth
1. Besoins d’affaires
haut niveau
Angle des 2. Besoins non fonctionnels Mentalité
besoins (des usagers/clients
usagers) 3. Besoins fonctionnels davantage BI
comment Analyses
4. Besoins techniques descriptives
INTELLIGENCE MODÉLISATION CHOIX
Intelligence des
besoins/valeur Analyses prédictives et
prescriptives, Machine
Solution « datalake » doit être flexible, Learning….
scalable, … agile, en constante évolution
Angle des (souvent des changement de modèles de
données Mentalité données,
données en cours de route donc
davantage Big Data
bénéfices/coûts), ne cherche pas à
être « single source of truth » mais plutôt à
explorer des futurs possibles,
1) Imaginer un produit / une solution Comprendre le besoin d’affaires
2)
3)
Collecter les données
Préparer les données Travailler avec
4) Concevoir un modèle
5)
6)
Visualiser les résultats
Optimiser le modèle
les données
7) Déployer et industrialiser Communiquer les résultats
Comprendre le
besoin d’affaires :
20% du temps
15% du temps
Datalab
https://www.linkedin.com/pulse/data-science-workflow-matt-dancho/
Certaines décisions peuvent venir en retour influencer et modifier les systèmes métiers
Environnement décisionnel
Quelques concepts clefs :
- l’ingestion/acquisition de données
- la préparation des données
Data ingestion (à cause du big data)/ Ingestion de Data wrangling / Data preparation /préparation de
données / ETL – ELT données/ querelle des données https://www.trifacta.com/data-munging/
L'ingestion de données est définie comme le processus Processus consistant à prendre les données dans leur forme
d'absorption des données provenant de diverses sources d’origine et à les “apprivoiser” jusqu’à ce qu’elles
et de leur transfert vers un site cible où elles peuvent être fonctionnent mieux dans un flux de travail ou un projet plus
déposées et analysées. De manière générale, ces large.
destinations peuvent être une base de données, un
entrepôt de données, un magasin de données, etc.. Apprivoiser signifie rendre les valeurs cohérentes avec un
ensemble de données plus volumineux, remplacer ou
Data munging /Data cleaning /Nettoyage de données supprimer des valeurs susceptibles d’affecter l’analyse ou
les performances ultérieurement, etc.
Le processus de nettoyage (data cleaning) des données
qui precede l’analyse s’appellee le data munging Ce processus vise à implanter une stratégie de données
Ce processus peut être particulièrement lourd si effectué appellee “integration des données”.
manuellement.
Wrangling in 6 steps (data pipeline) : découverte/structurer/nettoyage/enrichissement/validation/publication pour analytics
https://www.trifacta.com/data-munging/
Discovering: Learn what’s in your raw dataset to think ahead about the best approach for your analytic explorations. This allows you to understand unique
elements of the data such as outliers and value distribution to inform the analysis process.
Structuring: This is a critical step because your data comes in all shapes and sizes, and it is up to you to decide the best format to visualize and explore it.
Separating, blending, and un-nesting are all important actions in this step.
Cleaning: This step is essential to standardizing your data to ensure that all inconsistencies (such as null and misspelled values) are addressed. Other data may
need to be standardized to a single format such as state abbreviations.
Enriching: At this point, you’ve gotten a clear handle on your data – what else could you add to provide more value to your analysis? Enrichment is often about
joins and complex derivations. For example, if you’re looking at biking data, perhaps a weather dataset would be an important factor in your analysis.
Validating: Verify if you’ve caught all of the data quality and consistency issues and go back to address anything you may have missed. Validation should be
done on multiple dimensions.
Publishing: This is where you can download and deliver the results of your wrangling effort to downstream analytics tools. Once you’ve published your data it’s
time to move onto the next step: analytics!
Ingestion de données – Big Data
ETL - BI
Réflexion « Yvesque » : Qui est le plus rapide entre les deux et pourquoi ?
Angle des
données
C’est un changement de
culture, autant pour la
direction que pour les
usagers
https://www.scnsoft.com/blo
g/big-data-implementation
Angle des
Angle des
données
Angle des
données
Angle des
données
Angle des
données
données
Angle des
Angle des
données
Angle des
données
Angle des
C’est un changement de culture, autant pour la direction que pour les usagers données
Angle des
données
Angle des
données
Opportunité de création de valeur : données
Avec ce que nous avons en tant qu’entreprise : site Web, archives de courriel, vidéos de surveillance, capteurs de
données IoT, enregistrements de conversations du service à la clientèle, …., pourrions nous en extraire de la valeur ?
En enrichissant nos données avec des sources externes (météo, statistiques canada, …) pouvons nous faire mieux ?
Approche de test de performances de certaines publicités selon certains facteurs sur notre site Web.
Ex : datascientist chez LinkedIn, Jonathan Goldman, À L’ÉCART DE TOUS, avait une autorisation haut niveau de
tester ses hypothèses sur des sous-sections de site. Il étudiait les appartenances aux groupes des usagers, … et a mis
au point le « people you may know ». Depuis, c’est l’un des facteurs principaux d’appréciation de LinkedIn.
Angle des
Angle des
données
Angle des
données
Angle des
C’est un changement de culture, autant pour la direction que pour les usagers données
Angle des
données
Angle des
données
Implanter une culture de l’échec probable données
Implanter un datalab : être « agile », flexible, … Il faut expérimenter, découvrir, chercher sans trop savoir quoi
chercher parfois, pour trouver de nouvelles valeurs
Avec en tête TOUJOURS… les besoins d’entreprise (haut niveau) et les coûts que cela représente. DONC
- Nécessité de mettre en place des vigies sur les meilleures pratiques émergentes
- Proposer un MVP : minimum value product, avec un suivi régulier des progrès pour convaincre que cela vaut la
peine
- Approche datalab : on expérimente avant d’implanter
Pipeline des données lors d’une ingestion 2.0 (= wrangling)
Leading analyst firms have been quoting data lake failure rates of 85% for some time now. (Teradata)
Angle des
données
https://dataladder.com/data-lake-eco-system-unique-data-ingestion-challenges/
Ingestion de données 1.0
Les données peuvent arriver en streaming/fichiers/données structurées
Système
décisionnel
classique
Angle différent
(usagers/données)
Source de type
différents (riche en
info par qté de
données, pauvre en
info …)
Méthodes
différentes (stat
descriptive vs
inférentielle)
Objectif différents :
prédire, prescrire…
plutôt que décrire
« La partie la plus difficile de la spécification des besoins n’est pas de documenter ce que les utilisateurs veulent;
il s’agît plutôt de
- l’effort pour aider ceux-ci à déterminer ce dont ils ont besoin qui peut leur être fourni avec succès » −
Steve McConnell (Software Project Survival Guide, Microsoft Press)
- Mais aussi d’OSER explorer, expérimenter (et échouer parfois-souvent) des nouvelles idées en partant
des données inexploitées ou peu exploitées, et d’en extraire une valeur parfois difficile à deviner au début
de l’aventure, en parvenant à convaincre la haute direction que le jeu en vaut la chandelle.
L’effort est sur les personnes / L’effort est sur les données : que cherchent-elles à me dire ?
Kimball and Big Data
https://www.kimballgroup.com/2015/12/design-tip-180-the-future-is-bright/
http://www.kimballgroup.com/wp-content/uploads/2012/09/Newly-Emerging-Best-Practices-for-Big-Data1.pdf
Comment rater son projet Big Data en 10 leçons
https://www.usine-digitale.fr/article/comment-rater-son-projet-big-data-en-10-lecons.N376133
Cours intéressant
https://cours.etsmtl.ca/mti820/public_docs/acetates/MTI820-Acetates-SpecificationDesBesoins_1pp.pdf
https://cours.etsmtl.ca/mti820/public_docs/acetates/MTI820-Acetates-CycleDeVieProjetBI_1pp.pdf
https://datatherapy.org/2015/07/20/architectures-for-building-a-data-culture/
Business intelligence (BI) is a technology-driven process for analyzing data and presenting actionable information
to help corporate executives, business managers and other end users make more informed business
decisions. BI encompasses a variety of tools, applications and methodologies that enable organizations to
collect data from internal systems and external sources, prepare it for analysis, develop and run queries against the
data, and create reports, dashboards and data visualizations to make the analytical results available to corporate
decision makers as well as operational workers.
Data science involves methods to analyze massive amounts of data and to extract knowledge from them.
https://datatherapy.org/2015/07/20/architectures-for-
building-a-data-culture/
https://www.getsmarter.com/blog/career-advice/difference-data-analytics-data-analysis/#:~:text=Data%20analysis%20refers%20to%20the,the%20complete%20management%20of%20data.
https://itchronicles.com/big-data/data-analytics-vs-data-analysis-whats-the-difference/
ML = Machine Learning /
Data analysis et data analytics Apprentissage machine
Ils ont chacun deux définitions différentes, ce qui apporte une certaine confusion. Je
distinguerai ici les deux par les adjectifs restreint et étendue.
Analytique étendue
Analyse de données restreinte / étendue : que s’est-il passé Analyse étendue
- restreinte : analyse de données dans un cadre BI : processus qui consiste à examiner
Analytique
(descriptif) les données, les composantes, les séparer et les mettre en relation les uns avec les autres. restreinte
- étendue : restreinte + ajout des techniques de modélisation et de ML, analyse de ces résultats Analyse
restreinte
https://www.quora.com/What-is-the-difference-between-
Analytics-and-analysis-data-analytics
https://www.getsmarter.com/blog/career-advice/difference-data-analytics-data-
analysis/#:~:text=Data%20analysis%20refers%20to%20the,the%20complete%20management%20of
%20data.
https://itchronicles.com/big-data/data-analytics-vs-data-analysis-whats-the-difference/
https://clarkstonconsulting.com/insights/marketing-analytics-data-analysis/
https://www.selecthub.com/business-analytics/web-analytics-vs-business-analytics/
https://www.quora.com/What-is-the-difference-between-Analytics-and-analysis-data-analytics