Chap2 4 1
Chap2 4 1
Chap2 4 1
Chapiter : 3
• Réduction de donnees
1.variables
– Réduction dimensionnelle
– Sélection de variables
2.Cas/échantillons
– Échantillonnage
– Équilibrage / stratification
Tâches et méthodes de prétraitement des
données(1 sur 3)
Tableau 2.1 Un résumé des tâches de prétraitement des données
et des méthodes potentielles
Tâche Sous-tâches Méthodes populaires
principale
Consolidation Accéder et collecter les SQL requêtes, agents logiciels, services Web.
des données données Expertise du domaine, SQL requêtes, tests statistiques.
Sélectionner et filtrer les SQRequêtes L, expertise du domaine, mappage de
données données basé sur l'ontologie.
Intégrer et unifier les
données
Nettoyage des Gérer les valeurs Remplir les valeurs manquantes (imputations) avec les
données manquantes dans valeurs les plus appropriées (moyenne, médiane,
les données min/max, mode, etc.) ; recoder les valeurs manquantes
avec une constante telle que "ML" ; supprimer
l'enregistrement de la valeur manquante ; ne rien faire.
Nettoyage des Identifier et réduire le bruit Identifier les valeurs aberrantes dans les données avec
données dans des techniques statistiques simples (telles que les
les données moyennes et les écarts-types) ou avec une analyse par
grappes ; une fois identifiées, supprimez les valeurs
aberrantes ou lissez-les en utilisant le regroupement, la
régression ou des moyennes simples.
Tâches et méthodes de prétraitement des
données(2 sur 3)
Tâche Sous-tâches Méthodes populaires
principale
Nettoyage des Trouver et Identifier les valeurs erronées dans les données
données éliminer (autres que les valeurs aberrantes), telles que les
données erronées valeurs impaires, les étiquettes de classe
incohérentes, les distributions impaires ; une fois
identifié, utilisez l'expertise du domaine pour corriger
les valeurs ou supprimer les enregistrements
contenant les valeurs erronées.
Transformatio Normaliser les Réduire la plage de valeurs de chaque variable à
n des données données valeur numérique à une plage standard (par
exemple, 0 à 1 ou -1 à +1) en utilisant une variété de
techniques de normalisation ou de mise à l'échelle.
• Moyenne arithmétique
x1 + x2 + + xn
n
x
x = x = i =1 i
n n
• Médiane
– Le numéro au milieu
• Mode
– L'observation la plus fréquente
Mesures statistiques Descriptif de Dispersion(1 sur 2)
• Dispersion
– Degré de variation d'une
variable donnée
• Etendue
– Maximum - minimum
Ecart type
• Variance
i = 1 i
n
− 2
( x x)
n
( xi − x) 2
s =
2 i =1 s =
n −1 n −1
• l'écart absolu moyen est la moyenne de la valeur
absolue des écarts à la moyenne. Autrement dit, c'est
la distance moyenne à la moyenne.
Statistiques descriptives Mesures de
dispersion(2sur2)
• quartiles
• Diagramme en boîtes et
moustaches
– alias box-plot
– Polyvalent /informatif
Forme des statistiques Descriptif d’une répartition
i =1 i
n
( x − x ) 3
Skewness = S =
(n − 1) s 3
• Paramètre d’aplatissement
– Nature pic/haute/maigre de la distribution
i =1 i
n
( x − x ) 4
Kurtosis = K = 4
− 3
ns
Relation entre la dispersion et les propriétés de
forme
Aperçu de la technologie 2.1(1 sur 2)
Statistiques descriptives dans Excel
Aperçu de la technologie 2.1(2 sur 2)
Statistiques descriptives dans Excel Création d'une boîte à moustaches dans Microsoft Excel
Modélisation de régression pour les statistiques
inférentielles
• Régression
– Une partie de l'inference statistiques
– La technique d'analyse la plus connue et la plus
utilisée en statistique
– Utilisé pour caractériser la relation entre la variable
explicative (entrée) et la variable de réponse (sortie)
• Ça peut être utilisé pour
– Test d'hypothèse (explication)
– Prévision (prédiction)
La modélisation de régression (1 sur 3)
• Corrélation versus Régression
– Quelle est la différence (ou la relation) ?
• Régression simple versus régression multiple
– Basé sur le nombre de variables d'entrée
• Comment développer des modèles de régression linéaire ?
– Nuages de points (visualisation—pour une régression
simple)
– Méthode des moindres carrés ordinaires
▪ Une ligne qui minimise au carré les erreurs
La modélisation de Régression (2 sur 3)
La modélisation de Régression (3 sur 3)
• X: contribution,y:sortir
• Régression linéaire simple
y = 0 + 1 x
• Régression linéaire multiple
y = 0 + 1 x1 + 2 x2 + 3 x3 + + n xn
• La signification de Bêta ( ) coefficients
– Signe (+ ou -) et grandeur
Processus de développement d'un modèle de
régression
– R 2 (R Carré)
– p Valeurs
– Mesures d'erreur (pour
les problèmes de
prédiction)
▪ MSE,MAD,RMSE
Hypothèses de modélisation de régression
• Linéarité
• Indépendance
• Normalité (distribution normale)
• Écart constant
• Multicolinéarité
• Que se passe-t-il si les hypotheses ne tiennent pas?
– Que doit on faire ?
Régression logistique(1 sur 2)
1
f ( y) =
1 + e − ( 0 + 1x )
Prévision de séries chronologiques
• Est-ce différent de la régression linéaire simple ? Comment?
Business Rapports : Définitions et notions
• Reportage=Information→Décision
• Reportage?
– Tout artefact de communication préparé pour
transmettre des informations spécifiques
• Un rapport peut remplir de nombreuses fonctions
– Assurer le bon fonctionnement du service
– Pour fournir des informations
– Fournir les résultats d'une analyse
– Pour persuader les autres d'agir
– Créer une mémoire organisationnelle…
Qu'est-ce qu'un rapport d'activité ?
• Un document écrit qui contient des informations
concernant des affaires commerciales.
• But: pour améliorer les décisions managériales
• La source: données de l'intérieur et de l'extérieur de
l'organisation (via l'utilisation de ETL)
• Format: texte + tableaux + graphiques/chart
• Distribution:imprimé, e-mail,portail/intranet
L'acquisition des données→Génération
d'informations→La prise de décision→La gestion des
processus
Rapports d'entreprise
Types de Business rapports
• Métriques des rapports de gestion : Aider à gérer les
performances de l'entreprise grâce à des mesures (SLA
pour les externes ;KPI pour les internes)
– Peut être utilisé dans le cadre des Six Sigma et/ou T
QM
Rapports de type tableau de bord
– Présentation graphique de plusieurs indicateurs de
performance sur une seule page à l'aide
cadrans/jauges
• Rapports de type tableau de bord prospectif
– Inclure des indicateurs financiers, clients, processus
métier, apprentissage et croissance
Visualisation de données
"L'utilisation de représentations visuelles pour explorer,
donner un sens et communiquer des données."
• Visualisation des données vs visualisation des
informations
• Information = agrégation, synthèse et contextualisation
des données
• Relatif aux graphiques d'information, à la visualisation
scientifique et aux graphiques statistiques
• Comprend souvent des tableaux, des graphiques, des
illustrations, …
Une brève histoire de la visualisation de
données
De Charles-Joseph Minard
• Sans doute le graphique multidimensionnel le plus populaire
Quel tableau ou graphique devriez-vous
utiliser ?
Un exemple Gapminder Graphique Richesse et
Santé des Nations
L'émergence de la visualisation des données et
du visuelAnalytique (1 sur 2)