Chapitre 3 - Apprentissage Supervisé - Régression Linaire
Chapitre 3 - Apprentissage Supervisé - Régression Linaire
Chapitre 3 - Apprentissage Supervisé - Régression Linaire
Machine learning: donner à une machine la capacité d’apprendre sans la programmer de façon implicite.
Y = f(X)
Dataset
Trouver f
Variable à Variables explicatives
expliquer
1. DATASET
Par convention:
d
N: nombre de lignes ou échantillons
D: nombre de colonnes ou d’attributs
(𝑒𝑥𝑒𝑚𝑝𝑙𝑒) (2)
𝑥𝑎𝑡𝑡𝑟𝑖𝑏𝑢𝑡 𝑥𝑑
1. DATASET
y 𝒙𝟏 𝒙𝟐 𝒙𝟑 𝒙𝒅
1 … … … … … …
𝑦
𝑦= ⋮
𝑦 (𝑛) 𝑦 (𝑛) 𝑥1(𝑛) 𝑥2(𝑛) 𝑥3(𝑛) … (𝑛)
𝑥𝑑
1. DATASET
y 𝒙𝟏 𝒙𝟐 𝒙𝟑 𝒙𝒅
… … … … … …
(1) (1)
𝑦 1 𝑥1 ⋯ 𝑥𝑑
𝑦 (𝑛) 𝑥1(𝑛) 𝑥2(𝑛) 𝑥3(𝑛) … (𝑛)
𝑥𝑑 𝑋= ⋮ ⋱ ⋮
𝑦= ⋮
(𝑛) (𝑛)
𝑦 (𝑛) 𝑥1 … 𝑥𝑑
2. LE MODÈLE
Modèle linaire
𝑓 𝑥 = 𝑎𝑥 + 𝑏
2. LE MODÈLE
Modèle polynomiale
𝑓 𝑥 = 𝑎𝑥 2 + 𝑏𝑥 + 𝑐
2. LE MODÈLE
𝑓 𝑥 = 𝑎𝑥 3 + 𝑏𝑥 2 + 𝑐
Des coefficients
Des paramètres
𝐿𝑜𝑠𝑠𝑓𝑢𝑛𝑐𝑡𝑖𝑜𝑛 = 𝑓(𝑓 𝑥 , 𝑦)
4. ALGORITHME DE MINIMISATION
Le but de la 1ère étape (étape d’apprentissage ) est de déterminer la fonction de prédiction f (le
modèle):
Déterminer la fonction qui représente la meilleure approximation de la fonction f (qui présente le
minimum d’erreur possible entre les valeurs réelles et les valeurs estimées)
LES PHASES DE L’APPRENTISSAGE SUPERVISÉ
Dans la 2ème étape, (étape de test), il s’agit d’utiliser f pour estimer une sortie pour
une nouvelle observation x.
Il s’agit de déterminer 𝑦 tel que : 𝑦 = f(x)
FRACTIONNEMENT DES DONNÉES
Ensemble de test
Permet de déterminer la qualité du modèle
calculer le taux d’erreur
Ensemble de validation
Permet d’optimiser le choix des paramètres de l’algorithme d’apprentissage
Ensemble de test
Permet de déterminer la qualité du modèle
calculer le taux d’erreur
Taux d’erreurs
Calculer le taux d’erreur du modèle
La sortie connue d’une entrée (observation) de l’ensemble de test est comparée
avec le résultat donné par le modèle.
Taux d’erreur = pourcentage de tests incorrectement déterminés par le
modèle
APPRENTISSAGE SUPERVISÉ – EVALUATION DE LA QUALITÉ
Sur-apprentissage (Overfitting)
Apprentissage par cœur
incapacité de généralisation
Survient lorsqu’on cherche à trop "Coller" les données
L’erreur d’apprentissage est très faible mais l’erreur sur les données de test est comparativement
élevée ;
Le modèle apprend les particularités (par ex. le bruit) des données d’apprentissage.
Sous-Apprentissage
La fonction d’apprentissage n’est pas assez riche pour pouvoir décrire la diversité présente dans les
données
Dans les deux cas la prédiction des sorties associées aux nouveaux individus sera de faible qualité
APPRENTISSAGE SUPERVISÉ – EVALUATION DE LA QUALITÉ
DIFFÉRENTS CONTEXTES D’APPRENTISSAGE
La classification
Le résultat obtenu est une valeur discrète
La résultat à prédire peut prendre une valeur d’un ensemble fini de valeurs : Classe
Par exemple, prédire si un mail est SPAM ou non, le résultat peut prendre deux valeurs possible : {spam, non spam}
y 𝒙𝟏 𝒙𝟐 𝒙𝟑 𝒙𝒅
… … … … … …
ISTIC 2022 24
2. LE MODÈLE
ISTIC 2022 26
LE MODÈLE
ISTIC 2022 27
En utilisant les données d’apprentissage, rechercher la droite dans un espace 2D qui permet de
représenter au mieux les observations
LE MODÈLE
ISTIC 2022 28
LE MODÈLE
𝑦 = a × 𝑥1 + 𝑏
𝑦 = 340 : la prédiction de l’émission CO2 pour x1
Erreur: ε = 𝑦 − 𝑦 = 250 − 340 = −90
On appelle cette erreur: le résidu
ISTIC 2022 29
LE MODÈLE
𝑦 = a × 𝑥1 + 𝑏
1
𝑀𝑆𝐸 =
𝑛 𝑖 (𝑦𝑖 − 𝑦𝑖 )2 : erreur quadratique
ISTIC 2022 30
LE MODÈLE
Méthode de résolution
Méthode d’estimation par la méthode des moindres carrés
Méthode par optimisation
ISTIC 2022 31
ALGORITHME DE MINIMISATION
𝑛
𝑖=1(𝑋𝑖 − 𝑋)(𝑌𝑖 − 𝑌) 𝑏 =𝑌−𝑎𝑋
𝑎= 𝑛 2
𝑖=1(𝑋𝑖 − 𝑋)
𝑏 = 𝑦−𝑎 ×𝑥
ISTIC 2022
𝑏 = 226,22 − 39 ∗ 3,03 33
𝑏 = 125,74
𝑦 = 39 × 𝑥 + 125,74
ALGORITHME DE MINIMISATION
𝑦 = 39 × 𝑥 + 125,74
𝐶𝑂2𝐸𝑚𝑖𝑠𝑠𝑖𝑜𝑛 = 218,6
ISTIC 2022 34
EVALUATION DE LA QUALITÉ D’UNE RÉGRESSION LINÉAIRE
ISTIC 2022 35
EVALUATION DE LA QUALITÉ D’UNE RÉGRESSION LINÉAIRE
ISTIC 2022 36
Relative Standard Error
EVALUATION DE LA QUALITÉ D’UNE RÉGRESSION LINÉAIRE
Coefficient de détermination R2
Un indicateur de la qualité d’une régression linéaire simple
Un indicateur sur l’adéquation entre le modèle et les données observées
à quel point l’équation de régression est adaptée pour décrire la distribution des points.
ISTIC 2022 38
EVALUATION DE LA QUALITÉ D’UNE RÉGRESSION LINÉAIRE
Coefficient de détermination R2
ISTIC 2022 39
AVANTAGES DE LA RÉGRESSION LINÉAIRE
Très rapide
Pas besoin de paramétrage
ISTIC 2022 40