Chapitre 3 - Apprentissage Supervisé - Régression Linaire

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 39

CHAPITRE 3: APPRENTISSAGE SUPERVISÉ

DR. MARIEM FARHAT


GLSI3 – ISTIC 2022
LES BASES DE L’APPRENTISSAGE SUPERVISÉ

 Machine learning: donner à une machine la capacité d’apprendre sans la programmer de façon implicite.

Des exemples (x,y) Sorties estimées (𝑦)

Y = f(X)

Dataset

Trouver f
Variable à Variables explicatives
expliquer
1. DATASET

 Deux types de variables n


 Variable(s) explicative(s)
 Variable(s) à expliquer

 Par convention:
d
 N: nombre de lignes ou échantillons
 D: nombre de colonnes ou d’attributs
(𝑒𝑥𝑒𝑚𝑝𝑙𝑒) (2)
 𝑥𝑎𝑡𝑡𝑟𝑖𝑏𝑢𝑡  𝑥𝑑
1. DATASET

y 𝒙𝟏 𝒙𝟐 𝒙𝟑 𝒙𝒅

Vecteur output 𝑦 ∈ ℝ𝑛×1 𝑦 (1) 𝑥1(1) 𝑥2(1) 𝑥3(1) … (1)


𝑥𝑑

𝑦 (2) 𝑥1(2) 𝑥2(2) 𝑥3(2) … (2)


𝑥𝑑

1 … … … … … …
𝑦
𝑦= ⋮
𝑦 (𝑛) 𝑦 (𝑛) 𝑥1(𝑛) 𝑥2(𝑛) 𝑥3(𝑛) … (𝑛)
𝑥𝑑
1. DATASET
y 𝒙𝟏 𝒙𝟐 𝒙𝟑 𝒙𝒅

𝑦 (1) 𝑥1(1) 𝑥2(1) 𝑥3(1) … (1)


𝑥𝑑
𝑛×1 Matrice attributs 𝑋 ∈ ℝ𝑛×𝑑
Vecteur output 𝑦 ∈ ℝ
𝑦 (2) 𝑥1(2) 𝑥2(2) 𝑥3(2) … (2)
𝑥𝑑

… … … … … …
(1) (1)
𝑦 1 𝑥1 ⋯ 𝑥𝑑
𝑦 (𝑛) 𝑥1(𝑛) 𝑥2(𝑛) 𝑥3(𝑛) … (𝑛)
𝑥𝑑 𝑋= ⋮ ⋱ ⋮
𝑦= ⋮
(𝑛) (𝑛)
𝑦 (𝑛) 𝑥1 … 𝑥𝑑
2. LE MODÈLE

Modèle linaire
𝑓 𝑥 = 𝑎𝑥 + 𝑏
2. LE MODÈLE

Modèle polynomiale
𝑓 𝑥 = 𝑎𝑥 2 + 𝑏𝑥 + 𝑐
2. LE MODÈLE

𝑓 𝑥 = 𝑎𝑥 3 + 𝑏𝑥 2 + 𝑐

Des coefficients
Des paramètres

C’est à nous de déterminer quel modèle on va


utiliser.
Et c’est la machine qui va apprendre les
paramètres de ce modèle.
3. FONCTION COÛT

𝐿𝑜𝑠𝑠𝑓𝑢𝑛𝑐𝑡𝑖𝑜𝑛 = 𝑓(𝑓 𝑥 , 𝑦)
4. ALGORITHME DE MINIMISATION

 Quels sont les paramètres (les coefficients de la fonction de notre


modèle) qui minimise la fonction coût (l’erreur entre la valeur
estimée et la valeur réelle)?
 Pour minimiser la fonction coût, on utilise un algorithme d’optimisation
 Moindre carré
 Descente de gradient
LES PHASES DE L’APPRENTISSAGE SUPERVISÉ

 Le but de la 1ère étape (étape d’apprentissage ) est de déterminer la fonction de prédiction f (le
modèle):
 Déterminer la fonction qui représente la meilleure approximation de la fonction f (qui présente le
minimum d’erreur possible entre les valeurs réelles et les valeurs estimées)
LES PHASES DE L’APPRENTISSAGE SUPERVISÉ

 Dans la 2ème étape, (étape de test), il s’agit d’utiliser f pour estimer une sortie pour
une nouvelle observation x.
 Il s’agit de déterminer 𝑦 tel que : 𝑦 = f(x)
FRACTIONNEMENT DES DONNÉES

 Généralement, partitionnement aléatoire des observations en deux ensembles distincts:


 Ensemble d’apprentissage
 Permet de déterminer le modèle
 estimer la fonction

 Ensemble de test
 Permet de déterminer la qualité du modèle
 calculer le taux d’erreur

 Utiliser les 2 ensembles, indépendamment.


 Exemple:
 Ensemble d’apprentissage(2/3) des individus
 Ensemble de test (1/3) des individus
FRACTIONNEMENT DES DONNÉES
FRACTIONNEMENT DES DONNÉES

 Dans certains cas, partitionnement aléatoire des observations en trois


ensembles distincts:
 Ensemble d’apprentissage
 Permet de déterminer le modèle
 estimer la fonction

 Ensemble de validation
 Permet d’optimiser le choix des paramètres de l’algorithme d’apprentissage

 Ensemble de test
 Permet de déterminer la qualité du modèle
 calculer le taux d’erreur

 Utiliser les 3 ensembles, indépendamment.


 Exemple:
 Ensemble d’apprentissage : 50% des individus
 Ensemble de validation : 25% des individus
 Ensemble de test : 25% des individus
APPRENTISSAGE SUPERVISÉ – EVALUATION DE LA QUALITÉ

 Taux d’erreurs
 Calculer le taux d’erreur du modèle
 La sortie connue d’une entrée (observation) de l’ensemble de test est comparée
avec le résultat donné par le modèle.
 Taux d’erreur = pourcentage de tests incorrectement déterminés par le
modèle
APPRENTISSAGE SUPERVISÉ – EVALUATION DE LA QUALITÉ

 Sur-apprentissage (Overfitting)
 Apprentissage par cœur
 incapacité de généralisation
 Survient lorsqu’on cherche à trop "Coller" les données
 L’erreur d’apprentissage est très faible mais l’erreur sur les données de test est comparativement
élevée ;
 Le modèle apprend les particularités (par ex. le bruit) des données d’apprentissage.

 Sous-Apprentissage
 La fonction d’apprentissage n’est pas assez riche pour pouvoir décrire la diversité présente dans les
données
 Dans les deux cas la prédiction des sorties associées aux nouveaux individus sera de faible qualité
APPRENTISSAGE SUPERVISÉ – EVALUATION DE LA QUALITÉ
DIFFÉRENTS CONTEXTES D’APPRENTISSAGE

 Deux types d’apprentissage supervisé


 Selon le type du résultat obtenu
 La régression linéaire
 Le résultat obtenu est une valeur contenu
 La résultat à prédire peut prendre n’importe quelle valeur.
 Par exemple, prédire le prix du véhicule étant données des caractéristiques d’un véhicule.

 La classification
 Le résultat obtenu est une valeur discrète
 La résultat à prédire peut prendre une valeur d’un ensemble fini de valeurs : Classe
 Par exemple, prédire si un mail est SPAM ou non, le résultat peut prendre deux valeurs possible : {spam, non spam}
y 𝒙𝟏 𝒙𝟐 𝒙𝟑 𝒙𝒅

𝑦 (1) 𝑥1(1) 𝑥2(1) 𝑥3(1) … (1)


𝑥𝑑

𝑦 (2) 𝑥1(2) 𝑥2(2) 𝑥3(2) … (2)


𝑥𝑑

… … … … … …

𝑦 (𝑛) 𝑥1(𝑛) 𝑥2(𝑛) 𝑥3(𝑛) … (𝑛)


𝑥𝑑
1. DATASET

 Deux types de variables


 Variable expliquée (à expliquer)
 "Expliquer" signifie exprimer une dépendance fonctionnelle de Y
comme fonction de X (Y=f(X)), de manière à prévoir la valeur
de Y en connaissant celle de X.
 Variables à décrire, à expliquer, à prédire
 Variables dépendantes : Y dépend de X
 Représentée sur l’axe des ordonnées
 Variables explicatif
 Utiliser dans le but d’expliquer, de décrire ou de prédire la ou
les variable(s) dépendante(s).
 Variables indépendantes: X ne dépend pas de Y  Relation
asymétrique
 Représentées sur l’axe des abscisses
LE MODÈLE

 Régression linéaire simple


 une seule variable indépendante
 Exemple: prédiction de l’émission CO2 en fonction de la taille du moteur
 Variable indépendante: taille du moteur
 Variable dépendante: émission CO2

 Régression linéaire multiple


 Au moins deux variables indépendantes
 Exemple: prédiction de l’émission CO2 en fonction de la taille du moteur et nombre de cylindre
 Variable indépendantes: taille du moteur et nombre de cylindre
 Variable dépendante: émission CO2
LE MODÈLE

ISTIC 2022 24
2. LE MODÈLE

 Régression linaire simple


 Relation entre 2 variables quantitatives X et Y
 La relation entre la variable explicative et la variable expliquée est linéaire
Import matplotlib.pyplot as plt
%matplotlib inline
LE MODÈLE
Sample.plot.scatter(x=‘Engine size’, y= ‘Emission’)

ISTIC 2022 26
LE MODÈLE

ISTIC 2022 27
En utilisant les données d’apprentissage, rechercher la droite dans un espace 2D qui permet de
représenter au mieux les observations
LE MODÈLE

 X1 = 5,4 variable indépendante


 Y = 250 émission CO2 pour x1

ISTIC 2022 28
LE MODÈLE

 𝑥1 = 5,4 variable indépendante


 𝑦 = 250 : la valeur réelle de l’émission CO2 pour x1

𝑦 = a × 𝑥1 + 𝑏
 𝑦 = 340 : la prédiction de l’émission CO2 pour x1
 Erreur: ε = 𝑦 − 𝑦 = 250 − 340 = −90
 On appelle cette erreur: le résidu

ISTIC 2022 29
LE MODÈLE

 𝑥1 = 5,4 variable indépendante


 𝑦 = 250 : la valeur réelle de l’émission CO2 pour x1

𝑦 = a × 𝑥1 + 𝑏

 𝑦 = 340 : la prédiction de l’émission CO2 pour x1


 Erreur = 𝑦 − 𝑦 = 250 − 340 = −90

1
 𝑀𝑆𝐸 =
𝑛 𝑖 (𝑦𝑖 − 𝑦𝑖 )2 : erreur quadratique

ISTIC 2022 30
LE MODÈLE

 Méthode de résolution
 Méthode d’estimation par la méthode des moindres carrés
 Méthode par optimisation

ISTIC 2022 31
ALGORITHME DE MINIMISATION

 Trouver la fonction qui permet de minimiser l’erreur quadratique


 𝑓 = 𝑎𝑟𝑔𝑚𝑖𝑛 𝑀𝑆𝐸 𝑓 = 𝑎𝑟𝑔𝑚𝑖𝑛 𝑦 − 𝑦 = 𝑎𝑟𝑔𝑚𝑖𝑛(𝑦 − a × 𝑥1 + 𝑏)2

 Le problème admet une solution analytique

 La fonction étant 𝑓dérivable, son minimum est le point où sa dérivée s’annule.

 Déterminer la fonction 𝑓 : On peut montrer que :

𝑛
𝑖=1(𝑋𝑖 − 𝑋)(𝑌𝑖 − 𝑌) 𝑏 =𝑌−𝑎𝑋
𝑎= 𝑛 2
𝑖=1(𝑋𝑖 − 𝑋)

La droite passe par la


ISTIC 2022
moyenne du nuage des points 32
ALGORITHME DE MINIMISATION
𝑦 =𝑎 ×𝑥+𝑏

𝑏 = 𝑦−𝑎 ×𝑥
ISTIC 2022
𝑏 = 226,22 − 39 ∗ 3,03 33

𝑏 = 125,74
𝑦 = 39 × 𝑥 + 125,74
ALGORITHME DE MINIMISATION

𝑦 = 39 × 𝑥 + 125,74

𝐶𝑂2𝐸𝑚𝑖𝑠𝑠𝑖𝑜𝑛 = 39 × 𝐸𝑛𝑔𝑖𝑛𝑒𝑆𝑖𝑧𝑒 + 125,74

𝐶𝑂2𝐸𝑚𝑖𝑠𝑠𝑖𝑜𝑛 = 39 × 2,4 + 125,74

𝐶𝑂2𝐸𝑚𝑖𝑠𝑠𝑖𝑜𝑛 = 218,6

ISTIC 2022 34
EVALUATION DE LA QUALITÉ D’UNE RÉGRESSION LINÉAIRE

ISTIC 2022 35
EVALUATION DE LA QUALITÉ D’UNE RÉGRESSION LINÉAIRE

L'écart quadratique moyen (RMSE)

Relative Absolute Error

ISTIC 2022 36
Relative Standard Error
EVALUATION DE LA QUALITÉ D’UNE RÉGRESSION LINÉAIRE

 Coefficient de détermination R2
 Un indicateur de la qualité d’une régression linéaire simple
 Un indicateur sur l’adéquation entre le modèle et les données observées
 à quel point l’équation de régression est adaptée pour décrire la distribution des points.

 0 ≤ R2 ≤ 1 : plus R2 est proche de 1, plus le modèle choisi semble pertinent


 La valeur 0 : indique un pouvoir de prédiction faible
 droite de régression détermine 0 % de la distribution des points. Cela signifie que le modèle n’explique pas
la distribution des points.
 La valeur 1 : indique un pouvoir de prédiction fort.
 droite de régression est capable de déterminer 100 % de la distribution des points
ISTIC 2022 37
EVALUATION DE LA QUALITÉ D’UNE RÉGRESSION LINÉAIRE

 Le coefficient R² est "la part de la variance expliquée »


 R² =(variance expliquée / variance totale)

ISTIC 2022 38
EVALUATION DE LA QUALITÉ D’UNE RÉGRESSION LINÉAIRE

 Coefficient de détermination R2

ISTIC 2022 39
AVANTAGES DE LA RÉGRESSION LINÉAIRE

 Très rapide
 Pas besoin de paramétrage

ISTIC 2022 40

Vous aimerez peut-être aussi

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy