Chapitre 3 - Apprentissage Supervisé - Régression Linaire

CHAPITRE 3: APPRENTISSAGE SUPERVISÉ
DR. MARIEM FARHAT

GLSI3 – ISTIC 2022
LES BASES DE L’APPRENTISSAGE SUPERVISÉ
 Machine learning: donner à une machine la capacité d’apprendre sans la programmer de façon implicite.
Des exemples (x,y) Sorties estimées (𝑦)
Y = f(X)
Dataset
Trouver f
Variable à Variables explicatives
expliquer
1. DATASET
 Deux types de variables n

 Variable(s) explicative(s)
 Variable(s) à expliquer
 Par convention:
d
 N: nombre de lignes ou échantillons
 D: nombre de colonnes ou d’attributs
(𝑒𝑥𝑒𝑚𝑝𝑙𝑒) (2)
 𝑥𝑎𝑡𝑡𝑟𝑖𝑏𝑢𝑡  𝑥𝑑
1. DATASET
y 𝒙𝟏 𝒙𝟐 𝒙𝟑 𝒙𝒅
Vecteur output 𝑦 ∈ ℝ𝑛×1 𝑦 (1) 𝑥1(1) 𝑥2(1) 𝑥3(1) … (1)

𝑥𝑑
𝑦 (2) 𝑥1(2) 𝑥2(2) 𝑥3(2) … (2)

𝑥𝑑
1 … … … … … …
𝑦
𝑦= ⋮
𝑦 (𝑛) 𝑦 (𝑛) 𝑥1(𝑛) 𝑥2(𝑛) 𝑥3(𝑛) … (𝑛)
𝑥𝑑
1. DATASET
𝑦 (1) 𝑥1(1) 𝑥2(1) 𝑥3(1) … (1)

𝑥𝑑
𝑛×1 Matrice attributs 𝑋 ∈ ℝ𝑛×𝑑
Vecteur output 𝑦 ∈ ℝ
𝑦 (2) 𝑥1(2) 𝑥2(2) 𝑥3(2) … (2)
𝑥𝑑
… … … … … …
(1) (1)
𝑦 1 𝑥1 ⋯ 𝑥𝑑
𝑦 (𝑛) 𝑥1(𝑛) 𝑥2(𝑛) 𝑥3(𝑛) … (𝑛)
𝑥𝑑 𝑋= ⋮ ⋱ ⋮
𝑦= ⋮
(𝑛) (𝑛)
𝑦 (𝑛) 𝑥1 … 𝑥𝑑
2. LE MODÈLE
Modèle linaire
𝑓 𝑥 = 𝑎𝑥 + 𝑏
2. LE MODÈLE
Modèle polynomiale
𝑓 𝑥 = 𝑎𝑥 2 + 𝑏𝑥 + 𝑐
2. LE MODÈLE
𝑓 𝑥 = 𝑎𝑥 3 + 𝑏𝑥 2 + 𝑐
Des coefficients
Des paramètres
C’est à nous de déterminer quel modèle on va

utiliser.
Et c’est la machine qui va apprendre les
paramètres de ce modèle.
3. FONCTION COÛT
𝐿𝑜𝑠𝑠𝑓𝑢𝑛𝑐𝑡𝑖𝑜𝑛 = 𝑓(𝑓 𝑥 , 𝑦)
4. ALGORITHME DE MINIMISATION
 Quels sont les paramètres (les coefficients de la fonction de notre

modèle) qui minimise la fonction coût (l’erreur entre la valeur
estimée et la valeur réelle)?
 Pour minimiser la fonction coût, on utilise un algorithme d’optimisation
 Moindre carré
 Descente de gradient
LES PHASES DE L’APPRENTISSAGE SUPERVISÉ
 Le but de la 1ère étape (étape d’apprentissage ) est de déterminer la fonction de prédiction f (le
modèle):
 Déterminer la fonction qui représente la meilleure approximation de la fonction f (qui présente le
minimum d’erreur possible entre les valeurs réelles et les valeurs estimées)
LES PHASES DE L’APPRENTISSAGE SUPERVISÉ
 Dans la 2ème étape, (étape de test), il s’agit d’utiliser f pour estimer une sortie pour
une nouvelle observation x.
 Il s’agit de déterminer 𝑦 tel que : 𝑦 = f(x)
FRACTIONNEMENT DES DONNÉES
 Généralement, partitionnement aléatoire des observations en deux ensembles distincts:

 Ensemble d’apprentissage
 Permet de déterminer le modèle
 estimer la fonction
 Ensemble de test
 Permet de déterminer la qualité du modèle
 calculer le taux d’erreur
 Utiliser les 2 ensembles, indépendamment.

 Exemple:
 Ensemble d’apprentissage(2/3) des individus
 Ensemble de test (1/3) des individus
 Dans certains cas, partitionnement aléatoire des observations en trois

ensembles distincts:
 Ensemble d’apprentissage
 Permet de déterminer le modèle
 estimer la fonction
 Ensemble de validation
 Permet d’optimiser le choix des paramètres de l’algorithme d’apprentissage
 Ensemble de test
 Permet de déterminer la qualité du modèle
 calculer le taux d’erreur
 Utiliser les 3 ensembles, indépendamment.

 Exemple:
 Ensemble d’apprentissage : 50% des individus
 Ensemble de validation : 25% des individus
 Ensemble de test : 25% des individus
APPRENTISSAGE SUPERVISÉ – EVALUATION DE LA QUALITÉ
 Taux d’erreurs
 Calculer le taux d’erreur du modèle
 La sortie connue d’une entrée (observation) de l’ensemble de test est comparée
avec le résultat donné par le modèle.
 Taux d’erreur = pourcentage de tests incorrectement déterminés par le
modèle
 Sur-apprentissage (Overfitting)
 Apprentissage par cœur
 incapacité de généralisation
 Survient lorsqu’on cherche à trop "Coller" les données
 L’erreur d’apprentissage est très faible mais l’erreur sur les données de test est comparativement
élevée ;
 Le modèle apprend les particularités (par ex. le bruit) des données d’apprentissage.
 Sous-Apprentissage
 La fonction d’apprentissage n’est pas assez riche pour pouvoir décrire la diversité présente dans les
données
 Dans les deux cas la prédiction des sorties associées aux nouveaux individus sera de faible qualité
DIFFÉRENTS CONTEXTES D’APPRENTISSAGE
 Deux types d’apprentissage supervisé

 Selon le type du résultat obtenu
 La régression linéaire
 Le résultat obtenu est une valeur contenu
 La résultat à prédire peut prendre n’importe quelle valeur.
 Par exemple, prédire le prix du véhicule étant données des caractéristiques d’un véhicule.
 La classification
 Le résultat obtenu est une valeur discrète
 La résultat à prédire peut prendre une valeur d’un ensemble fini de valeurs : Classe
 Par exemple, prédire si un mail est SPAM ou non, le résultat peut prendre deux valeurs possible : {spam, non spam}
𝑦 (1) 𝑥1(1) 𝑥2(1) 𝑥3(1) … (1)

𝑥𝑑
𝑦 (2) 𝑥1(2) 𝑥2(2) 𝑥3(2) … (2)

𝑥𝑑
… … … … … …
𝑦 (𝑛) 𝑥1(𝑛) 𝑥2(𝑛) 𝑥3(𝑛) … (𝑛)

𝑥𝑑
1. DATASET
 Deux types de variables

 Variable expliquée (à expliquer)
 "Expliquer" signifie exprimer une dépendance fonctionnelle de Y
comme fonction de X (Y=f(X)), de manière à prévoir la valeur
de Y en connaissant celle de X.
 Variables à décrire, à expliquer, à prédire
 Variables dépendantes : Y dépend de X
 Représentée sur l’axe des ordonnées
 Variables explicatif
 Utiliser dans le but d’expliquer, de décrire ou de prédire la ou
les variable(s) dépendante(s).
 Variables indépendantes: X ne dépend pas de Y  Relation
asymétrique
 Représentées sur l’axe des abscisses
LE MODÈLE
 Régression linéaire simple

 une seule variable indépendante
 Exemple: prédiction de l’émission CO2 en fonction de la taille du moteur
 Variable indépendante: taille du moteur
 Variable dépendante: émission CO2
 Régression linéaire multiple

 Au moins deux variables indépendantes
 Exemple: prédiction de l’émission CO2 en fonction de la taille du moteur et nombre de cylindre
 Variable indépendantes: taille du moteur et nombre de cylindre
 Variable dépendante: émission CO2
LE MODÈLE
ISTIC 2022 24
2. LE MODÈLE
 Régression linaire simple

 Relation entre 2 variables quantitatives X et Y
 La relation entre la variable explicative et la variable expliquée est linéaire
Import matplotlib.pyplot as plt
%matplotlib inline
LE MODÈLE
Sample.plot.scatter(x=‘Engine size’, y= ‘Emission’)
ISTIC 2022 26
LE MODÈLE
ISTIC 2022 27
En utilisant les données d’apprentissage, rechercher la droite dans un espace 2D qui permet de
représenter au mieux les observations
LE MODÈLE
 X1 = 5,4 variable indépendante

 Y = 250 émission CO2 pour x1
ISTIC 2022 28
LE MODÈLE
 𝑥1 = 5,4 variable indépendante

 𝑦 = 250 : la valeur réelle de l’émission CO2 pour x1
𝑦 = a × 𝑥1 + 𝑏
 𝑦 = 340 : la prédiction de l’émission CO2 pour x1
 Erreur: ε = 𝑦 − 𝑦 = 250 − 340 = −90
 On appelle cette erreur: le résidu
ISTIC 2022 29
LE MODÈLE
 𝑥1 = 5,4 variable indépendante

 𝑦 = 250 : la valeur réelle de l’émission CO2 pour x1
𝑦 = a × 𝑥1 + 𝑏
 𝑦 = 340 : la prédiction de l’émission CO2 pour x1

 Erreur = 𝑦 − 𝑦 = 250 − 340 = −90
1
 𝑀𝑆𝐸 =
𝑛 𝑖 (𝑦𝑖 − 𝑦𝑖 )2 : erreur quadratique
ISTIC 2022 30
LE MODÈLE
 Méthode de résolution
 Méthode d’estimation par la méthode des moindres carrés
 Méthode par optimisation
ISTIC 2022 31
ALGORITHME DE MINIMISATION
 Trouver la fonction qui permet de minimiser l’erreur quadratique

 𝑓 = 𝑎𝑟𝑔𝑚𝑖𝑛 𝑀𝑆𝐸 𝑓 = 𝑎𝑟𝑔𝑚𝑖𝑛 𝑦 − 𝑦 = 𝑎𝑟𝑔𝑚𝑖𝑛(𝑦 − a × 𝑥1 + 𝑏)2
 Le problème admet une solution analytique
 La fonction étant 𝑓dérivable, son minimum est le point où sa dérivée s’annule.
 Déterminer la fonction 𝑓 : On peut montrer que :
𝑛
𝑖=1(𝑋𝑖 − 𝑋)(𝑌𝑖 − 𝑌) 𝑏 =𝑌−𝑎𝑋
𝑎= 𝑛 2
𝑖=1(𝑋𝑖 − 𝑋)
La droite passe par la

ISTIC 2022
moyenne du nuage des points 32
𝑦 =𝑎 ×𝑥+𝑏
𝑏 = 𝑦−𝑎 ×𝑥
ISTIC 2022
𝑏 = 226,22 − 39 ∗ 3,03 33
𝑏 = 125,74
𝑦 = 39 × 𝑥 + 125,74
𝑦 = 39 × 𝑥 + 125,74
𝐶𝑂2𝐸𝑚𝑖𝑠𝑠𝑖𝑜𝑛 = 39 × 𝐸𝑛𝑔𝑖𝑛𝑒𝑆𝑖𝑧𝑒 + 125,74
𝐶𝑂2𝐸𝑚𝑖𝑠𝑠𝑖𝑜𝑛 = 39 × 2,4 + 125,74
𝐶𝑂2𝐸𝑚𝑖𝑠𝑠𝑖𝑜𝑛 = 218,6
ISTIC 2022 34
EVALUATION DE LA QUALITÉ D’UNE RÉGRESSION LINÉAIRE
ISTIC 2022 35
L'écart quadratique moyen (RMSE)
Relative Absolute Error
ISTIC 2022 36
Relative Standard Error
 Coefficient de détermination R2
 Un indicateur de la qualité d’une régression linéaire simple
 Un indicateur sur l’adéquation entre le modèle et les données observées
 à quel point l’équation de régression est adaptée pour décrire la distribution des points.
 0 ≤ R2 ≤ 1 : plus R2 est proche de 1, plus le modèle choisi semble pertinent

 La valeur 0 : indique un pouvoir de prédiction faible
 droite de régression détermine 0 % de la distribution des points. Cela signifie que le modèle n’explique pas
la distribution des points.
 La valeur 1 : indique un pouvoir de prédiction fort.
 droite de régression est capable de déterminer 100 % de la distribution des points
ISTIC 2022 37
 Le coefficient R² est "la part de la variance expliquée »

 R² =(variance expliquée / variance totale)
ISTIC 2022 38
 Coefficient de détermination R2
ISTIC 2022 39
AVANTAGES DE LA RÉGRESSION LINÉAIRE
 Très rapide
 Pas besoin de paramétrage
ISTIC 2022 40

Chapitre 3 - Apprentissage Supervisé - Régression Linaire

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 3 - Apprentissage Supervisé - Régression Linaire

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre 3 - Apprentissage Supervisé - Régression Linaire

Transféré par

Droits d'auteur :

Formats disponibles

CHAPITRE 3: APPRENTISSAGE SUPERVISÉ

DR. MARIEM FARHAT

Des exemples (x,y) Sorties estimées (𝑦)

 Deux types de variables n

Vecteur output 𝑦 ∈ ℝ𝑛×1 𝑦 (1) 𝑥1(1) 𝑥2(1) 𝑥3(1) … (1)

𝑦 (2) 𝑥1(2) 𝑥2(2) 𝑥3(2) … (2)

𝑦 (1) 𝑥1(1) 𝑥2(1) 𝑥3(1) … (1)

C’est à nous de déterminer quel modèle on va

 Quels sont les paramètres (les coefficients de la fonction de notre

 Généralement, partitionnement aléatoire des observations en deux ensembles distincts:

 Utiliser les 2 ensembles, indépendamment.

 Dans certains cas, partitionnement aléatoire des observations en trois

 Utiliser les 3 ensembles, indépendamment.

 Deux types d’apprentissage supervisé

𝑦 (1) 𝑥1(1) 𝑥2(1) 𝑥3(1) … (1)

𝑦 (2) 𝑥1(2) 𝑥2(2) 𝑥3(2) … (2)

𝑦 (𝑛) 𝑥1(𝑛) 𝑥2(𝑛) 𝑥3(𝑛) … (𝑛)

 Deux types de variables

 Régression linéaire simple

 Régression linéaire multiple

 Régression linaire simple

 X1 = 5,4 variable indépendante

 𝑥1 = 5,4 variable indépendante

 𝑥1 = 5,4 variable indépendante

 𝑦 = 340 : la prédiction de l’émission CO2 pour x1

 Trouver la fonction qui permet de minimiser l’erreur quadratique

 Le problème admet une solution analytique

 La fonction étant 𝑓dérivable, son minimum est le point où sa dérivée s’annule.

 Déterminer la fonction 𝑓 : On peut montrer que :

La droite passe par la

𝐶𝑂2𝐸𝑚𝑖𝑠𝑠𝑖𝑜𝑛 = 39 × 𝐸𝑛𝑔𝑖𝑛𝑒𝑆𝑖𝑧𝑒 + 125,74

𝐶𝑂2𝐸𝑚𝑖𝑠𝑠𝑖𝑜𝑛 = 39 × 2,4 + 125,74

L'écart quadratique moyen (RMSE)

Relative Absolute Error

 0 ≤ R2 ≤ 1 : plus R2 est proche de 1, plus le modèle choisi semble pertinent

 Le coefficient R² est "la part de la variance expliquée »

Vous aimerez peut-être aussi

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.