Apprentissage Statistique: Modélisation Décisionnelle Et Apprentissage Profond (RCP209)
Apprentissage Statistique: Modélisation Décisionnelle Et Apprentissage Profond (RCP209)
Apprentissage Statistique: Modélisation Décisionnelle Et Apprentissage Profond (RCP209)
Nicolas Audebert
nicolas.audebert@lecnam.net
http://cedric.cnam.fr/vertigo/Cours/ml2/
Département Informatique
Conservatoire National des Arts & Métiers, Paris, France
09 février 2023
Objectifs et contenu de l’enseignement 1 / 56
Plan du cours
1 Objectifs et contenu de l’enseignement
2 Organisation de l’enseignement
3 Modélisation décisionnelle
Types de problèmes de décision
Modélisation à partir de données
4 Modélisation à partir de données : un cadre plus précis
Étapes générales
Quelques définitions
Choix d’une fonction de perte
Choix des familles paramétriques
Estimation du modèle
Comment mesurer la capacité ?
5 Évaluation de modèles
Validation croisée
Courbes ROC
6 Sélection de modèles
Grid search pour le choix des hyperparamètres
Randomized parameter optimization
Objectifs et contenu de l’enseignement 2 / 56
Le sujet
Le sujet
Le sujet
Le sujet
Le sujet
Le sujet
Le sujet
Problématiques abordées
1 Comprendre la nature des problèmes de modélisation à partir de données
2 Maîtriser la méthodologie générale de construction, évaluation et sélection de
modèles décisionnels
3 Maîtriser plusieurs outils de modélisation décisionnelle actuels : forêts d’arbres de
décision, machines à vecteurs support (SVM), réseaux de neurones profonds
⇒ Capacité à mettre œuvre des méthodes de modélisation décisionnelle à partir de
données
Prérequis
En mathématiques : connaissances de base en algèbre linéaire, probabilités, analyse
En informatique : connaissances de base en programmation avec Python
bases de NumPy
RCP208 : Apprentissage statistique I fortement conseillé mais pas indispensable
Objectifs et contenu de l’enseignement 3 / 56
Problématiques abordées
1 Comprendre la nature des problèmes de modélisation à partir de données
2 Maîtriser la méthodologie générale de construction, évaluation et sélection de
modèles décisionnels
3 Maîtriser plusieurs outils de modélisation décisionnelle actuels : forêts d’arbres de
décision, machines à vecteurs support (SVM), réseaux de neurones profonds
⇒ Capacité à mettre œuvre des méthodes de modélisation décisionnelle à partir de
données
Prérequis
En mathématiques : connaissances de base en algèbre linéaire, probabilités, analyse
En informatique : connaissances de base en programmation avec Python
bases de NumPy
RCP208 : Apprentissage statistique I fortement conseillé mais pas indispensable
Objectifs et contenu de l’enseignement 3 / 56
Problématiques abordées
1 Comprendre la nature des problèmes de modélisation à partir de données
2 Maîtriser la méthodologie générale de construction, évaluation et sélection de
modèles décisionnels
3 Maîtriser plusieurs outils de modélisation décisionnelle actuels : forêts d’arbres de
décision, machines à vecteurs support (SVM), réseaux de neurones profonds
⇒ Capacité à mettre œuvre des méthodes de modélisation décisionnelle à partir de
données
Prérequis
En mathématiques : connaissances de base en algèbre linéaire, probabilités, analyse
En informatique : connaissances de base en programmation avec Python
bases de NumPy
RCP208 : Apprentissage statistique I fortement conseillé mais pas indispensable
Objectifs et contenu de l’enseignement 3 / 56
Problématiques abordées
1 Comprendre la nature des problèmes de modélisation à partir de données
2 Maîtriser la méthodologie générale de construction, évaluation et sélection de
modèles décisionnels
3 Maîtriser plusieurs outils de modélisation décisionnelle actuels : forêts d’arbres de
décision, machines à vecteurs support (SVM), réseaux de neurones profonds
⇒ Capacité à mettre œuvre des méthodes de modélisation décisionnelle à partir de
données
Prérequis
En mathématiques : connaissances de base en algèbre linéaire, probabilités, analyse
En informatique : connaissances de base en programmation avec Python
bases de NumPy
RCP208 : Apprentissage statistique I fortement conseillé mais pas indispensable
Objectifs et contenu de l’enseignement 4 / 56
Contenu détaillé
Contenu détaillé
Travaux pratiques
D’autres références vous seront suggérées dans les différents chapitres du cours pour
approfondir spécifiquement certaines parties.
Organisation de l’enseignement 6 / 56
Plan du cours
1 Objectifs et contenu de l’enseignement
2 Organisation de l’enseignement
3 Modélisation décisionnelle
Types de problèmes de décision
Modélisation à partir de données
4 Modélisation à partir de données : un cadre plus précis
Étapes générales
Quelques définitions
Choix d’une fonction de perte
Choix des familles paramétriques
Estimation du modèle
Comment mesurer la capacité ?
5 Évaluation de modèles
Validation croisée
Courbes ROC
6 Sélection de modèles
Grid search pour le choix des hyperparamètres
Randomized parameter optimization
Organisation de l’enseignement 7 / 56
Organisation
Évaluation
Note finale = moyenne non pondérée entre la note d’examen et la note de projet
Modélisation décisionnelle 8 / 56
Plan du cours
1 Objectifs et contenu de l’enseignement
2 Organisation de l’enseignement
3 Modélisation décisionnelle
Types de problèmes de décision
Modélisation à partir de données
4 Modélisation à partir de données : un cadre plus précis
Étapes générales
Quelques définitions
Choix d’une fonction de perte
Choix des familles paramétriques
Estimation du modèle
Comment mesurer la capacité ?
5 Évaluation de modèles
Validation croisée
Courbes ROC
6 Sélection de modèles
Grid search pour le choix des hyperparamètres
Randomized parameter optimization
Modélisation décisionnelle Types de problèmes de décision 9 / 56
Modèle décisionnel
Classement
Modèle : règle de classement, par ex. frontière de discrimination (trait bleu foncé)
Exemple : (2 var. explicatives pour chaque observation : abscisse X et ordonnée Y)
Modélisation décisionnelle Types de problèmes de décision 12 / 56
Classement
Modèle : règle de classement, par ex. frontière de discrimination (trait bleu foncé)
Exemple : (2 var. explicatives pour chaque observation : abscisse X et ordonnée Y)
Modélisation décisionnelle Types de problèmes de décision 12 / 56
Classement
Modèle : règle de classement, par ex. frontière de discrimination (trait bleu foncé)
Exemple : (2 var. explicatives pour chaque observation : abscisse X et ordonnée Y)
Modélisation décisionnelle Types de problèmes de décision 13 / 56
Régression
Régression
Régression
Prédiction structurée
Prédiction structurée
Prédiction structurée
Apprentissage semi-supervisé (voir [2]) : tient compte aussi des observations pour
lesquelles les valeurs de la variable expliquée sont inconnues
Modélisation décisionnelle Modélisation à partir de données 15 / 56
Apprentissage semi-supervisé (voir [2]) : tient compte aussi des observations pour
lesquelles les valeurs de la variable expliquée sont inconnues
Modélisation décisionnelle Modélisation à partir de données 16 / 56
Apprentissage et généralisation
Apprentissage et généralisation
Apprentissage et généralisation
Constats
1 Le modèle qui a la plus faible erreur d’apprentissage n’a pas la plus faible erreur de test
Cela reste valable si on compare des modèles issus de la même famille, par ex. par arrêt
précoce de la procédure d’optimisation
2 L’erreur d’apprentissage est en général une estimation optimiste de l’erreur de test
3 L’écart entre erreur d’apprentissage et erreur de test dépend de la famille de modèles
Constats
1 Le modèle qui a la plus faible erreur d’apprentissage n’a pas la plus faible erreur de test
Cela reste valable si on compare des modèles issus de la même famille, par ex. par arrêt
précoce de la procédure d’optimisation
2 L’erreur d’apprentissage est en général une estimation optimiste de l’erreur de test
3 L’écart entre erreur d’apprentissage et erreur de test dépend de la famille de modèles
Constats
1 Le modèle qui a la plus faible erreur d’apprentissage n’a pas la plus faible erreur de test
Cela reste valable si on compare des modèles issus de la même famille, par ex. par arrêt
précoce de la procédure d’optimisation
2 L’erreur d’apprentissage est en général une estimation optimiste de l’erreur de test
3 L’écart entre erreur d’apprentissage et erreur de test dépend de la famille de modèles
Constats
1 Le modèle qui a la plus faible erreur d’apprentissage n’a pas la plus faible erreur de test
Cela reste valable si on compare des modèles issus de la même famille, par ex. par arrêt
précoce de la procédure d’optimisation
2 L’erreur d’apprentissage est en général une estimation optimiste de l’erreur de test
3 L’écart entre erreur d’apprentissage et erreur de test dépend de la famille de modèles
Constats
1 Le modèle qui a la plus faible erreur d’apprentissage n’a pas la plus faible erreur de test
Cela reste valable si on compare des modèles issus de la même famille, par ex. par arrêt
précoce de la procédure d’optimisation
2 L’erreur d’apprentissage est en général une estimation optimiste de l’erreur de test
3 L’écart entre erreur d’apprentissage et erreur de test dépend de la famille de modèles
Constats
1 Le modèle qui a la plus faible erreur d’apprentissage n’a pas la plus faible erreur de test
Cela reste valable si on compare des modèles issus de la même famille, par ex. par arrêt
précoce de la procédure d’optimisation
2 L’erreur d’apprentissage est en général une estimation optimiste de l’erreur de test
3 L’écart entre erreur d’apprentissage et erreur de test dépend de la famille de modèles
Constats
1 Le modèle qui a la plus faible erreur d’apprentissage n’a pas la plus faible erreur de test
Cela reste valable si on compare des modèles issus de la même famille, par ex. par arrêt
précoce de la procédure d’optimisation
2 L’erreur d’apprentissage est en général une estimation optimiste de l’erreur de test
3 L’écart entre erreur d’apprentissage et erreur de test dépend de la famille de modèles
Constats
1 Le modèle qui a la plus faible erreur d’apprentissage n’a pas la plus faible erreur de test
Cela reste valable si on compare des modèles issus de la même famille, par ex. par arrêt
précoce de la procédure d’optimisation
2 L’erreur d’apprentissage est en général une estimation optimiste de l’erreur de test
3 L’écart entre erreur d’apprentissage et erreur de test dépend de la famille de modèles
Constats
1 Le modèle qui a la plus faible erreur d’apprentissage n’a pas la plus faible erreur de test
Cela reste valable si on compare des modèles issus de la même famille, par ex. par arrêt
précoce de la procédure d’optimisation
2 L’erreur d’apprentissage est en général une estimation optimiste de l’erreur de test
3 L’écart entre erreur d’apprentissage et erreur de test dépend de la famille de modèles
Constats
1 Le modèle qui a la plus faible erreur d’apprentissage n’a pas la plus faible erreur de test
Cela reste valable si on compare des modèles issus de la même famille, par ex. par arrêt
précoce de la procédure d’optimisation
2 L’erreur d’apprentissage est en général une estimation optimiste de l’erreur de test
3 L’écart entre erreur d’apprentissage et erreur de test dépend de la famille de modèles
Plan du cours
1 Objectifs et contenu de l’enseignement
2 Organisation de l’enseignement
3 Modélisation décisionnelle
Types de problèmes de décision
Modélisation à partir de données
4 Modélisation à partir de données : un cadre plus précis
Étapes générales
Quelques définitions
Choix d’une fonction de perte
Choix des familles paramétriques
Estimation du modèle
Comment mesurer la capacité ?
5 Évaluation de modèles
Validation croisée
Courbes ROC
6 Sélection de modèles
Grid search pour le choix des hyperparamètres
Randomized parameter optimization
Modélisation à partir de données : un cadre plus précis Étapes générales 21 / 56
Classement : Régression :
X ⊂ R2 X ⊂R
Y = {c1 , c2 } Y⊂R
Modélisation à partir de données : un cadre plus précis Quelques définitions 23 / 56
→ Objectif : trouver, dans une famille F , une fonction f : X → Y qui prédit y à partir
de x et présente le risque espéré R(f) = EP [L(X, Y, f)] le plus faible
L() est la fonction de perte (ou d’erreur)
EP est l’espérance par rapport à la distribution inconnue P
→ Objectif : trouver, dans une famille F , une fonction f : X → Y qui prédit y à partir
de x et présente le risque espéré R(f) = EP [L(X, Y, f)] le plus faible
L() est la fonction de perte (ou d’erreur)
EP est l’espérance par rapport à la distribution inconnue P
Fig. – Les flèches bleues indiquent quelques données mal classées par le modèle (frontière de
discrimination linéaire, dans ce cas)
Modélisation à partir de données : un cadre plus précis Choix d’une fonction de perte 25 / 56
Fig. – Les traits rouges représentent des écarts entre trois prédictions d’un modèle (linéaire, da
ce cas) et les prédictions désirées correspondantes
Modélisation à partir de données : un cadre plus précis Choix des familles paramétriques 27 / 56
Familles paramétriques
Classement : Régression :
f(x) = wT x + w0 f(x) = w1 x + w0
H(f(x)) ∈ {−1, 1}
Peuvent s’avérer insuffisants (voir ci-dessus l’ex. de classes non linéairement séparables)
Utile de commencer par un modèle linéaire, ne serait-ce que pour pouvoir comparer
Rappel de l’objectif : trouver, dans une famille F choisie, une fonction (un modèle)
f : X → Y qui prédit y à partir de x et présente le risque espéré (ou théorique)
R(f) = EP [L(X, Y, f)] le plus faible
R(f) ne peut pas être évalué car P est inconnue, mais on peut mesurer le risque
P
empirique RDN (f) = N1 Ni=1 L(xi , yi , f)
Si R(f) est inaccessible, comment répondre à l’objectif ?
1 Minimisation du risque empirique (MRE) : considérer le modèle qui minimise l’erreur
d’apprentissage, f∗D = arg minf∈F RDN (f)
N
2 Minimisation du risque empirique régularisé (MRER) :
∗
fD = arg minf∈F [RDN (f) + αG(f)]
N
3 Minimisation du risque structurel (MRS) : séquence de familles de capacité qui
augmente, estimation MRE dans chaque famille, choix tenant compte à la fois de DN
et de la capacité
Modélisation à partir de données : un cadre plus précis Estimation du modèle 29 / 56
Rappel de l’objectif : trouver, dans une famille F choisie, une fonction (un modèle)
f : X → Y qui prédit y à partir de x et présente le risque espéré (ou théorique)
R(f) = EP [L(X, Y, f)] le plus faible
R(f) ne peut pas être évalué car P est inconnue, mais on peut mesurer le risque
P
empirique RDN (f) = N1 Ni=1 L(xi , yi , f)
Si R(f) est inaccessible, comment répondre à l’objectif ?
1 Minimisation du risque empirique (MRE) : considérer le modèle qui minimise l’erreur
d’apprentissage, f∗D = arg minf∈F RDN (f)
N
2 Minimisation du risque empirique régularisé (MRER) :
∗
fD = arg minf∈F [RDN (f) + αG(f)]
N
3 Minimisation du risque structurel (MRS) : séquence de familles de capacité qui
augmente, estimation MRE dans chaque famille, choix tenant compte à la fois de DN
et de la capacité
Modélisation à partir de données : un cadre plus précis Estimation du modèle 29 / 56
Rappel de l’objectif : trouver, dans une famille F choisie, une fonction (un modèle)
f : X → Y qui prédit y à partir de x et présente le risque espéré (ou théorique)
R(f) = EP [L(X, Y, f)] le plus faible
R(f) ne peut pas être évalué car P est inconnue, mais on peut mesurer le risque
P
empirique RDN (f) = N1 Ni=1 L(xi , yi , f)
Si R(f) est inaccessible, comment répondre à l’objectif ?
1 Minimisation du risque empirique (MRE) : considérer le modèle qui minimise l’erreur
d’apprentissage, f∗D = arg minf∈F RDN (f)
N
2 Minimisation du risque empirique régularisé (MRER) :
∗
fD = arg minf∈F [RDN (f) + αG(f)]
N
3 Minimisation du risque structurel (MRS) : séquence de familles de capacité qui
augmente, estimation MRE dans chaque famille, choix tenant compte à la fois de DN
et de la capacité
Modélisation à partir de données : un cadre plus précis Estimation du modèle 29 / 56
Rappel de l’objectif : trouver, dans une famille F choisie, une fonction (un modèle)
f : X → Y qui prédit y à partir de x et présente le risque espéré (ou théorique)
R(f) = EP [L(X, Y, f)] le plus faible
R(f) ne peut pas être évalué car P est inconnue, mais on peut mesurer le risque
P
empirique RDN (f) = N1 Ni=1 L(xi , yi , f)
Si R(f) est inaccessible, comment répondre à l’objectif ?
1 Minimisation du risque empirique (MRE) : considérer le modèle qui minimise l’erreur
d’apprentissage, f∗D = arg minf∈F RDN (f)
N
2 Minimisation du risque empirique régularisé (MRER) :
∗
fD = arg minf∈F [RDN (f) + αG(f)]
N
3 Minimisation du risque structurel (MRS) : séquence de familles de capacité qui
augmente, estimation MRE dans chaque famille, choix tenant compte à la fois de DN
et de la capacité
Modélisation à partir de données : un cadre plus précis Estimation du modèle 29 / 56
Rappel de l’objectif : trouver, dans une famille F choisie, une fonction (un modèle)
f : X → Y qui prédit y à partir de x et présente le risque espéré (ou théorique)
R(f) = EP [L(X, Y, f)] le plus faible
R(f) ne peut pas être évalué car P est inconnue, mais on peut mesurer le risque
P
empirique RDN (f) = N1 Ni=1 L(xi , yi , f)
Si R(f) est inaccessible, comment répondre à l’objectif ?
1 Minimisation du risque empirique (MRE) : considérer le modèle qui minimise l’erreur
d’apprentissage, f∗D = arg minf∈F RDN (f)
N
2 Minimisation du risque empirique régularisé (MRER) :
∗
fD = arg minf∈F [RDN (f) + αG(f)]
N
3 Minimisation du risque structurel (MRS) : séquence de familles de capacité qui
augmente, estimation MRE dans chaque famille, choix tenant compte à la fois de DN
et de la capacité
Modélisation à partir de données : un cadre plus précis Estimation du modèle 29 / 56
Rappel de l’objectif : trouver, dans une famille F choisie, une fonction (un modèle)
f : X → Y qui prédit y à partir de x et présente le risque espéré (ou théorique)
R(f) = EP [L(X, Y, f)] le plus faible
R(f) ne peut pas être évalué car P est inconnue, mais on peut mesurer le risque
P
empirique RDN (f) = N1 Ni=1 L(xi , yi , f)
Si R(f) est inaccessible, comment répondre à l’objectif ?
1 Minimisation du risque empirique (MRE) : considérer le modèle qui minimise l’erreur
d’apprentissage, f∗D = arg minf∈F RDN (f)
N
2 Minimisation du risque empirique régularisé (MRER) :
∗
fD = arg minf∈F [RDN (f) + αG(f)]
N
3 Minimisation du risque structurel (MRS) : séquence de familles de capacité qui
augmente, estimation MRE dans chaque famille, choix tenant compte à la fois de DN
et de la capacité
Modélisation à partir de données : un cadre plus précis Estimation du modèle 30 / 56
Considérons
f∗D la fonction de F qui minimise le risque empirique RDN
N
f∗ la fonction de F qui minimise le risque espéré R, alors
Échantillon 1
Échantillon 2
Échantillon 3
Échantillon 1
Échantillon 2
Échantillon 3
Capacité famille linéaire (AFD) < capacité PMC α = 1 < capacité PMC α = 10−5
La VC-dimension est une mesure intéressante de la capacité car elle permet d’obtenir
une borne pour l’écart entre risque théorique et risque empirique
Théorème [1] : soit RDN (f) le risque empirique défini par la fonction de perte
L01 (x, y, f) = 1f(x)̸=y ; si la VC-dimension de F est h < ∞ alors pour toute f ∈ F ,
avec une probabilité au mois égale à 1 − δ (0 < δ < 1), on a
s
h log 2N
+ 1 − log 4δ
R(f) ≤ RDN (f) + h
pour N>h
N
| {z }
B(N,F )
et de la forme de B(N, F ) :
Famille F de capacité trop faible (par ex. ici modèles linéaires)
⇒ B(N, F ) faible mais RDN (f) (erreur d’apprentissage) élevé(e)
⇒ absence de garantie intéressante pour R(f)
Famille F de capacité trop élevée (par ex. ici PMC α = 10− 5)
⇒ RDN (f) probablement faible mais B(N, F ) élevée
⇒ absence de garantie intéressante pour R(f)
Famille F de capacité « adéquate » (par ex. ici PMC α = 1)
⇒ RDN (f) probablement faible et B(N, F ) plutôt faible
⇒ garantie intéressante pour R(f) !
Modélisation à partir de données : un cadre plus précis Comment mesurer la capacité ? 36 / 56
Différentes formes pour G(f), en rapport aussi avec le choix de la famille F , par ex. :
G(f) = ∥w∥22 , w étant le vecteur de paramètres du modèle ; par ex. pour PMC terme
« d’oubli » (weight decay)
Implicite : par ex., toujours pour PMC, terme G(f) absent mais arrêt précoce (early
stopping) de l’algorithme d’optimisation non linéaire
Modélisation à partir de données : un cadre plus précis Comment mesurer la capacité ? 37 / 56
Dans une famille paramétrique F , un modèle est défini par les valeurs d’un ensemble
de paramètres, par ex.
→ Optimisation pour trouver les valeurs qui minimisent le critère (MRE, MRER)
Solution analytique directe : cas assez rare, par ex. certains modèles linéaires
Algorithmes itératifs, par ex.
Optimisation quadratique sous contraintes d’inégalité : SVM
Optimisation non linéaire plus générale : PMC, réseaux profonds
Modélisation à partir de données : un cadre plus précis Comment mesurer la capacité ? 39 / 56
Plan du cours
1 Objectifs et contenu de l’enseignement
2 Organisation de l’enseignement
3 Modélisation décisionnelle
Types de problèmes de décision
Modélisation à partir de données
4 Modélisation à partir de données : un cadre plus précis
Étapes générales
Quelques définitions
Choix d’une fonction de perte
Choix des familles paramétriques
Estimation du modèle
Comment mesurer la capacité ?
5 Évaluation de modèles
Validation croisée
Courbes ROC
6 Sélection de modèles
Grid search pour le choix des hyperparamètres
Randomized parameter optimization
Évaluation de modèles 41 / 56
Validation croisée
1 Méthodes exhaustives :
Leave p out (LPO) : N − p données pour l’apprentissage et p pour la validation ⇒ CpN
découpages possibles donc CpN modèles à apprendre ⇒ coût excessif
Leave one out (LOO) : N − 1 données pour l’apprentissage et 1 pour la validation ⇒
C1N = N découpages possibles (donc N modèles) ⇒ coût élevé
2 Méthodes non exhaustives :
k-fold : partitionnement fixé des N données en k parties, apprentissage sur k − 1 parties
et validation sur la k-ême ⇒ k modèles seulement (souvent k = 5 ou k = 10)
Quelle que soit la méthode, tous les partitionnements peuvent être explorés en
parallèle (sur processeurs multi-cœur ou plateformes distribuées)
Évaluation de modèles Validation croisée 44 / 56
⇒ Comment examiner les caractéristiques de différents modèles lorsque les coûts sont
asymétriques, sans fixer le « degré » d’asymétrie ?
Évaluation de modèles Courbes ROC 45 / 56
⇒ Comment examiner les caractéristiques de différents modèles lorsque les coûts sont
asymétriques, sans fixer le « degré » d’asymétrie ?
Évaluation de modèles Courbes ROC 45 / 56
⇒ Comment examiner les caractéristiques de différents modèles lorsque les coûts sont
asymétriques, sans fixer le « degré » d’asymétrie ?
Évaluation de modèles Courbes ROC 45 / 56
⇒ Comment examiner les caractéristiques de différents modèles lorsque les coûts sont
asymétriques, sans fixer le « degré » d’asymétrie ?
Évaluation de modèles Courbes ROC 45 / 56
⇒ Comment examiner les caractéristiques de différents modèles lorsque les coûts sont
asymétriques, sans fixer le « degré » d’asymétrie ?
Évaluation de modèles Courbes ROC 45 / 56
⇒ Comment examiner les caractéristiques de différents modèles lorsque les coûts sont
asymétriques, sans fixer le « degré » d’asymétrie ?
Évaluation de modèles Courbes ROC 45 / 56
⇒ Comment examiner les caractéristiques de différents modèles lorsque les coûts sont
asymétriques, sans fixer le « degré » d’asymétrie ?
Évaluation de modèles Courbes ROC 46 / 56
Modèle : en général décrit par un vecteur de paramètres w (par ex. poids connexions
pour PMC) et un seuil b (par ex. sur la probabilité de la classe d’intérêt)
Courbe ROC : taux de vrais positifs (en ordonnée) fonction du taux de faux positifs
(en abscisse), la variable étant le seuil
Pour un w fixé, peut-on réduire en même temps FN et FP en faisant varier le seuil ?
Un outil de comparaison globale est l’aire sous la courbe ROC (area under curve,
AUC) : plus l’aire sous la courbe ROC est élevée, meilleur est le modèle
Si valeurs AUC proches ou pour objectifs plus précis : comparaison des taux de vrais
positifs (sensibilité) à taux de faux positifs (spécificité) donné(e)s
Fig. – Courbes ROC : AFD en bleu, PMC α = 10−5 en rouge, PMC α = 1 en vert
Sélection de modèles 49 / 56
Plan du cours
1 Objectifs et contenu de l’enseignement
2 Organisation de l’enseignement
3 Modélisation décisionnelle
Types de problèmes de décision
Modélisation à partir de données
4 Modélisation à partir de données : un cadre plus précis
Étapes générales
Quelques définitions
Choix d’une fonction de perte
Choix des familles paramétriques
Estimation du modèle
Comment mesurer la capacité ?
5 Évaluation de modèles
Validation croisée
Courbes ROC
6 Sélection de modèles
Grid search pour le choix des hyperparamètres
Randomized parameter optimization
Sélection de modèles 50 / 56
Sélection de modèles
Sélection de modèles
Sélection de modèles
Sélection de modèles
Sélection de modèles
Sélection de modèles
Sélection de modèles
Sélection de modèles
Sélection de modèles
Pour trouver les meilleures valeurs des hyperparamètres, une première possibilité est
d’explorer l’espace des hyperparamètres de façon systématique
Recherche en grille (grid search) :
1. Définition d’intervalles et de pas de variation pour les hyperparamètres numériques (par
ex. constante de régularisation α, variance de noyau RBF)
1. Définition d’ensembles de valeurs pour les hyperparamètres nominaux (par ex.
architectures PMC, critères de régularisation, types noyaux SVM)
2. Exploration systématique de l’espace des hyperparamètres
3. Choix des valeurs pour lesquelles le modèle obtenu présente les meilleures performances
de validation croisée
Lorsque seuls des hyperparamètres continus sont présents, on obtient une grille =
combinaisons de valeurs à tester pour les m paramètres ⇒ grille de dimension m
Lorsque seuls des hyperparamètres continus sont présents, on obtient une grille =
combinaisons de valeurs à tester pour les m paramètres ⇒ grille de dimension m
Lorsque seuls des hyperparamètres continus sont présents, on obtient une grille =
combinaisons de valeurs à tester pour les m paramètres ⇒ grille de dimension m
Estimation du risque espéré (erreur de généralisation) sur des données non utilisées
pour l’apprentissage
Validation croisée : meilleure estimation qu’un seul découpage apprentissage | test
Courbes ROC : comparaison plus globale de modèles de classement
Meilleures valeurs pour les hyperparamètres : recherche systématique ou aléatoire,
comparaison des modèles par validation croisée
Si validation croisée employée pour sélectionner le meilleur modèle, estimation du
risque espéré du modèle retenu sur des données non encore utilisées
Sélection de modèles Randomized parameter optimization 55 / 56
Références I
Références II