Apprentissage Statistique: Modélisation Décisionnelle Et Apprentissage Profond (RCP209)

Apprentissage statistique : modélisation
décisionnelle et apprentissage profond

(RCP209)
Introduction à l’apprentissage supervisé
Nicolas Audebert
nicolas.audebert@lecnam.net
http://cedric.cnam.fr/vertigo/Cours/ml2/
Département Informatique
Conservatoire National des Arts & Métiers, Paris, France
09 février 2023
Objectifs et contenu de l’enseignement 1 / 56
Plan du cours
1 Objectifs et contenu de l’enseignement
2 Organisation de l’enseignement
3 Modélisation décisionnelle
Types de problèmes de décision
Modélisation à partir de données
4 Modélisation à partir de données : un cadre plus précis
Étapes générales
Quelques définitions
Choix d’une fonction de perte
Choix des familles paramétriques
Estimation du modèle
Comment mesurer la capacité ?
5 Évaluation de modèles
Validation croisée
Courbes ROC
6 Sélection de modèles
Grid search pour le choix des hyperparamètres
Randomized parameter optimization
Le sujet
“Prediction can be very difficult, especially about the future.”

(Niels Bohr, dans Teaching and Learning Elementary Social Studies, Arthur K. Ellis, 1970, p. 431.)
→ Modélisation décisionnelle (ou prédictive) à partir de données

Données : observations caractérisées par les valeurs prises par un ensemble de variables
Modélisation à partir de données : construction (en grande partie automatique) de
modèle(s) qui « explique(nt) » les données
Modélisation décisionnelle : capacité à prédire, pour chaque nouvelle observation, la
valeur (inconnue) d’une variable expliquée à partir des valeurs (connues) de variables
explicatives
Objectifs applicatifs de la modélisation décisionnelle

1 Reconnaissance des formes (pattern recognition) : (sens strict) identifier à quelle
catégorie appartient une « forme » décrite par des données brutes
2 Fouille de données (data mining) : (sens strict) recherche de régularités ou de relations
inconnues a priori dans de (grands) volumes de données
Le sujet


explicatives

Le sujet


explicatives

Le sujet


explicatives

Le sujet


explicatives

Le sujet


explicatives

Le sujet


explicatives

Contenu de l’enseignement : problématique et pré-requis
Problématiques abordées
1 Comprendre la nature des problèmes de modélisation à partir de données
2 Maîtriser la méthodologie générale de construction, évaluation et sélection de
modèles décisionnels
3 Maîtriser plusieurs outils de modélisation décisionnelle actuels : forêts d’arbres de
décision, machines à vecteurs support (SVM), réseaux de neurones profonds
⇒ Capacité à mettre œuvre des méthodes de modélisation décisionnelle à partir de
données
Prérequis
En mathématiques : connaissances de base en algèbre linéaire, probabilités, analyse
En informatique : connaissances de base en programmation avec Python
bases de NumPy
RCP208 : Apprentissage statistique I fortement conseillé mais pas indispensable
données
Prérequis
bases de NumPy
données
Prérequis
bases de NumPy
données
Prérequis
bases de NumPy
Contenu détaillé
1 Apprentissage supervisé : classification, régression ; généralisation. Évaluation et

sélection de modèles : validation croisée, grid search. (2 séances, Nicolas Audebert)
2 Arbres de décision et forêts d’arbres de décision. (2 séances, Marin Ferecatu)
3 SVM : maximisation de la marge, astuce des noyaux, classement (discrimination),
régression, estimation du support d’une distribution, ingénierie des noyaux. (3
séances, Marin Ferecatu)
4 Apprentissage profond (deep learning) : réseaux convolutifs profonds, réseaux de
neurones récurrents. (8 séances, Nicolas Audebert)
= 15 séances cours + travaux pratiques (TP, Wafa Aissa)
=⇒ environ 60 heures de travail (6 ECTS)

Contenu détaillé
1 Apprentissage supervisé : classification, régression ; généralisation. Évaluation et

sélection de modèles : validation croisée, grid search. (2 séances, Nicolas Audebert)
2 Arbres de décision et forêts d’arbres de décision. (2 séances, Marin Ferecatu)
3 SVM : maximisation de la marge, astuce des noyaux, classement (discrimination),
régression, estimation du support d’une distribution, ingénierie des noyaux. (3
séances, Marin Ferecatu)
4 Apprentissage profond (deep learning) : réseaux convolutifs profonds, réseaux de
neurones récurrents. (8 séances, Nicolas Audebert)
= 15 séances cours + travaux pratiques (TP, Wafa Aissa)
=⇒ environ 60 heures de travail (6 ECTS)

Travaux pratiques
Mise en œuvre de la méthodologie de construction, évaluation et sélection de

Mise en œuvre d’outils de modélisation actuels :
Forêts d’arbres de décision
Machines à vecteurs support (SVM)
Réseaux de neurones profonds
Emploi de Scikit-learn (http://scikit-learn.org), outil libre et ouvert, en

Python, déjà employé dans RCP208
(http://cedric.cnam.fr/vertigo/Cours/ml/) ; emploi de Keras (en Python
aussi) pour l’apprentissage profond
Quelques références bibliographiques
C.-A. Azencott, Introduction au Machine Learning, Éditions Eyrolles, 2018.

A. Géron, Machine Learning avec scikit-learn ; Deep Learning avec Keras, Éditions
Dunod, 2021.
B. Schölkopf, A. Smola. Learning with Kernels. MIT Press, 2002. [4]
I. Goodfellow, Y. Bengio, A. Courville. Deep Learning. MIT Press, 2016.
http://www.deeplearningbook.org. [3]
A. Amor, L. Estève, O. Grisel, G. Lemaître, G. Varoquaux, T. Schmitt, MOOC
Machine learning with scikit-learn, France Université Numérique, https:
//www.fun-mooc.fr/fr/cours/machine-learning-python-scikit-learn/.
D’autres références vous seront suggérées dans les différents chapitres du cours pour
approfondir spécifiquement certaines parties.
Organisation de l’enseignement 6 / 56
Plan du cours
Étapes générales
Validation croisée
Courbes ROC
Organisation
Semestre 2 : hors temps ouvrable (HTO)

Cours : jeudi 17h30-19h30
Travaux pratiques (TP) :
Jeudi 19h45-21h45
Responsable du cours : Nicolas Audebert

Enseignants : Nicolas Audebert, Marin Ferecatu, Wafa Aissa
Nicolas Audebert Marin Ferecatu Wafa Aissa

Évaluation
S2 (HTO) : examen écrit : session 1 en juin, session 2 en septembre

Planification des examens : http://www.cnam-paris.fr/suivre-ma-scolarite/
rubrique Examens
Mini-projet : analyse des données et construction de modèle(s) décisionnel(s) pour

un problème proposé par vous ou par les enseignants
Note finale = moyenne non pondérée entre la note d’examen et la note de projet
Modélisation décisionnelle 8 / 56
Plan du cours
Étapes générales
Validation croisée
Courbes ROC
Modélisation décisionnelle Types de problèmes de décision 9 / 56
Modèle décisionnel
Observations décrites par les valeurs prises par un ensemble de variables

→ Objectif : prédire, pour chaque donnée, la valeur d’une variable (expliquée ou
« dépendante » ou « de sortie ») à partir des valeurs des autres variables (explicatives
ou « d’entrée »)
Exemples
1 Une région d’une image représente un visage ou non ?
2 Les symptômes correspondent à la maladie A ou B ou C ou aucune ?
3 Quel est le volume d’algues vertes attendu en mai sur les plages de la commune ?
4 Quel sera le débit de la Loire à Tours dans 48h ?
5 Quelle est l’entité nommée dans « La Maison Blanche a démenti ces informations. » ?
6 Quelle est la région d’une image correspondant aux pantalons ?
1 Classement (ou discrimination) : la variable expliquée est une variable nominale,

chaque observation possède une modalité (appelée en général classe)
→ quel est le chiffre représenté par cette image ?
2 Régression : la variable expliquée est une variable quantitative (domaine ⊂ R)
→ combien vaudra le CAC 40 dans une semaine ?
3 Prédiction structurée : la variable expliquée prend des valeurs dans un domaine de
données structurées (les relations entre parties comptent)
→ quelle est la forme de la protéine compte-tenu des molécules qui la composent ?
Qu’est-ce qu’un modèle ?
Modèle = règle de décision

Exemple : frontière de discrimination pour problème de classement à 2 classes
Éventuellement complété par des critères de rejet (refus d’affectation)

1 Refus de classer les données trop proches de la frontière (rejet d’ambiguïté)
2 Refus de classer les données trop éloignées des données connues (rejet de non
représentativité)


représentativité)


représentativité)
Classement
Modèle : règle de classement, par ex. frontière de discrimination (trait bleu foncé)
Exemple : (2 var. explicatives pour chaque observation : abscisse X et ordonnée Y)
Classement
Classement
Régression
Modèle : règle de prédiction (trait noir dans la figure)

Par ex. y = ax + b pour modèle linéaire
Exemple : (variable explicative X en abscisse, variable expliquée Y en ordonnée)

Régression


Régression


Prédiction structurée
Modèle : règle de prédiction

Exemples :
1 Déterminer que l’entité nommée de la phrase « La Maison Blanche a démenti ces
informations. » est La Maison Blanche
Les classements des mots composant l’entité nommée ne sont pas indépendants
2 Délimiter la région correspondant aux pantalons dans l’image [5]
Les affectations des pixels composant la région ne sont pas indépendantes

3 Trier des photographies d’extérieur de la plus illuminée à la plus sombre.
Problème d’ordonnancement relatif : le rang d’une image dépend des autres échantillons.

Exemples :


Exemples :

Modélisation décisionnelle Modélisation à partir de données 15 / 56
Comment obtenir un modèle décisionnel
1 Construction analytique, à partir d’une parfaite connaissance du phénomène

Exemples :
Temps de vol ← distance et vitesse
Concentration de produit de réaction ← concentration de réactif et température
Néglige souvent l’impact de variables non contrôlables !
2 À partir de données : ensemble d’observations pour lesquelles les valeurs des
variables explicatives et des variables expliquées sont en général connues
→ Apprentissage supervisé : à partir d’observations pour lesquelles les valeurs des variables
explicatives et de la variable expliquée sont connues
Apprentissage semi-supervisé (voir [2]) : tient compte aussi des observations pour
lesquelles les valeurs de la variable expliquée sont inconnues
Comment obtenir un modèle décisionnel
1 Construction analytique, à partir d’une parfaite connaissance du phénomène

Exemples :
Temps de vol ← distance et vitesse
Concentration de produit de réaction ← concentration de réactif et température
Néglige souvent l’impact de variables non contrôlables !
2 À partir de données : ensemble d’observations pour lesquelles les valeurs des
variables explicatives et des variables expliquées sont en général connues
→ Apprentissage supervisé : à partir d’observations pour lesquelles les valeurs des variables
explicatives et de la variable expliquée sont connues
Apprentissage semi-supervisé (voir [2]) : tient compte aussi des observations pour
lesquelles les valeurs de la variable expliquée sont inconnues
Apprentissage et généralisation
(Information de) Supervision = valeur de la variable expliquée

Modélisation à partir de données (observations) d’apprentissage, qui disposent de
l’information de supervision
Choix famille paramétrique, puis optimisation des paramètres → modèle
Erreur du modèle sur ces données = erreur d’apprentissage ou risque empirique
données AFD PMC α = 10−5

erreur = 12% erreur = 2,3%




Apprentissage et généralisation (2)
Le modèle permet de prendre des décisions pour de futures (nouvelles) données

Erreur du modèle sur ces futures données = erreur de généralisation ou risque espéré

erreur = 14% erreur = 6%
→ Objectif : avoir la meilleure généralisation (le risque espéré le plus faible)







Comment trouver le modèle qui présente la meilleure généralisation ?
Erreur d’apprentissage (facilement) mesurable car ces données sont disponibles

Données futures inconnues ⇒ erreur de généralisation ne peut pas être mesurée
Hypothèse importante : la distribution des données d’apprentissage est représentative
de celle des données futures !
Or, on constate souvent que la distribution évolue dans le temps (n’est pas
stationnaire) ⇒ il est nécessaire d’adapter régulièrement le modèle
→ Minimiser l’erreur d’apprentissage permet de minimiser l’erreur de généralisation ?
Considérons des données de test, non utilisées pour l’apprentissage mais disposant de
Comparons trois modèles différents :
Modèle linéaire obtenu par analyse factorielle discriminante (AFD)
Perceptron multicouches (PMC) avec un coefficient « d’oubli » (weight decay) α = 10−5
Perceptron multicouches (PMC) avec un coefficient « d’oubli » α = 1









Quel lien entre erreur d’apprentissage et erreur de généralisation ?
AFD PMC α = 10−5 PMC α = 1

Apprentissage
Err. app. 12% 2,3% 4,5%

Test
Err. test 14% 6% 4,6%

Quel lien entre erreur d’apprentissage et erreur de généralisation ?

Apprentissage
Err. app. 12% 2,3% 4,5%

Test
Err. test 14% 6% 4,6%

Quel lien entre erreur d’apprentissage et erreur de généralisation ? (2)
Constats
1 Le modèle qui a la plus faible erreur d’apprentissage n’a pas la plus faible erreur de test
Cela reste valable si on compare des modèles issus de la même famille, par ex. par arrêt
précoce de la procédure d’optimisation
2 L’erreur d’apprentissage est en général une estimation optimiste de l’erreur de test
3 L’écart entre erreur d’apprentissage et erreur de test dépend de la famille de modèles
Si on ne peut pas mesurer l’erreur de généralisation, comment l’estimer ?

1 Par l’erreur sur des données de test, non utilisées pour l’apprentissage
→ Les observations disponibles avec information de supervision sont séparées en données
d’apprentissage (→ obtenir le modèle) et données de test (→ estimer la généralisation)
2 Grâce à une éventuelle borne supérieure sur l’écart entre erreur d’apprentissage et
erreur de généralisation : erreur généralisation ≤ erreur apprentissage + borne
→ Lorsqu’elle existe, la borne peut être trop élevée pour être exploitable
Constats

Constats

Constats

Constats

Constats

Constats

Constats

Constats

Constats

Modélisation à partir de données : un cadre plus précis 20 / 56
Plan du cours
Étapes générales
Validation croisée
Courbes ROC
Modélisation à partir de données : un cadre plus précis Étapes générales 21 / 56
Modélisation à partir de données : étapes générales
1 Préparation des données et choix d’une fonction de perte (loss ou erreur)

2 Choix des familles paramétriques dans lesquelles chercher des modèles
3 Dans chaque famille, estimation du « meilleur » modèle intra-famille
4 Choix du meilleur modèle entre familles
5 Évaluation des performances de généralisation du modèle retenu
Modélisation à partir de données : un cadre plus précis Quelques définitions 22 / 56
Modélisation à partir de données : un cadre plus précis
Domaine des variables explicatives (ou espace d’entrée) : X (par ex. Rp )

Domaine de la variable expliquée (ou espace de sortie) : Y (par ex. {−1; 1}, R)
Données à modéliser décrites par variables aléatoires (X, Y) ∈ X × Y suivant la
distribution inconnue P
Exemples
Classement : Régression :
X ⊂ R2 X ⊂R
Y = {c1 , c2 } Y⊂R
Modélisation à partir de données : un cadre plus précis (2)
Observations (données) avec information de supervision : DN = {(xi , yi )}1≤i≤N

correspondant à des tirages identiquement distribués suivant P
Supervision : {yi }1≤i≤N
Sauf cas particuliers (par ex. séries temporelles) on considère les données de DN issues
de tirages indépendants
→ Objectif : trouver, dans une famille F , une fonction f : X → Y qui prédit y à partir
de x et présente le risque espéré R(f) = EP [L(X, Y, f)] le plus faible
L() est la fonction de perte (ou d’erreur)
EP est l’espérance par rapport à la distribution inconnue P
Le choix d’une fonction de perte dépend de

La nature du problème de modélisation : classement, régression, prédiction structurée
Le choix de la famille F et de la procédure d’optimisation associée
Modélisation à partir de données : un cadre plus précis (2)
Observations (données) avec information de supervision : DN = {(xi , yi )}1≤i≤N

correspondant à des tirages identiquement distribués suivant P
Supervision : {yi }1≤i≤N
Sauf cas particuliers (par ex. séries temporelles) on considère les données de DN issues
de tirages indépendants
→ Objectif : trouver, dans une famille F , une fonction f : X → Y qui prédit y à partir
de x et présente le risque espéré R(f) = EP [L(X, Y, f)] le plus faible
L() est la fonction de perte (ou d’erreur)
EP est l’espérance par rapport à la distribution inconnue P
Le choix d’une fonction de perte dépend de

La nature du problème de modélisation : classement, régression, prédiction structurée
Le choix de la famille F et de la procédure d’optimisation associée
Modélisation à partir de données : un cadre plus précis Choix d’une fonction de perte 24 / 56
Fonctions de perte pour problèmes de classement
Perte 0-1 : L01 (x, y, f) = 1f(x)̸=y

f(x), y ∈ Y ensemble fini
Perte nulle si prédiction correcte, perte unitaire si prédiction incorrecte
Si f(x) ∈ R alors L01 (x, y, f) = 1H(f(x))̸=y , avec H() fonction échelon adéquate
Fig. – Les flèches bleues indiquent quelques données mal classées par le modèle (frontière de
discrimination linéaire, dans ce cas)
Fonctions de perte pour problèmes de classement (2)
Hinge loss pour la discrimination entre 2 classes en maximisant la marge (voir

chapitre SVM) : Lh (x, y, f) = max{0, 1 − yf(x)} (pour f(x) ∈ R)
Lh n’est pas différentiable par rapport à f mais admet un sous-gradient
Des extensions existent pour le cas multi-classe et la prédiction structurée
Fig. – Hinge loss pour y = −1 (en rouge) et y = 1 (en bleu)

Fonctions de perte pour problèmes de régression
Perte quadratique : Lq (x, y, f) = [f(x) − y]2

f(x) est la prédiction du modèle f pour l’entrée x
y est l’information de supervision (prédiction désirée) pour l’entrée x
Différentiable par rapport à f(x) ⇒ une optimisation basée sur le gradient peut être
appliquée directement
Fig. – Les traits rouges représentent des écarts entre trois prédictions d’un modèle (linéaire, da
ce cas) et les prédictions désirées correspondantes
Modélisation à partir de données : un cadre plus précis Choix des familles paramétriques 27 / 56
Familles paramétriques
Modèles linéaires : prédiction = combinaison linéaire des variables explicatives

Exemples :
Classement : Régression :
f(x) = wT x + w0 f(x) = w1 x + w0
H(f(x)) ∈ {−1, 1}
Peuvent s’avérer insuffisants (voir ci-dessus l’ex. de classes non linéairement séparables)
Utile de commencer par un modèle linéaire, ne serait-ce que pour pouvoir comparer
Modèles polynomiaux de degré borné : la capacité d’approximation (d’une frontière

pour le classement, d’une dépendance pour la régression) augmente avec le degré
Diverses familles de modèles non linéaires, par ex. perceptrons multicouches (PMC)
d’architecture donnée, etc.
Comment choisir la famille paramétrique ?
Modèles linéaires souvent insuffisants → pourquoi ne pas choisir systématiquement

une famille de capacité d’approximation aussi grande que possible ?
Err. app. 12% 2,3% 4,5%

Err. test 14% 6% 4,6%
→ Risque de sur-apprentissage (overfitting) : erreur d’apprentissage très faible mais
erreur de test comparativement élevée
⇒ Ce n’est pas avec la capacité la plus grande qu’on obtient la meilleure généralisation
→ Quel lien entre capacité et généralisation ?

Err. app. 12% 2,3% 4,5%

Err. test 14% 6% 4,6%

Err. app. 12% 2,3% 4,5%

Err. test 14% 6% 4,6%
Modélisation à partir de données : un cadre plus précis Estimation du modèle 29 / 56
Comment estimer le modèle ?
Rappel de l’objectif : trouver, dans une famille F choisie, une fonction (un modèle)
f : X → Y qui prédit y à partir de x et présente le risque espéré (ou théorique)
R(f) = EP [L(X, Y, f)] le plus faible
R(f) ne peut pas être évalué car P est inconnue, mais on peut mesurer le risque
P
empirique RDN (f) = N1 Ni=1 L(xi , yi , f)
Si R(f) est inaccessible, comment répondre à l’objectif ?
1 Minimisation du risque empirique (MRE) : considérer le modèle qui minimise l’erreur
d’apprentissage, f∗D = arg minf∈F RDN (f)
N
2 Minimisation du risque empirique régularisé (MRER) :
∗
fD = arg minf∈F [RDN (f) + αG(f)]
N
3 Minimisation du risque structurel (MRS) : séquence de familles de capacité qui
augmente, estimation MRE dans chaque famille, choix tenant compte à la fois de DN
et de la capacité
P
N
∗
N
et de la capacité
P
N
∗
N
et de la capacité
P
N
∗
N
et de la capacité
P
N
∗
N
et de la capacité
P
N
∗
N
et de la capacité
Analyse des composantes du risque espéré
Considérons
f∗D la fonction de F qui minimise le risque empirique RDN
N
f∗ la fonction de F qui minimise le risque espéré R, alors
R(f∗DN ) = R∗ + [R(f∗ ) − R∗ ] + [R(f∗DN ) − R(f∗ )]
1 R∗ est le risque résiduel (ou risque de Bayes), borne inférieure

Strictement positif en présence de bruit : suivant le bruit, à un même x peuvent
correspondre plusieurs valeurs de y
2 [R(f∗ ) − R∗ ] est l’erreur d’approximation (≥ 0) car F ne contient pas nécessairement
la « vraie » fonction de décision
Nulle seulement si R∗ peut être atteint par une fonction de F
∗
3 [R(fD )
N
− R(f∗ )] est l’erreur d’estimation (≥ 0)
La fonction de F qui minimise le risque empirique n’est pas nécessairement celle qui
minimise le risque espéré
Capacité, erreur d’approximation et erreur d’estimation

Résultats obtenus à partir de 3 familles sur 3 échantillons différents de DN :
Échantillon 1
Échantillon 2
Échantillon 3
Err. moyenne app. 14,4% 1,5% 4%

Err. moyenne test 9,5% 7% 5,5%
Écart-type test 0,038 0,026 0,017
Capacité, erreur d’approximation et erreur d’estimation

Résultats obtenus à partir de 3 familles sur 3 échantillons différents de DN :
Échantillon 1
Échantillon 2
Échantillon 3
Err. moyenne app. 14,4% 1,5% 4%

Err. moyenne test 9,5% 7% 5,5%
Écart-type test 0,038 0,026 0,017
Capacité, erreur d’approximation et erreur d’estimation (2)
Capacité famille linéaire (AFD) < capacité PMC α = 1 < capacité PMC α = 10−5
1 Famille linéaire (modèles obtenus ici par AFD)

Erreur d’apprentissage élevée donc capacité insuffisante pour ce problème
⇒ Erreur d’approximation élevée (fort biais)
2 Famille définie par PMC 1 couche cachée de 100 neurones, avec coefficient
« d’oubli » α = 10−5
Erreur d’approximation probablement faible car erreur d’apprentissage faible ⇒
capacité suffisante
Erreur de test bien plus élevée, variance supérieure à PMC α = 1
⇒ Erreur d’estimation élevée
3 Famille définie par PMC 1 couche cachée de 100 neurones, avec coefficient
« d’oubli » α = 1
Somme assez faible entre erreur d’approximation et erreur d’estimation, meilleure
généralisation que les deux autres familles
Erreur de test assez faible et proche de l’erreur d’apprentissage
Modélisation à partir de données : un cadre plus précis Comment mesurer la capacité ? 33 / 56
Considérons un ensemble de N vecteurs {xi }1≤i≤N ∈ Rp → il y a 2N façons

différentes de le séparer en 2 parties
Définition : la famille F de fonctions f : Rp → {−1, 1} pulvérise {xi }1≤i≤N si toutes
les 2N séparations peuvent être construites avec des fonctions de F
Définition (Vapnik-Chervonenkis) : l’ensemble F est de VC-dimension h s’il
pulvérise au moins un ensemble de h vecteurs et aucun ensemble de h + 1 vecteurs
Exemple : la VC-dimension de l’ensemble des hyperplans de Rp est h = p + 1
Dans R2 , l’ensemble des droites pulvérise le triplet de points à gauche mais aucun
quadruplet (par ex., aucune droite ne peut séparer les points bleus des rouges)
Lien entre capacité et généralisation
La VC-dimension est une mesure intéressante de la capacité car elle permet d’obtenir
une borne pour l’écart entre risque théorique et risque empirique
Théorème [1] : soit RDN (f) le risque empirique défini par la fonction de perte
L01 (x, y, f) = 1f(x)̸=y ; si la VC-dimension de F est h < ∞ alors pour toute f ∈ F ,
avec une probabilité au mois égale à 1 − δ (0 < δ < 1), on a
s
h log 2N
+ 1 − log 4δ
R(f) ≤ RDN (f) + h
pour N>h
N
| {z }
B(N,F )
B(N, F ) diminue quand N ↑, quand h ↓ et quand δ ↑

B(N, F ) ne fait pas intervenir le nombre de variables
B(N, F ) ne fait pas intervenir la loi conjointe P
→ résultat dans le pire des cas, intéressant d’un point de vue théorique bien que peu utile
en pratique
Lien entre capacité et généralisation (2)
Conséquences de l’existence d’une borne
R(f) ≤ RDN (f) + B(N, F )
et de la forme de B(N, F ) :
Famille F de capacité trop faible (par ex. ici modèles linéaires)
⇒ B(N, F ) faible mais RDN (f) (erreur d’apprentissage) élevé(e)
⇒ absence de garantie intéressante pour R(f)
Famille F de capacité trop élevée (par ex. ici PMC α = 10− 5)
⇒ RDN (f) probablement faible mais B(N, F ) élevée
⇒ absence de garantie intéressante pour R(f)
Famille F de capacité « adéquate » (par ex. ici PMC α = 1)
⇒ RDN (f) probablement faible et B(N, F ) plutôt faible
⇒ garantie intéressante pour R(f) !
Minimisation du risque empirique régularisé (MRER)
La minimisation du risque empirique ne suffit pas à assurer une bonne généralisation,

il faut maîtriser la capacité de F (ou la complexité du modèle)
La régularisation est une des solutions : le modèle est obtenu en minimisant la
somme entre le risque empirique RDN (f) et un terme G(f) qui pénalise
(indirectement) la capacité
f∗DN = arg min[RDN (f) + αG(f)]

f∈F
α : hyperparamètre qui pondère le terme de régularisation
Différentes formes pour G(f), en rapport aussi avec le choix de la famille F , par ex. :
G(f) = ∥w∥22 , w étant le vecteur de paramètres du modèle ; par ex. pour PMC terme
« d’oubli » (weight decay)
Implicite : par ex., toujours pour PMC, terme G(f) absent mais arrêt précoce (early
stopping) de l’algorithme d’optimisation non linéaire
Minimisation du risque structurel (MRS)
Une solution de maîtrise explicite de la capacité de la famille de modèles est la

minimisation du risque structurel [1]
1 Définition d’une séquence F1 ⊂ F2 ⊂ F3 . . . de familles de capacités croissantes, c’est

à dire pour lesquelles h1 < h2 < h3 . . .
2 Pour i ∈ {1, 2, 3 . . .}, minimisation dans chaque famille du risque empirique

(i)∗
fD = arg minf∈Fi RDN (f)
N
3 Tenant compte de la borne trouvée pour le risque espéré R, sélection de

(i)∗ (i)∗
fD , i ∈ {1, 2, 3 . . .}, qui minimise RDN (fD ) + B(N, Fi )
N N
Comment minimiser le risque empirique (régularisé)?
Dans une famille paramétrique F , un modèle est défini par les valeurs d’un ensemble
de paramètres, par ex.
Modèle linéaire pour la régression y = ax + b : a et b
Perceptron multi-couches d’architecture donnée : poids des connexions de la (des)

couche(s) cachée(s) et de la couche de sortie
→ Optimisation pour trouver les valeurs qui minimisent le critère (MRE, MRER)
Solution analytique directe : cas assez rare, par ex. certains modèles linéaires
Algorithmes itératifs, par ex.
Optimisation quadratique sous contraintes d’inégalité : SVM
Optimisation non linéaire plus générale : PMC, réseaux profonds
Exemple : régression linéaire
Problème de régression avec X = Rp , Y = R, DN = {(xi , yi )}1≤i≤N

P
Famille de modèles linéaires ŷ = w0 + pj=1 wj xji , où ŷ est la prédiction du modèle
Sous forme matricielle : ŷ = Xw, où X est la matrice N × (p + 1) dont les lignes sont
les observations de DN et les colonnes correspondent aux variables (sauf pour la
dernière qui est une colonne de 1 et permet d’inclure w0 dans w)
On cherche le modèle (défini par le vecteur de paramètres w∗ ) qui minimise
∑N
MRE : l’erreur quadratique totale i=1 (ŷi − yi )2 sur DN
∗
→ Solution w = X y, où X + +
est la pseudo-inverse Moore-Penrose de X
Si XT X est inversible, alors X+ = (XT X)−1 XT
MRER : la somme entre l’erreur quadratique sur∑ DN et un terme de régularisation, par

ex. (cas particulier de régularisation Tikhonov), Ni=1 (ŷi − yi ) + ∥w∥2
2 2
→ Solution w∗ = (XT X + Ip+1 )−1 XT y, où Ip+1 est la matrice unité de rang p + 1

Modélisation décisionnelle : que faut-il retenir ?
Construire un modèle décisionnel à partir de données : supervision nécessaire

Objectif : obtenir le modèle qui présente la meilleure généralisation
Estimer la généralisation : non à partir de l’erreur d’apprentissage
Chercher le bon compromis entre minimisation de la capacité de la famille de
modèles et minimisation de l’erreur d’apprentissage
Évaluation de modèles 40 / 56
Plan du cours
Étapes générales
Validation croisée
Courbes ROC
Comment estimer le risque espéré
1 A partir du risque empirique et en tenant compte de bornes de généralisation :

R(f∗DN ) ≤ RDN (f∗DN ) + B(N, F )
→ Lorsqu’elle existe, la borne est en général trop élevée pour être utile en pratique
Les observations disponibles avec information de supervision sont partitionnées (par
échantillonnage uniforme, en général) en données d’apprentissage (70-80%) et données
de test (20-30%)
Apprentissage (estimation) du modèle sur les données d’apprentissage
Estimation du risque espéré par l’erreur de ce modèle sur les données de test
→ Difficultés de cette approche :
La mise de côté des données de test réduit le nombre de données utilisées pour l’apprentissage
Cet estimateur du risque espéré a une variance élevée (un autre partitionnement produira
d’autres ensembles d’apprentissage et de test)
→ Validation croisée (cross-validation) : plusieurs partitionnements apprentissage | test,
obtenir à chaque fois un modèle sur les données d’apprentissage et l’évaluer sur les
données de test associées, employer la moyenne comme estimation du risque espéré
⇒ estimateur de variance plus faible,
. . . tout en utilisant mieux les données disponibles !

R(f∗DN ) ≤ RDN (f∗DN ) + B(N, F )
de test (20-30%)

R(f∗DN ) ≤ RDN (f∗DN ) + B(N, F )
de test (20-30%)

R(f∗DN ) ≤ RDN (f∗DN ) + B(N, F )
de test (20-30%)

R(f∗DN ) ≤ RDN (f∗DN ) + B(N, F )
de test (20-30%)

R(f∗DN ) ≤ RDN (f∗DN ) + B(N, F )
de test (20-30%)

R(f∗DN ) ≤ RDN (f∗DN ) + B(N, F )
de test (20-30%)

R(f∗DN ) ≤ RDN (f∗DN ) + B(N, F )
de test (20-30%)

R(f∗DN ) ≤ RDN (f∗DN ) + B(N, F )
de test (20-30%)
Évaluation de modèles Validation croisée 42 / 56
Validation croisée
1 Méthodes exhaustives :
Leave p out (LPO) : N − p données pour l’apprentissage et p pour la validation ⇒ CpN
découpages possibles donc CpN modèles à apprendre ⇒ coût excessif
Leave one out (LOO) : N − 1 données pour l’apprentissage et 1 pour la validation ⇒
C1N = N découpages possibles (donc N modèles) ⇒ coût élevé
2 Méthodes non exhaustives :
k-fold : partitionnement fixé des N données en k parties, apprentissage sur k − 1 parties
et validation sur la k-ême ⇒ k modèles seulement (souvent k = 5 ou k = 10)
Échantillonnage répété (shuffle and split) : échantillon aléatoire de p données pour le

test (les autres N − p pour l’apprentissage), on répète cela k fois ⇒ k modèles
Validation croisée : quelle méthode préférer ?
LPO très rarement employée car excessivement coûteuse

LOO vs k-fold : k-fold préférée en général
LOO plus coûteuse car N ≫ k
Variance en général supérieure pour LOO
k−1
Estimation k-fold pessimiste car chaque modèle apprend sur k
N < N − 1 données
Shuffle and split vs k-fold
Pour k-fold le nombre de modèles (k) est lié à la proportion de données de test (1/k),
shuffle and split moins contraignante
Pour shuffle and split certaines données ne sont dans aucun échantillon alors que
d’autres sont dans plusieurs échantillons
Quelle que soit la méthode, tous les partitionnements peuvent être explorés en
parallèle (sur processeurs multi-cœur ou plateformes distribuées)
Validation croisée : précautions à prendre
Problème de classement avec classes (très) déséquilibrées : pour s’assurer de

conserver les rapports entre les classes dans tous les découpages, utiliser
Un partitionnement adapté pour k-fold (par ex. StratifiedKFold dans Scikit-learn)
Un échantillonnage stratifié pour shuffle and split (par ex. StratifiedShuffleSplit
dans Scikit-learn)
LOO peut être employée telle quelle
Observations qui ne sont pas indépendantes
Séries temporelles : les observations successives sont corrélées, le découpage doit être
fait par séquences sur les observations ordonnées et non après shuffle sur les
observations individuelles
Données groupées : dans un même groupe, les observations ne sont pas indépendantes ;
les données de test doivent provenir de groupes différents de ceux dont sont issues les
données d’apprentissage

dans Scikit-learn)

dans Scikit-learn)

dans Scikit-learn)

dans Scikit-learn)

dans Scikit-learn)

dans Scikit-learn)
Évaluation de modèles Courbes ROC 45 / 56
Évaluation pour problèmes de classement à coûts asymétriques
Estimation du risque espéré d’un modèle de classement : taux de mauvais classement

sur les données de test
Taux de mauvais classement ← fonction de perte L01
→ coût symétrique : même coût si le modèle se trompe dans un sens ou dans l’autre
De nombreux problèmes présentent des coûts asymétriques, par ex.
Pour un cargo, la non détection d’un autre navire par le radar peut mener à une
collision, alors qu’une fausse alerte provoque seulement un ralentissement temporaire
La non détection de la maladie grave d’un patient est dramatique, alors que la
détection erronée d’une telle maladie pour un patient sain est moins problématique
⇒ Comment examiner les caractéristiques de différents modèles lorsque les coûts sont
asymétriques, sans fixer le « degré » d’asymétrie ?






Terminologie pour la discrimination entre 2 classes
Une classe peut être considérée la classe « d’intérêt »

Le modèle appris est vu comme le « détecteur » de la classe d’intérêt
Pour un tel détecteur appris, les cas suivants peuvent être constatés :
Classe présente Classe absente
Classe détectée Vrai Positif Faux Positif
Classe non détectée Faux Négatif Vrai Négatif
On définit les mesures suivantes :

Vrais Positifs
Taux de vrais positifs (ou sensibilité) = Total Positifs
= VPVP
+ FN
Taux de faux positifs (ou 1− spécificité) = Total Négatifs = VNFP
Faux Positifs
+ FP
=1− VN
VN + FP
Idéalement
1 Toutes les détections positives devraient correspondre à de vrais positifs : pas de faux
négatifs (FN = 0), ou taux de vrais positifs = 1
2 Ce qui n’est pas détecté devrait correspondre aux seuls vrais négatifs : pas de faux
positifs (FP = 0), ou taux de faux positifs = 0
Courbes ROC pour discrimination entre 2 classes
Modèle : en général décrit par un vecteur de paramètres w (par ex. poids connexions
pour PMC) et un seuil b (par ex. sur la probabilité de la classe d’intérêt)
Courbe ROC : taux de vrais positifs (en ordonnée) fonction du taux de faux positifs
(en abscisse), la variable étant le seuil
Pour un w fixé, peut-on réduire en même temps FN et FP en faisant varier le seuil ?
Frontières pour 3 valeurs du seuil de détection Courbe ROC associée

⇒ si on augmente le taux de vrais positifs, le taux de faux positifs augmente également !
Comparaison de modèles à travers les courbes ROC
Comparaison globale par rapport au domaine de variation du seuil :

Discrimination
Courbes ROC
AUC 0,89 0,88 0,94

Comparaison de modèles à travers les courbes ROC
Comparaison globale par rapport au domaine de variation du seuil :

Discrimination
Courbes ROC
AUC 0,89 0,88 0,94

Comparaison de modèles à travers les courbes ROC (2)
Un outil de comparaison globale est l’aire sous la courbe ROC (area under curve,
AUC) : plus l’aire sous la courbe ROC est élevée, meilleur est le modèle
Si valeurs AUC proches ou pour objectifs plus précis : comparaison des taux de vrais
positifs (sensibilité) à taux de faux positifs (spécificité) donné(e)s
Fig. – Courbes ROC : AFD en bleu, PMC α = 10−5 en rouge, PMC α = 1 en vert
Sélection de modèles 49 / 56
Plan du cours
Étapes générales
Validation croisée
Courbes ROC
Sélection de modèles
Dans l’estimation d’un modèle, par ex. par MRER

f∈F
plusieurs hyperparamètres interviennent :

La pondération de la régularisation, α
Le critère de régularisation G(f)
Autres paramètres qui ont un impact direct sur F , par ex. l’architecture pour un PMC,
le type de noyau (et la variance du noyau) pour une SVM, etc.
Comment choisir de « bonnes » valeurs pour ces hyperparamètres ?
→ Procédures de recherche qui explorent l’espace des valeurs des paramètres, de façon
systématique ou aléatoire
Les modèles obtenus pour différentes valeurs des hyperparamètres sont comparés à
travers leurs scores de validation croisée
Une fois trouvé le meilleur modèle, son risque espéré est estimé sur des données de test
qui n’ont servi ni à la recherche des paramètres, ni à celle des hyperparamètres !

f∈F


f∈F


f∈F


f∈F


f∈F


f∈F


f∈F


f∈F

Sélection de modèles Grid search pour le choix des hyperparamètres 51 / 56
Recherche systématique : grid search
Pour trouver les meilleures valeurs des hyperparamètres, une première possibilité est
d’explorer l’espace des hyperparamètres de façon systématique
Recherche en grille (grid search) :
1. Définition d’intervalles et de pas de variation pour les hyperparamètres numériques (par
ex. constante de régularisation α, variance de noyau RBF)
1. Définition d’ensembles de valeurs pour les hyperparamètres nominaux (par ex.
architectures PMC, critères de régularisation, types noyaux SVM)
2. Exploration systématique de l’espace des hyperparamètres
3. Choix des valeurs pour lesquelles le modèle obtenu présente les meilleures performances
de validation croisée
Estimation du risque espéré (erreur de généralisation) du modèle obtenu : sur des

données non encore utilisées !
Recherche systématique : grid search (2)
Lorsque seuls des hyperparamètres continus sont présents, on obtient une grille =
combinaisons de valeurs à tester pour les m paramètres ⇒ grille de dimension m
Tous les points de la grille peuvent être explorés en parallèle !

Plusieurs niveaux de « finesse » → recherche hiérarchique : exhaustive suivant la
grille grossière, puis là où les résultats sont meilleurs on affine suivant le(s) niveau(x)
plus fin(s) → augmentation du rapport qualité des résultats / coût


Sélection de modèles Randomized parameter optimization 53 / 56
Recherche aléatoire : randomized parameter optimization
Des connaissances a priori permettent de privilégier certains intervalles de variation

→ générer des valeurs conformes à ces connaissances → meilleure efficacité qu’avec
grid search non hiérarchique
Le coût peut être maîtrisé en fixant le nombre d’échantillons à générer
Modalités d’échantillonnage
1 Hyperparamètres numériques à valeurs continues (par ex. α) : loi d’échantillonnage
(par ex. loi normale d’espérance et variance données)
2 Hyperparamètres numériques à valeurs discrètes (par ex. nombre de neurones cachés) :
loi d’échantillonnage (par ex. loi uniforme sur intervalle donné)
3 Hyperparamètres variables nominales : liste des valeurs (modalités) possibles → loi
uniforme sur ces valeurs
Échantillons générés en considérant les hyperparamètres indépendants

Évaluation et sélection de modèles : que faut-il retenir ?
Estimation du risque espéré (erreur de généralisation) sur des données non utilisées
pour l’apprentissage
Validation croisée : meilleure estimation qu’un seul découpage apprentissage | test
Courbes ROC : comparaison plus globale de modèles de classement
Meilleures valeurs pour les hyperparamètres : recherche systématique ou aléatoire,
comparaison des modèles par validation croisée
Si validation croisée employée pour sélectionner le meilleur modèle, estimation du
risque espéré du modèle retenu sur des données non encore utilisées
Références I
O. Bousquet, S. Boucheron, and G. Lugosi.

Introduction to Statistical Learning Theory, volume Lecture Notes in Artificial
Intelligence 3176, pages 169–207.
Springer, Heidelberg, Germany, 2004.
O. Chapelle, B. Schölkopf, and A. Zien, editors.
Semi-Supervised Learning.
MIT Press, Cambridge, MA, 2006.
I. Goodfellow, Y. Bengio, and A. Courville.
Deep Learning.
MIT Press, 2016.
http://www.deeplearningbook.org.
B. Schölkopf and A. Smola.
Learning with Kernels.
MIT Press, 2002.
Références II
L. Yang, H. Rodriguez, M. Crucianu, and M. Ferecatu.

Fully convolutional network with superpixel parsing for fashion web image
segmentation.
In Proc. 23rd Intl. Conf. MultiMedia Modeling, Reykjavik, Iceland, pages 139–151,
2017.

Apprentissage Statistique: Modélisation Décisionnelle Et Apprentissage Profond (RCP209)

Transféré par

Droits d'auteur :

Formats disponibles

Apprentissage Statistique: Modélisation Décisionnelle Et Apprentissage Profond (RCP209)

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Apprentissage Statistique: Modélisation Décisionnelle Et Apprentissage Profond (RCP209)

Transféré par

Droits d'auteur :

Formats disponibles

Apprentissage statistique : modélisation

décisionnelle et apprentissage profond

“Prediction can be very diﬀicult, especially about the future.”

→ Modélisation décisionnelle (ou prédictive) à partir de données

Objectifs applicatifs de la modélisation décisionnelle

“Prediction can be very diﬀicult, especially about the future.”

→ Modélisation décisionnelle (ou prédictive) à partir de données

Objectifs applicatifs de la modélisation décisionnelle

“Prediction can be very diﬀicult, especially about the future.”

→ Modélisation décisionnelle (ou prédictive) à partir de données

Objectifs applicatifs de la modélisation décisionnelle

“Prediction can be very diﬀicult, especially about the future.”

→ Modélisation décisionnelle (ou prédictive) à partir de données

Objectifs applicatifs de la modélisation décisionnelle

“Prediction can be very diﬀicult, especially about the future.”

→ Modélisation décisionnelle (ou prédictive) à partir de données

Objectifs applicatifs de la modélisation décisionnelle

“Prediction can be very diﬀicult, especially about the future.”

→ Modélisation décisionnelle (ou prédictive) à partir de données

Objectifs applicatifs de la modélisation décisionnelle

“Prediction can be very diﬀicult, especially about the future.”

→ Modélisation décisionnelle (ou prédictive) à partir de données

Objectifs applicatifs de la modélisation décisionnelle

Contenu de l’enseignement : problématique et pré-requis

Contenu de l’enseignement : problématique et pré-requis

Contenu de l’enseignement : problématique et pré-requis

Contenu de l’enseignement : problématique et pré-requis

1 Apprentissage supervisé : classification, régression ; généralisation. Évaluation et

= 15 séances cours + travaux pratiques (TP, Wafa Aissa)

=⇒ environ 60 heures de travail (6 ECTS)

1 Apprentissage supervisé : classification, régression ; généralisation. Évaluation et

= 15 séances cours + travaux pratiques (TP, Wafa Aissa)

=⇒ environ 60 heures de travail (6 ECTS)

Mise en œuvre de la méthodologie de construction, évaluation et sélection de

Emploi de Scikit-learn (http://scikit-learn.org), outil libre et ouvert, en

Quelques références bibliographiques

C.-A. Azencott, Introduction au Machine Learning, Éditions Eyrolles, 2018.

Semestre 2 : hors temps ouvrable (HTO)

Responsable du cours : Nicolas Audebert

Nicolas Audebert Marin Ferecatu Wafa Aissa

S2 (HTO) : examen écrit : session 1 en juin, session 2 en septembre

Mini-projet : analyse des données et construction de modèle(s) décisionnel(s) pour

Observations décrites par les valeurs prises par un ensemble de variables

Types de problèmes de décision

1 Classement (ou discrimination) : la variable expliquée est une variable nominale,

Qu’est-ce qu’un modèle ?

Modèle = règle de décision

Éventuellement complété par des critères de rejet (refus d’affectation)

Qu’est-ce qu’un modèle ?

Modèle = règle de décision

Éventuellement complété par des critères de rejet (refus d’affectation)

Qu’est-ce qu’un modèle ?

Modèle = règle de décision

Éventuellement complété par des critères de rejet (refus d’affectation)

Modèle : règle de prédiction (trait noir dans la figure)

Exemple : (variable explicative X en abscisse, variable expliquée Y en ordonnée)

Modèle : règle de prédiction (trait noir dans la figure)

Exemple : (variable explicative X en abscisse, variable expliquée Y en ordonnée)

Modèle : règle de prédiction (trait noir dans la figure)