Appren Stat
Appren Stat
Appren Stat
&
Data mining
P HILIPPE B ESSE
1 Objectif
L’objet de ce cours est d’introduire, sous une forme homogène et synthétique, les techniques de modélisation
statistique et issues de la théorise de l’apprentissage utilisées le plus couramment en fouille de données ou
data mining dans des champs d’applications très divers : industriels, marketing, ou encore en relation avec
des thématiques de recherche en Biologie, Épidémiologie...
La première partie ou premier objectif d’une telle démarche : l’exploration statistique et la recherche de
classes est développée dans un autre document (Baccini et Besse 2000). Ce cours se focalise sur le deuxième
objectif de la fouille de données qui est la recherche d’informations pertinentes (de pépites d’information)
pour l’aide à la décision et la prévision.
La section 2 suivante de ce chapitre introduit à la fouille de données tandis que la section 3 reprend ces
objectifs dans le cadre général de la modélisation afin d’en élargir les champs d’application. La section 4
décrit la stratégie très généralement mise en place pour optimiser choix de méthodes et choix de modèles ;
la section 5 décrit brièvement quelques exemples d’application et notamment ceux utilisés pour illustrer ce
cours. Enfin, la section 6 liste rapidement les méthodes qui sont abordées et les raisons qui ont conduit à ce
choix.
3
4 Chapitre 1. Introduction
2.2 Environnement
Le contexte informationnel de la fouille de données est celui des data wharehouses. Un entrepôt de
données, dont la mise en place est assuré par un gestionnaire de données (data manager) est un ensemble
de bases relationnelles extraites des données brutes de l’entreprise et relatives à une problématique :
• gestion des stocks (flux tendu), des ventes d’un groupe afin de prévoir et anticiper au mieux les
tendances du marché,
• suivi des fichiers clients d’une banque, d’une assurance, associés à des données socio-économiques
(INSEE), à l’annuaire, en vue de la constitution d’une segmentation (typologie) pour cibler des
opérations de marketing ou des attributions de crédit. La gestion de la relation client (GRC ou
CRM) vise à une individualisation ou personnalisation de la production et de la communication afin
d’évacuer la notion de client moyen.
• recherche, spécification puis ciblage de niches de marché les plus profitables (banque) ou au contraire
les plus risquées (assurance) ;
• suivi en ligne des paramètres de production (traçabilité) en contrôle de qualité pour détecter au plus
vite l’origine d’une défaillance ;
• prospection textuelle (text mining) et veille technologique ;
• web mining et comportement des internautes ;
• ...
Cet environnement se caractérise par
• une informatique hétérogène faisant intervenir des sites distants (Unix, Dos, NT, VM. . . ) à travers
le réseau de l’entreprise (intranet) ou même des accès extérieurs (internet). Des contraintes d’effica-
cité, de fiabilité ou de sécurité conduisent à répartir, stocker l’information à la source plutôt qu’à la
dupliquer systématiquement ou à la centraliser.
• L’incompatibilité logique des informations observées sur des échantillons différents ne présentant pas
les mêmes strates, les mêmes codifications.
• Des volumes et flux considérables de données issues de saisies automatisées et chiffrés en téra-octets.
• Contrairement à une démarche statistique traditionnelle (planification de l’expérience), les données
analysées sont stockées à d’autres fins (comptabilité, contrôle de qualité...) et sont donc préalables à
l’analyse.
• La nécessité de ne pas exclure a priori un traitement exhaustif des données afin de ne pas lais-
ser échapper, à travers le crible d’un sondage, des groupes de faibles effectifs mais à fort impact
économique.
3 Apprentissage statistique
Un peu de recul permet d’inscrire la démarche de la fouille de données dans un contexte plus large et
donc potentiellement plus propice à d’autres domaines d’application.
3.2 Problématiques
3. Apprentissage statistique 5
posées entre les variables ne sont pas linéaires ou encore dès que le volume des données est important,
d’autre méthodes viennent concurrencer l’approche statistique classique.
Prenons un exemple simple : expliquer une variable quantitative Y par un ensemble {X 1 , . . . , X p } de
variables également quantitatives :
Y = φ(X 1 , . . . , X p ) + ε.
observées sur un échantillon (yi , xi ); i = 1, . . . , n de taille n Si φ est supposée linéaire et p petit, de l’ordre
d’une dizaine ; le problème est bien connu et largement débattu dans la littérature. Dans le cas où φ n’est
pas franchement linéaire et n grand, il est possible d’estimer précisément un nombre plus important de
paramètres et donc d’envisager des modèles plus sophistiqués. Si on s’en tient au modèle gaussien usuel,
même le cas le plus simple d’un modèle polynômial devient vite problématique. En effet, lorsque φ est
linéaire, prenons p = 10, la procédure de choix de modèle est confrontée à un ensemble de 210 modèles
possibles et des algorithmes astucieux permettent encore de s’en sortir. En revanche, considérer pour φ
un simple polynôme du deuxième voire troisième degré avec toutes ses interactions, amène à considérer
un nombre considérable de paramètres et donc, par explosion combinatoire, un nombre astronomique de
modèles possibles. D’autres méthodes doivent alors être considérées en prenant en compte nécessairement
la complexité algorithmique des calculs. Ceci explique l’implication d’une autre discipline, l’informatique,
dans cette problématique. Le souci de calculabilité l’emporte sur la définition mathématique du problème
qui se ramène à l’optimisation d’un critère d’ajustement de φ sur un ensemble de solutions plus ou moins
riche. Ces méthodes ont souvent été développées dans un autre environnement disciplinaire : informatique,
intelligence artificielle. . . ; k plus proches voisins, réseaux de neurones, arbres de décisions, support vector
machine deviennent des alternatives crédibles dès lors que le nombre d’observations est suffisant ou le
nombre de variables très important.
F IG . 1.2 – Sous-ajustement linéaire et sur-ajustement local (proches voisins) d’un modèle quadratique.
C’est typiquement le cas en régression non-paramétrique ou fonctionnelle. Une pénalisation faisant in-
tervenir la norme carrée de la dérivée seconde contrôle la flexibilité d’un lissage spline. La “largeur de
fenêtre” du noyau contrôle également la régularité de la solution. En régression linéaire, si le nombre et
les variables sont déterminés, la version “ridge” de la régression pénalise la norme carrée du vecteur des
paramètres et restreint ainsi, par régularisation, l’espace des solutions pour limiter l’effet de la multico-
linéarité.
Enfin, pour aborder en toute généralité les situations les plus compliquées, Vapnik (1999) a formalisé
la théorie de l’apprentissage en introduisant une notion particulière de dimension pour toute famille de
modèles.
AIC).
v. Comparaison des modèles optimaux obtenus (un par méthode) par estimation de l’erreur de prévision
sur l’échantillon test ou, si la présence d’un échantillon test est impossible, sur le critère de pénalisation
de l’erreur (AIC d’Akaı̂ke par exemple) s’il en existe une version pour chacune des méthodes considérées.
vi. Itération éventuelle de la démarche précédente (validation croisée), si l’échantillon test est trop réduit,
depuis (iii). Partitions aléatoires successives de l’échantillon pour moyenner sur plusieurs cas l’esti-
mation finale de l’erreur de prévision et s’assurer de la robustesse du modèle obtenu.
vii. Choix de la méthode retenue en fonction de ses capacités de prévision, de sa robustesse mais aussi,
éventuellement, de l’interprétabillité du modèle obtenu.
viii. Ré-estimation du modèle avec la méthode, le modèles et sa complexitée optimisés à l’étape précédente
sur l’ensemble des données.
qm
10
0 2 4 6 8 10 12
8
2
0 2 4 6 q 8 10 12 14
10
0
0 2 4 Neural 6
PIO detector 8 10 12
1
0.5
0
0 2 4 6 8 10 12
F IG . 1.3 – Airbus : Pompage piloté révélé par l’observation des paramètres en temps réel. De (haut en bas) :
manche, assiette, gouverne comparer avec la prévision qu’en fait un réseau de neurones.
12 Chapitre 1. Introduction
6 Contenu
Il a fallu faire des choix dans l’ensemble des techniques proposées et leurs nombreux avatars. La forme
et le contenu sont guidés par les besoins exprimés lors des stages réalisées par les étudiants du département
Génie Mathématique de l’INSA, du Master professionnel de Statistique & Économétrie ou encore par les
thèmes des collaborations industrielles et scientifiques du laboratoire de Statistique et Probabilités1 . Le lec-
teur peut se faire une idée du nombre très important de méthodes et variantes concernées par l’apprentissage
supervisée ou non supervisé en consultant une boı̂te à outil Mathlab de classification2 . Remarquons que les
principaux logiciels commerciaux (SAS, Splus, SPSS, Matlab. . . ) ou gratuits (R), performants et s’imposant
par des interfaces très conviviales (Enterprise Miner, Insightfull Miner, Clementine), contribuent largement
à la diffusion, voire la pénétration, de méthodes très sophistiquées dans des milieux imperméables à une
conceptualisation mathématique trop abstraite.
Chaque méthode ou famille de méthodes de modélisation et d’apprentissage parmi les plus répandues,
est présentée de façon plus ou moins succincte dans un chapitre distinct avec un objectif prédictif. La
régression linéaire classique en statistique prend une place particulière à titre pédagogique. Très antérieure
aux autres, elle donne lieu a une bibliographie abondante. Conceptuellement plus simple, elle permet d’in-
troduire plus facilement les problématiques rencontrées comme celle du choix d’un modèle par ses deux
approches types : la sélection de variable ou la régularisation (ridge). Pour une meilleure compréhension
des logiciels qui y font largement référence, une introduction (annexe) au modèle linéaire général four-
nit le cadre théorique nécessaire à l’unification des régressions linéaire, loglinéaire et logistique ; cette
dernière reste toujours très utilisée en scoring. La présentation de l’analyse discriminante décisionnelle,
paramétrique ou non paramétrique, les k plus proches voisins, permet d’introduire également des notions
de théorie bayésienne de la décision. Un chapitre incontournable est consacré aux techniques d’estimation
d’une erreur de prévision sur lesquelles reposent les choix opérationnels décisifs : de modèle, de méthode
mais aussi l’évaluation de la précision des résultats escomptés. Les chapitres suivants sont consacrées aux
techniques algorithmiques : arbres binaires de décision (classification and regression trees ou CART) et
à celles plus directement issues de la théorie de l’apprentissage machine (machine learning) : réseau de
neurones et perceptron, agrégation de modèles (boosting, random forest), support vector machine (SVM).
Enfin un chapitre conclusif propose une comparaison systématique des méthodes sur les différents jeux
de données. Des annexes apportent des compléments théoriques ou méthodologiques : modélisation de
données fonctionnelles, introduction au modèle linéaire général, bootstrap.
Le choix a été fait de conserver et expliciter, dans la mesure du possible, les concepts originaux de
chaque méthode dans son cadre disciplinaire tout en tâchant d’homogénéiser notations et terminologies.
L’objectif principal est de faciliter la compréhension et l’interprétation des techniques des principaux logi-
ciels pour en faciliter une utilisation pertinente et réfléchie. Ce cours ne peut être dissocié de séances de
travaux dirigés sur ordinateur à l’aide de logiciels (SAS, R...) pour traiter des données en vraie grandeur
dans toute leur complexité.
1 http ://www.lsp.ups-tlse.fr
2 http ://tiger.technion.ac.il/ eladyt/classification/
Chapitre 2
Régression linéaire
1 Introduction
Ce chapitre ne propose qu’une introduction au modèle gaussien, à sa définition et à son estimation
en privilégiant l’objectif de prévision. Il s’attarde donc sur le problème délicat du choix de modèle afin,
principalement, d’en introduire et d’en illustrer les grands principes dans le cas relativement simple d’un
modèle linéaire. Une section introduit le modèle d’analyse de covariance mais de nombreux aspects :
colinéarité, points influents, tests, analyse de variance, modèle multinomial ou poissonien (modèle log-
linéaire). . . sont négligés et à rechercher dans la bibliographie de même qu’une présentation globale du
modèle linéaire général incluant toutes ces approches et seulement résumée en annexe. Les statistiques
des tests élémentaires sont explicitées afin de faciliter la lectures et l’interprétation des résultats issus des
logiciels.
Le but premier de ce chapitre est donc l’explication ou plutôt, la modélisation dans un but prédictif,
d’une variable quantitative par plusieurs variables quantitatives (régression linéaire multiple) ou par un
mélange de variables quantitatives et qualitatives (analyse de covariance). Dans ce cadre, la question ma-
jeure est la recherche d’un modèle parcimonieux assurant un bon équilibre entre la qualité de l’ajustement
et la variance des paramètres afin de minimiser l’erreur de prévision. Ceci nécessite le réglage fin de la
complexité du modèle à savoir le nombre de variables.
2 Modèle
Le modèle de régression linéaire multiple est l’outil statistique le plus habituellement mis en œuvre pour
l’étude de données multidimensionnelles. Cas particulier de modèle linéaire, il constitue la généralisation
naturelle de la régression simple.
Une variable quantitative Y dite à expliquer (ou encore, réponse, exogène, dépendante) est mise en
relation avec p variables quantitatives X 1 , . . . , X p dites explicatives (ou encore de contrôle, endogènes,
indépendantes, régresseurs).
Les données sont supposées provenir de l’observation d’un échantillon statistique de taille n (n > p+1)
de IR(p+1) :
(x1i , . . . , xji , . . . , xpi , yi ) i = 1, . . . , n.
L’écriture du modèle linéaire dans cette situation conduit à supposer que l’espérance de Y appartient
au sous-espace de IRn engendré par {1, X 1 , . . . , X p } où 1 désigne le vecteur de IRn constitué de “1” .
C’est-à-dire que les (p + 1) variables aléatoires vérifient :
13
14 Chapitre 2. Régression linéaire
ii. Les termes xj sont supposés déterministes (facteurs contrôlés) ou bien l’erreur ε est indépendante de
la distribution conjointe de X 1 , . . . , X p . On écrit dans ce dernier cas que :
E(Y |X 1 , . . . , X p ) = β0 + β1 X 1 + β2 X 2 + · · · + βp X p et V ar(Y |X 1 , . . . , X p ) = σ 2 .
y = Xβ + ε.
3 Estimation
Conditionnellement à la connaissance des valeurs des X j , les paramètres inconnus du modèle : le vec-
teur β et σ 2 (paramètre de nuisance), sont estimés par minimisation des carrés des écarts (M.C.) ou encore,
en supposant (iv), par maximisation de la vraisemblance (M.V.). Les estimateurs ont alors les mêmes expres-
sions, l’hypothèse de normalité et l’utilisation de la vraisemblance conférant à ces derniers des propriétés
complémentaires.
X0 y − X0 Xβ = 0
dont la solution correspond bien à un minimum car la matrice hessienne 2X0 X est semi définie-positive.
Nous faisons l’hypothèse supplémentaire que la matrice X0 X est inversible, c’est-à-dire que la matrice
X est de rang (p + 1) et donc qu’il n’existe pas de colinéarité entre ses colonnes. En pratique, si cette
hypothèse n’est pas vérifiée, il suffit de supprimer des colonnes de X et donc des variables du modèle. Des
diagnostics de colinéarité et des critères aident au choix des variables.
Alors, l’estimation des paramètres βj est donnée par :
b = (X0 X)−1 X0 y
3.2 Propriétés
Les estimateurs des M.C. b0 , b1 , . . . , bp sont des estimateurs sans biais : E(b) = β, et, parmi les esti-
mateurs sans biais fonctions linéaires des yi , ils sont de variance minimum (théorème de Gauss-Markov) ;
ils sont donc “BLUE” : best linear unbiaised estimators. Sous hypothèse de normalité, les estimateurs du
M.V. sont uniformément meilleurs (efficaces) et coı̈ncident avec ceux des M.C.
On montre que la matrice de covariance des estimateurs se met sous la forme
E[(b − β)(b − β)0 ] = σ 2 (X0 X)−1 ,
celle des prédicteurs est
y − Xβ)0 ] = σ 2 H
y − Xβ)(b
E[(b
et celle des estimateurs des résidus est
E[(e − u)((e − u))0 ] = σ 2 (I − H)
tandis qu’un estimateur sans biais de σ 2 est fourni par :
2 2
kek ky − Xβk SSE
s2 = = = .
n−p−1 n−p−1 n−p−1
Ainsi, les termes s2 hii sont des estimations des variances des prédicteurs ybi .
On définit également la somme totale des carrés (total sum of squares) par
2
SST = ky − ȳ1k = y0 y − nȳ 2
et la somme des carrés de la régression (regression sum of squares) par
2
SSR = kb b0 y
y − ȳ1k = y b − nȳ 2 = y0 Hy − nȳ 2 = b0 X0 y − nȳ 2 .
On vérifie alors : SST = SSR + SSE.
où σb2j , variance de bj est le j ème terme diagonal de la matrice s2 (X0 X)−1 , suit une loi de Student à
(n − p − 1) degrés de liberté. Cette statistique est donc utilisée pour tester une hypothèse H0 : βj = a ou
pour construire un intervalle de confiance de niveau 100(1 − α)% :
bj ± tα/2;(n−p−1) σbj .
Attention, cette statistique concerne un coefficient et ne permet pas d’inférer conjointement (cf. §3.4)
sur d’autres coefficients car ils sont corrélés entre eux ; de plus elle dépend des absences ou présences des
autres variables X k dans le modèle. Par exemple, dans le cas particulier de deux variables X 1 et X 2 très
corrélées, chaque variable, en l’absence de l’autre, peut apparaı̂tre avec un coefficient significativement
différent de 0 ; mais, si les deux sont présentes dans le modèle, elles peuvent chacune apparaı̂tre avec des
coefficients insignifiants.
De façon plus générale, si c désigne un vecteur non nul de (p + 1) constantes réelles, il est possible
de tester la valeur d’une combinaison linéaire c0 b des paramètres en considérant l’hypothèse nulle H0 :
c0 b = a ; a connu. Sous H0 , la statistique
c0 b − a
−1
(s2 c0 (X0 X) c)1/2
suit une loi de Student à (n − p − 1) degrés de liberté.
Somme
Source de
des
variation d.d.l. Variance F
carrés
4.4 Prévision
Connaissant les valeurs des variables X j pour une nouvelle observation : x00 = [x10 , x20 , . . . , xp0 ] appar-
tenant au domaine dans lequel l’hypothèse de linéarité reste valide, une prévision, notée yb0 de Y ou E(Y )
est donnée par :
yb0 = b0 + b1 x10 + · · · + bp xp0 .
Les intervalles de confiance des prévisions de Y et E(Y ), pour une valeur x0 ∈ IRp et en posant v0 =
(1|x00 )0 ∈ IRp+1 , sont respectivement
4.5 Exemple
Les données sont extraites de Jobson (1991) et décrivent les résultats comptables de 40 entreprises du
Royaume Uni.
Modèle complet
La procédure SAS/REG est utilisée dans le programme suivant. Beaucoup d’options sont actives afin de
fournir la plupart des résultats même si certains sont redondants ou peu utiles.
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Prob>F
(1)
Model 12 0.55868 (2) 0.04656 (5) 8.408 (7) 0.0001 (8)
Error 27 0.14951 (3) 0.00554 (6)
C Total 39 0.70820 (4)
Root MSE 0.07441 (9) R-square 0.7889 (12)
18 Chapitre 2. Régression linéaire
Parameter Estimates
Parameter Standard T for H0: Variance
Variable DF Estimate Error Parameter=0 Prob>|T| Tolerance Inflation
(1) (2) (3) (4) (5) (6)
INTERCEP 1 0.188072 0.13391661 1.404 0.1716 . 0.00000000
WCFTCL 1 0.215130 0.19788455 1.087 0.2866 0.03734409 26.77799793
WCFTDT 1 0.305557 0.29736579 1.028 0.3133 0.02187972 45.70441500
GEARRAT 1 -0.040436 0.07677092 -0.527 0.6027 0.45778579 2.18442778
LOGSALE 1 0.118440 0.03611612 3.279 0.0029 0.10629382 9.40788501
LOGASST 1 -0.076960 0.04517414 -1.704 0.0999 0.21200778 4.71680805
...
Ces résultats soulignent les problèmes de colinéarités. De grands “VIF” sont associés à de grands écart-
types des estimations des paramètres. D’autre part les nombreux tests de Student non significatifs montrent
que trop de variables sont présentes dans le modèle. Cette idée est renforcée par le calcul de l’indice de
conditionnement (explicité dans la section suivante : 8.76623/0.00125).
5 Choix de modèle
De façon un peu schématique, on peut associer la pratique de la modélisation statistique à trois objectifs
qui peuvent éventuellement être poursuivis en complémentarité.
Descriptif : Il vise à rechercher de façon exploratoire les liaisons entre Y et d’autres variables, potentiel-
lement explicatives, X j qui peuvent être nombreuses afin, par exemple d’en sélectionner un sous-
ensemble. À cette stratégie, à laquelle peuvent contribuer des Analyses en Composantes Principales,
correspond des algorithmes de recherche (pas à pas) moins performants mais économiques en temps
de calcul si p est grand.
Attention, si n est petit, et la recherche suffisamment longue avec beaucoup de variables explicatives,
il sera toujours possible de trouver un “bon” modèle expliquant y ; c’est l’effet data mining dans les
modèles économétriques appelé maintenant data snooping.
Explicatif : Le deuxième objectif est sous-tendu par une connaissance a priori du domaine concerné et
dont des résultats théoriques peuvent vouloir être confirmés, infirmés ou précisés par l’estimation
des paramètres. Dans ce cas, les résultats inférentiels précédents permettent de construire le bon test
conduisant à la prise de décision recherchée. Utilisées hors de ce contexte, les statistiques de test
n’ont plus alors qu’une valeur indicative au même titre que d’autres critères plus empiriques.
5. Choix de modèle 19
Prédictif : Dans le troisième cas, l’accent est mis sur la qualité des estimateurs et des prédicteurs qui
doivent, par exemple, minimiser une erreur quadratique moyenne. C’est la situation rencontrée en
apprentissage. Ceci conduit à rechercher des modèles parcimonieux c’est-à-dire avec un nombre vo-
lontairement restreint de variables explicatives. Le “meilleur” modèle ainsi obtenu peut donner des es-
timateurs légèrement biaisés au profit d’un compromis pour une variance plus faible. Un bon modèle
n’est donc plus celui qui explique le mieux les données au sens d’une déviance (SSE) minimale (ou
d’un R2 max) au prix d’un nombre important de variables pouvant introduire des colinéarités. Le bon
modèle est celui qui conduit aux prévisions les plus fiables.
Certes, le théorème de Gauss-Markov indique que, parmi les estimateurs sans biais, celui des moindres
carrés est de variance minimum. Néanmoins, il peut être important de préférer un estimateur légèrement
biaisé si le gain en variance est lui plus significatif. C’est tout le problème de trouver un bon équilibre entre
biais et variance afin de minimiser un risque quadratique de prévision. Il y a principalement deux façons de
“biaiser” un modèle dans le but de restreindre la variance :
• en réduisant le nombre de variables explicatives et donc en simplifiant le modèle,
• en contraignant les paramètres du modèle, en les rétrécissant (schrinkage), en régression ridge qui
opère une régularisation.
Commençons par décrire les procédures de sélection.
5.1 Critères
De nombreux critères de choix de modèle sont présentés dans la littérature sur la régression linéaire
multiple. Citons le critère d’information d’Akaı̈ke (AIC), celui bayésien de Sawa (BIC). . . (cf. chapitre 5).
Ils sont équivalents lorsque le nombre de variables à sélectionner, ou niveau du modèle, est fixé. Le choix
du critère est déterminant lorsqu’il s’agit de comparer des modèles de niveaux différents. Certains critères
se ramènent, dans le cas gaussien, à l’utilisation d’une expression pénalisée de la fonction de vraisemblance
afin de favoriser des modèles parcimonieux. En pratique, les plus utilisés ou ceux généralement fournis par
les logiciels sont les suivants.
Statistique du F de Fisher
Ce critère, justifié dans le cas explicatif car basé sur une qualité d’ajustement est aussi utilisé à titre
indicatif pour comparer des séquences de modèles emboı̂tés. La statistique partielle de Fisher est
dans laquelle l’indice q désigne les expressions concernant le modèle réduit avec (p − q) variables explica-
tives. On considère alors que si l’accroissement (R2 − Rq2 ) est suffisamment grand :
q
R2 − RR
2
> Fα;q,(n−p−1) ,
(n − p − 1)
2 n−1 SSE/(n − p − 1)
R0 = 1 − (1 − R2 ) = 1 − .
n−p−1 SST/(n − 1)
dans lequel le rapport SSE/SST est remplacé par un rapport des estimations sans biais des quantités σ 2 et
σy2 introduit une pénalisation liée au nombre de paramètres à estimer.
20 Chapitre 2. Régression linéaire
yi ) = Var(b
MSE(b yi )]2
yi ) + [Biais(b
En supposant que les estimations du modèle complet sont sans biais et en utilisant des estimateurs de
V ar(b yi ) et σ 2 , l’expression de l’erreur quadratique moyenne totale standardisée (ou réduite) pour un modèle
à j variables explicatives s’écrit :
MSEj
Cp = (n − q − 1) − [n − 2(q + 1)]
MSE
et définit la valeur du Cp de Mallows pour les q variables considérées. Il est alors d’usage de rechercher un
modèle qui minimise le Cp tout en fournissant une valeur inférieure et proche de (q + 1). Ceci revient à
considérer que le “vrai” modèle complet est moins fiable qu’un modèle réduit donc biaisé mais d’estimation
plus précise.
Akaı̈ke’s Information criterion (AIC)
A compléter
PRESS de Allen
Il s’agit l’introduction historique de la validation croisée. On désigne par yb(i) la prévision de yi calculée
sans tenir compte de la ième observation (yi , x1i , . . . , xpi ), la somme des erreurs quadratiques de prévision
(PRESS) est définie par
X n
PRESS = (yi − yb(i) )2
i=1
et permet de comparer les capacités prédictives de deux modèles. Le chapitre 5 donne plus de détails sur ce
type d’estimation.
La procédure s’arrête lorsque toutes les variables sont introduites ou lorsque p reste plus grande
qu’une valeur seuil fixée par défaut à 0, 50.
Élimination (backward) L’algorithme démarre cette fois du modèle complet. À chaque étape, la variable
associée à la plus grande valeur p est éliminée du modèle. La procédure s’arrête lorsque les variables
restant dans le modèle ont des valeurs p plus petites qu’un seuil fixé par défaut à 0, 10.
Mixte (stepwise) Cet algorithme introduit une étape d’élimination de variable après chaque étape de
sélection afin de retirer du modèle d’éventuels variables qui seraient devenues moins indispensables
du fait de la présence de celles nouvellement introduites.
Global
L’algorithme de Furnival et Wilson est utilisé pour comparer tous les modèles possibles en cherchant à
optimiser l’un des critères : R2 , R2 ajusté, ou Cp de Mallows (rsquare, adjrsq, cp) choisi par l’uti-
lisateur. Par souci d’économie, cet algorithme évite de considérer des modèles de certaines sous-branches de
l’arborescence dont on peut savoir a priori qu’ils ne sont pas compétitifs. En général les logiciels exécutant
cet algorithme affichent le (best=1) ou les meilleurs modèles de chaque niveau.
5.3 Exemple
Parmi les trois types d’algorithmes et les différents critères de choix, une des façons les plus efficaces
consistent à choisir les options du programme ci-dessous. Tous les modèles (parmi les plus intéressants
selon l’algorithme de Furnival et Wilson) sont considérés. Seul le meilleur pour chaque niveau, c’est-à-dire
pour chaque valeur p du nombre de variables explicatives sont donnés. Il est alors facile de choisir celui
minimisant l’un des critères globaux (Cp ou BIC ou . . . ).
Dans cet exemple, Cp et BIC se comportent de la même façon. Avec peu de variables, le modèle est
trop biaisé. Ils atteignent un minimum pour un modèle à 4 variables explicatives puis croissent de nouveau
selon la première bissectrice. La maximisation du R2 ajusté conduirait à une solution beaucoup moins
parcimonieuse. On note par ailleurs que l’algorithme remplace WCFTCL par WCFTDT. Un algorithme par
sélection ne peut pas aboutir à la solution optimale retenue.
22 Chapitre 2. Régression linéaire
κ = λ1 /λp
bR = (X0 X + kI)−1 X0 y,
qui a pour effet de décaler de la valeur k toutes les valeurs propres de la matrice à inverser et, plus par-
ticulièrement, les plus petites qui reflètent la colinéarité. On montre que cela revient encore à estimer le
modèle par les moindres carrés sous la contrainte que la norme du vecteur1 β des paramètres ne soit pas
1 En pratique, la contrainte ne s’applique pas au terme constant β0 mais seulement aux coefficients du modèle.
5. Choix de modèle 23
F IG . 2.1 – Retour sur capital : Evolution des paramètres de la régression ridge en fonction du paramètre
de régularisation.
trop grande : n o
2 2
bR = arg min ky − Xβk ; kβk < c .
β
Cela revient à pénaliser la norme de l’estimateur pour empêcher les coefficients d’exploser et donc pour
limiter la variance. On parle aussi d’estimateur à rétrécisseur (shrinkage). Comme dans tout problème de
régularisation, il est nécessaire de fixer la valeur du paramètre λ ; la validation croisée peut être utilisée à
cette fin mais la lecture du graphique (cf. figure 2.1) montrant l’évolution des paramètres en fonction du co-
efficient ridge est souvent suffisante. La valeur est choisie au point où la décroissance des paramètres devient
faible et quasi-linéaire. Une autre version (lasso) de régression biaisée est obtenue en utilisant la norme en
valeur absolue pour définir la contrainte sur les paramètres. D’autres approches ont été développées plus
récemment en intégrant d’autres types de pénalité comme celles de de type L1 (LASSO) plutôt que L2 ,
c’est-à-dire basées sur la somme des valeurs absolues des paramètres, plutôt que sur la somme de leurs
carrés, ou encore une combinaison de contraintes de types L1 et L2 . Des contraintes L1 compliquent la
résolution numérique du problème d’optimisation mais ont l’avantage d’intégrer la sélection de variables à
la résolution. Cette contrainte a en effet comme résultat de forcer certains paramètres à prendre des valeurs
nulles aboutissant à l’élimination des variables concernées.
Régression sur composantes principales
L’Analyse en Composantes Principales est, entre autres, la recherche de p variables dites principales qui
sont des combinaisons linéaires des variables initiales de variance maximale sous une contrainte d’orthogo-
nalité (cf. Baccini et Besse (2000) pour des détails). En désignant par V la matrice des vecteurs propres de
la matrice des corrélations R rangés dans l’ordre décroissant des valeurs propres, les valeurs prises par ces
variables principales sont obtenues dans la matrice des composantes principales
C = (X − 1x̄0 )V.
Elles ont chacune pour variance la valeur propre λj associée. Le sous-espace engendré par ces variables
principales est le même que celui engendré par les variables initiales. Il est donc géométriquement équivalent
de régresser Y sur les colonnes de C que sur celles de X. Les problèmes de colinéarité sont alors résolus en
supprimant les variables principales de plus faibles variances c’est-à-dire associées aux plus petites valeurs
propres ou encore en exécutant un algorithme de choix de modèle sur les composantes.
La solution obtenue présente ainsi de meilleures qualités prédictives mais, les coefficients de la régression
s’appliquant aux composantes principales, un calcul complémentaire est nécessaire afin d’évaluer et d’in-
terpréter les effets de chacune des variables initiales.
24 Chapitre 2. Régression linéaire
Régression PLS
Une dernière approche est largement utilisée, par exemple en chimiométrie, afin de pourvoir traiter les
situations présentant une forte multicolinéarité et même, lorsque le nombre d’observations est inférieur au
nombre de prédicteurs. Il s’agit de la régression PLS (partial least square).
Comme pour la régression sur composantes principales, le principe est de rechercher un modèle de
régression linéaire sur un ensemble de composantes orthogonales construites à partir de combinaisons
linéaires des variables explicatives centrées. Dans le cas de la PLS, la construction des composantes est
optimisée pour que celles-ci soient le plus liées à la variable Y à prédire au sens de la covariance empi-
rique, alors que les composantes principales ne visent qu’à extraire une part de variance maximale sans
tenir compte d’une variable cible.
Soit X(n × p) la matrice des prédicteurs centrés avec n pouvant être inférieur à p. On cherche une
matrice W de coefficients ou pondérations définissant les q composantes Tk par combinaisons linéaires des
variables Xj :
T = XW.
La matrice W est solution du problème suivant :
La matrice W est obtenue par la démarche itérative de l’algorithme 1 ; il suffit ensuite de calculer la
régression de Y sur les q variables Tk centrées ainsi construites. Le choix du nombre de composanteq q est
optimisé par validation croisée.
Cet algorithme se généralise directement à une variable explicative multidimensionnelle (SIMPLS).
Le critère à optimiser devient une somme des carrés des covariances entre une composante et chacune des
variables réponse. Plusieurs variantes de la régression PLS multidimensionnelles ont été proposés (NIPALS,
Kernel-PLS...) ; le même critère est optimisé mais sous des contraintes différentes.
6 Compléments
6.1 Modèles polynomiaux
En cas d’invalidation de l’hypothèse de linéarité, il peut être intéressant de considérer des modèles
polynômiaux, très classiques pour décrire des phénomènes physiques, de la forme
Y = β0 + · · · + βj X j + · · · + γkl X k X l + · · · + δj X j2
qui sont encore appelés surfaces de réponse en plannification expérimentale. Ces modèles sont faciles à
étudier dans le cadre linéaire, il suffit d’ajouter des nouvelles variables constituées des produits ou des
carrés des variables explicatives initiales. Les choix : présence ou non d’une interaction entre deux va-
riables, présence ou non d’un terme quadratique se traitent alors avec les mêmes outils que ceux des choix
6. Compléments 25
de variable mais en intégrant une contrainte lors de la lecture des résultats : ne pas considérer des modèles
incluant des termes quadratiques dont les composants linéaires auraient été exclus ou encore, ne pas sup-
primer d’un modèle une variable d’un effet linéaire si elle intervient dans un terme quadratique.
La procédure rsreg de SAS est plus particulièrement adaptée aux modèles quadratiques. Elle ne com-
porte pas de procédure de choix de modèle mais fournit des aides et diagnostics sur l’ajustement de la
surface ainsi que sur la recherche des points optimaux.
Attention : Ce type de modèle accroı̂t considérablement les risques de colinéarité, il est peu recommandé
de considérer des termes cubiques.
hii ri2
1 0
Di = 2
(b
y − y
b (i) ) (b
y − y
b (i) ) = i
s (p + 1) 1 − hi (p + 1)
Dep Var Predict Std Err Lower95 Upper95 Lower95 Upper95 Std Err Student
Obs RETCAP Value Predict Mean Mean Predict Predict Residual Residual Residual
(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)
1 0.2600 0.2716 0.053 0.1625 0.3808 0.0839 0.4593 -0.0116 0.052 -0.223
2 0.5700 0.3690 0.039 0.2882 0.4497 0.1962 0.5417 0.2010 0.063 3.183
3 0.0900 0.00897 0.063 -0.1205 0.1385 -0.1912 0.2092 0.0810 0.039 2.055
4 0.3200 0.2335 0.021 0.1903 0.2768 0.0748 0.3922 0.0865 0.071 1.212
5 0.1700 0.1164 0.046 0.0215 0.2113 -0.0634 0.2961 0.0536 0.058 0.920
...
Cook’s Hat Diag Cov INTERCEP WCFTCL WCFTDT
Obs -2-1-0 1 2 D Rstudent H Ratio Dffits Dfbetas Dfbetas Dfbetas
(11) (12) (13) (14) (15) (15) (15) (15) (15)
1 | | | 0.004 -0.2194 0.5109 3.2603 -0.2242 0.0299 0.0632 -0.0911
2 | |******| 0.302 3.9515 0.2795 0.0050 2.4611 0.9316 -0.3621 0.3705
3 | |**** | 0.832 2.1955 0.7192 0.6375 3.5134 0.5543 2.1916 -2.0241
4 | |** | 0.010 1.2228 0.0803 0.8585 0.3613 -0.0132 -0.0835 0.1207
5 | |* | 0.041 0.9175 0.3864 1.7591 0.7280 -0.0386 0.0906 0.0060
...
26 Chapitre 2. Régression linéaire
F IG . 2.2 – Retour sur capital : Graphe des résidus studentisés, de la diagonale de la matrice H et de la
distance de Cook en fonction des valeurs prédites.
Sum of Residuals 0
Sum of Squared Residuals 0.1495 (SSE)
Predicted Resid SS (Press) 1.0190 (PRESS)
Régression partielle
Un modèle de régression multiple est une technique linéaire. Il est raisonnable de s’interroger sur la
pertinence du caractère linéaire de la contribution d’une variable explicative à l’ajustement du modèle. Ceci
peut être réalisé en considérant une régression partielle.
On calcule alors deux régressions :
• la régression de Y sur les variables X 1 , . . . , X j−1 , X j+1 , . . . , X p , dans laquelle la j ème variable est
omise, soit ry(j) le vecteur des résidus obtenus.
• La régression de X j sur les variables X 1 , . . . , X j−1 , X j+1 , . . . , X p . Soit rx(j) le vecteur des résidus
obtenus.
La comparaison des résidus par un graphe (nuage de points ry(j) × rx(j) ) permet alors de représenter la
nature de la liaison entre X j et Y conditionnellement aux autres variables explicatives du modèle.
Graphes
Différents graphiques permettent finalement de contrôler le bien fondé des hypothèses de linéarité,
d’homoscédasticité, éventuellement de normalité des résidus.
• Le premier considère le nuage de points des résidus studentisés croisés avec les valeurs prédites. Les
points doivent être uniformément répartis entre les bornes −2 et +2 et ne pas présenter de formes sus-
pectes (cf. figure 2.2). Une forme particulière est l’indication d’un problème. Par exemple, un nuage
des résidus en forme de croissant ou banane indique qu’une composante quadratique a été proba-
blement été négligée ; une forme d’entonnoir est un signe que l’hypothèse d’homoscédastiscité n’est
7. Analyse de variance à un facteur 27
F IG . 2.3 – Retour sur capital : Graphe des valeurs observées en fonction des valeurs prédites et droite de
Henri des résidus (normal qq-plot).
pas vérifiée. dans tous les cas, le modèle n’est pas valide et des mesures s’imposent. recherche d’un
modèle plus complexe, recherche de transformations non linéaires de certaines variables (logarithme,
puissance...), ou encore l’utilisation d’une estimation par moindres carrés pondérés (hétéroscédasticité).
Si la variance des résidus n’est pas constante d’un groupe d’observations à l’autre, des pondérations
(inverses des variances de chaque groupe) sont introduites pour se ramener à l’homoscédasticité. Ceci
n’est en générale utilisable que dans certaines circonstances où l’expérience est planifiée.
• Le deuxième croise les valeurs observées de Y avec les valeurs prédites. Il illustre le coefficient de
détermination R qui est aussi la corrélation linéaire simple entre y b et y. Les points doivent s’aligner
autour de la première bissectrice. Il peut être complété par l’intervalle de confiance des yi ou celui de
leurs moyennes. (cf. figure 2.3).
• La qualité, en terme de linéarité, de l’apport de chaque variable est étudiée par des régressions par-
tielles. Chaque graphe de résidus peut être complété par une estimation fonctionnelle ou régression
non-paramétrique (loess, noyau, spline) afin d’en facilité la lecture.
• Le dernier trace la droite de Henri (Normal QQplot) des résidus dont le caractère linéaire de la
représentation donne une idée de la normalité de la distribution. (cf. figure 2.3)
au cours de laquelle l’expérimentateur a la possibilité de contrôler a priori les niveaux des facteurs avec
pour objectif d’obtenir le maximum de précision au moindre coût. Ceci conduit en particulier à construire
des facteurs orthogonaux deux à deux (variables explicatives non linéairement corrélées) afin de minimiser
la variance des estimateurs. On distingue le cas particulier important où les cellules ont le même effectif,
on parle alors de plan orthogonal ou équirépété ou équilibré (balanced), qui conduit à des simplifications
importantes de l’analyse de variance associée. On appelle plan complet un dispositif dans lequel toutes les
combinaisons de niveaux ont été expérimentées. On distingue entre des modèles fixes, aléatoires ou mixtes
selon le caractère déterministe (contrôlé) ou non des facteurs par exemple si les modalités résultent d’un
choix aléatoire parmi un grand nombre de possibles. Dans cette courte introduction seuls le modèle fixe à
un facteur est considéré.
L’analyse de variance à un facteur est un cas particulier d’étude de relations entre deux variables statis-
tiques : une quantitative Y admettant une densité et une qualitative X ou facteur qui engendre une partition
ou classification de l’échantillon en J groupes, cellules ou classes indicées par j. L’objectif est de comparer
les distributions de Y pour chacune des classes en particulier les valeurs des moyennes et variances. Un
préalable descriptif consiste à réaliser un graphique constitué de diagrammes boites parallèles : une pour
chaque modalité. Cette représentation donne une première appréciation de la comparaison des distributions
(moyenne, variance) internes à chaque groupe. Les spécificités de la planification d’expérience ne sont pas
abordées dans ce cours axé sur la fouille de données pour laquelle les données sont justement préalablement
fournies. Les plans d’expérience sont surtout utilisés en milieu industriel : contrôle de qualité, optimisation
des processus de production, ou en agronomie pour la sélection de variétés, la comparaison d’engrais, d’in-
secticides. . . . La bibliographie est abondante sur ce sujet.
7.2 Modèle
PJ
Pour chaque niveau j de X, on observe nj valeurs y1j , . . . , ynj j de la variable Y et où n = j=1 nj
(n > J) est la taille de l’échantillon. On suppose qu’à l’intérieur de chaque cellule, les observations sont
indépendantes équidistribuées de moyenne µj et de variance homogène σj2 = σ 2 . Ceci s’écrit :
yij = µj + εij
où les εij sont i.i.d. suivant une loi centrée de variance σ 2 qui sera supposée N (0, σ 2 ) pour la construction
des tests. Cette dernière hypothèse n’étant pas la plus sensible. Les espérances µj ainsi que le paramètre de
nuisance σ 2 sont les paramètres inconnus à estimer.
On note respectivement :
nj
1 X
ȳ.j = yij ,
nj i=1
nj
1 X
s2j = (yij − ȳ.j )2 ,
nj − 1 i=1
nj J
1 XX
ȳ.. = yij ,
n i=1 j=1
l’estimation des erreurs est eij = (yij − ȳ.j ) tandis que les valeurs prédites sont ybij = ȳ.j .
Sous l’hypothèse d’homogénéité des variances, la meilleure estimation sans biais de σ 2 est
PJ Pnj 2
2 j=1 i=1 (yij − ȳ.j ) 1
s = = [(n − 1)s21 + · · · + (nJ − 1)s2J ]
n−J n−J
qui s’écrit donc comme une moyenne pondérée des variances empiriques de chaque groupe.
7. Analyse de variance à un facteur 29
y = β1 1 1 + · · · + βJ 1 J + ε
y = Xβ + ε.
Les calculs se présentent simplement mais les tests découlant de ce modèle conduiraient à étudier la nullité
des paramètres alors que nous sommes intéressés par tester l’égalité des moyennes.
Une autre paramétrisation, considérant cette fois le vecteur β = [µJ , µ1 − µJ , . . . , µJ−1 − µJ ]0 conduit
à écrire le modèle (base cell model) de régression avec terme constant :
y = β0 1 + β1 11 + · · · + βJ−1 1J−1 + ε.
C’est celle de SAS alors que d’autres logiciels considèrent des paramètres d’effet différentiel µj −µ. par rap-
PJ
port à l’effet moyen µ. = 1/J j=1 µj . Ce dernier est encore un modèle (group effect model) de régression
linéaire avec terme constant mais dont les variables explicatives sont des différences d’indicatrices et avec
β = [µ. , µ1 − µ. , . . . , µJ−1 − µ. ]0 :
7.3 Test
On désigne les différentes sommes des carrés des variations par :
nj
J X nj
J X
X X
2 2
SST = (yij − ȳ.. ) = yij − nȳ..2 ,
j=1 i=1 j=1 i=1
nj
J X nj
J X J
X X X
2 2 2
SSW = (yij − ȳ.j ) = yij − nj ȳ.j ,
j=1 i=1 j=1 i=1 j=1
J
X J
X
SSB = nj (ȳ.j − ȳ.. )2 = 2
nj ȳ.j − nȳ..2 ,
j=1 j=1
où “T” signifie totale, “W” (within) intra ou résiduelle, “B” (between) inter ou expliquée par la partition. Il
est facile de vérifier que SST=SSB+SSW.
On considère alors l’hypothèse
H0 : µ1 = · · · = µJ ,
30 Chapitre 2. Régression linéaire
qui revient à dire que la moyenne est indépendante du niveau ou encore que le facteur n’a pas d’effet, contre
l’hypothèse
H1 : ∃(j, k) tel que µj 6= µk
qui revient à reconnaı̂tre un effet ou une influence du facteur sur la variable Y .
Dans les modèles précédents, l’étude de cette hypothèse revient à comparer par un test de Fisher un
modèle complet (les moyennes sont différentes) avec un modèle réduit supposant la nullité des paramètres
βj et donc l’égalité des moyennes à celle de la dernière cellule ou à la moyenne générale.
Les résultats nécessaires à la construction du test qui en découle sont résumés dans la table d’analyse
de la variance :
Source de Somme
variation d.d.l. des carrés Variance F
Pratiquement, un programme de régression usuel permet de construire estimation et test de la nullité des βj
sauf pour le premier modèle qui doit tester l’égalité au lieu de la nullité des paramètres.
Dans le cas de deux classes (J = 2) on retrouve un test équivalent au test de Student de comparaison
des moyennes de deux échantillons indépendants. Si l’hypothèse nulle est rejetée, la question suivante
consiste à rechercher quelles sont les groupes ou cellules qui possèdent des moyennes significativement
différentes. De nombreux tests et procédures ont été proposés dans la littérature pour répondre à cette
question. Enfin, l’hypothèse importante du modèle induit par l’analyse de variance est l’homogénéité des
variances de chaque groupe. Conjointement à l’estimation du modèle et en supposant la normalité, il peut
être instructif de contrôler cette homogénéité par un test.
8 Analyse de covariance
L’analyse de covariance se situe encore dans le cadre général du modèle linéaire et où une variable
quantitative est expliquée par plusieurs variables à la fois quantitatives et qualitatives. Dans les cas les
plus complexes, ont peut avoir plusieurs facteurs (variables qualitatives) avec une structure croisée ou
hiérarchique ainsi que plusieurs variables quantitatives intervenant de manière linéaire ou polynômiale. Le
principe général, dans un but explicatif ou décisionnel, est toujours d’estimer des modèles “intra-groupes”
et de faire apparaı̂tre (tester) des effets différentiels “inter-groupes” des paramètres des régressions. Ainsi,
dans le cas plus simple où seulement une variable parmi les explicatives est quantitative, nous sommes
amenés à tester l’hétérogénéité des constantes et celle des pentes (interaction) entre différents modèles de
régression linéaire.
Ce type de modèle permet donc, toujours avec un objectif prédictif, de s’intéresser à la modélisation
d’une variable quantitative par un ensemble de variables explicatives à la fois quantitatives et qualitatives.
La possible prise en compte d’interactions complique singulièrement la procédure de sélection de variables.
8.1 Modèle
Le modèle est explicité dans le cas élémentaire où une variable quantitative Y est expliquée par une
variable qualitative T à J niveaux et une variable quantitative, appelée encore covariable, X. Pour Pchaque
J
niveau j de T , on observe nj valeurs x1j , . . . , xnj j de X et nj valeurs y1j , . . . , ynj j de Y ; n = j=1 nj
est la taille de l’échantillon.
En pratique, avant de lancer une procédure de modélisation et tests, une démarche exploratoire s’ap-
puyant sur une représentation en couleur (une par modalité j de T) du nuage de points croisant Y et X
et associant les droites de régression permet de se faire une idée sur les effets respectifs des variables :
parallélisme des droites, étirement, imbrication des sous-nuages.
On suppose que les moyennes conditionnelles E[Y |T ], c’est-à-dire calculées à l’intérieur de chaque
cellule, sont dans le sous-espace vectoriel engendré par les variables explicatives quantitatives, ici X. Ceci
8. Analyse de covariance 31
s’écrit :
yij = β0j + β1j xij + εij ; j = 1, . . . , J; i = 1, · · · , nj
où les εij sont i.i.d. suivant une loi centrée de variance σ 2 qui sera supposée N (0, σ 2 ) pour la construction
des tests.
Notons y le vecteur des observations [yij |i = 1, nj ; j = 1, J]0 mis en colonne, x le vecteur [xij |i =
1, nj ; j = 1, J]0 , ε = [εij |i = 1, nj ; j = 1, J]0 le vecteur des erreurs, 1j les variables indicatrices des
niveaux et 1 la colonne de 1s. On note encore x.1j le produit terme à terme des deux vecteurs, c’est-à-dire
le vecteur contenant les observations de X sur les individus prenant le niveau j de T et des zéros ailleurs.
La résolution simultanée des J modèles de régression est alors obtenue en considérant globalement le
modèle :
y = Xβ + ε
dans lequel X est la matrice n×2J constituée des blocs [1j |x.1j ] ; j = 1, . . . , J. L’estimation de ce modèle
global conduit, par bloc, à estimer les modèles de régression dans chacune des cellules.
Comme pour l’analyse de variance, les logiciels opèrent une reparamétrisation faisant apparaı̂tre des
effets différentiels par rapport au dernier niveau (SAS/GLM, SAS/INSIGHT) ou par rapport à un effet
moyen (Systat), afin d’obtenir directement les bonnes hypothèses dans les tests. Ainsi, dans le premier cas,
on considère la matrice de même rang (sans la J ème indicatrice)
yij = β0J + (β0j − β0J ) + β1J xij + (β1j − β1J )xij + εij ; j = 1, . . . , J − 1; i = 1, . . . , nj .
8.2 Tests
Différentes hypothèses sont alors testées en comparant le modèle complet
descriptif : des outils multidimensionnels descriptifs (ACP, AFD, AFCM. . . ) s’avèrent souvent plus ef-
ficaces pour sélectionner, en première approche, un sous-ensemble de variables explicatives avant
d’opérer une modélisation,
explicatif : de la prudence est requise d’autant que les hypothèses ne peuvent être évaluées de façon
indépendante surtout si, en plus, des cellules sont déséquilibrées ou vides,
prédictif : la recherche d’un modèle efficace, donc parcimonieux, peut conduire à négliger des interactions
ou effets principaux lorsqu’une faible amélioration du R2 le justifie et même si le test correspon-
dant apparaı̂t comme significatif. L’utilisation du Cp est théoriquement possible mais en général ce
critère n’est pas calculé et d’utilisation délicate car nécessite la considération d’un “vrai” modèle de
référence ou tout du moins d’un modèle de faible biais pour obtenir une estimation raisonnable de
la variance de l’erreur. En revanche AIC et PRESS donnent des indications plus pertinentes. L’algo-
rithme de recherche descendant est le plus couramment utilisé avec la contrainte suivante : un effet
principal n’est supprimé qu’à la condition qu’il n’apparaisse plus dans une interaction.
8.4 Exemple
Les données, extraites de Jobson (1991), sont issues d’une étude marketing visant à étudier l’impact
de différentes campagnes publicitaires sur les ventes de différents aliments. Un échantillon ou “panel” de
familles a été constitué en tenant compte du lieu d’habitation ainsi que de la constitution de la famille.
Chaque semaine, chacune de ces familles ont rempli un questionnaire décrivant les achats réalisés. Nous
nous limitons ici à l’étude de l’impact sur la consommation de lait de quatre campagnes diffusées sur
des chaı̂nes locales de télévision. Quatre villes, une par campagne publicitaire, ont été choisies dans cinq
différentes régions géographiques. Les consommations en lait par chacune des six familles par ville alors
été mesurées (en dollars) après deux mois de campagne.
Les données se présentent sous la forme d’un tableau à 6 variables : la région géographique, les 4
consommations pour chacune des villes ou campagnes publicitaires diffusées, la taille de la famille. Cette
situation est celle classique d’un modèle d’analyse de variance. Nous choisissons ici de conserver quantita-
tive la variable taille de la famille et donc de modéliser la consommation de lait par un modèle d’analyse de
covariance plus économique en degrés de liberté moins de paramètres sont à estimer.
On s’intéresse à différents modèles de régression visant à expliquer la consommation en fonction de la
taille de la famille conditionnellement au type de campagne publicitaire.
Les résultats ci-dessous conduiraient à conclure à une forte influence de la taille mais à l’absence d’in-
fluence du type de campagne. Les droites de régression ne semblent pas significativement différentes.
Néanmoins, pris d’un doute, le même calcul est effectué séparément pour chaque région :
Il apparaı̂t alors qu’à l’intérieur de chaque région (sauf région 5), les campagnes de publicité ont un
effet tant sur la constante que sur la pente.
Ceci incite donc à se méfier des interactions (l’effet région compense l’effet publicité) et encourage
à toujours conserver le facteur bloc (ici la région) dans une analyse de variance. Une approche complète,
considérant a priori toutes les variables (3 facteurs), est ici nécessaire (cf. TP).
100
250
Valeurs observees
50
Résidus
150
0
−100 −50
50
0
Modèle physique
Les graphiques de la figure 2.4 représente la première prévision de la concentration d’ozone observée,
ainsi que ses résidus, c’est-à-dire celle obtenue par le modèle physique MOCAGE. Ces graphes témoignent
de la mauvaise qualité de ce modèle : les résidus ne sont pas répartis de façon symétrique et les deux nuages
pésentent une légère forme de ”banane” signifiant que des composantes non linéaires du modèle n’ont pas
été prises en compte. D’autre part, la forme d’entonnoir des résidus montrent une forte hétéroscédasticité.
Cela signifie que la variance des résidus et donc des prévisions croı̂t avec la valeur. En d’autre terme, la
qualité de la prévision se dégrade pour les concentrations élevées justgement dans la zone ”sensible”.
Modèle sans interaction
Un premier modèle est estimé avec R :
fit.lm=lm(O3-o˜O3-pr+vmodule+lno2+lno+s-rmh2o+jour+station+TEMPE,data=donne)
Il introduit l’ensemble des variables explicatives mais sans interaction. Les résultats numériques sont
fournis ci-dessous.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -4.99738 7.87028 -0.635 0.52559
O3_pr 0.62039 0.05255 11.805 < 2e-16 ***
vmodule -1.73179 0.35411 -4.891 1.17e-06 ***
lno2 -48.17248 6.19632 -7.774 1.83e-14 ***
lno 50.95171 5.98541 8.513 < 2e-16 ***
s_rmh2o 135.88280 50.69567 2.680 0.00747 **
jour1 -0.34561 1.85389 -0.186 0.85215
stationAls 9.06874 3.37517 2.687 0.00733 **
stationCad 14.31603 3.07893 4.650 3.76e-06 ***
stationPla 21.54765 3.74155 5.759 1.12e-08 ***
stationRam 6.86130 3.05338 2.247 0.02484 *
TEMPE 4.65120 0.23170 20.074 < 2e-16 ***
A l’exception de la variable indiquant la nature du jour, l’ensemble des coefficients sont jugés signifi-
cativement différent de zéro mais la qualité de l’ajustement est faible (R2 ).
9. Exemple : Prévision de la concentration d’ozone 35
100
100
50
50
Résidus
Résidus
0
0
−100 −50
−100 −50
0 50 100 200 300 0 50 100 200 300
Ce sont surtout les graphes de la figure 2.5 qui renseignent sur l’adéquation des modèles. Le modèle
quadratique fournit une forme plus ”linéaire” des résidus et un meilleur ajustement avec un R2 de 0,64 mais
l’hétéroscédasticité reste présente, d’autres approches s’avèrent nécessaires afin de réduire la variance liée
à la prévision des concentrations élevées.
1 Introduction
Dans ce chapitre, nous définissons le contexte pratique de la régression logistique qui s’intéressent plus
particulièrement à la description ou l’explication d’observations constitués d’effectifs comme, par exemple,
le nombre de succès d’une variable de Bernouilli lors d’une séquence d’essais. Contrairement aux modèles
du chapitre précédent basés sur l’hypothèse de normalité des observations, les lois concernées sont discrètes
et associées à des dénombrements : binomiale, multinomiale. Néanmoins, ce modèle appartient à la famille
du modèle linéaire général (annexe) et partagent à ce titre beaucoup d’aspects (estimation par maximum de
vraisemblance, tests, diagnostics) et dont la stratégie de mise en œuvre, similaire au cas gaussien, n’est pas
reprise.
Une première section définit quelques notions relatives à l’étude de la liaison entre variables qualitatives.
Elles sont couramment utilisées dans l’interprétation des modèles de régression logistique.
37
38 Chapitre 3. Régression logistique
• Dans la ligne 2, l’odds que la colonne 1 soit prise plutôt que la colonne 2 est :
π21
Ω2 = .
π22
On appelle odds ratio (rapport de cote) le rapport
Ω1 π11 π22
Θ= = .
Ω2 π12 π21
Ce rapport prend la valeur 1 si les variables sont indépendantes, il est supérieur à 1 si les sujets de la ligne
1 ont plus de chances de prendre la première colonne que les sujets de la ligne 2 et inférieur à 1 sinon.
Exemple : supposons qu’à l’entrée dans une école d’ingénieurs, 7 garçons sur 10 sont reçus tandis que
seulement 4 filles sur 10 le sont. L’odds des garçons est alors de 0.7/0.3=2.33 tandis que celle des filles
est de 0.4/0.6=0.67. L’odds ratio est de 2.33/0.67=3.5. La chance d’être reçu est 3.5 plus grande pour les
garçons que pour les filles.
L’odds ratio est également défini pour deux lignes (a, b) et deux colonnes (c, d) quelconques d’une table
de contingence croisant deux variables à J et K modalités. L’odds ratio est le rapport
Ωa πac πbd b abcd = nac nbd .
Θabcd = = estimé par l’odds ratio empirique Θ
Ωb πad πbc nad nbc
3 Régression logistique
3.1 Type de données
Cette section décrit la modélisation d’une variable qualitative Z à 2 modalités : 1 ou 0, succès ou
échec, présence ou absence de maladie, panne d’un équipement, faillite d’une entreprise, bon ou mauvais
client. . . . Les modèles de régression précédents adaptés à l’explication d’une variable quantitative ne s’ap-
pliquent plus directement car le régresseur linéaire usuel Xβ ne prend pas des valeurs simplement binaires.
L’objectif est adapté à cette situation en cherchant à expliquer les probabilités
π = P (Z = 1) ou 1 − π = P (Z = 0),
ou plutôt une transformation de celles-ci, par l’observation conjointe des variables explicatives. L’idée est
en effet de faire intervenir une fonction réelle monotone g opérant de [0, 1] dans IR et donc de chercher un
modèle linéaire de la forme :
g(πi ) = x0i β.
Il existe de nombreuses fonctions, dont le graphe présente une forme sigmoı̈dale et qui sont candidates
pour remplir ce rôle, trois sont pratiquement disponibles dans les logiciels :
probit : g est alors la fonction inverse de la fonction de répartition d’une loi normale, mais son expression
n’est pas explicite.
log-log avec g définie par
g(π) = ln[− ln(1 − π)]
mais cette fonction est dissymétrique.
logit est définie par
π ex
g(π) = logit(π) = ln avec g −1 (x) = .
1−π 1 + ex
Plusieurs raisons, tant théoriques que pratiques, font préférer cette dernière solution. Le rapport π/(1 −
π), qui exprime une “cote”, est l’odds et la régression logistique s’interprète donc comme la recherche
d’une modélisation linéaire du “log odds” tandis que les coefficients de certains modèles expriment des
“odds ratio” c’est-à-dire l’influence d’un facteur qualitatif sur le risque (ou la chance) d’un échec (d’un
succès) de Z.
Cette section se limite à la description de l’usage élémentaire de la régression logistique. Des compléments
concernant l’explication d’une variable qualitative ordinale (plusieurs modalités), l’intervention de variables
explicatives avec effet aléatoire, l’utilisation de mesures répétées donc dépendantes, sont à rechercher dans
la bibliographie.
3. Régression logistique 39
On suppose que le vecteur des fonctions logit des probabilités πi appartient au sous-espace vect{X 1 , . . . , X q }
engendré par les variables explicatives :
logit(πi ) = x0i β i = 1, . . . , I
Remarques
i. La matrice X issue de la planification expérimentale est construite avec les mêmes règles que celles
utilisées dans le cadre de l’analyse de covariance mixant variables explicatives quantitatives et quali-
tatives. Ainsi, les logiciels gèrent avec plus ou moins de clarté le choix des variables indicatrices et
donc des paramètres estimables ou contrastes associés.
ii. La situation décrite précédemment correspond à l’observation de données groupées. Dans de nom-
breuses situations concrètes et souvent dès qu’il y a des variables explicatives quantitatives, les obser-
vations xi sont toutes distinctes. Ceci revient donc à fixer ni = 1; i = 1, . . . , I dans les expressions
précédentes et la loi de Bernouilli remplace la loi binomiale. Certaines méthodes ne sont alors plus
applicables et les comportements asymptotiques des distributions des statistiques de test ne sont plus
valides, le nombre de paramètres tendant vers l’infini.
iii. Dans le cas d’une variable explicative X dichotomique, un logiciel comme SAS fournit, en plus de
l’estimation d’un paramètre b, celle des odds ratios ; b est alors le log odds ratio ou encore, eb est
l’odds ratio. Ceci s’interprète en disant que Y a eb fois plus de chance de succès (ou de maladie
comme par un exemple un cancer du poumon) quand X = 1 (par exemple pour un fumeur).
variable est qualitative ordinale. Ces types de modélisation sont très souvent utilisés en épidémiologie et
permettent d’évaluer ou comparer des risques par exemples sanitaires. Des estimations d’odds ratio ou
rapports de cotes sont ainsi utilisés pour évaluer et interpréter les facteurs de risques associés à différents
types (régression polytomique) ou seuils de gravité (régression ordinale) d’une maladie ou, en marketing,
cela s’applique à l’explication, par exemple, d’un niveau de satisfaction d’un client. Il s’agit de comparer
entre elles des estimations de fonctions logit.
Dans une situation de data mining ou fouille de données, ce type d’approche se trouve lourdement
pénalisé lorsque, à l’intérieur d’un même modèle polytomique ou ordinal, plusieurs types de modèles sont
en concurrence pour chaque fonction logit associée à différentes modalités. Différents choix de variables,
différents niveaux d’interaction rendent trop complexe et inefficace cette approche. Elle est à privilégier
uniquement dans le cas d’un nombre restreint de variables explicatives avec un objectif explicatif ou in-
terprétatif.
À titre illustratif, explicitons le cas simple d’une variable Y à k modalités ordonnées expliquée par une
Pk
seule variable dichotomique X. Notons πj (X) = P (Y = j|X) avec j=1 πj (X) = 1. Pour une variable
Y à k modalités, il faut, en toute rigueur, estimer k − 1 prédicteurs linéaires :
gj (X) = αj + βj X pourj = 1, . . . , k − 1
et, dans le cas d’une variable ordinale, la fonction lien logit utilisée doit tenir compte de cette situation
particulière.
Dans la littérature, trois types de fonction sont considérées dépendant de l’échelle des rapports de cote
adoptée :
• échelle basée sur la comparaison des catégories adjacentes deux à deux,
• sur la comparaison des catégories adjacentes supérieures cumulées,
• et enfin sur la comparaison des catégories adjacentes cumulées.
Pour k = 2, on retrouve les trois situations se ramènent à la même d’une variable dichotomique. C’est le
dernier cas qui est le plus souvent adopté ; il conduit à définir les fonctions des “logits cumulatifs” de la
forme :
πj+1 + · · · + πk
log pourj = 1, . . . , k − 1.
π1 + · · · + πj
Pour un seuil donné sur Y , les catégories inférieures à ce seuil, cumulées, sont comparées aux catégories
supérieures cumulées. Les fonctions logit définies sur cette échelle dépendent chacune de tous les effectifs,
ce qui peut conduire à une plus grande stabilité des mesures qui en découlent.
Si les variables indépendantes sont nombreuses dans le modèle ou si la variable réponse Y comporte
un nombre élevé de niveaux, la description des fonctions logit devient fastidieuse. La pratique consiste
plutôt à déterminer un coefficient global b (mesure d’effet) qui soit la somme pondérée des coefficients bj .
Ceci revient à faire l’hypothèse que les coefficients sont homogènes (idéalement tous égaux), c’est-à-dire
à supposée que les rapports de cotes sont proportionnels. C’est ce que calcule implicitement la procédure
LOGISTIC de SAS appliquée à une variable réponse Y ordinale en estimant un seul paramètre b mais k − 1
termes constants correspondant à des translations de la fonctions logit. La procédure LOGISTIC fournit le
résultat du test du score sur l’hypothèse H0 de l’homogénéité des coefficients βj .
Le coefficient b mesure donc l’association du facteur X avec la gravité de la maladie et peut s’interpréter
comme suit : pour tout seuil de gravité choisi sur Y , la cote des risques d’avoir une gravité supérieure à ce
seuil est eb fois plus grande chez les exposés (X = 1) que chez les non exposés (X = 0).
Attention dans SAS, la procédure LOGISTIC adopte une paramétrisation (−1, 1) analogue à celle de
la procédure CATMOD mais différente de celle de GENMOD ou SAS/Insight (0, 1). Ceci explique les
différences observées dans l’estimation des paramètre d’une procédure à l’autre mais les modèles sont
identiques.
4 Choix de modèle
5. Illustration élémentaire 41
DEBIT
4
0
0 1 2 3 4
VOLUME
DILAT 0 1
F IG . 3.1 – Dilatation : Nuage des modalités de Y dans les coordonnées des variables explicatives.
4.2 Critère
L’approche précédente favorise la qualité d’ajustement du modèle. Dans un but prédictif, certains logi-
ciels, comme Splus/R ou Enterpirse Miner, proposent d’autres critères de choix (AIC, BIC). Une estimation
de l’erreur de prévision par validation croisée est aussi opportune dans une démarche de choix de modèle.
5 Illustration élémentaire
5.1 Les données
On étudie l’influence du débit et du volume d’air inspiré sur l’occurence (codée 1) de la dilatation des
vaisseaux sanguins superficiels des membres inférieurs. Un graphique élémentaire représentant les moda-
lités de Y dans les coordonnées de X 1 × X 2 est toujours instructif. Il montre une séparation raisonnable et
de bon augure des deux nuages de points. Dans le cas de nombreuses variables explicatives quantitatives,
une analyse en composantes principales s’impose. Les formes des nuages représentés, ainsi que l’allure
des distributions (étudiées préalablement), incitent dans ce cas à considérer par la suite les logarithmes des
variables. Une variable un ne contenant que des “1” dénombrant le nombre d’essais est nécessaire dans la
syntaxe de genmod. Les données sont en effet non groupées.
run;
proc genmod data=sasuser.debvol;
model dilat/un=l_debit l_volume/d=bin;
run;
Cette procédure fournit des critères de choix de modèle dont la déviance (1), le vecteur b des paramètres
(2) et les statistiques des tests (3) comparant le modèle excluant un terme par rapport au modèle complet tel
qu’il est décrit dans la commande.
/* régression ordinale */
proc logistic data=sasuser.ceinture;
class sexe alcool ceinture;
6. Autres exemples 43
Standard Wald
Parameter DF Estimate Error Chi-Square Pr > ChiSq
Intercept Gr0 1 1.8699 0.0236 6264.9373 <.0001
Intercept Gr1 1 2.8080 0.0269 10914.3437 <.0001
Intercept Gr2 1 5.1222 0.0576 7917.0908 <.0001
sexe Sfem 1 -0.3118 0.0121 664.3353 <.0001
alcool A_bu 1 -0.5017 0.0190 697.0173 <.0001
ceinture Cnon 1 -0.1110 0.0174 40.6681 <.0001
6 Autres exemples
Les exemples sont décrits dans cette section à titre illustratif avec SAS ou R, une comparaison systématique
des performances de chaque méthode est développée dans le dernier chapitre conclusif.
# erreur d’ajustement
fitq.lm=glm(Class˜Cl.thickness+Cell.size+Cell.shape ,data=datapq,family=binomial)
table(fitq.lm$fitted.values>0.5,datapq[,"Class"])
benign malignant
FALSE 345 6
TRUE 13 182
# erreur de prévision
predq.lm=predict(fitq.lm,newdata=datestq) # prevision
table(predq.lm>0.5,datestq[,"Class"])
benign malignant
FALSE 84 5
TRUE 2 46
Le taux d’erreur apparent estimé sur l’échantillon d’apprentissage est de 3,5% (0% avec le modèle
complet) tandis que le taux d’erreur estimé sans biais sur l’échantillon test est de 5,1% (5,8 avec le modèle
complet). Ces estimations demanderont à être affinées afin de comparer les méthodes entre elles.
On peut s’interroger sur l’intérêt de la présence de la variable vmodule dont la présence rend plus
faible la prévision de l’erreur au sens d’Akaı̈ke mais dont le coefficient n’est pas significatif au sens du test
du Chi2 ; ce critère étant lié à une qualité d’ajustement. L’erreur estimée sur l’échantillon test ne permet
pas de départager ces modèles car les matrices de transition similaires conduisent à la même estimation
du taux d’erreur de 11,5% tandis que la même erreur est de 13,2% pour le modèle MOCAGE. Un modèle
de régression logistique faisant intervenir les interactions d’ordre 2 et optimisé par algorithme descen-
dant aboutit à une erreur de 10,6% tandis que le modèle quantitatif de régression quadratique du chapitre
précédent conduit à une erreur de 10,1% avec le même protocole et les mêmes échantillons d’apprentissage
et de test.
Notons que les erreurs ne sont pas ”symétriques” et sont affectées du même biais : tous ces modèles
”oublient” systématiquement plus de dépassements de seuils qu’ils n’en prévoient à tord. Une analyse
6. Autres exemples 45
plus poussée de l’estimation de l’erreur de prédiction est évidemment nécessaire et ce sera, sur le plan
méthodologique, l’objet du prochain chapitre. À ce niveau de l’étude, ce qui est le plus utile au météorologue,
c’est l’analyse des coefficients les plus significativements présents dans la régression quadratique, c’est-à-
dire avec les interactions. Ils fournissent des indications précieuses sur les faiblesses ou insuffisances de
leur modèle physique.
YVAR1(CARVPR) PREDY
Frequency|
Percent | 0| 1| Total
---------+--------+--------+
0 | 659 | 53 | 712
| 61.65 | 4.96 | 66.60
---------+--------+--------+
1 | 70 | 287 | 357
| 6.55 | 26.85 | 33.40
---------+--------+--------+
Total 729 340 1069
68.19 31.81 100.00
La même démarche avec le logiciel R (voir les TP) conduit à un mmodèle qui, appliqué à l’échantillon
test, fournit la matrice de confusion suivante avec un taux d’erreur de 17% supérieur à celui sur l’échantillon
d’apprentissage qui est de 16%.
On remarque que les échantillons tirés avec SAS ne conduisent pas du tout aux mêmes estimations d’erreurs
qu’avec les échantillons tirés avec R. Ce n’est pas une question de logiciel, juste le hasard des tirages. Ceci
implique qu’il faudra estimer plus finement le taux d’erreur de prévision afin de comparer les méthodes.
Ceux-ci sont en effet entâchés d’une grande variance.
46 Chapitre 3. Régression logistique
Chapitre 4
Modèle log-linéaire
1 Introduction
Comme dans le chapitre précédent, les modèles décrits dans ce chapitre s’intéressent plus particulièrement
à la description ou l’explication d’observations constitués d’effectifs ; nombre de succès d’une variable de
Bernouilli lors d’une séquence d’essais dans la cas précédent de la régression logistique, nombre d’individus
qui prennent une combinaison donnée de modalités de variables qualitatives ou niveaux de facteurs, dans
le cas présent. Ce modèle fait également partie de la famille du modèle linéaire général en étant associé
à une loi de Poisson. Il est également appelé aussi modèle log-linéaire (voir Agresti (1990) pour un ex-
posé détaillé) et s’applique principalement à la modélisation d’une table de contingence complète. Comme
pour la régression logistique, les aspects au modèle linéaire général (estimation, tests, diagnostic) ont des
stratégies de mise en œuvreest similaire au cas gaussien ; ils ne sont pas repris.
2 Modèle log-linéaire
2.1 Types de données
Les données se présentent généralement sous la forme d’une table de contingence obtenue par le croi-
sement de plusieurs variables qualitatives et dont chaque cellule contient un effectif ou une fréquence à
modéliser. Nous nous limiterons à l’étude d’une table élémentaire en laissant de côté des structures plus
complexes, par exemple lorsque des zéros structurels, des indépendances conditionnelles, des propriétés de
symétrie ou quasi-symétrie, une table creuse, sont à prendre en compte. D’autre part, sous sa forme la plus
générale, le modèle peut intégrer également des variables quantitatives.
Ce type de situation se retrouve en analyse des correspondances simple ou multiple mais ici, l’objectif
est d’expliquer ou de modéliser les effectifs en fonction des modalités prises par les variables qualitatives.
L’objectif final pouvant être explicatif : tester une structure de dépendance particulière, ou prédictif avec
choix d’un modèle parcimonieux.
2.2 Distributions
On considère la table de contingence complète constituée à partir de l’observation des variables qualita-
tives X 1 , X 2 , . . . , X p sur un échantillon de n individus. Les effectifs {yjk...l ; j = 1, J; k = 1, K; . . . ; l =
1, L} de chaque cellule sont rangés dans un vecteur y à I(I = J × K × · · · × L) composantes. Différentes
hypothèses sur les distributions sont considérées en fonction du contexte expérimental.
Poisson
Le modèle le plus simple consiste à supposer que les variables observées Yi suivent des lois de Poisson
indépendantes de paramètre µi = E(Yi ). La distribution conjointe admet alors pour densité :
I
Y µyi e−µi
i
f (y, µ) = .
i=1
yi !
47
48 Chapitre 4. Modèle log-linéaire
P
La somme N (N = y+ = i yi ) des IPvariables aléatoires de Poisson indépendantes est également une
variable de Poisson de paramètre µ+ = i µi .
Multinomiale
En pratique, le nombre total n d’observations est souvent fixé a priori par l’expérimentateur et ceci
induit une contrainte sur la somme des yi . La distribution conjointe des variables Yi est alors conditionnée
par n et la densité devient :
I
µyi i e−µi
n −µ+
Y µ+ e
f (y, µ) = .
i=1
y i ! n!
Comme µn+ = i µy+i et e−µ+ = i e−µi , en posant πi = µµ+i , on obtient :
P Q
I I
Y π yi i
X
f (y, µ) = n! avec πi = 1 et 0 ≤ πi ≤ 1; i = 1, I.
i=1
yi ! i=1
On vérifie donc que f (y, µ) est la fonction de densité d’une loi multinomiale dans laquelle les paramètres
πi modélisent les probabilités d’occurrence associées à chaque cellule. Dans ce cas, E(Yi ) = nπi .
Produit de multinomiales
Dans d’autres circonstances, des effectifs marginaux lignes, colonnes ou sous-tables, peuvent être également
fixés par l’expérimentateur comme dans le cas d’un sondage stratifié. Cela correspond au cas où une ou plu-
sieurs variables sont contrôlées et ont donc un rôle explicatif ; leurs modalités sont connues a priori. Les
lois de chacun des sous-éléments de la table, conditionnées par l’effectif marginal correspondant sont mul-
tinomiales. La loi conjointe de l’ensemble est alors un produit de multinomiales.
Conséquence
Trois modèles de distribution : Poisson, multinomial, produit de multinomiales, sont envisageables pour
modéliser Yi en fonction des conditions expérimentales. D’un point de vue théorique, on montre que ces
modèles conduisent aux mêmes estimations des paramètres par maximum de vraisemblance. La différence
introduite par le conditionnement intervient par une contrainte qui impose la présence de certains paramètres
dans le modèle, ceux reconstruisant les marges fixées.
Ce modèle est dit saturé car, présentant autant de paramètres que de données, il explique exactement celles-
ci. L’indépendance est vérifiée si le dernier terme de cette expression, exprimant une dépendance ou inter-
action comme dans le modèle d’analyse de variance, est nul pour tout couple (j, k).
Les logiciels mettent en place d’autres paramétrisations en faisant apparaı̂tre des effets différentiels, soit
par rapport à une moyenne, soit par rapport à la dernière modalité.
Dans le premier cas, en posant :
J K
1 XX
β0 = ηjk = η.. ,
JK j=1
k=1
K
1 X
βj1 = ηjk − η.. = ηj. − η.. ,
K
k=1
J
1X
βk2 = ηjk − η.. = η.k − η.. ,
J j=1
12
βjk = ηjk − ηj. − η.k + η.. ,
La généralisation à plus de trois variables ne pose pas de problème théorique. Les difficultés viennent de
l’explosion combinatoire du nombre de termes d’interaction et de la complexité des structures d’indépendance.
D’autre part, si le nombre de variables est grand, on est souvent confronté à des tables de contingence
creuses (beaucoup de cellules vides) qui rendent défaillant le modèle log-linéaire. Une étude exploratoire
(correspondances multiples par exemple) préalable est nécessaire afin de réduire le nombre des variables
considérées et celui de leurs modalités.
3. Choix de modèle 51
3 Choix de modèle
3.1 Recherche pas à pas
Principalement deux critères (test du rapport de vraisemblance et test de Wald), décrits en annexe pour
un cadre plus général, sont considérés. Ces critères sont utilisés comme le test de Fisher du modèle linéaire
gaussien. Ils permettent de comparer un modèle avec un sous-modèle et d’évaluer l’intérêt de la présence
des termes complémentaires. On suit ainsi une stratégie descendante à partir du modèle complet ou saturé
dans le cas du modèle log-linéaire. L’idée est de supprimer, un terme à la fois, la composante d’interaction
ou l’effet principal qui apparaı̂t comme le moins significatif au sens du rapport de vraisemblance ou du
test de Wald. Les tests présentent une structure hiérarchisée. SAS facilite cette recherche en produisant une
décomposition (Type III) de ces indices permettant de comparer chacun des sous-modèles excluant un des
termes avec le modèle les incluant tous.
Attention, du fait de l’utilisation d’une transformation non linéaire (log), même si des facteurs sont or-
thogonaux, aucune propriété d’orthogonalité ne peut être prise en compte pour l’étude des hypothèses. Ceci
impose l’élimination des termes un par un et la ré-estimation du modèle. D’autre part, un terme principal
ne peut être supprimé que s’il n’intervient plus dans des termes d’interaction. Enfin, selon les conditions
expérimentales qui peuvent fixer les marges d’une table de contingence, la présence de certains paramètres
est imposée dans un modèle log-linéaire.
4 Exemples
4.1 Modèle poissonien
On étudie les résultats d’une étude préalable à la législation sur le port de la ceinture de sécurité dans la
province de l’Alberta à Edmonton au Canada (Jobson, 1991). Un échantillon de 86 769 rapports d’accidents
de voitures ont été compulsés afin d’extraire une table croisant :
i. Etat du conducteur : Normal ou Alcoolisé
ii. Port de la ceinture : Oui Non
iii. Gravité des blessures : 0 : rien à 3 : fatales
La procédure genmod est utilisée :
CO 1 3431.0877 0.0001
CE 1 3041.5499 0.0001
CO*CE 1 377.0042 0.0001
B 3 28282.8778 0.0001
CO*B 3 474.7162 0.0001
CE*B 3 42.3170 0.0001
Observation Statistics
EFFECTIF Pred Xbeta Std HessWgt Lower Upper
12500 12497 9.4332 0.008930 12497 12280 12718
604 613.3370 6.4189 0.0395 613.3370 567.6707 662.6770
344 337.8089 5.8225 0.0530 337.8089 304.5010 374.7601
38 37.8677 3.6341 0.1550 37.8677 27.9495 51.3053
61971 61974 11.0345 0.004016 61974 61488 62464
...
Les résultats montrent que le modèle de toute interaction d’ordre 2 est acceptable (déviance) et il semble
que tous les termes soient nécessaires, toutes les interactions doivent être présentes au sens du test de Wald.
Chapitre 5
Qualité de prévision
1 Introduction
La performance du modèle issu d’une méthode d’apprentissage s’évalue par sa capacité de prévision
dite encore de capacité de généralisation dans la communauté informatique. La mesure de cette perfor-
mance est très importante puisque, d’une part, elle permet d’opérer une sélection de modèle dans une
famille associée à la méthode d’apprentissage utilisée et, d’autre part, elle guide le choix de la méthode
en comparant chacun des modèles optimisés à l’étape précédente. Enfin, elle fournit, tous choix faits, une
mesure de la qualité ou encore de la confiance que l’on peut accorder à la prévision en vue même, dans un
cadre légal, d’une certification.
En dehors d’une situation expérimentale planifiée classique en Statistique, c’est-à-dire sans le secours
de modèles probabilistes, c’est le cas, par principe, du data mining, trois types de stratégies sont proposés :
i. un partage de l’échantillon (apprentissage, validation, test) afin de distinguer estimation du modèle et
estimations de l’erreur de prévision,
ii. une pénalisation de l’erreur d’ajustement faisant intervenir la complexité du modèle,
iii. un usage intensif du calcul (computational statistics) par la mise en œuvre de simulations.
Le choix dépend de plusieurs facteurs dont la taille de l’échantillon initial, la complexité du modèle envi-
sagé, la variance de l’erreur, la complexité des algorithmes c’est-à-dire le volume de calcul admissible.
Pour répondre aux objectifs de la 2ème stratégie adaptée à un échantillon d’effectif trop restreint pour
être éclater en trois partie, différents critères sont utilisées pour définir une qualité de modèle à fin prédictive.
• Le plus ancien est naturellement une estimation d’une erreur de prévision : risque quadratique ou
taux de mal classés, comme mesure d’une distance moyenne entre le “vrai” ou le “meilleur” modèle
et celui considéré. Ce risque quadratique se décomposant grossièrement en un carré de biais et une
variance, l’enjeu est de trouver un bon compromis entre ces deux composantes en considérant un
modèle parcimonieux.
• D’autres critères sont basés sur la dissemblance de Kullback entre mesure de probabilités. Ce critère
mesure la qualité d’un modèle en considérant la dissemblance de Kullback entre la loi de la variable
expliquée Y et celle de sa prévision Yb fournie par un modèle.
• La dernière approche enfin, issue de la théorie de l’apprentissage de Vapnik (1999), conduit à proposer
une majoration de l’erreur de prévision ou risque ne faisant pas intervenir la loi conjointe inconnue
ou des considérations asymptotiques mais une mesure de la complexité du modèle appelée dimension
de Vapnik-Chernovenkis.
Les travaux de Vapnik en théorie de l’apprentissage ont conduit à focaliser l’attention sur la présence
ou l’absence de propriétés théoriques basiques d’une technique d’apprentissage ou de modélisation :
consistance qui garantit la capacité de généralisation. Un processus d’apprentissage est dit consistant si
l’erreur sur l’ensemble d’apprentissage et l’erreur sur un jeu de données test convergent en probabilité
vers la même limite lorsque la taille de l’échantillon d’apprentissage augmente.
vitesse de convergence. Une évaluation, quand elle est possible, de la vitesse de convergence de l’erreur
53
54 Chapitre 5. Qualité de prévision
lorsque la taille augmente, est une indication sur la façon dont la généralisation s’améliore et informe
sur la nature des paramètres, comme le nombre de variables explicatives, dont elle dépend.
contrôle Est-il possible, à partir d’un échantillon d’apprentissage de taille fini donc sans considérations
asymptotiques, de contrôler la capacité de généralisation et donc de majorer le terme d’erreur de
prévision ou risque ?
Une estimation de la qualité de la prévision est donc un élément central de la mise en place de la
stratégie du data mining, telle qu’elle est décrite dans l’introduction (cf. chapitre 1 section 4) mais aussi
dans beaucoup de disciplines concernées par la modélisation statistique. Le point important à souligner est
que le “meilleur” modèle en un sens prédictif n’est pas nécessairement celui qui ajuste le mieux les données
(cas de sur-ajustement) ni même le “vrai” modèle si la variance des estimations est importante.
2 Erreur de prévision
2.1 Définition
Soit Y la variable à prédire, X la variable p-dimensionnelle ou l’ensemble des variables explicatives, F
la loi conjointe de Y et X, z = {(x1 , y1 ), . . . , (xn , yn )} un échantillon et
Y = φ(X) + ε
le modèle à estimer avec E(ε) = 0, Var(ε) = σ 2 et ε indépendant de X ; X, comme chacun des xi , est de
dimension p.
L’erreur de prévision est définie par
2.2 Décomposition
L’erreur de prévision se décompose dans le cas quantitatif1 . Considérons celle-ci en un point x0 .
EP (x0 ) b 0 ))2 | X = x0 ]
= EF [(Y − φ(x
= σ 2 + [EF φ(x
b 0 ) − φ(x)]2 + EF [φ(x b 0 )]2
b 0 ) − EF φ(x
= σ 2 + Biais2 + Variance.
Très généralement, plus un modèle (la famille des fonctions φ admissibles) est complexe, plus il est flexible
et peu s’ajuster aux données observées et donc plus le biais est réduit. En revanche, la partie variance
augmente avec le nombre de paramètres à estimer et donc avec cette complexité. L’enjeu, pour minimiser
le risque quadratique ainsi défini, est donc de rechercher un meilleur compromis entre biais et variance :
accepter de biaiser l’estimation comme par exemple en régression ridge pour réduire plus favorablement la
variance.
1 Plusieurs décompositions concurrentes ont été proposées dans le cas qualitatif mais leur explicitation est moins claire.
3. Estimation avec pénalisation 55
2.3 Estimation
Le premier type d’estimation à considérer exprime la qualité d’ajustement du modèle sur l’échantillon
observé. C’est justement, dans le cas quantitatif, ce critère qui est minimisé dans la recherche de moindres
carrés. Ce ne peut être qu’une estimation biaisée, car trop optimiste, de l’erreur de prévision ; elle est liée
aux données qui ont servi à l’ajustement du modèle et est d’autant plus faible que le modèle est complexe.
Cette estimation ne dépend que de la partie ”biais” de l’erreur de prévision et ne prend pas en compte la
partie ”variance” de la décomposition.
Cette estimation est notée :
n
1X
Ec
P = Q(yi , φ(x
b i )).
n i=1
C’est simplement le taux de mal classés dans le cas qualitatif. Des critères de risque plus sophistiqués sont
envisagés dans un contexte bayésien si des probabilités a priori sont connues sur les classes ou encore des
coûts de mauvais classement (cf. chapitre 6).
La façon la plus simple d’estimer sans biais l’erreur de prévision consiste à calculer Ec
P sur un échantillon
indépendant n’ayant pas participé à l’estimation du modèle. Ceci nécessite donc d’éclater l’échantillon en
trois parties respectivement appelées apprentissage, validation et test :
z = zAppr ∪ zValid ∪ zTest .
i. Ec
P (zAppr ) est minimisée pour estimer un modèle,
ii. Ec
P (zValid ) sert à la comparaison des modèles au sein d’une même famille afin de sélectionner celui
qui minimise cette erreur,
iii. Ec
P (zTest ) est utilisée pour comparer entre eux les meilleurs modèles de chacune des méthodes considérées.
Cette solution n’est acceptable que si la taille de l’échantillon initiale est importante sinon :
• la qualité d’ajustement est dégradée car n est plus petit,
• la variance de l’estimation de l’erreur peut être importante et ne peut être estimée.
Si la taille de l’échantillon est insuffisante, le point ii ci-dessus : la sélection de modèle est basée sur un
autre type d’estimation de l’erreur de prévision faisant appel soit à une pénalisation soit à des simulations.
EP = Ec
P (zAppr ) + Optim
qui est l’estimation par resubstitution ou taux d’erreur apparent plus le biais par abus d’optimisme. Il s’agit
donc d’estimer cette optimisme pour apporter une correction et ainsi une meilleure estimation de l’erreur
recherchée. cette correction peut prendre plusieurs formes. Elle est liée à l’estimation de la variance dans la
décomposition en biais et variance de l’erreur ou c’est encore une pénalisation associée à la complexité du
modèle.
Son expression est détaillée dans le cas de la régression linéaire chapitre 2. On montre (cf. Hastie et col.
2001), à des fins de comparaison qu’il peut aussi se mettre sous une forme équivalente :
d 2
Cp = Ec
P +2 s
n
où d est le nombre de paramètres du modèles (nombre de variables plus un)), n le nombre d’observations,
s2 une estimation de la variance de l’erreur par un modèle de faible biais. Ce dernier point est fondamental
pour la qualité du critère, il revient à supposer que le modèle complet (avec toutes les variables) est le “vrai”
modèle ou tout du moins un modèle peu biaisé afin de conduire à une bonne estimation de de σ 2 .
56 Chapitre 5. Qualité de prévision
n+d
AIC = −2L + .
n−d−2
Une argumentation de type bayésien conduit à un autre critère BIC (Bayesian information criterion) qui
cherche, approximativement (asymptotiquement), le modèle associé à la plus grande probabilité a poste-
riori. Dans le cas d’un modèle issu de la maximisation d’une log-vraisemblance, il se met sous la forme :
d
BIC = −2L + log(n) .
n
On montre, dans le cas gaussien et en supposant la variance connue que BIC est proportionnel à AIC avec
le facteur 2 remplacé par log n. Ainsi, dès que n > e2 ≈ 7, 4, BIC tend à pénaliser plus lourdement les
modèles complexes. Asymptotiquement, on montre que la probabilité pour BIC de choisir le bon modèle
tend vers 1 lorsque n tend vers l’infini. Ce n’est pas le cas d’AIC ni du Cp qui tendent alors à choisir des
modèles trop complexes. Néanmoins à taille fini, petite, BIC risque de se limiter à des modèles trop simples.
Quelque soit le critère adopté, il est facile de choisir le modèle présentant le plus faible AIC, AICc
ou BIC parmi ceux considérés. Globalement, si l’estimation du modèle découle d’une maximisation de la
vraisemblance, estimation et choix de modèle reviennent à minimiser un critère de vraisemblance pénalisée
s’écrit sous la forme :
Crit = f (Vraisemblance) + Pénalisation(d)
où f est une fonction décroissante de la vraisemblance (− log) et la pénalisation une fonction croissante de
la complexité du modèle.
Les critères ci-dessus ont pour la plupart été définis dans le cadre du modèle classique de régression
multiple pour lequel il existe de nombreuses références et certains été généralisés ou adaptés à d’autres
méthodes en étendant la notion de nombre de degrés de libertés à des situations où le nombre de paramètres
du modèle n’est pas explicite (lissage ou régularisation).
Ainsi, pour les modèles non-linéaires voire plus complexes (non-paramétriques en dimension infinie),
le nombre d de paramètres doit être remplacé par une mesure de complexité p(α). Par exemple, les modèles
linéaires se mettent sous une forme : y b = Hy en incluant les méthodes de régularisation (ridge) ou de
lissage (spline) où la matrice H dépend uniquement des xi . Dans ce cas, le nombre effectif de paramètres
est défini comme la trace de la matrice H : d(H) = tr(H). C’est encore d, le rang de X c’est-à-dire le
nombre vecteurs de base (le nombre de variables + 1) si H est une matrice de projection orthogonale. Dans
d’autres situations (perceptron), ce nombre de paramètres est plus difficile à contrôler car il fait intervenir
les valeurs propres d’une matrice hessienne.
Considérons un échantillon (x1 , . . . , xn ) de IRp . Il existe 2n différentes manières de séparer cet échantillon
en deux sous-échantillons. Par définition, on dit qu’un ensemble F de fonctions hache ou mieux pulvérise
(shatters) l’échantillon si les 2n séparations peuvent être construites par différents représentants de la fa-
mille de fonction F . Ainsi, par exemple, pour p = 2, les fonctions linéaires (droites) peuvent pulvériser 3
points mais pas 4.
D ÉFINITION 5.1. — Un ensemble de fonctions définis de IRp dans IR est dit de VC dimension (Vapnik-
Chernovenkis) h si :
• tout jeu de h vecteurs de IRp peut être pulvérisé.
• Aucun ensemble de h + 1 vecteurs ne peut être pulvérisé par cet ensemble de fonctions.
Exemples
• La VC dimension de l’ensemble des hyperplans dans IRp est p + 1.
• La VC dimension de l’ensemble des fonctions f (x, w) = sign(sin(w, x)) avec 0 < c < x < 1 où w
est un paramètre libre, est infinie.
• La VC dimension de l’ensemble des indicatrices linéaires
p
X
f (x, w) = sign (wj xj ) + 1 avec kxk = 1
j=1
et satisfaisant la condition :
p
X
2
kwk = wj2 ≤ C
j=1
dépend de la constante C et peut prendre toutes les valeurs de 0 à p.
Attention, les VC dimensions ne sont pas égales au nombre de paramètres libres et sont souvent difficiles à
exprimer pour une famille de fonctions données.
Vapnik (1999) prouve des résultats fondamentaux pour la théorie de l’apprentissage :
• Un processus d’apprentissage est consistant si et seulement si la famille de modèles considérés a une
VC dimension h finie.
• La majoration de la différence entre l’erreur d’apprentissage (ou par resubstitution ou erreur appa-
rente) et l’erreur de prévision dépend du rapport entre la VC dimension h et la taille n de l’ensemble
d’apprentissage.
• L’inégalité de Vapnik, qui s’écrit sous une forme analogue à un intervalle de confiance, permet de
contrôler l’erreur de prévision ou risque. Avec une probabilité 1 − rho :
s
ρ
h(log( 2n
h ) + 1) − log 4
EP < Ec P + .
n
Il est important de souligner que cette inégalité ne fait pas intervenir le nombre de variables explica-
tives p mais le rapport n/h. Elle ne fait pas intervenir non plus la loi conjointe inconnue du couple
(Y, X). Le deuxième terme est grand (mauvaise précision) lorsque le rapport n/h est faible dû à une
trop grande VC dimension et donc une famille de modèles trop complexe.
En pratique, il est important de minimiser simultanément les deux termes de l’inéquation. La stratégie à
adopter est le principe de minimisation structurée du risque (SRM) qui consiste à faire de la VC dimension
h une variable contrôlée. Ayant défini une séquence ou structure de modèles emboı̂tés au sens de la VC
dimension :
S1 ⊂ S2 ⊂ · · · ⊂ Sk si les VC dimensions associées vérifient : h1 < h2 < · · · < hk .
Il s’agit de trouver la valeur h rendant le risque minimum et donc fournissant le meilleur compromis entre
les deux termes de l’inégalité de Vapnik.
La complexité de la famille des modèles peut être controlée par différents paramètres de la technique
d’apprentissage considérée : le nombre de neurones d’une couche dans un perceptron, le degré d’un po-
lynôme, la contrainte sur les paramètres comme en régression ridge, une largeur de fenêtre ou paramètre de
lissage...
58 Chapitre 5. Qualité de prévision
Si π
bi > s, ybi = 1 sinon ybi = 0.
Pour un échantillon de taille n dont l’observation de Y est connue ainsi que les scores π bi fournis par
un modèle, il est alors facile de construire la matrice dite de confusion croisant les modalités de la variable
prédite au seuil s avec celles de la variable observée dans une table de contingence :
Dans une situation classique de diagnostic médical ou en marketing les quantités suivantes sont considérées :
• Vrais positifs les n11 (s) observations biens classées (b yi = 1 et Y = 1),
• Vrais négatifs les n00 (s) observations biens classées (b yi = 0 et Y = 0),
• Faux négatifs les n01 (s) observations mal classées (b yi = 0 et Y = 1),
• Faux positifs les n10 (s) observations mal classées (b yi = 1 et Y = 0),
n01 (s)+n10 (s)
• Le taux d’erreur : t(s) = n ,
• Le taux de vrais positifs ou sensibilité = nn11+(s)1 ou taux de positifs pour les individus qui le sont
effectivement,
• Le taux de vrais négatifs ou spécificité = nn00+(s)
0 ou taux de négatifs pour les individus qui le sont
effectivement,
• Le taux de faux positifs = 1 − Spécificité = 1 − nn00+(s) n10 (s)
0 = n+ 0 .
En revanche, en météorologie, d’autres taux sont utilisés :
• Le taux de bonnes prévisions : H = nn1+ 11 (s)
(s) ,
• Le taux de fausses alertes : H = nn10+0 (s)
,
• Le score de Pierce : PSS= H − F , compris entre −1 et 1, évalue la qualité d’un modèle de prévision.
Si ce score est supérieur à 0, le taux de bonnes prévisions est supérieur à celui des fausses alertes et
plus il est proche de 1, meilleur est le modèle.
Le score de Pierce a été conçu pour la prévision d’évènements climatiques rares afin de pénaliser les
modèles ne prévoyant jamais ces évènements (H = 0) ou encore générant trop de fausses alertes (F = 1).
Le modèle idéal prévoyant tous les évènements critiques (H = 1) sans fausse alerte (F = 0). Des coûts de
mauvais classement peuvent être introduits pour pondérer ce score.
4. Le cas spécifique de la discrimination 59
F IG . 5.1 – Banque : Courbes ROC estimées sur l’échantillon d’apprentissage et sur l’échantillon test ainsi
que les aires sous ces courbes (AUC).
La figure 5.1 donne un exemple de courbes ROC pour associées au score d’appétence de la carte visa
premier. Plus la courbe se rapproche du carré, meilleure est la discrimination, correspondant à la fois à
une forte sensibilité et une grande spécificité. L’aire sous la courbe : AUC (area under curve) mesure la
qualité de discrimination du modèle tandis qu’une analyse de la courbe aide au choix du seuil. Ainsi, dans
l’exemple considéré, un seuil de 0, 6 ne pénalise pas énormément le nombre de positifs écartés tout en
économisant des envois publicitaires par rapport à un seuil de 0, 5.
L’aire sous la courbe est calculée en considérant toutes les paires (i, i0 ) formées d’un premier individu
avec yi = 1 et d’un second avec yi0 = 0. Une paire est dite concordante si π bi > π
bi0 ; discordante sinon. Le
nombre d’ex œquo est n+0 n+1 − nc − nd où nc est le nombre de paires concordantes et nd le nombre de
paires discordantes. Alors,
nc + 0, 5(n+0 n+1 − nc − nd )
AUC = .
n+0 n+1
On montre par ailleurs (voir par exemple Tenenhaus 2007) que le numérateur de cette expression est
encore la Statistique de test de Mann-Whitney tandis que le coefficient de Gini, qui est le double de la
surface entre la diagonale et la courbe vaut 2AUC − 1.
Attention, pour comparer des modèles ou méthodes de complexités différentes, ces courbes doivent être
estimées sur un échantillon test. Elles sont bien évidemment optimistes sur l’échantillon d’apprentissage.
De plus, l’AUC ne donne pas un ordre total pour classer des modèles car les courbes ROC peuvent se
croiser.
60 Chapitre 5. Qualité de prévision
Plus précisément, soit τ : {1, . . . , n} 7→ {1, . . . , K} la fonction d’indexation qui,pour chaque observa-
tion, donne l’attribution uniformément aléatoire de sa classe. L’estimation par validation croisée de l’erreur
de prévision est :
n
1X
EdCV = Q(yi , φb(−τ (i)) (xi ))
n i=1
où φb(−k) désigne l’estimation de φ sans prendre en compte la kième partie de l’échantillon.
Le choix K = 10 est le plus courant, c’est souvent celui par défaut des logiciels (Splus). Historiquement,
la validation croisée a été introduite par Allen avec K = n (delete-one cross validation). Ce dernier choix
n’est possible que pour n relativement petit à cause du volume des calculs nécessaires et l’estimation de
l’erreur présente une variance souvent importante car chacun des modèles estimés est trop similaire au
modèle estimé avec toutes les observations. En revanche, si K est petit (i.e. K = 5), la variance sera plus
faible mais le biais devient un problème dépendant de la façon dont la qualité de l’estimation se dégrade
avec la taille de l’échantillon.
Minimiser l’erreur estimée par validation croisée est une approche largement utilisée pour optimiser le
choix d’un modèle au sein d’une famille paramétrée. φb est défini par θb = arg minθ E
dCV (θ).
5.1 Bootstrap
Cette section plus technique décrit des outils encore peu présents dans les logiciels commerciaux, elle
peut être sautée en première lecture.
Introduction
L’idée, d’approcher par simulation (Monte Carlo) la distribution d’un estimateur lorsque l’on ne connaı̂t
pas la loi de l’échantillon ou, plus souvent, lorsque l’on ne peut pas supposer qu’elle est gaussienne, est
l’objectif même du bootstrap (Efron, 1982).
Le principe fondamental de cette technique de rééchantillonnage est de substituer, à la distribution de
probabilité inconnue F , dont est issu l’échantillon d’apprentissage, la distribution empirique Fn qui donne
un poids 1/n à chaque réalisation. Ainsi on obtient un échantillon de taille n dit échantillon bootstrap selon
la distribution empirique Fn par n tirages aléatoires avec remise parmi les n observations initiales.
Il est facile de construire un grand nombre d’échantillons bootstrap (i.e. B = 100) sur lesquels calculer
l’estimateur concerné. La loi simulée de cet estimateur est une approximation asymptotiquement conver-
gente sous des hypothèses raisonnables2 de la loi de l’estimateur. Cette approximation fournit ainsi des
2 Échantillon indépendant de même loi et estimateur indépendant de l’ordre des observations.
5. Estimation par simulation 61
estimations du biais, de la variance, donc d’un risque quadratique, et même des intervalles de confiance
(avec B beaucoup plus grand) de l’estimateur sans hypothèse (normalité) sur la vraie loi. Les grands prin-
cipes de cette approche sont rappelés en annexe A.
Estimateur naı̈f
Soit z∗ un échantillon bootstrap des données :
z∗ = {(x∗1 , y1∗ ), . . . , (x∗n , yn∗ )}.
L’estimateur plug-in de l’erreur de prévision EP (z, F ), pour lequel la distribution F est remplacée par la
distribution empirique Fb (cf. section A1.1) est défini par :
1X
EP (z∗ , Fb) = nQ(yi , φz∗ (xi ))
n i=1
où φz∗ désigne l’estimation de φ à partir de l’échantillon bootstrap. Il conduit à l’estimation bootstrap de
l’erreur moyenne de prévision EF [EP (z, F )] par
" #
∗ b 1X
EBoot = EFb [EP (z , F )] = EFb nQ(yi , φz∗ (xi )) .
n i=1
L’estimation ainsi construite de l’erreur de prévision est généralement biaisée par optimisme car, au gré des
simulations, les mêmes observations (xi , yi ) apparaissent à la fois dans l’estimation du modèle et dans celle
de l’erreur. D’autres approches visent à corriger ce biais.
Estimateur out-of-bag
La première s’inspire simplement de la validation croisée. Elle considère d’une part les observations
tirées dans l’échantillon bootstrap et, d’autre part, celles qui sont laissées de côté pour l’estimation du
modèle mais retenue pour l’estimation de l’erreur.
n
1X 1 X
Ed
oob = Q(yi , φz∗b (xi ))
n i=1 Bi
b∈Ki
où Ki est l’ensemble des indices b des échantillons bootstrap ne contenant pas la ième observation à l’issue
des B simulations et Bi = |Ki | le nombre de ces échantillons ; B doit être suffisamment grand pour que
toute observation n’ait pas été tirée au moins une fois ou bien les termes avec Ki = 0 sont supprimés.
L’estimation Edoob résout le problème d’un biais optimiste auquel est confrontée EBoot mais n’échappe
d
pas au biais introduit pas la réduction tel qu’il est signalé pour l’estimation pas validation croisée Ed
CV . C’est
ce qui a conduit Efron et Tibshirani (1997) a proposer des correctifs.
Estimateur .632-bootstrap
La probabilité qu’une observation soit tirée dans un échantillon bootstrap est
1 n 1
P [xi ∈ x∗b ] = 1 − (1 − ) ≈ 1 − ≈ 0, 632.
n e
Très approximativement, la dégradation de l’estimation provoquée par le bootstrap et donc la surévaluation
de l’erreur sont analogues à celle de la validation croisée avec K = 2. À la suite d’un raisonnement trop
long pour être reproduit ici, Efron et Tibshirani (1997) proposent de compenser excès d’optimisme du taux
apparent d’erreur et excès de pessimisme du bootstrap out-of-bag par une combinaison :
E[
.632 = 0, 368 × EP + 0, 632 × Eoob .
c d
62 Chapitre 5. Qualité de prévision
5.2 Remarques
• Toutes les estimations de l’erreur de prévision considérées (pénalisation, validation croisée, boots-
trap) sont asymptotiquement équivalentes et il n’est pas possible de savoir laquelle concrètement
sera, à n fini, la plus précise. Une large part d’arbitraire ou d’”expérience” préside donc le choix
d’une estimation plutôt qu’une autre.
• Conceptuellement, le bootstrap est plus compliqué et pratiquement encore peu utilisé. Néanmoins,
cet outil joue un rôle central dans les algorithmes récents de combinaison de modèles (cf. chapitre 9)
en association avec une estimation out-of-bag de l’erreur. Il ne peut être négligé.
• L’estimateur .632-bootstrap pose des problèmes en situation de sur-ajustement aussi les mêmes au-
teurs ont proposé un rectifcatif complémentaire noté .632+bootstrap.
• Comme le signale Vapnik, la résolution d’un problème de modélisation : régression ou discrimination
à fin prédictive doit, dans la mesure du possible, d’éviter de se ramener à un problème finalement
beaucouop plus complexe comme celui de l’estimation d’une densité multidimensionnelle. C’est ainsi
typiquement le cas en analyse discriminante non paramétrique.
Ce qu’il faut retenir en conclusion, c’est que l’estimation d’une erreur de prévision est une opération délicate
aux conséquences importantes. Il est donc nécessaire
• d’utiliser le même estimateur pour comparer l’efficacité de deux méthodes,
• de se montrer très prudent, en dehors de tout système d’hypothèses probabilistes, sur le caractère
absolu d’une estimation dans l’objectif d’une certification.
Dans ces deux dernières situations, le recours à un échantillon test de bonne taille est difficilement contour-
nable alors qu’en situation de choix de modèle au sein d’une même famille, un estimateur (petit échantillon
de validation, validation croisée) plus économique est adapté en supposant implicitement que le biais induit
est identique d’un modèle à l’autre.
Chapitre 6
Analyse Discriminante Décisionnelle
1 Introduction
L’objet de ce chapitre est l’explication d’une variable qualitative Y à m modalités par p variables quan-
titatives X j , j = 1, . . . , p observées sur unmême échantillon Ω de taille n. L’objectif de l’analyse dis-
criminante décisionnelle déborde le simple cadre descriprif de l’analyse facorielle discriminante (AFD).
Disposant d’un nouvel individu (ou de plusieurs, c’est la même chose) sur lequel on a observé les X j mais
pas Y , il s’agit maintenant de décider de la modalité T` de Y (ou de la classe correspondante) de ce nou-
vel individu. On parle aussi de problème d’affectation. L’ADD s’applique donc également à la situation
précédente de la régression logistique (m = 2) mais aussi lorsque le nombre de classes est plus grand que
2.
Pour cela, on va définir et étudier dans ce chapitre des règles de décision (ou d’affectation) et donner en-
suite les moyens de les évaluer sur un seul individu ; x = (x1 , . . . , xp ) désigne les observations des variables
explicatives sur cet individu, {g` ; ` = 1, . . . , m} les barycentres des classes calculés sur l’échantillon et x
le barycentre global.
La matrice de covariance empirique se décompose en
S = Se + Sr .
d2S−1 (x, g` ), ` = 1, . . . , m.
r
63
64 Chapitre 6. Analyse Discriminante Décisionnelle
1 0 −1
g`0 S−1
r x − g` Sr g` .
2
1 0 −1 1 0 −1
g10 S−1 0 −1
r x − g1 Sr g1 > g2 Sr x − g2 Sr g2
2 2
c’est-à-dire encore si
g1 + g2
(g1 − g2 )0 S−1 0 −1
r x > (g1 − g2 ) Sr .
2
Remarque
La règle de décision liée à l’AFD est simple mais elle est limitée et insuffisante notamment si les
variances des classes ne sont pas identiques. De plus, elle ne tient pas compte de l’échantillonnage pour x :
tous les groupes n’ont pas nécessairement la même probabilité d’occurence.
f` (x) = P [x | T` ]
3.2 Définition
Une règle de décision est une application δ de Ω dans {T1 , . . . , Tm } qui, à tout individu, lui affecte une
classe connaissant x. Sa définition dépend du contexte de l’étude et prend en compte la
• connaissance ou non de coûts de mauvais classement,
• connaissance ou non des lois a priori sur les classes,
• nature aléatoire ou non de l’échantillon.
On désigne par c` | k le coût du classement dans T` d’un individu de Tk . Le risque de Bayes d’une règle de
décision δ exprime alors le coût moyen :
m
X m
X Z
Rδ = πk c` | k fk (x)dx
k=1 `=1 {x | δ(x)=T` }
R
où {x | δ(x)=T` }
fk (x)dx représente la probabilité d’affecté x à T` alors qu’il est dans Tk .
1 La mesure de Lebesgues pour des variables réelles, celle de comptage pour des variables qualitatives
4. Règle bayésienne avec modèle normal 65
4.1 Hétéroscédasticité
Dans le cas général, il n’y a pas d’hypothèse supplémentaire sur la loi de x et donc les matrices Σ`
sont fonction de `. Le critère d’affectation est alors quadratique en x. Les probabilités π` sont supposées
connues mais il est nécessaire d’estimer les moyennes µ` ainsi que les covariances Σ` en maximisant,
compte tenu de l’hypothèse de normalité, la vraisemblance. Ceci conduit à estimer la moyenne
µ
c` = g`
par la moyenne empirique de x dans la classe l pour l’échantillon d’apprentissage et Σ` par la matrice de
covariance empirique S∗Rl :
1 X
S∗Rl = (xi − g` )(xi − g` )0
n` − 1
i∈Ω`
pour ce même échantillon.
4.2 Homoscédasticité
On suppose dans ce cas que les lois de chaque classe partagent la même structure de covariance Σ` = Σ.
Supprimant les termes indépendants de l, le critère à maximiser devient
1
ln(π` ) − µ0` Σ−1 0 −1
` µ` + µ` Σ` x
2
qui est cette fois linéaire en x. Les moyennes µ` sont estimées comme précédemment tandis que Σ est
estimée par la matrice de covariance intra empirique :
m
1 XX
S∗R = (xi − g` )(xi − g` )0 .
n−m
`=1 i∈Ω`
Si, de plus, les probabilités π` sont égales, après estimation le critère s’écrit :
1 0 ∗−1
x` 0 S∗−1
R x − x` SR x` .
2
On retrouve alors le critère de la section 2 issu de l’AFD.
4.3 Commentaire
Les hypothèses : normalité, éventuellement l’homoscédasticité, doivent être vérifiées par la connais-
sance a priori du phénomène ou par une étude préalable de l’échantillon d’apprentissage. L’hypothèse
d’homoscédasticité, lorqu’elle est vérifiée, permet de réduire très sensiblement le nombre de paramètres
à estimer et d’aboutir à des estimateurs plus fiables car de variance moins élevée. Dans le cas contraire,
l’échantillon d’apprentissage doit être de taille importante.
h est appelé largeur de fenêtre ou paramètre de lissage ; plus h est grand, plus l’estimation fb de f est
régulière. Le noyau K est choisi centré en 0, unimodal et symétrique. Les cas les plus usuels sont la densité
gaussienne, celle uniforme sur [−1, 1] ou triangulaire : K(x) = [1 − |x|]1[−1,1] (x). La forme du noyau
n’est pas très déterminante sur la qualité de l”estimation contrairement à la valeur de h.
Application à l’analyse discriminante
La méthode du noyau est utilisée pour calculer une estimation non paramétrique de chaque densité
f` (x) qui sont alors des fonctions définies dans IRp . Le noyau K ∗ dont donc être choisi multidimensionnel
et
1 X ∗ x − xi
f` (x) =
b K .
n` hp h
i∈Ω`
Un noyau multidimensionnel peut être défini à partir de la densité usuelle de lois : multinormale Np (0, Σp )
ou uniforme sur la sphère unité ou encore par produit de noyaux unidimensionnels :
p
Y
K ∗ (x) = K(xj ).
j=1
Algorithm 3 k-nn
Choix d’un entier k : 1 ≥ k ≥ n.
Calculer les distances dM (x, xi ) , i = 1, . . . , n où M est la métrique de Mahalanobis c’est-à-dire la
matrice inverse de la matrice de variance (ou de variance intra).
Retenir les k observations x(1) , . . . , x(k) pour lesquelles ces distances sont les plus petites.
Compter les nombres de fois k1 , . . . , km que ces k observations apparaissent dans chacune des classes.
Estimer les densités par
k`
fb` (x) = ;
kVk (x)
où Vk (x) est le volume de l’ellipsoı̈de {z|(z − x)0 M(z − x) = dM (x, x(k) )}.
Comme toute technique, celles présentées ci-dessus nécessitent le réglage d’un paramètre (largeur de
fenêtre, nombre de voisins considérés). Ce choix s’apparente à un choix de modèle et nécessite le même
type d’approche à savoir l’optiomisation d’un critère (erreur de classement, validation croisée (cf. chapitre
5).
68 Chapitre 6. Analyse Discriminante Décisionnelle
TAB . 6.1 – Cancer : estimations des taux d’erreurs de prévision obtenus par différents types d’analyse
discriminante
Méthode apprentissage validations croisée test
linéaire 1,8 3,8 3,6
kNN 2,5 2,7 2,9
TAB . 6.2 – Cancer : estimations des taux d’erreurs de prévision obtenus par différents types d’analyse
discriminante
Méthode apprentissage validations croisée test
linéaire 11,9 12,5 12,0
quadratique 12,7 14,8 12,5
6 Exemples
6.1 Cancer du sein
Par principe, l’analyse discriminante s’applique à des variables explicativers quantitatives. Ce n’est pas
le cas des données qui sont au mieux ordinales. Il est clair que contruire une fonction de disrimination
comme combinaison de ces variables n’a guère de sens. Néanmoins, en s’attachant uniquement à la qualité
de prévision sans essayer de constuire une interprétation du plan ou de la surface de discrimination, il est
d’usage d’utiliser l’analyse discriminante de façon ”sauvage”. Les résultats obtenus sont résumés dans le
tableau 6.2. L’analyse dicriminante quadratique, avec matrice de variance estimée pour chaque classe n’a
pas pu être calculée. Une des matrices n’est pas inversible.
TAB . 6.3 – Banque : estimations des taux d’erreurs de prévision obtenus par différents types d’analyse
discriminante
Méthode apprentissage validations croisée test
linéaire 16,5 18,3 18
quadratique 17,8 22,0 30
kNN 23,5 29,8 29
70 Chapitre 6. Analyse Discriminante Décisionnelle
Chapitre 7
Arbres binaires
1 Introduction
Ce chapitre s’intéresse aux méthodes ayant pour objectif la construction d’arbres binaires de décision,
modélisant une discrimination ou une régression. Complémentaires des méthodes statistiques plus clas-
siques : analyse discriminante, régression linéaire, les solutions obtenues sont présentées sous une forme
graphique simple à interpréter, même pour des néophytes, et constituent une aide efficace pour l’aide à la
décision. Elles sont basées sur un découpage, par des hyperplans, de l’espace engendré par les variables ex-
plicatives. Nommées initialement partitionnement récursif ou segmentation, les développements importants
de Breiman et col. (1984) les ont fait connaı̂tre sous l’acronyme de CART : Classification and Regression
Tree ou encore de C4.5 (Quinlan, 1993) dans la communauté informatique. L’acronyme correspond à deux
situations bien distinctes selon que la variable à expliquer, modéliser ou prévoir est qualitative (discrimina-
tion ou en anglais classification) ou quantitative (régression).
Ces méthodes ne sont efficaces que pour des tailles d’échantillons importantes et elles sont très calcula-
toires. Les deux raisons : modèle graphique de décision simple à interpréter, puissance de calcul nécessaire,
suffisent à expliquer leur popularité récente. De plus, elles requièrent plutôt moins d’hypothèses que des
méthodes statistiques classiques et semblent particulièrement adaptées au cas où les variables explicatives
sont nombreuses. En effet, la procédure de sélection des variables est intégrée à l’algorithme construisant
l’arbre, d’autre part, les interactions sont prises en compte. Néanmoins, cet algorithme suivant une stratégie
pas à pas hiérarchisée, il peut, comme dans le cas du choix de modèle en régression, passer à coté d’un
optimum global ; il se montre par ailleurs très sensible à des fluctuations d’échantillon rt nécessite une op-
timisation délicate de l’optimisation de la complexité par élagage. Ceci souligne encore l’importance de
confronter plusieurs approches sur les mêmes données.
71
72 Chapitre 7. Arbres binaires
Revenu < 10000 Revenu > 10000
@
@
@
@
@
@
Sexe=H @ Sexe=F Age < 50 @ Age > 50
@ @
@ @
@@ @
@
Tj T` T j
tion de l’arbre :
max Dk − (D(k+1) + D(k+2) )
{divisions deX j ;j=1,p}
2.4 Affectation
Dans le cas Y quantitative, à chaque feuille est associée une valeur : la moyenne des observations
associées à cette feuille. Dans le cas qualitatif, chaque feuille ou nœud terminal est affecté à une classe T`
de Y en considérant le mode conditionnel :
• celle la mieux représentée dans le nœud et il est ensuite facile de compter le nombre d’objets mal
classés ;
• la classe a posteriori la plus probable au sens bayesien si des probabilités a priori sont connues ;
• la classe la moins coûteuse si des coûts de mauvais classement sont donnés.
3 Critères d’homogénéité
Deux cas sont à considérer.
3.1 Y quantitative
On considère le cas plus général d’une P division en J classes. Soit n individus et une partition en J
J
classes de tailles nj ; j = 1, . . . , J avec n = j=1 nj . On numérote i = 1, . . . , nj les individus de la j ème
classe. Soit µij (resp.yij ) la valeur “théorique” (resp. l’observation) de Y sur l’individu (i, j) : le ième de
la j ème classe. L’hétérogénéité de la classe j est définie par :
nj nj
X X
Dj = (µij − µ.j )2 avec µ.j = µij .
i=1 i=1
c’est l’inertie intra (homogène à la variance intraclasse) qui vaut D = 0 si et seulement si µij = µ.j pour
tout i et tout j.
La différence d’hétérogénéité entre l’ensemble non partagé et l’ensemble partagé selon la partition J
est
nj
J X nj
J X J nj
X
2
X
2 1 XX
∆ = (µij − µ.. ) − (µij − µ.j ) où µ.. = µij .
j=1 i=1 j=1 i=1
n j=1 i=1
J
X
= nj (µ.. − µ.j )2 ;
j=1
c’est encore homogène à la variance inter classe ou “désordre” des barycentres qui vaut ∆ = n1 n2 ((µ.1 −
µ.2 )2 pour J = 2 dans le cas qui nous intéresse.
74 Chapitre 7. Arbres binaires
L’objectif, à chaque étape, est de maximiser ∆ c’est-à-dire de trouver la variable induisant une partition
en 2 classes associée à une inertie (variance) intraclasse minimale ou encore qui rend l’inertie (la variance)
interclasse la plus grande.
Les quantités sont estimées :
nj
X
Dj par D
cj = (yij − y.j )2 (7.1)
i=1
J nj
J X
X X
D par D
b = D
cj = (yij − y.j )2 . (7.2)
j=1 j=1 i=1
la log-vraisemblance
J nj
n 2 1 XX
log L = Cste − log(σ ) − 2 (yij − µ.j )2
2 2σ j=1 i=1
Pour le modèle saturé (une classe par individu) : yij = µij + uij , cet optimum devient :
n
Ls = sup log L = Cste − log(σ 2 ).
µ 2
La déviance (par rapport au modèle saturé) s’exprime alors comme :
Dµ = 2σ 2 (Ls − Lµ ) = D.
b
Le raffinement de l’arbre est donc associé à une décroissance, la plus rapide possible, de la déviance. C’est
l’optique retenue dans le logiciel Splus. On peut encore dire que la division retenue est celle qui rend le test
de Fisher (analyse de variance), comparant les moyennes entre les deux classes, le plus significatif possible.
3.2 Y qualitative
Dans ce cas, la fonction d’hétérogénéité, ou de désordre d’un nœud, est définie à partir de la notion
d’entropie, du critère de concentration de Gini ou encore d’une statistique de test du χ2 . En pratique, il
s’avère que le choix du critère importe moins que celui du niveau d’élagage. Le premier critère (entro-
pie) est souvent préféré (Splus) car il s’interprète encore comme un terme de déviance mais d’un modèle
multinomial cette fois.
Entropie
On considère une variable à expliquer qualitative, Y à m modalités ou catégories T numérotées ` =
1, . . . , m. L’arbre induit une partition pour laquelle n+k désigne l’effectif de la kème classe ou kème nœud.
Soit
Xm
p`k = P [T` | k] avec p`k = 1
`=1
la probabilité qu’un élément du kème nœud appartienne à la `ème classe.
Le désordre du kème nœud, défini à partir de l’entropie, s’écrit avec la convention 0 log(0) = 0. :
m
X
Dk = −2 n+k p`k log(p`k )
`=1
4. Élagage 75
Remarques :
• Cette quantité est positive ou nulle, elle est nulle si et seulement si les probabilités p`k ne prennent
que des valeurs 0 sauf une égale à 1 correspondant àP l’absence de mélange.
m
• Elle peut être remplacée par l’indice de Gini 1 − `=1 p2`k qui conduit à une autre définition de
l’hétérogénéité également utilisée mais qui ne s’interprète pas en terme de déviance d’un modèle
comme dans le cas de l’entropie.
Désignons par n`k l’effectif observé de la `ème classe dans Pmle kème nœud. Un nœud k de l’arbre
représente un sous-ensemble de l’échantillon d’effectif n+k = `=1 n`k .
Les quantités sont estimées :
m
X n`k n`k
Dk parD
ck = −2 n+k log (7.3)
n+k n+k
`=1
K K X
m
X
ck = −2
X n`k
D par D
b = D n`k log . (7.4)
n+k
k=1 k=1 `=1
Pour le modèle saturé (une catégorie par objet), cet optimum prend la valeur de la constante et la déviance
(par rapport au modèle saturé) s’exprime comme :
K X
m
X n`k
D = −2 n`k log = D.
b
n+k
k=1 `=1
Comme pour l’analyse discriminante décisionnelle, les probabilités conditionnelles sont définies par la
règle de Bayes lorsque les probabilités a priori π` d’appartenance à la `ème classe sont connues. Dans
le cas contraire, les probabilités de chaque classe sont estimées sur l’échantillon et donc les probabilités
conditionnelles s’estiment simplement par des rapports d’effectifs : p`k est estimée par n`k /n+k . Enfin, il
est toujours possible d’introduire, lorsqu’ils sont connus, des coûts de mauvais classement et donc de se
ramener à la minimisation d’un risque bayésien.
4 Élagage
Dans des situations complexes, la démarche proposée conduit à des arbres extrêmement raffinés et
donc à des modèles de prévision très instables car fortement dépendants des échantillons qui ont permis
76 Chapitre 7. Arbres binaires
leur estimation. On se trouve donc dans une situation de sur-ajustement à éviter au profit de modèles plus
parcimonieux donc plus robuste au moment de la prévision. Cet objectif est obtenu par une procédure
d’élagage (pruning) de l’arbre.
Le principe de la démarche, introduite par Breiman et col. (1984), consiste à construire une suite
emboı̂tée de sous-arbres de l’arbre maximum par élagage successif puis à choisir, parmi cette suite, l’arbre
optimal au sens d’un critère. La solution ainsi obtenue par un algorithme pas à pas n’est pas nécessairement
globalement optimale mais l’efficacité et la fiabilité sont préférées à l’optimalité.
où Dk (A) est le nombre de mal classés ou la déviance ou le coût de mauvais classement de la kème feuille
de l’arbre A.
La construction de la séquence d’arbres emboı̂tés repose sur une pénalisation de la complexité de
l’arbre :
C(A) = D(A) + γK.
Pour γ = 0, Amax = AK minimise C(A). En faisant croı̂tre γ, l’une des divisions de AK , celle pour
laquelle l’amélioration de D est la plus faible (inférieure à γ), apparaı̂t comme superflue et les deux feuilles
obtenues sont regroupées (élaguées) dans le nœud père qui devient terminal ; AK devient AK−1 .
Le procédé est itéré pour la construction de la séquence emboı̂tée :
Amax = AK ⊃ AK−1 ⊃ · · · A1
où A1 , le nœud racine, regroupe l’ensemble de l’échantillon.
Un graphe représente la décroissance ou éboulis de la déviance (ou du taux de mal classés) en fonction
du nombre croissant de feuilles dans l’arbre ou, c’est équivalent, en fonction de la valeur décroissante du
coefficient de pénalisation γ.
5 Exemples
5.1 Cancer du sein
Un arbre de discrimination est estimé sur l’échantillon d’apprentissage, élagué par validation croisée
et représenté dans la figure 7.2. La prévision de l’échantillon test par cet arbre conduit à la matrice de
confusion :
5. Exemples 77
benign
|
358/188
Cell.shape=1,2
Cell.shape=3,4,5,6,7,8,9,10
benign malignant
318/4 40/184
Bare.nuclei=1,2
Bare.nuclei=3,4,5,6,7,8,9,10
benign malignant
32/20 8/164
Epith.c.size=1,2,3
Epith.c.size=4,5,6,7,8,9,10
benign malignant
30/1 2/19
100
250
Valeurs observees
50
Résidus
150
0
−100 −50
50
0
F IG . 7.4 – Ozone : Valeurs observées et résidus de l’échantillon test en fonction des valeurs prédites.
Arbre de discrimination
Un modèle est estimé afin de prévoir directement le dépassement d’un seuil. Il est de complexité si-
milaire à l’arbre de régression mais ne fait pas jouer le même rôle aux variables. La température remplace
la prévision MOCAGE de l’ozone comme variable la plus importante. Les prévisions de dépassement de
seuil sur l’échantillon test sont sensiblement moins bonnes que celle de la régression, les taux sont de
14,4% avec l’arbre de régression et de 14,5% directement avec l’arbre de discrimination. Les matrices de
confusion présentent les mêmes biais que les modèles de régression en omettant un nombre important de
dépassements.
F IG . 7.5 – Banque : choix du nombre de feuilles par échantillon de validation (SEM, 2001).
5. Exemples 81
Endpoint = CARVP
Cnon
569/294
|
MOYRVL< 3.02
MOYRVL>=3.02
Cnon Coui
475/90 94/204
RELAT>=5.5 DMVTPL>=2.602
RELAT< 5.5 DMVTPL< 2.602
Cnon Coui Coui Coui
462/61 13/29 93/121 1/83
DMVTPL< 1.199
DMVTPL>=1.199
Cnon Coui
76/3 0/20
1 Historique
Nous nous intéressons ici à une branche de l’Informatique fondamentale qui, sous l’appellation d’Intelligence
Artificielle, a pour objectif de simuler des comportements du cerveau humain. Les premières tentatives
de modélisation du cerveau sont anciennes et précèdent même l’ère informatique. C’est en 1943 que Mc
Culloch (neurophysiologiste) et Pitts (logicien) ont proposé les premières notions de neurone formel. Ce
concept fut ensuite mis en réseau avec une couche d’entrée et une sortie par Rosenblatt en 1959 pour si-
muler le fonctionnement rétinien et tacher de reconnaı̂tre des formes. C’est l’origine du perceptron. Cette
approche dite connexioniste a atteint ses limites technologiques, compte tenu de la puissance de calcul de
l’époque, mais aussi théoriques au début des années 70.
L’approche connexioniste à connaissance répartie a alors été supplantée par l’approche symbolique ou
séquentielle qui promouvait les systèmes experts à connaissance localisée. L’objectif était alors d’automa-
tiser le principe de l’expertise humaine en associant trois concepts :
• une base de connaissance dans laquelle étaient regroupées “toutes” les connaissances d’experts hu-
mains sous forme de propositions logiques élémentaires ou plus élaborées en utilisant des quantifica-
teurs (logique du premier ordre).
• une base de faits contenant les observations du cas à traiter comme, par exemple, des résultats d’exa-
mens, d’analyses de sang, de salive pour des applications biomédicales de choix d’un antibiotique,
• un moteur d’inférence chargé d’appliquer les règles expertes sur la base de faits afin d’en déduire de
nouveaux faits jusqu’à la réalisation d’un objectif comme l’élaboration du traitement d’un infection
bactérienne.
Face aux difficultés rencontrées lors de la modélisation des connaissances d’un expert humain, au volume
considérable des bases de connaissance qui en découlait et au caractère exponentiel de la complexité des al-
gorithmes d’inférence mis en jeu, cette approche s’est éteinte avec les années 80. En effet, pour les systèmes
les plus compliqués à base de calcul des prédicats du premier ordre, on a pu montrer qu’ils conduisaient à
des problèmes N P complets et donc dont la solution pouvait être atteinte mais pas nécessairement en un
temps fini !
L’essor technologique et surtout quelques avancées théoriques :
• algorithme d’estimation par rétropropagation de l’erreur par Hopkins en 1982,
• analogie de la phase d’apprentissage avec les modèles markoviens de systèmes de particules de la
mécanique statistique (verres de spin) par Hopfield en 1982,
au début des années 80 ont permis de relancer l’approche connexioniste. Celle-ci a connu au début des
années 90 un développement considérable si l’on considère le nombre de publications et de congrès qui
lui ont été consacrés mais aussi les domaines d’applications très divers où elle apparaı̂t. Sur de nombreux
objectifs, justement ceux propres au data mining, les réseaux neuronaux ne rentrent pas nécessairement en
concurrence avec des méthodes statistiques bientôt centenaires mais apportent un point de vue complémentaire
qu’il est important de considérer (Thiria et col. 1997).
83
84 Chapitre 8. Méthodes connexionistes
x1
Q
x2 PQQ s
PP
xj q
- Σ | f -y
..
. 3
xp
2 Réseaux de neurones
Un réseau neuronal est l’association, en un graphe plus ou moins complexe, d’objets élémentaires, les
neurones formels. Les principaux réseaux se distinguent par l’organisation du graphe (en couches, com-
plets. . . ), c’est-à-dire leur architecture, son niveau de complexité (le nombre de neurones) et par le type des
neurones (leurs fonctions de transition).
La fonction de transition opère une transformation d’une combinaison affine des signaux d’entrée, β0 étant
appelé le biais du neurone. Cette combinaison affine est déterminée par un vecteur de poids [β0 , . . . , βp ]
associé à chaque neurone et dont les valeurs sont estimées dans la phase d’apprentissage. Ils constituent “la
mémoire” ou “connaissance répartie” du réseau.
Les différents types de neurones se distinguent par la nature f de leur fonction de transition. Les prin-
cipaux types sont :
• linéaire f est la fonction identité,
• sigmoı̈de f (x) = 1/(1 + ex ),
• seuil f (x) = 1[0,+∞[ (x),
• stochastiques f (x) = 1 avec la probabilité 1/(1 + e−x/H ), 0 sinon (H intervient comme une
température dans un algorithme de recuit simulé),
• ...
Les modèles linéaires et sigmoı̈daux sont bien adaptés aux algorithmes d’apprentissage comme celui de
rétropropagation du gradient car leur fonction de transition est différentiable. Ce sont les plus utilisés. Le
modèle à seuil est sans doute plus conforme à la “réalité” biologique mais pose des problèmes d’appren-
tissage. Enfin le modèle stochastique est utilisé pour des problèmes d’optimisation globale de fonctions
perturbées ou encore pour les analogies avec les systèmes de particules. On ne le rencontre pas en data
mining.
3 Perceptron multicouche
3. Perceptron multicouche 85
x1 - H
LJ H
LJ HH jΣ|f
H
L J *
@
x2 -
L
H L J
J
@
J HH
J @
.. J
L H RΣ|f -y
*Σ|f
j
H ^
J @@
-
. J L
xj -
L
J
L ..
H
J .
H
H
JL
..
H *Σ|f
j
H ^
JL
.
xp -
F IG . 8.2 – Exemple de perceptron multicouche élémentaire avec une couche cachée et une couche de sortie.
3.1 Architecture
Le perceptron multicouche (PMC) est un réseau composé de couches successives. Une couche est un
ensemble de neurones n’ayant pas de connexion entre eux. Une couche d’entrée lit les signaux entrant, un
neurone par entrée xj , une couche en sortie fournit la réponse du système. Selon les auteurs, la couche
d’entrée qui n’introduit aucune modification n’est pas comptablisée. Une ou plusieurs couches cachées
participent au transfert. Un neurone d’une couche cachée est connecté en entrée à chacun des neurones de
la couche précédente et en sortie à chaque neurone de la couche suivante.
Un perceptron multicouche réalise donc une transformation
y = φ(x1 , . . . , xp ; β)
où β est le vecteur contenant chacun des paramètres βjk` de la j ème entrée du kème neurone de la `ème
couche ; la couche d’entrée (` = 0) n’est pas paramétrée, elle ne fait que distribuer les entrées sur tous les
neurones de la couche suivante.
Par souci de cohérence, nous avons tâché de conserver les mêmes notations à travers les différents cha-
pitres. Ainsi, les entrées d’un réseau sont encore notées x1 , . . . , xp comme les variables explicatives d’un
modèle tandis que les poids des entrées sont des paramètres β à estimer lors de la procédure d’apprentissage
et que la sortie est la variable à expliquer ou cible du modèle.
3.2 Apprentissage
Supposons que l’on dispose d’une base d’apprentissage de taille n d’observations (x1i , . . . , xpi ; yi ) des
variables explicatives X 1 , . . . , X p et de la variable à prévoir Y . L’apprentissage est l’estimation β
b des
paramètres du modèle solutions du problème des moindres carrés1 :
n
1X
β
b = arg min Q(b) avec Q(b) = [yi − φ(x1i , . . . , xpi ; (b))]2 .
b n i=1
L’algorithme d’optimisation le plus utilisé est celui de rétropropagation du gradient basé sur l’idée suivante :
en tout point b, le vecteur gradient de Q pointe dans la direction de l’erreur croissante. Pour faire décroı̂tre
Q il suffit donc de se déplacer en sens contraire. Il s’agit d’un algorithme itératif modifiant les poids de
chaque neurone selon :
bjk` (i) = bjk` (i − 1) + ∆bjk` (i)
1 Équivalent à une maximisation de la vraisemblance dans le cas gaussien.
86 Chapitre 8. Méthodes connexionistes
où la correction ∆bjk` (i) est proportionnelle au gradient et à l’erreur attribuée à l’entrée concernée εjk` (i)
et incorpore un terme d’“inertie” αbjk` (i − 1) permettant d’amortir les oscillations du système :
∂Q
∆bjk` (i) = −τ εjk` (i) + αbjk` (i − 1).
∂bjk`
Le coefficient de proportionnalité τ est appelé le taux d’apprentissage. Il peut être fixe à déterminer
par l’utilisateur ou encore varier en cours d’exécution selon certaines règles paramétrées par l’utilisateur.
Il paraı̂t en effet intuitivement raisonnable que, grand au début pour aller plus vite, ce taux décroisse pour
aboutir à un réglage plus fin au fur et à mesure que le système s’approche d’une solution. La formule de
rétropropagation de l’erreur fournit, à partir des erreurs observées sur les sorties, l’expression de l’erreur
attribuée à chaque entrée de la couche de sortie à la couche d’entrée.
La littérature sur le sujet propose quantités de recettes destinées à améliorer la vitesse de convergence
de l’algorithme ou bien lui éviter de rester collé à une solution locale défavorable. Des propriétés (dyna-
mique markovienne ergodique et convergence vers la mesure stationnaire) de cet algorithme impliquent une
convergence presque sûre ; la probabilité d’atteindre une précision fixée a priori tend vers 1 lorsque la taille
de l’échantillon d’apprentissage tend vers l’infini.
Une amélioration importante consiste à introduire une terme de pénalisation ou régularisation comme
en ridge dans le critère à optimiser. Celui-ci devient alors :
b = arg min Q(b) + δkbk2 .
β
b
Le paramètre δ (decay) doit être fixé par l’utilisateur ; plus il est important et moins les paramètres ou poids
peuvent prendre des valeurs “cahotiques” contribuant ainsi à limiter les risques de surapprentissage.
3.3 Utilisation
On pourra se reporter à l’abondante littérature sur le sujet (Haykin, 1994) pour obtenir des précisions
sur les algorithme d’apprentissage et leurs nombreuses variantes. Il est important de rappeler la liste des
choix qui sont laissés à l’utilisateur. En effet, même si les logiciels proposent des valeurs par défaut, il est
fréquent que cet algorithme connaisse quelques soucis de convergence.
L’utilisateur doit donc déterminer
i. les variables d’entrée et la variable de sortie ; leur faire subir comme pour toutes méthodes statistiques,
d’éventuelles transformations.
ii. L’architecture du réseau : le nombre de couches cachées (en général une ou deux) qui correspond à
une aptitude à traiter des problèmes de non-linéarité, le nombre de neurones par couche cachée. Ces
deux choix conditionnent directement le nombre de paramètres (de poids) à estimer. Ils participent à la
recherche d’un bon compromis biais/variance c’est-à-dire à l’équilibre entre qualité d’apprentissage
et qualité de prévision. À la louche, on considère en pratique qu’il faut un échantillon d’apprentissage
au moins dix fois plus grand que le nombre de paramètres à estimer.
4. Exemples 87
iii. Trois autres paramètres interviennent également sur ce compromis : le nombre maximum d’itérations,
l’erreur maximum tolérée et un terme éventuel de régularisation (decay). En renforçant ces critères
on améliore la qualité de l’apprentissage ce qui peut se faire au détriment de celle de la prévision.
iv. Le taux d’apprentissage ainsi qu’une éventuelle stratégie d’évolution de celui-ci.
En pratique, tous ces paramètres ne sont pas réglés simultanément par l’utilisateur. Celui-ci est confronté
à des choix concernant principalement le contrôle du sur-apprentissage ; choix du paramètre : limiter le
nombre de neurones ou la durée d’apprentissage ou encore augmenter le coefficient de pénalisation de
la norme des paramètres ; choix du mode d’estimation de l’erreur : échantillon test, validation croisée ou
bootstrap. Ces choix sont souvent pris par défaut dans la plupart des logiciels commerciaux. Il est important
d’en connaı̂tre les implications.
Le nombre de couches reste restreint. On montre en effet que toute fonction que toute fonction conti-
nue d’un compact de IRP dans IRq peut être approchée avec une précision arbitraire par un réseau à
une couche cachée en adaptant le nombre de neurones. Leccontrôle de la complexité du modèle ou plus
généralement d’un sur-apprentissage peut se faire à l’aide de plusieurs paramètres : le nombre de neurones,
une pénalisation de la norne du vecteur des poids ou paramètres comme en ridge (régularisation) ou encore
par la durée de l’apprentissage. Ces paramètres sont optimisés en considérant un échantillon de validation
et le plus simple consiste à arrêté l’apprentissage lorsque l’erreur sur l’échantillon de validation commence
à se dégrader tandis que celle sur l’échantillon d’apprentissage ne peut que continuer à décroı̂tre.
Les champs d’application des PMC sont très nombreux : discrimination, prévision d’une série tempo-
relle, reconnaissance de forme. . . Ils sont en général bien explicités dans les documentations des logiciels
spécialisés.
Les critiques principales énoncées à l’encontre du PMC concernent les difficultés liés à l’apprentis-
sage (temps de calcul, taille de l’échantillon, localité de l’optimum obtenu) ainsi que son statut de boı̂te
noir. En effet, contrairement à un modèle de discrimination ou un arbre, il est a priori impossible de
connaı̂tre l’influence effective d’une entrée (une variable) sur le système dès qu’une couche cachée inter-
vient. Néanmoins, des techniques de recherche de sensibilité du système à chacune des entrées permettent
de préciser les idées et, éventuellement de simplifier le système en supprimant certaines des entrées.
En revanche, ils possèdent d’indéniables qualités lorsque l’absence de linéarité et/ou le nombre de va-
riables explicatives rendent les modèles statistiques traditionnelles inutilisables. Leur flexibilité alliée à une
procédure d’apprentissage intégrant la pondération (le choix) des variables comme de leurs interactions
peuvent les rendre très efficaces (Besse et col. 2001).
4 Exemples
Les réseaux de neurones étant des boı̂tes noires, les résultats fournis ne sont guère explicites et ne
conduisent donc pas à des interprétations peu informatives du modèle. Seule une étude des erreurs de
prévisions et, dans le cas d’une régression, une étude des résidus, permet de se faire une idée de la qualité
du modèle.
benign malignant
FALSE 83 1
TRUE 3 50
100
250
Valeurs observees
50
Résidus
150
0
−100 −50
50
0
F IG . 8.3 – Ozone : Valeurs observées et résidus de l’échantillon test en fonction des valeurs prédites par un
réseau de 10 neurones
utilisés. Il a été choisi relativement important (10) et conduit donc à un bon ajustement (R2 = 0, 77) mais
devra être réduit pour optimiser la prévision.
Comme pour les arbres de décision, les réseaux de neurones ne proposent pas de modèles très efficaces
sur cet exemple. Les taux d’erreur de prévision du dépassement du seuil sont de 14,4% à partir du modèle
quantitatif et de 15,6% avec une prévision qualitative.
Elle produit une carte de type contour permettant d’évaluer ”à l’œil” les valeurs optimales. La prévision de
l’échantillon test par ce réseau de neurones conduit à la matrice de confusion :
1 Introduction
Ce chapitre décrit des algorithmes plus récemment apparus dans la littérature. Ils sont basés sur des
stratégies adaptatives (boosting) ou aléatoires (bagging) permettant d’améliorer l’ajustement par une com-
binaison ou agrégation d’un grand nombre de modèles tout en évitant un sur-ajustement. Ces algorithmes
se sont développés à la frontière entre apprentissage machine (machine learning) et Statistique. De nom-
breux articles comparatifs montrent leur efficacité sur des exemples de données simulées et surtout pour des
problèmes réels complexes (voir par exemple Ghattas 2000) tandis que leurs propriétés théoriques sont un
thème de recherche actif.
Deux types d’algorithmes sont décrits schématiquement dans ce chapitre. Ceux reposants sur une
construction aléatoires d’une famille de modèle : bagging pour bootstrap aggregating (Breiman 1996), les
forêts aléatoires (random forests) de Breiman (2001) qui propose une amélioration du bagging spécifique
aux modèles définis par des arbres binaires (CART). Ceux basés sur le boosting (Freund et Shapiro,1996),
reposent sur une construction adaptative, déterministe ou aléatoire, d’une famille de modèles.
Les principes du bagging ou du boosting s’appliquent à toute méthode de modélisation (régression,
CART, réseaux de neurones) mais n’ont d’intérêt, et réduisent sensiblement l’erreur de prévision, que dans
le cas de modèles instables, donc plutôt non linéaires. Ainsi, l’utilisation de ces algorithmes n’a guère de
sens avec la régression multilinéaire ou l’analyse discriminante. Ils sont surtout mis en œuvre en association
avec des arbres binaires comme modèles de base.
z = {(x1 , y1 ), . . . , (xn , yn )}
un échantillon de loi F .
L’espérance φ(.) = EF (φbz ) de l’estimateur définie sur l’échantillon z, est un estimateur sans biais de
variance nulle. Considérons B échantillons indépendants notés {zb }b=1,B et construisons une agrégation
des modèles dans le cas où la variable à expliquer Y est :
PB
• quantitative : φbB (.) = B1 b=1 φbzb (.),
n o
• qualitative : φbB (.) = arg maxj card b | φbz (.) = j .
b
Dans le premier cas, il s’agit d’une simple moyenne des résultats obtenus pour les modèles associés à
chaque échantillon, dans le deuxième, un comité de modèles est constitué pour voter et élire la réponse
89
90 Chapitre 9. Agrégation de modèles
la plus probable. Dans ce dernier cas, si le modèle retourne des probabilités associées à chaque modalité
comme en régression logistique ou avec les arbres de décision, il est aussi simple de calculer des moyennes
de ces probabilités.
Le principe est élémentaire, moyenner les prévisions de plusieurs modèles indépendants permet de
réduire la variance et donc de réduire l’erreur de prévision.
Cependant, il n’est pas réaliste de considérer B échantillons indépendants. Cela nécessiterait généralement
trop de données. Ces échantillons sont donc remplacés par B réplications d’échantillons bootstrap (cf. An-
nexe A) obtenus chacun par n tirages avec remise selon la mesure empirique Fb. Ceci conduit à l’algorithme
ci-dessous.
Algorithm 6 Bagging
Soit x0 à prévoir et
z = {(x1 , y1 ), . . . , (xn , yn )} un échantillon
Pour b = 1 à B Faire
Tirer un échantillon bootstrap z∗b .
Estimer φbzb (x0 ) sur l’échantillon bootstrap.
Fin Pour PB
Calculer l’estimation moyenne φbB (x0 ) = B1 b=1 φbzb (x0 ) ou le résultat du vote.
Utilisation
Il est naturel et techniquement facile d’accompagner ce calcul par une estimation bootstrap out-of-bag
(cf. chapitre 5 section 5.1) de l’erreur de prévision. Elle est une mesure de la qualité de généralisation du
modèle et permet de prévenir une éventuelle tendance au sur-ajustement. C’est, pour éviter un biais, la
moyenne des erreurs de prévision commises par chaque estimateur ; chacune des erreurs étant estimée sur
les observations qui n’ont pas été sélectionnées par l’échantillon bootstrap correspondant.
En pratique, CART est souvent utilisée comme méthode de base pour construire une famille de modèles
c’est-à-dire d’arbres binaires. Trois stratégies d’élagage sont alors possibles :
i. laisser construire et garder un arbre complet pour chacun des échantillons,
ii. construire un arbre d’au plus q feuilles,
iii. construire à chaque fois l’arbre complet puis l’élaguer par validation croisée.
La première stratégie semble en pratique un bon compromis entre volume des calculs et qualité de prévision.
Chaque arbre est alors affecté d’un faible biais et d’une grande variance mais la moyenne des arbres réduit
avantageusement celle-ci. En revanche, l’élagage par validation croisée pénalise lourdement les calculs sans
gain substantiel de qualité.
Cet algorithme a l’avantage de la simplicité, il s’adapte et se programme facilement quelque soit la
méthode de modélisation mise en œuvre. Il pose néanmoins quelques problèmes :
• temps de calcul important pour évaluer un nombre suffisant d’arbres jusqu’à ce que l’erreur de
prévisionout-of-bag ou sur un échantillon validation se stabilise et arrêt si elle tend à augmenter ;
• nécessiter de stocker tous les modèles de la combinaison afin de pouvoir utiliser cet outil de prévisionsur
d’autres données,
• l’amélioration de la qualité de prévisionse fait au détriment de l’interprétabilité. Le modèle finalement
obtenu devient une boı̂te noire comme dans le cas du perceptron.
à-dire lorsque le nombre de variables explicatives p est très important. C’est le cas lorsqu’il s’agit, par
exemple, de discriminer des courbes, spectres, signaux, biopuces.
Élagage
La stratégie d’élagage peut, dans le cas des forêts aléatoires, être plus élémentaire qu’avec le bagging
en se limitant à des arbres de taille q relativement réduite voire même triviale avec q = 2 (stump). En
effet, avec le seul bagging, des arbres limités à une seule fourche risquent d’être très semblables (for-
tement corrélés) car impliquant les mêmes quelques variables apparaissant comme les plus explicatives.
La sélection aléatoire d’un nombre réduit de prédicteurs potentiels à chaque étape de construction d’un
arbre, accroı̂t significativement la variabilité en mettant en avant nécessairement d’autres variables. Chaque
modèle de base est évidemment moins performant mais, l’union faisant la force, l’agrégation conduit fina-
lement à de bons résultats. Le nombre de variables tirées aléatoirement n’est pas un paramètre sensible un
√
choix par défaut de q = p est suggéré par Breiman (2001). Comme pour le bagging, l’évaluation itérative
de l’erreur out-of-bag prévient d’un éventuel sur-ajustement si celle-ci vient à se dégrader.
Interprétation
Comme pour tout modèles construit par agrégation ou boı̂te noire, il n’y a pas d’interprétation directe.
Néanmoins des informations pertinentes sont obtenues par le calcul et la représentation graphique d’indices
proportionnels à l’importance de chaque variable dans le modèle agrégé et donc de sa participation à la
régression ou à la discrimination. C’est évidemment d’autant plus utile que les variables sont très nom-
breuses. Plusieurs critères sont ainsi proposés pour évaluer l’importance de la j ème variable.
• Le premier (Mean Decrease Accuracy repose sur une permutation aléatoire des valeurs de cette va-
riable. Il consiste à calculer la moyenne sur les observations out-of-bag de la décroissance de leur
marge lorsque la variable est aléatoirement perturbée. La marge est ici la proportion de votes pour la
vraie classe d’une observation moins le maximum des proportions des votes pour les autres classes.
Il s’agit donc d’une mesure globale mais indirecte de l’influence d’une variable sur la qualité des
prévisions. Plus la prévision est dégradée par la permutation des valeurs d’une variable, plus celle-ci
est importante.
• Le deuxième (Mean Decrease Gini) est local, basé sur la décroissance d’entropie ou encore la
décroissance de l’hétérogénéité définie à partir du critère de Gini. L’importance d’une variable est
alors une somme pondérée des décroissances d’hétérogénéité induites lorqu’elle est utilisée pour
définir la division associée à un nœud.
• Le troisième, qui n’a pas été retenu par Breiman, est plus rudimentaire, il s’intéresse simplement à la
fréquence de chacune des variables apparaissant dans les arbres de la forêt.
Selon Breiman les deux premiers sont très proches, l’importance d’une variable dépend donc se sa fréquence
d’apparition mais aussi des places qu’elle occupe dans chaque arbre. Ces critères sont pertinents pour
une discrimination de deux classes ou, lorsqu’il y a plus de deux classes, si celles-ci sont relativement
équilibrées. Dans le cas contraire, c’est-à-dire si une des classes est moins fréquente et plus difficile à
discriminer, l’expérience montre que le troisième critère relativement simpliste présente un avantage : il
donne une certaine importance aux variables qui sont nécessaires à la discrimination d’une classe difficile
alors que celles-ci sont négligées par les deux autres critères.
92 Chapitre 9. Agrégation de modèles
• Selon les auteurs, une condition supplémentaire est ajoutée à l’algorithme. Il est arrêté ou réinitialisé
à des poids uniformes si l’erreur se dégrade trop : si Ec
m < 0.5Lm .
L’algorithme génère M prédicteurs construits sur des échantillons bootstrap z∗m dont le tirage dépend
de probabilités p mises à jour à chaque itération. Cette mise à jour est fonction d’un paramètre βm qui
est un indicateur de la performance, sur l’échantillon z, du mième prédicteur estimé sur l’échantillon z∗m .
La mise à jour des probabilités dépend donc à la fois de cet indicateur global βm et de la qualité relative
lm (i)/Lm de l’estimation du ième individu. L’estimation finale est enfin obtenue à la suite d’une moyenne
ou médiane des prévisions pondérées par la qualité respective de chacune de ces prévisions. Gey et Poggi
(2002) conseille la médiane afin de s’affranchir de l’influence de prédicteurs très atypiques.
94 Chapitre 9. Agrégation de modèles
M
X
φ(x)
b = cm δ(x; γm )
m=1
est cette combinaison où cm est un paramètre, δ le classifieur (faible) de base fonction de x et dépendant
d’un paramètre γm . Si Q est une fonction perte, il s’agit, à chaque étape, de résoudre :
n
X
(cm , γm ) = arg min Q(yi , φbm−1 (xi ) + cδ(xi ; γ));
(c,γ)
i=1
φbm (x) = φbm−1 (x) + cm δ(x; γm ) est alors une amélioration de l’ajustement précédent.
Dans le cas d’adaboost pour l’ajustement d’une fonction binaire, la fonction perte utilisée est Q(y, φ(x)) =
exp[−yφ(x)]. il s’agit donc de résoudre :
n
X h i
(cm , γm ) = arg min exp −yi (φbm−1 (xi ) + cδ(xi ; γ)) ;
(c,γ)
i=1
n
X
= arg min wim exp [−cyi δ(xi ; γ)]
(c,γ)
i=1
wim ne dépendant ni de c ni de γ, il joue le rôle d’un poids fonction de la qualité de l’ajustement précédent.
Quelques développements complémentaires montrent que la solution du problème de minimisation est ob-
3. Famille de modèles adaptatifs 95
1 1 − Ebp
cm = log
2 Ep
avec Ebp erreur apparente de prévision tandis que les wi sont mis à jour avec :
(m) (m−1)
wi = wi exp[−cm ].
On montre ainsi qu’adaboost approche φ pas à pas par un modèle additif en utilisant une fonction perte
exponentielle tandis que d’aubres types de boosting sont définis sur la base d’une autre fonction perte :
AdaBoost Q(y, φ(x)) = exp[−yφ(x)],
LogitBoost Q(y, φ(x)) = log2 (1 + exp[−2yφ(x)],
L2 Boost Q(y, φ(x)) = (y − φ(x))2 /2.
D’autres fonctions pertes sont envisageables pour, en particulier, un algorithme plus robuste face à un
échantillon d’apprentissage présentant des erreurs de classement dans le cas de la discrimination ou encore
des valeurs atypiques (outliers) dans le cas de la régression. Hastie et col. (2001) comparent les intérêts
respectifs de plusieurs fonctions pertes. Celles jugées robustes (entropie en discrimination, valeur absolue
en régression) conduisent à des algorithmes plus compliqués à mettre en œuvre.
Pour m = 1 à M Faire P
Calculer γjm = arg minγ xi ∈Rjm Q(yi , φbm−1 + γ).
Fin Pour PJm
Mise à jour : φbm (x) = φbm (x) j=1 γjm 1{x ∈ Rjm }.
Fin Pour
Résultat : φbM (x0 ).
L’algorithme est initialisé par un terme constant c’est-à-dire encore un arbre à une feuille. Les ex-
pressions du gradient reviennent simplement à calculer les résidus rmj du modèle à l’étape précédente. Les
termes correctifs γjm sont ensuite optimisés pour chacune des régions Rjm définies par l’arbre de régression
ajustant les résidus. Un algorithme de discrimination est similaire calculant autant de probabilités que de
classes à prévoir.
96 Chapitre 9. Agrégation de modèles
3.7 Compléments
De nombreuses adaptations ont été proposées à partir de l’algorithme initial. Elles font intervenir
différentes fonctions pertes offrant des propriétés de robustesse ou adaptées à une variable cible Y quanti-
tative ou qualitative à plusieurs classes : Adaboost M1, M2, MH ou encore MR. Schapire (2002) liste une
bibliographie détaillée.
Sur-ajustement
Dans le dernier algorithme, le nombre d’itérations peut être contrôlé par un échantillon de validation.
Comme pour d’autres méthodes (perceptron), il suffit d’arrêter la procédure lorsque l’erreur estimée sur
cet échantillon arrive à se dégrader. Une autre possibilité consiste à ajouter un coefficient de rétrécissement
(shrinkage comme en régression ridge). Compris entre 0 et 1, celui-ci pénalise l’ajout d’un nouveau modèle
dans l’agrégation. Il joue le rôle du coefficient decay du perceptron) et, si sa valeur est petite (< 0, 1)
cela conduit à accroı̂tre le nombre d’arbres mais entraı̂ne des améliorations de la qualité de prévision. Le
boosting est un algorithme qui peut effectivement converger exactement, donc vers une situation de sur-
apprentissage. En pratique, cette convergence peut être rendue suffisamment lente pour être facilement
contrôlée.
Interprétation
L’interprétabilité des arbres de décision sont une des raisons de leur succès. Leur lecture ne nécessite pas
de compétences particulières en statistique. Cette propriété est évidemment perdue par l’agrégation d’arbres
ou de tout autre modèle. Néanmoins, surtout si le nombre de variables est très grand, il est important d’avoir
une indication de l’importance relative des variables entrant dans la modélisation.
Des critères d’importance des variables sont néanmoins faciles à calculer comme dans le cas des forêts
aléatoires.
Instabilité
Tous les auteurs ont remarqué la grande instabilité des modèles construits à base d’arbres : une légère
modification des données est susceptible d’engendrer de grandes modifications dans les paramètres (les
seuils et feuilles) du modèle. C’est justement cette propriété qui rend cette technique très appropriée à une
amélioration par agrégation. Breiman (1998), pour les arbres de classification, puis Gey et Poggi (2002),
pour les arbres de régression, détaillent et quantifient en pratique l’influence de cette instabilité ainsi que
celle de l’apport potentiel du boosting par rapport au bagging.
Propriétés
Les justifications théoriques des bons résultats du boosting et principalement la résistance au sur-
ajustement sont encore l’objet de travaux intenses suivant différentes pistes. La difficulté vient de ce que
l’application de ce type d’algorithme sur une méthode donnée, fait généralement mieux que l’asymptotique
(en faisant croı̂tre la taille de l’échantillon) pour cette même méthode. Les approches usuelles de la sta-
tistique asymptotique sont mises en défaut et les bornes obtenues pour majorer les erreurs d’estimations
ou de prévision sont trop grossières pour rendre compte de l’efficacité effective de la méthode. On trouve
ainsi, empiriquement, que l’erreur de prévision ou de généralisation peut continuer à décroı̂tre longtemps
après que l’erreur d’ajustement se soit annulée. Parmi les pistes explorées, une approche “stochastique”
considère que, même déterministe, l’algorithme simule une dynamique markovienne (Blanchard, 2001).
Une deuxième, rappelée ci-dessus, présente le boosting comme une procédure d’optimisation globale par
une méthode de gradient (Friedman, 2001). D’autres enfin (par exemple Lugosi et Vayatis, 2001), plus pro-
bantes, utilisent des inégalités de Vapnik pour montrer que, sous des hypothèses raisonnables et vérifiées
dans les cas usuels : convexité et régularité de la fonction perte (exponentielle), arbres binaires, la pro-
babilité d’erreur du boosting converge avec la taille n de l’échantillon vers celle du classifieur bayésien
c’est-à-dire celui, optimal, obtenu en supposant connue la loi conjointe de X et Y .
4. Exemples 97
3.0
5
4
2.0
Err.app
Err.test
3
1.0
2
0.0
5 10 15 5 10 15
F IG . 9.1 – Cancer : Évolution des taux d’erreur (%) sur les échantillons d’apprentissage et de test en fonction
du nombre d’arbres dans le modèle avec adaboost.
Logiciels
Le bagging est très facile à programmer dans R mais il existe une librairie (ipred) qui en propose
des implémentations efficaces. L’algorithme de boosting (Freund et Schapire, 1996), ou plutôt la version de
Friedman et col. (2000) a été développée et interfacée avec R dans la librairie gbm tandis que Friedman fait
commercialiser ses outils par la société Salford System. Schapire diffuse lui le logiciel Boost texter sur sa
page pour des utilisations non commerciales.
Les forêts aléatoires (Breiman, 2001), sont estimées par un programme écrit en fortran interfacé avec R
et distribuées avec la librairie randomForest de R.
D’autres implémentations sont accessibles dans des boı̂tes à outils mathlab.
4 Exemples
4.1 Cancer du sein
La prévision de l’échantillon test par ces algorithmes conduit aux matrices de confusion :
et, respectivement, des erreurs estimées de 4,4 et 2,2% pour cet exemple et avec les échantillons (apprentis-
sage et test) tirés.
Il est remarquable de noter l’évolution des erreurs d’ajustement et de test sur cet exemple (figure 9.1)
en fonction du nombre d’arbres estimés par adaboost. L’erreur d’apprentissage arrive rapidement à 0 tandis
que celle de test continue à décroı̂tre avant d’atteindre un seuil. Cet algorithme est donc relativement ro-
buste au sur-apprentissage avant, éventuellement, de se dégrader pour des raisons, sans doute, de précision
numérique. Ce comportement à été relevé dans beaucoup d’exemples dans la littérature.
98 Chapitre 9. Agrégation de modèles
100
250
Valeurs observees
50
Résidus
150
0
50
−50
0
−100
0 50 100 200 300
0 50 100 150 200 250 300
Valeurs predites
Valeurs predites
F IG . 9.2 – Ozone : Valeurs observées et résidus de l’échantillon test en fonction des valeurs prédites par
une forêt aléatoire
Les variables prépondérantes sont celles apparues dans la construction d’un seul arbre.
Cnon Coui
Cnon 126 11
Coui 10 53
0.24
0.25
0.20
0.20
Err.oob
Err.test
0.16
0.15
0.12
0.10
0 100 200 300 400 500 0 100 200 300 400 500
Index Index
F IG . 9.3 – Banque : Évolution du taux de mal classés estimés ”out-of-bag” et sur l’échantillon test en
fonction du nombre d’arbres intervenant dans la combinaison de modèles.
mettent en évidence les variables les plus discriminantes. De son côté, le boosting (sans schrinkage) fournit
des résultats tout à fait comparables avec un taux d’erreur de 11%.
5 Lpin1 Lpin
TRb
PPARa GSTmu
4 Lpin2 THIOL
HPNCL CYP2c29
BSEP
3 FDFT ALDH3PMDCI BIEN
PDK4 apoC3 SHP1 GSTpi2
CPT2
NURR1
PPAR
2
ACBP
GS apoE i.BAT FAS CYP3A11
1 RARa
Tpalpha
UCP3
apoBCYP27a1
ACOTH eif2gC16SR CACP
LPK COX2 COX1
TRa ADSS1UCP2
MS LXRa
PXR Waf1MDR2 LDLr
VLDLrG6Pase CYP4A14
CYP4A10
0 SIAT4c
RXRg1CYP7a
Pex11a
CYP26 ACC1 PECI
cMOAT GK SPI1.1
CYP2b13
THB
RARb2 PPARg
MDR1
CYP24
AM2RGSTa CIDEA ACC2cHMGCoAS
PLTP
MTHFRL.FABP
c.fosi.NOS
PAL
CYP27b1
PON ACAT1
LXRb
i.BABPapoA.I
IL.2
X36b4
FXR RXRai.FABP Tpbeta MCAD
MRP6
−1 CYP8b1
CBSBcl.3
ADISP NGFiBhABC1 LPL FAT
Lpin3 mHMGCoASCAR1 BACT
HMGCoAredNtcp
mABC1 M.CPT1
ap2
CYP2b10
VDR LCE OCTN2 SR.BI AOX S14
PPARd RXRb2
−2 G6PDH
−2 0 2 4 6 8
Wild
F IG . 9.4 – Souris : représentation des gènes en fonction de leur importance pour la discrimination des
régimes à génotype fixé (WT sur l’axe horizontal et PPARα sur l’axe vertical).
Chapitre 10
Les Support Vector Machines (SVM)
1 Introduction
Les Support Vector Machines souvent traduit par l’appellation de Séparateur à Vaste Marge (SVM) sont
une classe d’algorithmes d’apprentissage initialement définis pour la discrimination c’est-à-dire la prévision
d’une variable qualitative initialement binaire. Ils ont été ensuite généralisés à la prévision d’une variable
quantitative. Dans le cas de la discrimination d’une variable dichotomique, ils sont basés sur la recherche de
l’hyperplan de marge optimale qui, lorsque c’est possible, classe ou sépare correctement les données tout
en étant le plus éloigné possible de toutes les observations. Le principe est donc de trouver un classifieur, ou
une fonction de discrimination, dont la capacité de généralisation (qualité de prévision) est la plus grande
possible.
Cette approche découle directement des travaux de Vapnik en théorie de l’apprentissage à partir de
1995. Elle s’est focalisée sur les propriétés de généralisation (ou prévision) d’un modèle en contrôlant sa
complexité. Voir à ce sujet le chapitre 5 section 3.3 concernant la dimension de Vapnik Chernovenkis qui
est un indicateur du pouvoir séparateur d’une famille de fonctions associé à un modèle et qui en contrôle la
qualité de prévision. Le principe fondateur des SVM est justement d’intégrer à l’estimation le contrôle de la
complexité c’est-à-dire le nombre de paramètres qui est associé dans ce cas au nombre de vecteurs supports.
L’autre idée directrice de Vapnik dans ce développement, est d’éviter de substituer à l’objectif initial : la dis-
crimination, un ou des problèmes qui s’avèrent finalement plus complexes à résoudre comme par exemple
l’estimation non-paramétrique de la densité d’une loi multidimensionnelle en analyse discriminante.
Le principe de base des SVM consiste de ramener le problème de la discrimination à celui, linéaire, de
la recherche d’un hyperplan optimal. Deux idées ou astuces permettent d’atteindre cet objectif :
• La première consiste à définir l’hyperplan comme solution d’un problème d’optimisation sous contraintes
dont la fonction objectif ne s’exprime qu’à l’aide de produits scalaires entre vecteurs et dans lequel
le nombre de contraintes “actives” ou vecteurs supports contrôle la complexité du modèle.
• Le passage à la recherche de surfaces séparatrices non linéaires est obtenu par l’introduction d’une
fonction noyau (kernel) dans le produit scalaire induisant implicitement une transformation non
linéaire des données vers un espace intermédiaire (feature space) de plus grande dimension. D’où
l’appellation couramment rencontrée de machine à noyau ou kernel machine. Sur le plan théorique,
la fonction noyau définit un espace hilbertien, dit auto-reproduisant et isométrique par la transforma-
tion non linéaire de l’espace initial et dans lequel est résolu le problème linéaire.
Cet outil devient largement utilisé dans de nombreux types d’application et s’avère un concurrent
sérieux des algorithmes les plus performants (agrégation de modèles). L’introduction de noyaux, spécifiquement
adaptés à une problématique donnée, lui confère une grande flexibilité pour s’adapter à des situations très
diverses (reconnaissance de formes, de séquences génomiques, de caractères, détection de spams, diagnos-
tics...). À noter que, sur le plan algorithmique, ces algorithmes sont plus pénalisés par le nombre d’obser-
vations, c’est-à-dire le nombre de vecteurs supports potentiels, que par le nombre de variables. Néanmoins,
des versions performantes des algorithmes permettent de prendre en compte des bases de données volumi-
neuses dans des temps de calcul acceptables.
101
102 Chapitre 10. Les Support Vector Machines (SVM)
F IG . 10.1 – Sous-ajustement linéaire et sur-ajustement local (proches voisins) d’un modèle quadratique.
Le livre de référence sur ce sujet est celui de Schölkopf et Smola (2002). De nombreuses introduction et
présentations des SVM sont accessibles sur des sites comme par exemple : www.kernel-machines.org.
Guermeur et Paugam-Moisy (1999) en proposent une en français.
2 Principes
2.1 Problème
Comme dans toute situation d’apprentissage, on considère une variable Y à prédire mais qui, pour
simplifier cette introduction élémentaire, est supposée dichotomique à valeurs dans {−1, 1}. Soit X =
X 1 , . . . , X p les variables explicatives ou prédictives et φ(x) un modèle pour Y , fonction de x = {x1 , . . . , xp } ∈
IRp . Plus généralement on peut simplement considérer la variable X à valeurs dans un ensemble F.
On note
z = {(x1 , y1 ), . . . , (xn , yn )}
un échantillon statistique de taille n et de loi F inconnue. L’objectif est donc de construire une estimation
φb de φ, fonction de F dans {−1, 1}, de sorte que la probabilité :
P (φ(X) 6= Y )
soit minimale.
Dans ce cas (Y dichotomique), le problème se pose comme la recherche d’une frontière de décision
dans l’espace F des valeurs de X. De façon classique, un compromis doit être trouvé entre la complexité
de cette frontière, qui peut s’exprimer aussi comme sa capacité à pulvériser un nuage de points par la VC
dimension, donc la capacité d’ajustement du modèle, et les qualités de généralisation ou prévision de ce
modèle. Ce principe est illustré par la figure 10.1.
2.2 Marge
La démarche consiste à rechercher, plutôt qu’une fonction φb à valeurs dans {−1, 1}, une fonction réelle
f dont le signe fournira la prévision :
φb = signe(f ).
L’erreur s’exprime alors comme la quantité :
P (φ(X) 6= Y ) = P (Y f (X) ≤ 0).
De plus, la valeur absolue de cette quantité |Y f (X)| fournit une indication sur la confiance à accorder au
résultat du classement.
On dit que Y f (X) est la marge de f en (X, Y ).
3. Séparateur linéaire 103
3 Séparateur linéaire
3.1 Hyperplan séparateur
La résolution d’un problème de séparation linéaire est illustré par la figure 10.2. Dans le cas où la
séparation est possible, parmi tous les hyperplans solutions pour la séparation des observations, on choisit
celui qui se trouve le plus “loin” possible de tous les exemples, on dit encore, de marge maximale.
Dans le cas linéaire, un hyperplan est défini à l’aide du produit scalaire de H par son équation :
hw, xi + b = 0
f (x) = hw, xi + b
indique de quel côté se trouve le point x à prédire. Plus précisément, un point est bien classé si et seulement
si :
yf (x) > 0
mais, comme le couple (w, b) qui caractérise le plan est défini à un coefficient multiplicatif près, on s’im-
pose :
yf (x) ≥ 1.
| hw, xi + b| |f (x)|
d(x) = =
kwk kwk
104 Chapitre 10. Les Support Vector Machines (SVM)
2
et, dans ces conditions, la marge du plan a pour valeur kwk 2 . Chercher le plan séparateur de marge maximale
Le problème dual est obtenu en introduisant des multiplicateurs de Lagrange. La solution est fournie
par un point-selle (w∗ , b∗ , λ∗ ) du lagrangien :
n
X
L(w, b, λ) = 1/2kwk22 − λi [yi (< w, xi > +b) − 1] .
i=1
Les conditions d’annulation des dérivées partielles du lagrangien permettent d’écrire les relations que
vérifient le plan optimal, avec les λ∗i non nuls seulement pour les points supports :
n
X n
X
w∗ = λ∗i yi xi et λ∗i yi = 0.
i=1 i=1
Pour trouver le point-selle, il suffit alors de maximiser W (λ) avec λi ≥ 0 pour tout i ∈ {1, ...n}.
La résolution de ce problème d’optimisation quadratique de taille n, le nombre d’observations, fournit
l’équation de l’hyperplan optimal :
n
X 1
λ∗i yi < x, xi > +b∗ = 0 avec b0 = − [< w∗ , svclass+1 > + < w∗ , svclass−1 >] .
i=1
2
Pour une nouvelle observation x non apprise présentée au modèle, il suffit de regarder le signe de l’expres-
sion :
X n
f (x) = λ∗i yi hx, xi i + b∗
i=1
pour savoir dans quel demi-espace cette forme se trouve, et donc quelle classe il faut lui attribuer.
Remarques
• Le paramètre δ contrôlant la pénalisation est à régler. Plus il est grand et plus cela revient à attribuer
une forte importance à l’ajustement. Il est le paramètre qui ajuste le compromis entre bon ajustement
et bonne généralisation.
• Le problème dans le cas non séparable se met sous la même forme duale que dans la cas séparable
à une différence près : les coefficients λi sont tous bornés par la constante δ de contrôle de la
pénalisation.
• De nombreux algorithmes sont proposés pour résoudre ces problèmes d’optimisation quadratique.
Certains, proposant une décomposition de l’ensemble d’apprentissage, sont plus particulièrement
adaptés à prendre en compte un nombre important de contraintes lorsque n, le nombre d’observation,
est grand.
• On montre par ailleurs que la recherche des hyperplans optimaux répond bien au problème de la
“bonne” généralisation. On montre aussi que, si l’hyperplan optimal peut être construit à partir d’un
petit nombre de vecteurs supports, par rapport à la taille de la base d’apprentissage, alors la capacité
en généralisation du modèle sera grande, indépendamment de la taille de l’espace.
• Plus précisément, on montre que, si les X sont dans une boule de rayon R, l’ensemble des hyperplans
de marge fixée δ a une VC-dimension bornée par
R2
avec kxk ≤ R.
δ2
• L’erreur par validation croisée (leave-one-out) et bornée en moyenne par le nombre de vecteurs sup-
ports. Ces bornes d’erreur sont bien relativement prédictives mais néanmoins trop pessimistes pour
être utiles en pratique.
Malheureusement, cette condition théorique d’existence est difficile à vérifier et, de plus, elle ne donne
aucune indication sur la construction de la fonction noyau ni sur la transformation Φ. La pratique consiste
à combiner des noyaux simples pour en obtenir des plus complexes (multidimensionnels) associés à la
situation rencontrée.
Beaucoup d’articles sont consacrés à la construction d’un noyau plus ou moins exotique et adapté à une
problématique posée : reconnaissance de séquences, de caractères, l’analyse de textes... La grande flexibilité
dans la définition des noyaux, permettant de définir une notion adaptée de similitude, confère beaucoup
d’efficacité à cette approche à condition bien sur de construire et tester le bon noyau. D’où apparaı̂t encore
l’importance de correctement évaluer des erreurs de prévision par exemple par validation croisée.
Attention, les SVM à noyaux RBF gaussiens, pour lesquels, soit on est dans le cas séparable, soit la
pénalité attribuée aux erreurs est autorisée à prendre n’importe quelle valeur, ont une VC-dimension infinie.
Le problème se pose toujours comme la minimisation d’une fonction coût, mais, plutôt que d’être basée sur
un critère d’erreur quadratique (moindres carrés), celle-ci s’inspire des travaux de Huber sur la recherche
de modèles robustes et utilise des écarts absolus.
On note |.| la fonction qui est paire, continue, identiquement nulle sur l’intervalle [0, ] et qui croit
linéairement sur [, +∞]. La fonction coût est alors définie par :
n
1X
E(w, γ) = |yi − φ(xi , w)| + γkwk2
n i=1
où γ est, comme en régression ridge, un paramètre de régularisation assurant le compromis entre généralisation
et ajustement. De même que précédemment, on peut écrire les solutions du problèmes d’optimisation. Pour
plus de détails, se reporter à Schölkopf et Smola (2002). Les points de la base d’apprentissage associés à un
coefficient non nul sont là encore nommés vecteurs support.
Dans cette situation, les noyaux k utilisés sont ceux naturellement associés à la définition de bases de
fonctions. Noyaux de splines ou encore noyau de Dériclet associé à un développement en série de Fourier
sont des grands classiques. Ils expriment les produits scalaires des fonctions de la base.
5 Exemples
Même si les SVM s’appliquent à un problème de régression, nous n’illustrons que le cas plus classique
de la discrimination.
ign malignant
benign 83 1
malignant 3 50
0 1
FALSE 161 13
TRUE 7 27
Ce résultat serait à confirmer avec des estimations sytématiques de l’erreur. Les graphiques de la figure 10.4
montre le bon comportement de ce prédicteur. Il souligne notamment l’effet ”tunnel” de l’estimation qui
accepte des erreurs autour de la diagonale pour se concentrer sur les observations plus éloignées donc plus
difficiles à ajuster.
300
100
250
50
200
Valeurs observees
Résidus
150
0
100
−50
50
−100
0
0 50 100 150 200 250 300 0 50 100 150 200 250 300
F IG . 10.4 – Ozone : Valeurs observées et résidus en fonction des valeurs prédites pour l’échantillon test.
Chapitre 11
Conclusion
Ce chapitre se propose de résumer les grandes lignes de ce cours dans une vue synthétique : méthodes
et stratégies dans l’objectif d’une comparaison globale des méthodes sur les différents jeux de données
(cancer, pollution, carte visa). Il évoque enfin les pièges fréquents de telles démarches et revient sur la place
du statisticien.
Types de variables
Explicatives L’ensemble des p variables explicatives ou prédictives est noté X, il est constitué de variables
• XIR toutes quantitatives1 ,
• XE toutes qualitatives,
• XIR∪E un mélange de qualitatives et quantitatives.
À expliquer La variable à expliquer ou à prédire ou cible (target) peut être
• Y quantitative,
• Z qualitative à 2 modalités,
• T qualitative.
Objectifs
Trois objectifs principaux sont poursuivis dans les applications classiques de data mining :
i. Exploration multidimensionnelle ou réduction de dimension : production de graphes, d’un sous-
ensemble de variables représentatives Xr , d’un ensemble de composantes Cq préalables à une autre
technique.
ii. Classification (clustering) ou segmentation : production d’une variable qualitative Tr .
iii. Modélisation (Y ou Z)/Discrimination (Z ou T ) production d’un modèle de prévision de Y (resp.
Z, T ).
D’autres méthodes plus spécifiques à certaines problématiques peuvent apparaı̂tre (analyse sensorielle, ana-
lyse conjointe, SARIMA. . . mais leur usage reste limité à des contextes bien particuliers.
Outils
Les méthodes utilisables se classent en fonction de leur objectif et des types de variables prédictives et
cibles.
1 Une variables explicative qualitative à 2 modalités (0,1) peut être considérée comme quantitative ; c’est l’indicatrice des modalités.
109
110 Chapitre 11. Conclusion
Exploration Classification
ACP XIR et ∅ CAH XIR et ∅
AFCM XE et ∅ NuéeDyn XIR et ∅
AFD XIR et T RNKoho XIR et ∅
Modélisation
Stratégies
Les stratégies classiques de la fouille de données consistent à enchaı̂ner les étapes suivantes :
i. Extraction de l’entrepôt des données éventuellement par sondage pour renforcer l’effort sur la qualité
des données plutôt que sur la quantité.
ii. Exploration
• Tri à plat, étape élémentaire mais essentielle de vérification des données, de leur cohérence. Étude
des distributions, transformation, recodage éventuel des variables quantitatives, regroupement de
modalités des variables qualitatives, élimination de certaines variables (trop de données man-
quantes, quasi constantes, redondantes. . . ). Gérer rigoureusement les codes des variables et de
leurs modalités.
• Étude bivariée Recherche d’éventuelles relations non linéaires. Si les variables sont trop nom-
breuses, sélectionner les plus liées à la variable cible. Complétion des données manquantes.
iii. Analyse
Classification : Modélisation/Discrimination :
Pas de variable à expliquer Une variable à expliquer Y , Z ou T
• En cas de variables XIR∪E ou XT , la classi- • Extraction d’un échantillon test,
fication est exécutée sur les Cq issues d’une • Estimation, optimisation (validation croisée)
AFCM des variables codées en classes. des modèles pour chacune des méthodes uti-
• Caractérisation des classes par les variables lisables.
initiales à l’aide des outils de discrimination. • Comparaison des performances des
modèles optimaux de chaque méthode
sur l’échantillon test.
iv. Exploitation du modèle et diffusion des résultats. Finalement, une fois que la bonne méthode associé
au bon modèle ont été choisie, tout l’échantillon est regroupé pour faire une dernière estimation du
modèle qui sera utilisé en exploitation.
0.14
0.12
0.10
0.08
0.06
0.5
0.4
0.04
0.3
0.02
0.2
0.00
0.1
0.0
err.lm err.tree err.neur err.bag err.rf err.svm
F IG . 11.1 – Cancer : Diagrammes boı̂tes des taux d’erreurs observés sur 50 échantillons tests et pour chaque
méthode : régression logistique, arbre de décision, réseau de neurones, bagging, random forest, svm. Le
boosting est mis de côté pour des problèmes d’échelle et de comportement erratique.
TAB . 11.1 – Banque : Moyennes des taux d’erreurs de classement calculés sur 30 échantillons test pour
chaque modèle de prévision
Méthode Adaboost Arbre Régression Perceptron Forêt
Moyenne 9.7 11.8 12.5 13.4 10.6
Écart-type 2.0 2.3 2.0 2.3 2.2
échantillon test fournit donc une estimation sans biais de l’erreur de prévision. La distribution de ces erreurs
est alors représentée par des diagrammes en boı̂tes (cf ; fig. 11.1). Les résultats montrent le bon compor-
tement des forêts aléatoires et les très bons résultats du boosting en général mais cet algorithme, sur cet
exemple, peut réserver des surprises mal contrôlées et ici pas encore expliquées.
F IG . 11.2 – Ozone : Diagrammes boı̂tes des taux d’erreurs observés sur 50 échantillons tests et pour chaque
méthode : mocage, régression linéaire, quadratique, arbre de décision, bagging, random forest, svm réseau
de neurones.
17.5
15.0
t
a
u 12.5
x
m
c
10.0
7.5
5.0
Aboos Arbre Logit ResNe Rfor
Methode
F IG . 11.3 – Banque : Diagrammes boı̂tes des taux d’erreurs observés sur 30 échantillons tests et pour chaque
méthode.
3. Pièges 113
blement plus performants (cf. figure 11.3 et tableau 11.1) sur un échantillon test. Les écarts-types, dépendant
de la taille de l’échantillon test, y sont relativement stables. Les moyennes montrent, sur cet exemple, que
le boosting prédit un peu mieux que les forêts aléatoires sans que des raisons bien spécifiques viennent
l’expliquer. Bien sûr, ce qui est gagné en prédictibilité est perdu en interprétabilité par rapport à un modèle
classique. Néanmoins le gain réalisé est souvent étonnant et des indices d’importance des variables restent
disponibles.
3 Pièges
Les principaux pièges qui peuvent être rencontrés au cours d’une prospection peuvent être le résultat
d’un acharnement en quête de sens (data snooping). Cela signifie qu’à force de creuser, contrairement à un
prospecteur minier à la recherche de diamants bien réels, le prospecteur en données disposant d’un grand
nombre de variables finit bien, en mode exploratoire, par trouver des relations semblant hautement signi-
ficatives. Par exemple, au seuil classique, 5% des tests sont, à tord, significatifs et conduisent à des ”faux
positifs” ou des fausses corrélations. Il suffit donc d’en faire beaucoup, de croiser beaucoup de variables,
pour nécessairement trouver du ”sens” dans des données. Encore une fois, il est préférable d’éviter le fonc-
tionnement ”Shadock” (cf. figure 11.4) : je n’ai qu’une chance sur un milliard de réussir ; je me dépèche
donc de rater le plus d’essais possibles.
En phase de modélisation, une sur-paramétrisation ou un sur-ajustement du modèle peut parfaitement
expliquer des données sans pour autant que les résultats soient extrapolables ou généralisables à d’autres
données que celles étudiées. Les résultats de prévision seront donc entachés d’une forte erreur relative liée
à la variance des estimations des paramètres. C’est toujours le problème de trouver un bon compromis
entre le biais d’un modèle plus ou moins faux et la variance des estimateurs. Nous insistons donc sur les
indispensables phases de choix de modèles et comparaison des méthodes.
4 Rôle du statisticien
4.1 Des compétences multiples
Une bonne pratique du Data Mining nécessite de savoir articuler toutes les méthodes entrevues dans ce
document. Rude tâche, qui ne peut être entreprise qu’à la condition d’avoir très bien spécifié les objectifs
de l’étude. On peut noter que certaines méthodes poursuivent les mêmes objectifs prédictifs. Dans les bons
cas, données bien structurées, elles fourniront des résultats très similaires, dans d’autres une méthode peut
se révéler plus efficace compte tenu de la taille de l’échantillon ou géométriquement mieux adaptée à la
topologie des groupes à discriminer ou encore en meilleure interaction avec les types des variables. Ainsi, il
peut être important et efficace de découper en classes des variables prédictives quantitatives afin d’approcher
de façon sommaire une version non-linéaire du modèle par une combinaison de variables indicatrices. Cet
aspect est par exemple important en régression logistique ou avec un perceptron mais inutile avec des
arbres de décisions qui intègrent ce découpage en classes dans la construction du modèle (seuils optimaux).
D’autre part, les méthodes ne présentent pas toutes les mêmes facilités d’interprétation. Il n’y a pas de
meilleur choix a priori, seul l’expérience et un protocole de test soigné permettent de se déterminer. C’est
la raison pour laquelle des logiciels généralistes comme SAS (module Enterprise Miner) ne font pas de
choix et offrent ces méthodes en parallèle pour mieux s’adapter aux données, aux habitudes de chaque
utilisateur (client potentiel) et à la mode.
F IG . 11.4 – Shadoks : Tant qu’à pomper, autant que cela serve à quelque chose !
d’heure suffit pour se familiariser avec une interface graphique conviviale, la bonne compréhension des
méthodes employées nécessite plusieurs heures de cours ou réflexion à Bac+5. Il devient tellement simple,
avec les outils disponibles, de lancer des calculs, que certains n’hésitent pas à comparer prospecteur de
données et chauffeur de voiture en arguant qu’il n’est pas nécessaire d’être un mécanicien accompli pour
savoir conduire. Néanmoins, la conduite d’une modélisation, d’une segmentation, d’une discrimination,
imposent à son auteur des choix plus ou moins implicites qui sont loin d’être neutres et qui dépassent
largement en complexité celui du choix d’un carburant par le conducteur à la pompe.
Bibliographie
115
116 BIBLIOGRAPHIE
117
118 BIBLIOGRAPHIE
Chapitre A
Introduction au bootstrap
1 Introduction
La motivation du bootstrap1 (Efron, 1982 ; Efron et Tibshirani, 1993) est d’approcher par simulation
(Monte Carlo) la distribution d’un estimateur lorsque l’on ne connaı̂t pas la loi de l’échantillon ou, plus
souvent lorsque l’on ne peut pas supposer qu’elle est gaussienne. L’objectif est de remplacer des hypothèss
probabilistes pas toujours vérifiées ou même invérifiables par des simulations et donc beaucoup de calcul.
Le principe fondamental de cette technique de rééchantillonnage est de substituer à la distribution de
probabilité inconnue F , dont est issu l’échantillon d’apprentissage, la distribution empirique Fb qui donne
un poids 1/n à chaque réalisation. Ainsi on obtient un échantillon de taille n dit échantillon bootstrap selon
la distribution empirique Fb par n tirages aléatoires avec remise parmi les n observations initiales.
Il est facile de construire un grand nombre d’échantillons bootstrap sur lesquels calculer l’estimateur
concerné. La loi simulée de cet estimateur est une approximation asymptotiquement convergente sous des
hypothèses raisonnables2 de la loi de l’estimateur. Cette approximation fournit ainsi des estimations du
biais, de la variance, donc d’un risque quadratique, et même des intervalles de confiance de l’estimateur
sans hypothèse (normalité) sur la vraie loi.
De manière plus générale, soit θ un paramètre dont on suppose que c’est une fonction de la loi F . on écrit
donc θ = t(F ). Par exemple, µ = E(F ) est un paramètre de F suivant ce modèle. Une statistique est une
fonction (mesurable) de l’échantillon. Avec le même exemple :
n
1X
µ
b=x= xi
n i=1
et x est la statistique qui estime µ. On dit que c’est un estimateur “plug-in” et, plus généralement,
1 Cette appellation est inspirée du baron de Münchhausen (Rudolph Erich Raspe) qui se sortit de sables mouvants par traction sur
ses tirants de bottes. En France “bootstrap” est parfois traduit par à la Cyrano (acte III, scène 13) en référence à ce héros qui prévoyait
d’atteindre la lune en se plaçant sur une plaque de fer et en itérant le jet d’un aimant.
2 Échantillon indépendant de même loi et estimateur indépendant de l’ordre des observations.
119
120 Chapitre A. Introduction au bootstrap
D ÉFINITION A.1. — On appelle estimateur plug-in d’un paramètre θ de F , l’estimateur obtenu en remplaçant
la loi F par la loi empirique :
θb = t(Fb).
b = E(Fb) = x.
comme dans le cas de l’estimation de µ : µ
Mais, à part dans le cas très élémentaire où, comme dans l’exemple ci-dessus, θ est une moyenne, il n’y
a pas de formule explicite de cet estimateur. Une approximation de l’estimateur bootstrap (ou plug-in) de
l’écart-type de θb est obtenue par une simulation (Monte-Carlo) décrite dans l’algorithme ci-dessous.
Pour un paramètre θ et un échantillon x donnés, on note θb = s(x) l’estimation obtenue sur cet
échantillon. Une réplication bootstrap de θb est donnée par : θb∗ = s(x∗ ).
σ
bB est l’approximation bootstrap de l’estimation plug-in recherchée de l’écart-type de θ.
b
3. Compléments 121
BF (θ)
b = EF [s(x)] − t(F ).
Comme pour l’écart-type, il n’existe généralement pas d’expression analytique et il faut avoir recours à une
approximation par simulation.
3 Compléments
En résumé, on peut dire que le bootstrap repose sur une hypothèse très élémentaire : θb∗ se comporte par
rapport à θb comme θb par rapport à θ. La connaissance de θb∗ (distribution, variance, biais. . . ) renseigne alors
sur celle de θ.b
Beaucoup d’autres compléments sont à rechercher dans la littérature et en particulier dans Efron et
Tibshirani (1993). Il est ainsi possible de définir des intervalles de confiance bootstrap en considérant la
distribution et les quantiles de θb∗ ou même encore des tests à partir des versions bootstrap de leur statistique.
122 Chapitre A. Introduction au bootstrap
Le bootstrap rapidement décrit ici est dit “non-paramétrique” car la loi empirique Fb est une estimation
non-paramétrique de F . Dans le cas où F serait connue à un paramètre près, il existe également une version
dite paramétrique du bootstrap.
Pour des estimateurs plus compliqués (fonctionnels) comme dans le cas de la régression non-paramétrique
par noyau ou spline, il est facile de construire graphiquement une enveloppe bootstrap de l’estimateur à par-
tir de réplications de l’échantillon. Celle-ci fournit généralement une bonne appréciation de la qualité de
l’estimateur obtenu. Attention, dans le cas de la régression il est en principe plus justifié de répliquer le
tirage sur les résidus plutôt que sur les observations. Ce sont les résidus qui sont en effet supposés i.i.d.
et qui vérifient donc les hypothèses nécessaires mais cette approche devient très sensible à l’hypothèse sur
la validité du modèle. Il est finalement d’usage de considérer un échantillon bootstrap issu des données
initiales (Efron et Tibshirani) :
z∗b = {(x∗b ∗b ∗b ∗b
1 , y1 ), . . . , (xn , yn )};
1 Introduction 3
1 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Motivations du data mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.1 Origine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 Environnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3 Apprentissage statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.1 Objectif général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.2 Problématiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.3 Stratégies de choix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4 Stratégie du data mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.1 Les données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.2 Les étapes de l’apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
5 Exemples et jeux de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
5.1 Banque, finance, assurance : Marketing . . . . . . . . . . . . . . . . . . . . . . . 9
5.2 Environnement : pic d’ozone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
5.3 Santé : aide au diagnostic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
5.4 Biologie : sélection de gènes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
5.5 Exemples industriels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
6 Contenu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2 Régression linéaire 13
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2 Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.1 Estimation par M.C. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3 Sommes des carrés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.4 Coefficient de détermination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4 Inférences dans le cas gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.1 Inférence sur les coefficients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.2 Inférence sur le modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.3 Inférence sur un modèle réduit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.4 Prévision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
123
124 TABLE DES MATIÈRES
4.5 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
5 Choix de modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5.1 Critères . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5.2 Algorithmes de sélection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5.3 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.4 Choix de modèle par régularisation . . . . . . . . . . . . . . . . . . . . . . . . . 22
6 Compléments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
6.1 Modèles polynomiaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
6.2 Influence, résidus, validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
7 Analyse de variance à un facteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
7.2 Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
7.3 Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
8 Analyse de covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
8.1 Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
8.2 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
8.3 Choix de modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
8.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
9 Exemple : Prévision de la concentration d’ozone . . . . . . . . . . . . . . . . . . . . . . . 33
9.1 Les données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
9.2 Autres exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3 Régression logistique 37
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2 Odds et odds ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3 Régression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.1 Type de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2 Modèle binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3 Régressions logistiques polytomique et ordinale . . . . . . . . . . . . . . . . . . . 39
4 Choix de modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1 Recherche pas à pas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2 Critère . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5 Illustration élémentaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.1 Les données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.2 Régression logistique ordinale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
6 Autres exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.1 Cancer du sein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.2 Pic d’ozone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
6.3 Carte visa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4 Modèle log-linéaire 47
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2 Modèle log-linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
TABLE DES MATIÈRES 125
5 Qualité de prévision 53
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2 Erreur de prévision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.2 Décomposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.3 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3 Estimation avec pénalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.1 Cp de Mallows . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.2 AIC, AICc , BIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.3 Dimension de Vapnik-Chernovenkis . . . . . . . . . . . . . . . . . . . . . . . . . 56
4 Le cas spécifique de la discrimination . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.1 Discrimination à deux classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2 Courbe ROC et AUC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5 Estimation par simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.1 Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.2 Remarques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
7 Arbres binaires 71
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
2 Construction d’un arbre binaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
2.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
2.2 Critère de division . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
2.3 Règle d’arrêt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
2.4 Affectation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3 Critères d’homogénéité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.1 Y quantitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.2 Y qualitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4 Élagage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.1 Construction de la séquence d’arbres . . . . . . . . . . . . . . . . . . . . . . . . 76
4.2 Recherche de l’arbre optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.1 Cancer du sein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.2 Concentration d’ozone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.3 Carte Visa Premier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
8 Méthodes connexionistes 83
1 Historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
2 Réseaux de neurones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
2.1 Neurone formel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3 Perceptron multicouche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.1 Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
3.2 Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
3.3 Utilisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.1 Cancer du sein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.2 Concentration d’ozone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.3 Carte visa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
9 Agrégation de modèles 89
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
2 Famille de modèles aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
2.1 Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
2.2 Forêts aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
TABLE DES MATIÈRES 127
11 Conclusion 109
1 Stratégies du data mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
2 Comparaison des résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
2.1 Cancer du sein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
2.2 Concentration d’ozone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
2.3 Carte visa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
3 Pièges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
4 Rôle du statisticien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
4.1 Des compétences multiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
4.2 De l’utilité du statisticien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
128 TABLE DES MATIÈRES