Mémoire
Mémoire
Mémoire
Faculté de Mathématiques
Département de probabilités et statistiques
Mémoire
En vue de l’obtention du Diplôme de MASTER
Statistiques et Probabilités Appliquées
Thème :
Présenté par :
• GUECHTOULI Ahmed Amine
• RAHMOUNE Imad
Soutenu le 03 Juin 2024, devant le jury composé de :
Par ailleurs, nos sincères remerciements sont adressés à notre cher professeur et
encadreur Mr. MEZIANI, pour la qualité de son encadrement, son suivi, sa rigueur et
Nous tenons ainsi à remercier tous les membres du jury monsieur ALIAT Billel
et Mr. SADOUN Mohamed pour l’intérêt qu’ils portent à notre projet en acceptant de
l’examiner.
Au final, nous remercions tous nos professeurs pour leurs soutiens, leurs
1
Dédicace
À mes chers parents, dont l’amour inconditionnel et les sacrifices ont été la force
motrice derrière tous mes succès. Maman, ta détermination et ta foi en moi m’inspirent
chaque jour. Papa, paix à son âme, tes enseignements et ton amour continuent de
À ma sœur Sanaa et mon frère Alaa, pour leur soutien constant et leur amour.
Vous avez été mes confidents et mes meilleurs amis. Vos encouragements et votre
amitié précieuse. Votre compagnie et vos conseils ont enrichi mon expérience
vous a contribué à rendre cette période mémorable et supportable. Merci pour les
Imad
Dédicace
À mes chers parents ; pour mon père et son immense soutien, son sacrifice
et aux prières. de ma mère ( paix a son âme ) Vous m’avez appris à être patiente pour
que vous sachiez que vous êtes les personnes les plus chères à mon cœur.
pour moi, et ma petite soeur Ikram, sachez bien que je vous dois beaucoup pour votre
soutien et votre amour qui m’ont été très utiles pour aller de l’avant.
Sidali, fella, Sarah, yousran, pour les beaux moments que nous avions passés
ensemble
À mon meilleure binôme Imad, pour sa fraternité, son soutien moral, son
À ma chère amie Nassim, qui a toujours été à mes côtés, qui m’a aidée,
Amine
Table des matières
1 Introduction 10
2 Régression linéaire 12
1
2.3.1 Test de signification de la régression . . . . . . . . . . . . . . . . 27
3.3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6.1 définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.7 Elastic-Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2
4 Implémentation Pratique 50
R2 Ajusté . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3
5 Conclusion générale 84
4
Table des figures
teurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
régularisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5
4.3 Graphique des erreurs de validation sur l’ensemble de test en fonction
du nombre de prédicteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
nombre de prédicteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
Elastic-Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6
Table des algorithmes
7
Résumé
l’étude approfondie des méthodes de régression linéaire, ainsi que sur les méthodes de
une méthode statistique fondamentale utilisée pour modéliser la relation entre une va-
bases théoriques de la régression linéaire simple et multiple, discute des techniques d’es-
timation des paramètres, des tests d’hypothèses et des méthodes d’inférence. En outre,
ensembles, la sélection par étapes, et les critères de teste de performances comme AIC,
régularisation dans la régression, avec une attention particulière aux Méthodes de Ridge,
des données réelles pour illustrer et comparer les différentes méthodes discutées.
elastic-Net, critères de sélection de modèles (AIC, BIC), validation croisée, estimation des
8
Abstract
The thesis titled "Analysis of Linear Regression Methods and Model Selection" focuses on
an in-depth study of linear regression techniques and the model selection methods suited
to model the relationship between a dependent variable and one or more independent
variables. This thesis explores the theoretical foundations of simple and multiple linear
methods. Additionally, it examines various model selection methods such as subset se-
lection, stepwise selection, and selection criteria like AIC, BIC, and cross-validation. The
lar focus on Ridge, Lasso, and Elastic-Net techniques. Finally, a practical implementation
is carried out using real data to illustrate and compare the different methods discussed.
Key Words : Linear Regression, model selection, ridge regression, lasso regression,
9
Chapitre 1
Introduction
Dans ce mémoire, nous abordons l’analyse des méthodes de régression linéaire et la sé-
lection de modèles, en utilisant le jeu de données Hitters. La régression linéaire est une
technique statistique fondamentale utilisée pour modéliser la relation entre une variable
automatique, où l’on cherche à prédire une variable d’intérêt en fonction d’autres va-
riables explicatives.
Le jeu de données Hitters, provenant du package ISLR en R, est couramment utilisé pour
sur les performances de joueurs de baseball, ce qui en fait un ensemble de données idéal
pour illustrer les techniques de régression linéaire. Parmi les variables disponibles, nous
avons des données sur les présences au bâton, les coups sûrs, les coups de circuit, les
La question principale que ce mémoire aborde est : comment améliorer la précision des
10
Cette problématique est cruciale car une mauvaise sélection de variables peut conduire
obtenus.
linéaire et de sélection de variables afin d’identifier les techniques les plus efficaces pour
prédire les salaires des joueurs en fonction de leurs performances. Nous examinerons
plusieurs approches de sélection de variables, telles que la sélection par étapes, la sé-
l’Elastic Net, afin de déterminer les variables qui contribuent le plus à la prédiction et
croisée.
— Mettre en œuvre une application pratique de ces méthodes des régularisation sur
11
Chapitre 2
Régression linéaire
Ce chapitre traite de la régression linéaire, une approche très simple pour l’apprentis-
sage supervisé. En particulier, la régression linéaire est un outil utile pour prédire une
Bien qu’il puisse sembler un peu ennuyeux par rapport à certaines des approches d’ap-
prentissage statistique plus modernes, la régression linéaire est toujours une méthode
utile et largement utilisée. En outre, il sert de bon point de départ pour les approches plus
récentes : comme nous le verrons dans les chapitres suivants, de nombreuses approches
une bonne compréhension de la régression linéaire avant d’étudier des méthodes d’ap-
prentissage plus complexes ne peut être surestimée. Dans ce chapitre, nous explorons
les concepts fondamentaux du modèle de régression linéaire, ainsi que la méthode des
Supposons que, dans notre rôle de consultants statistiques, nous soyons priés de pro-
poser, sur la base de ces données, un plan de marketing pour l’année prochaine qui se
traduira par des ventes de produits élevées. Quelles informations seraient utiles pour
12
formuler une telle recommandation ? C’est l’une des questions importantes que nous
allons aborder .
Y a-t-il une relation entre le budget publicitaire et les ventes ? Notre premier objectif
devrait être de déterminer si les données fournissent la preuve d’une association entre les
dépenses publicitaires et les ventes. Si les preuves sont faibles, alors on pourrait soutenir
Il s’avère que la régression linéaire peut être utilisée pour répondre à chacune de ces in-
teractions des questions. Nous aborderons d’abord toutes ces questions dans un contexte
général.
La régression linéaire simple porte bien son nom : c’est une régression linéaire très simple
approche de prédiction d’une réponse quantitative Y en se basent sur une seule variable
Y ≈ β0 + β1 X + ei (2.1)
Dans l’équation 2.1, β0 et β1 sont deux constantes inconnues qui représentent les termes
pentes d’interception appelées coefficients ou paramètres du modèle. Une fois que nous
avons utilisé nos données d’apprentissage des paramètres de coefficient pour produire
des estimations β̂0 et β̂1 pour les coefficients du modèle, nous pouvons prédire dans
13
l’exemple de la publicité télévisée les ventes futures sur la base d’une valeur particulière
de la publicité en calculant.
En pratique, β0 et β1 sont inconnus. Donc, avant de pouvoir utiliser l’équation 2.1 pour
faire des prédictions, nous devons utiliser des données pour estimer les coefficients.
Soit (x1 ,y1 ), (x2 ,y2 ), . . . , (xn ,yn ) représentent n couples d’observation, dont chacun est
Soit ŷi = β̂0 + β̂1 xi la prédiction pour Y basée sur la i valeur de X. Alors ei = yi − ŷi
représente le i résidu c’est-à-dire la différence entre par notre modèle linéaire. Nous dé-
ou de manière équivalente.
RSS = (y1 − β̂0 − β̂1 x1 )2 + (y2 − β̂0 − β̂1 x2 )2 + . . . + (yn − β̂0 − β̂1 xn )2 (2.4)
Le problème est de déteminer les paramètres estimés (β̂0 et β̂1 ) de telle sort que l’ajuste-
ment
ŷi = â + b̂xi , soit aussi proche que possible de l’observation yi , ou autrement dit que
14
l’erreur (estimée), êi = yi − ŷi = yi − β̂0 − β̂1 xi soit aussi proche que possible de 0 et
cela pour chaque i. La mesure de la proximité que l’on retient constitue le critère des
c’est-à-dire qu’on retient les valeurs β̂0 et β̂1 qui minimisent la somme des carrés des
résidus :
n
X n
X
(β̂0 , β̂1 ) = arg min e2i = arg min (yi − β0 − β1 xi )2
i=1 i=1
L’approche des moindres carrés choisit β̂0 et β̂1 pour minimiser le RSS.
Pn
(x − x̄)(yi − ȳ)
Pn i
β̂1 = i=1 2
i=1 (xi − x̄)
Pn
yi xi − nȳx̄
= Pi=1
n 2 2
i=1 xi − nx̄
Cov(yi , xi )
=
Var(xi )
les estimations des coefficients des moindres carrés pour une régression linéaire simple.
H1 : xi est une variable certaine (non aléatoire) ⇒ Cov(xi , ei ) = 0 ∀i( la variable explicative et l’erreur s
15
⊥)
H3 : Cov(ei , ej ) = E(ei ej )−E(ei )E(ej ) = 0. Car E(ei ) = 0 ∀i ̸= j ⇒ les erreurs sont non corrélées.
E(β̂1 ) = β1
E(β̂0 ) = β0
lim Var(β̂1 ) = 0
n→∞
lim Var(β̂0 ) = 0
n→∞
Les modèles traditionnels de répartition (linéaire, logistique) sont anciens et moins su-
Cependant, en raison de leur solidité, de leur résistance aux variations des échantillons,
de leur capacité à s’adapter aux données massives. . .tout cela explique pourquoi ils sont
à modéliser est bien linéaire et qu’il serait contre-productif de chercher des approches
plus complexes.
16
2.2.1 Présentation du modèle
Une variable quantitative Y dite à expliquer (ou encore, réponse, exogène, dépendante)
taille n
(n > p + 1) de Rp+1 :
L’écriture du modèle linéaire dans cette situation conduit à supposer que l’espérance de
Rn .
Yi = β0 + β1 Xi 1 + β2 Xi 2 + . . . + βp Xi p + ei , i = 1, 2, . . . , n
E(ei ) = 0, Var(e) = σ 2 I.
E(Y | X1 , . . . , Xp ) = β0 + β1 X1 + β2 X2 + · · · + βp Xp
17
et
Var(Y | X1 , . . . , Xp ) = σ 2 .
4. En option, pour l’étude spécifique des lois des estimateurs, une quatrième hypo-
Les données sont rangées dans une matrice X(n × (p + 1)) de terme général Xi j, dont
matriciellement :
Y = Xβ + e.
où :
x1 x11 x12 · · · x1p
2 21 x22 · · · x2p
x x
X= =
.
. .
.. .. .
. .. .
.
. . .
xn xn1 xn2 · · · xnp
18
Nous noterons la i-ème ligne du tableau X par le vecteur ligne xi = (xi1 , . . . , xip ).
Nous supposons que la matrice X est de plein rang. Cette hypothèse sera notée H1.
Comme, en général, le nombre d’individus n est plus grand que le nombre de variables
modèle : le vecteur β et σ 2 , sont estimés par minimisation des carrés des écarts (M.C),
Le modèle :
y1 1 x11 · · · x1p β0 e1
.. .. .. . .. ..
= ... .. +
.
. .
.
.
yn 1 xn1 · · · xnp βp en
Y = Xβ + e
19
On va estimer les paramètres on obtiendra :
Les résidus estimés sont la différence entre la valeur de Y observée et estimée. Soit :
êi = yi − ŷi
Le principe des moindres carrés consiste à rechercher les valeurs des paramètres qui
n
X n
X 2
min ê2i = min yi − β̂0 − β̂1 xi1 − β̂2 xi2 − · · · − β̂p xip
i=1 i=1
∂( ni=1 ê )
2
P
Ce qui revient à rechercher les solutions de ∂ β̂j
î
. Nous avons j = p + 1 équations
dites équations normales, à résoudre. La solution obtenue est l’estimateur des moindres
carrés ordinaires.
Théorème
β̂ = (X ′ X)−1 X ′ Y est l’estimateur qui minimise la somme des carrés des résidus. avec
X ′ la transposée de X.
β̂j −βj
1. σβj
∼ N (0, 1)
σ̂ 2
2. (n − p − 1) σ2j ∼ χ2 (n − p − 1)
βj
20
Le rapport d’une loi normale et de la racine carrée d’une loi du χ2 normalisée par ses
degrés de liberté aboutit à une loi de Student. Nous en déduisons donc la statistique :
β̂j − βj
t= ∼ t(n − p − 1)
σ̂β̂j
elle suit une loi de Student à (n-p-1) degrés de liberté. À partir de ces informations, il est
Il est également possible de procéder à des tests d’hypothèses, notamment les tests d’hy-
pothèses de conformité à un standard. Parmi les différents tests possibles, le test de nullité
déterminer si la variable xj joue un rôle significatif dans le modèle. Il faut néanmoins être
peut également résulter de la forte corrélation de xj avec une autre variable exogène,
son rôle est masqué dans ce cas, laissant à croire une absence d’explication de la part de
la variable.
Vraisemblance de l’échantillon
n n
Y Y 1 1 2
L(Y, β) = f (Yi |β) = √ exp − 2 (Yi − β) (2.7)
i=1 i=1 2πσ 2 2σ
21
n n
!
1 1 X
= √ exp − 2 (Yi − β)2
2πσ 2 2σ i=1
n
!
1 1 X
= exp − 2
1 n
(Yi − β)2
2
(2πσ ) 2 2σ i=1
n
!
1 1 X
= n
exp − 2 (Yi − β)2
2
(2πσ ) 2 2σ i=1
n
n 1 X
ℓ(Y, β) = log L(Y, β) = − log(2πσ 2 ) − 2 (Yi − β)2 (2.8)
2 2σ i=1
La fonction de vraisemblance est souvent plus facile à calculer que la fonction de log-
timés en même temps. Pour chaque valeur fixe de β0 , il faut trouver la valeur maximale
La méthode des moindres carrés peut être utilisée pour estimer les paramètres dans un
modèle de régression linéaire quelle que soit la forme de la distribution des erreurs ei .
22
Les moindres carrés produisent les meilleurs estimateurs linéaires non biaisés de β0 et β1
l’IC, supposent que les erreurs sont normalement distribuées. Si la forme de la distribu-
tion des erreurs est connue, une autre méthode d’estimation des paramètres, la méthode
n
2
Y 1
2 −2 1 2
L(yi , xi , β0 , β1 , σ ) = 2πσ exp − 2 (yi − β0 − β1 xi ) (2.11)
i=1
2σ
n
2 −2 1 2
= 2πσ exp − 2 (yi − β0 − β1 xi ) (2.12)
2σ
Les estimateurs du maximum de vraisemblance sont les valeurs des paramètres, par
n n 1
log L(yi , xi , β0 , β1 , σ 2 ) = − log (2π) − log σ 2 − 2 (yi − β0 − β1 xi )2
(2.13)
2 2 2σ
n
∂ ln 1 X ˆ ˆ
|βˆ ,βˆ ,σ̂2 = 2 yi − β0 − β1 xi = 0 (2.14)
∂ βˆ0 0 1 σ̂ i=1
n
∂ ln 1 X
|βˆ0 ,βˆ1 ,σ̂2 = 2 yi − βˆ0 − βˆ1 xi xi = 0 (2.15)
∂ βˆ1 σ̂ i=1
et
n
∂ ln n 1 X 2
ˆ0 − βˆ1 xi = 0
| ˆ ˆ 2 = + y i − β (2.16)
∂ σ̂ 2 β0 ,β1 ,σ̂ 2σ̂ 2 2σ̂ 4 i=1
23
blance :
Pn
yi (xi − x̄)
βˆ1 = Pi=1
n 2 (2.18)
i=1 (xi − x̄)
Pn 2
i=1 yi − βˆ0 − βˆ1 xi
σ2 = (2.19)
n
la pente, βˆ0 et βˆ1 , sont identiques aux estimateurs des moindres carrés de ces paramètres.
tiple R2 , qui mesure le rapport entre la dispersion expliquée par la régression (SCE) et
Pn
2 (ŷi − ȳ)2 SCE SCR
R = Pi=1
n 2 = =1−
i=1 (yi − ȳ)
SCT SCT
principal défaut du R2 est de croître avec le nombre de variables explicatives. ou, on sait
qu’un excès de variables produit des modèles peu robustes. C’est pourquoi on s’intéresse
davantage à cet indicateur qu’au R2 . Mais ce n’est pas un véritable carré et il peut même
être négatif. Voici deux expressions du R2 ajusté,sachant que certains auteurs lui donnent
24
une définition légèrement différente :
SCR/(n − p − 1) n−1
R̄2 = 1 − =1− (1 − R2 )
SCT /(n − 1) n−p−1
SCE est la somme des carrés des erreurs (sum of squared errors),
On définit également la somme totale des carrés (total sum of squares) par
On vérifie alors :
des erreurs pour cette section. Dans la réalité, des résultats asymptotiques, qui sont donc
valides pour de grands échantillons, ainsi que des études de simulation, démontrent que
cette hypothèse n’est pas celle dont la violation est la plus préjudiciable à la fiabilité des
25
modèles.
– H1 : rang(X) = p.
– H2 : E(e) = 0, V ar(e) = σ 2 In .
Nous allons désormais supposer que les erreurs suivent une loi normale, donc H2 devient
– H3 : e ∼ N (0, σ 2 In ).
Nous pouvons remarquer que H3 contient H2. De plus, dans le cas gaussien, Cov(ei , ej ) =
σ 2 δij implique que les ei sont indépendants. L’hypothèse H3 s’écrit e1 , . . . , en sont i.i.d.
et de loi N (0, σ 2 ).
ment de calculer des régions de confiance et de proposer des tests. C’est l’objectif de ce
chapitre.
βp = 0, la statistique
SCR/p MSR
=
SCE/(n − p − 1) MSE
suit une loi de Fisher avec p et (n − p − 1) degrés de liberté. Les résultats sont habituel-
26
Source de variation d.d.l. Somme des carrés Variance F
Régression p SCR MSR = SCR / p MSR / MSE
Erreur n−p−1 SCE MSE = SCE / (n − p − 1)
Total n−1 SCT
Table 2.1 – Tableau d’analyse de la variance
Après avoir évalué les paramètres du modèle, nous nous retrouvons face à deux pro-
blèmes immédiats :
Différentes méthodes de test d’hypothèses sont bénéfiques pour répondre à ces inter-
rogations. Il est nécessaire que nos erreurs aléatoires soient autonomes et suivent une
H0 : β0 = β1 = . . . = βp = 0
H1 : βj ̸= 0 pour au moins un j
Si cette hypothèse nulle est refusée, cela signifie que l’un des régresseurs x1 , x2 , . . . , xp
27
La procédure de test est une généralisation de l’analyse de la variance utilisée dans la
régression linéaire simple. La somme totale des carrés SCT est partitionnée en une
somme des carrés due à la régression , SCR , et une somme résiduelle des carrés
, SCE . Ainsi,
la démonstration que si l’hypothèse nulle est vraie puis SCR/σ 2 suivre la loi χ2p
SCE/K MSR
F0 = = ∼ Fk,n−k−1
SCR/ (n-k-1) MSRes
F0 > Fα,k,n−k−1
28
Chapitre 3
régularisation
Le modèle linéaire standard est toujour utilisé dans les modèles de régression régulari-
sées.
Y = β0 + β1 X1 + . . . + βp Xp + e
Au chapitre 2, nous avons constaté que ce modèle est généralement adapté en utilisant
les moindres carrés. Dans ce chapitre, nous abordons différentes approches pour amé-
liorer le modèle linéaire simple, en substituant l’ajustement des moindres carrés simples
Qu’est-ce qui pourrait nous inciter à utiliser une autre méthode d’ajustement plutôt que
29
la réponse et les prédicteurs. Ainsi, les estimations des moindres carrés présenteront un
faible biais. Lorsque n est supérieur à p, c’est-à-dire lorsque le nombre d’observations est
beaucoup plus élevé que p,les estimations des moindres carrés ont également tendance
à avoir une faible variance, ce qui leur permettra de fonctionner correctement sur les
Par la suite, il est possible que l’ajustement des moindres carrés présente une grande
sur les observations futures qui ne sont pas utilisées dans la construction du modèle. Si
p est supérieur à n, il n’existe plus qu’une seule estimation du coefficient des moindres
carrés : il existe une infinité de solutions. Chaque solution des moindres carrés entraîne
une erreur nulle sur les données d’apprentissage, mais généralement de très mauvaises
nous pouvons anticiper la réponse pour les observations qui ne sont pas utilisées dans
la construction du modèle.
de régression multiple ne sont pas liées à la réponse, ce qui entraîne une com-
plexité inutile. En supprimant ces variables, nous pouvons obtenir un modèle plus
facile à interpréter. Néanmoins, il est peu probable que même les plus petits carrés
tiques ou des variables, ou sélectionner des variables afin d’exclure des variables
30
• Sélection de Sous-ensemble : Cette méthode permet d’identifier une partie des
les prédicteurs p, réduisant les coefficients estimés à zéro par rapport aux esti-
mations des moindres carrés. Cette régularisation réduit la variance et peut être
effectuée avec des coefficients nuls exacts, permettant la sélection des variables
combinaisons linéaires de variables, puis à l’aide de ces projections comme des fac-
[6]
ensemble de régression des carrés les moins distincts pour chaque combinaison possible
31
de prédicteurs p. Cela signifie ajuster tous les modèles p qui contiennent exactement
p
un prédicteur, tous 2
= p(p − 1)/2 les modèles qui contiennent exactement deux
prédicteurs, puis examiner tous les résultats pour identifier le meilleur ajustement.
la sélection du meilleur sous-ensemble n’est pas anodin. Ceci est généralement divisé en
1: Soit M0 le modèle nul, qui ne contient aucun prédicteur. Ce modèle prédit simple-
ment la moyenne de l’échantillon pour chaque observation.
2: Pour k = 1, 2, . . . , p :
p
(a) Convient à tous modèles contenant exactement k prédicteurs.
k
(b) Choisissez le meilleur parmi ceux-ci kp modèles, et appelez−le Mk . Voici le
meilleur est défini comme ayant le plus petit RSS, ou de manière équivalente
le plus grand R2 .
3: Sélectionnez un seul meilleur modèle parmi M0 , . . . , Mp en utilisant l’erreur de pré-
diction sur un ensemble de validation, Cp (AIC), BIC ou R2 ajusté. Ou utilisez la
méthode de validation croisée.
32
Dans l’algorithme (1) l’étape 2 identifie le meilleur modèle (sur les données d’entraî-
nement) pour chaque taille de sous-ensemble, afin de réduire le problème de l’un des
2p modèles possibles à l’un des p + 1 modèles possibles. Dans la figure 3.1, ces modèles
seul meilleur modèle, nous devons simplement choisir parmi les options sep p + 1. Cette
tâche doit être effectuée avec précaution, car le RSS de ces modèles p + 1 diminue de fa-
incluses dans les modèles augmente. Par conséquent, si nous utilisons ces statistiques
toutes les variables. Le problème est qu’un RSS faible ou un R2 élevé indique un mo-
dèle avec une faible erreur d’apprentissage,alors que nous souhaitons choisir un modèle
qui a une faible erreur de test. Par conséquent, à l’étape 3, nous utilisons l’erreur sur un
Député. Si la validation croisée est utilisée pour sélectionner le meilleur modèle, l’étape
2 est répétée à chaque pli d’apprentissage et les erreurs de validation sont moyennées
semble d’entraînement complet est fourni pour le k choisi. Ces approches sont discutées
33
Figure 3.1 – Analyse de la performance du Modèle en fonction du Nombre de prédicteurs
le graphe a gauche : Il montre la somme des carrés des résidus (Residual Sum of Squares,
RSS) en fonction du nombre de prédicteurs. L’axe des y représente le RSS, et l’axe des x
représente le nombre de prédicteurs. Les points bleus représentent les différentes valeurs
teurs. Les points bleus représentent les différentes valeurs observées, et la ligne rouge
indique la tendance.
La meilleure sélection de sous-ensembles peut ne pas être applicable avec un grand p, car
les chances de trouver de bons modèles, mais peuvent entraîner une surestimation et
34
Sélection Progressive Vers L’avant
La sélection pas à pas vers l’avant est une alternative efficace en termes de calcul à la
meilleure sélection de sous-ensemble de sélection pas à pas vers l’avant. Alors que la
procédure de sélection du meilleur sous - ensemble considère tous les 2p modèles pos-
commence par un modèle ne contenant aucun prédicteur, puis ajoute des prédicteurs au
modèle, un à la fois, jusqu’à ce que tous les prédicteurs soient dans le modèle. En particu-
lier, à chaque étape, la variable qui apporte la plus grande amélioration supplémentaire
(a) Considérez tous les p − k modèles qui augmentent les prédicteurs en Mk avec
un prédicteur supplémentaire.
(b) Choisissez le meilleur parmi ces modèles p − k et appelez-le Mk + 1.Ici, le
meilleur est défini comme ayant le plus petit RSS ou le R2 le plus élevé
3: Sélectionnez un seul meilleur modèle parmi M0 , . . . , Mp en utilisant l’erreur de pré-
diction sur un ensemble de validation, Cp (AIC), BIC ou R2 ajusté. Ou utilisez la
méthode de validation croisée.
modèles 2p, la sélection par étapes avancée implique l’ajustement d’un modèle nul, ainsi
rence substantielle : lorsque p = 20. À l’étape 2 (b) de l’algorithme 3.1.2, nous devons
35
le plus bas ou le R2 le plus élevé. Cependant, à l’étape 3, nous devons identifier le meilleur
modèle parmi un ensemble de modèles avec différents nombres de variables. C’est plus
Comme la sélection pas à pas vers l’avant, la sélection pas à pas vers l’arrière fournit
une sélection pas à pas vers l’arrière alternative efficace à la meilleure sélection de sous-
par le modèle des moindres carrés complets contenant tous les prédicteurs possibles,
puis supprime de manière itérative le prédicteur le moins utile, un à la fois. Les détails
(a) Considérez tous les k modèles qui contiennent tous les prédicteurs sauf un
dans Mk , pour un total de k − 1 prédicteurs.
(b) Choisissez le meilleur parmi ces modèles k et appelez-le Mk −1. Ici, le meilleur
est défini comme ayant le plus petitRSS ou le plus grand R2 .
3: Sélectionnez un seul meilleur modèle parmi M0 , . . . , Mp en utilisant l’erreur de pré-
diction sur un ensemble de validation, Cp (AIC), BIC ou R2 ajusté. Ou utilisez la
méthode de validation croisée.
Comme la sélection par étapes vers l’avant, l’approche de sélection vers l’arrière ne re-
cherche que 1 + p(p + 1)/2 modèles, et peut donc être appliquée dans les paramètres
aussi avancer pas à pas sélection, la sélection par étapes en arrière n’est pas garantie de
nombre de variables p (afin que le modèle complet puisse être ajusté). En revanche, le
36
pas à pas en avant peut être utilisé même lorsquen < p, et est donc la seule méthode de
de prédicteurs p. Pour appliquer ces méthodes, il est nécessaire de disposer d’un critère
permettant de déterminer quel modèle est le meilleur. Le modèle incluant tous les pré-
dicteurs aura toujours le RSS le plus bas et le R2 le plus élevé, car ces valeurs sont liées
Figure 3.2 – Évolution des performances des modèles de crédit en fonction du nombre
de prédicteurs : Cp (ou AIC), BIC et R2 ajustés[5]
Il mesure la distance entre les densités de probabilité observées et estimées. Dans le cas
d’une estimation par les méthodes des moindres carrées, ce critère mesurera l’écart entre
SCR 2k
AIC = ln +
n n
37
3.2.2 Critère BIC (Bayesian Information Criterion (1977))
Akaïke (1977) a élaboré sous l’hypothèse gaussienne du processus du bruit blanc, le cri-
tère BIC (noté aussi SC (Scwartz Information Criterion)), la fonction de Schwarz est
donnée par :
SCR k ln(n)
BIC = SC = ln +
n n
avec :
ln : Logarithme népérien,
n : nombre d’observations,
utilisée pour estimer l’erreur de prédiction. Cette technique évalue directement l’erreur
Dans la validation croisée k-fold, les données sont divisées en k sous-ensembles (ou
2. Entraînement et Test : Le modèle est entraîné sur k − 1 folds et testé sur le fold
restant.
38
3. Répétition : Le processus est répété k fois, chaque fold étant utilisé exactement
L’avantage de cette méthode est qu’elle utilise l’intégralité des données pour l’entraîne-
3.3.1 Introduction
L’utilisation de la méthode des moindres carrés pour ajuster un modèle linéaire conte-
comme décrit à la section 3.1. En complément, il est possible d’ajuster un modèle avec
tous les prédicteurs p en utilisant une méthode qui impose une contrainte ou régularise
les estimations des coefficients, ou, de manière équivalente, qui réduit ces estimations.
Bien que cela puisse sembler contre-intuitif, imposer une telle contrainte peut amélio-
ridge et le lasso sont les deux méthodes les plus couramment utilisées pour diminuer les
La régression régularisée est une méthode qui ajoute une pénalisation à la fonction de
tion du modèle. Les deux méthodes de régularisation les plus courantes sont la régression
39
Ridge et la régression Lasso.
— le premier graphe montre un modèle de régression linéaire simple qui est trop
sous-ajusté aux données. L’erreur est élevée à la fois sur le jeu d’entraînement
et sur le jeu de test. Le modèle est trop simple pour capturer la complexité des
données.
aux données. L’erreur est faible aussi bien sur le jeu d’entraînement que sur le jeu
de test. Le modèle capture bien la relation entre les variables sans sur-ajuster les
données.
— le dernier graphe montre un modèle de régression qui est trop ajusté aux données
nulle, mais l’erreur sur le jeu de test est moyenne à élevée. Ce modèle a une va-
40
3.5 Régression Ridge
la régression Ridge est employée lorsque le nombre de variables explicatives (p) est élevé
par rapport au nombre d’observations (n), ou lorsque les variables sont fortement liées
entre elles (multicolinéarité). Dans ces situations, elle évite l’instabilité et la faiblesse des
L’estimation des coefficients du ridge est très proche de celle des moindres carrés, à la
différence que les coefficients du ridge sont calculés en minimisant une quantité légère-
ment variée. Plus précisément, les valeurs les moins importantes sont les estimations du
moindres carrés est appliquée à des données non orthogonales, de très mauvaises esti-
mations des coefficients de régression peuvent être obtenues. Nous avons vu à la section
n
X
minp (yi − x⊤ 2 2
i β) = minp ∥y − Xβ∥2
β∈R β∈R
i=1
Et s’écrit :
β̂ = (X⊤ X)−1 X⊤ y
sous l’hypothèse que X est de plein rang, Il sera pris en compte ici que les variables sont
— Si les x.j sont corrélées entre elles, X n’est pas de plein rang.
— Si p ≫ n
41
Dans ces cas X⊤ X doit être régularisée pour pouvoir être inversée et on ajoute une
On résout le problème :
( n )
X
min (yi − xi β)2 + λβ 2 (3.1)
β∈Rp
i=1
( n )
X
min (yi − xi β)2
β∈Rp
i=1 (3.2)
subject to ∥β∥2 ≤ t.
Remarque
— bijection entre t et λ
des variables. Cependant, elle se contente de diminuer l’effet de certaines variables sans
les contraindre à zéro. Cette caractéristique peut être déduite de la forme géométrique de
la fonction, qui décrit un cercle (ou une boule dans un espace de dimensions supérieures)
Figure (3.4).
42
Figure 3.4 – la forme géométriques de fonctions de régularisation de Ridage
( n )
X
β̂ reg = arg minp (yi − xi jβ)2 + αJ(β) (3.6)
β∈R
i=1
p
( n )
X X
β̂ Ridge = arg minp (yi − xi jβ)2 + α βj2 (3.7)
β∈R
i=1 j=1
43
3.6 Régression lasso
and Selection Operator) est une technique de régularisation qui permet de choisir les
3.6.1 définition
p
X
η (xi ) = β0 + xij βj .
j=1
L’estimateur habituel des "moindres carrés" pour la paire(β0 , β) est basé sur la minimi-
!2
1 X N p
X
minimize yi − β0 − xij βj (3.8)
β0 ,β 2N
i=1 j=1
Une alternative à l’estimation des moindres carrés a deux raisons : la précision de la pré-
diction, qui peut être améliorée en réduisant les coefficients de régression ou de mettre
44
certains coefficients à zéro, et la fin on identifier un plus petit sous-ensemble de prédic-
la méthode lasso combine la perte des moindres carrés avec une contrainte ℓ1 , pour en
mettre certains coefficients à zéro. Cette méthode fournit une méthode automatique pour
!2
1 X N p
X
minimize yi − β0 − xij βj
β0 ,β 2N
i=1 j=1
(3.9)
p
X
sous la contrainte |βj | ≤ t.
j=1
Pp
La contrainte j=1 |βj | ≤ t peut être écrite de manière plus compacte sous la forme de
N × p avec xi ∈ Rp dans sa i-ème ligne, alors le problème d’optimisation (3.9) peut être
1
minimize ∥y − β0 1 − Xβ∥22
β0 ,β 2N
vecteurs.
45
Figure 3.5 – Comparaison des Méthodes de Régularisation : Lasso et Ridge
A gauche de la figure 3.5 on peut observer le chemin du coefficient pour le lasso, qui
l’estimation des moindres carrés sans restriction β.À droite, la régression de ridge est
Problème similaire a ridge mais la pénalité ℓ2 de ridge est ici remplacée par une pénalité
La raison en est que la région des contraintes sous la norme ℓ1 est géométriquement
représentée par une carrée tourne (une polyédrique dans un espace plus de deux dimen-
46
sions) Figure (3.8). Ainsi, lorsque la solution est unique, la fonction objective s’applique
à la région des contraintes aux angles, ce qui explique la nullité de certaines variables. La
pénalité ℓ1 a comme propriété de ”tronquer” les coefficients faibles, donc de les mettre à
p
( n )
X X
β̂ Lasso = arg minp (yi − xi jβ)2 + λ ∥βj | (3.10)
β∈R
i=1 j=1
p p
( N
)
1 X X
2
X
min (yi − xij βj ) + λ |βj |q (3.11)
β∈Rp 2N i=1 j=1 j=1
Pp
Pour q = 0, le terme j=1 |βj |q compte le nombre d’éléments non nuls dans β, et donc
résout 3.11 équivaut à la sélection du meilleur sous-ensemble. La figure 3.7 affiche les
Figure 3.7 – Régions de contraintes pour différentes valeurs q dans les méthodes de
régularisation
Les méthodes de régression lasso et ridge de 3.11 sont similaires à la résolution de pro-
47
grammes convexes, ce qui les rend parfaitement adaptées aux problèmes complexes. La
3.7 Elastic-Net
les modèles de régression linéaire [4] . Elle établit un compromis entre les pénalités de
( N )
1X 1
min (yi − β0 − xTi β)2 + λ (1 − α)∥β∥22 + α∥β∥1 , (3.12)
β0 ,β∈R×Rp 2 i=1 2
où α ∈ [0, 1] est un paramètre qui peut être ajusté. Par construction, la pénalité appliquée
par
1
(1 − α)βj2 + α|βj |. (3.13)
2
Le problème Elastic Net 3.12 est convexe dans le couple (β0 , β) ∈ R × Rp , et une variété
nées est particulièrement efficace, et les mises à jour sont une simple extension de celles
du Lasso abordées au Chapitre 2. Nous avons inclus une constante β0 non pénalisée dans
le modèle, qui peut être supprimée dès le départ ; il suffit de centrer les covariables xij , et
1
PN
ensuite l’intercept optimal est β̂0 = ȳ = N j=1 yj . Une fois β̂0 trouvé, il reste à calculer
48
le vecteur optimal β̂ = (β̂1 , . . . , β̂p ). Il peut être vérifié que la mise à jour par descente
1
La partie 2
dans la partie quadratique de la pénalité Elastic Net 3.13 conduit à un opé-
Figure 3.8 – La boule élastique-réseau avec α = 0.7 (panneau de gauche) dans R3 , com-
parée à la boule ℓ1 (panneau de droite). Les contours incurvés encouragent les variables
fortement corrélées à partager des coefficients.
P
N
Sλα i=1 rij xij
β̂j = PN ,
i=1 x2ij + λ(1 − α)
X
rij := yi − β̂0 − xik β̂k
k̸=j
est le résidu partiel. Nous effectuons des cycles sur les mises à jour jusqu’à convergence.
49
Chapitre 4
Implémentation Pratique
Hitters est un jeu de données provenant du package ISLR en R. Il renferme des données
sur les résultats des joueurs de baseball de la majeure. Voici une explication approfondie
des différentes variables de ce jeu de données et il est fréquent d’utiliser ce jeu de données
— Variables : 20 variables
50
3. HmRun : Nombre de coups de circuit
16. PutOuts : Nombre de retraits défensifs effectués par un joueur de champ intérieur
17. Assists : Nombre d’assistances défensives effectuées par un joueur de champ in-
térieur
51
4.4 Pré-traitement des Données
— Gérer les Valeurs Manquantes :ce jeu de données ne contient pas des valeurs
manquante.
de modélisation.
Il arrive souvent que certaines ou plusieurs des variables utilisées dans un modèle de
telles variables non pertinentes entraîne une complexité inutile dans le modèle résultant.
Ce code couvrira une approche traditionnelle connue sous le nom de sélection de modèle.
Exploite principalement les données des frappeurs fournies par le package ISLR. Il s’agit
d’un ensemble de données qui contient le nombre de coups sûrs, de circuits, de points
52
Nous utiliserons également tidyverse pour la manipulation et la visualisation de don-
nées de base. Plus important encore, nous utiliserons le package leaps pour illustrer les
tion)
Illustrons cela avec nos données. Nous pouvons effectuer une recherche de sous-ensemble
est quantifié en utilisant la somme des carrés des résidus (RSS). La syntaxe est la même
que pour la fonction lm. Par défaut, regsubsets ne rapporte que les résultats jus-
qu’au meilleur modèle à huit variables. Cependant, l’option nvmax peut être utilisée
pour retourner autant de variables que souhaité. Ici, nous ajustons un modèle jusqu’à 19
variables.
53
4.5.3 Interprétation des Résultats
Table 4.1 – 19 Variables (et intercept) avec des indicateurs d’entrée et de sortie forcés
’Forced in’ et ’Forced out’ : Ces colonnes montrent si des variables ont été forcées dans
ou hors du modèle. Dans ce cas, toutes les valeurs sont FALSE, ce qui signifie qu’aucune
contrainte n’a été appliquée pour inclure ou exclure spécifiquement des variables.
Variables AtBat Hits HmRun Runs RBI Walks Years CAtBat CHits CHmRun CRuns CRBI CWalks League Division PutOuts Assists Errors NewLeague
(1) "✓"
(1) "✓" "✓"
(1) "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
54
— Colonnes du Tableau : Les colonnes listent les variables du dataset.
— Symboles ✓ et " : Un ✓ indique que la variable est incluse dans le modèle pour
cette taille de sous-ensemble. Un " signifie que la variable n’est pas incluse.
taille de sous-ensemble.
Ce tableau permet de voir quels modèles sont sélectionnés comme les meilleurs pour
incluse.
— Pour un modèle à 19 variables : Toutes les variables sont incluses dans le mo-
dèle.
part, nous pouvons utiliser la commande summary pour évaluer le meilleur ensemble de
variables pour chaque taille de modèle. Ainsi, pour un modèle à 1 variable, nous voyons
que CRBI a un astérisque signalant qu’un modèle de régression avec Salaire ∼ CRBI
est le meilleur modèle à variable unique. Le meilleur modèle à 2 variables est Salary ∼
CRBI + Hits. Le meilleur modèle à 3 variables est Salaire ∼ CRBI + Hits + PutOuts.
Et ainsi de suite.
Pour des raisons de calcul, la sélection du meilleur sous-ensemble ne peut pas être appli-
55
Plus l’espace de recherche est grand, plus les chances de trouver des modèles qui semblent
bons sur les données d’entraînement sont élevées, même s’ils n’ont peut-être aucun pou-
voir prédictif sur les données futures. Ainsi, un espace de recherche énorme peut entraî-
ner un surajustement et une forte variance des estimations des coefficients. Pour ces deux
raisons, les méthodes par étapes, qui explorent un ensemble de modèles beaucoup plus
teur, puis ajoute des prédicteurs au modèle, un à la fois, jusqu’à ce que tous les prédic-
teurs soient dans le modèle. En particulier, à chaque étape, la variable qui apporte la plus
La fonction regsubsets par la methode de forward renvoie un objet de liste avec beau-
évaluer le meilleur ensemble de variables pour chaque taille de modèle. Ainsi, pour un
modèle à 1 variable, nous voyons que CRBI a un astérisque signalant qu’un modèle de
régression avec Salaire ∼ CRBI est le meilleur modèle à variable unique. Le meilleur
modèle à 2 variables est Salary ∼ CRBI + Hits. Le meilleur modèle à 3 variables est
56
Salaire ∼ CRBI + Hits + PutOuts,on remarque si la même comme Best Subset Se-
La sélection par étapes vers l’arrière constitue une alternative efficace à la sélection du
ward stepwise), elle commence par le modèle des moindres carrés complets contenant
tous les prédicteurs p, puis supprime de manière itérative le prédicteur le moins utile,
un à la fois.
N° AtBat Hits HmRun Runs RBI Walks Years CAtBat CHits CHmRun CRuns CRBI CWalks League Division PutOuts Assists Errors NewLeague
1 ✓
2 ✓ ✓
3 ✓ ✓ ✓
4 ✓ ✓ ✓ ✓
5 ✓ ✓ ✓ ✓ ✓
6 ✓ ✓ ✓ ✓ ✓
7 ✓ ✓ ✓ ✓ ✓ ✓ ✓
8 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
9 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
10 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
11 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
12 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
13 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
14 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
15 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
16 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
17 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
18 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
19 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
Jusqu’à présent, j’ai illustré comment effectuer les meilleures procédures de sous-ensemble
et par étapes. Voyons maintenant comment comparer tous les modèles que ces approches
produisent afin d’identifier le meilleur modèle. Autrement dit, exécutons l’étape 3 des
algorithmes (??),(3.1.2) et (3.1.2) discutée dans chacun des processus en 3 étapes décrits
ci-dessus.
57
Afin de sélectionner le meilleur modèle en ce qui concerne l’erreur de test, nous devons
— Nous pouvons estimer directement l’erreur de test, en utilisant soit une approche
et R2 Ajusté
la taille du modèle sont disponibles. Ces approches peuvent être utilisées pour sélec-
incluent :
Statistique Objectif
Cp Minimiser
Akaike information criterion (AIC) Minimiser
Bayesian information criterion (BIC) Minimiser
ajusté R2 Maximiser
Table 4.5 – Modèle Sélection Critère
(e) associée à chaque mesure de réponse dans un modèle de régression. Chacune de ces
statistiques ajoute une pénalité au RSS d’entraînement afin de tenir compte du fait que
Par conséquent, ces statistiques fournissent une estimation impartiale de l’erreur quadra-
tique moyenne (MSE) du test. Si nous exécutons notre modèle en utilisant une approche
58
de validation par apprentissage contre test, nous pouvons utiliser ces statistiques pour
déterminer le modèle préféré. Ces statistiques sont contenues dans le résultat fourni par
Figure 4.1 – Graphique montrant l’évolution des trois statistiques (R2 ajusté, Cp de
Mallows, et BIC) en fonction du nombre de prédicteurs
Graphe du R2 ajusté
— Interprétation :
croissant.
Graphe du BIC
59
— Axe des x (predictors) : Nombre de prédicteurs dans le modèle, de 1 à 19.
— Interprétation :
puis augmente.
— Un BIC plus bas indique un meilleur modèle. Le BIC pénalise les modèles plus
Graphe du Cp
— Interprétation :
tionner les modèles qui minimisent l’erreur de prédiction tout en évitant les
Conclusion
60
— BIC suggère que le modèle avec environ 4 prédicteurs offre un bon équilibre entre
précision et complexité.
which.max(results$adjr2)
[1] 10
which.min(results$bic)
[1] 4
which.min(results$cp)
[1] 8
Ici, nous voyons que nos résultats de R2 adjr2 ,BIC et Cp sont 0.6236763 , -124.62821 et
3.812789 identifient des modèles légèrement différents qui sont considérés comme les
meilleurs.
Nous pouvons comparer les variables et les coefficients que ces modèles incluent à l’aide
de la fonction coef.
# 10 variable modèle
Variable Intercept AtBat Hits Walks CAtBat CHits CHmRun CWalks League Division PutOuts
Coefficient -47.1651088 -1.3695666 6.3013473 4.5757613 -0.3118794 1.4799307 1.2971405 -0.5026157 -62.5613310 62.3548737 0.2527181
# 04 variable modèle
# 08 variable modèle
61
Variable Intercept AtBat Hits Walks CAtBat CHits CHmRun CWalks PutOuts
Coefficient -59.2371674 -1.4744877 6.6802515 4.4777879 -0.3203862 1.5160882 1.1861142 -0.4714870 0.2748103
Nous pourrions effectuer le même processus en utilisant la sélection par étapes en avant
et en arrière et obtenir encore plus d’options pour des modèles optimaux. Par exemple, si
j’évalue l’optimum Cp pour les pas en avant et en arrière, nous voyons qu’ils suggèrent
de sous-ensemble ci-dessus.
> which.min(summary(forward)$cp)
[1] 8
> which.min(summary(backward)$cp)
[1] 8
Cependant, lorsque nous évaluons ces modèles, nous constatons que les 8 modèles de
variables incluent différents prédicteurs. Bien que tous les modèles incluent Au bâton,
les coups sûrs, les Marches, les marches et les retraits, il existe des variables uniques dans
chaque modèle.
" modèles.
— Différentes statistiques d’estimation des tests d’erreur indirecte (Cp , AIC, BIC et
C’est pourquoi il est important de toujours effectuer une validation ; c’est-à-dire de tou-
jours estimer directement l’erreur de test soit en utilisant un ensemble de validation, soit
62
Variable Coefficient
Best Subset Selection (8 predictors)
(Intercept) -59.2371674
AtBat -1.4744877
Hits 6.6802515
Walks 4.4777879
CAtBat -0.3203862
CHits 1.5160882
CHmRun 1.1861142
CWalks -0.4714870
PutOuts 0.2748103
Forward Selection (8 predictors)
(Intercept) -48.6095756
AtBat -2.1421859
Hits 8.8914064
Walks 5.4283843
CRuns 0.8555089
CRBI 0.4866528
CWalks -0.9672115
League -64.1628445
PutOuts 0.2767328
Backward Selection (8 predictors)
(Intercept) -59.2371674
AtBat -1.4744877
Hits 6.6802515
Walks 4.4777879
CAtBat -0.3203862
CHits 1.5160882
CHmRun 1.1861142
CWalks -0.4714870
PutOuts 0.2748103
Table 4.6 – Coefficients des modèles Best Subset, Forward Selection et Backward Selec-
tion avec 8 prédicteurs
chaque taille de modèle. Nous créons d’abord une matrice de modèle à partir des don-
nées de test. Le modèle.la fonction matricielle est utilisée dans de nombreux packages
63
variables,. . ., 19 variables) et extraire les coefficients du meilleur modèle de cette taille,
les multiplier dans les colonnes appropriées de la matrice du modèle de test pour former
linéaire avec un nombre variable de prédicteurs, allant de 1 à 19. Voici une interprétation
détaillée :
et l’axe des Y représente les erreurs de validation (erreur quadratique moyenne, MSE)
4 prédicteurs, puis diminue légèrement avant de se stabiliser. Cela peut indiquer un phé-
64
Stabilisation de l’erreur : Après environ 6 prédicteurs, l’erreur de validation reste re-
lativement stable, montrant qu’ajouter plus de variables au modèle n’améliore pas signi-
ensembles sur l’ensemble d’entraînement, puis on calcule les erreurs de validation sur
Figure 4.3 – Graphique des erreurs de validation sur l’ensemble de test en fonction du
nombre de prédicteurs
Le graphique montre les erreurs de validation sur l’ensemble de test pour différents mo-
65
graphe des Erreurs de Validation donc on a les memes resultats
On effectue une validation croisée sur les modèles de régression pour trouver le meilleur
relativement élevée
66
— Après avoir atteint ce minimum, l’erreur de validation croisée moyenne commence
1. Modèle optimal :
— Le modèle optimal est celui qui minimise l’erreur de validation croisée moyenne.
— Un modèle avec trop peu de prédicteurs peut avoir un biais élevé, car il n’est
pas suffisamment complexe pour capturer les relations dans les données.
— Un modèle avec trop de prédicteurs peut avoir une variance élevée, car il
nouvelles données.
3. Sélection du modèle :
croisée aide à assurer que le modèle choisi est le plus susceptible de bien
67
Coefficient du meilleur modèle :
Variable Intercept AtBat Hits Walks CAtBat CRuns CRBI CWalks LeagueN DivisionW PutOuts Assists
Coefficient 135.7512195 -2.1277482 6.9236994 5.6202755 -0.1389914 1.4553310 0.7852528 -0.8228559 43.1116152 -111.1460252 0.2894087 0.2688277
net
On transfère notre jeu de donne a une matrice et d’un data frame. Elle est souvent utilisée
pour convertir des facteurs en variables binaires (dummy variables) et pour normaliser
les données avant de les passer à des fonctions de modélisation qui nécessitent des ma-
trices numériques.
surapprentissage en ajoutant une pénalisation des carrés des coefficients des variables.
Cette approche vise à réduire les coefficients sans les rendre nuls, ce qui donne lieu à
des modèles plus robustes sans supprimer totalement les variables. En d’autres termes,
tiellement associées.
N Df %Dev Lambda
01 19 0.00 272100
02 19 1.21 247900
68
03 19 1.32 225900
. . . .
. . . .
. . . .
99 19 60.12 30
100 19 60.30 27
— Df : Nombre de coefficients non nuls présents dans le modèle. Dans cette situation,
il reste toujours à 19, ce qui implique que tous les prédicteurs sont intégrés dans
Un taux plus élevé suggère que le modèle permet une meilleure explication des
régularisation accrue, ce qui a un impact négatif sur les coefficients des prédicteurs
Chaque ligne du tableau 4.7 correspond à une valeur spécifique de λ,Par exemple :
— Pour λ =272100, le modèle n’explique aucune déviance (Dev = 0.00) et tous les
69
— À mesure que λ diminue, le pourcentage de déviance expliquée (Dev) augmente.
des variables de manière à ce qu’ils deviennent exactement zéro, ce qui permet une sé-
N Df %Dev Lambda
01 0 0.00 272.100
02 1 6.51 247.900
03 1 11.92 225.900
. . . .
38 9 58.67 8.706
. . . .
75 18 62.83 0.278
76 18 62.83 0.254
dire les coefficients non nuls) dans le modèle à chaque étape. Au fur et à mesure
70
que le lambda diminue, le nombre de coefficients non nuls (variables sélectionnées)
augmente.
viance expliquée par le modèle à chaque valeur de lambda. C’est une mesure de la
qualité d’ajustement du modèle. Plus le pourcentage est élevé, meilleur est l’ajus-
tement du modèle.
une régularisation plus forte (plus de pénalisation des coefficients), ce qui conduit
— Le lambda est très grand (272.100), ce qui pénalise fortement tous les coeffi-
2. La 38 ème ligne :
augmente.
— Par exemple, lorsque le lambda est de 8.706, il y a 9 prédicteurs non nuls dans
71
le modèle, et la déviance expliquée est de 58.67%.
Elastic-Net est une technique de régression qui combine les paramètres du Lasso et de le
tion des coefficients. Il est particulièrement utile pour les variables importantes et corré-
latives, car il peut sélectionner des groupes de variables corrélées et offrir de meilleures
performances que le Lasso ou le ridge. En combinant les avantages des deux méthodes,
Elastic-Net peut réduire les coefficients à zéro pour une sélection efficace des variables
N Df %Dev Lambda
. . . .
. . . .
20 8 52.80 92.92
. . . .
. . . .
77 18 62.83 0.46
78 18 62.83 0.42
glmnet
72
Explication des Colonnes
dire les coefficients non nuls) dans le modèle à chaque étape. Au fur et à mesure
augmente.
viance expliquée par le modèle à chaque valeur de lambda. C’est une mesure de la
qualité d’ajustement du modèle. Plus le pourcentage est élevé, meilleur est l’ajus-
tement du modèle.
qui conduit à des modèles plus simples avec moins de variables sélectionnées.
Les lignes montrent les valeurs de Df, %Dev et Lambda pour différentes étapes de l’ajus-
tement du modèle :
— Au début (ligne 1) :
— %Dev est de 0, donc aucune déviance n’est expliquée par le modèle à ce stade.
— Lignes suivantes :
73
— %Dev augmente également à chaque étape, indiquant que le modèle explique
de plus en plus de la déviance des données. Par exemple, à la ligne 20, avec
— Df est de 18, ce qui signifie que 18 prédicteurs sont inclus dans le modèle.
— %Dev est de 62.83, donc environ 62.83% de la déviance est expliquée par le
modèle.
net :
Pour évaluer et comparer les performances des modèles de régression régularisée Ridge,
Lasso et Elastic-Net, nous avons calculé plusieurs métriques pour les valeurs optimales
Le tableau présente les détails de validation d’une régression Lasso, Ridge et Elestic-net
das testés.
de lambda.
74
— SE : L’erreur standard de la MSE.
— Nonzero : Le nombre de coefficients non nuls dans le modèle pour cette valeur de
lambda.
(27.2) a une erreur quadratique moyenne (MSE) de 95329 avec un écart type (SE) de 18198,
incluant 19 coefficients non nuls. Lorsque λ est augmenté à 1354.4, la MSE augmente à
Pour la régression Lasso (α = 1), le modèle avec λ minimal (7.23) a une MSE de 92827 et
un SE de 16300, avec seulement 9 coefficients non nuls. Avec λ à 73.98, la MSE augmente
Enfin, pour la régression Elastic-Net (α = 0.5), le modèle avec λ minimal (13.17) a une
MSE de 100603 avec un SE de 11781, incluant 9 coefficients non nuls. Pour λ à 111.92, la
Ces résultats montrent que la régression Lasso tend à produire des modèles plus simples
avec moins de coefficients non nuls, tandis que la régression Ridge maintient la plupart
75
des coefficients. La régression Elastic-Net, qui combine les caractéristiques de Ridge et
des variables.
Figure 4.5 – Résultats de la validation croisée pour une régression Lasso,Ridge et Elestic-
net à l’aide de la fonction cv.glmnet
les résultats de la validation croisée pour trois types de régularisation : Lasso, Ridge et
Elastic Net.
ce qui indique qu’un modèle simple avec un nombre limité de variables peut
utilisées dans le modèle à des valeurs plus petites de lambda en forcent cer-
76
— Comportement de l’erreur : La MSE augmente avec l’augmentation de
— Nombre de variables non nulles : Restent constants à 19, ce qui est attendu
dans la régression Ridge où tous les coefficients sont régularisés mais non
réduits à zéro.
comme dans le cas du Lasso, suggérant une régularisation qui permet de sé-
— Nombre de variables non nulles : Varie entre les modèles Ridge et Lasso,
Ces graphiques offrent une représentation visuelle de l’influence des diverses formes de
régularisation sur la prédiction des performances d’un modèle (MSE) et la sélection des
variables (nombre de coefficients non nuls). Leur rôle consiste à sélectionner le type de
régularisation approprié et les valeurs optimales de lambda afin d’obtenir un modèle qui
La MSE moyenne obtenue pour une valeur spécifique de lambda lors de la validation
Les barres grises d’erreur : Descriptif de l’erreur standard liée à chaque point de MSE.
77
Elles illustrent comment l’estimation de la MSE varie selon chaque valeur de lambda.
Les graphes montrent la comparaison des valeurs réelles (True Values) et des valeurs
prédites (Predicted Values) pour trois types de modèles de régression : Ridge, Lasso, et
représente l’idéal où les valeurs prédites sont exactement égales aux valeurs réelles. Les
ligne y = x, indiquant une bonne précision globale des prédictions. Toutefois, quelques
Le deuxième graphique montre les prédictions du modèle Lasso. Les points verts re-
présentent les prédictions du modèle. Comme pour la régression Ridge, la majorité des
points se regroupent autour de la ligne y = x, montrant une bonne précision des pré-
78
Ridge, suggérant que le Lasso peut avoir une performance légèrement inférieure pour ce
dataset spécifique.
Le troisième graphique montre les prédictions du modèle Elastic-Net. Les points rouges
représentent les prédictions du modèle, avec la distribution des points similaire à celle
des deux autres modèles (Ridge et Lasso), la majorité se regroupant autour de la ligne y =
peut avoir une performance légèrement inférieure ou comparable aux autres modèles
Les trois graphiques montrent que tous les modèles (Ridge, Lasso, et Elastic-Net) ont
une performance raisonnablement bonne, avec la majorité des prédictions proches des
— Ridge : A une bonne précision globale, avec quelques points de prédiction éloi-
gnés.
— Lasso : A une performance comparable à Ridge mais montre un peu plus de dis-
persion.
avoir plus de dispersion, suggérant qu’il peut être moins précis que Ridge pour ce
dataset spécifique.
79
Figure 4.7 – Erreur quadratique moyenne pour chaque modèle
Interprétation
Les modèles de régression Ridge, Lasso et Elastic-Net montrent tous des performances
raisonnablement bonnes pour prédire les valeurs réelles. La régression Ridge semble
avoir une légère supériorité en termes de précision, suivie de près par le Lasso et l’Elastic-
Net. Pour une application pratique, le choix entre ces modèles pourrait dépendre de la
Interprétation : Les graphiques ci-dessous montrent comment les coefficients des mo-
80
Figure 4.8 – Coefficients de Régression en fonction de log(λ) pour Ridge, Lasso, et
Elastic-Net
La régression Ridge est illustrée par un graphique où l’axe des x représente log(λ) et
l’axe des y les coefficients des variables. Chaque ligne correspond à un coefficient associé
à une variable du modèle. À mesure que λ augmente, les coefficients tendent vers zéro
sans jamais devenir exactement nuls. Cela montre que la régression Ridge applique une
régularisation L2, réduisant l’ampleur des coefficients sans les annuler complètement.
La régression Lasso est représentée par un graphique où l’axe des x montre log(λ)
et l’axe des y les coefficients des variables. Chaque ligne correspond à un coefficient
associé à une variable du modèle. À mesure que λ augmente, certains coefficients de-
viennent exactement nuls, illustrant que la régression Lasso applique une régularisation
des segments où les coefficients restent à zéro pour certaines valeurs de λ, indiquant que
81
ces variables ont été exclues du modèle à ces niveaux de λ.
log(λ) et l’axe des y les coefficients des variables, chaque ligne correspondant à un co-
L2, donc on observe des coefficients qui tendent vers zéro sans s’annuler complètement,
comme dans la régression Ridge, ainsi que des coefficients qui deviennent exactement
nuls, comme dans la régression Lasso. Le graphique montre une transition entre les com-
portements observés dans les graphiques de Ridge et Lasso, offrant à la fois une régula-
Interprétation
— Actual : Cette colonne représente les valeurs réelles des salaires (Salary) dans le
— s1 (Ridge) : Cette colonne contient les valeurs prédites par le modèle de régression
Ridge.
— s1.1 (Lasso) : Cette colonne contient les valeurs prédites par le modèle de régres-
sion Lasso.
— s1.2 (Elastic-Net) : Cette colonne contient les valeurs prédites par le modèle de
régression Elastic-Net.
82
Première ligne : On observe que les trois modèles prédisent des valeurs assez différentes
de la valeur réelle. Le modèle Ridge prédit la valeur la plus éloignée (735.109401), tandis
que le modèle Elastic-Net prédit une valeur un peu plus proche (686.99016), mais toujours
Deuxième ligne : Les trois modèles prédisent des valeurs beaucoup plus élevées que la
valeur réelle. Les prédictions de Ridge et Elastic-Net sont très similaires (autour de 1000),
Troisième ligne : Les valeurs prédites par les trois modèles sont toutes supérieures à la
valeur réelle. La prédiction Ridge est la plus élevée (149.838968), tandis que les prédic-
tions Lasso et Elastic-Net sont plus proches de la valeur réelle, mais toujours surestimées.
Quatrième ligne : Dans ce cas, les modèles sous-estiment la valeur réelle. Le modèle
Ridge a la plus grande sous-estimation (4.440978), tandis que le modèle Elastic-Net est
Cinquième ligne : Les trois modèles sous-estiment la valeur réelle. Les prédictions de
Ridge et Lasso sont très similaires et les plus éloignées de la valeur réelle, alors que
Sixième ligne : Les trois modèles surestiment la valeur réelle de manière significative.
Ces résultats montrent que les modèles de régression Ridge, Lasso et Elastic-Net ont
des variations dans leurs prédictions et peuvent soit surestimer, soit sous-estimer les va-
leurs réelles des salaires. Les performances des modèles peuvent varier en fonction de
l’observation spécifique. Une évaluation globale des erreurs (telles que l’erreur quadra-
tique moyenne) sur l’ensemble des données de test serait nécessaire pour déterminer
83
Chapitre 5
Conclusion générale
de modèles sur les données de performance des joueurs de baseball du jeu de données
Hitters. Les techniques de régularisation telles que le Lasso, Ridge et l’Elastic Net ont
et l’Elastic Net qui ont choisi plus de variables avec une MSE plus élevée. Ces résultats
84
Bibliographie
In : (2017).
[3] Jerome Friedman, Trevor Hastie et Robert Tibshirani. “Regularization paths for
Linear Regression Analysis. A John Wiley & Sons, Inc., Publication, 2012.
[7] Gilbert Saporta. Probabilités, analyse des données et statistique. Editions technip,
2006.
[8] Hui Zou et Trevor Hastie. “Regularization and variable selection via the elastic
(2005).
85