Mémoire

République Algérienne Démocratique et Populaire
Ministère de l’Enseignement Supérieur et de la Recherche

Scientifique
Université des Sciences et de la Technologie Houari
Boumediene
Faculté de Mathématiques
Département de probabilités et statistiques
Mémoire
En vue de l’obtention du Diplôme de MASTER
Statistiques et Probabilités Appliquées
Thème :
Sélection des variables de régression Linéaire et

Régularisée
Présenté par :
• GUECHTOULI Ahmed Amine
• RAHMOUNE Imad
Soutenu le 03 Juin 2024, devant le jury composé de :
Président : Mr. ALIAT Billel USTHB

Rapporteur : Mr. MEZIANI Mohamed USTHB
Examinateur : Mr. SADOUN Mohamed USTHB
Code Mémoire : 05/SPA/2024

Remerciements
À l’issue de ce mémoire, on tient tout d’abord à remercier ALLAH le
tout-puissant et le miséricordieux pour la force, le courage et la patience qu’il nous a
donné durant toutes ces années de formation.
Par ailleurs, nos sincères remerciements sont adressés à notre cher professeur et
encadreur Mr. MEZIANI, pour la qualité de son encadrement, son suivi, sa rigueur et
ses précieux conseils durant tous ces mois de travail.
Nous tenons ainsi à remercier tous les membres du jury monsieur ALIAT Billel
et Mr. SADOUN Mohamed pour l’intérêt qu’ils portent à notre projet en acceptant de
l’examiner.
Au final, nous remercions tous nos professeurs pour leurs soutiens, leurs
enseignements et leurs conseils tout au long de ces années d’études.
1
Dédicace
Je dédie ce modeste travail :
À mes chers parents, dont l’amour inconditionnel et les sacrifices ont été la force
motrice derrière tous mes succès. Maman, ta détermination et ta foi en moi m’inspirent
chaque jour. Papa, paix à son âme, tes enseignements et ton amour continuent de
guider mes pas, même en ton absence physique.
À ma sœur Sanaa et mon frère Alaa, pour leur soutien constant et leur amour.
Vous avez été mes confidents et mes meilleurs amis. Vos encouragements et votre
présence m’ont aidé à surmonter les moments difficiles.
À mon binôme Amine, dont la collaboration et l’amitié ont été essentielles à la
réussite de ce mémoire. Ta camaraderie a rendu ce travail plus agréable et productif.
À mes meilleurs amis universitaires, Houssem, Selma et Salsabil, pour leur
amitié précieuse. Votre compagnie et vos conseils ont enrichi mon expérience
universitaire de manière inestimable.
À tous mes amis de la durée de mon master, je n’oublie personne. Chacun de
vous a contribué à rendre cette période mémorable et supportable. Merci pour les
moments partagés, les rires, et les soutiens mutuels.
Avec toute ma gratitude et mon affection
Imad
Dédicace
Je dédie ce modeste travail :
À mes chers parents ; pour mon père et son immense soutien, son sacrifice
et aux prières. de ma mère ( paix a son âme ) Vous m’avez appris à être patiente pour
surmonter les difficultés, et j’espère être à la hauteur de vos attentes. Et je tiens à ce
que vous sachiez que vous êtes les personnes les plus chères à mon cœur.
À mes deux chers frères, abdraouf et abderahmane qui sont toujours là
pour moi, et ma petite soeur Ikram, sachez bien que je vous dois beaucoup pour votre
soutien et votre amour qui m’ont été très utiles pour aller de l’avant.
À toutes mes amies de ma promotion ; particulièrement : Nassim, Amir,
Sidali, fella, Sarah, yousran, pour les beaux moments que nous avions passés
ensemble
À mon meilleure binôme Imad, pour sa fraternité, son soutien moral, son
encouragement, sa patience et sa compréhension tout au long de ce projet.
À ma chère amie Nassim, qui a toujours été à mes côtés, qui m’a aidée,
encouragée et accompagnée tout au long de mon chemin d’études supérieures
À mon encadrant Mr. MEZIANI Mohamed, pour sa guidance. Vous m’avez
montré la voie et m’avez aidé à atteindre mes objectifs.
Amine
Table des matières
1 Introduction 10
2 Régression linéaire 12
2.1 Régression linéaire simple . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.1 Estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . 14
2.1.2 L’estimation par moindres carré ordinaires . . . . . . . . . . . . 14
2.1.3 Hypothèses et propriétés des estimateurs des MCO . . . . . . . . 15
2.2 Régression linéaire multiple . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.1 Présentation du modèle . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.2 Estimation des paramètres du modèle . . . . . . . . . . . . . . . . 19
2.2.3 Intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.4 Le coefficient de détermination multiple R2 . . . . . . . . . . . . 24
2.2.5 Coefficient de détermination ajusté R̄2 . . . . . . . . . . . . . . . 24
2.2.6 Sommes des carrés . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.7 Inférence dans le cas gaussien . . . . . . . . . . . . . . . . . . . . 25
2.2.8 Inférence sur le modèle . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3 Test d’hypothèses en régression linéaire multiple . . . . . . . . . . . . . 27
1
2.3.1 Test de signification de la régression . . . . . . . . . . . . . . . . 27
3 Sélection de Modèle Linéaire et régularisation 29
3.1 Sélection de Sous-ensemble . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.1.1 Meilleure Sélection de Sous-Ensembles . . . . . . . . . . . . . . . 31
3.1.2 Sélection Par Étapes . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2 Choisir le Modèle Optimal . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2.1 Critère de AIC (Akaike Information Criterion (1973)) . . . . . . . 37
3.2.2 Critère BIC (Bayesian Information Criterion (1977)) . . . . . . . . 38
3.2.3 Validation croisée . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3 la régression régularisée . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4 Pénalisation de la fonction de coût . . . . . . . . . . . . . . . . . . . . . . 39
3.4.1 Sur-entraînement et sous-entraînement . . . . . . . . . . . . . . 40
3.5 Régression Ridge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.5.1 Estimation au ridge . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.6 Régression lasso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.6.1 définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.6.2 Estimation au Lasso . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.6.3 ℓq Pénalités et estimations Bayésiennes . . . . . . . . . . . . . . . 47
3.7 Elastic-Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2
4 Implémentation Pratique 50
4.1 Description des données . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2 Description Générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.3 Variables du Jeu de Données . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.4 Pré-traitement des Données . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.5 Sélection de Modèle Linéaire . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.5.1 Exploite les données . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.5.2 Meilleure Sélection de Sous-Ensembles (Best Subset Selection) . . 53
4.5.3 Interprétation des Résultats . . . . . . . . . . . . . . . . . . . . . 54
4.5.4 Sélection Par Étapes (Stepwise Selection) . . . . . . . . . . . . . . 55
4.5.5 Avancer Pas à Pas (Forward Stepwise) . . . . . . . . . . . . . . . 56
4.5.6 Pas à Pas En Arrière (Backward Stepwise) . . . . . . . . . . . . . 57
4.6 Comparaison des Modèles . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.6.1 Estimation Indirecte de l’erreur de Test avec Cp , AIC , BIC , et
R2 Ajusté . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.7 Estimation Directe De L’Erreur De Test . . . . . . . . . . . . . . . . . . . 63
4.8 Régression régularisée a l’aide de la fonction glmnet . . . . . . . . . . . . 68
4.8.1 Transformation des données en matrices de modèle . . . . . . . 68
4.8.2 Régression de ridge . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.8.3 Régression lasso . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.8.4 Régression Elestic-net . . . . . . . . . . . . . . . . . . . . . . . . 72
4.8.5 la validation croisée d’une régression lasso , Ridge et Elestic-net : 74
3
5 Conclusion générale 84
4
Table des figures
3.1 Analyse de la performance du Modèle en fonction du Nombre de prédic-
teurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2 Évolution des performances des modèles de crédit en fonction du nombre
de prédicteurs : Cp (ou AIC), BIC et R2 ajustés[5] . . . . . . . . . . . . 37
3.3 Graphique de Sous-entraînement, Entraînement Correct et Sur-entraînement 40
3.4 la forme géométriques de fonctions de régularisation de Ridage . . . . . 43
3.5 Comparaison des Méthodes de Régularisation : Lasso et Ridge . . . . . . 46
3.6 la forme géométriques de fonctions de régularisation de Lasso . . . . . . 46
3.7 Régions de contraintes pour différentes valeurs q dans les méthodes de
régularisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.8 La boule élastique-réseau avec α = 0.7 (panneau de gauche) dans R3 ,
comparée à la boule ℓ1 (panneau de droite). Les contours incurvés en-
couragent les variables fortement corrélées à partager des coefficients. . 49
4.1 Graphique montrant l’évolution des trois statistiques (R2 ajusté, Cp de
Mallows, et BIC) en fonction du nombre de prédicteurs . . . . . . . . . . 59
4.2 Graphique des erreurs de validation en fonction du nombre de prédicteurs 64
5
4.3 Graphique des erreurs de validation sur l’ensemble de test en fonction
du nombre de prédicteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.4 Graphique des erreurs de Validation Croisée Moyennes en fonction du
nombre de prédicteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.5 Résultats de la validation croisée pour une régression Lasso,Ridge et
Elestic-net à l’aide de la fonction cv.glmnet . . . . . . . . . . . . . . . . 76
4.6 Graphique des prédictions . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.7 Erreur quadratique moyenne pour chaque modèle . . . . . . . . . . . . . 80
4.8 Coefficients de Régression en fonction de log(λ) pour Ridge, Lasso, et
Elastic-Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6
Table des algorithmes
1 Meilleure Sélection de Sous-Ensembles . . . . . . . . . . . . . . . . . . 32
2 Sélection progressive vers l’avant . . . . . . . . . . . . . . . . . . . . . 35
3 Sélection pas à pas vers l’arrière . . . . . . . . . . . . . . . . . . . . . . 36
7
Résumé
Le mémoire intitulé "Sélection de variable Linéaire et Régularisation" se concentre sur
l’étude approfondie des méthodes de régression linéaire, ainsi que sur les méthodes de
sélection de variables adaptées à cette approche statistique. La régression linéaire est
une méthode statistique fondamentale utilisée pour modéliser la relation entre une va-
riable dépendante et une ou plusieurs variables indépendantes. Ce mémoire explore les
bases théoriques de la régression linéaire simple et multiple, discute des techniques d’es-
timation des paramètres, des tests d’hypothèses et des méthodes d’inférence. En outre,
il examine diverses méthodes de sélection de modèles, telles que la sélection de sous-
ensembles, la sélection par étapes, et les critères de teste de performances comme AIC,
BIC et la validation croisée. Le document met également en lumière l’importance de la
régularisation dans la régression, avec une attention particulière aux Méthodes de Ridge,
Lasso et Elastic-Net. Finalement, une implémentation pratique est réalisée en utilisant
des données réelles pour illustrer et comparer les différentes méthodes discutées.
Mots-clés : Régression linéaire, sélection de modèles, régression ridge, régression lasso,
elastic-Net, critères de sélection de modèles (AIC, BIC), validation croisée, estimation des
paramètres, Tests d’hypothèses, inférence statistique, régularisation
8
Abstract
The thesis titled "Analysis of Linear Regression Methods and Model Selection" focuses on
an in-depth study of linear regression techniques and the model selection methods suited
to this statistical approach. Linear regression is a fundamental statistical method used
to model the relationship between a dependent variable and one or more independent
variables. This thesis explores the theoretical foundations of simple and multiple linear
regression, discusses parameter estimation techniques, hypothesis testing, and inference
methods. Additionally, it examines various model selection methods such as subset se-
lection, stepwise selection, and selection criteria like AIC, BIC, and cross-validation. The
document also highlights the importance of regularization in regression, with a particu-
lar focus on Ridge, Lasso, and Elastic-Net techniques. Finally, a practical implementation
is carried out using real data to illustrate and compare the different methods discussed.
Key Words : Linear Regression, model selection, ridge regression, lasso regression,
elastic-Net, model Selection criteria (AIC, BIC), cross-validation, parameter estimation,
hypothesis testing, statistical inference, regularization
9
Chapitre 1
Introduction
Dans ce mémoire, nous abordons l’analyse des méthodes de régression linéaire et la sé-
lection de modèles, en utilisant le jeu de données Hitters. La régression linéaire est une
technique statistique fondamentale utilisée pour modéliser la relation entre une variable
dépendante et une ou plusieurs variables indépendantes. Ce type de modélisation est
crucial dans de nombreux domaines, tels que l’économie, la biologie, et l’apprentissage
automatique, où l’on cherche à prédire une variable d’intérêt en fonction d’autres va-
riables explicatives.
Le jeu de données Hitters, provenant du package ISLR en R, est couramment utilisé pour
des applications de régression et d’apprentissage statistique. Il contient des informations
sur les performances de joueurs de baseball, ce qui en fait un ensemble de données idéal
pour illustrer les techniques de régression linéaire. Parmi les variables disponibles, nous
avons des données sur les présences au bâton, les coups sûrs, les coups de circuit, les
points marqués, et les salaires des joueurs, entre autres.
La question principale que ce mémoire aborde est : comment améliorer la précision des
modèles de régression linéaire et optimiser la sélection de variables pour des prédictions
plus robustes et fiables ?
10
Cette problématique est cruciale car une mauvaise sélection de variables peut conduire
à des modèles surajustés ou sous-ajustés, compromettant ainsi la validité des résultats
obtenus.
L’objectif principal de ce mémoire est de comparer différentes méthodes de régression
linéaire et de sélection de variables afin d’identifier les techniques les plus efficaces pour
prédire les salaires des joueurs en fonction de leurs performances. Nous examinerons
plusieurs approches de sélection de variables, telles que la sélection par étapes, la sé-
lection de sous-ensembles et les méthodes de régularisation comme le Lasso, Ridge et
l’Elastic Net, afin de déterminer les variables qui contribuent le plus à la prédiction et
qui améliorent la précision du modèle.
— Évaluer les performances des méthodes de sélection de sous-ensembles et de sé-
lection par étapes.
— Comparer les critères de sélection de modèles comme AIC, BIC et la validation
croisée.
— Mettre en œuvre une application pratique de ces méthodes des régularisation sur
des jeux de données réels pour illustrer leurs avantages et inconvénients.
11
Chapitre 2
Régression linéaire
Ce chapitre traite de la régression linéaire, une approche très simple pour l’apprentis-
sage supervisé. En particulier, la régression linéaire est un outil utile pour prédire une
réponse quantitative. Il existe depuis longtemps et est le thème d’innombrables manuels.
Bien qu’il puisse sembler un peu ennuyeux par rapport à certaines des approches d’ap-
prentissage statistique plus modernes, la régression linéaire est toujours une méthode
utile et largement utilisée. En outre, il sert de bon point de départ pour les approches plus
récentes : comme nous le verrons dans les chapitres suivants, de nombreuses approches
d’apprentissage statistique fantaisistes peuvent être considérées comme des généralisa-
tions ou des extensions de la régression linéaire. Par conséquent, l’importance d’avoir
une bonne compréhension de la régression linéaire avant d’étudier des méthodes d’ap-
prentissage plus complexes ne peut être surestimée. Dans ce chapitre, nous explorons
les concepts fondamentaux du modèle de régression linéaire, ainsi que la méthode des
moindres carrés, couramment utilisée pour ajuster ce modèle.
Supposons que, dans notre rôle de consultants statistiques, nous soyons priés de pro-
poser, sur la base de ces données, un plan de marketing pour l’année prochaine qui se
traduira par des ventes de produits élevées. Quelles informations seraient utiles pour
12
formuler une telle recommandation ? C’est l’une des questions importantes que nous
allons aborder .
Y a-t-il une relation entre le budget publicitaire et les ventes ? Notre premier objectif
devrait être de déterminer si les données fournissent la preuve d’une association entre les
dépenses publicitaires et les ventes. Si les preuves sont faibles, alors on pourrait soutenir
qu’aucun argent ne devrait être dépensé en publicité !
Il s’avère que la régression linéaire peut être utilisée pour répondre à chacune de ces in-
teractions des questions. Nous aborderons d’abord toutes ces questions dans un contexte
général.
2.1 Régression linéaire simple
La régression linéaire simple porte bien son nom : c’est une régression linéaire très simple
approche de prédiction d’une réponse quantitative Y en se basent sur une seule variable
prédictif X. Il suppose qu’il y a une relation linéaire entre X et Y . Mathématiquement,
on peut écrire ce modèle linéaire.[5]
Y ≈ β0 + β1 X + ei (2.1)
Y = variable à expliquer ou réponse, supposée aléatoire.
X = variable explicative ou covariable ou régresseur.
Dans l’équation 2.1, β0 et β1 sont deux constantes inconnues qui représentent les termes
d’ordonnée à l’origine et de pente dans le modèle linéaire. Ensemble, β0 et β1 sont des
pentes d’interception appelées coefficients ou paramètres du modèle. Une fois que nous
avons utilisé nos données d’apprentissage des paramètres de coefficient pour produire
des estimations β̂0 et β̂1 pour les coefficients du modèle, nous pouvons prédire dans
13
l’exemple de la publicité télévisée les ventes futures sur la base d’une valeur particulière
de la publicité en calculant.
Ŷ = β̂0 + β̂1 X (2.2)
où Ŷ indique une prédiction de Y sur la base de X = x .
2.1.1 Estimation des paramètres
En pratique, β0 et β1 sont inconnus. Donc, avant de pouvoir utiliser l’équation 2.1 pour
faire des prédictions, nous devons utiliser des données pour estimer les coefficients.
Soit (x1 ,y1 ), (x2 ,y2 ), . . . , (xn ,yn ) représentent n couples d’observation, dont chacun est
constitué d’une mesure de X et d’une mesure de Y.
Soit ŷi = β̂0 + β̂1 xi la prédiction pour Y basée sur la i valeur de X. Alors ei = yi − ŷi
représente le i résidu c’est-à-dire la différence entre par notre modèle linéaire. Nous dé-
finissons la somme résiduelle des carrés (RSS) comme suit.
RSS = e21 + e22 + . . . + e2n (2.3)
ou de manière équivalente.
RSS = (y1 − β̂0 − β̂1 x1 )2 + (y2 − β̂0 − β̂1 x2 )2 + . . . + (yn − β̂0 − β̂1 xn )2 (2.4)
2.1.2 L’estimation par moindres carré ordinaires
Le problème est de déteminer les paramètres estimés (β̂0 et β̂1 ) de telle sort que l’ajuste-
ment
ŷi = â + b̂xi , soit aussi proche que possible de l’observation yi , ou autrement dit que
14
l’erreur (estimée), êi = yi − ŷi = yi − β̂0 − β̂1 xi soit aussi proche que possible de 0 et
cela pour chaque i. La mesure de la proximité que l’on retient constitue le critère des
moindres carrés ordinaires,
c’est-à-dire qu’on retient les valeurs β̂0 et β̂1 qui minimisent la somme des carrés des
résidus :
n
X n
X
(β̂0 , β̂1 ) = arg min e2i = arg min (yi − β0 − β1 xi )2
i=1 i=1
L’approche des moindres carrés choisit β̂0 et β̂1 pour minimiser le RSS.
En Utilisant quelques calculs, on peut montrer que les minimiseurs sont :
Pn
(x − x̄)(yi − ȳ)
Pn i
β̂1 = i=1 2
i=1 (xi − x̄)
Pn
yi xi − nȳx̄
= Pi=1
n 2 2
i=1 xi − nx̄
Cov(yi , xi )
=
Var(xi )
β̂0 = ȳ − β̂1 x̄ (2.5)
où ȳ et x̄ sont les moyennes d’échantillonnage. En d’autres mots, la relation 2.5 définit
les estimations des coefficients des moindres carrés pour une régression linéaire simple.
2.1.3 Hypothèses et propriétés des estimateurs des MCO
Les hypothèses liées à l’erreur ei sont :
H1 : xi est une variable certaine (non aléatoire) ⇒ Cov(xi , ei ) = 0 ∀i( la variable explicative et l’erreur s
15
⊥)
H2 : E(ei ) = 0 ∀i (l’erreur est d’espérance nulle)
H3 : Cov(ei , ej ) = E(ei ej )−E(ei )E(ej ) = 0. Car E(ei ) = 0 ∀i ̸= j ⇒ les erreurs sont non corrélées.
Ces hypothèses permettent au x estimateurs d’obtenir les bonnes propriétés suivantes :
• Les estimateurs sont sans biais :
E(β̂1 ) = β1
E(β̂0 ) = β0
• Les estimateurs sont convergents :
lim Var(β̂1 ) = 0
n→∞
lim Var(β̂0 ) = 0
n→∞
2.2 Régression linéaire multiple
Les modèles traditionnels de répartition (linéaire, logistique) sont anciens et moins su-
jets à controverse médiatique que ceux récents provenant de l’apprentissage machine.
Cependant, en raison de leur solidité, de leur résistance aux variations des échantillons,
de leur capacité à s’adapter aux données massives. . .tout cela explique pourquoi ils sont
toujours très utilisés dans le domaine de la production, en particulier lorsque la fonction
à modéliser est bien linéaire et qu’il serait contre-productif de chercher des approches
plus complexes.
16
2.2.1 Présentation du modèle
Une variable quantitative Y dite à expliquer (ou encore, réponse, exogène, dépendante)
est mise en relation avec p le nombre de quantitatives X1 , . . ., Xp dites explicatives (ou
encore de contrôle, endogènes, indépendantes, régresseurs, prédicteurs).
Les données sont supposées provenir de l’observation d’un échantillon statistique de
taille n
(n > p + 1) de Rp+1 :
(xi1 , xi2 , . . . , xij , . . . , xip , yi ) , i = 1, . . . , n
L’écriture du modèle linéaire dans cette situation conduit à supposer que l’espérance de
Y appartient au sous-espace de Rn engendré par 1, X1 ,. . ., Xp où 1 désigne le vecteur de
Rn .
C’est-à-dire que les (p + 1) variables aléatoires vérifient :
Yi = β0 + β1 Xi 1 + β2 Xi 2 + . . . + βp Xi p + ei , i = 1, 2, . . . , n
avec les hypothèses suivantes :
1. Les ei sont des termes d’erreur indépendants et identiquement distribués ;
E(ei ) = 0, Var(e) = σ 2 I.
2. Les termes Xj sont supposés déterministes (facteurs contrôlés) ou bien l’erreur
e est indépendante de la distribution conjointe de X1 , . . . , Xp . On écrit dans ce
dernier cas que :
E(Y | X1 , . . . , Xp ) = β0 + β1 X1 + β2 X2 + · · · + βp Xp
17
et
Var(Y | X1 , . . . , Xp ) = σ 2 .
3. Les paramètres inconnus β0 , . . . , βp sont supposés constants.
4. En option, pour l’étude spécifique des lois des estimateurs, une quatrième hypo-
thèse considère la normalité de la variable d’erreur e ∼ N (0, σ 2 In ). . Les ei sont
alors i.i.d. de loi N (0, σ 2 ).
Les données sont rangées dans une matrice X(n × (p + 1)) de terme général Xi j, dont
la première colonne contient le vecteur 1 (Xi 0 = 1), et dans un vecteur Y de terme
général Yi . En notant les vecteurs e = [e1 · · · ep ]′ et β = [β0 β1 · · · βp ]′ , le modèle s’écrit
matriciellement :
Y = Xβ + e.
Définition 2.1 (Modèle de régression multiple)
Un modèle de régression linéaire est défini par une équation de la forme.
Yn×1 = Xn×p β p×1 + en×1 . (2.6)
où :
• Y est un vecteur aléatoire de dimension n .
• X est une matrice de taille n × p connue, appelée matrice du plan d’expérience,
   
 x1   x11 x12 · · · x1p 
   
   
 2   21 x22 · · · x2p 
x  x 
X= =
   .

. .
 ..   .. .
. .. .
.
   . . . 

   
   
xn xn1 xn2 · · · xnp
18
Nous noterons la i-ème ligne du tableau X par le vecteur ligne xi = (xi1 , . . . , xip ).
• β est le vecteur de dimension p des paramètres inconnus du modèle.
• e est le vecteur centré, de dimension n, des erreurs.
Nous supposons que la matrice X est de plein rang. Cette hypothèse sera notée H1.
Comme, en général, le nombre d’individus n est plus grand que le nombre de variables
explicatives p, le rang de la matrice X vaut p.
2.2.2 Estimation des paramètres du modèle
Conditionnellement à la connaissance des valeurs des Xj , les paramètres inconnus du
modèle : le vecteur β et σ 2 , sont estimés par minimisation des carrés des écarts (M.C),
ou encore par maximisation de la vraisemblance (M.V.).
Estimateur des moindres carrés ordinaires (MCO)
Le modèle :
yi = β0 + β1 xi1 + β2 xi2 + · · · + βp xip + ei
peut résumer avec la notation matricielle
      
 y1   1 x11 · · · x1p   β0   e1 
      
 ..   .. .. .  ..   .. 
 = ... ..  +
 . 
 
 . . 
 . 
 
 . 

      
      
yn 1 xn1 · · · xnp βp en
Soit de manière compacte :
Y = Xβ + e
19
On va estimer les paramètres on obtiendra :
ŷi = β̂0 + β̂1 xi1 + β̂2 xi2 + · · · + β̂p xip
Les résidus estimés sont la différence entre la valeur de Y observée et estimée. Soit :
êi = yi − ŷi
Le principe des moindres carrés consiste à rechercher les valeurs des paramètres qui
minimisent la somme des carrés des résidus.
n
X n
X 2
min ê2i = min yi − β̂0 − β̂1 xi1 − β̂2 xi2 − · · · − β̂p xip
i=1 i=1
∂( ni=1 ê )
2
P
Ce qui revient à rechercher les solutions de ∂ β̂j
î
. Nous avons j = p + 1 équations
dites équations normales, à résoudre. La solution obtenue est l’estimateur des moindres
carrés ordinaires.
Théorème
β̂ = (X ′ X)−1 X ′ Y est l’estimateur qui minimise la somme des carrés des résidus. avec
X ′ la transposée de X.
2.2.3 Intervalle de confiance
En partant de l’hypothèse ei ∼ N (0, σ 2 ) nous pouvons montrer :
β̂j −βj
1. σβj
∼ N (0, 1)
σ̂ 2
2. (n − p − 1) σ2j ∼ χ2 (n − p − 1)
βj
20
Le rapport d’une loi normale et de la racine carrée d’une loi du χ2 normalisée par ses
degrés de liberté aboutit à une loi de Student. Nous en déduisons donc la statistique :
β̂j − βj
t= ∼ t(n − p − 1)
σ̂β̂j
elle suit une loi de Student à (n-p-1) degrés de liberté. À partir de ces informations, il est
possible de calculer les intervalles de confiance des estimations des coefficients.
Il est également possible de procéder à des tests d’hypothèses, notamment les tests d’hy-
pothèses de conformité à un standard. Parmi les différents tests possibles, le test de nullité
du coefficient (H0 : βj = 0, contre H1 : βj ̸= 0) tient un rôle particulier : il permet de
déterminer si la variable xj joue un rôle significatif dans le modèle. Il faut néanmoins être
prudent quant à ce test. L’acceptation de l’hypothèse nulle peut effectivement indiquer
une absence de corrélation entre la variable incriminée et la variable endogène ; mais il
peut également résulter de la forte corrélation de xj avec une autre variable exogène,
son rôle est masqué dans ce cas, laissant à croire une absence d’explication de la part de
la variable.
Vraisemblance de l’échantillon
La vraisemblance de l’échantillon est définie comme la probabilité que les observations
proviennent effectivement d’un échantillon (théorique) de la loi de probabilité donnée.
Pour la plupart des lois de probabilité usuelles, l’estimateur du maximum de vraisem-
blance est défini de façon unique et se calcule explicitement[7][2].
n n
Y Y 1 1 2
L(Y, β) = f (Yi |β) = √ exp − 2 (Yi − β) (2.7)
i=1 i=1 2πσ 2 2σ
21
n n
!
1 1 X
= √ exp − 2 (Yi − β)2
2πσ 2 2σ i=1
n
!
1 1 X
= exp − 2
1 n
(Yi − β)2
2
(2πσ ) 2 2σ i=1
n
!
1 1 X
= n
exp − 2 (Yi − β)2
2
(2πσ ) 2 2σ i=1
La fonction de log-vraisemblance est définie comme :
n
n 1 X
ℓ(Y, β) = log L(Y, β) = − log(2πσ 2 ) − 2 (Yi − β)2 (2.8)
2 2σ i=1
Le maximum de vraisemblance est défini comme la valeur de β qui maximise la fonction
de log-vraisemblance ℓ(Y, β)[7][2] .
β̂ = arg max ℓ(Y, β) (2.9)

β
La fonction de vraisemblance est souvent plus facile à calculer que la fonction de log-
vraisemblance, car le logarithme est une fonction monotone[2].
L(Y, β) = exp (ℓ(Y, β)) (2.10)
La courbe de vraisemblance est une surface en m dimensions si m paramètres sont es-
timés en même temps. Pour chaque valeur fixe de β0 , il faut trouver la valeur maximale
de la fonction de vraisemblance pour le reste des paramètres.
Estimateurs du maximum de vraisemblance
La méthode des moindres carrés peut être utilisée pour estimer les paramètres dans un
modèle de régression linéaire quelle que soit la forme de la distribution des erreurs ei .
22
Les moindres carrés produisent les meilleurs estimateurs linéaires non biaisés de β0 et β1
. D’autres procédures statistiques, telles que les tests d’hypothèses et la construction de
l’IC, supposent que les erreurs sont normalement distribuées. Si la forme de la distribu-
tion des erreurs est connue, une autre méthode d’estimation des paramètres, la méthode
du maximum de vraisemblance, peut être utilisée.
selon l’équation 2.7
n
2
Y 1
2 −2 1 2
L(yi , xi , β0 , β1 , σ ) = 2πσ exp − 2 (yi − β0 − β1 xi ) (2.11)
i=1
2σ

n
2 −2 1 2
= 2πσ exp − 2 (yi − β0 − β1 xi ) (2.12)
2σ
Les estimateurs du maximum de vraisemblance sont les valeurs des paramètres, par
exemple enter β0 , enter β1 et enter σ2 ,qui maximisent L ou qui maximisent log L.
n n 1
log L(yi , xi , β0 , β1 , σ 2 ) = − log (2π) − log σ 2 − 2 (yi − β0 − β1 xi )2

(2.13)
2 2 2σ
et les estimateurs du maximum de vraisemblance est β0 , β1 et σ2 doivent satisfaire.
n
∂ ln 1 X ˆ ˆ

|βˆ ,βˆ ,σ̂2 = 2 yi − β0 − β1 xi = 0 (2.14)
∂ βˆ0 0 1 σ̂ i=1
n
∂ ln 1 X
|βˆ0 ,βˆ1 ,σ̂2 = 2 yi − βˆ0 − βˆ1 xi xi = 0 (2.15)
∂ βˆ1 σ̂ i=1
et
n
∂ ln n 1 X 2
ˆ0 − βˆ1 xi = 0
| ˆ ˆ 2 = + y i − β (2.16)
∂ σ̂ 2 β0 ,β1 ,σ̂ 2σ̂ 2 2σ̂ 4 i=1
la solution à l’égalisation. 2.16 donne les estimateurs du maximum de vraisem-
23
blance :
βˆ0 = ȳ − βˆ1 x̄ (2.17)
Pn
yi (xi − x̄)
βˆ1 = Pi=1
n 2 (2.18)
i=1 (xi − x̄)
Pn 2
i=1 yi − βˆ0 − βˆ1 xi
σ2 = (2.19)
n
Notez que les estimateurs du maximum de vraisemblance de l’ordonnée à l’origine et de
la pente, βˆ0 et βˆ1 , sont identiques aux estimateurs des moindres carrés de ces paramètres.
De plus, σˆ2 est un estimateur biaisé de σ.[6]
2.2.4 Le coefficient de détermination multiple R2
Comme en régression linéaire simple, on mesure la variation expliquée par la régres-
sion ; c’est-à-dire la proportion de variance d’une variable dépendante y expliquée par
un ensemble de p variables explicatives x à l’aide du cocffcient de détermination mul-
tiple R2 , qui mesure le rapport entre la dispersion expliquée par la régression (SCE) et
la dispersion totale (SCT) :
Pn
2 (ŷi − ȳ)2 SCE SCR
R = Pi=1
n 2 = =1−
i=1 (yi − ȳ)
SCT SCT
2.2.5 Coefficient de détermination ajusté R̄2
Le coefficient de détermination ajusté tient compte du nombre de variables. En effet, le
principal défaut du R2 est de croître avec le nombre de variables explicatives. ou, on sait
qu’un excès de variables produit des modèles peu robustes. C’est pourquoi on s’intéresse
davantage à cet indicateur qu’au R2 . Mais ce n’est pas un véritable carré et il peut même
être négatif. Voici deux expressions du R2 ajusté,sachant que certains auteurs lui donnent
24
une définition légèrement différente :
SCR/(n − p − 1) n−1
R̄2 = 1 − =1− (1 − R2 )
SCT /(n − 1) n−p−1
2.2.6 Sommes des carrés
SCE est la somme des carrés des erreurs (sum of squared errors),
SCE = ∥Ŷ − Y ∥2 = ∥e∥2 .
On définit également la somme totale des carrés (total sum of squares) par
SCT = ∥Y − Y¯1 ∥2 = Y ′ Y − nȲ 2
et la somme des carrés de la régression (regression sum of squares) par
SCR = ∥Ŷ − Ȳ 1∥2 = Ŷ ′ Ŷ − nȲ 2 = Y ′ M Y − nȲ 2 = β̂ ′ X ′ Y − nȲ 2 .
On vérifie alors :
SCT = SCR + SCE.
2.2.7 Inférence dans le cas gaussien
En principe, il est essentiel de prendre en compte l’hypothèse optionnelle (4) de normalité
des erreurs pour cette section. Dans la réalité, des résultats asymptotiques, qui sont donc
valides pour de grands échantillons, ainsi que des études de simulation, démontrent que
cette hypothèse n’est pas celle dont la violation est la plus préjudiciable à la fiabilité des
25
modèles.
Nous rappelons le contexte de la Définition 2.1 :
Yn×1 = Xn×p β p×1 + en×1 , (2.20)
sous les hypothèses
– H1 : rang(X) = p.
– H2 : E(e) = 0, V ar(e) = σ 2 In .
Nous allons désormais supposer que les erreurs suivent une loi normale, donc H2 devient
– H3 : e ∼ N (0, σ 2 In ).
Nous pouvons remarquer que H3 contient H2. De plus, dans le cas gaussien, Cov(ei , ej ) =
σ 2 δij implique que les ei sont indépendants. L’hypothèse H3 s’écrit e1 , . . . , en sont i.i.d.
et de loi N (0, σ 2 ).
L’hypothèse gaussienne va nous permettre de calculer la vraisemblance et les estima-
teurs du maximum de vraisemblance (EMV). Cette hypothèse va nous permettre égale-
ment de calculer des régions de confiance et de proposer des tests. C’est l’objectif de ce
chapitre.
2.2.8 Inférence sur le modèle
Le modèle peut être testé globalement. Sous l’hypothèse nulle H0 : β1 = β2 = . . . =
βp = 0, la statistique
SCR/p MSR
=
SCE/(n − p − 1) MSE
suit une loi de Fisher avec p et (n − p − 1) degrés de liberté. Les résultats sont habituel-
lement présentés dans un tableau d’analyse de la variance sous la forme suivante :
26
Source de variation d.d.l. Somme des carrés Variance F
Régression p SCR MSR = SCR / p MSR / MSE
Erreur n−p−1 SCE MSE = SCE / (n − p − 1)
Total n−1 SCT
Table 2.1 – Tableau d’analyse de la variance
2.3 Test d’hypothèses en régression linéaire multiple
Après avoir évalué les paramètres du modèle, nous nous retrouvons face à deux pro-
blèmes immédiats :
1. Comment le modèle est-il globalement adapté ?
2. Quels régresseurs particuliers semblent essentiels ?
Différentes méthodes de test d’hypothèses sont bénéfiques pour répondre à ces inter-
rogations. Il est nécessaire que nos erreurs aléatoires soient autonomes et suivent une
distribution normale avec une moyenne E(ei ) = 0 et une variation V ar(ei ) = σ 2 .
2.3.1 Test de signification de la régression
Le test de signification de la régression est un test qui permet d’établir si la réponse y
est linéairement liée à au moins une des variables explicatives x1 , x2 , . . . , xp .
On qualifie généralement cette procédure de test global ou test de l’adéquation du mo-
dèle. Les hypothèses appropriées comprennent :
H0 : β0 = β1 = . . . = βp = 0
H1 : βj ̸= 0 pour au moins un j
Si cette hypothèse nulle est refusée, cela signifie que l’un des régresseurs x1 , x2 , . . . , xp
apporte une contribution significative au modèle.
27
La procédure de test est une généralisation de l’analyse de la variance utilisée dans la
régression linéaire simple. La somme totale des carrés SCT est partitionnée en une
somme des carrés due à la régression , SCR , et une somme résiduelle des carrés
, SCE . Ainsi,
SCT = SCR + SCE
la démonstration que si l’hypothèse nulle est vraie puis SCR/σ 2 suivre la loi χ2p
Distribution du test Fisher
La statistique de test F suit une loi de Fisher avec k et n − k − 1 degrés de liberté :
SCE/K MSR
F0 = = ∼ Fk,n−k−1
SCR/ (n-k-1) MSRes
si la valeur observée de F0 est grande, il est probable qu’au moins un βj ̸= 0.
on calcule la statistique de test F0 et on rejette H0 si :
F0 > Fα,k,n−k−1
La procédure de test est généralement résumée dans un tableau d’analyse de la variance
tel que le 2.3.1.
Source de Variation Somme des Carrés Degrés de Liberté Carré Moyen

Régression SCR k MSR
Erreur SCE n−k−1 MSRes
Total SCT n−1
Table 2.2 – Analyse de la variance pour la signification de la régression multiple
28
Chapitre 3
Sélection de Modèle Linéaire et
régularisation
Le modèle linéaire standard est toujour utilisé dans les modèles de régression régulari-
sées.
Y = β0 + β1 X1 + . . . + βp Xp + e
Le modèle linéaire standard est fréquemment employé dans le paramètre de régression
afin de décrire la relation entre une réponse Y et un ensemble de variables X1 , X2 , . . . , XP .
Au chapitre 2, nous avons constaté que ce modèle est généralement adapté en utilisant
les moindres carrés. Dans ce chapitre, nous abordons différentes approches pour amé-
liorer le modèle linéaire simple, en substituant l’ajustement des moindres carrés simples
par des méthodes d’ajustement alternatives.
Qu’est-ce qui pourrait nous inciter à utiliser une autre méthode d’ajustement plutôt que
de moindres carrés ? D’autres méthodes d’ajustement peuvent améliorer la précision de
prédiction et l’interprétabilité du modèle, comme nous le verrons.
La précision de la prédiction dépend de la relation approximativement linéaire entre
29
la réponse et les prédicteurs. Ainsi, les estimations des moindres carrés présenteront un
faible biais. Lorsque n est supérieur à p, c’est-à-dire lorsque le nombre d’observations est
beaucoup plus élevé que p,les estimations des moindres carrés ont également tendance
à avoir une faible variance, ce qui leur permettra de fonctionner correctement sur les
observations de test. Toutefois, si n n’est pas considérablement plus grand que p.
Par la suite, il est possible que l’ajustement des moindres carrés présente une grande
variabilité, ce qui peut conduire à un su-rajustement et donc à des prédictions erronées
sur les observations futures qui ne sont pas utilisées dans la construction du modèle. Si
p est supérieur à n, il n’existe plus qu’une seule estimation du coefficient des moindres
carrés : il existe une infinité de solutions. Chaque solution des moindres carrés entraîne
une erreur nulle sur les données d’apprentissage, mais généralement de très mauvaises
performances de l’ensemble des tests en raison d’une variance extrêmement élevée. En
restreignant ou en diminuant les coefficients estimés, il est souvent possible de dimi-
nuer considérablement la variance, même si cela entraîne une augmentation négligeable
du biais. Cela peut entraîner d’importantes améliorations de la précision avec laquelle
nous pouvons anticiper la réponse pour les observations qui ne sont pas utilisées dans
la construction du modèle.
• Interprétabilité des modèles : Un grand nombre de variables dans un modèle
de régression multiple ne sont pas liées à la réponse, ce qui entraîne une com-
plexité inutile. En supprimant ces variables, nous pouvons obtenir un modèle plus
facile à interpréter. Néanmoins, il est peu probable que même les plus petits carrés
puissent fournir des estimations précises du coefficient nul. Dans ce chapitre, on
examine différentes méthodes pour sélectionner automatiquement des caractéris-
tiques ou des variables, ou sélectionner des variables afin d’exclure des variables
non pertinentes d’un modèle de régression multiple.
30
• Sélection de Sous-ensemble : Cette méthode permet d’identifier une partie des
prédicteurs p liés à la réponse et d’ajuster un modèle en utilisant les meilleurs car-
rés sur un ensemble de variables réduit.
• Shrinkage : Cette approche implique l’ajustement d’un modèle impliquant tous
les prédicteurs p, réduisant les coefficients estimés à zéro par rapport aux esti-
mations des moindres carrés. Cette régularisation réduit la variance et peut être
effectuée avec des coefficients nuls exacts, permettant la sélection des variables
dans les méthodes de régression.
• Réduction de Dimension : Cette approche implique la projection de p prédic-
teurs dans une dimension-M sous-espace, où M < p, en calculant M de différentes
combinaisons linéaires de variables, puis à l’aide de ces projections comme des fac-
teurs prédictifs d’ajuster un modèle de régression linéaire en minimisant les places.
[6]
3.1 Sélection de Sous-ensemble
Dans cette section, nous examinons certaines méthodes de sélection de sous-ensembles
de prédicteurs. Celles-ci incluent les meilleures procédures de sélection de sous-ensembles
et de modèles par étapes.
3.1.1 Meilleure Sélection de Sous-Ensembles
Pour effectuer la meilleure sélection de sous-ensemble, nous ajustons un meilleur sous-
ensemble de régression des carrés les moins distincts pour chaque combinaison possible
31
de prédicteurs p. Cela signifie ajuster tous les modèles p qui contiennent exactement
p

un prédicteur, tous 2
= p(p − 1)/2 les modèles qui contiennent exactement deux
prédicteurs, puis examiner tous les résultats pour identifier le meilleur ajustement.
Le problème de la sélection du meilleur modèle parmi les possibilités 2p envisagées par
la sélection du meilleur sous-ensemble n’est pas anodin. Ceci est généralement divisé en
deux étapes, comme décrit dans l’algorithme (1)
Algorithm 1 Meilleure Sélection de Sous-Ensembles
1: Soit M0 le modèle nul, qui ne contient aucun prédicteur. Ce modèle prédit simple-
ment la moyenne de l’échantillon pour chaque observation.
2: Pour k = 1, 2, . . . , p :
p

(a) Convient à tous modèles contenant exactement k prédicteurs.
k
(b) Choisissez le meilleur parmi ceux-ci kp modèles, et appelez−le Mk . Voici le

meilleur est défini comme ayant le plus petit RSS, ou de manière équivalente
le plus grand R2 .
3: Sélectionnez un seul meilleur modèle parmi M0 , . . . , Mp en utilisant l’erreur de pré-
diction sur un ensemble de validation, Cp (AIC), BIC ou R2 ajusté. Ou utilisez la
méthode de validation croisée.
32
Dans l’algorithme (1) l’étape 2 identifie le meilleur modèle (sur les données d’entraî-
nement) pour chaque taille de sous-ensemble, afin de réduire le problème de l’un des
2p modèles possibles à l’un des p + 1 modèles possibles. Dans la figure 3.1, ces modèles
forment la frontière inférieure représentée en rouge. Maintenant, afin de sélectionner un
seul meilleur modèle, nous devons simplement choisir parmi les options sep p + 1. Cette
tâche doit être effectuée avec précaution, car le RSS de ces modèles p + 1 diminue de fa-
çon monotone et le R2 augmente monotone, à mesure que le nombre de fonctionnalités
incluses dans les modèles augmente. Par conséquent, si nous utilisons ces statistiques
pour sélectionner le meilleur modèle, nous aboutirons toujours à un modèle impliquant
toutes les variables. Le problème est qu’un RSS faible ou un R2 élevé indique un mo-
dèle avec une faible erreur d’apprentissage,alors que nous souhaitons choisir un modèle
qui a une faible erreur de test. Par conséquent, à l’étape 3, nous utilisons l’erreur sur un
ensemble de validation, Cp , BIC ou R2 ajusté afin de sélectionner parmi M0 , M1 , . . .,
Député. Si la validation croisée est utilisée pour sélectionner le meilleur modèle, l’étape
2 est répétée à chaque pli d’apprentissage et les erreurs de validation sont moyennées
pour sélectionner la meilleure valeur de k. Ensuite, l’ajustement du modèle Mk sur l’en-
semble d’entraînement complet est fourni pour le k choisi. Ces approches sont discutées
dans la subsection 3.2.[5]
33
Figure 3.1 – Analyse de la performance du Modèle en fonction du Nombre de prédicteurs
le graphe a gauche : Il montre la somme des carrés des résidus (Residual Sum of Squares,
RSS) en fonction du nombre de prédicteurs. L’axe des y représente le RSS, et l’axe des x
représente le nombre de prédicteurs. Les points bleus représentent les différentes valeurs
observées, et la ligne rouge indique la tendance.
le graphe a droit : Il montre le coefficient de détermination (R2 ) en fonction du nombre
de prédicteurs. L’axe des y représente R2 , et l’axe des x représente le nombre de prédic-
teurs. Les points bleus représentent les différentes valeurs observées, et la ligne rouge
indique la tendance.
3.1.2 Sélection Par Étapes
La meilleure sélection de sous-ensembles peut ne pas être applicable avec un grand p, car
il peut souffrir de problèmes statistiques. De grands espaces de recherche augmentent
les chances de trouver de bons modèles, mais peuvent entraîner une surestimation et
une forte variance des estimations des coefficients.
34
Sélection Progressive Vers L’avant
La sélection pas à pas vers l’avant est une alternative efficace en termes de calcul à la
meilleure sélection de sous-ensemble de sélection pas à pas vers l’avant. Alors que la
procédure de sélection du meilleur sous - ensemble considère tous les 2p modèles pos-
sibles contenant des sous-ensembles des p prédicteurs, la procédure progressive suivante
considère un ensemble de modèles beaucoup plus petit. La sélection progressive avancée
commence par un modèle ne contenant aucun prédicteur, puis ajoute des prédicteurs au
modèle, un à la fois, jusqu’à ce que tous les prédicteurs soient dans le modèle. En particu-
lier, à chaque étape, la variable qui apporte la plus grande amélioration supplémentaire
à l’ajustement est ajoutée au modèle. Plus formellement, la procédure de sélection pro-
gressive avancée est donnée dans l’algorithme (3.1.2)
Algorithm 2 Sélection progressive vers l’avant
1: Soit M0 désignez le modèle nul, qui ne contient aucun prédicteur.

2: Pour k = 0, . . . , p − 1 :
(a) Considérez tous les p − k modèles qui augmentent les prédicteurs en Mk avec
un prédicteur supplémentaire.
(b) Choisissez le meilleur parmi ces modèles p − k et appelez-le Mk + 1.Ici, le
meilleur est défini comme ayant le plus petit RSS ou le R2 le plus élevé
Contrairement à la sélection du meilleur sous-ensemble, qui impliquait l’ajustement de
modèles 2p, la sélection par étapes avancée implique l’ajustement d’un modèle nul, ainsi
que des modèles p − k dans la k ème itération, pour k = 0, . . . , p − 1.

Pp−1
Cela équivaut à un total de k=0 (p − k) = +p(p + 1)/2 modèles. Il s’agit d’une diffé-
rence substantielle : lorsque p = 20. À l’étape 2 (b) de l’algorithme 3.1.2, nous devons
identifier le meilleur modèle parmi ceux p − k qui augmentent Mk avec un prédicteur
supplémentaire. Nous pouvons le faire en choisissant simplement le modèle avec le RSS
35
le plus bas ou le R2 le plus élevé. Cependant, à l’étape 3, nous devons identifier le meilleur
modèle parmi un ensemble de modèles avec différents nombres de variables. C’est plus
difficile et est discuté dans la section 3.2. [5]
Sélection Pas à Pas Vers L’Arrière
Comme la sélection pas à pas vers l’avant, la sélection pas à pas vers l’arrière fournit
une sélection pas à pas vers l’arrière alternative efficace à la meilleure sélection de sous-
ensembles. Cependant, contrairement à la sélection progressive avancée, elle commence
par le modèle des moindres carrés complets contenant tous les prédicteurs possibles,
puis supprime de manière itérative le prédicteur le moins utile, un à la fois. Les détails
sont donnés dans l’algorithme (3.1.2).
Algorithm 3 Sélection pas à pas vers l’arrière
1: Soit Mp le modèle complet, qui contient tous les p prédicteurs.

2: Pour k = p , p − 1, . . . , 1 :
(a) Considérez tous les k modèles qui contiennent tous les prédicteurs sauf un
dans Mk , pour un total de k − 1 prédicteurs.
(b) Choisissez le meilleur parmi ces modèles k et appelez-le Mk −1. Ici, le meilleur
est défini comme ayant le plus petitRSS ou le plus grand R2 .
Comme la sélection par étapes vers l’avant, l’approche de sélection vers l’arrière ne re-
cherche que 1 + p(p + 1)/2 modèles, et peut donc être appliquée dans les paramètres
où p est trop grand pour appliquer la meilleure sélection de sous-ensemble.3.2 préfère
aussi avancer pas à pas sélection, la sélection par étapes en arrière n’est pas garantie de
produire le meilleur modèle contenant un sous-ensemble des p prédicteurs.
La sélection vers l’arrière nécessite que le nombre d’échantillons n soit supérieur au
nombre de variables p (afin que le modèle complet puisse être ajusté). En revanche, le
36
pas à pas en avant peut être utilisé même lorsquen < p, et est donc la seule méthode de
sous-ensemble viable lorsque p est très grand.
3.2 Choisir le Modèle Optimal
La sélection du meilleur sous-ensemble, ainsi que les méthodes de sélection en avant
et en arrière, permettent de créer une série de modèles avec différents sous-ensembles
de prédicteurs p. Pour appliquer ces méthodes, il est nécessaire de disposer d’un critère
permettant de déterminer quel modèle est le meilleur. Le modèle incluant tous les pré-
dicteurs aura toujours le RSS le plus bas et le R2 le plus élevé, car ces valeurs sont liées
à l’erreur d’apprentissage. Ainsi, RSS et R2 ne suffisent pas pour choisir le meilleur
modèle parmi une collection de modèles comportant différents prédicteurs.
Figure 3.2 – Évolution des performances des modèles de crédit en fonction du nombre
de prédicteurs : Cp (ou AIC), BIC et R2 ajustés[5]
3.2.1 Critère de AIC (Akaike Information Criterion (1973))
Il mesure la distance entre les densités de probabilité observées et estimées. Dans le cas
d’une estimation par les méthodes des moindres carrées, ce critère mesurera l’écart entre
les résidus et la distribution gaussienne, la fonction d’Akaike est donnée par :

SCR 2k
AIC = ln +
n n
37
3.2.2 Critère BIC (Bayesian Information Criterion (1977))
Akaïke (1977) a élaboré sous l’hypothèse gaussienne du processus du bruit blanc, le cri-
tère BIC (noté aussi SC (Scwartz Information Criterion)), la fonction de Schwarz est
donnée par :

SCR k ln(n)
BIC = SC = ln +
n n
avec :
ln : Logarithme népérien,
SCR : somme des carrée des résidus du modèle,
n : nombre d’observations,
k : nombre de variables explicatives.
3.2.3 Validation croisée
La validation croisée est probablement la méthode la plus simple et la plus couramment
utilisée pour estimer l’erreur de prédiction. Cette technique évalue directement l’erreur
de prédiction hors-échantillon attendue, Err = E[L(Y, fˆ(X))], c’est-à-dire l’erreur de
généralisation moyenne lorsque la méthode fˆ(X) est appliquée à un échantillon de test
indépendant, tiré de la distribution conjointe de X et Y .
Validation Croisée k-fold
Dans la validation croisée k-fold, les données sont divisées en k sous-ensembles (ou
"folds") de taille approximativement égale :
1. Division des Données : Les données sont divisées en k folds.
2. Entraînement et Test : Le modèle est entraîné sur k − 1 folds et testé sur le fold
restant.
38
3. Répétition : Le processus est répété k fois, chaque fold étant utilisé exactement
une fois comme ensemble de test.
4. Estimation de la Performance : La performance du modèle est estimée en moyen-
nant les résultats des k itérations.
L’avantage de cette méthode est qu’elle utilise l’intégralité des données pour l’entraîne-
ment et le test, ce qui donne une meilleure estimation de la performance du modèle.
3.3 la régression régularisée
3.3.1 Introduction
L’utilisation de la méthode des moindres carrés pour ajuster un modèle linéaire conte-
nant un sous-ensemble de prédicteurs est une technique de sélection de sous-ensembles,
comme décrit à la section 3.1. En complément, il est possible d’ajuster un modèle avec
tous les prédicteurs p en utilisant une méthode qui impose une contrainte ou régularise
les estimations des coefficients, ou, de manière équivalente, qui réduit ces estimations.
Bien que cela puisse sembler contre-intuitif, imposer une telle contrainte peut amélio-
rer l’ajustement en réduisant la variance des estimations des coefficients. La régression
ridge et le lasso sont les deux méthodes les plus couramment utilisées pour diminuer les
coefficients de régression vers zéro.
3.4 Pénalisation de la fonction de coût
La régression régularisée est une méthode qui ajoute une pénalisation à la fonction de
coût d’un modèle de régression pour éviter le surajustement et améliorer la généralisa-
tion du modèle. Les deux méthodes de régularisation les plus courantes sont la régression
39
Ridge et la régression Lasso.
3.4.1 Sur-entraînement et sous-entraînement
Figure 3.3 – Graphique de Sous-entraînement, Entraînement Correct et Sur-

entraînement
— le premier graphe montre un modèle de régression linéaire simple qui est trop
sous-ajusté aux données. L’erreur est élevée à la fois sur le jeu d’entraînement
et sur le jeu de test. Le modèle est trop simple pour capturer la complexité des
données.
— le deuxième graphe montre un modèle de régression qui est correctement ajusté
aux données. L’erreur est faible aussi bien sur le jeu d’entraînement que sur le jeu
de test. Le modèle capture bien la relation entre les variables sans sur-ajuster les
données.
— le dernier graphe montre un modèle de régression qui est trop ajusté aux données
d’entraînement, au point de capter le bruit. L’erreur sur le jeu d’entraînement est
nulle, mais l’erreur sur le jeu de test est moyenne à élevée. Ce modèle a une va-
riance élevée et une capacité de généralisation réduite.
40
3.5 Régression Ridge
la régression Ridge est employée lorsque le nombre de variables explicatives (p) est élevé
par rapport au nombre d’observations (n), ou lorsque les variables sont fortement liées
entre elles (multicolinéarité). Dans ces situations, elle évite l’instabilité et la faiblesse des
prédictions de la régression linéaire standard.
3.5.1 Estimation au ridge
L’estimation des coefficients du ridge est très proche de celle des moindres carrés, à la
différence que les coefficients du ridge sont calculés en minimisant une quantité légère-
ment variée. Plus précisément, les valeurs les moins importantes sont les estimations du
coefficient de régression du ridge de régression β Ridge , comme lorsque la méthode des
moindres carrés est appliquée à des données non orthogonales, de très mauvaises esti-
mations des coefficients de régression peuvent être obtenues. Nous avons vu à la section
2.2 que la variance de la méthode des moindres carrés des estimations :
n
X
minp (yi − x⊤ 2 2
i β) = minp ∥y − Xβ∥2
β∈R β∈R
i=1
Et s’écrit :
β̂ = (X⊤ X)−1 X⊤ y
sous l’hypothèse que X est de plein rang, Il sera pris en compte ici que les variables sont
centrées afin d’améliorer leur commodité et d’après la démonstration de yannig goude
[1] Dans la réalité, cet estimateur est inefficace :
— Si les x.j sont corrélées entre elles, X n’est pas de plein rang.
— Si p ≫ n
41
Dans ces cas X⊤ X doit être régularisée pour pouvoir être inversée et on ajoute une
pénalisation → ridge, lasso et elestic-net
On résout le problème :
( n )
X
min (yi − xi β)2 + λβ 2 (3.1)
β∈Rp
i=1
équivalent au problème suivant la dualité de Lagrange :
( n )
X
min (yi − xi β)2
β∈Rp
i=1 (3.2)
subject to ∥β∥2 ≤ t.
Remarque
— bijection entre t et λ
— les solution du problème ne sont pas invariante par changement d’échelle,usuellement
on standardise les variables avant.
— les variables sont centrées ( on ne pénalise pas la constante)
La régression ridge, qui utilise la norme ℓ2 , possède également la propriété de sélection
des variables. Cependant, elle se contente de diminuer l’effet de certaines variables sans
les contraindre à zéro. Cette caractéristique peut être déduite de la forme géométrique de
la fonction, qui décrit un cercle (ou une boule dans un espace de dimensions supérieures)
Figure (3.4).
l’estimateur des coefficients de la régression ridge est donnée par :
β̂ ridge = (X⊤ X + λI)−1 X⊤ Y (3.3)
42
Figure 3.4 – la forme géométriques de fonctions de régularisation de Ridage
C’est un estimateur biaisé β̂
E(β̂ ridge ) = (X⊤ X + λI)−1 X⊤ XE(β̂) = β − λ(X⊤ X + λI)−1 β (3.4)
Var(β̂ ridge ) = σ 2 (X⊤ X + λI)−1 X⊤ X(X⊤ X + λI)−1 (3.5)
On définit l’estimateur de régression linéaire régularisée comme suite :
( n )
X
β̂ reg = arg minp (yi − xi jβ)2 + αJ(β) (3.6)
β∈R
i=1
avec, α ≥ 0 est le coefficient de regularisation, et J(β) represente la fonction de regula-
risation de β. L’estimateur en utilisant la fonction de ridge est alors :
p
( n )
X X
β̂ Ridge = arg minp (yi − xi jβ)2 + α βj2 (3.7)
β∈R
i=1 j=1
43
3.6 Régression lasso
Dans le domaine de la régression linéaire, la régression LASSO (Least Absolute Shrinkage
and Selection Operator) est une technique de régularisation qui permet de choisir les
variables explicatives les plus pertinentes et d’améliorer la précision des prédictions.
3.6.1 définition
Dans le paramètre de régression linéaire, on nous donne N échantillons {(xi , yi )}N

i=1 ,
où chaque xi = (xi 1, . . . , xi p) est un vecteur p-dimensionnel de caractéristiques ou
de prédicteurs, et chaque yi ∈ R est la variable de réponse associée. Notre objectif est
d’approximer la variable de reponse yi utilisant une combinaison linéaire des prédicteurs.
p
X
η (xi ) = β0 + xij βj .
j=1
Le modèle est paramétré par le vecteur de poids de régression β = (β1 , . . . , βp ) ∈ Rp et
un terme d’interception (ou "biais") β0 ∈ R.
L’estimateur habituel des "moindres carrés" pour la paire(β0 , β) est basé sur la minimi-
sation de la perte d’erreur au carré :
 !2 
 1 X N p 
X
minimize yi − β0 − xij βj (3.8)
β0 ,β  2N 
i=1 j=1
Une alternative à l’estimation des moindres carrés a deux raisons : la précision de la pré-
diction, qui peut être améliorée en réduisant les coefficients de régression ou de mettre
44
certains coefficients à zéro, et la fin on identifier un plus petit sous-ensemble de prédic-
teurs qui présentent les effets les plus forts.
la méthode lasso combine la perte des moindres carrés avec une contrainte ℓ1 , pour en
mettre certains coefficients à zéro. Cette méthode fournit une méthode automatique pour
la sélection du modèle de régression linéaire, et le problème d’optimisation résultant est
convexe et peut être efficacement résolu pour les grands problèmes.
3.6.2 Estimation au Lasso
Étant donné une collection de N paires prédicteur-réponse {(xi , yi )}N

i=1 , le Lasso trouve
la solution (β̂0 , β̂) du problème d’optimisation
 !2 
 1 X N p 
X
minimize yi − β0 − xij βj
β0 ,β  2N 
i=1 j=1
(3.9)
p
X
sous la contrainte |βj | ≤ t.
j=1
Pp
La contrainte j=1 |βj | ≤ t peut être écrite de manière plus compacte sous la forme de
la contrainte de norme ℓ1 ∥β∥1 ≤ t. En outre, (3.8) est souvent représenté en utilisant la
notation matricielle. Soit y = (y1 , . . . , yN )T le vecteur des réponses, et X une matrice
N × p avec xi ∈ Rp dans sa i-ème ligne, alors le problème d’optimisation (3.9) peut être
réécrit sous la forme

1
minimize ∥y − β0 1 − Xβ∥22
β0 ,β 2N
sous la contrainte ∥β∥1 ≤ t,
où 1 est le vecteur de N unités, et ∥ · ∥2 désigne la norme euclidienne habituelle sur les
vecteurs.
45
Figure 3.5 – Comparaison des Méthodes de Régularisation : Lasso et Ridge
A gauche de la figure 3.5 on peut observer le chemin du coefficient pour le lasso, qui
est tracé en fonction de la norme ℓ1 du vecteur de coefficient, par rapport à la norme de
l’estimation des moindres carrés sans restriction β.À droite, la régression de ridge est
également représentée par rapport à la norme relative ℓ2 .
Problème similaire a ridge mais la pénalité ℓ2 de ridge est ici remplacée par une pénalité
en norme ℓ1 : la solution de ce problème n’est plus linéaire en y
Figure 3.6 – la forme géométriques de fonctions de régularisation de Lasso
La raison en est que la région des contraintes sous la norme ℓ1 est géométriquement
représentée par une carrée tourne (une polyédrique dans un espace plus de deux dimen-
46
sions) Figure (3.8). Ainsi, lorsque la solution est unique, la fonction objective s’applique
à la région des contraintes aux angles, ce qui explique la nullité de certaines variables. La
pénalité ℓ1 a comme propriété de ”tronquer” les coefficients faibles, donc de les mettre à
0. Cela permet une sorte de choix de modèle.
et d’après l’équation 3.6, λ ≥ 0 est le coefficient de régularisation, et J(β) représente la
fonction de régularisation de β. L’estimateur en utilisant la fonction de Lasso est alors :
p
( n )
X X
β̂ Lasso = arg minp (yi − xi jβ)2 + λ ∥βj | (3.10)
β∈R
i=1 j=1
3.6.3 ℓq Pénalités et estimations Bayésiennes
Pour un nombre réel fixe q ≥ 0, considérons le critère
p p
( N
)
1 X X
2
X
min (yi − xij βj ) + λ |βj |q (3.11)
β∈Rp 2N i=1 j=1 j=1
C’est le lasso pour q = 1 et régression de ridge pour q = 2.
Pp
Pour q = 0, le terme j=1 |βj |q compte le nombre d’éléments non nuls dans β, et donc
résout 3.11 équivaut à la sélection du meilleur sous-ensemble. La figure 3.7 affiche les
régions de contrainte correspondant à ces pénalités pour le cas de deux prédicteurs (p =
2). Les Deux
Figure 3.7 – Régions de contraintes pour différentes valeurs q dans les méthodes de
régularisation
Les méthodes de régression lasso et ridge de 3.11 sont similaires à la résolution de pro-
47
grammes convexes, ce qui les rend parfaitement adaptées aux problèmes complexes. La
sélection optimale des sous-ensembles entraîne un problème d’optimisation non convexe
et combinatoire, et il est généralement impossible de le faire avec plus de 40 prédicteurs.
3.7 Elastic-Net
Elastic-Net est une méthode de régularisation et de sélection de variables utilisée dans
les modèles de régression linéaire [4] . Elle établit un compromis entre les pénalités de
la régression Ridge et Lasso [8] ; il résout le programme convexe suivant :
( N )
1X 1
min (yi − β0 − xTi β)2 + λ (1 − α)∥β∥22 + α∥β∥1 , (3.12)
β0 ,β∈R×Rp 2 i=1 2
où α ∈ [0, 1] est un paramètre qui peut être ajusté. Par construction, la pénalité appliquée
à un coefficient individuel (en négligeant le poids de régularisation λ > 0) est donnée
par
1
(1 − α)βj2 + α|βj |. (3.13)
2
Lorsque α = 1, cela revient à la norme ℓ1 ou à la pénalité Lasso, et lorsque α = 0, cela
revient à la norme ℓ2 au carré, correspondant à la pénalité Ridge.
Le problème Elastic Net 3.12 est convexe dans le couple (β0 , β) ∈ R × Rp , et une variété
d’algorithmes différents peuvent être utilisés pour le résoudre. La descente de coordon-
nées est particulièrement efficace, et les mises à jour sont une simple extension de celles
du Lasso abordées au Chapitre 2. Nous avons inclus une constante β0 non pénalisée dans
le modèle, qui peut être supprimée dès le départ ; il suffit de centrer les covariables xij , et
1
PN
ensuite l’intercept optimal est β̂0 = ȳ = N j=1 yj . Une fois β̂0 trouvé, il reste à calculer
48
le vecteur optimal β̂ = (β̂1 , . . . , β̂p ). Il peut être vérifié que la mise à jour par descente
de coordonnées pour le j ème
1
La partie 2
dans la partie quadratique de la pénalité Elastic Net 3.13 conduit à un opé-
rateur de seuillage plus intuitif dans l’optimisation.
Figure 3.8 – La boule élastique-réseau avec α = 0.7 (panneau de gauche) dans R3 , com-
parée à la boule ℓ1 (panneau de droite). Les contours incurvés encouragent les variables
fortement corrélées à partager des coefficients.
Le coefficient prend la forme :
P
N
Sλα i=1 rij xij
β̂j = PN ,
i=1 x2ij + λ(1 − α)
où Sµ (z) := sign(z)(|z| − µ)+ est l’opérateur de seuillage doux, et
X
rij := yi − β̂0 − xik β̂k
k̸=j
est le résidu partiel. Nous effectuons des cycles sur les mises à jour jusqu’à convergence.
[3] donnent plus de détails et fournissent une implémentation efficace de la pénalité
élastique-réseau pour une variété de fonctions de perte.
49
Chapitre 4
Implémentation Pratique
4.1 Description des données
Hitters est un jeu de données provenant du package ISLR en R. Il renferme des données
sur les résultats des joueurs de baseball de la majeure. Voici une explication approfondie
des différentes variables de ce jeu de données et il est fréquent d’utiliser ce jeu de données
dans le domaine de l’apprentissage statistique et de la régression.
4.2 Description Générale
— Observations : 263 joueurs
— Variables : 20 variables
4.3 Variables du Jeu de Données
1. AtBat : Nombre de présences au bâton
2. Hits : Nombre de coups sûrs
50
3. HmRun : Nombre de coups de circuit
4. Runs : Nombre de points marqués
5. RBI : Nombre de points produits
6. Walks : Nombre de buts sur balles
7. Years : Nombre d’années dans la ligue
8. CAtBat : Nombre de présences au bâton au cours de la carrière
9. CHits : Nombre de coups sûrs au cours de la carrière
10. CHmRun : Nombre de coups de circuit au cours de la carrière
11. CRuns : Nombre de points marqués au cours de la carrière
12. CRBI : Nombre de points produits au cours de la carrière
13. CWalks : Nombre de buts sur balles au cours de la carrière
14. League : Ligue de l’équipe actuelle (A ou N)
15. Division : Division de l’équipe actuelle (E ou W)
16. PutOuts : Nombre de retraits défensifs effectués par un joueur de champ intérieur
17. Assists : Nombre d’assistances défensives effectuées par un joueur de champ in-
térieur
18. Errors : Nombre d’erreurs défensives
19. Salary : Salaire du joueur (en milliers de dollars)
20. NewLeague : Ligue de l’équipe à la fin de la saison (A ou N)
51
4.4 Pré-traitement des Données
Avant d’utiliser ce jeu de données, il est souvent nécessaire de :
— Gérer les Valeurs Manquantes :ce jeu de données ne contient pas des valeurs
manquante.
— Encoder les Variables Catégorielles :Les variables League, Division et New-
League doivent être encodées en variables numériques pour certaines techniques
de modélisation.
4.5 Sélection de Modèle Linéaire
Il arrive souvent que certaines ou plusieurs des variables utilisées dans un modèle de
régression multiple ne soient en fait pas associées à la variable de réponse. L’inclusion de
telles variables non pertinentes entraîne une complexité inutile dans le modèle résultant.
Malheureusement, filtrer et comparer manuellement les modèles de régression peut être
fastidieux. Heureusement, il existe plusieurs approches pour effectuer automatiquement
la sélection de caractéristiques ou la sélection de variables, c’est — à-dire pour identifier
les variables qui entraînent des résultats de régression supérieurs.
Ce code couvrira une approche traditionnelle connue sous le nom de sélection de modèle.
4.5.1 Exploite les données
Exploite principalement les données des frappeurs fournies par le package ISLR. Il s’agit
d’un ensemble de données qui contient le nombre de coups sûrs, de circuits, de points
produits et d’autres informations pour 263 joueurs de la ligue majeure de baseball.
52
Nous utiliserons également tidyverse pour la manipulation et la visualisation de don-
nées de base. Plus important encore, nous utiliserons le package leaps pour illustrer les
méthodes de sélection de sous-ensembles.
4.5.2 Meilleure Sélection de Sous-Ensembles (Best Subset Selec-
tion)
Illustrons cela avec nos données. Nous pouvons effectuer une recherche de sous-ensemble
optimal en utilisant la fonction regsubsets (faisant partie de la bibliothèque leaps),
qui identifie le meilleur modèle pour un nombre donné de k prédicteurs, où le meilleur
est quantifié en utilisant la somme des carrés des résidus (RSS). La syntaxe est la même
que pour la fonction lm. Par défaut, regsubsets ne rapporte que les résultats jus-
qu’au meilleur modèle à huit variables. Cependant, l’option nvmax peut être utilisée
pour retourner autant de variables que souhaité. Ici, nous ajustons un modèle jusqu’à 19
variables.
53
4.5.3 Interprétation des Résultats
Variable Forced in Forced out

AtBat FALSE FALSE
Hits FALSE FALSE
HmRun FALSE FALSE
Runs FALSE FALSE
RBI FALSE FALSE
Walks FALSE FALSE
Years FALSE FALSE
CAtBat FALSE FALSE
CHits FALSE FALSE
CHmRun FALSE FALSE
CRuns FALSE FALSE
CRBI FALSE FALSE
CWalks FALSE FALSE
LeagueN FALSE FALSE
DivisionW FALSE FALSE
PutOuts FALSE FALSE
Assists FALSE FALSE
Errors FALSE FALSE
NewLeagueN FALSE FALSE
Table 4.1 – 19 Variables (et intercept) avec des indicateurs d’entrée et de sortie forcés
’Forced in’ et ’Forced out’ : Ces colonnes montrent si des variables ont été forcées dans
ou hors du modèle. Dans ce cas, toutes les valeurs sont FALSE, ce qui signifie qu’aucune
contrainte n’a été appliquée pour inclure ou exclure spécifiquement des variables.
Variables AtBat Hits HmRun Runs RBI Walks Years CAtBat CHits CHmRun CRuns CRBI CWalks League Division PutOuts Assists Errors NewLeague
(1) "✓"
(1) "✓" "✓"
(1) "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
Table 4.2 – Tableau des sélection des sous-ensembles (Best Subset)
— Lignes du Tableau : Chaque ligne correspond à un modèle avec un certain nombre
de variables prédictives (de 1 à 19).
54
— Colonnes du Tableau : Les colonnes listent les variables du dataset.
— Symboles ✓ et " : Un ✓ indique que la variable est incluse dans le modèle pour
cette taille de sous-ensemble. Un " signifie que la variable n’est pas incluse.
— ( 1 ) : Le nombre entre parenthèses indique le numéro du modèle pour cette
taille de sous-ensemble.
Ce tableau permet de voir quels modèles sont sélectionnés comme les meilleurs pour
chaque nombre de prédicteurs de 1 à 19. Par exemple :
— Pour un modèle à 1 variable (1 sous-ensemble) : Seule la variable CRBI est
incluse.
— Pour un modèle à 2 variables : Les variables Hits et CRBI sont incluses.
— Pour un modèle à 19 variables : Toutes les variables sont incluses dans le mo-
dèle.
La fonction regsubsets renvoie un objet de liste avec beaucoup d’informations. Au dé-
part, nous pouvons utiliser la commande summary pour évaluer le meilleur ensemble de
variables pour chaque taille de modèle. Ainsi, pour un modèle à 1 variable, nous voyons
que CRBI a un astérisque signalant qu’un modèle de régression avec Salaire ∼ CRBI
est le meilleur modèle à variable unique. Le meilleur modèle à 2 variables est Salary ∼
CRBI + Hits. Le meilleur modèle à 3 variables est Salaire ∼ CRBI + Hits + PutOuts.
Et ainsi de suite.
4.5.4 Sélection Par Étapes (Stepwise Selection)
Pour des raisons de calcul, la sélection du meilleur sous-ensemble ne peut pas être appli-
quée lorsque le nombre de variables prédictives p est important. La sélection du meilleur
sous-ensemble peut également souffrir de problèmes statistiques lorsque p est grand.
55
Plus l’espace de recherche est grand, plus les chances de trouver des modèles qui semblent
bons sur les données d’entraînement sont élevées, même s’ils n’ont peut-être aucun pou-
voir prédictif sur les données futures. Ainsi, un espace de recherche énorme peut entraî-
ner un surajustement et une forte variance des estimations des coefficients. Pour ces deux
raisons, les méthodes par étapes, qui explorent un ensemble de modèles beaucoup plus
restreint, sont des alternatives intéressantes à la meilleure sélection de sous-ensembles.
4.5.5 Avancer Pas à Pas (Forward Stepwise)
La sélection progressive avancée commence par un modèle ne contenant aucun prédic-
teur, puis ajoute des prédicteurs au modèle, un à la fois, jusqu’à ce que tous les prédic-
teurs soient dans le modèle. En particulier, à chaque étape, la variable qui apporte la plus
grande amélioration supplémentaire à l’ajustement est ajoutée au modèle.

N° AtBat Hits HmRun Runs RBI Walks Years CAtBat CHits CHmRun CRuns CRBI CWalks League Division PutOuts Assists Errors NewLeague
1 ✓
2 ✓ ✓
3 ✓ ✓ ✓
4 ✓ ✓ ✓ ✓
5 ✓ ✓ ✓ ✓ ✓
6 ✓ ✓ ✓ ✓ ✓ ✓
7 ✓ ✓ ✓ ✓ ✓ ✓
8 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
9 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
10 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
11 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
12 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
13 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
14 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
15 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
16 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
17 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
18 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
19 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
Table 4.3 – Tableau des sélection des sous-ensembles (Forward)
La fonction regsubsets par la methode de forward renvoie un objet de liste avec beau-
coup d’informations. Au départ, nous pouvons utiliser la commande summary pour
évaluer le meilleur ensemble de variables pour chaque taille de modèle. Ainsi, pour un
modèle à 1 variable, nous voyons que CRBI a un astérisque signalant qu’un modèle de
régression avec Salaire ∼ CRBI est le meilleur modèle à variable unique. Le meilleur
modèle à 2 variables est Salary ∼ CRBI + Hits. Le meilleur modèle à 3 variables est
56
Salaire ∼ CRBI + Hits + PutOuts,on remarque si la même comme Best Subset Se-
lection mais les autres lignes sont différente .
4.5.6 Pas à Pas En Arrière (Backward Stepwise)
La sélection par étapes vers l’arrière constitue une alternative efficace à la sélection du
meilleur sous-ensemble. Cependant, contrairement à la sélection avancer pas à Pas (For-
ward stepwise), elle commence par le modèle des moindres carrés complets contenant
tous les prédicteurs p, puis supprime de manière itérative le prédicteur le moins utile,
un à la fois.
N° AtBat Hits HmRun Runs RBI Walks Years CAtBat CHits CHmRun CRuns CRBI CWalks League Division PutOuts Assists Errors NewLeague
1 ✓
2 ✓ ✓
3 ✓ ✓ ✓
4 ✓ ✓ ✓ ✓
5 ✓ ✓ ✓ ✓ ✓
6 ✓ ✓ ✓ ✓ ✓
7 ✓ ✓ ✓ ✓ ✓ ✓ ✓
8 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
9 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
10 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
11 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
12 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
13 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
14 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
15 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
16 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
17 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
18 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
19 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
Table 4.4 – Tableau des sélection des sous-ensembles (Backword)
4.6 Comparaison des Modèles
Jusqu’à présent, j’ai illustré comment effectuer les meilleures procédures de sous-ensemble
et par étapes. Voyons maintenant comment comparer tous les modèles que ces approches
produisent afin d’identifier le meilleur modèle. Autrement dit, exécutons l’étape 3 des
algorithmes (??),(3.1.2) et (3.1.2) discutée dans chacun des processus en 3 étapes décrits
ci-dessus.
57
Afin de sélectionner le meilleur modèle en ce qui concerne l’erreur de test, nous devons
estimer cette erreur de test. Il existe deux approches communes :
— Nous pouvons indirectement estimer l’erreur de test en ajustant l’erreur d’appren-
tissage pour tenir compte du biais dû au surajustement.
— Nous pouvons estimer directement l’erreur de test, en utilisant soit une approche
d’ensemble de validation, soit une approche de validation croisée.
Nous examinons ces deux approches ci-dessous.
4.6.1 Estimation Indirecte de l’erreur de Test avec Cp , AIC , BIC ,
et R2 Ajusté
Cependant, un certain nombre de techniques pour ajuster l’erreur d’apprentissage pour
la taille du modèle sont disponibles. Ces approches peuvent être utilisées pour sélec-
tionner parmi un ensemble de modèles avec différents nombres de variables. Ceux-ci
incluent :
Statistique Objectif
Cp Minimiser
Akaike information criterion (AIC) Minimiser
Bayesian information criterion (BIC) Minimiser
ajusté R2 Maximiser
Table 4.5 – Modèle Sélection Critère
où d est le nombre de prédicteurs et σ 2 est une estimation de la variance de l’erreur
(e) associée à chaque mesure de réponse dans un modèle de régression. Chacune de ces
statistiques ajoute une pénalité au RSS d’entraînement afin de tenir compte du fait que
l’erreur d’entraînement a tendance à sous-estimer l’erreur de test. Clairement, la pénalité
augmente avec le nombre de prédicteurs dans le modèle.
Par conséquent, ces statistiques fournissent une estimation impartiale de l’erreur quadra-
tique moyenne (MSE) du test. Si nous exécutons notre modèle en utilisant une approche
58
de validation par apprentissage contre test, nous pouvons utiliser ces statistiques pour
déterminer le modèle préféré. Ces statistiques sont contenues dans le résultat fourni par
la fonction regsubsets. Extrayons ces informations et traçons-les.
Figure 4.1 – Graphique montrant l’évolution des trois statistiques (R2 ajusté, Cp de
Mallows, et BIC) en fonction du nombre de prédicteurs
Graphe du R2 ajusté
— Axe des x (predictors) : Nombre de prédicteurs dans le modèle, de 1 à 19.
— Axe des y (value) : Valeur du R2 ajusté.
— Interprétation :
— Le R2 ajusté augmente avec le nombre de prédicteurs, atteignant un maximum
vers 10 prédicteurs, puis se stabilise.
— Un R2 ajusté plus élevé indique une meilleure explication de la variance des
données par le modèle, ajusté pour le nombre de prédicteurs.
— Cependant, au-delà de 10 prédicteurs, l’ajout de plus de variables n’améliore
pas significativement le R2 ajusté, ce qui suggère un point de rendement dé-
croissant.
Graphe du BIC
59
— Axe des y (value) : Valeur du BIC.
— Le BIC diminue initialement, atteignant un minimum autour de 4 prédicteurs,
puis augmente.
— Un BIC plus bas indique un meilleur modèle. Le BIC pénalise les modèles plus
complexes pour éviter le sur-ajustement.
— Le point le plus bas autour de 4 prédicteurs suggère que ce modèle équilibre
bien l’ajustement et la complexité.
Graphe du Cp
— Axe des y (value) : Valeur du Cp.
— Le Cp diminue rapidement pour atteindre un minimum autour de 8 prédic-
teurs, puis augmente progressivement.
— Un Cp plus bas indique un meilleur modèle. Le Cp est utilisé pour sélec-
tionner les modèles qui minimisent l’erreur de prédiction tout en évitant les
modèles trop complexes.
— Le minimum autour de 8 prédicteurs suggère que ce modèle est le plus per-
formant selon ce critère.
Conclusion
— R2 ajusté montre que l’explication de la variance des données atteint un plateau
après environ 10 prédicteurs.
60
— BIC suggère que le modèle avec environ 4 prédicteurs offre un bon équilibre entre
précision et complexité.
— Cp indique que le modèle avec environ 8 prédicteurs est optimal.
which.max(results$adjr2)
[1] 10
which.min(results$bic)
[1] 4
which.min(results$cp)
[1] 8
Ici, nous voyons que nos résultats de R2 adjr2 ,BIC et Cp sont 0.6236763 , -124.62821 et
3.812789 identifient des modèles légèrement différents qui sont considérés comme les
meilleurs.
Nous pouvons comparer les variables et les coefficients que ces modèles incluent à l’aide
de la fonction coef.
# 10 variable modèle
Variable Intercept AtBat Hits Walks CAtBat CHits CHmRun CWalks League Division PutOuts
Coefficient -47.1651088 -1.3695666 6.3013473 4.5757613 -0.3118794 1.4799307 1.2971405 -0.5026157 -62.5613310 62.3548737 0.2527181
Variable Intercept Runs CAtBat CHits PutOuts
Coefficient -83.1199265 5.5530883 -0.4741822 2.0560595 0.3118252
61
Variable Intercept AtBat Hits Walks CAtBat CHits CHmRun CWalks PutOuts
Coefficient -59.2371674 -1.4744877 6.6802515 4.4777879 -0.3203862 1.5160882 1.1861142 -0.4714870 0.2748103
Nous pourrions effectuer le même processus en utilisant la sélection par étapes en avant
et en arrière et obtenir encore plus d’options pour des modèles optimaux. Par exemple, si
j’évalue l’optimum Cp pour les pas en avant et en arrière, nous voyons qu’ils suggèrent
qu’un modèle à 8 variables minimise la statistique Cp , similaire à la meilleure approche
de sous-ensemble ci-dessus.
> which.min(summary(forward)$cp)
[1] 8
> which.min(summary(backward)$cp)
[1] 8
Cependant, lorsque nous évaluons ces modèles, nous constatons que les 8 modèles de
variables incluent différents prédicteurs. Bien que tous les modèles incluent Au bâton,
les coups sûrs, les Marches, les marches et les retraits, il existe des variables uniques dans
chaque modèle.
Cela met en évidence deux conclusions importantes :
— Différentes procédures de sous-ensembles (meilleur sous-ensemble vs pas à pas
en avant vs pas à pas en arrière) identifieront probablement différents” meilleurs
" modèles.
— Différentes statistiques d’estimation des tests d’erreur indirecte (Cp , AIC, BIC et
R2 ajusté) identifieront probablement différents” meilleurs " modèles.
C’est pourquoi il est important de toujours effectuer une validation ; c’est-à-dire de tou-
jours estimer directement l’erreur de test soit en utilisant un ensemble de validation, soit
en utilisant une validation croisée
62
Variable Coefficient
Best Subset Selection (8 predictors)
(Intercept) -59.2371674
AtBat -1.4744877
Hits 6.6802515
Walks 4.4777879
CAtBat -0.3203862
CHits 1.5160882
CHmRun 1.1861142
CWalks -0.4714870
PutOuts 0.2748103
Forward Selection (8 predictors)
(Intercept) -48.6095756
AtBat -2.1421859
Hits 8.8914064
Walks 5.4283843
CRuns 0.8555089
CRBI 0.4866528
CWalks -0.9672115
League -64.1628445
PutOuts 0.2767328
Backward Selection (8 predictors)
(Intercept) -59.2371674
AtBat -1.4744877
Hits 6.6802515
Walks 4.4777879
CAtBat -0.3203862
CHits 1.5160882
CHmRun 1.1861142
CWalks -0.4714870
PutOuts 0.2748103
Table 4.6 – Coefficients des modèles Best Subset, Forward Selection et Backward Selec-
tion avec 8 prédicteurs
4.7 Estimation Directe De L’Erreur De Test
Nous calculons maintenant l’erreur de jeu de validation pour le meilleur modèle de
chaque taille de modèle. Nous créons d’abord une matrice de modèle à partir des don-
nées de test. Le modèle.la fonction matricielle est utilisée dans de nombreux packages
de régression pour construire une matrice " X " à partir de données.
Maintenant, nous pouvons parcourir chaque taille de modèle (c’est-à-dire 1 variable, 2
63
variables,. . ., 19 variables) et extraire les coefficients du meilleur modèle de cette taille,
les multiplier dans les colonnes appropriées de la matrice du modèle de test pour former
les prédictions, et calculer le test MSE.
Figure 4.2 – Graphique des erreurs de validation en fonction du nombre de prédicteurs
Ce graphique montre les erreurs de validation pour différents modèles de régression
linéaire avec un nombre variable de prédicteurs, allant de 1 à 19. Voici une interprétation
détaillée :
L’axe des X représente le nombre de prédicteurs inclus dans le modèle, allant de 1 à 19
et l’axe des Y représente les erreurs de validation (erreur quadratique moyenne, MSE)
pour les prédictions sur l’ensemble de test.
Comportement de l’erreur : L’erreur de validation augmente considérablement après
4 prédicteurs, puis diminue légèrement avant de se stabiliser. Cela peut indiquer un phé-
nomène de surajustement où l’ajout de trop de variables au modèle commence à nuire à
sa capacité de généralisation sur les nouvelles données.
64
Stabilisation de l’erreur : Après environ 6 prédicteurs, l’erreur de validation reste re-
lativement stable, montrant qu’ajouter plus de variables au modèle n’améliore pas signi-
ficativement les prédictions et peut même parfois les détériorer.
En résumé, ce graphique aide à identifier le nombre optimal de prédicteurs pour le mo-
dèle de régression, en minimisant l’erreur de prédiction sur l’ensemble de test, et évite
le surajustement en limitant la complexité du modèle.
Erreurs de Validation sur l’ensemble de test
On crée des données d’entraînement et de test. Et on effectue une sélection de sous-
ensembles sur l’ensemble d’entraînement, puis on calcule les erreurs de validation sur
l’ensemble de test pour différents modèles et on trace ce graphe.
Figure 4.3 – Graphique des erreurs de validation sur l’ensemble de test en fonction du
nombre de prédicteurs
Interprétation du Graphique des Erreurs de Validation sur l’ensemble de test
Le graphique montre les erreurs de validation sur l’ensemble de test pour différents mo-
dèles de régression linéaire avec un nombre variable de prédicteurs,qui est identique au
65
graphe des Erreurs de Validation donc on a les memes resultats
Erreurs de Validation Croisée Moyennes
On effectue une validation croisée sur les modèles de régression pour trouver le meilleur
modèle en termes d’erreur de validation.
Figure 4.4 – Graphique des erreurs de Validation Croisée Moyennes en fonction du

nombre de prédicteurs
Interprétation du Graphe des Erreurs de Validation Croisée Moyennes
Le graphe montre les erreurs de validation croisée moyennes en fonction du nombre de
prédicteurs utilisés dans les modèles
— La courbe montre comment l’erreur de validation croisée moyenne évolue en fonc-
tion du nombre de prédicteurs dans le modèle.
— Au début, avec un petit nombre de prédicteurs, l’erreur de validation croisée est
relativement élevée
— À mesure que le nombre de prédicteurs augmente, l’erreur de validation croisée
moyenne diminue, atteignant un minimum.
66
— Après avoir atteint ce minimum, l’erreur de validation croisée moyenne commence
à augmenter légèrement à nouveau, ou reste relativement constante.
1. Modèle optimal :
— Le modèle optimal est celui qui minimise l’erreur de validation croisée moyenne.
— Dans ce graphe, le modèle avec environ 11 prédicteurs semble avoir l’erreur
de validation croisée moyenne la plus faible.
2. Équilibre entre biais et variance :
— Un modèle avec trop peu de prédicteurs peut avoir un biais élevé, car il n’est
pas suffisamment complexe pour capturer les relations dans les données.
— Un modèle avec trop de prédicteurs peut avoir une variance élevée, car il
peut sur-ajuster les données d’entraînement et ne pas généraliser bien aux
nouvelles données.
— Le point où l’erreur de validation croisée moyenne est la plus faible repré-
sente un bon compromis entre biais et variance.
3. Sélection du modèle :
— Le but est de choisir un modèle qui se trouve autour du minimum de la courbe.
Dans ce cas, le modèle avec environ 11 prédicteurs est un bon candidat.
— Il est important de noter que la sélection du modèle basé sur la validation
croisée aide à assurer que le modèle choisi est le plus susceptible de bien
généraliser aux nouvelles données.
67
Coefficient du meilleur modèle :
Variable Intercept AtBat Hits Walks CAtBat CRuns CRBI CWalks LeagueN DivisionW PutOuts Assists
Coefficient 135.7512195 -2.1277482 6.9236994 5.6202755 -0.1389914 1.4553310 0.7852528 -0.8228559 43.1116152 -111.1460252 0.2894087 0.2688277
4.8 Régression régularisée a l’aide de la fonction glm-
net
4.8.1 Transformation des données en matrices de modèle
On transfère notre jeu de donne a une matrice et d’un data frame. Elle est souvent utilisée
pour convertir des facteurs en variables binaires (dummy variables) et pour normaliser
les données avant de les passer à des fonctions de modélisation qui nécessitent des ma-
trices numériques.
4.8.2 Régression de ridge
La technique de régularisation connue sous le nom de régression Ridge permet d’éviter le
surapprentissage en ajoutant une pénalisation des carrés des coefficients des variables.
Cette approche vise à réduire les coefficients sans les rendre nuls, ce qui donne lieu à
des modèles plus robustes sans supprimer totalement les variables. En d’autres termes,
la régression Ridge améliore la stabilité du modèle en réduisant la variance, ce qui est
particulièrement avantageux lorsque les variables prédictives sont nombreuses et poten-
tiellement associées.
N Df %Dev Lambda
01 19 0.00 272100
02 19 1.21 247900
68
03 19 1.32 225900
. . . .
. . . .
. . . .
99 19 60.12 30
100 19 60.30 27
Table 4.7: Résultats de la régression Ridge avec glmnet
Explication des Colonnes
— Df : Nombre de coefficients non nuls présents dans le modèle. Dans cette situation,
il reste toujours à 19, ce qui implique que tous les prédicteurs sont intégrés dans
le modèle pour chaque valeur de λ.
— Dev : Selon le modèle, le pourcentage de déviance est explicable. La déviance re-
présente une évaluation de la qualité de l’adaptation du modèle aux informations.
Un taux plus élevé suggère que le modèle permet une meilleure explication des
fluctuations dans les données.
— Lambda : Le coefficient de régularisation λ. L’augmentation de λ entraîne une
régularisation accrue, ce qui a un impact négatif sur les coefficients des prédicteurs
et peut entraîner des coefficients plus proches de zéro.
Interprétation des Lignes
Chaque ligne du tableau 4.7 correspond à une valeur spécifique de λ,Par exemple :
— Pour λ =272100, le modèle n’explique aucune déviance (Dev = 0.00) et tous les
19 prédicteurs sont inclus dans le modèle.
69
— À mesure que λ diminue, le pourcentage de déviance expliquée (Dev) augmente.
Par exemple, pour λ=72028, le modèle explique 24.89 % de la déviance.
— Quand λ continue à diminuer, la régularisation devient moins stricte et le modèle
explique de plus en plus la déviance jusqu’à atteindre un plateau.
4.8.3 Régression lasso
La technique de régularisation appelée régression Lasso (Least Absolute Shrinkage and
Selection Operator) permet de prévenir le surapprentissage en limitant les coefficients
des variables de manière à ce qu’ils deviennent exactement zéro, ce qui permet une sé-
lection automatique des variables.
N Df %Dev Lambda
01 0 0.00 272.100
02 1 6.51 247.900
03 1 11.92 225.900
. . . .
38 9 58.67 8.706
. . . .
75 18 62.83 0.278
76 18 62.83 0.254
Table 4.8: Résultats de la régression Lasso avec glmnet
— Df (Degrees of Freedom) : Indique le nombre de prédicteurs non nuls (c’est-à-
dire les coefficients non nuls) dans le modèle à chaque étape. Au fur et à mesure
70
que le lambda diminue, le nombre de coefficients non nuls (variables sélectionnées)
augmente.
— %Dev (Percentage of Deviance Explained) : Indique le pourcentage de la dé-
viance expliquée par le modèle à chaque valeur de lambda. C’est une mesure de la
qualité d’ajustement du modèle. Plus le pourcentage est élevé, meilleur est l’ajus-
tement du modèle.
— Lambda : Les valeurs de la pénalité lambda utilisées dans la régression Lasso. Le
lambda contrôle la régularisation : des valeurs plus élevées de lambda signifient
une régularisation plus forte (plus de pénalisation des coefficients), ce qui conduit
à des modèles plus simples avec moins de variables sélectionnées.
Interprétation des Lignes
Les lignes montrent les résultats pour différentes valeurs de lambda :
1. Première Ligne (Df = 0, %Dev = 0.00, Lambda = 272.100) :
— Aucun prédicteur n’est inclus dans le modèle (Df = 0).
— La déviance expliquée est de 0%, ce qui signifie que le modèle n’explique
aucune variance des données.
— Le lambda est très grand (272.100), ce qui pénalise fortement tous les coeffi-
cients, les réduisant tous à zéro.
2. La 38 ème ligne :
— À mesure que le lambda diminue, le nombre de prédicteurs non nuls (Df)
augmente.
— Le pourcentage de la déviance expliquée (%Dev) augmente également, ce qui
indique que le modèle explique de plus en plus de variance des données.
— Par exemple, lorsque le lambda est de 8.706, il y a 9 prédicteurs non nuls dans
71
le modèle, et la déviance expliquée est de 58.67%.
4.8.4 Régression Elestic-net
Elastic-Net est une technique de régression qui combine les paramètres du Lasso et de le
ridge, offrant un équilibre entre la sélection automatique des variables et la régularisa-
tion des coefficients. Il est particulièrement utile pour les variables importantes et corré-
latives, car il peut sélectionner des groupes de variables corrélées et offrir de meilleures
performances que le Lasso ou le ridge. En combinant les avantages des deux méthodes,
Elastic-Net peut réduire les coefficients à zéro pour une sélection efficace des variables
et régulariser les coefficients restants pour éviter le surapprentissage.
N Df %Dev Lambda
01. 0 0.00 544.20
02. 2 4.64 495.90
03. 2 9.19 451.80
. . . .
. . . .
20 8 52.80 92.92
. . . .
. . . .
77 18 62.83 0.46
78 18 62.83 0.42
Table 4.9: Résultats de la régression Elestic-net avec
glmnet
72
— Df (Degrees of Freedom) : Indique le nombre de prédicteurs non nuls (c’est-à-
dire les coefficients non nuls) dans le modèle à chaque étape. Au fur et à mesure
que le lambda diminue, le nombre de coefficients non nuls (variables sélectionnées)
augmente.
— %Dev (Percentage of Deviance Explained) : Indique le pourcentage de la dé-
viance expliquée par le modèle à chaque valeur de lambda. C’est une mesure de la
qualité d’ajustement du modèle. Plus le pourcentage est élevé, meilleur est l’ajus-
tement du modèle.
— Lambda : Les valeurs de la pénalité lambda utilisées dans la régression élastique
nette. Le lambda contrôle la régularisation : des valeurs plus élevées de lambda
signifient une régularisation plus forte (plus de pénalisation des coefficients), ce
qui conduit à des modèles plus simples avec moins de variables sélectionnées.
Explication des lignes
Les lignes montrent les valeurs de Df, %Dev et Lambda pour différentes étapes de l’ajus-
tement du modèle :
— Au début (ligne 1) :
— Df est de 0, ce qui signifie qu’aucun prédicteur n’est inclus dans le modèle.
— %Dev est de 0, donc aucune déviance n’est expliquée par le modèle à ce stade.
— Lambda est de 544.20, indiquant une régularisation très forte.
— Lignes suivantes :
— Df augmente progressivement à mesure que le lambda diminue, indiquant
l’ajout de plus de variables prédictives dans le modèle.
73
— %Dev augmente également à chaque étape, indiquant que le modèle explique
de plus en plus de la déviance des données. Par exemple, à la ligne 20, avec
un lambda de 92.92, 52.80% de la déviance est expliquée par le modèle.
— Lambda diminue progressivement, signifiant une réduction de la régularisa-
tion, ce qui permet à plus de coefficients de devenir non nuls.
— Vers la fin (ligne 78) :
— Df est de 18, ce qui signifie que 18 prédicteurs sont inclus dans le modèle.
— %Dev est de 62.83, donc environ 62.83% de la déviance est expliquée par le
modèle.
— Lambda est de 0.42, indiquant une régularisation très faible à ce stade.
4.8.5 la validation croisée d’une régression lasso , Ridge et Elestic-
net :
Pour évaluer et comparer les performances des modèles de régression régularisée Ridge,
Lasso et Elastic-Net, nous avons calculé plusieurs métriques pour les valeurs optimales
de λ (lambda min) et pour les valeurs de λ correspondant à une erreur standard de la
valeur optimale (lambda 1se).
Le tableau présente les détails de validation d’une régression Lasso, Ridge et Elestic-net
en utilisant la fonction textbfcv.glmnet de la bibliothèque textbfglmnet dans R.
— Lambda : La valeur de régularisation (lambda) testée.
— Index : L’indice correspondant à cette valeur de lambda dans la séquence de lamb-
das testés.
— Measure : La valeur de l’erreur quadratique moyenne (MSE) associée à cette valeur
de lambda.
74
— SE : L’erreur standard de la MSE.
— Nonzero : Le nombre de coefficients non nuls dans le modèle pour cette valeur de
lambda.
Lambda Index Measure (MSE) SE Nonzero

min 27.2 100 95329 18198 19
1se 1354.4 58 112652 20008 19
Table 4.10 – Résultats de la validation croisée pour la régression Ridge
En ce qui concerne la régression Ridge (α = 0), le modèle à la valeur de λ minimale
(27.2) a une erreur quadratique moyenne (MSE) de 95329 avec un écart type (SE) de 18198,
incluant 19 coefficients non nuls. Lorsque λ est augmenté à 1354.4, la MSE augmente à
112652 avec un SE de 20008, tout en maintenant 19 coefficients non nuls.

min 7.23 40 92827 16300 9
1se 73.98 15 107347 21903 4
Table 4.11 – Résultats de la validation croisée pour la régression Lasso
Pour la régression Lasso (α = 1), le modèle avec λ minimal (7.23) a une MSE de 92827 et
un SE de 16300, avec seulement 9 coefficients non nuls. Avec λ à 73.98, la MSE augmente
à 107347 avec un SE de 21903, et le nombre de coefficients non nuls diminue à 4, indiquant
une sélection plus agressive des variables.

min 13.17 41 100603 11781 9
1se 111.92 18 111094 14900 8
Table 4.12 – Résultats de la validation croisée pour la régression Elastic-Net
Enfin, pour la régression Elastic-Net (α = 0.5), le modèle avec λ minimal (13.17) a une
MSE de 100603 avec un SE de 11781, incluant 9 coefficients non nuls. Pour λ à 111.92, la
MSE est de 111094 avec un SE de 14900 et 8 coefficients non nuls.
Ces résultats montrent que la régression Lasso tend à produire des modèles plus simples
avec moins de coefficients non nuls, tandis que la régression Ridge maintient la plupart
75
des coefficients. La régression Elastic-Net, qui combine les caractéristiques de Ridge et
Lasso, offre un compromis entre la réduction de l’ampleur des coefficients et la sélection
des variables.
Figure 4.5 – Résultats de la validation croisée pour une régression Lasso,Ridge et Elestic-
net à l’aide de la fonction cv.glmnet
En utilisant la fonction cv.glmnet de la bibliothèque glmnet en R, ces graphes illustrent
les résultats de la validation croisée pour trois types de régularisation : Lasso, Ridge et
Elastic Net.
1. Graphe Lasso (à gauche) :
— Comportement de l’erreur : La MSE diminue d’abord lorsque lambda di-
minue, puis augmente lorsque lambda devient très faible.
— Sélection de lambda : Il y a une proximité entre lambda.min et lambda.1se,
ce qui indique qu’un modèle simple avec un nombre limité de variables peut
être pratiquement aussi efficace qu’un modèle plus grand.
— Nombre de variables non nulles : Le Lasso réduit le nombre de variables
utilisées dans le modèle à des valeurs plus petites de lambda en forcent cer-
tains coefficients à zéro.
2. Graphe Ridge (au milieu) :
76
— Comportement de l’erreur : La MSE augmente avec l’augmentation de
lambda. Le comportement est plus lisse comparé au Lasso.
— Sélection de lambda : lambda.min et lambda.1se montrent que le Ridge ne
sélectionne pas de variables en forçant les coefficients à zéro mais régularise
tous les coefficients.
— Nombre de variables non nulles : Restent constants à 19, ce qui est attendu
dans la régression Ridge où tous les coefficients sont régularisés mais non
réduits à zéro.
3. Graphe Elastic Net (à droite) :
— Comportement de l’erreur : La MSE suit une tendance similaire à celle du
Lasso et du Ridge, initialement plate, puis augmentant avec la diminution ou
l’augmentation excessive de lambda.
— Sélection de lambda : lambda.min et lambda.1se sont également proches,
comme dans le cas du Lasso, suggérant une régularisation qui permet de sé-
lectionner un sous-ensemble de variables.
— Nombre de variables non nulles : Varie entre les modèles Ridge et Lasso,
car Elastic Net combine les propriétés des deux régularisations.
Ces graphiques offrent une représentation visuelle de l’influence des diverses formes de
régularisation sur la prédiction des performances d’un modèle (MSE) et la sélection des
variables (nombre de coefficients non nuls). Leur rôle consiste à sélectionner le type de
régularisation approprié et les valeurs optimales de lambda afin d’obtenir un modèle qui
équilibre efficacement le biais et la variance.
La MSE moyenne obtenue pour une valeur spécifique de lambda lors de la validation
croisée est indiquée par des points rouges de 4.5.
Les barres grises d’erreur : Descriptif de l’erreur standard liée à chaque point de MSE.
77
Elles illustrent comment l’estimation de la MSE varie selon chaque valeur de lambda.
Graphique des prédictions
Les graphes montrent la comparaison des valeurs réelles (True Values) et des valeurs
prédites (Predicted Values) pour trois types de modèles de régression : Ridge, Lasso, et
Elastic-Net. Voici l’interprétation détaillée de chaque graphique :
Figure 4.6 – Graphique des prédictions
Le premier graphique montre les prédictions du modèle Ridge. La ligne noire y = x
représente l’idéal où les valeurs prédites sont exactement égales aux valeurs réelles. Les
points bleus représentent les prédictions du modèle Ridge et se regroupent autour de la
ligne y = x, indiquant une bonne précision globale des prédictions. Toutefois, quelques
points s’éloignent de la ligne, ce qui montre des erreurs de prédiction.
Le deuxième graphique montre les prédictions du modèle Lasso. Les points verts re-
présentent les prédictions du modèle. Comme pour la régression Ridge, la majorité des
points se regroupent autour de la ligne y = x, montrant une bonne précision des pré-
dictions. Cependant, il semble y avoir un peu plus de dispersion comparée au modèle
78
Ridge, suggérant que le Lasso peut avoir une performance légèrement inférieure pour ce
dataset spécifique.
Le troisième graphique montre les prédictions du modèle Elastic-Net. Les points rouges
représentent les prédictions du modèle, avec la distribution des points similaire à celle
des deux autres modèles (Ridge et Lasso), la majorité se regroupant autour de la ligne y =
x. Cependant, il y a une légère dispersion supplémentaire, indiquant que l’Elastic-Net
peut avoir une performance légèrement inférieure ou comparable aux autres modèles
pour ce dataset spécifique.
Résumé des Performances
Les trois graphiques montrent que tous les modèles (Ridge, Lasso, et Elastic-Net) ont
une performance raisonnablement bonne, avec la majorité des prédictions proches des
valeurs réelles. Cependant, il y a des variations :
— Ridge : A une bonne précision globale, avec quelques points de prédiction éloi-
gnés.
— Lasso : A une performance comparable à Ridge mais montre un peu plus de dis-
persion.
— Elastic-Net : A une performance similaire mais montre une légère tendance à
avoir plus de dispersion, suggérant qu’il peut être moins précis que Ridge pour ce
dataset spécifique.
79
Figure 4.7 – Erreur quadratique moyenne pour chaque modèle
Graphique des prédictions :
Interprétation
Les modèles de régression Ridge, Lasso et Elastic-Net montrent tous des performances
raisonnablement bonnes pour prédire les valeurs réelles. La régression Ridge semble
avoir une légère supériorité en termes de précision, suivie de près par le Lasso et l’Elastic-
Net. Pour une application pratique, le choix entre ces modèles pourrait dépendre de la
spécificité des données et des critères de sélection de modèle, comme l’importance de la
régularisation ou la gestion de la colinéarité entre les prédicteurs.
Graphiques de Régression Régularisée
Interprétation : Les graphiques ci-dessous montrent comment les coefficients des mo-
dèles de régression Ridge, Lasso et Elastic-Net évoluent en fonction de la valeur du pa-
ramètre de régularisation λ (représenté sur une échelle logarithmique).
80
Figure 4.8 – Coefficients de Régression en fonction de log(λ) pour Ridge, Lasso, et
Elastic-Net
La régression Ridge est illustrée par un graphique où l’axe des x représente log(λ) et
l’axe des y les coefficients des variables. Chaque ligne correspond à un coefficient associé
à une variable du modèle. À mesure que λ augmente, les coefficients tendent vers zéro
sans jamais devenir exactement nuls. Cela montre que la régression Ridge applique une
régularisation L2, réduisant l’ampleur des coefficients sans les annuler complètement.
Le graphique démontre une diminution progressive de la valeur absolue des coefficients
avec l’augmentation de λ, ce qui indique une régularisation croissante.
La régression Lasso est représentée par un graphique où l’axe des x montre log(λ)
et l’axe des y les coefficients des variables. Chaque ligne correspond à un coefficient
associé à une variable du modèle. À mesure que λ augmente, certains coefficients de-
viennent exactement nuls, illustrant que la régression Lasso applique une régularisation
L1, capable de sélectionner des variables en annulant certains coefficients. On observe
des segments où les coefficients restent à zéro pour certaines valeurs de λ, indiquant que
81
ces variables ont été exclues du modèle à ces niveaux de λ.
La régression Elastic-Net est illustrée par un graphique où l’axe des x représente
log(λ) et l’axe des y les coefficients des variables, chaque ligne correspondant à un co-
efficient associé à une variable du modèle. Ce modèle combine les pénalisations L1 et
L2, donc on observe des coefficients qui tendent vers zéro sans s’annuler complètement,
comme dans la régression Ridge, ainsi que des coefficients qui deviennent exactement
nuls, comme dans la régression Lasso. Le graphique montre une transition entre les com-
portements observés dans les graphiques de Ridge et Lasso, offrant à la fois une régula-
risation et une sélection de variables.
Actual Linear Ridge (s1) Lasso (s1.1) Elastic-Net (s1.2)

480 823.38150 735.109401 705.87263 686.99016
500 1111.02206 1000.743771 981.78999 983.94673
70 204.14018 149.838968 104.02833 109.21557
75 14.73669 4.440978 25.93828 56.00679
1100 612.04842 771.118356 769.49297 790.25075
100 292.14290 344.282428 325.66035 358.88972
Table 4.13 – Tableau des valeurs réelles et prédites pour différents modèles
Interprétation
— Actual : Cette colonne représente les valeurs réelles des salaires (Salary) dans le
jeu de données de test.
— s1 (Ridge) : Cette colonne contient les valeurs prédites par le modèle de régression
Ridge.
— s1.1 (Lasso) : Cette colonne contient les valeurs prédites par le modèle de régres-
sion Lasso.
— s1.2 (Elastic-Net) : Cette colonne contient les valeurs prédites par le modèle de
régression Elastic-Net.
Pour chaque ligne du tableau :
82
Première ligne : On observe que les trois modèles prédisent des valeurs assez différentes
de la valeur réelle. Le modèle Ridge prédit la valeur la plus éloignée (735.109401), tandis
que le modèle Elastic-Net prédit une valeur un peu plus proche (686.99016), mais toujours
loin de la valeur réelle.
Deuxième ligne : Les trois modèles prédisent des valeurs beaucoup plus élevées que la
valeur réelle. Les prédictions de Ridge et Elastic-Net sont très similaires (autour de 1000),
ce qui montre une surestimation significative.
Troisième ligne : Les valeurs prédites par les trois modèles sont toutes supérieures à la
valeur réelle. La prédiction Ridge est la plus élevée (149.838968), tandis que les prédic-
tions Lasso et Elastic-Net sont plus proches de la valeur réelle, mais toujours surestimées.
Quatrième ligne : Dans ce cas, les modèles sous-estiment la valeur réelle. Le modèle
Ridge a la plus grande sous-estimation (4.440978), tandis que le modèle Elastic-Net est
le plus proche (56.00679), mais encore en dessous de la valeur réelle.
Cinquième ligne : Les trois modèles sous-estiment la valeur réelle. Les prédictions de
Ridge et Lasso sont très similaires et les plus éloignées de la valeur réelle, alors que
Elastic-Net donne une estimation légèrement plus proche.
Sixième ligne : Les trois modèles surestiment la valeur réelle de manière significative.
Les prédictions de Ridge et Elastic-Net sont les plus élevées.
Ces résultats montrent que les modèles de régression Ridge, Lasso et Elastic-Net ont
des variations dans leurs prédictions et peuvent soit surestimer, soit sous-estimer les va-
leurs réelles des salaires. Les performances des modèles peuvent varier en fonction de
l’observation spécifique. Une évaluation globale des erreurs (telles que l’erreur quadra-
tique moyenne) sur l’ensemble des données de test serait nécessaire pour déterminer
quel modèle est le plus performant globalement.
83
Chapitre 5
Conclusion générale
Ce mémoire a examiné l’utilisation des méthodes de régression linéaire et de sélection
de modèles sur les données de performance des joueurs de baseball du jeu de données
Hitters. Les techniques de régularisation telles que le Lasso, Ridge et l’Elastic Net ont
amélioré la précision des prédictions en éliminant les variables non pertinentes et en
réduisant le sur-ajustement. Le Lasso a obtenu la meilleure performance avec une MSE
de 92827 en sélectionnant seulement 9 prédicteurs, contrairement à la régression Ridge
et l’Elastic Net qui ont choisi plus de variables avec une MSE plus élevée. Ces résultats
soulignent l’importance de la sélection de modèles pour obtenir des modèles précis et
interprétables, mettant en avant l’efficacité des techniques de régularisation dans les
analyses de régression linéaire complexes.
84
Bibliographie
[1] Morgan Gautherot. Tout savoir sur la régression pénalisée. 2022.
[2] Christophe Chesneau. “Sur l’Estimateur du Maximum de Vraisemblance (emv)”.
In : (2017).
[3] Jerome Friedman, Trevor Hastie et Robert Tibshirani. “Regularization paths for
generalized linear models via coordinate descent”. In : Journal of Statistical Software
33.1 (2010), p. 1-22.
[4] Trevor Hastie, Robert Tibshirani et Martin Wainwright. Statistical Learning
with Sparsity : The Lasso and Generalizations. CRC Press, 2015.
[5] Gareth James et al. An Introduction to Statistical Learning with Applications in R,
Second Edition. 2023.
[6] Douglas C. Montgomery, Elizabeth A. Peck et G. Geoffery Vining. Introduction to
Linear Regression Analysis. A John Wiley & Sons, Inc., Publication, 2012.
[7] Gilbert Saporta. Probabilités, analyse des données et statistique. Editions technip,
2006.
[8] Hui Zou et Trevor Hastie. “Regularization and variable selection via the elastic
net”. In : Journal of the Royal Statistical Society : Series B (Statistical Methodology)
(2005).
85

Mémoire

Transféré par

Droits d'auteur :

Formats disponibles

Mémoire

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Mémoire

Transféré par

Droits d'auteur :

Formats disponibles

République Algérienne Démocratique et Populaire

Ministère de l’Enseignement Supérieur et de la Recherche

Sélection des variables de régression Linéaire et

Président : Mr. ALIAT Billel USTHB

Code Mémoire : 05/SPA/2024

À l’issue de ce mémoire, on tient tout d’abord à remercier ALLAH le

tout-puissant et le miséricordieux pour la force, le courage et la patience qu’il nous a

donné durant toutes ces années de formation.

ses précieux conseils durant tous ces mois de travail.

enseignements et leurs conseils tout au long de ces années d’études.

Je dédie ce modeste travail :

guider mes pas, même en ton absence physique.

présence m’ont aidé à surmonter les moments difficiles.

À mon binôme Amine, dont la collaboration et l’amitié ont été essentielles à la

réussite de ce mémoire. Ta camaraderie a rendu ce travail plus agréable et productif.

À mes meilleurs amis universitaires, Houssem, Selma et Salsabil, pour leur

universitaire de manière inestimable.

À tous mes amis de la durée de mon master, je n’oublie personne. Chacun de

moments partagés, les rires, et les soutiens mutuels.

Avec toute ma gratitude et mon affection

Je dédie ce modeste travail :

surmonter les difficultés, et j’espère être à la hauteur de vos attentes. Et je tiens à ce

À mes deux chers frères, abdraouf et abderahmane qui sont toujours là

À toutes mes amies de ma promotion ; particulièrement : Nassim, Amir,

encouragement, sa patience et sa compréhension tout au long de ce projet.

encouragée et accompagnée tout au long de mon chemin d’études supérieures

À mon encadrant Mr. MEZIANI Mohamed, pour sa guidance. Vous m’avez

montré la voie et m’avez aidé à atteindre mes objectifs.

2.1 Régression linéaire simple . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.1.1 Estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . 14

2.1.2 L’estimation par moindres carré ordinaires . . . . . . . . . . . . 14

2.1.3 Hypothèses et propriétés des estimateurs des MCO . . . . . . . . 15

2.2 Régression linéaire multiple . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.2.1 Présentation du modèle . . . . . . . . . . . . . . . . . . . . . . . 17

2.2.2 Estimation des paramètres du modèle . . . . . . . . . . . . . . . . 19

2.2.3 Intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . 20

2.2.4 Le coefficient de détermination multiple R2 . . . . . . . . . . . . 24

2.2.5 Coefficient de détermination ajusté R̄2 . . . . . . . . . . . . . . . 24

2.2.6 Sommes des carrés . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.2.7 Inférence dans le cas gaussien . . . . . . . . . . . . . . . . . . . . 25

2.2.8 Inférence sur le modèle . . . . . . . . . . . . . . . . . . . . . . . . 26

2.3 Test d’hypothèses en régression linéaire multiple . . . . . . . . . . . . . 27

3 Sélection de Modèle Linéaire et régularisation 29

3.1 Sélection de Sous-ensemble . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.1.1 Meilleure Sélection de Sous-Ensembles . . . . . . . . . . . . . . . 31

3.1.2 Sélection Par Étapes . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.2 Choisir le Modèle Optimal . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.2.1 Critère de AIC (Akaike Information Criterion (1973)) . . . . . . . 37

3.2.2 Critère BIC (Bayesian Information Criterion (1977)) . . . . . . . . 38

3.2.3 Validation croisée . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.3 la régression régularisée . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.4 Pénalisation de la fonction de coût . . . . . . . . . . . . . . . . . . . . . . 39

3.4.1 Sur-entraînement et sous-entraînement . . . . . . . . . . . . . . 40

3.5 Régression Ridge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.5.1 Estimation au ridge . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.6 Régression lasso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.6.2 Estimation au Lasso . . . . . . . . . . . . . . . . . . . . . . . . . 45

3.6.3 ℓq Pénalités et estimations Bayésiennes . . . . . . . . . . . . . . . 47

4.1 Description des données . . . . . . . . . . . . . . . . . . . . . . . . . . . 50