Mémoire

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 89

République Algérienne Démocratique et Populaire

Ministère de l’Enseignement Supérieur et de la Recherche


Scientifique
Université des Sciences et de la Technologie Houari
Boumediene

Faculté de Mathématiques
Département de probabilités et statistiques

Mémoire
En vue de l’obtention du Diplôme de MASTER
Statistiques et Probabilités Appliquées

Thème :

Sélection des variables de régression Linéaire et


Régularisée

Présenté par :
• GUECHTOULI Ahmed Amine
• RAHMOUNE Imad
Soutenu le 03 Juin 2024, devant le jury composé de :

Président : Mr. ALIAT Billel USTHB


Rapporteur : Mr. MEZIANI Mohamed USTHB
Examinateur : Mr. SADOUN Mohamed USTHB

Code Mémoire : 05/SPA/2024


Remerciements

À l’issue de ce mémoire, on tient tout d’abord à remercier ALLAH le

tout-puissant et le miséricordieux pour la force, le courage et la patience qu’il nous a

donné durant toutes ces années de formation.

Par ailleurs, nos sincères remerciements sont adressés à notre cher professeur et

encadreur Mr. MEZIANI, pour la qualité de son encadrement, son suivi, sa rigueur et

ses précieux conseils durant tous ces mois de travail.

Nous tenons ainsi à remercier tous les membres du jury monsieur ALIAT Billel

et Mr. SADOUN Mohamed pour l’intérêt qu’ils portent à notre projet en acceptant de

l’examiner.

Au final, nous remercions tous nos professeurs pour leurs soutiens, leurs

enseignements et leurs conseils tout au long de ces années d’études.

1
Dédicace

Je dédie ce modeste travail :

À mes chers parents, dont l’amour inconditionnel et les sacrifices ont été la force

motrice derrière tous mes succès. Maman, ta détermination et ta foi en moi m’inspirent

chaque jour. Papa, paix à son âme, tes enseignements et ton amour continuent de

guider mes pas, même en ton absence physique.

À ma sœur Sanaa et mon frère Alaa, pour leur soutien constant et leur amour.

Vous avez été mes confidents et mes meilleurs amis. Vos encouragements et votre

présence m’ont aidé à surmonter les moments difficiles.

À mon binôme Amine, dont la collaboration et l’amitié ont été essentielles à la

réussite de ce mémoire. Ta camaraderie a rendu ce travail plus agréable et productif.

À mes meilleurs amis universitaires, Houssem, Selma et Salsabil, pour leur

amitié précieuse. Votre compagnie et vos conseils ont enrichi mon expérience

universitaire de manière inestimable.

À tous mes amis de la durée de mon master, je n’oublie personne. Chacun de

vous a contribué à rendre cette période mémorable et supportable. Merci pour les

moments partagés, les rires, et les soutiens mutuels.

Avec toute ma gratitude et mon affection

Imad
Dédicace

Je dédie ce modeste travail :

À mes chers parents ; pour mon père et son immense soutien, son sacrifice

et aux prières. de ma mère ( paix a son âme ) Vous m’avez appris à être patiente pour

surmonter les difficultés, et j’espère être à la hauteur de vos attentes. Et je tiens à ce

que vous sachiez que vous êtes les personnes les plus chères à mon cœur.

À mes deux chers frères, abdraouf et abderahmane qui sont toujours là

pour moi, et ma petite soeur Ikram, sachez bien que je vous dois beaucoup pour votre

soutien et votre amour qui m’ont été très utiles pour aller de l’avant.

À toutes mes amies de ma promotion ; particulièrement : Nassim, Amir,

Sidali, fella, Sarah, yousran, pour les beaux moments que nous avions passés

ensemble

À mon meilleure binôme Imad, pour sa fraternité, son soutien moral, son

encouragement, sa patience et sa compréhension tout au long de ce projet.

À ma chère amie Nassim, qui a toujours été à mes côtés, qui m’a aidée,

encouragée et accompagnée tout au long de mon chemin d’études supérieures

À mon encadrant Mr. MEZIANI Mohamed, pour sa guidance. Vous m’avez

montré la voie et m’avez aidé à atteindre mes objectifs.

Amine
Table des matières

1 Introduction 10

2 Régression linéaire 12

2.1 Régression linéaire simple . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.1.1 Estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . 14

2.1.2 L’estimation par moindres carré ordinaires . . . . . . . . . . . . 14

2.1.3 Hypothèses et propriétés des estimateurs des MCO . . . . . . . . 15

2.2 Régression linéaire multiple . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.2.1 Présentation du modèle . . . . . . . . . . . . . . . . . . . . . . . 17

2.2.2 Estimation des paramètres du modèle . . . . . . . . . . . . . . . . 19

2.2.3 Intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . 20

2.2.4 Le coefficient de détermination multiple R2 . . . . . . . . . . . . 24

2.2.5 Coefficient de détermination ajusté R̄2 . . . . . . . . . . . . . . . 24

2.2.6 Sommes des carrés . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.2.7 Inférence dans le cas gaussien . . . . . . . . . . . . . . . . . . . . 25

2.2.8 Inférence sur le modèle . . . . . . . . . . . . . . . . . . . . . . . . 26

2.3 Test d’hypothèses en régression linéaire multiple . . . . . . . . . . . . . 27

1
2.3.1 Test de signification de la régression . . . . . . . . . . . . . . . . 27

3 Sélection de Modèle Linéaire et régularisation 29

3.1 Sélection de Sous-ensemble . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.1.1 Meilleure Sélection de Sous-Ensembles . . . . . . . . . . . . . . . 31

3.1.2 Sélection Par Étapes . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.2 Choisir le Modèle Optimal . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.2.1 Critère de AIC (Akaike Information Criterion (1973)) . . . . . . . 37

3.2.2 Critère BIC (Bayesian Information Criterion (1977)) . . . . . . . . 38

3.2.3 Validation croisée . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.3 la régression régularisée . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.4 Pénalisation de la fonction de coût . . . . . . . . . . . . . . . . . . . . . . 39

3.4.1 Sur-entraînement et sous-entraînement . . . . . . . . . . . . . . 40

3.5 Régression Ridge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.5.1 Estimation au ridge . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.6 Régression lasso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.6.1 définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.6.2 Estimation au Lasso . . . . . . . . . . . . . . . . . . . . . . . . . 45

3.6.3 ℓq Pénalités et estimations Bayésiennes . . . . . . . . . . . . . . . 47

3.7 Elastic-Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

2
4 Implémentation Pratique 50

4.1 Description des données . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.2 Description Générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.3 Variables du Jeu de Données . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.4 Pré-traitement des Données . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.5 Sélection de Modèle Linéaire . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.5.1 Exploite les données . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.5.2 Meilleure Sélection de Sous-Ensembles (Best Subset Selection) . . 53

4.5.3 Interprétation des Résultats . . . . . . . . . . . . . . . . . . . . . 54

4.5.4 Sélection Par Étapes (Stepwise Selection) . . . . . . . . . . . . . . 55

4.5.5 Avancer Pas à Pas (Forward Stepwise) . . . . . . . . . . . . . . . 56

4.5.6 Pas à Pas En Arrière (Backward Stepwise) . . . . . . . . . . . . . 57

4.6 Comparaison des Modèles . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.6.1 Estimation Indirecte de l’erreur de Test avec Cp , AIC , BIC , et

R2 Ajusté . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.7 Estimation Directe De L’Erreur De Test . . . . . . . . . . . . . . . . . . . 63

4.8 Régression régularisée a l’aide de la fonction glmnet . . . . . . . . . . . . 68

4.8.1 Transformation des données en matrices de modèle . . . . . . . 68

4.8.2 Régression de ridge . . . . . . . . . . . . . . . . . . . . . . . . . . 68

4.8.3 Régression lasso . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

4.8.4 Régression Elestic-net . . . . . . . . . . . . . . . . . . . . . . . . 72

4.8.5 la validation croisée d’une régression lasso , Ridge et Elestic-net : 74

3
5 Conclusion générale 84

4
Table des figures

3.1 Analyse de la performance du Modèle en fonction du Nombre de prédic-

teurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.2 Évolution des performances des modèles de crédit en fonction du nombre

de prédicteurs : Cp (ou AIC), BIC et R2 ajustés[5] . . . . . . . . . . . . 37

3.3 Graphique de Sous-entraînement, Entraînement Correct et Sur-entraînement 40

3.4 la forme géométriques de fonctions de régularisation de Ridage . . . . . 43

3.5 Comparaison des Méthodes de Régularisation : Lasso et Ridge . . . . . . 46

3.6 la forme géométriques de fonctions de régularisation de Lasso . . . . . . 46

3.7 Régions de contraintes pour différentes valeurs q dans les méthodes de

régularisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.8 La boule élastique-réseau avec α = 0.7 (panneau de gauche) dans R3 ,

comparée à la boule ℓ1 (panneau de droite). Les contours incurvés en-

couragent les variables fortement corrélées à partager des coefficients. . 49

4.1 Graphique montrant l’évolution des trois statistiques (R2 ajusté, Cp de

Mallows, et BIC) en fonction du nombre de prédicteurs . . . . . . . . . . 59

4.2 Graphique des erreurs de validation en fonction du nombre de prédicteurs 64

5
4.3 Graphique des erreurs de validation sur l’ensemble de test en fonction

du nombre de prédicteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

4.4 Graphique des erreurs de Validation Croisée Moyennes en fonction du

nombre de prédicteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

4.5 Résultats de la validation croisée pour une régression Lasso,Ridge et

Elestic-net à l’aide de la fonction cv.glmnet . . . . . . . . . . . . . . . . 76

4.6 Graphique des prédictions . . . . . . . . . . . . . . . . . . . . . . . . . . 78

4.7 Erreur quadratique moyenne pour chaque modèle . . . . . . . . . . . . . 80

4.8 Coefficients de Régression en fonction de log(λ) pour Ridge, Lasso, et

Elastic-Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

6
Table des algorithmes

1 Meilleure Sélection de Sous-Ensembles . . . . . . . . . . . . . . . . . . 32

2 Sélection progressive vers l’avant . . . . . . . . . . . . . . . . . . . . . 35

3 Sélection pas à pas vers l’arrière . . . . . . . . . . . . . . . . . . . . . . 36

7
Résumé

Le mémoire intitulé "Sélection de variable Linéaire et Régularisation" se concentre sur

l’étude approfondie des méthodes de régression linéaire, ainsi que sur les méthodes de

sélection de variables adaptées à cette approche statistique. La régression linéaire est

une méthode statistique fondamentale utilisée pour modéliser la relation entre une va-

riable dépendante et une ou plusieurs variables indépendantes. Ce mémoire explore les

bases théoriques de la régression linéaire simple et multiple, discute des techniques d’es-

timation des paramètres, des tests d’hypothèses et des méthodes d’inférence. En outre,

il examine diverses méthodes de sélection de modèles, telles que la sélection de sous-

ensembles, la sélection par étapes, et les critères de teste de performances comme AIC,

BIC et la validation croisée. Le document met également en lumière l’importance de la

régularisation dans la régression, avec une attention particulière aux Méthodes de Ridge,

Lasso et Elastic-Net. Finalement, une implémentation pratique est réalisée en utilisant

des données réelles pour illustrer et comparer les différentes méthodes discutées.

Mots-clés : Régression linéaire, sélection de modèles, régression ridge, régression lasso,

elastic-Net, critères de sélection de modèles (AIC, BIC), validation croisée, estimation des

paramètres, Tests d’hypothèses, inférence statistique, régularisation

8
Abstract

The thesis titled "Analysis of Linear Regression Methods and Model Selection" focuses on

an in-depth study of linear regression techniques and the model selection methods suited

to this statistical approach. Linear regression is a fundamental statistical method used

to model the relationship between a dependent variable and one or more independent

variables. This thesis explores the theoretical foundations of simple and multiple linear

regression, discusses parameter estimation techniques, hypothesis testing, and inference

methods. Additionally, it examines various model selection methods such as subset se-

lection, stepwise selection, and selection criteria like AIC, BIC, and cross-validation. The

document also highlights the importance of regularization in regression, with a particu-

lar focus on Ridge, Lasso, and Elastic-Net techniques. Finally, a practical implementation

is carried out using real data to illustrate and compare the different methods discussed.

Key Words : Linear Regression, model selection, ridge regression, lasso regression,

elastic-Net, model Selection criteria (AIC, BIC), cross-validation, parameter estimation,

hypothesis testing, statistical inference, regularization

9
Chapitre 1

Introduction

Dans ce mémoire, nous abordons l’analyse des méthodes de régression linéaire et la sé-

lection de modèles, en utilisant le jeu de données Hitters. La régression linéaire est une

technique statistique fondamentale utilisée pour modéliser la relation entre une variable

dépendante et une ou plusieurs variables indépendantes. Ce type de modélisation est

crucial dans de nombreux domaines, tels que l’économie, la biologie, et l’apprentissage

automatique, où l’on cherche à prédire une variable d’intérêt en fonction d’autres va-

riables explicatives.

Le jeu de données Hitters, provenant du package ISLR en R, est couramment utilisé pour

des applications de régression et d’apprentissage statistique. Il contient des informations

sur les performances de joueurs de baseball, ce qui en fait un ensemble de données idéal

pour illustrer les techniques de régression linéaire. Parmi les variables disponibles, nous

avons des données sur les présences au bâton, les coups sûrs, les coups de circuit, les

points marqués, et les salaires des joueurs, entre autres.

La question principale que ce mémoire aborde est : comment améliorer la précision des

modèles de régression linéaire et optimiser la sélection de variables pour des prédictions

plus robustes et fiables ?

10
Cette problématique est cruciale car une mauvaise sélection de variables peut conduire

à des modèles surajustés ou sous-ajustés, compromettant ainsi la validité des résultats

obtenus.

L’objectif principal de ce mémoire est de comparer différentes méthodes de régression

linéaire et de sélection de variables afin d’identifier les techniques les plus efficaces pour

prédire les salaires des joueurs en fonction de leurs performances. Nous examinerons

plusieurs approches de sélection de variables, telles que la sélection par étapes, la sé-

lection de sous-ensembles et les méthodes de régularisation comme le Lasso, Ridge et

l’Elastic Net, afin de déterminer les variables qui contribuent le plus à la prédiction et

qui améliorent la précision du modèle.

— Évaluer les performances des méthodes de sélection de sous-ensembles et de sé-

lection par étapes.

— Comparer les critères de sélection de modèles comme AIC, BIC et la validation

croisée.

— Mettre en œuvre une application pratique de ces méthodes des régularisation sur

des jeux de données réels pour illustrer leurs avantages et inconvénients.

11
Chapitre 2

Régression linéaire

Ce chapitre traite de la régression linéaire, une approche très simple pour l’apprentis-

sage supervisé. En particulier, la régression linéaire est un outil utile pour prédire une

réponse quantitative. Il existe depuis longtemps et est le thème d’innombrables manuels.

Bien qu’il puisse sembler un peu ennuyeux par rapport à certaines des approches d’ap-

prentissage statistique plus modernes, la régression linéaire est toujours une méthode

utile et largement utilisée. En outre, il sert de bon point de départ pour les approches plus

récentes : comme nous le verrons dans les chapitres suivants, de nombreuses approches

d’apprentissage statistique fantaisistes peuvent être considérées comme des généralisa-

tions ou des extensions de la régression linéaire. Par conséquent, l’importance d’avoir

une bonne compréhension de la régression linéaire avant d’étudier des méthodes d’ap-

prentissage plus complexes ne peut être surestimée. Dans ce chapitre, nous explorons

les concepts fondamentaux du modèle de régression linéaire, ainsi que la méthode des

moindres carrés, couramment utilisée pour ajuster ce modèle.

Supposons que, dans notre rôle de consultants statistiques, nous soyons priés de pro-

poser, sur la base de ces données, un plan de marketing pour l’année prochaine qui se

traduira par des ventes de produits élevées. Quelles informations seraient utiles pour

12
formuler une telle recommandation ? C’est l’une des questions importantes que nous

allons aborder .

Y a-t-il une relation entre le budget publicitaire et les ventes ? Notre premier objectif

devrait être de déterminer si les données fournissent la preuve d’une association entre les

dépenses publicitaires et les ventes. Si les preuves sont faibles, alors on pourrait soutenir

qu’aucun argent ne devrait être dépensé en publicité !

Il s’avère que la régression linéaire peut être utilisée pour répondre à chacune de ces in-

teractions des questions. Nous aborderons d’abord toutes ces questions dans un contexte

général.

2.1 Régression linéaire simple

La régression linéaire simple porte bien son nom : c’est une régression linéaire très simple

approche de prédiction d’une réponse quantitative Y en se basent sur une seule variable

prédictif X. Il suppose qu’il y a une relation linéaire entre X et Y . Mathématiquement,

on peut écrire ce modèle linéaire.[5]

Y ≈ β0 + β1 X + ei (2.1)

Y = variable à expliquer ou réponse, supposée aléatoire.

X = variable explicative ou covariable ou régresseur.

Dans l’équation 2.1, β0 et β1 sont deux constantes inconnues qui représentent les termes

d’ordonnée à l’origine et de pente dans le modèle linéaire. Ensemble, β0 et β1 sont des

pentes d’interception appelées coefficients ou paramètres du modèle. Une fois que nous

avons utilisé nos données d’apprentissage des paramètres de coefficient pour produire

des estimations β̂0 et β̂1 pour les coefficients du modèle, nous pouvons prédire dans

13
l’exemple de la publicité télévisée les ventes futures sur la base d’une valeur particulière

de la publicité en calculant.

Ŷ = β̂0 + β̂1 X (2.2)

où Ŷ indique une prédiction de Y sur la base de X = x .

2.1.1 Estimation des paramètres

En pratique, β0 et β1 sont inconnus. Donc, avant de pouvoir utiliser l’équation 2.1 pour

faire des prédictions, nous devons utiliser des données pour estimer les coefficients.

Soit (x1 ,y1 ), (x2 ,y2 ), . . . , (xn ,yn ) représentent n couples d’observation, dont chacun est

constitué d’une mesure de X et d’une mesure de Y.

Soit ŷi = β̂0 + β̂1 xi la prédiction pour Y basée sur la i valeur de X. Alors ei = yi − ŷi

représente le i résidu c’est-à-dire la différence entre par notre modèle linéaire. Nous dé-

finissons la somme résiduelle des carrés (RSS) comme suit.

RSS = e21 + e22 + . . . + e2n (2.3)

ou de manière équivalente.

RSS = (y1 − β̂0 − β̂1 x1 )2 + (y2 − β̂0 − β̂1 x2 )2 + . . . + (yn − β̂0 − β̂1 xn )2 (2.4)

2.1.2 L’estimation par moindres carré ordinaires

Le problème est de déteminer les paramètres estimés (β̂0 et β̂1 ) de telle sort que l’ajuste-

ment

ŷi = â + b̂xi , soit aussi proche que possible de l’observation yi , ou autrement dit que

14
l’erreur (estimée), êi = yi − ŷi = yi − β̂0 − β̂1 xi soit aussi proche que possible de 0 et

cela pour chaque i. La mesure de la proximité que l’on retient constitue le critère des

moindres carrés ordinaires,

c’est-à-dire qu’on retient les valeurs β̂0 et β̂1 qui minimisent la somme des carrés des

résidus :

n
X n
X
(β̂0 , β̂1 ) = arg min e2i = arg min (yi − β0 − β1 xi )2
i=1 i=1

L’approche des moindres carrés choisit β̂0 et β̂1 pour minimiser le RSS.

En Utilisant quelques calculs, on peut montrer que les minimiseurs sont :

Pn
(x − x̄)(yi − ȳ)
Pn i
β̂1 = i=1 2
i=1 (xi − x̄)
Pn
yi xi − nȳx̄
= Pi=1
n 2 2
i=1 xi − nx̄

Cov(yi , xi )
=
Var(xi )

β̂0 = ȳ − β̂1 x̄ (2.5)

où ȳ et x̄ sont les moyennes d’échantillonnage. En d’autres mots, la relation 2.5 définit

les estimations des coefficients des moindres carrés pour une régression linéaire simple.

2.1.3 Hypothèses et propriétés des estimateurs des MCO

Les hypothèses liées à l’erreur ei sont :

H1 : xi est une variable certaine (non aléatoire) ⇒ Cov(xi , ei ) = 0 ∀i( la variable explicative et l’erreur s

15
⊥)

H2 : E(ei ) = 0 ∀i (l’erreur est d’espérance nulle)

H3 : Cov(ei , ej ) = E(ei ej )−E(ei )E(ej ) = 0. Car E(ei ) = 0 ∀i ̸= j ⇒ les erreurs sont non corrélées.

Ces hypothèses permettent au x estimateurs d’obtenir les bonnes propriétés suivantes :

• Les estimateurs sont sans biais :

E(β̂1 ) = β1

E(β̂0 ) = β0

• Les estimateurs sont convergents :

lim Var(β̂1 ) = 0
n→∞

lim Var(β̂0 ) = 0
n→∞

2.2 Régression linéaire multiple

Les modèles traditionnels de répartition (linéaire, logistique) sont anciens et moins su-

jets à controverse médiatique que ceux récents provenant de l’apprentissage machine.

Cependant, en raison de leur solidité, de leur résistance aux variations des échantillons,

de leur capacité à s’adapter aux données massives. . .tout cela explique pourquoi ils sont

toujours très utilisés dans le domaine de la production, en particulier lorsque la fonction

à modéliser est bien linéaire et qu’il serait contre-productif de chercher des approches

plus complexes.

16
2.2.1 Présentation du modèle

Une variable quantitative Y dite à expliquer (ou encore, réponse, exogène, dépendante)

est mise en relation avec p le nombre de quantitatives X1 , . . ., Xp dites explicatives (ou

encore de contrôle, endogènes, indépendantes, régresseurs, prédicteurs).

Les données sont supposées provenir de l’observation d’un échantillon statistique de

taille n

(n > p + 1) de Rp+1 :

(xi1 , xi2 , . . . , xij , . . . , xip , yi ) , i = 1, . . . , n

L’écriture du modèle linéaire dans cette situation conduit à supposer que l’espérance de

Y appartient au sous-espace de Rn engendré par 1, X1 ,. . ., Xp où 1 désigne le vecteur de

Rn .

C’est-à-dire que les (p + 1) variables aléatoires vérifient :

Yi = β0 + β1 Xi 1 + β2 Xi 2 + . . . + βp Xi p + ei , i = 1, 2, . . . , n

avec les hypothèses suivantes :

1. Les ei sont des termes d’erreur indépendants et identiquement distribués ;

E(ei ) = 0, Var(e) = σ 2 I.

2. Les termes Xj sont supposés déterministes (facteurs contrôlés) ou bien l’erreur

e est indépendante de la distribution conjointe de X1 , . . . , Xp . On écrit dans ce

dernier cas que :

E(Y | X1 , . . . , Xp ) = β0 + β1 X1 + β2 X2 + · · · + βp Xp

17
et

Var(Y | X1 , . . . , Xp ) = σ 2 .

3. Les paramètres inconnus β0 , . . . , βp sont supposés constants.

4. En option, pour l’étude spécifique des lois des estimateurs, une quatrième hypo-

thèse considère la normalité de la variable d’erreur e ∼ N (0, σ 2 In ). . Les ei sont

alors i.i.d. de loi N (0, σ 2 ).

Les données sont rangées dans une matrice X(n × (p + 1)) de terme général Xi j, dont

la première colonne contient le vecteur 1 (Xi 0 = 1), et dans un vecteur Y de terme

général Yi . En notant les vecteurs e = [e1 · · · ep ]′ et β = [β0 β1 · · · βp ]′ , le modèle s’écrit

matriciellement :

Y = Xβ + e.

Définition 2.1 (Modèle de régression multiple)

Un modèle de régression linéaire est défini par une équation de la forme.

Yn×1 = Xn×p β p×1 + en×1 . (2.6)

où :

• Y est un vecteur aléatoire de dimension n .

• X est une matrice de taille n × p connue, appelée matrice du plan d’expérience,

   
 x1   x11 x12 · · · x1p 
   
   
 2   21 x22 · · · x2p 
x  x 
X= =
   .

. .
 ..   .. .
. .. .
.
   . . . 

   
   
xn xn1 xn2 · · · xnp

18
Nous noterons la i-ème ligne du tableau X par le vecteur ligne xi = (xi1 , . . . , xip ).

• β est le vecteur de dimension p des paramètres inconnus du modèle.

• e est le vecteur centré, de dimension n, des erreurs.

Nous supposons que la matrice X est de plein rang. Cette hypothèse sera notée H1.

Comme, en général, le nombre d’individus n est plus grand que le nombre de variables

explicatives p, le rang de la matrice X vaut p.

2.2.2 Estimation des paramètres du modèle

Conditionnellement à la connaissance des valeurs des Xj , les paramètres inconnus du

modèle : le vecteur β et σ 2 , sont estimés par minimisation des carrés des écarts (M.C),

ou encore par maximisation de la vraisemblance (M.V.).

Estimateur des moindres carrés ordinaires (MCO)

Le modèle :

yi = β0 + β1 xi1 + β2 xi2 + · · · + βp xip + ei

peut résumer avec la notation matricielle

      
 y1   1 x11 · · · x1p   β0   e1 
      
 ..   .. .. .  ..   .. 
 = ... ..  +
 . 
 
 . . 
 . 
 
 . 

      
      
yn 1 xn1 · · · xnp βp en

Soit de manière compacte :

Y = Xβ + e

19
On va estimer les paramètres on obtiendra :

ŷi = β̂0 + β̂1 xi1 + β̂2 xi2 + · · · + β̂p xip

Les résidus estimés sont la différence entre la valeur de Y observée et estimée. Soit :

êi = yi − ŷi

Le principe des moindres carrés consiste à rechercher les valeurs des paramètres qui

minimisent la somme des carrés des résidus.

n
X n 
X 2
min ê2i = min yi − β̂0 − β̂1 xi1 − β̂2 xi2 − · · · − β̂p xip
i=1 i=1

∂( ni=1 ê )
2
P
Ce qui revient à rechercher les solutions de ∂ β̂j

. Nous avons j = p + 1 équations

dites équations normales, à résoudre. La solution obtenue est l’estimateur des moindres

carrés ordinaires.

Théorème

β̂ = (X ′ X)−1 X ′ Y est l’estimateur qui minimise la somme des carrés des résidus. avec

X ′ la transposée de X.

2.2.3 Intervalle de confiance

En partant de l’hypothèse ei ∼ N (0, σ 2 ) nous pouvons montrer :

β̂j −βj
1. σβj
∼ N (0, 1)
σ̂ 2
2. (n − p − 1) σ2j ∼ χ2 (n − p − 1)
βj

20
Le rapport d’une loi normale et de la racine carrée d’une loi du χ2 normalisée par ses

degrés de liberté aboutit à une loi de Student. Nous en déduisons donc la statistique :

β̂j − βj
t= ∼ t(n − p − 1)
σ̂β̂j

elle suit une loi de Student à (n-p-1) degrés de liberté. À partir de ces informations, il est

possible de calculer les intervalles de confiance des estimations des coefficients.

Il est également possible de procéder à des tests d’hypothèses, notamment les tests d’hy-

pothèses de conformité à un standard. Parmi les différents tests possibles, le test de nullité

du coefficient (H0 : βj = 0, contre H1 : βj ̸= 0) tient un rôle particulier : il permet de

déterminer si la variable xj joue un rôle significatif dans le modèle. Il faut néanmoins être

prudent quant à ce test. L’acceptation de l’hypothèse nulle peut effectivement indiquer

une absence de corrélation entre la variable incriminée et la variable endogène ; mais il

peut également résulter de la forte corrélation de xj avec une autre variable exogène,

son rôle est masqué dans ce cas, laissant à croire une absence d’explication de la part de

la variable.

Vraisemblance de l’échantillon

La vraisemblance de l’échantillon est définie comme la probabilité que les observations

proviennent effectivement d’un échantillon (théorique) de la loi de probabilité donnée.

Pour la plupart des lois de probabilité usuelles, l’estimateur du maximum de vraisem-

blance est défini de façon unique et se calcule explicitement[7][2].

n n  
Y Y 1 1 2
L(Y, β) = f (Yi |β) = √ exp − 2 (Yi − β) (2.7)
i=1 i=1 2πσ 2 2σ

21
 n n
!
1 1 X
= √ exp − 2 (Yi − β)2
2πσ 2 2σ i=1
n
!
1 1 X
=  exp − 2
1 n
(Yi − β)2
2
(2πσ ) 2 2σ i=1

n
!
1 1 X
= n
 exp − 2 (Yi − β)2
2
(2πσ ) 2 2σ i=1

La fonction de log-vraisemblance est définie comme :

n
n 1 X
ℓ(Y, β) = log L(Y, β) = − log(2πσ 2 ) − 2 (Yi − β)2 (2.8)
2 2σ i=1

Le maximum de vraisemblance est défini comme la valeur de β qui maximise la fonction

de log-vraisemblance ℓ(Y, β)[7][2] .

β̂ = arg max ℓ(Y, β) (2.9)


β

La fonction de vraisemblance est souvent plus facile à calculer que la fonction de log-

vraisemblance, car le logarithme est une fonction monotone[2].

L(Y, β) = exp (ℓ(Y, β)) (2.10)

La courbe de vraisemblance est une surface en m dimensions si m paramètres sont es-

timés en même temps. Pour chaque valeur fixe de β0 , il faut trouver la valeur maximale

de la fonction de vraisemblance pour le reste des paramètres.

Estimateurs du maximum de vraisemblance

La méthode des moindres carrés peut être utilisée pour estimer les paramètres dans un

modèle de régression linéaire quelle que soit la forme de la distribution des erreurs ei .

22
Les moindres carrés produisent les meilleurs estimateurs linéaires non biaisés de β0 et β1

. D’autres procédures statistiques, telles que les tests d’hypothèses et la construction de

l’IC, supposent que les erreurs sont normalement distribuées. Si la forme de la distribu-

tion des erreurs est connue, une autre méthode d’estimation des paramètres, la méthode

du maximum de vraisemblance, peut être utilisée.

selon l’équation 2.7

n  
2
Y  1
2 −2 1 2
L(yi , xi , β0 , β1 , σ ) = 2πσ exp − 2 (yi − β0 − β1 xi ) (2.11)
i=1

 
 n
2 −2 1 2
= 2πσ exp − 2 (yi − β0 − β1 xi ) (2.12)

Les estimateurs du maximum de vraisemblance sont les valeurs des paramètres, par

exemple enter β0 , enter β1 et enter σ2 ,qui maximisent L ou qui maximisent log L.

n n 1
log L(yi , xi , β0 , β1 , σ 2 ) = − log (2π) − log σ 2 − 2 (yi − β0 − β1 xi )2

(2.13)
2 2 2σ

et les estimateurs du maximum de vraisemblance est β0 , β1 et σ2 doivent satisfaire.

n
∂ ln 1 X ˆ ˆ

|βˆ ,βˆ ,σ̂2 = 2 yi − β0 − β1 xi = 0 (2.14)
∂ βˆ0 0 1 σ̂ i=1
n
∂ ln 1 X 
|βˆ0 ,βˆ1 ,σ̂2 = 2 yi − βˆ0 − βˆ1 xi xi = 0 (2.15)
∂ βˆ1 σ̂ i=1

et

n
∂ ln n 1 X 2
ˆ0 − βˆ1 xi = 0
| ˆ ˆ 2 = + y i − β (2.16)
∂ σ̂ 2 β0 ,β1 ,σ̂ 2σ̂ 2 2σ̂ 4 i=1

la solution à l’égalisation. 2.16 donne les estimateurs du maximum de vraisem-

23
blance :

βˆ0 = ȳ − βˆ1 x̄ (2.17)

Pn
yi (xi − x̄)
βˆ1 = Pi=1
n 2 (2.18)
i=1 (xi − x̄)

Pn  2
i=1 yi − βˆ0 − βˆ1 xi
σ2 = (2.19)
n

Notez que les estimateurs du maximum de vraisemblance de l’ordonnée à l’origine et de

la pente, βˆ0 et βˆ1 , sont identiques aux estimateurs des moindres carrés de ces paramètres.

De plus, σˆ2 est un estimateur biaisé de σ.[6]

2.2.4 Le coefficient de détermination multiple R2

Comme en régression linéaire simple, on mesure la variation expliquée par la régres-

sion ; c’est-à-dire la proportion de variance d’une variable dépendante y expliquée par

un ensemble de p variables explicatives x à l’aide du cocffcient de détermination mul-

tiple R2 , qui mesure le rapport entre la dispersion expliquée par la régression (SCE) et

la dispersion totale (SCT) :

Pn
2 (ŷi − ȳ)2 SCE SCR
R = Pi=1
n 2 = =1−
i=1 (yi − ȳ)
SCT SCT

2.2.5 Coefficient de détermination ajusté R̄2

Le coefficient de détermination ajusté tient compte du nombre de variables. En effet, le

principal défaut du R2 est de croître avec le nombre de variables explicatives. ou, on sait

qu’un excès de variables produit des modèles peu robustes. C’est pourquoi on s’intéresse

davantage à cet indicateur qu’au R2 . Mais ce n’est pas un véritable carré et il peut même

être négatif. Voici deux expressions du R2 ajusté,sachant que certains auteurs lui donnent

24
une définition légèrement différente :

SCR/(n − p − 1) n−1
R̄2 = 1 − =1− (1 − R2 )
SCT /(n − 1) n−p−1

2.2.6 Sommes des carrés

SCE est la somme des carrés des erreurs (sum of squared errors),

SCE = ∥Ŷ − Y ∥2 = ∥e∥2 .

On définit également la somme totale des carrés (total sum of squares) par

SCT = ∥Y − Y¯1 ∥2 = Y ′ Y − nȲ 2

et la somme des carrés de la régression (regression sum of squares) par

SCR = ∥Ŷ − Ȳ 1∥2 = Ŷ ′ Ŷ − nȲ 2 = Y ′ M Y − nȲ 2 = β̂ ′ X ′ Y − nȲ 2 .

On vérifie alors :

SCT = SCR + SCE.

2.2.7 Inférence dans le cas gaussien

En principe, il est essentiel de prendre en compte l’hypothèse optionnelle (4) de normalité

des erreurs pour cette section. Dans la réalité, des résultats asymptotiques, qui sont donc

valides pour de grands échantillons, ainsi que des études de simulation, démontrent que

cette hypothèse n’est pas celle dont la violation est la plus préjudiciable à la fiabilité des

25
modèles.

Nous rappelons le contexte de la Définition 2.1 :

Yn×1 = Xn×p β p×1 + en×1 , (2.20)

sous les hypothèses

– H1 : rang(X) = p.

– H2 : E(e) = 0, V ar(e) = σ 2 In .

Nous allons désormais supposer que les erreurs suivent une loi normale, donc H2 devient

– H3 : e ∼ N (0, σ 2 In ).

Nous pouvons remarquer que H3 contient H2. De plus, dans le cas gaussien, Cov(ei , ej ) =

σ 2 δij implique que les ei sont indépendants. L’hypothèse H3 s’écrit e1 , . . . , en sont i.i.d.

et de loi N (0, σ 2 ).

L’hypothèse gaussienne va nous permettre de calculer la vraisemblance et les estima-

teurs du maximum de vraisemblance (EMV). Cette hypothèse va nous permettre égale-

ment de calculer des régions de confiance et de proposer des tests. C’est l’objectif de ce

chapitre.

2.2.8 Inférence sur le modèle

Le modèle peut être testé globalement. Sous l’hypothèse nulle H0 : β1 = β2 = . . . =

βp = 0, la statistique
SCR/p MSR
=
SCE/(n − p − 1) MSE

suit une loi de Fisher avec p et (n − p − 1) degrés de liberté. Les résultats sont habituel-

lement présentés dans un tableau d’analyse de la variance sous la forme suivante :

26
Source de variation d.d.l. Somme des carrés Variance F
Régression p SCR MSR = SCR / p MSR / MSE
Erreur n−p−1 SCE MSE = SCE / (n − p − 1)
Total n−1 SCT
Table 2.1 – Tableau d’analyse de la variance

2.3 Test d’hypothèses en régression linéaire multiple

Après avoir évalué les paramètres du modèle, nous nous retrouvons face à deux pro-

blèmes immédiats :

1. Comment le modèle est-il globalement adapté ?

2. Quels régresseurs particuliers semblent essentiels ?

Différentes méthodes de test d’hypothèses sont bénéfiques pour répondre à ces inter-

rogations. Il est nécessaire que nos erreurs aléatoires soient autonomes et suivent une

distribution normale avec une moyenne E(ei ) = 0 et une variation V ar(ei ) = σ 2 .

2.3.1 Test de signification de la régression

Le test de signification de la régression est un test qui permet d’établir si la réponse y

est linéairement liée à au moins une des variables explicatives x1 , x2 , . . . , xp .

On qualifie généralement cette procédure de test global ou test de l’adéquation du mo-

dèle. Les hypothèses appropriées comprennent :

H0 : β0 = β1 = . . . = βp = 0

H1 : βj ̸= 0 pour au moins un j

Si cette hypothèse nulle est refusée, cela signifie que l’un des régresseurs x1 , x2 , . . . , xp

apporte une contribution significative au modèle.

27
La procédure de test est une généralisation de l’analyse de la variance utilisée dans la

régression linéaire simple. La somme totale des carrés SCT est partitionnée en une

somme des carrés due à la régression , SCR , et une somme résiduelle des carrés

, SCE . Ainsi,

SCT = SCR + SCE

la démonstration que si l’hypothèse nulle est vraie puis SCR/σ 2 suivre la loi χ2p

Distribution du test Fisher

La statistique de test F suit une loi de Fisher avec k et n − k − 1 degrés de liberté :

SCE/K MSR
F0 = = ∼ Fk,n−k−1
SCR/ (n-k-1) MSRes

si la valeur observée de F0 est grande, il est probable qu’au moins un βj ̸= 0.

on calcule la statistique de test F0 et on rejette H0 si :

F0 > Fα,k,n−k−1

La procédure de test est généralement résumée dans un tableau d’analyse de la variance

tel que le 2.3.1.

Source de Variation Somme des Carrés Degrés de Liberté Carré Moyen


Régression SCR k MSR
Erreur SCE n−k−1 MSRes
Total SCT n−1
Table 2.2 – Analyse de la variance pour la signification de la régression multiple

28
Chapitre 3

Sélection de Modèle Linéaire et

régularisation

Le modèle linéaire standard est toujour utilisé dans les modèles de régression régulari-

sées.

Y = β0 + β1 X1 + . . . + βp Xp + e

Le modèle linéaire standard est fréquemment employé dans le paramètre de régression

afin de décrire la relation entre une réponse Y et un ensemble de variables X1 , X2 , . . . , XP .

Au chapitre 2, nous avons constaté que ce modèle est généralement adapté en utilisant

les moindres carrés. Dans ce chapitre, nous abordons différentes approches pour amé-

liorer le modèle linéaire simple, en substituant l’ajustement des moindres carrés simples

par des méthodes d’ajustement alternatives.

Qu’est-ce qui pourrait nous inciter à utiliser une autre méthode d’ajustement plutôt que

de moindres carrés ? D’autres méthodes d’ajustement peuvent améliorer la précision de

prédiction et l’interprétabilité du modèle, comme nous le verrons.

La précision de la prédiction dépend de la relation approximativement linéaire entre

29
la réponse et les prédicteurs. Ainsi, les estimations des moindres carrés présenteront un

faible biais. Lorsque n est supérieur à p, c’est-à-dire lorsque le nombre d’observations est

beaucoup plus élevé que p,les estimations des moindres carrés ont également tendance

à avoir une faible variance, ce qui leur permettra de fonctionner correctement sur les

observations de test. Toutefois, si n n’est pas considérablement plus grand que p.

Par la suite, il est possible que l’ajustement des moindres carrés présente une grande

variabilité, ce qui peut conduire à un su-rajustement et donc à des prédictions erronées

sur les observations futures qui ne sont pas utilisées dans la construction du modèle. Si

p est supérieur à n, il n’existe plus qu’une seule estimation du coefficient des moindres

carrés : il existe une infinité de solutions. Chaque solution des moindres carrés entraîne

une erreur nulle sur les données d’apprentissage, mais généralement de très mauvaises

performances de l’ensemble des tests en raison d’une variance extrêmement élevée. En

restreignant ou en diminuant les coefficients estimés, il est souvent possible de dimi-

nuer considérablement la variance, même si cela entraîne une augmentation négligeable

du biais. Cela peut entraîner d’importantes améliorations de la précision avec laquelle

nous pouvons anticiper la réponse pour les observations qui ne sont pas utilisées dans

la construction du modèle.

• Interprétabilité des modèles : Un grand nombre de variables dans un modèle

de régression multiple ne sont pas liées à la réponse, ce qui entraîne une com-

plexité inutile. En supprimant ces variables, nous pouvons obtenir un modèle plus

facile à interpréter. Néanmoins, il est peu probable que même les plus petits carrés

puissent fournir des estimations précises du coefficient nul. Dans ce chapitre, on

examine différentes méthodes pour sélectionner automatiquement des caractéris-

tiques ou des variables, ou sélectionner des variables afin d’exclure des variables

non pertinentes d’un modèle de régression multiple.

30
• Sélection de Sous-ensemble : Cette méthode permet d’identifier une partie des

prédicteurs p liés à la réponse et d’ajuster un modèle en utilisant les meilleurs car-

rés sur un ensemble de variables réduit.

• Shrinkage : Cette approche implique l’ajustement d’un modèle impliquant tous

les prédicteurs p, réduisant les coefficients estimés à zéro par rapport aux esti-

mations des moindres carrés. Cette régularisation réduit la variance et peut être

effectuée avec des coefficients nuls exacts, permettant la sélection des variables

dans les méthodes de régression.

• Réduction de Dimension : Cette approche implique la projection de p prédic-

teurs dans une dimension-M sous-espace, où M < p, en calculant M de différentes

combinaisons linéaires de variables, puis à l’aide de ces projections comme des fac-

teurs prédictifs d’ajuster un modèle de régression linéaire en minimisant les places.

[6]

3.1 Sélection de Sous-ensemble

Dans cette section, nous examinons certaines méthodes de sélection de sous-ensembles

de prédicteurs. Celles-ci incluent les meilleures procédures de sélection de sous-ensembles

et de modèles par étapes.

3.1.1 Meilleure Sélection de Sous-Ensembles

Pour effectuer la meilleure sélection de sous-ensemble, nous ajustons un meilleur sous-

ensemble de régression des carrés les moins distincts pour chaque combinaison possible

31
de prédicteurs p. Cela signifie ajuster tous les modèles p qui contiennent exactement
p

un prédicteur, tous 2
= p(p − 1)/2 les modèles qui contiennent exactement deux

prédicteurs, puis examiner tous les résultats pour identifier le meilleur ajustement.

Le problème de la sélection du meilleur modèle parmi les possibilités 2p envisagées par

la sélection du meilleur sous-ensemble n’est pas anodin. Ceci est généralement divisé en

deux étapes, comme décrit dans l’algorithme (1)

Algorithm 1 Meilleure Sélection de Sous-Ensembles

1: Soit M0 le modèle nul, qui ne contient aucun prédicteur. Ce modèle prédit simple-
ment la moyenne de l’échantillon pour chaque observation.
2: Pour k = 1, 2, . . . , p :
p

(a) Convient à tous modèles contenant exactement k prédicteurs.
k
(b) Choisissez le meilleur parmi ceux-ci kp modèles, et appelez−le Mk . Voici le


meilleur est défini comme ayant le plus petit RSS, ou de manière équivalente
le plus grand R2 .
3: Sélectionnez un seul meilleur modèle parmi M0 , . . . , Mp en utilisant l’erreur de pré-
diction sur un ensemble de validation, Cp (AIC), BIC ou R2 ajusté. Ou utilisez la
méthode de validation croisée.

32
Dans l’algorithme (1) l’étape 2 identifie le meilleur modèle (sur les données d’entraî-

nement) pour chaque taille de sous-ensemble, afin de réduire le problème de l’un des

2p modèles possibles à l’un des p + 1 modèles possibles. Dans la figure 3.1, ces modèles

forment la frontière inférieure représentée en rouge. Maintenant, afin de sélectionner un

seul meilleur modèle, nous devons simplement choisir parmi les options sep p + 1. Cette

tâche doit être effectuée avec précaution, car le RSS de ces modèles p + 1 diminue de fa-

çon monotone et le R2 augmente monotone, à mesure que le nombre de fonctionnalités

incluses dans les modèles augmente. Par conséquent, si nous utilisons ces statistiques

pour sélectionner le meilleur modèle, nous aboutirons toujours à un modèle impliquant

toutes les variables. Le problème est qu’un RSS faible ou un R2 élevé indique un mo-

dèle avec une faible erreur d’apprentissage,alors que nous souhaitons choisir un modèle

qui a une faible erreur de test. Par conséquent, à l’étape 3, nous utilisons l’erreur sur un

ensemble de validation, Cp , BIC ou R2 ajusté afin de sélectionner parmi M0 , M1 , . . .,

Député. Si la validation croisée est utilisée pour sélectionner le meilleur modèle, l’étape

2 est répétée à chaque pli d’apprentissage et les erreurs de validation sont moyennées

pour sélectionner la meilleure valeur de k. Ensuite, l’ajustement du modèle Mk sur l’en-

semble d’entraînement complet est fourni pour le k choisi. Ces approches sont discutées

dans la subsection 3.2.[5]

33
Figure 3.1 – Analyse de la performance du Modèle en fonction du Nombre de prédicteurs

le graphe a gauche : Il montre la somme des carrés des résidus (Residual Sum of Squares,

RSS) en fonction du nombre de prédicteurs. L’axe des y représente le RSS, et l’axe des x

représente le nombre de prédicteurs. Les points bleus représentent les différentes valeurs

observées, et la ligne rouge indique la tendance.

le graphe a droit : Il montre le coefficient de détermination (R2 ) en fonction du nombre

de prédicteurs. L’axe des y représente R2 , et l’axe des x représente le nombre de prédic-

teurs. Les points bleus représentent les différentes valeurs observées, et la ligne rouge

indique la tendance.

3.1.2 Sélection Par Étapes

La meilleure sélection de sous-ensembles peut ne pas être applicable avec un grand p, car

il peut souffrir de problèmes statistiques. De grands espaces de recherche augmentent

les chances de trouver de bons modèles, mais peuvent entraîner une surestimation et

une forte variance des estimations des coefficients.

34
Sélection Progressive Vers L’avant

La sélection pas à pas vers l’avant est une alternative efficace en termes de calcul à la

meilleure sélection de sous-ensemble de sélection pas à pas vers l’avant. Alors que la

procédure de sélection du meilleur sous - ensemble considère tous les 2p modèles pos-

sibles contenant des sous-ensembles des p prédicteurs, la procédure progressive suivante

considère un ensemble de modèles beaucoup plus petit. La sélection progressive avancée

commence par un modèle ne contenant aucun prédicteur, puis ajoute des prédicteurs au

modèle, un à la fois, jusqu’à ce que tous les prédicteurs soient dans le modèle. En particu-

lier, à chaque étape, la variable qui apporte la plus grande amélioration supplémentaire

à l’ajustement est ajoutée au modèle. Plus formellement, la procédure de sélection pro-

gressive avancée est donnée dans l’algorithme (3.1.2)

Algorithm 2 Sélection progressive vers l’avant

1: Soit M0 désignez le modèle nul, qui ne contient aucun prédicteur.


2: Pour k = 0, . . . , p − 1 :

(a) Considérez tous les p − k modèles qui augmentent les prédicteurs en Mk avec
un prédicteur supplémentaire.
(b) Choisissez le meilleur parmi ces modèles p − k et appelez-le Mk + 1.Ici, le
meilleur est défini comme ayant le plus petit RSS ou le R2 le plus élevé
3: Sélectionnez un seul meilleur modèle parmi M0 , . . . , Mp en utilisant l’erreur de pré-
diction sur un ensemble de validation, Cp (AIC), BIC ou R2 ajusté. Ou utilisez la
méthode de validation croisée.

Contrairement à la sélection du meilleur sous-ensemble, qui impliquait l’ajustement de

modèles 2p, la sélection par étapes avancée implique l’ajustement d’un modèle nul, ainsi

que des modèles p − k dans la k ème itération, pour k = 0, . . . , p − 1.


Pp−1
Cela équivaut à un total de k=0 (p − k) = +p(p + 1)/2 modèles. Il s’agit d’une diffé-

rence substantielle : lorsque p = 20. À l’étape 2 (b) de l’algorithme 3.1.2, nous devons

identifier le meilleur modèle parmi ceux p − k qui augmentent Mk avec un prédicteur

supplémentaire. Nous pouvons le faire en choisissant simplement le modèle avec le RSS

35
le plus bas ou le R2 le plus élevé. Cependant, à l’étape 3, nous devons identifier le meilleur

modèle parmi un ensemble de modèles avec différents nombres de variables. C’est plus

difficile et est discuté dans la section 3.2. [5]

Sélection Pas à Pas Vers L’Arrière

Comme la sélection pas à pas vers l’avant, la sélection pas à pas vers l’arrière fournit

une sélection pas à pas vers l’arrière alternative efficace à la meilleure sélection de sous-

ensembles. Cependant, contrairement à la sélection progressive avancée, elle commence

par le modèle des moindres carrés complets contenant tous les prédicteurs possibles,

puis supprime de manière itérative le prédicteur le moins utile, un à la fois. Les détails

sont donnés dans l’algorithme (3.1.2).

Algorithm 3 Sélection pas à pas vers l’arrière

1: Soit Mp le modèle complet, qui contient tous les p prédicteurs.


2: Pour k = p , p − 1, . . . , 1 :

(a) Considérez tous les k modèles qui contiennent tous les prédicteurs sauf un
dans Mk , pour un total de k − 1 prédicteurs.
(b) Choisissez le meilleur parmi ces modèles k et appelez-le Mk −1. Ici, le meilleur
est défini comme ayant le plus petitRSS ou le plus grand R2 .
3: Sélectionnez un seul meilleur modèle parmi M0 , . . . , Mp en utilisant l’erreur de pré-
diction sur un ensemble de validation, Cp (AIC), BIC ou R2 ajusté. Ou utilisez la
méthode de validation croisée.

Comme la sélection par étapes vers l’avant, l’approche de sélection vers l’arrière ne re-

cherche que 1 + p(p + 1)/2 modèles, et peut donc être appliquée dans les paramètres

où p est trop grand pour appliquer la meilleure sélection de sous-ensemble.3.2 préfère

aussi avancer pas à pas sélection, la sélection par étapes en arrière n’est pas garantie de

produire le meilleur modèle contenant un sous-ensemble des p prédicteurs.

La sélection vers l’arrière nécessite que le nombre d’échantillons n soit supérieur au

nombre de variables p (afin que le modèle complet puisse être ajusté). En revanche, le

36
pas à pas en avant peut être utilisé même lorsquen < p, et est donc la seule méthode de

sous-ensemble viable lorsque p est très grand.

3.2 Choisir le Modèle Optimal

La sélection du meilleur sous-ensemble, ainsi que les méthodes de sélection en avant

et en arrière, permettent de créer une série de modèles avec différents sous-ensembles

de prédicteurs p. Pour appliquer ces méthodes, il est nécessaire de disposer d’un critère

permettant de déterminer quel modèle est le meilleur. Le modèle incluant tous les pré-

dicteurs aura toujours le RSS le plus bas et le R2 le plus élevé, car ces valeurs sont liées

à l’erreur d’apprentissage. Ainsi, RSS et R2 ne suffisent pas pour choisir le meilleur

modèle parmi une collection de modèles comportant différents prédicteurs.

Figure 3.2 – Évolution des performances des modèles de crédit en fonction du nombre
de prédicteurs : Cp (ou AIC), BIC et R2 ajustés[5]

3.2.1 Critère de AIC (Akaike Information Criterion (1973))

Il mesure la distance entre les densités de probabilité observées et estimées. Dans le cas

d’une estimation par les méthodes des moindres carrées, ce critère mesurera l’écart entre

les résidus et la distribution gaussienne, la fonction d’Akaike est donnée par :

 
SCR 2k
AIC = ln +
n n

37
3.2.2 Critère BIC (Bayesian Information Criterion (1977))

Akaïke (1977) a élaboré sous l’hypothèse gaussienne du processus du bruit blanc, le cri-

tère BIC (noté aussi SC (Scwartz Information Criterion)), la fonction de Schwarz est

donnée par :
 
SCR k ln(n)
BIC = SC = ln +
n n

avec :

ln : Logarithme népérien,

SCR : somme des carrée des résidus du modèle,

n : nombre d’observations,

k : nombre de variables explicatives.

3.2.3 Validation croisée

La validation croisée est probablement la méthode la plus simple et la plus couramment

utilisée pour estimer l’erreur de prédiction. Cette technique évalue directement l’erreur

de prédiction hors-échantillon attendue, Err = E[L(Y, fˆ(X))], c’est-à-dire l’erreur de

généralisation moyenne lorsque la méthode fˆ(X) est appliquée à un échantillon de test

indépendant, tiré de la distribution conjointe de X et Y .

Validation Croisée k-fold

Dans la validation croisée k-fold, les données sont divisées en k sous-ensembles (ou

"folds") de taille approximativement égale :

1. Division des Données : Les données sont divisées en k folds.

2. Entraînement et Test : Le modèle est entraîné sur k − 1 folds et testé sur le fold

restant.

38
3. Répétition : Le processus est répété k fois, chaque fold étant utilisé exactement

une fois comme ensemble de test.

4. Estimation de la Performance : La performance du modèle est estimée en moyen-

nant les résultats des k itérations.

L’avantage de cette méthode est qu’elle utilise l’intégralité des données pour l’entraîne-

ment et le test, ce qui donne une meilleure estimation de la performance du modèle.

3.3 la régression régularisée

3.3.1 Introduction

L’utilisation de la méthode des moindres carrés pour ajuster un modèle linéaire conte-

nant un sous-ensemble de prédicteurs est une technique de sélection de sous-ensembles,

comme décrit à la section 3.1. En complément, il est possible d’ajuster un modèle avec

tous les prédicteurs p en utilisant une méthode qui impose une contrainte ou régularise

les estimations des coefficients, ou, de manière équivalente, qui réduit ces estimations.

Bien que cela puisse sembler contre-intuitif, imposer une telle contrainte peut amélio-

rer l’ajustement en réduisant la variance des estimations des coefficients. La régression

ridge et le lasso sont les deux méthodes les plus couramment utilisées pour diminuer les

coefficients de régression vers zéro.

3.4 Pénalisation de la fonction de coût

La régression régularisée est une méthode qui ajoute une pénalisation à la fonction de

coût d’un modèle de régression pour éviter le surajustement et améliorer la généralisa-

tion du modèle. Les deux méthodes de régularisation les plus courantes sont la régression

39
Ridge et la régression Lasso.

3.4.1 Sur-entraînement et sous-entraînement

Figure 3.3 – Graphique de Sous-entraînement, Entraînement Correct et Sur-


entraînement

— le premier graphe montre un modèle de régression linéaire simple qui est trop

sous-ajusté aux données. L’erreur est élevée à la fois sur le jeu d’entraînement

et sur le jeu de test. Le modèle est trop simple pour capturer la complexité des

données.

— le deuxième graphe montre un modèle de régression qui est correctement ajusté

aux données. L’erreur est faible aussi bien sur le jeu d’entraînement que sur le jeu

de test. Le modèle capture bien la relation entre les variables sans sur-ajuster les

données.

— le dernier graphe montre un modèle de régression qui est trop ajusté aux données

d’entraînement, au point de capter le bruit. L’erreur sur le jeu d’entraînement est

nulle, mais l’erreur sur le jeu de test est moyenne à élevée. Ce modèle a une va-

riance élevée et une capacité de généralisation réduite.

40
3.5 Régression Ridge

la régression Ridge est employée lorsque le nombre de variables explicatives (p) est élevé

par rapport au nombre d’observations (n), ou lorsque les variables sont fortement liées

entre elles (multicolinéarité). Dans ces situations, elle évite l’instabilité et la faiblesse des

prédictions de la régression linéaire standard.

3.5.1 Estimation au ridge

L’estimation des coefficients du ridge est très proche de celle des moindres carrés, à la

différence que les coefficients du ridge sont calculés en minimisant une quantité légère-

ment variée. Plus précisément, les valeurs les moins importantes sont les estimations du

coefficient de régression du ridge de régression β Ridge , comme lorsque la méthode des

moindres carrés est appliquée à des données non orthogonales, de très mauvaises esti-

mations des coefficients de régression peuvent être obtenues. Nous avons vu à la section

2.2 que la variance de la méthode des moindres carrés des estimations :

n
X
minp (yi − x⊤ 2 2
i β) = minp ∥y − Xβ∥2
β∈R β∈R
i=1

Et s’écrit :

β̂ = (X⊤ X)−1 X⊤ y

sous l’hypothèse que X est de plein rang, Il sera pris en compte ici que les variables sont

centrées afin d’améliorer leur commodité et d’après la démonstration de yannig goude

[1] Dans la réalité, cet estimateur est inefficace :

— Si les x.j sont corrélées entre elles, X n’est pas de plein rang.

— Si p ≫ n

41
Dans ces cas X⊤ X doit être régularisée pour pouvoir être inversée et on ajoute une

pénalisation → ridge, lasso et elestic-net

On résout le problème :

( n )
X
min (yi − xi β)2 + λβ 2 (3.1)
β∈Rp
i=1

équivalent au problème suivant la dualité de Lagrange :

( n )
X
min (yi − xi β)2
β∈Rp
i=1 (3.2)
subject to ∥β∥2 ≤ t.

Remarque

— bijection entre t et λ

— les solution du problème ne sont pas invariante par changement d’échelle,usuellement

on standardise les variables avant.

— les variables sont centrées ( on ne pénalise pas la constante)

La régression ridge, qui utilise la norme ℓ2 , possède également la propriété de sélection

des variables. Cependant, elle se contente de diminuer l’effet de certaines variables sans

les contraindre à zéro. Cette caractéristique peut être déduite de la forme géométrique de

la fonction, qui décrit un cercle (ou une boule dans un espace de dimensions supérieures)

Figure (3.4).

l’estimateur des coefficients de la régression ridge est donnée par :

β̂ ridge = (X⊤ X + λI)−1 X⊤ Y (3.3)

42
Figure 3.4 – la forme géométriques de fonctions de régularisation de Ridage

C’est un estimateur biaisé β̂

E(β̂ ridge ) = (X⊤ X + λI)−1 X⊤ XE(β̂) = β − λ(X⊤ X + λI)−1 β (3.4)

Var(β̂ ridge ) = σ 2 (X⊤ X + λI)−1 X⊤ X(X⊤ X + λI)−1 (3.5)

On définit l’estimateur de régression linéaire régularisée comme suite :

( n )
X
β̂ reg = arg minp (yi − xi jβ)2 + αJ(β) (3.6)
β∈R
i=1

avec, α ≥ 0 est le coefficient de regularisation, et J(β) represente la fonction de regula-

risation de β. L’estimateur en utilisant la fonction de ridge est alors :

p
( n )
X X
β̂ Ridge = arg minp (yi − xi jβ)2 + α βj2 (3.7)
β∈R
i=1 j=1

43
3.6 Régression lasso

Dans le domaine de la régression linéaire, la régression LASSO (Least Absolute Shrinkage

and Selection Operator) est une technique de régularisation qui permet de choisir les

variables explicatives les plus pertinentes et d’améliorer la précision des prédictions.

3.6.1 définition

Dans le paramètre de régression linéaire, on nous donne N échantillons {(xi , yi )}N


i=1 ,

où chaque xi = (xi 1, . . . , xi p) est un vecteur p-dimensionnel de caractéristiques ou

de prédicteurs, et chaque yi ∈ R est la variable de réponse associée. Notre objectif est

d’approximer la variable de reponse yi utilisant une combinaison linéaire des prédicteurs.

p
X
η (xi ) = β0 + xij βj .
j=1

Le modèle est paramétré par le vecteur de poids de régression β = (β1 , . . . , βp ) ∈ Rp et

un terme d’interception (ou "biais") β0 ∈ R.

L’estimateur habituel des "moindres carrés" pour la paire(β0 , β) est basé sur la minimi-

sation de la perte d’erreur au carré :

 !2 
 1 X N p 
X
minimize yi − β0 − xij βj (3.8)
β0 ,β  2N 
i=1 j=1

Une alternative à l’estimation des moindres carrés a deux raisons : la précision de la pré-

diction, qui peut être améliorée en réduisant les coefficients de régression ou de mettre

44
certains coefficients à zéro, et la fin on identifier un plus petit sous-ensemble de prédic-

teurs qui présentent les effets les plus forts.

la méthode lasso combine la perte des moindres carrés avec une contrainte ℓ1 , pour en

mettre certains coefficients à zéro. Cette méthode fournit une méthode automatique pour

la sélection du modèle de régression linéaire, et le problème d’optimisation résultant est

convexe et peut être efficacement résolu pour les grands problèmes.

3.6.2 Estimation au Lasso

Étant donné une collection de N paires prédicteur-réponse {(xi , yi )}N


i=1 , le Lasso trouve

la solution (β̂0 , β̂) du problème d’optimisation

 !2 
 1 X N p 
X
minimize yi − β0 − xij βj
β0 ,β  2N 
i=1 j=1
(3.9)
p
X
sous la contrainte |βj | ≤ t.
j=1

Pp
La contrainte j=1 |βj | ≤ t peut être écrite de manière plus compacte sous la forme de

la contrainte de norme ℓ1 ∥β∥1 ≤ t. En outre, (3.8) est souvent représenté en utilisant la

notation matricielle. Soit y = (y1 , . . . , yN )T le vecteur des réponses, et X une matrice

N × p avec xi ∈ Rp dans sa i-ème ligne, alors le problème d’optimisation (3.9) peut être

réécrit sous la forme

 
1
minimize ∥y − β0 1 − Xβ∥22
β0 ,β 2N

sous la contrainte ∥β∥1 ≤ t,

où 1 est le vecteur de N unités, et ∥ · ∥2 désigne la norme euclidienne habituelle sur les

vecteurs.

45
Figure 3.5 – Comparaison des Méthodes de Régularisation : Lasso et Ridge

A gauche de la figure 3.5 on peut observer le chemin du coefficient pour le lasso, qui

est tracé en fonction de la norme ℓ1 du vecteur de coefficient, par rapport à la norme de

l’estimation des moindres carrés sans restriction β.À droite, la régression de ridge est

également représentée par rapport à la norme relative ℓ2 .

Problème similaire a ridge mais la pénalité ℓ2 de ridge est ici remplacée par une pénalité

en norme ℓ1 : la solution de ce problème n’est plus linéaire en y

Figure 3.6 – la forme géométriques de fonctions de régularisation de Lasso

La raison en est que la région des contraintes sous la norme ℓ1 est géométriquement

représentée par une carrée tourne (une polyédrique dans un espace plus de deux dimen-

46
sions) Figure (3.8). Ainsi, lorsque la solution est unique, la fonction objective s’applique

à la région des contraintes aux angles, ce qui explique la nullité de certaines variables. La

pénalité ℓ1 a comme propriété de ”tronquer” les coefficients faibles, donc de les mettre à

0. Cela permet une sorte de choix de modèle.

et d’après l’équation 3.6, λ ≥ 0 est le coefficient de régularisation, et J(β) représente la

fonction de régularisation de β. L’estimateur en utilisant la fonction de Lasso est alors :

p
( n )
X X
β̂ Lasso = arg minp (yi − xi jβ)2 + λ ∥βj | (3.10)
β∈R
i=1 j=1

3.6.3 ℓq Pénalités et estimations Bayésiennes

Pour un nombre réel fixe q ≥ 0, considérons le critère

p p
( N
)
1 X X
2
X
min (yi − xij βj ) + λ |βj |q (3.11)
β∈Rp 2N i=1 j=1 j=1

C’est le lasso pour q = 1 et régression de ridge pour q = 2.

Pp
Pour q = 0, le terme j=1 |βj |q compte le nombre d’éléments non nuls dans β, et donc

résout 3.11 équivaut à la sélection du meilleur sous-ensemble. La figure 3.7 affiche les

régions de contrainte correspondant à ces pénalités pour le cas de deux prédicteurs (p =

2). Les Deux

Figure 3.7 – Régions de contraintes pour différentes valeurs q dans les méthodes de
régularisation

Les méthodes de régression lasso et ridge de 3.11 sont similaires à la résolution de pro-

47
grammes convexes, ce qui les rend parfaitement adaptées aux problèmes complexes. La

sélection optimale des sous-ensembles entraîne un problème d’optimisation non convexe

et combinatoire, et il est généralement impossible de le faire avec plus de 40 prédicteurs.

3.7 Elastic-Net

Elastic-Net est une méthode de régularisation et de sélection de variables utilisée dans

les modèles de régression linéaire [4] . Elle établit un compromis entre les pénalités de

la régression Ridge et Lasso [8] ; il résout le programme convexe suivant :

( N  )
1X 1
min (yi − β0 − xTi β)2 + λ (1 − α)∥β∥22 + α∥β∥1 , (3.12)
β0 ,β∈R×Rp 2 i=1 2

où α ∈ [0, 1] est un paramètre qui peut être ajusté. Par construction, la pénalité appliquée

à un coefficient individuel (en négligeant le poids de régularisation λ > 0) est donnée

par

1
(1 − α)βj2 + α|βj |. (3.13)
2

Lorsque α = 1, cela revient à la norme ℓ1 ou à la pénalité Lasso, et lorsque α = 0, cela

revient à la norme ℓ2 au carré, correspondant à la pénalité Ridge.

Le problème Elastic Net 3.12 est convexe dans le couple (β0 , β) ∈ R × Rp , et une variété

d’algorithmes différents peuvent être utilisés pour le résoudre. La descente de coordon-

nées est particulièrement efficace, et les mises à jour sont une simple extension de celles

du Lasso abordées au Chapitre 2. Nous avons inclus une constante β0 non pénalisée dans

le modèle, qui peut être supprimée dès le départ ; il suffit de centrer les covariables xij , et

1
PN
ensuite l’intercept optimal est β̂0 = ȳ = N j=1 yj . Une fois β̂0 trouvé, il reste à calculer

48
le vecteur optimal β̂ = (β̂1 , . . . , β̂p ). Il peut être vérifié que la mise à jour par descente

de coordonnées pour le j ème

1
La partie 2
dans la partie quadratique de la pénalité Elastic Net 3.13 conduit à un opé-

rateur de seuillage plus intuitif dans l’optimisation.

Figure 3.8 – La boule élastique-réseau avec α = 0.7 (panneau de gauche) dans R3 , com-
parée à la boule ℓ1 (panneau de droite). Les contours incurvés encouragent les variables
fortement corrélées à partager des coefficients.

Le coefficient prend la forme :

P 
N
Sλα i=1 rij xij
β̂j = PN ,
i=1 x2ij + λ(1 − α)

où Sµ (z) := sign(z)(|z| − µ)+ est l’opérateur de seuillage doux, et

X
rij := yi − β̂0 − xik β̂k
k̸=j

est le résidu partiel. Nous effectuons des cycles sur les mises à jour jusqu’à convergence.

[3] donnent plus de détails et fournissent une implémentation efficace de la pénalité

élastique-réseau pour une variété de fonctions de perte.

49
Chapitre 4

Implémentation Pratique

4.1 Description des données

Hitters est un jeu de données provenant du package ISLR en R. Il renferme des données

sur les résultats des joueurs de baseball de la majeure. Voici une explication approfondie

des différentes variables de ce jeu de données et il est fréquent d’utiliser ce jeu de données

dans le domaine de l’apprentissage statistique et de la régression.

4.2 Description Générale

— Observations : 263 joueurs

— Variables : 20 variables

4.3 Variables du Jeu de Données

1. AtBat : Nombre de présences au bâton

2. Hits : Nombre de coups sûrs

50
3. HmRun : Nombre de coups de circuit

4. Runs : Nombre de points marqués

5. RBI : Nombre de points produits

6. Walks : Nombre de buts sur balles

7. Years : Nombre d’années dans la ligue

8. CAtBat : Nombre de présences au bâton au cours de la carrière

9. CHits : Nombre de coups sûrs au cours de la carrière

10. CHmRun : Nombre de coups de circuit au cours de la carrière

11. CRuns : Nombre de points marqués au cours de la carrière

12. CRBI : Nombre de points produits au cours de la carrière

13. CWalks : Nombre de buts sur balles au cours de la carrière

14. League : Ligue de l’équipe actuelle (A ou N)

15. Division : Division de l’équipe actuelle (E ou W)

16. PutOuts : Nombre de retraits défensifs effectués par un joueur de champ intérieur

17. Assists : Nombre d’assistances défensives effectuées par un joueur de champ in-

térieur

18. Errors : Nombre d’erreurs défensives

19. Salary : Salaire du joueur (en milliers de dollars)

20. NewLeague : Ligue de l’équipe à la fin de la saison (A ou N)

51
4.4 Pré-traitement des Données

Avant d’utiliser ce jeu de données, il est souvent nécessaire de :

— Gérer les Valeurs Manquantes :ce jeu de données ne contient pas des valeurs

manquante.

— Encoder les Variables Catégorielles :Les variables League, Division et New-

League doivent être encodées en variables numériques pour certaines techniques

de modélisation.

4.5 Sélection de Modèle Linéaire

Il arrive souvent que certaines ou plusieurs des variables utilisées dans un modèle de

régression multiple ne soient en fait pas associées à la variable de réponse. L’inclusion de

telles variables non pertinentes entraîne une complexité inutile dans le modèle résultant.

Malheureusement, filtrer et comparer manuellement les modèles de régression peut être

fastidieux. Heureusement, il existe plusieurs approches pour effectuer automatiquement

la sélection de caractéristiques ou la sélection de variables, c’est — à-dire pour identifier

les variables qui entraînent des résultats de régression supérieurs.

Ce code couvrira une approche traditionnelle connue sous le nom de sélection de modèle.

4.5.1 Exploite les données

Exploite principalement les données des frappeurs fournies par le package ISLR. Il s’agit

d’un ensemble de données qui contient le nombre de coups sûrs, de circuits, de points

produits et d’autres informations pour 263 joueurs de la ligue majeure de baseball.

52
Nous utiliserons également tidyverse pour la manipulation et la visualisation de don-

nées de base. Plus important encore, nous utiliserons le package leaps pour illustrer les

méthodes de sélection de sous-ensembles.

4.5.2 Meilleure Sélection de Sous-Ensembles (Best Subset Selec-

tion)

Illustrons cela avec nos données. Nous pouvons effectuer une recherche de sous-ensemble

optimal en utilisant la fonction regsubsets (faisant partie de la bibliothèque leaps),

qui identifie le meilleur modèle pour un nombre donné de k prédicteurs, où le meilleur

est quantifié en utilisant la somme des carrés des résidus (RSS). La syntaxe est la même

que pour la fonction lm. Par défaut, regsubsets ne rapporte que les résultats jus-

qu’au meilleur modèle à huit variables. Cependant, l’option nvmax peut être utilisée

pour retourner autant de variables que souhaité. Ici, nous ajustons un modèle jusqu’à 19

variables.

53
4.5.3 Interprétation des Résultats

Variable Forced in Forced out


AtBat FALSE FALSE
Hits FALSE FALSE
HmRun FALSE FALSE
Runs FALSE FALSE
RBI FALSE FALSE
Walks FALSE FALSE
Years FALSE FALSE
CAtBat FALSE FALSE
CHits FALSE FALSE
CHmRun FALSE FALSE
CRuns FALSE FALSE
CRBI FALSE FALSE
CWalks FALSE FALSE
LeagueN FALSE FALSE
DivisionW FALSE FALSE
PutOuts FALSE FALSE
Assists FALSE FALSE
Errors FALSE FALSE
NewLeagueN FALSE FALSE

Table 4.1 – 19 Variables (et intercept) avec des indicateurs d’entrée et de sortie forcés

’Forced in’ et ’Forced out’ : Ces colonnes montrent si des variables ont été forcées dans

ou hors du modèle. Dans ce cas, toutes les valeurs sont FALSE, ce qui signifie qu’aucune

contrainte n’a été appliquée pour inclure ou exclure spécifiquement des variables.
Variables AtBat Hits HmRun Runs RBI Walks Years CAtBat CHits CHmRun CRuns CRBI CWalks League Division PutOuts Assists Errors NewLeague
(1) "✓"
(1) "✓" "✓"
(1) "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"
(1) "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓" "✓"

Table 4.2 – Tableau des sélection des sous-ensembles (Best Subset)

— Lignes du Tableau : Chaque ligne correspond à un modèle avec un certain nombre

de variables prédictives (de 1 à 19).

54
— Colonnes du Tableau : Les colonnes listent les variables du dataset.

— Symboles ✓ et " : Un ✓ indique que la variable est incluse dans le modèle pour

cette taille de sous-ensemble. Un " signifie que la variable n’est pas incluse.

— ( 1 ) : Le nombre entre parenthèses indique le numéro du modèle pour cette

taille de sous-ensemble.

Ce tableau permet de voir quels modèles sont sélectionnés comme les meilleurs pour

chaque nombre de prédicteurs de 1 à 19. Par exemple :

— Pour un modèle à 1 variable (1 sous-ensemble) : Seule la variable CRBI est

incluse.

— Pour un modèle à 2 variables : Les variables Hits et CRBI sont incluses.

— Pour un modèle à 19 variables : Toutes les variables sont incluses dans le mo-

dèle.

La fonction regsubsets renvoie un objet de liste avec beaucoup d’informations. Au dé-

part, nous pouvons utiliser la commande summary pour évaluer le meilleur ensemble de

variables pour chaque taille de modèle. Ainsi, pour un modèle à 1 variable, nous voyons

que CRBI a un astérisque signalant qu’un modèle de régression avec Salaire ∼ CRBI

est le meilleur modèle à variable unique. Le meilleur modèle à 2 variables est Salary ∼

CRBI + Hits. Le meilleur modèle à 3 variables est Salaire ∼ CRBI + Hits + PutOuts.

Et ainsi de suite.

4.5.4 Sélection Par Étapes (Stepwise Selection)

Pour des raisons de calcul, la sélection du meilleur sous-ensemble ne peut pas être appli-

quée lorsque le nombre de variables prédictives p est important. La sélection du meilleur

sous-ensemble peut également souffrir de problèmes statistiques lorsque p est grand.

55
Plus l’espace de recherche est grand, plus les chances de trouver des modèles qui semblent

bons sur les données d’entraînement sont élevées, même s’ils n’ont peut-être aucun pou-

voir prédictif sur les données futures. Ainsi, un espace de recherche énorme peut entraî-

ner un surajustement et une forte variance des estimations des coefficients. Pour ces deux

raisons, les méthodes par étapes, qui explorent un ensemble de modèles beaucoup plus

restreint, sont des alternatives intéressantes à la meilleure sélection de sous-ensembles.

4.5.5 Avancer Pas à Pas (Forward Stepwise)

La sélection progressive avancée commence par un modèle ne contenant aucun prédic-

teur, puis ajoute des prédicteurs au modèle, un à la fois, jusqu’à ce que tous les prédic-

teurs soient dans le modèle. En particulier, à chaque étape, la variable qui apporte la plus

grande amélioration supplémentaire à l’ajustement est ajoutée au modèle.


N° AtBat Hits HmRun Runs RBI Walks Years CAtBat CHits CHmRun CRuns CRBI CWalks League Division PutOuts Assists Errors NewLeague
1 ✓
2 ✓ ✓
3 ✓ ✓ ✓
4 ✓ ✓ ✓ ✓
5 ✓ ✓ ✓ ✓ ✓
6 ✓ ✓ ✓ ✓ ✓ ✓
7 ✓ ✓ ✓ ✓ ✓ ✓
8 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
9 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
10 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
11 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
12 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
13 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
14 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
15 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
16 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
17 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
18 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
19 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓

Table 4.3 – Tableau des sélection des sous-ensembles (Forward)

La fonction regsubsets par la methode de forward renvoie un objet de liste avec beau-

coup d’informations. Au départ, nous pouvons utiliser la commande summary pour

évaluer le meilleur ensemble de variables pour chaque taille de modèle. Ainsi, pour un

modèle à 1 variable, nous voyons que CRBI a un astérisque signalant qu’un modèle de

régression avec Salaire ∼ CRBI est le meilleur modèle à variable unique. Le meilleur

modèle à 2 variables est Salary ∼ CRBI + Hits. Le meilleur modèle à 3 variables est

56
Salaire ∼ CRBI + Hits + PutOuts,on remarque si la même comme Best Subset Se-

lection mais les autres lignes sont différente .

4.5.6 Pas à Pas En Arrière (Backward Stepwise)

La sélection par étapes vers l’arrière constitue une alternative efficace à la sélection du

meilleur sous-ensemble. Cependant, contrairement à la sélection avancer pas à Pas (For-

ward stepwise), elle commence par le modèle des moindres carrés complets contenant

tous les prédicteurs p, puis supprime de manière itérative le prédicteur le moins utile,

un à la fois.
N° AtBat Hits HmRun Runs RBI Walks Years CAtBat CHits CHmRun CRuns CRBI CWalks League Division PutOuts Assists Errors NewLeague
1 ✓
2 ✓ ✓
3 ✓ ✓ ✓
4 ✓ ✓ ✓ ✓
5 ✓ ✓ ✓ ✓ ✓
6 ✓ ✓ ✓ ✓ ✓
7 ✓ ✓ ✓ ✓ ✓ ✓ ✓
8 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
9 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
10 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
11 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
12 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
13 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
14 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
15 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
16 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
17 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
18 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
19 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓

Table 4.4 – Tableau des sélection des sous-ensembles (Backword)

4.6 Comparaison des Modèles

Jusqu’à présent, j’ai illustré comment effectuer les meilleures procédures de sous-ensemble

et par étapes. Voyons maintenant comment comparer tous les modèles que ces approches

produisent afin d’identifier le meilleur modèle. Autrement dit, exécutons l’étape 3 des

algorithmes (??),(3.1.2) et (3.1.2) discutée dans chacun des processus en 3 étapes décrits

ci-dessus.

57
Afin de sélectionner le meilleur modèle en ce qui concerne l’erreur de test, nous devons

estimer cette erreur de test. Il existe deux approches communes :

— Nous pouvons indirectement estimer l’erreur de test en ajustant l’erreur d’appren-

tissage pour tenir compte du biais dû au surajustement.

— Nous pouvons estimer directement l’erreur de test, en utilisant soit une approche

d’ensemble de validation, soit une approche de validation croisée.

Nous examinons ces deux approches ci-dessous.

4.6.1 Estimation Indirecte de l’erreur de Test avec Cp , AIC , BIC ,

et R2 Ajusté

Cependant, un certain nombre de techniques pour ajuster l’erreur d’apprentissage pour

la taille du modèle sont disponibles. Ces approches peuvent être utilisées pour sélec-

tionner parmi un ensemble de modèles avec différents nombres de variables. Ceux-ci

incluent :
Statistique Objectif
Cp Minimiser
Akaike information criterion (AIC) Minimiser
Bayesian information criterion (BIC) Minimiser
ajusté R2 Maximiser
Table 4.5 – Modèle Sélection Critère

où d est le nombre de prédicteurs et σ 2 est une estimation de la variance de l’erreur

(e) associée à chaque mesure de réponse dans un modèle de régression. Chacune de ces

statistiques ajoute une pénalité au RSS d’entraînement afin de tenir compte du fait que

l’erreur d’entraînement a tendance à sous-estimer l’erreur de test. Clairement, la pénalité

augmente avec le nombre de prédicteurs dans le modèle.

Par conséquent, ces statistiques fournissent une estimation impartiale de l’erreur quadra-

tique moyenne (MSE) du test. Si nous exécutons notre modèle en utilisant une approche

58
de validation par apprentissage contre test, nous pouvons utiliser ces statistiques pour

déterminer le modèle préféré. Ces statistiques sont contenues dans le résultat fourni par

la fonction regsubsets. Extrayons ces informations et traçons-les.

Figure 4.1 – Graphique montrant l’évolution des trois statistiques (R2 ajusté, Cp de
Mallows, et BIC) en fonction du nombre de prédicteurs

Graphe du R2 ajusté

— Axe des x (predictors) : Nombre de prédicteurs dans le modèle, de 1 à 19.

— Axe des y (value) : Valeur du R2 ajusté.

— Interprétation :

— Le R2 ajusté augmente avec le nombre de prédicteurs, atteignant un maximum

vers 10 prédicteurs, puis se stabilise.

— Un R2 ajusté plus élevé indique une meilleure explication de la variance des

données par le modèle, ajusté pour le nombre de prédicteurs.

— Cependant, au-delà de 10 prédicteurs, l’ajout de plus de variables n’améliore

pas significativement le R2 ajusté, ce qui suggère un point de rendement dé-

croissant.

Graphe du BIC

59
— Axe des x (predictors) : Nombre de prédicteurs dans le modèle, de 1 à 19.

— Axe des y (value) : Valeur du BIC.

— Interprétation :

— Le BIC diminue initialement, atteignant un minimum autour de 4 prédicteurs,

puis augmente.

— Un BIC plus bas indique un meilleur modèle. Le BIC pénalise les modèles plus

complexes pour éviter le sur-ajustement.

— Le point le plus bas autour de 4 prédicteurs suggère que ce modèle équilibre

bien l’ajustement et la complexité.

Graphe du Cp

— Axe des x (predictors) : Nombre de prédicteurs dans le modèle, de 1 à 19.

— Axe des y (value) : Valeur du Cp.

— Interprétation :

— Le Cp diminue rapidement pour atteindre un minimum autour de 8 prédic-

teurs, puis augmente progressivement.

— Un Cp plus bas indique un meilleur modèle. Le Cp est utilisé pour sélec-

tionner les modèles qui minimisent l’erreur de prédiction tout en évitant les

modèles trop complexes.

— Le minimum autour de 8 prédicteurs suggère que ce modèle est le plus per-

formant selon ce critère.

Conclusion

— R2 ajusté montre que l’explication de la variance des données atteint un plateau

après environ 10 prédicteurs.

60
— BIC suggère que le modèle avec environ 4 prédicteurs offre un bon équilibre entre

précision et complexité.

— Cp indique que le modèle avec environ 8 prédicteurs est optimal.

which.max(results$adjr2)

[1] 10

which.min(results$bic)

[1] 4

which.min(results$cp)

[1] 8

Ici, nous voyons que nos résultats de R2 adjr2 ,BIC et Cp sont 0.6236763 , -124.62821 et

3.812789 identifient des modèles légèrement différents qui sont considérés comme les

meilleurs.

Nous pouvons comparer les variables et les coefficients que ces modèles incluent à l’aide

de la fonction coef.

# 10 variable modèle

Variable Intercept AtBat Hits Walks CAtBat CHits CHmRun CWalks League Division PutOuts

Coefficient -47.1651088 -1.3695666 6.3013473 4.5757613 -0.3118794 1.4799307 1.2971405 -0.5026157 -62.5613310 62.3548737 0.2527181

# 04 variable modèle

Variable Intercept Runs CAtBat CHits PutOuts

Coefficient -83.1199265 5.5530883 -0.4741822 2.0560595 0.3118252

# 08 variable modèle

61
Variable Intercept AtBat Hits Walks CAtBat CHits CHmRun CWalks PutOuts

Coefficient -59.2371674 -1.4744877 6.6802515 4.4777879 -0.3203862 1.5160882 1.1861142 -0.4714870 0.2748103

Nous pourrions effectuer le même processus en utilisant la sélection par étapes en avant

et en arrière et obtenir encore plus d’options pour des modèles optimaux. Par exemple, si

j’évalue l’optimum Cp pour les pas en avant et en arrière, nous voyons qu’ils suggèrent

qu’un modèle à 8 variables minimise la statistique Cp , similaire à la meilleure approche

de sous-ensemble ci-dessus.

> which.min(summary(forward)$cp)

[1] 8

> which.min(summary(backward)$cp)

[1] 8

Cependant, lorsque nous évaluons ces modèles, nous constatons que les 8 modèles de

variables incluent différents prédicteurs. Bien que tous les modèles incluent Au bâton,

les coups sûrs, les Marches, les marches et les retraits, il existe des variables uniques dans

chaque modèle.

Cela met en évidence deux conclusions importantes :

— Différentes procédures de sous-ensembles (meilleur sous-ensemble vs pas à pas

en avant vs pas à pas en arrière) identifieront probablement différents” meilleurs

" modèles.

— Différentes statistiques d’estimation des tests d’erreur indirecte (Cp , AIC, BIC et

R2 ajusté) identifieront probablement différents” meilleurs " modèles.

C’est pourquoi il est important de toujours effectuer une validation ; c’est-à-dire de tou-

jours estimer directement l’erreur de test soit en utilisant un ensemble de validation, soit

en utilisant une validation croisée

62
Variable Coefficient
Best Subset Selection (8 predictors)
(Intercept) -59.2371674
AtBat -1.4744877
Hits 6.6802515
Walks 4.4777879
CAtBat -0.3203862
CHits 1.5160882
CHmRun 1.1861142
CWalks -0.4714870
PutOuts 0.2748103
Forward Selection (8 predictors)
(Intercept) -48.6095756
AtBat -2.1421859
Hits 8.8914064
Walks 5.4283843
CRuns 0.8555089
CRBI 0.4866528
CWalks -0.9672115
League -64.1628445
PutOuts 0.2767328
Backward Selection (8 predictors)
(Intercept) -59.2371674
AtBat -1.4744877
Hits 6.6802515
Walks 4.4777879
CAtBat -0.3203862
CHits 1.5160882
CHmRun 1.1861142
CWalks -0.4714870
PutOuts 0.2748103

Table 4.6 – Coefficients des modèles Best Subset, Forward Selection et Backward Selec-
tion avec 8 prédicteurs

4.7 Estimation Directe De L’Erreur De Test

Nous calculons maintenant l’erreur de jeu de validation pour le meilleur modèle de

chaque taille de modèle. Nous créons d’abord une matrice de modèle à partir des don-

nées de test. Le modèle.la fonction matricielle est utilisée dans de nombreux packages

de régression pour construire une matrice " X " à partir de données.

Maintenant, nous pouvons parcourir chaque taille de modèle (c’est-à-dire 1 variable, 2

63
variables,. . ., 19 variables) et extraire les coefficients du meilleur modèle de cette taille,

les multiplier dans les colonnes appropriées de la matrice du modèle de test pour former

les prédictions, et calculer le test MSE.

Figure 4.2 – Graphique des erreurs de validation en fonction du nombre de prédicteurs

Ce graphique montre les erreurs de validation pour différents modèles de régression

linéaire avec un nombre variable de prédicteurs, allant de 1 à 19. Voici une interprétation

détaillée :

L’axe des X représente le nombre de prédicteurs inclus dans le modèle, allant de 1 à 19

et l’axe des Y représente les erreurs de validation (erreur quadratique moyenne, MSE)

pour les prédictions sur l’ensemble de test.

Comportement de l’erreur : L’erreur de validation augmente considérablement après

4 prédicteurs, puis diminue légèrement avant de se stabiliser. Cela peut indiquer un phé-

nomène de surajustement où l’ajout de trop de variables au modèle commence à nuire à

sa capacité de généralisation sur les nouvelles données.

64
Stabilisation de l’erreur : Après environ 6 prédicteurs, l’erreur de validation reste re-

lativement stable, montrant qu’ajouter plus de variables au modèle n’améliore pas signi-

ficativement les prédictions et peut même parfois les détériorer.

En résumé, ce graphique aide à identifier le nombre optimal de prédicteurs pour le mo-

dèle de régression, en minimisant l’erreur de prédiction sur l’ensemble de test, et évite

le surajustement en limitant la complexité du modèle.

Erreurs de Validation sur l’ensemble de test

On crée des données d’entraînement et de test. Et on effectue une sélection de sous-

ensembles sur l’ensemble d’entraînement, puis on calcule les erreurs de validation sur

l’ensemble de test pour différents modèles et on trace ce graphe.

Figure 4.3 – Graphique des erreurs de validation sur l’ensemble de test en fonction du
nombre de prédicteurs

Interprétation du Graphique des Erreurs de Validation sur l’ensemble de test

Le graphique montre les erreurs de validation sur l’ensemble de test pour différents mo-

dèles de régression linéaire avec un nombre variable de prédicteurs,qui est identique au

65
graphe des Erreurs de Validation donc on a les memes resultats

Erreurs de Validation Croisée Moyennes

On effectue une validation croisée sur les modèles de régression pour trouver le meilleur

modèle en termes d’erreur de validation.

Figure 4.4 – Graphique des erreurs de Validation Croisée Moyennes en fonction du


nombre de prédicteurs

Interprétation du Graphe des Erreurs de Validation Croisée Moyennes

Le graphe montre les erreurs de validation croisée moyennes en fonction du nombre de

prédicteurs utilisés dans les modèles

— La courbe montre comment l’erreur de validation croisée moyenne évolue en fonc-

tion du nombre de prédicteurs dans le modèle.

— Au début, avec un petit nombre de prédicteurs, l’erreur de validation croisée est

relativement élevée

— À mesure que le nombre de prédicteurs augmente, l’erreur de validation croisée

moyenne diminue, atteignant un minimum.

66
— Après avoir atteint ce minimum, l’erreur de validation croisée moyenne commence

à augmenter légèrement à nouveau, ou reste relativement constante.

1. Modèle optimal :

— Le modèle optimal est celui qui minimise l’erreur de validation croisée moyenne.

— Dans ce graphe, le modèle avec environ 11 prédicteurs semble avoir l’erreur

de validation croisée moyenne la plus faible.

2. Équilibre entre biais et variance :

— Un modèle avec trop peu de prédicteurs peut avoir un biais élevé, car il n’est

pas suffisamment complexe pour capturer les relations dans les données.

— Un modèle avec trop de prédicteurs peut avoir une variance élevée, car il

peut sur-ajuster les données d’entraînement et ne pas généraliser bien aux

nouvelles données.

— Le point où l’erreur de validation croisée moyenne est la plus faible repré-

sente un bon compromis entre biais et variance.

3. Sélection du modèle :

— Le but est de choisir un modèle qui se trouve autour du minimum de la courbe.

Dans ce cas, le modèle avec environ 11 prédicteurs est un bon candidat.

— Il est important de noter que la sélection du modèle basé sur la validation

croisée aide à assurer que le modèle choisi est le plus susceptible de bien

généraliser aux nouvelles données.

67
Coefficient du meilleur modèle :

Variable Intercept AtBat Hits Walks CAtBat CRuns CRBI CWalks LeagueN DivisionW PutOuts Assists

Coefficient 135.7512195 -2.1277482 6.9236994 5.6202755 -0.1389914 1.4553310 0.7852528 -0.8228559 43.1116152 -111.1460252 0.2894087 0.2688277

4.8 Régression régularisée a l’aide de la fonction glm-

net

4.8.1 Transformation des données en matrices de modèle

On transfère notre jeu de donne a une matrice et d’un data frame. Elle est souvent utilisée

pour convertir des facteurs en variables binaires (dummy variables) et pour normaliser

les données avant de les passer à des fonctions de modélisation qui nécessitent des ma-

trices numériques.

4.8.2 Régression de ridge

La technique de régularisation connue sous le nom de régression Ridge permet d’éviter le

surapprentissage en ajoutant une pénalisation des carrés des coefficients des variables.

Cette approche vise à réduire les coefficients sans les rendre nuls, ce qui donne lieu à

des modèles plus robustes sans supprimer totalement les variables. En d’autres termes,

la régression Ridge améliore la stabilité du modèle en réduisant la variance, ce qui est

particulièrement avantageux lorsque les variables prédictives sont nombreuses et poten-

tiellement associées.

N Df %Dev Lambda

01 19 0.00 272100

02 19 1.21 247900

68
03 19 1.32 225900

. . . .

. . . .

. . . .

99 19 60.12 30

100 19 60.30 27

Table 4.7: Résultats de la régression Ridge avec glmnet

Explication des Colonnes

— Df : Nombre de coefficients non nuls présents dans le modèle. Dans cette situation,

il reste toujours à 19, ce qui implique que tous les prédicteurs sont intégrés dans

le modèle pour chaque valeur de λ.

— Dev : Selon le modèle, le pourcentage de déviance est explicable. La déviance re-

présente une évaluation de la qualité de l’adaptation du modèle aux informations.

Un taux plus élevé suggère que le modèle permet une meilleure explication des

fluctuations dans les données.

— Lambda : Le coefficient de régularisation λ. L’augmentation de λ entraîne une

régularisation accrue, ce qui a un impact négatif sur les coefficients des prédicteurs

et peut entraîner des coefficients plus proches de zéro.

Interprétation des Lignes

Chaque ligne du tableau 4.7 correspond à une valeur spécifique de λ,Par exemple :

— Pour λ =272100, le modèle n’explique aucune déviance (Dev = 0.00) et tous les

19 prédicteurs sont inclus dans le modèle.

69
— À mesure que λ diminue, le pourcentage de déviance expliquée (Dev) augmente.

Par exemple, pour λ=72028, le modèle explique 24.89 % de la déviance.

— Quand λ continue à diminuer, la régularisation devient moins stricte et le modèle

explique de plus en plus la déviance jusqu’à atteindre un plateau.

4.8.3 Régression lasso

La technique de régularisation appelée régression Lasso (Least Absolute Shrinkage and

Selection Operator) permet de prévenir le surapprentissage en limitant les coefficients

des variables de manière à ce qu’ils deviennent exactement zéro, ce qui permet une sé-

lection automatique des variables.

N Df %Dev Lambda

01 0 0.00 272.100

02 1 6.51 247.900

03 1 11.92 225.900

. . . .

38 9 58.67 8.706

. . . .

75 18 62.83 0.278

76 18 62.83 0.254

Table 4.8: Résultats de la régression Lasso avec glmnet

Explication des Colonnes

— Df (Degrees of Freedom) : Indique le nombre de prédicteurs non nuls (c’est-à-

dire les coefficients non nuls) dans le modèle à chaque étape. Au fur et à mesure

70
que le lambda diminue, le nombre de coefficients non nuls (variables sélectionnées)

augmente.

— %Dev (Percentage of Deviance Explained) : Indique le pourcentage de la dé-

viance expliquée par le modèle à chaque valeur de lambda. C’est une mesure de la

qualité d’ajustement du modèle. Plus le pourcentage est élevé, meilleur est l’ajus-

tement du modèle.

— Lambda : Les valeurs de la pénalité lambda utilisées dans la régression Lasso. Le

lambda contrôle la régularisation : des valeurs plus élevées de lambda signifient

une régularisation plus forte (plus de pénalisation des coefficients), ce qui conduit

à des modèles plus simples avec moins de variables sélectionnées.

Interprétation des Lignes

Les lignes montrent les résultats pour différentes valeurs de lambda :

1. Première Ligne (Df = 0, %Dev = 0.00, Lambda = 272.100) :

— Aucun prédicteur n’est inclus dans le modèle (Df = 0).

— La déviance expliquée est de 0%, ce qui signifie que le modèle n’explique

aucune variance des données.

— Le lambda est très grand (272.100), ce qui pénalise fortement tous les coeffi-

cients, les réduisant tous à zéro.

2. La 38 ème ligne :

— À mesure que le lambda diminue, le nombre de prédicteurs non nuls (Df)

augmente.

— Le pourcentage de la déviance expliquée (%Dev) augmente également, ce qui

indique que le modèle explique de plus en plus de variance des données.

— Par exemple, lorsque le lambda est de 8.706, il y a 9 prédicteurs non nuls dans

71
le modèle, et la déviance expliquée est de 58.67%.

4.8.4 Régression Elestic-net

Elastic-Net est une technique de régression qui combine les paramètres du Lasso et de le

ridge, offrant un équilibre entre la sélection automatique des variables et la régularisa-

tion des coefficients. Il est particulièrement utile pour les variables importantes et corré-

latives, car il peut sélectionner des groupes de variables corrélées et offrir de meilleures

performances que le Lasso ou le ridge. En combinant les avantages des deux méthodes,

Elastic-Net peut réduire les coefficients à zéro pour une sélection efficace des variables

et régulariser les coefficients restants pour éviter le surapprentissage.

N Df %Dev Lambda

01. 0 0.00 544.20

02. 2 4.64 495.90

03. 2 9.19 451.80

. . . .

. . . .

20 8 52.80 92.92

. . . .

. . . .

77 18 62.83 0.46

78 18 62.83 0.42

Table 4.9: Résultats de la régression Elestic-net avec

glmnet

72
Explication des Colonnes

— Df (Degrees of Freedom) : Indique le nombre de prédicteurs non nuls (c’est-à-

dire les coefficients non nuls) dans le modèle à chaque étape. Au fur et à mesure

que le lambda diminue, le nombre de coefficients non nuls (variables sélectionnées)

augmente.

— %Dev (Percentage of Deviance Explained) : Indique le pourcentage de la dé-

viance expliquée par le modèle à chaque valeur de lambda. C’est une mesure de la

qualité d’ajustement du modèle. Plus le pourcentage est élevé, meilleur est l’ajus-

tement du modèle.

— Lambda : Les valeurs de la pénalité lambda utilisées dans la régression élastique

nette. Le lambda contrôle la régularisation : des valeurs plus élevées de lambda

signifient une régularisation plus forte (plus de pénalisation des coefficients), ce

qui conduit à des modèles plus simples avec moins de variables sélectionnées.

Explication des lignes

Les lignes montrent les valeurs de Df, %Dev et Lambda pour différentes étapes de l’ajus-

tement du modèle :

— Au début (ligne 1) :

— Df est de 0, ce qui signifie qu’aucun prédicteur n’est inclus dans le modèle.

— %Dev est de 0, donc aucune déviance n’est expliquée par le modèle à ce stade.

— Lambda est de 544.20, indiquant une régularisation très forte.

— Lignes suivantes :

— Df augmente progressivement à mesure que le lambda diminue, indiquant

l’ajout de plus de variables prédictives dans le modèle.

73
— %Dev augmente également à chaque étape, indiquant que le modèle explique

de plus en plus de la déviance des données. Par exemple, à la ligne 20, avec

un lambda de 92.92, 52.80% de la déviance est expliquée par le modèle.

— Lambda diminue progressivement, signifiant une réduction de la régularisa-

tion, ce qui permet à plus de coefficients de devenir non nuls.

— Vers la fin (ligne 78) :

— Df est de 18, ce qui signifie que 18 prédicteurs sont inclus dans le modèle.

— %Dev est de 62.83, donc environ 62.83% de la déviance est expliquée par le

modèle.

— Lambda est de 0.42, indiquant une régularisation très faible à ce stade.

4.8.5 la validation croisée d’une régression lasso , Ridge et Elestic-

net :

Pour évaluer et comparer les performances des modèles de régression régularisée Ridge,

Lasso et Elastic-Net, nous avons calculé plusieurs métriques pour les valeurs optimales

de λ (lambda min) et pour les valeurs de λ correspondant à une erreur standard de la

valeur optimale (lambda 1se).

Le tableau présente les détails de validation d’une régression Lasso, Ridge et Elestic-net

en utilisant la fonction textbfcv.glmnet de la bibliothèque textbfglmnet dans R.

— Lambda : La valeur de régularisation (lambda) testée.

— Index : L’indice correspondant à cette valeur de lambda dans la séquence de lamb-

das testés.

— Measure : La valeur de l’erreur quadratique moyenne (MSE) associée à cette valeur

de lambda.

74
— SE : L’erreur standard de la MSE.

— Nonzero : Le nombre de coefficients non nuls dans le modèle pour cette valeur de

lambda.

Lambda Index Measure (MSE) SE Nonzero


min 27.2 100 95329 18198 19
1se 1354.4 58 112652 20008 19
Table 4.10 – Résultats de la validation croisée pour la régression Ridge

En ce qui concerne la régression Ridge (α = 0), le modèle à la valeur de λ minimale

(27.2) a une erreur quadratique moyenne (MSE) de 95329 avec un écart type (SE) de 18198,

incluant 19 coefficients non nuls. Lorsque λ est augmenté à 1354.4, la MSE augmente à

112652 avec un SE de 20008, tout en maintenant 19 coefficients non nuls.

Lambda Index Measure (MSE) SE Nonzero


min 7.23 40 92827 16300 9
1se 73.98 15 107347 21903 4
Table 4.11 – Résultats de la validation croisée pour la régression Lasso

Pour la régression Lasso (α = 1), le modèle avec λ minimal (7.23) a une MSE de 92827 et

un SE de 16300, avec seulement 9 coefficients non nuls. Avec λ à 73.98, la MSE augmente

à 107347 avec un SE de 21903, et le nombre de coefficients non nuls diminue à 4, indiquant

une sélection plus agressive des variables.

Lambda Index Measure (MSE) SE Nonzero


min 13.17 41 100603 11781 9
1se 111.92 18 111094 14900 8
Table 4.12 – Résultats de la validation croisée pour la régression Elastic-Net

Enfin, pour la régression Elastic-Net (α = 0.5), le modèle avec λ minimal (13.17) a une

MSE de 100603 avec un SE de 11781, incluant 9 coefficients non nuls. Pour λ à 111.92, la

MSE est de 111094 avec un SE de 14900 et 8 coefficients non nuls.

Ces résultats montrent que la régression Lasso tend à produire des modèles plus simples

avec moins de coefficients non nuls, tandis que la régression Ridge maintient la plupart

75
des coefficients. La régression Elastic-Net, qui combine les caractéristiques de Ridge et

Lasso, offre un compromis entre la réduction de l’ampleur des coefficients et la sélection

des variables.

Figure 4.5 – Résultats de la validation croisée pour une régression Lasso,Ridge et Elestic-
net à l’aide de la fonction cv.glmnet

En utilisant la fonction cv.glmnet de la bibliothèque glmnet en R, ces graphes illustrent

les résultats de la validation croisée pour trois types de régularisation : Lasso, Ridge et

Elastic Net.

1. Graphe Lasso (à gauche) :

— Comportement de l’erreur : La MSE diminue d’abord lorsque lambda di-

minue, puis augmente lorsque lambda devient très faible.

— Sélection de lambda : Il y a une proximité entre lambda.min et lambda.1se,

ce qui indique qu’un modèle simple avec un nombre limité de variables peut

être pratiquement aussi efficace qu’un modèle plus grand.

— Nombre de variables non nulles : Le Lasso réduit le nombre de variables

utilisées dans le modèle à des valeurs plus petites de lambda en forcent cer-

tains coefficients à zéro.

2. Graphe Ridge (au milieu) :

76
— Comportement de l’erreur : La MSE augmente avec l’augmentation de

lambda. Le comportement est plus lisse comparé au Lasso.

— Sélection de lambda : lambda.min et lambda.1se montrent que le Ridge ne

sélectionne pas de variables en forçant les coefficients à zéro mais régularise

tous les coefficients.

— Nombre de variables non nulles : Restent constants à 19, ce qui est attendu

dans la régression Ridge où tous les coefficients sont régularisés mais non

réduits à zéro.

3. Graphe Elastic Net (à droite) :

— Comportement de l’erreur : La MSE suit une tendance similaire à celle du

Lasso et du Ridge, initialement plate, puis augmentant avec la diminution ou

l’augmentation excessive de lambda.

— Sélection de lambda : lambda.min et lambda.1se sont également proches,

comme dans le cas du Lasso, suggérant une régularisation qui permet de sé-

lectionner un sous-ensemble de variables.

— Nombre de variables non nulles : Varie entre les modèles Ridge et Lasso,

car Elastic Net combine les propriétés des deux régularisations.

Ces graphiques offrent une représentation visuelle de l’influence des diverses formes de

régularisation sur la prédiction des performances d’un modèle (MSE) et la sélection des

variables (nombre de coefficients non nuls). Leur rôle consiste à sélectionner le type de

régularisation approprié et les valeurs optimales de lambda afin d’obtenir un modèle qui

équilibre efficacement le biais et la variance.

La MSE moyenne obtenue pour une valeur spécifique de lambda lors de la validation

croisée est indiquée par des points rouges de 4.5.

Les barres grises d’erreur : Descriptif de l’erreur standard liée à chaque point de MSE.

77
Elles illustrent comment l’estimation de la MSE varie selon chaque valeur de lambda.

Graphique des prédictions

Les graphes montrent la comparaison des valeurs réelles (True Values) et des valeurs

prédites (Predicted Values) pour trois types de modèles de régression : Ridge, Lasso, et

Elastic-Net. Voici l’interprétation détaillée de chaque graphique :

Figure 4.6 – Graphique des prédictions

Le premier graphique montre les prédictions du modèle Ridge. La ligne noire y = x

représente l’idéal où les valeurs prédites sont exactement égales aux valeurs réelles. Les

points bleus représentent les prédictions du modèle Ridge et se regroupent autour de la

ligne y = x, indiquant une bonne précision globale des prédictions. Toutefois, quelques

points s’éloignent de la ligne, ce qui montre des erreurs de prédiction.

Le deuxième graphique montre les prédictions du modèle Lasso. Les points verts re-

présentent les prédictions du modèle. Comme pour la régression Ridge, la majorité des

points se regroupent autour de la ligne y = x, montrant une bonne précision des pré-

dictions. Cependant, il semble y avoir un peu plus de dispersion comparée au modèle

78
Ridge, suggérant que le Lasso peut avoir une performance légèrement inférieure pour ce

dataset spécifique.

Le troisième graphique montre les prédictions du modèle Elastic-Net. Les points rouges

représentent les prédictions du modèle, avec la distribution des points similaire à celle

des deux autres modèles (Ridge et Lasso), la majorité se regroupant autour de la ligne y =

x. Cependant, il y a une légère dispersion supplémentaire, indiquant que l’Elastic-Net

peut avoir une performance légèrement inférieure ou comparable aux autres modèles

pour ce dataset spécifique.

Résumé des Performances

Les trois graphiques montrent que tous les modèles (Ridge, Lasso, et Elastic-Net) ont

une performance raisonnablement bonne, avec la majorité des prédictions proches des

valeurs réelles. Cependant, il y a des variations :

— Ridge : A une bonne précision globale, avec quelques points de prédiction éloi-

gnés.

— Lasso : A une performance comparable à Ridge mais montre un peu plus de dis-

persion.

— Elastic-Net : A une performance similaire mais montre une légère tendance à

avoir plus de dispersion, suggérant qu’il peut être moins précis que Ridge pour ce

dataset spécifique.

79
Figure 4.7 – Erreur quadratique moyenne pour chaque modèle

Graphique des prédictions :

Interprétation

Les modèles de régression Ridge, Lasso et Elastic-Net montrent tous des performances

raisonnablement bonnes pour prédire les valeurs réelles. La régression Ridge semble

avoir une légère supériorité en termes de précision, suivie de près par le Lasso et l’Elastic-

Net. Pour une application pratique, le choix entre ces modèles pourrait dépendre de la

spécificité des données et des critères de sélection de modèle, comme l’importance de la

régularisation ou la gestion de la colinéarité entre les prédicteurs.

Graphiques de Régression Régularisée

Interprétation : Les graphiques ci-dessous montrent comment les coefficients des mo-

dèles de régression Ridge, Lasso et Elastic-Net évoluent en fonction de la valeur du pa-

ramètre de régularisation λ (représenté sur une échelle logarithmique).

80
Figure 4.8 – Coefficients de Régression en fonction de log(λ) pour Ridge, Lasso, et
Elastic-Net

La régression Ridge est illustrée par un graphique où l’axe des x représente log(λ) et

l’axe des y les coefficients des variables. Chaque ligne correspond à un coefficient associé

à une variable du modèle. À mesure que λ augmente, les coefficients tendent vers zéro

sans jamais devenir exactement nuls. Cela montre que la régression Ridge applique une

régularisation L2, réduisant l’ampleur des coefficients sans les annuler complètement.

Le graphique démontre une diminution progressive de la valeur absolue des coefficients

avec l’augmentation de λ, ce qui indique une régularisation croissante.

La régression Lasso est représentée par un graphique où l’axe des x montre log(λ)

et l’axe des y les coefficients des variables. Chaque ligne correspond à un coefficient

associé à une variable du modèle. À mesure que λ augmente, certains coefficients de-

viennent exactement nuls, illustrant que la régression Lasso applique une régularisation

L1, capable de sélectionner des variables en annulant certains coefficients. On observe

des segments où les coefficients restent à zéro pour certaines valeurs de λ, indiquant que

81
ces variables ont été exclues du modèle à ces niveaux de λ.

La régression Elastic-Net est illustrée par un graphique où l’axe des x représente

log(λ) et l’axe des y les coefficients des variables, chaque ligne correspondant à un co-

efficient associé à une variable du modèle. Ce modèle combine les pénalisations L1 et

L2, donc on observe des coefficients qui tendent vers zéro sans s’annuler complètement,

comme dans la régression Ridge, ainsi que des coefficients qui deviennent exactement

nuls, comme dans la régression Lasso. Le graphique montre une transition entre les com-

portements observés dans les graphiques de Ridge et Lasso, offrant à la fois une régula-

risation et une sélection de variables.

Actual Linear Ridge (s1) Lasso (s1.1) Elastic-Net (s1.2)


480 823.38150 735.109401 705.87263 686.99016
500 1111.02206 1000.743771 981.78999 983.94673
70 204.14018 149.838968 104.02833 109.21557
75 14.73669 4.440978 25.93828 56.00679
1100 612.04842 771.118356 769.49297 790.25075
100 292.14290 344.282428 325.66035 358.88972
Table 4.13 – Tableau des valeurs réelles et prédites pour différents modèles

Interprétation

— Actual : Cette colonne représente les valeurs réelles des salaires (Salary) dans le

jeu de données de test.

— s1 (Ridge) : Cette colonne contient les valeurs prédites par le modèle de régression

Ridge.

— s1.1 (Lasso) : Cette colonne contient les valeurs prédites par le modèle de régres-

sion Lasso.

— s1.2 (Elastic-Net) : Cette colonne contient les valeurs prédites par le modèle de

régression Elastic-Net.

Pour chaque ligne du tableau :

82
Première ligne : On observe que les trois modèles prédisent des valeurs assez différentes

de la valeur réelle. Le modèle Ridge prédit la valeur la plus éloignée (735.109401), tandis

que le modèle Elastic-Net prédit une valeur un peu plus proche (686.99016), mais toujours

loin de la valeur réelle.

Deuxième ligne : Les trois modèles prédisent des valeurs beaucoup plus élevées que la

valeur réelle. Les prédictions de Ridge et Elastic-Net sont très similaires (autour de 1000),

ce qui montre une surestimation significative.

Troisième ligne : Les valeurs prédites par les trois modèles sont toutes supérieures à la

valeur réelle. La prédiction Ridge est la plus élevée (149.838968), tandis que les prédic-

tions Lasso et Elastic-Net sont plus proches de la valeur réelle, mais toujours surestimées.

Quatrième ligne : Dans ce cas, les modèles sous-estiment la valeur réelle. Le modèle

Ridge a la plus grande sous-estimation (4.440978), tandis que le modèle Elastic-Net est

le plus proche (56.00679), mais encore en dessous de la valeur réelle.

Cinquième ligne : Les trois modèles sous-estiment la valeur réelle. Les prédictions de

Ridge et Lasso sont très similaires et les plus éloignées de la valeur réelle, alors que

Elastic-Net donne une estimation légèrement plus proche.

Sixième ligne : Les trois modèles surestiment la valeur réelle de manière significative.

Les prédictions de Ridge et Elastic-Net sont les plus élevées.

Ces résultats montrent que les modèles de régression Ridge, Lasso et Elastic-Net ont

des variations dans leurs prédictions et peuvent soit surestimer, soit sous-estimer les va-

leurs réelles des salaires. Les performances des modèles peuvent varier en fonction de

l’observation spécifique. Une évaluation globale des erreurs (telles que l’erreur quadra-

tique moyenne) sur l’ensemble des données de test serait nécessaire pour déterminer

quel modèle est le plus performant globalement.

83
Chapitre 5

Conclusion générale

Ce mémoire a examiné l’utilisation des méthodes de régression linéaire et de sélection

de modèles sur les données de performance des joueurs de baseball du jeu de données

Hitters. Les techniques de régularisation telles que le Lasso, Ridge et l’Elastic Net ont

amélioré la précision des prédictions en éliminant les variables non pertinentes et en

réduisant le sur-ajustement. Le Lasso a obtenu la meilleure performance avec une MSE

de 92827 en sélectionnant seulement 9 prédicteurs, contrairement à la régression Ridge

et l’Elastic Net qui ont choisi plus de variables avec une MSE plus élevée. Ces résultats

soulignent l’importance de la sélection de modèles pour obtenir des modèles précis et

interprétables, mettant en avant l’efficacité des techniques de régularisation dans les

analyses de régression linéaire complexes.

84
Bibliographie

[1] Morgan Gautherot. Tout savoir sur la régression pénalisée. 2022.

[2] Christophe Chesneau. “Sur l’Estimateur du Maximum de Vraisemblance (emv)”.

In : (2017).

[3] Jerome Friedman, Trevor Hastie et Robert Tibshirani. “Regularization paths for

generalized linear models via coordinate descent”. In : Journal of Statistical Software

33.1 (2010), p. 1-22.

[4] Trevor Hastie, Robert Tibshirani et Martin Wainwright. Statistical Learning

with Sparsity : The Lasso and Generalizations. CRC Press, 2015.

[5] Gareth James et al. An Introduction to Statistical Learning with Applications in R,

Second Edition. 2023.

[6] Douglas C. Montgomery, Elizabeth A. Peck et G. Geoffery Vining. Introduction to

Linear Regression Analysis. A John Wiley & Sons, Inc., Publication, 2012.

[7] Gilbert Saporta. Probabilités, analyse des données et statistique. Editions technip,

2006.

[8] Hui Zou et Trevor Hastie. “Regularization and variable selection via the elastic

net”. In : Journal of the Royal Statistical Society : Series B (Statistical Methodology)

(2005).

85

Vous aimerez peut-être aussi

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy