Cours Économétrie Licence3 2023

Ministère de l’Enseignement Supérieur République de Côte d’Ivoire
et de la Recherche Scientifique Union- Discipline- Travail
Université Peleforo Gon Coulibaly de Korhogo

UFR des Sciences Sociales
Département d’Economie Année 2022-2023
Initiation à l’Econométrie
Licence 3 Economie & gestion
Dr COULIBALY Daouda,
Cel : 0757983454/0505 90 70 11
Email : coulydaouda@gmail.com
UNIVERSITE PELEFORO GON COULIBALY
INTRODUCTION A L’ECONOMETRIE
LICENCE 3 ECONOMIE & GESTION
INTRODUCTION
L’économétrie est donc une discipline autonome recourant à la théorie économique, à la formulation
mathématique, à l’analyse statistique et à l’informatique. Dans le mot « économétrie » il y a « métrie »
qui signifie mesurage c’est-à-dire de mesurer une surface, une longueur, un volume, etc… L’on peut
de ce fait définir d’une manière générale l’économétrie comme un processus qui consiste à évaluer
quantitativement l’économie à travers l’utilisation et l’analyse des données créées par un système de
relations qui sont le plus souvent stochastiques, dynamiques et simultanées. L’un des objectifs des
études économétriques est alors d’expliquer le système ou de vérifier les relations afin de tester la
cohérence entre la théorie économique et le comportement des variables observées.
Une fois que les relations ainsi identifiées sont consolidées par les résultats obtenus, l’économiste
s’en servira pour expliquer et prédire le comportement de certains phénomènes économiques. Les
résultats économétriques peuvent nous offrir également l’occasion de choisir entre une politique
économique existante et une politique alternative avec tout ce que cela comporte comme effets
associés à ladite politique (effets principaux et secondaires ; effets d’ajustement etc.).
Bien que s’érigeant quelques fois en théoricien de la statistique à travers l’application des techniques
appropriées pour résoudre les problèmes caractéristiques aux Sciences Economiques, l’économètre
se distingue fondamentalement du statisticien parce qu’il se préoccupe des problèmes causés par la
non vérification des hypothèses statistiques. En effet, de par la nature des relations économiques, ces
hypothèses sont rarement respectées.
1. LA METHODOLOGIE GENERALE DE LA RECHERCHE ECONOMIQUE

MODERNE
La méthodologie générale se résume en quatre étapes :
Modèles Validation Applications

Collecte de
théoriques empirique/
données
économiques inférence
Etape 1 : Collecte des données et résumé des faits stylisés empiriques

Les données collectées peuvent être des données de : sondage, études de terrain, agences
gouvernementales, économie expérimentale, grandes données (big data).
Les faits dits stylisés sont souvent résumés à partir de données économiques
observées.
Exemple 1 : La courbe d’Engels en microéconomie

La part des dépenses alimentaires d’un consommateur dans son revenu total varie à mesure que le
revenu change.
Dr Coulibaly Daouda, UPGC, UFR des Sciences Sociales, Département d’Economie

CEL : (+225) 05907011 Email : coulydaouda@gmail.com 1
Exemple 2 : La courbe de Phillips en macroéconomie

Elle traduit une corrélation négative entre le taux d’inflation et le taux de chômage dans une économie
agrégée.
Exemple 3 : Les clusters (paquets) de volatilité en finance

Une forte volatilité aujourd’hui a tendance à être suivie d'une autre forte volatilité demain, une faible
volatilité aujourd'hui tend à être suivie d'une autre faible volatilité demain, et les deux alternent dans
le temps.

On notera que les faits stylisés empiriques servent comme point de départ à la recherche
économique.
Etape 2 : Développement des modèles (théories) économiques
 Avec les faits stylisés empiriques à l'esprit, les économistes développent alors une théorie
économique ou modèle.
 Cela nécessite généralement de spécifier un modèle mathématique de la théorie économique.
 Un exemple est l'équation d'Euler des anticipations rationnelles en macroéconomie.
 L'objectif de la modélisation économique n'est pas simplement d’expliquer les faits stylisés,
mais aussi pour comprendre le mécanisme économique.
Etape 3 : Validation empirique/inférence des modèles économiques

 Une clé est de transformer un modèle économique en un modèle économétrique empirique
testable.
 Il faut souvent assumer une forme fonctionnelle, jusqu'à certains paramètres inconnus du
modèle, ou à choisir des variables instrumentales appropriées pour former un ensemble de
conditions de moment.
 L’on doit estimer les paramètres inconnus du modèle et faire des tests statistiques basés sur
les données observées.
 Vérifiez si le modèle économétrique est adéquat. Un modèle adéquat devrait être au moins
compatible avec les faits stylisés empiriques.
Etape 4 : Applications
Une fois qu'un modèle économétrique passe l'évaluation empirique, il peut ensuite être utilisé pour :
 Expliquer des faits stylisés importants
 Tester la théorie économique et/ ou des hypothèses
 Prédire l’évolution future de l’économie
 Evaluer les politiques et autres applications

2. LES AXIOMES FONDAMENTAUX DE L’ECONOMETRIE

L’économétrie moderne repose essentiellement sur les axiomes fondamentaux suivants :
 Une économie peut être vue comme un processus stochastique guidé par une loi de probabilité.
 Un phénomène économique, souvent résumé sous forme de données, peut être examiné
comme une réalisation de ce processus stochastique de génération de données (stochastic data
generating process, DGP).
Remarques :
 L'économie moderne est pleine d'incertitude, par exemple, l’incertitude du marché (demande,
offre et prix), l’incertitude politique.
 La loi de probabilité de ce système économique stochastique caractérise l'évolution de
l'économie, et peut être considérée comme la « loi des mouvements économiques ».
L’objectif de l’économétrie
L’objectif de l’économétrie est de :
 déduire la loi de probabilité du système économique stochastique basé sur les données
observées, puis utilisez la loi de probabilité déduite pour les applications économiques.
 Par exemple, la théorie économique impose généralement certaines restrictions à la loi de
probabilité. Ainsi, on peut tester la théorie économique ou les hypothèses économiques en
vérifiant la validité de ces restrictions.
Les outils et les méthodes de probabilité et de statistiques fourniront les principes de fonctionnement
de l’économétrie. Par exemple, on aura la démarche suivante :
Spécification Estimation des Test Validation

du modèle paramètres d’hypothèses du modèle
L'économétrie n'est pas une simple application d'une théorie générale de la statistique mathématique
aux données économiques. Ragnar Frisch (1933) le résume ainsi :
« L'économétrie n'est en aucun cas la même chose que les statistiques économiques. Elle n'est
pas identique à ce que nous appelons la théorie économique générale, bien qu'une partie considérable
de cette théorie a un caractère nettement quantitatif. Elle ne devrait pas non plus être considérée
comme synonyme de l’application des mathématiques à l'économie.
L'expérience a montré que chacun de ces trois points de vue, celui de la statistique, de la théorie
économique, et des mathématiques, est une condition nécessaire, mais pas par lui-même une
condition suffisante pour une réelle compréhension des relations quantitatives dans la vie de
l'économie moderne. C'est l'unification des trois qui est puissant. Et c'est cette unification qui
constitue l'économétrie ».
Entre autres choses, l’économétrie peut jouer les rôles suivants en économie :
 Examiner dans quelle mesure une théorie économique peut expliquer l’historique des données
économiques (en particulier l’importance des faits stylisés empiriques);
 Tester la validité des théories économiques et des hypothèses;

 Prédire l'évolution future de l'économie ;

 Recommander des stratégies d’affaires et évaluer des politiques économiques.
Pour apprécier les rôles de l'économétrie moderne dans l'analyse économique, nous allons discuter
d'un certain nombre d'exemples économétriques dans divers domaines de l'économie et de la finance.
3. EXEMPLES ILLUSTRATIFS
Exemple 1 : Modèle simple keynésien
Le modèle se présente comme suit :
avec
Yt, le revenu national, Ct= la consommation privée, It = l’investissement privé, Gt = les dépenses
gouvernementales et εt le terme aléatoire (variable résiduelle) (chocs de la consommation ici).
Les paramètres α et β ont des interprétations économiques :

α : niveau de consommation de survie (consommation autonome ou incompressible)
β : propension marginale à consommer du revenu (PmC)
Le multiplicateur des dépenses publiques est donné comme suit :
lequel dépend de la propension marginale à consommer du revenu β.

Pour évaluer l’effet des politiques budgétaires sur l’économie, il est important de connaître la valeur
de β.
Exemple 2 : fonctions de production et hypothèses des rendements constants à l’échelle

Soit la fonction de production
avec
Yi = production de la firme i,
Li = le facteur travail de la firme i,
Ki = le facteur capital de la firme i,
εi = variable résiduelle (est un choc, par exemple l’incertitude des conditions météorologiques si Yi
est un produit agricole)
les rendements sont constants à l’échelle si :
L’hypothèse des rendements constants à l’échelle est une condition nécessaire de l’existence d’un
équilibre de long terme dans une économie de marchés compétitifs.
Si l’hypothèse des rendements d’échelle constants ne tient pas et que la technologie affiche le
rendement d'échelle croissant, alors l'industrie conduit au monopole naturel.
Comment tester l’hypothèse des rendements croissants ?

Supposons que la fonction de production est de type Cobb-Douglas :

L’hypothèse des rendements constants devient alors une restriction sur α et β:
Si α + β > 1, la technologie de la production présente des rendements d’échelle croissants.
 En statistique, une procédure populaire pour tester la restriction d'un paramètre

unidimensionnel est le test t de Student.
 Malheureusement, ce test ne convient pas à de nombreuses données économiques en coupes
transversales, qui affichent une hétéroscédasticité conditionnelle.
 Il faut utiliser une procédure de test robuste et cohérente avec l'hétéroscédasticité, proposée à
l'origine dans White (1980)
Il convient de souligner que l’hypothèse des rendements d’échelle constants équivaut à l’hypothèse statistique
sous l'hypothèse que la technologie de production est une fonction Cobb-Douglas. Cette condition
supplémentaire sur la fonction de production ne fait pas partie de l’hypothèse des rendements
d’échelle constants et est appelé un hypothèse auxiliaire.
Si l'hypothèse auxiliaire est incorrecte, l’hypothèse statistique
ne sera pas équivalent à celle des rendements constants. Une spécification correcte du modèle est
essentielle pour une conclusion valide et une interprétation de l'inférence économétrique .
4. LE TERME DE L’ERREUR (OU VARIABLE RESIDUELLE)
Une différence fondamentale entre l’économiste et l’économètre réside dans le fait que le dernier
nommé se soucie (essentiellement) du terme de l’erreur. En effet, alors que l’économiste spécifiera
que la consommation est fonction du revenu disponible : Ct = f (Ydt), l’économètre dira que cette
relation devrait inclure un terme d’erreur. Ainsi donc il écrira la fonction de consommation comme
Ct = f (Ydt, Ut).
Sans la variable résiduelle, la fonction de consommation est une fonction déterministe alors qu’avec
le terme d’erreur elle devient stochastique. Un modèle déterministe est un modèle dans lequel il
n’y a pas de variable résiduelle ou erreur aléatoire. Autrement dit, c’est un modèle où le nuage de
points se situe sur la droite de régression et donc s’ajuste parfaitement à une tendance linéaire.

Tandis qu’un modèle stochastique est un modèle dans lequel il y a une variable résiduelle ou
aléatoire. Dans ce modèle, tous les points du nuage de points ne sont pas sur la droite représentant le
modèle. Les modèles déterministes sont parfois synonymes de modèles économiques et les modèles
stochastiques synonymes de modèles économétriques.
Encore appelée terme de l’erreur, terme stochastique, terme de perturbation ou simplement résidu, la
variable résiduelle mesure la déviation de chaque valeur observée de la variable expliquée Y de la
vraie mais inobservée ligne de régression. Autrement dit, la variable résiduelle est celle qui caractérise
la divergence qui émerge entre les valeurs de Y correctement observées et les valeurs qui seraient
données à Y par une relation fonctionnelle exacte. Les raisons qui justifient l’utilisation du terme de
l’erreur dans les modèles économétriques sont :
a) L’omission de la relation fonctionnelle exacte (par exemple, Y = a + bX) de nombreuses
variables explicatives avec seulement de légers et irréguliers effets sur la variable expliquée.
b) L’imparfaite spécification du modèle sous sa forme mathématique.
c) Le caractère aléatoire du comportement humain
d) Erreur dans la collecte, le mesurage, l’agrégation ou le traitement des données statistiques.
L’économètre se préoccupera de l’estimation de la variance de la variable résiduelle pour l’équation
ou les équations qui l’intéresse (nt). Ces estimations permettent de fournir des informations sur la
qualité des relations économétriques de même qu’elles permettent d’évaluer les coefficients
estimateurs des paramètres.
5. LES ESTIMATEURS PREFERES

Il y a bien une multitude de coefficients qui pourraient être calculés et de fait servir comme
estimateurs des vrais paramètres. Cependant, parmi les procédures utilisées pour obtenir les βi, il y a
seulement un nombre limité capable de produire (donner) des estimateurs aux caractéristiques
désirées par l’économètre. Ces caractéristiques sont entre autres, la variance la plus petite possible
(variance minimale) pour les estimateurs, le sans biais pour ces estimateurs et la convergence des
estimateurs vers les vraies valeurs des paramètres estimés.
6. DEFINITIONS DE CERTAINS CONCEPTS UTILISES EN ECONOMETRIE

L’on utilise en économétrie un ensemble de termes et de concepts avec lesquels il est important de se
familiariser. Ainsi, nous définirons les termes et concepts suivants :
- Une équation structurelle : c’est une expression quantitative permettant de décrire le
modèle en question. Cette expression permet de montrer la structure de base du système
économique que l’on étudie.
- Une équation de comportement : c’est une expression quantitative qui décrit le
comportement des individus ou des groupes d’individus… (exemples : les fonctions de
consommation, d’investissement, fonction d’épargne etc…).
- Une équation technique : c’est une expression qui montre comment des intrants (inputs)
sont combinés pour donner un produit (output). Exemple : une fonction de production telle
que : Q = a Xb11 Xb22.

- Une équation institutionnelle : c’est une expression décrivant le comportement d’une

variable en termes d’une ou plusieurs autres variables selon les dispositions
institutionnelles de l’Etat ou du groupe social d’intérêt. Si par exemple, la taxe sur certaine
catégorie de marchandises représente 20 pour cent de la vente, l’on peut écrire que : T =
0.20 V, avec T, taxe payée par le commerçant à l’Etat, V total de la vente en valeur.
- Une variable économique : c’est une grandeur économique qui peut prendre des valeurs
différentes. Les variables économiques représentent ces grandeurs qui varient d’une
observation à une autre pour un problème économique donné. La variable économique
peut être systématique, aléatoire, endogène ou exogène.
a) La variable sera dite systématique si sa valeur peut être connue avec certitude selon des
relations spécifiques.
b) La variable sera dite aléatoire (ou stochastique) lorsque la détermination de sa valeur ne
découle pas d’une démarche spécifique ou d’un modèle prévisible avec certitude.
c) Une variable endogène est celle dont la valeur est déterminée par la structure économique
considérée dans l’étude.
d) Une variable exogène est celle dont la valeur est déterminée ou connue à l’avance de sorte
qu’elle est considérée comme fixe (invariable) pour une période d’observation donnée. En
d’autres termes, la valeur des variables exogènes est déterminée hors de la structure
économique considérée.
Les variables exogènes influencent les valeurs des variables endogènes, mais pas le
contraire.
- Une variable résiduelle :
- Une constante : c’est une magnitude qui ne change pas et par conséquent représente
l’antithèse de la variable.
- Un coefficient : quand une constante est jointe à une variable, on l’appelle coefficient de
cette variable. Si l’on a l’expression 5R dans un modèle alors 5 serait un coefficient et non
une constante.
- Un paramètre : quand un nombre spécifique n’est pas assigné à un coefficient parce que
ce coefficient est inconnu et par conséquent peut prendre n’importe quelle valeur, on
l’appelle constante paramétrique ou paramètre. Le paramètre décrit la relation entre les
variables exogènes et endogènes de la structure en question. Dans l’expression 5R, 5 est
un coefficient mais dans l’expression aR, a est un paramètre. Exemple : soit la fonction de
consommation Ct = a + bYt + Ut. Ct, Yt, Ut sont des variables ; a et b sont les paramètres
du modèle.
- Une série chronologique : c’est un ensemble de points d’observation associés à une
succession de points dans le temps et pour une entité. En d’autres mots, la série
chronologique est une suite d’observations ordonnées suivant leur séquence dans le temps.
On l’appelle également série temporelle ou chronique.

- Une série en coupe transversale : C’est l’ensemble des points d’observation de plusieurs
et différents secteurs (agent, unité économique, dépense de consommation et revenu
disponible de chaque ménage) en un point donné dans le temps.
- Données de panel : c’est la combinaison de la série chronologique et de la série
transversale.
7. REVISION DES NOTIONS SIMPLES DE SOMMATION

Comme nous travaillerons la plupart du temps avec les variables discrètes, il serait bon de revoir les
techniques de sommation de ces variables.
Ainsi donc :
 n n 
 
n
 E a   Pi a  a  Pi  a  car P 1 i
 i 1 i 1  i 1
n
X 1  X 2  X 3  ...  X n   X t (1)
t 1
Exemple :
20
X
t 5
t  X 5  X 6  ...  X 15  ...  X 20 (2)
Nous pouvons aussi écrire que

20 23
X  X
t 1
t
t 5
t  X 1  X 2  X 3  X 4  X 21  X 22  X 23 (3)
Nous pouvons à présent formuler une série de propositions utiles :
Première proposition : Si a est une constante alors nous pouvons écrire que :
n n
a X
t 1
t  a  Xt
t 1
pour mieux comprendre cette proposition il suffit d’écrire que :
 a X 1  a X 2  ...  a X n  a X 1  X 2  ...  X n   a  X t
n n
a X
t 1
t
t 1
(4)
Deuxième proposition : Si X et Y sont deux variables, alors

n n n
 X
t 1
t  Yt    X t   Yt
t 1 t 1
(5)
Cette proposition veut dire que la sommation des sommes des X et Y est égale à la somme des X plus
celle des Y. (Sommation des sommes = somme des sommations).
n
 X
t 1
t  Yt    X 1  Y1    X 2  Y2   ...   X n  Yn 
  X 1  X 2  ...  X n   Y1  Y2  ...  Yn 

n n
  X t   Yt
t 1 t 1
En généralisant la première et la deuxième proposition ensemble, nous pouvons écrire
n n n n
 a X
t 1
t  b Yt  c Z t   a  X t  b  Yt  c  Z t
t 1 t 1 t 1
Troisième proposition : Si X est la moyenne arithmétique des n premières variables de sorte

n
X
t 1
i
que : X 
n
 X 
n
alors nous pouvons écrire que : t  X 0

t 1
Avant de démontrer cela, souvenons-nous que :
 X 
n n n
t  X   Xt   X (6)
t 1 t 1 t 1
Notons X étant une constante, on peut de ce fait écrire que :

n
 X  X  X  ...  X  n X
t 1
(7)
On peut aussi écrire que

X
t 1
t
n n X (8)
n
En substituant les équations 7 et 8 dans l’équation 6 l’on obtient :
 X 
n n n
t  X   Xt   X  n X  n X  0
t 1 t 1 t 1
Dans cette proposition nous avons fait usage du fait qu’étant donné une constante K, alors :
n
K  n K
t 1
(9)
Quatrième proposition : Si X et Y sont des moyennes arithmétiques des variables X et Y

alors l’on peut écrire que :
 X    
n n
t  X Yt  Y   X t  X Yt
t 1 t 1
Pour démontrer cela, notons que Y étant une constante :
 X   X 
n n
t X Y  Y t  X 0
t 1 t 1
 X    X    
n n
t  X Yt  Y   t  X Yt  X t  X Y
t 1 t 1
   
n n (10)
  X t  X Yt   X t  X Y
t 1 t 1
parce que :
 X 
n
t  X 0
t 1
d’après 3ème proposition.

 X    
n n
t  X Yt  Y   X t Yt  X t Y  Yt X  X Y
t 1 t 1

  X t  X Yt  X t  X Y    
   
n n
  X t  X Yt   X t  X Y
t 1 t 1
Ainsi donc nous obtenons que :
 X  Y  Y     X 
n n
t X t t  X Yt (11)
t 1 t 1
En allant plus loin, on peut écrire que :
 X 
n n n
t 1
t  X Yt  X
t 1
t Yt   X Yt
t 1
(12)
X étant une constante, on écrira que
 X 
n n n
t 1
t  X Yt  X
t 1
t Yt  X Y
t 1
t
n
nX Y t
  X t Yt 
t 1
t1 n
Puisque
n
Y
t 1
i
Y alors,
n
 X 
n n
t 1
t  X Yt  X
t 1
t Yt  n X Y (13)
Donc :
 X    X 
n n n
t 1
t  X Yt  Y 
t 1
t  X Yt  X
t 1
t Yt  n X Y

CHAPITRE I : MODELE DE REGRESSION LINEAIRE SIMPLE

1.1. MESURE DE RELATIONS STATISTIQUES ENTRE DEUX VARIABLES
L’une des préoccupations essentielles en économétrie est le développement de techniques efficaces
pour l’estimation des relations quantitatives entre les variables économiques.
Cependant, avant d’établir les relations explicites entre les variables nous essayerons de comprendre,
dans la pratique, la nature de l’association entre les variables. De nombreuses variables économiques
peuvent avoir un degré d’association assez élevé pour un grand nombre d’observations sans que cela
implique une relation de cause à effet (c'est-à-dire un changement dans l’une de ces variables ainsi
associées n’entraîne en aucun cas des changements dans l’autre variable). Dans ces conditions nous
dirons que nous nous intéressons tout simplement à la relation statistique entre deux variables (les
variables en question).
1.1.1. La covariance
La covariance entre deux variables est strictement une mesure statistique montrant la tendance
d’association de deux variables au cours du temps. L’on est alors amené à se poser la question de
savoir si la nature de cette association est positive ou négative. En d’autres termes, est-ce que les
valeurs de X supérieures à une valeur typique de la variable X sont associées aux valeurs de Y
supérieures à une valeur typique de la variable Y ? Si oui alors la nature de l’association est positive.
Si par contre, les variables de X supérieures à une valeur typique de la variable X sont associées aux
valeurs de Y inférieures à une valeur typique de la variable Y alors la nature de l’association entre X
et Y est négative. L’estimateur de la covariance s’écrit comme suit :
n
( X t  X ) (Yt  Y )
̂ x , y  
t1 n 1
ˆ x, y 
1
n 1
 X Y  nX Y 
t t
Caractéristiques
 Elle donne la nature de la relation linéaire entre deux variables ;
 L’estimateur de la covariance est un estimateur sans biais. C'est-à-dire :
E (ˆ x , y )   x , y ;
 la covariance tout comme la variance n’est pas indépendante de l’unité de mesure ;
 Elle est comprise entre – ∞ et + ∞.
Interprétation de la covariance
Pour interpréter la covariance nous dirons que
Si (X – X ) > 0 et que (Y – Y ) > 0 alors 𝜎̂𝑋𝑌 > 0

Si (X – X ) < 0 et que (Y – Y ) < 0 alors 𝜎̂𝑋𝑌 > 0

Si (X – X ) > 0 et que (Y – Y ) < 0 alors 𝜎̂𝑋𝑌 < 0
Si (X – X ) < 0 et que (Y – Y ) > 0 alors 𝜎̂𝑋𝑌 < 0
Si X et Y sont indépendants alors 𝜎̂𝑋𝑌 = 0
Lorsque 𝜎̂𝑋𝑌 = 0 cela peut signifier dans un premier temps que les variables X et Y sont
indépendantes. Si 𝜎̂𝑋𝑌 = 0 cela peut aussi provenir du fait que les deux variables X et Y ne sont pas
associées de façon linéaire. De ce fait l’on devrait faire attention et ne pas conclure que 𝜎̂𝑋𝑌 = 0
implique forcement une indépendance entre X et Y. Il vaut mieux dire tout simplement que 𝜎̂𝑋𝑌 = 0
signifierait que X et Y ne sont pas associées de façon linéaire. Il y a cependant des cas où des variables
associées de façon non-linéaire ont leur covariance différente de zéro.
1.1.2. Le coefficient de corrélation

La covariance entre X et Y montre qu’il y a une relation linéaire entre deux variables. Cependant, elle
ne dit rien à propos du degré (l’intensité) de cette association linéaire entre les deux variables X et Y.
Pour cette raison il est difficile de se servir de la covariance comme outil de comparaison du degré
d’association entre différentes paires de variables. Pour contourner cette difficulté l’on a normalisé la
covariance de X et Y pour obtenir le coefficient de corrélation. Ainsi, l’estimateur du coefficient de
corrélation s’écrit :
ˆ
ˆ  x, y
x, y
ˆ ˆ
x y
avec
X t  X  2
n
1
ˆ x  
n  1 t 1 écart type de la variable X,
et
 
n
1
ˆ y   t
2
Y  Y
n  1 t 1 écart type de la variable Y.
Si les variables X et Y sont positivement liées, alors 𝜌̂𝑋𝑌 > 0. Par contre, si X et Y ont une relation
négative alors 𝜌̂𝑋𝑌 < 0.
Caractéristiques du coefficient de corrélation

 le coefficient de corrélation indique le signe et le degré de la relation (association) linéaire
entre deux variables ;
 Il est compris entre – 1 et +1 ;

 C’est un estimateur biaisé ( E ˆ   

x, y x, y ) mais convergent. Ainsi donc pour les
échantillons de grand volume, le biais de ̂ X ,Y peut être ignoré ;

 Le coefficient de corrélation n’est pas sensible à l’unité de mesure.
Interprétation
Plus 𝜌̂𝑋𝑌 est proche de  1 , plus l’association linéaire entre X et Y est forte. Lorsque 𝜌̂𝑋𝑌 = 0, il
n’y a alors aucune corrélation entre X et Y. Cependant, ceci n’est pas suffisant pour dire que X et Y
sont indépendantes. En effet, une corrélation réduite peut vouloir dire que les variables ont un faible
niveau de relation ou que la nature de l’association entre elles n’est pas linéaire.
1.1.3. Les relations de comportement

Nous avons utilisé l’analyse de la covariance et du coefficient de corrélation pour montrer la nature
ou le degré d’association entre deux variables sans parler de causalité (cause à effet). Comme nous le
savons, la théorie économique implique une relation de cause à effet et c’est justement ce que
l’économétrie se propose de mesurer. En d’autres termes, nous nous intéressons non seulement à
l’évaluation de la relation entre deux variables mais aussi à la magnitude (grandeur) de l’effet d’une
variable sur une autre.
Lorsque nous définissons

Y = β0 + β1 X (1)
qui est une expression mathématique montrant à travers l’impact de X sur Y nous partons du fait que
nous connaissons avec exactitude la relation entre X et Y de même que les vrais paramètres β0 et β1.
Nous supposons donc que notre modèle ne contient pas d’erreur. Ce qui est loin d’être le cas dans la
réalité. En effet, nous ne connaissons ni la relation ni les paramètres avec exactitude dans la réalité.
De ce fait l’équation (1) devrait être estimée par des procédures appropriées d’échantillonnage et
d’estimation. Etant donné que pour une valeur de X donnée nous trouvons une distribution des valeurs
de Y nous devrions tenir compte de cette variation des valeurs de Y de sorte que nous ayons
Yt = β0 + β1 Xt + Ut (2)
avec Ut représentant le terme d’erreur.
Rappelons que l’erreur représentée par Ut peut provenir de plusieurs sources :
a) L’erreur peut provenir de ce que nous n’ayons pas inclus toutes les variables importantes
dans le modèle. Nous savons par exemple qu’en plus du revenu disponible, le taux
d’intérêt et les actifs liquides influencent aussi bien le niveau de consommation. De ce
fait, l’omission de ces variables constituera selon le cas ce que l’économètre appelle
l’erreur de spécification : cela veut dire que l’erreur provient de ce que la nature des
relations économiques n’ait pas été correctement spécifiée. Il y a bien sûr des variables de
moindre importance dont on peut souvent se passer dans la construction du modèle
(variations climatiques, changement dans le goût des consommateurs, grèves de dockers).
b) L’erreur peut aussi provenir du caractère imprévisible du comportement humain.
c) L’erreur peut en outre provenir du changement dans le comportement des groupes

d’individus. En effet, le comportement humain est tel que des circonstances identiques
peuvent donner lieu à des comportements qui diffèrent d’une façon aléatoire. La variable
résiduelle (terme d’erreur) est supposée incorporer ce caractère aléatoire du comportement
humain.
d) L’erreur peut aussi provenir de la façon de mesurer les variables qui nous intéressent. En
effet, il se peut que la variable que l’on essaie d’expliquer soit difficile à évaluer avec
exactitude (ce qui justifie le choix d’une variable proxy ou instrumentale), soit à cause des
difficultés de collecte des données (informations), soit à cause de l’utilisation de variables
de remplacement (revenu global au lieu du revenu disponible, le PIB à la place du PNB)
etc…
1.2. LE MODELE DE REGRESSION LINEAIRE SIMPLE

Une régression linéaire simple est une régression dans laquelle il y a une seule variable explicative
ou indépendante. Ce modèle est défini comme dans l’équation (2) c’est-à-dire :
Yt = β0 + β1 Xt + Ut
où Y et X sont respectivement la variable expliquée (variable dépendante) et la variable explicative
(variable indépendante ou régresseur).
La valeur de la variable Y dépend des valeurs de X et de U. En plus l’effet de X sur Y dépend de la
valeur de U. C’est pour toutes ces raisons que nous devrons spécifier certaines hypothèses
(restrictions) de base à propos du terme de l’erreur, des variables : dépendante et indépendante.
1.2.1. Les hypothèses fondamentales

1) La variable indépendante X devra prendre au moins deux valeurs différentes sinon nous ne
serions pas à mesure d’observer l’effet des variations de X sur Y (c’est-à-dire si X ne prend pas au
moins deux valeurs différentes, nous ne pourrions pas estimer β0 et β1). A la question de savoir qui
détermine les valeurs de X nous dirons qu’en général, le système économique produira les valeurs de
X et nous ne ferons que les enregistrer.
2) E (Ut) = 0, ceci veut dire que le terme de l’erreur a une distribution normale telle que sa
moyenne est égale à zéro.
3) E (Ut – E (Ut))2 = E (Ut)2 = σ2U
Cette hypothèse fondamentale dit que la variance du terme de l’erreur est une constante égale
à σ U qui ne devrait pas changer de façon systématique avec t. Autrement dit, si nous travaillons avec
2
des données chronologiques sur des dépenses d’investissement ou de consommation l’hypothèse (3)
dit que la variance du terme de l’erreur ne devrait pas changer au cours du temps pour l’ensemble de
l’échantillon sous la main. C’est l’hypothèse d’homoscédasticité.
4) [(Us – E (Us) (Ut –E (Ut)] = Cov (Us, Ut) = 0 pour s ≠ t

Cette hypothèse, d’absence d’autocorrélation des erreurs, veut que le terme d’erreur de la
ième
s période soit indépendant de celui de la tième période. La raison principale pour la formulation de
cette hypothèse de base est que l’on voudrait dans un premier temps que la variable X soit la seule
force systématique et prévisible qui puisse affecter Y. En effet, si Ut était liée à Ut + 1 ou Ut – 1, Yt
dépendrait alors de façon systématique et prévisible non seulement de Xt mais aussi de Ut + 1 et Ut – 1
étant donné que Ut + 1 et Ut – 1 détermineraient en partie Ut.
Avec l’ensemble des hypothèses de base (2), (3) et (4) nous avons défini le terme de l’erreur comme
une variable aléatoire inobservable qui a pour moyenne zéro, une variance σ2U constante (les erreurs
suivent donc une loi normale de moyenne zéro et de variance σ2U). Ut a aussi la propriété selon
laquelle sa valeur d’une période donnée est indépendante de celle d’une autre période (c’est-à-dire
Cov (Us, Ut) = 0).
5) La cinquième hypothèse fondamentale est que Ut devrait être indépendant des n valeurs de
la variable indépendante Xt. Ceci veut tout simplement dire que Cov (Ut, Xt) = 0. Cette hypothèse
s’appelle hypothèse d’exogénéité. Si l’hypothèse 5 tient, nous disons que les variables explicatives
sont strictement exogènes.
S’il y avait une corrélation positive entre Ut et Xt cela voudrait dire que toute valeur positive de Ut
serait associée aux valeurs de Xt supérieures à la valeur moyenne de Xt.
D’une façon similaire, toute valeur négative de Ut serait associée aux valeurs de Xt inférieures à la
valeur moyenne de Xt (autrement dit, aux valeurs de Ut > 0 correspondraient de grandes valeurs de
Xt alors qu’aux valeurs de Ut < 0 correspondraient de petites valeurs de Xt).
6) Ut ~ N (0, σ2), les erreurs suivent une loi normale de moyenne nulle et de variance σ2.
1.2.2. Estimation des paramètres par la méthode des Moindres Carrés Ordinaires
Soit Yt   0   1 X t  U t
Nous savons que l’estimation de notre modèle linéaire est
Yˆ  ˆ 0  ˆ 1 X t (1)
et le terme de l’erreur est obtenu par la différence entre l’observation et son estimation :
Uˆ t  Yt  Yˆt (2)
Le principe de la méthode des moindres carrés consiste à choisir les valeurs de ˆ 0 et ˆ 1 qui
minimiseront la somme des carrés des écarts entre les valeurs observées et les valeurs estimées de
la variable dépendante Y. En d’autres termes, nous choisirons les valeurs des ˆ 0 et ˆ 1 qui
minimiseront :
n
Uˆ
t 1
2
t
.

Nous écrirons donc que :
 
n n 2
Uˆ
t 1
2
t   Yt  Yˆt
t 1
En remplaçant Ŷt par sa valeur nous avons
 
n n 2
Uˆ
t 1
2
t   Yt  ˆ 0  ˆ 1 X t
t 1
(3)
Choisir les ˆ 0 et ˆ 1 qui minimiseront l’équation (3) revient à procéder de la façon suivante :
 Uˆ 2 t
 
n
  2  Yt  ˆ 0  ˆ 1 X t  0
 ˆ
(4)
0 t 1
 Uˆ 2 t
 
n
  2  X t Yt  ˆ 0  ˆ 1 X t  0
ˆ
 t 1
(5)
1
En réarrangeant les termes des équations (4) et (5), puis en les divisant par – 2, nous obtenons les
équations (6) et (7) qu’on appelle équations normales
n n n

t 1
Yt   ˆ 0  ˆ 1  X t
t 1 t 1
(6)
n n n
 X t Yt  ˆ 0
t 1
 X t  ˆ 1  X
t 1 t 1
2
t
(7)
Ces équations normales impliquent que
ˆ 0  Y  ˆ 1 X (8)
n
 X Y n X Y t t
ˆ 1 
t 1
n
X
t 1
2
t n X 2 (9)
ou bien

 X  X Yt  Y 
n
t
t 1
̂ 1 
 X t  X
n
2 (10)
t 1
ou encore
 X  X  Yt
n
t
t 1
̂ 1 
 X  X  Xt
n
(11)
t
t 1
et comme
ˆ 0  Y  ˆ 1 X
alors en remplaçant ̂ 1 par sa valeur ̂ 0 devient
  X t  X Yt  Y  
0 Y  X 
ˆ 
  X t  X 
 2
 (12)

REMARQUE : CAS OU LES VARIABLES SONT CENTREES PAR

RAPPORT A LEUR MOYENNE
On a dans ce cas
xt  X t  X et yt  Yt  Y
Avec cela
n
x
t 1
t yt
̂ 1  n
x
t 1
2
t
(13)
et une fois ˆ 1 obtenu, calculer

ˆ 0  Y  ˆ 1 X (14)
Exemple 1
Soient Y et X des variables respectivement dépendante et indépendante pour un échantillon de cinq
(5) observations.
y Y Y x XX
Y X
40 4 – 22 –4
60 6 –2 –2
50 7 – 12 –1
70 10 8 2
90 13 28 5
n=5 ∑ Y = 310 ∑ X = 40
∑ XY = 2740 ∑ X2 = 370
∑ xy = 260 ∑ x2 = 50
Sur la base des équations (10) et (13) nous obtenons ˆ 1 de la façon suivante :
n
x t yt
260
ˆ 1 
t 1
n
  5, 2
x 2 50
t
t 1
Y
Y  62 X
X 8
5 5
D’après l’équation (14)
ˆ 0  Y  ˆ 1 X  62  5, 2  8  62  41, 6  20, 4
D’où
Yˆ  20, 4  5, 2 X t
1.2.3. La sensibilité des estimateurs des paramètres à l’unité de mesure
Pour montrer comment notre estimation de 1 est sensible à l’unité de mesure de Xt et Yt,
supposons que Wt = kXt (1) avec k constante. Alors,
Yˆ  ˆ 0  ˆ 1 Wt (2)
ce qui s’écrira encore

Yˆ  ˆ 0  ˆ 1 k X t   Uˆ t (2a)
L’estimateur de 1 est alors :
ˆ 1 
 W t  W  Yt  Y 
 tW  W  2 (3)
ˆ 1 
 k X t  X  Yt  Y 
 k 2
 X t  X  2 (4)
ˆ 1 
 X t  X  Yt  Y 
k  X t  X 
2 (5)
Ceci nous permet de dire que lorsque la variable indépendante X est pondérée par une constante k,
̂ 1 sera alors divisé par cette même constante k. Exemple : si X est exprimé en centaine d’unité
de mesure dans un premier temps et qu’ensuite l’on éprouve le besoin de le présenter en termes de
millier d’unité de mesure alors ̂ 1 deviendra ˆ ' 1  ˆ 1 / 10. Il est cependant à noter que
ˆ 0 n’est nullement affecté par la pondération de la variable indépendante (variable explicative).

Ce qui peut être démontré de la façon suivante :
ˆ 0  Y  ˆ 1 W (6)
ˆ 0  Y  ˆ 1 k X  (6a)
De ce fait
̂ 0  Y 
 X  X  Y  Y  k X
1 t t
 X  X 
2 (7)
k t
ˆ 0 Y  X
 X  X  Y  Y  t t
 X  X 
2 (7a)
t
Bien que l’estimation de 0 ne soit pas affectée par une quelconque pondération de la variable
indépendante X, elle est influencée par la pondération de la variable dépendante Y.
Supposons que :
Z t  h Yt (8)

h  X t  X  Yt  Y 
ˆ 1 
 t X  X  2 (9)
ˆ 0  Z  ˆ 1 X (10)
h  X t  X  Yt  Y 
̂ 0  h Y  X
 X  X 
2 (10a)
t
  X  X Y  Y  
̂ 0  h Y 
t
X
t
  X  X  
2 (10b)
t
En résumé nous dirons que
a) Si X est multiplié par k, ̂ 1 sera divisé par k et ˆ 0 demeurera inchangé.
b) Si Y est multiplié par k, ˆ 0 et ˆ 1 seront tous deux multipliés par k.
c) Si maintenant X et Y sont multipliés par k, ̂ 1 demeurera inchangé alors que ˆ 0 se

trouvera multiplié par k :
ˆ 
 kX  kX  kY  kY   k  X  X Y  Y 
t t
2
t t
 kX  kX  k  X  X 
1 2 2 2
t t
ˆ  kY  ˆ k X   k Y  ˆ X 
0 1 1
Nous allons à présent montrer que nos estimateurs obtenus par la méthode des moindres carrés
ordinaires sont des estimateurs sans biais.
1.2.4. Propriétés des estimateurs ˆ 0 et ˆ 1 des paramètres  0 et  1 des
moindres carrés ordinaires

Les propriétés des estimateurs des MCO sont contenues dans le théorème de Gauss-Markov qui
énonce que, compte tenu des hypothèses du modèle de régression linéaire classique, les estimateurs
des moindres carrés, dans la classe des estimateurs linéaires sans biais, ont une variance minimum,
c'est à dire qu'ils sont BLUE (Best Linear Unbiased Estimators ). Un estimateur, disons l’estimateur
MCO ̂ 1 est dit être meilleur estimateur linéaire sans biais de 1 , si les conditions suivantes
tiennent :

 Il est linéaire, c’est-à-dire, qu’il est une fonction linéaire d’une variable aléatoire telle que la
variable dépendante Y dans le modèle de régression ;
 Il est sans biais, c’est-à-dire que sa valeur moyenne ou espérée,  

E ̂ 1 , est égale à la vraie
valeur de 1 ;
 Il a la variance la plus petite dans la classe de tous les estimateurs linéaires sans biais ; un
estimateur sans biais avec la variance la plus petite est connu sous le nom d’estimateur
efficace.
A ces trois propriétés, on ajoute la convergence des estimateurs. Un estimateur convergent est un
estimateur qui tend vers sa vraie valeur de la population au fur et à mesure que la taille de l’échantillon
augmente indéfiniment. Une condition suffisante de la convergence est que l’estimateur soit sans
biais et que sa variance tende vers zéro lorsque n, le volume de l’échantillon tend vers l’infini.
1.2.4.1. Estimateurs linéaires

n
xY t t n
  kt Yt
t 1
̂ 1  n
x
t 1
2
t
t 1
avec 𝑘𝑡 =
𝑥𝑡
qui montre bien que ̂ 1 est un estimateur linéaire car il est une fonction
(∑ 𝑥𝑡2 )
linéaire de Yt. On peut faire la même approche pour ̂ 0 .
1.2.4.2. Estimateurs sans biais

Après avoir estimé les paramètres  0 et  1 à partir des hypothèses selon lesquelles
n n

t 1
Uˆ t  0 et X
t 1
t Uˆ t  0 nous pouvons montrer maintenant que la procédure consistant
à minimiser 
Uˆ 2
t
nous procurera les meilleurs estimateurs linéaires sans biais (MELSB)
t 1
« BLUE = Best Linear Unbiased Estimators ».

a) ̂ 1 est un estimateur sans biais de 1
Si ̂ 1 est un estimateur sans biais de 1 alors nous devons avoir E ˆ   

1 1 . Nous savons
que :
ˆ
1 
  X t  X  Yt

 t X  X  2 (1)
Et que :
Yt   0   1 X t  U t (2)
Nous pouvons donc écrire que :
ˆ 1 
 X t  X  0   1 X t  U t 
 X  X
2 (3)
t
En faisant la multiplication au numérateur nous avons :

ˆ 1  0
 X t  X    1  X t  X  X t   X t  X  U t
 X  X
2 (4)
t
mais nous savons que :
 X  X   0 et que  X  X  X   X  X 
2
t t t t
De ce fait
X  X  U t
ˆ 1   1   t
 X t  X 
2 (4a)
Nous pouvons, à présent, prendre l’espérance mathématique de l’expression (4a) tout en faisant usage
de notre hypothèse selon laquelle Xt est fixe et indépendant de Ut.
 X  X  
1  1   
ˆ t
 Ut
  X t  X  
2 (5)
de sorte que :
 X  X  
ˆ  
E  1  E  1    E  t
 E U t 
  X t  X  
2 (6)
puisque E (Ut) = 0 il en résulte que

 X  X  
 E t
 E U t   0
  X t  X  
2 (6a)
et l’on écrira que
 
E ˆ 1  E  1    1 (7)
b) ̂ 0 est un estimateur sans biais de 0

Nous savons que
ˆ 0  Y  ˆ 1 X (8)
De l’équation (2) nous pouvons écrire que :
Y   0  1 X 
U t
(9)
n
ce qui donne par remplacement de (9) par sa valeur dans (8)
ˆ 0   0   1 X  U t
 ˆ 1 X (10)
n

ˆ 0   0  ˆ 1   1 X   U t
(10a)
n
Nous savons de l’équation (5) que :
 X  X  
1  1   
ˆ t
 Ut
  X t  X  
2
ˆ
En remplaçant    par sa valeur de l’équation (5) dans l’équation (10a) nous obtenons :
1 1
 X  X    Ut
ˆ 0   0  X   t

  X t  X  
2
U t 
n (11)
1 X  X  X 
ˆ 0   0     t
 Ut
 X  X 
2
 n t  (12)

En prenant l’espérance mathématique et en utilisant le fait que Xt et Ut sont indépendants de même

que E (Ut) = 0, nous écrivons que :
 
E ˆ 0  E  0  
1 X  X  X 
 E U t 
 E  t
 X  X 
2
 n t  (13)
Ainsi donc nous avons
 
E ˆ 0  E  0    0 (14)
Nous venons de montrer que nos estimateurs des s sont sans biais. Cependant, nous n’avons rien
dit quant à la précision de ces estimateurs. Supposons par exemple que X est fixe pour plusieurs
échantillons, nous nous rendrons compte alors que nos estimations des s prendront des valeurs
différentes d’un échantillon à l’autre tout simplement parce que le terme de l’erreur changera d’un
échantillon à l’autre.
1.2.4.3. Précision (variance) des estimateurs des MCO

En statistique la précision d’un estimateur est déterminée par sa variance ou son écart type.
a) Variance de ̂ 1
Utilisant le fait que dans l’équation (5)
 X  X  
1  1   
ˆ t
 Ut
  X t  X  
2
nous définirons la variance de ̂ 1 comme étant :

E ˆ 1   1  2
  21 (15)
Si en plus, nous utilisons la proposition fondamentale qui dit que la variance de la somme d’une
combinaison linéaire de variables indépendantes est simplement égale à la somme des variances de
ces variables, il s’en suivra que :
  X  X   
ˆ  
Var  1  Var  1   Var    t
   X t  X  2
U 
 t (16)
   
Puisque Var  1   0 parce que  1 est une constante représentant un paramètre de la
population. De ce fait nous pouvons écrire que :

 
Var ̂ 1  Var  Z U  t t (17)
Zt 
X  X 
t
 X  X 
avec 2
t
Etant donné que X, la variable indépendante, est fixe pour chaque échantillon, l’on considérera X
comme une constante. Ainsi donc :
  Z
Var ˆ 1  2
t Var U t  et   Z U   Z
t t
2 2
t U 2t
avec E U t U s   0 t  s
(18)
Du fait que les Ut soient indépendants et non corrélés et qu’en plus ils aient la même variance par
hypothèse nous écrirons :
 
Var ˆ 1   U2  Z 2 t (18a)
 X  X    X  X 
2
 
2
Var ˆ 1   U2      U2
  X  X  
t t
  X t  X  
2 2 2 (18b)
t
   X  X
2
1
Var ˆ 1   U2   U2
t
 X  X  X  X  X  X
2 2 2
t t t
Ce qui donne l’expression suivante de la variance de ̂ 1 :
1
 ˆ2   U2
 X  X
1 2 (18c)
t
L’on démontre que, lorsque n → ∞,  X t X  2

tend également vers ∞, d’où Var ̂ 1   tend
vers 0, ce qui équivaut à dire que ̂ 1 a la plus petite variance possible parmi tous les estimateurs,
(c’est-à-dire c’est l’estimateur le plus efficace). ̂ 1 est bien un estimateur qui converge en
probabilité vers  1. ̂ 1 convergent signifie qu’au fur et à mesure la taille de l’échantillon
augmente indéfiniment, l’estimateur ̂ 1 tend vers sa vraie valeur de la population.

Nous pouvons constater sur l’expression de la variance de ̂ 1 que cet estimateur est d’autant plus
 X  2
précis que t X est élevé, c’est-à-dire lorsque, le nombre d’observations est important, et
/ou les valeurs de la variable explicative sont très dispersées autour de leur moyenne.
b) Variance de ˆ 0
Nous savons de l’équation (12) que :
1 X  X  X 
ˆ 0   0     t
 Ut
 X  X 
2
 n t 
Si nous posons que :
 1 X  X  X 
t    t 
 n  X t  X 
2

nous pouvons donc écrire que :
ˆ 0   0    t U t (19)
 
Var ˆ 0  Var   U  t t (20)
Var ˆ     Var U 

0
2
t t (20a)
Etant donné que
Var U t    U2
nous écrivons donc :
Var ˆ 0     2
t  U2 (20b)
puisque
 1 X  X  X 
t    t 
 n  X t  X 
2

alors

1
 2
X  X  X 2 2

2 X X t  X

  X  X  
2 t
n  X  X 
t
2 2 2 (21)
n t
t
et

 1 X 2  X t  X
 X  X   2
2X
  2t  
t
 X  X  n  X  X 
2 4 2
n t t
 1 X 2 X  X  X  2
   
2 t
 X  X  n  X  X 
t
2 2 2
n t t
Puisque  X t  X   0
2 X  X  X 
  0
t
n  X  X 
alors 2
t
et nous avons :
 1 X2
 2

 X X
t
n2 t
2
n X2 1 X2
 2
 2  
 X X  X 
t
2 2 (22)
n t
n t X
Ainsi donc :
 
ˆ  
2 1
Var  0   U  
X2

 n  X t  X  
2 (23)
L’équation (23) donne la variance de l’estimateur ˆ 0
Puisque X t  n X, en remplaçant X t par nX l’on obtient
 2

  2  X 2t  2 n X 2  2 n X 2 

n  X t  X 
ˆ
0 U 2
 
ce qui nous amène à écrire que :
 2

  U2 
 X 2
t 

 n  X t  X  
ˆ 0 2 (24)

C’est une autre manière d’écrire la variance de ˆ 0 .
De façon similaire à la variance de ̂ 1 on démontre que  

Var ̂ 0 tend vers 0 quand n → ∞.
D’où ˆ 0 a une variance minimale et est convergent.
Nous constatons que  ˆ2 et  ˆ2 dépendent tous de la variance  U2 du terme de l’erreur,  ˆ2
0 1 0
dépend en plus du volume de l’échantillon (n).
 Calcul de la covariance des estimateurs ˆ 0 et ˆ 1

Nous savons que
 
Cov ˆ 0 ˆ 1  E [( ˆ 0   0 ) ( ˆ 1   1 )] (25)
L’on démontre que

Cov ˆ 0 ˆ 1    X  U2
 X X  2 (26)
t
1.2.5. Détermination d’un estimateur sans biais de  U2

Nous avons utilisé  U2 dans notre procédure d’estimation de  ˆ2 et  ˆ2 . Toutefois, il serait
0 1
important de noter que l’on connaît rarement  U2 . De ce fait  U2 devrait être estimé par :
Û2
Nous savons que :
 U2  E U  
U 2
t
2
t
(29)
n
 Y  Y  m 2
 U2  t
(30)
n
 Y    1 Xt  2
 U
2

t 0
(31)
n
Cependant, puisque nous devons estimer donc à partir de l’échantillon de volume n cela nous fait
perdre deux degrés de liberté. C’est ainsi que nous écrivons :

Û2 
 Y  ˆ
t 0  ˆ 1 X t  2
n2 (32)
Nous perdons deux degrés de liberté parce que deux paramètres en l’occurrence  0 et  1 sont
remplacés par leur estimation ˆ 0 et ˆ 1

L’on démontre que :
Û2   Uˆ 2 t

 Y  Yˆ  t t
2
n2 n2 (33)
est un estimateur sans biais de  U2 .
Il est parfois pratique d’utiliser la formule suivante pour le calcul de Û2
  t
Uˆ 2
t  Y  Y  2
 ˆ 2 X  X
 1  t  2
(34)
En résumé, l’estimateur de nos variances pour ˆ 0 et ˆ 1 se présente comme
1
ˆ ˆ2  Û2
 X  X
1 2 (35)
t
ˆ 2

 ˆ 
2  X 2t 

 n  X t  X  
ˆ
0 U 2 (36)
1 X2 
ˆ  ˆ  
2 2

 n  X t  X  
ˆ 0 U 2
 X Û2
ˆ ˆ ˆ 
1 0
 t  X  X  2 (37)
Quant à l’estimation de la variance de la variable Ŷ (qui est elle-même l’estimation de Y) elle se

présente comme
1
ˆ  ˆ  
2 2Xt  X  

 X t  X  
Yˆ U 2
 n (38)

Exemple 2
CT YT
325 350
335 364
355 385
375 405
401 438
433 473
466 512
492 547
537 590
576 630
A partir des observations du tableau, estimer les valeurs des paramètres β0 et β1 de l’équation : Ct =
β0 + β1Yt + Ut avec C la consommation et Y le revenu disponible en milliards d’unité de compte. Puis
déterminer les variances des estimateurs des paramètres β0 et β1. Les données partent de 1960 à 1969.
Solution
 Estimation des paramètres
n = 10 ∑ Y = 4694 ∑ C = 4295
Y 
Y 
4694
 469 C 
C 
4295
 430
10 10 10 10
Années (Ct  C ) (Yt  Y ) [ (Ct  C ) (Yt  Y ) ] (Yt  Y ) 2 Uˆ t  (Ct  Cˆ t ) 2

2
Ĉ t
1960 -105 -119 12495 14161 325 0
1961 -95 -105 9975 11025 337 4
1962 -75 -84 6300 7056 356 1
1963 -55 -64 3520 4092 373 4
1964 -29 -31 899 961 403 4
1965 3 4 12 16 434 1
1966 36 43 1548 1849 469 9
1967 62 78 4836 6084 500 64
1968 107 121 12947 14641 538 1
1969 146 161 23506 25921 574 4
Avec ct  ( Ct  C ) et yt  ( Yt  Y )
 ( Ct  C ) ( Yt  Y )  76038   ct yt
 ( Yt  Y ) 2  85810   yt
2
;  Yt
2
 2289172
Nous savons que :

n n

t 1
ct y t  (C
t 1
t  C ) (Yt  Y )
̂ 1  n
 n

t 1
y 2
t  (Y
t 1
t  Y )2
Ce qui donne :
76038
ˆ 1   0,89
85810
Comme nous savons aussi que :
ˆ 0  C  ˆ 1Y  430  0, 89  469  12,59  13
Nous pouvons donc écrire que l’équation de la droite d’estimation est :
ˆ  13  0,89Y
Ct
Il est à noter que l’estimation de cette relation entre la consommation et le revenu disponible se
conforme bien à nos anticipations théoriques : en, l’estimation de la propension marginale à
consommer 0,89 est positive et comprise entre 0 et 1 (0 < PmC) < 1). L’estimation de l’ordonnée à
l’origine (consommation autonome, ici) 13, est aussi positive.
Pour passer de la propension marginale à consommer à l’élasticité-revenu de la consommation, on
utilise la formule suivante :
 y  ̂1
Y

 (C  C )(Y  Y )  Y
t t
C  (Y  Y ) C t
2
avec  y l’élasticité-revenu des dépenses de consommation.

 Estimation des variances
Uˆ 2
  ( Ct  Cˆ ) 2  92
Uˆ 2
92
ˆ    11,5
2
U
n2 8
 
2
Sachant que Yt 2 289172
et que  ( Yt  Y ) 2  85810
nous pouvons écrire que :
ˆ  Y
2 2
11,5 (2289172)
ˆ    31
2 U t
ˆ o
n  (Yt  Y ) 2
10 (85810)
ˆ
2
11,5
ˆ    0,0001
2 U
ˆ1
 (Y t Y ) 2
85810

1.3. LA MESURE DU POUVOIR EXPLICATIF DU MODELE DE REGRESSION

Maintenant que nous pouvions estimer la relation moyenne entre deux variables, et trouver les
estimateurs des paramètres, il serait souhaitable que nous puissions aussi déterminer le degré du
pouvoir explicatif de la variable ou des variables indépendantes de l’équation de régression. En
d’autres termes, nous voudrions savoir dans quelle mesure les variations de Y (de la variable
dépendante) sont expliquées par l’estimation linéaire de la relation entre Y et X.
1.3.1. Le coefficient de détermination non ajusté R2

Pour mesurer le pouvoir explicatif de l’équation de régression nous voulons un indice qui montre la
proportion des variations de Yt expliquée par l’équation de régression. Un tel indice se présente sous
la forme suivante :
R 
2  (Yˆ  Y )t
2

 (Y  Y )   (Y  Yˆ )
t
2
t t
2
 (Y  Y )
t
2
 (Y  Y ) t
2
ou
R 1
2  (Y  Yˆ ) t t
2
1
SCE
 (Y  Y ) t
2
STC
Avec
 (Yt  Y ) 2 = sommes totales des carrés (STC), c’est cet écart que nous essayons d’expliquer ;
 (Yˆt  Y ) 2 = sommes des carrés de la régression (SCR), c’est cet écart qui est expliqué par
notre méthode de régression ;
 Uˆ t   (Yt  Yˆt ) = sommes des carrés des erreurs (SCE), c’est cet écart qui demeure
2 2
inexpliqué par la méthode de régression. En d’autres termes, cet écart représente le terme de l’erreur
dénommé (dont l’estimation est Û t ).

Cet indice peut encore s’écrire comme :
 Yˆ  nY
2 2
R 
2 t
 Y  nY
2 2
t
R2 qui mesure le pouvoir explicatif de l’équation de régression est appelé le coefficient de
détermination ou coefficient de détermination non ajusté.
Dans le cas où les variables sont centrées par rapport à leur moyenne, le coefficient de détermination
s’écrit comme suit :
 yˆ  Uˆ
2 2
R  1 yt  Yt  Y et xt  X t  X
2 t t
y y
2 2 avec
t t

Interprétation de R2
Le R2 nous indique tout simplement la proportion de l’écart total qui a été expliquée par la régression.
Si la régression explique toutes les variations de Yt (variable dépendante), cela voudrait dire que
toutes les observations se trouvant sur le graphique seraient sur la droite d’estimation. Dans ce cas R2
= 1. On dit que l’équation de régression explique 100% des variations de la variable dépendante.
Si par contre, l’équation de régression n’explique aucune variation de Yt, alors R2 = 0.
En général, l’équation de régression n’expliquera qu’une certaine proportion des variations de la
variable dépendante. De ce fait R2 sera compris entre 0 et 1,
0 ≤ R2 ≤ 1. Si R2 est proche de 1 nous dirons que l’équation de régression explique une très grande
proportion des variations de la variable dépendante. Si par contre R2 est proche de zéro nous dirons
que l’équation de régression n’explique qu’une faible proportion des variations de la variable
dépendante.
Si par exemple R2 = 0,96 nous dirons que l’équation de régression explique 96 pour cent des
variations de la variable dépendante.
1.3.2. Relation entre coefficient de détermination et coefficient de corrélation

Dans le cas d’un modèle de régression simple, le coefficient de détermination est égal au carré du
coefficient de corrélation simple. Soit :
2 ˆ x
2
ˆ
R  1
2
ˆ y
2
et
2
 ˆ xy 
R 2  (  XY ) 2    avec y t  Yt  Y et xt  X t  X
ˆ ˆ
 x y 
Le coefficient de corrélation n’implique pas de causalité ou de dépendance. Il est compris entre – 1
et +1. ρ prend le signe de ˆ 1 . Un coefficient de corrélation positif indique que les variables évoluent
dans le même sens c’est-à-dire que X et Y augmentent ensemble et diminuent ensemble. C’est le cas
par exemple des variations des quantités offertes et des variations des prix.
Un coefficient de corrélation négatif implique que les variables X et Y évoluent en sens opposé.
Quand X augmente Y baisse et vis versa.
2
1.3.3. Le coefficient de détermination ajusté R
La formule est la suivante :

n 1
R2  1  (1  R 2 )
n2 (11)
R2 est le coefficient de détermination ajusté par les différents degrés de liberté associés à la variable
dépendante et aux paramètres estimés.
n – 1 degré de liberté parce que nous estimons Y par Ŷ ;
n – 2 degré de liberté parce que nous estimons 2 paramètres y compris ̂ 0 (c’est-à-dire une
variable explicative plus ̂ 0 ).
1.4. TESTS D’HYPOTHESES ET INTERVALLES DE CONFIANCE
Etant donné que les différentes valeurs des ˆ 0 et ˆ 1 d’un échantillon à un autre, déterminent
l’allure de la distribution de tous les ˆ 0 et ˆ 1 autour des vrais paramètres  0 et  1 , il

nous faut donc développer des méthodes d’évaluation nous permettant de savoir si oui ou non les
valeurs estimées de nos paramètres sont (significativement) différentes de celles de nos hypothèses
(a priori). Par ailleurs, étant donné que  ˆ2 et  ˆ2 sont fonctions linéaires du terme de l’erreur
0 1
(c’est-à-dire de la variance de la variable résiduelle) il devient nécessaire de formuler une hypothèse

supplémentaire se rapportant à la variable résiduelle Ut afin de pouvoir tester les hypothèses relatives
aux s.
Cette hypothèse supplémentaire consistera à postuler que la variable résiduelle suit une loi normale
avec pour moyenne zéro et pour variance  U2 . Soit
Ut ~ N (0  U2 ) (1)
Ceci veut tout simplement dire qu’étant donné P échantillons pour la même valeur de X t, il y aura
une distribution de Yt autour de Ym de sorte que la différence Yt – Ym (c’est-à-dire Ut) suivra une loi
normale. ( Y
m
  0   1 X t ).
Et en utilisant le fait que des combinaisons linéaires de variables suivant une loi normale suivent
elles-mêmes une loi normale, il s’en suit que  0 et  1 suivent une loi normale de sorte que :
ˆ 0 ~ 
N  0 , ˆ 20 
ce qui implique que

 
  t
2
X
N  0 , Û  
2
 N X  X   
  t
ˆ 0 ~  2
(2)

et
ˆ 1 ~ 
N  0 , ˆ 2
1

ce qui implique que
  
2  1 
N  1 , Û
ˆ 1 ~ 


  X t  X   
2
(3)
A partir de ˆ 1 construisons la statistique, z, centrée-réduite
ˆ 1   1
z ~
 ˆ 1
N (0, 1) (4)
Si la variance de ˆ 1 c’est-à-dire  ˆ2 était connue, on pouvait utiliser directement la statistique z

1
et la table de Gauss centrée-réduite pour tester ou construire un intervalle de confiance pour ˆ 1 .
Malheureusement  ˆ2 est presque toujours inconnu et il faut l’estimer. On ne peut donc pas utiliser
1
directement z et la table de Gauss centrée-réduite pour tester ˆ 1 ou construire un intervalle de
confiance pour ˆ 1 . On est obligé d’estimer l’écart type de ˆ 1 c’est-à-dire  ̂ 1 par ˆ ˆ 1 .
L’estimateur de l’écart type de ˆ 1 conduit à une nouvelle statistique que nous appelons t avec
ˆ 1   1
t
ˆ ˆ (5)
1
On ne peut pas dire que t suit une loi normale. En fait on démontre que t suit une loi de Student à (n
– 2) degrés de liberté. Dans le modèle Yt   0   1 X t  U t il y a deux paramètres, d’où k = 2

= nombre de paramètres.

ˆ 0   0
suit aussi une loi de Student à (n – 2) degrés de liberté.
ˆ ˆ
0
Remarque
ˆ 1   1
Encore une fois t suit une loi de Student à (n – 2) degrés de liberté (ddl ou dl).
ˆ ˆ
1
Le nombre de degrés de liberté est égal au nombre d’observations c’est-à-dire n moins le nombre de
contraintes que la procédure d’estimation utilisée exerce sur les données statistiques. En pratique le
nombre de contraintes est égal au nombre de paramètres estimés dans le modèle.
ˆ 1   1
t ~ St (n – 2) mais si le nombre de degrés de liberté est supérieur à
En toute rigueur
ˆ ˆ
1
30, autrement dit si (n – k) > 30 où n = nombre d’observations et k = nombre de paramètres à estimer,

alors on pourra approximer la distribution de Student par une distribution (loi) normale.
Selon certains ouvrages cette approximation de la loi de Student par la loi normale peut se faire dès
l’instant où la taille de l’échantillon n est supérieure ou égal à 30.
1.4.1. Intervalles de confiance

On peut construire un intervalle de confiance pour les paramètres que pour la variance résiduelle.
1.4.1.1. Intervalles de confiance pour les paramètres
Etant donné Yt   0   1 X t  U t , déterminer un intervalle de confiance pour  1 par exemple
c’est trouver un intervalle [ 1 min, 1 max] tel que
Pr o b ( 1 min   1   1 max )  P  1   (6)

avec α le niveau ou seuil de signification (probabilité de rejeter l’hypothèse nulle alors qu’elle est
vraie).
ˆ 1   1
t ~ St (n – 2) l’intervalle de confiance est :
Avec
ˆ ˆ
1
Pr o b ( t / 2  t  t / 2 )  P  1   (7)
ˆ 1   1
Pr o b ( t / 2   t / 2 )  P  1  
 ˆ
ˆ (7a)
1
En arrangeant (7a) l’on obtient :

Pr o b ( t / 2 ˆ ˆ  ˆ 1   1  t / 2 ˆ ˆ  ˆ 1 )  P  1   (8)
1 1
L’intervalle de confiance est :
IC  [ t / 2 ˆ ˆ  ˆ 1 , t / 2 ˆ ˆ  ˆ 1 ]
1 1
L’équation (8) signifie que qu’il y a P = (1 – α) % de chance pour que la valeur de 1 se trouve
dans l’intervalle IC. En d’autres termes, en échantillonnage aléatoire répété, si l’on établit 100
intervalles comme celui que nous venons d’établir, P = (1 – α) sur ces 100 intervalles contiendront le
vrai  1.
t
Nota bene :  / 2 est lu dans la table de Student à (n – 2) degrés de liberté et la méthode est identique
pour  0.
APPLICATION NUMERIQUE
Soit la fonction estimée suivante :
Yˆt  0.65  1.1 X t n = 20 ˆ ˆ  0.07 ˆ ˆ  0.11

1 0
Trouver un intervalle de confiance à 95% pour 1 puis intrepréter.
SOLUTION
On sait que
ˆ 1   1
t ~ St (n – 2) alors dl = n – 2 = 20 – 2 = 18
ˆ ˆ
1
On a P = (1 – α) = 95% alors α = 5% = 0.05 et α / 2 = 0.025.

La Table de Student nous donne : t α / 2(n – 2) = t0.025 (18) = 2.101
Nous savons que
Pr o b ( t / 2  t  t / 2 )  0.95
d’où
1.1   1
Pr o b ( 2.101   2.101 )  0.95
0.07
Pr o b [ (2.101  0.07)  1.1 )   1  (2.101  0.07)  1.1 ]  0.95
Pr o b [ 0.953   1  1.247 ]  0.95
L’intervalle de confiance est : IC  [ 0.953 , 1.247 ]

Cela signifie que la probabilité que  1 soit dans l’intervalle [ 0.953 , 1.247 ] est 0 ou 1 mais
nous sommes confiants à 95% que dans le long terme, 95 sur 100 intervalles comme celui que nous
venons de construire contiendront le vrai paramètre 1 .
1.4.1.2. Intervalle de confiance pour la variance résiduelle  U2

Nous avons :
 Uˆ
2
W2  t
 U2 (9)
ce qui implique que
(n  2) Û2  Uˆ t
2
W2  car Û2 
 U
2
n2 (10)
Théorème : W2 suit une loi de 2 . On peut donc trouver dans la table de cette loi les valeurs de
 1 2 ayant la probabilité (1 – α / 2) d’être dépassée et  2 2 ayant la probabilité α / 2 d’être dépassée.

Et l’on a :
ˆ U
2
Pr o b (  2 ( 1   / 2 ) ( n  2 )  ( n  2 ) 2   2(  / 2 ) ( n  2 ) )  P  1  
U (11)
d’où l’intervalle de confiance au seuil à risque α symétrique pour  U2

 2 (1   / 2) ( n  2 ) 1  2 ( / 2 ) ( n  2 )
Pr o b (   )  P  1 (11a)
( n  2 ) ˆ U U ( n  2 ) ˆ U
2 2 2
( n  2 ) ˆ U ( n  2 ) ˆ U
2 2
 U  2 )  P  1
2
Pr o b ( 2
 ( / 2 ) ( n  2 )  (1   / 2) ( n  2 ) (12)
( n  2 ) ˆ U ( n  2 ) ˆ U
2 2
IC   , 
 2 ( / 2) ( n  2 )  2 (1   / 2) ( n  2 )
APPLICATION NUMERIQUE
A partir d’un échantillon de 14 observations l’on a obtenu le modèle estimé suivant :
Yˆt  0.55389  0.537527 X t Û  0.00548

2
α = 5%
Construisez un intervalle de confiance pour  U2 et interprétez le résultat.

SOLUTION
Le dl = n – 2 = 14 – 2 = 12. On trouve dans la table 2 :
 20.025 (12)  23.3367  20.975 (12)  4.40379

12  0. 00548 12  0. 00548
 U  )  P  0. 95
2
Pr o b (
23 . 3367 4. 40379
Pr o b ( 0. 002817   U  0. 01493 )  P  0. 95
2
d’où IC  [ 0. 002817 , 0. 01493 ]

En prélevant successivement des échantillons de manière aléatoire nous devons nous attendre que 95
sur 100 intervalles tels que celui que nous venons de créer incluront la variance inconnue de la
population dont les échantillons proviennent et l’intervalle de confiance que nous avons établi sur la
base d’un seul échantillon aléatoire est un des 100 intervalles en question.
1.4.2. Procédures des tests d’hypothèses
Décisions Décision relative à Ho Décision relative à Ha

(D1) (D2)
Hypothèses vraies
Ho Pas d’erreur Erreur de 1ème espèce ayant
pour probabilité α
Ha Erreur de 2 ème
espèce ayant Pas d’erreur
pour probabilité β
Au vu du tableau, nous pouvons à présent définir les types d’erreur.

 L’erreur qui consiste à rejeter l’hypothèse nulle Ho alors qu’elle est vraie est une erreur de
première espèce. La probabilité de commettre une erreur de première espèce dénotée α est
généralement appelée niveau ou seuil de signification du test d’hypothèse.
 L’erreur consistant à accepter l’hypothèse nulle Ho alors qu’elle est fausse est une erreur de
seconde espèce. La probabilité de commettre une erreur de seconde espèce est dénotée β.
1.4.2.1. Test d’hypothèses d’un paramètre

Si dans le cas d’une régression à une seule variable indépendante nous sommes amenés à tester les
hypothèses suivantes au seuil α (α pouvant être 0, 01 ; 0,05 ou 0,10). Trois cas peuvent se présenter.
1) Ho :  1  0 vs Ha :  1  0 (test unilatéral à droite)
Nous chercherons à obtenir à partir de l’échantillon les valeurs de ˆ 1 et

ˆ ˆ
1 et ces
informations nous permettront d’avoir tc appelé t-calculé comme :

ˆ 1   1
tc 
ˆ ˆ1
(13)
Ensuite nous pouvons à partir de là, définir la région critique pour ce test comme étant :
tc  t , n  2 (14)
En effet, si tc  t , n  2 nous rejetons Ho au seuil α et nous concluons que 1 est
significativement positif au seuil α. Si maintenant tc  t , n  2 nous dirons que les

informations contenues dans l’échantillon ne nous permettent pas de rejeter l’hypothèse nulle Ho. En
d’autres termes, 1 serait vraisemblablement égal à zéro.
2) Ho :  1  0 vs Ha :  1  0 (test unilatéral à gauche)

Avec un tel test nous ferons les mêmes calculs que dans le cas ci-dessus, cependant, la région critique
sera définie comme tc   t , n  2 . En effet, si tc   t , n  2 alors nous rejeterons
l’hypothèse nulle Ho selon laquelle 1 serait zéro et nous concluons que 1 est
significativement inférieur à zéro (c’est-à-dire 1 est négatif) au seuil α.
Les tests d’hypothèses Ho :  1  0 vs Ha :  1  0 et Ho :  1  0 vs Ha :  1  0 sont

appelés tests d’hypothèses unilatéraux. Ces tests sont ainsi appelés parce que les régions critiques qui
leur sont associées se trouvent à l’une ou l’autre extrémité de la distribution de la loi considérée (c’est-
à-dire t en ce qui nous concerne, cela peut être Z pour les grands échantillons). Un test bilatéral se
présentera comme suit :
3) Ho :  1  0 vs Ha :  1  0 (test bilatéral)
Nous calculerons, comme dans les cas précédents à partir de l’échantillon, ̂ 1 et

ˆ ˆ . Ensuite
1
nous chercherons à calculer le tc à partir de l’équation (13) :

ˆ 1   1
tc 
ˆ ˆ 1
(15)
Et la région critique qui est divisée en deux sous régions critiques sera définie par :
t c  t / 2 , n  2 (16)

Si la valeur absolue du t-calculé (tc) est supérieure à celle du t lu dans la table (c’est-à-dire
t / 2 , n  2 ) alors nous rejeterons l’hypothèse nulle Ho selon laquelle 1 serait égal à zéro et
nous conclurons qu’au seuil significatif α, 1 est différent de zéro. 1 peut-être soit positif ou
négatif mais il est significativement différent de zéro au seuil α qui nous est donné.
Nous résumons dans le tableau qui suit l’approche des tests d’hypothèses des paramètres basée sur le
t de Student.
Type d’hypothèse H0 Ha Règle de décision :
rejeter H0 si
Bilatéral 𝛽1 = 0 𝛽1 ≠ 0 |𝑡𝑐 | > 𝑡𝛼⁄2, 𝑛−2
Unilatéral à droite 𝛽1 ≤ 0 𝛽1 > 0 𝑡𝑐 > 𝑡𝛼, 𝑛−2
Unilatéral à gauche 𝛽1 ≥ 0 𝛽1 < 0 𝑡𝑐 < −𝑡𝛼, 𝑛−2
Exercice
Sachant que ˆ0  104,89 ˆ1  1,29 ˆ ˆ0
 9,2723 ˆ ˆ1
 1,85 n = 20 et R 2  0,16 .
Formuler puis conduire le test d’hypothèses pour les paramètres du modèle (faire le test bilatéral et
le test unilatéral à droite).
1.4.2.2. Tests d’hypothèses du coefficient de corrélation

Soit le ̂ coefficient de corrélation obtenu d’un échantillon de n paires d’observations ayant une
distribution jointe normale, l’on peut formuler les hypothèses suivantes :
1) Ho :   0 vs Ha :   0 au seuil α
L’hypothèse nulle indique l’absence d’association linéaire entre les paires de variables (X et Y par
exemple) alors que l’hypothèse alternative dit qu’il y aurait une association linéaire positive entre les
deux variables.
La règle de décision dans ce cas consiste à rejeter Ho si :
ˆ
t cal   t , n  2
1  ˆ  / n  2 
2
2) Ho :   0 vs Ha :   0 au seuil α
L’hypothèse alternative suggère l’existence d’une association linéaire négative entre ces deux
variables. Règle de décision : rejeter Ho si :
ˆ
t cal    t , n  2
1  ˆ  / n  2 
2

3) Ho :   0 vs Ha :   0 au seuil α
La règle de décision sera formulée de la façon suivante : Rejeter Ho si :
ˆ
tcal   t / 2 , n  2
1  ˆ  / n  2 
2
en d’autres termes l’on rejettera Ho si :

ˆ
 t / 2 , n  2
1  ˆ  / n  2 
2
et
ˆ
   t / 2 , n  2
1  ˆ  / n  2 
2
APPLICATION
Une étude portant sur 30 entreprises a indiqué que la corrélation entre la stabilité de l’emploi et l’âge
de l’entreprise était de 0,53.
Tester l’hypothèse d’absence de corrélation entre ces deux variables (nombre moyen des employés
restant au sein de leur entreprise jusqu’à l’âge de la retraite et l’âge de l’entreprise) contre l’existence
d’une corrélation positive entre les deux variables.
Ho :   0 vs Ha :   0
n = 30 ˆ  0,53   0,05
ˆ 0,53
t cal  
1  ˆ  / n  2 
2
1  (0,53)  / 30  2 
2
0,53
  3,313
0,719 / 28
Etant donné que tcal  t0,05 , 28  1,701 nous rejetons Ho et concluons qu’au seuil
α = 0,05 , ρ est significativement positif. Si maintenant α = 0,025, ici encore on a
tcal  t0,025 , 28  2,048 . Nous rejetons Ho et concluons que ρ est significativement positif.
1.4.2.3. Analyse de la variance pour régression simple

La méthode de l’Analyse de la Variance vise à tester la signification globale d’un modèle de
régression multiple. La méthode consiste à décomposer dans un tableau appelé Tableau de l’Analyse
de la Variance les variations totales que l’on cherche à expliquer en variations expliquées et en
variations non expliquées. Le tableau contient en outre la somme des carrés, les degrés de liberté
associés aux différentes sources des variations et les moyennes des carrés. Les moyennes des carrés
sont obtenues en divisant les sommes des carrés par leur degré de liberté respectif. Une fois cela
réalisé, l’on procède à la conduite du test d’hypothèse de signification globale du modèle à travers
le calcul d’un F (statistique de Fisher) sur la base des informations contenues dans le tableau de
l’analyse de la variance. Le Fcal ou Fc calculé est obtenu par le rapport de la moyenne des carrés de la
régression et de celle de l’erreur. Ce F calculé a un degré de liberté associé aux variations dues à la
régression au numérateur et celui associé à la variable résiduelle au dénominateur, au seuil α
préalablement donné.
Si le Fc est supérieur au F tabulé (Ftabou Flu) l’on rejetera l’hypothèse nulle de non significativité
globale du modèle au seuil α donné. Si en revanche, Le Fc est inférieur au F tabulé, on ne peut pas
alors rejeter l’hypothèse nulle.
Nous savons que :
  (Yˆt  Y ) 2 +  t t ˆ 2
(Yt  Y ) 2 = (Y  Y )
Yˆt  ˆ 0  ˆ 1 X t Y  ˆ 0  ˆ 1 X
D’où Yˆt  Y  ˆ 1 X t  X 
 (Yˆt  Y ) 2 ˆ 12 (Xt  X )
2
 =
La statistique F de Fisher se calcule comme suit :
 Yˆ  Y  / 1
2
F 
t
 Y  Yˆ  / (n  2 )
2 ~ F (1, n – 2) dl
t t
En d’autres termes
SCR / 1
F  ~ F (1, n – 2) dl
SCE / (n  2 )
En somme dans le cadre du test de l’analyse de la variance (ANOVA), le tableau de l’ANOVA se
présente comme suit :
Source de variations Formes quadratiques Degrés de liberté Variances

 Yˆ  Y 
Variations 2 k=1
expliquées par la SCR  t SCR
S1 
2
 ˆ 1  X t  X 
régression 2 2
1
 Y  Yˆ 
Variations non 2 n–2 SCE
expliquées SCE  t t S2 
2
n2
 Y 
Variations totales 2 n–1
STC  t Y
2
S1
F  2 ~ F (1, n – 2) dl
S2
REMARQUE
Dans le cadre du modèle simple, tester la significativité globale du modèle revient à tester la
significativité du coefficient  1. Autrement dit, dans le cas d’un modèle simple, la statistique F
de Fisher sert à tester la significativité d’un seul coefficient ( 1  0 ). C’est ainsi que dans le cas
d’un modèle de régression à deux variables, la statistique F calculée, utilisée pour tester
Ho :  1  0 est simplement le carré de la statistique t de Student.
ˆ 1
t  utilisée pour tester la même hypothèse ( Ho :  1 0
ˆ ˆ )
1
t2
On a donc = F.
Cela voudrait tout simplement dire que le test de l’analyse de la variance pour un modèle de régression
simple ne donne pas plus d’informations que l’on ne puisse pas avoir avec le test du t de Student.
Mais cela n’est pas vrai pour le modèle de régression multiple. Dans ce dernier cas, le test de
l’ANOVA teste effectivement la signification globale de l’ensemble des paramètres de la régression.
EXEMPLE
En considérant les informations suivantes
n = 25  Y  235,60 Y  9,424  X  1315 X  52,60
 XY  11821, 43  X 2
 76323 , 42  Y  2284 ,1102
2
1) Estimer les coefficients estimateurs des paramètres du modèle puis écrire l’équation estimée.
2) Dresser le tableau de l’analyse de la variance puis tester la signification globale du modèle au
seuil α = 0,05.
3) Calculer la variance des coefficients estimateurs des paramètres.
4) Tester l’hypothèse selon laquelle le coefficient de la variable explicative est significativement
différent de zéro au seuil α = 0,05.
SOLUTION
1) Estimation des coefficients estimateurs
ˆ 1 
 XY  n X Y 
11821 , 43  12392 , 56
  0,079829
X n X2 2
76323 , 42  69169
ˆ 0  Y  ˆ 1 X  9,424  (  0,079829) (52,60)  13,623
L’équation de la droite d’estimation est :
Yˆt  13,623  0,0798 X
2) Tableau de l’analyse de la variance
 Yˆ   ˆ 1  X   ˆ 1  X 
2 2
SCR  Y X n X2
2 2 2
t t

 (0,0798) 2 76323,42  25  (52,60) 2  45,59 
 Y   Y
2
STC  t Y 2
 nY 2
 2284,1102  25 (9,424) 2  63,82

SCE = STC – SCR = 63,82 – 45,59 = 18,23
Le tableau se présente comme suit :
Source de Somme des Degrés de Variances

variations carrés liberté
SCR 45,59 1 45,59
S1   45,59
2
SCE 18,23 23 S2 
2 18,23
 0,7926
23
2
STC 63,82 24 S1 45,59
F  2
  57,519
S2 0,7926
Nous pouvons maintenant effectuer le test de signification globale du modèle du modèle.

Ho : 1  0 vs Ha : 1  0
45,59
Fc   57,519   4,28
0 , 05
0,7926 F 1; 23
On constate que Fc  F 1; 23 . Nous rejetons Ho et concluons que le modèle est globalement

0 , 05
significatif au seuil α = 0,05.
3) Calcul des variances

Uˆ 2
 SCE  18,23

Uˆ18,23
2
ˆ  
 0,7926
2
U
n2 23
Une fois déterminée la variance résiduelle nous pouvons maintenant calculer celle des coefficients
estimateurs. Ce qui nous permet d’écrire :
ˆ  X
2 2
0,7926 (76323,42)
ˆ    0,3382
2 U t
ˆ o
n (Xt  X ) 2
25 (7154,42)
 ˆ ˆ  0,3382  0,5815
o
De même
ˆ
2
0,7926
ˆ    0,00011078
2 U
ˆ
1
(X t  X )2 7154,42
 ˆ  
ˆ
1
0,00011078  0,0105
4) Test d’hypothèses
Ho : 1  0 vs Ha : 1  0
ˆ 1  0,0798
tc     7,60
ˆ ˆ
1
0,0105
En consultant la table de la distribution du t nous trouvons que t0, 025 ; 23  2,069 . Nous
constatons bien que tc   7,60  t 0, 025 ; 23  2,069. De ce fait nous rejeterons Ho et
conclurons que nous sommes confiants 95% que la valeur de 1 est significativement différente
de zéro.
Notons que nous avons bien t2 = (– 7,60) = 57,76 = F
1.5. LA PREVISION
L’un des domaines essentiels d’application de l’analyse de la régression est la prévision. Les résultats
obtenus d’une analyse de régression peuvent être utilisés aussi bien pour les tests d’hypothèses que
pour les prévisions c’est-à-dire la détermination de l’impact de certains événements sur les variables
économiques.
Soit le modèle estimé suivant :
ˆ  24,4545  0,5091X n = 10, 𝑋̅ = 170, ∑ 𝑥 2 = 33000
t t
où est l’estimateur de la vraie valeur moyenne de Yt, E(Yt) pour Xt donné. Il y a deux possibilités de
faire la prévision de Yt pour une valeur donnée de X, disons 𝑋𝑓 :
- prévision de la valeur moyenne conditionnelle de Y pour 𝑋𝑓 , appelée prévision moyenne.
- prévision d’une valeur individuelle de Y pour 𝑋𝑓 , appelée prévision individuelle.

1.5.1. La prévision moyenne

Nous voulons prédire 𝐸(𝑌⁄𝑋𝑓 = 100)
On sait que
𝑌̂𝑓 = 𝛽̂0 + 𝛽̂1 𝑋𝑓 (1)
𝑌̂𝑓 = 24,4545 + 0,5091(100) = 75,3645
La valeur prédite de Y pour X = 100 est donc 75,3645 unités monétaires.
Puisque 𝑌̂𝑓 est un estimateur sans biais de 𝑌𝑓 , il est probable qu’il soit différent de sa vraie valeur. La
différence entre les deux valeurs nous donne une idée de l’erreur de prévision. Pour déterminer cette
erreur, il faut connaître la distribution de 𝑌̂𝑓 . On démontre que 𝑌̂𝑓 suit une loi normale avec pour
moyenne
𝑌𝑓𝑚 = 𝛽0 + 𝛽1 𝑋𝑓 , (2)
et pour variance
2
1 (𝑋𝑓 −𝑋̅)
𝑉𝑎𝑟(𝑌̂𝑓 ) = 𝜎𝑢2 [ + ∑(𝑋𝑡 −𝑋̅)2
] (3)
𝑛
En remplaçant 𝜎𝑢2 par son estimateur non biaisé 𝜎̂𝑢2 , nous pouvons écrire
𝑌̂𝑓 −𝑌𝑓𝑚
𝑡= ̂𝑌
𝜎 ̂
𝑓
qui suit la loi de Student à n – 2 degrés de liberté. Nous pouvons alors construire un intervalle de
confiance pour 𝑌𝑓𝑚
𝑃𝑟 [𝛽̂0 + 𝛽̂1 𝑋𝑓 − 𝑡𝛼⁄2 𝜎̂𝑌̂𝑓 ≤ 𝑌𝑓𝑚 ≤ 𝛽̂0 + 𝛽̂1 𝑋𝑓 + 𝑡𝛼⁄2 𝜎̂𝑌̂𝑓 ] = 1 − 𝛼 (4)
Ainsi, avec les données
1 (100−170) 2
𝑉𝑎𝑟(𝑌̂𝑓 ) = 42,159 [ + ] = 10,4759
10 33000
et
𝜎̂𝑌̂𝑓 = 3,2366.
L’intervalle de confiance à 95% pour la valeur moyenne 𝑌𝑓𝑚 est
𝑃𝑟[75,3645 − 2,306(3,2366) ≤ 𝑌𝑓𝑚 ≤ 75,3645 + 2,306(3,2366)] = 0,95
[67,9010 ≤ 𝑌𝑓𝑚 ≤ 82,8381]
Pour 𝑋𝑓 = 100 donné, dans un échantillonnage répété, 95 sur 100 intervalles comme celui que nous
venons d’obtenir inclurons la vraie valeur moyenne ; le seul meilleur point d’estimation de la vraie
valeur moyenne est naturellement le point d’estimation 75,3645.
1.5.2. La prévision individuelle

Nous voulons prédire une valeur individuelle de Y, 𝑌𝑓 qui correspond à 𝑋𝑓 et cette valeur est donnée
par
𝑌̂𝑓 = 𝛽̂0 + 𝛽̂1 𝑋𝑓 (5)

Avec Xf = 100, nous avons

𝑌̂𝑓 = 24,4545 + 0,5091(100) = 75,3645
La valeur individuelle prédite de Y pour X = 100 est donc 75,3645 unités monétaires.
L’estimateur sans biais de 𝑌𝑓 est
𝑌̂𝑓 = 𝛽̂0 + 𝛽̂1 𝑋𝑓 (6)
et sa variance est :
2
1 (𝑋𝑓 −𝑋̅)
𝑉𝑎𝑟(𝑒𝑓 ) = 𝑉𝑎𝑟(𝑌𝑓 − 𝑌̂𝑓 ) = 𝜎𝑢2 [1 + + ∑(𝑋𝑡 −𝑋̅)2
] (7)
𝑛
En remplaçant également 𝜎𝑢2 par son estimateur non biaisé 𝜎̂𝑢2 , nous pouvons écrire
𝑌𝑓 −𝑌̂𝑓 𝑌𝑓 −𝑌̂𝑓
𝑡 = 𝜎̂ = ̂𝑒𝑓
̂ )
(𝑌𝑓 −𝑌 𝜎
𝑓
qui suit aussi la loi de Student à n – 2 degrés de liberté. L’intervalle de confiance pour 𝑌𝑓 est
𝑃𝑟 [𝛽̂0 + 𝛽̂1 𝑋𝑓 − 𝑡𝛼⁄2 𝜎̂𝑒𝑓 ≤ 𝑌𝑓 ≤ 𝛽̂0 + 𝛽̂1 𝑋𝑓 + 𝑡𝛼⁄2 𝜎̂𝑒𝑓 ] = 1 − 𝛼 (8)
L’application donne
1 (100−170)2
𝑉𝑎𝑟(𝑒𝑓 ) = 42,159 [1 + + ] = 52,6349
10 33000
et
𝜎̂𝑒𝑓 = 7,255.
L’intervalle de confiance à 95% pour la valeur moyenne 𝑌𝑓 est
𝑃𝑟[75,3645 − 2,306(7,255) ≤ 𝑌𝑓 ≤ 75,3645 + 2,306(7,255)] = 0,95
[58,6345 ≤ 𝑌𝑓 ≤ 92,0945]
La différence entre la prédiction individuelle et la prédiction moyenne se situe au niveau de leur
variance.
Nous constatons que l’intervalle de confiance de la valeur individuelle de Y est plus grand que celui
de la valeur moyenne. Cela s’explique par deux éléments. La variance de (𝑌𝑓 − 𝑌̂𝑓 ),
𝑉𝑎𝑟(𝑒𝑓 ) 𝑜𝑢 𝑉𝑎𝑟(𝑌𝑓 − 𝑌̂𝑓 ) comporte deux sources d’erreur de prévision : l’une est liée à
l’imprévisibilité du terme de l’erreur et l’autre est associée à l’incertitude des coefficients estimateurs.
Alors que la variance de la valeur moyenne, 𝑉𝑎𝑟(𝑌̂𝑓 ) comporte une seule source d’incertitude, celle
des coefficients.
Le fait que la variable résiduelle de prévision ne soit pas connue, nous devons donc la remplacer par
une valeur estimée. Et l’estimation de la variable résiduelle constitue une source d’erreur. C’est la
source la plus répandue de l’erreur de prévision.
Puisque les paramètres ne sont pas connus dans la réalité, ils sont donc estimés. Et cet écart entre les
paramètres et les coefficients estimés constitue une source d’erreur de prévision. L’écart type des
coefficients estimés est une mesure de la précision avec laquelle les coefficients estimés mesurent les
vrais paramètres.

CHAPITRE II LA REGRESSION MULTIPLE

Les modèles de régression multiple linéaire résultent de la proposition selon laquelle les changements
de valeur d’une variable sont une fonction linéaire des changements de valeur de plusieurs autres
variables. Cependant, au fur et à mesure que le nombre des variables indépendantes augmente, il
devient difficile de résoudre les équations normales. Il faut dès lors recourir à d’autres notations et
techniques mathématiques pour traiter les problèmes comportant un plus grand nombre de variables
indépendantes. Dans ce cas l’on utilise l’algèbre matriciel en vue de simplifier les notations, les
dérivations, le calcul des estimateurs selon la méthode des moindres carrés et l’évaluation des
propriétés de ces estimateurs.
2.1. PRESENTATION DU MODELE

On appelle modèle linéaire général, le modèle de la forme :
Y   0   1 X 1   2 X 2  ...   k X k  U (1)
qui comprend n observations, où Y est la variable à expliquer ; X1, X2, …, Xk sont k variables
explicatives et U le terme de l’erreur.
Le modèle peut être encore écrit sous la forme d’une équation matricielle suivante
YX  U
alors l’équation de prédiction selon la méthode des MCO est :
Y  X ˆ  Uˆ  Yˆ  Uˆ
où Y = le vecteur colonne des observations pour la variable dépendante de dimension n x 1
X = la matrice des variables indépendantes de dimension n x k + 1
̂ = le vecteur des paramètres à estimer de dimension k + 1 x 1
Û = le vecteur des termes résiduels de dimension n x 1
Pratiquement la forme matricielle se présente comme suit :
 y1   x11 x21  xk1    1   u1 

 y   x x  x    u 
   
2 12 22 k 2      2
2
      

       
 y n   x1n x2 n  xkn    n  u n 
Les formes matricielles ci-dessus sont représentatives de modèles écrits sous forme homogène (c’est-
à-dire sans terme constant) :

Y   1 X 1   2 X 2  ...   k X k  U (2)
Pour le cas de modèle écrit sous forme non homogène (équation 1, i.e, avec terme constant), on
généralise le cas précédent en supposant que la constante ˆ 0 est multipliée par un vecteur unitaire
Xo :
Y   0 X 0   1 X 1   2 X 2  ...   k X k  U (3)
Dans ce cas, l’équation (3) devient homogène et la matrice X a alors une colonne complétée de
chiffres 1. Soit :
1 x11 x21  xk1 
1 x12 x22  xk 2 
X  
    
 
1 x1n x2 n  xkn 
Considérons l’exemple suivant où k = 2 et n = 5
10, 98 1 35 5  uˆ1 
11, 13  1 uˆ 
   29 10   ˆ 0   2
Y  12, 51 X  1 20   Uˆ  uˆ3 
30 ˆ   ˆ 1 
     
 8, 40  1 58 18   ˆ  uˆ 4 
 2 uˆ5 
10, 36 1 33 22
Nous pouvons alors écrire ce système comme
10, 98  ˆ 0  35 ˆ 1  5 ˆ 2  uˆ 1
11, 13  ˆ 0  29 ˆ 1  10 ˆ 2  uˆ 2
12, 51  ˆ 0  30 ˆ 1  20 ˆ 2  uˆ 3
8, 40  ˆ  58 ˆ  18 ˆ  uˆ
0 1 2 4
10, 36  ˆ 0  33 ˆ 1  22 ˆ 2  uˆ 5
ce qui est équivalent à
Y  X ˆ  Uˆ
Résoudre le modèle revient à estimer les paramètres  0 ,  1 ,  2 , ... ,  k qui sont
inconnus. On désigne par ˆ 0 , ˆ 1 , ˆ 2 , ... , ˆ k ces estimations.

2.2. HYPOTHESES DU MODELE

Ce sont les hypothèses d’application de la méthode des moindres carrés. Par construction, le modèle
est linéaire en X (ou sur ses coefficients), nous distinguons les hypothèses stochastiques (liées à
l’erreur U) des hypothèses structurelles.
2.2.1. Hypothèses stochastiques
- H1 Les valeurs Xi,t sont observées sans erreur.

- H2 E (Ut) = 0, l’espérance mathématique de l’erreur est nulle.
- H3 E (U2t) = σ2 la variance de l’erreur est constante (∀𝑡) (homoscédasticité).
- H4 E (Ut, Us) = 0 si t ≠ s, les erreurs sont non corrélées (ou encore indépendantes).
- H5 Cov (Xit, Ut) = 0, l’erreur est indépendante des variables explicatives
- H6 Ut ~ N (0, σ2), les erreurs suivent une loi normale de moyenne nulle et de variance σ2.
2.2.2. Hypothèses structurelles

- H7 : absence de colinéarité entre les variables explicatives, cela implique que la matrice (X’X) est
régulière et que la matrice (X’X) – 1 existe.
- H8 : n > k + 1, le nombre d’observations est supérieur au nombre de paramètres à estimer.
2.3. ESTIMATION DES PARAMETRES PAR LA METHODE DES
MOINDRES CARRES (MC)

Nous allons estimer les éléments de la matrice B en appliquant la méthode des moindres carrés. Les
 uˆ
2
estimateurs par la méthode des MCO sont calculés en minimisant t qui se présente sous la
forme matricielle comme
 uˆ  Uˆ ' Uˆ
2
t (1)
et
Uˆ  Y  X ˆ (2)
  
de ce fait
Uˆ ' Uˆ  Y  X Bˆ ' Y  X Bˆ (3)
On sait que :  ˆ   ˆ  
donc    ˆ      ˆ  
Ainsi
Uˆ ' Uˆ         ˆ  ˆ     ˆ    ˆ (4)
Les termes de cette somme sont des matrices format (1 , 1) i.e des scalaires. Or la transposée d’un
scalaire c’est ce même scalaire.

   ˆ
    
1, n n,k
scalaire de format (1 , 1) car on ne prend que les extrémités (bornes).
k ,1
Puisque   ˆ  ˆ

       
On peut donc dire que :
Uˆ ' Uˆ      2 ˆ     ˆ  ( ) ˆ (5)
Etant donné que ˆ ' X  Y  Y  X ˆ sont tous des scalaires, si l’on prend la dérivée
première par rapport à chacun des  j , nous aurons les valeurs du vecteur B qui minimisent la somme
des carrés des résidus, Uˆ ' Uˆ .

Faisons un petit rappel sur la dérivation (différenciation) et la transposition matricielles :
 Transposition
    (6)
        (7)
    (8)
C   C   (9)

  
Car C    C   C    C  
 Derivation sous la forme matricielle : si l’on a
 x1 
x 
   a1 a 2 ... a n   2 
 (10)
 
 xn 
Alors
    
 a1
 x1 (11)
    
 a2
 x2 (12)

    
 an
 xn (13)
ce qui peut être généralisé comme

   

 (14)
Si maintenant l’on a une forme quadratique comme

 a11  a1n   x1 
 a  
x2 
  x1 x2 ... xn    
22
    (15)
  
 n1
a  a nn 
  xn 
    
 2 a11 x1    a1n x n 
 x1

    
 2 a n1 x1    a nn xn 
(16)
 xn1
Mis à part le coefficient 2, les expressions sur la droite des équations (16) contiennent les éléments
du produit matriciel AX qui donnent un vecteur colonne de n éléments. D’autre part, l’on peut
considérer les expressions sur la droite des équations (16) comme des éléments du produit matriciel
X’A, qui donnent un vecteur ligne de n éléments.
Ainsi donc l’on peut écrire pour une généralisation que
    
 2  (17)

   
 2   (18)

En revenant à Uˆ ' Uˆ nous avons :
Uˆ ' Uˆ      2 ˆ     ˆ  ( ) ˆ
et
 Uˆ ' Uˆ

  
 2 ˆ     ˆ  (  ) ˆ


(19)
 ˆ  ˆ  ˆ

Les équations (14) et (17) permettent de réécrire l’équation (19) comme suit :
 Uˆ ' Uˆ
  2    2   Bˆ  0
 ˆ (20)
   ˆ    (21)
Il convient de noter que l’expression (21) représente notre système d’équations normales. Avec ce
système d’équations normales, nous pouvons trouver l’inverse de la matrice X’X de sorte que
( )  1 ( )   (22)
où I est la matrice identité. De ce fait, la solution au vecteur des  j s’obtient comme
( )  1 ( ) ˆ  ( )  1   (23)

Nous pouvons écrire que
ˆ  ( ) 1   (24) si (X’X) est non singulière
Pour que cette solution (équation 24) minimise Uˆ ' Uˆ , la matrice associée à la dérivée de second
ordre doit être définie positive. On a :
 Uˆ ' Uˆ
  2    2   Bˆ
 ˆ
donc
   Uˆ ' Uˆ   2 Uˆ ' Uˆ
   2  
ˆ  ˆ 
 '      '  ˆ ˆ (25)
En général, pour des problèmes où le nombre de variables indépendantes k dépasse 2, les solutions à
la matrice (X’X)– 1 sont généralement et facilement calculées par ordinateur. Il en est de même pour
toutes les multiplications des matrices. Cependant, et indépendamment du nombre k de variables
explicatives, si toutes les hypothèses de base à propos de Û t sont respectées, si en plus les Xi et Xj
ne sont pas fortement corrélées et que n – k – 1 > 0 (n – k – 1étant le degré de liberté du modèle),
alors nous pouvons obtenir (trouver) une solution à la matrice (X’X)– 1 de sorte que les estimateurs
des  j soient calculés. Et la valeur estimée de Y se présentera alors comme
Yˆ  X ˆ (25)

2.4. LES PROPRIETES DES ESTIMATEURS ̂

Les estimations selon la méthode des moindres carrés ordinaires se sont avérées sans biais pour k =
1. Les résultats obtenus pour ce cas précis demeurent valables pour le cas où k est supérieur à 1.
 
ˆ  (1)
cela provient du fait que
ˆ  ( )  1  (    U ) Y X U
 (2) car

ˆ  (  )  1 (  )   ( )  1  U
 (3)

ˆ    (  ) 1  U (4)
 
 ˆ    ( )  1    U  (5)
étant donné que  U   0

nous pouvons écrire que
 
 ˆ   (6)
En d’autres termes, l’espérance mathématique de chaque ̂ est égale à la valeur du paramètre
correspondant de la population. Nous disons donc que les estimateurs des  par la méthode des
moindres carrés ordinaires sont des estimateurs sans biais.
La variance de ̂ peut aussi être calculée. Pour cela, considérons l’expression (4) qui nous permet
d’écrire que :
ˆ    ( ) 1  U (7)
De sorte que    

var ˆ    ˆ   ˆ     puisse s’écrire comme
 
var  ˆ       1
 UU '     1  (8)
Ceci provient du fait que nous avons utilisé la règle selon laquelle C   C   et en
– 1
oubliant pas le fait que (X’X) est une matrice symétrique parce que (X’X) est une matrice
symétrique - c’est-à-dire que
(X’X)’ ≡ (X’X).

Ainsi donc nous dirons que
 
var ˆ  ( )  1    U U '     
1
(9)
  U U '   U 
2
et puisque alors nous pouvons écrire que
 
var ˆ  ( )  1        U
1 2
 ( )  1       U
1 2
(10)


 (   )  1  U
2
Donc
 
var ˆ   U (  )  1
2
(11)
Il est important de noter que la variance de n’importe quel coefficient 

ˆ peut être obtenue en
j
prenant le jème terme de la principale diagonale de la matrice (X’X)– 1 multiplié par  U

2
, la variance
de Û t . Il faut aussi noter que les valeurs en deçà de cette diagonale sont utilisées pour le calcul
des covariances entre les 

ˆ et ̂ i avec j ≠ i.
j
̂ = 𝑾𝒀 avec 𝑾 = (𝑿′ 𝑿)−𝟏 𝑿′ ,

Enfin, 𝑩 (12)
cela démontre que 𝐵̂ est une fonction linéaire de Y.
2.5. MATRICE DES VARIANCES -COVARIANCES ET ESTIMATION
DE LA VARIANCE RESIDUELLE
U ˆ U
2 2
La variance résiduelle étant inconnue, on l’estime par qui est un estimateur sans biais
U
2
de la variance . On l’estime par :
Uˆ ' Uˆ
ˆ U 
2
n  k 1 (1)
où n – k – 1 est le nombre de degrés de liberté avec k le nombre de variables explicatives.

On sait que :

Uˆ ' Uˆ  Y  X Bˆ ' Y  X Bˆ  
Uˆ ' Uˆ      2 ˆ     ˆ  ( ) ˆ

ˆ  ( ) 1   et ˆ '     (  )  1
En remplaçant ̂ et ̂ ' par leur valeur, il vient
Uˆ ' Uˆ   '   2  '  ( ' )  1 (  )   '  ( ' )  1  ' ) ( ' )  1 ( '  )

Uˆ ' Uˆ         (  )  1  
 
ˆ 
Uˆ ' Uˆ      ˆ    (2)
Et l’estimateur de la variance résiduelle est :
Uˆ ' Uˆ     ˆ   
ˆ U 2   (3)
n  k 1 n  k 1
L’estimateur de la variance de la variable résiduelle Û t nous permet d’écrire
 
var ˆ  ˆ U (  )  1
2
(4)
La matrice ˆ U (   )  1
2
est appelée encore matrice des variances et covariances des 
ˆ se
j
présente comme
 var (  0 ) cov (  0 1 )  cov (  0  k )
 cov (   ) var ( 1 )  cov ( 1  k ) 
ˆ U (  )  1  
2 1 0
      (5)
 
cov (  k  0 ) cov (  k 1 )  var (  k ) 
2.6. L’APPROCHE MATRICIELLE DANS LE CALCUL DE R2

Nous pouvons définir le coefficient de détermination R2 selon l’approche matricielle comme
ˆ    
1
   2
ˆ     n  2 ˆ    ˆ  n  2
R 
2 n  
  
1
   2    n  2    n  2 (1)
n
ou encore
ˆ  ˆ  n  2 Uˆ  Uˆ
R  
2
 1
   n  2    n  2 (2)

ˆ     n  2  
avec SCR   ˆ    
ˆ  n2  
ˆ
ˆ  n  2 , la somme des
carrés de la régression ;
SCE  Uˆ ' Uˆ      
ˆ    , la somme des carrés des erreurs, et ;
STC      nY 2 , la somme totale des carrés.
En fonction des notations ci-dessus, le coefficient de détermination non ajusté peut s’écrire :
SCR SCE
R2    1 (3)
STC STC
Le coefficient de détermination R2 (ou coefficient de corrélation multiple) est défini comme étant la
mesure de la proportion des variations de la variable dépendante expliquée par les variations des
variables indépendantes. Avec la méthode des moindres carrés ordinaires, lorsqu’une variable
supplémentaire est introduite dans le modèle de régression, cela entraîne nécessairement une
réduction de la somme du carré des erreurs (SCE). Ainsi donc, la valeur de R 2 doit augmenter avec
l’introduction de nouvelles variables indépendamment de la pertinence de ces variables.
Considérons le cas où
Yt  ˆ 0  ˆ 1 X 1 t  Uˆ 1 t (4)
Yt  ˆ 0  ˆ 1 X 1 t  ˆ 2  2 t  Uˆ 1 t (5)
Bien que les variables dépendantes soient les mêmes, les R2 pour les deux équations ne sont pas
comparables parce que le nombre de variables indépendantes n’est pas le même. L’on peut corriger
cette différence en tenant compte du changement dans le degré de liberté dans l’équation (5).
Si nous définissons
uˆ   
uˆt
2
 ˆ uˆ
2
var (6)
dl
comme étant la variance de la variable résiduelle (i.e la somme des carrés des termes de l’erreur
divisée par le degré de liberté). Lorsque l’on augmente le nombre de variables indépendantes, le
numérateur et le dénominateur de l’équation (6) peut ne pas changer car la valeur de var û 
dépendra des réductions proportionnelles du numérateur et du dénominateur de l’équation (6). (Il
arrive même qu’au-delà d’un certain seuil, l’augmentation du nombre des variables explicatives
entraîne une augmentation de var û  ).
uˆ   
uˆt
2
Comme nous le constatons, var tient compte du degré de liberté alors que le R2
dl
n’en fait pas cas. En effet, au fur et à mesure que le nombre des variables explicatives augmente, R 2
augmente jusqu’à ce qu’il atteigne 1.0. C’est pour remédier à cela que l’on a coutume de faire ressortir

𝑅̅ 2 dénommé coefficient de détermination corrigé ou coefficient de détermination ajusté par le

degré de liberté. Le coefficient se présente comme :
R 2 1
n  1  
1 R  2
n  k  1  (7)
ou
R 2  R2 
k
n  k  1 

1 R2 
n – 1 étant le degré de liberté associé à la variable expliquée, k est le nombre de régresseurs et nous
soustrayons k + 1 de n parce que nous estimons 

ˆ ˆ
en plus des  (j = 1, k) coefficients des k
0 j
régresseurs.
En général, le coefficient de détermination ajusté peut être utilisé pour évaluer l’apport explicatif
d’une variable indépendante à un modèle ou pour comparer le pouvoir explicatif de plusieurs modèles
ayant le même nombre de variables indépendantes. C’est dire que, si les modèles linéaires ont le
même nombre de variables exogènes (variables explicatives), alors l’on peut procéder à la
comparaison de leur pouvoir explicatif sur la base de leur R2. En revanche, si le nombre de variables
indépendantes est différent d’un modèle à l’autre, alors il est plus pertinent de comparer le pouvoir
explicatif de ces modèles sur la base de leur coefficient de détermination ajusté 𝑅̅ 2 . Cependant, il
serait inapproprié d’utiliser soit R2 ou 𝑅̅ 2 lorsque la variable dépendante ou expliquée est définie (ou
transformée).
2.7. TESTS D’HYPOTHESES ET INTERVALLES DE CONFIANCE

Les tests d’hypothèses et les intervalles se construisent de la même manière que dans le modèle de
régression linéaire simple. La différence se situe au niveau du degré de liberté. Dans le modèle de
régression multiple nous utilisons n – k – 1 degrés de liberté, avec k le nombre de variables
explicatives dans le modèle.
2.7.1. Intervalles de confiance
2.7.1.1. Intervalles de confiance pour les paramètres

L’intervalle de confiance pour le paramètre 𝛽𝑗 est de la forme
IC  [ t / 2 ˆ ˆ  ˆ j , t / 2 ˆ ˆ  ˆ j ]
j j
L’équation (2) signifie que qu’il y a P = (1 – α) % de chance pour que la valeur de j se trouve
dans l’intervalle IC. En d’autres termes, en échantillonnage aléatoire répété, si l’on établit 100
intervalles comme celui que nous venons d’établir, P = (1 – α) sur ces 100 intervalles contiendront le
vrai  j.
Nota bene : t / 2 est lu dans la table de Student à (n – k – 1) degrés de liberté.
2.7.1.2. Intervalle de confiance pour la variance résiduelle U 2

L’intervalle de confiance de la variance de l’erreur, U 2 permet de déterminer quelle est la
variation de l’amplitude de l’erreur. Il est donné par :
( n  k  1 ) ˆ U ( n  k  1 ) ˆ U
2 2
IC   , 
 ( / 2) ( n  k  1 )
2
 2 (1   / 2) ( n  k  1 )
2.7.2. Tests d’hypothèses

Comme dans le cas d’une régression à une seule variable indépendante nous sommes amenés à tester
les hypothèses suivantes au seuil α (α pouvant être 0, 01 ; 0,05 ou 0,10).
1) Ho :  j  0 vs Ha :  j  0
Nous chercherons à obtenir à partir de l’échantillon les valeurs de ̂ j et

ˆ ˆ et ces
j
informations nous permettront d’avoir tc appelé t-calculé comme :
ˆ j   j
tc 
ˆ ˆ
j
Ensuite nous pouvons à partir de là, définir la région critique pour ce test comme étant :
t c  t , n  k  1
En effet, si t c  t , n  k  1 nous rejetons Ho au seuil α et nous concluons que j est
significativement positif au seuil α. Si maintenant t c  t , n  k  1 (c’est-à-dire
t c  t , n  k  1 ) nous dirons que les informations contenues dans l’échantillon ne nous
permettent pas de rejeter l’hypothèse nulle Ho. En d’autres termes, j serait vraisemblablement
égal à zéro.
2) Ho :  j  0 vs Ha :  j  0

Avec un tel test nous ferons les mêmes calculs que dans le cas ci-dessus, cependant, la région critique
sera définie comme t c   t , n  k  1 . En effet, si t c   t , n  k  1 alors nous rejeterons
l’hypothèse nulle Ho selon laquelle j serait zéro et nous concluons que j est
significativement inférieur à zéro (c’est-à-dire j est négatif) au seuil α.
3) Ho :  j  0 vs Ha :  j  0
Nous calculerons, comme dans les cas précédents à partir de l’échantillon, ̂ j et

ˆ ˆ .
j
Ensuite nous chercherons à calculer le tc à partir de l’équation
ˆ j   j
tc 
ˆ ˆ
j
Et la région critique qui est divisée en deux sous régions critiques sera définie par :
t c  t / 2 , n  k  1
Si la valeur absolue du t-calculé (tc) est supérieure à celle du t lu dans la table (c’est-à-dire
t / 2 , n  k  1 ) alors nous rejeterons l’hypothèse nulle Ho selon laquelle j serait égal à zéro
et nous conclurons qu’au seuil significatif α, j est différent de zéro. j peut être soit positif
ou négatif mais il est significativement différent de zéro au seuil α qui nous est donné.
2.8. TABLEAU D’ANALYSE DE LA VARIANCE ET TEST DE SIGNIFICATION

GLOBALE D’UNE REGRESSION
Il s’agit ici de savoir si l’ensemble des variables explicatives a une influence sur la variable à
expliquer. Ce test peut être formulé de la manière suivante : existe-t-il au moins une variable
explicative significative ?
Soit le test d’hypothèses :
Ho :  1   2     k  0 (tous les coefficients sont nuls)
H1 : il existe au moins un des coefficients non nul
Nous ne testons pas le cas où le terme constant  0 est nul, car seules nous intéressent les variables
explicatives. Un modèle dans lequel seul le terme constant est significatif n’a aucun sens économique.
Dans le cas où l’hypothèse Ho est acceptée, cela signifie qu’il n’existe aucune relation linéaire
significative entre la variable expliquée et les variables indépendantes (ou encore que la Somme des
Carrés Expliqués (ou de la régression) n’est pas significativement différente de zéro).

Nous partons de l’équation fondamentale d’analyse de la variance :
 (Y  Y )  (Yˆ  Y )  (Y  Yˆt )
2 2
2
t = t + t
 (Y  Yˆ )   uˆ
2 2
avec t t t
La régression est jugée significative si la variabilité expliquée est significativement différente de zéro.
Le tableau ci-dessous présente le tableau d’analyse de la variance permettant d’effectuer le test de
Fisher.
Source de variation Formes quadratiques Degrés de liberté Variances (ou carrés

(somme des carrés) moyens)
 Yˆ 
X1, X2, …, Xk 2 k
SCR  t Y SCR
S1 
2
 Y  Yˆ 
Variations non 2 n–k–1 SCE
expliquées SCE  t t S2 
2
n  k 1
  uˆ t
2
 Y 
Variations totales 2 n–1
STC  t Y
La statistique F de Fisher se présente comme suit :
 Yˆ  Y 
2
/k R2 / k
 
t
Fcal
 uˆt / (n  k  1 )
2
 
1  R 2 / (n  k  1 )
L’hypothèse de normalité des erreurs implique que sous l’hypothèse Ho, Fcal suit une loi de Fisher
(rapport de deux chi-deux). Nous comparons donc ce F calculé au F théorique à k et
(n – k – 1) degrés de liberté :
si Fcal > F(k, n – k – 1) nous rejetons l’hypothèse nulle Ho, le modèle est globalement significatif.
EXEMPLE
Le tableau ci-dessous regroupe les données concernant la consommation par tête, le revenu disponible
par tête et le temps d’un pays donné. La consommation et le revenu sont en unités de compte (UC) et
l’indice de temps par année. Soient Y, la consommation par tête, X1 le revenu disponible par tête et
X2, l’indice de temps.

Y X1 X2
1673 1839 1
1688 1844 2
1666 1831 3
1735 1881 4
1749 1883 5
1756 1910 6
1815 1969 7
1867 2016 8
1948 2126 9
2048 2239 10
2128 2336 11
2165 2404 12
2257 2487 13
2316 2535 14
2324 2595 15
TAF :
1) Ecrivez le modèle sous forme matricielle tout en précisant la dimension des matrices.
2) Donnez la forme estimée du modèle puis interprétez les coefficients estimateurs des
paramètres du modèle.
3) Calculez la variance des coefficients estimateurs des paramètres du modèle.
4) Déterminez R 2 et R 2 puis interprétez-les.
5) Faites le test d’hypothèses approprié pour chacun des paramètres du modèle au seuil
α = 0,05.
6) Faites le test de signification globale du modèle au seuil α = 0,05.
RESOLUTION
1) Forme matricielle du modèle
La forme matricielle du modèle peut se présenter comme suit :

1673  1 1839 1  uˆ1 

1688  1 1844 2   uˆ 
    2
1666  1 1831 3  uˆ 3 
     
1735  1 1881 4  uˆ 4 
1749  1 1883 5  uˆ 5 
     
1756  1 1910 6  uˆ 6 
1815  1 1969 7 ˆ
 0   uˆ 
    ˆ   7
1867   1 2016 8   1    uˆ 8 
1948  1 2126 9  ˆ   uˆ 
     2  9
 2048 1 2239 10 uˆ10 
     
 2128 1 2336 11 uˆ11 
 2165 1 2404 12 uˆ12 
     
2257 1 2487 13 uˆ13 
 2316 1 2535 14 uˆ 
     14 
 2324 1 2595 15 uˆ15 
Y  X Bˆ  uˆ
15  1 15  3 31 15  1
2) Equation estimée et interprétation des coefficients estimateurs

Pour déterminer l’équation estimée, il nous faut estimer les paramètres à partir de la formule
suivante :
Bˆ  ( X ' X ) 1 X ' Y
Nous avons :
1 X 11 X 21 
1 X 22 
 1 1 1  1   X 12
X ' X   X 11 X 12 X 13  X 1n  1 X 13 X 23 
 
 X 21 X 22 X 23  X 2 n    
 1 X 1n X 2 n 
 n

 X 1t2  X 2t 
   X 1t  X 1t  X 1t X 2t 
 X
 2t  X 1t X 2t  X 2t 
2
 15 31895 120 
 31895 68922513 272144

 120 272144 1240 
et

29135
X ' Y  62905821
247934
En utilisant les règles d’inversion des matrices, nous obtenons
 37,232491  0.0225079 1,3366965 
( X ' X )   0,0225079 0,0000137  0,0008319
1
 1,3366965  0,0008319 0,054034 

d’où
300,28625
B  ( X ' X ) X ' Y   0,74198 
ˆ 1
 8,04356 
Le modèle estimé est
Yˆ  300,2862  0,7419 X  8,0435 X
t 1t 2t
Nous pouvons maintenant interpréter les coefficients estimateurs des paramètres du modèle.
ˆ0  300,2862 signifie que la valeur moyenne de la consommation par tête est de 300,2862 UC
lorsque le revenu disponible par tête et l’indice de temps sont tous deux égal à zéro.
ˆ  0,7419 est l’estimateur de la propension marginale à consommer du revenu disponible par tête.
1
Il indique, ceteris paribus, qu’une augmentation du revenu disponible par tête d’une unité de compte
entraîne un accroissement de la dépense moyenne de consommation par tête de 0,7419 unité de
compte.
ˆ  8,0435 montre que, toutes choses étant égales par ailleurs, la dépense moyenne de
2
consommation par tête croît de 8,0435 unités de compte par an durant la période d’étude.
3) Calcul des variances

Déterminons d’abord la variance résiduelle.
 uˆ  uˆ ' uˆ
2
t
 Y ' Y  Bˆ ' X ' Y

 29135 
 57420003  300,28625 0,74198 8,04356 62905821
 247934 
 1976,85574
La variance résiduelle est alors égale à
uˆ ' uˆ 1976,85574
ˆ u  n  k  1  12  164,73797
2
Une fois déterminée la variance résiduelle nous pouvons présenter la matrice des variances-
covariances comme suit :

6133,65151  3,70794 220,20634

ˆ ˆ  var  cov Bˆ 
 B

ˆ u ( X ' X )
2 1
   3,70794 0,00225  0,13705 
 220,20634  0,13705 8,90155 
Donc
ˆ  6133,65151 ˆ  0,00225 ˆ  8,90155
2 2 2
ˆ ˆ ˆ
et
0 1 2
ˆ ˆ0
 78,31763 ˆ ˆ1
 0,04743 ˆ ˆ2
 2,98354
4) Détermination et interprétation de R 2 et R 2 .
ˆ     n  2
R2 
   n  2
SCR  Bˆ ' X ' Y  n Y 2  828144,47786
STC  Y 'Y  n Y 2  830121,333
828144,47786
Alors R2   0,99761
830121,333
R 2 , le coefficient de détermination non ajusté nous indique que les variations de la consommation
par tête sont à 99,76% expliquées par les variations du revenu disponible par tête et du facteur temps.
Ou bien l’équation de régression explique 99,76% les variations de la consommation par tête.
On peut maintenant déterminer R 2 une fois obtenu R 2 .

Ici on a k = 2 variables explicatives, n = 15 observations. Donc le degré de liberté est :
dl = n – k – 1 = 15 – 2 – 1= 12
R 2
1
n  1  1  R  2
n  k  1 
15  1
 1 1  0,99761  1  14 0,00239
15  2  1 12
 0,99721
R 2 , le coefficient de détermination corrigé nous indique que l’équation de régression explique

99,72% des variations de la consommation par tête avec la prise en compte des degrés de liberté
associés aux variables exogènes et endogène.
5) Tests d’hypothèses
Ho :  0  0 vs Ha :  0  0

ˆ 0   0 ˆ 0
tc  
ˆ ˆ
0
ˆ ˆ 0
300,2862
  3.8342
78,3176
Nous savons que t ; n  k  1  t0,05 ; (15  2  1)  t0,05 ; 12  1 ,782 .
On a tc  3,8342  t0,05 ; 12  1,782

Donc nous rejetons l’hypothèse nulle H0, et concluons que le paramètre 0 est significativement
positif.
Ho : 1  0 vs Ha : 1  0
ˆ 1   1 ˆ 1
tc  
ˆ ˆ
1
ˆ ˆ 1
0,74198
  15,6436
0,04743
t ; n  k  1  t0,05 ; (15  2  1)  t0,05 ; 12  1 ,782 .
On a tc  15 ,6436  t 0,05 ; 12  1,782

positif.
Ho :  2  0 vs Ha :  2  0
ˆ 2   2 ˆ 2
tc  
ˆ ˆ
2
ˆ ˆ 2
8,04356
  2,6959
2,98354
t ; n  k  1  t0,05 ; (15  2  1)  t0,05 ; 12  1 ,782 .
On a t c  2,6959  t 0,05 ; 12  1,782

positif.
Par exemple, si nous voulons faire un test bilatéral pour le paramètre 1 la formulation de
l’hypothèse se fera comme suit :

Ho : 1  0 vs Ha : 1  0
ˆ 1   1 ˆ 1
tc  
ˆ ˆ ˆ ˆ
1 1
0,74198
  15,6436
0,04743
t / 2 ; n  k  1  t0,025 ; (15  2  1)  t0,025 ; 12  2 ,179 .
On a t c  15 ,6436  15 , 6436  t 0,025 ; 12  2 ,179

Donc nous rejetons l’hypothèse nulle H0, et concluons que le paramètre 1 (la propension marginale
à consommer du revenu disponible par tête) est significativement différent de zéro.
6) Test de signification globale du modèle

Ho :  1   2  0
H1 : il existe au moins un des coefficients non nul
SCR / k
Fc 
SCE / (n  k  1)
828144,47786 / 2

1976,85574 / 12
414072,2389

164,73797
 2513,5202
La table de Fisher nous dit que
 3,89
0 , 05
F 2 ; 12
 2513,52  F
0, 05
On constate que Fc  3,89 ,
2 ; 12
nous rejetons l’hypothèse nulle H0. Le modèle est globalement significatif.
2.9. LA PREVISION
2.9.1. La prévision individuelle

Soit la fonction estimée suivante
ˆ t  4  2,5 1t  1,5  2 t (1)
Supposons que nous désirons obtenir une prévision individuelle de Y pour X1 = 10 et X2 = 10. En
remplaçant ces valeurs dans l’équation de régression on obtient la valeur prédite:
ˆ  4  2,5 (10)  1,5 (10)  14
 f
Ou bien sous forme matricielle,

𝛽̂0
𝑌̂𝑓 = [1 𝑋1 𝑋2 ] [𝛽̂1 ] = 𝑋𝑓 𝐵̂ (2)
𝛽̂2
avec 𝑌̂𝑓 valeur future ou prévisible de Y correspondant à une valeur donnée de X, notamment 𝑋𝑓 ; 𝑋𝑓 ,
un vecteur ligne et B̂ , un vecteur colonne.
En remplaçant les éléments par leur valeur, nous obtenons
4
̂
𝑌𝑓 = [1 10 10] [ 2,5 ] = 14
−1,5
La variance de la prévision individuelle est

𝑉𝑎𝑟(𝑒𝑓 ) = 𝑉𝑎𝑟(𝑌𝑓 − 𝑌̂𝑓 ) = 𝜎𝑢2 [1 + 𝑋𝑓 (𝑋 ′ 𝑋)−1 𝑋𝑓′ ] (3)
En remplaçant  u
l’inconnue par sa valeur estimée
ˆ u
 uˆ ' u / (n  k  1 ) (4)
nous pouvons maintenant construire un intervalle de confiance à 100(1 – α)% pour la prévision
individuelle, Yf. L’intervalle se présente comme suit :
ˆ f  t ( / 2 , n  k 1)  ˆ u 1  X f ( X ' X ) 1 X ' f (5)

où Xf est un vecteur ligne dont le premier élément est un nombre 1, les autres éléments étant donnés
par les valeurs prises par les variables explicatives X au cours de la période de prévision.
APPLICATION
 5 15 25   26,7 4,5  8,0
ˆ  0,75   ( X ' X )   4,5 1,0  1,5 
2
1
u X ' X  15 55 81 
25 81 129  8,0  1,5 2,5 
ˆ u
 0,866 et α = 0,05, t 0,025 (2) = 4,303 avec n = 5, alors
 26,7 4,5  8,0  1 
X f (X ' X ) 1
X ' f  1 10 10  4,5 1,0  1,5  10
 8,0  1,5 2,5  10
1
=  8,3  0,5 2,0 10  6,7
 
10
D’où 14  4,303  0,866 1  6,7  14  10,34

L’intervalle de confiance est [3,66 ≤ 𝑌𝑓 ≤ 24,34].
C’est une prévision par intervalle pour Yf, valeur de Y pour la période de prévision. L’intervalle nous
dit que Yf a 95% de chance de se trouver dans cet intervalle de confiance.

2.9.2. La prévision moyenne

Pour déterminer la valeur de la prévision moyenne, nous utilisons la formule de l’équation (2),
c’est-à-dire,
𝛽̂0
𝑌̂𝑓 = [1 𝑋1 𝑋2 ] [𝛽̂1 ] = 𝑋𝑓 𝐵̂ (6)
𝛽̂2
avec 𝑌̂𝑓 valeur future ou prévisible de Y correspondant à une valeur donnée de X, notamment 𝑋𝑓 ; 𝑋𝑓 ,
un vecteur ligne et B̂ , un vecteur colonne.
On obtient également 14 avec les données sous la main :
4
𝑌̂𝑓 = [1 10
10] [ 2,5 ] = 14
−1,5
La variance de la prédiction moyenne s’obtient grâce à la formule suivante
𝑉𝑎𝑟(𝑌̂𝑓 ) = 𝜎𝑢2 [𝑋𝑓 (𝑋 ′ 𝑋)−1 𝑋𝑓′ ] (7)
En remplaçant également  u
l’inconnue par sa valeur estimée
ˆ u
 uˆ ' u / (n  k  1 )
nous pourrons établir aisément un intervalle de confiance à 100(1 – α)% pour la prévision moyenne,
𝑌𝑓𝑚 . Cet intervalle est de la forme
ˆ f  t ( / 2 , n  k 1)  ˆ u X f ( X ' X ) 1 X ' f (8)

Avec l’exemple précédent nous avons le résultat suivant :
14  4,303  0,866 6,7
La valeur moyenne de Yf est comprise entre 4,36 et 23,64, c’est -dire que : [4,36 ≤ 𝑌𝑓𝑚 ≤ 23,64].

CHAPITRE III : LES PROBLEMES D’ESTIMATION

Dans les chapitres précédents, nous avons développé les procédures d’estimation des moindres carrés
ordinaires. Nous avons aussi été amenés, dans ce cadre, à dériver les propriétés statistiques pour ces
estimateurs. Les estimateurs ont été obtenus après avoir au préalable, imposé des restrictions
implicites sur les variables résiduelle et indépendantes. Lorsque certaines de ces restrictions ne sont
plus vérifiées, l’on devrait alors s’attendre à un changement dans les propriétés initialement établies.
Nous traiterons de certains de ces problèmes d’estimation dans ce chapitre. La plupart des problèmes
d’analyse de régression proviennent principalement des problèmes de données et/ou ceux de
spécification inappropriée de la structure du modèle en présence. Dans chacune de ces situations, les
conséquences de ces problèmes de même que leurs remèdes seront analysés.
3.1. LA MULTICOLINEARITE
La multicolinéarité est un phénomène qui, dans un modèle, provient du fait que deux ou plusieurs
variables indépendantes ont tendance à varier en même temps et de la même façon. Elles sont si
fortement corrélées qu’il est impossible de séparer leurs effets respectifs sur la variable dépendante.
Dans ces conditions, il devient difficile d’interpréter les paramètres de notre équation de régression
quand bien même ces variables seraient théoriquement très importantes.
3.1.1. La multicolinéarité Parfaite (totale)

Supposons que :
X1= kX2 (1)
En utilisant la notation matricielle, nous savons que :
Bˆ   X ' X 1 X ' Y (2)
Cependant, X’X sera une matrice singulière (non régulière) puisque l’une des colonnes de la matrice
X’X est une transformation linéaire d’une autre colonne de sorte que (X’X)–1 n’est pas définie. En
d’autres termes, le déterminant de X’X est zéro de sorte qu’aucun des ????? (estimateurs) n’est défini,
étant donné que l’inverse de X’X c’est-à-dire (X’X)–1 ne peut pas être déterminée.
3.1.2. La Multicolinéarité Moins que Parfaite

Les variables indépendantes peuvent être fortement liées mais pas de façon parfaite, soit par exemple :
0,5   X i X j  1 (1)
Dans ce cas, (X’X)–1 peut être obtenue ; cependant, les résultats auront des effets importants sur la
variable résiduelle (terme de l’erreur) du modèle. S’il y a une différence suffisante entre les vecteurs
de la matrice X, (X’X)–1 peut être alors calculée et le vecteur B̂ peut être estimé.
Cependant, plus le degré de corrélation entre deux vecteurs Xj se renforce, plus le déterminant de
X’X approche zéro. Dans ces conditions, (X’X)–1 devient une très grande matrice. Comme nous
savons que la variance de nos estimateurs est égale à :
𝑽𝒂𝒓(𝑩 ̂) = 𝝈̂ 𝟐𝑼 (𝑿′𝑿)−𝟏 (2)

̂ ) augmente
Nous voyons donc qu’au fur et à mesure que le degré de corrélation se renforce, la 𝑽𝒂𝒓(𝑩
et le degré de précision de nos estimateurs diminue. Pour le cas où le nombre de variables
indépendantes k = 2 nous savons que :
  x 22 
ˆ  ˆ U  
2 2
  x 1  x 2   x1 x2  
ˆ
1 2 2 2 (3)
Ou encore
 
2 1 
ˆ ˆ 1 ˆ U  2  2  

2
  x 1 1   x x  
  1 2 
Au fur et à mesure que ˆ x1x2 augmente, le dénominateur devient plus petit et ˆ ˆ

2
1
devient alors
plus grand. Ce qui met en évidence la perte de précision de notre estimateur.
Etant donné que les estimateurs ont désormais de grandes variances, les rapports qui donnent les
valeurs des t calculés auront tendance à être très petits.
ˆ j
t
ˆ ˆ (4)
j
Dans ces conditions, il y a de fortes chances pour que l’hypothèse nulle Ho :  j  0 ne soit pas rejetée
alors qu’elle devrait l’être en fait. Il faut noter que cela ne veut pas du tout dire que les estimateurs
des coefficients sont du tout biaisés. Cependant, ces estimateurs ne sont pas fiables à cause de leur
grande variance. Ce problème pose néanmoins quelques difficultés dans la vérification des théories
suggérant l’importance de ces variables.
ˆ
2
Lorsque X1 et X2 sont liés dans le modèle, le terme û reste inaffecté. De ce fait, U
demeurera fixe
quel que soit le degré de multicolinéarité (élevé ou faible). Par ailleurs, la valeur x 2
1 dans

  de sorte que la variance de l’estimateur peut
2
l’équation (3) peut (annuler) l’effet de 1 
 x1 x2 
demeurer encore petite. Puisque la valeur de  x12 augmente avec le volume de l’échantillon, ce fait
n’apparaît pas habituellement avec des échantillons volumineux.
3.1.3. Conséquences de la multicolinéarité

Nous pouvons citer trois effets principaux :
- augmentation de la variance estimée de certains coefficients lorsque la colinéarité entre les
variables explicatives augmente ;

- instabilité des estimateurs des coefficients des moindres carrés, de faibles fluctuations
concernant les données entraînent de fortes variations des valeurs estimées des coefficients ;
- en cas de multicolinéarité parfaite, la matrice (X’X) est singulière (le déterminant est nul),
l’estimation des coefficients est alors impossible et leur variance est infinie
3.1.4. Preuve de l’existence de la multicolinéarité

Il existe plusieurs méthodes pour détecter la présence de la multicolinéarité. Nous traiterons ici le cas
de la matrice de corrélation des coefficients entre les régresseurs et celui d’un R2 élevé associé avec
des ratios de Student non significatifs.
3.1.4. 1. La matrice de corrélation entre les variables explicatives

Lorsque le coefficient de corrélation d’ordre zéro (corrélation de Pair-Wise) entre deux régresseurs
est élevé, disons, excède 0,8, alors la multicolinéarité est un sérieux problème. Le problème de ce
critère est que malgré la colinéarité suggérée par les fortes corrélations d’ordre zéro, il n’est pas
nécessaire qu’elles soient élevées pour qu’on ait une multicolinéarité dans un cas spécifique. Pour
cela, techniquement, les corrélations d’ordre zéro élevées sont une condition suffisante mais pas
nécessaire de l’existence de la multicolinéarité parce qu’elle peut exister même si les corrélations
simples ou d’ordre zéro sont relativement faibles (disons, inférieur à 0,5).
Notons que dans les modèles de plus de deux variables explicatives, la corrélation simple ou d’ordre
zéro n’est pas une méthode pertinente de détection de la multicolinéarité. Tout naturellement, pour
un modèle avec seulement deux variables indépendantes, cette méthode est efficace.
3.1.4. 2. R2 élevé et ratios de Student non significatifs

Si R2, le coefficient de détermination est élevé, disons, excède 0,8, le test F de Fisher rejettera dans
la plupart des cas l’hypothèse nulle HO de non significativité globale du modèle (tous les coefficients
des régresseurs sont nuls). Dans ces conditions, si aucun des coefficients ou très peu d’entre eux ne
sont pas statistiquement significativement différents de zéro, pris individuellement, alors il y a risque
de multicolinéarité. C’est le symptôme « classique » de la multicolinéarité.
Exemple : soit le modèle ajusté suivant.
Yˆ  24,7747  0,9415 X  0,0424 X
t 1t 2t
e.t 6,7525 0,8229 0,0807

R  0,9635
2
R  0,9531
2
dl  7 n  10
Pour détecter une éventuelle multicolinéarité nous calculerons la statistique F de Fisher et les ratios
de Student.
D’abord, nous avons R2 = 0,9635, très élevé, qui signifie que 96,35% des variations de la variable
dépendante Yt sont expliquées par les variations des variables explicatives X1 et X2.
Calculons le Fc de Fisher :
R2 / k
Fc 
 
1  R 2 / n  k  1

0,9635 / 2
Fc   92,3904
1  0,9635 / 10  2  1
En comparant cette valeur avec celle qui est lue sur la table nous obtenons :
Fc  92,3904   4,74
0 , 05
F 2; 7
Nous constatons que le Fc > Flu, nous rejetons donc l’hypothèse nulle Ho et concluons que le modèle
est globalement significatif au seuil de 5%.
Vérifions maintenant la significativité des paramètres des régresseurs.
Nous avons pour  1
ˆ1 0,9415
tc    1,1442 et t 0, 05 (7) = 1,895
ˆ ˆ1
0,8229
Nous constatons que tc < t 0,05 (7), d’où non rejet de HO.
De même pour  2
ˆ 2  0,0424
tc    0,5261 et – t 0, 05 (7) = –1,895
ˆ ˆ 2
0,0807
Ici également, l’on remarque que – tc > – t 0, 05 (7) ce qui implique que l’hypothèse nulle HO est
acceptée.
Finalement, on voit bien que le modèle est globalement significatif comme l’atteste le test de Fisher,
R2 est élevé mais aucun des coefficients n’est significatif pris individuellement. Cela est le signe
manifeste de la multicolinéarité.
3.1.5. Les solutions à la multicolinéarité

Il n’y a pas de solution miracle à la multicolinéarité parce que la multicolinéarité est essentiellement
un problème d’échantillon. Toutefois, les règles (solutions) générales peuvent être essayées ; le succès
de ces solutions dépend de l’importance de la multicolinéarité.
3.1.5.1. Augmentation de la taille de l’échantillon

Puisque la multicolinéarité est fonction de la taille de l’échantillon, il est possible que dans un autre
échantillon avec les mêmes variables, la colinéarité ne soit pas aussi aiguë comme dans le premier
échantillon. Quelquefois, en augmentant simplement la taille de l’échantillon (s’il est possible), cela
peut atténuer le problème de la multicolinéarité.
Par exemple, dans un modèle à deux variables explicatives, nous savons que
 
 1 
ˆ  ˆ U
2 2
ˆ  
 1
2 
 x 1x 2  

2 .
  
1
x 1
 

En augmentant maintenant la taille de l’échantillon,), x 2

1 augmentera généralement. Ainsi, pour
tout

  ̂
 x1 x2  donné, la variance de 1 va décroître. Par conséquent, l’écart type diminuera aussi,
lequel nous permettra d’estimer 1 avec plus de précision.
3.1.5.2. La transformation des variables

Supposons que nous avons des données en série temporelle sur la consommation (Y), le revenu (X1)
et la richesse (X2). Une raison de la multicolinéarité entre le revenu et la richesse dans de telles
données est qu’au cours du temps les deux variables tendent à évoluer dans la même direction. Une
voie pour minimiser cette dépendance est de procéder comme suit :
Y t   O   1 X1 t   2 X 2 t  u t (1)
En décalant d’une période les observations, on a :
Y t 1   O   1 X 1 t 1   2 X 2 t 1  u t 1 (2)
En faisant la différence entre les équations (1) et (2), l’on obtient :
Yt  Y t 1   O   1 ( X 1 t  X 1 t 1)   2 ( X 2 t  X 2 t 1)   t (3)
avec  t  u t  u t 1.
L’équation (3) est appelée équation en différences premières. La régression est faite sur les
différences de valeurs successives des variables et non sur les variables d’origine.
La régression du modèle en différences premières réduit souvent la sévérité de la multicolinéarité.
Parce que malgré la forte multicolinéarité qui peut exister entre les variables X1 et X2, il n’y a pas de
raison de croire que leurs différences seront aussi fortement colinéaires.
3.1.5.3. L’exclusion d’une variable (s) et le biais de spécification

Lorsque l’on fait face à une multicolinéarité sévère, l’une des choses les plus simples est de retirer
une des variables colinéaires du modèle.
Soit l’exemple suivant qui n’est rien d’autre que celui de du point (3.1.4.2).
Yˆ  24,7747  0,9415 X  0,0424 X
t 1t 2t
e.t 6,7525 0,8229 0,0807 (1)

R  0,9635
2
R  0,9531
2
dl  7 n  10
Dans l’équation (1), aucune variable explicative n’est déterminante dans l’explication de Y t car les
coefficients estimateurs ne sont pas significatifs individuellement. Cela est la conséquence de la
multicolinéarité.
Par contre dans l’équation (2) suivante

Yˆt  24,4545  0,5091X 1t

e.t 6,4138 0,0357 R 2  0,9621 n  10
(2)
t  (3,8128) (14,2432)
avec l’exclusion de X2, le coefficient de X1 devient fortement significatif.

De même avec l’exclusion de X1 dans le modèle (3), le coefficient de X2 devient également hautement
significatif.
Yˆ  24,3480  0,0498 X
t 2t
e.t 6,3837 0,0037 R 2  0,9567 n  10

(3)
t  (3,8141) (13,3576)
Dans le cas de certains modèles non linéaires comme les modèles quadratiques du genre X 1 et X 12 ;
X 1 et X 12 peuvent être fortement corrélées. Cela sera surtout vérifié lorsque l’intervalle dans lequel
X1 varie est (très) petit. Si tel est le cas, la variable X 12 pourrait être facilement exclue du modèle.
Il faut cependant noter que l’exclusion complète de la variable du modèle pourrait donner un biais
de spécification ou erreur de spécification. L’erreur de spécification survient lors d’une
spécification incorrecte du modèle utilisé dans l’analyse. Ainsi, si la théorie économique dit que le
revenu et la richesse devraient toutes deux être incluses dans le modèle pour expliquer les dépenses
de consommation, exclure la variable richesse constituerait un biais de spécification.
En considérant le modèle suivant sous forme matricielle
Y  X 1 Bˆ  Uˆ (4) estimant Y  X1 B  U
Alors que le vrai modèle est Y  X 1 Bˆ 1  X 2 Bˆ 2  Uˆ (5)
qui estimerait Y  X1 B 1  X 2 B 2  U.
Si maintenant nous estimons B1 par B̂ 1 dans (4), nous écrivons
Bˆ 1  ( X 1 ' X 1 ) 1 X 1 ' Y (6)
ou Y  X B 1  X 2 B 2  U.
1
Ainsi donc
Bˆ 1  ( X 1 ' X 1 ) 1 X 1 ' ( X 1 B 1  X 2 B 2 )  ( X 1 ' X 1 ) 1 X 1 ' U (7)

Bˆ 1  ( X 1 ' X 1 ) 1 X 1 ' X 1 B 1  ( X 1 ' X 1 ) 1 X 1 ' X 2 B 2  ( X 1 ' X 1 ) 1 X 1 ' U (8)
E ( Bˆ 1)  B 1  ( X 1 ' X 1 ) 1 X 1 ' X 2 B 2  ( X 1 ' X 1 ) 1 X 1 ' E (U ) (9)
d’où
E ( Bˆ 1)  B 1  ( X 1 ' X 1 ) 1 X 1 ' X 2 B 2 (10)
En d’autres termes, l’exclusion d’une variable importante du modèle peut introduire un certain biais
dans le modèle comme nous le constatons dans l’équation (10). Dans notre cas précis le biais est égal
à ( X 1 ' X 1 ) 1 X 1 ' X 2 B 2 .
3.1.6. La multicolinéarité et les prévisions
L’estimation des équations avec la présence de la multicolinéarité ne devrait pas être source de
beaucoup d’inquiétudes lorsque l’objectif final est de faire des prévisions. Cela provient du fait qu’en
matière de prévision nous nous intéressons principalement aux valeurs moyennes de la variable
dépendante (variable expliquée). Et aussi parce que plus est élevé le R2, meilleure est la prévision.
Mais ceci est ainsi si et seulement si la multicolinéarité qui existe entre les variables indépendantes
d’un échantillon donné continuera aussi à exister dans le futur.
Cependant, si une relation linéaire rapprochée entre les régresseurs dans un échantillon n’est pas
continue dans le futur (échantillons), la prédiction sera de plus en plus incertaine. De plus, si l’objectif
de l’analyse n’est pas seulement la prédiction mais aussi une estimation fiable des paramètres, une
multicolinéarité sévère sera un problème parce que nous avions vu que cela conduit à des écarts types
larges des coefficients estimateurs.
3.2. L’HETEROSCEDASTICITE
Nos analyses selon la méthode des moindres carrés ordinaires ont été basées sur la restriction
(hypothèse) fondamentale selon laquelle
UU '   U2 I (1)
Cependant, il y a des situations particulières où les données sous la main ne se conforment pas à cette
restriction. C’est souvent le cas des données en coupe instantanée ou bien lorsque les observations
représentent des moyennes. En fait, il arrive que les éléments en deçà de la diagonale principale de la
matrice soient zéro (nuls) alors que les valeurs de la diagonale principale sont variables. Dans ce cas
précis, la restriction imposée dans l’équation (1) ne serait plus respectée. En effet, si
UU '   U2 V (2)
avec

V1 0
0 V 0 
 2
  
V   (3)
0 V4 
  
 
 0 Vn 
En d’autres termes, cela veut dire essentiellement que la restriction se rapportant à la constance de la
variance  U2 à travers l’échantillon (pour tout l’échantillon) n’est plus respectée. C’est du non
respect de cette restriction qu’il résulte un problème communément appelé hétéroscédasticité.
L’effet principal de la présence de l’hétéroscédasticité n’est nullement associé au biais ou au sans
biais des estimateurs. L’hétéroscédasticité affecte sérieusement l’efficacité des estimateurs.
Autrement dit, les estimateurs demeurent sans biais malgré le problème de l’hétéroscédasticité,
mais les estimateurs seront inefficients.
3.2.1. Les conséquences de l’hétéroscédasticité

Etant donné que la variance est désormais une variable dont la valeur change d’une observation à une
autre à travers l’échantillon, l’utilisation de procédures de test d’hypothèses ou de formation
d’intervalle de confiance n’a pas de sens. Le terme de perturbation est, dans ce cas précis, une sorte
de moyenne des différentes variances des variables résiduelles et est de ce fait d’aucune utilité pour
des tests statistiques.
3.2.2. Les tests de détection de l’hétéroscédasticité : test de White

Plusieurs méthodes existent, nous utiliserons ici le test de White.
Les tests statistiques d’homoscédasticité portent sur l’hypothèse
Ho :         
1
2
2
2
m
2 2
(m ≤ N), N = taille de l’échantillon. C’est-à-
dire sur l’hypothèse d’une variance des erreurs identique pour chaque individu. En général, la
première étape de tous les tests consiste à estimer le modèle par la méthode des MCO afin de calculer
les résidus Ût du modèle. Le carré de ces résidus est dans une seconde étape utilisé comme estimateur
de  U2 .
Le test de White est fondé sur une relation significative entre le carré du résidu ( Uˆ t 2 ) et une ou
plusieurs variables explicatives en niveau et au carré au sein d’une même équation de régression
estimée par MCO :
Uˆ t2   0  1 Z1t     P Z Pt   t (1)

où les variables Z k t, k = 1, …, P sont les variables explicatives du modèle, leurs carrés et leurs
produits et εt représente l’aléa.
Par exemple, si on teste un modèle homoscédastique avec une constante et deux variables
explicatives,
Y t  ˆ O  ˆ 1 X 1 t  ˆ 2 X 2 t  Uˆ t (2)
2
On aura P = 5, nombre de paramètres à estimer, constante exclue, Z1t = X1t, Z2t = X 1t, Z3t = X2t, Z4t
= X22t et Z5t = X1t X2t.
D’où
Uˆ t2   0  1 Z1t   2 Z 2t   3 Z 3t   4 Z 4t   5 Z 5t   t (3)
ou bien
Uˆ t2   0  1 X 1t   2 X 12t   3 X 2t   4 X 22t   5 X 1t X 2t   t (4)

Si toutefois par exemple, l’on pense que la source de l’hétéroscédasticité n’est pas liée à l’influence
croisée des deux variables, il peut alors retirer du modèle les termes croisés de ces variables. C’est-
à-dire X1t et X2t dans l’exemple ci-dessus.
De l’estimation de l’équation (1), on déduit le coefficient de détermination R2. Sous l’hypothèse HO,
la statistique de White
Wh = NR2 avec N = taille de l’échantillon
Est distribuée selon un

2
 ( P ),
où P est le nombre de variables explicatives de l’équation (1) ou
le nombre de paramètres à estimer hormis la constante.
Si N R   ( P ),
2 2
 alors l’hypothèse d’homoscédasticité est retenue.
Notons que le test de White peut être aussi effectué à l’aide d’un test classique de nullité des
coefficients de Fisher :
Ho : 1   2     k  0
Si on refuse l’hypothèse nulle alors il existe un risque d’hétéroscédasticité.
Exemple : soit la fonction suivante :
Uˆ t2   78,58 X 1t  11,98 X 12t  136,02

R 2  0,226 N  30 Fc  3,956
La statistique de White est : Wh = NR2 = 30 x 0,226 = 6,78.
Avec P = 2 on a  02,05 ( 2 )  5, 99.
On note que 6,78 > 5,99, donc on rejette l’hypothèse nulle HO ; le modèle est hétéroscédastique.

Fc  3, 956   3, 35
0 , 05
Avec le test de Fisher, on a F 2; 27 Ici on rejette également l’hypothèse
nulle ; le modèle est hétéroscédastique.
3.2.3. La correction de l’hétéroscédasticité

Il y a fondamentalement deux approches à la correction de l’hétéroscédasticité.
La première approche consisterait à reformuler le modèle afin de résoudre le problème de
l’hétéroscédasticité. Exemple, si l’on considère le cas où
Y t  ˆ O  ˆ 1 X t  Uˆ t (1)
de sorte que E ( U 'U )  E ( U t2 )   U2 f ( X ) (2)

Ce modèle peut être redéfini de telle sorte que la variable dépendante devienne un rapport des
variables dépendante et indépendante de départ comme
Y ˆ ˆ
  O   1 X  Uˆ (3)
X
et une grande partie du problème de l’hétéroscédasticité se trouvera ainsi résolue.
La deuxième approche consisterait à identifier dans un premier temps l’allure de l’hétéroscédasticité.
Une fois que cela est fait, il faudrait alors passer à la correction de cette allure.
● Considérons le modèle suivant selon lequel
ˆ U2  f ( k X t2 ) ou E ( U t2 )   U2 k X t2
si Y t  ˆ O  ˆ 1 X 1 t  ˆ 2 X 2 t  Uˆ t (4)
et que E ( U t2 )  ˆ U2 k X 12
Posons alors que Z  k X 1, puis divisons l’équation (4) par Z. Ceci nous donne
Z 1Y t  Z 1 ˆ O  ˆ 1 Z 1 X 1 t  ˆ 2 Z 1 X 2 t  Z 1 Uˆ t (5)
L’équation (5) peut encore s’écrire comme
Y ˆ 0 ˆ 1 ˆ 2 X 2 Uˆ
   
(6)
kX 1 kX 1 k kX 1 kX 1
Nous aurons maintenant

E Z Uˆ 1
 2
 ˆ U2 (7)

En estimant les paramètres à partir de l’équation (6) soit par exemple ̂ 2 nous pouvons obtenir
ˆ 0 comme
2 2
 1   x 2   1   1   1   x 2   1   x 2  y
  k   x    k   x  y    k   x 2    k   x   
x1
 1  1  1  1  
ˆ 0  2 2 2
 1   1   1   x 2   1   1   x 2 
  k   x    k   x     k   x   x 
 1  1  1 1 
et nos estimateurs sont à la fois sans biais et efficaces.
● Si nous avions par exemple un modèle à deux variables (une variable dépendante et une
variable indépendante). Si en plus nous pensons que la variance de Ut est proportionnelle a X t2
de sorte que E ( U t2 )   U2 X t2 (8)

nous pouvons alors transformer notre modèle de départ
Yt   O   1 X t  U t (9)
en
Yt 0 Ut
  1 
Xt Xt Xt
1
 0   1 V t (10)
Xt
Vt étant égale à la variable résiduelle transformée c’est-à-dire Vt = Ut / Xt et
2
U t 
 
E V t2
1
 E    2 E U t2   U2
X 
  (11)
 t Xt
En comparant les équations (11) et (8) nous voyons bien que nous avons corrigé le problème
de l’hétéroscédasticité. Ainsi donc

 U2 
1
E 
U t
2
X t2 (12)
Il faut cependant noter que l’intercept (ordonnée à l’origine dans l’équation transformée)
1 est la pente de la droite d’équation dans l’équation de départ et que la pente 0 de la droite
de l’équation transformée est l’ordonnée à l’origine dans l’équation de départ. Dès lors pour revenir
à notre modèle de départ, il faut multiplier (10) par Xt.
● Si E ( U t2 )   U2 X t (13)
L’équation (13) suppose que la variance du terme de l’erreur Ut au lieu d’être proportionnelle au carré
de Xt est proportionnelle à Xt elle même. Alors le modèle original, supposons de deux variables, peut
être transformé comme suit :
Yt 0 Ut
  1 X t 
Xt Xt Xt
1
 0   1 X t V t (14)
Xt
Ut
Vt  et X t  0.
avec Xt
Etant donné l’équation (13), on peut facilement montrer que  

E V t 2   U2 qui vérifie une
situation d’homoscédasticité.
2
 Ut  
  E    1 E U 2
2
 
E Vt  E
2
 X 
U t
Xt X
  t
 t    t
E ( U t2 )   U2 X t par hypothèse (13), d’où E V t    U .

2 2
or

Yt
On peut ainsi procéder à l’application des MCO de l’équation (14) en régressant Xt sur
1
et X t.
Xt
Une remarque importante de la transformation du modèle est l’absence du terme constant. Toutefois,
l’on aura besoin d’utiliser la régression du modèle d’origine pour estimer 0 et  1. Une fois
l’équation (14) estimée, pour revenir au modèle de base, on multiplie l’équation (14) par X t.
● Si 
E ( U t2 )   U2 E Y t   2
(15)
L’équation (15) postule que la variance du terme de l’erreur Ut est proportionnelle au carré de la
valeur moyenne de Yt c’est-à-dire
E ( Yt )   O   1 X t
Ainsi notre équation de base, toujours avec deux variables (la variable dépendante et une variable
explicative) devient :
Yt 0 Xt Ut
  1 
E (Yt ) E (Yt ) E (Yt ) E (Yt )
1 Xt
 0 1  Vt
(16)
E (Yt ) E (Yt )
avec Vt = Ut / E (Yt).
On peut montrer que les erreurs Vt sont homoscédastiques,  

E V t 2   U2 . Ainsi c’est
l’équation (16) qui satisfait l’hypothèse d’homoscédasticité des modèles de régression linéaires.
L’équation (16) est toutefois non opérationnelle parce que E ( Yt ) dépend de 0 et 1

qui sont inconnus. Par contre, nous connaissons Yˆt  ˆ O  ˆ 1 X t qui est un estimateur de
E ( Y t ). Nous pouvons ainsi procéder en deux étapes :

i) estimer le modèle de base, Yt   O   1 X t  U t sans tenir compte de
l’hétéroscédasticité, puis calculer Yˆ t .
ii) utiliser Yˆt pour transformer notre modèle comme suit :
Yt 1 Xt
 0 1  Vt
ˆY ˆY ˆY (17)
t t t
avec Vt = Ut / Ŷt. On régresse ensuite l’équation (17).
Bien que Yˆt ne soit pas exactement égal à E ( Yt ) il donne des estimateurs convergents ;
c’est-à-dire que, au fur et à mesure que la taille de l’échantillon augmente indéfiniment, ils convergent
vers la vraie E ( Y t ). Par conséquent, sera utilisée dans la pratique l’équation (17), si la taille de
l’échantillon est raisonnablement grande.
● Avant de conclure cette section, nous dirons que la transformation logarithmique contribue souvent
à la réduction du problème d’hétéroscédasticité. Ceci provient du fait que la transformation
logarithmique réduit l’échelle selon laquelle les variables sont mesurées. Il en découlera par exemple
qu’une différence dix fois importante entre deux valeurs soit ramenée à une différence deux fois
importante. C’est ainsi que le nombre 100 qui est 10 fois plus grand que 10 ne donne qu’une valeur
de 4,605 (ln100 = 4,605) qui n’est que le double du logarithme de 10 (ln10 = 2,3025).
Nos propos se rapportent au fait qu’au lieu d’estimer
Yt   O   1 X t  U t (18)
nous estimons
ln Y t   O   1 ln X t  U t (19)
Un autre avantage de la transformation logarithmique réside dans le fait que le coefficient 1 

est la mesure de l’élasticité de Y par rapport à X. C’est-à-dire le changement en pourcentage de Y
résultant du changement (variation) d’un pour cent dans X. Si par exemple, Y représente les dépenses
de consommation alors que X représente le revenu, 1 dans l’équation (19) serait l’élasticité-
revenu alors que 1 dans l’équation (18) mesurerait simplement le taux de variation de la
consommation en moyenne résultant d’une variation unitaire du revenu, i.e. la propension marginale
à consommer. C’est là l’une des raisons principales pour lesquelles les modèles logarithmiques sont

très souvent utilisés en Econométrie appliquée. Il faut cependant noter que l’utilisation de la
transformation logarithmique pour obtenir une élasticité suppose une certaine constance de cette
élasticité.
3.3. L’AUTOCORRELATION
L’une des restrictions fondamentales de la méthode classique des moindres carrés ordinaires est qu’il
n’y a aucune autocorrélation (corrélation de séries) entre les variables résiduelles telles qu’elles sont
conceptualisées dans le modèle de base. Cette indépendance de variable résiduelle peut être formulée
comme
E ( UU ' )   U2 I (1)
L’expression (1) veut tout simplement dire que E (U t U s )  0 pour t ≠ s.
Rappelons nous que dans le cadre de l’hétéroscédasticité, chacun des éléments de la diagonale de la
matrice V des variances et covariances de la variable résiduelle était différent de un (1) ; cependant,
les éléments en deçà de la diagonale étaient nuls (zéro). De ce fait, la restriction E (U t U s )  0

était vérifiée.
Il y a des circonstances où la restriction E (U t U s )  0 n’est pas respectée (i.e. la restriction

est violée). Dans ces conditions, nous dirons que nous sommes en présence d’un problème de
corrélation de séries. Mais quelles peuvent donc être les sources de la corrélation sérielle. A cette
question, nous répondrons qu’il y a plusieurs sources qui sous-tendent (expliquent l’existence de) la
corrélation de série.
3.3.1. Les sources de l’autocorrélation

● Forme fonctionnelle incorrecte du modèle
La spécification incorrecte de la nature de la relation entre les variables peut donner lieu à la
corrélation de série (entre les variables résiduelles). En effet, l’utilisation d’un modèle linéaire alors
qu’un modèle non linéaire serait plus approprié crée le plus souvent des problèmes d’autocorrélation.
Supposons que le vrai modèle d’une étude de coût-production est le suivant :
Cm i   O   1 Q i   2 Q i2  U i (2)
où Qi est la quantité produite du bien i, alors que nous avons ajusté le modèle suivant :
Cm i   O   1 Q i  V i (3)
● L’exclusion de variables importantes du modèle

Une autre raison qui peut expliquer l’existence de l’autocorrélation réside dans l’exclusion de
variables importantes du modèle. Si par exemple nous conceptualisons la demande de viande de bœuf
comme :
Yt   O   1 X 1t 2 X 2t 3 X 3t  Ut (4)
avec Y = quantité demandée de viande de bœuf, X1 = prix de la viande de bœuf, X2 = revenu du
consommateur et X3 = prix de la viande de porc.
Si pour une raison ou une autre, nous ajustons le modèle suivant (5) au lieu du modèle (4)
Yt   O   1 X 1t 2 X 2t  Vt (5)
Il apparaît clairement dès lors que si l’équation (4) reflète la relation correcte entre Yt et les
Xt s , ajuster l’équation (5) signifierait que nous acceptions que la variable résiduelle
Vt   3 X 3t  U t. Et, dans la mesure où le prix du porc affecte la consommation de la viande

de bœuf, la variable résiduelle V aura une allure systématique, créant ainsi l’autocorrélation.
Un simple test pour détecter la présence de l’autocorrélation consisterait dans ce cas précis à ajuster
les équations (4) et (5) pour voir si l’autocorrélation observée dans l’équation (5) disparaît dans
l’équation (4).
● Le phénomène Cobweb
L’autocorrélation peut aussi provenir du phénomène du cobweb. En effet, l’offre de plusieurs
produits agricoles est sensible au phénomène cobweb en ce sens que l’offre de la période t est
influencée par le prix qui a prévalu la période précédente. Ainsi donc la fonction de l’offre peut
s’écrire comme :
Qt   O   1 P t  1  U t (6)
avec Qt = quantité offerte pendant la période t et Pt–1= prix de la période précédente.
Si l’on suppose maintenant que le prix Pt est en réalité inférieur à Pt–1 il va s’en suivre que les
agriculteurs produiront moins pendant la période Pt+1 par rapport à la période t. Il apparaît donc
clairement que dans ces conditions les variables résiduelles Ut ne seront plus des variables aléatoires
tout simplement parce que s’il y a surproduction pour la période t, les agriculteurs sont enclins à
réduire le volume de la production pour la période t +1.
● L’utilisation des variables recurrentielles (modèles dynamiques)

L’utilisation de variables peut aussi être à l’origine du problème d’autocorrélation. Par exemple,
lorsque l’on analyse des données en séries temporelles (selon la méthode de régression) pour les
dépenses de consommation, il arrive souvent que les dépenses de consommation pour la période t
dépendent entre autres du revenu de la période t et des dépenses de consommation de la période
t –1. Ce qui veut dire que :

Ct   O   1 Y t   2 C t 1  U t (7)
Les régressions du genre de l’équation (7) sont connues sous le nom d’autorégression parce que
l’une des variables explicatives est la valeur recurrentielle de la variable dépendante (variable
expliquée).
La logique d’une équation de régression telle que l’équation (7) réside dans le fait que les
consommateurs changent difficilement leurs habitudes pour des raisons psychologiques,
technologiques ou institutionnelles. Si maintenant nous négligeons le terme retardé de l’équation (7)
la variable résiduelle qui en résulterait va refléter une allure systématique provenant de l’influence de
la consommation de la période précédente sur la consommation courante (consommation de la
période t).
● Les différentes procédures de manipulation des données
L’autocorrélation peut aussi provenir des différentes procédures de manipulation des données. Un
exemple de manipulation consiste à transformer les données mensuelles en données trimestrielles
(somme des données sur trois mois divisée par trois). Une telle procédure peut donner lieu à une
allure systématique d’autocorrélation de la variable résiduelle.
Après avoir énuméré certaines causes fondamentales du problème de l’autocorrélation, il serait bon
de noter que le problème de l’autocorrélation se rencontre beaucoup plus fréquemment lorsque l’on
analyse les séries de données au cours du temps (séries chronologiques). (Le problème peut être aussi
rencontré dans l’analyse des données en coupe transversale). Le problème apparaît surtout lorsque
les points dans le temps sont très rapprochés jours, semaines et mois par rapport aux années.
D’une façon plus spécifique, nous définirons le problème d’autocorrélation comme celui de
l’interdépendance des variables résiduelles quand bien même l’échantillon aurait une variance
commune (la même variance).
3.3.2. Les conséquences de l’autocorrélation

Si les formules de la méthode des MCO sont automatiquement appliquées aux modèles avec
autocorrélation, l’existence de ce problème (d’autocorrélation) aura essentiellement trois effets.
D’abord, les estimateurs ˆ j seront sans biais mais leurs variances seront excessivement larges
(grandes) par rapport à celles obtenues par une méthode légèrement différente. Ensuite, il est possible
que l’on obtienne des valeurs pour les variances des ˆ qui sous-estimeront sérieusement les vraies
variances des ˆ s . Enfin, l’existence de l’autocorrélation donnera lieu à des prévisions inefficaces
c’est-à-dire des prévisions basées sur des variances obtenues de l’échantillon et qui sont inutilement
larges.

3.3.3. Les tests de détection de l’autocorrélation

Il existe plusieurs méthodes pour détecter l’autocorrélation.
3.3.3.1. Le test de Durbin-Watson

Le test de Durbin-Watson (DW ou d) qui est la procédure la plus utilisée pour tester l’autocorrélation
de premier ordre, consiste à vérifier si dans la relation
u t   u t 1   t (1)
Le coefficient d’autocorrélation  est significativement égal à zéro. C’est-à-dire que l’on teste
l’hypothèse nulle H0 d’absence d’autocorrélation des erreurs ( HO :   0 ).

La première étape consiste à estimer le modèle
YX B  U (2)
avec la méthode des MCO et évaluer les résidus Uˆ t .

Ensuite à l’aide de ces résidus, on calcule la statistique de Durbin-Watson
  uˆ 
n
 uˆ
2
t t 1
t 2
d  n

t1
uˆ
2
t
(3)
La valeur de d est directement liée au coefficient de corrélation des séries ̂ obtenu à partir de
l’échantillon. Après des transformations nous obtenons :
𝑑 = 2(1 − 𝜌̂) (4)
n n
avec
̂  
t 2
uˆ t uˆ t  1 /  uˆ t2
t 2
A partir de ce que nous avons obtenu dans l’expression (4), nous pouvons voir (connaître) les
différentes situations dans lesquelles nous nous trouverons selon les différentes valeurs que prendra
d la statistique de Durbin-Watson. Lorsque
d 0 quand ˆ  1 (il y a autocorrélation positive)
d 4 quand ˆ   1 (il y a autocorrélation négative)

d 2 quand ˆ  0 (il n’y a pas autocorrélation)

La distribution de d, en supposant que la variable résiduelle suive une loi normale i.e.
~ N 0 ,  
2
ut u , se trouve comprise entre deux autres statistiques appelées dL et
dU respectivement les bornes inférieure et supérieure. L’utilisation de ces statistiques est mieux
illustrée par les régions (zones) sur le graphique ci-dessous.
1.0
dU
dL
0 4
dL dU 2 4 - dU 4 – dL
Région non Région non Rejeter
Rejeter Ne pas rejeter
conclusive Ho : ρ = 0 conclusive Ho : ρ = 0,
Ho : ρ = 0,
ρ>0 ρ<0
Comme nous le constatons sur ce graphique, le test de DW n’est pas conclusif pour toutes les valeurs
de d. Cependant, si d  4  d L ou d  d L alors l’hypothèse nulle selon laquelle il n’y

aurait pas de corrélation de séries (autocorrélation) est rejetée et le chercheur devrait chercher à
s’accommoder ou résoudre le problème d’autocorrélation du premier ordre.
Si d L  d  dU ou 4  dU  d  4  d L le test est alors inconclusif ou indéterminé

(i.e. qu’on ne peut rien dire à propos de l’existence ou de l’absence d’autocorrélation).
Enfin, dU  2  4  dU l’hypothèse nulle d’absence d’autocorrélation du premier ordre
ne peut pas être rejetée, i.e. HO :   0 ne peut pas être rejetée.

Il est très important de noter que la table standard (étalon), les valeurs de d L et dU dépendent du
volume de l’échantillon (n) et du nombre de variables indépendantes (k) incluses dans le modèle que
l’on étudie.
Enumérons maintenant les hypothèses qui soutiennent la statistique d de Durbin-Watson :
1. Le modèle de régression doit comporter un terme constant (si tel n’est pas le cas, vous
n’aurez pas la somme des carrés des résidus (SCR)).

2. Les variables explicatives, les X’s ne sont pas aléatoires, ou sont fixes dans un échantillon
répété.
3. Les erreurs ut sont générées par un processus autorégressif d’ordre un :
u t   u t 1   t
4. Le modèle de régression ne doit pas être autorégressif (c’est-à-dire que la variable à
expliquer ne doit pas figurer parmi les régresseurs comme variable retardée).
5. Il ne doit pas avoir d’observations manquantes dans la série de données. Par exemple, si
dans une régression couvrant la période 1963-1972, les observations de 1963 et 1972
manquaient pour une certaine raison, la statistique d ne tient pas compte de telles
observations manquantes.
Exemple numérique
Soit un modèle de consommation
Cˆ t  3,29  0,906 Yd t avec n  19
(1,5) (162,0) R 2  0,999
Ĉt = estimation des dépenses de consommation
Ydt = revenu disponible
Nous savons que
uˆ t  C t  Cˆ t et que uˆ t2  Ct  Cˆ t   2
Pour notre exemple

 uˆ  uˆ  uˆ t 1   144,5
2
2
t  147,3 et t
L’indice de Durbin-Watson ou la statistique de Durbin-Watson calculée s’obtient comme
  uˆ 
n
 uˆ t  1
2
t
t 2 144,5
d  n
  1,01

143,7
uˆ t2
t1
Nous constatons que cette valeur calculée de la statistique de DW est bien inférieure à 2 (qui suppose
l’absence d’autocorrélation des variables résiduelles).
Si nous nous référons au tableau statistique pour test unilatéral Ho : ρ = 0 vs Ha : ρ > 0 nous
constatons que pour α = 0,05 et n = 19, k = 1 (nombre de variables indépendantes), il existe une
autocorrélation parce que d = 1,01 < dL = 1,18 ce qui veut dire que ρ > 0.
S’il s’agissait d’un test bilatéral Ho : ρ = 0 vs Ha : ρ ≠ 0 nous conclurons qu’il existe une
autocorrélation parce que d = 1,01 < dL = 1,06. Tableau statistique à distribuer.
En revenant à l’hypothèse de la corrélation positive nous pouvons écrire que


t 2
uˆ t uˆ t  1
ˆ  n
 0,48

t 2
uˆ 2
t 1
Pour opérer les corrections nécessaires, nous écrivons

C t*  C t  ˆ C t 1  C t  0,48 C t 1
Yd* t  Yd t  ˆ Yd t 1  Yd t  0,48 Yd t 1
et en estimant la régression de Ct* sur Yd* t nous obtenons
Cˆ t*  2,12  0,905 Yd*t avec n  18

(1,0) (98,9) R 2  0,998
2,12
Ô   4,08 et
1  0,48
Cˆ t  4,08  0,905 Yd t
(1,0) (98,9)
3.3.3.2. La méthode graphique

Nous pouvons détecter une autocorrélation des résidus en faisant une analyse graphique des résidus.
Nous savons qu’il y a autocorrélation des résidus lorsque ceux-ci sont liés par un processus de
reproduction.
Si les résidus sont pendant plusieurs périodes consécutives soit positif soit négatif alors il y a
présomption d’autocorrélation positive.
Si les résidus sont alternés alors il y a présomption d’autocorrélation négative.
+ ût ût
+
● ● ●
●
● ●
● ● ●
0 t t
● ● ● ● ● 0
● ●
● ● ● ●
●
– –
Autocorrélation positive Autocorrélation négative
3.3.3.3. Le test LM (Multiplicateur de Lagrange) ou test de Breusch-Godfrey

C’est un test plus général pour les corrélations sérielles d’ordre plus élevé.
Soit le modèle de régression suivant :
k
Yt   O  
i1
i X it  Ut (1)
avec u t   1 u t 1   2 u t  2     k u t  k   t
Nous voulons tester HO :  1   2     k  0
Pour cela nous procédons comme suit :
i) Estimer l’équation par MCO et déduire les résidus i.e Uˆ t .

ii) Estimer l’équation de régression suivante
k 
Uˆ t   O  
i1
i X it  
i1
i Uˆ t i  t
iii) Tester si les coefficients des Uˆ t i sont significativement différents de zéro pris
globalement.
De façon pratique, la statistique utilisée est TR2, avec T, la taille de l’échantillon, R2 le coefficient
de détermination. On compare TR2 à une distribution de Chi-deux d’ordre p,

2
 ( p ).
Si T R 2  2 ( p) nous rejetons H0, il y a présence d’autocorrélation.
Par contre, si T R 2  2 ( p) alors nous ne pouvons pas rejeter H0, il y a absence

d’autocorrélation.
La difficulté du test réside dans le choix de p. Ce test est un test collectif des p premières
autocorrélations des erreurs et non justement la première.
3.3.5. L’estimation des paramètres en cas d’autocorrélation des erreurs : Le modèle en quasi-
différences
L’on estime d’abord le modèle 𝑌 = 𝑋𝐵̂ + 𝑈̂ puis on détermine 𝜌. L’on peut ensuite transformer les
données de départ avec 𝜌. Ainsi dans le cas d’un modèle autocorrélé de premier ordre, le modèle
transformé s’écrit
T Y  T X B  TU (1)
avec



 1  2 y 
1

 

 1  2 u 
1

  1 
 
y  y1   
T Y   2 T U   2 
u u 1  2
 ,
 (10)    (2)
     
 y n   y n  1   u n   u n  1   n 
et
 1  2

 1  2
x 11   1  2
x k1


( 1  ) x 1 2   x 11 xk 2   x k1
T X B   

   (3)
 
 ( 1   ) x 1n   x 1 n  1  x k n   x k n 1 
Le modèle ainsi transformé est appelé modèle en quasi-différences. Par conséquent, pour la première
observation le modèle s’écrit
 1   y    1     1   x
2
1 0
2
1
2
11    k  1    x   1   u
2
k1
2
1 (4)
et pour les autres observations
y t   y t  1   0 ( 1   )   1 x 1t   x 1 t  1      k x k t   x k t  1    t
(5)
avec t  2 ,  , n
d’où
 y t  a 0   1  x 1t   2  x 2 t     k  x k t   t (7)
avec  t  u t   u t 1 et a 0   0 (1  )
Comme  n’est pas en général connu, diverses méthodes existent pour le déterminer :
a. La méthode de Cochrane-Orcutt
Elle procède en plusieurs étapes :
i) Estimer par MCO le modèle initial et évaluer les résidus û t sur les observations.
ii) Estimer  par ̂ 0 où ̂ 0 est déterminé de manière à minimiser la fonction

2
 u 
n
min t   u t 1
 t2

n n
On obtient
̂ 0   uˆ
t 2
t uˆ t  1 /  uˆ t2 1
t 2
iii) Appliquer les MCO sur le modèle transformé, appelé le modèle quasi-différencié :
y t  ˆ 0 y t  1   0 ( 1  ˆ 0 )   1 x 1t  ˆ 0 x 1 t  1      k x k t  ˆ 0 x k t  1 
 u t  ˆ 0 u t  1  avec t  2 ,  , n
On obtient un estimateur asymptotiquement identique à l’estimateur des MCG.
iv) On utilise généralement la méthode de Cochrane-Orcutt itérative afin d’améliorer les
performances de l’estimateur. Dans l’étape iii) on calcule alors les résidus du modèle.
On reprend ensuite la procédure à l’étape ii). La procédure s’arrête lorsque ̂ 0 ne
varie plus de manière significative entre deux itérations (généralement 2 à 3 itérations).
b. Utilisation de la statistique d de Durbin-Watson
Avec la connaissance de la statistique d  2 ( 1  ˆ ) (1)
d
l’on peut déduire
ˆ  1  (2)
2
L’équation (2) n’est pas toujours vraie pour des petits échantillons. Nagar et Theil ont suggéré pour
de petits échantillons la formule suivante :
 d
n 2  1   k 2
ˆ   2
n 2 k 2 (3)
avec d, la statistique de Durbin-Watson ; k, le nombre de coefficients à estimer (constante incluse) et

n, le nombre total d’observations. Pour des observations plus larges (n plus grand) la formule de
Theil-Nagar coïncide avec l’équation 2.

REFERENCES
Bourbonnais, Régis ; 2003 : ECONOMETRIE, Cours et exercices corrigés, Dunod, Paris.
Cadorat, Isabelle et al; 2004: Econométrie appliqué, Méthodes, applications corrigés, De Boeck.
Cohen Michèle et Jacqueline Pradel ; 1993 : Econométrie, théorie et techniques de base, méthode
d’utilisation et exercices, collection Litec, Paris.
Intriligator D. Michael ; Ronald G. Bodkin et Chen Hsiao ; 1996 : Econometric models, techniques
and applications ; Prentice Hall, 2nd edition.
Johnston, J ; 1985 : Méthodes économétriques, Tomes 1 et 2, traduits de l’anglais au français par

Economica, 3è édition.
Labrousse, Christian ; 1978 : Introduction à l’économétrie, Dunod, Paris.
Ramanathan, Ramu; 1998: Introductory econometrics with applications, the Dryden press,
4th edition.
Vangrevelinghe, Gabriel ; 1973 : Econométrie, Hermann Collection Méthodes, Paris.


Cours Économétrie Licence3 2023

Transféré par

Droits d'auteur :

Formats disponibles

Cours Économétrie Licence3 2023

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Économétrie Licence3 2023

Transféré par

Droits d'auteur :

Formats disponibles

Ministère de l’Enseignement Supérieur République de Côte d’Ivoire

et de la Recherche Scientifique Union- Discipline- Travail

Université Peleforo Gon Coulibaly de Korhogo

1. LA METHODOLOGIE GENERALE DE LA RECHERCHE ECONOMIQUE

Modèles Validation Applications

Etape 1 : Collecte des données et résumé des faits stylisés empiriques

Exemple 1 : La courbe d’Engels en microéconomie

Dr Coulibaly Daouda, UPGC, UFR des Sciences Sociales, Département d’Economie

Exemple 2 : La courbe de Phillips en macroéconomie

Exemple 3 : Les clusters (paquets) de volatilité en finance

Dr Coulibaly Daouda, UPGC, UFR des Sciences Sociales, Département d’Economie

Etape 2 : Développement des modèles (théories) économiques

Etape 3 : Validation empirique/inférence des modèles économiques

Dr Coulibaly Daouda, UPGC, UFR des Sciences Sociales, Département d’Economie

2. LES AXIOMES FONDAMENTAUX DE L’ECONOMETRIE

Spécification Estimation des Test Validation

Dr Coulibaly Daouda, UPGC, UFR des Sciences Sociales, Département d’Economie

 Prédire l'évolution future de l'économie ;

Les paramètres α et β ont des interprétations économiques :

Le multiplicateur des dépenses publiques est donné comme suit :

lequel dépend de la propension marginale à consommer du revenu β.

Dr Coulibaly Daouda, UPGC, UFR des Sciences Sociales, Département d’Economie

Exemple 2 : fonctions de production et hypothèses des rendements constants à l’échelle

les rendements sont constants à l’échelle si :

Comment tester l’hypothèse des rendements croissants ?

Dr Coulibaly Daouda, UPGC, UFR des Sciences Sociales, Département d’Economie

L’hypothèse des rendements constants devient alors une restriction sur α et β:

Si α + β > 1, la technologie de la production présente des rendements d’échelle croissants.

 En statistique, une procédure populaire pour tester la restriction d'un paramètre

Si l'hypothèse auxiliaire est incorrecte, l’hypothèse statistique

Dr Coulibaly Daouda, UPGC, UFR des Sciences Sociales, Département d’Economie

5. LES ESTIMATEURS PREFERES

6. DEFINITIONS DE CERTAINS CONCEPTS UTILISES EN ECONOMETRIE

Dr Coulibaly Daouda, UPGC, UFR des Sciences Sociales, Département d’Economie

- Une équation institutionnelle : c’est une expression décrivant le comportement d’une

Dr Coulibaly Daouda, UPGC, UFR des Sciences Sociales, Département d’Economie

7. REVISION DES NOTIONS SIMPLES DE SOMMATION

Nous pouvons aussi écrire que

Nous pouvons à présent formuler une série de propositions utiles :

Deuxième proposition : Si X et Y sont deux variables, alors

Dr Coulibaly Daouda, UPGC, UFR des Sciences Sociales, Département d’Economie

  X 1  X 2  ...  X n   Y1  Y2  ...  Yn 

Troisième proposition : Si X est la moyenne arithmétique des n premières variables de sorte

alors nous pouvons écrire que : t  X 0

Notons X étant une constante, on peut de ce fait écrire que :

On peut aussi écrire que

Dr Coulibaly Daouda, UPGC, UFR des Sciences Sociales, Département d’Economie

Quatrième proposition : Si X et Y sont des moyennes arithmétiques des variables X et Y

Pour démontrer cela, notons que Y étant une constante :

d’après 3ème proposition.

Dr Coulibaly Daouda, UPGC, UFR des Sciences Sociales, Département d’Economie

X étant une constante, on écrira que

Dr Coulibaly Daouda, UPGC, UFR des Sciences Sociales, Département d’Economie

CHAPITRE I : MODELE DE REGRESSION LINEAIRE SIMPLE

Dr Coulibaly Daouda, UPGC, UFR des Sciences Sociales, Département d’Economie

Si (X – X ) < 0 et que (Y – Y ) < 0 alors 𝜎̂𝑋𝑌 > 0

1.1.2. Le coefficient de corrélation

Caractéristiques du coefficient de corrélation

Dr Coulibaly Daouda, UPGC, UFR des Sciences Sociales, Département d’Economie

 C’est un estimateur biaisé ( E ˆ   