Cours Économétrie Licence3 2023
Cours Économétrie Licence3 2023
Cours Économétrie Licence3 2023
Initiation à l’Econométrie
Licence 3 Economie & gestion
Dr COULIBALY Daouda,
Cel : 0757983454/0505 90 70 11
Email : coulydaouda@gmail.com
UNIVERSITE PELEFORO GON COULIBALY
INTRODUCTION A L’ECONOMETRIE
LICENCE 3 ECONOMIE & GESTION
INTRODUCTION
L’économétrie est donc une discipline autonome recourant à la théorie économique, à la formulation
mathématique, à l’analyse statistique et à l’informatique. Dans le mot « économétrie » il y a « métrie »
qui signifie mesurage c’est-à-dire de mesurer une surface, une longueur, un volume, etc… L’on peut
de ce fait définir d’une manière générale l’économétrie comme un processus qui consiste à évaluer
quantitativement l’économie à travers l’utilisation et l’analyse des données créées par un système de
relations qui sont le plus souvent stochastiques, dynamiques et simultanées. L’un des objectifs des
études économétriques est alors d’expliquer le système ou de vérifier les relations afin de tester la
cohérence entre la théorie économique et le comportement des variables observées.
Une fois que les relations ainsi identifiées sont consolidées par les résultats obtenus, l’économiste
s’en servira pour expliquer et prédire le comportement de certains phénomènes économiques. Les
résultats économétriques peuvent nous offrir également l’occasion de choisir entre une politique
économique existante et une politique alternative avec tout ce que cela comporte comme effets
associés à ladite politique (effets principaux et secondaires ; effets d’ajustement etc.).
Bien que s’érigeant quelques fois en théoricien de la statistique à travers l’application des techniques
appropriées pour résoudre les problèmes caractéristiques aux Sciences Economiques, l’économètre
se distingue fondamentalement du statisticien parce qu’il se préoccupe des problèmes causés par la
non vérification des hypothèses statistiques. En effet, de par la nature des relations économiques, ces
hypothèses sont rarement respectées.
On notera que les faits stylisés empiriques servent comme point de départ à la recherche
économique.
Avec les faits stylisés empiriques à l'esprit, les économistes développent alors une théorie
économique ou modèle.
Cela nécessite généralement de spécifier un modèle mathématique de la théorie économique.
Un exemple est l'équation d'Euler des anticipations rationnelles en macroéconomie.
L'objectif de la modélisation économique n'est pas simplement d’expliquer les faits stylisés,
mais aussi pour comprendre le mécanisme économique.
Etape 4 : Applications
Une fois qu'un modèle économétrique passe l'évaluation empirique, il peut ensuite être utilisé pour :
Expliquer des faits stylisés importants
Tester la théorie économique et/ ou des hypothèses
Prédire l’évolution future de l’économie
Evaluer les politiques et autres applications
Remarques :
L'économie moderne est pleine d'incertitude, par exemple, l’incertitude du marché (demande,
offre et prix), l’incertitude politique.
La loi de probabilité de ce système économique stochastique caractérise l'évolution de
l'économie, et peut être considérée comme la « loi des mouvements économiques ».
L’objectif de l’économétrie
L’objectif de l’économétrie est de :
déduire la loi de probabilité du système économique stochastique basé sur les données
observées, puis utilisez la loi de probabilité déduite pour les applications économiques.
Par exemple, la théorie économique impose généralement certaines restrictions à la loi de
probabilité. Ainsi, on peut tester la théorie économique ou les hypothèses économiques en
vérifiant la validité de ces restrictions.
Les outils et les méthodes de probabilité et de statistiques fourniront les principes de fonctionnement
de l’économétrie. Par exemple, on aura la démarche suivante :
L'économétrie n'est pas une simple application d'une théorie générale de la statistique mathématique
aux données économiques. Ragnar Frisch (1933) le résume ainsi :
« L'économétrie n'est en aucun cas la même chose que les statistiques économiques. Elle n'est
pas identique à ce que nous appelons la théorie économique générale, bien qu'une partie considérable
de cette théorie a un caractère nettement quantitatif. Elle ne devrait pas non plus être considérée
comme synonyme de l’application des mathématiques à l'économie.
L'expérience a montré que chacun de ces trois points de vue, celui de la statistique, de la théorie
économique, et des mathématiques, est une condition nécessaire, mais pas par lui-même une
condition suffisante pour une réelle compréhension des relations quantitatives dans la vie de
l'économie moderne. C'est l'unification des trois qui est puissant. Et c'est cette unification qui
constitue l'économétrie ».
Entre autres choses, l’économétrie peut jouer les rôles suivants en économie :
Examiner dans quelle mesure une théorie économique peut expliquer l’historique des données
économiques (en particulier l’importance des faits stylisés empiriques);
Tester la validité des théories économiques et des hypothèses;
Pour apprécier les rôles de l'économétrie moderne dans l'analyse économique, nous allons discuter
d'un certain nombre d'exemples économétriques dans divers domaines de l'économie et de la finance.
3. EXEMPLES ILLUSTRATIFS
Exemple 1 : Modèle simple keynésien
Le modèle se présente comme suit :
avec
Yt, le revenu national, Ct= la consommation privée, It = l’investissement privé, Gt = les dépenses
gouvernementales et εt le terme aléatoire (variable résiduelle) (chocs de la consommation ici).
Pour évaluer l’effet des politiques budgétaires sur l’économie, il est important de connaître la valeur
de β.
avec
Yi = production de la firme i,
Li = le facteur travail de la firme i,
Ki = le facteur capital de la firme i,
εi = variable résiduelle (est un choc, par exemple l’incertitude des conditions météorologiques si Yi
est un produit agricole)
L’hypothèse des rendements constants à l’échelle est une condition nécessaire de l’existence d’un
équilibre de long terme dans une économie de marchés compétitifs.
Si l’hypothèse des rendements d’échelle constants ne tient pas et que la technologie affiche le
rendement d'échelle croissant, alors l'industrie conduit au monopole naturel.
Il convient de souligner que l’hypothèse des rendements d’échelle constants équivaut à l’hypothèse statistique
sous l'hypothèse que la technologie de production est une fonction Cobb-Douglas. Cette condition
supplémentaire sur la fonction de production ne fait pas partie de l’hypothèse des rendements
d’échelle constants et est appelé un hypothèse auxiliaire.
ne sera pas équivalent à celle des rendements constants. Une spécification correcte du modèle est
essentielle pour une conclusion valide et une interprétation de l'inférence économétrique .
4. LE TERME DE L’ERREUR (OU VARIABLE RESIDUELLE)
Une différence fondamentale entre l’économiste et l’économètre réside dans le fait que le dernier
nommé se soucie (essentiellement) du terme de l’erreur. En effet, alors que l’économiste spécifiera
que la consommation est fonction du revenu disponible : Ct = f (Ydt), l’économètre dira que cette
relation devrait inclure un terme d’erreur. Ainsi donc il écrira la fonction de consommation comme
Ct = f (Ydt, Ut).
Sans la variable résiduelle, la fonction de consommation est une fonction déterministe alors qu’avec
le terme d’erreur elle devient stochastique. Un modèle déterministe est un modèle dans lequel il
n’y a pas de variable résiduelle ou erreur aléatoire. Autrement dit, c’est un modèle où le nuage de
points se situe sur la droite de régression et donc s’ajuste parfaitement à une tendance linéaire.
Tandis qu’un modèle stochastique est un modèle dans lequel il y a une variable résiduelle ou
aléatoire. Dans ce modèle, tous les points du nuage de points ne sont pas sur la droite représentant le
modèle. Les modèles déterministes sont parfois synonymes de modèles économiques et les modèles
stochastiques synonymes de modèles économétriques.
Encore appelée terme de l’erreur, terme stochastique, terme de perturbation ou simplement résidu, la
variable résiduelle mesure la déviation de chaque valeur observée de la variable expliquée Y de la
vraie mais inobservée ligne de régression. Autrement dit, la variable résiduelle est celle qui caractérise
la divergence qui émerge entre les valeurs de Y correctement observées et les valeurs qui seraient
données à Y par une relation fonctionnelle exacte. Les raisons qui justifient l’utilisation du terme de
l’erreur dans les modèles économétriques sont :
a) L’omission de la relation fonctionnelle exacte (par exemple, Y = a + bX) de nombreuses
variables explicatives avec seulement de légers et irréguliers effets sur la variable expliquée.
b) L’imparfaite spécification du modèle sous sa forme mathématique.
c) Le caractère aléatoire du comportement humain
d) Erreur dans la collecte, le mesurage, l’agrégation ou le traitement des données statistiques.
L’économètre se préoccupera de l’estimation de la variance de la variable résiduelle pour l’équation
ou les équations qui l’intéresse (nt). Ces estimations permettent de fournir des informations sur la
qualité des relations économétriques de même qu’elles permettent d’évaluer les coefficients
estimateurs des paramètres.
- Une série en coupe transversale : C’est l’ensemble des points d’observation de plusieurs
et différents secteurs (agent, unité économique, dépense de consommation et revenu
disponible de chaque ménage) en un point donné dans le temps.
- Données de panel : c’est la combinaison de la série chronologique et de la série
transversale.
n
X 1 X 2 X 3 ... X n X t (1)
t 1
Exemple :
20
X
t 5
t X 5 X 6 ... X 15 ... X 20 (2)
X X
t 1
t
t 5
t X 1 X 2 X 3 X 4 X 21 X 22 X 23 (3)
Première proposition : Si a est une constante alors nous pouvons écrire que :
n n
a X
t 1
t a Xt
t 1
pour mieux comprendre cette proposition il suffit d’écrire que :
a X 1 a X 2 ... a X n a X 1 X 2 ... X n a X t
n n
a X
t 1
t
t 1
(4)
n n n
X
t 1
t Yt X t Yt
t 1 t 1
(5)
Cette proposition veut dire que la sommation des sommes des X et Y est égale à la somme des X plus
celle des Y. (Sommation des sommes = somme des sommations).
n
X
t 1
t Yt X 1 Y1 X 2 Y2 ... X n Yn
a X
t 1
t b Yt c Z t a X t b Yt c Z t
t 1 t 1 t 1
X
t 1
i
que : X
n
X
n
X
n n n
t X Xt X (6)
t 1 t 1 t 1
X X X ... X n X
t 1
(7)
X
t 1
t
n n X (8)
n
En substituant les équations 7 et 8 dans l’équation 6 l’on obtient :
X
n n n
t X Xt X n X n X 0
t 1 t 1 t 1
Dans cette proposition nous avons fait usage du fait qu’étant donné une constante K, alors :
n
K n K
t 1
(9)
X
n n
t X Yt Y X t X Yt
t 1 t 1
X X
n n
t X Y Y t X 0
t 1 t 1
X X
n n
t X Yt Y t X Yt X t X Y
t 1 t 1
n n (10)
X t X Yt X t X Y
t 1 t 1
parce que :
X
n
t X 0
t 1
X
n n
t X Yt Y X t Yt X t Y Yt X X Y
t 1 t 1
X t X Yt X t X Y
n n
X t X Yt X t X Y
t 1 t 1
Ainsi donc nous obtenons que :
X Y Y X
n n
t X t t X Yt (11)
t 1 t 1
En allant plus loin, on peut écrire que :
X
n n n
t 1
t X Yt X
t 1
t Yt X Yt
t 1
(12)
X
n n n
t 1
t X Yt X
t 1
t Yt X Y
t 1
t
n
nX Y t
X t Yt
t 1
t1 n
Puisque
n
Y
t 1
i
Y alors,
n
X
n n
t 1
t X Yt X
t 1
t Yt n X Y (13)
Donc :
X X
n n n
t 1
t X Yt Y
t 1
t X Yt X
t 1
t Yt n X Y
1.1.1. La covariance
La covariance entre deux variables est strictement une mesure statistique montrant la tendance
d’association de deux variables au cours du temps. L’on est alors amené à se poser la question de
savoir si la nature de cette association est positive ou négative. En d’autres termes, est-ce que les
valeurs de X supérieures à une valeur typique de la variable X sont associées aux valeurs de Y
supérieures à une valeur typique de la variable Y ? Si oui alors la nature de l’association est positive.
Si par contre, les variables de X supérieures à une valeur typique de la variable X sont associées aux
valeurs de Y inférieures à une valeur typique de la variable Y alors la nature de l’association entre X
et Y est négative. L’estimateur de la covariance s’écrit comme suit :
n
( X t X ) (Yt Y )
̂ x , y
t1 n 1
ˆ x, y
1
n 1
X Y nX Y
t t
Caractéristiques
Elle donne la nature de la relation linéaire entre deux variables ;
L’estimateur de la covariance est un estimateur sans biais. C'est-à-dire :
E (ˆ x , y ) x , y ;
la covariance tout comme la variance n’est pas indépendante de l’unité de mesure ;
Elle est comprise entre – ∞ et + ∞.
Interprétation de la covariance
Pour interpréter la covariance nous dirons que
Si (X – X ) > 0 et que (Y – Y ) > 0 alors 𝜎̂𝑋𝑌 > 0
x, y
ˆ ˆ
x y
avec
X t X 2
n
1
ˆ x
n 1 t 1 écart type de la variable X,
et
n
1
ˆ y t
2
Y Y
n 1 t 1 écart type de la variable Y.
Si les variables X et Y sont positivement liées, alors 𝜌̂𝑋𝑌 > 0. Par contre, si X et Y ont une relation
négative alors 𝜌̂𝑋𝑌 < 0.
Interprétation
Plus 𝜌̂𝑋𝑌 est proche de 1 , plus l’association linéaire entre X et Y est forte. Lorsque 𝜌̂𝑋𝑌 = 0, il
n’y a alors aucune corrélation entre X et Y. Cependant, ceci n’est pas suffisant pour dire que X et Y
sont indépendantes. En effet, une corrélation réduite peut vouloir dire que les variables ont un faible
niveau de relation ou que la nature de l’association entre elles n’est pas linéaire.
des données chronologiques sur des dépenses d’investissement ou de consommation l’hypothèse (3)
dit que la variance du terme de l’erreur ne devrait pas changer au cours du temps pour l’ensemble de
l’échantillon sous la main. C’est l’hypothèse d’homoscédasticité.
4) [(Us – E (Us) (Ut –E (Ut)] = Cov (Us, Ut) = 0 pour s ≠ t
Cette hypothèse, d’absence d’autocorrélation des erreurs, veut que le terme d’erreur de la
ième
s période soit indépendant de celui de la tième période. La raison principale pour la formulation de
cette hypothèse de base est que l’on voudrait dans un premier temps que la variable X soit la seule
force systématique et prévisible qui puisse affecter Y. En effet, si Ut était liée à Ut + 1 ou Ut – 1, Yt
dépendrait alors de façon systématique et prévisible non seulement de Xt mais aussi de Ut + 1 et Ut – 1
étant donné que Ut + 1 et Ut – 1 détermineraient en partie Ut.
Avec l’ensemble des hypothèses de base (2), (3) et (4) nous avons défini le terme de l’erreur comme
une variable aléatoire inobservable qui a pour moyenne zéro, une variance σ2U constante (les erreurs
suivent donc une loi normale de moyenne zéro et de variance σ2U). Ut a aussi la propriété selon
laquelle sa valeur d’une période donnée est indépendante de celle d’une autre période (c’est-à-dire
Cov (Us, Ut) = 0).
5) La cinquième hypothèse fondamentale est que Ut devrait être indépendant des n valeurs de
la variable indépendante Xt. Ceci veut tout simplement dire que Cov (Ut, Xt) = 0. Cette hypothèse
s’appelle hypothèse d’exogénéité. Si l’hypothèse 5 tient, nous disons que les variables explicatives
sont strictement exogènes.
S’il y avait une corrélation positive entre Ut et Xt cela voudrait dire que toute valeur positive de Ut
serait associée aux valeurs de Xt supérieures à la valeur moyenne de Xt.
D’une façon similaire, toute valeur négative de Ut serait associée aux valeurs de Xt inférieures à la
valeur moyenne de Xt (autrement dit, aux valeurs de Ut > 0 correspondraient de grandes valeurs de
Xt alors qu’aux valeurs de Ut < 0 correspondraient de petites valeurs de Xt).
6) Ut ~ N (0, σ2), les erreurs suivent une loi normale de moyenne nulle et de variance σ2.
1.2.2. Estimation des paramètres par la méthode des Moindres Carrés Ordinaires
Soit Yt 0 1 X t U t
Nous savons que l’estimation de notre modèle linéaire est
Yˆ ˆ 0 ˆ 1 X t (1)
et le terme de l’erreur est obtenu par la différence entre l’observation et son estimation :
Uˆ t Yt Yˆt (2)
Le principe de la méthode des moindres carrés consiste à choisir les valeurs de ˆ 0 et ˆ 1 qui
minimiseront la somme des carrés des écarts entre les valeurs observées et les valeurs estimées de
la variable dépendante Y. En d’autres termes, nous choisirons les valeurs des ˆ 0 et ˆ 1 qui
minimiseront :
n
Uˆ
t 1
2
t
.
n n 2
Uˆ
t 1
2
t Yt Yˆt
t 1
n n 2
Uˆ
t 1
2
t Yt ˆ 0 ˆ 1 X t
t 1
(3)
Choisir les ˆ 0 et ˆ 1 qui minimiseront l’équation (3) revient à procéder de la façon suivante :
Uˆ 2 t
n
2 Yt ˆ 0 ˆ 1 X t 0
ˆ
(4)
0 t 1
Uˆ 2 t
n
2 X t Yt ˆ 0 ˆ 1 X t 0
ˆ
t 1
(5)
1
En réarrangeant les termes des équations (4) et (5), puis en les divisant par – 2, nous obtenons les
équations (6) et (7) qu’on appelle équations normales
n n n
t 1
Yt ˆ 0 ˆ 1 X t
t 1 t 1
(6)
n n n
X t Yt ˆ 0
t 1
X t ˆ 1 X
t 1 t 1
2
t
(7)
ˆ 0 Y ˆ 1 X (8)
n
X Y n X Y t t
ˆ 1
t 1
n
X
t 1
2
t n X 2 (9)
ou bien
X X Yt Y
n
t
t 1
̂ 1
X t X
n
2 (10)
t 1
ou encore
X X Yt
n
t
t 1
̂ 1
X X Xt
n
(11)
t
t 1
et comme
ˆ 0 Y ˆ 1 X
alors en remplaçant ̂ 1 par sa valeur ̂ 0 devient
X t X Yt Y
0 Y X
ˆ
X t X
2
(12)
xt X t X et yt Yt Y
Avec cela
n
x
t 1
t yt
̂ 1 n
x
t 1
2
t
(13)
ˆ 0 Y ˆ 1 X (14)
Exemple 1
Soient Y et X des variables respectivement dépendante et indépendante pour un échantillon de cinq
(5) observations.
y Y Y x XX
Y X
40 4 – 22 –4
60 6 –2 –2
50 7 – 12 –1
70 10 8 2
90 13 28 5
n=5 ∑ Y = 310 ∑ X = 40
∑ XY = 2740 ∑ X2 = 370
∑ xy = 260 ∑ x2 = 50
Sur la base des équations (10) et (13) nous obtenons ˆ 1 de la façon suivante :
n
x t yt
260
ˆ 1
t 1
n
5, 2
x 2 50
t
t 1
Y
Y 62 X
X 8
5 5
D’après l’équation (14)
ˆ 0 Y ˆ 1 X 62 5, 2 8 62 41, 6 20, 4
D’où
Yˆ 20, 4 5, 2 X t
1.2.3. La sensibilité des estimateurs des paramètres à l’unité de mesure
Pour montrer comment notre estimation de 1 est sensible à l’unité de mesure de Xt et Yt,
supposons que Wt = kXt (1) avec k constante. Alors,
Yˆ ˆ 0 ˆ 1 Wt (2)
ce qui s’écrira encore
Yˆ ˆ 0 ˆ 1 k X t Uˆ t (2a)
ˆ 1
W t W Yt Y
tW W 2 (3)
ˆ 1
k X t X Yt Y
k 2
X t X 2 (4)
ˆ 1
X t X Yt Y
k X t X
2 (5)
Ceci nous permet de dire que lorsque la variable indépendante X est pondérée par une constante k,
̂ 1 sera alors divisé par cette même constante k. Exemple : si X est exprimé en centaine d’unité
de mesure dans un premier temps et qu’ensuite l’on éprouve le besoin de le présenter en termes de
millier d’unité de mesure alors ̂ 1 deviendra ˆ ' 1 ˆ 1 / 10. Il est cependant à noter que
ˆ 0 Y ˆ 1 W (6)
ˆ 0 Y ˆ 1 k X (6a)
De ce fait
̂ 0 Y
X X Y Y k X
1 t t
X X
2 (7)
k t
ˆ 0 Y X
X X Y Y t t
X X
2 (7a)
t
Bien que l’estimation de 0 ne soit pas affectée par une quelconque pondération de la variable
indépendante X, elle est influencée par la pondération de la variable dépendante Y.
Supposons que :
Z t h Yt (8)
h X t X Yt Y
ˆ 1
t X X 2 (9)
ˆ 0 Z ˆ 1 X (10)
h X t X Yt Y
̂ 0 h Y X
X X
2 (10a)
t
X X Y Y
̂ 0 h Y
t
X
t
X X
2 (10b)
t
En résumé nous dirons que
ˆ
kX kX kY kY k X X Y Y
t t
2
t t
kX kX k X X
1 2 2 2
t t
ˆ kY ˆ k X k Y ˆ X
0 1 1
Nous allons à présent montrer que nos estimateurs obtenus par la méthode des moindres carrés
ordinaires sont des estimateurs sans biais.
MCO ̂ 1 est dit être meilleur estimateur linéaire sans biais de 1 , si les conditions suivantes
tiennent :
Il est linéaire, c’est-à-dire, qu’il est une fonction linéaire d’une variable aléatoire telle que la
variable dépendante Y dans le modèle de régression ;
valeur de 1 ;
Il a la variance la plus petite dans la classe de tous les estimateurs linéaires sans biais ; un
estimateur sans biais avec la variance la plus petite est connu sous le nom d’estimateur
efficace.
A ces trois propriétés, on ajoute la convergence des estimateurs. Un estimateur convergent est un
estimateur qui tend vers sa vraie valeur de la population au fur et à mesure que la taille de l’échantillon
augmente indéfiniment. Une condition suffisante de la convergence est que l’estimateur soit sans
biais et que sa variance tende vers zéro lorsque n, le volume de l’échantillon tend vers l’infini.
xY t t n
kt Yt
t 1
̂ 1 n
x
t 1
2
t
t 1
avec 𝑘𝑡 =
𝑥𝑡
qui montre bien que ̂ 1 est un estimateur linéaire car il est une fonction
(∑ 𝑥𝑡2 )
t 1
Uˆ t 0 et X
t 1
t Uˆ t 0 nous pouvons montrer maintenant que la procédure consistant
à minimiser
Uˆ 2
t
nous procurera les meilleurs estimateurs linéaires sans biais (MELSB)
t 1
« BLUE = Best Linear Unbiased Estimators ».
ˆ
1
X t X Yt
t X X 2 (1)
Et que :
Yt 0 1 X t U t (2)
Nous pouvons donc écrire que :
ˆ 1
X t X 0 1 X t U t
X X
2 (3)
t
En faisant la multiplication au numérateur nous avons :
ˆ 1 0
X t X 1 X t X X t X t X U t
X X
2 (4)
t
mais nous savons que :
X X 0 et que X X X X X
2
t t t t
De ce fait
X X U t
ˆ 1 1 t
X t X
2 (4a)
Nous pouvons, à présent, prendre l’espérance mathématique de l’expression (4a) tout en faisant usage
de notre hypothèse selon laquelle Xt est fixe et indépendant de Ut.
X X
1 1
ˆ t
Ut
X t X
2 (5)
de sorte que :
X X
ˆ
E 1 E 1 E t
E U t
X t X
2 (6)
X X
E t
E U t 0
X t X
2 (6a)
E ˆ 1 E 1 1 (7)
ˆ 0 Y ˆ 1 X (8)
De l’équation (2) nous pouvons écrire que :
Y 0 1 X
U t
(9)
n
ce qui donne par remplacement de (9) par sa valeur dans (8)
ˆ 0 0 1 X U t
ˆ 1 X (10)
n
ˆ 0 0 ˆ 1 1 X U t
(10a)
n
Nous savons de l’équation (5) que :
X X
1 1
ˆ t
Ut
X t X
2
ˆ
En remplaçant par sa valeur de l’équation (5) dans l’équation (10a) nous obtenons :
1 1
X X Ut
ˆ 0 0 X t
X t X
2
U t
n (11)
1 X X X
ˆ 0 0 t
Ut
X X
2
n t (12)
E ˆ 0 E 0
1 X X X
E U t
E t
X X
2
n t (13)
E ˆ 0 E 0 0 (14)
Nous venons de montrer que nos estimateurs des s sont sans biais. Cependant, nous n’avons rien
dit quant à la précision de ces estimateurs. Supposons par exemple que X est fixe pour plusieurs
échantillons, nous nous rendrons compte alors que nos estimations des s prendront des valeurs
différentes d’un échantillon à l’autre tout simplement parce que le terme de l’erreur changera d’un
échantillon à l’autre.
a) Variance de ̂ 1
Utilisant le fait que dans l’équation (5)
X X
1 1
ˆ t
Ut
X t X
2
E ˆ 1 1 2
21 (15)
Si en plus, nous utilisons la proposition fondamentale qui dit que la variance de la somme d’une
combinaison linéaire de variables indépendantes est simplement égale à la somme des variances de
ces variables, il s’en suivra que :
X X
ˆ
Var 1 Var 1 Var t
X t X 2
U
t (16)
Puisque Var 1 0 parce que 1 est une constante représentant un paramètre de la
population. De ce fait nous pouvons écrire que :
Var ̂ 1 Var Z U t t (17)
Zt
X X
t
X X
avec 2
t
Etant donné que X, la variable indépendante, est fixe pour chaque échantillon, l’on considérera X
comme une constante. Ainsi donc :
Z
Var ˆ 1 2
t Var U t et Z U Z
t t
2 2
t U 2t
avec E U t U s 0 t s
(18)
Du fait que les Ut soient indépendants et non corrélés et qu’en plus ils aient la même variance par
hypothèse nous écrirons :
Var ˆ 1 U2 Z 2 t (18a)
X X X X
2
2
Var ˆ 1 U2 U2
X X
t t
X t X
2 2 2 (18b)
t
X X
2
1
Var ˆ 1 U2 U2
t
X X X X X X
2 2 2
t t t
1
ˆ2 U2
X X
1 2 (18c)
t
vers 0, ce qui équivaut à dire que ̂ 1 a la plus petite variance possible parmi tous les estimateurs,
(c’est-à-dire c’est l’estimateur le plus efficace). ̂ 1 est bien un estimateur qui converge en
Nous pouvons constater sur l’expression de la variance de ̂ 1 que cet estimateur est d’autant plus
X 2
précis que t X est élevé, c’est-à-dire lorsque, le nombre d’observations est important, et
/ou les valeurs de la variable explicative sont très dispersées autour de leur moyenne.
b) Variance de ˆ 0
Nous savons de l’équation (12) que :
1 X X X
ˆ 0 0 t
Ut
X X
2
n t
Si nous posons que :
1 X X X
t t
n X t X
2
nous pouvons donc écrire que :
ˆ 0 0 t U t (19)
Var ˆ 0 Var U t t (20)
1 X X X
t t
n X t X
2
alors
1
2
X X X 2 2
2 X X t X
X X
2 t
n X X
t
2 2 2 (21)
n t
t
et
1 X 2 X t X
X X 2
2X
2t
t
X X n X X
2 4 2
n t t
1 X 2 X X X 2
2 t
X X n X X
t
2 2 2
n t t
Puisque X t X 0
2 X X X
0
t
n X X
alors 2
t
et nous avons :
1 X2
2
X X
t
n2 t
2
n X2 1 X2
2
2
X X X
t
2 2 (22)
n t
n t X
Ainsi donc :
ˆ
2 1
Var 0 U
X2
n X t X
2 (23)
2
2 X 2t 2 n X 2 2 n X 2
n X t X
ˆ
0 U 2
ce qui nous amène à écrire que :
2
U2
X 2
t
n X t X
ˆ 0 2 (24)
Nous constatons que ˆ2 et ˆ2 dépendent tous de la variance U2 du terme de l’erreur, ˆ2
0 1 0
Cov ˆ 0 ˆ 1 E [( ˆ 0 0 ) ( ˆ 1 1 )] (25)
L’on démontre que
Cov ˆ 0 ˆ 1 X U2
X X 2 (26)
t
important de noter que l’on connaît rarement U2 . De ce fait U2 devrait être estimé par :
ˆU2
Nous savons que :
U2 E U
U 2
t
2
t
(29)
n
Y Y m 2
U2 t
(30)
n
Y 1 Xt 2
U
2
t 0
(31)
n
Cependant, puisque nous devons estimer donc à partir de l’échantillon de volume n cela nous fait
perdre deux degrés de liberté. C’est ainsi que nous écrivons :
ˆU2
Y ˆ
t 0 ˆ 1 X t 2
n2 (32)
Nous perdons deux degrés de liberté parce que deux paramètres en l’occurrence 0 et 1 sont
ˆU2 Uˆ 2 t
Y Yˆ t t
2
t
Uˆ 2
t Y Y 2
ˆ 2 X X
1 t 2
(34)
1
ˆ ˆ2 ˆU2
X X
1 2 (35)
t
ˆ 2
ˆ
2 X 2t
n X t X
ˆ
0 U 2 (36)
1 X2
ˆ ˆ
2 2
n X t X
ˆ 0 U 2
X ˆU2
ˆ ˆ ˆ
1 0
t X X 2 (37)
1
ˆ ˆ
2 2Xt X
X t X
Yˆ U 2
n (38)
Exemple 2
CT YT
325 350
335 364
355 385
375 405
401 438
433 473
466 512
492 547
537 590
576 630
A partir des observations du tableau, estimer les valeurs des paramètres β0 et β1 de l’équation : Ct =
β0 + β1Yt + Ut avec C la consommation et Y le revenu disponible en milliards d’unité de compte. Puis
déterminer les variances des estimateurs des paramètres β0 et β1. Les données partent de 1960 à 1969.
Solution
Estimation des paramètres
n = 10 ∑ Y = 4694 ∑ C = 4295
Y
Y
4694
469 C
C
4295
430
10 10 10 10
Avec ct ( Ct C ) et yt ( Yt Y )
( Ct C ) ( Yt Y ) 76038 ct yt
( Yt Y ) 2 85810 yt
2
; Yt
2
2289172
Nous savons que :
n n
t 1
ct y t (C
t 1
t C ) (Yt Y )
̂ 1 n
n
t 1
y 2
t (Y
t 1
t Y )2
Ce qui donne :
76038
ˆ 1 0,89
85810
Comme nous savons aussi que :
ˆ 0 C ˆ 1Y 430 0, 89 469 12,59 13
Nous pouvons donc écrire que l’équation de la droite d’estimation est :
ˆ 13 0,89Y
Ct
Il est à noter que l’estimation de cette relation entre la consommation et le revenu disponible se
conforme bien à nos anticipations théoriques : en, l’estimation de la propension marginale à
consommer 0,89 est positive et comprise entre 0 et 1 (0 < PmC) < 1). L’estimation de l’ordonnée à
l’origine (consommation autonome, ici) 13, est aussi positive.
Pour passer de la propension marginale à consommer à l’élasticité-revenu de la consommation, on
utilise la formule suivante :
y ̂1
Y
(C C )(Y Y ) Y
t t
C (Y Y ) C t
2
Uˆ 2
92
ˆ 11,5
2
U
n2 8
2
Sachant que Yt 2 289172
et que ( Yt Y ) 2 85810
nous pouvons écrire que :
ˆ Y
2 2
11,5 (2289172)
ˆ 31
2 U t
ˆ o
n (Yt Y ) 2
10 (85810)
ˆ
2
11,5
ˆ 0,0001
2 U
ˆ1
(Y t Y ) 2
85810
R
2 (Yˆ Y )t
2
(Y Y ) (Y Yˆ )
t
2
t t
2
(Y Y )
t
2
(Y Y ) t
2
ou
R 1
2 (Y Yˆ ) t t
2
1
SCE
(Y Y ) t
2
STC
Avec
(Yt Y ) 2 = sommes totales des carrés (STC), c’est cet écart que nous essayons d’expliquer ;
(Yˆt Y ) 2 = sommes des carrés de la régression (SCR), c’est cet écart qui est expliqué par
notre méthode de régression ;
Uˆ t (Yt Yˆt ) = sommes des carrés des erreurs (SCE), c’est cet écart qui demeure
2 2
inexpliqué par la méthode de régression. En d’autres termes, cet écart représente le terme de l’erreur
Yˆ nY
2 2
R
2 t
Y nY
2 2
t
R2 qui mesure le pouvoir explicatif de l’équation de régression est appelé le coefficient de
détermination ou coefficient de détermination non ajusté.
Dans le cas où les variables sont centrées par rapport à leur moyenne, le coefficient de détermination
s’écrit comme suit :
yˆ Uˆ
2 2
R 1 yt Yt Y et xt X t X
2 t t
y y
2 2 avec
t t
Interprétation de R2
Le R2 nous indique tout simplement la proportion de l’écart total qui a été expliquée par la régression.
Si la régression explique toutes les variations de Yt (variable dépendante), cela voudrait dire que
toutes les observations se trouvant sur le graphique seraient sur la droite d’estimation. Dans ce cas R2
= 1. On dit que l’équation de régression explique 100% des variations de la variable dépendante.
Si par contre, l’équation de régression n’explique aucune variation de Yt, alors R2 = 0.
En général, l’équation de régression n’expliquera qu’une certaine proportion des variations de la
variable dépendante. De ce fait R2 sera compris entre 0 et 1,
0 ≤ R2 ≤ 1. Si R2 est proche de 1 nous dirons que l’équation de régression explique une très grande
proportion des variations de la variable dépendante. Si par contre R2 est proche de zéro nous dirons
que l’équation de régression n’explique qu’une faible proportion des variations de la variable
dépendante.
Si par exemple R2 = 0,96 nous dirons que l’équation de régression explique 96 pour cent des
variations de la variable dépendante.
2 ˆ x
2
ˆ
R 1
2
ˆ y
2
et
2
ˆ xy
R 2 ( XY ) 2 avec y t Yt Y et xt X t X
ˆ ˆ
x y
Le coefficient de corrélation n’implique pas de causalité ou de dépendance. Il est compris entre – 1
et +1. ρ prend le signe de ˆ 1 . Un coefficient de corrélation positif indique que les variables évoluent
dans le même sens c’est-à-dire que X et Y augmentent ensemble et diminuent ensemble. C’est le cas
par exemple des variations des quantités offertes et des variations des prix.
Un coefficient de corrélation négatif implique que les variables X et Y évoluent en sens opposé.
Quand X augmente Y baisse et vis versa.
2
1.3.3. Le coefficient de détermination ajusté R
La formule est la suivante :
n 1
R2 1 (1 R 2 )
n2 (11)
R2 est le coefficient de détermination ajusté par les différents degrés de liberté associés à la variable
dépendante et aux paramètres estimés.
n – 1 degré de liberté parce que nous estimons Y par Ŷ ;
n – 2 degré de liberté parce que nous estimons 2 paramètres y compris ̂ 0 (c’est-à-dire une
Etant donné que les différentes valeurs des ˆ 0 et ˆ 1 d’un échantillon à un autre, déterminent
(a priori). Par ailleurs, étant donné que ˆ2 et ˆ2 sont fonctions linéaires du terme de l’erreur
0 1
Ut ~ N (0 U2 ) (1)
Ceci veut tout simplement dire qu’étant donné P échantillons pour la même valeur de X t, il y aura
une distribution de Yt autour de Ym de sorte que la différence Yt – Ym (c’est-à-dire Ut) suivra une loi
normale. ( Y
m
0 1 X t ).
Et en utilisant le fait que des combinaisons linéaires de variables suivant une loi normale suivent
elles-mêmes une loi normale, il s’en suit que 0 et 1 suivent une loi normale de sorte que :
ˆ 0 ~
N 0 , ˆ 20
ce qui implique que
t
2
X
N 0 , ˆU
2
N X X
t
ˆ 0 ~ 2
(2)
et
ˆ 1 ~
N 0 , ˆ 2
1
ce qui implique que
2 1
N 1 , ˆU
ˆ 1 ~
X t X
2
(3)
ˆ 1 1
z ~
ˆ 1
N (0, 1) (4)
Malheureusement ˆ2 est presque toujours inconnu et il faut l’estimer. On ne peut donc pas utiliser
1
L’estimateur de l’écart type de ˆ 1 conduit à une nouvelle statistique que nous appelons t avec
ˆ 1 1
t
ˆ ˆ (5)
1
On ne peut pas dire que t suit une loi normale. En fait on démontre que t suit une loi de Student à (n
ˆ 0 0
suit aussi une loi de Student à (n – 2) degrés de liberté.
ˆ ˆ
0
Remarque
ˆ 1 1
Encore une fois t suit une loi de Student à (n – 2) degrés de liberté (ddl ou dl).
ˆ ˆ
1
Le nombre de degrés de liberté est égal au nombre d’observations c’est-à-dire n moins le nombre de
contraintes que la procédure d’estimation utilisée exerce sur les données statistiques. En pratique le
nombre de contraintes est égal au nombre de paramètres estimés dans le modèle.
ˆ 1 1
t ~ St (n – 2) mais si le nombre de degrés de liberté est supérieur à
En toute rigueur
ˆ ˆ
1
Pr o b ( t / 2 t t / 2 ) P 1 (7)
ˆ 1 1
Pr o b ( t / 2 t / 2 ) P 1
ˆ
ˆ (7a)
1
Pr o b ( t / 2 ˆ ˆ ˆ 1 1 t / 2 ˆ ˆ ˆ 1 ) P 1 (8)
1 1
IC [ t / 2 ˆ ˆ ˆ 1 , t / 2 ˆ ˆ ˆ 1 ]
1 1
L’équation (8) signifie que qu’il y a P = (1 – α) % de chance pour que la valeur de 1 se trouve
dans l’intervalle IC. En d’autres termes, en échantillonnage aléatoire répété, si l’on établit 100
intervalles comme celui que nous venons d’établir, P = (1 – α) sur ces 100 intervalles contiendront le
vrai 1.
t
Nota bene : / 2 est lu dans la table de Student à (n – 2) degrés de liberté et la méthode est identique
pour 0.
APPLICATION NUMERIQUE
SOLUTION
On sait que
ˆ 1 1
t ~ St (n – 2) alors dl = n – 2 = 20 – 2 = 18
ˆ ˆ
1
Cela signifie que la probabilité que 1 soit dans l’intervalle [ 0.953 , 1.247 ] est 0 ou 1 mais
nous sommes confiants à 95% que dans le long terme, 95 sur 100 intervalles comme celui que nous
venons de construire contiendront le vrai paramètre 1 .
Uˆ
2
W2 t
U2 (9)
(n 2) ˆU2 Uˆ t
2
W2 car ˆU2
U
2
n2 (10)
Théorème : W2 suit une loi de 2 . On peut donc trouver dans la table de cette loi les valeurs de
ˆ U
2
Pr o b ( 2 ( 1 / 2 ) ( n 2 ) ( n 2 ) 2 2( / 2 ) ( n 2 ) ) P 1
U (11)
( n 2 ) ˆ U ( n 2 ) ˆ U
2 2
U 2 ) P 1
2
Pr o b ( 2
( / 2 ) ( n 2 ) (1 / 2) ( n 2 ) (12)
( n 2 ) ˆ U ( n 2 ) ˆ U
2 2
IC ,
2 ( / 2) ( n 2 ) 2 (1 / 2) ( n 2 )
APPLICATION NUMERIQUE
A partir d’un échantillon de 14 observations l’on a obtenu le modèle estimé suivant :
SOLUTION
ˆ 1 1
tc
ˆ ˆ1
(13)
Ensuite nous pouvons à partir de là, définir la région critique pour ce test comme étant :
tc t , n 2 (14)
l’hypothèse nulle Ho selon laquelle 1 serait zéro et nous concluons que 1 est
3) Ho : 1 0 vs Ha : 1 0 (test bilatéral)
Et la région critique qui est divisée en deux sous régions critiques sera définie par :
t c t / 2 , n 2 (16)
Si la valeur absolue du t-calculé (tc) est supérieure à celle du t lu dans la table (c’est-à-dire
t / 2 , n 2 ) alors nous rejeterons l’hypothèse nulle Ho selon laquelle 1 serait égal à zéro et
nous conclurons qu’au seuil significatif α, 1 est différent de zéro. 1 peut-être soit positif ou
négatif mais il est significativement différent de zéro au seuil α qui nous est donné.
Nous résumons dans le tableau qui suit l’approche des tests d’hypothèses des paramètres basée sur le
t de Student.
Type d’hypothèse H0 Ha Règle de décision :
rejeter H0 si
Bilatéral 𝛽1 = 0 𝛽1 ≠ 0 |𝑡𝑐 | > 𝑡𝛼⁄2, 𝑛−2
Unilatéral à droite 𝛽1 ≤ 0 𝛽1 > 0 𝑡𝑐 > 𝑡𝛼, 𝑛−2
Unilatéral à gauche 𝛽1 ≥ 0 𝛽1 < 0 𝑡𝑐 < −𝑡𝛼, 𝑛−2
Exercice
Sachant que ˆ0 104,89 ˆ1 1,29 ˆ ˆ0
9,2723 ˆ ˆ1
1,85 n = 20 et R 2 0,16 .
Formuler puis conduire le test d’hypothèses pour les paramètres du modèle (faire le test bilatéral et
le test unilatéral à droite).
1) Ho : 0 vs Ha : 0 au seuil α
L’hypothèse nulle indique l’absence d’association linéaire entre les paires de variables (X et Y par
exemple) alors que l’hypothèse alternative dit qu’il y aurait une association linéaire positive entre les
deux variables.
La règle de décision dans ce cas consiste à rejeter Ho si :
ˆ
t cal t , n 2
1 ˆ / n 2
2
2) Ho : 0 vs Ha : 0 au seuil α
L’hypothèse alternative suggère l’existence d’une association linéaire négative entre ces deux
variables. Règle de décision : rejeter Ho si :
ˆ
t cal t , n 2
1 ˆ / n 2
2
3) Ho : 0 vs Ha : 0 au seuil α
La règle de décision sera formulée de la façon suivante : Rejeter Ho si :
ˆ
tcal t / 2 , n 2
1 ˆ / n 2
2
et
ˆ
t / 2 , n 2
1 ˆ / n 2
2
APPLICATION
Une étude portant sur 30 entreprises a indiqué que la corrélation entre la stabilité de l’emploi et l’âge
de l’entreprise était de 0,53.
Tester l’hypothèse d’absence de corrélation entre ces deux variables (nombre moyen des employés
restant au sein de leur entreprise jusqu’à l’âge de la retraite et l’âge de l’entreprise) contre l’existence
d’une corrélation positive entre les deux variables.
Ho : 0 vs Ha : 0
n = 30 ˆ 0,53 0,05
ˆ 0,53
t cal
1 ˆ / n 2
2
1 (0,53) / 30 2
2
0,53
3,313
0,719 / 28
Etant donné que tcal t0,05 , 28 1,701 nous rejetons Ho et concluons qu’au seuil
α = 0,05 , ρ est significativement positif. Si maintenant α = 0,025, ici encore on a
tcal t0,025 , 28 2,048 . Nous rejetons Ho et concluons que ρ est significativement positif.
de la Variance les variations totales que l’on cherche à expliquer en variations expliquées et en
variations non expliquées. Le tableau contient en outre la somme des carrés, les degrés de liberté
associés aux différentes sources des variations et les moyennes des carrés. Les moyennes des carrés
sont obtenues en divisant les sommes des carrés par leur degré de liberté respectif. Une fois cela
réalisé, l’on procède à la conduite du test d’hypothèse de signification globale du modèle à travers
le calcul d’un F (statistique de Fisher) sur la base des informations contenues dans le tableau de
l’analyse de la variance. Le Fcal ou Fc calculé est obtenu par le rapport de la moyenne des carrés de la
régression et de celle de l’erreur. Ce F calculé a un degré de liberté associé aux variations dues à la
régression au numérateur et celui associé à la variable résiduelle au dénominateur, au seuil α
préalablement donné.
Si le Fc est supérieur au F tabulé (Ftabou Flu) l’on rejetera l’hypothèse nulle de non significativité
globale du modèle au seuil α donné. Si en revanche, Le Fc est inférieur au F tabulé, on ne peut pas
alors rejeter l’hypothèse nulle.
Nous savons que :
(Yˆt Y ) 2 + t t ˆ 2
(Yt Y ) 2 = (Y Y )
Yˆt ˆ 0 ˆ 1 X t Y ˆ 0 ˆ 1 X
D’où Yˆt Y ˆ 1 X t X
(Yˆt Y ) 2 ˆ 12 (Xt X )
2
=
La statistique F de Fisher se calcule comme suit :
Yˆ Y / 1
2
F
t
Y Yˆ / (n 2 )
2 ~ F (1, n – 2) dl
t t
En d’autres termes
SCR / 1
F ~ F (1, n – 2) dl
SCE / (n 2 )
En somme dans le cadre du test de l’analyse de la variance (ANOVA), le tableau de l’ANOVA se
présente comme suit :
Yˆ Y
Variations 2 k=1
expliquées par la SCR t SCR
S1
2
ˆ 1 X t X
régression 2 2
1
Y Yˆ
Variations non 2 n–2 SCE
expliquées SCE t t S2
2
n2
Y
Variations totales 2 n–1
STC t Y
2
S1
F 2 ~ F (1, n – 2) dl
S2
REMARQUE
Dans le cadre du modèle simple, tester la significativité globale du modèle revient à tester la
significativité du coefficient 1. Autrement dit, dans le cas d’un modèle simple, la statistique F
de Fisher sert à tester la significativité d’un seul coefficient ( 1 0 ). C’est ainsi que dans le cas
d’un modèle de régression à deux variables, la statistique F calculée, utilisée pour tester
Ho : 1 0 est simplement le carré de la statistique t de Student.
ˆ 1
t utilisée pour tester la même hypothèse ( Ho : 1 0
ˆ ˆ )
1
t2
On a donc = F.
Cela voudrait tout simplement dire que le test de l’analyse de la variance pour un modèle de régression
simple ne donne pas plus d’informations que l’on ne puisse pas avoir avec le test du t de Student.
Mais cela n’est pas vrai pour le modèle de régression multiple. Dans ce dernier cas, le test de
l’ANOVA teste effectivement la signification globale de l’ensemble des paramètres de la régression.
EXEMPLE
En considérant les informations suivantes
n = 25 Y 235,60 Y 9,424 X 1315 X 52,60
XY 11821, 43 X 2
76323 , 42 Y 2284 ,1102
2
1) Estimer les coefficients estimateurs des paramètres du modèle puis écrire l’équation estimée.
2) Dresser le tableau de l’analyse de la variance puis tester la signification globale du modèle au
seuil α = 0,05.
3) Calculer la variance des coefficients estimateurs des paramètres.
4) Tester l’hypothèse selon laquelle le coefficient de la variable explicative est significativement
différent de zéro au seuil α = 0,05.
Dr Coulibaly Daouda, UPGC, UFR des Sciences Sociales, Département d’Economie
CEL : (+225) 05907011 Email : coulydaouda@gmail.com 47
UNIVERSITE PELEFORO GON COULIBALY
INTRODUCTION A L’ECONOMETRIE
LICENCE 3 ECONOMIE & GESTION
SOLUTION
1) Estimation des coefficients estimateurs
ˆ 1
XY n X Y
11821 , 43 12392 , 56
0,079829
X n X2 2
76323 , 42 69169
ˆ 0 Y ˆ 1 X 9,424 ( 0,079829) (52,60) 13,623
L’équation de la droite d’estimation est :
Yˆt 13,623 0,0798 X
2) Tableau de l’analyse de la variance
Yˆ ˆ 1 X ˆ 1 X
2 2
SCR Y X n X2
2 2 2
t t
(0,0798) 2 76323,42 25 (52,60) 2 45,59
Y Y
2
STC t Y 2
nY 2
SCE 18,23 23 S2
2 18,23
0,7926
23
2
STC 63,82 24 S1 45,59
F 2
57,519
S2 0,7926
0,7926 F 1; 23
Uˆ18,23
2
ˆ
0,7926
2
U
n2 23
Une fois déterminée la variance résiduelle nous pouvons maintenant calculer celle des coefficients
estimateurs. Ce qui nous permet d’écrire :
ˆ X
2 2
0,7926 (76323,42)
ˆ 0,3382
2 U t
ˆ o
n (Xt X ) 2
25 (7154,42)
ˆ ˆ 0,3382 0,5815
o
De même
ˆ
2
0,7926
ˆ 0,00011078
2 U
ˆ
1
(X t X )2 7154,42
ˆ
ˆ
1
0,00011078 0,0105
4) Test d’hypothèses
Ho : 1 0 vs Ha : 1 0
ˆ 1 0,0798
tc 7,60
ˆ ˆ
1
0,0105
En consultant la table de la distribution du t nous trouvons que t0, 025 ; 23 2,069 . Nous
constatons bien que tc 7,60 t 0, 025 ; 23 2,069. De ce fait nous rejeterons Ho et
conclurons que nous sommes confiants 95% que la valeur de 1 est significativement différente
de zéro.
Notons que nous avons bien t2 = (– 7,60) = 57,76 = F
1.5. LA PREVISION
L’un des domaines essentiels d’application de l’analyse de la régression est la prévision. Les résultats
obtenus d’une analyse de régression peuvent être utilisés aussi bien pour les tests d’hypothèses que
pour les prévisions c’est-à-dire la détermination de l’impact de certains événements sur les variables
économiques.
Soit le modèle estimé suivant :
ˆ 24,4545 0,5091X n = 10, 𝑋̅ = 170, ∑ 𝑥 2 = 33000
t t
où est l’estimateur de la vraie valeur moyenne de Yt, E(Yt) pour Xt donné. Il y a deux possibilités de
faire la prévision de Yt pour une valeur donnée de X, disons 𝑋𝑓 :
- prévision de la valeur moyenne conditionnelle de Y pour 𝑋𝑓 , appelée prévision moyenne.
- prévision d’une valeur individuelle de Y pour 𝑋𝑓 , appelée prévision individuelle.
En remplaçant 𝜎𝑢2 par son estimateur non biaisé 𝜎̂𝑢2 , nous pouvons écrire
𝑌̂𝑓 −𝑌𝑓𝑚
𝑡= ̂𝑌
𝜎 ̂
𝑓
qui suit la loi de Student à n – 2 degrés de liberté. Nous pouvons alors construire un intervalle de
confiance pour 𝑌𝑓𝑚
𝑃𝑟 [𝛽̂0 + 𝛽̂1 𝑋𝑓 − 𝑡𝛼⁄2 𝜎̂𝑌̂𝑓 ≤ 𝑌𝑓𝑚 ≤ 𝛽̂0 + 𝛽̂1 𝑋𝑓 + 𝑡𝛼⁄2 𝜎̂𝑌̂𝑓 ] = 1 − 𝛼 (4)
Ainsi, avec les données
1 (100−170) 2
𝑉𝑎𝑟(𝑌̂𝑓 ) = 42,159 [ + ] = 10,4759
10 33000
et
𝜎̂𝑌̂𝑓 = 3,2366.
L’intervalle de confiance à 95% pour la valeur moyenne 𝑌𝑓𝑚 est
𝑃𝑟[75,3645 − 2,306(3,2366) ≤ 𝑌𝑓𝑚 ≤ 75,3645 + 2,306(3,2366)] = 0,95
[67,9010 ≤ 𝑌𝑓𝑚 ≤ 82,8381]
Pour 𝑋𝑓 = 100 donné, dans un échantillonnage répété, 95 sur 100 intervalles comme celui que nous
venons d’obtenir inclurons la vraie valeur moyenne ; le seul meilleur point d’estimation de la vraie
valeur moyenne est naturellement le point d’estimation 75,3645.
En remplaçant également 𝜎𝑢2 par son estimateur non biaisé 𝜎̂𝑢2 , nous pouvons écrire
𝑌𝑓 −𝑌̂𝑓 𝑌𝑓 −𝑌̂𝑓
𝑡 = 𝜎̂ = ̂𝑒𝑓
̂ )
(𝑌𝑓 −𝑌 𝜎
𝑓
qui suit aussi la loi de Student à n – 2 degrés de liberté. L’intervalle de confiance pour 𝑌𝑓 est
𝑃𝑟 [𝛽̂0 + 𝛽̂1 𝑋𝑓 − 𝑡𝛼⁄2 𝜎̂𝑒𝑓 ≤ 𝑌𝑓 ≤ 𝛽̂0 + 𝛽̂1 𝑋𝑓 + 𝑡𝛼⁄2 𝜎̂𝑒𝑓 ] = 1 − 𝛼 (8)
L’application donne
1 (100−170)2
𝑉𝑎𝑟(𝑒𝑓 ) = 42,159 [1 + + ] = 52,6349
10 33000
et
𝜎̂𝑒𝑓 = 7,255.
L’intervalle de confiance à 95% pour la valeur moyenne 𝑌𝑓 est
𝑃𝑟[75,3645 − 2,306(7,255) ≤ 𝑌𝑓 ≤ 75,3645 + 2,306(7,255)] = 0,95
[58,6345 ≤ 𝑌𝑓 ≤ 92,0945]
La différence entre la prédiction individuelle et la prédiction moyenne se situe au niveau de leur
variance.
Nous constatons que l’intervalle de confiance de la valeur individuelle de Y est plus grand que celui
de la valeur moyenne. Cela s’explique par deux éléments. La variance de (𝑌𝑓 − 𝑌̂𝑓 ),
𝑉𝑎𝑟(𝑒𝑓 ) 𝑜𝑢 𝑉𝑎𝑟(𝑌𝑓 − 𝑌̂𝑓 ) comporte deux sources d’erreur de prévision : l’une est liée à
l’imprévisibilité du terme de l’erreur et l’autre est associée à l’incertitude des coefficients estimateurs.
Alors que la variance de la valeur moyenne, 𝑉𝑎𝑟(𝑌̂𝑓 ) comporte une seule source d’incertitude, celle
des coefficients.
Le fait que la variable résiduelle de prévision ne soit pas connue, nous devons donc la remplacer par
une valeur estimée. Et l’estimation de la variable résiduelle constitue une source d’erreur. C’est la
source la plus répandue de l’erreur de prévision.
Puisque les paramètres ne sont pas connus dans la réalité, ils sont donc estimés. Et cet écart entre les
paramètres et les coefficients estimés constitue une source d’erreur de prévision. L’écart type des
coefficients estimés est une mesure de la précision avec laquelle les coefficients estimés mesurent les
vrais paramètres.
Y 0 1 X 1 2 X 2 ... k X k U (1)
qui comprend n observations, où Y est la variable à expliquer ; X1, X2, …, Xk sont k variables
explicatives et U le terme de l’erreur.
Le modèle peut être encore écrit sous la forme d’une équation matricielle suivante
YX U
alors l’équation de prédiction selon la méthode des MCO est :
Y X ˆ Uˆ Yˆ Uˆ
où Y = le vecteur colonne des observations pour la variable dépendante de dimension n x 1
X = la matrice des variables indépendantes de dimension n x k + 1
Les formes matricielles ci-dessus sont représentatives de modèles écrits sous forme homogène (c’est-
à-dire sans terme constant) :
Y 1 X 1 2 X 2 ... k X k U (2)
Pour le cas de modèle écrit sous forme non homogène (équation 1, i.e, avec terme constant), on
généralise le cas précédent en supposant que la constante ˆ 0 est multipliée par un vecteur unitaire
Xo :
Y 0 X 0 1 X 1 2 X 2 ... k X k U (3)
Dans ce cas, l’équation (3) devient homogène et la matrice X a alors une colonne complétée de
chiffres 1. Soit :
1 x11 x21 xk1
1 x12 x22 xk 2
X
1 x1n x2 n xkn
Considérons l’exemple suivant où k = 2 et n = 5
10, 98 1 35 5 uˆ1
11, 13 1 uˆ
29 10 ˆ 0 2
Y 12, 51 X 1 20 Uˆ uˆ3
30 ˆ ˆ 1
8, 40 1 58 18 ˆ uˆ 4
2 uˆ5
10, 36 1 33 22
Nous pouvons alors écrire ce système comme
10, 98 ˆ 0 35 ˆ 1 5 ˆ 2 uˆ 1
11, 13 ˆ 0 29 ˆ 1 10 ˆ 2 uˆ 2
12, 51 ˆ 0 30 ˆ 1 20 ˆ 2 uˆ 3
8, 40 ˆ 58 ˆ 18 ˆ uˆ
0 1 2 4
10, 36 ˆ 0 33 ˆ 1 22 ˆ 2 uˆ 5
ce qui est équivalent à
Y X ˆ Uˆ
Résoudre le modèle revient à estimer les paramètres 0 , 1 , 2 , ... , k qui sont
uˆ
2
estimateurs par la méthode des MCO sont calculés en minimisant t qui se présente sous la
forme matricielle comme
uˆ Uˆ ' Uˆ
2
t (1)
et
Uˆ Y X ˆ (2)
de ce fait
On sait que : ˆ ˆ
donc ˆ ˆ
Ainsi
Uˆ ' Uˆ ˆ ˆ ˆ ˆ (4)
Les termes de cette somme sont des matrices format (1 , 1) i.e des scalaires. Or la transposée d’un
scalaire c’est ce même scalaire.
ˆ
1, n n,k
scalaire de format (1 , 1) car on ne prend que les extrémités (bornes).
k ,1
Puisque ˆ ˆ
On peut donc dire que :
Etant donné que ˆ ' X Y Y X ˆ sont tous des scalaires, si l’on prend la dérivée
première par rapport à chacun des j , nous aurons les valeurs du vecteur B qui minimisent la somme
(6)
(7)
x1
x
a1 a 2 ... a n 2
(10)
xn
Alors
a1
x1 (11)
a2
x2 (12)
an
xn (13)
(15)
n1
a a nn
xn
2 a11 x1 a1n x n
x1
2 a n1 x1 a nn xn
(16)
xn1
Mis à part le coefficient 2, les expressions sur la droite des équations (16) contiennent les éléments
du produit matriciel AX qui donnent un vecteur colonne de n éléments. D’autre part, l’on peut
considérer les expressions sur la droite des équations (16) comme des éléments du produit matriciel
X’A, qui donnent un vecteur ligne de n éléments.
Ainsi donc l’on peut écrire pour une généralisation que
2 (17)
2 (18)
Uˆ ' Uˆ 2 ˆ ˆ ( ) ˆ
et
Uˆ ' Uˆ
2 ˆ ˆ ( ) ˆ
(19)
ˆ ˆ ˆ
Les équations (14) et (17) permettent de réécrire l’équation (19) comme suit :
Uˆ ' Uˆ
2 2 Bˆ 0
ˆ (20)
ˆ (21)
Il convient de noter que l’expression (21) représente notre système d’équations normales. Avec ce
système d’équations normales, nous pouvons trouver l’inverse de la matrice X’X de sorte que
Pour que cette solution (équation 24) minimise Uˆ ' Uˆ , la matrice associée à la dérivée de second
ordre doit être définie positive. On a :
Uˆ ' Uˆ
2 2 Bˆ
ˆ
donc
Uˆ ' Uˆ 2 Uˆ ' Uˆ
2
ˆ ˆ
' ' ˆ ˆ (25)
En général, pour des problèmes où le nombre de variables indépendantes k dépasse 2, les solutions à
la matrice (X’X)– 1 sont généralement et facilement calculées par ordinateur. Il en est de même pour
toutes les multiplications des matrices. Cependant, et indépendamment du nombre k de variables
explicatives, si toutes les hypothèses de base à propos de Û t sont respectées, si en plus les Xi et Xj
ne sont pas fortement corrélées et que n – k – 1 > 0 (n – k – 1étant le degré de liberté du modèle),
alors nous pouvons obtenir (trouver) une solution à la matrice (X’X)– 1 de sorte que les estimateurs
Yˆ X ˆ (25)
ˆ ( ) 1 ( U ) Y X U
(2) car
ˆ ( ) 1 ( ) ( ) 1 U
(3)
ˆ ( ) 1 U (4)
ˆ ( ) 1 U (5)
ˆ (6)
correspondant de la population. Nous disons donc que les estimateurs des par la méthode des
moindres carrés ordinaires sont des estimateurs sans biais.
La variance de ̂ peut aussi être calculée. Pour cela, considérons l’expression (4) qui nous permet
d’écrire que :
ˆ ( ) 1 U (7)
De sorte que
var ˆ ˆ ˆ puisse s’écrire comme
var ˆ 1
UU ' 1 (8)
Ceci provient du fait que nous avons utilisé la règle selon laquelle C C et en
– 1
oubliant pas le fait que (X’X) est une matrice symétrique parce que (X’X) est une matrice
symétrique - c’est-à-dire que
(X’X)’ ≡ (X’X).
var ˆ ( ) 1 U U '
1
(9)
U U ' U
2
et puisque alors nous pouvons écrire que
var ˆ ( ) 1 U
1 2
( ) 1 U
1 2
(10)
( ) 1 U
2
Donc
var ˆ U ( ) 1
2
(11)
de Û t . Il faut aussi noter que les valeurs en deçà de cette diagonale sont utilisées pour le calcul
DE LA VARIANCE RESIDUELLE
U ˆ U
2 2
La variance résiduelle étant inconnue, on l’estime par qui est un estimateur sans biais
U
2
de la variance . On l’estime par :
Uˆ ' Uˆ
ˆ U
2
n k 1 (1)
ˆ ( ) 1 et ˆ ' ( ) 1
En remplaçant ̂ et ̂ ' par leur valeur, il vient
Uˆ ' Uˆ ˆ (2)
Et l’estimateur de la variance résiduelle est :
Uˆ ' Uˆ ˆ
ˆ U 2 (3)
n k 1 n k 1
var ˆ ˆ U ( ) 1
2
(4)
La matrice ˆ U ( ) 1
2
est appelée encore matrice des variances et covariances des
ˆ se
j
présente comme
var ( 0 ) cov ( 0 1 ) cov ( 0 k )
cov ( ) var ( 1 ) cov ( 1 k )
ˆ U ( ) 1
2 1 0
(5)
cov ( k 0 ) cov ( k 1 ) var ( k )
ˆ
1
2
ˆ n 2 ˆ ˆ n 2
R
2 n
1
2 n 2 n 2 (1)
n
ou encore
ˆ ˆ n 2 Uˆ Uˆ
R
2
1
n 2 n 2 (2)
ˆ n 2
avec SCR ˆ
ˆ n2
ˆ
ˆ n 2 , la somme des
carrés de la régression ;
SCE Uˆ ' Uˆ
ˆ , la somme des carrés des erreurs, et ;
STC nY 2 , la somme totale des carrés.
En fonction des notations ci-dessus, le coefficient de détermination non ajusté peut s’écrire :
SCR SCE
R2 1 (3)
STC STC
Le coefficient de détermination R2 (ou coefficient de corrélation multiple) est défini comme étant la
mesure de la proportion des variations de la variable dépendante expliquée par les variations des
variables indépendantes. Avec la méthode des moindres carrés ordinaires, lorsqu’une variable
supplémentaire est introduite dans le modèle de régression, cela entraîne nécessairement une
réduction de la somme du carré des erreurs (SCE). Ainsi donc, la valeur de R 2 doit augmenter avec
l’introduction de nouvelles variables indépendamment de la pertinence de ces variables.
Considérons le cas où
Yt ˆ 0 ˆ 1 X 1 t Uˆ 1 t (4)
Yt ˆ 0 ˆ 1 X 1 t ˆ 2 2 t Uˆ 1 t (5)
Bien que les variables dépendantes soient les mêmes, les R2 pour les deux équations ne sont pas
comparables parce que le nombre de variables indépendantes n’est pas le même. L’on peut corriger
cette différence en tenant compte du changement dans le degré de liberté dans l’équation (5).
Si nous définissons
uˆ
uˆt
2
ˆ uˆ
2
var (6)
dl
comme étant la variance de la variable résiduelle (i.e la somme des carrés des termes de l’erreur
divisée par le degré de liberté). Lorsque l’on augmente le nombre de variables indépendantes, le
numérateur et le dénominateur de l’équation (6) peut ne pas changer car la valeur de var û
dépendra des réductions proportionnelles du numérateur et du dénominateur de l’équation (6). (Il
arrive même qu’au-delà d’un certain seuil, l’augmentation du nombre des variables explicatives
entraîne une augmentation de var û ).
uˆ
uˆt
2
Comme nous le constatons, var tient compte du degré de liberté alors que le R2
dl
n’en fait pas cas. En effet, au fur et à mesure que le nombre des variables explicatives augmente, R 2
augmente jusqu’à ce qu’il atteigne 1.0. C’est pour remédier à cela que l’on a coutume de faire ressortir
R 2 1
n 1
1 R 2
n k 1 (7)
ou
R 2 R2
k
n k 1
1 R2
n – 1 étant le degré de liberté associé à la variable expliquée, k est le nombre de régresseurs et nous
IC [ t / 2 ˆ ˆ ˆ j , t / 2 ˆ ˆ ˆ j ]
j j
L’équation (2) signifie que qu’il y a P = (1 – α) % de chance pour que la valeur de j se trouve
dans l’intervalle IC. En d’autres termes, en échantillonnage aléatoire répété, si l’on établit 100
intervalles comme celui que nous venons d’établir, P = (1 – α) sur ces 100 intervalles contiendront le
vrai j.
Dr Coulibaly Daouda, UPGC, UFR des Sciences Sociales, Département d’Economie
CEL : (+225) 05907011 Email : coulydaouda@gmail.com 62
UNIVERSITE PELEFORO GON COULIBALY
INTRODUCTION A L’ECONOMETRIE
LICENCE 3 ECONOMIE & GESTION
( n k 1 ) ˆ U ( n k 1 ) ˆ U
2 2
IC ,
( / 2) ( n k 1 )
2
2 (1 / 2) ( n k 1 )
1) Ho : j 0 vs Ha : j 0
ˆ j j
tc
ˆ ˆ
j
Ensuite nous pouvons à partir de là, définir la région critique pour ce test comme étant :
t c t , n k 1
En effet, si t c t , n k 1 nous rejetons Ho au seuil α et nous concluons que j est
permettent pas de rejeter l’hypothèse nulle Ho. En d’autres termes, j serait vraisemblablement
égal à zéro.
2) Ho : j 0 vs Ha : j 0
Avec un tel test nous ferons les mêmes calculs que dans le cas ci-dessus, cependant, la région critique
l’hypothèse nulle Ho selon laquelle j serait zéro et nous concluons que j est
3) Ho : j 0 vs Ha : j 0
ˆ j j
tc
ˆ ˆ
j
Et la région critique qui est divisée en deux sous régions critiques sera définie par :
t c t / 2 , n k 1
Si la valeur absolue du t-calculé (tc) est supérieure à celle du t lu dans la table (c’est-à-dire
t / 2 , n k 1 ) alors nous rejeterons l’hypothèse nulle Ho selon laquelle j serait égal à zéro
et nous conclurons qu’au seuil significatif α, j est différent de zéro. j peut être soit positif
ou négatif mais il est significativement différent de zéro au seuil α qui nous est donné.
(Y Y ) (Yˆ Y ) (Y Yˆt )
2 2
2
t = t + t
(Y Yˆ ) uˆ
2 2
avec t t t
La régression est jugée significative si la variabilité expliquée est significativement différente de zéro.
Le tableau ci-dessous présente le tableau d’analyse de la variance permettant d’effectuer le test de
Fisher.
Yˆ
X1, X2, …, Xk 2 k
SCR t Y SCR
S1
2
Y Yˆ
Variations non 2 n–k–1 SCE
expliquées SCE t t S2
2
n k 1
uˆ t
2
Y
Variations totales 2 n–1
STC t Y
Yˆ Y
2
/k R2 / k
t
Fcal
uˆt / (n k 1 )
2
1 R 2 / (n k 1 )
L’hypothèse de normalité des erreurs implique que sous l’hypothèse Ho, Fcal suit une loi de Fisher
(rapport de deux chi-deux). Nous comparons donc ce F calculé au F théorique à k et
(n – k – 1) degrés de liberté :
si Fcal > F(k, n – k – 1) nous rejetons l’hypothèse nulle Ho, le modèle est globalement significatif.
EXEMPLE
Le tableau ci-dessous regroupe les données concernant la consommation par tête, le revenu disponible
par tête et le temps d’un pays donné. La consommation et le revenu sont en unités de compte (UC) et
l’indice de temps par année. Soient Y, la consommation par tête, X1 le revenu disponible par tête et
X2, l’indice de temps.
Y X1 X2
1673 1839 1
1688 1844 2
1666 1831 3
1735 1881 4
1749 1883 5
1756 1910 6
1815 1969 7
1867 2016 8
1948 2126 9
2048 2239 10
2128 2336 11
2165 2404 12
2257 2487 13
2316 2535 14
2324 2595 15
TAF :
1) Ecrivez le modèle sous forme matricielle tout en précisant la dimension des matrices.
2) Donnez la forme estimée du modèle puis interprétez les coefficients estimateurs des
paramètres du modèle.
3) Calculez la variance des coefficients estimateurs des paramètres du modèle.
4) Déterminez R 2 et R 2 puis interprétez-les.
5) Faites le test d’hypothèses approprié pour chacun des paramètres du modèle au seuil
α = 0,05.
6) Faites le test de signification globale du modèle au seuil α = 0,05.
RESOLUTION
1) Forme matricielle du modèle
La forme matricielle du modèle peut se présenter comme suit :
15 31895 120
31895 68922513 272144
120 272144 1240
et
29135
X ' Y 62905821
247934
En utilisant les règles d’inversion des matrices, nous obtenons
37,232491 0.0225079 1,3366965
( X ' X ) 0,0225079 0,0000137 0,0008319
1
8,04356
Le modèle estimé est
Yˆ 300,2862 0,7419 X 8,0435 X
t 1t 2t
Nous pouvons maintenant interpréter les coefficients estimateurs des paramètres du modèle.
ˆ0 300,2862 signifie que la valeur moyenne de la consommation par tête est de 300,2862 UC
lorsque le revenu disponible par tête et l’indice de temps sont tous deux égal à zéro.
ˆ 0,7419 est l’estimateur de la propension marginale à consommer du revenu disponible par tête.
1
Il indique, ceteris paribus, qu’une augmentation du revenu disponible par tête d’une unité de compte
entraîne un accroissement de la dépense moyenne de consommation par tête de 0,7419 unité de
compte.
ˆ 8,0435 montre que, toutes choses étant égales par ailleurs, la dépense moyenne de
2
consommation par tête croît de 8,0435 unités de compte par an durant la période d’étude.
Une fois déterminée la variance résiduelle nous pouvons présenter la matrice des variances-
covariances comme suit :
ˆ ˆ0
78,31763 ˆ ˆ1
0,04743 ˆ ˆ2
2,98354
4) Détermination et interprétation de R 2 et R 2 .
ˆ n 2
R2
n 2
SCR Bˆ ' X ' Y n Y 2 828144,47786
STC Y 'Y n Y 2 830121,333
828144,47786
Alors R2 0,99761
830121,333
R 2 , le coefficient de détermination non ajusté nous indique que les variations de la consommation
par tête sont à 99,76% expliquées par les variations du revenu disponible par tête et du facteur temps.
Ou bien l’équation de régression explique 99,76% les variations de la consommation par tête.
R 2
1
n 1 1 R 2
n k 1
15 1
1 1 0,99761 1 14 0,00239
15 2 1 12
0,99721
5) Tests d’hypothèses
Ho : 0 0 vs Ha : 0 0
ˆ 0 0 ˆ 0
tc
ˆ ˆ
0
ˆ ˆ 0
300,2862
3.8342
78,3176
0,74198
15,6436
0,04743
t ; n k 1 t0,05 ; (15 2 1) t0,05 ; 12 1 ,782 .
8,04356
2,6959
2,98354
t ; n k 1 t0,05 ; (15 2 1) t0,05 ; 12 1 ,782 .
Ho : 1 0 vs Ha : 1 0
ˆ 1 1 ˆ 1
tc
ˆ ˆ ˆ ˆ
1 1
0,74198
15,6436
0,04743
t / 2 ; n k 1 t0,025 ; (15 2 1) t0,025 ; 12 2 ,179 .
2513,52 F
0, 05
On constate que Fc 3,89 ,
2 ; 12
2.9. LA PREVISION
𝛽̂0
𝑌̂𝑓 = [1 𝑋1 𝑋2 ] [𝛽̂1 ] = 𝑋𝑓 𝐵̂ (2)
𝛽̂2
avec 𝑌̂𝑓 valeur future ou prévisible de Y correspondant à une valeur donnée de X, notamment 𝑋𝑓 ; 𝑋𝑓 ,
un vecteur ligne et B̂ , un vecteur colonne.
En remplaçant les éléments par leur valeur, nous obtenons
4
̂
𝑌𝑓 = [1 10 10] [ 2,5 ] = 14
−1,5
En remplaçant u
l’inconnue par sa valeur estimée
ˆ u
uˆ ' u / (n k 1 ) (4)
nous pouvons maintenant construire un intervalle de confiance à 100(1 – α)% pour la prévision
individuelle, Yf. L’intervalle se présente comme suit :
ˆ u
0,866 et α = 0,05, t 0,025 (2) = 4,303 avec n = 5, alors
26,7 4,5 8,0 1
X f (X ' X ) 1
X ' f 1 10 10 4,5 1,0 1,5 10
8,0 1,5 2,5 10
1
= 8,3 0,5 2,0 10 6,7
10
En remplaçant également u
l’inconnue par sa valeur estimée
ˆ u
uˆ ' u / (n k 1 )
nous pourrons établir aisément un intervalle de confiance à 100(1 – α)% pour la prévision moyenne,
𝑌𝑓𝑚 . Cet intervalle est de la forme
3.1. LA MULTICOLINEARITE
La multicolinéarité est un phénomène qui, dans un modèle, provient du fait que deux ou plusieurs
variables indépendantes ont tendance à varier en même temps et de la même façon. Elles sont si
fortement corrélées qu’il est impossible de séparer leurs effets respectifs sur la variable dépendante.
Dans ces conditions, il devient difficile d’interpréter les paramètres de notre équation de régression
quand bien même ces variables seraient théoriquement très importantes.
Cependant, X’X sera une matrice singulière (non régulière) puisque l’une des colonnes de la matrice
X’X est une transformation linéaire d’une autre colonne de sorte que (X’X)–1 n’est pas définie. En
d’autres termes, le déterminant de X’X est zéro de sorte qu’aucun des ????? (estimateurs) n’est défini,
étant donné que l’inverse de X’X c’est-à-dire (X’X)–1 ne peut pas être déterminée.
̂ ) augmente
Nous voyons donc qu’au fur et à mesure que le degré de corrélation se renforce, la 𝑽𝒂𝒓(𝑩
et le degré de précision de nos estimateurs diminue. Pour le cas où le nombre de variables
indépendantes k = 2 nous savons que :
x 22
ˆ ˆ U
2 2
x 1 x 2 x1 x2
ˆ
1 2 2 2 (3)
Ou encore
2 1
ˆ ˆ 1 ˆ U 2 2
2
x 1 1 x x
1 2
ˆ j
t
ˆ ˆ (4)
j
Dans ces conditions, il y a de fortes chances pour que l’hypothèse nulle Ho : j 0 ne soit pas rejetée
alors qu’elle devrait l’être en fait. Il faut noter que cela ne veut pas du tout dire que les estimateurs
des coefficients sont du tout biaisés. Cependant, ces estimateurs ne sont pas fiables à cause de leur
grande variance. Ce problème pose néanmoins quelques difficultés dans la vérification des théories
suggérant l’importance de ces variables.
ˆ
2
Lorsque X1 et X2 sont liés dans le modèle, le terme û reste inaffecté. De ce fait, U
demeurera fixe
quel que soit le degré de multicolinéarité (élevé ou faible). Par ailleurs, la valeur x 2
1 dans
de sorte que la variance de l’estimateur peut
2
l’équation (3) peut (annuler) l’effet de 1
x1 x2
demeurer encore petite. Puisque la valeur de x12 augmente avec le volume de l’échantillon, ce fait
n’apparaît pas habituellement avec des échantillons volumineux.
- instabilité des estimateurs des coefficients des moindres carrés, de faibles fluctuations
concernant les données entraînent de fortes variations des valeurs estimées des coefficients ;
- en cas de multicolinéarité parfaite, la matrice (X’X) est singulière (le déterminant est nul),
l’estimation des coefficients est alors impossible et leur variance est infinie
Pour détecter une éventuelle multicolinéarité nous calculerons la statistique F de Fisher et les ratios
de Student.
D’abord, nous avons R2 = 0,9635, très élevé, qui signifie que 96,35% des variations de la variable
dépendante Yt sont expliquées par les variations des variables explicatives X1 et X2.
Calculons le Fc de Fisher :
R2 / k
Fc
1 R 2 / n k 1
0,9635 / 2
Fc 92,3904
1 0,9635 / 10 2 1
En comparant cette valeur avec celle qui est lue sur la table nous obtenons :
Fc 92,3904 4,74
0 , 05
F 2; 7
Nous constatons que le Fc > Flu, nous rejetons donc l’hypothèse nulle Ho et concluons que le modèle
est globalement significatif au seuil de 5%.
Vérifions maintenant la significativité des paramètres des régresseurs.
Nous avons pour 1
ˆ1 0,9415
tc 1,1442 et t 0, 05 (7) = 1,895
ˆ ˆ1
0,8229
Nous constatons que tc < t 0,05 (7), d’où non rejet de HO.
De même pour 2
ˆ 2 0,0424
tc 0,5261 et – t 0, 05 (7) = –1,895
ˆ ˆ 2
0,0807
Ici également, l’on remarque que – tc > – t 0, 05 (7) ce qui implique que l’hypothèse nulle HO est
acceptée.
Finalement, on voit bien que le modèle est globalement significatif comme l’atteste le test de Fisher,
R2 est élevé mais aucun des coefficients n’est significatif pris individuellement. Cela est le signe
manifeste de la multicolinéarité.
tout
̂
x1 x2 donné, la variance de 1 va décroître. Par conséquent, l’écart type diminuera aussi,
lequel nous permettra d’estimer 1 avec plus de précision.
Y t O 1 X1 t 2 X 2 t u t (1)
En décalant d’une période les observations, on a :
Y t 1 O 1 X 1 t 1 2 X 2 t 1 u t 1 (2)
En faisant la différence entre les équations (1) et (2), l’on obtient :
avec t u t u t 1.
L’équation (3) est appelée équation en différences premières. La régression est faite sur les
différences de valeurs successives des variables et non sur les variables d’origine.
La régression du modèle en différences premières réduit souvent la sévérité de la multicolinéarité.
Parce que malgré la forte multicolinéarité qui peut exister entre les variables X1 et X2, il n’y a pas de
raison de croire que leurs différences seront aussi fortement colinéaires.
Dans l’équation (1), aucune variable explicative n’est déterminante dans l’explication de Y t car les
coefficients estimateurs ne sont pas significatifs individuellement. Cela est la conséquence de la
multicolinéarité.
Par contre dans l’équation (2) suivante
Dans le cas de certains modèles non linéaires comme les modèles quadratiques du genre X 1 et X 12 ;
X 1 et X 12 peuvent être fortement corrélées. Cela sera surtout vérifié lorsque l’intervalle dans lequel
X1 varie est (très) petit. Si tel est le cas, la variable X 12 pourrait être facilement exclue du modèle.
Il faut cependant noter que l’exclusion complète de la variable du modèle pourrait donner un biais
de spécification ou erreur de spécification. L’erreur de spécification survient lors d’une
spécification incorrecte du modèle utilisé dans l’analyse. Ainsi, si la théorie économique dit que le
revenu et la richesse devraient toutes deux être incluses dans le modèle pour expliquer les dépenses
de consommation, exclure la variable richesse constituerait un biais de spécification.
En considérant le modèle suivant sous forme matricielle
Y X 1 Bˆ Uˆ (4) estimant Y X1 B U
Alors que le vrai modèle est Y X 1 Bˆ 1 X 2 Bˆ 2 Uˆ (5)
qui estimerait Y X1 B 1 X 2 B 2 U.
Si maintenant nous estimons B1 par B̂ 1 dans (4), nous écrivons
Bˆ 1 ( X 1 ' X 1 ) 1 X 1 ' Y (6)
ou Y X B 1 X 2 B 2 U.
1
Ainsi donc
d’où
E ( Bˆ 1) B 1 ( X 1 ' X 1 ) 1 X 1 ' X 2 B 2 (10)
En d’autres termes, l’exclusion d’une variable importante du modèle peut introduire un certain biais
dans le modèle comme nous le constatons dans l’équation (10). Dans notre cas précis le biais est égal
à ( X 1 ' X 1 ) 1 X 1 ' X 2 B 2 .
3.1.6. La multicolinéarité et les prévisions
L’estimation des équations avec la présence de la multicolinéarité ne devrait pas être source de
beaucoup d’inquiétudes lorsque l’objectif final est de faire des prévisions. Cela provient du fait qu’en
matière de prévision nous nous intéressons principalement aux valeurs moyennes de la variable
dépendante (variable expliquée). Et aussi parce que plus est élevé le R2, meilleure est la prévision.
Mais ceci est ainsi si et seulement si la multicolinéarité qui existe entre les variables indépendantes
d’un échantillon donné continuera aussi à exister dans le futur.
Cependant, si une relation linéaire rapprochée entre les régresseurs dans un échantillon n’est pas
continue dans le futur (échantillons), la prédiction sera de plus en plus incertaine. De plus, si l’objectif
de l’analyse n’est pas seulement la prédiction mais aussi une estimation fiable des paramètres, une
multicolinéarité sévère sera un problème parce que nous avions vu que cela conduit à des écarts types
larges des coefficients estimateurs.
3.2. L’HETEROSCEDASTICITE
Nos analyses selon la méthode des moindres carrés ordinaires ont été basées sur la restriction
(hypothèse) fondamentale selon laquelle
UU ' U2 I (1)
Cependant, il y a des situations particulières où les données sous la main ne se conforment pas à cette
restriction. C’est souvent le cas des données en coupe instantanée ou bien lorsque les observations
représentent des moyennes. En fait, il arrive que les éléments en deçà de la diagonale principale de la
matrice soient zéro (nuls) alors que les valeurs de la diagonale principale sont variables. Dans ce cas
précis, la restriction imposée dans l’équation (1) ne serait plus respectée. En effet, si
UU ' U2 V (2)
avec
V1 0
0 V 0
2
V (3)
0 V4
0 Vn
En d’autres termes, cela veut dire essentiellement que la restriction se rapportant à la constance de la
variance U2 à travers l’échantillon (pour tout l’échantillon) n’est plus respectée. C’est du non
respect de cette restriction qu’il résulte un problème communément appelé hétéroscédasticité.
L’effet principal de la présence de l’hétéroscédasticité n’est nullement associé au biais ou au sans
biais des estimateurs. L’hétéroscédasticité affecte sérieusement l’efficacité des estimateurs.
Autrement dit, les estimateurs demeurent sans biais malgré le problème de l’hétéroscédasticité,
mais les estimateurs seront inefficients.
Ho :
1
2
2
2
m
2 2
(m ≤ N), N = taille de l’échantillon. C’est-à-
dire sur l’hypothèse d’une variance des erreurs identique pour chaque individu. En général, la
première étape de tous les tests consiste à estimer le modèle par la méthode des MCO afin de calculer
les résidus Ût du modèle. Le carré de ces résidus est dans une seconde étape utilisé comme estimateur
de U2 .
Le test de White est fondé sur une relation significative entre le carré du résidu ( Uˆ t 2 ) et une ou
plusieurs variables explicatives en niveau et au carré au sein d’une même équation de régression
estimée par MCO :
Uˆ t2 0 1 Z1t P Z Pt t (1)
où les variables Z k t, k = 1, …, P sont les variables explicatives du modèle, leurs carrés et leurs
produits et εt représente l’aléa.
Par exemple, si on teste un modèle homoscédastique avec une constante et deux variables
explicatives,
Y t ˆ O ˆ 1 X 1 t ˆ 2 X 2 t Uˆ t (2)
2
On aura P = 5, nombre de paramètres à estimer, constante exclue, Z1t = X1t, Z2t = X 1t, Z3t = X2t, Z4t
= X22t et Z5t = X1t X2t.
D’où
Uˆ t2 0 1 Z1t 2 Z 2t 3 Z 3t 4 Z 4t 5 Z 5t t (3)
ou bien
Si N R ( P ),
2 2
alors l’hypothèse d’homoscédasticité est retenue.
Notons que le test de White peut être aussi effectué à l’aide d’un test classique de nullité des
coefficients de Fisher :
Ho : 1 2 k 0
Si on refuse l’hypothèse nulle alors il existe un risque d’hétéroscédasticité.
Exemple : soit la fonction suivante :
Fc 3, 956 3, 35
0 , 05
Avec le test de Fisher, on a F 2; 27 Ici on rejette également l’hypothèse
nulle ; le modèle est hétéroscédastique.
Y t ˆ O ˆ 1 X t Uˆ t (1)
ˆ U2 f ( k X t2 ) ou E ( U t2 ) U2 k X t2
si Y t ˆ O ˆ 1 X 1 t ˆ 2 X 2 t Uˆ t (4)
et que E ( U t2 ) ˆ U2 k X 12
Posons alors que Z k X 1, puis divisons l’équation (4) par Z. Ceci nous donne
Z 1Y t Z 1 ˆ O ˆ 1 Z 1 X 1 t ˆ 2 Z 1 X 2 t Z 1 Uˆ t (5)
L’équation (5) peut encore s’écrire comme
Y ˆ 0 ˆ 1 ˆ 2 X 2 Uˆ
(6)
kX 1 kX 1 k kX 1 kX 1
Nous aurons maintenant
E Z Uˆ 1
2
ˆ U2 (7)
En estimant les paramètres à partir de l’équation (6) soit par exemple ̂ 2 nous pouvons obtenir
ˆ 0 comme
2 2
1 x 2 1 1 1 x 2 1 x 2 y
k x k x y k x 2 k x
x1
1 1 1 1
ˆ 0 2 2 2
1 1 1 x 2 1 1 x 2
k x k x k x x
1 1 1 1
et nos estimateurs sont à la fois sans biais et efficaces.
● Si nous avions par exemple un modèle à deux variables (une variable dépendante et une
U2
1
E
U t
2
X t2 (12)
Il faut cependant noter que l’intercept (ordonnée à l’origine dans l’équation transformée)
1 est la pente de la droite d’équation dans l’équation de départ et que la pente 0 de la droite
de l’équation transformée est l’ordonnée à l’origine dans l’équation de départ. Dès lors pour revenir
à notre modèle de départ, il faut multiplier (10) par Xt.
● Si E ( U t2 ) U2 X t (13)
L’équation (13) suppose que la variance du terme de l’erreur Ut au lieu d’être proportionnelle au carré
de Xt est proportionnelle à Xt elle même. Alors le modèle original, supposons de deux variables, peut
être transformé comme suit :
Yt 0 Ut
1 X t
Xt Xt Xt
1
0 1 X t V t (14)
Xt
Ut
Vt et X t 0.
avec Xt
E Vt E
2
X
U t
Xt X
t
t t
Yt
On peut ainsi procéder à l’application des MCO de l’équation (14) en régressant Xt sur
1
et X t.
Xt
Une remarque importante de la transformation du modèle est l’absence du terme constant. Toutefois,
l’on aura besoin d’utiliser la régression du modèle d’origine pour estimer 0 et 1. Une fois
l’équation (14) estimée, pour revenir au modèle de base, on multiplie l’équation (14) par X t.
● Si
E ( U t2 ) U2 E Y t 2
(15)
L’équation (15) postule que la variance du terme de l’erreur Ut est proportionnelle au carré de la
valeur moyenne de Yt c’est-à-dire
E ( Yt ) O 1 X t
Ainsi notre équation de base, toujours avec deux variables (la variable dépendante et une variable
explicative) devient :
Yt 0 Xt Ut
1
E (Yt ) E (Yt ) E (Yt ) E (Yt )
1 Xt
0 1 Vt
(16)
E (Yt ) E (Yt )
avec Vt = Ut / E (Yt).
Yt 1 Xt
0 1 Vt
ˆY ˆY ˆY (17)
t t t
avec Vt = Ut / Ŷt. On régresse ensuite l’équation (17).
Bien que Yˆt ne soit pas exactement égal à E ( Yt ) il donne des estimateurs convergents ;
c’est-à-dire que, au fur et à mesure que la taille de l’échantillon augmente indéfiniment, ils convergent
vers la vraie E ( Y t ). Par conséquent, sera utilisée dans la pratique l’équation (17), si la taille de
l’échantillon est raisonnablement grande.
● Avant de conclure cette section, nous dirons que la transformation logarithmique contribue souvent
à la réduction du problème d’hétéroscédasticité. Ceci provient du fait que la transformation
logarithmique réduit l’échelle selon laquelle les variables sont mesurées. Il en découlera par exemple
qu’une différence dix fois importante entre deux valeurs soit ramenée à une différence deux fois
importante. C’est ainsi que le nombre 100 qui est 10 fois plus grand que 10 ne donne qu’une valeur
de 4,605 (ln100 = 4,605) qui n’est que le double du logarithme de 10 (ln10 = 2,3025).
Nos propos se rapportent au fait qu’au lieu d’estimer
Yt O 1 X t U t (18)
nous estimons
ln Y t O 1 ln X t U t (19)
de consommation alors que X représente le revenu, 1 dans l’équation (19) serait l’élasticité-
revenu alors que 1 dans l’équation (18) mesurerait simplement le taux de variation de la
consommation en moyenne résultant d’une variation unitaire du revenu, i.e. la propension marginale
à consommer. C’est là l’une des raisons principales pour lesquelles les modèles logarithmiques sont
très souvent utilisés en Econométrie appliquée. Il faut cependant noter que l’utilisation de la
transformation logarithmique pour obtenir une élasticité suppose une certaine constance de cette
élasticité.
3.3. L’AUTOCORRELATION
L’une des restrictions fondamentales de la méthode classique des moindres carrés ordinaires est qu’il
n’y a aucune autocorrélation (corrélation de séries) entre les variables résiduelles telles qu’elles sont
conceptualisées dans le modèle de base. Cette indépendance de variable résiduelle peut être formulée
comme
E ( UU ' ) U2 I (1)
Rappelons nous que dans le cadre de l’hétéroscédasticité, chacun des éléments de la diagonale de la
matrice V des variances et covariances de la variable résiduelle était différent de un (1) ; cependant,
Cm i O 1 Q i 2 Q i2 U i (2)
où Qi est la quantité produite du bien i, alors que nous avons ajusté le modèle suivant :
Cm i O 1 Q i V i (3)
Une autre raison qui peut expliquer l’existence de l’autocorrélation réside dans l’exclusion de
variables importantes du modèle. Si par exemple nous conceptualisons la demande de viande de bœuf
comme :
Yt O 1 X 1t 2 X 2t 3 X 3t Ut (4)
avec Y = quantité demandée de viande de bœuf, X1 = prix de la viande de bœuf, X2 = revenu du
consommateur et X3 = prix de la viande de porc.
Si pour une raison ou une autre, nous ajustons le modèle suivant (5) au lieu du modèle (4)
Yt O 1 X 1t 2 X 2t Vt (5)
Il apparaît clairement dès lors que si l’équation (4) reflète la relation correcte entre Yt et les
Xt s , ajuster l’équation (5) signifierait que nous acceptions que la variable résiduelle
Ct O 1 Y t 2 C t 1 U t (7)
Les régressions du genre de l’équation (7) sont connues sous le nom d’autorégression parce que
l’une des variables explicatives est la valeur recurrentielle de la variable dépendante (variable
expliquée).
La logique d’une équation de régression telle que l’équation (7) réside dans le fait que les
consommateurs changent difficilement leurs habitudes pour des raisons psychologiques,
technologiques ou institutionnelles. Si maintenant nous négligeons le terme retardé de l’équation (7)
la variable résiduelle qui en résulterait va refléter une allure systématique provenant de l’influence de
la consommation de la période précédente sur la consommation courante (consommation de la
période t).
● Les différentes procédures de manipulation des données
L’autocorrélation peut aussi provenir des différentes procédures de manipulation des données. Un
exemple de manipulation consiste à transformer les données mensuelles en données trimestrielles
(somme des données sur trois mois divisée par trois). Une telle procédure peut donner lieu à une
allure systématique d’autocorrélation de la variable résiduelle.
Après avoir énuméré certaines causes fondamentales du problème de l’autocorrélation, il serait bon
de noter que le problème de l’autocorrélation se rencontre beaucoup plus fréquemment lorsque l’on
analyse les séries de données au cours du temps (séries chronologiques). (Le problème peut être aussi
rencontré dans l’analyse des données en coupe transversale). Le problème apparaît surtout lorsque
les points dans le temps sont très rapprochés jours, semaines et mois par rapport aux années.
D’une façon plus spécifique, nous définirons le problème d’autocorrélation comme celui de
l’interdépendance des variables résiduelles quand bien même l’échantillon aurait une variance
commune (la même variance).
D’abord, les estimateurs ˆ j seront sans biais mais leurs variances seront excessivement larges
(grandes) par rapport à celles obtenues par une méthode légèrement différente. Ensuite, il est possible
que l’on obtienne des valeurs pour les variances des ˆ qui sous-estimeront sérieusement les vraies
variances des ˆ s . Enfin, l’existence de l’autocorrélation donnera lieu à des prévisions inefficaces
c’est-à-dire des prévisions basées sur des variances obtenues de l’échantillon et qui sont inutilement
larges.
u t u t 1 t (1)
Le coefficient d’autocorrélation est significativement égal à zéro. C’est-à-dire que l’on teste
uˆ
n
uˆ
2
t t 1
t 2
d n
t1
uˆ
2
t
(3)
La valeur de d est directement liée au coefficient de corrélation des séries ̂ obtenu à partir de
l’échantillon. Après des transformations nous obtenons :
𝑑 = 2(1 − 𝜌̂) (4)
n n
avec
̂
t 2
uˆ t uˆ t 1 / uˆ t2
t 2
A partir de ce que nous avons obtenu dans l’expression (4), nous pouvons voir (connaître) les
différentes situations dans lesquelles nous nous trouverons selon les différentes valeurs que prendra
d la statistique de Durbin-Watson. Lorsque
~ N 0 ,
2
ut u , se trouve comprise entre deux autres statistiques appelées dL et
dU respectivement les bornes inférieure et supérieure. L’utilisation de ces statistiques est mieux
illustrée par les régions (zones) sur le graphique ci-dessous.
1.0
dU
dL
0 4
dL dU 2 4 - dU 4 – dL
Région non Région non Rejeter
Rejeter Ne pas rejeter
conclusive Ho : ρ = 0 conclusive Ho : ρ = 0,
Ho : ρ = 0,
ρ>0 ρ<0
Comme nous le constatons sur ce graphique, le test de DW n’est pas conclusif pour toutes les valeurs
2. Les variables explicatives, les X’s ne sont pas aléatoires, ou sont fixes dans un échantillon
répété.
u t u t 1 t
4. Le modèle de régression ne doit pas être autorégressif (c’est-à-dire que la variable à
expliquer ne doit pas figurer parmi les régresseurs comme variable retardée).
5. Il ne doit pas avoir d’observations manquantes dans la série de données. Par exemple, si
dans une régression couvrant la période 1963-1972, les observations de 1963 et 1972
manquaient pour une certaine raison, la statistique d ne tient pas compte de telles
observations manquantes.
Exemple numérique
Soit un modèle de consommation
Cˆ t 3,29 0,906 Yd t avec n 19
(1,5) (162,0) R 2 0,999
Ĉt = estimation des dépenses de consommation
Ydt = revenu disponible
Nous savons que
uˆ t C t Cˆ t et que uˆ t2 Ct Cˆ t 2
uˆ
n
uˆ t 1
2
t
t 2 144,5
d n
1,01
143,7
uˆ t2
t1
Nous constatons que cette valeur calculée de la statistique de DW est bien inférieure à 2 (qui suppose
l’absence d’autocorrélation des variables résiduelles).
Si nous nous référons au tableau statistique pour test unilatéral Ho : ρ = 0 vs Ha : ρ > 0 nous
constatons que pour α = 0,05 et n = 19, k = 1 (nombre de variables indépendantes), il existe une
autocorrélation parce que d = 1,01 < dL = 1,18 ce qui veut dire que ρ > 0.
S’il s’agissait d’un test bilatéral Ho : ρ = 0 vs Ha : ρ ≠ 0 nous conclurons qu’il existe une
autocorrélation parce que d = 1,01 < dL = 1,06. Tableau statistique à distribuer.
En revenant à l’hypothèse de la corrélation positive nous pouvons écrire que
t 2
uˆ t uˆ t 1
ˆ n
0,48
t 2
uˆ 2
t 1
2,12
ˆO 4,08 et
1 0,48
Cˆ t 4,08 0,905 Yd t
(1,0) (98,9)
+ ût ût
+
● ● ●
●
● ●
● ● ●
0 t t
● ● ● ● ● 0
● ●
● ● ● ●
●
– –
Autocorrélation positive Autocorrélation négative
Dr Coulibaly Daouda, UPGC, UFR des Sciences Sociales, Département d’Economie
CEL : (+225) 05907011 Email : coulydaouda@gmail.com 94
UNIVERSITE PELEFORO GON COULIBALY
INTRODUCTION A L’ECONOMETRIE
LICENCE 3 ECONOMIE & GESTION
avec u t 1 u t 1 2 u t 2 k u t k t
Nous voulons tester HO : 1 2 k 0
Pour cela nous procédons comme suit :
iii) Tester si les coefficients des Uˆ t i sont significativement différents de zéro pris
globalement.
De façon pratique, la statistique utilisée est TR2, avec T, la taille de l’échantillon, R2 le coefficient
3.3.5. L’estimation des paramètres en cas d’autocorrélation des erreurs : Le modèle en quasi-
différences
L’on estime d’abord le modèle 𝑌 = 𝑋𝐵̂ + 𝑈̂ puis on détermine 𝜌. L’on peut ensuite transformer les
données de départ avec 𝜌. Ainsi dans le cas d’un modèle autocorrélé de premier ordre, le modèle
transformé s’écrit
T Y T X B TU (1)
avec
1 2 y
1
1 2 u
1
1
y y1
T Y 2 T U 2
u u 1 2
,
(10) (2)
y n y n 1 u n u n 1 n
et
1 2
1 2
x 11 1 2
x k1
( 1 ) x 1 2 x 11 xk 2 x k1
T X B
(3)
( 1 ) x 1n x 1 n 1 x k n x k n 1
Le modèle ainsi transformé est appelé modèle en quasi-différences. Par conséquent, pour la première
observation le modèle s’écrit
1 y 1 1 x
2
1 0
2
1
2
11 k 1 x 1 u
2
k1
2
1 (4)
et pour les autres observations
y t y t 1 0 ( 1 ) 1 x 1t x 1 t 1 k x k t x k t 1 t
(5)
avec t 2 , , n
d’où
y t a 0 1 x 1t 2 x 2 t k x k t t (7)
avec t u t u t 1 et a 0 0 (1 )
Comme n’est pas en général connu, diverses méthodes existent pour le déterminer :
a. La méthode de Cochrane-Orcutt
Elle procède en plusieurs étapes :
i) Estimer par MCO le modèle initial et évaluer les résidus û t sur les observations.
u
n
min t u t 1
t2
n n
On obtient
̂ 0 uˆ
t 2
t uˆ t 1 / uˆ t2 1
t 2
iii) Appliquer les MCO sur le modèle transformé, appelé le modèle quasi-différencié :
y t ˆ 0 y t 1 0 ( 1 ˆ 0 ) 1 x 1t ˆ 0 x 1 t 1 k x k t ˆ 0 x k t 1
u t ˆ 0 u t 1 avec t 2 , , n
On obtient un estimateur asymptotiquement identique à l’estimateur des MCG.
iv) On utilise généralement la méthode de Cochrane-Orcutt itérative afin d’améliorer les
performances de l’estimateur. Dans l’étape iii) on calcule alors les résidus du modèle.
On reprend ensuite la procédure à l’étape ii). La procédure s’arrête lorsque ̂ 0 ne
varie plus de manière significative entre deux itérations (généralement 2 à 3 itérations).
d
l’on peut déduire
ˆ 1 (2)
2
L’équation (2) n’est pas toujours vraie pour des petits échantillons. Nagar et Theil ont suggéré pour
de petits échantillons la formule suivante :
d
n 2 1 k 2
ˆ 2
n 2 k 2 (3)
REFERENCES
Cadorat, Isabelle et al; 2004: Econométrie appliqué, Méthodes, applications corrigés, De Boeck.
Cohen Michèle et Jacqueline Pradel ; 1993 : Econométrie, théorie et techniques de base, méthode
d’utilisation et exercices, collection Litec, Paris.
Intriligator D. Michael ; Ronald G. Bodkin et Chen Hsiao ; 1996 : Econometric models, techniques
and applications ; Prentice Hall, 2nd edition.
Ramanathan, Ramu; 1998: Introductory econometrics with applications, the Dryden press,
4th edition.