Jonas Kibala - Work Covid19 PDF
Jonas Kibala - Work Covid19 PDF
Jonas Kibala - Work Covid19 PDF
dans le monde
Jonas Kibala Kuma
Abstract
We tried to determine the approximate date from which Corona Virus (Covid-19) pandemia could affect or touch
all the world population, heard that this one would be evaluated around 7,759,559,800 according to our
projections on the basis of estimate of UNO (see : https://coronavirus.politologue.com), under the assumption
that the current rate/rhythm of the evolution of pandemia as well as the measurements taken by various
authorities remain unchanged (all things remaining are equal). In such exercise of modelling, our concern is to
draw the world authorities' attention about few time assigned to us for eradicating this pandemia, if not it would
be difficult or even impossible to stop the haemorrhage because this pandemia could strike or infect all the world
population as from May 25, 2020 to June 25, 2020.
To carry out this analysis, or to forecast our study time series or the number of people infected by Corona Virus
(Covid-19) pandemia, we made recourse to a functional form of exponential type, according to our time series
structure, of which the essential parameter, which is the average growth rate number of infected people by
covid19 pandemia in the world by day, is estimated according to a nonlinear approach which is the Gauss-Newton
algorithm. Future studies could look further into the question with more succeeded specifications (for example,
to resort to the nonlinear cointegration to escape the fallacious regressions) or functional forms much better
than that retained in this analysis.
Economiste Chercheur à l’Université de Kinshasa (DEA en cours) et au Centre de Recherches Economiques et Quantitatives
(CREQ). Nos propos n’engagent pas ces institutions. Mail : kibala.jonas@gmail.com. Nous remercions Oasis Kodila Tedika
pour ses commentaires et orientations dans le choix du thème et Joël Kazadi pour les fructueux échanges.
« Prévision de la propagation de la pandémie Covid-19 dans le monde » / 2
Centre de Recherches Economiques et Quantitatives-CREQ
I. INTRODUCTION
Connaitre le processus générateur d’une série, sa distribution (loi) statistique ou mieux sa forme
fonctionnelle est une étape importante dans la démarche de modélisation aux fins de prévision. A côté
des méthodes formelles (estimation, simulation, etc.), les techniques informelles peuvent aider à
détecter le mode opératoire d’une série (elles ont l’avantage d’être moins complexes), notamment
l’examen de son évolution graphique. Si l’on réussit à se faire une idée sur la forme fonctionnelle de
sa série par une approche informelle, parlant d’une analyse uni-variée des séries temporelles,
l’estimation des paramètres de sa fonction et la prévision des valeurs futures (ou dans l’échantillon)
de ladite série exige (au modélisateur) de recourir à des outils statistiques rigoureux qui garantissent
que les paramètres ont été estimés sans erreurs (le recours aux moindres carrés ordinaires) et que la
prévision faite est statistiquement bonne. Dans le cadre de cet exercice qui consiste pour nous à
estimer la fonction d’évolution du nombre de cas infectés par le Covid-19 et à prévoir le nombre de
cas dans un avenir proche, nous tenons compte de toutes ces exigences. Nous cherchons plus
précisément à déterminer la date approximative à partir de laquelle la pandémie pourrait affecter ou
toucher toute la population mondiale, entendue que celle-ci se situerait autour de 7.759.559.800
suivant nos projections sur base des estimations de l’ONU (1), sous l’hypothèse que le rythme actuel
de l’évolution de la pandémie ainsi que les mesures prises par différentes autorités demeurent
inchangés (toutes choses restant égales par ailleurs). En se lançant dans un tel exercice de
modélisation, notre souci est d’attirer l’attention des autorités dans le monde sur le temps qui nous
est imparti pour éradiquer cette pandémie, à défaut de quoi il serait difficile, voire même impossible,
d’arrêter l’hémorragie dans le sens où ladite pandémie pourrait frapper ou infecter toute la population
mondiale à partir du 25 mai 2020 jusqu’au 25 juin 2020.
Rappelons que, suivant les derniers chiffres (considérant le moment où nous rédigeons cette note) du
Coronavirus, issus du CSSE (Canadian Society of Safety Engeneering, leur site : https://www.csse.org/)
en date du samedi 28 mars 2020, le nombre total d'infections (nombre de personnes infectées par la
pandémie Covid19) au niveau mondial est de 660 696 ; le nombre de guérisons est de 139 415 et le
nombre de décès est de 30 652. Le taux de mortalité est de 4,64%, le taux de guérison est de 21,10%
et le taux de personnes encore infecté est de 74,26% (source : https://coronavirus.politologue.com/).
II. MODELISATION
Au regard de la structure de notre série (Y), comme cela se dégage dans la figure 1 ci-dessous, il
apparait que le nombre de personnes infectées par la pandémie ou maladie à Corona Virus (Covid-19),
soit lié au temps de façon exponentielle.
.6 13
12
.5
11
.4
10
.3
9
.2
8
.1 7
.0 6
27 3 10 17 24 2 9 16 23 27 3 10 17 24 2 9 16 23
M1 M2 M3 M1 M2 M3
Source : l’auteur
Cette intuition, fondée par les faits, peut se formaliser de deux manières en recourant à la technique
de capitalisation en temps discret et celle en temps continue qui fait appel aux notions de différentiel
et intégral. En effet :
Pour modéliser l’évolution de cas infectés par le Covid19 en temps continue, soit la série Yt, l’on va
supposer que cette série croit au taux « b » comme suit :
𝑑𝑌𝑡
= 𝑏 … … (1)
𝑌𝑡
Partant, pour trouver la fonction Y l’on doit résoudre l’équation différentielle. Pour ce faire,
introduisons l’intégral dans les deux membres comme suit et résolvons après :
𝑑𝑌𝑡
∫ = ∫ 𝑏 𝑑𝑡 → ln 𝑌𝑡 = 𝑏𝑡 + 𝑐
𝑌𝑡
𝑒 ln 𝑌𝑡 = 𝑒 𝑏𝑡 ∗ 𝑒 𝑐 → 𝑌𝑡 = 𝑐 ∗ 𝑒 𝑏𝑡
𝑌𝑡 = 𝑌0 ∗ 𝑒 𝑏𝑡 … … (2)
Avec : 𝑌𝑡 = série observée au temps t (journée en cours) ; 𝑌0 = série observée au temps t-1 (jour passé
ou hier) ; 𝑏 = le taux de croissance de 𝑌𝑡 (paramètre à estimer) et 𝑡 = la variable temps qui traduit ici
les jours (la tendance : t = 1 pour le 22/01/2020 ; 2 pour le 23/01/2020 ; 3 pour le 24/01/2020 ;… ; 67
pour le 28/03/2020).
Pour estimer le paramètre « b » par la méthode des moindres carrés ordinaires/MCO, laquelle
méthode exige de minimiser la somme des carrés des erreurs du modèle, l’on doit commencer par
linéariser l’expression (2) pour se conformer à l’une des hypothèses fondamentales sous-tendant
l’utilisation des MCO (la linéarité du modèle qui justifie même le recourt au coefficient de
détermination pour apprécier la qualité de l’ajustement sans quoi le 𝑅 2 va tendre vers 0 tendant à
biaiser l’appréciation sur la bonté globale du modèle). Ainsi, la transformation logarithmique de
l’expression (2) est :
ln 𝑌𝑡 = ln 𝑌0 + 𝑏𝑡 ln 𝑒
(ln 𝑌𝑡 − ln 𝑌0 ) = 𝑏𝑡 + 𝑢𝑡 … … (3), 𝑢𝑡 ~𝑖. 𝑖. 𝑑
Avec : 𝐸(𝑏) = 𝑏̂ (les estimateurs des MCO sont des meilleurs estimateurs linéaires sans biais, ils sont
BLUE en anglais) ; 𝐸(𝑢𝑡 ) = 0 (les résidus de l’estimation par les MCO sont en moyenne nuls). Après
estimation, le paramètre « 𝑏̂ » sera dit statistiquement significatif, ce qui atteste la pertinence de la
relation estimée ou de la variable explicative considérée (ici la variable temps t ou le nombre de jours),
s’il est supérieur à deux fois son écart-type (𝑏̂ > 2 ∗ 𝛿𝑏̂ ) suivant la règle de Puce ; cela va amener à
rejeter l’hypothèse nulle selon laquelle ledit paramètre n’est pas statistiquement significatif (𝐻0 : 𝑏 =
0), avec une statistique t de Student calculée (𝑡𝑐 ) supérieure à sa valeur lue sur la table (𝑡𝑐 ) ou la
probabilité associée audit t calculé de Student inférieure à 5%, au profit de l’alternative qui admet la
significativité dudit paramètre estimé (𝐻1 : 𝑏 ≠ 0).
Sur Eviews 10, pour estimer le paramètre « b », l’on pourra taper directement la commande
(estimation du modèle (2)) : NLS Y=Y(-1)*EXP(C(1)*T).
Pour modéliser l’évolution de cas infectés par le Covid19 (la série Yt) en temps discret, l’on va supposer
que cette série croit comme suit :
Si l’on passe par la transformation logarithmique de l’expression (4) ci-dessus, elle devient :
ln 𝑌𝑡 = ln 𝑌0 + 𝑡 ∗ ln(1 + 𝑏) … … (5)
𝑋𝑡 = 𝑎0 + 𝑎1 ∗ 𝑡 + 𝑢𝑡 … … (6), 𝑢𝑡 ~𝑖. 𝑖. 𝑑
Après estimation de la relation (6), on retrouve les paramètres de départ comme suit (tous ces
paramètres sont estimés, bien que n’ayant pas de chapeau) :
ln 𝑌0 = 𝑎0 → 𝑒 ln 𝑌0 = 𝑒 𝑎0 → 𝒀𝟎 = 𝒆𝒂𝟎
III. ESTIMATION
Pour besoin de comparaison et de pédagogie, nous allons estimer les expressions (2) et (3), soit la
capitalisation en temps continue. Les données sont observées sur une fréquence journalière et
couvrent 67 jours depuis le début de la pandémie.
L’estimation de l’expression (3) par les MCO, à l’aide du logiciel Eviews 10, donne les résultats suivants :
Dependent Variable: DLY
Method: Least Squares
Date: 03/29/20 Time: 20:32
Sample (adjusted): 1/23/2020 3/28/2020
Included observations: 66 after adjustments
Et, l’estimation directe de l’expression (2) par les moindres carrés non linéaires suivant l’algorithme de
Gauss-Newton (2), à l’aide du logiciel Eviews 10, donne les résultats suivants :
Dependent Variable: Y
Method: Least Squares (Gauss-Newton / Marquardt steps)
Date: 03/29/20 Time: 20:39
Sample (adjusted): 1/23/2020 3/28/2020
Included observations: 66 after adjustments
Convergence achieved after 74 iterations
Coefficient covariance computed using outer product of gradients
Y=Y(-1)*EXP(C(1)*T)
2 Lire à ce sujet notre manuel consacré à la régression non linéaire, disponible en ligne sur : https://hal.archives-
ouvertes.fr/cel-02168940.
Les résultats de l’estimation de l’expression (2) sont préférables à ceux de (3) au regard du coefficient
de détermination élevé et du coefficient de Durbin-Watson supérieur, bien que les critères AIC et SIC
sont plus minimal pour l’expression (3). Ainsi, on retient le modèle (2) estimé et on note ce qui suit :
Le modèle est globalement bon, expliquant à 99% la dynamique du nombre de cas infectés par
le Covid19 dans le monde. Toutefois, le coefficient d’autocorrélation de Durbin-Watson, qui
atteste l’absence d’autocorrélation des erreurs d’ordre 1 s’il s’approche de 2, est largement
inférieur à 2 tendant à remettre en cause la bonté de la spécification globale du modèle ou
nécessitant d’intégrer d’autres variables pertinentes qui pourraient avoir été ignorées ici. Des
études ultérieures pourraient approfondir la question avec des spécifications plus abouties
(par exemple, recourir à la cointégration non linéaire pour échapper aux régressions
fallacieuses) ou des formes fonctionnelles bien plus meilleures que celle retenue dans cette
analyse. Toutefois, le test de Ljung-Box et Box-Pierce (bien qu’informel) nous renseigne une
absence d’autocorrélation d’erreurs (voir la figure 2 ci-dessous).
Fig.2 : corrélogramme des résidus de l’estimation du modèle (2)
Les résidus de l’estimation sont homoscédastiques (voir tableau ci-dessous), bien que non
normalement distribués. La forme fonctionnelle estimée est non linéaire (avec une approche
d’estimation non linéaire de Gauss-Newton), ce qui peut justifier la violation de quelques
hypothèses des MCO.
Heteroskedasticity Test: White
Le nombre de personnes infectées par la pandémie ou maladie à Corona Virus (Covid-19) croit
au taux 𝑏 = 0,001680, soit 0,16% en moyenne journalière. Le paramètre « b » ainsi estimé
est statistiquement significatif au regard de la statistique t de Student calculée (soit 𝑡𝑐 = 43,71)
qui est largement supérieure à sa valeur lue sur la table (𝑡𝑐 = 1,96) qui avoisine 2 pour tout
échantillon dont la taille dépasse 30 observations. Cette significativité statistique de « 𝑏̂ » est
attestée également par la probabilité associée au t calculé de Student qui est de 0,00, ce qui
amène à dire que le paramètre estimé est statistiquement significatif au seuil de 1%.
Par ailleurs, dans le souci de tester la robustesse de nos estimations et prévisions, nous nous sommes
exercés à trouver une variante du modèle estimé « Y=Y(-1)*EXP(C(1)*T) » (Cfr expression (2)), en
remplaçant y(t-1) par la valeur de départ de l’échantillon ou le nombre de personnes infectées par le
Covid-19 dans le monde en date du 22/01/2020, soit 555 personnes. Ainsi, nous avons également
estimé le modèle suivant (Y=555*EXP(C(1)*T) :
𝑌𝑡 = 555 ∗ 𝑒 𝑏𝑡 … … (2𝑎)
Les principaux résultats d’estimation de l’expression (2a) sont les suivants (les résultats d’estimation
sont donnés après les commentaires) :
Le modèle est globalement bon, expliquant à 93% la dynamique du nombre de cas infectés par
le Covid19 dans le monde, avec une forte autocorrélation des erreurs d’ordre 1 (suivant la
statistique de Durbin-Watson) et d’ordre supérieur à 1 selon les résultats de Breusch-Godfrey
Serial Correlation LM Test, soit un problème typique aux régressions fallacieuses.
Le nombre de personnes infectées par la pandémie ou maladie à Corona Virus (Covid-19) croit
au taux 𝑏 = 0,105628, soit 10,56% en moyenne journalière sur base de l’effectif de départ.
Ce paramètre apparait aussi statistiquement significatif à 1%.
Les résidus de l’estimation de l’expression (2a), bien que normalement distribués au regard de
la probabilité associée à la statistique calculée de Jarque-Bera qui est supérieure à 5% (on
accepte l’hypothèse nulle de normalité des résidus), sont hétéroscédastiques (la variance n’est
pas minimale) en plus d’être autocorrélés. Aussi, comparés aux résultats d’estimation de
l’expression (2), l’expression (2a) affiche des coefficients AIC et SIC (respectivement Aikaike et
Schwarz information criterion) plus grands, ce qui la rend moins préférable à (2).
Dans la partie qui suit, nous essayons tout de même de comparer aussi les résultats de prévision issus
de ces deux procédés ou spécifications (2 et 2a).
Dependent Variable: Y
Method: Least Squares (Gauss-Newton / Marquardt steps)
Date: 03/30/20 Time: 17:51
Sample: 1/22/2020 3/28/2020
Included observations: 67
Convergence achieved after 17 iterations
Coefficient covariance computed using outer product of gradients
Y=555*EXP(C(1)*T)
IV. PREVISION
L’une des conditions que doit remplir un modèle estimé pour une prévision de bonne qualité,
statistiquement parlant, c’est la stabilité de ses paramètres dans l’échantillon considéré. Ce test (le
Cusum test de stabilité) n’était pas adapté à l’approche d’estimation non linéaire que nous avons
adoptée, autant pour le test de Ramsey concernant la bonté de la spécification choisie. Le coefficient
de Theil affiche une valeur proche de 0 pour l’expression 2a et proche de 1 pour l’expression 2 (voir
les figures 3c et 3b, respectivement), pourtant ledit coefficient avoisine 0 ou est faible pour un modèle
meilleur comparé à un autre. Comparée à 2, l’expression 2a parait fournir ainsi des bonnes prédictions
au regard de son faible coefficient de Theil. Toutefois, la figure 3 ci-dessous témoigne de la bonté
relative de nos spécifications 2 et 2a en ce qu’elles ont permis de reproduire la tendance exponentielle
de la série de départ, ainsi que ses pics. Aussi, pour l’expression 2, on a constaté que les écarts de
prévision s’amplifient au fil du temps, caractéristique des fonctions exponentielles, ce qui nous
empêche de prévoir le nombre d’infectés au Covid19 sur une période plus longue, afin de limiter le
biais (la figure 3a rend compte de l’évolution desdits écarts). Pour ce qui est de l’expression 2a, le
constat est que les écarts sont plutôt plus importants au départ et tendent à se réduire dans le temps,
avec le risque de s’amplifier sur le long terme, ce qui implique de limiter l’intervalle ou la plage de
prévision pour échapper à d’éventuels biais.
Fig.3 : comparaison des cas réels infectés par Codvid19 et des cas prédits
Comparaison des cas réels de Covid19 cas réels d'infectés au covid-19 et cas
aux cas prédits prédits
26/03/2020
700 000
19/03/2020
600 000
500 000
12/03/2020
400 000
05/03/2020
300 000
27/02/2020
200 000
20/02/2020
100 000
13/02/2020
-
06/02/2020
30/01/2020
23/01/2020
- 200 000 400 000 600 000 800 000
Fig.3a : comparaison des cas réels infectés par Codvid19, des cas prédits et des résidus (expression 2)
800,000
600,000
400,000
200,000
15,000
0
10,000
5,000
-5,000
-10,000
27 3 10 17 24 2 9 16 23
M1 M2 M3
YF ± 2 S.E.
YF ± 2 S.E.
A l’issue de nos estimations, les prévisions sont telles que la pandémie Covid-19 pourrait frapper ou
infecter toute la population mondiale à partir du 25 mai 2020 jusqu’au 25 juin 2020 (la figure 4 illustre
nos propos), si le rythme actuel de l’évolution de la pandémie ainsi que les mesures prises par
différentes autorités demeurent inchangés (toutes choses restant égales par ailleurs).
Fig.4 : Evolution future du nombre de personnes infectées par Codvid19 jusqu’en mai 2020
Cas affectés au Covid19 prédits Cas affectés au Covid19 prédits
jusqu'en mai 2020 jusqu'en juin 2020
24/05/2020
21/06/2020
17/05/2020 14/06/2020
07/06/2020
10/05/2020
31/05/2020
03/05/2020 24/05/2020
17/05/2020
26/04/2020
10/05/2020
19/04/2020 03/05/2020
26/04/2020
12/04/2020 19/04/2020
12/04/2020
05/04/2020
05/04/2020
29/03/2020 29/03/2020
- 5 000 000 000 10 000 000 000 - 5 000 000 000 10 000 000 000
Source : nos estimations (expression 2 pour le graphe à gauche et expression 2a pour le graphe à droite)
En effet, suivant les estimations de l’ONU (les derniers chiffres communiqués sont pour l’année 2015),
la population mondiale est passée de 2,54 milliards d'habitants en 1950 à 7,38 milliards d'habitants en
2015 (la figure 5 est éloquente). Entre 1950 et 2015, soit pratiquement 65 ans, la population mondiale
a progressé de 291,1% avec une moyenne de +74.565.140 d'habitants par an (source :
https://www.politologue.com/population-mondiale/).
Population mondiale
1E+10
8E+09
6E+09
4E+09
2E+09
1992
2013
1950
1953
1956
1959
1962
1965
1968
1971
1974
1977
1980
1983
1986
1989
1995
1998
2001
2004
2007
2010
2016
2019
Source : https://www.politologue.com/population-mondiale/
Dans l’hypothèse où la population croit avec une moyenne de 74.565.140 d'habitants par an, on a fait
une projection linéaire pour dégager la population mondiale estimée autour de 7.759.559.800
habitants en 2020. Suivant les estimations de modèles ou expressions 2 et 2a, nos projections tablent
sur une pandémie (Covid-19) qui pourrait atteindre, à l’échelle mondiale, respectivement
8.008.369.197 personnes le 25 mai 2020 ou 7.954.420.767 personnes le 25 juin 2020.
En dernier lieu, il tient de rappeler que des études ultérieures pourraient approfondir l’analyse et
améliorer nos résultats avec des spécifications plus abouties (par exemple, recourir à la cointégration
non linéaire pour échapper aux régressions fallacieuses) ou des formes fonctionnelles bien plus
meilleures que celle retenue dans cette analyse.
*************
Bibliographie
Bosonga B.L. (2019), « Manuel d’Econométrie », PUK, Editions Terabytes, RDC, 326 p.
Bourbonnais R. (2015), « Econométrie : cours et exercices corrigés », 9è édition, éd. DUNOD, Paris,
32 p.
Dowling E.T. (1995), « Mathématiques pour l’Economiste : cours et problèmes », Série Schaum, éd.
McGraw-Hill, 2è édition, Paris, 482 p.
Kibala Kuma J. (2018), « Application sur la régression linéaire simple (Spécifications, Estimation,
Inférence et Interprétation des Résultats) : Examen de la convergence économique au sein
de l’Union Européenne », publié dans HAL (https://hal.archives-ouvertes.fr/cel-01771444),
Kinshasa, RDC, 29 p.
Kibala Kuma J. (2018), « Econométrie Appliquée : Manuel des cas pratiques sur EViews et Stata »,
publié dans HAL (https://hal.archives-ouvertes.fr/cel-01771756), Kinshasa, RDC, 88 p.
Kibala Kuma J. (2018), « Econométrie Appliquée : Recueil des cas pratiques sur Eviews et Stata »,
publié dans HAL (https://hal.archives-ouvertes.fr/cel-01771070), Kinshasa, RDC, 204 p.
Kibala Kuma J. (2018), « Econométrie Appliquée : Recueil des cas pratiques sur EViews (Régression
linéaire simple et multiple) », publié dans HAL (https://hal.archives-ouvertes.fr/cel-
01771168), Kinshasa, RDC, 35 p.
Kibala Kuma J. (2018), « Modèles de régression non linéaires : éléments de théorie et pratiques sur
Logiciel », publié dans HAL (https://hal.archives-ouvertes.fr/cel-02168940), Kinshasa, RDC,
26 p.
Kibala Kuma J. (2018), « Prévision par l’approche méthodologique de Box et Jenkins : Cas d’une série
saisonnière et non stationnaire du type DS », publié dans HAL (https://hal.archives-
ouvertes.fr/cel-01771475), Kinshasa, RDC, 10 p.
Kibala Kuma J. (2018), « Prévision par l’approche méthodologique de Box et Jenkins : Cas d’une Série
Non Saisonnière et Non Stationnaire du type TS (Pratique sur EViews et Stata) », publié
dans HAL (https://hal.archives-ouvertes.fr/cel-01771600), Kinshasa, RDC, 26 p.
Kibala Kuma J. (2019), « L’Econométrie avec Eviews : Répertoire de quelques commandes de base »,
Editions Universitaires Européennes, 117 p.
Kintambu Mafuku E.G. (2004), « Principes d’Econométrie », Presses de l’Université Kongo, 4è édition,
285 p.
Annexe
Estimation
Estimation Command:
=========================
NLS Y=Y(-1)*EXP(C(1)*T)
Estimation Equation:
=========================
Y=Y(-1)*EXP(C(1)*T)
Substituted Coefficients:
=========================
Y=Y(-1)*EXP(0.00167995423935*T)
⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯
***********************