La normalité asymptotique locale, souvent abrégé en NAL ou LAN (de l'Anglais Local Asymptotic Normality) est une propriété de certains modèles statistiques. Informellement, un modèle statistique localement asymptotiquement normal a un rapport de vraisemblance dont la distribution peut être approximée par une loi normale sous certaines conditions, cette approximation découlant typiquement d'un développement limité d'ordre deux de la log-vraisemblance. Cette notion a été introduite par le mathématicien Lucien Le Cam, elle est exposée dans un article[1] publié en 1960 coécrit avec Grace Lo Yang.
Considérons un modèle statistique générant données, dénotées par un vecteur de taille , et dépendant d'un paramètre . Notons la fonction de log-vraisemblance de ce modèle. Considérons deux valeurs du paramètre : et . Supposons que les données soient générées par ce modèle avec comme valeur de paramètre, et définissons la variables aléatoire , correspondant à la différence des log-vraisemblances évaluées en et en .
Si le modèle considéré est asymptotiquement localement normal en , alors la loi de la variable aléatoire peut être approximée par une loi normale. Cette approximation est valable pour grand (d'où le asymptotiquement) et pour tout proche de (d'où le localement).
La condition grand est rendue rigoureuse en utilisant la notion de convergence en loi. La condition et proche de est quant à elle traduite par le fait que et est de la forme avec une suite de constantes tendant vers 0 (par exemple dans le cas de données indépendantes et identiquement distribuées), de sorte que plus est grand, plus est proche de .
La variable aléatoire est la statistique utilisée pour faire un test du rapport de vraisemblance. Elle souvent abusivement appelée rapport de vraisemblance même s'il s'agit en réalité du logarithme du rapport de vraisemblance.
Cas de données indépendantes et identiquement distribuées
Soit variables aléatoires indépendantes et identiquement distribuées (iid) selon une distribution , dépendant d'un paramètre . Notons sa fonction de vraisemblance . La log-vraisemblance de l'échantillon aléatoire s'écrit comme la somme des log-vraisemblances de chaque observation, , car les données sont iid.
Appelons le modèle statistique générant ces variables aléatoires. est localement asymptotiquement normal si lorsque est distribué selon ,
Donnons ici l'intuition, informelle, de la normalité asymptotique locale dans le cas de données iid. Plaçons nous dans le cas (c'est-à-dire univarié) et effectuons un développement de Taylor de la log-vraisemblance en
De sorte que
Comme sont iid, le premier terme de cette différence , est une somme de variables aléatoires iid, , divisée par . Ces variables ont pour espérance (d'après la première identité de Bartlett) et pour variance (d'après la seconde identité de Bartlett), où comme précédemment, désigne l'information de Fisher. Le théorème central limite implique alors que converge en distribution vers une loi normale d'espérance nulle et de variance :
.
Comme sont iid, second terme du développement de Taylor, , est aussi une somme de variables aléatoires iid, divisée par . Ces variables aléatoires ont pour espérance . La loi des grands nombres implique donc que ce terme converge en probabilité vers :
On a donc asymptotiquement où est une variable aléatoire normale d'espérance nulle et de variance , ce qui implique que, asymptotiquement, suit approximativement une loi normale d'espérance et de variance .
Si le développement précédent avait été fait plus rigoureusement et qu'une convergence en loi avait été établie au lieu du "suit approximativement" de la phrase précédente, cela correspondrait à la définition de la normalité asymptotique locale.
Ce développement, fait sans rigueur dans le but de donner une intuition de la normalité asymptotique locale, peut être rendu rigoureux si le modèle satisfait certaines conditions. Il faut en particulier, pour que les formules écrites ci-dessus aient du sens, que sa log-vraisemblance soit deux fois dérivable, et que ces dérivées aient des moments finis, mais ces conditions seules ne sont pas suffisantes. Une condition suffisante (mais pas nécessaire) est la différentiabilité en moyenne quadratique.
Si le modèle statistique est différentiable en moyenne quadratique, alors, le modèle , générant variables aléatoires iid selon est localement asymptotiquement normal.
Un modèle est différentiable en moyenne quadratique en s'il existe tel que pour tout , où est la vraisemblance du modèle et l'intégrale est prise sur le support de et le désigne la notation de Landau au voisinage de 0[2].
Beaucoup de modèles classiques (par exemple le modèle normal, exponentiel, Poisson) sont différentiables en moyenne quadratique, et le vecteur correspond à la dérivée de la log-vraisemblance. Une exception notable est la loi uniforme sur un intervalle qui n'est pas différentiable en moyenne quadratique, et n'est d'ailleurs pas non plus localement asymptotiquement normal.
Ici, la notation désigne la dérivée de Radon-Nykodym de la mesure de probabilité du modèle par rapport à la mesure du modèle . Le modèle correspond au modèle à la différence que le paramètre est changé en , la suite étant typiquement de norme tendant vers l'infini. En pratique, correspond au rapport de la vraisemblance du modèle évaluée en sur la vraisemblance du modèle évaluée en .
La notation désigne ici une variable aléatoire tendant vers 0 en probabilités. Même si cela n'est pas rendu explicite, il faut noter que ce terme peut dépendre de , de sorte que la convergence n'est pas uniforme par rapport à .
Comme le vecteur suit une loi normale d'espérance et de variance , cette définition s'interprète souvent comme imposant que le log du rapport de vraisemblance suive asymptotiquement une loi normale d'espérance et de variance .
Dans le cas de données iid, correspond à l'information de Fisher et la suite de matrice est simplement où est la matrice identité de .
En reprenant les notations précédentes, la normalité asymptotique locale d'un modèle statistique implique la contiguïté mutuelle des mesures et (ou dans le cas d'un modèle iid).
Théorème — Soit un modèle statistique de paramètre . Si est localement asymptotiquement normal, alors , où est une suite de convergeant vers et est la suite de matrice telle que définie dans la définition générale de la normalité asymptotique locale de .
Comme est localement asymptotiquement normal, il existe une suite de matrices inversibles et une matrice telles que pour toute suite convergeant vers un , converge en distribution vers une loi normale .
Cela implique, puisque l'application exponentielle est continue, que converge en distribution vers une loi log-normale de paramètres et .
On a donc que l'espérance de la limite en loi de vaut . Par ailleurs,
On a donc, pour reprendre les termes exacts du lemme, que si une sous suite de convergeant en loi vers une variable , alors (puisque est de loi log-normale), et donc . Par ailleurs, comme la loi log-normale à pour support , vérifie nécessairement que , et donc,
.
Finalement, .
Une application de la normalité asymptotique locale découle d'un corollaire du 3ème lemme de Le Cam. Ce corollaire permet de connaître la distribution asymptotique d'une statistique si les variables aléatoires sont générées par un modèle statistique dont le paramètre n'est pas fixe, mais converge vers une valeur fixe . On parle de connaître la distribution asymptotique de sous une suite d'alternatives, ou encore de changement de mesure.
Ce corollaire stipule que si
est une statistique à valeurs dans ,
et sont deux suites de mesures (ou modèles statistiques), telles que le vecteur pour , lorsque les sont générés par ,
alors, la statistique lorsque les sont générés par .
Choisir et avec un modèle localement asymptotiquement permet généralement de satisfaire les hypothèses du corollaire. Cela permet alors de connaitre la distribution de lorsque le paramètre qui génère les données n'est pas mais .
La normalité asymptotique de n'implique pas directement que les hypothèses du 3ème lemme de Le Cam soient satisfaites, mais elle y aide. En effet, la normalité asymptotique locale implique que converge en loi vers une distribution normale , avec .
Il est par ailleurs assez classique pour une statistique d'avoir une distribution asymptotique de la forme . Il ne reste alors généralement qu'à montrer que le vecteur est un vecteur gaussien (car deux vecteurs gaussiens ne forment pas nécessairement un vecteur gaussien lorsqu'ils sont concaténés), ce qui est généralement faisable.
↑Lucien Le Cam et Grace Lo Yang, « Locally Asymptotically Normal Families », dans Springer Series in Statistics, Springer US, (ISBN978-1-4684-0379-4, lire en ligne), p. 52–98