Recueil de Modèles Aléatoires
Recueil de Modèles Aléatoires
Recueil de Modèles Aléatoires
Djalil Chafaï
Florent Malrieu
Recueil de Modèles
Aléatoires
Mathématiques
et
Applications
Directeurs de la collection:
J. Garnier et V. Perrier
78
Directeurs de la collection:
J. GARNIER et V. PERRIER
Djalil Chafaï Florent Malrieu
•
Recueil de Modèles
Aléatoires
123
Djalil Chafaï Florent Malrieu
CEREMADE Faculté des Sciences et Techniques
Université Paris-Dauphine Université François Rabelais
Paris Tours
France France
Mathematics Subject Classification (2010): 60-01, 60C05, 60F05, 60F15, 60F20, 60J05, 60J20, 60J27,
60J60, 60J80, 60J75, 60K25, 60K30, 60K35, 60K37, 60G09, 60G15, 60G35, 60G40, 60G42, 60G44,
60G46, 60G55, 60G70
«. . . I prefer concrete things and I don’t like to learn more about abstract stuff
than I absolutely have to. . . . ». Marc Kac (1914 – 1984), in Enigmas of Chance :
An Autobiography (1985, chapitre 5 page 112).
(Ω, F, P)
Toutes les variables aléatoires de ce recueil sont définies sur cet espace.
Table des matières
2 Marches aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1 Marche aléatoire simple sur la droite . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Marche aléatoire simple symétrique dans l’espace . . . . . . . . . . . . 26
2.3 Problème de Dirichlet et champ libre gaussien . . . . . . . . . . . . . . . 30
2.4 Marche aléatoire sur le groupe symétrique . . . . . . . . . . . . . . . . . . 34
2.5 Pour aller plus loin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5 Mesures de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.1 Mesures de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.2 Algorithme de Metropolis-Hastings . . . . . . . . . . . . . . . . . . . . . . . . 72
5.3 Algorithme du recuit simulé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.4 Algorithme de Propp-Wilson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.5 Modélisation d’un composé chimique . . . . . . . . . . . . . . . . . . . . . . . 78
5.6 Pour aller plus loin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
15 Renforcement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
15.1 Urne de Pólya . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
15.2 Graphe de Barabási-Albert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
15.3 Marche aléatoire renforcée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
15.4 Théorème de Rubin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
15.5 Pour aller plus loin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
16 Percolation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
16.1 Percolation dans un graphe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
16.2 Graphe de Bethe (arbre régulier) . . . . . . . . . . . . . . . . . . . . . . . . . . 218
16.3 Graphe euclidien (grille) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
16.4 Graphe complet et modèle de Erdős-Rényi . . . . . . . . . . . . . . . . . . 224
16.5 Pour aller plus loin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
XII Table des matières
Littérature . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391
Sn = X 1 + · · · + X n
est une variable aléatoire à valeurs dans {0, 1, . . . , n} qui suit la loi binomiale
Bin(n, p) de taille n et de paramètre p, donnée pour tout k = 0, 1, . . . , n par
n k n!
P(Sn = k) = p (1 − p)n−k = pk (1 − p)n−k .
k k!(n − k)!
Le temps T du premier succès, qui est aussi le nombre de lancers pour obtenir
un premier succès, est donné par
T := inf{n 1 : Xn = 1}
P(T = k) = (1 − p)k−1 p, k ∈ N∗ .
T := inf{n 0 : Xn+1 = 1} = T − 1
et on a
1−p 1−p
E(T ) = E(T ) − 1 = et Var(T ) = Var(T ) = .
p p2
Pour tout r ∈ N∗ , le nombre de lancers Tr nécessaires pour obtenir r succès
est défini par récurrence par
et
r 1−p
E(Tr ) = rE(T ) = et Var(Tr ) = rVar(T ) = r .
p p2
Le processus de Bernoulli (Sn )n0 a des trajectoires constantes par mor-
ceaux, avec des sauts d’amplitude +1, et les temps de saut sont donnés par
(Tr )r1 (temps inter-sauts i.i.d. géométriques). Il constitue le processus de
1.1 Jeu de pile ou face 3
comptage de tops espacés par des durées indépendantes de même loi géomé-
trique, analogue discret du processus de Poisson. Comme Sn est une somme
de variables indépendantes, (Sn )n0 est une chaîne de Markov sur N de noyau
P(x, y) = p1y=x+1 + (1 − p)1y=x , et (Sn − np)n0 est une martingale.
Par la loi des grands nombres (LGN) et le théorème limite central (TLC)
√
Sn p.s. n Sn loi
−→ p et − p −→ N (0, 1).
n n→∞ p(1 − p) n n→∞
et
P(Sn k) = P(1{U1 p} + · · · + 1{Un p} k) = P(U(k,n) p).
On déduit de cette identité une expression exacte de la probabilité que Sn
appartienne à un intervalle donné. Notons que comme Sn est discrète, ses
quantiles sont aussi discrets, ce qui empêche de fabriquer un intervalle exact
de niveau α ∈ [0, 1] arbitraire, et suggère de procéder à un lissage.
Remarque 1.2 (Motifs répétés et lois du zéro-un). Lorsque 0 < p < 1, le
lemme de Borel-Cantelli (cas indépendant) entraîne que toute suite finie de 0
et de 1 apparaît presque sûrement une infinité de fois dans la suite X1 , X2 , . . .
L’indépendance est capitale. Un singe éternel tapant sur un clavier finira tou-
jours par écrire les œuvres complètes de William Shakespeare ! Alternative-
ment, on peut déduire ce résultat de la nature géométrique du temps d’appari-
tion du premier succès dans un jeu de pile ou face obtenu en découpant le jeu
de pile ou face en blocs successifs de même longueur que la chaîne recherchée.
Remarque 1.3 (Jeu de pile ou face et loi uniforme sur [0, 1]). Si U est une
∞
variable aléatoire sur [0, 1] et si U = n=1 bn 2−n est son écriture en base 2,
alors U suit la loi uniforme sur [0, 1] si et seulement si les bits (bn )n1 de son
écriture en base 2 sont des v.a.r. i.i.d. de Bernoulli de paramètre 1/2.
Remarque 1.4 (Algorithme de débiaisage de von Neumann). Soit (Xn )n1
une suite de variables aléatoires de Bernoulli indépendantes et de paramètre
0 < p < 1 inconnu. On fabrique la suite (Yn )n1 de variables aléatoires indé-
pendantes et de même loi sur {0, 1, 2} comme suit
4 1 Pile, face, coupons
X1 X2 X3 X4 · · ·
Y1 Y2
x2
e− 2t
sup P Sn np(1 − p)t + np − √ dx
t∈R −∞ 2π
τ3 1 − 2p(1 − p)
√ 3 = √ .
nσ p(1 − p) n
où
k − np
In (a, b) = 0kn: ∈ [a, b] ,
np(1 − p)
1.3 Distance en variation totale 5
Lois binomiales
0.2
Bin(42,0.1)
Bin(42,0.5)
Bin(42,0.9)
0.15
P(X=n)
0.1
0.05
0 10 20 30 40
n
Fig. 1.1. Lois binomiales de même taille, pour trois valeurs du second paramètre,
illustrant la pertinence de l’approximation de la loi binomiale par une loi gaussienne
et par une loi de Poisson selon les cas.
Notons que dVT (μ, ν) = μ − νVT où ηVT := supA⊂E |η(A)| pour toute
mesure signée η de masse finie sur E. On a 0 dVT (μ, ν) 1 car le diamètre
de [0, 1] est 1. De plus dVT (μ, ν) = 1 si μ et ν ont des supports disjoints.
Théorème 1.5 (Autres expressions). Si μ et ν sont des lois sur E alors 1
1 1
dVT (μ, ν) = sup f dμ − f dν = |μ(x) − ν(x)|.
2 f :E→[−1,1] 2
x∈E
De plus, le supremum dans la définition de dVT (·, ·) est atteint pour l’ensemble
A∗ = {x ∈ E : μ(x) ν(x)},
f = 1A∗ − 1Ac∗ .
qui est saturée pour f = 1A∗ − 1Ac∗ . Pour la première égalité, on écrit
1
|μ(A) − ν(A)| = fA dμ − fA dν
2
Théorème 1.6 (Convergence en loi). Si (Xn )n1 sont des variables aléatoires
sur E et si μn désigne la loi de Xn , alors pour toute loi μ sur E, les propriétés
suivantes sont équivalentes :
1. limn→∞ f dμn = f dμ pour toute fonction bornée f : E → R ;
2. limn→∞ μn (x) = μ(x) pour tout x ∈ E ;
1. En particulier on a 2·VT = ·1 (E,R) .
1.3 Distance en variation totale 7
Grâce à 2., si A est fini, alors pour tout ε > 0, il existe un entier N = N (A, ε)
tel que le premier terme du membre de droite est majoré par ε pour tout
n N . Le second terme du membre de droite peut se contrôler comme suit :
|μn (x) − μ(x)| μn (x) + μ(x).
x∈Ac x∈Ac x∈Ac
Puisqu’on a
μn (x) = μ(x) − μn (x) + μ(x),
x∈Ac x∈A x∈A x∈Ac
on obtient
|μn (x) − μ(x)| |μn (x) − μ(x)| + 2 μ(x).
x∈Ac x∈A x∈Ac
Puisque μ ∈ P, pour tout ε > 0, on peut choisir A fini tel que μ(Ac ) ε .
Ainsi, on obtient
lim |μn (x) − μ(x)| = 0,
n→∞
x∈E
Il suffit donc de construire un couple (X, Y ) pour lequel l’égalité est atteinte.
Posons p = 1 − dVT (μ, ν) ∈ [0, 1] et distinguons trois cas.
— Cas où p = 0. On prend (X, Y ) avec X et Y indépendantes de lois
respectives μ et ν. Puisque dVT (μ, ν) = 1, μ et ν ont des supports
disjoints, d’où P(X = Y ) = x∈E μ(x)ν(x) = 0 ;
— Cas où p = 1. Alors dVT (μ, ν) = 0, d’où μ = ν. On prend (X, Y ) où
X ∼ μ et Y = X ;
— Cas où 0 < p < 1. Soit U, V, W des variables aléatoires de lois
utile si np2 est petit. Si par exemple p = λ/n alors np = λ et np2 = λ2 /n.
Théorème 1.10 (Inégalité de Le Cam). Soient X1 , . . . , Xn des variables
aléatoires indépendantes de lois de Bernoulli Ber(p1 ), . . . , Ber(pn ). Soit μn la
loi de Sn = X1 + · · · + Xn et soit νn = Poi(p1 + · · · + pn ) la loi de Poisson de
même moyenne que Sn . Alors on a
permet de retrouver la loi des petits nombres : si (Xn,k )1kn est un tableau
triangulaire de variables aléatoires indépendantes de lois de Bernoulli avec
Xn,k ∼ Ber(pn,k ) pour tous n k 1, et si
où (Xn )n1 est une suite de variables aléatoires i.i.d. de loi uniforme sur
{1, . . . , r}. La variable aléatoire T est le premier instant où les r faces du
dé sont apparues. Ce temps dépend bien entendu de r mais, par souci de
simplicité, nous omettrons cette dépendance dans la notation. Le nom col-
lectionneur de coupons provient des coupons à collectionner présents dans
certains paquets de céréales.
Théorème 1.11 (Combinatoire). On a T r, et pour tout n r,
r! n − 1
P(T = n) = n
r r−1
Bien qu’explicite, le théorème 1.11 n’est malgré tout pas très parlant. Le
résultat intuitif suivant va beaucoup nous aider à étudier la variable T .
Lemme 1.12 (Décomposition). On a T = G1 + · · · + Gr où G1 , . . . , Gr sont
des variables aléatoires indépendantes avec
r−i+1
Gi ∼ Geo(πi ), πi := , 1 i r.
r
En particulier, on a P(T < ∞) = 1, et de plus
π2 2
E(T ) = r(log(r) + γ) + or→∞ (r) et Var(T ) = r + or→∞ (r2 ),
6
n
où γ = limn→∞ ( i=1 1/i − log(n)) ≈ 0.577 est la constante d’Euler.
1.5 Problème du collectionneur de coupons 11
r
r
1 − πi
Var(T ) = Var(Gi ) =
i=1 i=1
πi2
r−1
r−i π2 2
=r = r − r(log(r) + γ) + o(r2 ).
i=1
i2 6
r n
r k
P(T > n) = (−1)k−1 1− .
k r
k=1
Démonstration. On a
R = {1, . . . , r} \ {i1 , . . . , ik },
on a
Pour α > 0 et r fixés, on peut choisir t assez grand pour que e−t+εr α,
par exemple t = − log(α) + 1/r, ce qui donne l’intervalle de prédiction non
asymptotique [r, r log(r) − r log(α) + 1] de niveau 1 − α pour T .
Théorème 1.15 (Comportement asymptotique).
T P
−→ 1.
r log(r) r→∞
Démonstration. Fixons ε > 0. Par l’inégalité de Markov et le lemme 1.12,
T E((T − r log(r))2 )
P −1 >ε
r log(r) ε2 r2 log(r)2
Var(T ) + (E(T ) − r log(r))2
=
ε2 r2 log(r)2
1
=O .
log(r)2
Il s’agit d’une preuve par méthode du second moment. Dans le même esprit,
une méthode du quatrième moment est utilisée pour le théorème 11.6.
La borne établie dans la preuve du théorème précédent n’est pas sommable
en r et ne permet donc pas de démontrer une convergence presque sûre en
utilisant le lemme de Borel-Cantelli, qui n’aurait de sens qu’avec un espace de
n
2. P(∪k=1 Ak ) =
n
j=1
j+1
(−1) k1 <...<kj
P(Ak1 ∩ · · · ∩ Akj ).
1.5 Problème du collectionneur de coupons 13
probabilité unique valable pour tout r. D’autre part, la borne établie permet
d’obtenir un intervalle de prédiction non asymptotique : pour α = 0.05, r fixé,
et t bien choisi, on a P(|T − r log(r)|/r > t) = O(1/t2 ) = α. L’intervalle de
prédiction est de largeur 2rt, et se dégrade quand t croît (α diminue).
Le théorème suivant affirme que les fluctuations asymptotiques dans la
convergence précédente suivent une loi de Gumbel.
Théorème 1.16 (Fluctuations asymptotiques). On a
T − r log(r) T loi
= log(r) − 1 −→ Gumbel
r r log(r) r→∞
−t
où la loi de Gumbel a pour fonction de répartition t ∈ R → e−e .
La figure 1.2 illustre ce résultat.
0.8
0.6
P(T>n)
0.4
0.2
Fixons t ∈ R et supposons que r est assez grand pour que r log(r) + tr > r.
Introduisons l’entier nt,r = r log(r) + tr. Le théorème 1.13 donne
r n
r k t,r
P(T > r log(r) + tr) = P(T > nt,r ) = (−1) k−1
1− .
k r
k=1
r
Comme k rk /k! et 1 − u e−u pour tout u 0, on a
n
r k t,r e−tk
1− −→ .
k r r→∞ k!
T log(r)
E(eit r ) − E(eit(E1 +···+Er ) ) C .
r
Le lemme de Rényi 11.3 indique que E1 + · · · + Er a même loi que la variable
aléatoire max(F1 , . . . , Fr ) où F1 , . . . , Fr sont des v.a.r. i.i.d. de loi exponen-
tielle de paramètre 1, puis on utilise la convergence en loi vers la loi de Gumbel
de la suite de v.a.r. (max(F1 , . . . , Fr ) − log(r))r1 .
Le théorème 1.16 fournit un intervalle de prédiction asymptotique pour la
variable aléatoire T : pour tous réels b a,
−b −a
lim P(T ∈ [r log(r) + ra, r log(r) + rb]) = e−e − e−e .
r→∞
1.6 Pour aller plus loin 15
Si (cr )r∈N∗ est une suite qui tend vers l’infini, alors
D’autre part, on peut voir la distance en variation totale dVT (·, ·) comme
une distance de Wasserstein (couplage). Pour le voir, on observe tout d’abord
que P(X = Y ) = E(d(X, Y )) pour la distance atomique d(x, y) = δx=y , d’où,
en notant Π(μ, ν) l’ensemble des lois sur E × E de lois marginales μ et ν,
dVT (μ, ν) = min d(x, y) dπ(x, y).
π∈Π(μ,ν) E×E
rn := card{X1 , . . . , Xn }.
En particulier,
r
r
rn ) = r −
E( P(Cn,i = 0) = r − (1 − pi )n .
i=1 i=1
Notons enfin que comme les r types sont ordonnés, la variable aléatoire
max(X1 , . . . , Xn ) est un estimateur du bord droit r du support {1, . . . , r}.
Le collectionneur de coupons est un cas particulier du problème du recou-
vrement abordé dans l’article [Ald91] de David Aldous, dans le livre de David
1.6 Pour aller plus loin 17
pour tout n 0, où (εn )n1 est une suite de v.a.r. i.i.d. de loi de Rademacher,
indépendante de X0 . On pose
La suite (Xn )n0 est une chaîne de Markov d’espace d’états Z et de noyau de
transition donné pour tous x, y ∈ Z par
40
20
Position Xn
-20
-40
-60
0 200 400 600 800 1000
Temps n
Xn − X0 + n
∼ Bin(n, p).
2
Théorème 2.1 (Récurrence). La marche aléatoire simple sur Z est récurrente
nulle si p = 1/2 (marche aléatoire simple symétrique) et transitoire si p = 1/2
(marche aléatoire simple asymétrique).
Démonstration. Rappelons qu’un état x est récurent lorsque la marche issue
de x y revient p.s. ou de manière équivalente lorsque cette chaîne visite une
fois x. Un critère utile est le suivant : l’état x est récurrent si et seule-
infinité de
ment si n Pn (x, x) = ∞. La chaîne est de période 2 et donc P2n+1 (x, x) = 0
pour tout n 0. Comme la chaîne est irréductible, tous les états ont même
nature, et on peut donc se ramener à l’état 0. La formule binomiale donne
2n n
P2n (0, 0) = P(X2n = 0 | X0 = 0) = p (1 − p)n .
n
√
La formule de Stirling n! ∼ 2πn(n/e)n donne, en notant ρ = 4p(1 − p),
ρn
P2n (0, 0) ∼ √ .
πn
Alors pour tout x ∈ [a, b] ∩ Z, il existe c > 0 tel que Ex (ecτ ) < ∞. En
1−p
particulier Ex (τ ) < ∞ et donc Px (τ < ∞) = 1. De plus, en posant ρ = ,
p
⎧ b
⎪
⎪ ρ − ρx
⎨ b si p = 12 ,
ρ − ρa
Px (Xτ = a) =
⎪
⎩b − x
⎪
si p = 12 ,
b−a
et ⎧
⎨ x − a − (b − a) ρ − ρ
x a
⎪ si p = 12 ,
Ex (τ ) = 1 − 2p 1 − 2p ρb − ρa
⎪
⎩(b − x)(x − a) si p = 12 .
Si p = 1/2 alors la chaîne est récurrente et visite presque sûrement chaque
état une infinité de fois et donc Px (τa < ∞) = 1 et Px (τb < ∞) = 1 pour
tout a x b. En revanche, si p = 1/2 alors la chaîne est transitoire et
les temps d’atteinte de a ou de b ne sont plus finis presque sûrement (selon
la probabilité p et le point de départ x). On le voit bien dans les formules
du théorème 2.2 en faisant tendre a ou b vers l’infini. Le temps de sortie τ
de [a, b] est identique en loi au temps d’absorption T par {a, b} de la chaîne
Y = (Yn )n0 d’espace d’états fini {a, . . . , b} de mêmes transitions que (Xn )n0
mais avec absorption en a et b. Comme pour Y , les états a et b sont récurrents
et tous les autres (en nombre fini) transitoires, et comme presque sûrement
la chaîne Y ne visite qu’un nombre fini de fois chaque état transitoire, on en
déduit que Px (τ < ∞) = Px (T < ∞) = 1 pour tout a x b.
Comme η < 1 on obtient que Ex (ecτ ) < ∞ pour un réel c > 0, et en particulier
tous les moments de τ sont finis sous Px et Px (τ < ∞) = 1. Calculons
L’ensemble des solutions de cette récurrence linéaire d’ordre deux est un es-
pace vectoriel qui contient la solution constante 1. Si p = 1/2 alors ρx est
aussi solution, linéairement indépendante de 1, et donc les solutions sont de
la forme A + Bρx avec A et B constantes. Les conditions aux bords r(a) = 1,
r(b) = 0 fixent A et B, ce qui donne l’unique solution
ρb − ρx
r(x) = .
ρb − ρa
Si p = 1/2 alors ρ = 1 et les deux solutions fondamentales précédentes sont
confondues. Cependant, on observe que dans ce cas, x est également solution,
linéairement indépendante de 1, et donc les solutions sont de la forme A + Bx
où A et B sont des constantes. Les conditions aux bords r(a) = 1 et r(b) = 0
fixent A et B, ce qui donne l’unique solution
b−x
r(x) = .
b−a
2.1 Marche aléatoire simple sur la droite 23
Calculons à présent
R(x) := Ex (τ ).
En conditionnant selon X1 on obtient pour tout a < x < b la récurrence
linéaire (la méthode est valable pour toute chaîne de Markov, idem pour r(x))
x−a (b − a) ρb − ρx
R(x) = − .
1 − 2p 1 − 2p ρb − ρa
Si p = 1/2 alors −x2 est solution particulière, et les solutions sont de la forme
−x2 + A + Bx. Les conditions aux bords R(a) = R(b) = 0 donnent enfin
Or (n−1/2 Xn )n1 converge en loi vers N (0, σ 2 ) par le théorème limite central.
Mais In dépend de n. Cependant, comme (In )n1 est décroissante,
Xn 1 t2
lim sup P √ ∈ In inf √ e− 2σ2 dt = 0.
n→∞ n n1 2πσ 2 In
24 2 Marches aléatoires
Remarque 2.4 (Martingales). Si (Zn )n0 est une chaîne de Markov sur E
fini de noyau P = L+I alors pour toute fonction f : E → R, la suite (Mn )n0
donnée par M0 = 0 et pour tout n 1
n−1
Mn = f (Zn ) − f (Z0 ) − (Lf )(Zk )
k=0
est une martingale pour la filtration naturelle de la suite (Zn )n0 . La formule
ci-dessus peut être vue comme une formule d’Itô discrète. Lorsque f est har-
monique pour L, c’est-à-dire que Lf = 0, alors (f (Zn ) − f (Z0 ))n0 est une
martingale. Il se trouve que le vecteur des probabilités d’atteinte d’un ensemble
clos est harmonique. Il est possible de retrouver les formules du théorème 2.2
en utilisant des martingales bien choisies et le théorème d’arrêt. Par exemple,
la martingale (Xn − n(p − q))n0 donne E0 (Xτ ) = (p − q)E0 (τ ) tandis que
la martingale (ρXn )n0 donne E0 (ρXτ ) = 1. Cette méthode à base de mar-
tingales s’adapte au cadre des processus à temps et espace d’états continus,
et permet notamment d’obtenir des formules pour le temps de sortie pour un
processus de diffusion sur Rd , voir chapitre 27. D’autre part, les équations
satisfaites par les fonctions r et R dans la preuve du théorème 2.2 sont des
cas particuliers du problème de Dirichlet du théorème 2.8.
Théorème 2.5 (Nombres de Catalan). Si τ := inf{n 1 : Xn = 0} alors
2 2n n+1
P0 (τ = 2n + 2) = p (1 − p)n+1 , n 0.
n+1 n
Sm
m
0 2n
2n
On reconnaît le ne nombre de Catalan n+1 1
n . Les nombres de Catalan
sont également les moments pairs de la loi du demi-cercle, voir chapitre 21.
2.1 Marche aléatoire simple sur la droite 25
pa (1 − p)b
P(S1 > 0, . . . , Sn > 0 | S0 = 0, Sn = k) = card(Pn,k
+
) .
P(Sn = k | S0 = 0)
Il est tout à fait remarquable que cette formule ne dépende pas de p. L’en-
semble Pn,k \Pn,k
+
est invariant par la réflexion sur la portion du chemin située
avant le retour à 0. On reconnaît là l’astuce de la preuve du théorème 2.5. Il en
découle que l’ensemble des éléments de Pn,k \ Pn,k +
qui commencent par un in-
crément +1 est en bijection avec l’ensemble des éléments de Pn,k \Pn,k+
qui com-
mencent par un incrément −1. Or ce dernier est en bijection avec l’ensemble
des éléments de Pn,k qui commencent par un incrément −1, lui même en bi-
+
jection avec Pn−1,k+1 . Cela donne card(Pn,k )−card(Pn,k ) = 2card(Pn−1,k+1 ).
n
Comme card(Pn,k ) = (n+k)/2 , on obtient enfin
n n−1 k n
+
card(Pn,k )= −2 = .
(n + k)/2 (n + k)/2 n (n + k)/2
+
En d’autres termes, card(Pn,k ) = (k/n)card(Pn,k ).
La formule à base de nombres de Catalan du théorème 2.5 s’écrit
par l’application
2.2 Marche aléatoire simple symétrique dans l’espace 27
-5
-10
-10 -5 0 5
1 (2n)!
= 2 · · · r !2
.
(2d)2n r1 +···+rd
r
=n 1
! d
et (Vn )n0 sont des marches aléatoires simples symétriques sur √12 Z, in-
dépendantes ! De plus, Xn = 0 si et seulement si Un = Vn = 0, ce qui
donne P2n (0, 0) ∼ πn 1
, et la chaîne est donc récurrente. Attention : les
composantes de (Xn )n0 (abscisse et ordonnée) ne sont pas des marches
aléatoires simples sur Z, mais constituent des chaînes de Markov de noyau
Q(x, y) = 14 1|x−y|=1 + 12 1x=y (il est possible d’établir qu’elles sont récur-
rentes, mais cela ne conduit à rien de bien utile).
Cas d = 3 (méthode directe). La formule du multinôme donne ici
1 (2n)!
P2n (0, 0) =
62n r
r1 +r2 +r3 =n 1
!2 r !2 r !2
2 3
2 n
(2n)! n 1
= 2n n 2 .
2 3 n! r +r +r =n r1 r2 r3 3
1 2 3
d − 3 d−3
Q := 1 − P+ I
d d
où P est le noyau de la marche aléatoire simple symétrique X sur Z3 . Un
retour à zéro de X s’accompagne toujours d’un retour à zéro de X , et donc si
X est transitoire alors forcément X l’est aussi. Or les trajectoires de X sont
les trajectoires de X avec des temporisations géométriques à chaque site, et
en particulier, les fréquences asymptotiques de passage sont les mêmes, ce qui
fait que la transience de X implique celle de X , et donc X est transitoire.
30 2 Marches aléatoires
∂A := {y ∈ A : ∃x ∈ A, |x − y|1 = 1}
f (x) = Ex (g(Xτ∂A ))
τ∂A −1
f (x) = Ex (g(Xτ∂A ) + h(Xn ))
n=0
GA = −Δ−1
A .
Les preuves des théorèmes 2.8 et 2.9 restent valables pour des marches
aléatoires asymétriques sur Zd , à condition de remplacer le générateur Δ de
la marche symétrique par le générateur L := P−I, qui est un opérateur local :
|x − y| > 1 ⇒ L(x, y) = P(x, y) = 0. Le dépassement de ce cadre nécessite
l’adaptation de la notion de bord : {y ∈ A : ∃x ∈ A, L(x, y) > 0}.
Le champ libre gaussien 4 est un modèle d’interface aléatoire lié à la marche
aléatoire simple symétrique et au problème de Dirichlet. Soit A ⊂ Zd un sous-
ensemble non-vide fini. Une interface est une fonction de hauteur f : Ā → R
qui associe à chaque site x ∈ Ā une hauteur f (x), aussi appelée spin. Pour
simplifier, on impose la condition au bord f = 0 sur le bord extérieur ∂A de
A. On note FA l’ensemble des interfaces f sur Ā nulles sur le bord ∂A, qu’on
peut identifier à RA . L’énergie HA (f ) de l’interface f ∈ FA est définie par
1
HA (f ) = (f (x) − f (y))2 ,
4d
{x,y}⊂Ā
|x−y|1 =1
Cette loi gaussienne, appelée champ libre gaussien, est caractérisée par sa
moyenne mA : A → R et sa matrice de covariance CA : A × A → R, données
pour tous x, y ∈ A par
mA (x) := fx QA (df ) = 0
et
CA (x, y) := fx fy QA (df ) − mA (x)mA (y) = −(Δ−1
A )(x, y) = GA (x, y),
1C (σ σ −1 ) 1C (σ σ −1 )
P(σ, σ ) = = .
|C| r
1 σ −1 (1)
.. ..
. .
r σ −1 (r)
Configuration initiale Configuration après mélange
La chaîne (Xn )n0 converge en loi vers μ quelle que soit la loi initiale Loi(X0 ).
2.4 Marche aléatoire sur le groupe symétrique 35
Zn
Zn+1 = Xn+1,k
k=1
La suite (Zn )n0 est donc une chaîne de Markov d’espace d’états N et de
noyau de transition P donné pour tout z ∈ N par
P(z, ·) = P ∗z .
T := inf{n 0 : Zn = 0} ∈ N ∪ {∞}.
Z0 = 1 et 0 < p0 p0 + p1 < 1.
Ceci implique que pz < 1 pour tout z ∈ N. Ceci implique aussi que Z1 ∼ P
car Z0 = 1. Dans toute la suite, on note m := p1 + 2p2 + · · · la moyenne de
P lorsqu’elle existe, et σ 2 ∈ R+ la variance de P lorsque m existe.
E(Zn+1
2
) = E(Zn )(σ 2 + m2 ) + (E(Zn2 ) − E(Zn ))m2 ,
— cas critique : m = 1,
g (1− ) = m et g (1− ) = σ 2 + m2 − m.
0.8
0.6
0.4
0.2
0
0 0.2 0.4 0.6 0.8 1
Zn Zn
Yn = = n.
E(Zn ) m
Son utilité vient du fait que c’est une martingale pour la filtration naturelle :
(sZn )n0
est une martingale à valeurs dans [0, 1]. Comme Zn → ∞ p.s. sur {T = ∞}
(théorème 3.6) et Zn = 0 si n T , et comme 0 < s < 1, il vient
p.s.
sZn = sZn 1{T =∞} + sZn 1{T <∞} −→ 1{T <∞} .
n→∞
(h − 1) ◦ g = m(h − 1).
1 − g(s)
s → r(s) :=
1−s
sont croissantes sur [0, 1[, on a
Donc (1−h)◦g = m(1−h) sur [0, 1[ et donc sur [0, 1]. Reste à établir que h est la
fonction génératrice d’une loi μ sur N∗ et que (μn )n1 converge (étroitement)
vers μ. Comme (hn )n1 converge ponctuellement sur [0, 1[ vers h, il est bien
classique d’établir que μn (z) converge vers une limite μ(z) ∈ [0, 1] pour tout
z ∈ N∗ , dont la fonction génératrice est égale à h sur [0, 1[. Le fait que la
sous-probabilité μ est une loi de probabilité peut se déduire de l’équation
fonctionnelle vérifiée par h en considérant la limite en 1.
Cas critique
Démonstration. On a
−1
1 1 1
nP(Zn > 0) = n(1 − gn (0)) = −1 + .
n 1 − gn (0) n
La formule de Taylor avec reste intégral en 1 à l’ordre 2 donne
1
g(s) = s + (1 − s)2 σ 2 + (1 − s)2 α(s)
2
avec α bornée sur [0, 1] et lims→1 α(s) = 0. Il en découle que
1 1 g(s) − s
− =
1 − g(s) 1 − s (1 − g(s))(1 − s)
1 2
2 σ + α(s) σ2
= = + β(s)
1 − 2 (1 − s)σ 2 − (1 − s)α(s)
1 2
E(e−t n Zn | Zn > 0) =
P(Zn > 0)
gn (sn ) − gn (0) 1 − gn (sn )
= =1−
1 − gn (0) 1 − gn (0)
que l’on peut encore écrire
−1
1 1 1 1 1
1− − +
n(1 − gn (0)) n 1 − gn (sn ) 1 − sn n(1 − sn )
On obtient donc
−1
1
−t n σ2 σ2 1
E(e Zn
| Zn > 0) → 1 − +
2 2 t
1
= 2
1 + σ2 t
∞
2 2
= 2 e−tx e− σ2 x dx.
σ 0
48 3 Branchement et processus de Galton-Watson
Cas sur-critique
Si m > 1 alors 0 < P(T < ∞) < 1 (théorème 3.7) avec Zn → 0 sur
l’événement {T < ∞} et Zn → ∞ sur {T = ∞} (théorème 3.6). D’autre part
E(Zn ) = mn → ∞ et Var(Zn ) → ∞ si σ 2 < ∞ (théorème 3.3). Enfin, si
m > 1, on sait que sur {T < ∞} on a Zn → 0 tandis que sur {Y∞ > 0} on
a Zn ∼n→∞ mn Y∞ . On a aussi {T < ∞} ⊂ {Y∞ = 0} p.s. et le théorème
suivant, fort agréable, affirme que cette inclusion p.s. est une égalité p.s.
Théorème 3.13 (Explosion dans le cas sur-critique). Si E(Y∞ ) = 1 alors
{Y∞ = 0} = {T < ∞} p.s. , et donc p.s.
— soit Y∞ = 0 et limn→∞ Zn = 0 ;
— soit Y∞ > 0 et Zn ∼n→∞ mn Y∞ +∞.
Démonstration. Comme E(Y∞ ) = 1 et Y∞ 0 on a P(Y∞ > 0) > 0. Sur
{Y∞ > 0} on a Zn ∼n→∞ mn Y∞ → ∞ et on retrouve P(T < ∞) < 1. Pour
établir que l’inclusion p.s. {Y∞ > 0} ⊂ {T = ∞} est une égalité p.s., nous
allons montrer que
P(Y∞ = 0) = P(T < ∞).
En effet, pour tout z ∈ N∗ , par les propriétés de Markov et de branchement,
P(Y∞ = 0 | Z1 = z) = P( lim Yn = 0 | Z1 = z)
n→∞
= P( lim Yn = 0)z = P(Y∞ = 0)z ,
n→∞
Notons que le lemme de Fatou donne E(Y∞ ) lim inf n→∞ E(Yn ) = 1, ce
qui assure que Y∞ est intégrable, mais la convergence de (Yn )n0 vers Y∞
n’a pas forcément lieu dans L1 . Enfin, le lemme de Scheffé nous dit que la
convergence a lieu dans L1 si et seulement si E(Y∞ ) = 1.
Théorème 3.14 (Loi de Y∞ dans le cas sur-critique). Si m > 1 et σ 2 < ∞
alors la martingale (Yn )n0 converge p.s. et dans L2 vers une variable aléatoire
Y∞ 0 de moyenne E(Y∞ ) = 1 et de variance Var(Y∞ ) = σ 2 /(m2 − m). De
plus, la transformée de Laplace t ∈ R+ → L∞ (t) = E(e−tY∞ ) de Y∞ est
caractérisée par les propriétés suivantes :
Var(Zn ) + E(Zn )2 σ2 σ2
E(Yn2 ) = = 2 − n 2 +1
m 2n m − m m (m − m)
3.3 Taille de l’arbre en régimes critique et sous-critique 49
(théorème 3.3) qui converge car m > 1. Par conséquent, (Yn )n0 converge
p.s. et dans L2 vers une v.a.r. Y∞ dont les deux premiers moments sont la
limite de ceux de Yn . Il est possible de procéder directement sans faire appel à
un théorème de martingales, grâce au fait que la convergence L2 est ici assez
rapide. En effet, par le théorème 3.3 on obtient, pour tout n, k 0,
σ 2 1 − m−k
E((Yn+k − Yn )2 ) = .
mn m2 − m
Comme m > 1, ceci montre que (Yn )n0 est une suite de Cauchy dans L2 .
Comme
∞ L2 est complet, elle converge vers une v.a.r. Y∞ ∈ L2 . La série
n=0 E((Yn − Y∞ ) ) converge également grâce à la borne géométrique en
2
−n
m sur E((Y∞ − Yn )2 ) obtenue en faisant k → ∞. Par convergence mono-
∞
tone, on obtient E( n=0 (Yn − Y∞ )2 ) < ∞ et donc (Yn )n0 converge p.s. vers
Y∞ . Les deux premiers moments de Y∞ s’obtiennent facilement.
On a L∞ (0) = −E(Y∞ ) = −1. De plus, la transformée de Laplace t ∈
R+ → Ln (t) = E(e−tYn ) de Yn vérifie pour tout n 0
1 − mn+1
E(Z0 + · · · + Zn ) = 1m=1 + (n + 1)1m=1 .
1−m
On peut obtenir une formule similaire pour la variance (exercice !). On se place
dans cette section en régime critique ou sous-critique m 1. Nous savons que
la population s’éteint presque sûrement, et la population totale (ou taille de
l’arbre) est donc donnée par
N = lim Z0 + · · · + Zn (= Z0 + · · · + ZT −1 ),
n→∞
11 12
Sn
5
6 7 8 9 10
4
3
2 3 4 5 2
1
n
0
1 2 3 4 5 6 7 8 9 10 11 12
-1
1
(l)
Remarquons que pour tout l = 1, . . . , n, Sn = Sn = −1 et que les trajectoires
S (n) et S coïncident. La figure 3.3 fournit un exemple avec n = 8.
La trajectoire S atteint son minimum en un ou plusieurs instants. Notons
l0 le plus petit d’entre eux (dans l’exemple de la figure 3.3, l0 = 4). Alors S (l0 )
est la seule trajectoires parmi S (1) , . . . , S (n) qui reste positive ou nulle jusqu’à
l’instant n − 1. On a donc bien le résultat attendu.
52 3 Branchement et processus de Galton-Watson
S
n S (2) n
1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8
S (4) S (6)
n n
1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8
Fig. 3.3. Une marche parmi n reste positive avant d’atteindre −1 (ici S (4) ).
(λn)n−1
P(N = n) = e−λn
n!
puisque Sn ∼ Poi(nλ) ∗ δ−n . D’autre part, la série génératrice f de N est
solution de l’équation fonctionnelle peu commode f (s) = seλ(f (s)−1) .
3.4 Immigration
Le processus de Galton-Watson avec immigration (Zn )n0 issu de Z0 est
Zn
Zn+1 := In+1 + Xn+1,k
k=1
pour tout n 0, où (Xn,k )n1,k1 sont i.i.d. de loi P sur N, (In )n1 i.i.d. de
loi P+ sur N, toutes ces variables formant avec Z0 une famille indépendante.
On suppose que P et P+ ont pour moyenne m et m+ . On note σ 2 et σ+ 2
leur
variance lorsqu’elle existe. On suppose que Z0 = 1. Soit Fn la tribu engendrée
par Z0 , (Xi,j )1in,j1 , I1 , . . . , In . Pour tout n 0,
E(Zn+1 | Fn ) = mZn + m+
E(Zn+1
2
|Fn ) = Zn (σ 2 + m2 ) + Zn (Zn − 1)m2 + 2Zn mm+ + σ+
2
+ m2+
ce qui donne
E((Yn+k − Yn )2 ) = E(Yn+k
2
) + E(Yn2 ) − 2E(Yn+k Yn )
= E(Yn+k
2
) + E(Yn2 ) − 2E(E(Yn+k | Fn )Yn )
= E(Yn+k
2
) − E(Yn2 ) − 2(m−n−k + · · · + m−n−1 )m+ E(Yn )
= + on→∞ (1) − − on→∞ (1) + on→∞ (1).
Par conséquent, (Yn )n0 est de Cauchy dans L2 et converge donc dans L2 . On
peut aussi alternativement se contenter d’invoquer directement le théorème
de convergence des martingales bornées dans L2 .
et si U est une variable aléatoire de loi uniforme sur l’intervalle [0, 1], alors
P(U ∈ Iϕ(a) ) = μ(a) pour tout a ∈ E. L’algorithme basique de simulation de
μ est alors le suivant : on génère une réalisation u de U , ensuite si u μ(a1 )
alors on décide a1 ; sinon, si u μ(a1 ) + μ(a2 ), alors on décide a2 , etc. Si F
est la fonction de répartition de la loi μ ◦ ϕ−1 sur {1, 2, . . .} ⊂ R, d’inverse
généralisé F −1 , alors (ϕ−1 ◦ F −1 )(U ) ∼ μ. Il s’agit d’un cas spécial de la
méthode de simulation par inversion. Le coût de cet algorithme est le nombre
N de tests utilisés. Ce nombre est aléatoire, de loi μ ◦ ϕ−1 . En particulier,
P(N < ∞) = 1, et le coût moyen est
qui peut très bien être infini si μ◦ϕ−1 n’a pas d’espérance (ne peut se produire
que si E est infini) ! Si la numérotation ϕ minimise le coût moyen E(N ) alors
μ(a1 ) μ(a2 ) · · · .
Pour la loi géométrique (de moyenne quelconque) et pour la loi de Poisson
(de moyenne 1), la numérotation naturelle est à poids décroissants. D’autre
part, si card(E) est petit, alors on peut déterminer l’ordre à poids décroissants
en utilisant un algorithme de tri (qui a un coût).
Les lois discrètes usuelles (binomiale, géométrique, Poisson, etc.) sont si-
mulables par divers algorithmes dédiés tirant partie de leurs propriétés spé-
ciales. À ce sujet, signalons qu’il est possible de simuler la loi de Poisson
de moyenne quelconque λ à partir d’un générateur de la loi de Poisson de
moyenne 1. Il suffit en effet d’utiliser un amincissement 1 . Plus précisément,
on simule λ variables aléatoires X1 , . . . , Xλ i.i.d. de loi Poi(1), puis, condi-
tionnellement à leur somme S = X1 + · · · + Xλ , on simule S variables
aléatoires i.i.d. de loi de Bernoulli de moyenne λ/λ, et on tire parti du fait
que B1 + · · · + BS ∼ Poi(λ) (mélange poissonnien de binomiales 2 ).
Simuler la loi uniforme sur un ensemble E fini peut être très simple :
ϕ−1 (card(E)U ) suit cette loi ! Cependant, cet algorithme basique est im-
praticable lorsque E est difficile à énumérer et donc ϕ est difficile d’accès, ou
lorsque card(E) est très grand. Nous étudions par la suite des exemples de ce
type faits de permutations, de partitions, et de graphes, pour lesquels nous
présentons des algorithmes spécifiques efficaces et exacts.
n+1
P(σn+1 = σ) = P(σn = σ(n + 1, i))P(Un+1 = i)
i=1
1
n+1
= P(σn = σ(n + 1, i)).
n + 1 i=1
Comme n + 1 est point fixe de σn , et n’est point fixe de σ(n + 1, i) que pour
une et une seule valeur de i, notée iσ , image réciproque de n + 1 par σ, il en
découle finalement que
1 1 1 1
P(σn+1 = σ) = P(σn = σ(n + 1, iσ )) = = .
n+1 n + 1 n! (n + 1)!
T := inf{k 1 : σk ∈ Dn }
Or pour tout 1 p n,
(n − p)! n (n − p)! 1
P(Ai1 ∩ · · · ∩ Aip ) = = =
n! p n! p!
1i1 <···ip n 1i1 <···<ip n
n (−1)p+1
d’où P(σ ∈ Dn ) = 1 − p=1 p! → e−1 .
l’ensemble des éléments de S2n sans point fixe et qui sont leur propre inverse,
autrement dit l’ensemble des éléments de S2n obtenus en faisant le produit de
n transpositions à supports deux à deux disjoints. On a la formule d’Isserlis
(2n)!
card(A2n ) = .
2n n!
C’est aussi le produit des nombres impairs inférieurs ou égaux à 2n − 1, noté
(2n − 1)!! (double factorielle). Le rapport card(A2n )/card(S2n ) est petit, ce
qui incite à trouver une alternative à la méthode de simulation par rejet. Voici
donc un algorithme de simulation de la loi uniforme sur A2n .
Théorème 4.3 (Loi uniforme sur les appariements). Si σ suit la loi uniforme
sur S2n alors l’appariement aléatoire {{σ(1), σ(n + 1)}, . . . , {σ(n), σ(n + n)}}
suit la loi uniforme sur A2n .
3 6 5
2 4 1 3 6 5 2 4 1
P({{σ(1), σ(n + 1)}, . . . , {σ(n), σ(n + n)}} = {{a1 , an+1 }, . . . , {an , an+n }})
2n n!
= 2n n!P(σ(1) = a1 , . . . , σ(2n) = a2n ) =
(2n)!
qui ne dépend pas de l’appariement et qui vaut précisément 1/card(A2n ).
La décomposition en cycles d’une permutation aléatoire de loi uniforme
sur Sn fournit une partition aléatoire de {1, . . . , n}. La loi de cette partition
n’est pas uniforme sur l’ensemble des partitions Πn de {1, . . . , n} (remarque
14.6). Intéressons-nous à la simulation de la loi uniforme sur Πn . Cette loi
affecte le même poids 1/Bn à chaque élément de Πn , où Bn = card(Πn ). En
combinatoire, la suite (Bn )n1 constitue les nombres de Bell. On a B1 = 1,
B2 = 2, et plus généralement, en utilisant la convention B0 = 1, on a la
formule de récurrence triangulaire
n
n
Bn+1 = Bk ,
k
k=0
G = (V, E)
Théorème 4.5 (Loi uniforme sur graphes finis). Pour tout n 1, la loi uni-
forme sur l’ensemble
Gn des graphes finis de sommets {1, . . . , n} s’obtient en
rendant les n2 = 12 n(n − 1) arêtes indépendantes et identiquement distribuées
de loi de Bernoulli Ber(1/2).
Un graphe aléatoire qui suit la loi uniforme sur Gn est appelé graphe
aléatoire de Erdős-Rényi de taille n et de paramètre p = 12 .
Démonstration. L’ensemble Gn est en bijection avec l’ensemble des matrices
n × n symétriques à coefficients dans {0, 1} et à diagonale nulle, lui même
en bijection avec l’ensemble produit {0, 1}n(n−1)/2 . Or la loi uniforme sur un
ensemble produit est le produit des lois uniformes sur les facteurs, et la loi
uniforme sur {0, 1} est la loi de Bernoulli Ber(1/2).
Dans un graphe fini G = (V, E), le degré d’un sommet i ∈ V est le nombre
noté di de sommets reliés à i directement par une arête, autrement dit
La parité de la somme vient du fait que chaque arête compte deux fois, tandis
que la quantité k(k − 1) + min(dk+1 , k) + · · · + min(dn , k) est la contribution
maximale
k à d1 + · · · + dk des arêtes liées aux sommets 1 à k : on a au plus
2 = k(k − 1)/2 arêtes (comptent double) entre les sommets 1 à k, et au plus
min(k, dk+i ) arêtes entre le sommet i > k et les sommets 1 à k.
Un théorème de Erdős-Gallai affirme que pour tous d1 · · · dn 0, il
existe un graphe à n 1 sommets de degrés d1 , . . . , dn si et seulement si les
deux conditions ci-dessus sont vérifiés. On dit que d1 , . . . , dn est la suite de
degrés 8 du graphe. Pour un graphe d-régulier de sommets {1, . . . , n}, nd est
pair et d n − 1 (égalité atteinte pour le graphe complet).
Les multigraphes sont obtenus à partir de la définition des graphes en
relaxant deux contraintes : on accepte les arêtes multiples entre sommets ainsi
que les boucles. Soient d1 · · · dn 0 des entiers vérifiant les conditions de
Erdős-Gallai, et Md1 ,...,dn l’ensemble des multigraphes de sommets {1, . . . , n}
8. «Degree sequence» en anglais.
64 4 Permutations, partitions, et graphes
Idée de la preuve. Tout d’abord P(Mσ1 ∈ Gd1 ,...,dn ) > 0 car le support de la
loi de Mσ1 est Md1 ,...,dn . L’algorithme du rejet stoppe en un temps géomé-
trique T fini presque sûrement.
On peut montrer que M → P(Mσ1 = M ) est constante sur Gd1 ,...,dn . Ainsi
la loi conditionnelle de Mσ1 sachant {Mσ1 ∈ Gd1 ,...,dn } est la loi uniforme sur
Gd1 ,...,dn . Or cette loi conditionnelle est la loi de MσT (méthode du rejet).
Notons que Mσ1 ne suit pas la loi uniforme sur Md1 ,...,dn car l’application
M → P(Mσ1 = M ) n’est pas constante sur Md1 ,...,dn : si deux multigraphes
ne différent que par le nombre d’arêtes multiples entre deux sommets pré-
cis alors ils n’ont pas la même probabilité d’apparaître car ces arêtes sont
indistinguables donc permutables (idem pour les boucles).
Une structure d’arbre très courante est celle d’arbre binaire : chaque som-
met possède 0 ou 2 enfants, c’est-à-dire 1 ou 3 voisins si l’arbre est vu comme
un graphe. On s’intéresse à des arbres enracinés : il y a donc un nombre impair
de sommets. On s’intéresse à des arbres planaires : on numérote les sommets
de gauche à droite pour des individus d’une même génération, en partant de
la racine, numérotée 1 et figurée en bas, comme sur la figure 4.2. On note Tn
l’ensemble des arbres numérotés de ce type possédant 2n + 1 sommets.
Il est possible de coder chaque élément de Tn par une trajectoire de la
marche aléatoire simple. Plus précisément, étant donné un élément de Tn , soit
x(i) le nombre d’enfants du sommet i et ui = x(i) − 1 pour 1 i 2n + 1.
On pose s0 = 0 et si+1 = si + ui+1 pour tout 0 i 2n. La figure 4.2 donne
4.5 Arbres aléatoires 65
4 5
Sn
2 3 2
1
n
0
1 2 3 4 5
-1
1
P(sk+1 − sk = −1 | s0 , . . . , sk ) = 1 − P(sk+1 − sk = 1 | s0 , . . . , sk )
sk (2n + k + sk + 2)
= .
2(2n − k)(sk + 1)
Alors s suit la loi uniforme sur Pn , et donc l’arbre binaire associé suit la loi
uniforme sur Tn .
N (r − 1, k − 1)
P(s2n−k+1 = s2n−k − 1 | s0 , . . . , s2n−k ) = où r = s2n−k .
N (r, k)
Il en découle que
r(k + r + 2)
P(s2n−k+1 = s2n−k − 1 | s0 , . . . , s2n−k ) = où r = s2n−k .
2k(r + 1)
et
68 4 Permutations, partitions, et graphes
∞
1
n
dn,i (dn,i − 1)
ν = lim n = k(k − 1)pk < ∞,
n→∞
i=1 j=1 dn,j μ
k=1
alors on peut établir que la probabilité que Mn soit un graphe tend vers
1 1 2
e− 2 ν− 4 ν quand n → ∞. Ainsi la méthode de simulation par rejet du théo-
rème 4.6 du modèle des configurations reste raisonnable si n 1.
La structure d’arbre, bien que cas particulier de la structure de graphe,
est très riche. On trouvera des panoramas dans les livres de Donald Knuth
[Knu05, Volume 4A] et de Michael Drmota [Drm09]. L’algorithme de David
Arnold et Ronan Sleep se trouve dans l’article [AS80], ainsi que dans l’article
de survol de Jarmo Siltaneva et Erkki Mäkinen [SM02] sur les algorithmes
de simulation d’arbres binaires aléatoires. La loi uniforme sur l’ensemble des
arbres binaires plans Tn peut également être simulée grâce à un algorithme
récursif séduisant dû à Jean-Luc Rémy [Ré85] : partant d’un élément de Tn−1 ,
on fabrique un élément de Tn en choisissant aléatoirement uniformément un
sommet dans l’arbre, si c’est une feuille on lui attribue deux enfants qui seront
donc des feuilles, sinon ce sommet est remplacé par un nouveau sommet dont
un des enfants est une feuille et l’autre enfant est le sommet d’origine. Toujours
à propos d’arbres aléatoires, on peut évoquer l’algorithme de David Wilson
[Wil96] pour générer un arbre couvrant de loi uniforme, l’algorithme de Luc
Devroye [Dev12] pour simuler un arbre de Galton-Watson conditionné à avoir
une taille fixe, etc. On pourra consulter avec profit le livre de Russel Lyons et
Yuval Peres [LP15] sur les probabilités sur les arbres et les réseaux.
5
Mesures de Gibbs
Lorsque β > 0, la probabilité μβ (x) est d’autant plus grande que l’énergie
H(x) est petite (par rapport aux autres valeurs de H), la mesure de probabilité
μβ favorise donc les configurations de faible énergie, et ce d’autant plus que β
est grand. Lorsque β = 0 on obtient la mesure de probabilité uniforme sur E.
Voici quelques exemples, parmi d’autres, de mesures de Gibbs :
— Modèle d’Ising. Dans ce modèle E = {−1, 1}Λ où ∅ = Λ ⊂ Zd . Chaque
x ∈ E représente la configuration magnétique des atomes d’un morceau
de métal. Pour tout site i ∈ Λ dans le réseau, la valeur xi ∈ {−1, 1}
est l’orientation magnétique de l’atome situé au site i, appelée parfois
spin. L’énergie de la configuration x ∈ E est de la forme
H(x) = J xi xj + h xi
|i−j|1 =1 i∈Λ
car H n’est pas constante et le support de μβ est plein. De plus, dans ce cas,
en notant M = {x ∈ E : H(x) = h− }, il vient, pour tout x ∈ E,
−1
e−β(H(x)−h− ) |M | si x ∈ M,
μβ (x) = −β(H(y)−h
−→
|M | + y∈M/ e − ) β→+∞ 0 sinon,
x 0 → Φ(x) := x log(x).
dVT (Loi(Xt ), μβ ) cη t .
μβ ≈ Loi(Xt ).
3. En pratique ces bornes sont rarement utiles, en dehors de certains cas spéciaux.
5.2 Algorithme de Metropolis-Hastings 73
où
μβ (y)Q(y, x)
ρ(x, y) = α 1Q(x,y)>0 .
μβ (x)Q(x, y)
Alors P est un noyau de transition sur E, irréductible récurrent positif, de loi
invariante réversible μβ ; apériodique si α < 1 ou si Q est apériodique.
Les deux choix les plus classiques pour α sont donnés par
u
α(u) = min(1, u) et α(u) = , u ∈ R+ .
1+u
Le premier possède une interprétation intuitive. Le second assure que α < 1.
Si la mesure μβ est réversible pour le noyau Q, et c’est le cas par exemple
lorsque μβ est la mesure uniforme sur E et Q(x, y) = Q(y, x) pour tous
x, y ∈ E, alors la construction de Metropolis-Hastings revient tout simplement
à prendre P = (1 − ε)Q + εI, où 0 < ε < 1 assure l’apériodicité.
Démonstration du théorème 5.2. On a 0 P(x, y) Q(x, y) pour tous x, y
dans E avec x = y, et donc P est un noyau de transition. Comme α > 0, le
noyau P hérite du squelette de Q, et il est donc irréductible, et apériodique si
Q l’est. Si α < 1 alors P(x, x) > 0 pour tout x ∈ E et donc P est apériodique.
Comme P est irréductible sur E fini, il possède une unique loi invariante. La
propriété de α donne, pour tous x, y ∈ E, x = y, Q(x, y) = 0,
μβ (y)Q(y, x)
μβ (x)P(x, y) = μβ (x)Q(x, y)α
μβ (x)Q(x, y)
μβ (y)Q(y, x) μβ (x)Q(x, y)
= μβ (x)Q(x, y) α
μβ (x)Q(x, y) μβ (y)Q(y, x)
= μβ (y)P(y, x).
1y∈Vx
Q(x, y) = où Vx := {y ∈ E : dist(x, y) = 1}.
|Vx |
Si le graphe est régulier, c’est-à-dire que |Vx | = |Vy | pour tous x, y ∈ E, et si
μβ est la mesure uniforme sur E, alors P = (1 − ε)Q + εI, où 0 < ε < 1, et
on peut prendre ε = 0 si Q est apériodique.
Exemple 5.3 (Échantillonneur de Gibbs). Soit F ⊂ Z une partie finie et non
vide de Z, comme par exemple F = {−1, 1} comme dans le modèle d’Ising
évoqué dans l’introduction du chapitre. Soit également Λ ⊂ Zd une partie finie
et non vide de Zd . Soit enfin E = F Λ . Un noyau d’exploration Q naturel sur
E consiste, à partir d’une configuration courante x ∈ E, à sélectionner un
site i ∈ Λ au hasard 4 , puis à modifier xi en utilisant la loi conditionnelle
Cette loi conditionnelle est facile à calculer et à simuler dans le cas par
exemple du modèle d’Ising. Cela revient à prendre, pour tous x, y ∈ E,
Q(x, y) = q(i)μx,i (yi )1{x−i =y−i } , où μx,i := μβ (xi | x−i )
i∈Λ
et où q est une loi sur Λ chargeant tous les états comme par exemple la loi
uniforme sur Λ. L’échantillonneur de Gibbs est le nom donné à l’algorithme
de Metropolis-Hastings lorsque le noyau d’exploration Q est défini comme cela.
recuit simulé. On peut choisir par exemple pour noyau d’exploration Q celui
de la marche aléatoire simple sur Sn associée aux transpositions, donné par
2
si y = xτ pour une transposition τ ,
Q(x, y) = n(n−1)
0 sinon.
An = G n ◦ · · · ◦ G 1 et Bn = G1 ◦ · · · ◦ Gn .
et de même,
Il y a coalescence des trajectoires de (Bn (x))n0 quel que soit l’état initial
x. Soit μB la loi de xB . Par convergence dominée, pour tout x ∈ E et toute
fonction bornée f : E → R,
lim E(f (Bn (x)) = lim E(f (Bn (x))1{TB n} ) = E(f (xB )) = μB f.
n→∞ n→∞
Or E(f (Bn (x))) = Pn (x, ·)f = y∈E Pn (x, y)f (y), d’où, pour tous x, y ∈ E,
On considère l’énergie
Plus le réel β est petit (respectivement grand) et plus la loi μβ favorise les
configurations denses (respectivement clairsemées).
Remarque 5.5 (Méthode du rejet). Voici une première méthode permettant
de simuler de manière exacte μβ . On attribue indépendamment à chaque site
de Λ une valeurs −1, 0 ou +1 avec probabilités respectives
e−β 1 e−β
, , et .
1 + 2e−β 1 + 2e−β 1 + 2e−β
La configuration obtenue est retenue si elle appartient à E. Dans le cas
contraire, on répète la procédure. Cette méthode simple s’avère impraticable
Λ
car E est tout petit dans {−1, 0, +1} .
Construisons à présent un algorithme de type Metropolis-Hastings. Pour
tous u ∈ [−1, 1], i ∈ Λ, soit
Enfin, on pose
hi,u (x) si hi,u (x) ∈ E,
gi,u (x) =
x sinon.
Soient (Un )n1 et (Vn )n1 des suites indépendantes de variables aléatoires
i.i.d. de loi uniforme sur [−1, 1] et sur Λ respectivement, et Gn := gVn+1 ,Un+1 .
On définit enfin la suite récurrente aléatoire (Xn )n0 définie par
Xn+1 = Gn (Xn ).
Théorème 5.6. La suite (Xn )n∈N est une chaîne de Markov sur E, irréduc-
tible, récurrente, apériodique et de loi invariante réversible μβ .
80 5 Mesures de Gibbs
Démonstration. La suite (Xn )n∈N est chaîne de Markov, écrite sous la forme
d’une suite récurrente aléatoire sur E fini. Toutes les configurations mènent à
la configuration nulle (aucun composé présent) et réciproquement. La chaîne
est donc irréductible et récurrente. Soit P le noyau de transition de (Xn )n∈N .
Si x et y sont deux éléments de E alors P(x, y) est strictement positif si x et y
coïncident sur en tous les sites sauf un. On vérifie au cas par cas la relation de
réversibilité. Supposons par exemple que x et y sont dans E et, pour i0 ∈ Λ,
n+2+i
P(Xn+1 = i − 1 | Xn = i) =
2(n + 2)
et
n+2−i
P(Xn+1 = i + 1 | Xn = i) = .
2(n + 2)
Démonstration. Pour tout n 1,
i+n i−n
{Xn = i} = Dn = , Gn = .
2 2
La probabilité P(Xn+1 = i − 1 | Xn = i) est donc égale à la probabilité que
la marche aléatoire simple (Sn )n0 issue de 0 atteigne (i − n)/2 − 1 avant
(i + n)/2 + 1. Or d’après le théorème 2.2 (ruine du joueur) si a 0 et b 0
sont deux entiers distincts, et si Ti := inf {n 0, Sn = i} pour i ∈ {a, b} et
T := Ta ∧ Tb , alors, T est intégrable et
b
P(T = Ta ) = 1 − P(T = Tb ) = et E(T ) = −ab.
b−a
Théorème 6.4 (Convergence presque sûre). Le processus (|Xn |)n0 est une
chaîne de Markov inhomogène et
|Xn | p.s. Gn p.s. 1 Dn p.s. 1
−→ 0 d’où −→ − et −→ .
n n→∞ n n→∞ 2 n n→∞ 2
Démonstration. En discutant suivant les valeurs possibles de Xn , on constate
que |Xn+1 | = 1 si |Xn | = 0, et que si |Xn | > 0 alors
⎧
⎪
⎪ 1 |Xn |
⎨|Xn | − 1 avec probabilité + ,
|Xn+1 | = 2 2(n + 2)
⎪
⎪ 1 |Xn |
⎩|Xn | + 1 avec probabilité − .
2 2(n + 2)
86 6 Agrégation limitée par diffusion interne
Ainsi (|Xn |)n0 est une chaîne de Markov (suite récurrente aléatoire) inhomo-
gène. Pour établir que |Xn |/n → 0 presque sûrement, on procède par couplage.
Plus précisément, on construit deux processus (Yn )n0 et (Zn )n0 comme
suit : Y0 = Z0 = 0 et pour n 0,
Yn + 21{Un+1 <(n+2−Yn )/2(n+2)} − 1 si Yn > 0,
Yn+1 =
1 si Yn = 0,
et
Zn + 21{Un+1 <1/2} − 1 si Zn > 0,
Zn+1 =
1 si Zn = 0,
où (Un )n1 est une suite de v.a.r. i.i.d. de loi uniforme sur [0, 1]. Le processus
(Yn )n0 a la loi de (|Xn |)n0 tandis que le processus (Zn )n0 a même loi
que la valeur absolue d’une marche aléatoire simple. Ce couplage est tel que
presque sûrement, pour tout n ∈ N, 0 Yn Zn . En effet, si 0 < Yn Zn
alors, par construction, Yn+1 Zn+1 . Par ailleurs, si 0 = Yn Zn alors, Zn
peut être nul et dans ce cas, Yn+1 Zn+1 ou Zn 2 car Zn et Yn ont même
parité. Enfin, Zn /n → 0 p.s. grâce à la loi forte des grands nombres.
n+1
Remarque 6.5 (Espérance). Le théorème 6.2 donne, avec an+1 := n+2 ,
Xn est symétrique donc tous ses moments impairs sont nuls. Pour le moment
d’ordre 2, on a, pour n 0,
# 2 $ n + 2 − Xn n + 2 + Xn
E Xn+1 |Fn = (Xn + 1)2 + (Xn − 1)2
2(n + 2) 2(n + 2)
n
=1+ X2.
n+2 n
En posant xn (2) = E(Xn2 ) et en prenant l’espérance dans la relation ci-dessus,
on obtient, pour n 1,
n
xn+1 (2) = 1 + xn (2) et x1 (2) = 1.
n+2
Une récurrence donne
1
n−1
xn (2) = 1 + k(k + 1),
n(n + 1)
k=1
et (xn (2)/n)n1 converge donc vers 1/3. On peut établir de même que pour
tout k 0, la suite (xn (2k)/nk )n1 admet une limite μ(2k) et que la suite
(μ(2k))k∈N est solution de
2k + 1
μ(0) = 1 et μ(2k + 2) = μ(2k).
3
Or d’après le théorème 21.7, la seule mesure de probabilité dont les moments
pairs vérifient la récurrence ci-dessus et les moments impairs sont nuls est
la loi N (0, 1/3). D’autre part, d’après le théorème 21.6, la convergence des
moments vers une mesure de probabilité caractérisée par ses moments √ entraîne
la convergence en loi. On obtient ainsi la convergence en loi de Xn / n vers
la mesure gaussienne centrée de variance 1/3.
Un autre moyen d’établir la convergence annoncée est d’utiliser un rai-
sonnement basé sur le théorème limite central pour les martingales. Il existe
plusieurs jeux d’hypothèses plus ou moins faciles à vérifier. Voici le théorème
que nous utiliserons dans la suite.
Théorème 6.8 (TLC pour martingales). Soit (Mn )n0 une martingale de
carré intégrable pour une filtration (Fn )n0 , et soit (an )n0 une suite réelle,
strictement positive, déterministe croissante vers l’infini. On pose
2
M 0 = 0 et M n+1 = M n + E((ΔMn+1 ) | Fn ),
où ΔMn := Mn − Mn−1 . Supposons que
P
1. il existe λ 0 déterministe tel que a−1
n M n −→ λ,
n→∞
2. (condition de Lyapunov) il existe δ > 0 tel que
1 n
P
E ΔMk2+δ | Fk−1 −→ 0.
(an )1+δ/2 k=1 n→∞
88 6 Agrégation limitée par diffusion interne
Alors, on a
1 √ Mn
−→ N (0, λ−1 )
loi loi
√ Mn −→ N (0, λ), et an si λ > 0.
an n→∞ M n n→∞
Il convient de modifier légèrement (Xn )n0 pour en faire une martingale.
Lemme 6.9 (Martingale dans le modèle). Le processus (Mn )n0 défini par
Mn = (n + 1)Xn est une martingale de carré intégrable pour la filtration
naturelle (Fn )n0 de (Xn )n0 , qui vérifie
2
E((ΔMn+1 ) | Fn ) = (n + 2)2 − Xn2 ,
et
4
E((ΔMn+1 ) | Fn ) = (n + 2)2 − Xn2 (n + 2)2 + 3Xn2 ,
et
M n p.s. 1
−→ .
n3 n→∞ 3
Démonstration. Soit α ∈ {1, 2, 4}. La quantité suivante
E((ΔMn+1 )α |Fn ) = E(((n + 2)Xn+1 − (n + 1)Xn )α | Xn )
α n + 2 + Xn α n + 2 − Xn
= [Xn − (n + 2)] + [Xn + n + 2] ,
2(n + 2) 2(n + 2)
est nulle si α = 1, et donc (Mn )n0 est une martingale. Si α ∈ {2, 4} alors
(n + 2 − Xn )α−1 + (n + 2 + Xn )α−1
E((ΔMn+1 )α | Fn ) = ((n + 2)2 − Xn2 ) ,
2(n + 2)
ce qui donne les deux premières relations attendues. En particulier, on a
n−1
n3 2
n−1
M n = ((k + 2)2 − Xk2 ) = − Xk + o(n3 ).
3
k=0 k=0
De plus
1 2 1 Xk2
n−1 n−1
X k .
n3 n k2
k=0 k=1
Puisque Xn /n → 0 p.s. le lemme de Cesàro permet de conclure.
Pour pouvoir obtenir la convergence en loi de (Mn )n0 correctement re-
normalisée, il reste à vérifier la condition de Lyapunov du théorème 6.8 avec
an = n3 . Pour δ = 2, on a
n
n+1
n
E((ΔMk )4 | Fk−1 ) k4 + 2 (k + 1)2 Xk−1
2
= O(n5 ).
k=1 k=2 k=1
La suite (Mn /n3/2 )n1 converge donc en loi vers N (0, 1/3). Ceci fournit im-
médiatement la convergence dans le théorème 6.6.
6.6 Dimensions supérieures 89
20
15
10
−5
−10
−15
−20
−20 −10 0 10 20
— pour d = 2 :
δI (n) δE (n)
lim sup β2 et lim sup β2 .
n→∞ log(n) n→∞ log(n)
Description de l’algorithme
— Probabilité de lissage :
= πui−1 (xi − 1, xi ).
puis
On a donc obtenu
Li (v)
P(Ui−1 = u, Ui = v | X1:l = x1:l ) = F i−1 (u)ρ(u, v) ,
P i (v)
Notons que si θ(i, j) = 0 alors θn (i, j) = 0, mais que la réciproque est
fausse.
Démonstration. On numérote E de sorte que E = {1, . . . , s}. Notons L :=
LZ1 ,...,Zn . Il est plus commode de maximiser log(L) plutôt ques L. On doit
maximiser θ ∈ Θ → log(L(θ)) sous les contraintes θ(i, j) 0 et k=1 θ(i, k) =
1 pour tous 1 i, j s. Or on a
Nnij
∂θ(i,j) (θ → log(L(θ))) = ,
θ(i, j)
et les s conditions d’extrémalité reviennent à dire que pour tout 1 i s
la fonction j → Nnij /θ(i, j) doit être constante. Ce qui donne le résultat en
tenant compte de θ ∈ Θ.
L’estimateur θ̂ est intuitif puisqu’il estime θ(i, j) par la proportion de
transitions de l’état i vers l’état j parmi les n sauts observés. Les propriétés
asymptotiques de cet estimateur se déduisent du comportement des suites
(Nnij )n et (Nni )n qui sont établies ci-dessous.
Théorème 7.4 (Convergence et normalité asymptotique). Pour tout x ∈
E, sachant {X0 = x}, l’estimateur θn est convergent et asymptotiquement
normal : pour tous i, j ∈ E,
θn (i, j) −→ θ(i, j)
p.s.
n→∞
et
nμ(i)(θn (i, j) − θ(i, j)) −→ N (0, θ(i, j)(1 − θ(i, j))).
loi
n→∞
Ces convergences presque sûres découlent de la loi des grands nombres pour
les chaînes de Markov Z et Y , où Y est la chaîne de Markov irréductible
et récurrente d’espace d’états E 2 définie par Yn = (Zn , Zn+1 ) et dont la loi
invariante est (i, j) → μ(i)θ(i, j). La convergence en loi découle du théorème
limite central pour les chaînes de Markov.
7.2 Filtre de Kalman 99
où a est un nombre réel déterministe, et où (Vn )n0 et (Wn )n0 sont des
suites aléatoires indépendantes, avec (Vn )n0 i.i.d. de loi gaussienne N (0, τ 2 )
et (Wn )n0 i.i.d. de loi gaussienne N (0, σ 2 ). Les variables aléatoires (Wn )n0
représentent les fluctuations instantanées de l’écart entre position théorique
et position réelle. Les variables aléatoires (Vn )n0 modélisent les erreurs de
mesure du radar. Le paramètre a modélise l’action du pilote.
En théorie du signal, on dit que (Xn )n0 est un processus autorégressif
d’ordre 1, noté AR(1), à bruit gaussien, et on a
n
n
Xn = ak Wn−k = an−k Wk , n ∈ N.
k=0 k=0
(X0 , . . . , Xn , Y0 , . . . , Yn )
est un vecteur aléatoire gaussien puisque toute combinaison linéaire de ses co-
ordonnées est une combinaison linéaire des variables aléatoires gaussiennes
100 7 Chaînes de Markov cachées
On suppose dans cette section qu’on observe les positions de l’avion sans
erreurs, c’est-à-dire qu’on a accès à la suite (Xi )1in . On souhaite estimer
les coefficients a et σ 2 . La question n’est pas complètement évidente car les
observations ne sont pas indépendantes.
Lemme 7.7 (Estimateur de maximum de vraisemblance). L’estimateur de
maximum de vraisemblance (â, σ̂) de (a, σ) est donné par
n
1
n
k=1 Xk−1 Xk
ân = n 2 et σ̂ 2
n = (Xk − ân Xk−1 )2 .
X
k=1 k−1 n
k=1
et
√ loi √ 2 loi
n(â − a) −→ N (0, 1 − a2 ), et n σ̂ − σ 2 −→ N (0, 2σ 4 ).
n→∞ n→∞
n
M 0 = 0 et, pour n 1, M n = σ 2 2
Xk−1 .
k=1
M n p.s. σ4
−→ ,
n n→∞ (1 − a2 )
J
J
α(j) (x − m(j))2
x → α(j)γm(j),v(j) (x) = exp − ,
j=1 j=1
2πv(j) 2v(j)
J
Loi(Z) = α(j)δj
j=1
J
fθ (x) = α(j)γm(j),v(j) (x).
j=1
J
fθ (x) = α(j)γm(j),v(j) (x), x ∈ R,
j=1
α(z)γm(z),v(z) (x)
gθ (z|X = x) = J , z ∈ {1, . . . , J}.
j=1 α(j)γm(j),v(j) (x)
et
+
n
L(θ, X, Z) = log hθ (Xi , Zi )
i=1
n
# $
= log α(Zi ) + log γm(Zi ),v(Zi ) (Xi ) .
i=1
Aj = {i = 1, . . . , n, Zi = j} et Cj = card(Aj ).
108 8 Algorithme EM et mélanges
Trouver un jeu de paramètres θ qui maximise cette quantité n’est pas facile.
1
n
αM (j) = g (j|X = Xi )
n i=1 θ̃
n
i=1 Xi gθ̃ (j|X = Xi )
mM (j) = n
g (j|X = Xi )
n i=1 θ̃
(Xi − mM (j))2 gθ̃ (j|X = Xi )
vM (j) = i=1 n .
i=1 gθ̃ (j|X = Xi )
1 (k)
n
αk+1 (j) = H ,
n i=1 ij
n (k)
i=1 Xi Hij
mk+1 (j) = n (k)
,
i=1 Hij
n (k)
i=1 (Xi − mk+1 (j))2 Hij
vk+1 (j) = n (k)
.
i=1 Hij
110 8 Algorithme EM et mélanges
Le théorème 8.3 ne vaut que si nous savons estimer θ̃. Dans l’algorithme
EM, ceci est fait numériquement. Le résultat suivant montre que la log-
vraisemblance Lobs est croissante le long de l’algorithme.
Théorème 8.4 (Croissance de la vraisemblance). La suite (θk )k0 construite
par l’algorithme EM vérifie la propriété de stabilité numérique suivante :
Lobs (θk+1 , X) Lobs (θk , X),
où Lobs (θ, X) est la log-vraisemblance des observations.
Démonstration. Posons
n
H(θ, θk ) = Eθk (log gθ (Z | X)) = Eθk (log gθ (Zi | Xi )).
i=1
J
n
+ gθ̃ (j | X = xi ) log fθ (xi | Z = j).
j=1 i=1
J
n
+ gθ̃ (j | X = Xi )(log λ(j) − λ(j)xi ).
j=1 i=1
1 (k)
n
αk+1 (j) = H ,
n i=1 ij
n (k)
i=1 Hij
λk+1 (j) = n (k)
.
i=1 Xi Hij
Si de nombreux travaux existaient déjà autour de cette question, c’est vérita-
blement l’article [DLR77] de Arthur Dempster, Nan Laird, et Donald Rubin
qui définit pour la première fois l’algorithme EM dans un cadre général. On
trouvera dans la bibliographie de ce travail les références aux résultats an-
térieurs. Depuis, cet algorithme est très souvent utilisé dans des cadres et
sous des formes variés. Pour réduire la dépendance aux conditions initiales,
de nombreuses versions randomisées de l’algorithme EM ont été développées,
inspirées notamment de l’algorithme d’approximation stochastique de Kiefer–
Wolfowitz pour le calcul du maximum de fonction sous forme d’espérance,
lui même inspiré de l’algorithme d’approximation stochastique de Robbins–
Monro pour le calcul de zéro de fonction sous forme d’espérance. On pourra
par exemple consulter à ce sujet l’article [DLM99] de Bernard Delyon, Marc
Lavielle, et Éric Moulines, et le livre [Duf97] de Marie Duflo. Lorsqu’il n’est pas
possible de calculer la log-vraisemblance conditionnelle, on peut utiliser une
méthode de Monte-Carlo comme l’algorithme de Metropolis-Hastings du cha-
pitre 5 pour obtenir une approximation de cette fonction dont on cherche en-
suite un maximum numériquement. Ce type d’approche est étudié par exemple
par Estelle Kuhn et Marc Lavielle dans [KL04].
9
Urnes d’Ehrenfest
a
F := {0, 1}
1
E(inf{n 0 : Yn = x} | Y0 = x) = = 2a .
π(x)
La loi du temps d’atteinte de y en partant de x ne dépend que de
a
d(x, y) = |xi − yi | = x − y1 .
i=1
Cette quantité est une distance qui compte le nombre de coordonnées diffé-
rentes entre x et y. On note md (en oubliant un moment la dépendance en a)
le temps d’atteinte moyen de y partant de x lorsque d(x, y) = d, c’est-à-dire
md := E(inf{n 0 : Yn = y} | Y0 = x).
Théorème 9.2 (Temps moyens). Pour 1 d a, on a
a
d i
md = a
Qa−i où Qi =a
a−1
k
si 1 i a − 1.
i=1 k=0 i
max
dVT (Rn (x, ·), Rn (x , ·)).
x ∈F
Pour contrôler dVT (Rn (x, ·), Rn (x , ·)), on construit un couple (Z, Z ) de
chaînes de Markov Z := (Zn )n0 et Z := (Zn )n0 de même matrice de tran-
sition R et de conditions initiales Z0 = x et Z0 = x , et dont les trajectoires
sont égales après un temps aléatoire (de coalescence) que l’on sait contrôler.
Plus précisément on se donne deux suites indépendantes de variables aléatoires
indépendantes (Un )n0 et (Vn )n0 de lois respectives de Bernoulli Ber(1/2)
et uniforme sur {1, . . . , a}. On pose alors pour tout n 0 et 1 i a,
Zn+1 (Vn ) = Un , Zn+1 (Vn ) = Un ,
Zn+1 (i) = Zn (i) si i = Vn , Zn+1 (i) = Zn (i) si i = Vn .
Td := inf{n 0 : Zn = Zn }
E(Δn ) = E(Δn 1{Td n} ) + E(Δn 1{Td >n} ) = E(Δn 1{Td >n} ),
=0
ce qui donne E(Δn ) 2f ∞ P(Td > n), d’où, grâce au théorème 1.5,
Le théorème suivant raffine cette estimation de maxx∈F dVT (Rn (x, ·), π).
Théorème 9.4 (Temps long). Si
a log(a)
n= + ca avec c0
2
alors
e−c
max dVT (Rn (x, ·), π) √ .
x∈F 2
a
Démonstration. On munit RF ≡ R2 du produit scalaire usuel noté ·, ·. La
matrice stochastique R est symétrique 3 , son spectre est réel et inclus dans
3. Pour toute matrice de transition sur un espace d’états fini, la loi uniforme est
invariante (respectivement réversible) si et seulement si la matrice est doublement
stochastique (respectivement symétrique).
118 9 Urnes d’Ehrenfest
2a
n 1
R (x, y) = a + fj (x)fj (y)λnj .
2 j=2
2
Par symétrie de F et R, la quantité y∈F |Rn (x, y) − π(y)| ne dépend pas
de x ∈ F . En sommant sur x ∈ F , on obtient
a
2
2
2 a
|R (x, y) − π(y)| =
n
λ2n
i ,
y∈F i=2
2
2
4dVT (R (x, ·), π(·))
n
λ2n
i .
i=2
Or on peut établir que les valeurs propres de R sont les réels (1 − k/a)0ka
avec les multiplicités respectives ka pour 0 k a. On a donc
a
2n
2 a
k
4dVT (Rn (x, ·), π) 1−
k
a
k=1
a a
−2nk/a a
e = 1 + e−2n/a − 1.
k
k=1
des instants aléatoires. Plus précisément, soient (N (i) )1ia des processus de
Poisson indépendants de même intensité 1/a. Posons
(i)
Zt (i) = Z0 (i) + Nt mod 2.
1 1
n
Lf (x) = (f (y) − f (x)) = (f (x(i) ) − f (x))
a y∼x a i=1
1
a
Lf (x, x ) = (f (x(i) , x(i) ) − f (x, x ))1xi =xi
a i=1
+ (f (x, x(i) ) − f (x, x ))1xi =xi
+ (f (x(i) , x ) − f (x, x ))1xi =xi .
Sd := inf{t 0 : Zt = Zt }
−t
où la loi de Gumbel a pour fonction de répartition t ∈ R → e−e .
5. Si Z est une chaîne de Markov à temps continu et à espace d’états discret E
de générateur infinitésimal G = (G(x, y))x,y∈E alors sachant que la chaîne est en x
au temps t, le prochain saut a lieu au bout d’un temps exponentiel de paramètre
−G(x, x) et se fait en y = x avec probabilité −G(x, y)/G(x, x).
6. Le lemme 11.4 affirme que si G, E1 , E2 , . . . sont des v.a. indépendantes avec G
de loi géométrique de paramètre p et E1 , E2 , . . . de loi exponentielle de paramètre λ
alors la somme aléatoire E1 + · · · + EG suit la loi exponentielle de paramètre pλ.
9.2 Urne d’Ehrenfest 121
E := {0, 1, . . . , a}
où
a
Xn := Yn (i)
i=1
Enfin,
S(Yn ) S(Yn )
E(f (S(Yn+1 )) | Yn ) = 1− f (S(Yn ) + 1) + f (S(Yn ) − 1).
a a
On a donc
Xn Xn
E(f (Xn+1 ) | Fn ) = E 1 − f (Xn + 1) + f (Xn − 1) | Fn
a a
Xn Xn
= 1− f (Xn + 1) + f (Xn − 1),
a a
Ceci implique
4
Var(Xn+1 ) = βVar(Xn ) + E(Xn )(a − E(Xn ))
a2
4 a 2 2n
= βVar(Xn ) + 1 − 2 E(X0 ) − α .
a 2
Un simple calcul fournit alors la formule pour la variance.
Remarque 9.9 (Valeurs propres et vecteurs propres). Soit f la fonction sur
E définie par f (x) = x − b où b = a/2, qui s’identifie avec le vecteur colonne
(−b, −b + 1, . . . , b − 1, b)T . Un calcul immédiat montre que Pf = (1 − 2/a)f .
Ainsi, pour tout n 0 et tout x ∈ E,
1
P(|Pn − E(Pn )| ε) .
4aε2
Comme a est très grand, la variable Pn est quasiment déterministe, ce qui
correspond à l’expérience. La figure 9.2 donne une trajectoire de (Pn )n0
pour différentes conditions initiales.
1
n n
P Zi r = P exp λ Zi eλnr e−λnr ch(λ)n .
n i=1 i=1
Comme ch(λ) exp λ2 /2 (découle par exemple d’un développement en
série), on obtient, après une optimisation en λ qui conduit à choisir λ = r,
1
n 2
P Zi r e−nr /2 .
n i=1
mi,j := E(inf{n 0 : Xn = j} | X0 = i)
Ainsi les réels (mi,j )ij sont déterminés par les réels (mi,0 )i . Remarquons à
présent que Xn = 0 si et seulement si Yn = (0, . . . , 0). Donc le temps moyen
que met X à se rendre de i à 0 est le temps moyen que met Y pour aller de
n’importe quel élément de F situé à une distance i de (0, . . . , 0) à (0, . . . , 0),
autrement dit mi . Le théorème 9.2 assure alors que pour 0 i a − 1,
a−i
a−i−1
mi,i+1 = ma−i,0 − ma−i−1,0 = Qaa−k − Qaa−k = Qai .
k=1 k=1
mi,j = Qk si i < j,
⎪
⎪
⎪a−j−1
⎪
k=i
⎪
⎪
⎪
⎪ Qak si i > j.
⎩
k=a−i
Donc
b−1
1
m0,b + mb,0 = 2a a−1 .
i=0 i
b−1
1
m0,a = m0,b + mb,a = 2a a−1 .
i=0 i
1 1
b−1
1 b−1
1+ a−1 1 + + a−1
a−1 i=0 i
a−1 2
puisque at/a tend vers t. Cette convergence est la partie émergée d’un ice-
berg : convenablement renormalisée en temps et en espace, la chaîne d’Eh-
renfest converge en loi vers le processus de diffusion d’Ornstein-Uhlenbeck,
comme présenté dans le chapitre 27.
10
Records, extrêmes, et recrutements
10.1 Élitisme
Pour tout n 1, le rang relatif de Xn dans X1 , . . . , Xn est donné par
n
Rn = 1 + 1{Xn >Xk } .
k=1
Lemme 10.1 (Lois des rangs). Les variables aléatoires (Rn )n1 sont indé-
pendantes et, pour tout n ∈ N∗ , Rn suit la loi uniforme sur {1, . . . , n},
n
1
E(Zn ) = = log(n) + γ + O(1/n),
k
k=1
et
n
k−1 π2
Var(Zn ) = = log(n) + γ − + O(1/n),
k2 6
k=1
Notons que la suite (Zn )n1 a la même loi que la suite (|Bn |)n1 du
processus des restaurants chinois du chapitre 14, voir également le théorème
13.5 sur la suite (Kn )n1 du nombre d’allèles dans un échantillon obtenue lors
de l’étude de la généalogie du modèle de Wright-Fisher.
Théorème 10.2 (Comportement asymptotique du nombre de records).
alors
Sn loi
−→ N (0, 1).
sn n→∞
On applique ce théorème aux variables Yn = 1{Rn =n} − 1/n pour n 1
en remarquant que 1{|Yi |>εsn } = 0 pour n assez grand.
Remarque 10.5 (Avec les martingales). Le théorème 10.2 peut également
être démontré grâce à la loi des grands nombres pour les martingales et au
théorème limite central pour les martingales. Posons, pour n 1,
n
1
n
1
Mn = Zn − = 1{Rk =k} − .
k k
k=1 k=1
Alors (Mn )n1 est une martingale de carré intégrable de processus croissant
n
k−1
M n = = O(log(n)).
k2
k=1
Y1 = X1 , Y 1 = Y1 et T1 = 1,
% & 1
n+1
Tn+1 = inf i > Tn : Xi > Y n , Yn+1 = XTn+1 et Y n+1 = Yi .
n + 1 i=1
Démonstration. Presque sûrement, les variables aléatoires (Xn )n1 sont stric-
tement inférieures à xF . Ainsi, on montre par récurrence que Yn et Y n sont
également strictement inférieures à xF et que par suite Tn+1 est fini. La suite
(Yn )n1 est croissante et bornée par xF , elle converge donc vers un réel x∞ .
Celui-ci est nécessairement égal à xF car le supremum d’une infinité de v.a. in-
dépendantes de fonction de répartition F est égal à xF . Ainsi la suite (Yn )n1
converge presque sûrement vers xF . Le lemme de Cesàro assure qu’il en est
de même pour (Y n )n1 .
On s’intéresse alors au nombre de candidats qu’il faudra auditionner pour
former une équipe de taille donnée. Le résultat suivant permet de conclure
sous une hypothèse assez souvent vérifiée en pratique sur la convergence de la
suite (Y n )n1 .
Théorème 10.7 (Comportement asymptotique des auditionnés). Soit la
suite de variables aléatoires (Pn )n1 définie par P1 = 1 et, pour n 2,
Pn = 1 − F (Y n−1 ). S’il existe un réel α > 0 et une variable aléatoire W
p.s.
tels que P(0 < W < ∞) = 1 et nα Pn −→ W alors
n→∞
Tn p.s. 1
−→ .
nα+1 n→∞ (α + 1)W
n
1 1
bn = et Qn = Tn − Tn−1 − avec T0 = 0.
P
i=1 i
Pn
10.3 Cas de la loi exponentielle 133
La suite (bn )n1 est strictement croissante et tend vers +∞ puisque 1/Pi est
de l’ordre de iα /W . Plus précisément, une comparaison série-intégrale donne
nα+1
bn ∼ .
(α + 1)W
D’autre part, Tn − Tn−1 suit la loi géométrique de paramètre Pn donc
2
Qn 1 − Pn (α + 1)2
E 2 F = 2 2 ∼
bn bn Pn n→∞ n2
qui est le terme général d’une série convergente. Le théorème des séries cen-
trées (théorème 10.3) assure donc que
1
n
Tn p.s.
Qk = − 1 −→ 0.
bn bn n→∞
k=1
L2 p.s. Tn p.s. eG
λY n − log(n) −→ G, λY n − log(n) −→ G, et −→ .
n→∞ n→∞ n2 n→∞ 2
Les variables aléatoires (ηn )n0 sont donc indépendantes et de même loi ex-
n
ponentielle de paramètre 1. Avec hn = k=1 k1 , on a
n
ηk−1 − 1
Y n − hn = .
k
k=1
134 10 Records, extrêmes, et recrutements
Il existe donc une variable aléatoire G telle que Y n − hn converge vers G dans
L2 et presque sûrement. Reste à établir que G suit la loi de Gumbel. Nous
allons le faire en établissant que (Yn )n1 converge en loi vers la loi de Gumbel.
La transformée de Laplace de Y n notée Hn vaut, pour tout θ ∈ {1, . . . , n},
n −1
+ n
k +
Hn (θ) = E e θY n
= = n! (k − θ) .
k−θ
k=1 k=1
Soit à présent (Zn )n1 une suite de v.a.r. i.i.d. de loi exponentielle de para-
mètre 1. Pour tout n 1, soit Z(n) = max(Z1 , . . . , Zn ). Calculons la trans-
formée de Laplace Ln de Zn . Grâce à une intégration par parties, on a
Ln (θ) := E eθZ(n)
∞
n−1
= eθz ne−z 1 − e−z dz
0
10.3 Cas de la loi exponentielle 135
Fig. 10.2. Histogramme de la limite presque sûre de la suite aléatoire (Y n − log n)n
et densité de la loi de Gumbel.
∞
n n−2
= eθz (n − 1)e−2z 1 − e−z dz
1−θ 0
n
= Ln−1 (θ − 1),
1−θ
et une récurrence immédiate donne
n −1
+
n
n+1−k +
Ln (θ) = = n! (k − θ) .
k−θ
k=1 k=1
On en déduit que Y n et Z(n) ont même loi. En fait cette propriété ne constitue
qu’une partie du lemme de Rényi 11.3. Ainsi, pour tout réel x,
n
e−x −x
P(Y n − log(n) x) = P(Z(n) − log(n) x) = 1 − −→ e−e ,
n n→∞
ce qui conclut la preuve des deux premiers points. Pour le dernier point, on a
p.s.
nPn = n(1 − F (Y n−1 )) = e−(Y n −log(n)) −→ e−G ,
n→∞
p.s.
ce qui donne Tn /n2 −→ eG /2 par le théorème 10.7.
n→∞
136 10 Records, extrêmes, et recrutements
Yn p.s.
1/(β−1)
−→ Y.
n n→∞
P(Yn > xY n−1 | Fn−1 ) = P(X > xY n−1 | X > Y n−1 , Y n−1 ) = x−β .
La suite (Mn )n1 définie par Mn = bn Y n est une martingale positive d’es-
pérance 1. Elle converge donc presque sûrement vers une variable aléatoire
M positive de L1 . Nous omettons ici la preuve assez technique du fait que
P(0 < M < ∞) = 1. Enfin, on remarque que
n
1 1 1
n
bn = exp − log 1 + = exp − + o(1) .
j=1
(β − 1)j β − 1 j=1 j
Cette inégalité n’est en l’occurrence pas très précise car elle ne prend pas
bien en compte le fait que les variances des incréments de (Zn )n1 tendent
vers 0. On peut obtenir un résultat plus fin pour la déviation inférieure grâce
à l’inégalité de (Andreas) Maurer pour les sommes de variables aléatoires
positives [Mau03], qui donne, pour tout r > 0,
n
1 r2
P Zn − −r exp − .
k 2 log(n)
k=1
Citons enfin le célèbre problème des secrétaires 1 dont on trouve une des-
cription savoureuse dans un article de Thomas Ferguson [Fer89]. Le contexte
est le même que dans notre chapitre mais on ne recrute qu’une personne parmi
n candidats. La question est de déterminer la stratégie fournissant avec la pro-
babilité maximale le meilleur candidat. La première étape est de montrer que
la stratégie optimale est nécessairement de la forme suivante : on fixe r entre
1 et n, on recale les r − 1 premiers candidats puis on sélectionne le premier
candidat qui obtient une meilleure note que ses prédécesseurs. Avec une telle
xn
n
1
pn (xn) = −→ −x log(x).
n j − 1 n→∞
j= xn
Les files d’attente 1 font partie des modèles aléatoires les plus répandus et
les plus utiles. Le cas le plus simple à décrire est sans doute le suivant : des
clients font la queue devant un guichet appelé serveur. Les durées qui séparent
les arrivées des clients successifs sont modélisées par des v.a.r. i.i.d. de loi
exponentielle de paramètre λ, tandis que les durées de traitement des clients
successifs par le serveur sont modélisées par des v.a.r. i.i.d. de loi exponentielle
de paramètre μ. Le choix de la loi exponentielle est justifiable par sa propriété
d’absence de mémoire, ce qui correspond à beaucoup de situations concrètes.
On s’intéresse au nombre Xt de clients dans la file d’attente à l’instant t. Le
processus (Xt )t0 est une chaîne de Markov à temps continu d’espace d’états
N. Dans une nomenclature due à Kendall, on dit qu’il s’agit d’une file M/M/1
de taux λ et μ : le premier M indique l’absence de mémoire 2 des durées entre
les arrivées, le second M indique l’absence de mémoire des durées de service,
et le 1 final indique enfin qu’il n’y a qu’un seul serveur. Plus généralement, on
peut définir des files d’attentes M/M/s, où s est un entier quelconque. Plus
généralement encore la file M/M/s/K tient compte d’une taille maximale K
de file d’attente ce qui modélise une salle d’attente de capacité limité. La file
d’attente M/M/K/K modélise par exemple un parking avec K places. Il est
possible de tenir compte de phénomènes supplémentaires comme l’impatience,
Dans le cas général où X0 n’est pas forcément nul, on introduit une suite
(Sn )n0 de v.a.r. i.i.d. de loi exponentielle de paramètre μ, indépendante de
X0 , et on modélise les durées de service de ces clients initiaux par S0 , . . . , SX
0
.
On suppose que X0 , (Sn )n0 , (Sn )n0 , (En )n0 sont indépendantes. Pour tout
réel t 0, le nombre de clients dans la file au temps t vaut donc
X0 ∞
Xt := 1{Sn >t} + 1{Tn t<Tn +Sn } .
n=0 n=0
λ1
P(E2 > E1 ) =
λ1 + λ2
tandis que P(E2 > E1 + t, E2 > E1 ) = P(E2 > E1 + t) vaut
λ1
λ1 e−λ1 u λ2 e−λ2 v dudv = e−λ2 t .
v>u+t λ1 + λ2
u>0
C’est la formule pour P(I = i, M x), qui donne la loi du couple (I, M ).
142 11 File d’attente M/M/Infini
Comme E1 +· · ·+En ∼ Gamma(n, λ), cela nous dit qu’un mélange géomé-
trique de lois Gamma de même paramètre d’échelle est une loi exponentielle.
Démonstration. Pour tout t ∈ R et tout k 1, on a E(eitEk ) = λ/(λ − it), et
∞
E(eit(E1 +···+EG ) ) = E(eit(E1 +···+En ) )P(G = n)
n=1
∞
= E(eitE1 )n (1 − p)n−1 p
n=1
pE(eitE1 )
=
1 − E(eitE1 )(1 − p)
λp
= .
λp − it
∞ ∞
1
P E
n=1 n = ∞ =1 si et seulement si = ∞.
λ
n=1 n
∞
La série En diverge p.s. si et seulement si elle diverge en moyenne.
n=1
∞
Démonstration. La variable T∞ = n=1 En prend ses valeurs dans l’ensemble
∞
R+ ∪{∞}. Le théorème de convergencemonotone donne E(T∞ ) = n=1 1/λn
∞
dans R+ ∪ {∞}. Par conséquent, si n=1 1/λn < ∞ alors E(T∞ ) < ∞ et
donc P(T∞ = ∞) = 0. L’indépendance n’a pas été utilisée. Réciproquement,
le théorème de convergence monotone et l’indépendance donnent
∞ ∞ −1
# $ + # $ + 1
E e−T∞ = E e−En = 1+ .
n=1 n=1
λn
∞ 2∞
Or n=1 1/λn = ∞ si et seulement si + 1/λn )−1 = 0, car pour
n=1 (1 2
∞
toute suite (an )n1 de réels positifs, le produit n=1 (1 + an ) converge si
∞ ∞
et seulement si la série n=1 an converge. Ainsi, si n=1 1/λn = ∞, alors
E(exp(−T∞ )) = 0, et donc P(T∞ = ∞) = 1.
144 11 File d’attente M/M/Infini
((N − n + 1)μ)1nN .
(N )
On s’intéresse au temps de demi-vie T N/2 , c’est-à-dire au temps au bout
duquel la moitié des N clients initiaux a quitté la file.
Théorème 11.6 (Convergence du temps de demi-vie). On a
(N ) p.s. log(2)
T N/2 N−→
→∞ μ
.
1
N/2 N/2
1
E TN/2 = E(τn ) =
n=1
μ n=1 N − n + 1
1 log(2)
= (H(N ) − H(N/2)) = + o(1),
μ μ
où H(n) est la série harmonique. De plus,
M
TM − E(TM ) = (τn − E(τn )),
n=1
) *
E (TM − E(TM )) = O N −2 .
4
car 1{S1 >t} , . . . , 1{Sk >t} sont des variables aléatoires i.i.d. de loi de Bernoulli
Ber(e−μt ). Il ne reste plus qu’à établir que
∞
λ
Loi(Yt ) = Poi 1 − e−μt où Yt := 1{Tn t<Tn +Sn } .
μ n=0
Rappelons que Nt est le processus de Poisson qui compte les tops (Tn )n1 .
Pour t > 0, la variable aléatoire Nt suit la loi de Poisson de paramètre λt.
De plus, sachant que Nt = n, la loi des n instants de saut est celle d’un n-
échantillon réordonné de v.a.r. i.i.d. de loi uniforme sur [0, t]. D’autre part, un
client arrivé à un instant aléatoire de loi uniforme sur [0, t] est encore présent
dans la file à l’instant t avec probabilité
1 t 1
q(t) := (1 − Fμ (s)) ds = (1 − e−μt ),
t 0 μt
où Fμ est la fonction de répartition de la loi Exp(μ). On obtient donc, par
indépendance, pour tout k ∈ N,
∞
P(Yt = k) = P(Yt = k | Nt = n)P(Nt = n)
n=k
∞
n (λt)n
= q(t)k (1 − q(t))n−k e−λt
k n!
n=k
(λtq(t))k
= e−λtq(t) ,
k!
ce qui montre bien que Yt suit la loi de Poisson de paramètre λ(1−e−μt )/μ.
Remarque 11.9 (Loi de service quelconque et file d’attente M/G/∞). Si les
durées de service sont i.i.d. de loi de fonction de répartition F quelconque,
alors la preuve du théorème (11.8) permet d’établir que la loi de Xt sachant
X0 = 0 est la loi de Poisson de paramètre
t
λ (1 − F (s)) ds.
0
avec p−1 (t) := 0 pour tout t 0, la loi initiale (pn (0))n∈N étant donnée.
Démonstration. Pour calculer pn (t + h), on remarque que si Xt+h = n alors
l’une des conditions incompatibles suivantes est réalisée :
1. Xu = n pour tout u ∈ [t, t + h] ;
2. Xt = n − 1 et une seule transition a lieu (n − 1 → n) dans l’intervalle
de temps [t, t + h] ;
3. Xt = n + 1 et une seule transition a lieu (n + 1 → n) dans l’intervalle
de temps [t, t + h] ;
4. dans l’intervalle de temps [t, t + h], au moins deux transitions ont lieu.
D’après les lemmes 11.1 et 11.2, le processus reste dans l’état n un temps
aléatoire de loi exponentielle de paramètre λ + nμ puis saute de n à n − 1 ou
n+1 avec probabilités respectives nμ/(λ+nμ) et λ/(λ+nμ). En conditionnant
par l’évènement {Xt = n}, on en déduit l’égalité
Pt+s f = (Pt ◦ Ps )f ;
11.4 Comportement en temps long 149
∂t Pt f = LPt f = Pt Lf ;
Concluons à présent dans le cas général. Soit ν et ν̃ dans P1 (N). Soit (X0 , X̃0 )
un couplage de ν et ν̃. Comme ci-dessus, on construit (Xt ) et (X̃t ) tels que
On en déduit donc
Pt f (n + 1) = Ef (Z1 + · · · + Zn+1 + Y ),
80
60
40
20
0
0 10 20 30 40 50 60
N2
m(x + 1) − 2m(x) + m(x − 1) = − .
x(N − x)
On en déduit que
x −1
N −x
N
x
m(x) = N + .
y=1
N − y y=x+1 y
Ainsi, dans une population de taille N avec N grand, le temps moyen d’ab-
sorption partant de x = pN avec 0 < p < 1 est de l’ordre de
Ainsi, en plus d’être une chaîne de Markov, la suite (Xn )n0 est une mar-
tingale pour sa filtration naturelle (Fn )n0 . En particulier, on a bien sûr la
conservation E(X0 ) = E(Xn ) pour tout n 1. Le théorème d’arrêt indique
que (Xn∧T )n0 est aussi une martingale et donc
E(X0 ) = E(Xn∧T ),
qui converge vers E(XT ) par convergence dominée quand n → ∞ car T est
fini p.s. et X est uniformément bornée. Comme T est un temps de fixation,
on a en fait Xn = Xn∧T . Il est également possible d’appliquer le théorème de
convergence p.s. et dans Lp des martingales bornées dans Lp avec p > 1.
N
x
Xn+1 = 1{Un+1,k ψXn } où ψx :=
N
k=1
et où (Un,k )n1,1kN sont des variables aléatoires i.i.d. de loi uniforme sur
[0, 1], indépendantes de X0 . Pour tous x0 , . . . , xn , on a
Xn
Loi(Xn+1 | X0 , . . . , Xn ) = Loi(Xn+1 | Xn ) = Mul(N, ).
N
La suite (Xn )n0 est une chaîne de Markov d’espace d’états {0, 1, . . . , N }
et de matrice de transition P donnée pour tous x, y ∈ {0, 1, . . . , N } par
N
P(x, y) := P(Xn+1 = y | Xn = x) = ψxy (1 − ψx )N −y .
y
De plus (Xn )n0 converge p.s. vers la variable aléatoire XT qui suit une loi de
Bernoulli portée par 0 et N . On a P(XT = 0) +P(XT = N ) = 1. L’événement
{XT = N } signifie que l’allèle A est fixé tandis que l’événement {XT = 0}
signifie que l’allèle B est fixé.
On adopte les notations Px = P( · | X0 = x) et Ex = E( · | X0 = x).
Théorème 12.5 (Probabilité de fixation). Pour tout x ∈ {0, 1, . . . , N },
x
Px (XT = N ) = 1 − Px (XT = 0) = .
N
Démonstration. La preuve est identique à celle faite pour le modèle de Moran
(théorème 12.2) car Loi(Xn | Xn−1 ) = Bin(N, Xn−1
N ) d’où
Xn−1
E(Xn ) = E(E(Xn | Xn−1 )) = E(N ) = E(Xn−1 ) = · · · = E(X0 ) = x,
N
Xn−1
E(Xn | Fn−1 ) = E(Xn | Xn−1 ) = N = Xn−1 ,
N
où Fn := σ(X0 , . . . , Xn ) pour tout n 0.
12.3 Modèle de Wright-Fisher et fixation 161
80
60
Taille population
40
20
0
0 50 100 150 200
Temps
Remarque 12.7 (Couplage avec un jeu de pile ou face). Il est possible d’obte-
nir une minoration de T par une variable aléatoire géométrique par couplage.
On commence par observer que pour tout x et tout n on a
où
p∗ = min P(x, {0, N }) = min (1 − ψx )N + ψxN 2−N +1
0xN 0xN
et soit (Un )n1 une suite de variables aléatoires i.i.d. de loi uniforme sur [0, 1],
indépendante de X0 . On réalise (Xn )n0 en utilisant la récurrence
2Xn (N − Xn ) 2
Hn = = Var(Xn+1 | Xn ).
N (N − 1) N −1
p.s.
On a Hn = 0 si n T et donc Hn −→ 0. Le théorème suivant montre que
n→∞
l’hétérozygotie moyenne E(Hn ) décroît exponentiellement au cours du temps.
Théorème 12.8 (Hétérozygotie moyenne). Pour tout n 1,
1
E(Hn ) = h0 λn où h0 := E(H0 ), λ := 1 − ∈ ]0, 1[,
N
et
Var(Xn ) = E(X0 )(N − E(X0 ))(1 − λn ) + λn Var(X0 ).
Démonstration. Il suffit d’établir que pour tout n 1,
n
1
E(Xn (N − Xn )) = 1 − E(X0 (N − X0 )).
N
On a
E(Xn (N − Xn )) = N E(Xn ) − E(Xn2 ) = N E(Xn−1 ) − E E(Xn2 | Xn−1 ) .
On écrit alors
2
E(Xn2 | Xn−1 ) = Var(Xn | Xn−1 ) + (E(Xn | Xn−1 ))
Xn−1
= Xn−1 1 − 2
+ Xn−1 .
N
N
N
N
m(x) = Ex (T 1{X1 =y} ) = (1 + Ey (T ))P(x, y) = 1 + m(y)P(x, y),
y=0 y=0 y=0
dont m est l’unique solution positive minimale. Bien qu’on puisse calculer m
numériquement, il n’existe pas d’expression simple et explicite de m comme
pour le temps de sortie d’un intervalle pour la marche aléatoire simple (théo-
rème 2.2) ou pour le modèle de Moran (théorème 12.2). Il est toutefois possible
de trouver l’équivalent de m lorsque la taille de la population N tend vers l’in-
fini : pour tout 0 < p < 1,
où à présent
x(1 − u) + (N − x)v
ψx = .
N
Le processus X est une chaîne de Markov d’espace d’états {0, 1, . . . , N }.
— si u = v = 0, alors on retrouve le modèle sans mutation étudié pré-
cédemment. Dans ce cas, les états 0 et N sont absorbants tandis que
{1, . . . , N − 1} est une classe transitoire, l’ensemble des lois invariantes
est {(1 − p)δ0 + pδN : p ∈ [0, 1]}, et partant de x, la chaîne converge en
loi vers (1 − px )δ0 + px δN où px = x/N ;
— si u = 0 et 0 < v 1 alors l’état N est absorbant tandis que l’ensemble
d’états {0, . . . , N − 1} est une classe transitoire, et la chaîne converge
en loi vers l’unique loi invariante δN ;
— si 0 < u 1 et v = 0 alors l’état 0 est absorbant tandis que l’ensemble
d’états {1, . . . , N } est une classe transitoire, et la chaîne converge en
loi vers l’unique loi invariante δ0 ;
— si u = v = 1, alors {0, N } est une classe de récurrence de période 2
tandis que l’ensemble d’états {1, . . . , N − 1} est une classe transitoire.
La chaîne est presque sûrement absorbée par la classe {0, N } et oscille
ensuite périodiquement entre les états 0 et N ;
— si 0 < u 1 et 0 < v < 1 ou si 0 < u < 1 et 0 < v 1 alors la chaîne
est irréductible. Comme l’espace d’états est fini, elle est récurrente
positive et possède une unique loi invariante μ, et cette loi charge tous
les états. La loi des grands nombres pour les chaînes de Markov indique
que quelle que soit la loi initiale, p.s. pour tout x ∈ {0, 1, . . . , N }, on a
card{0 k n : Xk = x}
lim = μ(x).
n→∞ n+1
Comme de plus la matrice de transition possède un coefficient diagonal
non nul, la chaîne est apériodique, et converge donc en loi vers μ, quelle
que soit la loi initiale, c’est-à-dire que pour tout x ∈ {0, 1, . . . , N },
N
N
N
N
N
m= yμ(y) = y μ(x)P(x, y) = μ(x) yP(x, y).
x=0 y=0 x=0 x=0 y=0
−x)
Or comme P(x, ·) = Bin(N, (1−u)x+v(N
N ), on a
N
yP(x, y) = (1 − u)x + v(N − x).
y=0
N
m= ((1 − u)x + v(N − x))μ(x) = (1 − u)m + v(N − m),
x=0
d’où enfin
Nv
m= .
u+v
Pour la variance σ 2 de μ, un calcul permet d’établir que
N 2 uv
σ2 = + oN →∞ (N ).
(u + v)2 (2N (u + v) + 1)
dont la loi invariante est une loi Beta(2β, 2α), dont la moyenne et la
variance sont données par
β αβ
et .
α+β (α + β)2 (2(α + β) + 1)
166 12 Modèle de Wright-Fisher
Fig. 12.2. Loi invariante et histogramme d’un échantillon de taille 10000 de X100
avec X0 = 50, pour une population de taille N = 100, avec taux de mutation
u = v = 0.05.
π(x) := Px (XT = N )
12.6 Modèle de Cannings 167
N
N
(PV )i,j = Pi,k Vk,j = Pi,k k j = E(X1j | X0 = i).
k=0 k=0
Loi(X1 | X0 = i) = Loi(y1 + · · · + yi ),
j−1
E(X1j | X0 = i) = E((y1 + . . . + yi )j ) = i[j] E(y1 y2 · · · yj ) + bi,k ik ,
k=0
où
i[j] := i(i − 1)(i − 2) · · · (i − j + 1).
Pour le voir, on peut procéder par récurrence sur j en observant que la loi
Loi(y1 , . . . , yi | yk ) est échangeable. Il existe donc une matrice triangulaire su-
périeure T ∈ MN +1,N +1 (R) telle que T0,0 = 1, Tj,j = E(y1 · · · yj ) pour tout
j ∈ {1, . . . , N }, et pour tous i, j ∈ {0, 1, . . . , N },
j
E(X1j | X0 = i) = Tk,j ik = (V T )i,j .
k=0
On a donc
PV = V T,
et comme V est inversible, les matrices P et T ont même spectre.
σ2
λ2 = E(y1 y2 ) = Cov(y1 , y2 ) + E(y1 )2 = 1 − .
N −1
170 12 Modèle de Wright-Fisher
N
νin = 1{an+1 =i} .
j
j=1
t = 0
t = 1
t = 2
t = 3
t = 4
t = 5
t = 6
Fig. 13.1. Dans le modèle de Wright-Fisher, tout se passe comme si pour chaque
génération, chaque individu, indépendemment de tous les autres, choisissait unifor-
mément un père dans la génération précédente et en héritait. Le graphique ci-dessus
illustre l’évolution de ces relations de filiation sur quelques générations pour une po-
pulation de taille N = 5. Ce point de vue généalogique est au cœur de ce chapitre.
(ici T2 := T3 − T3 ). Remarquons que si l’ACPR de deux individus est l’ACPR
des trois individus alors T2 = 0. Déterminons la loi de T2 . La probabilité que
trois individus distincts aient le même père est 1/N 2 . La probabilité que T2
soit nul sachant que T3 = k est donc égale à
Comme les choix des parents sont indépendants d’une génération à l’autre,
on déduit de la première partie que la loi de T2 sachant que T3 = k et T2 > 0
est la loi géométrique de paramètre p2 . Cela implique que sachant T3 = k,
la variable T2 est égale en loi à U V où U et V sont indépendantes de lois
respectives Ber(1 − 1/(3N − 2)) et GeoN∗ (p2 ).
Plus généralement, le nombre de parents distincts d’un groupe de k indi-
vidus peut être vu comme le nombre d’urnes occupées après que l’on a lancé
k balles, indépendamment et à chaque fois uniformément, dans N urnes. Pour
tout j ∈ {1, . . . , k}, la probabilité pour que ce nombre soit j est
(N ) N (N − 1) · · · (N − j + 1)Sk,j
gk,j = P(k individus ont j parents distincts) = ,
Nk
174 13 Généalogies et coalescence
Pour cette chaîne, l’état 1 est absorbant tandis que les états 2, . . . , n sont
transitoires puisqu’ils mènent tous à 1. Il est difficile d’étudier les propriétés
fines de cette chaîne, comme par exemple des propriétés sur le temps d’atteinte
de l’état 1. Nous allons donc remplacer ce modèle à temps discret par un
modèle plus simple à temps continu.
L(j, k) = − 2j si j 2 et k = j,
⎪
⎩
0 sinon.
C’est un processus de mort pur sur N∗ (sauts de n à n − 1 seulement) pour
lequel 1 est absorbant.
Le temps de séjour en n suit la loi exponentielle de
paramètre n2 . Ceci s’interprète de la manière suivante : chaque couple d’in-
dividus se cherche un père indépendamment des autres couples et y arrive
au bout d’un temps exponentiel de paramètre
n 1. Pour n individus, on a n2
couples distincts. Or le minimum de 2 variables aléatoires
indépendantes de
même loi exponentielle Exp(1) suit la loi Exp( n2 ) (voir aussi lemme 11.2).
On note (An (t))t0 le processus issu de n, qui est à valeurs dans {1, . . . , n}.
Montrons à présent que le processus à temps discret renormalisé converge
vers le processus à temps continu. On s’intéresse au cas limite où N est grand
et où l’unité de temps se compte en N générations. La date d’apparition de
l’ACPR de deux individus donnés est donc T2 /N où T2 suit la loi géométrique
sur N∗ de paramètre p2 = 1/N .
Lemme 13.2 (Loi exponentielle comme limite de lois géométriques renormali-
sées). Si (Vn )n1 est une suite de variables aléatoires de loi géométrique de pa-
ramètres respectifs (μn )n1 telle que limn→∞ nμn = μ > 0 alors (n−1 Vn )n1
converge en loi vers la loi exponentielle de paramètre μ.
1. Nombre de façons de découper un ensemble à k éléments en j ensembles non
vides. Apparaît aussi dans le chapitre 1 pour étudier le collectionneur de coupons !
13.1 Modèle généalogique à temps continu 175
μn eit/n nμn μ
ϕVn /n (t) = = −→ = ϕV (t),
1 − (1 − μn )eit/n nμn − n(1 − eit/n ) n→∞ μ − it
et le lemme 13.2 permet de conclure que (AN 3 (N t))t0 converge en loi vers
le processus (A3 (t))t0 quand N tend vers l’infini. En d’autres termes, lorsque
N tend vers l’infini et que le temps est mesuré en unités de N générations, le
mécanisme d’apparition de l’ACPR d’un groupe composé de trois individus
distincts pour le processus limite est le suivant :
— après un temps exponentiel T3 ∼ Exp(3), un ancêtre commun à 2
individus apparaît,
— l’ancêtre commun apparaît alors après un temps T2 ∼ Exp(1),
— les variables aléatoires T2 et T3 sont indépendantes.
En particulier, à la limite, la probabilité que le premier ancêtre commun soit
commun aux trois individus est nulle. On généralise le résultat comme suit.
Théorème 13.3 (Du discret au continu). Pour tout n 2, la convergence
de processus suivante a lieu, au sens des lois marginales,
loi
n (N t))t0 −→ (An (t))t0 .
(AN
N →∞
176 13 Généalogies et coalescence
N (N − 1) · · · (N − j + 1)
= O(N −2 ).
(N )
gk,j = Sk,j
Nk
Enfin, on a
−k k 1
+ O(N −2 ).
(N )
gk,k =N N (N − 1) · · · (N − k + 1) = 1 −
2 N
Wn = Tn + · · · + T2 ,
où les (Tk )2kn sont les temps de séjours dans les états 2, . . . , n. En parti-
culier, on a donc
n n
1 1 1 1
E(Wn ) = 2 =2 − =2 1− →2
k(k − 1) k−1 k n
k=2 k=2
n
1 1 2
=4 + −
k2 (k − 1)2 k(k − 1)
k=2
1
n−1
4 1
=8 + − 4 − 8 1 − .
k2 n2 n
k=1
2
On a Var(Wn ) 4π3 − 12 " 1.16 (notons que Var(T2 ) = 1). Il est possible
d’obtenir une expression explicite de la densité de Wn en remarquant que
P(Wn t) = P(An (t) = 1) et en calculant la matrice de transition du
processus ancestral (assez peu passionnant).
On appelle arbre généalogique d’un groupe de n individus l’ensemble de
tous leurs ancêtres toutes générations comprises, eux compris, jusqu’au pre-
mier ancêtre commun à tous les individus. On note Ln , et l’on appelle lon-
gueur de l’arbre généalogique la variable aléatoire égale à la somme des temps
de vie de tous les individus de l’arbre. La longueur de l’arbre Ln s’exprime en
fonction des temps d’apparition des ancêtres communs :
Ln = 2T2 + · · · + nTn .
En particulier, comme T2 , . . . , Tn sont indépendantes avec Tk ∼ Exp( k2 ),
2π 2
E(Ln ) ∼ 2 log(n) et Var(Ln ) ∼ .
n→∞ n→∞ 3
Théorème 13.4 (Longueur de l’arbre ancestral). La v.a. Ln suit la loi du
maximum de n − 1 v.a.r. i.i.d. de loi exponentielle de paramètre 1/2. De plus,
Ln p.s. Ln loi
−→ 2 et − log(n) −→ Gumbel
log(n) n→∞ 2 n→∞
−t
où la loi de Gumbel a pour fonction de répartition t ∈ R → e−e .
Démonstration. La variable aléatoire Ln est la somme des variables aléatoires
indépendantes 2T2 , . . . , nTn qui suivent les lois Exp(1/2), . . . , Exp((n − 1)/2).
Le premier résultat découle alors de la propriété suivante : si E1 , . . . , En sont
des variables aléatoires indépendantes de lois Exp(λ), Exp(2λ), . . . , Exp(nλ)
alors leur somme Sn := E1 +· · ·+En à la même loi que Mn := max(F1 , . . . , Fn )
où F1 , . . . , Fn sont des v.a. i.i.d. de loi Exp(λ). La densité de Mn est
1 1
n n
Ln
= Xk + E(kTk )
log(n) log(n) log(n)
k=2 k=2
1
n
2 1 p.s.
n−1
= Xk + −→ 2.
log(n) log(n) k n→∞
k=2 k=1
13.3 Mutations
De même, la probabilité pour que ce phénomène soit une mutation est donc
n−1 θ
1− = .
n−1+θ n−1+θ
180 13 Généalogies et coalescence
nθ/2 θ
= .
nθ/2 + n(n − 1)/2 θ+n−1
Q(α, β) = 1 si α ∼ β,
⎪
⎩
0 sinon,
Δ = Cninc ∼ Cn−1
inc
∼ · · · ∼ C1inc = Θ,
Plus précisément, on a
(n − j)!j!(j − 1)!
P(Cjinc = α) = λ1 ! · · · λj !.
n!(n − 1)!
l −1
j−1 λ
(n − j)!(j − 1)!(j − 2)!
= λ1 ! · · · λj−1 ! 1
n!(n − 1)! m=1
l=1
(n − j + 1)!(j − 1)!(j − 2)!
= λ1 ! · · · λj−1 !
n!(n − 1)!
j−1 λl −1
car l=1 m=1 1 = λ1 + · · · + λj−1 − j + 1 = n − j + 1..
⎧
⎪ 1
⎪
⎪ si σ s’obtient en insérant n + 1
⎪
⎪ θ + n
⎪
⎪
⎪
⎪ dans l’un des cycles de σ ;
⎪
⎪
⎪
⎨
θ
P(σn+1 = σ | σn = σ) = si σ s’obtient en ajoutant
⎪
⎪ θ + n
⎪
⎪
⎪
⎪ le cycle (n + 1) à σ ;
⎪
⎪
⎪
⎪
⎪
⎪
⎩
0 sinon ;
1 6
2 4
5
3
123456
σ6 = (1, 6, 3)(2, 4)(5) = et π6 = {{1, 6, 3}, {2, 4}, {5}}
641253
Fig. 14.1. Configuration avec n = 6 clients sur 3 tables dans le restaurant chinois.
π1 = {{1}}
π2 = {{1}, {2}}
π3 = {{1, 3}, {2}} ,
π4 = {{1, 3}, {2}, {4}}
.. ..
. .
θ|σ|
P(σn = σ) = .
θ(θ + 1) · · · (θ + n − 1)
188 14 Restaurants chinois
θ|π| +
P(πn = π) = (|b| − 1)!.
θ(θ + 1) · · · (θ + n − 1)
b∈π
Théorème 14.7 (Loi d’Ewens sur les blocs). Pour tout n ∈ N∗ et tout
(a1 , . . . , an ) ∈ N vérifiant a1 + 2a2 + · · · + nan = n, on a
+n aj
n! 1 θ
P(An,1 = a1 , . . . , An,n = an ) = .
θ(θ + 1) · · · (θ + n − 1) j=1 aj ! j
θa1 +···+an +n
P(An,1 = a1 , . . . , An,n = an ) = ((j − 1)!)aj |Πn (a)|
θ(θ + 1) · · · (θ + n − 1) j=1
n!
2n aj
,
j=1 (j!) aj !
d’où la formule.
n−1
θ
E(|πn |) = = θ log(n) + On→∞ (1) ∼ θ log(n),
θ+k n→∞
k=0
et
n−1
θk
Var(|πn |) = = θ log(n) + On→∞ (1) ∼ θ log(n).
(θ + k)2 n→∞
k=1
190 14 Restaurants chinois
Fig. 14.2. Histogramme d’un échantillon de taille 5000 de la loi d’Ewens de taille
n = 1000 et de paramètre θ = 1.
où (εn )n1 sont des variables aléatoires i.i.d. de loi uniforme sur [0, 1], et où
fn (π, ε) est l’élément de Πn+1 obtenu à partir de π ∈ Πn soit en ajoutant n+1
au bloc bk de π si ε ∈ [(|b1 | + · · · + |bk−1 |)/(θ + n), (|b1 | + · · · + |bk |)/(θ + n)]
avec 1 k |π|, où b1 , . . . , b|π| sont les blocs de π, soit en ajoutant le bloc
{n + 1} à la partition π si ε ∈ [n/(θ + n), (θ + n)/(θ + n)]. On rappelle que
n = |b1 | + · · · + |b|π| |. On a alors |πn | = ξ1 + · · · + ξn pour tout k 1, où
Démonstration. Soient (ξn )n1 comme dans la preuve du théorème 14.9. Alors
1
n
|πn | loi
= ξk .
log(n) n2 log(n)
k=1 n2
1 1 1
n n n
ξk = (ξk − E(ξk )) + E(ξk ).
log(n) log(n) log(n)
k=1 k=2 k=1
alors (Sn )n2 est une martingale bornée dans L2 car (théorème 14.9)
n ∞
Var(ξk ) θ
E(Sn2 ) = < ∞.
(log(k))2 (θ + k − 1)(log(k))2
k=2 k=2
converge ssi β > 1. Étant bornée dans L2 , la martingale (Sn )n2 converge p.s.
(et dans L2 ) vers une variable aléatoire dans L2 (donc finie p.s.). Le lemme
de Kronecker 2 assure alors la convergence p.s. vers 0 quand n → ∞ de
1 1
n n
log(k)Yk = (ξk − E(ξk )).
log(n) log(n)
k=2 k=2
qui vaut
⎧ θ
⎪
⎪ si an+1 = an + 1 (s’attabler seul à une table vide) ;
⎪
⎪ θ+n
⎪
⎪
⎪
⎪
⎪
⎪
⎪
⎪ an
⎪
⎨θ + n si an+1 = an − 1 (rejoindre la table d’un solitaire) ;
⎪
⎪
⎪
⎪ n − an
⎪
⎪ si an+1 = an (rejoindre une table comptant 2 clients ou +) ;
⎪
⎪ θ+n
⎪
⎪
⎪
⎪
⎪
⎩
0 sinon.
a(θ + n − 1) + θ
E(An+1,1 | An,1 = a) = .
θ+n
Cela donne (n + θ)mn+1 = (θ + n − 1)mn + θ où mn := E(An,1 ). La formule
annoncée pour mn s’en déduit. Pour la variance, les calculs sont semblables
mais plus lourds, et utilisent la formule
+
n−1
k
P(An,n = 1) = .
θ+k
k=1
et
lim Fn = { 1{ξn =1} = ∞} ⊂ {T < ∞}.
n1
car pour choisir une partition de {1, . . . , n} ayant k blocs il faut et il suffit soit
de choisir une partition de {1, . . . , n − 1} ayant k − 1 blocs et de la compléter
avec le bloc singleton {n}, soit d’ajouter l’élément n à l’un des k blocs d’une
partition de {1, . . . , n − 1} ayant k blocs. Si X est une variable aléatoire de
loi de Poisson de paramètre λ alors
n
n k
E(X ) =
n
λ en particulier E(X n ) = Bn si λ = 1.
k
k=1
apparaît comme un taux de mutation des allèles, comme expliqué dans le cha-
pitre 13. Une synthèse sur le sujet se trouve dans son livre [Ewe04], ainsi que
dans ceux de John Kingman [Kin80] et de Rick Durrett [Dur08], ou encore
dans le cours de Sylvie Méléard [Mé13]. De nombreux aspects statistiques sont
abordés dans le cours de Simon Tavaré [Tav04]. Le travail d’Ewens a engendré
un nombre considérable de travaux en biologie quantitative et en probabilités.
La loi d’Ewens apparaît dans une large gamme de structures aléatoires dis-
crètes dites logarithmiques, allant de la combinatoire à la théorie des nombres.
On pourra consulter à ce sujet le livre de Richard Arratia, Andrew Barbour,
et Simon Tavaré [ABT03]. Il semble que le processus des restaurants chinois
doive son nom à Jim Pitman. Il apparaît sous ce nom dans un cours de David
Aldous [Ald85]. Fred Hoppe a montré dans [Hop84] qu’on peut le relier à un
modèle d’urne de type Pólya. On peut aussi le relier aux processus de Diri-
chlet et aux partitions aléatoires de [0, 1] (voir ci-dessous). De nos jours, le
processus des restaurants chinois et la loi d’Ewens font partie du folklore d’une
théorie plus générale de la (fragmentation et de la) coalescence. On pourra à
ce sujet consulter les livres de Kingman [Kin93], de Jean Bertoin [Ber06], de
Pitman [Pit06], ainsi que de Nathanaël Berestycki [Ber09].
Voici deux autres représentations remarquables de la loi d’Ewens :
1. Si Z1 , . . . , Zn sont des variables aléatoires indépendantes de lois de
Poisson de moyennes θ/1, . . . , θ/n alors
où (Wr )r1 sont des variables aléatoires i.i.d. de loi Beta(1, θ) de den-
sité w → θ(1 − w)θ−1 1[0,1] (w). Conditionnellement à (Pr )r1 , soient
X1 , . . . , Xn des variables aléatoires i.i.d. sur N∗ de loi (Pr )r1 . La suite
X1 , . . . , Xn fait apparaître au plus n entiers différents. Il se trouve que
leurs effectifs suit la loi Ewens(n, θ) !
Signalons enfin qu’il est possible d’établir que pour tous 0 k n,
3 4
n θk
P(|πn | = k) =
k θ(θ + 1) · · · (θ + n − 1)
et d’obtenir une formule du même genre pour la loi du couple (An , |πn |), voir
l’article de Ewens et Tavaré dans [JKB97].
(c + k − 1)! Γ (c + k)
c(k) = c(c + 1) · · · (c + k − 1) = = .
(c − 1)! Γ (c)
a(k) b(n−k)
P(1{X1 =α} = x1 , . . . , 1{Xn =α} = xn ) = .
(a + b)(n)
On dit que Yn suit la loi Beta-binomiale, qui est un mélange de lois binomiales
de taille n dont le paramètre p suit la loi Beta de paramètre (a, b). On a
Mn = (a + Yn )/(a + b + n) avec Y0 = 0. Lorsque a = b = 1, la formule
pour la loi de Yn indique que Yn est uniforme sur {0, 1, . . . , n}, et donc Mn
est uniforme sur {1/(n + 2), . . . , (n + 1)/(n + 2)}, ce qui entraîne que M∞
est uniforme sur [0, 1]. Dans le cas général, on peut établir, en utilisant la
correspondance Beta-binomiale (chapitre 1), que pour tout t ∈ [0, 1],
0.8
0.6
Mn
0.4
0.2
0.0
0 50 100
n
t
1
= ··· = ua−1 (1 − u)b−1 du.
Beta(a, b) 0
a(r,k) b(r,k)
P(Yn = k) = où c(r,k) := c(c + r) · · · (c + (k − 1)r).
(a + b)(r,k)
On obtient dans ce cas que M∞ suit la loi Beta de paramètre (a/r, b/r).
Il est possible de considérer un nombre arbitraire de couleurs, ce qui fournit
un modèle incluant le modèle d’échantillonnage de la loi hypergéométrique
multitypes. De nombreux modèles de renforcement peuvent être obtenus comme
une version généralisée de l’urne de Pólya.
15.2 Graphe de Barabási-Albert 203
dn,k
pn,k = ,
dn,1 + · · · + dn,n
11
3
10 14
1
5
2 12
19
18 15 4 13
20
17 7
16
ce qui donne
b b b
mn+1 (1) = c + 1 − c+ 1− 1− mn−1 (1)
n n n−1
n +
n n
+
b b
=c 1− + m1 (1) 1− .
j k
k=1 j=k+1 =0 k=1
Or
+ b k b
n n
b
1− ≈ exp − ≈ exp − b(log(n) − log(k)) = ,
j j n
j=k+1 k=k+1
d’où n
−b nb+1 cn
mn (1) ≈ cn sb ds = cn−b = ,
0 b+1 b+1
de sorte que
mn (1) c 2
lim = = .
n
n→∞ b+1 3
Plus généralement, pour tout d > 1, on a
b(d)
mn+1 (d) = cn (d) + 1 − mn (d)
n
où
d − 1 mn (d − 1)
b(d) = d/2 et cn (d) = ,
2 n
et on montre par récurrence sur d que c(d) = limn→∞ cn (d) existe et
mn (d) c(d)
−→ .
n n→∞ b(d) + 1
Ensuite, en posant
mn (d)
(d) := lim
n n→∞
San/n
0.5
0.0
0 100 200 300
n
par une variable aléatoire Xn à valeur dans {α, β} le chemin emprunté lors
du n-ième passage. On code par des v.a. An et Bn l’attractivité des chemins
α et β au moment du (n + 1)e passage : pour les humains, il peut s’agir par
exemple de la raréfaction de l’herbe, tandis que pour les fourmis, il peut s’agir
de la quantité de phéromone. On se donne (A0 , B0 ), ainsi qu’une fonction
r : ]0, ∞[→ ]0, ∞[ appelée fonction de renforcement telle que r(x) x pour
tout x > 0, et on modélise (Xn )n1 par
(α, r(An ), Bn ) si Un+1 An
An +Bn ;
(Xn+1 , An+1 , Bn+1 ) = An
(β, An , r(Bn )) si Un+1 > An +Bn ,
n n |Yn − Zn |
Yn ∼ , Zn ∼ , lim sup = 1.
2 2 2n log(log(n))
Yn Zn
→U et → 1 − U.
n n
— Renforcement géométrique. Si r(x) = ρx pour tout x > 0 où ρ > 1
est une constante alors presque sûrement la suite aléatoire (Xn )n0 est
constante à partir d’un certain rang sur n, et sa valeur limite suit la
loi de Bernoulli symétrique sur {α, β}.
En l’absence de renforcement ou dans le cas du renforcement linéaire, la
fréquence d’emprunt de chacun des deux chemins converge au fil du temps
vers 1/2 dans le premier cas et vers un nombre aléatoire uniforme sur [0, 1]
dans le second. Intuitivement, un renforcement sur-linéaire pourrait forcer la
fréquence d’emprunt des chemins à converger vers les valeurs extrêmes 0 ou
1. Cela est confirmé pour le renforcement géométrique, pour lequel au bout
d’un certain temps, l’un des deux chemins est emprunté systématiquement.
Le modèle du renforcement linéaire coïncide avec l’urne de Pólya étudiée
précédemment. Le modèle du renforcement géométrique est particulièrement
attrayant, car il fait apparaître un chemin privilégié, choisi aléatoirement au
fil du renforcement. Il s’agit en quelque sorte d’une urne de Pólya généralisée
non-linéaire, plus précisément sur-linéaire. Le théorème 15.9 de Rubin ci-après
fournit un critère sur le renforcement pour que ce phénomène apparaisse.
— Absence de renforcement. Dans ce cas (An )n0 et (Bn )n0 sont des
suites constantes et égales à 1. On retrouve les tirages avec remise, le
processus de Bernoulli (jeu de pile ou face). La suite (Yn )n0 est un
processus de Bernoulli sur N issu de 0 dont les incréments sont de loi
de Bernoulli sur {0, 1} de paramètre A0 /(A0 + B0 ) = 1/2. D’après
la loi forte des grands nombres, presque sûrement, Yn /n → 1/2 et
Zn /n = 1 − Yn /n → 1/2 quand n → ∞. La suite (Yn − Zn )n0 est une
marche aléatoire sur Z issue de 0 dont les incréments sont de loi de
Rademacher sur {−1, 1} de paramètre 1/2. C’est une chaîne de Markov
irréductible récurrente : presque sûrement chaque état est visité une
infinité de fois, et en particulier l’état 0, d’où lim |Yn − Zn | = 0 p.s. Le
résultat sur lim provient de la loi du logarithme itéré de Strassen ;
— Renforcement linéaire. Dans ce cas An = 1 + Yn et Bn = 1 + Zn pour
tout n ∈ N. On retrouve l’urne de Pólya et le résultat attendu découle
alors directement du cas uniforme dans le théorème 15.2. Effectuons
malgré tout le raisonnement allégé avec les notations actuelles. La re-
lation Yn + Zn = n réduit le problème à l’étude de Yn . Soit (Fn )n0 la
filtration définie par Fn = σ(U1 , . . . , Un ). On a
1 + Yn 1 + Yn
= 1 + Yn + = (2 + (n + 1)) ,
n+2 2+n
et donc ((1 + Yn )/(n + 2))n0 est une martingale pour (Fn )n0 . À va-
leurs dans [0, 1], elle est uniformément bornée et converge donc presque
sûrement (et en moyenne) vers une variable aléatoire U à valeurs dans
[0, 1]. On montre enfin par récurrence sur n que (1 + Yn )/(n + 2) suit
la loi uniforme sur {1/(n + 2), . . . , (n + 1)/(n + 2)} ;
— Renforcement géométrique. Dans ce cas An = ρYn et Bn = ρZn pour
tout n ∈ N. La variable aléatoire Δn := Yn − Zn vérifie Δ0 = 0 et
ρ|Δn |
P(|Δn+1 | = |Δn | + 1 | Fn ) = 1{Δn =0} + 1{Δn =0}
1 + ρ|Δn |
1
P(|Δn+1 | = |Δn | − 1 | Fn ) = 1{Δn =0} .
1 + ρ|Δn |
Si f : N → R vérifie f (1) f (0) et pour tout n 1,
alors
210 15 Renforcement
telles que Sα (0) > 0 et Sβ (0) > 0. On construit une suite récurrente aléatoire
(Xn )n1 à valeurs dans {α, β} comme suit : pour tout n ∈ N, condition-
n
nellement à X1 , . . . , Xn , en notant Yn = k=1 1{Xk =α} le nombre de α et
Zn = n − Yn le nombre de β,
(α, Yn + 1, Zn ) si Un+1 Sα (YSnα)+S
(Yn )
β (Zn )
,
(Xn+1 , Yn+1 , Zn+1 ) = Sα (Yn )
(β, Yn , Zn + 1) si Un+1 > Sα (Yn )+Sβ (Zn ) ,
où (Un )n1 est une suite de variables aléatoires i.i.d. de loi uniforme sur [0, 1].
La suite (Xn )n1 ainsi construite code les tirages successifs d’une urne de
Pólya généralisée. Le modèle du théorème 15.8 dans le cas où (A0 , B0 ) est dé-
terministe s’obtient avec (Sα (0), Sβ (0)) = (A0 , B0 ), et Sα (n) = Sβ (n) = r(n)
pour tout n > 0. Si r est linéaire alors on retrouve l’absence de renforce-
ment (tirages avec remise). Si r est affine alors on retrouve le renforcement
linéaire (urne de Pólya standard). Enfin, si r est une fonction puissance, alors
on retrouve le renforcement géométrique.
Pour étudier le cas général, on introduit la probabilité pα (respectivement
pβ ) que la suite (Xn )n1 ne comporte qu’un nombre fini de β (respectivement
de α) c’est-à-dire que des α (respectivement que des β) à partir d’un certain
rang sur n. Ces probabilités sont données par les formules suivantes :
On a pα +pβ 1. Les nombres suivants dans [0, ∞] vont jouer un rôle crucial :
∞
∞
1 1
ϕα = et ϕβ = .
S
n=0 α
(n) S
n=0 β
(n)
Soit ξ0 < ξ1 < · · · les éléments de G rangés par ordre croissant. On considère
à présent la suite aléatoire (Xn )n1 à valeurs dans {α, β} définie par Xn = α
si ξn−1 ∈ A et Xn = β si ξn−1 ∈ B. Les suites (Xn )n1 et (Xn )n1 ont
même loi, et cela découle des propriétés des lois exponentielles dont l’absence
de mémoire. Examinons l’égalité en loi de X1 et X1 . Si U et V sont deux
variables aléatoires indépendantes de lois exponentielles de moyennes 1/u et
1/v alors P(U < V ) = u/(u + v) et P(V < U ) = v/(u + v), ce qui fait que
Sα (0)
P(X1 = α) = P(ξ0 ∈ A) = P(E0α E0β ) = = P(X1 = α).
Sα (0) + Sβ (0)
La même idée fournit (avec du labeur !) l’égalité en loi de (Xn )n1 et (Xn )n1 .
À présent une loi∞ du zéro-un pour les lois exponentielles (théorème 11.5)
affirme que p := P( n=0 Enα < ∞) ∈ {0, 1}, avec p = 1 ssi ϕα < ∞. La même
propriété a lieu pour la suite (Enβ )n0 avec ϕβ . Par ailleurs, on a les formules
∞ ∞ ∞ ∞
pβ = P( n=0 Enα < n=0 Enβ ) et pα = P( n=0 Enβ < n=0 Enα ).
Les urnes de Pólya sont étudiées notamment dans le livre de Hosam Mah-
moud [Mah09], dans celui de Norman Johnson et Samuel Kotz [JK77], et
dans les articles de survol de Samuel Kotz et Narayanaswamy Balakrishnan
[KB97] et de Robin Pemantle [Pem07]. Les urnes de Pólya portent le nom du
mathématicien hongrois George Pólya. L’école hongroise de mathématiques a
beaucoup développé les mathématiques discrètes aléatoires, avec notamment
les célèbres travaux de Paul Erdős et Alfréd Rényi des années 1950 sur les
graphes aléatoires. Le modèle de graphe aléatoire à attachement préférentiel
a été introduit par les physiciens hongrois Albert-László Barabási et Réka
Albert [AB99, AB02]. Voici leur heuristique pour le comportement en d−3 :
si les degrés et le temps étaient continus, on aurait l’équation d’évolution
dt,k dt,k
∂t dt,k = = ,
k dt,k 2t
Ω := {0, 1}E .
θ(0) = 0 et θ(1) = 1.
1. On dit «vertices» et «edges» en anglais, d’où la notation.
16.1 Percolation dans un graphe 217
20
10
-10
-20
-20 -10 0 10 20
Fig. 16.1. Réalisation du graphe aléatoire (V, F ) du graphe euclidien E2 sous P1/2 .
1 − θ = (1 − pθ)r−1 ,
tandis que
1
pc (r) = .
r−1
De plus, la fonction θr est continue, nulle sur [0, pc (r)], strictement croissante
sur [pc (r), 1], et pour r 3 on a
1 2 3
11 12 13 21 22 23 31 32 33
Fig. 16.2. Premières branches de B4 avec arêtes supprimées par Pp (en pointillé).
θr (p)
1
pc (4) pc (3) 1 p
D’autre part, si p ∈ ]pc , 1[ alors il existe une infinité de classes de taille infinie
car les individus non reliés à leur père sont les racines d’arbres aléatoires
disjoints i.i.d. Cette situation, liée à la structure d’arbre, est très différente de
celle du graphe euclidien étudié dans la suite.
d κ(d) 2d − 1.
et
Gm := {les arêtes reliant les sommets de Λ(m) sont dans F }.
Il y a percolation en 0 sur l’événement Fm c
∩ Gm , et comme Fm et Gm
concernent des ensembles d’arêtes disjoints, ils sont indépendants sur Pp .
Considérons à présent une boucle γ dont l’intérieur contient Λ(m). Sa longueur
n est nécessairement supérieure à 4m. De plus, elle contient nécessairement au
16.3 Graphe euclidien (grille) 223
Fig. 16.4. À gauche, le graphe euclidien E2 (trait plein) et son dual E2∗ (trait
pointillé). À droite, une composante finie et sa boucle ceinturante.
On considère dans cette section le cas où (V, E) est le graphe complet infini
K∞ , c’est-à-dire que V est infini dénombrable et E = P2 (V ). Ainsi x ∼ y pour
tous x = y dans V . Les sommets jouent tous le même rôle. Comme tous les
sommets sont voisins dans K∞ , il n’y a donc pas de géométrie comme dans
Br ou dans Ed . Sous Pp le graphe aléatoire (V, F ) est appelé modèle de Erdős-
Rényi infini. Pour tous p ∈]0, 1] et x ∈ V , le sommet x a un nombre infini de
voisins dans (V, F ) et Pp (|C(x)| = ∞) = 1, d’où θ = 1]0,1] et pc = 0.
Pour rendre le modèle plus passionnant, on peut considérer le phénomène
de la percolation dans le graphe complet fini Kn à n sommets V = {1, . . . , n}
et faire dépendre de n le paramètre p de Pp . On note G(n, p) la loi du graphe
aléatoire (V, F ) sous Pp . Dans ce modèle de Erdős-Rényi fini G(n, p), chaque
sommet x ∈ V possède un nombre aléatoire de voisins, qui suit la loi binomiale
Bin(n − 1, p) de moyenne (n − 1)p ∼ np. Lorsque n → ∞ avec np → λ > 0
alors pn ∼ λ/n → 0 et le nombre de voisins de chaque site converge en loi
vers la loi de Poisson Poi(λ) (loi des petits nombres).
Théorème 16.14 (Phénomène de seuil et composante connexe géante). Soit
λ > 0 un paramètre réel fixé, et α := λ − 1 − log(λ) > 0. Soit (Gn )n1 une
suite de graphes de Erdős-Rényi définis sur un même espace de probabilité,
avec Gn = (Vn , Fn ) de loi de Erdős-Rényi G(n, p) avec p = λ/n. Pour tout
v ∈ Vn , soit Gn (v) la composante connexe du sommet v.
1. Si λ < 1 alors pour tout c > 1/α,
16.4 Graphe complet et modèle de Erdős-Rényi 225
lim P max |Gn (v)| c log(n) = 0.
n→∞ v∈Vn
2. Si λ > 1 alors
maxv∈Vn |G(v)| p.s.
−→ 1 − ρ
n n→∞
est le temps d’atteinte de −1 d’une marche aléatoire (Sk )k0 sur Z issue de
S0 = 0 et d’incréments (Ui )i1 i.i.d. tels que 1 + Ui ∼ Bin(n − 1, p). Fixons
θ > 0 quelconque et posons
Soit θ > 0 tel que ϕ(θ) < 1. Pour tout r > 0, par l’inégalité de Markov,
T n = E1 + · · · + En ,
Xt
X0
0 T1 T2 t
Conditionnellement à {Nt = 1}, T1 suit la loi uniforme sur [0, t], donc
Cette quantité fait encore sens pour f mesurable et localement bornée (par
exemple continue) car conditionnellement à X0 = x, Xt prend ses valeurs dans
l’intervalle borné [0, x + t]. On a P0 = I et la propriété de Markov entraîne
que (Pt )t0 est un semi-groupe :
Pt+s = Ps+t = Pt ◦ Ps .
232 17 Croissance et fragmentation
où 0 = U0 < U1 < · · · < Un < Un+1 = t est une statistique d’ordre uniforme
sur [0, t]. Ainsi, Loi(Xt | Nt = 0) = δx+t tandis que Loi(Xt | Nt = n) est abso-
lument continue si n > 0, portée par [q n (x + t), q n x + t]. D’où le résultat avec
μt = Loi(Xt | Nt > 0). Ceci montre que X est asymptotiquement régularisant
car la masse de la partie atomique de μt tend vers 0 quand t → ∞. C’est le
mécanisme de sauts, seul source d’aléa, qui en est responsable.
5. «Growth-collapse» en anglais.
234 17 Croissance et fragmentation
Soit p 1 un réel
fixé. Si (E, d) est un espace métrique et μ une loi sur
E, alors la quantité d(x, y)p μ(dy) est soit infinie pour tout x ∈ E, soit finie
pour tout x ∈ E et on dit dans ce cas que μ a un moment d’ordre p fini.
La distance de Wasserstein Wp sur l’ensemble des lois sur E possédant un
moment d’ordre p fini est définie par
3 41/p
Wp (μ1 , μ2 ) = inf E(d(X, Y ) )
p 1/p
= inf p
d(x, y) π(dx, dy)
(X,Y ) π∈Π(μ1 ,μ2 ) E×E
X1 ∼μ1
X2 ∼μ2
où Π(μ1 , μ2 ) est l’ensemble convexe des lois de probabilité sur E × E qui ont
pour lois marginales μ1 et μ2 . Il contient la loi produit μ1 ⊗ μ2 . Un élément
π de cet ensemble constitue un couplage de μ1 et μ2 . Ici on prend E = R et
d(x, y) = |x − y|. On peut montrer qu’une suite (μn )n converge vers μ pour
Wp si et seulement si elle converge faiblement pour Cb et si tous les moments
d’ordre inférieur ou égal à p de μn convergent vers ceux de μ.
17.1 Processus TCP window-size en informatique 235
Théorème 17.7 (Comportement en temps long par couplage). Soit νPt la loi
au temps t du processus TCP de loi initiale ν et de paramètres λ et Q. Alors,
pour toutes mesures de probabilités ν1 et ν2 sur R+ possédant un moment
d’ordre p 1 fini, pour tout t 0, en posant θp := λ(1 − E(Qp1 )), on a
θp t
Wp (ν1 Pt , ν2 Pt ) Wp (ν1 , ν2 ) exp − .
p
Démonstration. Considérons un couple (X, Y ) où X et Y partent de x
et y mais utilisent le même N et le même Q (mêmes temps de sauts et
coefficients multiplicateurs). Remarquablement, la quantité |Xt − Yt | reste
constante entre deux sauts et au k e saut elle est multipliée par Qk . Par consé-
quent, pour tout t 0, on a
∞
p p
E(|Xt − Yt | ) = E |Xt − Yt | 1{Nt =k}
k=0
∞
p
= E |x − y| Qp1 . . . Qpk 1{Nt =k}
k=0
∞
p
= |x − y| E(Qp1 )k P(Nt = k)
k=0
p −λt(1−E(Qp
= |x − y| e 1 )) .
loi
n
= Q1 · · · Qn X0 + Q1 · · · Qk Ek .
k=1
où F ∼ μ
est indépendante de Q1 , E1 .
où la suite croissante des temps de saut (Tn )n0 est définie par T0 = 0 et
Tn+1 Tn+1 −Tn
λ(Xs ) ds = λ(XTn + s) ds = En+1 .
Tn 0
F4
F1
F5
F2
F3
0
t
Z1 + · · · + Zk
∼ Geo(e−kλt ).
k
(k)
En particulier, la moyenne et la variance de Nt sont données par
telle que
e−kλt Nt
(k)
−→ M∞ p.s. et dans L2 .
t→∞
−1/k
= ekt exp −θke−kt − ekt + 1
Cette loi aléatoire donne la masse d’un individu choisi uniformément parmi
ceux vivant à l’instant t. Pour une fonction test f : R+ → R, on a
1
E f dμt = E (k)
f (Xu,t ) = E(f (XUt ,t ))
Nt u∈Gt
Rt
T1 T2 T3 T4 T5 τ (c) t
Y (c)
Fig. 18.1. Une trajectoire menant à la ruine au temps τ (c) avec un découvert Y (c).
Nt
R̃t = c − Rt = Xk − pt.
k=1
Nt
Ct = Xk ,
k=1
et de plus
Ct p.s. √ Ct loi
−→ μλ et t − μλ −→ N (0, μa).
t t→∞ t t→∞
n
S0 = 0 et ∀n 1, Sn = (Xk − pΔk ).
k=1
p λμ ⇐⇒ ∀c 0, ψ(c) = 1.
et
Sn
lim sup = +1 p.s.
n→∞ σ 2n log(log(n))
Enfin, si p > λμ, la loi des grands nombres assure ici que Sn → −∞ p.s. Sup-
posons que le temps d’arrêt τ1 = inf{n > 0 : Sn > c} soit fini p.s. La marche
aléatoire (Sn+τ1 − Sτ1 )n0 est de même loi que (Sn )n0 . Par conséquent, le
temps d’arrêt τ2 = inf{n > 0 : Sn+τ1 − Sτ1 > c} est lui aussi fini p.s. En
itérant le procédé, on montre que lim sup Sn = ∞, d’où la contradiction.
Remarque 18.5 (Condition de profit net). Comme le suggère l’intuition,
la compagnie doit s’assurer que p > λμ pour éviter une ruine p.s. Les
lemmes 18.2 et 18.3 permettent, à partir d’un historique des sinistres, d’esti-
mer les paramètres λ et μ, ce qui peut ensuite aider à choisir p.
18.3 Expression de la probabilité de ruine 247
La fonction H est finie sur un intervalle I qui contient ] − ∞, 0] car X1 est une
variable aléatoire positive. De plus, H est de classe C ∞ et strictement convexe
sur l’intérieur de I.
Lemme 18.6 (Transformé de Laplace des sinistres). Supposons que l’inter-
valle I sur lequel la transformée de Laplace H est finie soit un ouvert qui
contient 0. Alors la fonction
px
x → H(x) − −1
μ
s’annule en 0 et en un unique réel u > 0.
Le réel u est appelé coefficient d’ajustement.
e−uc
ψ(c) =
E euY (c) |τ (c) < +∞
Comme Xn+1 et Δn+1 sont indépendantes et comme Δn+1 suit la loi Exp(μ),
μ
E eu(Xn+1 −pΔn+1 ) = H(u) = 1.
μ + pu
248 18 Ruine d’une compagnie d’assurance
e−x
x → 1[0,∞[ (x)
1 + x2
est finie au point x si et seulement si x 1. Si H(1) < 1 + p/μ, la fonction
x → H(x) − px/μ − 1 ne s’annule qu’en 0 : cette fonction, infinie sur ]1, +∞[,
est strictement négative sur ]0, 1]. Dans ce cas, le théorème 18.7 ne s’applique
pas. Cependant, la suite (eSn )n0 est une sur-martingale :
H(1)
E eSn+1 | σ(S0 , . . . , Sn ) = eSn < eSn .
1 + p/μ
e−c
ψ(c) .
E eY (c) | τ̃ (c) < +∞
d’où
Ainsi, P(Y (c) > y | τ̃ (c) < +∞) = e−y/λ pour tout y > 0. Ceci assure que
E euY (c) | τ̃ (c) < +∞ = H(u).
Les lois de franchissement d’un niveau sont alors plus difficiles à décrire.
19
Polymères dirigés en environnement aléatoire
n
Sn = Ui , n 1,
i=1
où (Un )n1 est une suite de v.a. i.i.d. de loi uniforme sur {±ei : 1 i d}, où
e1 , . . . , ed est la base canonique de Zd . On note (Fn )n0 la filtration naturelle
de (Sn )n0 , et F la tribu engendrée par les variables aléatoires (Un )n1 .
Il est commode de représenter les n + 1 premiers termes de (Sn )n0 par
la variable aléatoire S0:n = (S0 , S1 , . . . , Sn ), qui prend ses valeurs dans Γn ,
l’ensemble des chemins issus de 0 et de longueur n dans Zd , c’est-à-dire l’en-
semble des (n + 1)-uplets γ = (γ0 , γ1 , . . . , γn ) avec γ0 , . . . , γn dans Zd , tels que
γ0 = 0 et γi+1 − γi ∈ {±ej : 1 j d} pour tout 0 i n − 1.
On modélise l’environnement par des variables aléatoires réelles
i.i.d. non constantes. On suppose que (Un )n1 et (η(n, x))n0, x∈Zd sont indé-
pendantes. On note G la tribu engendrée par (η(i, x))i1, x∈Zd et Gn la tribu
engendrée par (η(i, x))(i,x)∈En où En = {(i, γi ) : 1 i n, γ ∈ Γn } est l’en-
vironnement vu par les chemins de longueur n.
Pour tout β 0, on définit la mesure de probabilité μn sur Γn en posant,
pour tout γ ∈ Γn ,
1
μn (γ) = eβHn (γ) P(S0:n = γ),
Zn (β)
avec
n
Hn (γ) = η(i, γi ) et Zn (β) = E eβHn (S0:n ) | G .
i=1
Zd
γ
Fig. 19.1. Environnement Bernoulli : les points noirs représentent les sites où l’envi-
ronnement vaut +1). Pour les chemins γ et γ , H8 (γ) = 7 et H8 (γ ) = 1. Le premier
est favorisé par rapport au second dès que β > 0.
De plus, il existe une constante β̄c ∈ [0, +∞] telle que, p.s.
W∞ (β) > 0 si β < β̄c , et on dit que le polymère est en «faible désordre»,
W∞ (β) = 0 si β > β̄c , et on dit que le polymère est en «fort désordre».
Ce résultat sera démontré dans la section 19.2. Il donne la première notion
de désordre. Présentons à présent l’autre notion de désordre. Elle s’appuie sur
le résultat suivant.
254 19 Polymères dirigés en environnement aléatoire
un (β) −→ u(β).
n→∞
0 β̄c βc +∞.
Démonstration. Si β < β̄c alors P({W∞ (β) > 0}) = 1 et par suite
1
(u − λ)(β) = lim log Wn (β) = 0.
n→∞ n
En d’autres termes, β βc .
Notons que la terminologie est délicate car le modèle peut être à la fois en
très faible désordre et en fort désordre. Le tableau suivant résume les choses.
Lemme 19.4 (Inégalité FKG). Soient X = (Xi )1ik des v.a.r. indépen-
dantes et f, g : Rk → R deux fonctions telles que f (X) et g(X) sont de carré
intégrable, croissantes au sens où f (x) f (y) si xi yi pour tout 1 i k.
Alors f (X) et g(X) sont positivement corrélées :
Le premier terme est positif par hypothèse de récurrence car à x1 fixé les fonc-
tions f et g sont croissantes comme fonctions des k − 1 variables (x2 , . . . , xk ).
Le second l’est aussi car les fonctions E(f (X)|X1 = ·) et E(g(X)|X1 = ·) sont
croissantes et la propriété est vraie au rang 1.
Pour tout γ ∈ Γn , on a
# $n
E epβHn (γ) = E epβη = enλ(pβ) .
e−(n+1)λ(β) n+1
β η(i,γi )
E(Wn+1 (β) | Gn ) = E e i=1 | Gn
(2d)n+1
γ∈Γn+1
256 19 Polymères dirigés en environnement aléatoire
La suite (Wn (β))n1 est donc une martingale positive pour la filtration (Gn )n .
Elle converge donc p.s. vers une variable aléatoire positive W∞ (β). De plus,
d’après le lemme de Fatou,
E(W∞ (β)) = E lim inf Wn (β) lim inf E(Wn (β)) = 1,
n→∞ n→∞
Ainsi,
Sn −mλ(β)
W∞ (β) = lim Wn+m (β) = E eβHn (S0:n )−nλ(β) lim Zn,m e |G .
m→∞ m→∞
Puisque eβHn (S0:n )−nλ(β) est strictement positif presque sûrement, l’événement
! "
{W∞ (β) = 0} = lim Zn,m x
e−mλ(β) = 0 : ∀x, P(Sn = x) > 0
m→∞
appartient à la tribu σ η(j, x), j n, x ∈ Zd . Ceci est vrai pour tout n.
6
Il appartient donc à la tribu asymptotique n1 σ η(j, x) : j n, x ∈ Zd .
D’après la loi du zéro-un de Kolmogorov, tous les éléments de la tribu asymp-
totique sont de probabilité 0 ou 1. Puisque Wn (β) est d’espérance 1, la suite
(Wn (β)θ )n0 est bornée dans L1/θ . De plus, elle converge vers W∞ (β)θ p.s.
On a donc
lim E(Wn (β)θ ) = E(W∞ (β)θ ).
n→∞
Cette limite est nulle si et seulement si W∞ (β) est nul presque sûrement.
19.3 Borne inférieure en grandes dimensions 257
est inférieur à
E Wn (β)θ−1 eβHn (γ)−nλ(β) E (Hn (γ) − nλ (β))eβHn (γ)−nλ(β) .
β → E(W∞ (β))
est décroissante. Il existe donc β̄c ∈ [0, +∞] tel que, presque sûrement,
W∞ (β) > 0 si β < β̄c ,
W∞ (β) = 0 si β > β̄c .
soient indépendantes. Soit (Sn )n1 la suite construite à partir de (Un )n1 à la
manière de (Sn )n1 à partir de (Un )n1 . Par indépendance de (Sn ) et (Sn ),
+
n +
n
βη(k,Sk )−λ(β)
Wn (β) = E 2 βη(k,Sk )−λ(β)
e |G E e |G
k=1 k=1
n
+
β(η(k,Sk )+η(k,Sk ))−2λ(β)
=E e |G .
k=1
Prenons l’espérance :
0 1
+
n
β(η(k,Sk )+η(k,Sk ))−2λ(β)
E Wn2 =E E e |F ∨ F .
k=1
On a donc
n
E Wn (β)2 = E eτ (β)In où In = 1{Sk =S } .
k
k=0
On remarque alors que les suites (Sk − Sk )k0 et (S2k )k0 ont même loi
puisque −Un et Un sont indépendantes et ont même loi. La variable aléa-
toire In a donc même loi que le nombre N2n de retours en 0 de S avant
l’instant 2n. Par convergence monotone,
E eτ (β)In = E eτ (β)N2n −→ E eτ (β)N∞ .
n→∞
Si τ (β) < log(1/πd ), alors (Wn (β))n1 est une martingale bornée dans L2 ,
elle converge donc p.s. et dans L2 vers une variable aléatoire de carré inté-
grable W∞ (β). En particulier on a E(W∞ (β)) = limn E(Wn (β)) = 1 et donc
W∞ (β) > 0 p.s. grâce à la loi du zéro-un du lemme 19.6.
et τ (β) < log(1/πd ) ssi β < log(1/πd ). On a donc β̄c > log(1/πd ).
Exemple 19.11 (Environnement Bernoulli). Si η ∼ Ber(p), alors
λ(β) = log peβ + 1 − p et lim τ (β) = − log(p).
β→∞
Ainsi, dès que p > πd , la condition du théorème 19.8 est satisfaite pour tout
β 0, et β̄c est infini.
un (β) −→ u(β).
n→∞
260 19 Polymères dirigés en environnement aléatoire
En d’autres termes,
x
log(Zn+m (β)) = log(Zn (β)) + log μn (Sn = x)Zn,m .
x∈Zd
x
Les v.a. Zn,m et Zm ont même loi car les v.a. (η(n, x))n,x sont i.i.d. En prenant
l’espérance, on obtient que la suite (E(log(Zm )))n1 est sur-additive, et donc,
d’après le lemme de Fekete (voir page 221), la suite (un (β))n1 converge dans
R ∪ {+∞}. Comme elle est bornée par λ(β), sa limite u(β) est finie.
Le phénomène de seuil va découler d’une propriété de monotonie.
Lemme 19.13 (Monotonie). La fonction β → u(β) − λ(β) décroît sur R+ .
Démonstration. Étudions les variations de β → un (β) − λ(β). On a
∂ E Hn (S0:n )eβHn (S0:n ) | G
E(log(Zn (β))) = E
∂β Zn (β)
1 Hn (γ)eβHn (γ)
= E .
(2d)n Zn (β)
γ∈Γn
19.5 Borne supérieure sur le paramètre critique 261
Remarquons que Hn (γ) (respectivement Zn−1 (β)) est une fonction croissante
(respectivement décroissante) des variables (η(i, x))(i,x)∈En . D’autre part, la
mesure de densité eβHn (γ)−nλ(β) par rapport à la mesure P est une mesure de
probabilité. L’inégalité FKG du lemme 19.4 assure donc
Hn (γ) βHn (γ)−nλ(β)
E e
Zn (β)
E Hn (γ)eβHn (γ)−nλ(β) E Zn (β)−1 eβHn (γ)−nλ(β) .
On obtient ainsi
βHn (γ)
∂ 1 −nλ(β) e
E(log(Zn (β))) n
e E E Hn (γ)eβHn (γ)
∂β (2d) Zn (β)
γ∈Γn
⎛ ⎞
1 eβHn (γ)
nλ (β)E⎝ ⎠
(2d)n Zn (β)
γ∈Γn
nλ (β).
(λ(β1 ) + log(2d))
u(β) β − log(2d).
β1
Il reste à remarquer que pour β > β1 ,
(λ(β1 ) + log(2d))
β − log(2d) < λ(β)
β1
puisque λ est strictement convexe et qu’il y a égalité en β1 .
Exemple 19.16 (Environnement gaussien et environnementBernoulli). Si
η ∼ N (0, 1) alors βλ (β) − λ(β) = β 2 /2, et dans ce cas β1 = 2 log(2d). En
revanche, si η ∼ Ber(p) alors
pβeβ
βλ (β) − λ(β) = − log peβ + 1 − p ∼ − log(p),
peβ +1−p β→∞
globale comme par exemple le recuit simulé, abordé dans la section 5.3, pour
produire en un temps raisonnable une solution approchée : une permutation
pour laquelle le minimum est (presque) atteint.
Plutôt que de rechercher une permutation optimale, nous nous intéressons
dans ce chapitre à la valeur du minimum, et à son comportement lorsque n
est grand et les points X1 , . . . , Xn sont des variables aléatoires indépendantes
et de même loi μ sur Rd . On note Ln = Ln (X1 , . . . , Xn ) la longueur minimale
de la tournée, qui est une fonction de X1 , . . . , Xn .
Fig. 20.1. Trajet le plus court pour n = 20 points uniformément répartis dans le
carré unité obtenu par l’algorithme stochastique du recuit simulé (chapitre 4).
Fig. 20.2. Tracé d’une approximation de n → n−1/2 E(Ln ) dans le cas uniforme,
avec une méthode de Monte-Carlo et l’algorithme du recuit simulé (chapitre 5).
{∅, Ω} = F0 ⊂ F1 ⊂ · · · ⊂ Fn = F.
À présent on a
peu eu 1
f (u) = −p + et f (u) = p(1 − p) .
1 − p + peu (1 − p + e )
u 2 4
Lemme 20.4 (Lemme géométrique). Il existe une constante cd > 0 telle que
si X1 , . . . , Xk sont i.i.d. de loi uniforme sur [0, 1]d alors pour tout x ∈ [0, 1]d ,
gk (x) := E min |Xi − x| cd k −1/d .
1ik
+k
P min |Xi − x| r = P(Xi ∈ B(x, r)c )
1ik
i=1
k
= 1 − |B(x, r) ∩ [0, 1]d |
k
1 − ad rd
exp −ad krd .
270 20 Problème du voyageur de commerce
√
Ceci reste valable si r > d car dans ce cas P(min1ik |Xi − x| r) = 0.
On a ∞
E min |Xi − x| = P min |Xi − x| r dr
1ik 0 1ik
et ∞
Γ (1/d)
e−br dr =
d
.
0 db1/d
et
c−
dn
(d−1)/d
E(Ln (X1 , . . . , Xn )) c+
dn
(d−1)/d
où 0 < c−
d cd < ∞ sont des constantes qui ne dépendent que de d.
+
Démonstration. Le cube [0, 1]d est l’union de (1/ε)d petits cubes isométriques
à [0, ε]d . Avec ε = n−1/d on obtient que [0, 1]d peut être recouvert par O(n)
petits cubes de diamètre O(n−1/d ). Par le principe des tiroirs 5 , pour tous
x1 , . . . , xn ∈ [0, 1]d on a, pour une constante cd qui peut dépendre de d,
Par ailleurs, la preuve du lemme 20.4 indique que |B(x, r)∩[0, 1]d | est maximal
quand x est au centre du cube, d’où, pour tout x ∈ [0, 1]d et tout 0 < r 1/2,
P min |Xi − x| r (1 − ωd rd )n−1
1in−1
Ainsi,
min E min |Xi − Xj | = min E E min |Xi − Xj | | Xj
1jn 1i=jn 1jn 1i=jn
−1/d
cd n
ncd n−1/d
= cd n(d−1)/d .
Théorème 20.6 (Le bon résultat). Si μ est la loi uniforme sur [0, 1]d alors
E(Ln (X1 , . . . , Xn ))
lim = γd
n→∞ n(d−1)/d
où 0 < γd < ∞ est un réel qui dépend de d.
Nous savons déjà que an := E(Ln ) ≈ n(d−1)/d ce qui rend naturel de cher-
cher à établir que nd/(d−1) an converge quand n tend vers l’infini. Ce compor-
tement non linéaire empêche l’usage direct d’une technique de sous-additivité.
Il est cependant possible de linéariser le problème par poissonisation puis dé-
poissonisation. L’heuristique est la suivante : si N est une v.a.r. à valeurs en-
tières alors E(aN ) ≈ E(N (d−1)/d ) ≈ E(N )(d−1)/d qui est linéaire en t lorsque
N ∼ Poi(td/(d−1) ). Par ailleurs si N ∼ Poi(n) alors an ≈ E(aN ).
Démonstration. On procède par étapes.
Poissonisation. On note L(S) la longueur minimale de la tournée pour un
ensemble fini de points S = {x1 , . . . , xn } ⊂ Rd , avec la convention L(S) = 0
si card(S) 2. Soit P un processus ponctuel de Poisson sur Rd de mesure
d’intensité Lebesgue. Soit (Zt )t0 le processus défini par Zt = L(P ∩ [0, t]d )
c’est-à-dire la longueur minimale de la tournée pour les atomes du processus
de Poisson P se trouvant dans le cube [0, t]d . Pour tout n 0,
D’autre part, L(tS) = tL(S) et card(P ∩ [0, t]d ) ∼ Poi(td ), ce qui donne
∞
E(Zt ) = E(Zt | card(P ∩ [0, t]d ) = n)P(card(P ∩ [0, t]d ) = n)
n=0
∞
tdn
E(L(P ∩ [0, t]d ) | card(P ∩ [0, t]d )e−t
d
=
n=0
n!
∞
tdn
= e−t
d
tan
n=0
n!
où
20.2 Évaluation de la moyenne du cas uniforme 273
Cela donne E(Zt ) k d E(Zt/k ) + ctk d−1 , d’où une première estimation :
E(Ztk ) E(Zt )
d
+ ct1−d .
(tk) td
En prenant t = 1 on obtient
E(Zk )
0 γ := lim E(Z1 ) + c < ∞.
k→∞ kd
Par définition de γ, pour tout ε > 0 on peut choisir k0 assez grand pour que
E(Zk0 )
+ ck01−d γ + ε.
k0d
Comme t → E(Zt ) est continue, on peut choisir δ > 0 tel que pour tout
k0 < t < k0 + δ,
E(Zt )
+ ct1−d γ + 2ε.
td
Grâce à notre première estimation, on voit que cette deuxième estimation
a lieu pour tout kk0 < t < k(k0 + δ). Or pour k > k0 /δ les intervalles
Ik := ]kk0 , k(k0 + δ)[ et Ik+1 se recouvrent. On en déduit qu’elle a lieu pour
tout t k02 /δ, ce qui implique en particulier
E(Zt ) E(Zt )
lim d
lim + 2ε = γ + 2ε.
t→∞ t t→∞ td
Comme ε > 0 est arbitraire, on obtient donc
274 20 Problème du voyageur de commerce
E(Zt )
lim = γ.
t→∞ td
Ainsi, le développement en série de E(Zt ) donne, après le changement de
variable u = td ,
∞
uk
e−u ak ∼ γu(d−1)/d .
k! n→∞
k=0
et donc
∞
nk
|an − E(aN )| |an − ak |e−n
k!
k=0
∞
nk
c |n − k|(d−1)/d e−n
k!
k=0
et donc
E(Ln (X1 , . . . , Xn )) an
lim = lim (d−1)/d = γ.
n→∞ n(d−1)/d n→∞ n
n
n = 1
Σ
1
Xk Xk = (X1 · · · Xn )(X1 · · · Xn ) .
n n
k=1
On a
n ) = Σ.
E(Σ
Par la loi des grands nombres appliquée aux d × d coefficients,
n −→
Σ
p.s.
Σ.
n→∞
λn,1 , . . . , λn,n sont ici des v.a.r. dépendantes 2 . Pour tout borélien B ⊂ R,
card{1 k n : λn,k ∈ B}
μn (B) = .
n
Pour toute fonction f : R → R mesurable, on a
1
n
f dμn = f (λn,k ).
n
k=1
Théorème 21.1 (Wigner). Supposons que (Mij )i1,j1 soient des v.a.r. i.i.d.
centrées et de variance finie et non nulle σ 2 . Soit M = (Mi,j )1i,jn avec
n
Mj,i := Mi,j . Soit μn = n1 k=1 δλn,k la mesure empirique des valeurs propres
de √1n M . Alors presque sûrement, la suite de mesures de probabilité (μn )n1
converge étroitement vers la loi du demi-cercle μ σ de densité
√
4σ 2 − x2
x → 1[−2σ,2σ] (x).
2πσ 2
En d’autres termes, p.s. pour toute fonction f : R → R continue et bornée,
f dμn −→ f dμσ .
n→∞
Ainsi,√la proportion
√ de valeurs propres de M n’appartenant pas à l’intervalle
[−2σ n, 2σ n] tend vers zéro quand n → ∞. Le théorème de Wigner met
en lumière un phénomène d’universalité, en ce sens que la loi limite μ σ ne
dépend de la loi des coefficients de la matrice M qu’à travers leur variance σ 2 .
Le comportement de la moyenne de μn peut être compris en observant que
1
n
1 1
x dμn (x) = λn,k = Tr √ M
n n n
k=1
1 p.s.
= Mii −→ 0 = x dμ
σ (x)
n3/2 1in
n→∞
où la √
convergence p.s. provient de la loi des grands nombres. La normalisation
en 1/ n de M peut être comprise à son tour en observant tout d’abord que
2
1 2
n
1 1
2
x dμn (x) = λn,k = Tr √ M
n n n
k=1
1 2 p.s.
= 2 Mij −→ σ 2 = x2 dμ
σ (x)
n n→∞
1i,jn
21.2 Réduction à un cas plus simple 281
où la convergence p.s. provient ici encore de la loi des grands nombres. D’autre
part, par l’inégalité de Markov, p.s. pour tout r > 0,
1 σ2
μn ([−r, r]c ) 2 x2 dμn (x) −→ 2 .
r n→∞ r
lim E f dμn = f dμ σ .
n→∞
Dans cette sous-section, nous allons montrer qu’il suffit d’établir le théo-
rème de Wigner 21.1 dans le cas particulier où les coefficients de la matrice
sont bornés. On procède par troncature. Soit C > 0 un réel et
1 1
n n
ν1 = δak et ν2 = δbk
n n
k=1 k=1
avec a1 · · · an et b1 · · · bn , on trouve
1
n
W2 (ν1 , ν2 )2 = (ai − bi )2 .
n
k=1
n
n
n
AHS = Tr(AA∗ ) =
2
|Aij |2 = λi (A)2 .
i=1 j=1 i=1
n
n
n
2
nW2 (μA , μB )2 = (λk (A) − λk (B))2 |Aij − Bij |2 = A − BHS .
k=1 i=1 j=1
2
W2 (μ √1 M , μ √1n MC )
n
1
n n
p.s.
|Mij |2 1{|Mij |>C} −→ E(|M12 |2 1{|M12 |>C} ).
n2 i=1 j=1 n→∞
Dans cette sous-section, nous allons montrer qu’il suffit d’établir le théo-
rème de Wigner 21.1 pour MC − E(MC ) pour tout réel C > 0.
L’orthogonalité des sous-espaces propres des matrices symétriques conduit
aux formules variationnelles min-max de Courant-Fischer pour les valeurs
propres. Plus précisément, si A ∈ Mn (C) est hermitienne de valeurs propres
λ1 (A) · · · λn (A), alors pour tout 1 k n, en notant Gk l’ensemble des
sous-espaces vectoriels de Cn de dimension k, on a
rang(A − B)
dKS (μA , μB ) := FA − FB ∞ := sup |FA (t) − FB (t)| .
t∈R n
À présent, comme les variables aléatoires ((MC )ij )1i,jn sont de même
moyenne mC := E((MC )ij ), on a rang(E(MC )) = rang(mC 1n ) 1 et donc
1
dKS μ √1 MC , μ √1n (MC −E(MC )) −→ 0.
n n n→∞
Par conséquent, il suffit d’établir le théorème de Wigner 21.1 pour la matrice
MC − E(MC ) (en lieu et place de M ) pour tout réel C > 0.
Suppression de la diagonale
1
n
p.s.
W2 (μ √1 (MC −E(MC )) ,μ √1 (MC −E(MC )−DC ) ) 2
2
|Mii |2 1{|Mii |C} −→ 0
n n n i=1 n→∞
grâce à la loi des grands nombres. Ceci montre qu’il suffit d’établir le théorème
de Wigner 21.1 pour la matrice MC − E(MC ) − DC , pour tout réel C > 0.
Dans cette sous-section nous allons montrer qu’il suffit d’établir le théo-
rème de Wigner 21.1 pour la mesure spectrale empirique moyenne
et ce pour tout réel C > 0. Le lemme suivant, de même nature que l’inégalité
de Tchebychev, est une reformulation du lemme 20.3.
Lemme 21.5 (Inégalité de concentration d’Azuma-Hoeffding). Considérons
des vecteurs aléatoires X1 , . . . , Xn indépendants pas forcément de même di-
mension. Si G(X1 , . . . , Xn ) est une variable aléatoire réelle et intégrable, fonc-
tion mesurable de ces vecteurs, alors pour tout t 0,
2t2
P(|G(X1 , . . . , Xn ) − E(G(X1 , . . . , Xn ))| t) 2 exp − 2
c1 + · · · + c2n
et si ν est caractérisée par ses moments, alors (νn )n1 converge vers ν étroi-
tement, c’est-à-dire que pour tout f : R → R continue et bornée,
lim f dνn = f dν.
n→∞
On obtient donc
1
lim sup P dνnk − ϕR P dν = O = oR→∞ (1).
k→∞ R2
d’où enfin
lim ϕR P dν = P dν.
R→∞
En utilisant cela pour P 2 , qui est positive, on obtient d’abord par convergence
monotone que P ∈ L2 (ν ) ⊂ L1 (ν ), puis par convergence dominée que
P dν = P dν.
(n) n
En particulier, ϕ (0) = i κn , et la série de Taylor de ϕ en 0 est déterminée
par la suite (κn )n1 . Le rayon de convergence r de la série entière n an z n
associée à la suite de nombres complexes (an )n0 est donné par la formule de
1
Hadamard r−1 = limn |an | n . Ainsi, 1⇔ 3 (prendre an = in κn /n!). D’autre
part, comme pour tout n ∈ N, s, t ∈ R,
n
itx (itx)n−1 |tx|
eisx eitx − 1 − − ··· − ,
1! (n − 1)! n!
on a pour tout n ∈ N pair et tous s, t ∈ R,
n
t tn−1 |t|
ϕ(s + t) − ϕ(s) − ϕ (s) − · · · − ϕ(n−1) (s) κn ,
1! (n − 1)! n!
288 21 Matrices aléatoires
En particulier μ 2
σ a pour moyenne 0 et variance σ , et les moments pairs de
la loi du demi-cercle standard μ1 sont les nombres de Catalan.
Démonstration. La loi μ σ est caractérisée par ses moments car son support
[−σ, σ] est compact (lemme 21.7). Les moments impairs sont nuls car μ σ est
symétrique. Pour calculer les moments pairs, par dilatation et parité,
σ 2r 2 2r
2r
x dμσ (x) = x 4 − x2 dx.
π 0
Si deux éléments parmi {{i, j}, {j, k}, {k, i}} sont distincts alors on a forcé-
ment E(Mij Mjk Mki ) = 0 par indépendance et centrage. Dans le cas contraire,
on a i = k ou i = j ou k = j, ce qui conduit à E(Mij Mjk Mki ) = 0 car la
diagonale de M est nulle. Ainsi, le moment d’ordre 3 de μn est égal à zéro,
tout comme le moment d’ordre 3 de μ 1 .
Pour le moment d’ordre 4, on pourrait procéder de même en utilisant
1
E x4 dμn = 1+4/2 E(Mij Mjk Mkl Mli ).
n 1i,j,k,ln
sont les valeurs distinctes prises par ces indices, et on note t leur nombre. Les
arêtes, du multi-graphe orienté sont les liaisons (ik , ik+1 ) avec 1 k r − 1.
Elles peuvent avoir une multiplicité et sont orientées. De plus ce multi-graphe
orienté est cyclique de longueur r + 1. Si on note t le nombre de sommets
distincts, on dit qu’il s’agit d’un multi-graphe orienté G(r, t). Deux multi-
graphes orientés G(r, t) sont équivalents lorsque qu’on peut passer de l’un à
l’autre en permutant les indices. Des multi-graphes orientés G(r, t) équivalents
donnent la même valeur à E(Mi1 i2 · · · Mir ir+1 ), notée E(MG ). Il y a
n(n − 1) · · · (n − t + 1)
multi-graphes orientés G(r, t) dans chaque classe d’équivalence (nombre d’ar-
rangements de t objets parmi n). Chaque classe d’équivalence contient un
représentant pour lequel les t valeurs distinctes prises par les indices i1 , . . . , ir
sont successivement 1, . . . , t. Afin de calculer les contributions, on distingue
trois types de multi-graphes orientés G(r, t) détaillés ci-après. Le type est
constant sur chaque classe (c’est une propriété de la classe).
2 3
— type 1 : ceux pour qui chaque arête présente, ainsi que l’arête de
sens opposé, ne l’est qu’une fois, et le graphe non orienté squelette
obtenu en effaçant les orientations et les multiplicités des arêtes est
un arbre (c’est-à-dire qu’il n’a pas de cycles). C’est le cas par exemple
de E(M12 M21 M13 M31 ) = E(M12 2
)E(M132
) = 1, voir figure 21.2. Un
exemple plus long est donné par la figure 21.3 ;
— type 2 : ceux pour qui une arête au moins n’apparaît qu’une seule
fois et l’arête de sens opposé n’apparaît pas, comme par exemple
E(M12 M23 M31 ) = E(M12 )E(M23 )E(M31 ) = 0, voir figure 21.3 ;
— type 3 : ceux qui ne sont ni de type 1 ni de type 2. C’est le cas par
exemple de E(M12 M21 M12 M21 ) = E(M12 4
) > 0 car l’arête 12 (ainsi
que l’arête 21) apparaît exactement deux fois. Un autre exemple est
donné par E(M12 M21 M13 M32 M23 M31 ) = E(M12 2
)E(M13 2
)E(M232
) = 1,
car le graphe non orienté squelette associé est le cycle 1 ↔ 2 ↔ 3 ↔ 1.
Ces deux exemples sont illustrés par la figure 21.3.
21.4 Preuve du théorème de Wigner simplifié 291
5 6
3 4
2 2 3
1 1
2 3 2
1 1
n(n − 1) · · · (n − t + 1)
E(MG )
cl. t. 1
n1+r/2
n n−s+1 1 2s
= ···
n n s+1 s
1 2s
−→ .
n→∞ 1+s s
5. On prendra garde à ne pas confondre avec les arbres binaires planaires enraci-
nés du chapitre 4, qui sont également comptés par les nombres de Catalan !
21.5 Pour aller plus loin 293
r−1
ρk r r−1
r
x dμ⊕
ρ (x) = .
k+1 k k
k=0
En particulier, la loi μ⊕ ⊕
ρ a pour moyenne 1 et variance ρ. La loi μρ est un
mélange entre une masse de Dirac en 0 et une loi à densité par rapport à
la mesure de Lebesgue. L’atome en 0 est dû au fait que la matrice n’est pas
forcément de rang plein. Il disparaît lorsque ρ 1. Lorsque ρ = 1, la matrice
Y est en quelque sorte asymptotiquement carrée. Dans ce cas, a = 0 et b = 4.
Par changement de variable, presque sûrement la mesure de comptage du
spectre 6 de ( n1 Y Y )1/2 converge étroitement quand n → ∞ vers la loi du
√
quart-de-cercle de densité x → π1 4 − x2 1[0,2] (x).
Fig. 21.4. Histogramme des valeurs propres non nulles d’une matrice de covariance
empirique avec n = 800 et d = 1000 et loi de Marchenko-Pastur.
Les inégalités de Courant-Fischer ainsi que les lemmes 21.4 et 21.3 (inéga-
lité de Hoffman-Wielandt) sont démontrés par exemple dans le livre de Roger
Horn et Charles Johnson [HJ13] et dans le livre de Rajendra Bhatia [Bha97].
(1) (2)
(1,1) (1,2)
N = ∪n0 (N∗ )n
σ(n) := n1 + · · · + nk(n) .
λϕ(u)
α := min .
u>0 u
Alors on dispose de conditions suffisantes de stabilité et d’instabilité :
22.1 Condition suffisante de stabilité 297
En particulier,
⎛ ⎞
k(n)
k(n)
P(n est né) P⎝ Tnn(i−1)
i
< Kn(i−1) ⎠.
i=1 i=1
D’autre part,
σ(n)
λ
λ+u
n, k(n)=k
m
λ
= card{n : k(n) = k, σ(n) = m}
λ+u
mk
k k m−k
λ u λ
= card{n : k(n) = k, σ(n) = m} .
u u+λ u+λ
mk
On a donc σ(n) k
λ λ
= .
λ+u u
n, k(n)=k
λϕ(u) k
m .
u
k1
Si α < 1, alors le nombre moyen d’individus créés est fini, et B est stable.
N(i−1)
La variable aléatoire TNi suit la loi exponentielle 1 Exp(λp). Les va-
riables aléatoires (Zi )i1 sont i.i.d. de transformée de Laplace et de moyenne
λp 1
E euZ1 = ϕ(u) et E(Z1 ) = ϕ (0) − .
λp + u pλ
Ainsi, l’espérance de Z1 est strictement négative pour p assez petit. De plus,
si l’on note α = 1 + ε, on peut choisir p suffisamment petit pour que
1. Le lemme 11.4 affirme que si G, E1 , E2 , . . . sont des v.a. indépendantes avec G
de loi géométrique de paramètre p et E1 , E2 , . . . de loi exponentielle de paramètre λ
alors la somme aléatoire E1 + · · · + EG suit la loi exponentielle de paramètre pλ.
300 22 Naissances et assassinats
λϕ(u)
min E euZ1 = p min > p(1 + ε/2).
u>0 u>0 λp + u
Le lemme 22.3 appliqué à la suite (Zn )n1 assure que, pour k assez grand,
j
P min Zi > 0 > pk (1 + ε/2)k .
1jk
i=1
On obtient donc
k
p
P(n est né)(1 − p)σ(n) > pk (1 + ε/2)k .
1−p
n, k(n)=k
À présent, la somme dans le membre de droite est minorée par 1 car sur
{Sn > 0}, il existe une valeur (aléatoire) de l pour laquelle le minimum de
S (l) est strictement positif : le plus grand indice pour lequel l → Sl atteint
son minimum. Il est utile de faire un dessin et comparer avec la figure 3.3
page 3.3. Ceci fournit la minoration annoncée.
Théorème 23.1 (Loi de la vitesse). Le processus (Vt )t0 admet une unique
loi invariante, qui est la loi de Rademacher symétrique 12 δ−1 + 12 δ+1 . De plus,
pour tout t 0, loi de Vt est donnée par
p+ (t) = α(p− (t) − p+ (t)) et p− (t) = α(p+ (t) − p− (t)).
Démonstration. La formule
∞
∞
(αt)n
p+ (t) = P((−1)n = V0 )P(Nt = n) = P((−1)n = V0 )e−αt
n=0 n=0
n!
Pour k ∈ N, on note CE k
l’ensemble des fonctions f : E → R mesurables,
bornées, de classe C en la deuxième variable, à dérivées successives bornées.
k
pour tout f ∈ CE
1
. En particulier, pour tout t 0 et pour tout f ∈ CE
1
,
puisque le terme intégral est borné (en valeur absolue) par h. On a ainsi obtenu
puisque que Pt f ∈ CE
1
. De même, l’écriture alternative
Pt+h f − Pt f Ph − P 0
= Pt f;
h h
fournit la relation ∂t Pt f = Pt Af .
puis
Ṽn = −Ṽn−1 et X̃n = X̃n−1 + Ṽn−1 (Tn − Tn−1 ).
On construit alors le processus (X, V ) en posant Vt := Ṽn−1 si Tn−1 t < Tn
et X comme interpolation linéaire de X̃. Pour résumer, le taux de saut de V
est donné par
b1{v=1} + a + ∞1{x=0} 1{v=−1} .
Une excursion de (V, X) est une trajectoire issue de (+1, 0) arrêtée à l’instant
Xt
X̃1
t
T1 T2 T3 T4 T5 T6
loi
N
S = 2E + Sk ,
k=1
Xt
S1
S2
t
E S
Fig. 23.2. Décomposition d’une excursion. Les points signalent les sauts de vitesse.
d’où la formule.
Plus de précision est possible sur la structure d’une excursion issue de
(+1, 0). Ceci va permettre d’exprimer la quantité suivante en termes de va-
riables aléatoires classiques :
S
I= eλXs g(Vs ) ds
0
où g est une fonction définie sur {−1, +1}. Le premier temps de saut E suit la
loi exponentielle de paramètre b. Conditionnellement à {E = x}, le nombre N
d’excursions «greffées» sur le retour à 0 est distribué selon la loi de Poisson de
paramètre ax. Conditionnellement à {E = x, N = k} les k hauteurs auxquelles
elles ont lieu sont distribuées comme (xU(k,k) , xU(k,k−1) , . . . , xU(k,1) ) où les
v.a.r. (Ui )i1 sont i.i.d. de loi uniforme sur [0, 1] et où (U(1,k) , . . . , U(k,k) )
représente l’échantillon réordonné dans l’ordre croissant. Soient
(i) (i)
(Vt , Xt )0tS (i)
i1
des trajectoires indépendantes sur une excursion issue de (+1, 0). On a alors
E N
Si
(i)
λy
I = (g(1) + g(−1)) e dy + eλ(EU(i,N ) +Xs ) g(Vs(i) ) ds.
0 i=1 0
On a alors
Si
λ(EU(i,N ) +Xs(i) )
E e g(Vs(i) ) ds | E, N, (Ui )i1 = E(I)eλEU(i,N ) .
0
g(1) + g(−1)
E(I) = .
b−a−λ
Le théorème ergodique montre que si ν est la loi invariante de (V, X) alors
E(I) g(1) + g(−1) b − a
eλx g(v)ν(dv, dx) = = .
{−1,+1}×R+ E(S) 2 b−a−λ
On notera parfois ∂B(x, r) := S(x, r). On dit que ϕ est harmonique sur D si
elle est localement intégrable et vérifie la formule de la moyenne :
1
∀x ∈ D, ∀r < dist(x, ∂D), ϕ(x) = ϕ(x + y) dy.
|B(0, r)| B(0,r)
Une dérivation par rapport à r donne la formule de la moyenne sur les sphères.
Montrons que les deux dernières propriétés sont équivalentes. La première
étape consiste à régulariser la fonction ϕ par convolution. Soit x ∈ D, V un
voisinage de x inclus dans D, et ε < dist(V, ∂D). La fonction
Ψε : x → c(ε) exp((|x| − ε2 )−1 )1{|x|<ε}
2
est de classe C ∞ , positive, d’intégrale 1 pour c(ε) bien choisi, à support dans
la boule B(0, ε) et radiale. La fonction ϕ ∗ Ψε est donc de classe C ∞ sur V. De
plus, pour tout y ∈ V, la formule de la moyenne sur les sphères assure que
ϕ ∗ Ψε (y) = ϕ(y + u)Ψε (u)du
B(0,ε)
ε
= ϕ(y + sz) σs (dz) |S(0, s)|Ψε (s)ds
0 S(0,s)
= ϕ(y) Ψε (z) dz,
B(0,ε)
τ := inf {t > 0 : Bt ∈
/ D}
le temps de sortie de D pour (Bt )t0 . On notera Px la loi de (Bt )t0 sachant
que B0 = x et Ex l’espérance par rapport à cette loi. Le mouvement brownien
est un processus de Markov fort et la formule d’Itô assure que si f est une
fonction de classe C 2 de Rd dans R à dérivées bornées, alors
t t
1
f (Bt ) = f (B0 ) + Δf (Bs ) ds + ∇f (Bs ) dBs .
0 2 0
τr := inf {t 0 : Bt ∈
/ B(x, r)}
1.0
0.8
0.6
0.4
0.2
0.0
−0.2
−0.4
−0.6
−0.8
−1.0
−1.0 −0.5 0.0 0.5 1.0
Fig. 24.1. Découpage d’une trajectoire sortant de D après être sortie de B(x, r).
sont indépendantes et de même loi gaussienne centrée réduite N (0, 1). Cette
propriété a longtemps été utilisée par les logiciels de calcul scientifique avant
d’être délaissée pour des procédures plus efficaces comme l’algorithme du Zig-
gurat de Marsaglia basé sur une méthode de polygonalisation.
∂h Dh = {y ∈ Dhc : ∃x ∈ Dh , x ∼ y}.
1
Δh f (x) = (f (y) − f (x)).
2d y∼x
P((Xn+1
N
− XnN ) = −1/N ) = P((Xn+1
N
− XnN ) = 1/N ) = 1/2,
P((Yn+1
N
− YnN ) = −1/N ) = P((Yn+1
N
− XnY ) = 1/N ) = 1/2.
U N := XTNN .
où (S1i )1ik sont i.i.d. de même loi que S1 , d’où Gk (s) = G1 (s)k . De même,
loi
S1 = 1 + ZS2
et
τB(0,R) := inf {t 0 : Bt ∈
/ B(0, R)}.
Le temps S := TB(0,r) ∧τB(0,R) est le temps de sortie de la couronne C(0, r, R).
x×
Bτ ×
Fig. 24.2. Une trajectoire brownienne issue de x arrêtée hors d’une couronne.
322 24 Problème de Dirichlet
Xt ∼ N (xe−t , 1 − e−2t ).
Xt = Xs e−(t−s) + Yt
Soit A l’ensemble des fonctions de classe C ∞ sur R dont toutes les dérivées
sont à croissance lente 1 . Le semi-groupe d’Ornstein-Uhlenbeck sur R est la
famille (Nt )t∈R+ d’opérateurs de A dans A définis pour tous t 0, f ∈ A par
25
20
15
10
-5
0 200 400 600 800 1000 1200
Nt f (x) − N0 f (x)
lim+ = (Af )(x) où (Af )(x) = f (x) − xf (x).
t→0 t
Plus généralement, pour tout f ∈ A et tout t 0, les équations aux dérivées
partielles suivantes ont lieu :
∂t Nt f = A(Nt f ) = Nt (Af ).
Cette équation aux dérivées partielles (ÉDP) est parfois appelée équation
de la chaleur avec dérive. L’opérateur A est le générateur infinitésimal du
semi-groupe d’Ornstein-Uhlenbeck. Il est important de penser à la formule
formelle Nt = etA , qui fait apparaître que N0 = I et ∂t Nt = ANt .
Démonstration. Si f ∈ A, alors la formule de Taylor à l’ordre 2 avec reste
borné au voisinage de x donne
h2
f (x + h) = f (x) + hf (x) + f (x) + O(h3 ).
2
Remarquons dans un premier temps, que pour h = (e−t − 1)x + σt y, on a
h γ(dy) = (e−t − 1)x,
h2 γ(dy) = (e−t − 1)2 x2 + σt2 ,
3
|h| γ(dy) = O(t3/2 ).
1 −t
Nt f (x) = f (x) + (e−t − 1)xf (x) + (e − 1)2 x2 + σt2 f (x) + O(t3/2 ).
2
On a donc bien la limite annoncée :
1
lim (Nt f (x) − f (x)) = f (x) − xf (x).
t→0t
Ce résultat s’obtient aussi avec la formule d’Itô : si X0 = x et t 0, alors
t √ t
f (Xt ) = f (x) + Af (Xs ) ds + 2 f (Xs ) dBs ,
0 0
Il reste à utiliser que Ns (Af )(x) → Af (x) quand s → 0 pour obtenir la pre-
mière propriété du théorème. La seconde se déduit de la première en utilisant
la propriété de semi-groupe.
D’après la formule de Mehler, pour tout x ∈ R et f ∈ A,
Nt f (x) −→ f dγ.
t→∞
pour tout n 1, où (εn )n0 sont des v.a.r. i.i.d. de loi N (0, 1), indépendantes
de Z0 . Ce processus est une chaîne de Markov à temps discret d’espace d’état
R, et de loi invariante N (0, 1). Cette observation fournit une manière de si-
muler les trajectoires du processus d’Ornstein-Uhlenbeck, illustrée par la figure
25.1. Conditionnellement à Z0 , le vecteur aléatoire (Z1 , . . . , Zn ) est gaussien,
et la décomposition de Cholesky de sa matrice de covariance fournit une autre
manière efficace de simuler la trajectoire du processus.
Les propriétés ci-dessus permettent de voir que la loi de Xt est absolument
continue avec une densité régulière dès que t > 0, quel que soit X0 .
Théorème 25.7 (Équation d’évolution de la densité de la loi). Soit νt la loi
de Xt . Quelle que soit ν0 , pour tout t > 0, la loi νt admet une densité de
classe C ∞ par rapport à la mesure de Lebesgue. De plus, si ν0 est absolument
continue de densité v0 par rapport à la mesure γ alors νt l’est aussi et sa
densité vt par rapport à γ est solution de l’équation aux dérivées partielles
Cette équation aux dérivées partielles est parfois appelée équation de Fokker-
Planck. Elle exprime l’évolution temporelle d’une densité spatiale, tout comme
l’équation d’Euler en mécanique des fluides, et l’équation de Boltzmann en
théorie cinétique des gaz.
∞
sx− 12 s2 sn
G(s, x) = e = Hn (x),
n=0
n!
2
En particulier, Hn et √ Hm sont orthogonaux dans L (γ) dès que 2n = m. Pour
voir enfin que (Hn / n!)n0 est bien une base orthonormée de L (γ), on peut
utiliser la formule de Plancherel
∞
s2n 2
2
H n 2
L (γ) = G(s, x) 2
γ(dx) = exp(−s2
) e2sx γ(dx)
n=0
n!
∞
s2n
= exp(s2 ) = ,
n=0
n!
2
qui donne la valeur de Hn L2 (γ) = n! en identifiant les deux séries.
25.2 Décomposition spectrale et inégalité de Poincaré 333
On a donc
β (s) = 2Ns (Nt−s f )2 .
Par la formule de Mehler, le semi-groupe vérifie la relation de commutation
(Nt f ) = e−t Nt (f ),
2. En physique Ent(μ | γ) est une énergie libre si μ et γ sont des mesures de Gibbs.
336 25 Processus d’Ornstein-Uhlenbeck
⎧
⎨ dμ1 log dμ1 dμ si μ1 ) μ2 ,
2
Ent(μ1 | μ2 ) = dμ2 dμ2
⎩
+∞ sinon.
Bien qu’il ne s’agisse pas d’une distance, elle est positive, et nulle si et seule-
ment si μ = ν (ceci découle de l’inégalité de Jensen pour la fonction stricte-
ment convexe x ∈ R+ → u log(u) avec 0 log(0) = 0). La distance de Wasser-
stein d’ordre 2 entre μ1 et μ2 est donnée par
8
2
W2 (μ1 , μ2 ) = inf E |X1 − X2 | ,
X1 ∼μ1
X2 ∼μ2
où l’infimum porte sur les couples (X1 , X2 ) de variables aléatoires dont les
lois marginales sont μ1 et μ2 . Les distances de Wasserstein de tous ordres sont
définies dans le chapitre 17. Ces deux quantités Ent(μ1 | μ2 ) et W2 (μ1 | μ2 ) ont
une expression explicite si μ1 et μ2 sont deux mesures gaussiennes.
Théorème 25.14 (Distances entre lois gaussiennes). Si μ1 = N (m1 , σ1 ) et
μ2 = N (m2 , σ2 ) sur R alors
et
e−2t (x1 − x2 )2
Ent(Nt (·)(x1 ), Nt (·)(x2 )) = 0.
2(1 − e−2t ) t→∞
Ces résultats s’étendent à des lois initiales plus générales. Le cas de la distance
de Wasserstein est simple, celui de l’entropie fait l’objet de la section suivante.
On en déduit que
|Xt − Xt | = e−2t |X0 − X0 | .
2 2
g 2
A(Φ(g)) − AgΦ (g) = Φ (g)g 2 = .
g
On a donc
(Nt−s f )2
β (s) = Ns .
Nt−s f
Par la formule de Mehler, le semi-groupe vérifie la relation de commutation
(Nt f ) = e−t Nt (f ),
Notons que réciproquement, tout comme nous l’avons fait pour l’inégalité
de Poincaré (preuve du corollaire 25.13), on peut déduire l’inégalité de So-
bolev logarithmique de la convergence exponentielle de l’entropie relative, en
considérant la dérivée en t = 0 de la différence des deux membres.
Démonstration. Notons vt la densité de μt par rapport à γ. On a alors
Ent(μt | γ) = vt log(vt )dγ.
25.5 Pour aller plus loin 341
Ag g 2
A(1 + log(g)) = − 2.
g g
D’après la propriété d’invariance de γ, on a Ag dγ = 0. On a donc
d (∂x vt )2
Ent(μt | γ) = − dγ,
dt vt
Son générateur infinitésimal L est donné pour une fonction f de classe C 2 par
Lf = Δf − ∇U, ∇f .
−U
Si e est intégrable alors la mesure de probabilité
1
μ(dx) = e−U (x) dx avec Z = e−U (x) dx,
Z
est la loi invariante associée à X. L’opérateur L est même auto-adjoint dans
L2 (μ). La décomposition spectrale du semi-groupe associé n’est pas explicite
au-delà du cas gaussien, mais il est encore possible d’obtenir des analogues
des théorèmes 25.10 ou 25.19 en procédant par comparaison au cas gaussien.
On peut par exemple montrer que s’il existe λ > 0 tel que
∀x ∈ Rd , Hess U (x) λI,
ce qui revient à dire que μ a une densité log-concave par rapport à la mesure
de probabilité gaussienne centrée de covariance λ−1 Id , alors pour tout t 0,
Ent(μt | μ) e−2λt Ent(μ0 | μ)
où μt est la loi de Xt . C’est un cas particulier du critère dit de Γ2 établi par
Dominique Bakry et Michel Émery [BÉ85]. Les processus de Kolmogorov sont
étudiés en détail dans les livres de Gilles Royer [Roy99], de Dominique Bakry,
Ivan Gentil, et Michel Ledoux [BGL14], et dans l’ouvrage collectif [ABC+ 00].
Signalons que le théorème 25.14 possède une extension au cas multivarié.
Plus précisément, si μ1 = Nd (m1 , Σ1 ) et μ2 = Nd (m2 , Σ2 ) sur Rd alors
1/2 1/2
W2 (μ1 , μ2 )2 = m1 − m2 22 + Tr(Σ1 + Σ2 − 2(Σ1 Σ2 Σ1 )1/2 ).
Lorsque Σ1√et Σ2 √ commutent le dernier membre de la formule ci-dessus se
résume à k Σ1 − Σ2 k2HS , ce qui ressemble bien à la formule de dimen-
sion 1. D’autre part, si les matrices de covariance Σ1 et Σ2 sont inversibles
alors
1 det Σ2
Ent(μ1 | μ2 ) = log
2 det Σ1
+ Tr (Σ2−1 Σ1 ) − d + (m1 − m2 )T Σ2−1 (m1 − m2 ) .
26
Modèles de diffusion cinétique
Nα √ 1
Nα
εi = σ2 α √ εi .
i=1 τ 2N α i=1
Y
Si N α est grand, le théorème limite central suggère que la loi de Y est proche
d’une loi gaussienne centrée réduite. De plus, les forces aléatoires exercées sur
les intervalles de temps disjoints sont dues à des molécules d’eau différentes car
elles se déplacent beaucoup moins que la particule. On peut donc les supposer
indépendantes. En conclusion, il paraît naturel de modéliser l’action des chocs
par un processus à accroissements indépendants et stationnaires dont la loi
d’un accroissement entre deux instants t et t + α est gaussienne centrée de
variance σ 2 α. Ce processus est le mouvement brownien (σBt )t0 . On retrouve
ici l’idée du théorème de Donsker (voir le théorème 27.6). Comme la vitesse
est la dérivée de la position, on obtient le système :
dXt = Vt dt
dVt = −λVt dt + σdBt .
On dit qu’il s’agit d’une équation cinétique car elle fait intervenir simultané-
ment la position et la vitesse de la particule. Dans tout le chapitre, on notera
(Zt )t0 le processus complet défini par Zt = (Xt , Vt ) pour t 0.
Théorème 26.1 (Processus de Langevin). Conditionnellement à l’événement
{(X0 , V0 ) = (x0 , v0 )}, le processus (Zt )t0 est un processus gaussien tel que
1 − e−λt
E(Xt ) = x0 + v0
λ
σ2 s σ2
Cov(Xt , Xs ) = 2 + 3 −2 + 2e−λt + 2e−λs − e−λ|t−s| − e−λ(t+s) .
λ 2λ
En particulier, la variance de Xt est donnée par
σ2 t σ2
Var(Xt ) = + −3 + 4e−λt − e−2λt .
λ2 2λ3
L’évolution de la vitesse ne dépend pas de la position.
26.2 Processus de Langevin confiné 345
σ 2 −λ|t−s|
Cov(Vt , Vs ) = e − e−λ(t+s) .
2λ
Lemme 26.3 (Loi au temps t). Si (X0 , V0 ) est un vecteur gaussien, alors il
en est de même pour (Xt , Vt ) pour tout t 0. De plus, si on note, pour t 0,
alors
(xt )t0 , (vt )t0 , (at )t0 , (bt )t0 , et (ct )t0
sont solutions des équations différentielles linéaires :
où ⎛ ⎞
0 2 0
0 1
M= et N = ⎝ −μ −λ 1 ⎠ .
−μ −λ
0 −2μ −2λ
Démonstration. Il s’agit d’une conséquence immédiate de la formule d’Itô.
Remarque 26.4 (Formules explicites). Lamatrice etM peut être explicitée :
— si λ > 4μ, alors, en notant ω = λ2 − 4μ, α1 = (−λ + ω)/2, et
2
α2 = (−λ − ω)/2,
eα2 t −α1 1 eα1 t α2 −1
etM = + ;
ω −μ α2 ω μ −α1
— si λ2 = 4μ, alors
tM 1 − λt/2
−λt/2 t
e =e ;
−λ2 t/4 1 + λt/2
— si λ2 − 4μ < 0, alors, en notant ω = μ − λ2 /4,
λ sin(ωt) sin(ωt)
tM −λt/2 cos(ωt) + 2ω ω
e =e .
− μ sin(ωt)
ω cos(ωt) − λ sin(ωt)
2ω
Fig. 26.1. Évolution des vecteurs moyenne (xt , vt ) (en haut) et covariance (at , bt , ct )
(en bas) pour σ = 1, λ = 1 et μ = 10.
dt = −2λdt + 2σ 2 bt
= −2λdt + 2σ 2 (−μat − λbt + ct )
(3)
dt
(4) (3)
dt = −2λdt + 2σ 2 (λμat + (λ2 − 4μ)bt − 3λct ) + 2σ 4 .
2σ 4 4
dt ∼ t .
t∼0 4!
348 26 Modèles de diffusion cinétique
Pour une diffusion sur R2 avec un bruit brownien non dégénéré, le détermi-
nant serait de l’ordre de t2 . Ce décalage est dû au fait que seule la composante
des vitesses est perturbée par un mouvement brownien. Cependant, la struc-
ture subtile du coefficient de dérive dans l’équation du processus de Langevin
confiné assure que ce bruit se propage sur les deux composantes et que la loi
du couple (Xt , Vt ) a une densité dès que t > 0. Il s’agit d’un cas particulier
du phénomène d’hypoellipticité, étudié dans un cadre général par Hörmander
puis par Malliavin notamment.
La figure 26.2 illustre l’apparition de densité lorsque la loi initiale est une
mesure de Dirac sur R2 au travers de l’évolution temporelle du déterminant de
la matrice de covariance. Il converge notamment vers celui de la loi invariante
qui vaut σ 4 /(4λ2 μ).
σ2
Af (x, v) = v · ∇x f (x, v) − (μx + λv) · ∇v f (x, v) + Δv f (x, v).
2
Démonstration. On applique la formule d’Itô à f avec Z0 = z :
t
f (Zt ) = f (z) + Af (Zs ) ds + Mt ,
0
Qt f (z) − f (z)
lim = Af (z).
t→0 t
La propriété de Markov fournit la relation à tout temps t 0.
Théorème 26.8 (Loi invariante). La mesure de probabilité gaussienne produit
σ2 σ2
π = N 0, ⊗ N 0,
2λμ 2λ
26.3 Comportement en temps long du processus confiné 349
0.25
0.20
0.15
0.10
0.05
0.00
0 1 2 3 4 5 6
est la loi invariante du processus (X, V ). Elle vérifie, pour toute fonction f
de classe C 2 et à support compact,
Af dπ = 0.
σ2
(xt , vt , at , bt , ct ) −−−→ (0, 0, 1, 0, μ)
t→∞ 2λμ
pour toutes conditions initiales finies puisque les parties réelles des valeurs
propres de M et N sont strictement positives.
∂t ut + v · ∇x ut − μx · ∇v ut = Δv ut + ∇v · (λvut ),
26.3 Comportement en temps long du processus confiné 351
50
45
40
35
30
25
20
15
10
0
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
150
100
50
0
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
∂t ht + v · ∇x ht − μx · ∇v ht = Δv ht − λv · ∇v ht .
avec ⎧
⎨ρ = λ − λ − 4μ
⎪ √
2
et d=0 si λ > 2 μ,
2
⎪
⎩ρ = λ √
si λ 2 μ.
2
Démonstration. On procède par couplage. Soit (Z0 , Z0 ) un couplage des lois
ν0 et ν0 indépendant du mouvement brownien (Bt )t0 . Notons
zt := Zt − Zt .
échantillonnage
paresse
lim
es
ite
uid
d
sfl
iffu
file
siv
Section 27.6
Espace continu
temps discret
Fig. 27.1. Diverses connexions entre processus à espace et temps discrets ou conti-
nus présentées dans ce chapitre.
est une chaîne de Markov à temps discret sur E de matrice de transition eδA ,
appelée chaîne échantillonnée.
27.2 Convergence d’une chaîne vers une diffusion 359
Les processus de Markov (Xn1 )n∈N , (Yt )t∈R+ et (Ynδ )n∈N sont très liés :
les propriétés de récurrence et transience coïncident et ces processus ont les
mêmes lois invariantes. Cependant même si la chaîne (Xn1 )n∈N est périodique,
ce n’est pas le cas pour (Yt )t∈R+ et (Ytδ )t∈R+ . En effet, on montre facilement
s’il existe n ∈ N tel que Px0 (Xn1 = x) > 0 alors Px0 (Yt = x) > 0 pour tout
t ∈ R+ et Px0 (Ymδ = x) > 0 pour tout m ∈ N.
Remarque 27.1 (Bernoulli vers Poisson). Un processus de Bernoulli rendu
de plus en plus paresseux convenablement renormalisé en temps converge vers
un processus de Poisson. Ceci permet notamment de retrouver la loi des petits
nombres déjà croisée au chapitre 1.
Remarque 27.2 (Généalogie et paresse). Dans le chapitre 13, la chaîne à
temps discret décrivant le nombre de générations à remonter pour trouver
l’ancêtre commun le plus récent dans une population de taille N converge,
quand N → ∞, vers un processus de mort pur à temps continu de manière
semblable à la convergence des chaînes paresseuses.
et
aN (x) = N (y − x)2 PN (x, dy).
|y−x|1
Supposons qu’il existe deux fonctions a et b à valeurs dans ]0, +∞[ et R res-
pectivement, bornées et de classe C 1 , et telles que pour tous r > 0 et ε > 0,
lim sup |bN (x) − b(x)| = 0, et lim sup |aN (x) − a(x)| = 0
N →∞ |x|r N →∞ |x|r
et
lim sup N PN (x, [x − ε, x + ε]) = 0.
N →∞ |x|r
N t
Ainsi, la famille de mesures de probabilité (PN )t∈R+ est-elle liée à N AN
comme (Pt )t∈R+ l’est à A. De plus, si f est de classe C 2 à support compact,
N AN f (x) = N (f (y) − f (x))PN (x, dy)
1
= bN (x)f (x) + aN (x)f (x) + O(N PN (x, [x − 1, x + 1])).
2
Les hypothèses du théorème assurent que N AN f converge vers Af . Reste à
en déduire la convergence en loi des processus associés. Cette étape dépasse
le cadre de cet ouvrage. On trouvera dans la section 27.7 des références pour
la preuve complète de ce résultat.
i )i1 est une suite de v.a. i.i.d. de loi pN δ1 + (1 − pN )δ−1 . Dans ce cas,
où (εN
√
— si pN = 1/2 alors (S NN · / N ) converge en loi vers le mouvement
N 1
brownien issu de 0 ;
— si pN = p = 1/2 alors (S N · /N )N 1 converge en loi vers le processus
déterministe t → (2p√− 1)t ;
— si pN = 1/2 + α/(2 N ) alors (S N · /N )N 1 converge en loi vers le
mouvement brownien avec dérive α issu de 0.
Le premier cas de l’exemple ci-dessous est une instance du théorème de
Donsker, analogue du théorème limite central pour les lois de processus.
Théorème 27.6 (Principe d’invariance de Donsker). Soit (Yn )n1 une suite
de variables aléatoires i.i.d. centrées et de variance 1. Notons
⎛ ⎞
1 N t
XtN = √ ⎝ Yk − (N t − N t)Y N t+1 ⎠.
N k=1
en posant
√ ZnN 1
YnN = N − .
N 2
362 27 Des chaînes de Markov aux processus de diffusion
Ta,b = inf {t 0 : Xt ∈
/ [a, b]}
Puisque LMa,b (x) = −1 pour x ∈ ]a, b[, la formule d’Itô pour Ma,b (Xt ) donne
Il reste à faire tendre n puis t vers +∞ pour obtenir, par convergence mono-
tone, que Ex (Ta,b ) est fini. Le temps Ta,b est donc fini p.s. et, par convergence
dominée, on obtient
364 27 Des chaînes de Markov aux processus de diffusion
# $ # $
lim E Ma,b (Xt∧Ta,b ) = E Ma,b (XTa,b ) = 0,
t→∞
puisque Ma,b est continue bornée sur [a, b] et nulle en a et b. On obtient ainsi
l’expression de Ex (Ta,b ).
De même, la formule d’Itô appliquée à p(Xt ) donne
# $
p(x) = Ex p(XTa,b ) = p(a)Px XTa,b = a + p(b)Px XTa,b = b .
On conclut en utilisant la relation Px XTa,b = a + Px XTa,b = b = 1.
XnN
YnN := .
N
Pour tout t ∈ R+ , posons
ZtN := Y NN t .
Théorème 27.11 (Limite diffusive de Wright-Fisher). Supposons que les taux
de sélection s et de mutation uA et uB (qui dépendent de N ) soient tels que
(N s, N uA , N uB ) −→ (α, βA , βB ).
N →∞
ηN z = ψN z (1 − uA ) + (1 − ψN z )uB
−βA z + βB (1 − z) + αz(1 − z)
=z+ + O(1/N ).
N
Puisque la loi de N Z1N sachant que Z0N = z est la loi Bin(N, ηN z ), on a
# $
N E Z1N − z|Z0N = z = N (ηN z − z)
= −βA z + βB (1 − z) + αz(1 − z) + O(1/N ).
De même
) 2 *
N E Z1N − z |Z0N = z = ηN z (1 − ηN z )
= z(1 − z) + O(1/N ).
car le moment centré d’ordre 4 d’une v.a. X de loi Bin(N, p) est donné par
) *
4
E (X − N p) = (3N p(1 − p) + 1 − 6p(1 − p))N p(1 − p) = O(N 2 ).
et la mesure de vitesse :
90
80
70
60
50
40
30
20
10
0 Estimation
Theorie
−10
0 10 20 30 40 50 60
1 − e−2αx
Px (ZT0,1 = 1) = .
1 − e−2α
La figure 27.3 propose une illustration de l’estimation de la probabilité de
fixation de l’allèle A. Si N = 105 , s = 10−4 et x = 0, 5, alors α = 20 et
la probabilité de fixation de l’allèle A vaut environ 0, 999955. Ce faible avan-
tage sélectif s, inobservable en laboratoire ou par des mesures statistiques,
est pourtant suffisant pour avoir un effet déterminant sur la fixation des al-
lèles. Le calcul de l’espérance du temps de fixation est plus délicat. L’équation
différentielle suivante :
27.4 Application aux processus de Wright-Fisher 367
1.2
1.0
0.8
0.6
0.4
0.2
Estimation
IdC
Theorie
0.0
0 5 10 15 20 25 30
1
z (x) + 2αz (x) = − , avec z(0) = 0 et z(1) = 0,
x(1 − x)
n’a pas de solution explicite. La figure 27.4 propose une estimation du temps
d’absorption pour N = 30 et α = 10.
Exemple 27.15 (Mutation sans sélection). On suppose ici que α = 0. La
diffusion est solution de
dXt = Xt (1 − Xt ) dBt + (−βA Xt + βB (1 − Xt )) dt.
Cette diffusion reste dans l’intervalle ]0, 1[, c’est-à-dire que T0,1 est infini p.s.
De plus, elle admet pour loi invariante ν la loi Beta(2βB , 2βA ), c’est-à-dire
que
Γ (2βA + 2βB ) 2βB −1
ν(dy) = y (1 − y)2βA −1 dy.
Γ (2βA )Γ (2βB )
En particulier, si Y suit la loi ν,
βB βA βB
E(Y ) = et Var(Y ) = 2
.
βA + βB (βA + βB ) (2(βA + βB ) + 1)
20
Estimation
18 IdC
16
14
12
10
0
0 5 10 15 20 25 30
(πi )1ik , le processus des proportions des allèles est à valeurs dans le sim-
plexe Δ de Rk , de dimension k − 1, et la densité de sa loi invariante par
rapport à la mesure de Lebesgue sur Δ est
Γ (θ) Γ (θπ1 )−1 Γ (θπ )−1
ν(y1 , . . . , yK ) = y · · · yK K 1Δ (y1 , . . . , yk ).
Γ (θπ1 ) · · · Γ (θπK ) 1
1
N
F N (x) = 1{Uk x} pour x ∈ R.
N
k=1
√
Introduisons le processus (HxN )x∈[0,1] défini par HxN = N (F N (x) − x)) pour
x ∈ [0, 1]. La loi forte des grands nombres et le théorème limite central assurent
que, pour tout x ∈ [0, 1],
p.s. loi
F N (x) −→ x et HxN −→ N (0, x(1 − x)).
N →∞ N →∞
27.6 Schéma d’Euler 369
puisque Cov(1{Uk y} , 1{Uk x} ) = y(1 − x). Ce calcul s’étend aisément à la
convergence d’une marginale quelconque (HxN1 , . . . , HxNk ). On obtient alors le
résultat suivant.
Théorème 27.17 (Pont brownien). La suite de processus (H N )N 1 converge
vers le processus gaussien (Mx )x∈[0,1] qui est centré et de covariance
Cov(My , Mx ) = y(1 − x)
Démonstration. Esquissons ici une idée de la preuve. Notons (Pt )t0 le semi-
groupe associé à (Xt )t0 et L son générateur infinitésimal. On écrit
n
Pnα f − Pαn f = α (Pα − Pα )Pα(n−k) f.
Pk−1
k=1
t). Reste une difficulté de taille : montrer que l’on contrôle les dérivées de
Pα(n−k) f pour que le développement limité ci-dessus soit valide. Ceci découle
de propriétés de régularité de la solution de l’équation aux dérivées partielles
parabolique ∂t u = Lu.
Il est également possible de contrôler l’écart trajectoriel entre les processus
X et X α supposés être construits avec le même mouvement brownien.
Théorème 27.21 (Erreur forte). S’il existe C > 0 tel que pour tous x, y ∈ R,
|b(x) − b(y)| + |σ(x) − σ(y)| C|x − y|,
alors, pour tout p 1 et tout T > 0, il existe Kp (T ) tel que
p
E sup |Xt − Xtα | Kp (T )αp/2 .
0tT
Les schémas d’Euler associés à des processus de diffusion ont été très lar-
gement étudiés. Citons les ouvrages de synthèse de Peter Kloeden et Eckhard
Platen [KP95], Nicolas Bouleau et Dominique Lépingle [BL94] pour la preuve
du théorème 27.21. Ajoutons également le livre de Carl Graham et Denis Talay
[GT13]. Il est possible d’améliorer le théorème 27.20 en obtenant un dévelop-
pement limité de l’erreur faible en puissances de α. Ceci permet d’accélérer la
convergence : en combinant des schémas de pas 2α et α on obtient une erreur
de l’ordre de α2 ! Cette méthode, appelée extrapolation de Romberg, est éga-
lement utilisée en analyse numérique des équations différentielles ordinaires.
Les deux travaux fondateurs dans cette direction sont dus à Denis Talay et
Luciano Tubaro [TT90], qui supposent que la fonction test est très régulière,
puis à Vlad Bally et Denis Talay [BT95] qui, grâce au calcul de Malliavin, ob-
tiennent le résultat pour des fonctions mesurables bornées si les coefficients σ
et b sont réguliers. La contribution de Denis Talay [Tal96] propose également
une synthèse sur les estimations de l’erreur faible.
Suggestions bibliographiques
CDPP09. P. Caputo, P. Dai Pra et G. Posta – « Convex entropy decay via the
Bochner-Bakry-Emery approach », Ann. Inst. Henri Poincaré Probab.
Stat. 45 (2009), no. 3, p. 734–753. 153
CF51. K. L. Chung et W. H. J. Fuchs – « On the distribution of values
of sums of random variables », Mem. Amer. Math. Soc. 1951 (1951),
no. 6, p. 12. 37
CH02. P. Carmona et Y. Hu – « On the partition function of a directed
polymer in a Gaussian random environment », Probab. Theory Related
Fields 124 (2002), no. 3, p. 431–457. 263
Cha06. D. Chafaï – « Binomial-Poisson entropic inequalities and the M/M/∞
queue », ESAIM Probab. Stat. 10 (2006), p. 317–339 (electronic). 153
Cha13. — , « Introduction aux matrices aléatoires », Aléatoire, Ed. Éc. Poly-
tech., Palaiseau, 2013, p. 87–122. 294
Clo13. B. Cloez – « Comportement asymptotique de processus avec sauts et
applications pour des modèles avec branchement », Thèse, Université
Paris-Est, 2013. 241
CMP10. D. Chafaï, F. Malrieu et K. Paroux – « On the long time beha-
vior of the TCP window size process », Stochastic Processes and their
Applications 8 (2010), no. 120, p. 1518–1534. 241
CSY03. F. Comets, T. Shiga et N. Yoshida – « Directed polymers in a ran-
dom environment : path localization and strong disorder », Bernoulli
9 (2003), no. 4, p. 705–723. 263
CT97. C. Cocozza-Thivent – Processus stochastiques et fiabilité des sys-
tèmes, Mathématiques et Applications, Springer, 1997. 250, 373
CV06. F. Comets et V. Vargas – « Majorizing multiplicative cascades for di-
rected polymers in random media », ALEA Lat. Am. J. Probab. Math.
Stat. 2 (2006), p. 267–277. 263
CW14. K. L. Chung et R. J. Williams – Introduction to stochastic inte-
gration, second éd., Modern Birkhäuser Classics, Birkhäuser/Springer,
New York, 2014. 373
CY06. F. Comets et N. Yoshida – « Directed polymers in random environ-
ment are diffusive at weak disorder », Ann. Probab. 34 (2006), no. 5,
p. 1746–1770. 263
Dav90. B. Davis – « Reinforced random walk », Probab. Theory Related Fields
84 (1990), no. 2, p. 203–229. 213
DCD83. D. Dacunha-Castelle et M. Duflo – Probabilités et statistiques.
Tome 2, Collection Mathématiques Appliquées pour la Maîtrise. [Col-
lection of Applied Mathematics for the Master’s Degree], Masson, Pa-
ris, 1983, Problèmes à temps mobile. [Movable-time problems]. 102
DCS12.
H. Duminil-Copin et S. Smirnov
√ – « The connective constant of the
honeycomb lattice equals 2 + 2 », Ann. of Math. (2) 175 (2012),
no. 3, p. 1653–1665. 227
Dem05. A. Dembo – « Favorite points, cover times and fractals », Lectures on
probability theory and statistics, Lecture Notes in Math., vol. 1869,
Springer, Berlin, 2005, p. 1–101. 17
380 Littérature
Rud87. W. Rudin – Real and complex analysis, third éd., McGraw-Hill Book
Co., New York, 1987. 323
Rug01. C. Ruget (éd.) – Mathématiques en situation, SCOPOS, vol. 11,
Springer-Verlag, Berlin, 2001, Issues de l’épreuve de modélisation de
l’agrégation. [From the Examination in Modelling for the Agrégation].
54
RW00. L. C. G. Rogers et D. Williams – Diffusions, Markov processes,
and martingales. Vol. 1, Cambridge Mathematical Library, Cambridge
University Press, Cambridge, 2000, Foundations, Reprint of the second
(1994) edition. 374
RY99. D. Revuz et M. Yor – Continuous martingales and Brownian motion,
third éd., Grundlehren der Mathematischen Wissenschaften [Funda-
mental Principles of Mathematical Sciences], vol. 293, Springer-Verlag,
Berlin, 1999. 373
Ré85. J.-L. Rémy – « Un procédé itératif de dénombrement d’arbres binaires
et son application à leur génération aléatoire », R.A.I.R.O. Informa-
tique Théorique 19 (1985), no. 2, p. 179–195. 68
She07. S. Sheffield – « Gaussian free fields for mathematicians », Probab.
Theory Related Fields 139 (2007), no. 3-4, p. 521–541. 37
Shi96. A. N. Shiryaev – Probability, second éd., Graduate Texts in Mathe-
matics, vol. 95, Springer-Verlag, New York, 1996, Translated from the
first (1980) Russian edition by R. P. Boas. 373
SM02. J. Siltaneva et E. Mäkinen – « A comparison of random binary tree
generators », The Computer Journal 45 (2002), no. 6, p. 653–660. 68
Spi70. F. Spitzer – Principes des cheminements aléatoires, Traduit de l’an-
glais par E. Baverez et J.-L. Guignard. Centre Interarmés de Recherche
Opérationnelle, vol. 2, Dunod, Paris, 1970. 37
Sta83. A. J. Stam – « Generation of a random partition of a finite set by an
urn model », J. Combin. Theory Ser. A 35 (1983), no. 2, p. 231–240.
67
Ste94. J. M. Steele – « Le Cam’s inequality and Poisson approximations »,
Amer. Math. Monthly 101 (1994), no. 1, p. 48–54. 15
Ste97. — , Probability theory and combinatorial optimization, CBMS-NSF Re-
gional Conference Series in Applied Mathematics, vol. 69, Society for
Industrial and Applied Mathematics (SIAM), Philadelphia, PA, 1997.
15, 275
Tal96. D. Talay – « Probabilistic numerical methods for partial differential
equations : elements of analysis », Probabilistic models for nonlinear
partial differential equations (Montecatini Terme, 1995), Lecture Notes
in Math., vol. 1627, Springer, Berlin, 1996, p. 148–196. 372
Tal02. — , « Stochastic Hamiltonian systems : exponential convergence to the
invariant measure, and discretization by the implicit Euler scheme »,
Markov Process. Related Fields 8 (2002), no. 2, p. 163–198, Inhomoge-
neous random systems (Cergy-Pontoise, 2001). 354
Tar11. P. Tarrès – « Localization of reinforced random walks »,
arXiv:1103.5536, 2011. 213
Littérature 389
D F
décomposition famille exponentielle, 71
de Dunford, 353 file
dépoissonisation, 272 d’attente, 140, 371
dérangement, 60 fluide, 371
désordre, 254 filtre de Kalman, 99
distance fixation, 157, 160
de couplage, 241 fonction
de Fréchet, 241 Beta, 201
de Kolmogorov-Smirnov, 283 caractéristique, 14, 175, 245, 320
de Mallows, 241 contractante, 77
de Wasserstein, 16, 150, 234, 282, d’acceptation-rejet, 73, 75
336, 337, 350, 352 de Green discrète, 32
en variation totale, 5, 150 de partition, 69, 252
divergence de Kullback-Leibler, 340 de renforcement, 207
doublement stochastique, 35, 114 d’échelle, 362
Gamma, 201
E génératrice, 23, 41, 147, 218, 220,
échangeabilité, 169, 201 239, 240, 320
échantillonneur de Gibbs, 74 harmonique, 24, 30, 313
égalité en loi, 50 formule
énergie, 69 de Bayes, 100
libre, 253 de Désiré André, 25
entropie, 113, 262 de Dobinski, 62
de Boltzmann, 70, 159 de Hadamard, 287
de Shannon, 159 de Kantorovich-Rubinstein, 151
relative, 110, 340, 350 de la moyenne, 313
environnement aléatoire, 252, 254 de Mehler, 327
équation de Placherel, 332
aux dérivées partielles, 304, 328 d’échantillonnage d’Ewens, 181
de Chapman-Kolmogorov, 147, 232, d’Isserlis, 61
239 d’Itô, 316, 326, 329, 363, 371
de Fokker-Planck, 331 d’Itô discrète, 24
de Fokker-Planck cinétique, 350 variationnelle de Courant-Fischer,
de la chaleur, 308, 322 283
de la chaleur avec dérive, 328
des ondes, 308 G
différentielle stochastique, 163, 165, générateur infinitésimal, 149, 152, 230,
325, 326, 342, 353, 362, 364, 366, 238, 250, 328
369 graphe
du télégraphe, 304, 308, 311 à attachement préférentiel, 203
Index 393
aléatoire, 70, 216 jeu de pile ou face, 1, 40, 161, 191, 195,
aléatoire de Barabási-Albert, 203 203, 216
aléatoire de Erdős-Rényi, 63, 224
complet, 224 L
de Bethe, 218 laplacien discret, 30
de Cayley, 188 lemme
d-régulier, 63 de Borel-Cantelli, 3, 13, 77, 145, 191,
dual, 222 195, 275, 285
fini, 62 de Cesàro, 88, 132
régulier, 74 de Fekete, 221, 260
groupe symétrique, 34, 58, 59, 70, 185,
de Grönwall, 341, 371
265
de Rényi, 142
H de Scheffé, 48
hamiltonien, 69 de Slutsky, 193
horloges exponentielles en compétition, de Wald, 245
141 loi
Hörmander, 347 Beta, 3, 165, 197, 201, 367
hypoellipticité, 347 Beta-binomiale, 3, 201
binomiale, 2
I binomiale-négative, 2
identité de Vandermonde, 28 de Bernoulli, 1
inégalité de Cauchy, 320, 321
d’Azuma-Hoeffding, 89, 137, 213, de Gumbel, 13, 120, 133, 135, 177
268, 270, 284 de Hardy-Weinberg, 155, 156
de Barbour-Eagleson, 15 de Mendel, 155
de Burkholder-Davis-Gundy, 371 de Pareto, 136, 213
de Chernoff, 124, 268 de Pascal, 2
de Hoffman-Wielandt, 282 de Poisson, 8, 58
de Jensen, 71, 110, 255, 260, 335, 336, de Rademacher, 19, 304
340 de reproduction, 39
de Le Cam, 9, 15, 193
de Zipf, 213
de Markov, 12, 145, 191, 226, 269,
des événements rares, 153
286
des grands nombres, 3, 23, 245, 246,
de Poincaré, 334, 335, 354
277, 279–281, 368
de Schwarz, 118, 286, 335, 338
chaînes de Markov, 98, 164
de Sobolev logarithmique, 338–341,
martingales, 102, 103, 131
354
des petits nombres, 9, 153, 224, 229,
de Tchebychev, 123, 268, 284
359
FKG, 254, 257
d’Ewens, 70, 181, 187
fonctionnelle, 354
du demi-cercle, 24, 280
Maurer, 137
intervalle du logarithme itéré de Strassen, 209,
de confiance de Clopper-Pearson, 3 246
de confiance de Wald, 3 du quart-de-cercle, 293
de prédiction, 12, 13 du zéro-un
irréversibilité, 113, 350 de Kolmogorov, 223, 256
pour les lois exponentielles, 143, 212
J pour les polymères, 256
jeu de dé, 9 géométrique, 2
394 Index
2
χ (n) loi du chi-deux à n degrés de liberté = Gamma(n/2, 1/2)