Traitement Numerique Du Signal Premiere

1
Traitement numérique du signal.

Première partie : Bases mathématiques
J.Idier
H. Piet-Lahanier
G. Le Besnerais
F. Champagnat
Première version du document : 1993

Date de la dernière remise à jour : mars 2004
2
3
Table des matières
Remerciements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Introduction 9
Notion de signal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Notion de système . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
I Filtrage linéaire et transformée de Fourier des signaux déterministes à temps

continu 11
I.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
I.1.1 Analyse fréquentielle et transformée de Fourier . . . . . . . . . . . . . . . 11
I.1.2 Convolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
I.2 Cas des signaux stables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
I.2.1 Définition et propriétés de la TF dans L1C (R) . . . . . . . . . . . . . . . . 15
I.2.2 Convolution dans L1C (R) . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
I.3 Cas des signaux d’énergie finie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
I.3.1 Définition et propriétés de la TF dans L2C (R) . . . . . . . . . . . . . . . . 17
I.3.2 Convolution « L1C (R) ∗ L2C (R) » . . . . . . . . . . . . . . . . . . . . . . . 18
I.4 Signaux harmonisables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
I.5 Filtrage linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
I.5.1 Filtre convolutionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
I.5.2 Représentation fréquentielle . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Annexe A Fonctions régularisantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Annexe B TF inverse de x
e stable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
II Signaux déterministes à temps discret 25

II.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
II.1.1 Formule sommatoire de Poisson . . . . . . . . . . . . . . . . . . . . . . . . 26
II.2 Théorème d’échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
II.2.1 Présentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
II.2.2 Théorème de Shannon-Nyquist . . . . . . . . . . . . . . . . . . . . . . . . 27
II.3 Transformée en z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
II.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
II.3.2 Propriétés de la transformée en z . . . . . . . . . . . . . . . . . . . . . . . 31
II.4 Transformée de Fourier à temps discret . . . . . . . . . . . . . . . . . . . . . . . 32
II.4.1 Lien entre transformée en z et transformée de Fourier . . . . . . . . . . . 32
4 Table des matières
II.4.2 Transformée de Fourier discrète (TFD) . . . . . . . . . . . . . . . . . . . 32
III Filtres numériques 35

III.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
III.1.1 Stabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
III.1.2 Causalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
III.1.3 Inversion d’un filtre numérique . . . . . . . . . . . . . . . . . . . . . . . . 37
III.1.4 Filtres rationnels, filtres dynamiques . . . . . . . . . . . . . . . . . . . . . 37
III.1.5 Filtres à Réponse Impulsionnelle Finie (RIF) . . . . . . . . . . . . . . . . 39
III.1.6 Filtres Tous Pôles (FTP) . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
III.2 Exemples de filtres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
III.2.1 Retard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
III.2.2 Lissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
III.2.3 Filtre récursif d’ordre 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
III.2.4 Filtre récursif d’ordre 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
IV Événements, variables et vecteurs aléatoires 47

IV.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
IV.2 Intégration et probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
IV.2.1 Espaces et applications mesurables . . . . . . . . . . . . . . . . . . . . . . 47
IV.2.2 Notion de mesure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
IV.2.3 Probabilités, événements . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
IV.3 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
IV.3.1 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
IV.3.2 Variables aléatoires réelles . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
IV.3.3 Espérance mathématique . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
IV.4 Couple de variables aléatoires réelles . . . . . . . . . . . . . . . . . . . . . . . . . 54
IV.4.1 Caractérisation et propriétés . . . . . . . . . . . . . . . . . . . . . . . . . 54
IV.4.2 Conditionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
IV.5 Vecteurs aléatoires réels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
IV.5.1 Généralisations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
IV.5.2 Changement de variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
IV.5.3 Vecteurs aléatoires d’ordre deux . . . . . . . . . . . . . . . . . . . . . . . 59
IV.5.4 Vecteurs aléatoires gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . 60
IV.6 L’espace de Hilbert L2 (Ω, F, P ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
IV.6.1 Norme et produit scalaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
IV.6.2 Sous-espaces de Hilbert . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
IV.6.3 Espérance conditionnelle dans L2 (Ω, F, P ) . . . . . . . . . . . . . . . . . . 63
V Signaux aléatoires à temps discret 65

V.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
V.2 Caractérisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
V.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Table des matières 5
V.2.2 Loi temporelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

V.2.3 Caractéristiques instantanées . . . . . . . . . . . . . . . . . . . . . . . . . 66
V.2.4 Caractéristiques à l’ordre deux . . . . . . . . . . . . . . . . . . . . . . . . 67
V.3 Construction et exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
V.3.1 Bruits blancs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
V.3.2 Chaines de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
V.3.3 Constructions indirectes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
V.4 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
V.4.1 Convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
V.4.2 Stationnarité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
V.4.3 Ergodisme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
V.5 Les signaux gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
VI Signaux aléatoires stationnaires faibles 79

VI.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
VI.2 Représentation harmonique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
VI.2.1 Fonction d’autocorrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
VI.2.2 Cas d’un bruit blanc numérique . . . . . . . . . . . . . . . . . . . . . . . . 81
VI.2.3 Trajectoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
VI.3 Filtrage linéaire convolutionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
VI.4 Analyse spectrale classique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
VI.4.1 Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
VI.4.2 Périodogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
VI.5 Analyse spectrale paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
VI.5.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
VI.5.2 ARMA réguliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
VI.5.3 Représentation spectrale des signaux autorégressifs . . . . . . . . . . . . . 89
VI.5.4 Équations de Yule-Walker . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
VI.5.5 Estimation spectrale autorégressive . . . . . . . . . . . . . . . . . . . . . . 90
6
7
Avant-propos
Remerciements
Les auteurs tiennent à remercier les personnes qui ont participé à ce cours à l’ENSTA et, en
particulier, Yves Goussard, Stéphane Gautier et Jean-François Giovannelli ; ainsi que celles qui
ont fait part de leurs remarques et corrections et contribué à l’amélioration du document écrit,
en particulier Caroline Kulcsár.
8
9
Introduction
Signaux et systèmes
Notion de signal
On désigne par signal déterministe, ou simplement par signal, une fonction d’une ou de plu-
sieurs variables de temps ou d’espace, en général à valeurs réelles ou complexes. Un signal est
un modèle commode pour décrire et étudier les variations continues d’un paramètre physique
(tension, intensité lumineuse, pression...) : on parle alors de signal analogique ; ou encore pour
modéliser un ensemble discret de valeurs indexé par des variations quantifiées (du temps, de
variables d’espace...), et on parle alors de signal numérique. Tandis qu’un signal déterministe
modélise les variations d’un paramètre au cours d’une expérience unique, la notion de signal
aléatoire permet de rassembler des signaux déterministes différents (chaque trajectoire d’un si-
gnal aléatoire est un signal déterministe), mais dont on présume des propriétés communes. Par
exemple les trajectoires de chacune des boules de loto mélangées dans une urne sont différentes
mais interchangeables ; on pourrait caractériser leurs propriétés communes comme celles d’un
unique signal aléatoire. Les signaux temporels sont seulement fonctions de la variable de temps.
Lorsque le signal évolue de façon continue avec le temps, on parle de signaux à temps continu.
Dans le cas où le signal est une fonction à variable discrète du temps, le signal est dit à temps
discret. La plupart des concepts et des résultats présentés dans ce cours pour des signaux tem-
porels admettent des extensions pour des signaux multivariés. Ainsi, le traitement des images
fait largement appel aux extensions bi-dimensionnelles.
Très souvent, les signaux à temps discret sont obtenus en retenant les valeurs prises par un
signal à temps continu en certains instants, à des fins de stockage ou de traitement sur calcula-
teur. Cette opération est appelée échantillonnage et, par extension, les signaux à temps discret
sont souvent appelés signaux échantillonnés. L’échantillonnage est un préalable au traitement
numérique du signal, dont l’importance pratique n’a cessé de croı̂tre depuis l’apparition des
moyens de calculs informatiques. Désormais un simple PC doté d’une carte d’acquisition et d’un
langage évolué peut souvent remplacer avantageusement les analyseurs de spectre, corrélateurs
et autres filtres à transfert de charges... , dispositifs d’analyse et de traitement analogiques coû-
teux et fragiles. L’échantillonnage des signaux permet aussi le stockage en mémoires de masse
numériques, disques durs, vidéodisques, supports magnétiques... C’est pourquoi nous insistons
particulièrement dans ce cours sur la manipulation des signaux à temps discret.
Notion de système
On peut définir les systèmes comme les modèles mathématiques des diverses transformations
subies par les signaux : par exemple une onde qui se propage est modifiée suivant les carac-
téristiques de transmission du milieu qu’elle traverse ; une quantité physique mesurée par un
10 Introduction : Signaux et systèmes
capteur subit une certaine altération, qui traduit l’effet de la « réponse » du capteur. Plus gé-
néralement, on caractérise la relation d’entrée-sortie d’un système quelconque par un opérateur
mathématique qui associe à un signal d’entrée x(t) un signal de sortie y(t). On s’intéressera
plus spécifiquement aux cas particuliers des filtres linéaires homogènes, dont la caractéristique
d’entrée-sortie est un opérateur linéaire invariant dans le temps. Ces filtres possèdent de nom-
breuses propriétés mathématiques et fournissent souvent un premier niveau de description sa-
tisfaisant (par exemple, pour des petites variations du signal d’entrée) de systèmes physiques
beaucoup plus compliqués.
11
Chapitre I
Filtrage linéaire et transformée de

Fourier des signaux déterministes à
temps continu
I.1 Introduction
L’objectif de ce chapitre est de construire et d’étudier les transformations linéaires fondamen-
tales que sont la transformée de Fourier (TF) et le filtrage linéaire. Bien que l’accent soit ensuite
porté sur les signaux discrets, l’étude préliminaire de ces transformations pour les signaux à
temps continu permet une meilleure compréhension d’ensemble. Elle est aussi un préalable né-
cessaire à l’étude théorique de l’opération d’échantillonnage (voir le chapitre II).
I.1.1 Analyse fréquentielle et transformée de Fourier

Décomposition fréquentielle
La représentation fréquentielle ou spectrale d’un signal x s’impose de façon naturelle dans les
domaines où les fréquences pures sont une réalité physique sous la forme des ondes monochroma-
tiques en acoustique, en mécanique vibratoire ou en optique. Plus généralement, elle constitue
un cadre pratique pour l’analyse des signaux (périodicité, pseudo-périodicité) et des systèmes
linéaires. Formellement, l’analyse fréquentielle d’un signal x est la recherche d’une représentation
du type
Z
x(t) = e(ν) e2iπνt dν, ∀t ∈ R
x (I.1)
R
c’est-à-dire d’une décomposition linéaire du signal sur l’ensemble des signaux complexes e2iπνt
de fréquence pure ν.
Transformée de Fourier
x étant une fonction à valeurs complexes de la variable réelle t, on appelle transformée de

Fourier de x la fonction x e à valeurs complexes de la variable réelle ν (ν est homogène à une
fréquence quand t est homogène à un temps) :
Z
tf ∆
x −→ x
e, x
e(ν) = x(t) e−2iπνt dt. (I.2)
R
12 Filtrage linéaire et transformée de Fourier des signaux déterministes à temps continu
Remarque
Dans certains cours d’intégration la TF de x est définie comme la fonction

Z ³ ´
ω
x̌(ω) = x(t) eiωt dt = x
e − ,
R 2π
ce qui revient pour le praticien à mesurer des pulsations (en radians par seconde) plutôt que
des fréquences (en Hertz). Cette variante a l’inconvénient de faire apparaı̂tre une constante qui
dissymétrise la décomposition (I.1), qui devient
Z
1
x(t) = x̌(ω) e−iωt dω.
2π R
Propriétés
Pourvu que les fonctions utilisées ci-dessous existent, on a les propriétés immédiates sui-
vantes :
tf
Linéarité : λ1 x1 + λ2 x2 −→ λ1 x
e1 + λ2 x
e2 (I.3)
tf
Retard : x(t − t0 ) −→ e−2iπνt0 x
e (I.4)
tf
Modulation : e2iπν0 t x(t) −→ xe(ν − ν0 ) (I.5)
³ ´
tf 1 ν
Affinité : x(at) −→ x
e (I.6)
|a| a
tf
Conjugaison : x∗ (t) −→ (e
x(−ν))∗ (I.7)
0 tf
Dérivation : x (t) −→ 2iπνe
x(ν) (I.8)
De la propriété (I.7), on déduit que la TF d’un signal réel possède la symétrie hermitienne :
x e(ν)∗
e(−ν) = x
et réciproquement, que la TF d’un signal à symétrie hermitienne est réelle. En associant les deux
résultats, on obtient que la TF d’un signal symétrique réel est réelle et symétrique.
Il est fréquent chez les physiciens et les ingénieurs de considérer la représentation (I.1) comme
une simple formule d’inversion de la TF du signal x. Encore faut-il garantir l’existence de la TF
x
e, puis montrer que l’intégrale (I.1) converge... En quel sens ? Dans quel espace ? Pour tout t ?
En fait les écritures (I.1) et (I.2) s’avèrent plus délicates que prévues, comme le montrent les
deux exemples suivants.
Exemple 1 : Inversibilité de la TF dans un cas simple
Soit x(t) = 1[−τ,τ ] (t) le signal rectangle valant 1 dans l’intervalle [−τ, τ ] et 0 ailleurs. Sa TF
s’obtient sans difficulté sous la forme
sin 2πντ
x
e(ν) = = 2τ sinc (2ντ ),
πν
où sinc désigne le sinus cardinal défini par t 7→ sin(πt)/(πt). Le sinus cardinal n’étant pas de
module intégrable sur R, la décomposition (I.1) se révèle problématique. On verra pourtant que
cette décomposition est valide presque partout en tant que formule d’inversion de la TF dans
l’espace de Hilbert des fonctions dont le carré du module est intégrable. Elle est même valide
pour tout t sauf −τ et τ , comme le montre un calcul direct faisant appel au théorème des résidus.
I.1 Introduction 13
Exemple 2 : Décomposition des signaux périodiques en série de Fourier
Considérons l’ensemble des signaux périodiques de période 1 de carré intégrable sur leur
période, sans faire la distinction entre des signaux presque partout (pp) égaux pour la mesure
de Lebesgue. Muni de la mesure de Lebesgue et du produit scalaire
Z 1
hx, yi = x(t) y ∗ (t) dt,
0
cet ensemble est l’espace de Hilbert L2C ([0, 1[), admettant pour base dénombrable orthonor-
male la famille trigonométrique (e2iπn· , n∈Z). Dans ces conditions, on définit le n-ième coefficient
de Fourier d’un signal x de L2C ([0, 1[) par projection sur le n-ième vecteur de la base
Z 1
2iπn·
x
en = hx, e i= x(t) e−2iπnt dt, (I.9)
0
P
et la série de Fourier n∈Z x en e2iπnt converge vers x(t) dans L2C ([0, 1[) en moyenne quadratique,
c’est-à-dire que la série est de carré sommable et que
Z 1¯ X ¯2
¯ N ¯
lim ¯ x
en e 2iπnt
− x(t)¯¯ dt = 0.
M →∞ ¯
N →∞ 0 n=−M
P
En fait, si n∈Z |e
xn | < +∞, on démontre aussi la convergence p.p. (c’est-à-dire pour presque
tout t) vers x(t) de sa série de Fourier, i.e., on ne peut distinguer ces deux fonctions dans
L2C ([0, 1[) :
X
x(t) = en e2iπnt .
x (I.10)
n∈Z
L’expression (I.10) est une décomposition harmonique dont (I.9) est la formule d’inversion.
Bien que ressemblant au couple (I.1)-(I.2) recherché, cette décomposition et son inverse ne se
transposent pas sous la forme (I.1)-(I.2) sans soulever de nouvelles questions. Symboliquement,
on peut obtenir la transposition grâce à la pseudo-fonction de Dirac δ, dont la propriété essentielle
réside en la formule symbolique suivante :
Z
δ(u − a) ϕ(u) du = ϕ(a), (I.11)
R
qui donne Z
δ(ν − n) e2iπνt dν = e2iπnt ,
R
ce qui permet d’identifier symboliquement la TF de x sous la forme d’un « peigne » de Dirac
X
x
e(ν) = x
en δ(ν − n).
n∈Z
La théorie des distributions donne un sens mathématique à cette écriture formelle dans
l’espace S des distributions tempérées. La référence [4] donne une vision rigoureuse mais très ac-
cessible de la TF des distributions tempérées. La restriction de l’espace S aux fonctions usuelles
est très vaste : elle contient non seulement les espaces usuels LpC (R), mais aussi toutes les fonc-
tions localement intégrables à croissance lente à l’infini (c’est-à-dire plus lente qu’un polynôme),
et en particulier les fonctions périodiques de carré intégrable sur leur période, que l’on sait par
ailleurs développer en série de Fourier (voir l’exemple 1 ci-dessus).
Dans le cadre de ce cours, nous nous contenterons d’une généralisation de la représentation

fréquentielle (I.1) n’utilisant pas les distributions mais seulement la théorie de la mesure. Les
signaux possédant cette représentation fréquentielle seront dits harmonisables.
Les deux exemples précédents suffisent à montrer qu’on ne peut se contenter d’écrire les
formules (I.1) ou (I.2) en leur accordant une généralité qu’elles n’ont pas a priori, ni a contrario
renoncer à ces représentations dès que les intégrales ne sont pas absolument convergentes. En
fait la notion de représentation de Fourier, correctement envisagée, reste valable dans un grand
nombre de situations.
Dans la présentation adoptée ici, on montre successivement l’existence et certaines propriétés
de la TF d’un signal x :
— dans l’espace L1C (R) des signaux stables à valeurs complexes, sans distinction entre des
signaux égaux p.p. pour la mesure de Lebesgue :
Z
1
x∈LC (R) ⇐⇒ |x(t)| dt < +∞; (I.12)
R
— dans l’espace L2C (R) des signaux d’énergie finie à valeurs complexes, sans distinction
entre des signaux égaux p.p. pour la mesure de Lebesgue :
Z
2
x∈LC (R) ⇐⇒ |x(t)|2 dt < +∞. (I.13)
R
— On définit ensuite la notion de signaux x harmonisables, c’est-à-dire auxquels on peut

associer une mesure complexe µ ex (dν) permettant une décomposition fréquentielle du type
Z
x(t) = e2iπνt µ
ex (dν).
R
I.1.2 Convolution
Définition
En même temps que la TF, nous définirons la notion de convolution h ∗ x de deux signaux
h et x : Z
∆
(h ∗ x)(t) = h(t − s) x(s) ds (I.14)
R
pour différents cas d’appartenance de h et x aux espaces L1C (R) et L2C (R). D’un point de
vue analytique, le problème sera là encore d’étudier la convergence d’une intégrale au sens de
Lebesgue. Par changement de variable, remarquons que la convolution est commutative quand
elle existe :
Z Z
(h ∗ x)(t) = h(t − s) x(s) ds = h(s0 ) x(t − s0 ) ds0 = (x ∗ h)(t).
R R
Lien avec le filtrage linéaire homogène
L’importance de la notion de convolution vient du fait qu’il s’agit d’un cas particulier de
filtrage linéaire homogène, en considérant que h caractérise un filtre dont la sortie est (h ∗ x)
lorsque l’entrée est x. La linéarité est une conséquence immédiate de la linéarité de l’intégrale
quand elle existe. Le terme homogène désigne l’invariance dans le temps : elle se déduit simple-
ment en calculant la sortie pour une entrée décalée xτ (t) = x(t − τ ) : le résultat est la sortie
(h ∗ x)(t − τ ) décalée de la même quantité.
I.2 Cas des signaux stables 15
Cette remarque permet de construire un filtre linéaire homogène en spécifiant le signal h,

constituant la caractéristique temporelle du filtre, ou encore sa réponse impulsionnelle, dénomi-
nation justifiée par le calcul formel de la sortie du filtre lorsque l’entrée est la pseudo-fonction
de Dirac δ, « impulsion » à l’instant t = 0 :
Z
(h ∗ δ)(t) = h(s0 ) δ(t − s0 ) ds0 = h(t).
R
Notons que la spécification d’une réponse impulsionnelle caractérise un filtre linéaire homo-
gène qui est seulement valable pour des entrées x telles que (I.14) existe.
I.2 Cas des signaux stables

On considère ici les fonctions de l’espace de Banach (espace vectoriel normé complet) L1C (R)
comme des modèles de signaux. Par exemple, cet espace contient tous les signaux bornés de
durée limitée à un intervalle de temps, tels le signal rectangle de l’exemple 1, et de façon plus
générale, les signaux continus s’annulant à l’infini en décroissant plus vite que 1/t. En restant
dans cet espace, on pourra donc seulement modéliser et étudier des phénomènes transitoires, à
l’exclusion de tout régime entretenu, périodique ou autre.
I.2.1 Définition et propriétés de la TF dans L1C (R)

Définition
L’espace L1C (R) est celui dans lequel se définit le plus naturellement la TF (I.2), puisque
cette dernière est une intégrale absolument convergente dans L1C (R), d’après la définition (I.12).
Propriétés
— La TF x
e de tout signal stable x est bornée :
Z
|e
x(ν)| 6 |x(t)| dt < +∞.
R
Dans le cas d’un signal stable positif, la borne est atteinte en x

e(0).
— x e est une fonction continue d’après le théorème de continuité issu de la convergence
dominée de Lebesgue (x(t) e−2iπνt est continue en ν pour tout t fixé et majorée en module par
|x(t)|).
— Plus indirectement, on montre aussi que x e tend vers zéro à l’infini. L’ensemble des fonctions
continues nulles à l’infini est noté C0 (R) : x
e∈C0 (R).
Malheureusement C0 (R) n’est pas inclus dans L1C (R) ; les fonctions de C0 (R) sont seulement
localement sommables (l’exemple 1 fournit un contre-exemple). On ne peut donc justifier la
décomposition (I.1) aussi facilement que l’existence de la TF (I.2). Tout au plus peut-on assurer
la validité de (I.1) dans le cas où xe est stable. Dans ce cas, la TF inverse existe et elle est p.p.
égale à x(t), comme on pourra le montrer à l’aide d’une fonction régularisante dans l’Annexe B
(ce procédé exploite les propriétés de la convolution dans L1C (R) étudiées ci-dessous).
On en déduit l’injectivité de la TF des signaux stables : si deux signaux stables x et y ont
même TF, ils sont égaux car leur différence est la TF inverse de la fonction nulle.
I.2.2 Convolution dans L1C (R)

Soient h et x deux signaux stables. Par application du théorème de Fubini,
Z Z Z Z
|h(t − s) x(s)| dt ds = |h(t)| dt |x(t)| dt < +∞, (I.15)
R R R R
ce qui entraı̂ne, pour presque tout t,
Z
|h(t − s) x(s)| ds < +∞.
R
R
Il est donc possible de définir pour presque tout t la fonction (h ∗ x)(t) = R h(t − s) x(s) ds,
stable d’après (I.15).
Formule de convolution-multiplication
L’utilité pratique de la TF est en grande partie de faciliter l’étude du filtrage linéaire. Voyons
le cas du filtrage convolutionnel stable. Considérons deux signaux x et h stables. Leur convolution
y = h ∗ x est stable, donc sa TF existe :
Z µZ ¶
ye(ν) = h(t − s) x(s) ds e−2iπνt dt
R R
Z Z
= h(t − s) e−2iπν(t−s) x(s) e−2iπνs dsdt (Fubini)
ZR R Z
= h(t) e−2iπνt dt x(s) e−2iπνs ds
R R
= e
h(ν) x
e(ν),
soit
tf
h ∗ x −→ ehx
e pour x et h stables. (I.16)
Cas particulier : autocorrélation
Particularisons le résultat (I.16) en posant h(t) = x∗ (−t) : d’après (I.6) et (I.7), on obtient
Z
∆ tf
cx (τ ) = x(t)x∗ (t − τ ) dt −→ |e
x(ν)|2 .
R
La fonction d’autocorrélation cx du signal x est définie presque partout dans L1C (R) (que
x|2 est appelée densité spectrale d’énergie (ou spectre d’énergie) de x.
vaut cx (0) ?). La fonction |e
I.3 Cas des signaux d’énergie finie

L’existence de la TF (I.2) des signaux stables est naturelle. En revanche, il est plus surprenant
que la formulation inverse (I.1) ne soit pas toujours possible. Ce manque de symétrie frustrant
disparaı̂t quand on étudie la TF des signaux d’énergie finie, dont la définition est pourtant
beaucoup moins directe.
Rappelons qu’il n’existe aucune relation d’inclusion entre L1C (R) et L2C (R). Par exemple,
sinc ∈ L2C (R) mais 6∈ L1C (R)
p
e−|t| / |t| ∈ L1C (R) mais ∈
6 L2C (R).
Nous allons néanmoins pouvoir transporter dans L2C (R) l’existence dans L1C (R) de la TF et
de la convolution, et montrer en plus que la formule d’inversion de la TF est systématique dans
L2C (R).
I.3 Cas des signaux d’énergie finie 17
8
1
7
0.8 sinc(t)
6 exp(−| t |)/sqrt(| t |)
0.6
5
0.4
4
0.2
3
0
2
t
−0.2 1
t
−0.4 0
−5 −4 −3 −2 −1 0 1 2 3 4 5 −5 −4 −3 −2 −1 0 1 2 3 4 5
I.3.1 Définition et propriétés de la TF dans L2C (R)

TF des signaux de L1C (R) ∩ L2C (R)
Soit x stable et d’énergie finie. Alors sa TF est d’énergie finie, égale à l’énergie du signal.
C’est le théorème de Parseval
Z Z
|x(t)|2 dt = x(ν)|2 dν,
|e (I.17)
R R
dont nous admettrons la démonstration, qui utilise à nouveau une fonction régularisante, voir
Annexe A.
La TF est donc une application linéaire isométrique de L1C (R) ∩ L2C (R) vers L2C (R). Comme
L1C (R)∩L2C (R) est dense dans L2C (R), espace complet, cette isométrie se prolonge par continuité
en une application linéaire isométrique de L2C (R) sur lui-même [6]. On continuera de noter x e
l’image de x par cette application, et on continuera de l’appeler la TF de x.
Propriétés de la TF dans L2C (R)
— La TF dans L2C (R) s’obtient comme une limite de TF d’éléments de L1C (R) ∩ L2C (R). On
ne peut donc pas écrire systématiquement (I.2) au sens de Lebesgue. En revanche,
Z T
tf
x −→ x e, xe(ν) = lim x(t) e−2iπνt dt
T →+∞ −T
au sens L2 , c’est-à-dire en moyenne quadratique, et de la même façon, la TF est systématique-

ment inversible sous la forme
Z N
x(t) = lim e(ν) e2iπνt dν.
x
N →+∞ −N
On se trouve dans le cas d’intégrales impropres au sens de Lebesgue, qui sont dites semi-
convergentes [6]. En connaissance de cause, on conservera les écritures commodes (I.1) et (I.2).
— Quand on possède la TF x e d’un signal x d’énergie finie, quelle est la TF du signal d’énergie
finie x
e ? Il est facile de vérifier que le résultat est x(−t). C’est pourquoi les tables de TF dans
L2C (R) peuvent se lire dans les deux sens. Par exemple, comme les fonctions régularisantes
présentées en Annexe A sont paires, elles sont elles-mêmes la TF de leur TF.
Autocorrélation des signaux dans L2C (R)
D’après l’inégalité de Schwarz dans L2C (R), les signaux d’énergie finie admettent une fonction
d’autocorrélation :
|hx, x(· − τ )i|2 6 hx, xi hx(· − τ ), x(· − τ )i
c’est-à-dire ¯Z ¯ Z
¯ ¯
¯ x(t)x (t − τ ) dt¯ 6
∗
|x(t)|2 dt < +∞,
¯ ¯
R R
soit encore |cx (τ )| 6 cx (0) < +∞.
Dans le cas d’un signal x à valeurs réelles, les égalités :
kx + x(· − τ )k2 = 2(cx (0) + cx (τ ))
kx − x(· − τ )k2 = 2(cx (0) − cx (τ ))
permettent en premier lieu de retrouver l’inégalité |cx (τ )| 6 cx (0) ; elles permettent aussi d’inter-
préter qualitativement la fonction d’autocorrélation. Plus |cx (τ )| est faible, plus le signal décalé
x(· − τ ) diffère du signal x, au sens de la norme de L2R (R).
A la différence du cas d’un signal stable, la fonction d’autocorrélation cx d’un signal d’énergie
finie n’est pas forcément stable (ni d’énergie finie). En revanche on peut montrer sa continuité
uniforme sur R. Comme dans le cas des signaux stables, existe-t-il encore un lien avec la densité
spectrale
R x|2 ? Celle-ci est maintenant dans L1C (R), donc on peut calculer l’intégrale
d’énergie |e
x(ν)|2 e2iπνt dν. En utilisant une fonction régularisante, on peut montrer que le résultat est
R |e
Z
∀t, x(ν)|2 e2iπνt dν = cx (t).
|e (I.18)
R
Ce résultat généralise le théorème de Parseval (I.17) (qui s’en déduit pour t = 0) et constitue
une décomposition spectrale de type (I.1) pour la fonction d’autocorrélation.
I.3.2 Convolution « L1C (R) ∗ L2C (R) »

Existence
Soient h un signal stable et x un signal d’énergie finie. On montre l’inégalité

Z ³Z ´2 ³Z ´2 Z
|h(s)x(t − s)|ds dt < |h(t)| dt x(t)2 dt
R R R R
qui implique l’existence de la convolution (h ∗ x)(t) pour presque tout t et l’appartenance de

h ∗ x à L2C (R). On peut ensuite obtenir l’essentiel des résultats du § I.2.2.
Le théorème (I.16) a été obtenu pour des signaux stables. Il est a fortiori valable quand x
est dans L1C (R) ∩ L2C (R), et h ∗ x est alors également dans L1C (R) ∩ L2C (R). Si x est seulement
dans L2C (R), le signal tronqué xT (t) = 1[−T,T ] (t) x(t) est stable et on obtient (1.15) dans L2C (R)
comme une égalité de limite :
TF
yT = h ∗ xT −−−−→ yeT = e
hxeT
 
 2  2
yL yL
ye = e
hxe
p.p.
I.4 Signaux harmonisables

Un signal x est dit harmonisable s’il est possible de le mettre sous la forme
Z
x(t) = e2iπνt µ
ex (dν), (I.19)
R
I.5 Filtrage linéaire 19
où µ
ex , mesure
R harmonique de x, est une mesure sur R à valeurs complexes de variation totale
|e
µx | = | R µ
ex (dν)| < +∞.
Reprenons l’exemple de la décomposition des signaux périodiques en série de Fourier. Soit
x un signal périodique de période T , stable sur sa période. On définit le n-ième coefficient de
Fourier du signal x par Z
1 T
x
en = s(t) e−2iπnt/T dt.
T 0
P P
Si n∈Z |e xn | < +∞ alors, pour presque tout t, x(t) = n∈ en e2iπnt/T . Dans ce cas, le signal
PZ x
x est harmonisable et sa mesure harmonique est µ ex (dν) = n∈Z x en δn/T (dν), où δa désigne la
mesure de Dirac au point a.
De même, les signaux de L1C (R) dont la TF est stable admettent la représentation harmo-
nique (I.1), comme le montre l’Annexe B. Ces signaux sont harmonisables, de mesure harmonique
à densité par rapport à la mesure de Lebesgue : µ
ex (dν) = x
e(ν) dν.
I.5 Filtrage linéaire

La notion de filtre permet de représenter tout système physique permettant de transformer
un signal d’entrée x en un signal de sortie y. Comme indiqué dans l’introduction, nous nous
limiterons, dans ce paragraphe, à l’étude des filtres linéaires homogènes, c’est-à-dire satisfaisant
les principes de linéarité et d’invariance dans le temps. Ceci signifie que si y1 est la sortie associée
au signal d’entrée x1 et y2 la sortie associée à x2 , le signal de sortie associé à l’entrée λ1 x1 + λ2 x2
est λ1 y1 + λ2 y2 et que la sortie de x1 (t − τ ) est y1 (t − τ ).
I.5.1 Filtre convolutionnel

Cas L1C (R) ou L2C (R)
On a déjà mentionné au § I.2 la possibilité de caractériser un filtre par la convolution avec

une réponse impulsionnelle h. Au § I.2.2 et au § I.3.2, nous avons effectivement pu définir p.p. la
sortie y = h ∗ x d’un filtre convolutionnel stable, c’est-à-dire associé à un signal h stable, dans le
cas où x est stable ou d’énergie finie. La sortie est alors respectivement stable ou d’énergie finie.
Filtrage des signaux périodiques
De la même façon, on peut considérer la convolution d’une réponse impulsionnelle h stable

par une entrée x périodique et stable sur sa période. Alors il est facile de montrer que la sortie
y = h ∗ x est définie, périodique de période T et stable sur sa période. Ses coefficients de Fourier
sont yen = e
h(n/T )e xn .
Extension aux signaux harmonisables
Montrons que le filtrage convolutionnel stable des signaux harmonisables est encore possible.
Soit un signal x harmonisable de mesure harmonique µ ex et h un signal stable. Le signal y = h ∗ x
est défini p.p., car
Z Z Z
2iπνt
|h(t − s) e µ
ex (dν)| ds 6 |e
µx | |h(s)| ds < +∞,
R R R
ce qui entraı̂ne, pour presque tout t (Fubini),

Z
|h(t − s) x(s)| ds < +∞.
R
D’autre part on vérifie facilement que y admet la représentation harmonique

Z
y(t) = e2iπνte
h(ν) µ
ex (dν),
R
c’est-à-dire que la mesure harmonique de y est
ey (dν) = e
µ h(ν) µ
ex (dν). (I.20)
Ce résultat peut être interprété comme une généralisation de la formule de convolution-

multiplication (I.16).
Causalité
Si le signal h(t) est égal à 0 pour t < 0, le filtre est dit causal. Dans la pratique, pour des
signaux temporels, ceci signifie que le filtre ne produit de réponse qu’après avoir été sollicité par
une entrée. En effet, la relation de convolution (I.14) peut s’écrire pour h causal
Z ∞
(h ∗ x)(t) = h(s0 ) x(t − s0 ) ds0 ,
0
ce qui montre que la sortie (h ∗ x)(t) du filtre ne dépend (linéairement) que de la valeur présente
de l’entrée x(t) ainsi que de ses valeurs passées.
Comme la causalité dans le temps est une condition nécessaire évidente pour qu’un filtre
temporel soit réalisable sous la forme d’un système physique, certains ouvrages (par exemple
spécialisés en communication) limitent la notion de filtre à des réalisations causales. Pour plu-
sieurs raisons, ce point de vue nous semble trop restrictif dans le cadre d’un cours « généraliste » :
— d’une part, la contrainte de causalité n’existe pas dans le cas du filtrage spatial : un
système optique isotrope est un opérateur linéaire dans le cadre de l’approximation de Gauss et
sa réponse impulsionnelle est symétrique, donc évidemment « non causale » ;
— d’autre part, on peut « réaliser » formellement la sortie d’un filtre temporel non causal en
tolérant un retard entre l’entrée et la sortie. L’exemple du traitement numérique hors ligne est
révélateur : une fois les échantillons d’un signal stockés dans la mémoire d’un ordinateur, leur
filtrage non causal n’est pas moins réalisable qu’un filtrage causal. On peut même « remonter le
temps » en traitant les échantillons dans l’ordre inverse de leur acquisition !
I.5.2 Représentation fréquentielle

Généralités
Considérons un filtre convolutionnel de réponse impulsionnelle h stable et notons H e sa trans-

e
formée de Fourier (notée h jusqu’à présent). D’après la formule de convolution-multiplication,
on obtient pour un signal d’entrée stable x la relation entrée/sortie dans le domaine de Fourier :
ex
ye = H e.
Évaluons d’autre part la sortie du filtre dans le cas d’un signal d’entrée exponentiel complexe
x(t) = e2iπν0 t , pour ν0 élément de R :
Z
y(t) = h(s) e2iπν0 (t−s) ds
R Z
2iπν0 t
= e h(s) e−2iπν0 s ds
R
e 0 ).
= x(t) H(ν
En d’autres termes, les « fréquences pures » sont les signaux propres des filtres convolution-
e
nels. Le coefficient H(ν) est appelé transmittance complexe du filtre à la fréquence ν et on peut
l’écrire sous la forme suivante :
e
H(ν) = A(ν) eiφ(ν) ,
avec A(ν) = |H(ν)|e le gain d’amplitude et φ(ν) = arg H(ν)e le déphasage (subis par le signal
x(t) = e 2iπνt au passage dans le filtre).
Réciproquement, on peut chercher à définir un filtre linéaire homogène par sa transmittance
e Formellement, il suffit pour cela de restreindre l’ensemble des entrées admissibles
complexe H.
aux signaux x harmonisables pour lesquels
Z
y(t) = e
e2iπνt H(ν) µex (dν)
R
est définie p.p. La mesure harmonique de la sortie est alors
µ e
ey (dν) = H(ν) µ
ex (dν).
Exemple 1
Un filtre passe-bande idéal est caractérisé par la transmittance H(ν) e = 1[−B2 ,−B1 ] (ν) +
1[B1 ,B2 ] (ν), c’est-à-dire qu’il « coupe » toute l’énergie du signal située en dehors de l’intervalle
(la « bande » ) de fréquence [B1 , B2 ]. On peut définir sa sortie pour toute entrée harmonisable.
On définit de même des filtres coupe-bande, passe-haut (B2 = +∞), passe-bas (B1 = 0), etc.
On peut s’intéresser à la réponse impulsionnelle de ces filtres (pourquoi existe-t-elle ?) : un
cas particulier très utile est le filtre passe-bas « idéal » ; pour B1 = 0 et B2 = B, la réponse
impulsionnelle h s’écrit
h(t) = 2B sinc (2Bt).
On note immédiatement que cette réponse impulsionnelle est non causale et de support infini,
ce qui signifie que la réalisation physique d’un tel filtre ne peut être qu’approchée (c’est pourquoi
on l’appelle filtre passe-bas « idéal »).
Exemple 2
Le filtre dérivateur est caractérisé par la transmittance H(ν)e = 2iπν. On peut le définir sur
l’ensemble des entrées qui se mettent sous la forme :
Z
x(t) = e2iπνt s(ν) dν,
R
telles que s et ν → νs(ν) soient des éléments de L1C (R). De tels signaux sont continus et
dérivables et on voit facilement que le filtre dérivateur associe à x sa dérivée dx/dt :
Z
d
x(t) = 2iπν e2iπνt s(ν) dν.
dt R
Annexe A Fonctions régularisantes

Définition
Une fonction régularisante est une fonction θ stable et normalisée :

Z
e = 1,
θ(t) dt = θ(0)
R
et dont la TF est également stable. En pratique on choisit des fonctions réelles positives et paires.
D’autre part une fonction régularisante est majorée, continue et décroissante vers 0 sur R+ .
Exemples
Les fonctions régularisantes les plus courantes sont celles de Féjer-Cesaro, Cauchy-Poisson
et Gauss-Weierstrass respectivement associées aux trois couples :
tf e = (1 − |ν|) 1[−1,1] (ν)
θ(t) = sin2 πt/π 2 t2 −→ θ(ν) (I.21)
2 2 tf e =e −|ν|
θ(t) = 2/(1 + 4π t ) −→ θ(ν) (I.22)
√ 2 2 tf −ν 2
θ(t) = π e−π t −→ e =e
θ(ν) (I.23)
Propriétés
La caractéristique intéressante de ces fonctions est d’admettre la décomposition (I.1) par

vérification directe. On peut alors « propager » cette propriété à d’autres fonctions, dont les
fonctions stables à TF stable, comme nous allons le montrer maintenant.
Annexe B TF inverse de x
e stable
L’objet de cette partie est de montrer que dans le cas où la TF x e d’un signal x stable est
stable, la TF inverse (I.1) existe et est p.p. égale à x. Si x est stable, on a d’après (I.6) et (I.16) :
³ν ´
tf
λ θ(λt) ∗ x(t) −→ θe x
e(ν), (I.24)
λ
c’est-à-dire (I.2) pour λ θ(λt) ∗ x(t). Montrons inversement (I.1) pour cette fonction régularisée :
Z ³ν ´
θe e(ν) e2iπνt dν = λ θ(λt) ∗ x(t) pour tout t.
x (I.25)
R λ
D’après (I.14), on a
Z
λ θ(λt) ∗ x(t) = λ θ(λ(t − u))x(u) du.
R
Soit θ(λ(t − u)) = θ(λu)eu (t), avec par exemple eu (t) = exp(−π 2 λ2 t(t − 2u)) dans le cas du
facteur de Gauss-Weierstrass. Alors :
Z
λ θ(λt) ∗ x(t) = λ θ(λu)x(u)eu (t) du.
R
Par TF, en utilisant d’une part (I.24) et le théorème de Fubini d’autre part, on obtient
³ν ´ Z ³Z ´ Z
e
θ x
e(ν) = λ θ(λu) x(u) eu (t) e −2iπνt
dt du = λ θ(λu) x(u)e
eu (ν) du.
λ R R R
Toujours grâce au théorème de Fubini, en remarquant que |λ θ(λu)x(u) eeu (ν)| est intégrable en
dudν, on en déduit :
Z ³ν ´ Z ³Z ´
θe e(ν) e2iπνt dν =
x λ θ(λu) x(u) eeu (ν) e2iπνt dν du
R λ
ZR R
= λ θ(λu) x(u) eu (t) du

R
= λ θ(λt) ∗ x(t).
Dans le cas où x

e est également stable, le théorème de convergence dominée entraı̂ne que le
premier terme de (I.25) tend vers Z
e(ν) e2iπνt dν
x
R
pour tout t quand λ tend vers +∞, uniformément dans tout intervalle. D’autre part, si l’on peut
démontrer que le deuxième membre de (I.25) tend simultanément vers x dans L1C (R), alors on
aura la formule d’inversion (I.1) pour presque tout t. Pour démontrer ce dernier point, on forme
en utilisant (I.24)
Z Z ¯Z ¯
¯ ¯
|λ θ(λt) ∗ x(t) − x(t)| dt = ¯ (x(t − u) − x(t))λ θ(λu) du¯ dt.
R R R
R
Donc, en posant f (u) = R |x(t − u) − x(t)|dt,
Z Z Z ³ u0 ´
|λ θ(λt) ∗ x(t) − x(t)| dt 6 f (u)λ θ(λu) du = f θ(u0 ) du0 .
R R R λ
R
Comme f (u) = |f (u)| est majorée par 2 R |x(t)| dt, le théorème de Lebesgue donne
Z ³ u0 ´ Z ³ u0 ´
0 0
lim f θ(u ) du = lim f θ(u0 ) du0 = 0
λ→+∞ R λ R λ→+∞ λ
pourvu que f (u) tende vers zéro quand u tend vers zéro. D’après le théorème de Lebesgue, c’est
vrai si x est continue à support compact. On passe ensuite au cas général en approchant dans
L1C (R) les fonctions stables par des fonctions continues à support compact.
Remarque
e n’est pas stable, on conserve quand même un résultat de convergence dans L1C (R) :
Même si x
Z ³ν ´
lim e(ν)θe
x e2iπνt dν = x(t)
λ→+∞ R λ
pour presque tout t, résultat valable pour les différentes fonctions régularisantes θ.
24
25
Chapitre II
Signaux déterministes à temps

discret
II.1 Introduction
Les signaux à temps discret tiennent une place prépondérante dans les applications dans la
mesure où de plus en plus de traitements sont effectués par voie numérique. Nous insisterons
donc particulièrement dans ce cours sur ce type de signal, que ce soit dans le cadre déterministe
ou aléatoire. Dans la pratique, une grande partie des signaux à temps discret correspondent à
un échantillonnage d’un signal continu, mais il existe des processus qui sont par nature à valeurs
discrètes comme par exemple des images reçues sur des mosaı̈ques CCD.
Dans ce chapitre, nous étudierons en premier lieu le problème de la transformation d’un
signal continu sous forme discrète. On utilise en général un échantillonnage régulier, par lequel
on associe à un signal x la suite de valeurs numériques xk = x(kTe ), k ∈ Z, où Te est le pas
(ou période) d’échantillonnage. La première question à se poser lors de cette transformation
est : dans quelle mesure la suite des échantillons {xk }k∈Z décrit parfaitement le signal initial
x ? Le théorème de Shannon permet de définir les conditions de conservation de l’information
véhiculée par x dans le signal à temps discret1 {xk }k∈Z . Après avoir abordé cette question, nous
présentons les outils les plus couramment utilisés pour les signaux à temps discret. Il s’agit de
la transformée en z et de la transformée de Fourier discrète. Comme dans le cas continu, on se
placera dans les deux cadres suivants :
— l’ensemble (espace de Banach) des signaux à temps discret stables
½ X ¾
`1 = {xk }k∈Z / |xk | < +∞ ,
k∈Z
— l’espace de Hilbert des signaux à temps discret d’énergie finie,

½ X ¾
2 2
` = {xk }k∈Z / |xk | < +∞ .
k∈Z
Signalons la relation d’inclusion `1 ⊂ `2 qui n’a pas cours dans le cas des signaux continus.
1
Dans ce chapitre, un signal à temps discret est noté {xk }k∈Z pour le distinguer du signal à temps continu x.
Dans la suite du cours, les signaux à temps continu ne seront plus utilisés et la notation x désignera le signal à
temps discret.
26 Signaux déterministes à temps discret
II.1.1 Formule sommatoire de Poisson

Cette formule est utilisée en analyse pour calculer simplement des sommes de séries. Dans
le cas du traitement du signal, cette formule est liée au théorème d’échantillonnage que nous
allons présenter dans le paragraphe suivant et peut, d’autre part, être utilisée pour des calculs
de spectres de signaux complexes.
Théorème
Soit s un signal complexe stable de transformée de Fourier se stable et soit T un réel positif
quelconque. Alors pour presque tout (u, ν) ∈ R2
X X ³n − ν ´
T s(nT − u) e2iπνn = e2iπνu/T se e−2iπun/T . (II.1)
T
n∈Z n∈Z
Démonstration
RT P R
P Sachant que 0 n∈Z |s(nT − u)| du = R |s(u)| du < +∞, la fonction périodique
n∈Z |s(nT − u)| est presque partout finie. Donc
X
F (u, ν) = s(nT − u) e2iπν(nT −u)/T (II.2)
n∈Z
est une fonction définie presque partout en u, périodique et intégrable sur [0, T ].
Pour tout k∈Z,
Z X Z T
1 T
F (u, ν) e−2iπku/T du = s(nT − u) e2iπ(ν+k)(nT −u)/T
T 0
n∈Z 0
³ ´
1 −ν − k
= se .
T T
P
Or, la transformée de Fourier est stable, donc pour presque tout ν, k∈Z |e s ( −νT− k )| < +∞.
On peut donc utiliser les transformées de Fourier inverses et montrer que pour presque tout
(u, ν),
³ ´
1 X k − ν −2iπuk/T
F (u, ν) = se e .
T T
k∈Z
En faisant u = ν = 0 dans (II.1), sous réserve d’existence, on obtient la formule sommatoire

de Poisson,
X X
T s(nT ) = se(n/T ) (II.3)
n∈Z n∈Z
Notons que pour que (II.3) soit vrai, il faut que la série s(nT ) soit absolument convergente, ce
qui n’est pas équivalent à s stable.
II.2 Théorème d’échantillonnage

II.2.1 Présentation
Soit x un signal stable continu, dont la transformée de Fourier possède un support limité à
la bande de fréquence [−B, B]. Cette transformée de Fourier est continue et puisqu’elle est à
support borné, elle est intégrable et
Z B
∀t∈R, x(t) = xe(ν) e2iπνt dν.
−B
II.2 Théorème d’échantillonnage 27
On dit alors que le signal x est à bande limitée sur [−B, B].
En utilisant la formule de Poisson (II.1) en u = 0 et ν p.p., ce qui exige que
X ¯¯ ³ n ´¯¯
¯x ¯ < +∞,
2B
n∈Z
on peut écrire, en remplaçant ν par −T ν et T par 1/2B dans (II.1),

³ ´
1 X n X
x e−iπνn/B = xe(ν + 2Bn) = x e(ν). (II.4)
2B 2B
n∈Z n∈Z
Donc Z ³ ´
B
1 X n
x(t) = x e−iπνn/B e2iπνt dν,
−B 2B 2B
n∈Z
soit
³ ´Z B
1 X n
x(t) = x e−iπνn/B e2iπνt dν,
2B 2B −B
n∈Z
ou encore ³ ´ ³ ´
1 X n n
x(t) = x h t− ,
2B 2B 2B
n∈Z
où h est la réponse impulsionnelle du filtre passe-bas idéal de bande [−B, B] vue au chapitre
précédent.
II.2.2 Théorème de Shannon-Nyquist

Soit x un signal stable continu à bande limitée sur [−B, B]. Si on choisit une période d’échan-
tillonnage Te telle que Te < 1/2B, et si
X
|x(nTe )| < +∞,
n∈Z
alors il est possible de reconstruire sans erreur le signal x à partir de ses échantillons xn = x(nTe )
à l’aide de la formule suivante, dite formule d’interpolation de Shannon :
X
x(t) = x(nTe ) sinc (t/Te − n) (II.5)
n∈Z
Remarque 1
La position absolue des instants d’échantillonnage n’a pas d’importance ; c’est uniquement
la cadence qui importe.
Remarque 2
Le théorème de reconstruction, énoncé pour K = 0, reste valable pour tout signal réel stable
continu dont la TF est à support limité à des intervalles symétriques de type
h i h i
−2K − 1 −2K + 1 2K − 1 2K + 1
, ∪ , ,
2Te 2Te 2Te 2Te
pour tout K entier, pourvu que K soit connu. On obtient alors une version « haute fréquence »
du théorème d’échantillonnage,
xK (t) = x0 (t) cos(2πK/Te ),
particulièrement utile pour l’échantillonnage des signaux modulés à haute fréquence.
Interprétation du théorème d’échantillonnage. Phénomène de repliement
Lorsque les conditions du théorème d’échantillonnage ne sont pas satisfaites, il est important
de comprendre qualitativement quel phénomène rend inapplicable la formule d’interpolation de
Shannon.
Considérons donc un signal x qui n’est pas à bande limitée sur [−B, B], et dont l’échantillon-
nage est effectué à la fréquence 2B. Pour reconstruire le signal, on filtre le train d’impulsions
obtenu par le filtre passe bas [−B, B]. Le signal reconstruit, après division par 2B, est donc
³ ´Z B Z B µX ³ ´ ¶
1 X n −2iπνn/2B 2iπνt 1 2iπνt n −2iπνn/2B
x
b(t) = x e e dν = e x e dν.
2B 2B −B 2B −B 2B
n∈Z n∈Z
D’après la formule sommatoire de Poisson, l’expression entre parenthèses peut également s’écrire
³ ´
1 X n X
x e−2iπνn/2B = x
e(ν − 2Bn)
2B 2B
n∈Z n∈Z
ce qui, reporté dans l’expression précédente, permet d’écrire

Z B X
x
b(t) = e2iπνt x
e(ν − 2Bn)dν.
−B n∈Z
La transformée de Fourier du signal reconstruit est donc

X
ê
x(ν) = x
e(ν − 2Bn) 1[−B,+B] (ν).
n∈Z
Cette transformée de Fourier est obtenue en superposant les spectres obtenus par décalage
de multiples de 2B à partir du spectre initial sur la plage de fréquences [−B, B]. Ce phénomène
est dénommé recouvrement de spectre ou aliasing.
L’opération d’échantillonnage est illustrée par la figure II.1. L’encadré représente le signal x
et sa transformée de Fourier à support limité sur [−B, B].
— Dans la partie supérieure de la figure, l’échantillonnage du signal x est effectué à une
cadence Te < 1/2B. Dans le domaine de Fourier, conformément à (II.5), ge(ν) est obtenue par
simple « périodisation » de xe. Étant donné que 2B < 1/Te , il n’y a pas de chevauchement et on
peut retrouver xe en effectuant un filtrage passe-bas idéal. Dans le domaine temporel, l’équivalent
de cette opération est la convolution par un sinus cardinal.
— Dans la partie inférieure de la figure, l’échantillonnage du signal x est effectué à une
cadence Te0 > 1/2B. Dans ce cas, le calcul de ge fait intervenir un repliement des motifs répliqués
de x
e : un filtrage passe-bas idéal ne restituera pas le signal x original.
Filtre anti-repliement
Il est d’usage, lorsque l’on échantillonne un signal x à une cadence donnée Te , de filtrer le
signal au préalable avec un filtre passe-bas de fréquence de coupure 1/2Te , ce qui permet d’éviter
les phénomènes de repliement. Notons xBF le signal filtré, qui vérifie les hypothèses de Shannon
pour l’échantillonnage à une cadence de Te et peut donc être reconstruit sans erreur à partir de
ses échantillons {xBF (nT e )}n∈Z . Le signal xBF ne contient que les composantes basse fréquence
du signal original, mais constitue cependant une approximation du signal x meilleure que le
signal x̂ reconstruit à partir des échantillons {x(nT e )}n∈Z (voir paragraphe précédent), au sens
de la norme dans L2C (R). En effet, on démontre (simplement, en utilisant Parseval) l’inégalité :
Z Z
2
|x(t) − xBF (t)| dt 6 |x(t) − x̂(t)|2 dt .
R R
II.2 Théorème d’échantillonnage 29
{x k} ≡ {x(kTe)} g(ν) 2
2
TF
t ν
0
[
Te –1/T e –B 0 B 1/Te
* ×
Échantillonnage ( T e)
h(t)
Périodisation (Te )
2
H(ν)
2
TF
t ν
0 Te –1/2Te 0 1/2T e
ˆ 2
x(ν)
x(t)
TF 2
t ν
0 –B 0 B
Échantillonnage ( T e’ )
Périodisation (Te’ )
avec repliement
× ×
{x k} ≡ {x(kT ’e )} g(ν) 2
2
TF
t ν
[
0 T e’ –1/T ’e 0 1/T ’e
Fig. II.1. Échantillonnage d’un signal et repliement de sa TF (voir texte).

II.3 Transformée en z
II.3.1 Définition
La transformée en z (TZ) est l’analogue discrète de la transformée de Laplace des signaux
continus. Elle sera particulièrement utilisée dans le chapitre suivant consacré aux filtres numé-
riques. En effet, la transformée en z d’un filtre permet d’étudier de façon simple sa stabilité. Elle
fournit également une représentation compacte des filtres AR ou ARMA qui sont fréquemment
utilisés en traitement du signal.
On associe formellement à tout signal discret {xk }k∈Z sa TZ définie par
X
X(z) = xk z −k , z ∈ C. (II.6)
k∈Z
Pour un signal donné, l’ensemble des valeurs de z pour lesquelles la série converge est la
région de convergence (RDC). Pour la déterminer, on peut utiliser le critère de Cauchy sur la
convergence des séries de puissance. On décompose la somme précédente sous la forme X(z) =
X1 (z) + X2 (z) avec
+∞
X +∞
X
k
X1 (z) = x−k z et X2 (z) = xk z −k .
k=1 k=0
On montre alors que X2 (z) converge si |z| > Rx− , où
Rx− = lim sup |xk |1/k .
k→+∞
D’une manière similaire on peut montrer que X1 (z) converge si |z| < Rx+ , où Rx+ est défini par
1
= lim sup |x−k |1/k .
Rx+ k→+∞
Dans le cas général, la série converge dans un anneau du plan complexe défini par
0 6 Rx− < |z| < Rx+ 6 +∞ .
Le problème suivant consiste à déterminer un signal connaissant sa TZ et la RDC associée.

Pour cela on s’appuie sur des résultats de l’étude des fonctions de la variable complexe [2].
L’expression (II.6) est un développement en série de Laurent de la fonction X(z), valable dans
une couronne de convergence. Par conséquent la représentation en TZ du signal {xk }k∈Z est la
donnée de la fonction X(z) et de la RDC sur laquelle le développement en série de Laurent de
X(z) restitue les coefficients {xk }k∈Z :
TZ
{xk }k∈Z −→ X(z) et RDC = {z / Rx− < |z| < Rx+ } (II.7)
Le calcul d’un signal à partir de sa TZ est donc un problème de développement en série de
Laurent. On rappelle rapidement la démarche, qui fait appel au théorème de Cauchy sur l’inté-
gration le long d’un contour dans le plan complexe. De ce théorème, on peut évaluer l’intégrale
I : I
1
I= z k−1 dz = δk
2iπ Γ+
où Γ+ est un contour fermé qui entoure l’origine des z parcouru dans le sens trigonométrique.
{δk } est le signal de Kronecker défini par δ0 = 1 et δk = 0 si k 6= 0. En multipliant les deux
membres de l’équation définissant la transformée en z par z l−1 /2iπ et en intégrant le long d’un
contour Γ+ entourant l’origine et contenu dans la RDC, on a
I I X
1 k−1 1
X(z) z dz = xl z −l+k−1 dz.
2iπ Γ+ 2iπ Γ+
l∈Z
II.3 Transformée en z 31
L’intégrale étant calculée dans la RDC, la série est absolument convergente et on peut donc
inverser l’intégration et la sommation, ce qui s’écrit
I +∞
X I
1 k−1 xl
X(z) z dz = z −l+k−1 dz.
2iπ Γ+ −∞
2iπ Γ +
Compte tenu de la remarque sur l’intégrale I, on obtient finalement la formule d’inversion

de la TZ I
1
xk = X(z) z k−1 dz. (II.8)
2πi Γ+
Le calcul effectif de l’intégrale peut se faire de plusieurs manières, par exemple grâce à la méthode
des résidus (voir [2]). Le terme xk s’exprime alors comme la somme des résidus de la fonction
X(z) z k−1 pour les pôles intérieurs au contour Γ+ . Lorsque k est négatif, on peut préférer sommer
les résidus aux pôles extérieurs au contour Γ+ , ce qui revient à le parcourir dans le sens opposé
au sens trigonométrique (et xk est alors l’opposé de la somme de ces résidus). Cette pratique est
intéressante lorsque |X(z) z k−1 | décroı̂t suffisamment vite à l’infini.
II.3.2 Propriétés de la transformée en z

— On appelle pôles de X(z), les valeurs de z pour lesquelles la transformée X(z) tend vers
l’infini, et zéros de X(z) les valeurs de z pour lesquelles X(z) s’annule.
— Soit un signal {xk }k∈Z et soit la version décalée yk = xk−k0 , qui correspond à l’introduction
d’un retard k0 . En prenant la transformée en z, on obtient :
Y (z) = z −k0 X(z),
sous réserve que z appartienne à la RDC de {xk }k∈Z .

— Le produit de convolution à temps discret x ∗ h de deux signaux {xk }k∈Z et {hk }k∈Z est
défini par X
yk = xn hk−n .
n∈Z
Son élément neutre est le signal de Kronecker {δk } défini au paragraphe précédent. Notons
qu’au contraire de la pseudo-fonction de Dirac du cas continu, ce signal ne pose aucun problème
de définition et qu’il est élément de `1 . Comme dans le cas continu, sous certaines conditions,
la transformée en z établit une correspondance entre produit de convolution et produit : la
transformée en z de {yk }k∈Z s’écrit
XX
Y (z) = xn hk−n z −k .
k∈Z n∈Z
Si z appartient à l’intersection des RDC de chacune de ces séries et en posant m = k − n, il vient

X X
Y (z) = xn z −n hm z −m = X(z) H(z),
n∈Z m∈Z
i.e., le produit de convolution de deux signaux conduit à un produit simple par transformée
en z. Notons que la RDC de {yk }k∈Z peut s’avérer plus grande que l’intersection des RDC de
{xk }k∈Z et de {hk }k∈Z .
II.4 Transformée de Fourier à temps discret

II.4.1 Lien entre transformée en z et transformée de Fourier
e
Pour un signal à temps discret {xk }k∈Z , la transformée de Fourier X(ν) correspond à l’ex-
pression de sa transformée en z prise en z = e 2iπν :
X
e
X(ν) = xk e−2iπνk , ν ∈ R. (II.9)
k∈Z
Son existence dépend de la convergence absolue de la série (II.9) sur le cercle unité : si le signal
{xk }k∈Z est dans `1 , la RDC de la série (II.9) contient le cercle unité et la transformée de Fourier
existe. Notons qu’alors la fonction X e est périodique de période 1.
Formule d’inversion
Contrairement au cas continu, la stabilité permet de garantir l’existence d’une transformée

de Fourier inverse. En multipliant (II.9) par e2iπnν et en intégrant sur [0, 1], on obtient xn comme
e :
le n-ième coefficient de Fourier de X
Z 1
xn = e
X(ν) e2iπnν dν. (II.10)
0
Égalité de Plancherel-Parseval
L’analogue du théorème de Parseval vu au chapitre I, (I.16) existe en discret. Soit {xk }k∈Z
appartenant à `2 muni du produit hermitien
X
hx, yi = xk yk∗ .
k∈Z
e
Soit X(ν) la transformée de Fourier associée à xn , alors
X Z 1
|xn |2 = e
|X(ν)| 2
dν. (II.11)
n∈Z 0
II.4.2 Transformée de Fourier discrète (TFD)

Comme dans le cas continu, on peut s’intéresser à la représentation de Fourier des signaux dis-
crets périodiques {xk }k∈Z de période N . Dans le cas discret, cette représentation est d’un intérêt
pratique considérable car on dispose d’algorithmes rapides qui permettent de passer de la repré-
sentation temporelle {xk }k=0,N −1 à une représentation fréquentielle équivalente {Xl }l=0,N −1 , et
réciproquement.
Pour un signal discret périodique {xk }k∈Z de période N , on définit sa TFD par
N −1
1 X
Xl = xk e−2iπkl/N , l ∈ Z. (II.12)
N
k=0
On obtient ainsi un nouveau signal discret {Xl }l∈Z , également périodique de période N .
De façon duale, on montre la formule d’inversion
N
X −1
xk = Xl e2iπkl/N , k ∈ Z. (II.13)
l=0
II.4 Transformée de Fourier à temps discret 33
Le signal {Xl }l∈Z est donc une représentation équivalente de {xk }k∈Z . Du fait de la périodicité,
la connaissance de N points successifs suffit à définir entièrement chacun de ces signaux. Les
transformations linéaires (II.12) et (II.13) peuvent donc être résumées par la relation matricielle
liant les vecteurs x = [x0 , . . . , xN −1 ]t et X = [X0 , . . . , XN −1 ]t :
1
X= WN x, (II.14)
N
kl = e−2iπkl/N , d’inverse W ∗ /N .
où WN est une matrice inversible d’éléments wN N
Transformée de Fourier discrète rapide (TFR ou FFT)
Le calcul de la TFD du vecteur x par la formule (II.14) nécessite environ N 2 multiplications.

L’algorithme de transformée de Fourier rapide est un moyen de calcul exact de la transformée de
Fourier discrète qui permet de réduire notablement le coût de calcul. Le principe est de découper
le problème initial en un grand nombre de problèmes auxiliaires de dimensions réduites, afin
que le coût total de leur résolution (comprenant la somme des coûts de chacun d’entre eux et
le raccordement des solutions élémentaires) soit sensiblement réduit. Ce découpage est rendu
possible par la structure très particulière de la matrice WN . De façon générale, la dimension
des problèmes auxiliaires dépend de la décomposition de N en facteurs premiers. Le cas le plus
favorable correspond à N = 2K . Comme nous le verrons dans le dernier paragraphe, on se
ramène souvent à ce cas, aussi est-ce le seul que nous détaillons. L’opération élémentaire est
alors la décomposition d’une TFD d’ordre N en deux TFD, chacune d’ordre N/2.
On peut écrire (II.14) sous la forme
µN/2−1
X N/2−1
X ¶
1 2jl (2j+1)l
Xl = x2j wN + x2j+1 wN .
N
j=0 j=0
2k = w k , ce qui permet de transformer la relation précédente en

Or wN N/2
µN/2−1
X N/2−1
X ¶
1 jl l jl
Xl = x2j wN/2 + wN x2j+1 wN/2 ,
N
j=0 j=0
que l’on peut écrire sous la forme

l
Xl = Yl + wN Zl (0 6 l 6 N − 1),
où Yl et Zl correspondent aux TFD de yi = x2i et zi = x2i+1 définies par II.12. En observant de
l+N/2 l , la formule précédente peut se séparer en
plus que Yl+N/2 = Yl , Zl+N/2 = Zl et wN = −wN
l l
Xl = Yl + wN Zl (0 6 l 6 N/2 − 1), Xl = Yl − wN Zl (N/2 6 l 6 N − 1).
Le calcul de Y et Z, de dimension N/2, nécessite deux TFD d’ordre N/2. On a donc remplacé
une TFD de longueur N par deux TFD d’ordre N/2, au prix de N/2 multiplications complexes
et N additions complexes supplémentaires. Dans le cas où N est une puissance de 2, on peut
itérer le processus pour aboutir à des TFD de longueur 2 triviales. Le nombre d’itérations étant
log2 N/2, on montre que la complexité totale de l’algorithme est de N/2 log2 N/2 multiplications
complexes et N log2 N/2 additions complexes.
Bourrage de zéros (zero padding )
Considérons un signal discret {xk }k∈Z de support [0, N − 1]. L’équation (II.9) nous permet
de calculer sa transformée de Fourier
N
X −1
e
X(ν) = xk e−2iπνk , ν∈R,
k=0
qui est périodique de période 1. Notons {xM k }k∈Z le signal périodique de période M > N ,
construit à partir des échantillons non nuls du signal {xk }k∈Z complétés par des zéros, c’est-à-
dire défini par la période suivante :
xM M M M
0 = x0 , . . . , xN −1 = xN −1 , xN = 0, . . . , xM −1 = 0.
Sa transformée de Fourier discrète se calcule à partir de l’équation (II.12) :

N −1
1 X
XlM = xk e−2iπkl/M , l = 0, . . . , M − 1 .
M
k=0
En examinant les deux équations précédentes on remarque que

e (l/M ) = M X M ,
X l = 0, . . . , M − 1.
l
Ainsi la TFD de {xM k }k∈Z conduit à une version échantillonnée de la TF du signal à support
limité {xk }k∈Z , pour la période d’échantillonnage 1/M (échantillonnage fréquentiel ).
L’opération précédente est appelée « bourrage de zéro » (zero padding) dans la littérature
de traitement du signal. Les calculs précédents montrent qu’elle permet :
— d’interpoler la transformée de Fourier d’un signal à support limité pour toutes les fré-
quences uniquement en utilisant des TFR,
— de remplacer le calcul d’une TFR sur N points par un calcul sur M = 2K points (M > N ).
On obtient alors la TF de {xk } échantillonnée avec la période fréquentielle 1/2K au lieu de 1/N .
Ceci n’empêche pas d’étudier le comportement fréquentiel du signal {xk }, et permet d’utiliser
l’algorithme de TFR associé aux puissances de deux (voir le paragraphe précédent). Notons que
cette opération est indispensable lorsque l’on veut faire la TFR d’une séquence dont la taille N
est un (grand) nombre premier.
Soit deux signaux discrets périodiques {xk } et {hk } de même période N et de représentations
fréquentielles respectives {Xk }k∈Z et {Hk }k∈Z . La formule de convolution-multiplication s’écrit :
N
X −1
tfd
yk = xn hk−n , k ∈ Z −→ Yk = Hk Xk , k ∈ Z
n=0
où {yk }k∈Z et {Yk }k∈Z sont des signaux périodiques de période N . Si l’on représente ces trois
signaux périodiques par les vecteurs x = (x0 , . . . , xN −1 )t , h, y et leurs représentations fréquen-
tielles respectives par X, H et Y on peut écrire la formule précédente comme une relation
matricielle
1
Y = (H0 X0 , . . . HN −1 XN −1 )t = WN y.
N
Le vecteur y est alors la convolution circulaire des vecteurs x et h, définie par
( Pk P −1
yk = n=0 xn hk−n + N n=k+1 xn hk+N −n , 0 6 k 6 N − 2 ;
PN −1 (II.15)
yN −1 = n=0 xn hk−n .
35
Chapitre III
Filtres numériques
III.1 Introduction
Le signal de sortie d’un filtre linéaire homogène est donné par le produit de convolution de
{xk }, le signal d’entrée, et de {hk }, la réponse impulsionnelle du filtre. La réponse impulsionnelle
{hk }, ou réponse percussionnelle dans certains ouvrages, est définie comme la sortie du filtre pour
le signal d’entrée {δk }. La TZ de {hk } est définie par :
tz
{hk }k∈Z −→ H(z) et RDC = {z/R1 < |z| < R2 }. (III.1)
On appelle fonction de transfert la fonction H(z). Une autre représentation que nous serons
e
souvent appelés à utiliser est la réponse fréquentielle du filtre H(ν) qui est la transformée de
Fourier de la réponse impulsionnelle.
Les filtres sont fréquemment utilisés afin de transformer les signaux d’entrée de façon à
éliminer, ou tout du moins à atténuer fortement, certaines fréquences qui sont indésirables ou
qui correspondent à des perturbations. Par exemple, il est souvent nécessaire de supprimer
des fréquences proches de 50 ou 60 Hz qui peuvent induire des interférences avec le courant
d’alimentation. Nous avons présenté au chapitre 1 certains types de filtres utilisés pour cet
usage, qui sont :
— les filtres passe-bas qui atténuent fortement les fréquences situées au delà d’une limite
définie sans affecter les fréquences plus basses.
— Les filtres passe-haut qui atténuent fortement les fréquences situées en deçà d’une limite
définie sans affecter les fréquences plus hautes.
— Les filtres passe-bande qui préservent le signal d’entrée dans un intervalle de fréquence et
atténuent ses composantes situées à l’extérieur de cet intervalle.
— Les filtres coupe-bande qui suppriment les composantes du signal d’entrée situées dans un
intervalle de fréquence et n’affectent pas les composantes situées à l’extérieur de cet intervalle.
La figure III.1 présente pour chacun des types de filtre mentionnés ci-dessus la réponse
fréquentielle associée à des filtres réels en comparant avec la réponse idéale souhaitée. La synthèse
des filtres réels a été effectuée par l’approche type Butterworth [3] où l’on approxime la fonction
à l’aide d’un polynôme de degré N . L’approximation est d’autant meilleure que N est élevé mais
le filtre obtenu devient difficile à utiliser dans la pratique. Les filtres présentés ici correspondent
à N = 8.
Nous allons à présent introduire les propriétés importantes de certains filtres numériques.
36 Filtres numériques
Filtre Passe-Bande Filtre Coupe-Bande

1.5 1.5
1 1
|H(v)|2
|H(v)|2
0.5 0.5
0 0
0 100 200 300 400 500 0 100 200 300 400 500
Fréquence Fréquence
Filtre Passe-Bas Filtre Passe-Haut

1.5 1.5
1 1
|H(v)|2
|H(v)|2
0.5 0.5
0 0
0 100 200 300 400 500 0 100 200 300 400 500
Fig. III.1. Exemples de modules de fonctions de transfert de filtre.

III.1 Introduction 37
III.1.1 Stabilité
Il existe plusieurs définitions de la stabilité d’un filtre ; nous ne retiendrons ici que la stabilité
au sens déjà défini dans le cas continu, c’est-à-dire {hk } ∈ `1 . On la désigne parfois par « stabilité
au sens strict », ou « stabilité BIBO » (Bounded Input Bounded Output), car on montre que
{hk } ∈ `1 est une condition nécessaire et suffisante pour qu’à toute entrée bornée le filtre associe
une sortie bornée. Comme indiqué précédemment, la stabilité stricte de {hk } correspond au fait
que le cercle unité appartienne à la RDC, ou encore à l’existence de la transformée de Fourier
e
de {hk } : H(ν) = H(e2iπν ), appelée transmittance, comme à temps continu.
III.1.2 Causalité
Un filtre est dit causal si hk = 0 pour tout k < 0. Cette propriété est équivalente pour la TZ
du filtre à : la RDC associée à {hk } est de la forme [R1 , +∞[.
On peut facilement comprendre cette caractérisation si on se souvient de la méthode d’inver-
sion de la TZ par le calcul des résidus : on a vu en effet que l’on pouvait calculer les valeurs de hk
pour k < 0 en sommant les résidus de X(z) z k−1 sur les pôles extérieurs au contour d’intégration
(situé dans la RDC). La condition précédente garantit qu’il n’existe pas de tels pôles, puisque
la série entière est holomorphe sur sa RDC [R1 , +∞[. Donc le résultat de l’intégration (II.8) est
nul : hk = 0 pour k < 0.
Inversement, si hk = 0 pour tout k < 0, en reprenant les calculs du paragraphe II.3.1
permettant de définir la région de convergence de la TZ, on constate aisément que Rh+ est égal
à +∞ et que la RDC est définie par [R1 , +∞[.
Un filtre causal et stable est dit réalisable.
III.1.3 Inversion d’un filtre numérique

On considère un filtre numérique H défini par sa réponse impulsionnelle {hk }. Soit {xk } un
signal discret appliqué en entrée du filtre H, et soit {yk } le signal de sortie associé. On définit
le filtre inverse du filtre H comme le filtre qui permet de retrouver {xk } en filtrant {yk }, pour
une famille de signaux {xk }. Ce filtre inverse est noté H −1 .
Soit K le filtre inverse d’un filtre H défini par sa transformée en z, H(z), et sa région de
convergence. Le filtre inverse admet comme transformée en z
1
K(z) = .
H(z)
Les pôles de cette fonction sont les zéros de H(z) et le domaine de convergence de K(z) sera
déduit de l’étude de ces zéros. Si elle existe, la transmittance du filtre K est obtenue à partir de
celle du filtre H par
1
K(e2iπν ) = .
H(e2iπν )
III.1.4 Filtres rationnels, filtres dynamiques

De même qu’un grand nombre de systèmes à temps continu sont régis par des équations
différentielles, une large classe de systèmes à temps discret découlent d’équations aux différences,
du type
XN M
X
an yk−n = bm xk−m (III.2)
n=0 m=0
où {yk } est considéré comme la sortie d’un système dont {xk } est l’entrée. En prenant la TZ
des deux membres de l’équation précédente on obtient la fonction de transfert du système cor-
respondant : PM
Y (z) bm z −m
H(z) = = Pm=0
N
. (III.3)
X(z) n=0 an z
−n
Partant de (III.3), il est facile de mettre H(z) sous la forme d’un quotient P (z)/Q(z) de deux
polynômes en z, de degrés respectifs M0 et N0 . Comme les polynômes de la variable complexe
sont entièrement définis par la position de leurs zéros à un facteur près, H(z) est entièrement
définie par ses N0 pôles (zéros de Q(z)), ses M0 zéros (zéros de P (z)) et un facteur multiplicatif
A: QM0
P (z) (z − zm )
H(z) = = A Qm=1
N
. (III.4)
Q(z) n=1 (z − pn )
0
Les N0 zéros de Q(z) et les M0 zéros de P (z) définissent les pôles et les zéros finis de H(z).
Dans le cas d’un filtre réel, ces pôles et ces zéros sont réels ou deux à deux conjugués.
— Lorsque M0 est supérieur à N0 , H(z) admet également M0 − N0 pôles à l’infini.
— Lorsque N0 est supérieur à M0 , H(z) admet également N0 − M0 zéros à l’infini.
L’expression de H(z), fonction de la variable complexe, est holomorphe en tout point sauf
en ses N0 pôles. Elle admet un développement en série de Laurent différent en chaque couronne
du type {z/|z|∈ ]R1 , R2 [}, où R1 et R2 sont les modules de deux pôles « successifs » (i.e.,
consécutifs dans la liste des pôles rangés par module croissant), c’est-à-dire qu’en chacune de ces
régions on peut calculer une réponse impulsionnelle d’un filtre décrit par les équations (III.2).
Notons que l’existence de plusieurs filtres associés à l’équation (III.2) ne doit pas surprendre :
elle est le pendant du choix des conditions initiales dans l’équation différentielle. Tous ces filtres
sont appelés filtres rationnels.
Étudions maintenant à quelles conditions on peut trouver des filtres causaux et des filtres
stables à partir de H(z).
— La causalité correspond à une région de convergence du type {z/|z|∈]R1 , +∞[}. Dans
le cas où il existe des pôles à l’infini, aucune région de convergence de ce type ne peut être
associée à H(z), il n’existe pas de filtre causal. Dans le cas contraire où il n’y a pas de pôle à
l’infini,
© c’est-à-dire ªque N0 est supérieur ou égal à M0 , alors le filtre correspondant à la RDC
z/|z|∈]Rmax , +∞[ , où Rmax est le plus grand des modules des pôles de H(z), est causal.
— La stabilité correspond à l’appartenance du cercle unité à la RDC. Il est clair que tant
que la fonction de transfert H(z) ne possède pas de pôles sur le cercle unité, il est possible de
trouver une RDC contenant celui-ci : le filtre obtenu sur cette région est stable.
— Pour être réalisable il faut réunir les deux conditions précédentes (RDC du type {z/
|z|∈]R1 , +∞[} contenant le cercle unité) : il faut et il suffit que tous les pôles de H(z) soient à
l’intérieur du cercle unité.
On appelle filtre dynamique un filtre réalisable dont la fonction de transfert est une fraction
rationnelle. L’étude du comportement en fréquence d’un filtre dynamique, c’est-à-dire l’étude en
phase et module de la transmittance H(e e 2iπν ), peut être trouvée dans de nombreux ouvrages de
référence plus détaillés que ces notes de cours.
Un filtre dynamique est à phase minimale ou à déphasage minimal si son inverse stable (i.e.,
le filtre associé à H −1 (z) développée sur le cercle unité) est lui aussi réalisable.
Pour qu’il existe un filtre à phase minimale associé à H(z), il faut qu’il existe :
– un filtre causal associé à H(z) donc que la fonction n’admette aucun pôle à l’infini donc
que N0 soit supérieur ou égal à M0 ;
III.1 Introduction 39
– un filtre causal associé à H −1 (z) donc que la fonctionH(z) n’admette aucun zéro à l’infini
donc que N0 soit inférieur ou égal à M0 .
De plus, pour assurer la causalité du filtre et de son inverse, tout en préservant la stabilité, les
pôles et les zéros de H(z) doivent se trouver à l’intérieur du cercle unité.
En résumé, il existera un filtre à phase minimale associé à H(z), si il existe autant de pôles
que de zéros, tous situés à l’intérieur du cercle unité.
Résumons l’emboı̂tement des propriétés et leurs appellations usuelles :
¾
causal ¾
= réalisable ¾
stable = dynamique
rationnel = à phase minimale.
d’inverse réalisable
Examinons maintenant deux cas particuliers importants de filtres rationnels, éventuellement

réalisables.
III.1.5 Filtres à Réponse Impulsionnelle Finie (RIF)

Ces filtres sont également dénommés filtres transverses. C’est le cas particulier de (III.4)
obtenu pour Q(z) = z M . L’équation d’entrée-sortie s’écrit alors :
M
X
yk = bm xk−m . (III.5)
m=0
On constate que la réponse impulsionnelle de ce filtre est simplement égale à la suite des co-
efficients bm pour m = 0, . . . , M , prolongée à gauche et à droite par des zéros. C’est pourquoi
on parle de filtre à réponse impulsionnelle finie. La fonction de transfert étant réduite à un
polynôme en z −1 , on peut l’écrire
M
1 X
H(z) = M bM −m z m (III.6)
z
m=0
et il n’y a pas de problème de choix de RDC puisque tous les pôles sont réunis en zéro. Par
contre ce filtre n’est à phase minimale que si les zéros de H(z) sont à l’intérieur du cercle unité.
III.1.6 Filtres Tous Pôles (FTP)

Ce type de filtre est également dénommé filtre récursif. C’est le cas particulier de (III.4)
obtenu pour P (z) = z N . L’équation d’entrée-sortie s’écrit alors :
N
X
an yk−n = xk , (III.7)
n=0
et la fonction de transfert se réduit à :

zN
H(z) = PN . (III.8)
n
n=0 aN −n z
Le filtre est réalisable si tous les pôles sont dans le cercle unité. Il est alors aussi à phase minimale.
La causalité du filtre se traduit par la possibilité de calculer récursivement la sortie {yk } sous
la forme suivante, déduite de (III.7) en supposant a0 6= 0 :
X an N
1
yk = xk − yk−n .
a0 a0
n=1
III.2 Exemples de filtres

III.2.1 Retard
Soit la relation entrée-sortie entre {xk } et {yk } définie par
yk = xk−n . (III.9)
Cette relation peut être obtenue en filtrant le signal d’entrée {xk } par le filtre homogène de
réponse impulsionnelle {hk } : ½
1 si k = n,
hk =
0 sinon
qui a pour fonction de transfert
H(z) = z −n
et pour transmittance
e
H(ν) = e−2iπνn .
III.2.2 Lissage
On considère le filtre défini par la relation d’entrée-sortie où {xk } est le signal d’entrée stable
et {yk } le signal de sortie
XN
yk = xk−n . (III.10)
m=−N
Ce filtre a pour réponse impulsionnelle
½
1 si − N 6 k 6 N,
hk =
0 sinon.
Sa transmittance est alors
e sin (2N + 1)πν
H(ν) = .
sin πν
La figure III.2 présente la réponse impulsionnelle et la réponse fréquentielle d’un tel filtre
pour N = 6. Le filtre ainsi défini est stable mais non causal. Pour le rendre causal, on introduit
un retard de N échantillons et la relation (III.10) devient
2N
X
yk = xk−n .
n=0
III.2.3 Filtre récursif d’ordre 1

Soit un signal réel numérique discret stable {xk } et le signal de sortie {yk } réel défini par la
relation de récurrence
yk = λ yk−1 + µ xk ∀k∈Z, λ, µ∈R (III.11)
Les transformées en z associées sont obtenues en multipliant les deux membres de l’équation par
z −k et en effectuant la somme pour z∈ Z. On obtient ainsi
µ
Y (z) = H(z)X(z) = X(z).
1 − λ z −1
Le signal de sortie yk est donc obtenu par filtrage du signal d’entrée xk par le filtre numérique
H(z) dont la transformée en z s’écrit
µ µz
H(z) = −1
= . (III.12)
1 − λz z−λ
Ce filtre est dénommé filtre récursif d’ordre 1.
III.2 Exemples de filtres 41
Réponse impulsionnelle Réponse fréquentielle

2 20
15
1.5
Amplitude
Amplitude
10
1
5
0.5
0
0 -5
-10 -5 0 5 10 -0.5 0 0.5
Nombre d'échantillons Fréquence
Fig. III.2. Réponse impulsionnelle et fréquentielle d’un filtre lisseur. Le filtre est de type passe-bas.
Stabilité du filtre
Le filtre H(z) est stable et causal si et seulement si |λ| < 1. Dans ce cas, sa réponse impul-
sionnelle est définie par
hk = µ λk , ∀k∈N.
Sa transmittance est
e µ
H(ν) = .
1 − λ e−2iπν
qui a pour module
e |µ|
|H(ν)| =√
1 + λ2 − 2λ cos 2πν
La figure III.3 présente ce module dans l’intervalle [−1/2, 1/2] pour λ = 0,7 et µ = 0,3. Le
filtre récursif est donc de type passe-bas. Il est d’autant plus efficace que λ est voisin de 1
mais il devient alors d’autant moins stable. Pour illustrer cette propriété, la figure présente
le signal de sortie {yk } obtenu en filtrant un signal d’entrée {xk } par H. Afin d’illustrer les
propriétés fréquentielles du filtre, le signal d’entrée doit posséder un spectre couvrant la gamme
de fréquences.
Le signal d’entrée choisi est du type
2
xk = e−atk sin ωtk
où ω varie en fonction du temps sous la forme
ω = 200 sin 100tk .
Le signal ainsi obtenu est stable quel que soit ω et est dit vobulé.
Filtre inverse
Le filtre récursif d’ordre 1 est inversible et admet pour filtre inverse le filtre K de transformée
en z
z−λ
K(z) = .
µz
Il existe un pôle simple situé à l’origine. Le filtre K est donc stable et a pour réponse impulsion-
nelle {kn },
1 λ
k0 = , k1 = − , ∀n > 2, kn = 0.
µ µ
Réponse fréquentielle
1
Amplitude
0.5
0
-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5
Fréquence
Signal d'entrée x(t) Signal de sortie y(t)

5 5
Amplitude
Amplitude
0 0
-5 -5
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
Temps Temps
Représentation fréquentielle de x Représentation fréquentielle de y

20 20
Amplitude
Amplitude
10 10
0 0
-0.5 0 0.5 -0.5 0 0.5
Fig. III.3. Représentation temps-fréquence d’un signal vobulé filtré par un filtre AR d’ordre 1.
Le signal {xk } peut être obtenu par filtrage de {yk } par K, ce qui s’écrit
1 λ
xk = yk − yk−1 , ∀k ∈ N.
µ µ
Le filtre K effectue une moyenne glissante sur {yk } pour produire le signal {xk }. Il est de
type passe-haut puisque le filtre récursif d’ordre 1, H, est de type passe-bas.
La figure III.4 présente la réponse fréquentielle du filtre inverse du filtre H défini précé-
demment. L’évolution du signal de sortie {yk } obtenu par filtrage d’un signal d’entrée {xk } de
caractéristiques analogues à celles du filtre H illustre les variations en fréquence correspondantes.
III.2.4 Filtre récursif d’ordre 2

Soit un signal numérique discret stable {xk } et le signal de sortie {yk } défini par la relation
de récurrence
yk = λ1 yk−1 + λ2 yk−2 + µ xk , ∀ k ∈ Z, λ1 , λ2 , µ∈R. (III.13)
Par un processus analogue à celui exposé au paragraphe précédent, on montre que le signal de
sortie {yk } est obtenu par filtrage du signal d’entrée {xk } par le filtre numérique H(z) défini par
10
Amplitude
0
-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5
Fréquence

10 10
Amplitude
Amplitude
0 0
-10 -10
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
Temps Temps

40 40
Amplitude
Amplitude
20 20
0 0
-0.5 0 0.5 -0.5 0 0.5
Fig. III.4. Représentation temps-fréquence d’un signal vobulé filtré par le filtre inverse.
µ z2
H(z) = . (III.14)
z 2 − λ1 z − λ2
Ce filtre est dénommé filtre récursif d’ordre 2. Nous nous limiterons par la suite au cas où les
pôles de H sont complexes conjugués. En effet, si les pôles de H sont réels, ce filtre peut être
représenté sous la forme de la somme de deux filtres récursifs d’ordre 1 que nous venons d’étudier.
Dans le cas présent, H est un filtre dynamique si et seulement si |λ2 | < 1. Soient z0 et
z̄0 les pôles de H, qui s’expriment sous la forme z0 = reiθ , z̄0 = re−iθ , ce qui implique λ1 =
2r cos(θ), λ2 = −r2 . La réponse impulsionnelle du filtre H est alors définie par
sin(n + 1)θ
hn = µrn , ∀n∈N.
sin θ
Sa transmittance est
e µ
H(ν) =
1 − λ1 e−2iπν − λ2 e−4iπν
qui a pour module
|µ|
|H(e2iπν )| = p .
(1 + r2 − 2 cos(θ − 2πν)) (1 + r2 − 2 cos(θ + 2πν))
Ce module passe par des extréma pour ν = 0 et ν = ±1/2. De plus, on peut montrer que si on a
la condition | cos θ| < 2r/(1 + r2 ), il existe un maximum pour la fréquence ν = ±ν0 donnée par
1 + r2
cos 2πν0 = cos θ
2r
et le maximum est égal à
|µ| 1
√ .
1 − r2 1 − cos2 θ
La fréquence ν0 est dite fréquence de résonance du filtre.
La figure III.5 présente le module d’un tel filtre dans l’intervalle [−1/2, 1/2] pour λ1 =
1, 5, λ2 = −0, 7 et µ = 0, 13. La fréquence de résonance associée est ν0 = 0, 07. L’évolution en
temps et en fréquence du signal de sortie {yk } obtenu par filtrage d’un signal d’entrée vobulé
{xk } illustre les propriétés fréquentielles d’un tel filtre.
1
Amplitude
0.5
0
-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5
Fréquence

5 5
Amplitude
Amplitude
0 0
-5 -5
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
Temps Temps

40 40
Amplitude
Amplitude
20 20
0 0
-0.5 0 0.5 -0.5 0 0.5
Fig. III.5. Représentation temps-fréquence d’un signal vobulé filtré par un filtre AR d’ordre 2.
Filtre inverse
Le filtre récursif d’ordre 2 est inversible et admet pour filtre inverse le filtre K de transformée
en z
z 2 − λ1 z − λ2 z
K(z) = .
µ z2
Il existe un pôle double situé à l’origine. Le filtre K est donc stable et a pour réponse impul-
sionnelle {kn },
1 λ1 λ2
k0 = , k1 = − , k2 = − , ∀n > 3, kn = 0.
µ µ µ
Le signal {xk } peut être obtenu par filtrage de {yk } par K, ce qui s’écrit
1 λ1 λ2
xk = yk − yk−1 − yk−2 , ∀k∈N.
µ µ µ
Le filtre K est donc un filtre RIF d’ordre 3.
La figure III.6 présente le module du filtre K inverse du filtre H présenté précédemment.
L’évolution en temps et en fréquence du signal de sortie {yk } obtenu par filtrage d’un signal
d’entrée vobulé {xk } illustre les propriétés fréquentielles d’un tel filtre.
30
Amplitude
20
10
0
-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5
Fréquence

10 10
Amplitude
Amplitude
0 0
-10 -10
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
Temps Temps

Amplitude
Amplitude
50 50
0 0
-0.5 0 0.5 -0.5 0 0.5
Fig. III.6. Représentation temps-fréquence d’un signal vobulé filtré par le filtre inverse.
46
47
Chapitre IV
Événements, variables et vecteurs

aléatoires
IV.1 Introduction
Comme on l’a vu dans les chapitres précédents, les signaux déterministes permettent de
modéliser des phénomènes limités dans le temps, ou bien périodiques, oscillatoires amortis...
De nombreux phénomènes physiques présentent des fluctuations permanentes non périodiques,
non amorties, mais qui manifestent pourtant un certain degré de « régularité ». Par exemple,
la météorologie est fondée sur l’analyse de signaux de pluviométrie, d’ensoleillement... , qui
présentent un caractère pseudo-périodique (saisons, alternance jour-nuit, cycle des marées...),
mais dont la partie « utile » est noyée dans un ensemble de « perturbations » d’origines diverses
et de forme irrégulière. Les signaux déterministes étudiés dans les chapitres précédents sont
trop limités pour intégrer facilement de telles caractéristiques, tandis que les modèles aléatoires
fournissent un cadre mathématique plus adapté.
La modélisation aléatoire des signaux est présentée au chapitre V, uniquement à temps discret
par souci de simplicité ; cette présentation est largement suffisante dans le cadre d’un cours sur
le traitement numérique du signal. Certaines notions concernant les signaux aléatoires à temps
continu (ou encore, processus stochastiques) sont présentées dans [7].
Le présent chapitre est consacré à la théorie des probabilités, sur laquelle repose la modé-
lisation aléatoire des signaux. Pour commencer, on rappelle le vocabulaire de la théorie de la
mesure, essentielle dans la suite puisqu’une probabilité est un cas particulier de mesure finie et
une variable aléatoire, un cas particulier d’application mesurable. Dans les sections suivantes,
on introduit successivement les variables puis les vecteurs aléatoires.
IV.2 Intégration et probabilités

IV.2.1 Espaces et applications mesurables
On appelle espace mesurable (Ω, F) le couple formé d’un ensemble Ω et d’une tribu F,
c’est-à-dire une famille de parties de Ω vérifiant :
(i) Ω ∈ F,
(ii) la stabilité par complémentation : ∀A ∈ F, Ac ∈ F,
(iii) la stabilité par union dénombrable : pour toute famille dénombrable {Ai ∈ F, i ∈ I},
on a (∪I Ai ) ∈ F.
On déduit facilement de (i)-(ii) que ∅ ∈ F et de (ii)-(iii) que F est stable par intersection
48 Événements, variables et vecteurs aléatoires
dénombrable.
Pour toute famille C de parties de Ω, on peut définir la tribu engendrée par C comme la plus
petite tribu contenant C. Ainsi, on munit généralement Rd de la tribu B d des boréliens, qui est
la tribu engendrée par les pavés ouverts.
Soient (Ω, F) et (E, A) deux espaces mesurables. On appelle application mesurable toute
application X de (Ω, F) dans (E, A) telle que ∀A ∈ A, X −1 (A) ∈ F.
IV.2.2 Notion de mesure

Mesure sur (Ω, F)
On appelle mesure sur un espace mesurable (Ω, F) toute application µ de F dans R+ qui
possède la propriété de σ-additivité, c’est-à-dire que pour toute famille dénombrable {Ai , i ∈ I}
d’éléments deux à deux disjoints de F, on a
X
µ(∪I Ai ) = µ(Ai ). (IV.1)
I
Le triplet (Ω, F, µ) s’appelle un espace mesuré.

Soit (Ω, F, µ) un espace mesuré et X une application mesurable de (Ω, F) dans (E, A). X
permet de construire sur (E, A) une mesure notée µX définie par :
∀A ∈ A, µX (A) = µ(X −1 (A)).
La mesure µX est appelée mesure image de µ par X.
µ-négligeable, µ-presque partout
Une partie de Ω est dite µ-négligeable si elle est incluse dans un élément de mesure nulle de
la tribu F. Une fonction sur Ω est dite µ-négligeable si elle est nulle en dehors d’un ensemble
µ-négligeable.
Une propriété sur les points de E est dite vraie µ-presque partout (µ-p.p.) si elle est vraie pour
tous les points de E exceptés ceux d’un ensemble µ-négligeable. En particulier, deux fonctions
sur Ω sont égales µ-p.p. si elles sont égales en dehors d’un ensemble négligeable.
Mesure de Lebesgue sur Rd
On montre qu’il existe une mesure σ-finie unique µ0 sur (Rd , B d ) telle que
µY
d ¶ Yd
µ0 [ai , bi ] = (bi − ai ), ∀ai < bi , 1 6 i 6 d.
i=1 i=1
Cette mesure est appelée mesure de Lebesgue sur (Rd , Bd ). Sur R, elle mesure les longueurs, sur
R2 , les surfaces etc.
IV.2.3 Probabilités, événements

Vocabulaire
P est une mesure de probabilité, ou encore une probabilité sur (Ω, F), si c’est une mesure telle
que P (Ω) = 1. Le triplet (Ω, F, P ) constitue alors un espace probabilisé. En langage probabiliste,
IV.2 Intégration et probabilités 49
tout élément de F est appelé événement 1 . Une conjonction d’événements s’écrit indifféremment
A ∩ B = A.B = AB = (A et B) = (A, B). Pour une propriété vraie P -p.p, on dit plutôt presque
sûrement (p.s.). Enfin, les éléments de Ω sont appelés des épreuves.
Qu’est-ce que le hasard ?
Dans une interprétation classique de la notion de hasard, chaque épreuve ω est le résultat
possible d’une « expérience aléatoire » , au cours de laquelle tout événement A est réalisé si
ω ∈ A. Dans ce contexte formel, P (A) désigne le taux de réalisation de A quand on répète
l’expérience un grand nombre de fois.
Cette interprétation permet de guider l’intuition, mais il faut reconnaı̂tre qu’elle ne constitue
pas une définition mathématique de la notion d’« expérience aléatoire » ou de « tirage aléatoire ».
En fait la théorie des probabilités ne dit rien sur la notion de hasard, ni sur la façon de le générer,
ni sur la façon de l’authentifier. D’où l’utilisation récurrente de guillemets dans ce cours pour
signaler des expressions faisant appel à l’intuition plutôt qu’à un concept précis.
A cet égard, on peut citer l’exemple de l’écriture décimale de nombres transcendants tels
que π, qui a toutes les apparences de la suite des épreuves d’une expérience consistant à tirer
un chiffre « au hasard », alors que le sens commun n’y voit qu’une succession déterministe. A
l’inverse, on a l’habitude d’accorder à une suite de pile ou face un caractère aléatoire, bien qu’on
admette qu’une pièce de monnaie respecte les équations déterministes de la physique classique.
Événements indépendants
Deux événements A et B sont dits indépendants si P (A.B) = P (A) P (B). Plus généralement,
A1 , A2 , . . . , AI sont indépendants dans leur ensemble si
∀i, j, . . . , r (différents entre eux) , P (Ai .Aj . . . . .Ar ) = P (Ai ) P (Aj ) . . . P (Ar ).
Des événements indépendants deux à deux ne le sont pas nécessairement dans leur ensemble (il
est facile de vérifier que le contraire est vrai).
Probabilités conditionnelles
Soient deux événements A et B tels que P (B) > 0. La probabilité conditionnelle de A sachant
B est définie par
P (A.B)
P (A | B) = . (IV.2)
P (B)
Notons que l’indépendance de A et B équivaut à P (A | B) = P (A) quand P (B) > 0.
La probabilité conditionnelle est en fait une nouvelle mesure de probabilité définie sur l’espace
probabilisé (B, FB ), où FB est une tribu sur B : FB = {A.B, A ∈ F}.
Par récurrence sur (IV.2), ∀A1 , A2 , . . . , AI ∈ F I , on a
P (A1 .A2 . . . . .AI ) = P (A1 ) P (A2 | A1 ) P (A3 | A1 .A2 ) . . . P (AI | A1 . . . . .AI−1 ).
Soit {Ai , i ∈ I} une partition de Ω constituée d’événements, et soit B un événement tel que
P (B) > 0. Alors {Ai .B, i ∈ I} est une partition de B en événements (de FB ). De (IV.1) et
(IV.2), on déduit alors la règle des causes totales :
I
X I
X
P (B) = P (B.Ai ) = P (Ai ) P (B | Ai )
i=1 i=1
1
Remarquer l’accent aigu : événement...
ainsi que la formule de Bayes :
P (Aj .B) P (Aj ) P (B | Aj )

P (Aj | B) = = PI .
P (B) i=1 P (A i ) P (B | Ai )
IV.3 Variables aléatoires

Dans toute la suite, on se place dans le cas d’un espace probabilisé (Ω, F, P ).
IV.3.1 Variables aléatoires

Définition
On appelle variable aléatoire(v.a.) toute application mesurable X sur un espace probabilisé

(Ω, F, P ). L’image par X d’une épreuve ω, X(ω), est appelée une réalisation de X. La mesure
image de P par X, notée PX , est appelée loi de X.
La distinction faite entre une variable aléatoire et sa loi paraı̂t sans objet lorsqu’on utilise
une seule variable aléatoire X, car on s’intéresse à la probabilité d’apparition des différentes
réalisations de X et il est inutile de distinguer quelles épreuves donnent telles ou telles réalisations
de X. Autrement dit, tout ce qui nous est utile au sujet de X est contenu dans sa loi. Mais dans
la plupart des problèmes on a affaire à plusieurs variables aléatoires définies sur le même espace
de probabilité et on s’intéresse entre autres aux relations qui existent entre ces variables. Il est
alors tout à fait essentiel de bien voir que des variables aléatoires peuvent avoir la même loi sans
être égales. Insistons encore sur le fait que lorsqu’on a deux v.a., par exemple à valeurs réelles,
X1 et X2 , dont on connaı̂t seulement pour chacune la loi, on ne peut rien dire en général sur les
v.a. X1 + X2 , min(X1 , X2 )... tant qu’on n’a pas défini précisément les v.a. X1 et X2 , ou bien
seulement la loi du couple (X1 , X2 ) conformément au paragraphe IV.3.3.
Existence
Le paragraphe IV.3.2 est consacré à la caractérisation de v.a. réelles. Réciproquement, les

problèmes d’existence de v.a. de loi donnée (et plus généralement de processus aléatoires de
loi donnée) sont liés à des problèmes fondamentaux d’existence et de construction de mesures,
qui sont résolus par des théorèmes de théorie de la mesure dépassant largement le cadre de
ce cours. On peut dire simplement que ces théorèmes (en particulier les théorèmes d’extension
de Hopf et de Kolmogorov [5]) permettent de construire des mesures et de probabiliser des
espaces mesurables tels que (RN , B ⊗N ) et même (RR , B ⊗R ), suffisamment vastes pour permettre
la construction d’autant de variables aléatoires puis d’autant de signaux aléatoires qu’on le
souhaite. C’est pourquoi en pratique, on laisse en suspens la spécification de l’espace d’épreuves
Ω, de sa tribu F et de la probabilité « générique » P , en supposant que (Ω, F, P ) est assez vaste
pour engendrer simultanément tous les modèles nécessaires.
IV.3.2 Variables aléatoires réelles

Définition
Le cas particulier des v.a. réelles (v.a.r.) désigne les applications mesurables X à valeurs
dans l’espace (R, B). Les v.a.r. sont les modèles les plus courants pour décrire des grandeurs
« incertaines ». Les v.a. à valeurs complexes sont également utiles ; on peut les considérer comme
des couples de v.a.r. (voir le paragraphe IV.3.4).
IV.3 Variables aléatoires 51
Première caractérisation de la loi d’une v.a.r. : fonction de répartition
La loi d’une v.a.r. X est donc une mesure de probabilité sur les boréliens de R. En particulier,
elle permet de calculer la probabilité de tous les événements de la forme {ω, X(ω) 6 x), abrégés
en (X 6 x). Réciproquement, comme les demi-droites ] − ∞, x] génèrent les boréliens de R, on
obtient la caractérisation suivante :
La loi d’une v.a.r. X est entièrement caractérisée par la fonction de répartition de

X, croissante entre 0 et 1 et continue à droite :
∆
FX (x) = P (X 6 x).
On en déduit par exemple P (a < X 6 b) = FX (b) − FX (a).

Selon les caractéristiques de la fonction de répartition FX (x), on distingue principalement
deux types « classiques » de v.a.r. Ces deux types, variables à densité et variables discrètes, ne
recouvrent pas l’ensemble des v.a.r., mais correspondent à un très grand nombre de situations.
Variables aléatoires discrètes
Dans le cas de v.a. discrètes, X prend un nombre P fini ou dénombrable de valeurs xi avec
les probabilités P (X = xi ) = pi , où nécessairement i pi = 1. Il s’agit en particulier des v.a.r.
construites par dénombrement (xi ∈ N). Dans ces conditions, FX est la fonction en escalier :
X
FX (x) = pi ,
6
i : xi x
et par conséquent la donnée des pi (et des xi ) caractérise la loi de X.
Variables aléatoires à densité
La loi de X est dite à densité s’il existe une fonction fX (x) > 0, dx-intégrable, telle que pour
tout réel x : Z x
FX (x) = fX (s) ds. (IV.3)
−∞
La fonction fX (x) est appelée densité de probabilité de la variable aléatoire X. Une condition
suffisante pour que X admette une densité est que FX (x) soit continûment dérivable pour tout
x. Dans ce cas, (IV.3) montre que la densité caractérise la loi de X.
Remarque. Il ne faut pas confondre la densité de probabilité fX (x) avec la mesure de proba-
bilité d’un événement du type (X = x). Par exemple, dans le cas d’un espace Ω = [0, 1] muni de
sa tribu borélienne et de la mesure de Lebesgue, la v.a.r. X(ω) = cos πω admet une densité de
probabilité (
√1 pour x ∈] − 1, 1[,
fX (x) = π 1−x2
0 ailleurs.
En effet,
FX (x) = P (X 6 x),
= P (ω > arccos(x))/π ∀x ∈] − 1, 1[,
= 1 − arccos(x)/π.
Cette fonction de répartition FX (x) est continûment dérivable sur ] − 1, 1[ ; sa dérivée est
la densité de probabilité fX (x) ci-dessus. Il est facile de voir que fX (x) prend des valeurs arbi-
trairement grandes quand x se rapproche des extrémités de l’intervalle ] − 1, 1[, ce qui n’est pas
1.5 1
0.8
1 0.6
0.4
0.5 0.2
0
0
−1 −0.5 0 0.5 1 −1 −0.5 0 0.5 1
Fig. IV.1. Densité de probabilité (à gauche) et fonction de répartition (à droite) d’une variable
aléatoire (voir texte)
incompatible avec le fait que tout événement (X = x) est de probabilité nulle (y compris pour
x = ±1).
Changement de variable
Bien souvent il faut calculer la densité de probabilité d’une variable aléatoire réelle Y définie
comme la transformation Y = g(X) d’une autre v.a.r. X dont la densité fX est connue. Ce genre
de problème peut souvent être résolu par de simples manipulations des fonctions de répartition
de Y et X, et non pas directement des densités. Prenons un exemple : soit X une v.a. de fonction
de répartition FX bijective. Calculons la loi de la v.a. Y = FX (X). Il est clair que Y est à valeurs
dans l’intervalle [0, 1] et pour y ∈ [0, 1], il vient :
FY (y) = P (Y 6 y) = P (X 6 FX−1 (y)) = FX (FX−1 (y)) = y.
Donc Y est uniformément répartie sur [0, 1]. Cet exemple est intéressant car il fournit un moyen
de tirer « au hasard » des nombres suivant la loi de X à l’aide d’un simple générateur de
nombres pseudo-aléatoires suivant la loi uniforme sur [0, 1] (c’est la fonction rand disponible sur
de nombreux calculateurs). Le calcul précédent montre qu’il suffit d’appet nliquer aux nombres
générés par rand la fonction FX−1 pour obtenir des nombres distribués suivant la loi de X.
Pour en revenir aux changements de variable, il existe sous certaines conditions de régularité
sur la transformation Y = g(X) une formule plus générale de changement de variable qui sera
donnée dans le cas vectoriel au paragraphe IV.5.2
IV.3.3 Espérance mathématique

Définition
R
Pour toute v.a.r. X P -intégrable ( Ω |X(ω)| dP (ω) < +∞), on définit l’espérance mathéma-
tique par :
Z Z
∆
E(X) = X(ω) dP (ω) = x dPX (x) (IV.4)
Ω R
L’espérance mathématique est un réel qui correspond à une moyenne de la v.a.r. X sur l’ensemble
des épreuves ω, pondérée par la probabilité dP (ω). La deuxième égalité traduit l’intégration pour
la mesure image. Pour des v.a.r., on peut noter indifféremment le terme dPX (x) sous la forme
dFX (x), notation qu’on adopte dans la suite.
— Dans le cas de variables discrètes, on obtient pour l’espérance une forme classique de
IV.3 Variables aléatoires 53
moyenne pondérée par la probabilité des événements :

X
E(X) = pi xi .
i
— Si la loi de X est à densité fX (x), on peut remplacer dFX (x) par fX (x) dx et se ramener
ainsi aux notations classiques de l’intégration de fonctions de R sur R par rapport à la mesure
de Lebesgue : Z Z
E(X) = x dFX (x) = xfX (x) dx.
R R
L’espérance mathématique, lorsqu’elle est définie, possède les propriétés de linéarité et de mo-
notonie (X 6 Y P -p.s.⇒ E(X) 6 E(Y )) de l’intégrale de Lebesgue.
La définition (IV.4) permet aussi d’exprimer, quand elle existe, l’espérance d’une v.a. ϕ(X)
fonction d’une autre v.a. X, sous la forme
Z Z
E(ϕ(X)) = ϕ(X(ω)) dP (ω) = ϕ(x) dFX (x). (IV.5)
Ω R
Deuxième caractérisation de la loi d’une v.a.r. : fonction caractéristique
Pour toute v.a.r. X et tout u ∈ R, on peut définir la quantité complexe E(eiuX ), intégrale
absolument convergente :
La fonction caractéristique de X est l’application ΦX définie de R dans C par

Z
∆ iuX
u→ΦX (u) = E(e ) = eiux dFX (x).
R
Dans le langage de l’intégration, cette fonction est (à une affinité u = −2πν près) la transfor-
mée de Fourier de la mesure de X. La transformée de Fourier des mesures étant injective, il suffit
de connaı̂tre la fonction caractéristique de X pour connaı̂tre la loi de X. Comme la fonction de
répartition, la fonction caractéristique permet donc de caractériser la loi d’une v.a.r. (d’où son
nom).
Variable aléatoire et moments d’ordre p
La v.a.r X est dite d’ordre p, entier positif, si

Z Z
E(|X|p ) = |X(ω)|p dP (ω) = |x|p dFX (x) < +∞.
Ω R
On peut alors définir mp = E(X p ) appelé moment d’ordre p de la variable aléatoire X.

On définit les espaces Lp (Ω, F, P ), p > 1, comme les ensembles des classes d’équivalence des
fonctions X égales P -p.p. et telles que |X|p est intégrable. La norme k·kp définie par kXkp =
(E(|X|p ))1/p confère aux espaces Lp (Ω, F, µ) une structure de Banach. L’existence du moment
d’ordre p entraı̂ne celle de tous les moments d’ordre inférieur, du fait de l’emboı̂tement des
espaces Lp (Ω, F, P ) :
L1 (Ω, F, P ) ⊇ L2 (Ω, F, P ) ⊇ . . . ⊇ Lp (Ω, F, P ) ⊇ . . . ⊇ L∞ (Ω, F, P ).
A la section IV.6, nous étudierons plus en détail le cas de L2 (Ω, F, P ), qui possède la structure
d’un espace de Hilbert.
Lien entre la fonction caractéristique et les moments d’une v.a.r.
L’existence des moments jusqu’à l’ordre p est liée à la régularité en zéro de la fonction caracté-
ristique : si une variable aléatoire possède un moment d’ordre p, alors sa fonction caractéristique
est p fois dérivable. Par identification du développement de Taylor-Mac Laurin à l’ordre p, on
trouve
(p)
ΦX (0) = ip mp .
Réciproquement, la dérivabilité d’ordre p de ΦX en 0 entraı̂ne l’existence de moments d’ordre
p − 1 (et même d’ordre p si p est pair). En pratique, la fonction caractéristique est donc un outil
très puissant pour calculer la suite des moments d’une variable aléatoire, s’ils existent.
Avec les mêmes conditions d’existence que celles des moments, on définit aussi les moments
centrés mcp = E((X − m1 )p ). Le cas des variables d’ordre deux donne lieu à des appellations
spécifiques :
Moyenne : m = E(X) = m1
Variance : var (X) 2 2 2 2
p = mc2 = E((X − m) ) = E(X ) − E(X) = m2 − m
Écart-type : σ = var (X)
Variable aléatoire gaussienne
Une variable aléatoire obéit à la loi de Gauss N (m, σ 2 ) si sa densité de probabilité est de la
forme ³ (x − m)2 ´
1
fX (x) = √ exp − .
2πσ 2 2σ 2
On vérifie qu’une telle variable est du second ordre, de moyenne m et d’écart-type σ. La variable
est dite réduite si m = 0 et σ = 1. La fonction caractéristique associée à une variable aléatoire
gaussienne est de la forme
³ ´
u2 σ 2
ΦX (u) = exp imu − .
2
IV.4 Couple de variables aléatoires réelles

IV.4.1 Caractérisation et propriétés
Fonction de répartition
Soient X et Y deux v.a.r. La loi du couple (X, Y ) est une probabilité sur R2 qui peut être
caractérisée par la fonction de répartition
∆
FXY (x, y) = P (X 6 x, Y 6 y).
Étant donné la loi du couple (X, Y ), on déduit les lois marginales de X et de Y par les fonctions
de répartition
FX (x) = lim FXY (x, y) et FY (y) = lim FXY (x, y).
y→+∞ x→+∞
Mais il est clair que la donnée des lois marginales de X et de Y ne suffit pas à reconstituer la
loi jointe de (X, Y ).
IV.4 Couple de variables aléatoires réelles 55
Densité
La loi de (X, Y ) est à densité s’il existe une fonction fXY (x, y) > 0, intégrable, telle que
pour tout couple (x, y) de réels :
Z x Z y
FXY (x, y) = fXY (s, t) ds dt.
−∞ −∞
Si la fonction de répartition FXY est deux fois continûment différentiable, la densité de proba-
bilité du couple (X, Y ) est définie par
∂ 2 FXY
fXY (x, y) = (x, y).
∂x∂y
On peut alors vérifier que les lois marginales sont à densité, et que les densités marginales de X
et de Y s’écrivent :
Z +∞ Z +∞
fX (x) = fXY (x, y) dy et fY (y) = fXY (x, y) dx.
−∞ −∞
Fonction caractéristique
La notion de fonction caractéristique se généralise également :

Z
i(uX+vY )
ΦXY (u, v) = E(e )= ei(ux+vy) dFXY (x, y) ;
R2
les fonctions caractéristiques marginales sont évidemment ΦXY (u, 0) et ΦXY (0, v).
Variables indépendantes
Les v.a.r. X et Y sont dites indépendantes ssi ∀(A, B) ∈ B2 , les événements {X(ω) ∈ A} et
{Y (ω) ∈ B} sont indépendants. Mais cette condition est malcommode. Une condition équivalente
est la séparabilité de la fonction de répartition FXY (x, y) = FX (x)FY (y), ou encore de celle de
la fonction caractéristique ΦXY (u, v) = ΦX (u)ΦY (v). Si (X, Y ) est à densité, alors la condition
d’indépendance s’écrit aussi
fXY (x, y) = fX (x)fY (y).
Espérance
La notion d’espérance définie pour une v.a.r. au paragraphe IV.3.3 se généralise au cas d’un
couple de v.a.r. de façon naturelle :
Z Z
E(X, Y ) = (x, y) dFXY (x, y)
R R
µZ Z ¶
= xdFX (x), y dFY (y) = (E(X), E(Y )) (Fubini),
R R
c’est-à-dire que l’espérance d’un couple de v.a.r. s’obtient comme le couple des espérances mar-
ginales, pourvu qu’elles existent, que les v.a.r. soient indépendantes ou non.
Covariance ou corrélation
Pour X et Y du second ordre, on définit la covariance, appelée également corrélation

∆
cov(X, Y ) = E((X − E(X))(Y − E(Y )))
= E(XY ) − E(X)E(Y ).
D’après l’inégalité de Schwarz dans L2 (Ω, F, P ) démontrée plus loin (§ IV.6), il est facile de
voir que le coefficient de corrélation
∆ cov(X, Y )
ρXY = p
var(X)var(Y )
varie entre −1 (atteint pour X = −Y ) et 1 (pour X = Y ), en passant par le cas de la décorrélation

entre X et Y :
X et Y décorrélées ⇐⇒ cov(X, Y ) = 0. (IV.6)
L’indépendance des composantes d’un couple d’ordre deux implique leur décorrélation, mais la
réciproque est fausse.
IV.4.2 Conditionnement
Définition
La notion de conditionnement d’une variable aléatoire par une autre est très générale et
très utile en statistique, en théorie de l’estimation, en traitement du signal. Mais elle pose des
problèmes de définition inattendus, dont la résolution fait appel à des résultats très puissants de
la théorie des probabilités. Nous nous contenterons ici de présenter cette notion dans deux cas
particuliers : celui des v.a.r. à valeurs discrètes et celui des v.a.r. à densité.
Soit un couple de variables aléatoires discrètes (X, Y ) à valeurs (xi , yj ) dans un sous-ensemble
dénombrable de R2 . Conformément à la définition de la probabilité conditionnelle (IV.2), la loi
de X conditionnellement à Y = yj est entièrement décrite par
P (X = xi , Y = yj )
P (X = xi | Y = yj ) = si P (Y = yj ) > 0, 0 sinon.
P (Y = yj )
Pour chaque yj fixé tel que P (Y = yj ) > 0, P (X = xi | Y = yj ) définit une nouvelle mesure de
probabilité sur {xi }.
Dans le cas d’un couple (X, Y ) de variables aléatoires à densité, on souhaite à nouveau
conditionner les valeurs prises par X par des événements du type (Y = y). Mais dans ce cas, ces
événements sont de mesure nulle et (IV.2) n’est pas applicable. Pour résoudre cette difficulté,
on peut tout d’abord définir
FXY (x, y + dy) − FXY (x, y)

P (X 6 x | y < Y 6 y + dy) = .
FY (y + dy) − FY (y)
Comme (X, Y ) admet une densité, cette quantité converge quand dy tend vers 0 ; la limite définit
la fonction de répartition de X conditionnelle à Y :
∆ 1 ∂FXY
FX|Y (x | y) = (x, y),
fY (y) ∂y
symboliquement,
FX|Y (x | y) = P (X 6 x | Y = y).
IV.5 Vecteurs aléatoires réels 57
Cette fonction de répartition définit une mesure de probabilité à densité. La densité est appelée
densité conditionnelle de X par rapport à Y et notée fX|Y (x | y). En dérivant FX|Y (x | y) par
rapport à x, on obtient :
fXY (x, y)
fX|Y (x | y) = . (IV.7)
fY (y)
Espérance conditionnelle
Plaçons-nous dans le cas d’un couple (X, Y ) de variables aléatoires à densité, et reprenons
les notations du paragraphe précédent. Pour X du premier ordre et pour tout réel y tel que
fY (y) > 0, on définit l’espérance conditionnelle de X sachant Y = y :
Z +∞
∆
EX|Y (X | Y = y) = xfX|Y (x | y) dx,
−∞
qui est une fonction déterministe de y (en cas d’ambiguı̈té, l’indice de l’espérance rappelle la
loi par rapport à laquelle l’intégration est effectuée). L’espérance conditionnelle, en tant qu’opé-
rateur sur la v.a.r. X, possède les propriétés de linéarité et de monotonie de l’intégrale de
Lebesgue. En tant que fonction de y elle permet de définir une variable aléatoire E(X | Y ) qui
est une fonction déterministe de Y .
Remarques :
— Le passage par l’espérance conditionnelle est souvent commode pour calculer une espérance
simple telle que E(ϕ(X, Y ) ), où ϕ est une fonction de R2 dans R PXY -intégrable. En effet, on
a la formule du conditionnement successif :
E(ϕ(X, Y )) = EY (EX|Y (ϕ(X, Y ) | Y )) = EX (EY |X (ϕ(X, Y ) | X)). (IV.8)
Montrons ce résultat dans le cas d’un couple à densité :
Z Z
E(ϕ(X, Y )) = ϕ(x, y)fXY (x, y) dx dy
R
Z ³ZR
´
= ϕ(x, y)fX|Y (x | y) dx fY (y) dy,
R R
d’après (IV.7) et le théorème de Fubini, ce qui correspond à la première égalité dans (IV.8). En
particulier, ce résultat montre que E(X | Y ) est PY −intégrable et que son espérance vaut :
EY (EX|Y (X | Y )) = E(X).
— Si X et Y sont indépendantes on a : EX|Y (X | Y ) = E(X), quantité déterministe.

— Si g est une application mesurable de (R, B, PY )→R : EY |Y (g(Y ) | Y ) = g(Y ).
— On a vu que l’espérance conditionnelle de X sachant Y est linéaire en X ; par contre, en
général, EX|Y (X | Y ) est une fonction non linéaire (et même non affine) de Y.
Le paragraphe IV.6 donne une interprétation « géométrique » fondamentale de l’espérance
conditionnelle dans l’espace de Hilbert L2 (Ω, F, P ).
IV.5 Vecteurs aléatoires réels

IV.5.1 Généralisations
Un vecteur aléatoire réel X est constitué de n v.a.r. X = (X1 , . . . , Xn )t 2 . C’est une ap-
plication mesurable de Ω dans Rn (donc c’est aussi une v.a.). On peut remarquer aussi que si
2
La transposée d’une matrice M est notée ici M t , et non pas t M .
Xc est un vecteur aléatoire à valeurs dans Cm , m > 1, Xc peut s’écrire sous la forme Xr + iXi
avec Xr et Xi deux vecteurs aléatoires à valeurs dans Rm . On peut donc identifier C à R2 , Xc
au vecteur aléatoire (Xrt , Xit )t à valeurs dans R2m , et ramener l’étude des vecteurs aléatoires à
valeurs complexes à celle des vecteurs aléatoires réels.
La plupart des notions définies pour des couples de variables aléatoires se généralisent aux
vecteurs aléatoires.
— La fonction de répartition d’un vecteur aléatoire X = (X1 , . . . , Xn )t est une généralisation
de la définition de cette fonction pour un couple de v.a.r. aléatoires :
FX (x) = FX (x1 , x2 , . . . , xn ) = P (X1 6 x1 , X2 6 x2 , . . . , Xn 6 xn )
— Un vecteur aléatoire X admet une densité fX (x) si sa fonction de répartition s’exprime

sous la forme Z
FX (x) = fX (x) dx,
B
Q
avec fX (x) > 0, dx = dx1 . . . dxn est la mesure de Lebesgue sur Rn et B = ni=1 ] − ∞, xi ].
— La fonction caractéristique du vecteur aléatoire X est la fonction u→ΦX (u) définie sur
Rn à valeurs dans C par
Z
iut X
eiu X PX (dx).
t
ΦX (u) = E(e )=
Rn
— Deux vecteurs aléatoires X et Y , respectivement à valeurs dans Rm et Rn , sont indépendants

si la fonction de répartition du vecteur Z = (X t , Y t )t est séparable sous la forme
FZ (x, y) = FX (x) FY (y),
ou, de manière équivalente, si la fonction caractéristique ΦZ (u, v) de Z s’écrit
ΦZ (u, v) = ΦX (u) ΦY (v).
— Pour un vecteur Z = (X t , Y t )t admettant une densité, on peut introduire la notion de

conditionnement du vecteur X par le vecteur Y . En particulier, la densité conditionnelle de X
sachant Y généralise (IV.7) :
fZ (x, y)
fX |Y (x | y) =
fY (y)
et l’espérance conditionnelle s’écrit pour X = (X1 , . . . , Xn )t du premier ordre et pour tout Y
tel que fY (y) > 0 :
E(X | Y = y) = (E(X1 | Y = y), . . . , E(Xn | Y = y))t ,

Z +∞
E(Xk | Y = y) = x fXk |Y (x | y) dx.
−∞
IV.5.2 Changement de variable

Soit un vecteur aléatoire X = (X1 , . . . , Xn )t à valeurs dans un ouvert U de Rn , admettant
la densité de probabilité fX par rapport à la mesure de Lebesgue, telle que
Z
P (X ∈ U ) = fX (x) dx = 1.
U
Soit g une fonction de classe C 1 bijective de U dans un ouvert V de Rn . On note Jg (x) son
déterminant jacobien, défini en tout x de U comme le déterminant de la matrice carrée d’ordre
IV.5 Vecteurs aléatoires réels 59
n de terme général (∂gi /∂xj )(x). On suppose que Jg ne s’annule pas sur U . On suppose de plus
que l’application réciproque g −1 est de classe C 1 de V dans U et on note Jg−1 (y) le déterminant
jacobien de g −1 , pour y ∈ V .
Sous ces hypothèses, on montre que le vecteur aléatoire Y = g(X) admet une densité de
probabilité fY . Pour h une v.a. positive sur V on a :
Z Z
E(h(Y )) = h(y) fY (y) dy = E(h(g(X))) = h(g(x)) fX (x) dx.
V U
On effectue dans la seconde intégrale le changement de variable x → y pour obtenir

Z Z
h(y)fY (y)dy = h(y) fX (g −1 (y)) |Jg−1 (y)| dy,
V V
et on identifie la densité de Y :
fY (y) = fX (g −1 (y)) |Jg−1 (y)|, pour y ∈ V. (IV.9)
Cas particulier : transformation affine d’un vecteur aléatoire. Lorsque Y = G X + b, avec G

une matrice carrée d’ordre n régulière et b un vecteur de Rn , la densité de Y s’écrit :
¡ ¢
fY (y) = fX G−1 (y − b) | det(G)|−1 . (IV.10)
IV.5.3 Vecteurs aléatoires d’ordre deux

Le vecteur aléatoire X est dit d’ordre deux si
Z
t
E(X X) = kxk2 PX (dx) < +∞,
Rn
ou, de façon équivalente, si chacune de ses composantes est une variable aléatoire d’ordre deux.
— La moyenne de X est le vecteur de Rn mX = E(X), dont les composantes sont
Z Z
mX (j) = xj PX (dx) = xj PXj (dxj ) = E(Xj ).
Rn R
— La matrice de covariance ΓX est une matrice n × n définie par
ΓX = E(XX t ), (IV.11)
dont les éléments sont

Z Z
ΓX (j, k) = E(Xj Xk ) = xj xk PX (dx) = xj xk dPXj Xk (xj , xk ).
Rn R2
On peut vérifier aisément que la matrice de covariance est symétrique, définie non négative et
que sa trace est égale à E(X t X).
— La matrice de corrélation, ou covariance centrée est la matrice de covariance du vecteur
aléatoire centré X − mX :
RX = E((X − mX )(X − mX )t ), (IV.12)
dont les composantes sont RX (j, k) = cov(Xj , Xk ).

— Soit deux vecteurs aléatoires X et Y d’ordre deux, respectivement à valeurs dans Rm et
n
R . La matrice d’intercorrélation est la matrice m × n définie par
¡ ¢
RXY = E (X − mX )(Y − mY )t . (IV.13)
Les vecteurs X et Y sont dits décorrélés si RXY = 0.

Remarque. Suivant les auteurs, les termes « covariance » et « corrélation » sont souvent
utilisés l’un pour l’autre. Dans le cas fréquent de variables centrées, il est inutile de les distinguer.
Dans les autres cas, il appartient au lecteur d’en vérifier la définition.
— Considérons à nouveau les transformations affines d’un vecteur aléatoire, cette fois dans
le cas d’un vecteur X d’ordre deux : Y = GX + b, en reprenant les notations du paragraphe
IV.5.2. Alors
mY = G mX + b (IV.14)
et
RY = E((G X + b − mY )(G X + b − mY )t )
= G RX Gt , (IV.15)
et le résultat est évidemment valable pour une matrice G quelconque (éventuellement rectan-
gulaire) : les caractéristiques d’ordre deux se « propagent » par transformation affine beaucoup
plus facilement que la loi complète. Nous exploiterons souvent le résultat (IV.14)-(IV.15) dans
la suite.
IV.5.4 Vecteurs aléatoires gaussiens

Les vecteurs gaussiens jouent un rôle considérable en traitement du signal en raison de leur
facilité de manipulation, de leurs propriétés de stabilité et du fait qu’ils modélisent de nombreux
phénomènes physiques mettant en jeu un très grand nombre de contributions élémentaires.
Un vecteur aléatoire X est dit gaussien si toute combinaison affine de ses composantes est
une variable aléatoire gaussienne. X est donc d’ordre deux.
La fonction caractéristique d’un vecteur aléatoire gaussien est
³ ´
1
ΦX (u) = E(eiu X ) = exp iut mX − ut RX u
t
(IV.16)
2
où RX est la matrice de covariance de X. X est donc entièrement défini à l’aide de ses ca-
ractéristiques à l’ordre deux. Réciproquement, la donnée d’un vecteur m quelconque et d’une
matrice R définie non négative permet de définir complètement un vecteur gaussien, et l’on note
en abrégé : X ∼ N (m, R) pour « X vecteur gaussien de moyenne m et de covariance R ».
— Lorsque R est inversible, X admet une densité de probabilité fX :
³ ´
1 1
fX (x) = p exp − (x − m)t R−1 (x − m) . (IV.17)
(2π)n det(R) 2
— Deux vecteurs X et Y sont dits gaussiens dans leur ensemble si le vecteur joint Z =
(X t , Y t )t
est gaussien. Si deux vecteurs gaussiens dans leur ensemble X et Y sont décorrélés,
alors ils sont indépendants. Ceci est très facile à voir à partir de la fonction caractéristique :
supposons les deux vecteurs centrés, et notons
· ¸ · ¸ · ¸
RX RXY RX 0 u
RZ = = , w=
RY X RY 0 RY v
alors
³ ´ ³ ´ ³ ´
1 1 1
ΦZ (w) = exp − wt RZ w = exp − wt RX w exp − v t RY v = ΦX (u) ΦY (v).
2 2 2
D’après le paragraphe IV.5.1, la séparabilité de la fonction caractéristique en u et v équivaut à
l’indépendance des vecteurs X et Y .
IV.6 L’espace de Hilbert L2 (Ω, F, P ) 61
— Une propriété très importante des vecteurs gaussiens est liée au conditionnement de
vecteurs gaussiens dans leur ensemble : soit X et Y deux vecteurs aléatoires gaussiens dans leur
ensemble, alors l’espérance conditionnelle de X conditionnellement à Y , EX |Y (X | Y ) est une
fonction affine de Y . Plus précisément, avec les notations du paragraphe précédent, et RY > 0,
on obtient (exercice)
EX |Y (X | Y ) = mX + RXY R−1
Y (Y − mY ). (IV.18)
De plus si nous notons X̃ = X − EX |Y (X | Y ), alors :
RX̃ = RX − RXY R−1

Y RY X . (IV.19)
IV.6 L’espace de Hilbert L2 (Ω, F, P )

IV.6.1 Norme et produit scalaire
p
Comme on l’a dit au § IV.3.3, E(X 2 ) est une norme pour l’espaceR vectoriel complet
2
L (Ω, F, P ). De plus cette norme est associée au produit scalaire hX, Y i = Ω XY dP = E(XY ),
ce qui confère à l’espace L2 (Ω, F, P ) la structure d’espace de Hilbert. L’inégalité de Cauchy-
Schwarz s’écrit :
(E(XY ))2 6 E(X 2 ) E(Y 2 ). (IV.20)
De la même façon, les vecteurs aléatoires du second ordre de taille n forment un espace de Hilbert
muni du produit scalaire hX, Y i = E(X t Y ) et de la norme kXk2 = E(X t X).
Démonstration de l’inégalité de Cauchy-Schwarz dans L2 (Ω, F, P )
Pour tout a, b réels et tout couple de v.a.r. X, Y , on a
E((aX + bY )2 ) = a2 E(X 2 ) + 2ab E(XY ) + b2 E(Y 2 ) > 0.
Prenons a = E(Y 2 ) et b = −E(XY ) ; alors
E(Y 2 )2 E(X 2 ) − E(Y 2 ) E(XY )2 > 0.
Si E(Y 2 ) > 0, on obtient directement (IV.20). Si E(Y 2 ) = 0, Y = 0 (p.s.) et E(XY ) = 0 : on a

l’égalité 0 = 0. Plus généralement, les cas d’égalité correspondent à des couples X, Y p.s. liés
linéairement.
Inégalité de Minkovski
On déduit facilement de (IV.20) l’inégalité de Minkovski
kX + Y k 6 kXk + kY k
qui constitue l’inégalité triangulaire pour la norme de L2 (Ω, F, P ).
IV.6.2 Sous-espaces de Hilbert

Dans un espace de Hilbert H, tout sous-espace vectoriel fermé M est un sous-espace hilber-
tien. Il est alors possible de définir pour tout élément X de H sa projection orthogonale sur M,
qui minimise dans M la distance à X.
Dans le cas de L2 (Ω, F, P ), deux types de sous-espaces présentent un intérêt particulier dans
le contexte du traitement du signal.
Sous-espaces de combinaisons affines
Considérons l’ensemble des combinaisons affines d’une v.a.r. d’ordre deux Y non constante. Il
est évident que cet ensemble est un plan vectoriel de L2 (Ω, F, P ), de base orthonormée {1, (Y −
mY )/σY }. Il est aussi facile de montrer que cet espace est fermé, donc complet : il s’agit donc
d’un sous-espace de Hilbert MY . La projection X(Y b ) d’une v.a.r. X sur ce sous-espace s’écrit
sans difficulté (exercice) :
b ) = mX + cov(X, Y ) (Y − mY ).
X(Y
var(Y )
Y – mY X̂(Y )
σY
Y
1
Fig. IV.2. Projection dans L2 (Ω, F, P )
De façon plus générale, l’ensemble des v.a.r. obtenues par combinaison affine des composantes
d’un vecteur d’ordre deux Y = (Y1 , . . . , Yn )t est un sous-espace de Hilbert MY de dimension
n + 1 au plus. La projection d’une v.a.r. X d’ordre deux sur MY est la combinaison affine qui
minimise la distance ka0 + a1 Y1 + . . . + an Yn − Xk, où la norme est celle de L2 (Ω, F, P ). Dans
le contexte de la théorie de l’estimation, cette projection est appelée l’estimée linéaire d’erreur
moyenne quadratique minimale (ELMQ) de X étant donné Y , dont nous verrons l’expression
générale dans la deuxième partie du cours.
En général, la projection sur un sous-espace hilbertien séparable ou de taille finie est facilitée
par la connaissance d’une famille génératrice ou d’une base du sous-espace. La recherche d’une
base orthonormée de MY passe par la factorisation de la matrice de corrélation RY , c’est-à-dire
par l’écriture de RY sous la forme
RY = A At , (IV.21)
où A est une matrice rectangulaire telle que At A est inversible. En effet, soit {1, X1 , . . . , Xm }
une base orthogonale de MY et X = (X1 , . . . , Xm )t : alors nécessairement mX = 0 et RX = Im
(matrice identité m × m). En remarquant que Y est engendré par transformation affine de X,
on obtient (IV.21) comme une forme particulière de (IV.15).
Comme l’orthonormalisation de Y , la factorisation de RY admet plusieurs solutions. Deux
formes jouent un rôle prééminent dans les algorithmes d’estimation linéaire en traitement du
signal :
— en tant que matrice symétrique réelle, RY admet une décomposition spectrale RY =
MΛMt , où Λ est une matrice diagonale des valeurs propres (> 0 car RY > 0) et où M est une
matrice orthogonale (Mt M = In ) de vecteurs propres assemblés en colonnes. De la décomposition
spectrale, on déduit facilement une forme particulière de (IV.21) (exercice), qui réalise une
IV.6 L’espace de Hilbert L2 (Ω, F, P ) 63
« double orthonormalisation » de Y , au sens où X est composé de v.a.r. orthonormées dans

L2 (Ω, F, P ), tandis que les vecteurs colonnes de M sont orthonormés dans Rn !
— en effectuant une orthonormalisation pas à pas de Y , on obtient A sous la forme d’une
matrice triangulaire inférieure (méthode de Gram-Schmidt). Le résultat est la factorisation de
Cholesky de RY . Dans le cas où Y1 , . . . , Yn modélisent les échantillons successifs d’un signal
temporel, cette forme réalise l’orthonormalisation causale de la suite des échantillons du signal.
La plupart des algorithmes récurrents d’estimation linéaire exploitent ce résultat (voir la seconde
partie du cours).
Sous-espace engendré par une ou plusieurs v.a.r.
Considérons non plus seulement les combinaisons affines d’une v.a.r. d’ordre deux X, mais
toutes les v.a.r. d’ordre deux s’exprimant comme fonction déterministe de Y
HY = {ν(Y ) ∈ L2 (Ω, F, P ), ν application mesurable de (R, B) → (R, B)}.
Il est évident que HY est encore un sous-espace vectoriel de L2 (Ω, F, P ). En fait c’est un sous-
espace de Hilbert de L2 (Ω, F, P ) : Y induit un nouvel espace probabilisé, (Ω, Y −1 (B), PY ) iso-
morphe à HY ; or L2 (Ω, Y −1 (B), PY ) est un espace de Hilbert au même titre que L2 (Ω, F, P ).
De la même façon, l’espace HY des v.a.r. d’ordre deux s’exprimant comme fonction déter-
ministe d’un vecteur d’ordre deux est aussi un sous-espace de Hilbert de L2 (Ω, F, P ).
La projection d’une v.a.r. X d’ordre deux sur HY est la v.a.r. d’ordre deux ν(Y ) qui minimise
la distance kν(Y ) − Xk, où la norme est celle de L2 (Ω, F, P ). Dans le contexte de la théorie de
l’estimation, cette projection est l’estimée d’erreur moyenne quadratique minimale (EMQ) de X,
étant donné Y . En remarquant MY ⊂HY , on a kEMQ − Xk 6 kELMQ − Xk. Le paragraphe
suivant met en évidence un résultat essentiel : l’EMQ de X étant donné Y n’est autre que
l’espérance conditionnelle E(X | Y ) ; ce résultat se généralise sans difficulté au cas de vecteurs
aléatoires X et Y .
IV.6.3 Espérance conditionnelle dans L2 (Ω, F, P )

Soit X une v.a.r. de L2 (Ω, F, P ). Alors on a le résultat suivant :
L’espérance conditionnelle EX|Y (X | Y ) réalise la meilleure approximation de X par

une fonction de Y , au sens de la norme de L2 (Ω, F, P ) :
kX − E(X | Y )k = min kX − ν(Y )k .

ν(Y )∈L2 (Ω,F,P )
La structure d’espace de Hilbert de L2 (Ω, F, P ) permet d’identifier alors EX|Y (X | Y ) à la

projection orthogonale de la v.a. X sur le sous-espace hilbertien HY de L2 (Ω, F, P ).
Démonstration dans le cas d’un couple (X, Y ) à densité :
Commençons par montrer que E(X | Y ) est un élément de HY . A y fixé, l’inégalité de Cauchy-
Schwarz pour les deux fonctions de carré intégrable x → x(fX|Y (x | y))1/2 et x → (fX|Y (x | y))1/2
fournit la majoration : Z
(E(X | Y = y))2 6 x2 fX|Y (x | y) dx.
En utilisant la monotonie de l’intégrale, on obtient alors :

Z ³Z ´
2
kE(X | Y )k 6 x2 fX|Y (x | y) dx fY (y) dy = kXk2 < +∞.
Notons désormais h(Y ) la projection orthogonale de X sur HY et soit ν(Y ) un élément quel-
conque de HY . Par définition, on a
ZZ
hh(Y ) − X, ν(Y )i = (h(y) − x) ν(y) fXY (x, y) dx dy = 0.
En développant fXY (x, y) = fX|Y (x | y) fY (y), il vient

Z ³ Z ´
h(y) − x fX|Y (x | y) dx ν(y) fY (y) dy = hh(Y ) − EX|Y (X | Y ), ν(Y )i = 0.
Cette égalité est valable pour tout ν(Y ) de HY . En particulier pour ν(Y ) = h(Y ) − E(X | Y ) on
° °2
obtient °h(Y ) − EX|Y (X | Y )° = 0, ce qui conclut la démonstration.
Dans le cas d’un couple (X, Y ) du second ordre mais sans densité de probabilité, nous n’avions
pas encore défini l’espérance conditionnelle E(X | Y ). En revanche, la projection orthogonale de
X sur HY existe : dans ce cas on peut définir E(X | Y ) comme étant cette projection. En fait
l’espérance conditionnelle existe même sous des conditions plus générales.
65
Chapitre V
Signaux aléatoires à temps discret
V.1 Introduction
Par souci de simplicité, on se limite dans la suite aux signaux aléatoires discrets, le plus
souvent à valeurs réelles ou à états finis ou dénombrables. De fait, l’essentiel des algorithmes
de traitement statistique du signal manipulent des modèles discrets, même si certains algo-
rithmes admettent une extension à temps continu. C’est le cas du filtrage de Kalman, souvent
présenté à temps continu dans les cours d’automatique parce que les systèmes à commander
sont des systèmes physiques, tandis que le traitement du signal analyse le plus souvent des
données échantillonnées dès leur acquisition (échantillonneurs-bloqueurs, caméras CCD), voire
intrinsèquement discrètes dans un domaine tel que les communications numériques.
V.2 Caractérisation
V.2.1 Définition
Un signal aléatoire à temps discret X est une suite {Xk } de variables aléatoires, indexée
par N ou Z. De la même façon, un signal aléatoire à temps continu est une famille de variables
aléatoires indexée par R.
— A k fixé, Xk est une variable aléatoire et un n-uplet (Xk1 , . . . , Xkn ) forme un vecteur aléa-
toire, auxquels pourront s’appliquer les outils et les propriétés mis en évidence dans le chapitre
précédent. Un tel vecteur sera dénommé vecteur extrait de X.
— Pour une épreuve ω « tirée au hasard » dans un espace probabilisé (Ω, F, P ), Xk (ω) est
un signal déterministe à temps discret, dont on pourra étudier la stabilité, la représentation
harmonique... Chaque réalisation particulière d’un signal aléatoire est communément appelée
une trajectoire. Par exemple, on a représenté ci-dessous en figure V.1 trois fragments de trajec-
toires « également possibles » de la suite aléatoire binaire résultant d’un tirage à pile ou face
équiprobable.
Comme dans le cas des variables et des vecteurs aléatoires, on renonce très souvent à définir
explicitement un signal aléatoire pour ne s’intéresser qu’à sa loi.
V.2.2 Loi temporelle

Définition
La loi temporelle d’un signal aléatoire X correspond à la spécification des lois conjointes
de n variables aléatoires Xk1 , Xk2 , . . . , Xkn pour tout n entier et pour tout n-uplet d’instants
66 Signaux aléatoires à temps discret
pile k
ω1 …
face
ω2 …
ω3 …
Fig. V.1. Exemple 1 : tirage à pile ou face
(k1 , . . . , kn ). Comme toute loi d’un vecteur aléatoire, chaque loi conjointe peut être définie par
la fonction de répartition
Fk1 ,k2 ,...,kn (x1 , x2 , . . . , xn ) = P (Xk1 6 x1 , Xk2 6 x2 , . . . , Xkn 6 xn ); (V.1)
on peut également utiliser la fonction caractéristique
Ã µ Xn ¶!
Φk1 ,k2 ,...,kn (u1 , u2 , . . . , un ) = E exp i um Xkm . (V.2)
m=1
Suivant cette définition, un processus aléatoire est une application mesurable

X : Ω −→ RN ou RZ
ω −→ {Xk (ω)} ,
où RN (respectivement RZ ) est muni de la tribu des boréliens B ⊗N (resp. B⊗Z ). La loi temporelle
de X caractérise la probabilité image induite par X sur l’espace mesurable (RN , B ⊗N ) (resp.
RZ , B ⊗Z ). Elle caractérise entièrement la loi du signal aléatoire X, mais pas le signal aléatoire
lui-même, de même que la loi d’une v.a. ne caractérise pas entièrement la v.a. (voir la discussion,
§IV.3.1).
Loi jointe et indépendance de signaux aléatoires
Dans le chapitre IV, pour manipuler simultanément plusieurs v.a.r. (des couples, puis des
vecteurs), nous avons dû définir leur loi jointe. De même, on pourra manipuler plusieurs signaux
réels et étudier leurs dépendances statistiques en spécifiant une loi temporelle jointe, qui est l’en-
semble des fonctions de répartition de vecteurs aléatoires associant des vecteurs prélevés dans les
différents signaux. Par exemple, pour un couple de signaux (X, Y ), ou, de façon équivalente, pour
un signal complexe X +iY , la loi temporelle est l’ensemble des fonctions de répartition Fk,l (x, y)
de vecteurs aléatoires (X t , Y t )t , où X = (Xk1 , Xk2 , . . . , Xkm )t et Y = (Yl1 , Yl2 , . . . , Yln )t pour
tout m, n, k = (k1 , . . . , km ), l = (l1 , . . . , ln ).
Les signaux sont indépendants (dans leur ensemble) lorsque toutes les fonctions de répartition
de leur loi temporelle jointe se séparent en un produit de fonctions de répartition de type (V.1),
c’est-à-dire Fk,l (x, y) = Fk (x)Fl (y) pour tout m, n, k, l, x, y dans le cas du couple (X, Y ).
V.2.3 Caractéristiques instantanées

La définition de la loi temporelle permet de déduire les caractéristiques instantanées des
processus aléatoires, c’est-à-dire les caractéristiques de la variable aléatoire Xk , en particulier
V.2 Caractérisation 67
la fonction de répartition instantanée Fk (x) = P (Xk 6 x) et les moments de Xk , qui sont

des fonctions déterministes du temps (sous réserve d’existence). On définit essentiellement la
moyenne
Z
E(Xk ) = xdFk (x) = m(k) (V.3)
R
et le moment d’ordre deux

Z
2
E(Xk ) = x2 dFk (x) = m2 (k) + var (Xk ), (V.4)
R
qu’on appelle puissance moyenne à l’instant k.
V.2.4 Caractéristiques à l’ordre deux

Définition
Dans la perspective de travailler dans l’espace de Hilbert L2 (Ω, F, P ), il est intéressant de

définir les caractéristiques d’un signal X à l’ordre deux, pourvu qu’il soit d’ordre deux, c’est-
à-dire de puissance moyenne partout finie : E(Xk2 ) < +∞ pour tout k. Il s’agit d’abord de la
fonction moyenne mX (k), déjà définie par (V.3) à partir des caractéristiques instantanées. On
définit aussi la fonction d’autocorrélation
¡ ¢
rX (i, j) = cov(Xi , Xj ) = E (Xi − mX (i)) (Xj − mX (j))
= E(Xi Xj ) − mX (i) mX (j). (V.5)
Cette fonction est symétrique (rX (j, i) = rX (i, j)) et définie non négative : pour tout n > 1,
k1 , . . . , kn entiers et λ1 , . . . , λn réels,
µ³X ¶
X n Xn n
¡ ¢´2
λi λj rX (ki , kj ) = E λi Xki − mX (ki ) > 0.
i=1 j=1 i=1
D’autre part, d’après l’inégalité de Schwarz, la fonction d’autocorrélation atteint son maximum
en 0. Ce résultat est analogue à celui présenté au §I.3.1.
Un signal X est décorrélé, ou blanc à l’ordre deux, s’il est constitué de variables décorrélées :
rX (i, j) = rX (i, i) δi−j .
Enfin, pour deux signaux X et Y d’ordre deux, on définit à partir de la loi temporelle jointe
la fonction d’intercorrélation
rXY (i, j) = cov(Xi , Yj ) = E ((Xi − mX (i)) (Yj − mY (j)))

= E(Xi Yj ) − mX (i) mY (j). (V.6)
X et Y sont décorrélés s’ils sont constitués de variables décorrélées : rXY (i, j) = 0.
Sous-espaces de L2 (Ω, F, P )
Nous avons déjà signalé au chapitre précédent l’importance de la projection des v.a.r. de
L2 (Ω, F, P ) sur certains de ses sous-espaces hilbertiens, en particulier ceux qui sont engendrés
par combinaisons affines à partir d’une v.a.r. ou d’un vecteur aléatoire. De la même façon,
l’histoire linéaire d’un signal aléatoire X est l’ensemble engendré par combinaisons linéaires des
Xk . A l’instant k, le passé linéaire est l’ensemble engendré par Xk−1 , Xk−2 . . .. Ces espaces sont
séparables. On les construits comme la fermeture dans L2 (Ω, F, P ) des ensembles des combinai-
sons linéaires finies.
V.3 Construction et exemples

La spécification d’une loi temporelle, plus simple que la caractérisation complète de l’ap-
plication mesurable X, se révèle néanmoins peu pratique pour construire des lois de signaux
aléatoires, donc pour fabriquer des modèles adaptés à un contexte particulier. Le but de ce pa-
ragraphe n’est pas de fournir un catalogue exhaustif de modèles, ce qui serait à la fois illusoire
et sans intérêt, mais plutôt d’introduire des modèles fondamentaux et de montrer comment on
peut « enrichir » le catalogue en définissant des modèles plus compliqués à partir de modèles
simples.
V.3.1 Bruits blancs

Définition
On entend par bruit blanc, en référence à sa décomposition harmonique uniforme dans la

bande des fréquences analysée (voir chapitre VI), un signal aléatoire constitué d’une suite de
variables aléatoires indépendantes. La loi temporelle se sépare donc sous la forme caractéristique
simple
Fk1 ,k2 ,...,kn (x1 , x2 , . . . , xn ) = Fk1 (x1 ) . . . Fkn (xn ), (V.7)
pour tout entier n et pour tout n-uplet d’instants (k1 , . . . , kn ) et de valeurs (x1 , . . . , xn ). La loi du
signal est donc décrite entièrement par la suite des lois instantanées. Si ces lois sont identiques,
le bruit blanc est une suite de v.a.r. indépendantes identiquement distribuées (i.i.d.) ; il est dit
homogène.
Dans L2 (Ω, F, P ), il est fréquent de ne considérer que les caractéristiques à l’ordre deux d’un
signal aléatoire. C’est ainsi qu’un bruit blanc au sens faible est une suite de variables aléatoires
décorrélées, mais pas forcément indépendantes.
Exemples
La suite des « pile ou face » proposée en introduction est un bruit blanc homogène binaire.
Un autre exemple très utile est celui du bruit blanc homogène gaussien, dont la loi instantanée
est décrite par la moyenne et la puissance (ou la variance) des v.a.r. gaussiennes i.i.d. Xk . La
figure V.2 représente 50 points d’une trajectoire d’un bruit blanc gaussien réduit (moyenne nulle,
variance unité).
En pratique, on utilise souvent des modèles homogènes blancs pour décrire la partie indési-
rable d’un signal observé, dans le cas où cette partie est trop irrégulière pour une modélisation
déterministe. D’où l’appellation « négative » de « bruit » blanc, qu’on peut se représenter comme
le « souffle » d’une cassette audio.
Ainsi présenté, un bruit blanc semble le contraire d’un signal « utile ». Mais l’utilité d’un si-
gnal n’est pas une caractéristique intrinsèque. C’est au contraire une notion subjective dépendant
de ce que l’observateur cherche dans le signal. D’une part, tous les signaux « nuisibles » ne sont
pas des bruits blancs : les courants sinusoı̈daux à 50 Hz délivrés par Électricité de France sont
globalement utiles, mais leurs résidus peuvent perturber des systèmes d’alimentation autonome
ou de transmission d’information.
Réciproquement, tous les bruits blancs ne sont pas « nuisibles ». Par exemple, en théorie de
l’information, les bruits blancs permettent de maximiser le débit d’information d’un canal de
transmission, car leur caractère non prédictible assure qu’aucune redondance ne subsiste dans
une suite de variables i.i.d. Le but de la compression de données est justement de transformer
des signaux quelconques en signaux proches d’un bruit blanc homogène par une transformation
inversible, pour ne stocker ou ne transmettre que le signal « blanchi », en augmentant ainsi la
V.3 Construction et exemples 69
-1
-2
-3
5 10 15 20 25 30 35 40 45 50
Fig. V.2. Exemple 2 : bruit blanc gaussien
capacité de stockage ou le débit de transmission. Nous reviendrons plus loin sur la recherche du
« blanchiment » d’un signal, qui rejoint dans le contexte des signaux de puissance moyenne finie
la notion d’orthogonalisation de la suite des échantillons du signal, évoquée à la fin du chapitre
précédent (§IV.6.2).
V.3.2 Chaines de Markov

Définition
Une chaı̂ne de Markov est un signal aléatoire construit sur N et à valeurs dans E, espace fini
ou dénombrable. Traitons le cas d’un espace fini E = {e1 , . . . , eM }.
Si un signal aléatoire X défini vers E N vérifie pour tout n ∈ N∗ , i0 , i1 , . . . , in−1 , i, j ∈ E :
P (Xn+1 = j | Xn = i, Xn−1 = in−1 , . . . , X0 = i0 ) = P (Xn+1 = j | Xn = i) = pij , (V.8)
on dit que X est une chaı̂ne de Markov (homogène) de matrice de transition P = {pij }i ,j∈E .
La loi initiale de cette chaı̂ne définie par le vecteur q = (q1 , . . . , qM )t des probabilités initiales
qi = P (X0 = i).
Le couple (q, P ) caractérise la chaı̂ne, au sens où (q, P ) détermine entièrement sa loi tempo-
relle. En effet, la loi de Bayes (IV.2) donne sous sa forme récurrente
P (X0 = i0 , . . . , Xk = ik ) = qi0 pi0 i1 . . . pik−1 ik . (V.9)
En particulier, (V.9) permet de déduire la loi instantanée de la chaı̂ne {P (Xk = i)}i∈E à l’instant
k : par sommations successives sur i0 , . . . , ik−1 , on obtient P (Xk = em ) comme la m-ième
composante du vecteur qk = (P k )t q.
Construction
Réciproquement, soit un couple (q, P ), où

t est un vecteur de probabilités exhaustives, c’est-à-dire vérifiant 0 6

— q = (q1 , . . . , qM )P
qm 6 1 pour tout m et m qm = 1 ;
— P est une matrice stochastique de taille M × M , c’est-à-dire une matrice dont chaque
ligne est un vecteur de probabilités exhaustives.
Alors en utilisant un théorème de construction de mesure (le théorème d’extension de Kol-
mogorov [5]), on montre que (q, P ) caractérise une loi de probabilité de signal aléatoire sur N
d’après (V.9), donc une chaı̂ne de Markov. Par conséquent il est beaucoup plus simple de décrire
la loi d’une chaı̂ne de Markov homogène qu’une loi temporelle quelconque.
Exemple
Les descriptions markoviennes sont commodes pour une multitude de signaux qui possèdent
des propriétés « locales » de dépendance statistique. Par exemple, la marche aléatoire à d di-
mensions modélise la trajectoire d’un point dans E = Zd qui saute à chaque instant d’un pas
de façon équiprobable dans une des directions parallèles aux axes. La figure V.3 représente 50
points d’une trajectoire de marche aléatoire X à une dimension (E = Z) dont la position initiale
est X0 = 0. Les caractéristiques de la chaı̂ne sont donc
qm = δ0m , m ∈ Z
½
1/2 si i = j ± 1, i, j ∈ Z,
pij =
0 sinon.
-1
-2
-3
5 10 15 20 25 30 35 40 45 50
Fig. V.3. Exemple 3 : marche aléatoire
V.3.3 Constructions indirectes

On peut définir de façon simple et très efficace des nouveaux signaux aléatoires comme
fonctions déterministes d’autres modèles aléatoires, variables ou signaux.
V.3 Construction et exemples 71
Signaux aléatoires fonctions de variables aléatoires
Sans rentrer dans les généralités, traitons le cas d’une sinusoı̈de de fréquence connue, mais
d’amplitude et de phase aléatoires. Par exemple, ce modèle est classique pour décrire la compo-
sante parasite à 50 Hz évoquée au § V.3.1.
On considère un couple (A, Φ) de variables aléatoires indépendantes à densité : fA,φ (a, Φ) =
fA (a)fφ (Φ), où A suit une loi de Rayleigh sur R+ de paramètre σ 2
³ ´
a a2
fA (a) = 2 exp − 2
σ 2σ
et Φ est uniformément répartie sur ]0, 2π[. On définit le signal aléatoire X comme l’application
mesurable (de Ω dans RZ ) dont la composante à l’instant k est la v.a.r. Xk :
Xk = A cos(2πνk + Φ). (V.10)
-1
-2
-3
5 10 15 20 25 30 35 40 45 50
Fig. V.4. Exemple 4 : 3 trajectoires d’une sinusoı̈de à phase et amplitude aléatoires
Comme le montre la figure V.4, chaque trajectoire de ce modèle est une sinusoı̈de ; remar-
quons au passage qu’il est faux de penser que les signaux aléatoires ont toujours des trajectoires
« irrégulières », « imprédictibles ». Au contraire, il est facile de vérifier que X satisfait l’équation
de récurrence
Xk = 2 cos(2πν) Xk−1 − Xk−2 (V.11)
qui montre que le signal aléatoire X est parfaitement prédictible par combinaison linéaire finie des
deux derniers échantillons passés. Il s’agit d’un cas extrême de prédictibilité (le signal aléatoire
est dit singulier ).
Déterminons les caractéristiques instantanées de X. Posons Yk = A sin(2πνk + Φ). L’appli-
cation g(a, ϕ) = (a cos(2πνk + ϕ), a sin(2πνk + ϕ) ) est bijective de R+ ×]0, 2π[ dans R2 pour
tout k, donc la formule de changement de variable (IV.9) permet de trouver la densité jointe du
couple (Xk , Yk ). Le calcul donne
³ x2 + y 2 ´
1
fXk ,Yk (x, y) = exp − = fXk (x) fYk (y),
2πσ 2 2σ 2
ce qui montre que Xk et Yk sont des variables indépendantes de même loi gaussienne N (0, σ 2 )
indépendante de k et de ν !
Fonctions de signaux aléatoires
Il s’agit des transformations déterministes d’un signal aléatoire X : Y = ϕ(X), tel que Y est
mesurable. Deux cas présentent un intérêt particulier :
— Les transformations instantanées d’un signal aléatoire X, c’est-à-dire les transformations
instant par instant : Y est la suite des variables aléatoires Y = ϕk (Xk ).
— Les transformations affines d’un signal aléatoire. Ce cas est essentiel puisqu’il contient
le filtrage linéaire. En particulier, on peut définir de nombreux signaux par filtrage linéaire des
bruits blancs.
Par exemple, la marche aléatoire monodimensionnelle X = {Xk }k∈N de l’exemple 3 est la
sortie d’un filtre « intégrateur » dont l’entrée est un bruit blanc binaire B = {Bk }k∈N à valeurs
{+1, −1} du type de l’exemple 1 :
½
X0 = 0
(V.12)
Xk = Xk−1 + Bk , k > 1.
La TZ du filtre intégrateur est H(z) = z/(z − 1) : il s’agit d’un filtre récursif (qui n’est pas
stable ; voir le chapitre III).
ARMA causaux
Plus généralement, toute fraction rationnelle en z P (z)/Q(z) admettant un développement

causal (c’est-à-dire telle que d◦ (P ) 6 d◦ (Q) = N ; voir le chapitre III) permet de définir des
signaux aléatoires sur N par filtrage causal des bruits blancs homogènes, de la façon suivante :
— soit FB la loi instantanée du bruit d’entrée B = {Bk } ;
— étant donnée la loi du vecteur (X0 , . . . , XN −1 )t définissant les conditions initiales, indé-
pendant du bruit B,
— pour tout n > N, Xn est la sortie du filtre causal de fonction de transfert P (z)/Q(z),
qu’on peut obtenir sous forme récursive :
³X
M N
X ´
1
Xk = bm Bk−m − an Xk−n (V.13)
a0
m=0 n=1
avec les notations du chapitre III.

Ces signaux aléatoires définis sur N sont dits ARMA causaux.
— Pour M = 0, le filtre générateur est purement récursif et le signal est dit AR (pour
autorégressif ).
— Pour N = 0, le filtre est à réponse impulsionnelle finie et le signal est un MA (pour
« moving average », moyenne mobile).
ARMA stationnaires
Par filtrage linéaire causal des bruits blancs homogènes, on a seulement défini des signaux
aléatoires sur N. En fait on peut aussi obtenir des signaux aléatoires sur Z par filtrage linéaire.
Mais cette fois l’important est de garantir la stabilité, et non plus la causalité (et a fortiori, le
filtrage stable donnera aussi des signaux aléatoires sur N par restriction). Il faut aussi que le
bruit soit homogène d’ordre deux. Alors on a le résultat suivant :
Le filtrage d’un bruit blanc homogène d’ordre deux B = {Bk }k∈Z par un filtre h = {hk }k∈Z
linéaire stable définit un signal X aléatoire d’ordre deux sur Z :
X
Xn = hn−k Bk . (V.14)
k∈Z
V.4 Propriétés 73
Ce résultat est une conséquence d’une propriété des systèmes orthonormés dans unPespace de
Hilbert : (B − mB )/σB est un système orthonormé de L2 (Ω, F, P ), donc toute série
P k∈Z ck Bk
2
converge dans L (Ω, F, P ) (et même dans 2
Pl’histoire linéaire de B) pourvu que k∈Z ck < +∞,
et définit une v.a.r. de puissance E(Bk2 ) k∈Z c2k . Or h est stable, donc d’énergie finie, donc le
résultat s’applique à (V.14).
On déduit facilement de (V.14) l’invariance des caractéristiques statistiques d’ordre deux de
X au cours du temps :
X
E(Xk ) = mB hk , (V.15)
k∈Z
X ³X ´2
E(Xk2 ) = σB
2
h2k + m2B hk < +∞, (V.16)
k∈Z k∈Z
XX
E(Xn Xn+m ) = hn−k hn+m−l E(Bk Bl ) (V.17)
k∈Z l∈Z
X ³X ´2
2
= σB hk hk+m + m2B hk . (V.18)
k∈Z k∈Z
Donc la moyenne E(Xk ) et l’autocorrélation E(Xk Xk+m ) − mX (k) mX (k + m) ne dépendent pas

de l’instant k. Le signal X est dit stationnaire à l’ordre deux, notion sur laquelle nous reviendrons
au §V.4.2, puis au chapitre VI. Dans le cas où la TZ du filtre linéaire stable est une fraction
rationnelle, on dit que X est un ARMA stationnaire à l’ordre deux.
Un filtre générateur à la fois stable et causal engendre par (V.14) un ARMA stationnaire à
l’ordre deux et causal sur Z. La causalité du filtre a pour conséquence évidente la décorrélation
entre les sorties passées et les entrées futures du filtre :
E(Xn Bm ) = 0 pour tout m > n.
V.4 Propriétés
Après avoir défini une gamme assez vaste de signaux aléatoires, nous allons pouvoir étudier
certaines de leurs propriétés. Une des plus importantes, la décomposition harmonique, valable
pour les modèles stationnaires à l’ordre deux seulement, sera traitée spécifiquement dans le
chapitre VI.
Dans la suite, nous étudions différentes notions de convergence qui peuvent s’appliquer aux
signaux aléatoires (§V.4.1), puis nous définissons la stationnarité, au sens strict et au sens large
(§V.4.2) et les propriétés d’ergodisme de certains signaux stationnaires (§V.4.3).
V.4.1 Convergence
La convergence d’un signal aléatoire réel {Xn }n∈N s’identifie à la convergence de la suite des
v.a.r. X0 , X1 , . . . , Xk , . . ., c’est-à-dire que seules les caractéristiques instantanées du signal sont
concernées. Il est important de voir que cette notion de convergence de v.a.r. peut prendre des
sens très différents suivant que l’on s’intéresse seulement à la loi des variables aléatoires, ou bien
aux valeurs qu’elles prennent épreuve par épreuve, ou encore à une mesure globale sur toutes les
épreuves. On distingue quatre types de convergence.
Convergence en loi
C’est la notion la plus simple, mais aussi la convergence la plus faible. En fait elle ne désigne
pas une convergence de variables aléatoires mais seulement la convergence de lois de probabilité.
On dit que la suite {Xk } converge en loi vers une v.a.r. X si la probabilité PXk converge
vers PX au sens des mesures sur R. Une condition nécessaire et suffisante s’obtient sous la forme
d’une convergence simple de fonction de répartition point par point : {Xk } converge en loi vers
X ssi en tout point de continuité de la fonction de répartition de X, on a
lim FXk (x) = FX (x). (V.19)

k→∞
Une condition équivalente porte de la même façon sur la fonction caractéristique.

— Exemple : théorème central limite
Soit X = {Xk }k∈N un bruit blanc homogène au sens strict et d’ordre deux sur N. Considérons
le signal aléatoire S = {Sk }k∈N ,
k−1
1X
Sk = Xi .
k
i=0
Il est évident que Sk est une v.a.r. d’ordre deux, de moyenne mS = mX et de variance σS2 = σX2 /k.
Le théorème central limite concerne la convergence en loi de la variable Sk une fois réduite : la
loi de (Sk − mS )/σS converge vers une gaussienne réduite.
Convergence en probabilité (ou convergence stochastique)
Elle est obtenue ssi

∀ε > 0, lim P (|Xk − X| > ε) = 0. (V.20)
k→∞
Elle peut s’interpréter en disant que pour k grand, l’ensemble des ω tels que Xk (ω) s’écarte
de X(ω) de plus de ε est de mesure arbitrairement faible, pour tout ε. Il s’agit donc d’une
convergence « globale », en probabilité sur l’ensemble des trajectoires.
Convergence presque sûre
Elle est obtenue ssi l’ensemble des ω ne vérifiant pas
∀ε > 0, ∃N : ∀k > N, |Xk (ω) − X(ω)| < ε (V.21)
est de mesure nulle. Cette convergence est très forte puisqu’elle concerne séparément chaque
épreuve ω (donc chaque trajectoire du signal) au sens déterministe, sauf un ensemble négligeable
de trajectoires. En fait, la limite d’une suite de v.a.r. Xk convergeant presque sûrement définit
la variable aléatoire X. En pratique, les cas les plus fréquents de convergence presque sûre font
intervenir une limite presque sûre : presque toutes les trajectoires sont convergentes au sens
déterministe, vers la même limite.
— Exemple : loi des grands nombres
Soit X = {Xk }k∈N un bruit blanc homogène d’ordre deux sur N. Alors il existe une version
de la loi des grands nombres adaptée à cette hypothèse. Il s’agit d’un résultat de convergence
presque sûre vers une quantité déterministe :
n−1
1X
lim Xk = mX . (V.22)
n→∞ n
k=0
Convergence en moyenne quadratique
Il s’agit de la convergence dans l’espace de Hilbert des v.a.r. du second ordre L2 (Ω, F, P ),
déjà évoquée pour fermer des sous-espaces linéaires (§V.2.4) ou pour justifier l’appartenance à
V.4 Propriétés 75
L2 (Ω, F, P ) des filtrées stables d’un bruit blanc homogène d’ordre deux (fin de § V.3.3) :
lim kXk − Xk = 0,
k→∞
c’est-à-dire ¡ ¢
lim E (Xk − X)2 = 0. (V.23)
k→∞
C’est une convergence globale (c’est-à-dire définie sur l’ensemble des épreuves) très forte, qui
joue un rôle essentiel dans l’étude des processus stochastiques.
Il n’existe aucun lien systématique entre la convergence presque sûre et la conver-

gence en moyenne quadratique. Cependant toutes deux impliquent la convergence
en probabilité qui entraı̂ne la convergence en loi.
V.4.2 Stationnarité
Chaque fois qu’un signal a pour origine un phénomène permanent à l’échelle du temps de
mesure, sans changement de comportement prévisible, il est intéressant de le décrire par un
modèle aléatoire dont les caractéristiques statistiques possèdent des propriétés d’invariance adé-
quates. Cette situation est particulièrement fréquente dans le cas où l’observateur ne déclenche
pas le phénomène qu’il mesure, et que ce dernier existe de façon permanente indépendamment
de l’observation.
Stationnarité forte. Exemple des chaı̂nes de Markov
Un processus aléatoire X est dit fortement stationnaire (ou stationnaire strict, ou station-
naire) si sa loi temporelle est invariante par toute translation du temps, c’est-à-dire que les
vecteurs aléatoires (Xk1 , Xk2 , . . . , Xkn )t et (Xk1+k , Xk2+k , . . . , Xkn+k )t ont des lois de probabili-
tés identiques pour tout n ∈ N∗ , tout n-uplet (k1 , k2 , . . . , kn ) ∈ Zn et pour tout k ∈ Z. Par
restriction, on peut aussi définir la stationnarité des signaux aléatoires sur N.
Reprenons l’exemple des chaı̂nes de Markov : les couples (q, P ) qui vérifient P t q = q dé-
finissent des modèles stationnaires stricts sur N. En effet, cette propriété a pour conséquence
immédiate que le vecteur qk = (P k )t q des caractéristiques instantanées de la chaı̂ne à l’instant
k est égal à q. A partir de ce résultat, l’application de la loi de Bayes ayant donné (V.9) donne
le même résultat quel que soit l’instant :
P (Xn = i0 , . . . , Xn+k = ik ) = qi0 pi0 i1 . . . pik−1 ik = P (X0 = i0 , . . . , Xk = ik ),
ce qui suffit pour prouver la stationnarité stricte.

Toutes les matrices de transition P n’admettent pas de vecteur q initial tel que P t q =
q, tandis que d’autres en admettent plusieurs. La théorie des chaı̂nes de Markov étudie en
particulier ces questions d’existence et d’unicité. Dans le cas de la marche aléatoire, les vecteurs
q invariants sont tous colinéaires au vecteur constant 1. Mais aucun d’entre eux n’est un vecteur
de probabilité : en fait la chaı̂ne finit par « se diluer » uniformément sur tous les entiers relatifs
quel que soit son point de départ. La chaı̂ne ne converge pas en loi vers une variable aléatoire.
Stationnarité faible
La stationnarité forte porte sur l’ensemble de la loi temporelle du processus. On est amené à
définir un autre type de stationnarité dite faible, ou au sens large, ou à l’ordre deux car elle fait
seulement intervenir l’invariance dans le temps des moments d’ordre un et deux du processus
aléatoire.
Un processus aléatoire (d’ordre deux) X est dit faiblement stationnaire lorsque sa valeur
moyenne est constante et sa fonction d’autocorrélation rX (k1 , k2 ) n’est fonction que de la diffé-
rence n = k1 − k2 . Ceci s’écrit
∀k ∈ Z, E(Xk ) = mX , ∀(k, n) ∈ Z2 , rX (k, k + n) = CX (n).
En particulier, la puissance moyenne de X est une constante :

2
∀k ∈ Z, E(Xk2 ) = mX + CX (0).
Soit (Xk , . . . , Xk+n ) un vecteur extrait de X. La matrice d’autocorrélation de ce vecteur a pour

composante aij = rX (k + i − 1; k + j − 1). La stationnarité faible confère à cette matrice une
structure particulière dite de Toeplitz où les coefficients sont constants suivant chaque diagonale.
Il est évident que la stationnarité forte implique la stationnarité faible pourvu que les deux
premiers moments existent. La réciproque est en général fausse, mais elle est vraie dans le cas
des processus gaussiens.
Il est évident qu’un bruit blanc homogène au sens strict (respectivement au sens faible) est
stationnaire au sens strict (resp. au sens faible). Par filtrage stable des bruits blancs stationnaires
d’ordre deux, nous avons montré à la fin du § V.3.3 qu’on pouvait définir de nouveaux signaux
stationnaires d’ordre deux. On peut démontrer [1] un résultat plus général :
Le filtrage par un filtre stable d’un signal stationnaire à l’ordre deux est un signal
stationnaire à l’ordre deux.
Retour sur les ARMA stationnaires faibles
La stationnarité large des signaux obtenus par filtrage stable d’un bruit blanc stationnaire
est un résultat essentiel, car elle indique comment construire des modèles stationnaires possédant
une structure de corrélation particulière. En effet, dans le cas d’un bruit blanc réduit, (V.15) et
(V.18) impliquent
X
CX (n) = hk hk+n , (V.24)
k∈Z
c’est-à-dire que l’autocorrélation de la réponse impulsionnelle h du filtre définie au sens des

signaux déterministes stables (donc d’énergie finie) se transporte sur la fonction d’autocorrélation
du signal aléatoire. En particulier, l’énergie du filtre donne la puissance moyenne du signal
aléatoire d’après (V.16), ce dernier étant d’énergie infinie. Nous verrons dans le chapitre suivant
que ce résultat est transposable sous forme de représentation harmonique : la densité spectrale
d’énergie du filtre devient la densité spectrale de puissance du signal de sortie.
Ces résultats sont évidemment valables pour les filtres rationnels, qui nous ont permis de
définir les ARMA stationnaires.
V.4.3 Ergodisme
Dans le paragraphe précédent, nous avons souligné l’utilité des modèles stationnaires quand
le phénomène mesuré existe de façon permanente indépendamment de son observation. En fait,
dans cette situation, on ne peut souvent observer qu’un fragment d’une unique trajectoire (on
peut considérer par exemple l’imagerie de l’activité solaire au cours du temps). Dans ces condi-
tions, comment (et pourquoi) choisir ou identifier un modèle aléatoire ? La solution de ce pro-
blème passe souvent par la restriction à des modèles aléatoires ergodiques, c’est-à-dire dont on
peut identifier entièrement ou en partie la loi temporelle par des moyennes temporelles sur une
seule trajectoire.
V.5 Les signaux gaussiens 77
— Prenons l’exemple de la moyenne mX = E(Xk ) d’un signal X faiblement stationnaire : X

est ergodique pour sa moyenne ssi
n
X
1
lim Xi = mX
n→∞ 2n + 1
i=−n
au sens de la convergence presque sûre. Nous avons déjà vu un cas simple d’ergodisme pour la
moyenne : la loi des grands nombres (V.22) assure l’ergodisme pour la moyenne d’un bruit blanc
stationnaire d’ordre deux.
— Plus généralement, X est ergodique pour une fonction ϕ si
n
1X
lim ϕ(Xk1+i , . . . , XkN +i ) = E(ϕ(Xk1 , . . . , XkN )) (V.25)
n→∞ n
i=1
presque sûrement pour tout N , tout N -uplet d’instants distincts (k1 , . . . , kN ).

— X est ergodique au sens strict si (V.25) est vérifié pour toute fonction ϕ telle que
E(ϕ(Xk1 , . . . , XkN )) ait un sens.
— X est ergodique à l’ordre deux si (V.25) est vraie pour la moyenne et pour l’autocorréla-
tion.
Les principaux exemples de signaux stationnaires présentés dans ce chapitre sont ergodiques :
chaı̂nes de Markov stationnaires, ARMA stationnaires d’ordre deux.
V.5 Les signaux gaussiens

Un signal gaussien est un signal aléatoire dont on ne peut extraire que des vecteurs gaussiens.
On a vu dans le chapitre précédent que toute transformation affine d’un vecteur gaussien donnait
un vecteur gaussien. Cette propriété se transpose donc aux signaux gaussiens. C’est une première
propriété de stabilité, mais il y en a une autre qui est la stabilité en moyenne quadratique : la
limite d’un signal gaussien convergeant en moyenne quadratique est une variable gaussienne.
Pour démontrer cette propriété, il suffit de vérifier que la limite des fonctions caractéristiques
est la fonction caractéristique d’une gaussienne.
D’après ce résultat, on peut dire que l’histoire ou le passé linéaire d’un signal gaussien sont
des espaces de Hilbert gaussiens. Dans les espaces gaussiens, les variables sont d’ordre deux
et les lois de probabilité sont déterminées entièrement par des moyennes et des corrélations.
Stationnarité faible et forte d’un signal gaussien sont équivalentes.
78
79
Chapitre VI
Signaux aléatoires stationnaires

faibles
VI.1 Introduction
La représentation fréquentielle des signaux aléatoires s’avère un outil précieux puisqu’elle
fournit des informations importantes sur le caractère périodique ou pseudo-périodique d’un si-
gnal. Nous verrons dans la suite de ce chapitre que de même que pour les signaux déterministes
harmonisables, on peut définir une telle représentation pour les signaux aléatoires stationnaires
faibles, en commençant par associer à leur fonction d’autocorrélation une mesure ou éventuelle-
ment une densité spectrale de puissance.
Comme dans le cas déterministe, nous précisons le lien essentiel entre la représentation
fréquentielle et le filtrage linéaire convolutionnel pour les signaux aléatoires stationnaires faibles.
L’analyse spectrale consiste à chercher les caractéristiques spectrales d’un signal supposé
stationnaire faible à partir d’un extrait de ce signal. Nous présenterons successivement l’analyse
spectrale non paramétrique, utilisant le périodogramme, et l’analyse spectrale paramétrique qui
exploite les propriétés des signaux ARMA introduits au chapitre V. Ces méthodes constitueront
une première introduction aux problèmes d’estimation qui feront l’objet du prochain module de
cours.
VI.2 Représentation harmonique

L’étude de la représentation harmonique des signaux a déjà été abordée dans les chapitres I
et II pour le cas des signaux déterministes. Dans le cas des signaux stationnaires faibles, deux
résultats essentiels seront énoncés. Tout d’abord, le théorème de Herglotz permet de garantir
l’existence d’une mesure spectrale de puissance définie, de même que pour les signaux détermi-
nistes, comme la transformée de Fourier de la fonction d’autocorrélation (voir (I.18) du chapitre
I). En général, l’analyse harmonique du signal par l’intermédiaire de sa fonction d’autocorré-
lation est d’ailleurs suffisante dans les problèmes d’identification, d’estimation et de filtrage.
Nous nous intéresserons ensuite à la représentation de Fourier du signal aléatoire lui-même. Le
théorème de Cramer-Khintchine assure l’existence et l’unicité d’une telle représentation pour
presque toute trajectoire du signal aléatoire.
VI.2.1 Fonction d’autocorrélation

D’après le chapitre précédent, un signal aléatoire à temps discret stationnaire du second ordre
admet une valeur moyenne constante mX = E(Xn ) (i.e., indépendante de n), et une fonction
80 Signaux aléatoires stationnaires faibles
d’autocorrélation de la forme
rX (n, p) = CX (n − p).
On appellera par la suite CX (k) sa fonction d’autocorrélation et on supposera le signal centré
(mX = 0).
L’existence de la mesure spectrale de la fonction d’autocorrélation est garantie par le théo-
rème de Herglotz, dont l’énoncé est le suivant.
—Théorème de Herglotz
Soit C : Z → C une fonction définie non négative, c’est-à-dire telle que
N
X −1 N
X −1
C(i − k) λi λ∗k > 0
i=0 k=0
pour tout N > 1, (λ0 , . . . , λN −1 ) ∈ CN . Alors il existe une mesure finie µ sur l’intervalle
Π =] − 1/2, 1/2] telle que Z
C(k) = e2iπkν µ(dν)
Π
et cette mesure est unique.
La démonstration du théorème de Herglotz est présentée dans [1]. On en déduit que la
fonction d’autocorrélation du signal X admet une représentation sous la forme
Z
CX (k) = e2iπkν µX (dν) (VI.1)
Π
où µX est unique. Pour k = 0, cette égalité reste vraie, donc

Z ³i i´
1 1
CX (0) = µX (dν) = µX − ,
Π 2 2
qui est la puissance moyenne E(Xn2 ) du signal. La mesure µX est dite mesure spectrale de
puissance du signal X. Si cette mesure est à densité vis-à-vis de la mesure de Lebesgue, c’est-à-
dire s’il existe une fonction réelle non négative φX (ν) telle que
Z
CX (k) = e2iπkν φX (ν) dν,
Π
φX (ν) est appelée la densité spectrale de puissance de X.

Si, de plus, CX est dans `2 et admet donc une transformée de Fourier, on a alors
X
φX (ν) = CX (k) e−2iπkν .
k∈Z
Lorsqu’il existe une mesure ou une densité spectrale de puissance, il est donc possible d’analyser
en fréquence la répartition d’énergie du signal aléatoire en utilisant la transformée de Fourier
discrète de sa fonction d’autocorrélation.
Si la mesure µX est une somme pondérée de masses ponctuelles,
X
µX = ak δ(ν − νk ) (VI.2)
k∈Z
où δ(ν − νk ) est la mesure de Dirac au point νk , on dit que le signal Xk admet un spectre de
raies, ak étant l’intensité de la raie νk (ak > 0).
VI.2 Représentation harmonique 81
VI.2.2 Cas d’un bruit blanc numérique

Soit un bruit blanc {Bn } stationnaire faible centré, donc tel que
E(Bn+k Bn ) = 0, ∀k ∈ Z∗ .
Notons σ 2 = E(Bn2 ) ; la fonction d’autocorrélation de {Bn } s’écrit :
Z
CB (k) = σ 2 δ(k) = e2iπkν σ 2 dν,
Π
et donc {Bn } admet une densité spectrale de puissance constante

φB (ν) = σ 2 . (VI.3)
VI.2.3 Trajectoires
Après avoir étudié le problème de la représentation spectrale de la fonction d’autocorrélation,
nous allons nous intéresser au problème de la représentation spectrale des trajectoires du signal
{Xn }. Pour chaque trajectoire du signal, l’existence de cette décomposition devient un problème
déterministe qui a été traité dans les premiers chapitres dans les cas stables, d’énergie finie ou
harmonisable.
Considérons tout d’abord un signal stationnaire ergodique, l’équation (V.24) nous permet
d’écrire que p.s.
n
1X
lim |Xk | = E(|X1 |)
n→∞ n
k=1
n
1X
lim |Xk |2 = E(|X1 |2 ).
n→∞ n
k=1
Donc si X n’est pas identiquement nul, E(|X|) et E(|X|2 ) sont des quantités strictement positives,
ce qui implique que p.s.
X∞ ∞
X
|Xk | = ∞ et |Xk |2 = ∞.
k=1 k=1
Pour presque tout ω, la trajectoire X(k, ω) n’est pas dans `2 ni dans `1 et l’existence systématique
de la transformée de Fourier n’est pas assurée.
Il existe pourtant une forme de relation de Fourier entre les trajectoires de processus stochas-
tiques. Pour l’introduire considérons le cas particulier d’un processus à spectre de raies défini
par
XN
Xk = Aj e2iπνj k
j=1
où les Aj sont des variables aléatoires du second ordre. Il apparaı̂t immédiatement que le proces-
sus ainsi défini n’est stationnaire du second ordre que si les Aj sont des variables non corrélées,
puisque :
N
X N
X N
X
E(Xn Xp∗ ) = E(|Aj |2 ) e2iπνj (n−p) + E(Aj A∗l ) e2iπνj n e−2iπνl p .
j=1 j=1 l=1,l6=j
Lorsque cette condition est satisfaite, il est naturel de considérer la suite des Aj comme la
représentation spectrale du signal Xk stationnaire d’ordre deux.
La généralisation de cette représentation à l’ensemble des processus stationnaires faibles est
l’objet du théorème de Cramer-Khintchine.
Théorème de Cramer-Khintchine
Soit Xk un signal stationnaire du second ordre et µX sa mesure spectrale de puissance. Il

existe p.s. une représentation spectrale de toute trajectoire du signal aléatoire, c’est-à-dire que
p.s., on peut écrire Z
X(k) = e2iπkν dx(ν). (VI.4)
Π
La représentation {x(ν)}ν∈R appelée représentation spectrale de Cramer-Khintchine est

unique. C’est un signal aléatoire à accroissements non corrélés centrés de mesure structurelle
µX . Ceci signifie que, pour tout (ν1 , ν2 ) ∈ R2
¡ ¢
E |x(ν2 ) − x(ν1 )|2 < ∞
¡ ¢
E x(ν2 ) − x(ν1 ) = 0
et pour tout ]ν1 , ν2 ] ⊂ R, ]ν3 , ν4 ] ⊂ R,
³¡ ¢¡ ¢´ ¡ ¢
E x(ν2 ) − x(ν1 ) x(ν4 ) − x(ν3 ) = µX ]ν1 , ν2 ] ∩ ]ν3 , ν4 ] .
L’intégrale (VI.4) est une intégrale de Wiener dont l’étude dépasse le cadre de ce cours. Le
lecteur intéressé peut se rapporter à [1] ou à [7].
Dans le cas où X(k) est gaussien de mesure spectrale µX , sa représentation spectrale de
Cramer-Khintchine x(ν) est un processus gaussien.
VI.3 Filtrage linéaire convolutionnel

Soit {Xn } un signal aléatoire centré discret stationnaire du second ordre de mesure spectrale
de puissance µX , et {hn } la réponse impulsionnelle d’un filtre convolutionnel stable. Montrons
que pour tout n ∈ Z, la somme X
hn−k Xk (VI.5)
k∈Z
converge p.s. vers une v.a.r. Yn . En effet, (|Xn | − 1)2 > 0, donc
E(|Xn |) 6 1 + E(|Xn |2 ) = 1 + CX (0) = K < ∞,
où CX (0) est la puissance de X. Ceci implique que
µX ¶ X X
E |hn−k ||Xk | = |hn−k | E(|Xk |) 6 K |hn−k | < ∞
k∈Z k∈Z k∈Z
ce qui assure la convergence presque sûre de la somme (VI.5). On définit ainsi un signal aléatoire
{Yn } qui est la sortie du filtre ayant pour signal d’entrée {Xn }. Le signal {Xn } étant centré,
e
E(Yn ) = 0. Notons H(ν) la transformée de Fourier associée à la réponse impulsionnelle du filtre
X
e
H(ν) = hk e−2iπkν .
k∈Z
On peut montrer qu’alors le signal {Yn } est stationnaire faible et sa mesure spectrale de puissance
s’exprime sous la forme
e
µY = |H(ν)| 2
µX (dν). (VI.6)
Lorsque le signal d’entrée X admet une densité spectrale de puissance φX (ν), Y admet éga-
lement une densité spectrale et le résultat précédent se met sous la forme
e
φY (ν) = |H(ν)|2
φX (ν). (VI.7)
Notons enfin que le filtrage linéaire d’un signal gaussien conserve le caractère gaussien.
VI.4 Analyse spectrale classique 83
VI.4 Analyse spectrale classique

VI.4.1 Position du problème
Soit {Xn } un signal aléatoire discret stationnaire du second ordre centré de fonction d’auto-
corrélation CX (k), admettant la densité spectrale de puissance
X
φX (ν) = CX (k) e−2iπkν . (VI.8)
k∈Z
Dans la pratique, on travaille la plupart du temps avec un certain nombre de réalisations

(souvent une seule) d’un extrait X0 , . . . , XN −1 du signal {Xn }. La question que l’on examinera
ici est la suivante : peut-on approcher la densité spectrale de puissance φX (ν) du signal {Xn }
à partir de ces échantillons ? Ce problème, qui constitue ce que l’on appelle l’analyse spectrale
du signal {Xn }, est un des plus anciens problèmes du traitement de données expérimentales qui
consiste, en clair, à rechercher des pseudo-périodes dans une suite de données au comportement
irrégulier.
VI.4.2 Périodogramme
Définition
L’analyse spectrale a été naturellement conduite à l’origine par analogie avec l’analyse
fréquentielle des signaux déterministes. Lorsque l’on dispose d’une suite de N échantillons
x0 , . . . , xN −1 , la répartition de l’énergie de cette séquence suivant les fréquences est donnée
par le module au carré de la transformée de Fourier :
¯N −1 ¯2
1 ¯¯ X ¯
−2iπνk ¯
x e ¯ .
N¯
k
k=0
La suite x0 , . . . , xN −1 est maintenant considérée comme la réalisation d’un extrait X0 , . . . , XN −1

du signal aléatoire stationnaire faible {Xn } vérifiant les hypothèses de l’introduction. L’expres-
sion précédente est alors la réalisation de la fonction aléatoire
¯N −1 ¯2
b 1 ¯¯ X ¯
−2iπνk ¯
φN (ν) = ¯ Xk e ¯ . (VI.9)
N
k=0
Cette fonction est appelé le périodogramme. Notons que cette fonction est en pratique calculée
sur les fréquences multiples de 1/N fois la fréquence d’échantillonnage par un algorithme de
transformée de Fourier rapide (TFR ou FFT, présentée au chapitre II). Si l’on désire obtenir
les valeurs de φbN sur d’autres fréquences, il est possible d’interpoler l’expression précédente en
effectuant du « bourrage de zéro » (voir le chapitre II).
Dans la suite, nous allons montrer les qualités et les défauts de l’estimation de la densité
spectrale de puissance par le périodogramme. Pour cela, nous ferons usage d’une autre expression
du périodogramme.
Transformée de Fourier du périodogramme
En développant le module dans l’expression du périodogramme (VI.9), on a

N −1 N −1
1 X X
φbN (ν) = Xl Xm e−2iπ(l−m)ν .
N
m=0 l=0
En posant k = l − m, l’expression précédente devient :
N −1 N −1−|k|
1 X X
φbN (ν) = e−2iπkν
Xm Xm+|k| .
N
k=1−N m=0
bN (k) la suite définie par :

Notons C
(
1 PN −|k|−1 Xj X si |k| < N,
b
CN (k) = N j=0 j+|k| (VI.10)
0 sinon.
On a alors : X
φbN (ν) = bN (k) e−2iπkν
C (VI.11)
k∈Z
qui est analogue à (VI.8).

La suite CbN (k), qui est appelée autocorrélation empirique biaisée, possède la propriété sui-
vante ³ ´ ³ ´
E C bN (k) = 1 − |k| C(k), (VI.12)
N
qui implique que pour N tendant vers l’infini, E(C bN (k)) tend vers la fonction d’autocorrélation
du processus C(k). Cette propriété et la relation (VI.11) justifient intuitivement le choix du
périodogramme pour approximer la densité spectrale de puissance. Elle permet de plus d’étudier
précisément la qualité de cette approximation, comme nous allons le voir dans la suite.
Caractéristiques de l’analyse spectrale par périodogramme
En utilisant l’expression précédente, on peut calculer la moyenne du périodogramme φbN (ν) :

N
X −1 ³ |k| ´
E(φbN (ν)) = 1− C(k) e−2iπkν
N
k=1−N
ce qui montre que pour N fixé, il existe une différence entre la valeur moyenne E(φbN (ν)) et la
densité spectrale φ(ν). Cette différence est appelée un biais. On s’intéresse ensuite à l’évolution
de ce biais lorsque le nombre d’échantillons N tend vers l’infini. En supposant
X
|C(k)| < ∞,
k∈Z
on montre, à l’aide du théorème de convergence dominée de Lebesgue
lim E(φbN (ν)) = φ(ν).

N →∞
On étudie la convergence en moyenne quadratique de la suite des v.a. φbN (ν) vers la valeur de
la densité spectrale φ(ν), pour une fréquence ν fixée quelconque, c’est-à-dire que l’on s’intéresse
à la variance asymptotique ³ ´
lim E (φbN (ν) − φ(ν))2 .
N →∞
On peut montrer que cette valeur est en général non nulle. Si on considère par exemple un bruit
blanc gaussien de variance σ 2 , dont la densité spectrale est constante φX (ν) = σ 2 , alors on a
³ ´ ¯ ¯
1 2 ¯ 1 − e2iπν ¯2
σ −4
E (φbN (ν) − σ ) = 1 −
2 2
+ 2 ¯¯ ¯ ,
N N 1 − e2iπN ν ¯
VI.5 Analyse spectrale paramétrique 85
expression qui ne tend pas vers 0 lorsque N tend vers l’infini. Il n’y a pas convergence en moyenne
quadratique du périodogramme vers la densité spectrale de puissance. Pratiquement, ceci consti-
tue un très grave défaut pour l’analyse spectrale. En effet, grossièrement, un périodogramme
même calculé avec un très grand nombre d’échantillons conserve un aspect très chahuté, du fait
de la variance résiduelle non nulle. Cet aspect gêne considérablement l’interprétation du résultat.
Ci-après, nous présentons une technique classique de réduction de cette variance asymptotique
qui est obtenue au prix d’une perte de résolution.
La figure VI.1 illustre les résultats obtenus à l’aide du périodogramme simple pour le signal de
sortie d’un filtre récursif d’ordre 2 dont l’entrée est un bruit blanc gaussien. Les caractéristiques
du filtre utilisé sont celles du filtre présenté dans le §III.2.4.
Périodogramme moyenné
Pour remédier aux limitations du périodogramme, on définit le périodogramme moyenné de

la façon suivante : la séquence d’observations de N échantillons est divisée en K sous-séquences
chacune de longueur M avec N = KM . Sur chacune de ces sous-séquences {kM, (k + 1)M − 1}
on peut calculer un périodogramme
¯M −1 ¯2
1 ¯X ¯
φbKN (ν) =
k ¯
¯ XkM +n e −2iπnν ¯ .
¯ (VI.13)
M
n=0
Le périodogramme moyenné est alors défini comme la moyenne empirique des périodogrammes
calculés sur les K sous-séquences. Sous hypothèse d’ergodicité, on peut alors montrer que
³ ´
lim E φbkKN (ν) − φ(ν) = 0
K,N →∞
³ ´
lim E (φbkKN (ν) − φ(ν))2 = 0
K,N →∞
donc le périodogramme moyenné converge en moyenne quadratique vers la densité spectrale de

puissance du signal.
La figure VI.2 montre la densité spectrale de puissance obtenue à l’aide du périodogramme
moyenné sur un signal de caractéristiques identiques à celles utilisées pour le périodogramme
simple. On peut constater l’effet de lissage de la courbe obtenu lorsque le paramètre K augmente.
Conclusion
La méthode du périodogramme présente l’avantage d’être conceptuellement simple et de

pouvoir exploiter les algorithmes rapides de mise en œuvre de la transformée de Fourier discrète
(FFT). Lorsqu’on dispose d’un nombre important d’échantillons, la méthode du périodogramme
converge en moyenne vers la densité spectrale de puissance et en moyenne quadratique si on
utilise l’approche par périodogramme moyenné. Cependant elle présente un certain nombre d’in-
convénients en pratique et en particulier ne permet pas d’obtenir une bonne discrimination entre
des raies spectrales ou des pics très rapprochés. D’autre part, si le nombre d’échantillons dont
on dispose est faible, l’estimation peut s’avérer médiocre. Différentes méthodes permettant de
pallier cet inconvénient pour certaines classes de signaux et en particulier pour les signaux AR
et ARMA, ont été développées. Dans la suite de ce chapitre on se limitera au cas des AR pour
exposer les principes de base de ces autres approches.
VI.5 Analyse spectrale paramétrique

Les modèles autorégressifs à moyenne mobile (ARMA), et parmi ceux-ci les modèles autoré-
gressifs (AR), ont été présentés au chapitre V pour illustrer la construction de signaux aléatoires.
Une realisation du signal Densite spectrale de puissance
1
1
0.8
0.5
0.6
0
0.4
−0.5
0.2
−1
0
0 50 100 150 200 250 −0.5 0 0.5
periodogramme simple, N = 256
0.8
0.6
0.4
0.2
0
−0.5 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 0.3 0.4 0.5
0.8
0.6
0.4
0.2
0
−0.5 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 0.3 0.4 0.5
0.8
0.6
0.4
0.2
0
−0.5 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 0.3 0.4 0.5
Fig. VI.1. Périodogramme simple

Une realisation du signal Densite spectrale de puissance
1
1
0.8
0.5
0.6
0
0.4
−0.5
0.2
−1
0
0 50 100 150 200 250 −0.5 0 0.5
periodogramme moyenne, M = 256, K = 10
0.8
0.6
0.4
0.2
0
−0.5 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 0.3 0.4 0.5
0.8
0.6
0.4
0.2
0
−0.5 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 0.3 0.4 0.5
0.8
0.6
0.4
0.2
0
−0.5 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 0.3 0.4 0.5
Fig. VI.2. Périodogramme moyenné

Les signaux ARMA jouent un rôle très important en traitement du signal, d’une part parce qu’ils
permettent de représenter de façon réaliste un certain nombre de signaux « physiques » (parole
humaine par exemple) et d’autre part parce que leur structure spécifique peut être directement
exploitée comme nous le verrons dans le domaine de l’analyse spectrale et de l’estimation. Nous
allons à présent rappeler brièvement leur définition et étudier leurs caractéristiques en terme de
densité spectrale.
VI.5.1 Définition
Un signal aléatoire à temps discret stationnaire du second ordre est dit ARMA d’ordre p, q, ou
ARMA(p, q) si il existe deux ensembles de coefficients réels {ai } et {bj } de dimensions respectives
p et q et un bruit blanc échantillonné {Bn } de variance σ 2 tels que
p
X q
X
Xn + ai Xn−i = Bn + bj Bn−j , ∀n ∈ Z. (VI.14)
i=1 j=1
— Lorsque q est égal à 0, le signal {Xn } est dit AR d’ordre p, et on a

p
X
Xn + ai Xn−i = Bn .
i=1
— Lorsque p est égal à 0, le signal {Xn } est dit à moyenne mobile (MA de l’anglais Moving
Average) d’ordre q :
Xq
Xn = Bn + bj Bn−j .
j=1
Remarque :
En automatique, ces représentations sont fréquentes mais avec l’adjonction de la prise en
compte de la commande uk supposée connue sous la forme
p
X q
X r
X
Xn + ai Xn−i = Bn + bj Bn−j + ck un−k , ∀n ∈ Z.
i=1 j=1 k=1
Pour tenir compte de la présence de uk , le signal est dénommé ARMAX où le X indique la
présence d’une entrée eXogène. On définit de façon similaire les ARX.
VI.5.2 ARMA réguliers

Le signal {Xn } peut s’interpréter comme le signal de sortie d’un filtre de fonction de transfert
P
1 + qj=1 bj z −j P (z)
Pp −i
=
1 + i=1 ai z Q(z)
dont l’entrée est le bruit blanc {Bn }. Le signal ARMA est dit régulier si la fonction de transfert
est stable, i.e., si le polynôme Q(z) n’a pas de racine sur le cercle unité. Dans ce cas, on montre
(VI.7) que la densité spectrale de puissance du signal {Xn } s’écrit
¯ ¯
2iπν ) ¯2
¯
2 ¯ P (e
φX (ν) = σ ¯ ¯ .
Q(e2iπν ) ¯
De manière unique, on peut trouver P 0 (z) et Q0 (z), deux polynômes à coefficients réels sans
racine hors du disque unité {z, |z| 6 1}, tels que P 0 (0) = Q0 (0) = 1, et tels que
¯ 0 2iπν ¯2
¯
2 ¯ P (e )¯
φX (ν) = σ ¯ 0 2iπν ¯¯ .
Q (e )
Dans ce cas, (VI.15) correspond au filtrage linéaire stable et causal du bruit blanc {Bn } par le
filtre rationnel de fonction de transfert P 0 (z)/Q0 (z). La représentation associée à P 0 (z) et Q0 (z)
est la représentation canonique de {Xn }. Le bruit blanc associé Bn apparaissant dans (VI.14)
est alors non corrélé à Xn−k , ∀k > 0.
VI.5.3 Représentation spectrale des signaux autorégressifs

Soit {Xn } un signal centré stationnaire du second ordre autorégressif régulier d’ordre p. Dans
ce cas, la densité spectrale de puissance du signal X est définie par
σ2
φX (ν) =
|Q(e2iπν )|2
où σ 2 est la variance du bruit blanc générateur. En utilisant la représentation du signal AR sous
la forme
Xp
Xn + ak Xn−k = Bn ,
k=1
l’équation précédente peut s’écrire
σ2
φX (ν) = ¯ P ¯ (VI.15)
¯1 + p a e −2iπkν ¯2
k=1 k
qui correspond au module au carré de la FFT du signal de sortie du filtre. Il suffit donc de
connaı̂tre les paramètres ak du modèle autorégressif pour obtenir la valeur de la densité spectrale
de puissance.
VI.5.4 Équations de Yule-Walker

On considère un signal AR dont on ne connaı̂t pas la représentation canonique en termes des
coefficients ak , k = 1, . . . , p mais pour lequel on dispose d’une suite de valeurs de la fonction
d’autocorrélation CX (k). On cherche à calculer sa densité spectrale de puissance φX et donc
d’aprés (VI.15) dans un premier temps à déterminer les coefficients ak du modèle AR.
La fonction d’autocorrélation de {Xn } est définie par
µ ³ p
X ´¶
CX (j) = E(Xn Xn+j ) = E Xn Bn+j − ak Xn−k+j
k=1
p
X
= E(Xn Bn+j ) − ak CX (j − k).
k=1
Le deuxième terme E(Bn+j Xn ) se simplifie puisque la canonicité impose l’indépendance entre

les réalisations du bruit blanc à l’instant j et les valeurs passées du signal, on a donc
½
0 si j > 0,
E(Bn+j Xn ) = 2
σ si j = 0.
L’expression générale de CX (j) est donc

½ Pp
− Pk=1 ak CX (j − k) si j > 0,
CX (j) = (VI.16)
− pk=1 ak CX (−k) + σ 2 si j = 0.
Ces expressions définissent les équations de Yule-Walker. Pour déterminer les coefficients ak
lorsqu’on dispose des valeurs de CX , il suffit donc de résoudre p équations pour j > 0 et de
déterminer σ 2 pour j = 0. Ces équations peuvent être exprimées sous forme matricielle par
    
C(0) C(−1) . . . C(−(p − 1)) a1 C(1)
 C(1) C(0) . . . C(−(p − 2))     C(2) 
   a2   
   ..  = −  ..  .
  .   . 
C(p − 1) C(p − 2) . . . C(0) ap C(p)
Le signal étant réel, l’équation précédente peut s’écrire sous la forme plus simple
    
C(0) C(1) . . . C(p − 1) a1 C(1)
 C(1) C(0) . . . C(p − 2)     C(2) 
   a2   
   ..  = −  ..  . (VI.17)
  .   . 
C(p − 1) C(p − 2) . . . C(0) ap C(p)
La matrice d’autocorrélation est symétrique et de Toeplitz. Il suffit finalement de connaı̂tre

p coefficients d’autocorrélation pour déterminer la densité spectrale.
La détermination des coefficients ak nécessite donc de résoudre le système précédent qui
admet une solution unique si la matrice d’autocorrélation est inversible. L’inversion de cette
matrice peut s’effectuer par les procédures classiques de type Gauss-Jordan mais on verra par la
suite qu’en exploitant la structure spécifique de cette matrice on peut définir des algorithmes plus
efficaces (Algorithme de Levinson) qui permettent de réduire le nombre d’opérations à effectuer
de O(p3 ) à O(p2 ).
VI.5.5 Estimation spectrale autorégressive

Dans la pratique, disposant de N échantillons d’un signal inconnu, l’analyse spectrale autoré-
gressive consiste à assimiler ce signal à un signal autorégressif d’ordre p, puis à estimer sa densité
spectrale de puissance en calculant la fonction d’autocorrélation empirique biaisée (VI.10)
N −|k|−1
X
bN (k) = 1
C Xj Xj+|k| .
N
j=0
En utilisant ces coefficients dans les équations de Yule-Walker on peut alors en déduire les
coefficients b b
ap par inversion du système VI.17 dans lequel on a remplacé C(k) par C(k).
a1 , . . . , b
La densité spectrale correspondante est alors obtenue par
b X (ν) = ¯ b2
σ
Φ P ¯ .
¯1 + p b a e −2iπkν ¯2
k=1 k
où
p
X
σ2 bN (0) +
b =C bN (j) b
C aj
j=1
obtenu à partir de l’équation (VI.16) pour k = 0. Cette technique d’analyse spectrale présente
dans un certain nombre de cas l’avantage d’obtenir une meilleure discrimination entre raies et
une variance inférieure à celle obtenue par l’analyse spectrale non paramétrique.
91
Bibliographie
[1] P. Brémaud, 1993, Signaux aléatoires pour le traitement du signal et les communications,
Ellipses, Paris.
[2] E. Jury, 1964, Theory and application of the z transform method, John Wiley, New York.
[3] M. Labarrère, J.-P. Krief et B. Gimonet, 1993, Le filtrage et ses applications, Cepadues
Edition.
[4] M. J. Lighthill, 1959, An introduction to Fourier analysis and generalized functions, Cam-
bridge University Press.
[5] M. Loève, 1977, Probability theory I, Springer Verlag, New York.
[6] L. Schwartz, 1965, Méthodes mathématiques pour les sciences physiques, Hermann, Paris.
[7] C. Soize, 1993, Eléments mathématiques de la théorie déterministe et aléatoire du signal,
cours de l’ENSTA, Masson, Paris.

Traitement Numerique Du Signal Premiere

Transféré par

Droits d'auteur :

Formats disponibles

Traitement Numerique Du Signal Premiere

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Traitement Numerique Du Signal Premiere

Transféré par

Droits d'auteur :

Formats disponibles

1

Traitement numérique du signal.

Première version du document : 1993

Table des matières

I Filtrage linéaire et transformée de Fourier des signaux déterministes à temps

II Signaux déterministes à temps discret 25

II.4.2 Transformée de Fourier discrète (TFD) . . . . . . . . . . . . . . . . . . . 32

III Filtres numériques 35

IV Événements, variables et vecteurs aléatoires 47

V Signaux aléatoires à temps discret 65

V.2.2 Loi temporelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

VI Signaux aléatoires stationnaires faibles 79

Filtrage linéaire et transformée de

I.1.1 Analyse fréquentielle et transformée de Fourier

x étant une fonction à valeurs complexes de la variable réelle t, on appelle transformée de

Dans certains cours d’intégration la TF de x est définie comme la fonction

Exemple 1 : Inversibilité de la TF dans un cas simple

Exemple 2 : Décomposition des signaux périodiques en série de Fourier

Dans le cadre de ce cours, nous nous contenterons d’une généralisation de la représentation

— On définit ensuite la notion de signaux x harmonisables, c’est-à-dire auxquels on peut

Lien avec le filtrage linéaire homogène

Cette remarque permet de construire un filtre linéaire homogène en spécifiant le signal h,

I.2 Cas des signaux stables

I.2.1 Définition et propriétés de la TF dans L1C (R)

Dans le cas d’un signal stable positif, la borne est atteinte en x

I.2.2 Convolution dans L1C (R)

Cas particulier : autocorrélation

I.3 Cas des signaux d’énergie finie

I.3.1 Définition et propriétés de la TF dans L2C (R)

Propriétés de la TF dans L2C (R)

au sens L2 , c’est-à-dire en moyenne quadratique, et de la même façon, la TF est systématique-

Autocorrélation des signaux dans L2C (R)

I.3.2 Convolution « L1C (R) ∗ L2C (R) »

Soient h un signal stable et x un signal d’énergie finie. On montre l’inégalité

qui implique l’existence de la convolution (h ∗ x)(t) pour presque tout t et l’appartenance de

I.4 Signaux harmonisables

I.5 Filtrage linéaire

I.5.1 Filtre convolutionnel

On a déjà mentionné au § I.2 la possibilité de caractériser un filtre par la convolution avec

Filtrage des signaux périodiques

De la même façon, on peut considérer la convolution d’une réponse impulsionnelle h stable

Extension aux signaux harmonisables

ce qui entraı̂ne, pour presque tout t (Fubini),

D’autre part on vérifie facilement que y admet la représentation harmonique

c’est-à-dire que la mesure harmonique de y est

Ce résultat peut être interprété comme une généralisation de la formule de convolution-

I.5.2 Représentation fréquentielle

Considérons un filtre convolutionnel de réponse impulsionnelle h stable et notons H e sa trans-

Annexe A Fonctions régularisantes

Une fonction régularisante est une fonction θ stable et normalisée :

La caractéristique intéressante de ces fonctions est d’admettre la décomposition (I.1) par

= λ θ(λu) x(u) eu (t) du

Dans le cas où x

Signaux déterministes à temps

— l’espace de Hilbert des signaux à temps discret d’énergie finie,

II.1.1 Formule sommatoire de Poisson

En faisant u = ν = 0 dans (II.1), sous réserve d’existence, on obtient la formule sommatoire

II.2 Théorème d’échantillonnage

on peut écrire, en remplaçant ν par −T ν et T par 1/2B dans (II.1),

II.2.2 Théorème de Shannon-Nyquist