Traitement Numerique Du Signal Premiere

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 91

1

Traitement numérique du signal.


Première partie : Bases mathématiques

J.Idier
H. Piet-Lahanier
G. Le Besnerais
F. Champagnat

Première version du document : 1993


Date de la dernière remise à jour : mars 2004
2
3

Table des matières

Remerciements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

Introduction 9
Notion de signal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Notion de système . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

I Filtrage linéaire et transformée de Fourier des signaux déterministes à temps


continu 11
I.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
I.1.1 Analyse fréquentielle et transformée de Fourier . . . . . . . . . . . . . . . 11
I.1.2 Convolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
I.2 Cas des signaux stables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
I.2.1 Définition et propriétés de la TF dans L1C (R) . . . . . . . . . . . . . . . . 15
I.2.2 Convolution dans L1C (R) . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
I.3 Cas des signaux d’énergie finie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
I.3.1 Définition et propriétés de la TF dans L2C (R) . . . . . . . . . . . . . . . . 17
I.3.2 Convolution « L1C (R) ∗ L2C (R) » . . . . . . . . . . . . . . . . . . . . . . . 18
I.4 Signaux harmonisables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
I.5 Filtrage linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
I.5.1 Filtre convolutionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
I.5.2 Représentation fréquentielle . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Annexe A Fonctions régularisantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Annexe B TF inverse de x
e stable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

II Signaux déterministes à temps discret 25


II.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
II.1.1 Formule sommatoire de Poisson . . . . . . . . . . . . . . . . . . . . . . . . 26
II.2 Théorème d’échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
II.2.1 Présentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
II.2.2 Théorème de Shannon-Nyquist . . . . . . . . . . . . . . . . . . . . . . . . 27
II.3 Transformée en z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
II.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
II.3.2 Propriétés de la transformée en z . . . . . . . . . . . . . . . . . . . . . . . 31
II.4 Transformée de Fourier à temps discret . . . . . . . . . . . . . . . . . . . . . . . 32
II.4.1 Lien entre transformée en z et transformée de Fourier . . . . . . . . . . . 32
4 Table des matières

II.4.2 Transformée de Fourier discrète (TFD) . . . . . . . . . . . . . . . . . . . 32

III Filtres numériques 35


III.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
III.1.1 Stabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
III.1.2 Causalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
III.1.3 Inversion d’un filtre numérique . . . . . . . . . . . . . . . . . . . . . . . . 37
III.1.4 Filtres rationnels, filtres dynamiques . . . . . . . . . . . . . . . . . . . . . 37
III.1.5 Filtres à Réponse Impulsionnelle Finie (RIF) . . . . . . . . . . . . . . . . 39
III.1.6 Filtres Tous Pôles (FTP) . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
III.2 Exemples de filtres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
III.2.1 Retard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
III.2.2 Lissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
III.2.3 Filtre récursif d’ordre 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
III.2.4 Filtre récursif d’ordre 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

IV Événements, variables et vecteurs aléatoires 47


IV.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
IV.2 Intégration et probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
IV.2.1 Espaces et applications mesurables . . . . . . . . . . . . . . . . . . . . . . 47
IV.2.2 Notion de mesure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
IV.2.3 Probabilités, événements . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
IV.3 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
IV.3.1 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
IV.3.2 Variables aléatoires réelles . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
IV.3.3 Espérance mathématique . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
IV.4 Couple de variables aléatoires réelles . . . . . . . . . . . . . . . . . . . . . . . . . 54
IV.4.1 Caractérisation et propriétés . . . . . . . . . . . . . . . . . . . . . . . . . 54
IV.4.2 Conditionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
IV.5 Vecteurs aléatoires réels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
IV.5.1 Généralisations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
IV.5.2 Changement de variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
IV.5.3 Vecteurs aléatoires d’ordre deux . . . . . . . . . . . . . . . . . . . . . . . 59
IV.5.4 Vecteurs aléatoires gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . 60
IV.6 L’espace de Hilbert L2 (Ω, F, P ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
IV.6.1 Norme et produit scalaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
IV.6.2 Sous-espaces de Hilbert . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
IV.6.3 Espérance conditionnelle dans L2 (Ω, F, P ) . . . . . . . . . . . . . . . . . . 63

V Signaux aléatoires à temps discret 65


V.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
V.2 Caractérisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
V.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Table des matières 5

V.2.2 Loi temporelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65


V.2.3 Caractéristiques instantanées . . . . . . . . . . . . . . . . . . . . . . . . . 66
V.2.4 Caractéristiques à l’ordre deux . . . . . . . . . . . . . . . . . . . . . . . . 67
V.3 Construction et exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
V.3.1 Bruits blancs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
V.3.2 Chaines de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
V.3.3 Constructions indirectes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
V.4 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
V.4.1 Convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
V.4.2 Stationnarité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
V.4.3 Ergodisme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
V.5 Les signaux gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

VI Signaux aléatoires stationnaires faibles 79


VI.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
VI.2 Représentation harmonique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
VI.2.1 Fonction d’autocorrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
VI.2.2 Cas d’un bruit blanc numérique . . . . . . . . . . . . . . . . . . . . . . . . 81
VI.2.3 Trajectoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
VI.3 Filtrage linéaire convolutionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
VI.4 Analyse spectrale classique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
VI.4.1 Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
VI.4.2 Périodogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
VI.5 Analyse spectrale paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
VI.5.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
VI.5.2 ARMA réguliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
VI.5.3 Représentation spectrale des signaux autorégressifs . . . . . . . . . . . . . 89
VI.5.4 Équations de Yule-Walker . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
VI.5.5 Estimation spectrale autorégressive . . . . . . . . . . . . . . . . . . . . . . 90
6
7

Avant-propos

Remerciements
Les auteurs tiennent à remercier les personnes qui ont participé à ce cours à l’ENSTA et, en
particulier, Yves Goussard, Stéphane Gautier et Jean-François Giovannelli ; ainsi que celles qui
ont fait part de leurs remarques et corrections et contribué à l’amélioration du document écrit,
en particulier Caroline Kulcsár.
8
9

Introduction
Signaux et systèmes

Notion de signal
On désigne par signal déterministe, ou simplement par signal, une fonction d’une ou de plu-
sieurs variables de temps ou d’espace, en général à valeurs réelles ou complexes. Un signal est
un modèle commode pour décrire et étudier les variations continues d’un paramètre physique
(tension, intensité lumineuse, pression...) : on parle alors de signal analogique ; ou encore pour
modéliser un ensemble discret de valeurs indexé par des variations quantifiées (du temps, de
variables d’espace...), et on parle alors de signal numérique. Tandis qu’un signal déterministe
modélise les variations d’un paramètre au cours d’une expérience unique, la notion de signal
aléatoire permet de rassembler des signaux déterministes différents (chaque trajectoire d’un si-
gnal aléatoire est un signal déterministe), mais dont on présume des propriétés communes. Par
exemple les trajectoires de chacune des boules de loto mélangées dans une urne sont différentes
mais interchangeables ; on pourrait caractériser leurs propriétés communes comme celles d’un
unique signal aléatoire. Les signaux temporels sont seulement fonctions de la variable de temps.
Lorsque le signal évolue de façon continue avec le temps, on parle de signaux à temps continu.
Dans le cas où le signal est une fonction à variable discrète du temps, le signal est dit à temps
discret. La plupart des concepts et des résultats présentés dans ce cours pour des signaux tem-
porels admettent des extensions pour des signaux multivariés. Ainsi, le traitement des images
fait largement appel aux extensions bi-dimensionnelles.

Très souvent, les signaux à temps discret sont obtenus en retenant les valeurs prises par un
signal à temps continu en certains instants, à des fins de stockage ou de traitement sur calcula-
teur. Cette opération est appelée échantillonnage et, par extension, les signaux à temps discret
sont souvent appelés signaux échantillonnés. L’échantillonnage est un préalable au traitement
numérique du signal, dont l’importance pratique n’a cessé de croı̂tre depuis l’apparition des
moyens de calculs informatiques. Désormais un simple PC doté d’une carte d’acquisition et d’un
langage évolué peut souvent remplacer avantageusement les analyseurs de spectre, corrélateurs
et autres filtres à transfert de charges... , dispositifs d’analyse et de traitement analogiques coû-
teux et fragiles. L’échantillonnage des signaux permet aussi le stockage en mémoires de masse
numériques, disques durs, vidéodisques, supports magnétiques... C’est pourquoi nous insistons
particulièrement dans ce cours sur la manipulation des signaux à temps discret.

Notion de système
On peut définir les systèmes comme les modèles mathématiques des diverses transformations
subies par les signaux : par exemple une onde qui se propage est modifiée suivant les carac-
téristiques de transmission du milieu qu’elle traverse ; une quantité physique mesurée par un
10 Introduction : Signaux et systèmes

capteur subit une certaine altération, qui traduit l’effet de la « réponse » du capteur. Plus gé-
néralement, on caractérise la relation d’entrée-sortie d’un système quelconque par un opérateur
mathématique qui associe à un signal d’entrée x(t) un signal de sortie y(t). On s’intéressera
plus spécifiquement aux cas particuliers des filtres linéaires homogènes, dont la caractéristique
d’entrée-sortie est un opérateur linéaire invariant dans le temps. Ces filtres possèdent de nom-
breuses propriétés mathématiques et fournissent souvent un premier niveau de description sa-
tisfaisant (par exemple, pour des petites variations du signal d’entrée) de systèmes physiques
beaucoup plus compliqués.
11

Chapitre I

Filtrage linéaire et transformée de


Fourier des signaux déterministes à
temps continu

I.1 Introduction
L’objectif de ce chapitre est de construire et d’étudier les transformations linéaires fondamen-
tales que sont la transformée de Fourier (TF) et le filtrage linéaire. Bien que l’accent soit ensuite
porté sur les signaux discrets, l’étude préliminaire de ces transformations pour les signaux à
temps continu permet une meilleure compréhension d’ensemble. Elle est aussi un préalable né-
cessaire à l’étude théorique de l’opération d’échantillonnage (voir le chapitre II).

I.1.1 Analyse fréquentielle et transformée de Fourier


Décomposition fréquentielle

La représentation fréquentielle ou spectrale d’un signal x s’impose de façon naturelle dans les
domaines où les fréquences pures sont une réalité physique sous la forme des ondes monochroma-
tiques en acoustique, en mécanique vibratoire ou en optique. Plus généralement, elle constitue
un cadre pratique pour l’analyse des signaux (périodicité, pseudo-périodicité) et des systèmes
linéaires. Formellement, l’analyse fréquentielle d’un signal x est la recherche d’une représentation
du type
Z
x(t) = e(ν) e2iπνt dν, ∀t ∈ R
x (I.1)
R

c’est-à-dire d’une décomposition linéaire du signal sur l’ensemble des signaux complexes e2iπνt
de fréquence pure ν.

Transformée de Fourier

x étant une fonction à valeurs complexes de la variable réelle t, on appelle transformée de


Fourier de x la fonction x e à valeurs complexes de la variable réelle ν (ν est homogène à une
fréquence quand t est homogène à un temps) :
Z
tf ∆
x −→ x
e, x
e(ν) = x(t) e−2iπνt dt. (I.2)
R
12 Filtrage linéaire et transformée de Fourier des signaux déterministes à temps continu

Remarque

Dans certains cours d’intégration la TF de x est définie comme la fonction


Z ³ ´
ω
x̌(ω) = x(t) eiωt dt = x
e − ,
R 2π

ce qui revient pour le praticien à mesurer des pulsations (en radians par seconde) plutôt que
des fréquences (en Hertz). Cette variante a l’inconvénient de faire apparaı̂tre une constante qui
dissymétrise la décomposition (I.1), qui devient
Z
1
x(t) = x̌(ω) e−iωt dω.
2π R

Propriétés

Pourvu que les fonctions utilisées ci-dessous existent, on a les propriétés immédiates sui-
vantes :

tf
Linéarité : λ1 x1 + λ2 x2 −→ λ1 x
e1 + λ2 x
e2 (I.3)
tf
Retard : x(t − t0 ) −→ e−2iπνt0 x
e (I.4)
tf
Modulation : e2iπν0 t x(t) −→ xe(ν − ν0 ) (I.5)
³ ´
tf 1 ν
Affinité : x(at) −→ x
e (I.6)
|a| a
tf
Conjugaison : x∗ (t) −→ (e
x(−ν))∗ (I.7)
0 tf
Dérivation : x (t) −→ 2iπνe
x(ν) (I.8)

De la propriété (I.7), on déduit que la TF d’un signal réel possède la symétrie hermitienne :

x e(ν)∗
e(−ν) = x

et réciproquement, que la TF d’un signal à symétrie hermitienne est réelle. En associant les deux
résultats, on obtient que la TF d’un signal symétrique réel est réelle et symétrique.
Il est fréquent chez les physiciens et les ingénieurs de considérer la représentation (I.1) comme
une simple formule d’inversion de la TF du signal x. Encore faut-il garantir l’existence de la TF
x
e, puis montrer que l’intégrale (I.1) converge... En quel sens ? Dans quel espace ? Pour tout t ?
En fait les écritures (I.1) et (I.2) s’avèrent plus délicates que prévues, comme le montrent les
deux exemples suivants.

Exemple 1 : Inversibilité de la TF dans un cas simple

Soit x(t) = 1[−τ,τ ] (t) le signal rectangle valant 1 dans l’intervalle [−τ, τ ] et 0 ailleurs. Sa TF
s’obtient sans difficulté sous la forme
sin 2πντ
x
e(ν) = = 2τ sinc (2ντ ),
πν
où sinc désigne le sinus cardinal défini par t 7→ sin(πt)/(πt). Le sinus cardinal n’étant pas de
module intégrable sur R, la décomposition (I.1) se révèle problématique. On verra pourtant que
cette décomposition est valide presque partout en tant que formule d’inversion de la TF dans
l’espace de Hilbert des fonctions dont le carré du module est intégrable. Elle est même valide
pour tout t sauf −τ et τ , comme le montre un calcul direct faisant appel au théorème des résidus.
I.1 Introduction 13

Exemple 2 : Décomposition des signaux périodiques en série de Fourier

Considérons l’ensemble des signaux périodiques de période 1 de carré intégrable sur leur
période, sans faire la distinction entre des signaux presque partout (pp) égaux pour la mesure
de Lebesgue. Muni de la mesure de Lebesgue et du produit scalaire
Z 1
hx, yi = x(t) y ∗ (t) dt,
0

cet ensemble est l’espace de Hilbert L2C ([0, 1[), admettant pour base dénombrable orthonor-
male la famille trigonométrique (e2iπn· , n∈Z). Dans ces conditions, on définit le n-ième coefficient
de Fourier d’un signal x de L2C ([0, 1[) par projection sur le n-ième vecteur de la base
Z 1
2iπn·
x
en = hx, e i= x(t) e−2iπnt dt, (I.9)
0
P
et la série de Fourier n∈Z x en e2iπnt converge vers x(t) dans L2C ([0, 1[) en moyenne quadratique,
c’est-à-dire que la série est de carré sommable et que
Z 1¯ X ¯2
¯ N ¯
lim ¯ x
en e 2iπnt
− x(t)¯¯ dt = 0.
M →∞ ¯
N →∞ 0 n=−M

P
En fait, si n∈Z |e
xn | < +∞, on démontre aussi la convergence p.p. (c’est-à-dire pour presque
tout t) vers x(t) de sa série de Fourier, i.e., on ne peut distinguer ces deux fonctions dans
L2C ([0, 1[) :
X
x(t) = en e2iπnt .
x (I.10)
n∈Z

L’expression (I.10) est une décomposition harmonique dont (I.9) est la formule d’inversion.
Bien que ressemblant au couple (I.1)-(I.2) recherché, cette décomposition et son inverse ne se
transposent pas sous la forme (I.1)-(I.2) sans soulever de nouvelles questions. Symboliquement,
on peut obtenir la transposition grâce à la pseudo-fonction de Dirac δ, dont la propriété essentielle
réside en la formule symbolique suivante :
Z
δ(u − a) ϕ(u) du = ϕ(a), (I.11)
R

qui donne Z
δ(ν − n) e2iπνt dν = e2iπnt ,
R
ce qui permet d’identifier symboliquement la TF de x sous la forme d’un « peigne » de Dirac
X
x
e(ν) = x
en δ(ν − n).
n∈Z

La théorie des distributions donne un sens mathématique à cette écriture formelle dans
l’espace S des distributions tempérées. La référence [4] donne une vision rigoureuse mais très ac-
cessible de la TF des distributions tempérées. La restriction de l’espace S aux fonctions usuelles
est très vaste : elle contient non seulement les espaces usuels LpC (R), mais aussi toutes les fonc-
tions localement intégrables à croissance lente à l’infini (c’est-à-dire plus lente qu’un polynôme),
et en particulier les fonctions périodiques de carré intégrable sur leur période, que l’on sait par
ailleurs développer en série de Fourier (voir l’exemple 1 ci-dessus).
14 Filtrage linéaire et transformée de Fourier des signaux déterministes à temps continu

Dans le cadre de ce cours, nous nous contenterons d’une généralisation de la représentation


fréquentielle (I.1) n’utilisant pas les distributions mais seulement la théorie de la mesure. Les
signaux possédant cette représentation fréquentielle seront dits harmonisables.
Les deux exemples précédents suffisent à montrer qu’on ne peut se contenter d’écrire les
formules (I.1) ou (I.2) en leur accordant une généralité qu’elles n’ont pas a priori, ni a contrario
renoncer à ces représentations dès que les intégrales ne sont pas absolument convergentes. En
fait la notion de représentation de Fourier, correctement envisagée, reste valable dans un grand
nombre de situations.
Dans la présentation adoptée ici, on montre successivement l’existence et certaines propriétés
de la TF d’un signal x :
— dans l’espace L1C (R) des signaux stables à valeurs complexes, sans distinction entre des
signaux égaux p.p. pour la mesure de Lebesgue :
Z
1
x∈LC (R) ⇐⇒ |x(t)| dt < +∞; (I.12)
R

— dans l’espace L2C (R) des signaux d’énergie finie à valeurs complexes, sans distinction
entre des signaux égaux p.p. pour la mesure de Lebesgue :
Z
2
x∈LC (R) ⇐⇒ |x(t)|2 dt < +∞. (I.13)
R

— On définit ensuite la notion de signaux x harmonisables, c’est-à-dire auxquels on peut


associer une mesure complexe µ ex (dν) permettant une décomposition fréquentielle du type
Z
x(t) = e2iπνt µ
ex (dν).
R

I.1.2 Convolution
Définition

En même temps que la TF, nous définirons la notion de convolution h ∗ x de deux signaux
h et x : Z

(h ∗ x)(t) = h(t − s) x(s) ds (I.14)
R

pour différents cas d’appartenance de h et x aux espaces L1C (R) et L2C (R). D’un point de
vue analytique, le problème sera là encore d’étudier la convergence d’une intégrale au sens de
Lebesgue. Par changement de variable, remarquons que la convolution est commutative quand
elle existe :
Z Z
(h ∗ x)(t) = h(t − s) x(s) ds = h(s0 ) x(t − s0 ) ds0 = (x ∗ h)(t).
R R

Lien avec le filtrage linéaire homogène

L’importance de la notion de convolution vient du fait qu’il s’agit d’un cas particulier de
filtrage linéaire homogène, en considérant que h caractérise un filtre dont la sortie est (h ∗ x)
lorsque l’entrée est x. La linéarité est une conséquence immédiate de la linéarité de l’intégrale
quand elle existe. Le terme homogène désigne l’invariance dans le temps : elle se déduit simple-
ment en calculant la sortie pour une entrée décalée xτ (t) = x(t − τ ) : le résultat est la sortie
(h ∗ x)(t − τ ) décalée de la même quantité.
I.2 Cas des signaux stables 15

Cette remarque permet de construire un filtre linéaire homogène en spécifiant le signal h,


constituant la caractéristique temporelle du filtre, ou encore sa réponse impulsionnelle, dénomi-
nation justifiée par le calcul formel de la sortie du filtre lorsque l’entrée est la pseudo-fonction
de Dirac δ, « impulsion » à l’instant t = 0 :
Z
(h ∗ δ)(t) = h(s0 ) δ(t − s0 ) ds0 = h(t).
R

Notons que la spécification d’une réponse impulsionnelle caractérise un filtre linéaire homo-
gène qui est seulement valable pour des entrées x telles que (I.14) existe.

I.2 Cas des signaux stables


On considère ici les fonctions de l’espace de Banach (espace vectoriel normé complet) L1C (R)
comme des modèles de signaux. Par exemple, cet espace contient tous les signaux bornés de
durée limitée à un intervalle de temps, tels le signal rectangle de l’exemple 1, et de façon plus
générale, les signaux continus s’annulant à l’infini en décroissant plus vite que 1/t. En restant
dans cet espace, on pourra donc seulement modéliser et étudier des phénomènes transitoires, à
l’exclusion de tout régime entretenu, périodique ou autre.

I.2.1 Définition et propriétés de la TF dans L1C (R)


Définition

L’espace L1C (R) est celui dans lequel se définit le plus naturellement la TF (I.2), puisque
cette dernière est une intégrale absolument convergente dans L1C (R), d’après la définition (I.12).

Propriétés

— La TF x
e de tout signal stable x est bornée :
Z
|e
x(ν)| 6 |x(t)| dt < +∞.
R

Dans le cas d’un signal stable positif, la borne est atteinte en x


e(0).
— x e est une fonction continue d’après le théorème de continuité issu de la convergence
dominée de Lebesgue (x(t) e−2iπνt est continue en ν pour tout t fixé et majorée en module par
|x(t)|).
— Plus indirectement, on montre aussi que x e tend vers zéro à l’infini. L’ensemble des fonctions
continues nulles à l’infini est noté C0 (R) : x
e∈C0 (R).
Malheureusement C0 (R) n’est pas inclus dans L1C (R) ; les fonctions de C0 (R) sont seulement
localement sommables (l’exemple 1 fournit un contre-exemple). On ne peut donc justifier la
décomposition (I.1) aussi facilement que l’existence de la TF (I.2). Tout au plus peut-on assurer
la validité de (I.1) dans le cas où xe est stable. Dans ce cas, la TF inverse existe et elle est p.p.
égale à x(t), comme on pourra le montrer à l’aide d’une fonction régularisante dans l’Annexe B
(ce procédé exploite les propriétés de la convolution dans L1C (R) étudiées ci-dessous).
On en déduit l’injectivité de la TF des signaux stables : si deux signaux stables x et y ont
même TF, ils sont égaux car leur différence est la TF inverse de la fonction nulle.
16 Filtrage linéaire et transformée de Fourier des signaux déterministes à temps continu

I.2.2 Convolution dans L1C (R)


Soient h et x deux signaux stables. Par application du théorème de Fubini,
Z Z Z Z
|h(t − s) x(s)| dt ds = |h(t)| dt |x(t)| dt < +∞, (I.15)
R R R R
ce qui entraı̂ne, pour presque tout t,
Z
|h(t − s) x(s)| ds < +∞.
R
R
Il est donc possible de définir pour presque tout t la fonction (h ∗ x)(t) = R h(t − s) x(s) ds,
stable d’après (I.15).

Formule de convolution-multiplication

L’utilité pratique de la TF est en grande partie de faciliter l’étude du filtrage linéaire. Voyons
le cas du filtrage convolutionnel stable. Considérons deux signaux x et h stables. Leur convolution
y = h ∗ x est stable, donc sa TF existe :
Z µZ ¶
ye(ν) = h(t − s) x(s) ds e−2iπνt dt
R R
Z Z
= h(t − s) e−2iπν(t−s) x(s) e−2iπνs dsdt (Fubini)
ZR R Z
= h(t) e−2iπνt dt x(s) e−2iπνs ds
R R
= e
h(ν) x
e(ν),
soit
tf
h ∗ x −→ ehx
e pour x et h stables. (I.16)

Cas particulier : autocorrélation

Particularisons le résultat (I.16) en posant h(t) = x∗ (−t) : d’après (I.6) et (I.7), on obtient
Z
∆ tf
cx (τ ) = x(t)x∗ (t − τ ) dt −→ |e
x(ν)|2 .
R

La fonction d’autocorrélation cx du signal x est définie presque partout dans L1C (R) (que
x|2 est appelée densité spectrale d’énergie (ou spectre d’énergie) de x.
vaut cx (0) ?). La fonction |e

I.3 Cas des signaux d’énergie finie


L’existence de la TF (I.2) des signaux stables est naturelle. En revanche, il est plus surprenant
que la formulation inverse (I.1) ne soit pas toujours possible. Ce manque de symétrie frustrant
disparaı̂t quand on étudie la TF des signaux d’énergie finie, dont la définition est pourtant
beaucoup moins directe.
Rappelons qu’il n’existe aucune relation d’inclusion entre L1C (R) et L2C (R). Par exemple,
sinc ∈ L2C (R) mais 6∈ L1C (R)
p
e−|t| / |t| ∈ L1C (R) mais ∈
6 L2C (R).

Nous allons néanmoins pouvoir transporter dans L2C (R) l’existence dans L1C (R) de la TF et
de la convolution, et montrer en plus que la formule d’inversion de la TF est systématique dans
L2C (R).
I.3 Cas des signaux d’énergie finie 17

8
1
7
0.8 sinc(t)
6 exp(−| t |)/sqrt(| t |)
0.6
5

0.4
4

0.2
3

0
2
t
−0.2 1
t
−0.4 0
−5 −4 −3 −2 −1 0 1 2 3 4 5 −5 −4 −3 −2 −1 0 1 2 3 4 5

I.3.1 Définition et propriétés de la TF dans L2C (R)


TF des signaux de L1C (R) ∩ L2C (R)

Soit x stable et d’énergie finie. Alors sa TF est d’énergie finie, égale à l’énergie du signal.
C’est le théorème de Parseval
Z Z
|x(t)|2 dt = x(ν)|2 dν,
|e (I.17)
R R

dont nous admettrons la démonstration, qui utilise à nouveau une fonction régularisante, voir
Annexe A.
La TF est donc une application linéaire isométrique de L1C (R) ∩ L2C (R) vers L2C (R). Comme
L1C (R)∩L2C (R) est dense dans L2C (R), espace complet, cette isométrie se prolonge par continuité
en une application linéaire isométrique de L2C (R) sur lui-même [6]. On continuera de noter x e
l’image de x par cette application, et on continuera de l’appeler la TF de x.

Propriétés de la TF dans L2C (R)

— La TF dans L2C (R) s’obtient comme une limite de TF d’éléments de L1C (R) ∩ L2C (R). On
ne peut donc pas écrire systématiquement (I.2) au sens de Lebesgue. En revanche,
Z T
tf
x −→ x e, xe(ν) = lim x(t) e−2iπνt dt
T →+∞ −T

au sens L2 , c’est-à-dire en moyenne quadratique, et de la même façon, la TF est systématique-


ment inversible sous la forme
Z N
x(t) = lim e(ν) e2iπνt dν.
x
N →+∞ −N

On se trouve dans le cas d’intégrales impropres au sens de Lebesgue, qui sont dites semi-
convergentes [6]. En connaissance de cause, on conservera les écritures commodes (I.1) et (I.2).
— Quand on possède la TF x e d’un signal x d’énergie finie, quelle est la TF du signal d’énergie
finie x
e ? Il est facile de vérifier que le résultat est x(−t). C’est pourquoi les tables de TF dans
L2C (R) peuvent se lire dans les deux sens. Par exemple, comme les fonctions régularisantes
présentées en Annexe A sont paires, elles sont elles-mêmes la TF de leur TF.

Autocorrélation des signaux dans L2C (R)

D’après l’inégalité de Schwarz dans L2C (R), les signaux d’énergie finie admettent une fonction
d’autocorrélation :
|hx, x(· − τ )i|2 6 hx, xi hx(· − τ ), x(· − τ )i
18 Filtrage linéaire et transformée de Fourier des signaux déterministes à temps continu

c’est-à-dire ¯Z ¯ Z
¯ ¯
¯ x(t)x (t − τ ) dt¯ 6

|x(t)|2 dt < +∞,
¯ ¯
R R
soit encore |cx (τ )| 6 cx (0) < +∞.
Dans le cas d’un signal x à valeurs réelles, les égalités :
kx + x(· − τ )k2 = 2(cx (0) + cx (τ ))
kx − x(· − τ )k2 = 2(cx (0) − cx (τ ))
permettent en premier lieu de retrouver l’inégalité |cx (τ )| 6 cx (0) ; elles permettent aussi d’inter-
préter qualitativement la fonction d’autocorrélation. Plus |cx (τ )| est faible, plus le signal décalé
x(· − τ ) diffère du signal x, au sens de la norme de L2R (R).
A la différence du cas d’un signal stable, la fonction d’autocorrélation cx d’un signal d’énergie
finie n’est pas forcément stable (ni d’énergie finie). En revanche on peut montrer sa continuité
uniforme sur R. Comme dans le cas des signaux stables, existe-t-il encore un lien avec la densité
spectrale
R x|2 ? Celle-ci est maintenant dans L1C (R), donc on peut calculer l’intégrale
d’énergie |e
x(ν)|2 e2iπνt dν. En utilisant une fonction régularisante, on peut montrer que le résultat est
R |e
Z
∀t, x(ν)|2 e2iπνt dν = cx (t).
|e (I.18)
R

Ce résultat généralise le théorème de Parseval (I.17) (qui s’en déduit pour t = 0) et constitue
une décomposition spectrale de type (I.1) pour la fonction d’autocorrélation.

I.3.2 Convolution « L1C (R) ∗ L2C (R) »


Existence

Soient h un signal stable et x un signal d’énergie finie. On montre l’inégalité


Z ³Z ´2 ³Z ´2 Z
|h(s)x(t − s)|ds dt < |h(t)| dt x(t)2 dt
R R R R

qui implique l’existence de la convolution (h ∗ x)(t) pour presque tout t et l’appartenance de


h ∗ x à L2C (R). On peut ensuite obtenir l’essentiel des résultats du § I.2.2.

Formule de convolution-multiplication

Le théorème (I.16) a été obtenu pour des signaux stables. Il est a fortiori valable quand x
est dans L1C (R) ∩ L2C (R), et h ∗ x est alors également dans L1C (R) ∩ L2C (R). Si x est seulement
dans L2C (R), le signal tronqué xT (t) = 1[−T,T ] (t) x(t) est stable et on obtient (1.15) dans L2C (R)
comme une égalité de limite :
TF
yT = h ∗ xT −−−−→ yeT = e
hxeT
 
 2  2
yL yL
ye = e
hxe
p.p.

I.4 Signaux harmonisables


Un signal x est dit harmonisable s’il est possible de le mettre sous la forme
Z
x(t) = e2iπνt µ
ex (dν), (I.19)
R
I.5 Filtrage linéaire 19

où µ
ex , mesure
R harmonique de x, est une mesure sur R à valeurs complexes de variation totale
|e
µx | = | R µ
ex (dν)| < +∞.
Reprenons l’exemple de la décomposition des signaux périodiques en série de Fourier. Soit
x un signal périodique de période T , stable sur sa période. On définit le n-ième coefficient de
Fourier du signal x par Z
1 T
x
en = s(t) e−2iπnt/T dt.
T 0
P P
Si n∈Z |e xn | < +∞ alors, pour presque tout t, x(t) = n∈ en e2iπnt/T . Dans ce cas, le signal
PZ x
x est harmonisable et sa mesure harmonique est µ ex (dν) = n∈Z x en δn/T (dν), où δa désigne la
mesure de Dirac au point a.
De même, les signaux de L1C (R) dont la TF est stable admettent la représentation harmo-
nique (I.1), comme le montre l’Annexe B. Ces signaux sont harmonisables, de mesure harmonique
à densité par rapport à la mesure de Lebesgue : µ
ex (dν) = x
e(ν) dν.

I.5 Filtrage linéaire


La notion de filtre permet de représenter tout système physique permettant de transformer
un signal d’entrée x en un signal de sortie y. Comme indiqué dans l’introduction, nous nous
limiterons, dans ce paragraphe, à l’étude des filtres linéaires homogènes, c’est-à-dire satisfaisant
les principes de linéarité et d’invariance dans le temps. Ceci signifie que si y1 est la sortie associée
au signal d’entrée x1 et y2 la sortie associée à x2 , le signal de sortie associé à l’entrée λ1 x1 + λ2 x2
est λ1 y1 + λ2 y2 et que la sortie de x1 (t − τ ) est y1 (t − τ ).

I.5.1 Filtre convolutionnel


Cas L1C (R) ou L2C (R)

On a déjà mentionné au § I.2 la possibilité de caractériser un filtre par la convolution avec


une réponse impulsionnelle h. Au § I.2.2 et au § I.3.2, nous avons effectivement pu définir p.p. la
sortie y = h ∗ x d’un filtre convolutionnel stable, c’est-à-dire associé à un signal h stable, dans le
cas où x est stable ou d’énergie finie. La sortie est alors respectivement stable ou d’énergie finie.

Filtrage des signaux périodiques

De la même façon, on peut considérer la convolution d’une réponse impulsionnelle h stable


par une entrée x périodique et stable sur sa période. Alors il est facile de montrer que la sortie
y = h ∗ x est définie, périodique de période T et stable sur sa période. Ses coefficients de Fourier
sont yen = e
h(n/T )e xn .

Extension aux signaux harmonisables

Montrons que le filtrage convolutionnel stable des signaux harmonisables est encore possible.
Soit un signal x harmonisable de mesure harmonique µ ex et h un signal stable. Le signal y = h ∗ x
est défini p.p., car
Z Z Z
2iπνt
|h(t − s) e µ
ex (dν)| ds 6 |e
µx | |h(s)| ds < +∞,
R R R

ce qui entraı̂ne, pour presque tout t (Fubini),


Z
|h(t − s) x(s)| ds < +∞.
R
20 Filtrage linéaire et transformée de Fourier des signaux déterministes à temps continu

D’autre part on vérifie facilement que y admet la représentation harmonique


Z
y(t) = e2iπνte
h(ν) µ
ex (dν),
R

c’est-à-dire que la mesure harmonique de y est

ey (dν) = e
µ h(ν) µ
ex (dν). (I.20)

Ce résultat peut être interprété comme une généralisation de la formule de convolution-


multiplication (I.16).

Causalité

Si le signal h(t) est égal à 0 pour t < 0, le filtre est dit causal. Dans la pratique, pour des
signaux temporels, ceci signifie que le filtre ne produit de réponse qu’après avoir été sollicité par
une entrée. En effet, la relation de convolution (I.14) peut s’écrire pour h causal
Z ∞
(h ∗ x)(t) = h(s0 ) x(t − s0 ) ds0 ,
0

ce qui montre que la sortie (h ∗ x)(t) du filtre ne dépend (linéairement) que de la valeur présente
de l’entrée x(t) ainsi que de ses valeurs passées.
Comme la causalité dans le temps est une condition nécessaire évidente pour qu’un filtre
temporel soit réalisable sous la forme d’un système physique, certains ouvrages (par exemple
spécialisés en communication) limitent la notion de filtre à des réalisations causales. Pour plu-
sieurs raisons, ce point de vue nous semble trop restrictif dans le cadre d’un cours « généraliste » :
— d’une part, la contrainte de causalité n’existe pas dans le cas du filtrage spatial : un
système optique isotrope est un opérateur linéaire dans le cadre de l’approximation de Gauss et
sa réponse impulsionnelle est symétrique, donc évidemment « non causale » ;
— d’autre part, on peut « réaliser » formellement la sortie d’un filtre temporel non causal en
tolérant un retard entre l’entrée et la sortie. L’exemple du traitement numérique hors ligne est
révélateur : une fois les échantillons d’un signal stockés dans la mémoire d’un ordinateur, leur
filtrage non causal n’est pas moins réalisable qu’un filtrage causal. On peut même « remonter le
temps » en traitant les échantillons dans l’ordre inverse de leur acquisition !

I.5.2 Représentation fréquentielle


Généralités

Considérons un filtre convolutionnel de réponse impulsionnelle h stable et notons H e sa trans-


e
formée de Fourier (notée h jusqu’à présent). D’après la formule de convolution-multiplication,
on obtient pour un signal d’entrée stable x la relation entrée/sortie dans le domaine de Fourier :
ex
ye = H e.

Évaluons d’autre part la sortie du filtre dans le cas d’un signal d’entrée exponentiel complexe
x(t) = e2iπν0 t , pour ν0 élément de R :
Z
y(t) = h(s) e2iπν0 (t−s) ds
R Z
2iπν0 t
= e h(s) e−2iπν0 s ds
R
e 0 ).
= x(t) H(ν
I.5 Filtrage linéaire 21

En d’autres termes, les « fréquences pures » sont les signaux propres des filtres convolution-
e
nels. Le coefficient H(ν) est appelé transmittance complexe du filtre à la fréquence ν et on peut
l’écrire sous la forme suivante :
e
H(ν) = A(ν) eiφ(ν) ,
avec A(ν) = |H(ν)|e le gain d’amplitude et φ(ν) = arg H(ν)e le déphasage (subis par le signal
x(t) = e 2iπνt au passage dans le filtre).
Réciproquement, on peut chercher à définir un filtre linéaire homogène par sa transmittance
e Formellement, il suffit pour cela de restreindre l’ensemble des entrées admissibles
complexe H.
aux signaux x harmonisables pour lesquels
Z
y(t) = e
e2iπνt H(ν) µex (dν)
R
est définie p.p. La mesure harmonique de la sortie est alors
µ e
ey (dν) = H(ν) µ
ex (dν).

Exemple 1

Un filtre passe-bande idéal est caractérisé par la transmittance H(ν) e = 1[−B2 ,−B1 ] (ν) +
1[B1 ,B2 ] (ν), c’est-à-dire qu’il « coupe » toute l’énergie du signal située en dehors de l’intervalle
(la « bande » ) de fréquence [B1 , B2 ]. On peut définir sa sortie pour toute entrée harmonisable.
On définit de même des filtres coupe-bande, passe-haut (B2 = +∞), passe-bas (B1 = 0), etc.
On peut s’intéresser à la réponse impulsionnelle de ces filtres (pourquoi existe-t-elle ?) : un
cas particulier très utile est le filtre passe-bas « idéal » ; pour B1 = 0 et B2 = B, la réponse
impulsionnelle h s’écrit
h(t) = 2B sinc (2Bt).
On note immédiatement que cette réponse impulsionnelle est non causale et de support infini,
ce qui signifie que la réalisation physique d’un tel filtre ne peut être qu’approchée (c’est pourquoi
on l’appelle filtre passe-bas « idéal »).

Exemple 2

Le filtre dérivateur est caractérisé par la transmittance H(ν)e = 2iπν. On peut le définir sur
l’ensemble des entrées qui se mettent sous la forme :
Z
x(t) = e2iπνt s(ν) dν,
R
telles que s et ν → νs(ν) soient des éléments de L1C (R). De tels signaux sont continus et
dérivables et on voit facilement que le filtre dérivateur associe à x sa dérivée dx/dt :
Z
d
x(t) = 2iπν e2iπνt s(ν) dν.
dt R

Annexe A Fonctions régularisantes


Définition

Une fonction régularisante est une fonction θ stable et normalisée :


Z
e = 1,
θ(t) dt = θ(0)
R
et dont la TF est également stable. En pratique on choisit des fonctions réelles positives et paires.
D’autre part une fonction régularisante est majorée, continue et décroissante vers 0 sur R+ .
22 Filtrage linéaire et transformée de Fourier des signaux déterministes à temps continu

Exemples

Les fonctions régularisantes les plus courantes sont celles de Féjer-Cesaro, Cauchy-Poisson
et Gauss-Weierstrass respectivement associées aux trois couples :
tf e = (1 − |ν|) 1[−1,1] (ν)
θ(t) = sin2 πt/π 2 t2 −→ θ(ν) (I.21)
2 2 tf e =e −|ν|
θ(t) = 2/(1 + 4π t ) −→ θ(ν) (I.22)
√ 2 2 tf −ν 2
θ(t) = π e−π t −→ e =e
θ(ν) (I.23)

Propriétés

La caractéristique intéressante de ces fonctions est d’admettre la décomposition (I.1) par


vérification directe. On peut alors « propager » cette propriété à d’autres fonctions, dont les
fonctions stables à TF stable, comme nous allons le montrer maintenant.

Annexe B TF inverse de x
e stable
L’objet de cette partie est de montrer que dans le cas où la TF x e d’un signal x stable est
stable, la TF inverse (I.1) existe et est p.p. égale à x. Si x est stable, on a d’après (I.6) et (I.16) :
³ν ´
tf
λ θ(λt) ∗ x(t) −→ θe x
e(ν), (I.24)
λ
c’est-à-dire (I.2) pour λ θ(λt) ∗ x(t). Montrons inversement (I.1) pour cette fonction régularisée :
Z ³ν ´
θe e(ν) e2iπνt dν = λ θ(λt) ∗ x(t) pour tout t.
x (I.25)
R λ
D’après (I.14), on a
Z
λ θ(λt) ∗ x(t) = λ θ(λ(t − u))x(u) du.
R

Soit θ(λ(t − u)) = θ(λu)eu (t), avec par exemple eu (t) = exp(−π 2 λ2 t(t − 2u)) dans le cas du
facteur de Gauss-Weierstrass. Alors :
Z
λ θ(λt) ∗ x(t) = λ θ(λu)x(u)eu (t) du.
R

Par TF, en utilisant d’une part (I.24) et le théorème de Fubini d’autre part, on obtient
³ν ´ Z ³Z ´ Z
e
θ x
e(ν) = λ θ(λu) x(u) eu (t) e −2iπνt
dt du = λ θ(λu) x(u)e
eu (ν) du.
λ R R R

Toujours grâce au théorème de Fubini, en remarquant que |λ θ(λu)x(u) eeu (ν)| est intégrable en
dudν, on en déduit :
Z ³ν ´ Z ³Z ´
θe e(ν) e2iπνt dν =
x λ θ(λu) x(u) eeu (ν) e2iπνt dν du
R λ
ZR R

= λ θ(λu) x(u) eu (t) du


R
= λ θ(λt) ∗ x(t).

Dans le cas où x


e est également stable, le théorème de convergence dominée entraı̂ne que le
premier terme de (I.25) tend vers Z
e(ν) e2iπνt dν
x
R
I.5 Filtrage linéaire 23

pour tout t quand λ tend vers +∞, uniformément dans tout intervalle. D’autre part, si l’on peut
démontrer que le deuxième membre de (I.25) tend simultanément vers x dans L1C (R), alors on
aura la formule d’inversion (I.1) pour presque tout t. Pour démontrer ce dernier point, on forme
en utilisant (I.24)
Z Z ¯Z ¯
¯ ¯
|λ θ(λt) ∗ x(t) − x(t)| dt = ¯ (x(t − u) − x(t))λ θ(λu) du¯ dt.
R R R
R
Donc, en posant f (u) = R |x(t − u) − x(t)|dt,
Z Z Z ³ u0 ´
|λ θ(λt) ∗ x(t) − x(t)| dt 6 f (u)λ θ(λu) du = f θ(u0 ) du0 .
R R R λ
R
Comme f (u) = |f (u)| est majorée par 2 R |x(t)| dt, le théorème de Lebesgue donne
Z ³ u0 ´ Z ³ u0 ´
0 0
lim f θ(u ) du = lim f θ(u0 ) du0 = 0
λ→+∞ R λ R λ→+∞ λ

pourvu que f (u) tende vers zéro quand u tend vers zéro. D’après le théorème de Lebesgue, c’est
vrai si x est continue à support compact. On passe ensuite au cas général en approchant dans
L1C (R) les fonctions stables par des fonctions continues à support compact.

Remarque

e n’est pas stable, on conserve quand même un résultat de convergence dans L1C (R) :
Même si x
Z ³ν ´
lim e(ν)θe
x e2iπνt dν = x(t)
λ→+∞ R λ

pour presque tout t, résultat valable pour les différentes fonctions régularisantes θ.
24
25

Chapitre II

Signaux déterministes à temps


discret

II.1 Introduction
Les signaux à temps discret tiennent une place prépondérante dans les applications dans la
mesure où de plus en plus de traitements sont effectués par voie numérique. Nous insisterons
donc particulièrement dans ce cours sur ce type de signal, que ce soit dans le cadre déterministe
ou aléatoire. Dans la pratique, une grande partie des signaux à temps discret correspondent à
un échantillonnage d’un signal continu, mais il existe des processus qui sont par nature à valeurs
discrètes comme par exemple des images reçues sur des mosaı̈ques CCD.
Dans ce chapitre, nous étudierons en premier lieu le problème de la transformation d’un
signal continu sous forme discrète. On utilise en général un échantillonnage régulier, par lequel
on associe à un signal x la suite de valeurs numériques xk = x(kTe ), k ∈ Z, où Te est le pas
(ou période) d’échantillonnage. La première question à se poser lors de cette transformation
est : dans quelle mesure la suite des échantillons {xk }k∈Z décrit parfaitement le signal initial
x ? Le théorème de Shannon permet de définir les conditions de conservation de l’information
véhiculée par x dans le signal à temps discret1 {xk }k∈Z . Après avoir abordé cette question, nous
présentons les outils les plus couramment utilisés pour les signaux à temps discret. Il s’agit de
la transformée en z et de la transformée de Fourier discrète. Comme dans le cas continu, on se
placera dans les deux cadres suivants :
— l’ensemble (espace de Banach) des signaux à temps discret stables
½ X ¾
`1 = {xk }k∈Z / |xk | < +∞ ,
k∈Z

— l’espace de Hilbert des signaux à temps discret d’énergie finie,


½ X ¾
2 2
` = {xk }k∈Z / |xk | < +∞ .
k∈Z

Signalons la relation d’inclusion `1 ⊂ `2 qui n’a pas cours dans le cas des signaux continus.
1
Dans ce chapitre, un signal à temps discret est noté {xk }k∈Z pour le distinguer du signal à temps continu x.
Dans la suite du cours, les signaux à temps continu ne seront plus utilisés et la notation x désignera le signal à
temps discret.
26 Signaux déterministes à temps discret

II.1.1 Formule sommatoire de Poisson


Cette formule est utilisée en analyse pour calculer simplement des sommes de séries. Dans
le cas du traitement du signal, cette formule est liée au théorème d’échantillonnage que nous
allons présenter dans le paragraphe suivant et peut, d’autre part, être utilisée pour des calculs
de spectres de signaux complexes.

Théorème

Soit s un signal complexe stable de transformée de Fourier se stable et soit T un réel positif
quelconque. Alors pour presque tout (u, ν) ∈ R2
X X ³n − ν ´
T s(nT − u) e2iπνn = e2iπνu/T se e−2iπun/T . (II.1)
T
n∈Z n∈Z

Démonstration
RT P R
P Sachant que 0 n∈Z |s(nT − u)| du = R |s(u)| du < +∞, la fonction périodique
n∈Z |s(nT − u)| est presque partout finie. Donc
X
F (u, ν) = s(nT − u) e2iπν(nT −u)/T (II.2)
n∈Z

est une fonction définie presque partout en u, périodique et intégrable sur [0, T ].
Pour tout k∈Z,
Z X Z T
1 T
F (u, ν) e−2iπku/T du = s(nT − u) e2iπ(ν+k)(nT −u)/T
T 0
n∈Z 0
³ ´
1 −ν − k
= se .
T T
P
Or, la transformée de Fourier est stable, donc pour presque tout ν, k∈Z |e s ( −νT− k )| < +∞.
On peut donc utiliser les transformées de Fourier inverses et montrer que pour presque tout
(u, ν),
³ ´
1 X k − ν −2iπuk/T
F (u, ν) = se e .
T T
k∈Z

En faisant u = ν = 0 dans (II.1), sous réserve d’existence, on obtient la formule sommatoire


de Poisson,
X X
T s(nT ) = se(n/T ) (II.3)
n∈Z n∈Z

Notons que pour que (II.3) soit vrai, il faut que la série s(nT ) soit absolument convergente, ce
qui n’est pas équivalent à s stable.

II.2 Théorème d’échantillonnage


II.2.1 Présentation
Soit x un signal stable continu, dont la transformée de Fourier possède un support limité à
la bande de fréquence [−B, B]. Cette transformée de Fourier est continue et puisqu’elle est à
support borné, elle est intégrable et
Z B
∀t∈R, x(t) = xe(ν) e2iπνt dν.
−B
II.2 Théorème d’échantillonnage 27

On dit alors que le signal x est à bande limitée sur [−B, B].
En utilisant la formule de Poisson (II.1) en u = 0 et ν p.p., ce qui exige que
X ¯¯ ³ n ´¯¯
¯x ¯ < +∞,
2B
n∈Z

on peut écrire, en remplaçant ν par −T ν et T par 1/2B dans (II.1),


³ ´
1 X n X
x e−iπνn/B = xe(ν + 2Bn) = x e(ν). (II.4)
2B 2B
n∈Z n∈Z

Donc Z ³ ´
B
1 X n
x(t) = x e−iπνn/B e2iπνt dν,
−B 2B 2B
n∈Z
soit
³ ´Z B
1 X n
x(t) = x e−iπνn/B e2iπνt dν,
2B 2B −B
n∈Z
ou encore ³ ´ ³ ´
1 X n n
x(t) = x h t− ,
2B 2B 2B
n∈Z
où h est la réponse impulsionnelle du filtre passe-bas idéal de bande [−B, B] vue au chapitre
précédent.

II.2.2 Théorème de Shannon-Nyquist


Soit x un signal stable continu à bande limitée sur [−B, B]. Si on choisit une période d’échan-
tillonnage Te telle que Te < 1/2B, et si
X
|x(nTe )| < +∞,
n∈Z

alors il est possible de reconstruire sans erreur le signal x à partir de ses échantillons xn = x(nTe )
à l’aide de la formule suivante, dite formule d’interpolation de Shannon :
X
x(t) = x(nTe ) sinc (t/Te − n) (II.5)
n∈Z

Remarque 1

La position absolue des instants d’échantillonnage n’a pas d’importance ; c’est uniquement
la cadence qui importe.

Remarque 2

Le théorème de reconstruction, énoncé pour K = 0, reste valable pour tout signal réel stable
continu dont la TF est à support limité à des intervalles symétriques de type
h i h i
−2K − 1 −2K + 1 2K − 1 2K + 1
, ∪ , ,
2Te 2Te 2Te 2Te
pour tout K entier, pourvu que K soit connu. On obtient alors une version « haute fréquence »
du théorème d’échantillonnage,
xK (t) = x0 (t) cos(2πK/Te ),
particulièrement utile pour l’échantillonnage des signaux modulés à haute fréquence.
28 Signaux déterministes à temps discret

Interprétation du théorème d’échantillonnage. Phénomène de repliement

Lorsque les conditions du théorème d’échantillonnage ne sont pas satisfaites, il est important
de comprendre qualitativement quel phénomène rend inapplicable la formule d’interpolation de
Shannon.
Considérons donc un signal x qui n’est pas à bande limitée sur [−B, B], et dont l’échantillon-
nage est effectué à la fréquence 2B. Pour reconstruire le signal, on filtre le train d’impulsions
obtenu par le filtre passe bas [−B, B]. Le signal reconstruit, après division par 2B, est donc
³ ´Z B Z B µX ³ ´ ¶
1 X n −2iπνn/2B 2iπνt 1 2iπνt n −2iπνn/2B
x
b(t) = x e e dν = e x e dν.
2B 2B −B 2B −B 2B
n∈Z n∈Z

D’après la formule sommatoire de Poisson, l’expression entre parenthèses peut également s’écrire
³ ´
1 X n X
x e−2iπνn/2B = x
e(ν − 2Bn)
2B 2B
n∈Z n∈Z

ce qui, reporté dans l’expression précédente, permet d’écrire


Z B X
x
b(t) = e2iπνt x
e(ν − 2Bn)dν.
−B n∈Z

La transformée de Fourier du signal reconstruit est donc


X

x(ν) = x
e(ν − 2Bn) 1[−B,+B] (ν).
n∈Z

Cette transformée de Fourier est obtenue en superposant les spectres obtenus par décalage
de multiples de 2B à partir du spectre initial sur la plage de fréquences [−B, B]. Ce phénomène
est dénommé recouvrement de spectre ou aliasing.
L’opération d’échantillonnage est illustrée par la figure II.1. L’encadré représente le signal x
et sa transformée de Fourier à support limité sur [−B, B].
— Dans la partie supérieure de la figure, l’échantillonnage du signal x est effectué à une
cadence Te < 1/2B. Dans le domaine de Fourier, conformément à (II.5), ge(ν) est obtenue par
simple « périodisation » de xe. Étant donné que 2B < 1/Te , il n’y a pas de chevauchement et on
peut retrouver xe en effectuant un filtrage passe-bas idéal. Dans le domaine temporel, l’équivalent
de cette opération est la convolution par un sinus cardinal.
— Dans la partie inférieure de la figure, l’échantillonnage du signal x est effectué à une
cadence Te0 > 1/2B. Dans ce cas, le calcul de ge fait intervenir un repliement des motifs répliqués
de x
e : un filtrage passe-bas idéal ne restituera pas le signal x original.

Filtre anti-repliement

Il est d’usage, lorsque l’on échantillonne un signal x à une cadence donnée Te , de filtrer le
signal au préalable avec un filtre passe-bas de fréquence de coupure 1/2Te , ce qui permet d’éviter
les phénomènes de repliement. Notons xBF le signal filtré, qui vérifie les hypothèses de Shannon
pour l’échantillonnage à une cadence de Te et peut donc être reconstruit sans erreur à partir de
ses échantillons {xBF (nT e )}n∈Z . Le signal xBF ne contient que les composantes basse fréquence
du signal original, mais constitue cependant une approximation du signal x meilleure que le
signal x̂ reconstruit à partir des échantillons {x(nT e )}n∈Z (voir paragraphe précédent), au sens
de la norme dans L2C (R). En effet, on démontre (simplement, en utilisant Parseval) l’inégalité :
Z Z
2
|x(t) − xBF (t)| dt 6 |x(t) − x̂(t)|2 dt .
R R
II.2 Théorème d’échantillonnage 29

{x k} ≡ {x(kTe)} g(ν) 2

2
TF
t ν
0

[
Te –1/T e –B 0 B 1/Te

* ×
Échantillonnage ( T e)

h(t)

Périodisation (Te )
2
H(ν)
2
TF
t ν
0 Te –1/2Te 0 1/2T e

ˆ 2
x(ν)
x(t)
TF 2
t ν
0 –B 0 B
Échantillonnage ( T e’ )

Périodisation (Te’ )
avec repliement

× ×

{x k} ≡ {x(kT ’e )} g(ν) 2

2
TF
t ν
[

0 T e’ –1/T ’e 0 1/T ’e

Fig. II.1. Échantillonnage d’un signal et repliement de sa TF (voir texte).


30 Signaux déterministes à temps discret

II.3 Transformée en z
II.3.1 Définition
La transformée en z (TZ) est l’analogue discrète de la transformée de Laplace des signaux
continus. Elle sera particulièrement utilisée dans le chapitre suivant consacré aux filtres numé-
riques. En effet, la transformée en z d’un filtre permet d’étudier de façon simple sa stabilité. Elle
fournit également une représentation compacte des filtres AR ou ARMA qui sont fréquemment
utilisés en traitement du signal.
On associe formellement à tout signal discret {xk }k∈Z sa TZ définie par
X
X(z) = xk z −k , z ∈ C. (II.6)
k∈Z

Pour un signal donné, l’ensemble des valeurs de z pour lesquelles la série converge est la
région de convergence (RDC). Pour la déterminer, on peut utiliser le critère de Cauchy sur la
convergence des séries de puissance. On décompose la somme précédente sous la forme X(z) =
X1 (z) + X2 (z) avec
+∞
X +∞
X
k
X1 (z) = x−k z et X2 (z) = xk z −k .
k=1 k=0
On montre alors que X2 (z) converge si |z| > Rx− , où
Rx− = lim sup |xk |1/k .
k→+∞

D’une manière similaire on peut montrer que X1 (z) converge si |z| < Rx+ , où Rx+ est défini par
1
= lim sup |x−k |1/k .
Rx+ k→+∞

Dans le cas général, la série converge dans un anneau du plan complexe défini par
0 6 Rx− < |z| < Rx+ 6 +∞ .

Le problème suivant consiste à déterminer un signal connaissant sa TZ et la RDC associée.


Pour cela on s’appuie sur des résultats de l’étude des fonctions de la variable complexe [2].
L’expression (II.6) est un développement en série de Laurent de la fonction X(z), valable dans
une couronne de convergence. Par conséquent la représentation en TZ du signal {xk }k∈Z est la
donnée de la fonction X(z) et de la RDC sur laquelle le développement en série de Laurent de
X(z) restitue les coefficients {xk }k∈Z :
TZ
{xk }k∈Z −→ X(z) et RDC = {z / Rx− < |z| < Rx+ } (II.7)
Le calcul d’un signal à partir de sa TZ est donc un problème de développement en série de
Laurent. On rappelle rapidement la démarche, qui fait appel au théorème de Cauchy sur l’inté-
gration le long d’un contour dans le plan complexe. De ce théorème, on peut évaluer l’intégrale
I : I
1
I= z k−1 dz = δk
2iπ Γ+
où Γ+ est un contour fermé qui entoure l’origine des z parcouru dans le sens trigonométrique.
{δk } est le signal de Kronecker défini par δ0 = 1 et δk = 0 si k 6= 0. En multipliant les deux
membres de l’équation définissant la transformée en z par z l−1 /2iπ et en intégrant le long d’un
contour Γ+ entourant l’origine et contenu dans la RDC, on a
I I X
1 k−1 1
X(z) z dz = xl z −l+k−1 dz.
2iπ Γ+ 2iπ Γ+
l∈Z
II.3 Transformée en z 31

L’intégrale étant calculée dans la RDC, la série est absolument convergente et on peut donc
inverser l’intégration et la sommation, ce qui s’écrit
I +∞
X I
1 k−1 xl
X(z) z dz = z −l+k−1 dz.
2iπ Γ+ −∞
2iπ Γ +

Compte tenu de la remarque sur l’intégrale I, on obtient finalement la formule d’inversion


de la TZ I
1
xk = X(z) z k−1 dz. (II.8)
2πi Γ+
Le calcul effectif de l’intégrale peut se faire de plusieurs manières, par exemple grâce à la méthode
des résidus (voir [2]). Le terme xk s’exprime alors comme la somme des résidus de la fonction
X(z) z k−1 pour les pôles intérieurs au contour Γ+ . Lorsque k est négatif, on peut préférer sommer
les résidus aux pôles extérieurs au contour Γ+ , ce qui revient à le parcourir dans le sens opposé
au sens trigonométrique (et xk est alors l’opposé de la somme de ces résidus). Cette pratique est
intéressante lorsque |X(z) z k−1 | décroı̂t suffisamment vite à l’infini.

II.3.2 Propriétés de la transformée en z


— On appelle pôles de X(z), les valeurs de z pour lesquelles la transformée X(z) tend vers
l’infini, et zéros de X(z) les valeurs de z pour lesquelles X(z) s’annule.
— Soit un signal {xk }k∈Z et soit la version décalée yk = xk−k0 , qui correspond à l’introduction
d’un retard k0 . En prenant la transformée en z, on obtient :

Y (z) = z −k0 X(z),

sous réserve que z appartienne à la RDC de {xk }k∈Z .


— Le produit de convolution à temps discret x ∗ h de deux signaux {xk }k∈Z et {hk }k∈Z est
défini par X
yk = xn hk−n .
n∈Z

Son élément neutre est le signal de Kronecker {δk } défini au paragraphe précédent. Notons
qu’au contraire de la pseudo-fonction de Dirac du cas continu, ce signal ne pose aucun problème
de définition et qu’il est élément de `1 . Comme dans le cas continu, sous certaines conditions,
la transformée en z établit une correspondance entre produit de convolution et produit : la
transformée en z de {yk }k∈Z s’écrit
XX
Y (z) = xn hk−n z −k .
k∈Z n∈Z

Si z appartient à l’intersection des RDC de chacune de ces séries et en posant m = k − n, il vient


X X
Y (z) = xn z −n hm z −m = X(z) H(z),
n∈Z m∈Z

i.e., le produit de convolution de deux signaux conduit à un produit simple par transformée
en z. Notons que la RDC de {yk }k∈Z peut s’avérer plus grande que l’intersection des RDC de
{xk }k∈Z et de {hk }k∈Z .
32 Signaux déterministes à temps discret

II.4 Transformée de Fourier à temps discret


II.4.1 Lien entre transformée en z et transformée de Fourier
e
Pour un signal à temps discret {xk }k∈Z , la transformée de Fourier X(ν) correspond à l’ex-
pression de sa transformée en z prise en z = e 2iπν :
X
e
X(ν) = xk e−2iπνk , ν ∈ R. (II.9)
k∈Z

Son existence dépend de la convergence absolue de la série (II.9) sur le cercle unité : si le signal
{xk }k∈Z est dans `1 , la RDC de la série (II.9) contient le cercle unité et la transformée de Fourier
existe. Notons qu’alors la fonction X e est périodique de période 1.

Formule d’inversion

Contrairement au cas continu, la stabilité permet de garantir l’existence d’une transformée


de Fourier inverse. En multipliant (II.9) par e2iπnν et en intégrant sur [0, 1], on obtient xn comme
e :
le n-ième coefficient de Fourier de X
Z 1
xn = e
X(ν) e2iπnν dν. (II.10)
0

Égalité de Plancherel-Parseval

L’analogue du théorème de Parseval vu au chapitre I, (I.16) existe en discret. Soit {xk }k∈Z
appartenant à `2 muni du produit hermitien
X
hx, yi = xk yk∗ .
k∈Z

e
Soit X(ν) la transformée de Fourier associée à xn , alors
X Z 1
|xn |2 = e
|X(ν)| 2
dν. (II.11)
n∈Z 0

II.4.2 Transformée de Fourier discrète (TFD)


Comme dans le cas continu, on peut s’intéresser à la représentation de Fourier des signaux dis-
crets périodiques {xk }k∈Z de période N . Dans le cas discret, cette représentation est d’un intérêt
pratique considérable car on dispose d’algorithmes rapides qui permettent de passer de la repré-
sentation temporelle {xk }k=0,N −1 à une représentation fréquentielle équivalente {Xl }l=0,N −1 , et
réciproquement.
Pour un signal discret périodique {xk }k∈Z de période N , on définit sa TFD par
N −1
1 X
Xl = xk e−2iπkl/N , l ∈ Z. (II.12)
N
k=0

On obtient ainsi un nouveau signal discret {Xl }l∈Z , également périodique de période N .
De façon duale, on montre la formule d’inversion
N
X −1
xk = Xl e2iπkl/N , k ∈ Z. (II.13)
l=0
II.4 Transformée de Fourier à temps discret 33

Le signal {Xl }l∈Z est donc une représentation équivalente de {xk }k∈Z . Du fait de la périodicité,
la connaissance de N points successifs suffit à définir entièrement chacun de ces signaux. Les
transformations linéaires (II.12) et (II.13) peuvent donc être résumées par la relation matricielle
liant les vecteurs x = [x0 , . . . , xN −1 ]t et X = [X0 , . . . , XN −1 ]t :
1
X= WN x, (II.14)
N
kl = e−2iπkl/N , d’inverse W ∗ /N .
où WN est une matrice inversible d’éléments wN N

Transformée de Fourier discrète rapide (TFR ou FFT)

Le calcul de la TFD du vecteur x par la formule (II.14) nécessite environ N 2 multiplications.


L’algorithme de transformée de Fourier rapide est un moyen de calcul exact de la transformée de
Fourier discrète qui permet de réduire notablement le coût de calcul. Le principe est de découper
le problème initial en un grand nombre de problèmes auxiliaires de dimensions réduites, afin
que le coût total de leur résolution (comprenant la somme des coûts de chacun d’entre eux et
le raccordement des solutions élémentaires) soit sensiblement réduit. Ce découpage est rendu
possible par la structure très particulière de la matrice WN . De façon générale, la dimension
des problèmes auxiliaires dépend de la décomposition de N en facteurs premiers. Le cas le plus
favorable correspond à N = 2K . Comme nous le verrons dans le dernier paragraphe, on se
ramène souvent à ce cas, aussi est-ce le seul que nous détaillons. L’opération élémentaire est
alors la décomposition d’une TFD d’ordre N en deux TFD, chacune d’ordre N/2.
On peut écrire (II.14) sous la forme
µN/2−1
X N/2−1
X ¶
1 2jl (2j+1)l
Xl = x2j wN + x2j+1 wN .
N
j=0 j=0

2k = w k , ce qui permet de transformer la relation précédente en


Or wN N/2

µN/2−1
X N/2−1
X ¶
1 jl l jl
Xl = x2j wN/2 + wN x2j+1 wN/2 ,
N
j=0 j=0

que l’on peut écrire sous la forme


l
Xl = Yl + wN Zl (0 6 l 6 N − 1),

où Yl et Zl correspondent aux TFD de yi = x2i et zi = x2i+1 définies par II.12. En observant de
l+N/2 l , la formule précédente peut se séparer en
plus que Yl+N/2 = Yl , Zl+N/2 = Zl et wN = −wN
l l
Xl = Yl + wN Zl (0 6 l 6 N/2 − 1), Xl = Yl − wN Zl (N/2 6 l 6 N − 1).

Le calcul de Y et Z, de dimension N/2, nécessite deux TFD d’ordre N/2. On a donc remplacé
une TFD de longueur N par deux TFD d’ordre N/2, au prix de N/2 multiplications complexes
et N additions complexes supplémentaires. Dans le cas où N est une puissance de 2, on peut
itérer le processus pour aboutir à des TFD de longueur 2 triviales. Le nombre d’itérations étant
log2 N/2, on montre que la complexité totale de l’algorithme est de N/2 log2 N/2 multiplications
complexes et N log2 N/2 additions complexes.
34 Signaux déterministes à temps discret

Bourrage de zéros (zero padding )

Considérons un signal discret {xk }k∈Z de support [0, N − 1]. L’équation (II.9) nous permet
de calculer sa transformée de Fourier
N
X −1
e
X(ν) = xk e−2iπνk , ν∈R,
k=0

qui est périodique de période 1. Notons {xM k }k∈Z le signal périodique de période M > N ,
construit à partir des échantillons non nuls du signal {xk }k∈Z complétés par des zéros, c’est-à-
dire défini par la période suivante :
xM M M M
0 = x0 , . . . , xN −1 = xN −1 , xN = 0, . . . , xM −1 = 0.

Sa transformée de Fourier discrète se calcule à partir de l’équation (II.12) :


N −1
1 X
XlM = xk e−2iπkl/M , l = 0, . . . , M − 1 .
M
k=0

En examinant les deux équations précédentes on remarque que


e (l/M ) = M X M ,
X l = 0, . . . , M − 1.
l

Ainsi la TFD de {xM k }k∈Z conduit à une version échantillonnée de la TF du signal à support
limité {xk }k∈Z , pour la période d’échantillonnage 1/M (échantillonnage fréquentiel ).
L’opération précédente est appelée « bourrage de zéro » (zero padding) dans la littérature
de traitement du signal. Les calculs précédents montrent qu’elle permet :
— d’interpoler la transformée de Fourier d’un signal à support limité pour toutes les fré-
quences uniquement en utilisant des TFR,
— de remplacer le calcul d’une TFR sur N points par un calcul sur M = 2K points (M > N ).
On obtient alors la TF de {xk } échantillonnée avec la période fréquentielle 1/2K au lieu de 1/N .
Ceci n’empêche pas d’étudier le comportement fréquentiel du signal {xk }, et permet d’utiliser
l’algorithme de TFR associé aux puissances de deux (voir le paragraphe précédent). Notons que
cette opération est indispensable lorsque l’on veut faire la TFR d’une séquence dont la taille N
est un (grand) nombre premier.

Formule de convolution-multiplication

Soit deux signaux discrets périodiques {xk } et {hk } de même période N et de représentations
fréquentielles respectives {Xk }k∈Z et {Hk }k∈Z . La formule de convolution-multiplication s’écrit :
N
X −1
tfd
yk = xn hk−n , k ∈ Z −→ Yk = Hk Xk , k ∈ Z
n=0

où {yk }k∈Z et {Yk }k∈Z sont des signaux périodiques de période N . Si l’on représente ces trois
signaux périodiques par les vecteurs x = (x0 , . . . , xN −1 )t , h, y et leurs représentations fréquen-
tielles respectives par X, H et Y on peut écrire la formule précédente comme une relation
matricielle
1
Y = (H0 X0 , . . . HN −1 XN −1 )t = WN y.
N
Le vecteur y est alors la convolution circulaire des vecteurs x et h, définie par
( Pk P −1
yk = n=0 xn hk−n + N n=k+1 xn hk+N −n , 0 6 k 6 N − 2 ;
PN −1 (II.15)
yN −1 = n=0 xn hk−n .
35

Chapitre III

Filtres numériques

III.1 Introduction
Le signal de sortie d’un filtre linéaire homogène est donné par le produit de convolution de
{xk }, le signal d’entrée, et de {hk }, la réponse impulsionnelle du filtre. La réponse impulsionnelle
{hk }, ou réponse percussionnelle dans certains ouvrages, est définie comme la sortie du filtre pour
le signal d’entrée {δk }. La TZ de {hk } est définie par :
tz
{hk }k∈Z −→ H(z) et RDC = {z/R1 < |z| < R2 }. (III.1)

On appelle fonction de transfert la fonction H(z). Une autre représentation que nous serons
e
souvent appelés à utiliser est la réponse fréquentielle du filtre H(ν) qui est la transformée de
Fourier de la réponse impulsionnelle.
Les filtres sont fréquemment utilisés afin de transformer les signaux d’entrée de façon à
éliminer, ou tout du moins à atténuer fortement, certaines fréquences qui sont indésirables ou
qui correspondent à des perturbations. Par exemple, il est souvent nécessaire de supprimer
des fréquences proches de 50 ou 60 Hz qui peuvent induire des interférences avec le courant
d’alimentation. Nous avons présenté au chapitre 1 certains types de filtres utilisés pour cet
usage, qui sont :
— les filtres passe-bas qui atténuent fortement les fréquences situées au delà d’une limite
définie sans affecter les fréquences plus basses.
— Les filtres passe-haut qui atténuent fortement les fréquences situées en deçà d’une limite
définie sans affecter les fréquences plus hautes.
— Les filtres passe-bande qui préservent le signal d’entrée dans un intervalle de fréquence et
atténuent ses composantes situées à l’extérieur de cet intervalle.
— Les filtres coupe-bande qui suppriment les composantes du signal d’entrée situées dans un
intervalle de fréquence et n’affectent pas les composantes situées à l’extérieur de cet intervalle.
La figure III.1 présente pour chacun des types de filtre mentionnés ci-dessus la réponse
fréquentielle associée à des filtres réels en comparant avec la réponse idéale souhaitée. La synthèse
des filtres réels a été effectuée par l’approche type Butterworth [3] où l’on approxime la fonction
à l’aide d’un polynôme de degré N . L’approximation est d’autant meilleure que N est élevé mais
le filtre obtenu devient difficile à utiliser dans la pratique. Les filtres présentés ici correspondent
à N = 8.
Nous allons à présent introduire les propriétés importantes de certains filtres numériques.
36 Filtres numériques

Filtre Passe-Bande Filtre Coupe-Bande


1.5 1.5

1 1
|H(v)|2

|H(v)|2
0.5 0.5

0 0
0 100 200 300 400 500 0 100 200 300 400 500
Fréquence Fréquence

Filtre Passe-Bas Filtre Passe-Haut


1.5 1.5

1 1
|H(v)|2

|H(v)|2

0.5 0.5

0 0
0 100 200 300 400 500 0 100 200 300 400 500
Fréquence Fréquence

Fig. III.1. Exemples de modules de fonctions de transfert de filtre.


III.1 Introduction 37

III.1.1 Stabilité
Il existe plusieurs définitions de la stabilité d’un filtre ; nous ne retiendrons ici que la stabilité
au sens déjà défini dans le cas continu, c’est-à-dire {hk } ∈ `1 . On la désigne parfois par « stabilité
au sens strict », ou « stabilité BIBO » (Bounded Input Bounded Output), car on montre que
{hk } ∈ `1 est une condition nécessaire et suffisante pour qu’à toute entrée bornée le filtre associe
une sortie bornée. Comme indiqué précédemment, la stabilité stricte de {hk } correspond au fait
que le cercle unité appartienne à la RDC, ou encore à l’existence de la transformée de Fourier
e
de {hk } : H(ν) = H(e2iπν ), appelée transmittance, comme à temps continu.

III.1.2 Causalité
Un filtre est dit causal si hk = 0 pour tout k < 0. Cette propriété est équivalente pour la TZ
du filtre à : la RDC associée à {hk } est de la forme [R1 , +∞[.
On peut facilement comprendre cette caractérisation si on se souvient de la méthode d’inver-
sion de la TZ par le calcul des résidus : on a vu en effet que l’on pouvait calculer les valeurs de hk
pour k < 0 en sommant les résidus de X(z) z k−1 sur les pôles extérieurs au contour d’intégration
(situé dans la RDC). La condition précédente garantit qu’il n’existe pas de tels pôles, puisque
la série entière est holomorphe sur sa RDC [R1 , +∞[. Donc le résultat de l’intégration (II.8) est
nul : hk = 0 pour k < 0.
Inversement, si hk = 0 pour tout k < 0, en reprenant les calculs du paragraphe II.3.1
permettant de définir la région de convergence de la TZ, on constate aisément que Rh+ est égal
à +∞ et que la RDC est définie par [R1 , +∞[.
Un filtre causal et stable est dit réalisable.

III.1.3 Inversion d’un filtre numérique


On considère un filtre numérique H défini par sa réponse impulsionnelle {hk }. Soit {xk } un
signal discret appliqué en entrée du filtre H, et soit {yk } le signal de sortie associé. On définit
le filtre inverse du filtre H comme le filtre qui permet de retrouver {xk } en filtrant {yk }, pour
une famille de signaux {xk }. Ce filtre inverse est noté H −1 .
Soit K le filtre inverse d’un filtre H défini par sa transformée en z, H(z), et sa région de
convergence. Le filtre inverse admet comme transformée en z
1
K(z) = .
H(z)

Les pôles de cette fonction sont les zéros de H(z) et le domaine de convergence de K(z) sera
déduit de l’étude de ces zéros. Si elle existe, la transmittance du filtre K est obtenue à partir de
celle du filtre H par
1
K(e2iπν ) = .
H(e2iπν )

III.1.4 Filtres rationnels, filtres dynamiques


De même qu’un grand nombre de systèmes à temps continu sont régis par des équations
différentielles, une large classe de systèmes à temps discret découlent d’équations aux différences,
du type
XN M
X
an yk−n = bm xk−m (III.2)
n=0 m=0
38 Filtres numériques

où {yk } est considéré comme la sortie d’un système dont {xk } est l’entrée. En prenant la TZ
des deux membres de l’équation précédente on obtient la fonction de transfert du système cor-
respondant : PM
Y (z) bm z −m
H(z) = = Pm=0
N
. (III.3)
X(z) n=0 an z
−n

Partant de (III.3), il est facile de mettre H(z) sous la forme d’un quotient P (z)/Q(z) de deux
polynômes en z, de degrés respectifs M0 et N0 . Comme les polynômes de la variable complexe
sont entièrement définis par la position de leurs zéros à un facteur près, H(z) est entièrement
définie par ses N0 pôles (zéros de Q(z)), ses M0 zéros (zéros de P (z)) et un facteur multiplicatif
A: QM0
P (z) (z − zm )
H(z) = = A Qm=1
N
. (III.4)
Q(z) n=1 (z − pn )
0

Les N0 zéros de Q(z) et les M0 zéros de P (z) définissent les pôles et les zéros finis de H(z).
Dans le cas d’un filtre réel, ces pôles et ces zéros sont réels ou deux à deux conjugués.
— Lorsque M0 est supérieur à N0 , H(z) admet également M0 − N0 pôles à l’infini.
— Lorsque N0 est supérieur à M0 , H(z) admet également N0 − M0 zéros à l’infini.
L’expression de H(z), fonction de la variable complexe, est holomorphe en tout point sauf
en ses N0 pôles. Elle admet un développement en série de Laurent différent en chaque couronne
du type {z/|z|∈ ]R1 , R2 [}, où R1 et R2 sont les modules de deux pôles « successifs » (i.e.,
consécutifs dans la liste des pôles rangés par module croissant), c’est-à-dire qu’en chacune de ces
régions on peut calculer une réponse impulsionnelle d’un filtre décrit par les équations (III.2).
Notons que l’existence de plusieurs filtres associés à l’équation (III.2) ne doit pas surprendre :
elle est le pendant du choix des conditions initiales dans l’équation différentielle. Tous ces filtres
sont appelés filtres rationnels.
Étudions maintenant à quelles conditions on peut trouver des filtres causaux et des filtres
stables à partir de H(z).
— La causalité correspond à une région de convergence du type {z/|z|∈]R1 , +∞[}. Dans
le cas où il existe des pôles à l’infini, aucune région de convergence de ce type ne peut être
associée à H(z), il n’existe pas de filtre causal. Dans le cas contraire où il n’y a pas de pôle à
l’infini,
© c’est-à-dire ªque N0 est supérieur ou égal à M0 , alors le filtre correspondant à la RDC
z/|z|∈]Rmax , +∞[ , où Rmax est le plus grand des modules des pôles de H(z), est causal.
— La stabilité correspond à l’appartenance du cercle unité à la RDC. Il est clair que tant
que la fonction de transfert H(z) ne possède pas de pôles sur le cercle unité, il est possible de
trouver une RDC contenant celui-ci : le filtre obtenu sur cette région est stable.
— Pour être réalisable il faut réunir les deux conditions précédentes (RDC du type {z/
|z|∈]R1 , +∞[} contenant le cercle unité) : il faut et il suffit que tous les pôles de H(z) soient à
l’intérieur du cercle unité.
On appelle filtre dynamique un filtre réalisable dont la fonction de transfert est une fraction
rationnelle. L’étude du comportement en fréquence d’un filtre dynamique, c’est-à-dire l’étude en
phase et module de la transmittance H(e e 2iπν ), peut être trouvée dans de nombreux ouvrages de
référence plus détaillés que ces notes de cours.
Un filtre dynamique est à phase minimale ou à déphasage minimal si son inverse stable (i.e.,
le filtre associé à H −1 (z) développée sur le cercle unité) est lui aussi réalisable.

Pour qu’il existe un filtre à phase minimale associé à H(z), il faut qu’il existe :
– un filtre causal associé à H(z) donc que la fonction n’admette aucun pôle à l’infini donc
que N0 soit supérieur ou égal à M0 ;
III.1 Introduction 39

– un filtre causal associé à H −1 (z) donc que la fonctionH(z) n’admette aucun zéro à l’infini
donc que N0 soit inférieur ou égal à M0 .
De plus, pour assurer la causalité du filtre et de son inverse, tout en préservant la stabilité, les
pôles et les zéros de H(z) doivent se trouver à l’intérieur du cercle unité.

En résumé, il existera un filtre à phase minimale associé à H(z), si il existe autant de pôles
que de zéros, tous situés à l’intérieur du cercle unité.
Résumons l’emboı̂tement des propriétés et leurs appellations usuelles :
¾
causal ¾
= réalisable ¾
stable = dynamique
rationnel = à phase minimale.
d’inverse réalisable

Examinons maintenant deux cas particuliers importants de filtres rationnels, éventuellement


réalisables.

III.1.5 Filtres à Réponse Impulsionnelle Finie (RIF)


Ces filtres sont également dénommés filtres transverses. C’est le cas particulier de (III.4)
obtenu pour Q(z) = z M . L’équation d’entrée-sortie s’écrit alors :
M
X
yk = bm xk−m . (III.5)
m=0

On constate que la réponse impulsionnelle de ce filtre est simplement égale à la suite des co-
efficients bm pour m = 0, . . . , M , prolongée à gauche et à droite par des zéros. C’est pourquoi
on parle de filtre à réponse impulsionnelle finie. La fonction de transfert étant réduite à un
polynôme en z −1 , on peut l’écrire
M
1 X
H(z) = M bM −m z m (III.6)
z
m=0

et il n’y a pas de problème de choix de RDC puisque tous les pôles sont réunis en zéro. Par
contre ce filtre n’est à phase minimale que si les zéros de H(z) sont à l’intérieur du cercle unité.

III.1.6 Filtres Tous Pôles (FTP)


Ce type de filtre est également dénommé filtre récursif. C’est le cas particulier de (III.4)
obtenu pour P (z) = z N . L’équation d’entrée-sortie s’écrit alors :
N
X
an yk−n = xk , (III.7)
n=0

et la fonction de transfert se réduit à :


zN
H(z) = PN . (III.8)
n
n=0 aN −n z

Le filtre est réalisable si tous les pôles sont dans le cercle unité. Il est alors aussi à phase minimale.
La causalité du filtre se traduit par la possibilité de calculer récursivement la sortie {yk } sous
la forme suivante, déduite de (III.7) en supposant a0 6= 0 :
X an N
1
yk = xk − yk−n .
a0 a0
n=1
40 Filtres numériques

III.2 Exemples de filtres


III.2.1 Retard
Soit la relation entrée-sortie entre {xk } et {yk } définie par
yk = xk−n . (III.9)
Cette relation peut être obtenue en filtrant le signal d’entrée {xk } par le filtre homogène de
réponse impulsionnelle {hk } : ½
1 si k = n,
hk =
0 sinon
qui a pour fonction de transfert
H(z) = z −n
et pour transmittance
e
H(ν) = e−2iπνn .

III.2.2 Lissage
On considère le filtre défini par la relation d’entrée-sortie où {xk } est le signal d’entrée stable
et {yk } le signal de sortie
XN
yk = xk−n . (III.10)
m=−N
Ce filtre a pour réponse impulsionnelle
½
1 si − N 6 k 6 N,
hk =
0 sinon.
Sa transmittance est alors
e sin (2N + 1)πν
H(ν) = .
sin πν
La figure III.2 présente la réponse impulsionnelle et la réponse fréquentielle d’un tel filtre
pour N = 6. Le filtre ainsi défini est stable mais non causal. Pour le rendre causal, on introduit
un retard de N échantillons et la relation (III.10) devient
2N
X
yk = xk−n .
n=0

III.2.3 Filtre récursif d’ordre 1


Soit un signal réel numérique discret stable {xk } et le signal de sortie {yk } réel défini par la
relation de récurrence
yk = λ yk−1 + µ xk ∀k∈Z, λ, µ∈R (III.11)
Les transformées en z associées sont obtenues en multipliant les deux membres de l’équation par
z −k et en effectuant la somme pour z∈ Z. On obtient ainsi
µ
Y (z) = H(z)X(z) = X(z).
1 − λ z −1
Le signal de sortie yk est donc obtenu par filtrage du signal d’entrée xk par le filtre numérique
H(z) dont la transformée en z s’écrit
µ µz
H(z) = −1
= . (III.12)
1 − λz z−λ
Ce filtre est dénommé filtre récursif d’ordre 1.
III.2 Exemples de filtres 41

Réponse impulsionnelle Réponse fréquentielle


2 20

15
1.5
Amplitude

Amplitude
10
1
5

0.5
0

0 -5
-10 -5 0 5 10 -0.5 0 0.5
Nombre d'échantillons Fréquence

Fig. III.2. Réponse impulsionnelle et fréquentielle d’un filtre lisseur. Le filtre est de type passe-bas.

Stabilité du filtre

Le filtre H(z) est stable et causal si et seulement si |λ| < 1. Dans ce cas, sa réponse impul-
sionnelle est définie par
hk = µ λk , ∀k∈N.
Sa transmittance est
e µ
H(ν) = .
1 − λ e−2iπν
qui a pour module
e |µ|
|H(ν)| =√
1 + λ2 − 2λ cos 2πν
La figure III.3 présente ce module dans l’intervalle [−1/2, 1/2] pour λ = 0,7 et µ = 0,3. Le
filtre récursif est donc de type passe-bas. Il est d’autant plus efficace que λ est voisin de 1
mais il devient alors d’autant moins stable. Pour illustrer cette propriété, la figure présente
le signal de sortie {yk } obtenu en filtrant un signal d’entrée {xk } par H. Afin d’illustrer les
propriétés fréquentielles du filtre, le signal d’entrée doit posséder un spectre couvrant la gamme
de fréquences.
Le signal d’entrée choisi est du type
2
xk = e−atk sin ωtk
où ω varie en fonction du temps sous la forme
ω = 200 sin 100tk .
Le signal ainsi obtenu est stable quel que soit ω et est dit vobulé.

Filtre inverse

Le filtre récursif d’ordre 1 est inversible et admet pour filtre inverse le filtre K de transformée
en z
z−λ
K(z) = .
µz
Il existe un pôle simple situé à l’origine. Le filtre K est donc stable et a pour réponse impulsion-
nelle {kn },
1 λ
k0 = , k1 = − , ∀n > 2, kn = 0.
µ µ
42 Filtres numériques

Réponse fréquentielle
1
Amplitude

0.5

0
-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5
Fréquence

Signal d'entrée x(t) Signal de sortie y(t)


5 5
Amplitude

Amplitude
0 0

-5 -5
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
Temps Temps

Représentation fréquentielle de x Représentation fréquentielle de y


20 20
Amplitude

Amplitude

10 10

0 0
-0.5 0 0.5 -0.5 0 0.5
Fréquence Fréquence

Fig. III.3. Représentation temps-fréquence d’un signal vobulé filtré par un filtre AR d’ordre 1.

Le signal {xk } peut être obtenu par filtrage de {yk } par K, ce qui s’écrit

1 λ
xk = yk − yk−1 , ∀k ∈ N.
µ µ

Le filtre K effectue une moyenne glissante sur {yk } pour produire le signal {xk }. Il est de
type passe-haut puisque le filtre récursif d’ordre 1, H, est de type passe-bas.
La figure III.4 présente la réponse fréquentielle du filtre inverse du filtre H défini précé-
demment. L’évolution du signal de sortie {yk } obtenu par filtrage d’un signal d’entrée {xk } de
caractéristiques analogues à celles du filtre H illustre les variations en fréquence correspondantes.

III.2.4 Filtre récursif d’ordre 2


Soit un signal numérique discret stable {xk } et le signal de sortie {yk } défini par la relation
de récurrence
yk = λ1 yk−1 + λ2 yk−2 + µ xk , ∀ k ∈ Z, λ1 , λ2 , µ∈R. (III.13)
Par un processus analogue à celui exposé au paragraphe précédent, on montre que le signal de
sortie {yk } est obtenu par filtrage du signal d’entrée {xk } par le filtre numérique H(z) défini par
III.2 Exemples de filtres 43

Réponse fréquentielle
10
Amplitude

0
-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5
Fréquence

Signal d'entrée x(t) Signal de sortie y(t)


10 10
Amplitude

Amplitude
0 0

-10 -10
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
Temps Temps

Représentation fréquentielle de x Représentation fréquentielle de y


40 40
Amplitude

Amplitude

20 20

0 0
-0.5 0 0.5 -0.5 0 0.5
Fréquence Fréquence

Fig. III.4. Représentation temps-fréquence d’un signal vobulé filtré par le filtre inverse.

µ z2
H(z) = . (III.14)
z 2 − λ1 z − λ2
Ce filtre est dénommé filtre récursif d’ordre 2. Nous nous limiterons par la suite au cas où les
pôles de H sont complexes conjugués. En effet, si les pôles de H sont réels, ce filtre peut être
représenté sous la forme de la somme de deux filtres récursifs d’ordre 1 que nous venons d’étudier.
Dans le cas présent, H est un filtre dynamique si et seulement si |λ2 | < 1. Soient z0 et
z̄0 les pôles de H, qui s’expriment sous la forme z0 = reiθ , z̄0 = re−iθ , ce qui implique λ1 =
2r cos(θ), λ2 = −r2 . La réponse impulsionnelle du filtre H est alors définie par

sin(n + 1)θ
hn = µrn , ∀n∈N.
sin θ
Sa transmittance est
e µ
H(ν) =
1 − λ1 e−2iπν − λ2 e−4iπν
qui a pour module

|µ|
|H(e2iπν )| = p .
(1 + r2 − 2 cos(θ − 2πν)) (1 + r2 − 2 cos(θ + 2πν))
44 Filtres numériques

Ce module passe par des extréma pour ν = 0 et ν = ±1/2. De plus, on peut montrer que si on a
la condition | cos θ| < 2r/(1 + r2 ), il existe un maximum pour la fréquence ν = ±ν0 donnée par

1 + r2
cos 2πν0 = cos θ
2r
et le maximum est égal à
|µ| 1
√ .
1 − r2 1 − cos2 θ
La fréquence ν0 est dite fréquence de résonance du filtre.
La figure III.5 présente le module d’un tel filtre dans l’intervalle [−1/2, 1/2] pour λ1 =
1, 5, λ2 = −0, 7 et µ = 0, 13. La fréquence de résonance associée est ν0 = 0, 07. L’évolution en
temps et en fréquence du signal de sortie {yk } obtenu par filtrage d’un signal d’entrée vobulé
{xk } illustre les propriétés fréquentielles d’un tel filtre.

Réponse fréquentielle
1
Amplitude

0.5

0
-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5
Fréquence

Signal d'entrée x(t) Signal de sortie y(t)


5 5
Amplitude

Amplitude

0 0

-5 -5
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
Temps Temps

Représentation fréquentielle de x Représentation fréquentielle de y


40 40
Amplitude

Amplitude

20 20

0 0
-0.5 0 0.5 -0.5 0 0.5
Fréquence Fréquence

Fig. III.5. Représentation temps-fréquence d’un signal vobulé filtré par un filtre AR d’ordre 2.
III.2 Exemples de filtres 45

Filtre inverse

Le filtre récursif d’ordre 2 est inversible et admet pour filtre inverse le filtre K de transformée
en z
z 2 − λ1 z − λ2 z
K(z) = .
µ z2
Il existe un pôle double situé à l’origine. Le filtre K est donc stable et a pour réponse impul-
sionnelle {kn },
1 λ1 λ2
k0 = , k1 = − , k2 = − , ∀n > 3, kn = 0.
µ µ µ
Le signal {xk } peut être obtenu par filtrage de {yk } par K, ce qui s’écrit

1 λ1 λ2
xk = yk − yk−1 − yk−2 , ∀k∈N.
µ µ µ
Le filtre K est donc un filtre RIF d’ordre 3.
La figure III.6 présente le module du filtre K inverse du filtre H présenté précédemment.
L’évolution en temps et en fréquence du signal de sortie {yk } obtenu par filtrage d’un signal
d’entrée vobulé {xk } illustre les propriétés fréquentielles d’un tel filtre.

Réponse fréquentielle
30
Amplitude

20
10
0
-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5
Fréquence

Signal d'entrée x(t) Signal de sortie y(t)


10 10
Amplitude

Amplitude

0 0

-10 -10
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
Temps Temps

Représentation fréquentielle de x Représentation fréquentielle de y


Amplitude

Amplitude

50 50

0 0
-0.5 0 0.5 -0.5 0 0.5
Fréquence Fréquence

Fig. III.6. Représentation temps-fréquence d’un signal vobulé filtré par le filtre inverse.
46
47

Chapitre IV

Événements, variables et vecteurs


aléatoires

IV.1 Introduction
Comme on l’a vu dans les chapitres précédents, les signaux déterministes permettent de
modéliser des phénomènes limités dans le temps, ou bien périodiques, oscillatoires amortis...
De nombreux phénomènes physiques présentent des fluctuations permanentes non périodiques,
non amorties, mais qui manifestent pourtant un certain degré de « régularité ». Par exemple,
la météorologie est fondée sur l’analyse de signaux de pluviométrie, d’ensoleillement... , qui
présentent un caractère pseudo-périodique (saisons, alternance jour-nuit, cycle des marées...),
mais dont la partie « utile » est noyée dans un ensemble de « perturbations » d’origines diverses
et de forme irrégulière. Les signaux déterministes étudiés dans les chapitres précédents sont
trop limités pour intégrer facilement de telles caractéristiques, tandis que les modèles aléatoires
fournissent un cadre mathématique plus adapté.
La modélisation aléatoire des signaux est présentée au chapitre V, uniquement à temps discret
par souci de simplicité ; cette présentation est largement suffisante dans le cadre d’un cours sur
le traitement numérique du signal. Certaines notions concernant les signaux aléatoires à temps
continu (ou encore, processus stochastiques) sont présentées dans [7].
Le présent chapitre est consacré à la théorie des probabilités, sur laquelle repose la modé-
lisation aléatoire des signaux. Pour commencer, on rappelle le vocabulaire de la théorie de la
mesure, essentielle dans la suite puisqu’une probabilité est un cas particulier de mesure finie et
une variable aléatoire, un cas particulier d’application mesurable. Dans les sections suivantes,
on introduit successivement les variables puis les vecteurs aléatoires.

IV.2 Intégration et probabilités


IV.2.1 Espaces et applications mesurables
On appelle espace mesurable (Ω, F) le couple formé d’un ensemble Ω et d’une tribu F,
c’est-à-dire une famille de parties de Ω vérifiant :
(i) Ω ∈ F,
(ii) la stabilité par complémentation : ∀A ∈ F, Ac ∈ F,
(iii) la stabilité par union dénombrable : pour toute famille dénombrable {Ai ∈ F, i ∈ I},
on a (∪I Ai ) ∈ F.
On déduit facilement de (i)-(ii) que ∅ ∈ F et de (ii)-(iii) que F est stable par intersection
48 Événements, variables et vecteurs aléatoires

dénombrable.
Pour toute famille C de parties de Ω, on peut définir la tribu engendrée par C comme la plus
petite tribu contenant C. Ainsi, on munit généralement Rd de la tribu B d des boréliens, qui est
la tribu engendrée par les pavés ouverts.
Soient (Ω, F) et (E, A) deux espaces mesurables. On appelle application mesurable toute
application X de (Ω, F) dans (E, A) telle que ∀A ∈ A, X −1 (A) ∈ F.

IV.2.2 Notion de mesure


Mesure sur (Ω, F)

On appelle mesure sur un espace mesurable (Ω, F) toute application µ de F dans R+ qui
possède la propriété de σ-additivité, c’est-à-dire que pour toute famille dénombrable {Ai , i ∈ I}
d’éléments deux à deux disjoints de F, on a
X
µ(∪I Ai ) = µ(Ai ). (IV.1)
I

Le triplet (Ω, F, µ) s’appelle un espace mesuré.


Soit (Ω, F, µ) un espace mesuré et X une application mesurable de (Ω, F) dans (E, A). X
permet de construire sur (E, A) une mesure notée µX définie par :

∀A ∈ A, µX (A) = µ(X −1 (A)).

La mesure µX est appelée mesure image de µ par X.

µ-négligeable, µ-presque partout

Une partie de Ω est dite µ-négligeable si elle est incluse dans un élément de mesure nulle de
la tribu F. Une fonction sur Ω est dite µ-négligeable si elle est nulle en dehors d’un ensemble
µ-négligeable.
Une propriété sur les points de E est dite vraie µ-presque partout (µ-p.p.) si elle est vraie pour
tous les points de E exceptés ceux d’un ensemble µ-négligeable. En particulier, deux fonctions
sur Ω sont égales µ-p.p. si elles sont égales en dehors d’un ensemble négligeable.

Mesure de Lebesgue sur Rd

On montre qu’il existe une mesure σ-finie unique µ0 sur (Rd , B d ) telle que
µY
d ¶ Yd
µ0 [ai , bi ] = (bi − ai ), ∀ai < bi , 1 6 i 6 d.
i=1 i=1

Cette mesure est appelée mesure de Lebesgue sur (Rd , Bd ). Sur R, elle mesure les longueurs, sur
R2 , les surfaces etc.

IV.2.3 Probabilités, événements


Vocabulaire

P est une mesure de probabilité, ou encore une probabilité sur (Ω, F), si c’est une mesure telle
que P (Ω) = 1. Le triplet (Ω, F, P ) constitue alors un espace probabilisé. En langage probabiliste,
IV.2 Intégration et probabilités 49

tout élément de F est appelé événement 1 . Une conjonction d’événements s’écrit indifféremment
A ∩ B = A.B = AB = (A et B) = (A, B). Pour une propriété vraie P -p.p, on dit plutôt presque
sûrement (p.s.). Enfin, les éléments de Ω sont appelés des épreuves.

Qu’est-ce que le hasard ?

Dans une interprétation classique de la notion de hasard, chaque épreuve ω est le résultat
possible d’une « expérience aléatoire » , au cours de laquelle tout événement A est réalisé si
ω ∈ A. Dans ce contexte formel, P (A) désigne le taux de réalisation de A quand on répète
l’expérience un grand nombre de fois.
Cette interprétation permet de guider l’intuition, mais il faut reconnaı̂tre qu’elle ne constitue
pas une définition mathématique de la notion d’« expérience aléatoire » ou de « tirage aléatoire ».
En fait la théorie des probabilités ne dit rien sur la notion de hasard, ni sur la façon de le générer,
ni sur la façon de l’authentifier. D’où l’utilisation récurrente de guillemets dans ce cours pour
signaler des expressions faisant appel à l’intuition plutôt qu’à un concept précis.
A cet égard, on peut citer l’exemple de l’écriture décimale de nombres transcendants tels
que π, qui a toutes les apparences de la suite des épreuves d’une expérience consistant à tirer
un chiffre « au hasard », alors que le sens commun n’y voit qu’une succession déterministe. A
l’inverse, on a l’habitude d’accorder à une suite de pile ou face un caractère aléatoire, bien qu’on
admette qu’une pièce de monnaie respecte les équations déterministes de la physique classique.

Événements indépendants

Deux événements A et B sont dits indépendants si P (A.B) = P (A) P (B). Plus généralement,
A1 , A2 , . . . , AI sont indépendants dans leur ensemble si

∀i, j, . . . , r (différents entre eux) , P (Ai .Aj . . . . .Ar ) = P (Ai ) P (Aj ) . . . P (Ar ).

Des événements indépendants deux à deux ne le sont pas nécessairement dans leur ensemble (il
est facile de vérifier que le contraire est vrai).

Probabilités conditionnelles

Soient deux événements A et B tels que P (B) > 0. La probabilité conditionnelle de A sachant
B est définie par
P (A.B)
P (A | B) = . (IV.2)
P (B)
Notons que l’indépendance de A et B équivaut à P (A | B) = P (A) quand P (B) > 0.
La probabilité conditionnelle est en fait une nouvelle mesure de probabilité définie sur l’espace
probabilisé (B, FB ), où FB est une tribu sur B : FB = {A.B, A ∈ F}.
Par récurrence sur (IV.2), ∀A1 , A2 , . . . , AI ∈ F I , on a

P (A1 .A2 . . . . .AI ) = P (A1 ) P (A2 | A1 ) P (A3 | A1 .A2 ) . . . P (AI | A1 . . . . .AI−1 ).

Soit {Ai , i ∈ I} une partition de Ω constituée d’événements, et soit B un événement tel que
P (B) > 0. Alors {Ai .B, i ∈ I} est une partition de B en événements (de FB ). De (IV.1) et
(IV.2), on déduit alors la règle des causes totales :
I
X I
X
P (B) = P (B.Ai ) = P (Ai ) P (B | Ai )
i=1 i=1
1
Remarquer l’accent aigu : événement...
50 Événements, variables et vecteurs aléatoires

ainsi que la formule de Bayes :

P (Aj .B) P (Aj ) P (B | Aj )


P (Aj | B) = = PI .
P (B) i=1 P (A i ) P (B | Ai )

IV.3 Variables aléatoires


Dans toute la suite, on se place dans le cas d’un espace probabilisé (Ω, F, P ).

IV.3.1 Variables aléatoires


Définition

On appelle variable aléatoire(v.a.) toute application mesurable X sur un espace probabilisé


(Ω, F, P ). L’image par X d’une épreuve ω, X(ω), est appelée une réalisation de X. La mesure
image de P par X, notée PX , est appelée loi de X.
La distinction faite entre une variable aléatoire et sa loi paraı̂t sans objet lorsqu’on utilise
une seule variable aléatoire X, car on s’intéresse à la probabilité d’apparition des différentes
réalisations de X et il est inutile de distinguer quelles épreuves donnent telles ou telles réalisations
de X. Autrement dit, tout ce qui nous est utile au sujet de X est contenu dans sa loi. Mais dans
la plupart des problèmes on a affaire à plusieurs variables aléatoires définies sur le même espace
de probabilité et on s’intéresse entre autres aux relations qui existent entre ces variables. Il est
alors tout à fait essentiel de bien voir que des variables aléatoires peuvent avoir la même loi sans
être égales. Insistons encore sur le fait que lorsqu’on a deux v.a., par exemple à valeurs réelles,
X1 et X2 , dont on connaı̂t seulement pour chacune la loi, on ne peut rien dire en général sur les
v.a. X1 + X2 , min(X1 , X2 )... tant qu’on n’a pas défini précisément les v.a. X1 et X2 , ou bien
seulement la loi du couple (X1 , X2 ) conformément au paragraphe IV.3.3.

Existence

Le paragraphe IV.3.2 est consacré à la caractérisation de v.a. réelles. Réciproquement, les


problèmes d’existence de v.a. de loi donnée (et plus généralement de processus aléatoires de
loi donnée) sont liés à des problèmes fondamentaux d’existence et de construction de mesures,
qui sont résolus par des théorèmes de théorie de la mesure dépassant largement le cadre de
ce cours. On peut dire simplement que ces théorèmes (en particulier les théorèmes d’extension
de Hopf et de Kolmogorov [5]) permettent de construire des mesures et de probabiliser des
espaces mesurables tels que (RN , B ⊗N ) et même (RR , B ⊗R ), suffisamment vastes pour permettre
la construction d’autant de variables aléatoires puis d’autant de signaux aléatoires qu’on le
souhaite. C’est pourquoi en pratique, on laisse en suspens la spécification de l’espace d’épreuves
Ω, de sa tribu F et de la probabilité « générique » P , en supposant que (Ω, F, P ) est assez vaste
pour engendrer simultanément tous les modèles nécessaires.

IV.3.2 Variables aléatoires réelles


Définition

Le cas particulier des v.a. réelles (v.a.r.) désigne les applications mesurables X à valeurs
dans l’espace (R, B). Les v.a.r. sont les modèles les plus courants pour décrire des grandeurs
« incertaines ». Les v.a. à valeurs complexes sont également utiles ; on peut les considérer comme
des couples de v.a.r. (voir le paragraphe IV.3.4).
IV.3 Variables aléatoires 51

Première caractérisation de la loi d’une v.a.r. : fonction de répartition

La loi d’une v.a.r. X est donc une mesure de probabilité sur les boréliens de R. En particulier,
elle permet de calculer la probabilité de tous les événements de la forme {ω, X(ω) 6 x), abrégés
en (X 6 x). Réciproquement, comme les demi-droites ] − ∞, x] génèrent les boréliens de R, on
obtient la caractérisation suivante :

La loi d’une v.a.r. X est entièrement caractérisée par la fonction de répartition de


X, croissante entre 0 et 1 et continue à droite :

FX (x) = P (X 6 x).

On en déduit par exemple P (a < X 6 b) = FX (b) − FX (a).


Selon les caractéristiques de la fonction de répartition FX (x), on distingue principalement
deux types « classiques » de v.a.r. Ces deux types, variables à densité et variables discrètes, ne
recouvrent pas l’ensemble des v.a.r., mais correspondent à un très grand nombre de situations.

Variables aléatoires discrètes

Dans le cas de v.a. discrètes, X prend un nombre P fini ou dénombrable de valeurs xi avec
les probabilités P (X = xi ) = pi , où nécessairement i pi = 1. Il s’agit en particulier des v.a.r.
construites par dénombrement (xi ∈ N). Dans ces conditions, FX est la fonction en escalier :
X
FX (x) = pi ,
6
i : xi x

et par conséquent la donnée des pi (et des xi ) caractérise la loi de X.

Variables aléatoires à densité

La loi de X est dite à densité s’il existe une fonction fX (x) > 0, dx-intégrable, telle que pour
tout réel x : Z x
FX (x) = fX (s) ds. (IV.3)
−∞
La fonction fX (x) est appelée densité de probabilité de la variable aléatoire X. Une condition
suffisante pour que X admette une densité est que FX (x) soit continûment dérivable pour tout
x. Dans ce cas, (IV.3) montre que la densité caractérise la loi de X.
Remarque. Il ne faut pas confondre la densité de probabilité fX (x) avec la mesure de proba-
bilité d’un événement du type (X = x). Par exemple, dans le cas d’un espace Ω = [0, 1] muni de
sa tribu borélienne et de la mesure de Lebesgue, la v.a.r. X(ω) = cos πω admet une densité de
probabilité (
√1 pour x ∈] − 1, 1[,
fX (x) = π 1−x2
0 ailleurs.
En effet,

FX (x) = P (X 6 x),
= P (ω > arccos(x))/π ∀x ∈] − 1, 1[,
= 1 − arccos(x)/π.

Cette fonction de répartition FX (x) est continûment dérivable sur ] − 1, 1[ ; sa dérivée est
la densité de probabilité fX (x) ci-dessus. Il est facile de voir que fX (x) prend des valeurs arbi-
trairement grandes quand x se rapproche des extrémités de l’intervalle ] − 1, 1[, ce qui n’est pas
52 Événements, variables et vecteurs aléatoires

1.5 1
0.8
1 0.6
0.4
0.5 0.2
0
0
−1 −0.5 0 0.5 1 −1 −0.5 0 0.5 1

Fig. IV.1. Densité de probabilité (à gauche) et fonction de répartition (à droite) d’une variable
aléatoire (voir texte)

incompatible avec le fait que tout événement (X = x) est de probabilité nulle (y compris pour
x = ±1).

Changement de variable

Bien souvent il faut calculer la densité de probabilité d’une variable aléatoire réelle Y définie
comme la transformation Y = g(X) d’une autre v.a.r. X dont la densité fX est connue. Ce genre
de problème peut souvent être résolu par de simples manipulations des fonctions de répartition
de Y et X, et non pas directement des densités. Prenons un exemple : soit X une v.a. de fonction
de répartition FX bijective. Calculons la loi de la v.a. Y = FX (X). Il est clair que Y est à valeurs
dans l’intervalle [0, 1] et pour y ∈ [0, 1], il vient :

FY (y) = P (Y 6 y) = P (X 6 FX−1 (y)) = FX (FX−1 (y)) = y.

Donc Y est uniformément répartie sur [0, 1]. Cet exemple est intéressant car il fournit un moyen
de tirer « au hasard » des nombres suivant la loi de X à l’aide d’un simple générateur de
nombres pseudo-aléatoires suivant la loi uniforme sur [0, 1] (c’est la fonction rand disponible sur
de nombreux calculateurs). Le calcul précédent montre qu’il suffit d’appet nliquer aux nombres
générés par rand la fonction FX−1 pour obtenir des nombres distribués suivant la loi de X.
Pour en revenir aux changements de variable, il existe sous certaines conditions de régularité
sur la transformation Y = g(X) une formule plus générale de changement de variable qui sera
donnée dans le cas vectoriel au paragraphe IV.5.2

IV.3.3 Espérance mathématique


Définition
R
Pour toute v.a.r. X P -intégrable ( Ω |X(ω)| dP (ω) < +∞), on définit l’espérance mathéma-
tique par :
Z Z

E(X) = X(ω) dP (ω) = x dPX (x) (IV.4)
Ω R

L’espérance mathématique est un réel qui correspond à une moyenne de la v.a.r. X sur l’ensemble
des épreuves ω, pondérée par la probabilité dP (ω). La deuxième égalité traduit l’intégration pour
la mesure image. Pour des v.a.r., on peut noter indifféremment le terme dPX (x) sous la forme
dFX (x), notation qu’on adopte dans la suite.
— Dans le cas de variables discrètes, on obtient pour l’espérance une forme classique de
IV.3 Variables aléatoires 53

moyenne pondérée par la probabilité des événements :


X
E(X) = pi xi .
i

— Si la loi de X est à densité fX (x), on peut remplacer dFX (x) par fX (x) dx et se ramener
ainsi aux notations classiques de l’intégration de fonctions de R sur R par rapport à la mesure
de Lebesgue : Z Z
E(X) = x dFX (x) = xfX (x) dx.
R R
L’espérance mathématique, lorsqu’elle est définie, possède les propriétés de linéarité et de mo-
notonie (X 6 Y P -p.s.⇒ E(X) 6 E(Y )) de l’intégrale de Lebesgue.
La définition (IV.4) permet aussi d’exprimer, quand elle existe, l’espérance d’une v.a. ϕ(X)
fonction d’une autre v.a. X, sous la forme
Z Z
E(ϕ(X)) = ϕ(X(ω)) dP (ω) = ϕ(x) dFX (x). (IV.5)
Ω R

Deuxième caractérisation de la loi d’une v.a.r. : fonction caractéristique

Pour toute v.a.r. X et tout u ∈ R, on peut définir la quantité complexe E(eiuX ), intégrale
absolument convergente :

La fonction caractéristique de X est l’application ΦX définie de R dans C par


Z
∆ iuX
u→ΦX (u) = E(e ) = eiux dFX (x).
R

Dans le langage de l’intégration, cette fonction est (à une affinité u = −2πν près) la transfor-
mée de Fourier de la mesure de X. La transformée de Fourier des mesures étant injective, il suffit
de connaı̂tre la fonction caractéristique de X pour connaı̂tre la loi de X. Comme la fonction de
répartition, la fonction caractéristique permet donc de caractériser la loi d’une v.a.r. (d’où son
nom).

Variable aléatoire et moments d’ordre p

La v.a.r X est dite d’ordre p, entier positif, si


Z Z
E(|X|p ) = |X(ω)|p dP (ω) = |x|p dFX (x) < +∞.
Ω R

On peut alors définir mp = E(X p ) appelé moment d’ordre p de la variable aléatoire X.


On définit les espaces Lp (Ω, F, P ), p > 1, comme les ensembles des classes d’équivalence des
fonctions X égales P -p.p. et telles que |X|p est intégrable. La norme k·kp définie par kXkp =
(E(|X|p ))1/p confère aux espaces Lp (Ω, F, µ) une structure de Banach. L’existence du moment
d’ordre p entraı̂ne celle de tous les moments d’ordre inférieur, du fait de l’emboı̂tement des
espaces Lp (Ω, F, P ) :

L1 (Ω, F, P ) ⊇ L2 (Ω, F, P ) ⊇ . . . ⊇ Lp (Ω, F, P ) ⊇ . . . ⊇ L∞ (Ω, F, P ).

A la section IV.6, nous étudierons plus en détail le cas de L2 (Ω, F, P ), qui possède la structure
d’un espace de Hilbert.
54 Événements, variables et vecteurs aléatoires

Lien entre la fonction caractéristique et les moments d’une v.a.r.

L’existence des moments jusqu’à l’ordre p est liée à la régularité en zéro de la fonction caracté-
ristique : si une variable aléatoire possède un moment d’ordre p, alors sa fonction caractéristique
est p fois dérivable. Par identification du développement de Taylor-Mac Laurin à l’ordre p, on
trouve
(p)
ΦX (0) = ip mp .
Réciproquement, la dérivabilité d’ordre p de ΦX en 0 entraı̂ne l’existence de moments d’ordre
p − 1 (et même d’ordre p si p est pair). En pratique, la fonction caractéristique est donc un outil
très puissant pour calculer la suite des moments d’une variable aléatoire, s’ils existent.
Avec les mêmes conditions d’existence que celles des moments, on définit aussi les moments
centrés mcp = E((X − m1 )p ). Le cas des variables d’ordre deux donne lieu à des appellations
spécifiques :

Moyenne : m = E(X) = m1
Variance : var (X) 2 2 2 2
p = mc2 = E((X − m) ) = E(X ) − E(X) = m2 − m
Écart-type : σ = var (X)

Variable aléatoire gaussienne

Une variable aléatoire obéit à la loi de Gauss N (m, σ 2 ) si sa densité de probabilité est de la
forme ³ (x − m)2 ´
1
fX (x) = √ exp − .
2πσ 2 2σ 2
On vérifie qu’une telle variable est du second ordre, de moyenne m et d’écart-type σ. La variable
est dite réduite si m = 0 et σ = 1. La fonction caractéristique associée à une variable aléatoire
gaussienne est de la forme
³ ´
u2 σ 2
ΦX (u) = exp imu − .
2

IV.4 Couple de variables aléatoires réelles


IV.4.1 Caractérisation et propriétés
Fonction de répartition

Soient X et Y deux v.a.r. La loi du couple (X, Y ) est une probabilité sur R2 qui peut être
caractérisée par la fonction de répartition

FXY (x, y) = P (X 6 x, Y 6 y).

Étant donné la loi du couple (X, Y ), on déduit les lois marginales de X et de Y par les fonctions
de répartition
FX (x) = lim FXY (x, y) et FY (y) = lim FXY (x, y).
y→+∞ x→+∞

Mais il est clair que la donnée des lois marginales de X et de Y ne suffit pas à reconstituer la
loi jointe de (X, Y ).
IV.4 Couple de variables aléatoires réelles 55

Densité

La loi de (X, Y ) est à densité s’il existe une fonction fXY (x, y) > 0, intégrable, telle que
pour tout couple (x, y) de réels :
Z x Z y
FXY (x, y) = fXY (s, t) ds dt.
−∞ −∞

Si la fonction de répartition FXY est deux fois continûment différentiable, la densité de proba-
bilité du couple (X, Y ) est définie par

∂ 2 FXY
fXY (x, y) = (x, y).
∂x∂y
On peut alors vérifier que les lois marginales sont à densité, et que les densités marginales de X
et de Y s’écrivent :
Z +∞ Z +∞
fX (x) = fXY (x, y) dy et fY (y) = fXY (x, y) dx.
−∞ −∞

Fonction caractéristique

La notion de fonction caractéristique se généralise également :


Z
i(uX+vY )
ΦXY (u, v) = E(e )= ei(ux+vy) dFXY (x, y) ;
R2

les fonctions caractéristiques marginales sont évidemment ΦXY (u, 0) et ΦXY (0, v).

Variables indépendantes

Les v.a.r. X et Y sont dites indépendantes ssi ∀(A, B) ∈ B2 , les événements {X(ω) ∈ A} et
{Y (ω) ∈ B} sont indépendants. Mais cette condition est malcommode. Une condition équivalente
est la séparabilité de la fonction de répartition FXY (x, y) = FX (x)FY (y), ou encore de celle de
la fonction caractéristique ΦXY (u, v) = ΦX (u)ΦY (v). Si (X, Y ) est à densité, alors la condition
d’indépendance s’écrit aussi
fXY (x, y) = fX (x)fY (y).

Espérance

La notion d’espérance définie pour une v.a.r. au paragraphe IV.3.3 se généralise au cas d’un
couple de v.a.r. de façon naturelle :
Z Z
E(X, Y ) = (x, y) dFXY (x, y)
R R
µZ Z ¶
= xdFX (x), y dFY (y) = (E(X), E(Y )) (Fubini),
R R

c’est-à-dire que l’espérance d’un couple de v.a.r. s’obtient comme le couple des espérances mar-
ginales, pourvu qu’elles existent, que les v.a.r. soient indépendantes ou non.
56 Événements, variables et vecteurs aléatoires

Covariance ou corrélation

Pour X et Y du second ordre, on définit la covariance, appelée également corrélation



cov(X, Y ) = E((X − E(X))(Y − E(Y )))
= E(XY ) − E(X)E(Y ).

D’après l’inégalité de Schwarz dans L2 (Ω, F, P ) démontrée plus loin (§ IV.6), il est facile de
voir que le coefficient de corrélation

∆ cov(X, Y )
ρXY = p
var(X)var(Y )

varie entre −1 (atteint pour X = −Y ) et 1 (pour X = Y ), en passant par le cas de la décorrélation


entre X et Y :
X et Y décorrélées ⇐⇒ cov(X, Y ) = 0. (IV.6)
L’indépendance des composantes d’un couple d’ordre deux implique leur décorrélation, mais la
réciproque est fausse.

IV.4.2 Conditionnement
Définition

La notion de conditionnement d’une variable aléatoire par une autre est très générale et
très utile en statistique, en théorie de l’estimation, en traitement du signal. Mais elle pose des
problèmes de définition inattendus, dont la résolution fait appel à des résultats très puissants de
la théorie des probabilités. Nous nous contenterons ici de présenter cette notion dans deux cas
particuliers : celui des v.a.r. à valeurs discrètes et celui des v.a.r. à densité.
Soit un couple de variables aléatoires discrètes (X, Y ) à valeurs (xi , yj ) dans un sous-ensemble
dénombrable de R2 . Conformément à la définition de la probabilité conditionnelle (IV.2), la loi
de X conditionnellement à Y = yj est entièrement décrite par

P (X = xi , Y = yj )
P (X = xi | Y = yj ) = si P (Y = yj ) > 0, 0 sinon.
P (Y = yj )

Pour chaque yj fixé tel que P (Y = yj ) > 0, P (X = xi | Y = yj ) définit une nouvelle mesure de
probabilité sur {xi }.
Dans le cas d’un couple (X, Y ) de variables aléatoires à densité, on souhaite à nouveau
conditionner les valeurs prises par X par des événements du type (Y = y). Mais dans ce cas, ces
événements sont de mesure nulle et (IV.2) n’est pas applicable. Pour résoudre cette difficulté,
on peut tout d’abord définir

FXY (x, y + dy) − FXY (x, y)


P (X 6 x | y < Y 6 y + dy) = .
FY (y + dy) − FY (y)

Comme (X, Y ) admet une densité, cette quantité converge quand dy tend vers 0 ; la limite définit
la fonction de répartition de X conditionnelle à Y :

∆ 1 ∂FXY
FX|Y (x | y) = (x, y),
fY (y) ∂y

symboliquement,
FX|Y (x | y) = P (X 6 x | Y = y).
IV.5 Vecteurs aléatoires réels 57

Cette fonction de répartition définit une mesure de probabilité à densité. La densité est appelée
densité conditionnelle de X par rapport à Y et notée fX|Y (x | y). En dérivant FX|Y (x | y) par
rapport à x, on obtient :
fXY (x, y)
fX|Y (x | y) = . (IV.7)
fY (y)

Espérance conditionnelle

Plaçons-nous dans le cas d’un couple (X, Y ) de variables aléatoires à densité, et reprenons
les notations du paragraphe précédent. Pour X du premier ordre et pour tout réel y tel que
fY (y) > 0, on définit l’espérance conditionnelle de X sachant Y = y :
Z +∞

EX|Y (X | Y = y) = xfX|Y (x | y) dx,
−∞

qui est une fonction déterministe de y (en cas d’ambiguı̈té, l’indice de l’espérance rappelle la
loi par rapport à laquelle l’intégration est effectuée). L’espérance conditionnelle, en tant qu’opé-
rateur sur la v.a.r. X, possède les propriétés de linéarité et de monotonie de l’intégrale de
Lebesgue. En tant que fonction de y elle permet de définir une variable aléatoire E(X | Y ) qui
est une fonction déterministe de Y .
Remarques :
— Le passage par l’espérance conditionnelle est souvent commode pour calculer une espérance
simple telle que E(ϕ(X, Y ) ), où ϕ est une fonction de R2 dans R PXY -intégrable. En effet, on
a la formule du conditionnement successif :
E(ϕ(X, Y )) = EY (EX|Y (ϕ(X, Y ) | Y )) = EX (EY |X (ϕ(X, Y ) | X)). (IV.8)
Montrons ce résultat dans le cas d’un couple à densité :
Z Z
E(ϕ(X, Y )) = ϕ(x, y)fXY (x, y) dx dy
R
Z ³ZR
´
= ϕ(x, y)fX|Y (x | y) dx fY (y) dy,
R R

d’après (IV.7) et le théorème de Fubini, ce qui correspond à la première égalité dans (IV.8). En
particulier, ce résultat montre que E(X | Y ) est PY −intégrable et que son espérance vaut :
EY (EX|Y (X | Y )) = E(X).

— Si X et Y sont indépendantes on a : EX|Y (X | Y ) = E(X), quantité déterministe.


— Si g est une application mesurable de (R, B, PY )→R : EY |Y (g(Y ) | Y ) = g(Y ).
— On a vu que l’espérance conditionnelle de X sachant Y est linéaire en X ; par contre, en
général, EX|Y (X | Y ) est une fonction non linéaire (et même non affine) de Y.
Le paragraphe IV.6 donne une interprétation « géométrique » fondamentale de l’espérance
conditionnelle dans l’espace de Hilbert L2 (Ω, F, P ).

IV.5 Vecteurs aléatoires réels


IV.5.1 Généralisations
Un vecteur aléatoire réel X est constitué de n v.a.r. X = (X1 , . . . , Xn )t 2 . C’est une ap-
plication mesurable de Ω dans Rn (donc c’est aussi une v.a.). On peut remarquer aussi que si
2
La transposée d’une matrice M est notée ici M t , et non pas t M .
58 Événements, variables et vecteurs aléatoires

Xc est un vecteur aléatoire à valeurs dans Cm , m > 1, Xc peut s’écrire sous la forme Xr + iXi
avec Xr et Xi deux vecteurs aléatoires à valeurs dans Rm . On peut donc identifier C à R2 , Xc
au vecteur aléatoire (Xrt , Xit )t à valeurs dans R2m , et ramener l’étude des vecteurs aléatoires à
valeurs complexes à celle des vecteurs aléatoires réels.
La plupart des notions définies pour des couples de variables aléatoires se généralisent aux
vecteurs aléatoires.
— La fonction de répartition d’un vecteur aléatoire X = (X1 , . . . , Xn )t est une généralisation
de la définition de cette fonction pour un couple de v.a.r. aléatoires :

FX (x) = FX (x1 , x2 , . . . , xn ) = P (X1 6 x1 , X2 6 x2 , . . . , Xn 6 xn )

— Un vecteur aléatoire X admet une densité fX (x) si sa fonction de répartition s’exprime


sous la forme Z
FX (x) = fX (x) dx,
B
Q
avec fX (x) > 0, dx = dx1 . . . dxn est la mesure de Lebesgue sur Rn et B = ni=1 ] − ∞, xi ].
— La fonction caractéristique du vecteur aléatoire X est la fonction u→ΦX (u) définie sur
Rn à valeurs dans C par
Z
iut X
eiu X PX (dx).
t
ΦX (u) = E(e )=
Rn

— Deux vecteurs aléatoires X et Y , respectivement à valeurs dans Rm et Rn , sont indépendants


si la fonction de répartition du vecteur Z = (X t , Y t )t est séparable sous la forme

FZ (x, y) = FX (x) FY (y),

ou, de manière équivalente, si la fonction caractéristique ΦZ (u, v) de Z s’écrit

ΦZ (u, v) = ΦX (u) ΦY (v).

— Pour un vecteur Z = (X t , Y t )t admettant une densité, on peut introduire la notion de


conditionnement du vecteur X par le vecteur Y . En particulier, la densité conditionnelle de X
sachant Y généralise (IV.7) :
fZ (x, y)
fX |Y (x | y) =
fY (y)
et l’espérance conditionnelle s’écrit pour X = (X1 , . . . , Xn )t du premier ordre et pour tout Y
tel que fY (y) > 0 :

E(X | Y = y) = (E(X1 | Y = y), . . . , E(Xn | Y = y))t ,


Z +∞
E(Xk | Y = y) = x fXk |Y (x | y) dx.
−∞

IV.5.2 Changement de variable


Soit un vecteur aléatoire X = (X1 , . . . , Xn )t à valeurs dans un ouvert U de Rn , admettant
la densité de probabilité fX par rapport à la mesure de Lebesgue, telle que
Z
P (X ∈ U ) = fX (x) dx = 1.
U

Soit g une fonction de classe C 1 bijective de U dans un ouvert V de Rn . On note Jg (x) son
déterminant jacobien, défini en tout x de U comme le déterminant de la matrice carrée d’ordre
IV.5 Vecteurs aléatoires réels 59

n de terme général (∂gi /∂xj )(x). On suppose que Jg ne s’annule pas sur U . On suppose de plus
que l’application réciproque g −1 est de classe C 1 de V dans U et on note Jg−1 (y) le déterminant
jacobien de g −1 , pour y ∈ V .
Sous ces hypothèses, on montre que le vecteur aléatoire Y = g(X) admet une densité de
probabilité fY . Pour h une v.a. positive sur V on a :
Z Z
E(h(Y )) = h(y) fY (y) dy = E(h(g(X))) = h(g(x)) fX (x) dx.
V U

On effectue dans la seconde intégrale le changement de variable x → y pour obtenir


Z Z
h(y)fY (y)dy = h(y) fX (g −1 (y)) |Jg−1 (y)| dy,
V V

et on identifie la densité de Y :

fY (y) = fX (g −1 (y)) |Jg−1 (y)|, pour y ∈ V. (IV.9)

Cas particulier : transformation affine d’un vecteur aléatoire. Lorsque Y = G X + b, avec G


une matrice carrée d’ordre n régulière et b un vecteur de Rn , la densité de Y s’écrit :
¡ ¢
fY (y) = fX G−1 (y − b) | det(G)|−1 . (IV.10)

IV.5.3 Vecteurs aléatoires d’ordre deux


Le vecteur aléatoire X est dit d’ordre deux si
Z
t
E(X X) = kxk2 PX (dx) < +∞,
Rn

ou, de façon équivalente, si chacune de ses composantes est une variable aléatoire d’ordre deux.
— La moyenne de X est le vecteur de Rn mX = E(X), dont les composantes sont
Z Z
mX (j) = xj PX (dx) = xj PXj (dxj ) = E(Xj ).
Rn R

— La matrice de covariance ΓX est une matrice n × n définie par

ΓX = E(XX t ), (IV.11)

dont les éléments sont


Z Z
ΓX (j, k) = E(Xj Xk ) = xj xk PX (dx) = xj xk dPXj Xk (xj , xk ).
Rn R2

On peut vérifier aisément que la matrice de covariance est symétrique, définie non négative et
que sa trace est égale à E(X t X).
— La matrice de corrélation, ou covariance centrée est la matrice de covariance du vecteur
aléatoire centré X − mX :

RX = E((X − mX )(X − mX )t ), (IV.12)

dont les composantes sont RX (j, k) = cov(Xj , Xk ).


— Soit deux vecteurs aléatoires X et Y d’ordre deux, respectivement à valeurs dans Rm et
n
R . La matrice d’intercorrélation est la matrice m × n définie par
¡ ¢
RXY = E (X − mX )(Y − mY )t . (IV.13)
60 Événements, variables et vecteurs aléatoires

Les vecteurs X et Y sont dits décorrélés si RXY = 0.


Remarque. Suivant les auteurs, les termes « covariance » et « corrélation » sont souvent
utilisés l’un pour l’autre. Dans le cas fréquent de variables centrées, il est inutile de les distinguer.
Dans les autres cas, il appartient au lecteur d’en vérifier la définition.
— Considérons à nouveau les transformations affines d’un vecteur aléatoire, cette fois dans
le cas d’un vecteur X d’ordre deux : Y = GX + b, en reprenant les notations du paragraphe
IV.5.2. Alors
mY = G mX + b (IV.14)
et

RY = E((G X + b − mY )(G X + b − mY )t )
= G RX Gt , (IV.15)

et le résultat est évidemment valable pour une matrice G quelconque (éventuellement rectan-
gulaire) : les caractéristiques d’ordre deux se « propagent » par transformation affine beaucoup
plus facilement que la loi complète. Nous exploiterons souvent le résultat (IV.14)-(IV.15) dans
la suite.

IV.5.4 Vecteurs aléatoires gaussiens


Les vecteurs gaussiens jouent un rôle considérable en traitement du signal en raison de leur
facilité de manipulation, de leurs propriétés de stabilité et du fait qu’ils modélisent de nombreux
phénomènes physiques mettant en jeu un très grand nombre de contributions élémentaires.
Un vecteur aléatoire X est dit gaussien si toute combinaison affine de ses composantes est
une variable aléatoire gaussienne. X est donc d’ordre deux.
La fonction caractéristique d’un vecteur aléatoire gaussien est
³ ´
1
ΦX (u) = E(eiu X ) = exp iut mX − ut RX u
t
(IV.16)
2
où RX est la matrice de covariance de X. X est donc entièrement défini à l’aide de ses ca-
ractéristiques à l’ordre deux. Réciproquement, la donnée d’un vecteur m quelconque et d’une
matrice R définie non négative permet de définir complètement un vecteur gaussien, et l’on note
en abrégé : X ∼ N (m, R) pour « X vecteur gaussien de moyenne m et de covariance R ».
— Lorsque R est inversible, X admet une densité de probabilité fX :
³ ´
1 1
fX (x) = p exp − (x − m)t R−1 (x − m) . (IV.17)
(2π)n det(R) 2

— Deux vecteurs X et Y sont dits gaussiens dans leur ensemble si le vecteur joint Z =
(X t , Y t )t
est gaussien. Si deux vecteurs gaussiens dans leur ensemble X et Y sont décorrélés,
alors ils sont indépendants. Ceci est très facile à voir à partir de la fonction caractéristique :
supposons les deux vecteurs centrés, et notons
· ¸ · ¸ · ¸
RX RXY RX 0 u
RZ = = , w=
RY X RY 0 RY v

alors
³ ´ ³ ´ ³ ´
1 1 1
ΦZ (w) = exp − wt RZ w = exp − wt RX w exp − v t RY v = ΦX (u) ΦY (v).
2 2 2
D’après le paragraphe IV.5.1, la séparabilité de la fonction caractéristique en u et v équivaut à
l’indépendance des vecteurs X et Y .
IV.6 L’espace de Hilbert L2 (Ω, F, P ) 61

— Une propriété très importante des vecteurs gaussiens est liée au conditionnement de
vecteurs gaussiens dans leur ensemble : soit X et Y deux vecteurs aléatoires gaussiens dans leur
ensemble, alors l’espérance conditionnelle de X conditionnellement à Y , EX |Y (X | Y ) est une
fonction affine de Y . Plus précisément, avec les notations du paragraphe précédent, et RY > 0,
on obtient (exercice)

EX |Y (X | Y ) = mX + RXY R−1
Y (Y − mY ). (IV.18)

De plus si nous notons X̃ = X − EX |Y (X | Y ), alors :

RX̃ = RX − RXY R−1


Y RY X . (IV.19)

IV.6 L’espace de Hilbert L2 (Ω, F, P )


IV.6.1 Norme et produit scalaire
p
Comme on l’a dit au § IV.3.3, E(X 2 ) est une norme pour l’espaceR vectoriel complet
2
L (Ω, F, P ). De plus cette norme est associée au produit scalaire hX, Y i = Ω XY dP = E(XY ),
ce qui confère à l’espace L2 (Ω, F, P ) la structure d’espace de Hilbert. L’inégalité de Cauchy-
Schwarz s’écrit :
(E(XY ))2 6 E(X 2 ) E(Y 2 ). (IV.20)
De la même façon, les vecteurs aléatoires du second ordre de taille n forment un espace de Hilbert
muni du produit scalaire hX, Y i = E(X t Y ) et de la norme kXk2 = E(X t X).

Démonstration de l’inégalité de Cauchy-Schwarz dans L2 (Ω, F, P )

Pour tout a, b réels et tout couple de v.a.r. X, Y , on a

E((aX + bY )2 ) = a2 E(X 2 ) + 2ab E(XY ) + b2 E(Y 2 ) > 0.

Prenons a = E(Y 2 ) et b = −E(XY ) ; alors

E(Y 2 )2 E(X 2 ) − E(Y 2 ) E(XY )2 > 0.

Si E(Y 2 ) > 0, on obtient directement (IV.20). Si E(Y 2 ) = 0, Y = 0 (p.s.) et E(XY ) = 0 : on a


l’égalité 0 = 0. Plus généralement, les cas d’égalité correspondent à des couples X, Y p.s. liés
linéairement.

Inégalité de Minkovski

On déduit facilement de (IV.20) l’inégalité de Minkovski

kX + Y k 6 kXk + kY k

qui constitue l’inégalité triangulaire pour la norme de L2 (Ω, F, P ).

IV.6.2 Sous-espaces de Hilbert


Dans un espace de Hilbert H, tout sous-espace vectoriel fermé M est un sous-espace hilber-
tien. Il est alors possible de définir pour tout élément X de H sa projection orthogonale sur M,
qui minimise dans M la distance à X.
Dans le cas de L2 (Ω, F, P ), deux types de sous-espaces présentent un intérêt particulier dans
le contexte du traitement du signal.
62 Événements, variables et vecteurs aléatoires

Sous-espaces de combinaisons affines

Considérons l’ensemble des combinaisons affines d’une v.a.r. d’ordre deux Y non constante. Il
est évident que cet ensemble est un plan vectoriel de L2 (Ω, F, P ), de base orthonormée {1, (Y −
mY )/σY }. Il est aussi facile de montrer que cet espace est fermé, donc complet : il s’agit donc
d’un sous-espace de Hilbert MY . La projection X(Y b ) d’une v.a.r. X sur ce sous-espace s’écrit
sans difficulté (exercice) :

b ) = mX + cov(X, Y ) (Y − mY ).
X(Y
var(Y )

Y – mY X̂(Y )
σY
Y
1

Fig. IV.2. Projection dans L2 (Ω, F, P )

De façon plus générale, l’ensemble des v.a.r. obtenues par combinaison affine des composantes
d’un vecteur d’ordre deux Y = (Y1 , . . . , Yn )t est un sous-espace de Hilbert MY de dimension
n + 1 au plus. La projection d’une v.a.r. X d’ordre deux sur MY est la combinaison affine qui
minimise la distance ka0 + a1 Y1 + . . . + an Yn − Xk, où la norme est celle de L2 (Ω, F, P ). Dans
le contexte de la théorie de l’estimation, cette projection est appelée l’estimée linéaire d’erreur
moyenne quadratique minimale (ELMQ) de X étant donné Y , dont nous verrons l’expression
générale dans la deuxième partie du cours.
En général, la projection sur un sous-espace hilbertien séparable ou de taille finie est facilitée
par la connaissance d’une famille génératrice ou d’une base du sous-espace. La recherche d’une
base orthonormée de MY passe par la factorisation de la matrice de corrélation RY , c’est-à-dire
par l’écriture de RY sous la forme
RY = A At , (IV.21)
où A est une matrice rectangulaire telle que At A est inversible. En effet, soit {1, X1 , . . . , Xm }
une base orthogonale de MY et X = (X1 , . . . , Xm )t : alors nécessairement mX = 0 et RX = Im
(matrice identité m × m). En remarquant que Y est engendré par transformation affine de X,
on obtient (IV.21) comme une forme particulière de (IV.15).
Comme l’orthonormalisation de Y , la factorisation de RY admet plusieurs solutions. Deux
formes jouent un rôle prééminent dans les algorithmes d’estimation linéaire en traitement du
signal :
— en tant que matrice symétrique réelle, RY admet une décomposition spectrale RY =
MΛMt , où Λ est une matrice diagonale des valeurs propres (> 0 car RY > 0) et où M est une
matrice orthogonale (Mt M = In ) de vecteurs propres assemblés en colonnes. De la décomposition
spectrale, on déduit facilement une forme particulière de (IV.21) (exercice), qui réalise une
IV.6 L’espace de Hilbert L2 (Ω, F, P ) 63

« double orthonormalisation » de Y , au sens où X est composé de v.a.r. orthonormées dans


L2 (Ω, F, P ), tandis que les vecteurs colonnes de M sont orthonormés dans Rn !
— en effectuant une orthonormalisation pas à pas de Y , on obtient A sous la forme d’une
matrice triangulaire inférieure (méthode de Gram-Schmidt). Le résultat est la factorisation de
Cholesky de RY . Dans le cas où Y1 , . . . , Yn modélisent les échantillons successifs d’un signal
temporel, cette forme réalise l’orthonormalisation causale de la suite des échantillons du signal.
La plupart des algorithmes récurrents d’estimation linéaire exploitent ce résultat (voir la seconde
partie du cours).

Sous-espace engendré par une ou plusieurs v.a.r.

Considérons non plus seulement les combinaisons affines d’une v.a.r. d’ordre deux X, mais
toutes les v.a.r. d’ordre deux s’exprimant comme fonction déterministe de Y

HY = {ν(Y ) ∈ L2 (Ω, F, P ), ν application mesurable de (R, B) → (R, B)}.

Il est évident que HY est encore un sous-espace vectoriel de L2 (Ω, F, P ). En fait c’est un sous-
espace de Hilbert de L2 (Ω, F, P ) : Y induit un nouvel espace probabilisé, (Ω, Y −1 (B), PY ) iso-
morphe à HY ; or L2 (Ω, Y −1 (B), PY ) est un espace de Hilbert au même titre que L2 (Ω, F, P ).
De la même façon, l’espace HY des v.a.r. d’ordre deux s’exprimant comme fonction déter-
ministe d’un vecteur d’ordre deux est aussi un sous-espace de Hilbert de L2 (Ω, F, P ).
La projection d’une v.a.r. X d’ordre deux sur HY est la v.a.r. d’ordre deux ν(Y ) qui minimise
la distance kν(Y ) − Xk, où la norme est celle de L2 (Ω, F, P ). Dans le contexte de la théorie de
l’estimation, cette projection est l’estimée d’erreur moyenne quadratique minimale (EMQ) de X,
étant donné Y . En remarquant MY ⊂HY , on a kEMQ − Xk 6 kELMQ − Xk. Le paragraphe
suivant met en évidence un résultat essentiel : l’EMQ de X étant donné Y n’est autre que
l’espérance conditionnelle E(X | Y ) ; ce résultat se généralise sans difficulté au cas de vecteurs
aléatoires X et Y .

IV.6.3 Espérance conditionnelle dans L2 (Ω, F, P )


Soit X une v.a.r. de L2 (Ω, F, P ). Alors on a le résultat suivant :

L’espérance conditionnelle EX|Y (X | Y ) réalise la meilleure approximation de X par


une fonction de Y , au sens de la norme de L2 (Ω, F, P ) :

kX − E(X | Y )k = min kX − ν(Y )k .


ν(Y )∈L2 (Ω,F,P )

La structure d’espace de Hilbert de L2 (Ω, F, P ) permet d’identifier alors EX|Y (X | Y ) à la


projection orthogonale de la v.a. X sur le sous-espace hilbertien HY de L2 (Ω, F, P ).
Démonstration dans le cas d’un couple (X, Y ) à densité :
Commençons par montrer que E(X | Y ) est un élément de HY . A y fixé, l’inégalité de Cauchy-
Schwarz pour les deux fonctions de carré intégrable x → x(fX|Y (x | y))1/2 et x → (fX|Y (x | y))1/2
fournit la majoration : Z
(E(X | Y = y))2 6 x2 fX|Y (x | y) dx.

En utilisant la monotonie de l’intégrale, on obtient alors :


Z ³Z ´
2
kE(X | Y )k 6 x2 fX|Y (x | y) dx fY (y) dy = kXk2 < +∞.
64 Événements, variables et vecteurs aléatoires

Notons désormais h(Y ) la projection orthogonale de X sur HY et soit ν(Y ) un élément quel-
conque de HY . Par définition, on a
ZZ
hh(Y ) − X, ν(Y )i = (h(y) − x) ν(y) fXY (x, y) dx dy = 0.

En développant fXY (x, y) = fX|Y (x | y) fY (y), il vient


Z ³ Z ´
h(y) − x fX|Y (x | y) dx ν(y) fY (y) dy = hh(Y ) − EX|Y (X | Y ), ν(Y )i = 0.

Cette égalité est valable pour tout ν(Y ) de HY . En particulier pour ν(Y ) = h(Y ) − E(X | Y ) on
° °2
obtient °h(Y ) − EX|Y (X | Y )° = 0, ce qui conclut la démonstration.
Dans le cas d’un couple (X, Y ) du second ordre mais sans densité de probabilité, nous n’avions
pas encore défini l’espérance conditionnelle E(X | Y ). En revanche, la projection orthogonale de
X sur HY existe : dans ce cas on peut définir E(X | Y ) comme étant cette projection. En fait
l’espérance conditionnelle existe même sous des conditions plus générales.
65

Chapitre V

Signaux aléatoires à temps discret

V.1 Introduction
Par souci de simplicité, on se limite dans la suite aux signaux aléatoires discrets, le plus
souvent à valeurs réelles ou à états finis ou dénombrables. De fait, l’essentiel des algorithmes
de traitement statistique du signal manipulent des modèles discrets, même si certains algo-
rithmes admettent une extension à temps continu. C’est le cas du filtrage de Kalman, souvent
présenté à temps continu dans les cours d’automatique parce que les systèmes à commander
sont des systèmes physiques, tandis que le traitement du signal analyse le plus souvent des
données échantillonnées dès leur acquisition (échantillonneurs-bloqueurs, caméras CCD), voire
intrinsèquement discrètes dans un domaine tel que les communications numériques.

V.2 Caractérisation
V.2.1 Définition
Un signal aléatoire à temps discret X est une suite {Xk } de variables aléatoires, indexée
par N ou Z. De la même façon, un signal aléatoire à temps continu est une famille de variables
aléatoires indexée par R.
— A k fixé, Xk est une variable aléatoire et un n-uplet (Xk1 , . . . , Xkn ) forme un vecteur aléa-
toire, auxquels pourront s’appliquer les outils et les propriétés mis en évidence dans le chapitre
précédent. Un tel vecteur sera dénommé vecteur extrait de X.
— Pour une épreuve ω « tirée au hasard » dans un espace probabilisé (Ω, F, P ), Xk (ω) est
un signal déterministe à temps discret, dont on pourra étudier la stabilité, la représentation
harmonique... Chaque réalisation particulière d’un signal aléatoire est communément appelée
une trajectoire. Par exemple, on a représenté ci-dessous en figure V.1 trois fragments de trajec-
toires « également possibles » de la suite aléatoire binaire résultant d’un tirage à pile ou face
équiprobable.
Comme dans le cas des variables et des vecteurs aléatoires, on renonce très souvent à définir
explicitement un signal aléatoire pour ne s’intéresser qu’à sa loi.

V.2.2 Loi temporelle


Définition

La loi temporelle d’un signal aléatoire X correspond à la spécification des lois conjointes
de n variables aléatoires Xk1 , Xk2 , . . . , Xkn pour tout n entier et pour tout n-uplet d’instants
66 Signaux aléatoires à temps discret

pile k
ω1 …
face

ω2 …

ω3 …

Fig. V.1. Exemple 1 : tirage à pile ou face

(k1 , . . . , kn ). Comme toute loi d’un vecteur aléatoire, chaque loi conjointe peut être définie par
la fonction de répartition
Fk1 ,k2 ,...,kn (x1 , x2 , . . . , xn ) = P (Xk1 6 x1 , Xk2 6 x2 , . . . , Xkn 6 xn ); (V.1)
on peut également utiliser la fonction caractéristique
à µ Xn ¶!
Φk1 ,k2 ,...,kn (u1 , u2 , . . . , un ) = E exp i um Xkm . (V.2)
m=1

Suivant cette définition, un processus aléatoire est une application mesurable


X : Ω −→ RN ou RZ
ω −→ {Xk (ω)} ,
où RN (respectivement RZ ) est muni de la tribu des boréliens B ⊗N (resp. B⊗Z ). La loi temporelle
de X caractérise la probabilité image induite par X sur l’espace mesurable (RN , B ⊗N ) (resp.
RZ , B ⊗Z ). Elle caractérise entièrement la loi du signal aléatoire X, mais pas le signal aléatoire
lui-même, de même que la loi d’une v.a. ne caractérise pas entièrement la v.a. (voir la discussion,
§IV.3.1).

Loi jointe et indépendance de signaux aléatoires

Dans le chapitre IV, pour manipuler simultanément plusieurs v.a.r. (des couples, puis des
vecteurs), nous avons dû définir leur loi jointe. De même, on pourra manipuler plusieurs signaux
réels et étudier leurs dépendances statistiques en spécifiant une loi temporelle jointe, qui est l’en-
semble des fonctions de répartition de vecteurs aléatoires associant des vecteurs prélevés dans les
différents signaux. Par exemple, pour un couple de signaux (X, Y ), ou, de façon équivalente, pour
un signal complexe X +iY , la loi temporelle est l’ensemble des fonctions de répartition Fk,l (x, y)
de vecteurs aléatoires (X t , Y t )t , où X = (Xk1 , Xk2 , . . . , Xkm )t et Y = (Yl1 , Yl2 , . . . , Yln )t pour
tout m, n, k = (k1 , . . . , km ), l = (l1 , . . . , ln ).
Les signaux sont indépendants (dans leur ensemble) lorsque toutes les fonctions de répartition
de leur loi temporelle jointe se séparent en un produit de fonctions de répartition de type (V.1),
c’est-à-dire Fk,l (x, y) = Fk (x)Fl (y) pour tout m, n, k, l, x, y dans le cas du couple (X, Y ).

V.2.3 Caractéristiques instantanées


La définition de la loi temporelle permet de déduire les caractéristiques instantanées des
processus aléatoires, c’est-à-dire les caractéristiques de la variable aléatoire Xk , en particulier
V.2 Caractérisation 67

la fonction de répartition instantanée Fk (x) = P (Xk 6 x) et les moments de Xk , qui sont


des fonctions déterministes du temps (sous réserve d’existence). On définit essentiellement la
moyenne
Z
E(Xk ) = xdFk (x) = m(k) (V.3)
R

et le moment d’ordre deux


Z
2
E(Xk ) = x2 dFk (x) = m2 (k) + var (Xk ), (V.4)
R

qu’on appelle puissance moyenne à l’instant k.

V.2.4 Caractéristiques à l’ordre deux


Définition

Dans la perspective de travailler dans l’espace de Hilbert L2 (Ω, F, P ), il est intéressant de


définir les caractéristiques d’un signal X à l’ordre deux, pourvu qu’il soit d’ordre deux, c’est-
à-dire de puissance moyenne partout finie : E(Xk2 ) < +∞ pour tout k. Il s’agit d’abord de la
fonction moyenne mX (k), déjà définie par (V.3) à partir des caractéristiques instantanées. On
définit aussi la fonction d’autocorrélation
¡ ¢
rX (i, j) = cov(Xi , Xj ) = E (Xi − mX (i)) (Xj − mX (j))
= E(Xi Xj ) − mX (i) mX (j). (V.5)

Cette fonction est symétrique (rX (j, i) = rX (i, j)) et définie non négative : pour tout n > 1,
k1 , . . . , kn entiers et λ1 , . . . , λn réels,
µ³X ¶
X n Xn n
¡ ¢´2
λi λj rX (ki , kj ) = E λi Xki − mX (ki ) > 0.
i=1 j=1 i=1

D’autre part, d’après l’inégalité de Schwarz, la fonction d’autocorrélation atteint son maximum
en 0. Ce résultat est analogue à celui présenté au §I.3.1.
Un signal X est décorrélé, ou blanc à l’ordre deux, s’il est constitué de variables décorrélées :
rX (i, j) = rX (i, i) δi−j .
Enfin, pour deux signaux X et Y d’ordre deux, on définit à partir de la loi temporelle jointe
la fonction d’intercorrélation

rXY (i, j) = cov(Xi , Yj ) = E ((Xi − mX (i)) (Yj − mY (j)))


= E(Xi Yj ) − mX (i) mY (j). (V.6)

X et Y sont décorrélés s’ils sont constitués de variables décorrélées : rXY (i, j) = 0.

Sous-espaces de L2 (Ω, F, P )

Nous avons déjà signalé au chapitre précédent l’importance de la projection des v.a.r. de
L2 (Ω, F, P ) sur certains de ses sous-espaces hilbertiens, en particulier ceux qui sont engendrés
par combinaisons affines à partir d’une v.a.r. ou d’un vecteur aléatoire. De la même façon,
l’histoire linéaire d’un signal aléatoire X est l’ensemble engendré par combinaisons linéaires des
Xk . A l’instant k, le passé linéaire est l’ensemble engendré par Xk−1 , Xk−2 . . .. Ces espaces sont
séparables. On les construits comme la fermeture dans L2 (Ω, F, P ) des ensembles des combinai-
sons linéaires finies.
68 Signaux aléatoires à temps discret

V.3 Construction et exemples


La spécification d’une loi temporelle, plus simple que la caractérisation complète de l’ap-
plication mesurable X, se révèle néanmoins peu pratique pour construire des lois de signaux
aléatoires, donc pour fabriquer des modèles adaptés à un contexte particulier. Le but de ce pa-
ragraphe n’est pas de fournir un catalogue exhaustif de modèles, ce qui serait à la fois illusoire
et sans intérêt, mais plutôt d’introduire des modèles fondamentaux et de montrer comment on
peut « enrichir » le catalogue en définissant des modèles plus compliqués à partir de modèles
simples.

V.3.1 Bruits blancs


Définition

On entend par bruit blanc, en référence à sa décomposition harmonique uniforme dans la


bande des fréquences analysée (voir chapitre VI), un signal aléatoire constitué d’une suite de
variables aléatoires indépendantes. La loi temporelle se sépare donc sous la forme caractéristique
simple
Fk1 ,k2 ,...,kn (x1 , x2 , . . . , xn ) = Fk1 (x1 ) . . . Fkn (xn ), (V.7)
pour tout entier n et pour tout n-uplet d’instants (k1 , . . . , kn ) et de valeurs (x1 , . . . , xn ). La loi du
signal est donc décrite entièrement par la suite des lois instantanées. Si ces lois sont identiques,
le bruit blanc est une suite de v.a.r. indépendantes identiquement distribuées (i.i.d.) ; il est dit
homogène.
Dans L2 (Ω, F, P ), il est fréquent de ne considérer que les caractéristiques à l’ordre deux d’un
signal aléatoire. C’est ainsi qu’un bruit blanc au sens faible est une suite de variables aléatoires
décorrélées, mais pas forcément indépendantes.

Exemples

La suite des « pile ou face » proposée en introduction est un bruit blanc homogène binaire.
Un autre exemple très utile est celui du bruit blanc homogène gaussien, dont la loi instantanée
est décrite par la moyenne et la puissance (ou la variance) des v.a.r. gaussiennes i.i.d. Xk . La
figure V.2 représente 50 points d’une trajectoire d’un bruit blanc gaussien réduit (moyenne nulle,
variance unité).
En pratique, on utilise souvent des modèles homogènes blancs pour décrire la partie indési-
rable d’un signal observé, dans le cas où cette partie est trop irrégulière pour une modélisation
déterministe. D’où l’appellation « négative » de « bruit » blanc, qu’on peut se représenter comme
le « souffle » d’une cassette audio.
Ainsi présenté, un bruit blanc semble le contraire d’un signal « utile ». Mais l’utilité d’un si-
gnal n’est pas une caractéristique intrinsèque. C’est au contraire une notion subjective dépendant
de ce que l’observateur cherche dans le signal. D’une part, tous les signaux « nuisibles » ne sont
pas des bruits blancs : les courants sinusoı̈daux à 50 Hz délivrés par Électricité de France sont
globalement utiles, mais leurs résidus peuvent perturber des systèmes d’alimentation autonome
ou de transmission d’information.
Réciproquement, tous les bruits blancs ne sont pas « nuisibles ». Par exemple, en théorie de
l’information, les bruits blancs permettent de maximiser le débit d’information d’un canal de
transmission, car leur caractère non prédictible assure qu’aucune redondance ne subsiste dans
une suite de variables i.i.d. Le but de la compression de données est justement de transformer
des signaux quelconques en signaux proches d’un bruit blanc homogène par une transformation
inversible, pour ne stocker ou ne transmettre que le signal « blanchi », en augmentant ainsi la
V.3 Construction et exemples 69

-1

-2

-3
5 10 15 20 25 30 35 40 45 50

Fig. V.2. Exemple 2 : bruit blanc gaussien

capacité de stockage ou le débit de transmission. Nous reviendrons plus loin sur la recherche du
« blanchiment » d’un signal, qui rejoint dans le contexte des signaux de puissance moyenne finie
la notion d’orthogonalisation de la suite des échantillons du signal, évoquée à la fin du chapitre
précédent (§IV.6.2).

V.3.2 Chaines de Markov


Définition

Une chaı̂ne de Markov est un signal aléatoire construit sur N et à valeurs dans E, espace fini
ou dénombrable. Traitons le cas d’un espace fini E = {e1 , . . . , eM }.
Si un signal aléatoire X défini vers E N vérifie pour tout n ∈ N∗ , i0 , i1 , . . . , in−1 , i, j ∈ E :

P (Xn+1 = j | Xn = i, Xn−1 = in−1 , . . . , X0 = i0 ) = P (Xn+1 = j | Xn = i) = pij , (V.8)

on dit que X est une chaı̂ne de Markov (homogène) de matrice de transition P = {pij }i ,j∈E .
La loi initiale de cette chaı̂ne définie par le vecteur q = (q1 , . . . , qM )t des probabilités initiales
qi = P (X0 = i).
Le couple (q, P ) caractérise la chaı̂ne, au sens où (q, P ) détermine entièrement sa loi tempo-
relle. En effet, la loi de Bayes (IV.2) donne sous sa forme récurrente

P (X0 = i0 , . . . , Xk = ik ) = qi0 pi0 i1 . . . pik−1 ik . (V.9)

En particulier, (V.9) permet de déduire la loi instantanée de la chaı̂ne {P (Xk = i)}i∈E à l’instant
k : par sommations successives sur i0 , . . . , ik−1 , on obtient P (Xk = em ) comme la m-ième
composante du vecteur qk = (P k )t q.

Construction

Réciproquement, soit un couple (q, P ), où


70 Signaux aléatoires à temps discret

t est un vecteur de probabilités exhaustives, c’est-à-dire vérifiant 0 6


— q = (q1 , . . . , qM )P
qm 6 1 pour tout m et m qm = 1 ;
— P est une matrice stochastique de taille M × M , c’est-à-dire une matrice dont chaque
ligne est un vecteur de probabilités exhaustives.
Alors en utilisant un théorème de construction de mesure (le théorème d’extension de Kol-
mogorov [5]), on montre que (q, P ) caractérise une loi de probabilité de signal aléatoire sur N
d’après (V.9), donc une chaı̂ne de Markov. Par conséquent il est beaucoup plus simple de décrire
la loi d’une chaı̂ne de Markov homogène qu’une loi temporelle quelconque.

Exemple

Les descriptions markoviennes sont commodes pour une multitude de signaux qui possèdent
des propriétés « locales » de dépendance statistique. Par exemple, la marche aléatoire à d di-
mensions modélise la trajectoire d’un point dans E = Zd qui saute à chaque instant d’un pas
de façon équiprobable dans une des directions parallèles aux axes. La figure V.3 représente 50
points d’une trajectoire de marche aléatoire X à une dimension (E = Z) dont la position initiale
est X0 = 0. Les caractéristiques de la chaı̂ne sont donc

qm = δ0m , m ∈ Z
½
1/2 si i = j ± 1, i, j ∈ Z,
pij =
0 sinon.

-1

-2

-3
5 10 15 20 25 30 35 40 45 50

Fig. V.3. Exemple 3 : marche aléatoire

V.3.3 Constructions indirectes


On peut définir de façon simple et très efficace des nouveaux signaux aléatoires comme
fonctions déterministes d’autres modèles aléatoires, variables ou signaux.
V.3 Construction et exemples 71

Signaux aléatoires fonctions de variables aléatoires

Sans rentrer dans les généralités, traitons le cas d’une sinusoı̈de de fréquence connue, mais
d’amplitude et de phase aléatoires. Par exemple, ce modèle est classique pour décrire la compo-
sante parasite à 50 Hz évoquée au § V.3.1.
On considère un couple (A, Φ) de variables aléatoires indépendantes à densité : fA,φ (a, Φ) =
fA (a)fφ (Φ), où A suit une loi de Rayleigh sur R+ de paramètre σ 2
³ ´
a a2
fA (a) = 2 exp − 2
σ 2σ
et Φ est uniformément répartie sur ]0, 2π[. On définit le signal aléatoire X comme l’application
mesurable (de Ω dans RZ ) dont la composante à l’instant k est la v.a.r. Xk :
Xk = A cos(2πνk + Φ). (V.10)

-1

-2

-3
5 10 15 20 25 30 35 40 45 50

Fig. V.4. Exemple 4 : 3 trajectoires d’une sinusoı̈de à phase et amplitude aléatoires

Comme le montre la figure V.4, chaque trajectoire de ce modèle est une sinusoı̈de ; remar-
quons au passage qu’il est faux de penser que les signaux aléatoires ont toujours des trajectoires
« irrégulières », « imprédictibles ». Au contraire, il est facile de vérifier que X satisfait l’équation
de récurrence
Xk = 2 cos(2πν) Xk−1 − Xk−2 (V.11)
qui montre que le signal aléatoire X est parfaitement prédictible par combinaison linéaire finie des
deux derniers échantillons passés. Il s’agit d’un cas extrême de prédictibilité (le signal aléatoire
est dit singulier ).
Déterminons les caractéristiques instantanées de X. Posons Yk = A sin(2πνk + Φ). L’appli-
cation g(a, ϕ) = (a cos(2πνk + ϕ), a sin(2πνk + ϕ) ) est bijective de R+ ×]0, 2π[ dans R2 pour
tout k, donc la formule de changement de variable (IV.9) permet de trouver la densité jointe du
couple (Xk , Yk ). Le calcul donne
³ x2 + y 2 ´
1
fXk ,Yk (x, y) = exp − = fXk (x) fYk (y),
2πσ 2 2σ 2
ce qui montre que Xk et Yk sont des variables indépendantes de même loi gaussienne N (0, σ 2 )
indépendante de k et de ν !
72 Signaux aléatoires à temps discret

Fonctions de signaux aléatoires

Il s’agit des transformations déterministes d’un signal aléatoire X : Y = ϕ(X), tel que Y est
mesurable. Deux cas présentent un intérêt particulier :
— Les transformations instantanées d’un signal aléatoire X, c’est-à-dire les transformations
instant par instant : Y est la suite des variables aléatoires Y = ϕk (Xk ).
— Les transformations affines d’un signal aléatoire. Ce cas est essentiel puisqu’il contient
le filtrage linéaire. En particulier, on peut définir de nombreux signaux par filtrage linéaire des
bruits blancs.
Par exemple, la marche aléatoire monodimensionnelle X = {Xk }k∈N de l’exemple 3 est la
sortie d’un filtre « intégrateur » dont l’entrée est un bruit blanc binaire B = {Bk }k∈N à valeurs
{+1, −1} du type de l’exemple 1 :
½
X0 = 0
(V.12)
Xk = Xk−1 + Bk , k > 1.
La TZ du filtre intégrateur est H(z) = z/(z − 1) : il s’agit d’un filtre récursif (qui n’est pas
stable ; voir le chapitre III).

ARMA causaux

Plus généralement, toute fraction rationnelle en z P (z)/Q(z) admettant un développement


causal (c’est-à-dire telle que d◦ (P ) 6 d◦ (Q) = N ; voir le chapitre III) permet de définir des
signaux aléatoires sur N par filtrage causal des bruits blancs homogènes, de la façon suivante :
— soit FB la loi instantanée du bruit d’entrée B = {Bk } ;
— étant donnée la loi du vecteur (X0 , . . . , XN −1 )t définissant les conditions initiales, indé-
pendant du bruit B,
— pour tout n > N, Xn est la sortie du filtre causal de fonction de transfert P (z)/Q(z),
qu’on peut obtenir sous forme récursive :
³X
M N
X ´
1
Xk = bm Bk−m − an Xk−n (V.13)
a0
m=0 n=1

avec les notations du chapitre III.


Ces signaux aléatoires définis sur N sont dits ARMA causaux.
— Pour M = 0, le filtre générateur est purement récursif et le signal est dit AR (pour
autorégressif ).
— Pour N = 0, le filtre est à réponse impulsionnelle finie et le signal est un MA (pour
« moving average », moyenne mobile).

ARMA stationnaires

Par filtrage linéaire causal des bruits blancs homogènes, on a seulement défini des signaux
aléatoires sur N. En fait on peut aussi obtenir des signaux aléatoires sur Z par filtrage linéaire.
Mais cette fois l’important est de garantir la stabilité, et non plus la causalité (et a fortiori, le
filtrage stable donnera aussi des signaux aléatoires sur N par restriction). Il faut aussi que le
bruit soit homogène d’ordre deux. Alors on a le résultat suivant :
Le filtrage d’un bruit blanc homogène d’ordre deux B = {Bk }k∈Z par un filtre h = {hk }k∈Z
linéaire stable définit un signal X aléatoire d’ordre deux sur Z :
X
Xn = hn−k Bk . (V.14)
k∈Z
V.4 Propriétés 73

Ce résultat est une conséquence d’une propriété des systèmes orthonormés dans unPespace de
Hilbert : (B − mB )/σB est un système orthonormé de L2 (Ω, F, P ), donc toute série
P k∈Z ck Bk
2
converge dans L (Ω, F, P ) (et même dans 2
Pl’histoire linéaire de B) pourvu que k∈Z ck < +∞,
et définit une v.a.r. de puissance E(Bk2 ) k∈Z c2k . Or h est stable, donc d’énergie finie, donc le
résultat s’applique à (V.14).
On déduit facilement de (V.14) l’invariance des caractéristiques statistiques d’ordre deux de
X au cours du temps :
X
E(Xk ) = mB hk , (V.15)
k∈Z
X ³X ´2
E(Xk2 ) = σB
2
h2k + m2B hk < +∞, (V.16)
k∈Z k∈Z
XX
E(Xn Xn+m ) = hn−k hn+m−l E(Bk Bl ) (V.17)
k∈Z l∈Z
X ³X ´2
2
= σB hk hk+m + m2B hk . (V.18)
k∈Z k∈Z

Donc la moyenne E(Xk ) et l’autocorrélation E(Xk Xk+m ) − mX (k) mX (k + m) ne dépendent pas


de l’instant k. Le signal X est dit stationnaire à l’ordre deux, notion sur laquelle nous reviendrons
au §V.4.2, puis au chapitre VI. Dans le cas où la TZ du filtre linéaire stable est une fraction
rationnelle, on dit que X est un ARMA stationnaire à l’ordre deux.
Un filtre générateur à la fois stable et causal engendre par (V.14) un ARMA stationnaire à
l’ordre deux et causal sur Z. La causalité du filtre a pour conséquence évidente la décorrélation
entre les sorties passées et les entrées futures du filtre :
E(Xn Bm ) = 0 pour tout m > n.

V.4 Propriétés
Après avoir défini une gamme assez vaste de signaux aléatoires, nous allons pouvoir étudier
certaines de leurs propriétés. Une des plus importantes, la décomposition harmonique, valable
pour les modèles stationnaires à l’ordre deux seulement, sera traitée spécifiquement dans le
chapitre VI.
Dans la suite, nous étudions différentes notions de convergence qui peuvent s’appliquer aux
signaux aléatoires (§V.4.1), puis nous définissons la stationnarité, au sens strict et au sens large
(§V.4.2) et les propriétés d’ergodisme de certains signaux stationnaires (§V.4.3).

V.4.1 Convergence
La convergence d’un signal aléatoire réel {Xn }n∈N s’identifie à la convergence de la suite des
v.a.r. X0 , X1 , . . . , Xk , . . ., c’est-à-dire que seules les caractéristiques instantanées du signal sont
concernées. Il est important de voir que cette notion de convergence de v.a.r. peut prendre des
sens très différents suivant que l’on s’intéresse seulement à la loi des variables aléatoires, ou bien
aux valeurs qu’elles prennent épreuve par épreuve, ou encore à une mesure globale sur toutes les
épreuves. On distingue quatre types de convergence.

Convergence en loi

C’est la notion la plus simple, mais aussi la convergence la plus faible. En fait elle ne désigne
pas une convergence de variables aléatoires mais seulement la convergence de lois de probabilité.
74 Signaux aléatoires à temps discret

On dit que la suite {Xk } converge en loi vers une v.a.r. X si la probabilité PXk converge
vers PX au sens des mesures sur R. Une condition nécessaire et suffisante s’obtient sous la forme
d’une convergence simple de fonction de répartition point par point : {Xk } converge en loi vers
X ssi en tout point de continuité de la fonction de répartition de X, on a

lim FXk (x) = FX (x). (V.19)


k→∞

Une condition équivalente porte de la même façon sur la fonction caractéristique.


— Exemple : théorème central limite
Soit X = {Xk }k∈N un bruit blanc homogène au sens strict et d’ordre deux sur N. Considérons
le signal aléatoire S = {Sk }k∈N ,
k−1
1X
Sk = Xi .
k
i=0

Il est évident que Sk est une v.a.r. d’ordre deux, de moyenne mS = mX et de variance σS2 = σX2 /k.

Le théorème central limite concerne la convergence en loi de la variable Sk une fois réduite : la
loi de (Sk − mS )/σS converge vers une gaussienne réduite.

Convergence en probabilité (ou convergence stochastique)

Elle est obtenue ssi


∀ε > 0, lim P (|Xk − X| > ε) = 0. (V.20)
k→∞

Elle peut s’interpréter en disant que pour k grand, l’ensemble des ω tels que Xk (ω) s’écarte
de X(ω) de plus de ε est de mesure arbitrairement faible, pour tout ε. Il s’agit donc d’une
convergence « globale », en probabilité sur l’ensemble des trajectoires.

Convergence presque sûre

Elle est obtenue ssi l’ensemble des ω ne vérifiant pas

∀ε > 0, ∃N : ∀k > N, |Xk (ω) − X(ω)| < ε (V.21)

est de mesure nulle. Cette convergence est très forte puisqu’elle concerne séparément chaque
épreuve ω (donc chaque trajectoire du signal) au sens déterministe, sauf un ensemble négligeable
de trajectoires. En fait, la limite d’une suite de v.a.r. Xk convergeant presque sûrement définit
la variable aléatoire X. En pratique, les cas les plus fréquents de convergence presque sûre font
intervenir une limite presque sûre : presque toutes les trajectoires sont convergentes au sens
déterministe, vers la même limite.
— Exemple : loi des grands nombres
Soit X = {Xk }k∈N un bruit blanc homogène d’ordre deux sur N. Alors il existe une version
de la loi des grands nombres adaptée à cette hypothèse. Il s’agit d’un résultat de convergence
presque sûre vers une quantité déterministe :
n−1
1X
lim Xk = mX . (V.22)
n→∞ n
k=0

Convergence en moyenne quadratique

Il s’agit de la convergence dans l’espace de Hilbert des v.a.r. du second ordre L2 (Ω, F, P ),
déjà évoquée pour fermer des sous-espaces linéaires (§V.2.4) ou pour justifier l’appartenance à
V.4 Propriétés 75

L2 (Ω, F, P ) des filtrées stables d’un bruit blanc homogène d’ordre deux (fin de § V.3.3) :

lim kXk − Xk = 0,
k→∞

c’est-à-dire ¡ ¢
lim E (Xk − X)2 = 0. (V.23)
k→∞

C’est une convergence globale (c’est-à-dire définie sur l’ensemble des épreuves) très forte, qui
joue un rôle essentiel dans l’étude des processus stochastiques.

Il n’existe aucun lien systématique entre la convergence presque sûre et la conver-


gence en moyenne quadratique. Cependant toutes deux impliquent la convergence
en probabilité qui entraı̂ne la convergence en loi.

V.4.2 Stationnarité
Chaque fois qu’un signal a pour origine un phénomène permanent à l’échelle du temps de
mesure, sans changement de comportement prévisible, il est intéressant de le décrire par un
modèle aléatoire dont les caractéristiques statistiques possèdent des propriétés d’invariance adé-
quates. Cette situation est particulièrement fréquente dans le cas où l’observateur ne déclenche
pas le phénomène qu’il mesure, et que ce dernier existe de façon permanente indépendamment
de l’observation.

Stationnarité forte. Exemple des chaı̂nes de Markov

Un processus aléatoire X est dit fortement stationnaire (ou stationnaire strict, ou station-
naire) si sa loi temporelle est invariante par toute translation du temps, c’est-à-dire que les
vecteurs aléatoires (Xk1 , Xk2 , . . . , Xkn )t et (Xk1+k , Xk2+k , . . . , Xkn+k )t ont des lois de probabili-
tés identiques pour tout n ∈ N∗ , tout n-uplet (k1 , k2 , . . . , kn ) ∈ Zn et pour tout k ∈ Z. Par
restriction, on peut aussi définir la stationnarité des signaux aléatoires sur N.
Reprenons l’exemple des chaı̂nes de Markov : les couples (q, P ) qui vérifient P t q = q dé-
finissent des modèles stationnaires stricts sur N. En effet, cette propriété a pour conséquence
immédiate que le vecteur qk = (P k )t q des caractéristiques instantanées de la chaı̂ne à l’instant
k est égal à q. A partir de ce résultat, l’application de la loi de Bayes ayant donné (V.9) donne
le même résultat quel que soit l’instant :

P (Xn = i0 , . . . , Xn+k = ik ) = qi0 pi0 i1 . . . pik−1 ik = P (X0 = i0 , . . . , Xk = ik ),

ce qui suffit pour prouver la stationnarité stricte.


Toutes les matrices de transition P n’admettent pas de vecteur q initial tel que P t q =
q, tandis que d’autres en admettent plusieurs. La théorie des chaı̂nes de Markov étudie en
particulier ces questions d’existence et d’unicité. Dans le cas de la marche aléatoire, les vecteurs
q invariants sont tous colinéaires au vecteur constant 1. Mais aucun d’entre eux n’est un vecteur
de probabilité : en fait la chaı̂ne finit par « se diluer » uniformément sur tous les entiers relatifs
quel que soit son point de départ. La chaı̂ne ne converge pas en loi vers une variable aléatoire.

Stationnarité faible

La stationnarité forte porte sur l’ensemble de la loi temporelle du processus. On est amené à
définir un autre type de stationnarité dite faible, ou au sens large, ou à l’ordre deux car elle fait
seulement intervenir l’invariance dans le temps des moments d’ordre un et deux du processus
aléatoire.
76 Signaux aléatoires à temps discret

Un processus aléatoire (d’ordre deux) X est dit faiblement stationnaire lorsque sa valeur
moyenne est constante et sa fonction d’autocorrélation rX (k1 , k2 ) n’est fonction que de la diffé-
rence n = k1 − k2 . Ceci s’écrit

∀k ∈ Z, E(Xk ) = mX , ∀(k, n) ∈ Z2 , rX (k, k + n) = CX (n).

En particulier, la puissance moyenne de X est une constante :


2
∀k ∈ Z, E(Xk2 ) = mX + CX (0).

Soit (Xk , . . . , Xk+n ) un vecteur extrait de X. La matrice d’autocorrélation de ce vecteur a pour


composante aij = rX (k + i − 1; k + j − 1). La stationnarité faible confère à cette matrice une
structure particulière dite de Toeplitz où les coefficients sont constants suivant chaque diagonale.
Il est évident que la stationnarité forte implique la stationnarité faible pourvu que les deux
premiers moments existent. La réciproque est en général fausse, mais elle est vraie dans le cas
des processus gaussiens.
Il est évident qu’un bruit blanc homogène au sens strict (respectivement au sens faible) est
stationnaire au sens strict (resp. au sens faible). Par filtrage stable des bruits blancs stationnaires
d’ordre deux, nous avons montré à la fin du § V.3.3 qu’on pouvait définir de nouveaux signaux
stationnaires d’ordre deux. On peut démontrer [1] un résultat plus général :

Le filtrage par un filtre stable d’un signal stationnaire à l’ordre deux est un signal
stationnaire à l’ordre deux.

Retour sur les ARMA stationnaires faibles

La stationnarité large des signaux obtenus par filtrage stable d’un bruit blanc stationnaire
est un résultat essentiel, car elle indique comment construire des modèles stationnaires possédant
une structure de corrélation particulière. En effet, dans le cas d’un bruit blanc réduit, (V.15) et
(V.18) impliquent
X
CX (n) = hk hk+n , (V.24)
k∈Z

c’est-à-dire que l’autocorrélation de la réponse impulsionnelle h du filtre définie au sens des


signaux déterministes stables (donc d’énergie finie) se transporte sur la fonction d’autocorrélation
du signal aléatoire. En particulier, l’énergie du filtre donne la puissance moyenne du signal
aléatoire d’après (V.16), ce dernier étant d’énergie infinie. Nous verrons dans le chapitre suivant
que ce résultat est transposable sous forme de représentation harmonique : la densité spectrale
d’énergie du filtre devient la densité spectrale de puissance du signal de sortie.
Ces résultats sont évidemment valables pour les filtres rationnels, qui nous ont permis de
définir les ARMA stationnaires.

V.4.3 Ergodisme
Dans le paragraphe précédent, nous avons souligné l’utilité des modèles stationnaires quand
le phénomène mesuré existe de façon permanente indépendamment de son observation. En fait,
dans cette situation, on ne peut souvent observer qu’un fragment d’une unique trajectoire (on
peut considérer par exemple l’imagerie de l’activité solaire au cours du temps). Dans ces condi-
tions, comment (et pourquoi) choisir ou identifier un modèle aléatoire ? La solution de ce pro-
blème passe souvent par la restriction à des modèles aléatoires ergodiques, c’est-à-dire dont on
peut identifier entièrement ou en partie la loi temporelle par des moyennes temporelles sur une
seule trajectoire.
V.5 Les signaux gaussiens 77

— Prenons l’exemple de la moyenne mX = E(Xk ) d’un signal X faiblement stationnaire : X


est ergodique pour sa moyenne ssi
n
X
1
lim Xi = mX
n→∞ 2n + 1
i=−n

au sens de la convergence presque sûre. Nous avons déjà vu un cas simple d’ergodisme pour la
moyenne : la loi des grands nombres (V.22) assure l’ergodisme pour la moyenne d’un bruit blanc
stationnaire d’ordre deux.
— Plus généralement, X est ergodique pour une fonction ϕ si
n
1X
lim ϕ(Xk1+i , . . . , XkN +i ) = E(ϕ(Xk1 , . . . , XkN )) (V.25)
n→∞ n
i=1

presque sûrement pour tout N , tout N -uplet d’instants distincts (k1 , . . . , kN ).


— X est ergodique au sens strict si (V.25) est vérifié pour toute fonction ϕ telle que
E(ϕ(Xk1 , . . . , XkN )) ait un sens.
— X est ergodique à l’ordre deux si (V.25) est vraie pour la moyenne et pour l’autocorréla-
tion.
Les principaux exemples de signaux stationnaires présentés dans ce chapitre sont ergodiques :
chaı̂nes de Markov stationnaires, ARMA stationnaires d’ordre deux.

V.5 Les signaux gaussiens


Un signal gaussien est un signal aléatoire dont on ne peut extraire que des vecteurs gaussiens.
On a vu dans le chapitre précédent que toute transformation affine d’un vecteur gaussien donnait
un vecteur gaussien. Cette propriété se transpose donc aux signaux gaussiens. C’est une première
propriété de stabilité, mais il y en a une autre qui est la stabilité en moyenne quadratique : la
limite d’un signal gaussien convergeant en moyenne quadratique est une variable gaussienne.
Pour démontrer cette propriété, il suffit de vérifier que la limite des fonctions caractéristiques
est la fonction caractéristique d’une gaussienne.
D’après ce résultat, on peut dire que l’histoire ou le passé linéaire d’un signal gaussien sont
des espaces de Hilbert gaussiens. Dans les espaces gaussiens, les variables sont d’ordre deux
et les lois de probabilité sont déterminées entièrement par des moyennes et des corrélations.
Stationnarité faible et forte d’un signal gaussien sont équivalentes.
78
79

Chapitre VI

Signaux aléatoires stationnaires


faibles

VI.1 Introduction
La représentation fréquentielle des signaux aléatoires s’avère un outil précieux puisqu’elle
fournit des informations importantes sur le caractère périodique ou pseudo-périodique d’un si-
gnal. Nous verrons dans la suite de ce chapitre que de même que pour les signaux déterministes
harmonisables, on peut définir une telle représentation pour les signaux aléatoires stationnaires
faibles, en commençant par associer à leur fonction d’autocorrélation une mesure ou éventuelle-
ment une densité spectrale de puissance.
Comme dans le cas déterministe, nous précisons le lien essentiel entre la représentation
fréquentielle et le filtrage linéaire convolutionnel pour les signaux aléatoires stationnaires faibles.
L’analyse spectrale consiste à chercher les caractéristiques spectrales d’un signal supposé
stationnaire faible à partir d’un extrait de ce signal. Nous présenterons successivement l’analyse
spectrale non paramétrique, utilisant le périodogramme, et l’analyse spectrale paramétrique qui
exploite les propriétés des signaux ARMA introduits au chapitre V. Ces méthodes constitueront
une première introduction aux problèmes d’estimation qui feront l’objet du prochain module de
cours.

VI.2 Représentation harmonique


L’étude de la représentation harmonique des signaux a déjà été abordée dans les chapitres I
et II pour le cas des signaux déterministes. Dans le cas des signaux stationnaires faibles, deux
résultats essentiels seront énoncés. Tout d’abord, le théorème de Herglotz permet de garantir
l’existence d’une mesure spectrale de puissance définie, de même que pour les signaux détermi-
nistes, comme la transformée de Fourier de la fonction d’autocorrélation (voir (I.18) du chapitre
I). En général, l’analyse harmonique du signal par l’intermédiaire de sa fonction d’autocorré-
lation est d’ailleurs suffisante dans les problèmes d’identification, d’estimation et de filtrage.
Nous nous intéresserons ensuite à la représentation de Fourier du signal aléatoire lui-même. Le
théorème de Cramer-Khintchine assure l’existence et l’unicité d’une telle représentation pour
presque toute trajectoire du signal aléatoire.

VI.2.1 Fonction d’autocorrélation


D’après le chapitre précédent, un signal aléatoire à temps discret stationnaire du second ordre
admet une valeur moyenne constante mX = E(Xn ) (i.e., indépendante de n), et une fonction
80 Signaux aléatoires stationnaires faibles

d’autocorrélation de la forme
rX (n, p) = CX (n − p).
On appellera par la suite CX (k) sa fonction d’autocorrélation et on supposera le signal centré
(mX = 0).
L’existence de la mesure spectrale de la fonction d’autocorrélation est garantie par le théo-
rème de Herglotz, dont l’énoncé est le suivant.
—Théorème de Herglotz
Soit C : Z → C une fonction définie non négative, c’est-à-dire telle que
N
X −1 N
X −1
C(i − k) λi λ∗k > 0
i=0 k=0

pour tout N > 1, (λ0 , . . . , λN −1 ) ∈ CN . Alors il existe une mesure finie µ sur l’intervalle
Π =] − 1/2, 1/2] telle que Z
C(k) = e2iπkν µ(dν)
Π
et cette mesure est unique.
La démonstration du théorème de Herglotz est présentée dans [1]. On en déduit que la
fonction d’autocorrélation du signal X admet une représentation sous la forme
Z
CX (k) = e2iπkν µX (dν) (VI.1)
Π

où µX est unique. Pour k = 0, cette égalité reste vraie, donc


Z ³i i´
1 1
CX (0) = µX (dν) = µX − ,
Π 2 2

qui est la puissance moyenne E(Xn2 ) du signal. La mesure µX est dite mesure spectrale de
puissance du signal X. Si cette mesure est à densité vis-à-vis de la mesure de Lebesgue, c’est-à-
dire s’il existe une fonction réelle non négative φX (ν) telle que
Z
CX (k) = e2iπkν φX (ν) dν,
Π

φX (ν) est appelée la densité spectrale de puissance de X.


Si, de plus, CX est dans `2 et admet donc une transformée de Fourier, on a alors
X
φX (ν) = CX (k) e−2iπkν .
k∈Z

Lorsqu’il existe une mesure ou une densité spectrale de puissance, il est donc possible d’analyser
en fréquence la répartition d’énergie du signal aléatoire en utilisant la transformée de Fourier
discrète de sa fonction d’autocorrélation.
Si la mesure µX est une somme pondérée de masses ponctuelles,
X
µX = ak δ(ν − νk ) (VI.2)
k∈Z

où δ(ν − νk ) est la mesure de Dirac au point νk , on dit que le signal Xk admet un spectre de
raies, ak étant l’intensité de la raie νk (ak > 0).
VI.2 Représentation harmonique 81

VI.2.2 Cas d’un bruit blanc numérique


Soit un bruit blanc {Bn } stationnaire faible centré, donc tel que
E(Bn+k Bn ) = 0, ∀k ∈ Z∗ .
Notons σ 2 = E(Bn2 ) ; la fonction d’autocorrélation de {Bn } s’écrit :
Z
CB (k) = σ 2 δ(k) = e2iπkν σ 2 dν,
Π

et donc {Bn } admet une densité spectrale de puissance constante


φB (ν) = σ 2 . (VI.3)

VI.2.3 Trajectoires
Après avoir étudié le problème de la représentation spectrale de la fonction d’autocorrélation,
nous allons nous intéresser au problème de la représentation spectrale des trajectoires du signal
{Xn }. Pour chaque trajectoire du signal, l’existence de cette décomposition devient un problème
déterministe qui a été traité dans les premiers chapitres dans les cas stables, d’énergie finie ou
harmonisable.
Considérons tout d’abord un signal stationnaire ergodique, l’équation (V.24) nous permet
d’écrire que p.s.
n
1X
lim |Xk | = E(|X1 |)
n→∞ n
k=1
n
1X
lim |Xk |2 = E(|X1 |2 ).
n→∞ n
k=1

Donc si X n’est pas identiquement nul, E(|X|) et E(|X|2 ) sont des quantités strictement positives,
ce qui implique que p.s.
X∞ ∞
X
|Xk | = ∞ et |Xk |2 = ∞.
k=1 k=1

Pour presque tout ω, la trajectoire X(k, ω) n’est pas dans `2 ni dans `1 et l’existence systématique
de la transformée de Fourier n’est pas assurée.
Il existe pourtant une forme de relation de Fourier entre les trajectoires de processus stochas-
tiques. Pour l’introduire considérons le cas particulier d’un processus à spectre de raies défini
par
XN
Xk = Aj e2iπνj k
j=1

où les Aj sont des variables aléatoires du second ordre. Il apparaı̂t immédiatement que le proces-
sus ainsi défini n’est stationnaire du second ordre que si les Aj sont des variables non corrélées,
puisque :
N
X N
X N
X
E(Xn Xp∗ ) = E(|Aj |2 ) e2iπνj (n−p) + E(Aj A∗l ) e2iπνj n e−2iπνl p .
j=1 j=1 l=1,l6=j

Lorsque cette condition est satisfaite, il est naturel de considérer la suite des Aj comme la
représentation spectrale du signal Xk stationnaire d’ordre deux.
La généralisation de cette représentation à l’ensemble des processus stationnaires faibles est
l’objet du théorème de Cramer-Khintchine.
82 Signaux aléatoires stationnaires faibles

Théorème de Cramer-Khintchine

Soit Xk un signal stationnaire du second ordre et µX sa mesure spectrale de puissance. Il


existe p.s. une représentation spectrale de toute trajectoire du signal aléatoire, c’est-à-dire que
p.s., on peut écrire Z
X(k) = e2iπkν dx(ν). (VI.4)
Π

La représentation {x(ν)}ν∈R appelée représentation spectrale de Cramer-Khintchine est


unique. C’est un signal aléatoire à accroissements non corrélés centrés de mesure structurelle
µX . Ceci signifie que, pour tout (ν1 , ν2 ) ∈ R2
¡ ¢
E |x(ν2 ) − x(ν1 )|2 < ∞
¡ ¢
E x(ν2 ) − x(ν1 ) = 0
et pour tout ]ν1 , ν2 ] ⊂ R, ]ν3 , ν4 ] ⊂ R,
³¡ ¢¡ ¢´ ¡ ¢
E x(ν2 ) − x(ν1 ) x(ν4 ) − x(ν3 ) = µX ]ν1 , ν2 ] ∩ ]ν3 , ν4 ] .

L’intégrale (VI.4) est une intégrale de Wiener dont l’étude dépasse le cadre de ce cours. Le
lecteur intéressé peut se rapporter à [1] ou à [7].
Dans le cas où X(k) est gaussien de mesure spectrale µX , sa représentation spectrale de
Cramer-Khintchine x(ν) est un processus gaussien.

VI.3 Filtrage linéaire convolutionnel


Soit {Xn } un signal aléatoire centré discret stationnaire du second ordre de mesure spectrale
de puissance µX , et {hn } la réponse impulsionnelle d’un filtre convolutionnel stable. Montrons
que pour tout n ∈ Z, la somme X
hn−k Xk (VI.5)
k∈Z
converge p.s. vers une v.a.r. Yn . En effet, (|Xn | − 1)2 > 0, donc
E(|Xn |) 6 1 + E(|Xn |2 ) = 1 + CX (0) = K < ∞,
où CX (0) est la puissance de X. Ceci implique que
µX ¶ X X
E |hn−k ||Xk | = |hn−k | E(|Xk |) 6 K |hn−k | < ∞
k∈Z k∈Z k∈Z

ce qui assure la convergence presque sûre de la somme (VI.5). On définit ainsi un signal aléatoire
{Yn } qui est la sortie du filtre ayant pour signal d’entrée {Xn }. Le signal {Xn } étant centré,
e
E(Yn ) = 0. Notons H(ν) la transformée de Fourier associée à la réponse impulsionnelle du filtre
X
e
H(ν) = hk e−2iπkν .
k∈Z

On peut montrer qu’alors le signal {Yn } est stationnaire faible et sa mesure spectrale de puissance
s’exprime sous la forme
e
µY = |H(ν)| 2
µX (dν). (VI.6)
Lorsque le signal d’entrée X admet une densité spectrale de puissance φX (ν), Y admet éga-
lement une densité spectrale et le résultat précédent se met sous la forme
e
φY (ν) = |H(ν)|2
φX (ν). (VI.7)

Notons enfin que le filtrage linéaire d’un signal gaussien conserve le caractère gaussien.
VI.4 Analyse spectrale classique 83

VI.4 Analyse spectrale classique


VI.4.1 Position du problème
Soit {Xn } un signal aléatoire discret stationnaire du second ordre centré de fonction d’auto-
corrélation CX (k), admettant la densité spectrale de puissance
X
φX (ν) = CX (k) e−2iπkν . (VI.8)
k∈Z

Dans la pratique, on travaille la plupart du temps avec un certain nombre de réalisations


(souvent une seule) d’un extrait X0 , . . . , XN −1 du signal {Xn }. La question que l’on examinera
ici est la suivante : peut-on approcher la densité spectrale de puissance φX (ν) du signal {Xn }
à partir de ces échantillons ? Ce problème, qui constitue ce que l’on appelle l’analyse spectrale
du signal {Xn }, est un des plus anciens problèmes du traitement de données expérimentales qui
consiste, en clair, à rechercher des pseudo-périodes dans une suite de données au comportement
irrégulier.

VI.4.2 Périodogramme
Définition

L’analyse spectrale a été naturellement conduite à l’origine par analogie avec l’analyse
fréquentielle des signaux déterministes. Lorsque l’on dispose d’une suite de N échantillons
x0 , . . . , xN −1 , la répartition de l’énergie de cette séquence suivant les fréquences est donnée
par le module au carré de la transformée de Fourier :
¯N −1 ¯2
1 ¯¯ X ¯
−2iπνk ¯
x e ¯ .

k
k=0

La suite x0 , . . . , xN −1 est maintenant considérée comme la réalisation d’un extrait X0 , . . . , XN −1


du signal aléatoire stationnaire faible {Xn } vérifiant les hypothèses de l’introduction. L’expres-
sion précédente est alors la réalisation de la fonction aléatoire
¯N −1 ¯2
b 1 ¯¯ X ¯
−2iπνk ¯
φN (ν) = ¯ Xk e ¯ . (VI.9)
N
k=0

Cette fonction est appelé le périodogramme. Notons que cette fonction est en pratique calculée
sur les fréquences multiples de 1/N fois la fréquence d’échantillonnage par un algorithme de
transformée de Fourier rapide (TFR ou FFT, présentée au chapitre II). Si l’on désire obtenir
les valeurs de φbN sur d’autres fréquences, il est possible d’interpoler l’expression précédente en
effectuant du « bourrage de zéro » (voir le chapitre II).
Dans la suite, nous allons montrer les qualités et les défauts de l’estimation de la densité
spectrale de puissance par le périodogramme. Pour cela, nous ferons usage d’une autre expression
du périodogramme.

Transformée de Fourier du périodogramme

En développant le module dans l’expression du périodogramme (VI.9), on a


N −1 N −1
1 X X
φbN (ν) = Xl Xm e−2iπ(l−m)ν .
N
m=0 l=0
84 Signaux aléatoires stationnaires faibles

En posant k = l − m, l’expression précédente devient :

N −1 N −1−|k|
1 X X
φbN (ν) = e−2iπkν
Xm Xm+|k| .
N
k=1−N m=0

bN (k) la suite définie par :


Notons C
(
1 PN −|k|−1 Xj X si |k| < N,
b
CN (k) = N j=0 j+|k| (VI.10)
0 sinon.

On a alors : X
φbN (ν) = bN (k) e−2iπkν
C (VI.11)
k∈Z

qui est analogue à (VI.8).


La suite CbN (k), qui est appelée autocorrélation empirique biaisée, possède la propriété sui-
vante ³ ´ ³ ´
E C bN (k) = 1 − |k| C(k), (VI.12)
N
qui implique que pour N tendant vers l’infini, E(C bN (k)) tend vers la fonction d’autocorrélation
du processus C(k). Cette propriété et la relation (VI.11) justifient intuitivement le choix du
périodogramme pour approximer la densité spectrale de puissance. Elle permet de plus d’étudier
précisément la qualité de cette approximation, comme nous allons le voir dans la suite.

Caractéristiques de l’analyse spectrale par périodogramme

En utilisant l’expression précédente, on peut calculer la moyenne du périodogramme φbN (ν) :


N
X −1 ³ |k| ´
E(φbN (ν)) = 1− C(k) e−2iπkν
N
k=1−N

ce qui montre que pour N fixé, il existe une différence entre la valeur moyenne E(φbN (ν)) et la
densité spectrale φ(ν). Cette différence est appelée un biais. On s’intéresse ensuite à l’évolution
de ce biais lorsque le nombre d’échantillons N tend vers l’infini. En supposant
X
|C(k)| < ∞,
k∈Z

on montre, à l’aide du théorème de convergence dominée de Lebesgue

lim E(φbN (ν)) = φ(ν).


N →∞

On étudie la convergence en moyenne quadratique de la suite des v.a. φbN (ν) vers la valeur de
la densité spectrale φ(ν), pour une fréquence ν fixée quelconque, c’est-à-dire que l’on s’intéresse
à la variance asymptotique ³ ´
lim E (φbN (ν) − φ(ν))2 .
N →∞

On peut montrer que cette valeur est en général non nulle. Si on considère par exemple un bruit
blanc gaussien de variance σ 2 , dont la densité spectrale est constante φX (ν) = σ 2 , alors on a
³ ´ ¯ ¯
1 2 ¯ 1 − e2iπν ¯2
σ −4
E (φbN (ν) − σ ) = 1 −
2 2
+ 2 ¯¯ ¯ ,
N N 1 − e2iπN ν ¯
VI.5 Analyse spectrale paramétrique 85

expression qui ne tend pas vers 0 lorsque N tend vers l’infini. Il n’y a pas convergence en moyenne
quadratique du périodogramme vers la densité spectrale de puissance. Pratiquement, ceci consti-
tue un très grave défaut pour l’analyse spectrale. En effet, grossièrement, un périodogramme
même calculé avec un très grand nombre d’échantillons conserve un aspect très chahuté, du fait
de la variance résiduelle non nulle. Cet aspect gêne considérablement l’interprétation du résultat.
Ci-après, nous présentons une technique classique de réduction de cette variance asymptotique
qui est obtenue au prix d’une perte de résolution.
La figure VI.1 illustre les résultats obtenus à l’aide du périodogramme simple pour le signal de
sortie d’un filtre récursif d’ordre 2 dont l’entrée est un bruit blanc gaussien. Les caractéristiques
du filtre utilisé sont celles du filtre présenté dans le §III.2.4.

Périodogramme moyenné

Pour remédier aux limitations du périodogramme, on définit le périodogramme moyenné de


la façon suivante : la séquence d’observations de N échantillons est divisée en K sous-séquences
chacune de longueur M avec N = KM . Sur chacune de ces sous-séquences {kM, (k + 1)M − 1}
on peut calculer un périodogramme
¯M −1 ¯2
1 ¯X ¯
φbKN (ν) =
k ¯
¯ XkM +n e −2iπnν ¯ .
¯ (VI.13)
M
n=0
Le périodogramme moyenné est alors défini comme la moyenne empirique des périodogrammes
calculés sur les K sous-séquences. Sous hypothèse d’ergodicité, on peut alors montrer que
³ ´
lim E φbkKN (ν) − φ(ν) = 0
K,N →∞
³ ´
lim E (φbkKN (ν) − φ(ν))2 = 0
K,N →∞

donc le périodogramme moyenné converge en moyenne quadratique vers la densité spectrale de


puissance du signal.
La figure VI.2 montre la densité spectrale de puissance obtenue à l’aide du périodogramme
moyenné sur un signal de caractéristiques identiques à celles utilisées pour le périodogramme
simple. On peut constater l’effet de lissage de la courbe obtenu lorsque le paramètre K augmente.

Conclusion

La méthode du périodogramme présente l’avantage d’être conceptuellement simple et de


pouvoir exploiter les algorithmes rapides de mise en œuvre de la transformée de Fourier discrète
(FFT). Lorsqu’on dispose d’un nombre important d’échantillons, la méthode du périodogramme
converge en moyenne vers la densité spectrale de puissance et en moyenne quadratique si on
utilise l’approche par périodogramme moyenné. Cependant elle présente un certain nombre d’in-
convénients en pratique et en particulier ne permet pas d’obtenir une bonne discrimination entre
des raies spectrales ou des pics très rapprochés. D’autre part, si le nombre d’échantillons dont
on dispose est faible, l’estimation peut s’avérer médiocre. Différentes méthodes permettant de
pallier cet inconvénient pour certaines classes de signaux et en particulier pour les signaux AR
et ARMA, ont été développées. Dans la suite de ce chapitre on se limitera au cas des AR pour
exposer les principes de base de ces autres approches.

VI.5 Analyse spectrale paramétrique


Les modèles autorégressifs à moyenne mobile (ARMA), et parmi ceux-ci les modèles autoré-
gressifs (AR), ont été présentés au chapitre V pour illustrer la construction de signaux aléatoires.
86 Signaux aléatoires stationnaires faibles

Une realisation du signal Densite spectrale de puissance

1
1
0.8
0.5
0.6
0
0.4
−0.5
0.2
−1
0
0 50 100 150 200 250 −0.5 0 0.5
periodogramme simple, N = 256

0.8

0.6

0.4

0.2

0
−0.5 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 0.3 0.4 0.5
periodogramme simple, N = 1024

0.8

0.6

0.4

0.2

0
−0.5 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 0.3 0.4 0.5
periodogramme simple, N = 4096

0.8

0.6

0.4

0.2

0
−0.5 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 0.3 0.4 0.5

Fig. VI.1. Périodogramme simple


VI.5 Analyse spectrale paramétrique 87

Une realisation du signal Densite spectrale de puissance

1
1
0.8
0.5
0.6
0
0.4
−0.5
0.2
−1
0
0 50 100 150 200 250 −0.5 0 0.5
periodogramme moyenne, M = 256, K = 10

0.8

0.6

0.4

0.2

0
−0.5 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 0.3 0.4 0.5
periodogramme moyenne, M = 256, K = 100

0.8

0.6

0.4

0.2

0
−0.5 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 0.3 0.4 0.5
periodogramme moyenne, M = 256, K = 500

0.8

0.6

0.4

0.2

0
−0.5 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 0.3 0.4 0.5

Fig. VI.2. Périodogramme moyenné


88 Signaux aléatoires stationnaires faibles

Les signaux ARMA jouent un rôle très important en traitement du signal, d’une part parce qu’ils
permettent de représenter de façon réaliste un certain nombre de signaux « physiques » (parole
humaine par exemple) et d’autre part parce que leur structure spécifique peut être directement
exploitée comme nous le verrons dans le domaine de l’analyse spectrale et de l’estimation. Nous
allons à présent rappeler brièvement leur définition et étudier leurs caractéristiques en terme de
densité spectrale.

VI.5.1 Définition
Un signal aléatoire à temps discret stationnaire du second ordre est dit ARMA d’ordre p, q, ou
ARMA(p, q) si il existe deux ensembles de coefficients réels {ai } et {bj } de dimensions respectives
p et q et un bruit blanc échantillonné {Bn } de variance σ 2 tels que
p
X q
X
Xn + ai Xn−i = Bn + bj Bn−j , ∀n ∈ Z. (VI.14)
i=1 j=1

— Lorsque q est égal à 0, le signal {Xn } est dit AR d’ordre p, et on a


p
X
Xn + ai Xn−i = Bn .
i=1

— Lorsque p est égal à 0, le signal {Xn } est dit à moyenne mobile (MA de l’anglais Moving
Average) d’ordre q :
Xq
Xn = Bn + bj Bn−j .
j=1
Remarque :
En automatique, ces représentations sont fréquentes mais avec l’adjonction de la prise en
compte de la commande uk supposée connue sous la forme
p
X q
X r
X
Xn + ai Xn−i = Bn + bj Bn−j + ck un−k , ∀n ∈ Z.
i=1 j=1 k=1

Pour tenir compte de la présence de uk , le signal est dénommé ARMAX où le X indique la
présence d’une entrée eXogène. On définit de façon similaire les ARX.

VI.5.2 ARMA réguliers


Le signal {Xn } peut s’interpréter comme le signal de sortie d’un filtre de fonction de transfert
P
1 + qj=1 bj z −j P (z)
Pp −i
=
1 + i=1 ai z Q(z)
dont l’entrée est le bruit blanc {Bn }. Le signal ARMA est dit régulier si la fonction de transfert
est stable, i.e., si le polynôme Q(z) n’a pas de racine sur le cercle unité. Dans ce cas, on montre
(VI.7) que la densité spectrale de puissance du signal {Xn } s’écrit
¯ ¯
2iπν ) ¯2
¯
2 ¯ P (e
φX (ν) = σ ¯ ¯ .
Q(e2iπν ) ¯
De manière unique, on peut trouver P 0 (z) et Q0 (z), deux polynômes à coefficients réels sans
racine hors du disque unité {z, |z| 6 1}, tels que P 0 (0) = Q0 (0) = 1, et tels que
¯ 0 2iπν ¯2
¯
2 ¯ P (e )¯
φX (ν) = σ ¯ 0 2iπν ¯¯ .
Q (e )
VI.5 Analyse spectrale paramétrique 89

Dans ce cas, (VI.15) correspond au filtrage linéaire stable et causal du bruit blanc {Bn } par le
filtre rationnel de fonction de transfert P 0 (z)/Q0 (z). La représentation associée à P 0 (z) et Q0 (z)
est la représentation canonique de {Xn }. Le bruit blanc associé Bn apparaissant dans (VI.14)
est alors non corrélé à Xn−k , ∀k > 0.

VI.5.3 Représentation spectrale des signaux autorégressifs


Soit {Xn } un signal centré stationnaire du second ordre autorégressif régulier d’ordre p. Dans
ce cas, la densité spectrale de puissance du signal X est définie par

σ2
φX (ν) =
|Q(e2iπν )|2

où σ 2 est la variance du bruit blanc générateur. En utilisant la représentation du signal AR sous
la forme
Xp
Xn + ak Xn−k = Bn ,
k=1

l’équation précédente peut s’écrire

σ2
φX (ν) = ¯ P ¯ (VI.15)
¯1 + p a e −2iπkν ¯2
k=1 k

qui correspond au module au carré de la FFT du signal de sortie du filtre. Il suffit donc de
connaı̂tre les paramètres ak du modèle autorégressif pour obtenir la valeur de la densité spectrale
de puissance.

VI.5.4 Équations de Yule-Walker


On considère un signal AR dont on ne connaı̂t pas la représentation canonique en termes des
coefficients ak , k = 1, . . . , p mais pour lequel on dispose d’une suite de valeurs de la fonction
d’autocorrélation CX (k). On cherche à calculer sa densité spectrale de puissance φX et donc
d’aprés (VI.15) dans un premier temps à déterminer les coefficients ak du modèle AR.
La fonction d’autocorrélation de {Xn } est définie par
µ ³ p
X ´¶
CX (j) = E(Xn Xn+j ) = E Xn Bn+j − ak Xn−k+j
k=1
p
X
= E(Xn Bn+j ) − ak CX (j − k).
k=1

Le deuxième terme E(Bn+j Xn ) se simplifie puisque la canonicité impose l’indépendance entre


les réalisations du bruit blanc à l’instant j et les valeurs passées du signal, on a donc
½
0 si j > 0,
E(Bn+j Xn ) = 2
σ si j = 0.

L’expression générale de CX (j) est donc


½ Pp
− Pk=1 ak CX (j − k) si j > 0,
CX (j) = (VI.16)
− pk=1 ak CX (−k) + σ 2 si j = 0.
90 Signaux aléatoires stationnaires faibles

Ces expressions définissent les équations de Yule-Walker. Pour déterminer les coefficients ak
lorsqu’on dispose des valeurs de CX , il suffit donc de résoudre p équations pour j > 0 et de
déterminer σ 2 pour j = 0. Ces équations peuvent être exprimées sous forme matricielle par
    
C(0) C(−1) . . . C(−(p − 1)) a1 C(1)
 C(1) C(0) . . . C(−(p − 2))     C(2) 
   a2   
   ..  = −  ..  .
  .   . 
C(p − 1) C(p − 2) . . . C(0) ap C(p)

Le signal étant réel, l’équation précédente peut s’écrire sous la forme plus simple
    
C(0) C(1) . . . C(p − 1) a1 C(1)
 C(1) C(0) . . . C(p − 2)     C(2) 
   a2   
   ..  = −  ..  . (VI.17)
  .   . 
C(p − 1) C(p − 2) . . . C(0) ap C(p)

La matrice d’autocorrélation est symétrique et de Toeplitz. Il suffit finalement de connaı̂tre


p coefficients d’autocorrélation pour déterminer la densité spectrale.
La détermination des coefficients ak nécessite donc de résoudre le système précédent qui
admet une solution unique si la matrice d’autocorrélation est inversible. L’inversion de cette
matrice peut s’effectuer par les procédures classiques de type Gauss-Jordan mais on verra par la
suite qu’en exploitant la structure spécifique de cette matrice on peut définir des algorithmes plus
efficaces (Algorithme de Levinson) qui permettent de réduire le nombre d’opérations à effectuer
de O(p3 ) à O(p2 ).

VI.5.5 Estimation spectrale autorégressive


Dans la pratique, disposant de N échantillons d’un signal inconnu, l’analyse spectrale autoré-
gressive consiste à assimiler ce signal à un signal autorégressif d’ordre p, puis à estimer sa densité
spectrale de puissance en calculant la fonction d’autocorrélation empirique biaisée (VI.10)
N −|k|−1
X
bN (k) = 1
C Xj Xj+|k| .
N
j=0

En utilisant ces coefficients dans les équations de Yule-Walker on peut alors en déduire les
coefficients b b
ap par inversion du système VI.17 dans lequel on a remplacé C(k) par C(k).
a1 , . . . , b
La densité spectrale correspondante est alors obtenue par

b X (ν) = ¯ b2
σ
Φ P ¯ .
¯1 + p b a e −2iπkν ¯2
k=1 k

où
p
X
σ2 bN (0) +
b =C bN (j) b
C aj
j=1

obtenu à partir de l’équation (VI.16) pour k = 0. Cette technique d’analyse spectrale présente
dans un certain nombre de cas l’avantage d’obtenir une meilleure discrimination entre raies et
une variance inférieure à celle obtenue par l’analyse spectrale non paramétrique.
91

Bibliographie

[1] P. Brémaud, 1993, Signaux aléatoires pour le traitement du signal et les communications,
Ellipses, Paris.
[2] E. Jury, 1964, Theory and application of the z transform method, John Wiley, New York.
[3] M. Labarrère, J.-P. Krief et B. Gimonet, 1993, Le filtrage et ses applications, Cepadues
Edition.
[4] M. J. Lighthill, 1959, An introduction to Fourier analysis and generalized functions, Cam-
bridge University Press.
[5] M. Loève, 1977, Probability theory I, Springer Verlag, New York.
[6] L. Schwartz, 1965, Méthodes mathématiques pour les sciences physiques, Hermann, Paris.
[7] C. Soize, 1993, Eléments mathématiques de la théorie déterministe et aléatoire du signal,
cours de l’ENSTA, Masson, Paris.

Vous aimerez peut-être aussi

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy