Gasso 2000
Gasso 2000
Gasso 2000
THESE
DOCTORAT DE
L'INSTITUT NATIONAL POLYTECHNIQUE DE LORRAINE
Par
Komi GASSO
M'SIRDI N. Rapporteur
GUERRA T-M. Rapporteur
TRIGEASSOU J-C. Examinateur
FOULLOY L. Examinateur
RICHARD A. Examinateur
RAGOT J. Directeur de thèse
MOUROT G. Co-Directeur de thèse
BASTIN E. Invitée
LEBOIS D. Invité
Mes vifs remerciements vont à G. MOUROT pour son aide, sa disponibilité, ses
judicieux et précieux conseils pendant toute la durée de ma thèse. Nos fréquentes discussions et
ses remarques constructives m'ont été d'une grande utilité dans l'avancement de mes travaux.
INTRODUCTION GENERALE........................................................................................ 5
CRAN-INPL Page 1
II.2.3.3. Représentation d'état ........................................................................................................................................55
Page 2 CRAN-INPL
III.3.2. FUSION DE MODELES LOCAUX ................................................................................................................110
CRAN-INPL Page 3
IV.5. MODELE A COURT TERME................................................................................................................... 173
ANNEXES................................................................................................................... 189
Page 4 CRAN-INPL
CHAPITRE I
+/1&'.'5&'4'24'5'06#6+10
&'55;56'/'5&;0#/+37'5
010.+0'#+4'5
CRAN-INPL Page 11
6200$,5(
Page 12 CRAN-INPL
Chapitre I Modèles de représentation des systèmes dynamiques non-linéaires
I.1. INTRODUCTION
L'identification d'un système dynamique non-linéaire MISO (multi-entrées, mono-sortie)
consiste à construire un modèle mathématique de ce système à partir des mesures de ses entrées
et de sa sortie. Soit un ensemble de données d'apprentissage 'N={ys(t), U(t), t=1, ..., N} où U(t)
et ys(t) désignent respectivement les entrées et la sortie instantanées du système. L'identification
d'un système MISO à partir de ces mesures expérimentales revient à trouver une relation
mathématique de la forme :
y t = ) ϕ t ,θ
05 05 (I-1)
qui donne à chaque instant une estimation satisfaisante de la sortie ys du système. La fonction
multivariable ) est le modèle du système et y t la sortie instantanée de ce modèle. La fonction )
05
dépend du vecteur de paramètres θ et d'un vecteur de variables expliquant le comportement du
système appelé vecteur de régression et noté ϕ(t). Le vecteur de régression est formé à partir des
entrées U, de la sortie ys du système ou de la sortie y du modèle à des instants antérieurs à
l'instant courant t. Le problème d'élaboration du modèle décrit par l'équation (I-1) se décompose
en 4 tâches :
CRAN-INPL Page 13
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
t −1 t −1
05 1 61 61
yi t = ∑ ∑ hi τ 1 , , τ i u t − τ 1 u t − τ i
τ 1 =0 τ i =0
6 (I-2-b)
1
hi τ 1 , , τ i 6 est la réponse impulsionnelle d'ordre i du système. Dans la pratique, la série est
tronquée à l'ordre n mais du fait que le modèle utilise exclusivement les entrés décalées u t − τ ,0 5
il nécessite un grand nombre de paramètres pour représenter convenablement le système. Cette
description présente donc peu d'intérêt en pratique.
Une autre catégorie de modèles est celle des modèles sous forme de blocs structurés,
constitués par des blocs distincts de modèles dynamiques linéaires et de non-linéarités statiques.
Ces blocs interconnectés sont placés en série et/ou en parallèle pour former les modèles de
Wiener et de Hammerstein généralisés [Haber et Unbehauen, 1990]. La forme simple de ces
structures est illustrée sur les figures I-1 et I-2. Sur ces schémas, le signal intermédiaire v(t) entre
les deux blocs n'est pas accessible.
v(t)
Non-linéarité Système linéaire
u(t)
statique dynamique
05
yt
Les techniques d'identification de ces modèles qu’on peut trouver notamment dans les
références [Ouladsine et al., 1993], [Wigren, 1993], [Boutayeb et al., 1993] et [Boutayeb et
Darouach, 1995] approchent souvent la non-linéarité par un polynôme de degré fini. Le modèle
de Hammerstein d'un système mono-entrée et mono-sortie est exprimé dans ce cas par les
équations suivantes :
Page 14 CRAN-INPL
Chapitre I Modèles de représentation des systèmes dynamiques non-linéaires
05 05 05 05
v t = c0 + c1u t + c2 u 2 t +...+ c pu p t
−1 −2 −m (I-3)
b q + b q +...+ b q
y0 t 5 = 1
−1
2
v 0t 5
−2
m
−n
1 + a q + a q +...+ a q
1 2 n
Dans la catégorie des modèles sous forme de blocs structurés, on peut ranger le modèle
GMDH (acronyme de Group Method Data Handling). Il représente le système par un ensemble
de sous-modèles interconnectés (voir figure I-3). Les sous-modèles sont disposés en couches.
Les variables d'entrée des modèles de la première couche sont les entrées du système. Ces sous-
modèles peuvent être linéaires, polynomiaux, … Les paramètres de chaque sous-modèle de la
couche 1 sont identifiés en minimisant la somme des écarts quadratiques entre la sortie du
système et celle du sous-modèle. Les sorties des sous-systèmes de la couche 1 constituent les
entrées des modèles de la couche 2. Pour limiter la complexité du problème, on ne retient d'une
couche à l'autre que les sorties les plus significatives [Haber et Unbehauen, 1990]. Le modèle
GMDH est ainsi construit couche par couche. Le sous-modèle de la dernière couche dont la
sortie est suffisamment proche de celle du système fournit la sortie globale y(t). Notons que le
modèle GMDH est similaire au réseau de neurones MLP (voir paragraphe I.3.2).
Couche 1 Couche 2
u1(t) 1
f1,1 u1 , , um 6
3
f2,1 y1,1 , , y1,n1 8
1
f1,2 u1 , , um 6
3
f2, j y1,1 , , y1,n1 8 05
yt
1
f1,n1 u1 , , um 6 3
f2,n2 y1,1 , , y1,n1 8
um(t)
Un autre type de modèle non-linéaire a été développé par Leontaritis et Billings [1985]
sous la forme de l'équation (I-1) où le vecteur de régression est :
0 5 3 8 4 9
ϕ (t ) = [ ys t − 1 , ..., ys t - ny , u1 t − nku , ..., u1 t − nku − nu1 ,
1
4 1
9
(I-4)
, um 4t − nk 9, ..., u 4t − nk
um m um − num 9 e0t − 15, ..., e1t − n 6]
e
où :
ys(t-k) - ( k = 1,, n y ) - est la sortie décalée du système,
CRAN-INPL Page 15
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
n y est l'ordre associé à ys, nu j et nku j sont respectivement l'ordre et le retard associé à l'entrée uj,
Cette représentation est appelée modèle NARMAX [Chen et Billings, 1989-b], par
extension au modèle linéaire ARMAX. Plusieurs modèles ont été dérivés de cette structure
générale.
Les algorithmes d'estimation paramétrique des modèles NARMAX utilisent soit des
techniques d'optimisation non-linéaire hors ligne [Billings et Voon, 1986], [Chen et Billings,
1988] ou en ligne [Chen et Billings, 1989-a], soit la méthode des moindres carrés étendus (MCE)
ou les variables instrumentales [Billings et Voon, 1984]. Ces dernières méthodes permettent
d'éliminer le biais dû à la présence des termes du bruit de mesure dans le vecteur de régression.
La recherche de structure consiste à déterminer les ordres ny, nu j , ne, les retards nku j et à choisir
l'ordre n des polynômes. Les monômes sont ensuite formés (ils constituent les variables du
modèle). Une procédure de sélection des variables est appliquée afin de retenir les variables qui
possèdent un pouvoir d'explication important de la sortie du système. La procédure de sélection
est soit une méthode basée sur l'analyse des coefficients de corrélation partielle [Billings et
Voon, 1986] soit un algorithme basé sur les moindres carrés orthogonaux (MCO) [Korenberg et
al., 1988], [Zhu et Billings, 1993].
Page 16 CRAN-INPL
Chapitre I Modèles de représentation des systèmes dynamiques non-linéaires
05 05 05 0 5 1 0 56
y t = ∑ ρ i t yi t = ∑ ρ i t fi ϕ t
i i
(I-5)
Les fonctions de pondération ρi(t) constituent les fonctions de validité associées aux modèles
locaux.
La construction de modèles basés sur cette relation a donné lieu à différents types de
structures dont les réseaux à fonctions de base radiale (RFBR), les modèles flous, les modèles
multi-experts, ... Les réseaux de neurones qui modélisent le système comme une succession de
couches de neurones interconnectés sont généralement rangés dans cette catégorie de modèles
non-linéaires. Notons que les modèles sous forme de blocs structurés précédemment présentés
adhèrent au principe de décomposition sans toutefois faire appel à des fonctions de validité
locale. Dans les paragraphes suivants, nous présentons ces modèles non-linéaires ainsi que la
problématique de leur identification.
Introduits par Zadeh en 1965, les concepts flous permettent de caractériser un système ou
un phénomène par un ensemble de règles composées de propositions linguistiques exprimant les
imprécisions du raisonnement humain. Modéliser un système à partir de ces concepts revient à
générer une base de règles de la forme :
CRAN-INPL Page 17
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
Soit x une variable de prémisse. A un ensemble flou & (représentant par exemple le
qualificatif faible) de la variable x, on associe une fonction dite d'appartenance qui fournit le
degré d'appartenance d'une mesure de x à cet ensemble flou. Cette fonction d'appartenance est
définie sur l'univers de discours X de la variable x (c'est-à-dire son intervalle de variation) par :
µ & x : X → 0, 1
05 (I-6)
Elle détermine de manière graduelle l'appartenance d'une mesure de x à &. En comparaison, les
ensembles mathématiques classiques ont des fonctions d'appartenance qui prennent deux
valeurs : 0 (non appartenance) ou 1 (appartenance). Les fonctions d'appartenance sont des
fonctions à support borné, c'est-à-dire des fonctions qui sont significativement différentes de
zéro sur un domaine limité de la variable x. Les fonctions d'appartenance usuellement employées
(leur définition mathématique, leur forme) sont regroupées dans le tableau I-1.
0.8
Triangle c − b c − b
max min
1
1
1 1
2
2 triangle 0.4
0.2
0
0 b1 c1 b2 1
Trapèze c − b c − b
max min
1
1
1 2
2
0.2
grande base
0
0 b1 c1 c2 b2 1
0.8
0 x − c5
exp −
2
z c : centre 0.6
Gaussienne 2σ 2
z σ : dispersion 0.4
0.2
0
0 c-σ c c+σ 1
0.8
0
0 c-σ c 1
Page 18 CRAN-INPL
Chapitre I Modèles de représentation des systèmes dynamiques non-linéaires
La structure générale d'un modèle flou présentée sur la figure I-4 comporte quatre parties
principales :
¾ base de règles qui contient toutes les règles nécessaires pour décrire le système,
Base de connaissance
Base de données
Base de règles
Moteur d'inférence
La prémisse d'une règle est toujours exprimée sous la forme de propositions portant sur
les variables de prémisse. Par contre, l'expression de la partie conséquence peut avoir différentes
variantes. Suivant la forme de la partie conséquence, on distingue principalement trois types de
modèles flous [Babuška, 1998] :
• les modèles flous linguistiques proposés par Zadeh en 1973 et Mamdani en 1977 (voir
[Babuška, 1998]) : la partie conséquence est un ensemble flou et un même ensemble flou
de sortie peut être associé à plusieurs ensembles flous de prémisse,
• le modèle à relations floues proposé par Pedrycz en 1984 (voir [Babuška, 1998]) : c'est une
généralisation du modèle précédent car une prémisse est associée à plusieurs propositions
CRAN-INPL Page 19
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
Les modèles flous linguistiques et les modèles à relation floue forment une classe de
modèles adaptés pour la représentation des systèmes non-linéaires en se basant sur des concepts
proches du langage humain. Comparativement, le modèle de Takagi-Sugeno relève plus de la
modélisation classique des systèmes car sa partie conséquence n'est pas floue et n'introduit pas
d'imprécision. Nous présentons dans les paragraphes suivants les deux types de modèles flous les
plus fréquemment rencontrés dans la littérature : modèle de Mamdani et celui de Takagi-Sugeno.
Soit le modèle (I-1) ; le modèle de Mamdani exprime la fonction ) sous la forme d'un
ensemble de règles 5i :
&i est l'ensemble flou d'entrée et 'i l'ensemble flou de sortie pour la règle 5i. M est le nombre de
règles de la base de connaissance. Le vecteur z(t) ( z t ∈ 05 nz
) est le vecteur des variables de
prémisse. Ce vecteur peut être la totalité ou une partie du vecteur de régression ou comprendre
des variables auxiliaires susceptibles de caractériser les non-linéarités du système.
L'ensemble flou &i est un ensemble multivariable. Dans la pratique, comme il est
difficile de raisonner sur un ensemble multivariable et surtout pour avoir une interprétation
linguistique des règles, il est parfois préférable d'exprimer la partie prémisse comme une
combinaison logique (conjonction, disjonction ou négation) de propositions portant sur chaque
élément du vecteur z(t). Suivant cette idée, la partie prémisse de la règle 5i se décompose, par
exemple, comme suit :
5 i : si z1 t est & i,1 ou z 2 t est & i,2 . . . et znz t est & i,nz alors y t est 'i
05 05 05 05 (I-8)
où les &i,j sont les modalités associées à chacune des variables de prémisse zj(t) j = 1,, nz dans
1 6
la règle 5i. L'ensemble flou multivariable &i est ensuite construit à partir des ensembles flous
monovariables &i,j. La forme résultante de l'ensemble flou &i dans l'espace de prémisse (espace
engendré par le vecteur de prémisse z) dépend des opérateurs utilisés pour traduire les
combinaisons logiques. Les opérateurs les plus courants sont présentés dans le tableau I-2.
Page 20 CRAN-INPL
Chapitre I Modèles de représentation des systèmes dynamiques non-linéaires
Opérateurs
Symbole Opérateurs probabilistes Opérateurs de Lukasiewicz Opérateurs de Zadeh
&1 ET &2
logiques
Tableau I-2 : Tableau des opérateurs logiques et des principaux opérateurs algébriques
correspondants.
vi z t = µ &i z t = ∏ µ &i , j z j t
nz
1 0 56 1 0 56 j =1
3 0 58 (I-9)
'i'=&'ο! i
L'ensemble flou de sortie '' image de &' par le modèle de Mamdani est formé alors par l'union
des ensembles flous individuels de sortie, soit :
'' = ''i
M
i =1
Pour obtenir une sortie numérique, l'ensemble flou '' est défuzzifié. La technique de
''
I y0t5 µ 1y0t56dy
y0 t 5 =
Y
'
(I-10)
I µ 1y0t56dy
Y
'
CRAN-INPL Page 21
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
Ce modèle exprime la partie conséquence des règles comme une fonction affine des
variables d'entrée :
Posons
1 0 56
ωi z t =
1 0 56
vi z t
(I-13)
M
∑ v 1 z0t 56
j
j =1
ωi(z(t)) est appelé degré de véracité normalisé de la règle 5i. L'équation (I-12) s'écrit :
M
05
y t = ∑ ω i z t yi t
i =1
1 0 56 0 5 (I-14)
On constate d'après la définition des degrés de véracité ωi(z(t)) que ceux-ci vérifient la contrainte
de partition unité, c'est-à-dire, leur somme vaut 1 pour tout échantillon de la base de données :
M
i =1
1 0 56
∑ω i z t = 1 ∀t (I-15)
Page 22 CRAN-INPL
Chapitre I Modèles de représentation des systèmes dynamiques non-linéaires
à une variable de prémisse. Deux ensembles flous sont définis sur le support de cette variable et
sont caractérisés par des fonctions d'appartenance trapézoïdales. A gauche sur la figure I-5, sont
représentés les degrés de véracité vi(z(t)) alors qu'à droite sont tracés les degrés de véracité
normalisés ωi(z(t)).
A
0.5 0.5
0 0
-1 -0.5 0 0.5 1 -1 -0.5 0 0.5 1
Figure I-5 : Illustration de la différence entre les degrés de véracité des règles (partie
gauche) et les degrés d'activation (partie droite) des modèles locaux associés.
On s'aperçoit que les degrés d'activation ωi(z(t)) diffèrent des degrés de véracité vi(z(t)). En
particulier, le point A relève de la modalité petit avec un degré de véracité de 0.6. Par suite de la
normalisation, il est "promu" à un degré de 1. Ceci signifie que le modèle local associé à la
modalité petit est activé à 100% au point A bien que le degré de véracité soit de 0.6. Il y a donc
discordance entre l'activation réelle d'un modèle local et la véracité de la prémisse qui a généré
ce modèle local. Or comme le mécanisme d'inférence du modèle TS réalise une coopération et
non une compétition entre les modèles locaux, ce sont les fonctions d'activation ωi(z(t)) qui
fixent la contribution au modèle global des modèles locaux associés. Nous qualifierons donc les
ensembles flous générés par ces fonctions, d'ensembles flous relatifs ou normalisés par
opposition aux ensembles flous absolus décrits par les degrés de véracité. Les deux types
d'ensembles flous coïncident si les degrés de véracités forment naturellement une partition unité :
c'est le cas des partitions floues fortes [Lindskög, 1996], [Glorennec, 1999] ou des ensembles
flous issus d'une procédure de classification [Babuška, 1998].
On peut constater après cette description des deux types de modèles flous courants, que la
représentation des systèmes par les modèles flous, en particulier le modèle de Takagi-Sugeno,
offre un formalisme intéressant permettant d'intégrer facilement des connaissances a priori et des
expériences acquises sur le système. En effet, si des connaissances physiques sur le
comportement du système dans certaines zone de fonctionnement sont disponibles, certaines
règles peuvent être définies a priori et ne seront pas modifiées lors de la phase d'identification du
modèle [Bortolet, 1998]. Les modèles locaux associés à ces règles peuvent être issus des
CRAN-INPL Page 23
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
En plus de cette possibilité d'intégration de connaissances a priori, les modèles flous sont
des approximateurs universels. Les propriétés d'approximation des modèles flous de type
Mamdani ont été étudiées entre autres par Wang et Mendel [1992], Kosko [1992] qui ont établi
que ces modèles peuvent approcher avec une précision arbitraire toute fonction continue définie
sur un domaine fini. Plus récemment, Ying [1998] a formulé, sur la base du théorème de
Weierstrass, les conditions suffisantes garantissant les propriétés d'approximateurs universels des
modèles de type Takagi-Sugeno.
La représentation d'un système par un modèle flou soulève des problèmes pratiques. En
particulier, il faut décider du type de modèle flou (Mamdani, TS), déterminer les variables de
prémisse. La prochaine étape est la décomposition de l'espace de prémisse, la caractérisation de
la partie conséquence. La décomposition de l'espace de prémisse peut être réalisée par une
partition grille, une partition suivant un arbre de décision ou à travers une technique de
classification. Ces techniques ne sont pas présentées ici, elles feront l'objet d'un développement
ultérieur dans le chapitre II (voir paragraphe II.4.1.2). De même la problématique d'estimation
des paramètres des modèles flous est traitée en détail dans le chapitre III dans le cadre de
l'approche multi-modèle.
L'un des modèles non-linéaires les plus populaires après les modèles flous est sans
conteste les réseaux de neurones. Les premiers travaux sur les réseaux de neurones avaient pour
objectif la modélisation du fonctionnement des neurones biologiques. Le réseau de neurones
biologiques est une structure de traitement parallèle et distribué de l'information constituée par
un ensemble d'unités de traitement (les neurones) interconnectées entre elles. L'utilisation de ces
concepts pour la représentation des systèmes non-linéaires a connu un grand succès et de
nombreuses applications dans divers domaines (l'automatique, l'économie, la reconnaissance de
formes, ...) sont rapportées dans la littérature.
Dans sa structure, un réseau de neurones comprend une couche d'entrée, une couche de
sortie, une ou plusieurs couches intermédiaires appelées couches cachées. Ces couches
comportent des neurones qui reçoivent en entrée des signaux qui subissent un traitement. Le
signal résultant est ensuite transmis aux neurones d'une autre couche ou de la même couche. Les
connexions entre couches peuvent être unidirectionnelles ou bidirectionnelles.
Page 24 CRAN-INPL
Chapitre I Modèles de représentation des systèmes dynamiques non-linéaires
1
05
g x =
1 + e− x
(I-16)
La sortie d'un MLP à nc couches cachées comportant chacune n neurones est exprimée par :
n
y t = w00 s 5 + ∑ w 0js 5φ j x t , Wj0c 5
05 4 05 9 (I-17)
j =1
où l'exposant (s) fait référence aux paramètres de la couche de sortie et l'exposant (c) aux termes
et paramètres des couches cachées. Le terme φj est la sortie du neurone j de la couche cachée nc.
Wj est un vecteur regroupant les poids agissant sur les entrées du neurone j. De façon générale,
la sortie φj(t) d'un neurone d'une couche cachée est calculée à partir des entrées xi(t) provenant de
la couche cachée précédente par la relation :
9 0 5
n
φ j x t , Wj0c 5 = g w0( c, j) + ∑ wi0,cj5 xi t
4 05 (I-18)
i =1
Une extension du réseau MLP est de considérer la sortie du réseau décalée dans le temps
comme un signal d'entrée des neurones des couches cachées. On parle alors de MLP récurrent.
1 1 1
ϕ1(t)
Σ y
Couche
de sortie
ϕnϕ(t)
1 1 1
Couche Couche 1 Couche 2 Couche nc
d'entrée
Figure I-6-a : Structure générale d'un réseau MLP
CRAN-INPL Page 25
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
1
x1(t) w w0,j
1,j
Σ φj
wn,j
xn(t)
(b)
Les propriétés d'approximateurs universels des MLP ont été établies notamment par
Funahashi [1989] : elles découlent de la flexibilité des réseaux de neurones, flexibilité qui est
liée aux degrés de liberté procurés par le nombre de couches cachées et le nombre de neurones
par couche.
L'identification d'un MLP comporte la détermination des entrées ϕi(t) du réseau, le choix
du nombre de couches cachées et du nombre de neurones par couche. Pour une structure fixée,
des techniques d'optimisation non-linéaire (gradient, Gauss-Newton, ...) et d'autres dérivées de la
structure connexionniste des réseaux de neurones (algorithme de propagation arrière) sont
utilisées pour estimer les poids afin d'adapter la sortie du réseau à celle du système. Afin de
déterminer la taille optimale du réseau de neurones, deux approches heuristiques sont
applicables : la première consiste à augmenter de façon graduelle le nombre de couches et le
nombre de neurones par couche. Le contrôle de la croissance du réseau est réalisé en testant les
capacités d'approximation du réseau obtenu sur des données de validation (voir paragraphe
I.4.2). La deuxième stratégie démarre avec un réseau important puis procède par suppression
successive des connexions entre neurones (élimination des poids des connexions) jusqu'à
l'obtention d'une structure satisfaisante. Une synthèse des techniques d'élimination des poids est
présentée dans l'article de Kerling [1999].
avec :
g : fonction d'activation à base radiale,
wi : poids,
Ci : centre de la fonction d'activation (vecteur multidimensionnel),
Page 26 CRAN-INPL
Chapitre I Modèles de représentation des systèmes dynamiques non-linéaires
∑ i−1 ϕ t − Ci
T
ϕ t − Ci
05 ∑i
= ϕ t − Ci
1 05 6 1 05 6 (I-20)
La fonction g est caractérisée par un support borné ; elle est unimodale, monotone,
décroissante quand le point courant s'éloigne de son centre. Il existe plusieurs types de fonction
de base mais on associe généralement aux RFBR la fonction gaussienne de centre Ci et de
matrice de dispersion Σi.
A cause de la similitude des équations (I-17) et (I-19), on assimile les RFBR à des
réseaux de neurones à une couche cachée à la différence qu'un neurone de la couche cachée ne
comporte pas de sommateur et que la fonction d'activation g(.) détermine une zone d'influence à
partir de son centre Ci. Les RBFR sont également des d'approximateurs universels ; ces
propriétés ont été établies entre autres par Powell [1987], Park et Sandberg [1991].
• Au lieu de fixer a priori les centres et les dispersions des fonctions d'activation, des
chercheurs à l'instar de Karyiannis et Mi [1997], construisent progressivement le RFBR en
divisant en deux parties, le domaine d'influence de la fonction de base où l'erreur
d'approximation est la plus élevée. Des techniques comme l'algorithme de classification
FCM (Fuzzy C-Means) servent à déterminer la position des centres qui ne coïncident plus
alors avec les points du jeu d'identification. Une fois son centre fixé, la dispersion d'une
fonction de base est déduite de la matrice de variance-covariance calculée à partir des K
plus proches voisins de son centre. Les poids wi sont ensuite optimisés par la méthode des
moindres carrés. Le procédé est réitéré jusqu'à la satisfaction d'un critère d'arrêt.
Une autre catégorie de modèles non-linéaires est constituée par les modèles multi-experts
(mixtures of experts) [Jacobs et al., 1991] qui ont fait leur apparition dans la littérature au début
CRAN-INPL Page 27
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
des années 1990. Cette approche est basée sur l'idée que les données analysées sont générées par
un ensemble de M experts, un expert étant une fonction d'un vecteur d'entrée ϕ(t) et d'un vecteur
de paramètres θi. Un vecteur d'entrée ϕ(t) est traité simultanément par tous les modules experts
et chaque expert fournit une sortie yi supposée corrompue par un bruit gaussien ei de moyenne
nulle et de variance σi :
05 1 05 6 05
yi t = f ϕ t , θ i + ei t i = 1,, M (I-21)
Le champ d'action d'un expert i est déterminé par une fonction d'activation gi(ϕ(t)) à support
limité. Ces fonctions d'activation pondèrent les contributions de chaque expert à la sortie du
modèle global ; elles vérifient les contraintes suivantes :
M
0 5
0 ≤ gi ϕ (t ) ≤ 1
i =1
0 5
∑ gi ϕ (t ) = 1 i = 1,, M (I-22)
A cause de l'interprétation probabiliste de cette approche, les paramètres mis en jeu pour
décrire un modèle multi-experts sont estimés en optimisant un critère de maximum de
vraisemblance par l'algorithme EM (Expectation - Minimisation) de Dempster (voir [Meila et
Jordan, 1997] ). Cet algorithme comporte deux étapes :
• étape d'Espérance : on y évalue la probabilité qu'une donnée observée relève d'un module
expert particulier,
• étape de Maximisation : les paramètres des fonctions d'activation et ceux des modèles
experts sont calculés de manière à maximiser le critère de maximum de vraisemblance.
Page 28 CRAN-INPL
Chapitre I Modèles de représentation des systèmes dynamiques non-linéaires
d'une chaîne de Markov dont les états sont les experts du système. Le passage d'un état à un autre
est lié à une probabilité de transition dépendant de l'état précédent et des entrées à l'instant
courant.
Une autre approche est la représentation du système par des "hinging hyperplanes".
Initialement proposée par Breiman en 1993, son application à la modélisation des systèmes non-
linéaires a été approfondie par Pucar en 1995 [Pucar, 1995]. Mathématiquement, un "hinging
hyperplane" à deux hyperplans est définie par l'une des deux équations suivantes :
05 3 05
h t = max ϕ T t θ + , ϕ T t θ − 05 8 (I-24-a)
h0t 5 = min3ϕ 0t 5θ
T +
,ϕ T 0t 5 θ 8
−
(I-24-b)
Afin d'éviter le passage brutal (switching) d'un hyperplan à l'autre, les opérateurs min et max sont
généralement remplacés par une fonction sigmoïde.
Conclusion
La liste des structures non-linéaires présentées dans cette première partie n'est pas
exhaustive. Nous nous sommes limités à la présentation des modèles courants dans la littérature.
Ces différentes structures non-linéaires sont essentiellement des modèles de type boîte noire.
Leurs propriétés d'approximateurs universels sont établies ; elles sont donc capables d'approcher
une large gamme de systèmes non-linéaires. Dans la section suivante, nous étudions les principes
généraux de l'identification des systèmes : estimation paramétrique, recherche de structure,
validation.
CRAN-INPL Page 29
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
performances du modèle afin de décider son acceptation ou son rejet. Examinons tour à tour ces
différents points.
Soit 6 une structure fixée. Elle contient forcément des paramètres qui sont regroupés
dans un vecteur θ. La valeur de ces paramètres est estimée, à partir d'un ensemble de données
expérimentales ' N = ys t , ϕ t
<1 0 5 0 56AtN=1 , par minimisation d'un critère, fonctionnelle de l'écart entre
la sortie du système y (t) et celle du modèle y0t 5 :
s
1 N 2
J θ , 'N =
1 6 ∑ ε t,θ
0 5 (I-26-a)
2 t =1
ε t = y t , θ − ys t
05 0 5 05 (I-26-b)
Supposons que le modèle du système est linéaire par rapport aux paramètres, c'est-à-dire
de la forme :
y t = ) ϕ t , θ = φT ϕ t θ
05 05 1 0 56
où φ . est une fonction qui réalise une transformation non-linéaire du vecteur de régression. La
05
solution au problème (I-25) est analytique et est fournie par l'estimateur des moindres carrés :
θ = R −1Φ T Ys (I-27-a)
R = ΦT Φ (I-27-b)
Ys = ys 1 ys N
05 0 5 T
Φ= φϕ11 0 56 φ1ϕ 0 N 56 T
(I-27-c)
Le cas typique est celui des RFBR dont les centres et la dispersion sont fixés. Les
paramètres restants interviennent alors de manière linéaire dans le modèle avec le vecteur φ ϕ t1 0 56
formé par la concaténation des fonctions de base.
Page 30 CRAN-INPL
Chapitre I Modèles de représentation des systèmes dynamiques non-linéaires
entre sa plus grande valeur propre et sa plus petite valeur propre est élevé (supérieur par
exemple à un seuil de 106). D'un point de vue numérique, l'estimation θ n'est pas stable et est
sensible à des perturbations même faibles affectant la matrice Φ ou le vecteur Ys. Pour s’en
convaincre considérons un petit exemple d’équations linéaires à résoudre.
¼ Exemple I-1
0.015
0.0675 "# 0.0825 "#
Φ=
0.1915 0.8605
## 1"
et θ = # . On en déduit Ys =
1.052
## .
2.02 9.0824 !1$ .
111024
!0.7721 3.4716#$ ! 4.2437 #$
L'estimation θ que nous calculons par les moindres carrés avec ces valeurs est
exactement égale au vecteur de paramètres θ. On ajoute ensuite sur Ys, un bruit
e T = 1e −3 × -0.6483 0.9013 1.297 - 1.5503 . L’estimation obtenue est alors
T
θ = 7.552 −0.4579 qui est très différente du vrai vecteur de paramètres. Dans un
troisième temps, on ajoute sur la sortie non bruitée, une autre perturbation
e T =1e −3 × -0.11 - 0.536 0.555 0.091 . La nouvelle estimation est θ = −4.6332 2.2529
T
qui n’est pas plus proche du vrai vecteur de paramètres. L'estimation θ s'adapte donc aux
valeurs particulières prises par la perturbation additive affectant Ys. Dans cet exemple, la
cause du problème est une quasi-colinéarité des colonnes de Φ (le conditionnement de la
matrice d’information est de 1010).
_ Solution : la régularisation
La théorie de la régularisation est née des travaux de Tikhonov sur la résolution des
problèmes mathématiques mal posés, c'est-à-dire, des problèmes pour lesquels il n'existe pas une
solution unique ou la solution obtenue est instable et très sensible à de faibles perturbations.
Dans le cadre de l'identification des systèmes, les techniques de régularisation consistent à
ajouter des pénalités sur le problème d’estimation des paramètres de façon à réduire l’extrême
sensibilité du modèle par rapport aux données d'identification. Dans le cas qui nous intéresse, ces
pénalités se traduisent par l’adjonction à la matrice d'information R d’une matrice λK qui lui
confère un meilleur conditionnement. Ceci équivaut à minimiser le critère modifié suivant :
λ T
Jreg θ , 'N = J θ , 'N +
1 6 1 6 θ Kθ (I-28)
2
CRAN-INPL Page 31
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
basée sur une décomposition en valeurs singulières de la matrice Φ. Les ξi sont les valeurs
singulières, les 9i les vecteurs propres associés aux valeurs propres ξ i2 et les 8i les vecteurs
propres de la matrice Φ Φ T . On constate d’après (I-29-b) que le coefficient de régularisation
élimine l'influence des plus petites valeurs propres qui sont responsables de l’instabilité de la
solution des moindres carrés. Pour une valeur propre ξ i2 << λ , l'axe de recherche suggéré par le
vecteur propre associé n'est pas fiable : il a peu d'influence sur le critère et son effet est donc
annihilé par λ. Par contre si ξ i2 >> λ , la direction de recherche déterminée par cette valeur
propre est importante : elle est donc peu affectée par le coefficient de régularisation.
Le choix du coefficient de régularisation est délicat : s'il est trop grand (ξ i2 << λ ∀ i ), le
vecteur de paramètres tendra vers 0 et s'il est trop petit (ξ i2 >> λ ∀ i ), l'effet stabilisant de la
régularisation est inopérant. Comme on désire améliorer le conditionnement de la matrice R, le
coefficient λ est choisi de sorte que le conditionnement τR+λI de la matrice d’information
régularisée R + λI :
ξ 2max + λ
τ R+ λI = 2
ξ min + λ
Page 32 CRAN-INPL
Chapitre I Modèles de représentation des systèmes dynamiques non-linéaires
soit inférieur à un seuil limite τlim. Si le conditionnement actuel de R dépasse cette valeur, on
calcule λ par la formule :
autrement, le problème n’est pas régularisé. Dans nos simulations, nous calculons le coefficient
de régularisation de manière à garantir un taux de conditionnement entre 105 et 106. Des valeurs
similaires ont été utilisées aussi par [Fiordaliso, 1999]. Elles sont certes arbitraires mais dans nos
simulations, elles se sont révélées suffisantes pour obtenir des résultats satisfaisants.
Lorsque le modèle du système est non-linéaire par rapport aux paramètres, il n'existe pas
de solution analytique au problème (I-25). On recourt à des techniques itératives d’optimisation
non-linéaire : partant d'une estimation courante θ 0 k 5 des paramètres, on recherche la direction
dans l'espace paramétrique et le déplacement à effectuer suivant cette direction afin de diminuer
le critère. Il existe une large variété de techniques mais dans le cadre de ce document, nous
privilégions celles basées sur un développement limité du critère J θ , ' N au voisinage du point
1 6
θ 0 k 5 (pourvu que le critère soit différentiable par rapport à θ, ce que nous supposerons tout le
long de ce mémoire). La mise à jour du vecteur des paramètres est alors dérivée de la formule
générale suivante :
θ 0 k +15 = θ 0 k 5 − η 0 k 5 D0 k 5 (I-31)
η(k) est le pas de recherche ou le coefficient de relaxation (suivant les cas) à l'itération (k) et D0 k 5
la direction de recherche dans l'espace paramétrique. Selon la façon dont D0 k 5 est calculée, on
distingue différentes méthodes d'optimisation dont les principales sont rappelées ci-dessous (voir
[Walter et Pronzato, 1994]).
Algorithme du gradient
Cette méthode est basée sur un développement du critère au 1er ordre. La direction de
recherche à l'itération (k) est spécifiée par le gradient du critère G(k) :
4 9
G θ 0k 5 =
∂J
= ∑
N 0 50 5
∂ε t , θ
ε t,θ (I-32)
∂θ θ =θ t =1 ∂θ θ =θ 0 k 5
0k 5
CRAN-INPL Page 33
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
Le pas de recherche η est calculé par une interpolation quadratique ou cubique du critère
autour du point θ ( k ) ou par une heuristique consistant à augmenter η si le critère décroît et à le
réduire si le critère augmente.
Algorithme de Newton
Il repose sur un développement au 2e ordre du critère. La direction et le pas de recherche
sont spécifiés simultanément par l'équation :
D0 k 5 = H0−k15 G0 k 5
H0 k 5 =∑
N 0 5 0 5
∂ε t , θ ∂ε t , θ
+∑
0 50 5
N ∂ 2ε t,θ
ε t,θ (I-33)
t =1 ∂θ ∂θ T t =1 ∂θ 2 θ =θ 0 k 5
Algorithme de Gauss-Newton
Simplification de la méthode de Newton, il utilise une expression approchée du hessien
en négligeant les termes du 2e ordre :
Ha = ∑
N 0 5 0 5
∂ε t , θ ∂ε t , θ
(I-34)
t =1 ∂θ ∂θ T
Le hessien approché Ha étant défini positif, cet algorithme garantit la convergence vers un
minimum. La procédure de calcul du coefficient de relaxation η reste identique.
Algorithme de Levenberg-Marquardt
De façon similaire à l'estimation des moindres carrés, le hessien peut être mal
conditionné. Pour éviter une singularité de la matrice Ha, l'algorithme de Levenberg-Marquardt
remplace le hessien approché par un hessien régularisé :
H R = H a + λ 0k 5I (I-35)
Page 34 CRAN-INPL
Chapitre I Modèles de représentation des systèmes dynamiques non-linéaires
Algorithme de Quasi-Newton
Comparable à la méthode de Newton ou Gauss-Newton à la différence près que l'inverse
de la matrice hessienne n'est pas calculée directement mais déduite de la relation de mise à jour
suivante :
où C(k-1) est une matrice de correction calculée à partir de H(k-1) et des informations sur la
variation du gradient et des paramètres au point courant θ ( k ) . Au début, l'algorithme se comporte
comme celui du gradient, puis se rapproche de celui de Gauss-Newton au fur et à mesure que
l'estimation de l'inverse du hessien devient précise.
Etant choisie une famille de modèle non-linéaire (RFBR, MLP, modèle flou, …), la
recherche des paramètres structuraux d'un modèle de cette famille est guidée par deux soucis : le
modèle élaboré doit être simple (c'est-à-dire comporter le moins de paramètres possibles) et
précis afin d'avoir de bonnes propriétés de généralisation. Par généralisation, nous entendons de
bonnes capacités d'approximation du modèle quand il est appliqué sur des données autres que
celles qui ont servi à son identification. Malheureusement, ces deux souhaits sont antagonistes
comme le montre le développement suivant.
_ Compromis biais/variance
Considérons que la qualité du modèle élaboré sur un jeu d'identification 'N est mesurée
par ses performances sur des jeux de validation 'NV comportant Nv données. L'erreur
quadratique moyenne de généralisation (MSGE) du modèle ) ϕ t ,θ nθ 05 comportant nθ
paramètres est exprimée par la formule [Larsen et Hansen, 1994] :
(I-37)
CRAN-INPL Page 35
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
Supposons que les données analysées sont générées par le "vrai" modèle suivant qui est
évidemment inconnu :
ys t = )0 t + e t
05 05 05
où e(t) est une séquence aléatoire de moyenne nulle et de variance σ2. On montre que le MSGE
se décompose de la façon suivante :
'
*
' ' NV
* nθ nθ
'NV
Biais 2 Variance
(I-38)
Le terme de biais mesure l'inadéquation entre le "vrai" modèle et le meilleur modèle )*. C'est un
indicateur des limites de la structure de modèle choisie. Le terme de variance donne des
indications sur la sensibilité du modèle par rapport aux différents jeux de validation. Il est
directement lié à la variance de l'estimation θ nθ c'est-à-dire à la distance entre θ nθ et θ *nθ . Ce
terme de variance est d'autant plus important que le modèle comporte beaucoup de paramètres.
En effet, l'expression asymptotique du terme de variance est donnée par [Ljung, 1987] :
nθ
Variance ≈ σ 2 (I-39)
N
Page 36 CRAN-INPL
Chapitre I Modèles de représentation des systèmes dynamiques non-linéaires
1
Variance
Biais
MSGE
Critères
0.5 Structure
optim ale
0
5 10 15 20 25 30
Nom bre de param ètres
_ Approximations du MSGE
Dans la pratique, le calcul direct du MSGE n'est pas possible. D'autres critères ont été
proposés dans la littérature comme outils d'aide à la sélection de la structure d'un modèle.
La façon directe d'approcher le MSGE est d'évaluer la structure identifiée sur des
données de test : c'est la validation croisée qui nécessite au moins un deuxième jeu de validation.
En vue de réduire la sensibilité du modèle par rapport aux données, une démarche consiste à
diviser les données disponibles en V ensembles 'j de taille identique et ayant, si possible, les
mêmes caractéristiques. A chaque fois, un ensemble 'j différent est utilisé comme ensemble de
validation alors que les données des V-1 ensembles restants servent à l'identification d'un
modèle. V modèles )j sont ainsi construits et le critère de généralisation est approché par :
1 V Nj
∑ ∑ ys t − ) j t
3 0 5 0 58 2
MSGE ≈ (I-40)
V j =1 t =1
Dans certaines applications, la rareté des données contraint à évaluer la structure choisie
par une approximation du MSGE calculée sur les données d'identification. Ceci a conduit à des
critères de sélection qui essayent de trouver un compromis entre la précision du modèle et sa
complexité. Parmi ces critères, on peut citer :
FPE = J θ , 'N
1 6 NN +− nn θ
θ
(I-42)
CRAN-INPL Page 37
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
_ Test d'hypothèses
Précisons que le modèle 01 comporte plus de paramètres que le modèle 00. Le test est basé sur
le rapport de "pseudo-vraisemblance" :
J θ 0 , 'N
1 6
LR = N log
J 1θ , ' 6
1 N
C = N log J θ , 'N + nθ K 1
21 67 05 (I-44)
Nous avons montré précédemment que pour réduire le biais - voir (I-38) -, il faut
introduire beaucoup de paramètres dans le modèle. Une conséquence est la surparamétrisation du
modèle ; il risque de s'adapter aux réalisations particulières du bruit affectant les données
d'identification à cause de l'existence dans la structure de paramètres superflus ou inutiles : c'est
le phénomène de sur-apprentissage. Ce phénomène est gênant car le modèle identifié risque de
généraliser mal dans la mesure où les données de validation auront des réalisations différentes du
bruit. Une façon d'éviter le sur-apprentissage est de modifier la structure du modèle avec une
paramétrisation mieux adaptée : c'est la sélection de structure. Une autre approche consiste à
conserver la même paramétrisation mais en rajoutant des pénalités sur le problème d'estimation
des paramètres : c'est la régularisation. Montrons maintenant comment la régularisation permet
de déterminer un compromis entre le biais et la variance. Pour la facilité de la présentation, nous
nous mettons dans le cadre de la régularisation "ridge" appliquée à l'estimateur des moindres
carrés.
Page 38 CRAN-INPL
Chapitre I Modèles de représentation des systèmes dynamiques non-linéaires
Il est évident à partir des équations (I-28) et (I-29) que la régularisation "ridge" contraint
à trouver un vecteur de paramètres non optimal par rapport aux données d’identification,
l'optimum étant le minimum du critère J θ , ' N . D’un autre côté, on peut montrer (voir annexe
1 6
A) que la régularisation contribue à diminuer la variance des paramètres. Outre ces deux aspects,
on a vu que le coefficient de régularisation réduit l'influence de certaines directions de
recherche ; il bride de ce fait la flexibilité du modèle. Pour cette raison, on ne parle plus de
nombre de paramètres du modèle mais de nombre effectif de paramètres (par opposition aux
paramètres superflus). Ce nombre est défini par [Bossley, 1997] :
5 9 = ∑ ξ ξ+ λ
nθ 2
40
n p eff = trace R R + λI
-1
2
i =1 i
i
(I-45)
Il est inférieur ou égal à la dimension nθ du vecteur θ et sa valeur est contrôlée par le coefficient
de régularisation λ. En résumé, la régularisation introduit un "biais" mais elle réduit la flexibilité
du modèle tout en améliorant la variance des paramètres. On retrouve là le compromis biais-
variance, ce qui suggère l'existence d'un coefficient de régularisation λ optimal qui maximise les
performances de généralisation du modèle. Dans les approximations AIC, FPE, MDL et autres
de l'erreur de généralisation, on remplace alors le nombre de paramètres du modèle par le
nombre effectif de paramètres. Ces critères généralisés s'écrivent :
FPE λ = J θ , 'N ×
05 1 6
N + n peff λ 05 (I-46-b)
N − n peff 0λ 5
MDL λ = log J θ , 'N + n peff λ
05 21 67 0 5 logN0 N 5 (I-46-c)
Le coefficient λ est alors calculé de façon à minimiser ces critères généralisés. Cette
minimisation requiert des techniques itératives d’optimisation [Orr, 1996], [Bossley, 1997].
Remarques
CRAN-INPL Page 39
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
Une méthode directe de validation d'un modèle est de tester ses capacités de
généralisation en validant le modèle sur des données de test c'est-à-dire des données entièrement
différentes de celles ayant servi à l'estimation des paramètres ou lors de la phase de recherche de
structure. En particulier, pour les modèles destinés à la simulation, cette validation se traduit par
la simulation du modèle sur les données de test.
Une autre technique de validation est le test de corrélation des résidus (écarts ε entre la
sortie du système et celle du modèle) largement appliqué dans l'identification des systèmes
linéaires. Le modèle linéaire élaboré est valide si la fonction d'autocorrélation des résidus rε ε et
si la fonction d'intercorrélation rε u entre les résidus et les entrées se trouvent dans l'intervalle de
confiance à 95% défini par ±1,96 N (voir [Ljung, 1987]). La fonction d'intercorrélation rx1x2 τ 05
entre deux variables x1 et x2 se calcule par la formule :
N −τ
∑ x1 t − x1 x1 t − x1
1 0 5 61 0 5 6
t =1
rx1x2 0τ 5 = N
2
N
2
(I-47)
∑ 1 x 0t 5 − x 6 ∑ 1 x 0t 5 − x 6
1 1 2 2
t =1 t =1
Le test des résidus peut être étendu aux systèmes non-linéaires [Leontaritis et
Billings, 1987] : pour examiner si des effets non-linéaires n'ont pas été modélisés, on détermine
si la fonction d'intercorrélation entre les résidus et des monômes formés à partir des éléments du
vecteur de régression est en dehors de l'intervalle de confiance à 95%.
I.5. CONCLUSION
L'objectif de chapitre est de dresser un état de l'art de l'identification des systèmes
dynamiques non-linéaires. Les principales structures non-linéaires couramment rencontrées dans
la littérature ont été présentées. Elles relèvent globalement de deux visions de représentation des
systèmes : l'approche globale et l'approche locale. Toutes les structures non-linéaires décrites
Page 40 CRAN-INPL
Chapitre I Modèles de représentation des systèmes dynamiques non-linéaires
sont essentiellement des modèles boîte noire et leurs propriétés d'approximateurs universels sont
bien établies. Elles peuvent donc approcher une large gamme de systèmes dynamiques non-
linéaires.
Dans les deux chapitres suivants, nous traiterons le problème d'identification d'un
système non-linéaire par le multi-modèle : le chapitre II présente l'approche multi-modèle et on y
établit le lien qui existe cette approche et les modèles flous TS, les modèles multi-experts et les
RBRF. Le chapitre III est consacré principalement aux problèmes d'estimation des paramètres et
de sélection de la structure d'un multi-modèle.
CRAN-INPL Page 41
CHAPITRE II
++#2241%*'/7.6+/1&'.'17
4'5'#7&'/1&'.'5.1%#7:
CRAN-INPL Page 43
6200$,5(
Page 44 CRAN-INPL
CHAPITRE II Approche multi-modèle ou réseau de modèles locaux
II.1. INTRODUCTION
Désignée encore sous la dénomination de "operating regime approach", l'approche multi-
modèle a connu un intérêt certain depuis la publication des travaux de Johansen et Foss en 1992
[Johansen et Foss, 1992]. En réalité, les travaux de ces deux chercheurs ont concerné la
formalisation mathématique d'un concept qui existait sous différents noms dans plusieurs
domaines. L'idée de cette approche est d'appréhender le comportement non-linéaire d'un système
par un ensemble de modèles locaux (généralement de structure simple) caractérisant le
fonctionnement du système dans différentes zones de fonctionnement. Le modèle global du
système est une combinaison des modèles locaux. La motivation de cette décomposition découle
du constat qu'il est souvent difficile d'élaborer un modèle global susceptible de rendre compte de
toutes les particularités et de toute la complexité d'un système. Cette approche intuitive de la
modélisation a été appliquée par exemple par Tong (voir [Fiordaliso, 1999]) qui a proposé des
modèles autorégressifs à seuils (modèles TAR) pour la modélisation de séries temporelles.
Différents modèles de la série sont construits et le passage d'un modèle à un autre est déclenché
par une fonction de type échelon (fonction de Heaviside). Cette fonction est indexée sur les états
antérieurs de la série temporelle. Dans le même ordre d'idée, Strömberg et al. [1991] ont proposé
de représenter des systèmes non-linéaires avec des modèles linéaires par morceaux construits à
partir d'un arbre de décision binaire. Le résultat de ces modèles de commutation est une
approximation discontinue du système. Mais ces discontinuités peuvent être indésirables dans
certaines applications. Il est plus intéressant d'assurer un passage progressif d'un modèle à l'autre
au lieu d'une commutation brutale. Pour ce faire, on substitue aux fonctions de commutation à
front raide des fonctions à pente douce. Les zones de validité des modèles ne sont plus des
partitions disjointes totalement isolées les unes des autres mais on autorise un recouvrement
entre elles. Les fonctions de commutation sont alors des fonctions à dérivée continue dont la
pente détermine la vitesse de transition d'un modèle à l'autre. L'intégration de ce principe aux
modèles TAR a engendré les modèles autorégressifs à seuils doux (ou modèles STAR) en 1986
(voir [Fiordaliso, 1999]). Indépendamment, à la même époque, Takagi et Sugeno [1985] ont
présenté leur modèle flou dont le point essentiel est la représentation du système étudié par un
ensemble de règles "si prémisse alors conséquence". La conséquence d'une règle est un modèle
local affine et le modèle global s'obtient par agrégation des modèles locaux. Quelques années
plus tard, Jacob et al. [1991] ont présenté les modèles multi-experts dont la philosophie repose
sur la combinaison de différents experts (un expert est un modèle local décrivant le
comportement du système dans une zone limitée) par l'entremise de fonctions d'activation.
Hathaway et Bezdek [1993] ont développé les Fuzzy c-Regression Models (FCRM) comme un
problème de classification consistant à identifier c classes floues dont les prototypes sont des
modèles linéaires. La résultante de toutes ces techniques est un modèle global du système qui est
une combinaison de modèles localement valables. Cette notion a été reprise dans un cadre
CRAN-INPL Page 45
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
mathématique général par Johansen et Foss [1992], ce qui a conduit à l'approche multi-modèle
de représentation des systèmes non-linéaires.
Le chapitre est divisé en deux parties. La première partie est consacrée à la présentation
de l'approche multi-modèle. Nous y décrivons la formulation mathématique du multi-modèle
ainsi que ses propriétés d'approximateurs universels. Dans cette partie, nous établissons
également le lien entre l'approche multi-modèle et les modèles non-linéaires présentés dans le
premier chapitre. La deuxième partie est une description détaillée de la problématique
d'identification d'un multi-modèle. En particulier, nous abordons les problèmes de définition de
l'espace de fonctionnement du système, de décomposition de cet espace en zones de
fonctionnement. Nous discutons également du compromis à réaliser entre la complexité de la
structure des modèles locaux et leur nombre. Le dernier point évoqué dans la deuxième partie
concerne le choix d'un critère d'apprentissage pour l'estimation des paramètres d'un multi-
modèle.
yt =) ϕ t
05 05 (II-1)
où ϕ(t) est le vecteur de régression. Supposons qu'on dispose d'un ensemble de M modèles
locaux fi(ϕ(t)) descriptifs du comportement du système dans différentes zones de
fonctionnement. Ces modèles peuvent être construits par exemple à partir de connaissances
physiques sur le fonctionnement du système dans ces zones. La validité locale de chaque modèle
1 05 6
fi est indiquée par une fonction de validité ρ i ϕ t , β i paramétrée par le vecteur βi et telle que
1 05 6
ρ i ϕ t , β i ≥ 0, ∀i . Cette fonction est significativement différente de 0 si le point courant ϕ(t) est
proche du "centre" ϕi de la zone et décroît plus ou moins rapidement vers 0 dès qu'on s'en
éloigne. Pour un nombre suffisant M de modèles locaux judicieusement positionnés dans l'espace
de régression, on peut exprimer le modèle global recherché ) ϕ t comme la combinaison de
05
ces modèles locaux, plus précisément comme le barycentre des modèles locaux pondérés par leur
fonction de validité. Sous la condition :
M
1 05 6
∑ ρi ϕ t , β i > 0
i =1
∀ϕ t 05
on déduit le modèle global :
Page 46 CRAN-INPL
CHAPITRE II Approche multi-modèle ou réseau de modèles locaux
M
1 0 5 6 1 0 56
∑ ρ i ϕ t , β i fi ϕ t
05
yt = i =1
M
(II-2)
∑ ρ 3ϕ 0t 5, β 8
j j
j =1
En posant :
1 05 6
ωi ϕ t ,β =
1 05 6
ρi ϕ t , β i
(II-3)
M
∑ ρ 3ϕ 0t 5, β 8
j j
j =1
CRAN-INPL Page 47
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
1 1 Fonctions de validité
1
0.8 0.8
0.5
0.6 0.6
0
0 0.5 1
Fonctions d'interpolation
0.4 0.4
1
0.2 0.2
0.5
0 0
0
0 0.5 1 0 0.5 1 0 0.5 1
• les fonctions de validité ont un support localisé et leurs centres couvrent de façon dense
l'espace de régression (ceci équivaut à supposer une répartition suffisamment dense des
Page 48 CRAN-INPL
CHAPITRE II Approche multi-modèle ou réseau de modèles locaux
• les modèles locaux fi sont les p premiers termes du développement en série de Taylor de la
fonction )0 ϕ t autour des points de fonctionnement ϕi.
05
Bien que ces résultats donnent une idée sur la façon de construire les modèles locaux, ils
ne sont pas applicables car souvent dans la pratique, le vrai modèle )0 ϕ t est inconnu. De plus
05
ces résultats ne précisent pas le nombre maximal de modèles locaux nécessaires pour garantir
une précision arbitraire ε de l'approximation, ni la position des modèles locaux. La seule
indication est une répartition dense des modèles locaux.
vecteur z(t). Ses composantes sont les variables caractéristiques du système. Elles sont soit des
éléments du vecteur de régression (les entrées, la sortie du système ou celle du multi-modèle aux
instants antérieurs à l’instant courant), soit des variables auxiliaires issues de la transformation
des variables de régression (transformations polynomiale, logarithmique…) et susceptibles de
rendre compte des non-linéarités du système. Nous noterons =i la zone de validité du modèle fi.
1
Dans la pratique, une couverture uniforme n'est pas nécessaire car il est peu probable que la non-linéarité du
système soit uniforme. Le système aura un comportement plus complexe dans certaines zones de fonctionnement
que dans d'autres.
CRAN-INPL Page 49
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
Il existe une large variété de choix pour définir les modèles locaux associés aux zones de
fonctionnement. La complexité de leur structure (modèle constant, modèle linéaire ou non-
linéaire) est laissée au libre arbitre de l'utilisateur. Néanmoins dans la pratique, des modèles
locaux de structure simple, principalement des modèles linéaires ou affines, sont privilégiés afin
de pouvoir appliquer les techniques d'analyse de l'automatique linéaire aux modèles locaux
(analyse des pôles et des zéros, gain statique, …). Différentes représentations des modèles
locaux sont envisageables ; certaines sont décrites dans les sous-sections qui suivent.
En considérant le choix des modèles locaux suggéré par Johansen et Foss [1993] (cf.
paragraphe II.2.2), on définit les modèles locaux fi comme les p premiers termes du
développement en série de Taylor du vrai modèle )0 ϕ t autour des points ϕi. En se limitant à
05
un ordre p=1, on obtient :
∂)0 ϕ
fi ϕ t = )0 ϕ i + ϕ t − ϕ i
1 0 56 1 6 1 05 6 T
∂ϕ ϕ =ϕ i
1 0 56 05
fi ϕ t = ϕ T t θ i1 + θ i 0 (II-5)
où :
∂)0 ϕ
θ i1 = θ i 0 = )0 ϕ i − ϕ iT θ i1
1 6 (II-6)
∂ϕ ϕ =ϕ i
L'interprétation directe de cette relation est qu'une architecture multi-modèle avec des modèles
locaux affines est un modèle affine à paramètres variables au cours du temps. La variation des
paramètres est fonction de la zone de fonctionnement dans laquelle évolue le système. Il est alors
Page 50 CRAN-INPL
CHAPITRE II Approche multi-modèle ou réseau de modèles locaux
1 05 6 05
fi ϕ t , θ i = ϕ Ta t θ i (II-8)
où θi est le vecteur de paramètres local formé par la concaténation de θi1 et θi0. ϕa(t) est le
vecteur de régression augmenté défini par :
T
05
ϕa t = ϕT t 1 05 (II-9)
La forme des modèles locaux étant définie, intéressons-nous maintenant aux éléments du
vecteur de régression car suivant la constitution de ce vecteur, on peut distinguer des formes
particulières de multi-modèle. Trois cas seront analysés étant entendu que d'autres types de
vecteur de régression sont applicables. Pour la simplicité de la présentation, on supposera que
tous les modèles locaux possèdent les mêmes paramètres structuraux (entrées, ordres, retards).
Le vecteur de régression est formé par la sortie et les entrées du système décalées dans le
temps. Pour un système à m entrées, il a la forme suivante :
T
05 0 5 3 8 3 8 3 8 3 8 3
ϕ t = − ys t − 1 − ys t − ny u1 t − nku1 u1 t − nku1 − nu1 um t − nkum um t − nkum − num 8
(II-10)
Dans cette équation, ys représente la sortie du système, ny désigne l'ordre de la partie auto-
régressive, nu j et nku j désignent respectivement l'ordre et le retard associés à l'entrée uj
( j = 1, , m ). En adoptant une écriture polynomiale, la sortie du modèle local fi(ϕ(t), θi)
explicitée par yi(t) s'exprime :
m
05 0 5 05 05 4
yi t = − Ai q ys t + ∑ Bij q u j t − nku j + θ i 0
j =1
9 (II-11)
où :
ny
05
Ai q = ∑ ak(i ) q − k
k =1
(II-12-a)
nu j −1
05
Bij q = ∑ b (jki) q − k
k =0
(II-12-b)
CRAN-INPL Page 51
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
q-1 désigne l'opérateur retard. Les coefficients des polynômes Ai et Bij et θi0 sont les paramètres
des modèles locaux à estimer. La structure multi-modèle obtenue pour un système SISO2 est
schématisée sur la figure II-2. On constate aisément qu'elle est de type série-parallèle (ou erreur
d'équation) car faisant intervenir la sortie du processus décalée dans le temps.
ω1(t)
Modèle local 1
− A1 ( q ) ys (t )+B1 ( q )u( t − nk ) + θ 10 Π
ω2(t)
Modèle local 2
Π Σ y(t)
− A2 ( q ) ys ( t )+B2 ( q )u( t − nk ) + θ 20
ωM(t)
Modèle local M
−AM ( q ) ys ( t )+BM ( q )u( t − nk )+θ Π
M0
• Cas 2 : multi-modèle parallèle avec des modèles locaux couplés : multi-modèle de type
erreur de sortie (OE)
Le vecteur de régression contient non plus la sortie du système mais la sortie du multi-
modèle décalée dans le temps :
T
05 0 5 3 8 3 8 3 8
ϕ t = − y t − 1 − y t − ny u1 t − nku1 u1 t − nku1 − nu1 um t − nkum um t − nkum − num3 8 3 8
(II-13)
Le modèle local fi(ϕ(t), θi) s'écrit sous la forme polynomiale suivante :
m
05 0 5 05 05 4
yi t = − Ai q y t + ∑ Bij q u j t − nku j + θ i 0
j =1
9 (II-14)
avec les définitions précédentes des polynômes Ai(q) et Bij(q). On obtient une structure multi-
modèle parallèle avec le système. Son schéma est présenté sur la figure II-3.
2
Pour la clarté du schéma, nous avons représenté la structure multi-modèle pour un système SISO. L'extension à un
système MISO ou MIMO est immédiate.
Page 52 CRAN-INPL
CHAPITRE II Approche multi-modèle ou réseau de modèles locaux
ω1(t)
Modèle local 1
− A1 ( q ) y(t )+B1 ( q )u( t − nk ) + θ 10
Π
ω2(t)
Modèle local 2
− A2 ( q ) y( t )+B2 ( q )u(t − nk ) + θ 20 Π Σ y(t)
ωM(t)
Modèle local M
− AM ( q ) y( t )+BM ( q )u(t − nk ) + θ M 0 Π
05
yi t = ∑
m 0 5 u 4t − nk 9 + θ
Bij q
(II-15)
1 + A 0q5
j uj i0
j =1 ij
Chaque modèle local est une interconnexion de m blocs parallèles dont les sorties sont sommées
pour fournir celle du modèle local. Les sorties locales sont ensuite pondérées par les fonctions
d'activation pour fournir la sortie de l'architecture multi-modèle. Cette dernière est une
interconnexion de M modèles locaux en parallèle. L'avantage de ce découplage est de spécifier
des dynamiques différentes (codées par les coefficients des polynômes Aij) pour chaque entrée
dans chaque modèle local. L'inconvénient est un nombre de paramètres plus important à estimer.
Une simplification du problème est atteinte en considérant que les polynômes Aij sont identiques
pour toutes les entrées uj (j=1, …, m). Cette structure multi-modèle est décrite sur la figure II-4.
CRAN-INPL Page 53
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
ω1(t)
ω2(t)
ωM(t)
Figure II-4 : Multi-modèle parallèle avec des modèles locaux totalement découplés
A la place des modèles locaux sous forme de relations entrée-sortie, on peut utiliser des
filtres issus de la Base Orthogonale Généralisée [Malti, 1999]. Un modèle local décrit par un
banc de filtres orthogonaux s'exprime par :
n f −1
05 05 05
yi t = ∑ a j g j t ∗ u t
j =0
Gj (z) = 1 − ξ j 2
z j −1 1 − ξ *k −1z
∏
z − ξ j k =0 z − ξ k
est fonction des pôles ξj et ξj* du filtre. Ces pôles déterminent la dynamique incorporée dans le
filtre et il y a autant de paires de pôles (à trouver) que de filtres. Si cette dynamique est proche de
celle du système localement, le nombre nf de filtres nécessaires est réduit de façon drastique
[Heuberger et al., 1995]. Par ailleurs, si le comportement local du système est caractérisé par un
pôle dominant réel ou une paire de pôles complexes, les filtres de Laguerre ou de Kautz (qui
nécessitent en tout un pôle ou une paire de pôles complexes) peuvent remplacer ceux de la BOG.
Les chercheurs qui ont utilisé les filtres orthogonaux dans la représentation multi-modèle
fixent les pôles et le nombre de filtres [Sbarbaro, 1997] sur la base des connaissances a priori. Si
Page 54 CRAN-INPL
CHAPITRE II Approche multi-modèle ou réseau de modèles locaux
ces dernières sont indisponibles, certains à l'instar de Nelles [1997-b] identifient séparément
chacun des modèles locaux sous forme de modèle ARX. La dynamique ainsi suggérée sert à
spécifier les pôles des filtres et à déterminer le nombre de filtres [Nelles, 1997-b]. Par contre,
Malti [1999] a identifié un multi-modèle par une méthode à deux niveaux qui estime les pôles
des filtres par un algorithme non-linéaire et les coefficients ai par la méthode des moindres
carrés, le nombre de filtres de chaque sous-modèle ayant été fixé a priori.
Au lieu d'un modèle sous forme entrée-sortie, il est intéressant dans certaines applications
(par exemple l'identification de systèmes MIMO) d'utiliser une représentation d'état. D'ailleurs,
les chercheurs dont les travaux portent sur l'analyse de la stabilité du multi-modèle adoptent cette
représentation. De même, la commande des processus modélisés par l'approche multi-modèle fait
souvent appel à la représentation d'état, afin d'étendre au cas non-linéaire des techniques de
commande par retour d'état. La construction d'observateurs non-linéaires à partir de structures
multi-modèle requiert aussi des modèles locaux exprimés sous la forme de modèle d'état.
0 5 1 0 5 0 56
x t +1 = g x t , u t
y0t 5 = h1 x0t 5, u0t 56
avec :
∂g ∂g ∂h
$i = %i = &i = (II-16-b)
∂x x = xi ∂u x = xi ∂x x = xi
u = ui u = ui u = ui
Gi = g xi , ui − $ i xi + % i ui
1 6 1 6 G
L = h xi , ui − &i xi
1 6 (II-16-c)
$i, %i, &i sont respectivement les matrices d'état, de commande et de sortie du modèle local fi. Le
vecteur des variables caractéristiques z(t) est formé par les états et la commande ou par une
combinaison de ces variables. De façon similaire au multi-modèle entrée-sortie, les équations (II-
16-a) s'arrangent sous la forme :
CRAN-INPL Page 55
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
0 5 ! 1 0 5 6 "#$ 0 5 ! 1 0 5 6 "#$ 0 5 !
M
i =1
M
i =1
M
x t + 1 = ∑ ω i z t , β $ i x t + ∑ ω i z t , β % i u t + ∑ ω i z t , β Gi
i =1
1 0 5 6 "#$
(II-17)
M " M "
y0t 5 = ∑ ω 1 z0t 5, β 6 & # x 0t 5 + ∑ ω 1 z0t 5, β 6 G #
i i i
'
i
!i =1 $ ! i =1 $
qui exprime le multi-modèle comme un modèle d'état dont les matrices d'état, de commande et
de sortie sont dépendantes du temps : le modèle du système s'assimile à un modèle d'état affine
variant dans le temps.
Les fonctions g et h étant en pratique inconnues, les matrices $i, %i, &i et les coefficients
Gi, Gi' mis en jeu dans le multi-modèle sont à déterminer à partir de mesures expérimentales.
Il est évident de ranger le modèle flou TS dans la catégorie des multi-modèles. En effet,
un modèle TS réalise une partition floue de l'espace caractéristique =. Les zones de
fonctionnement sont définies en termes de propositions sur les variables de prémisse. En prenant
l'opérateur produit comme t-norme, le modèle flou TS coïncide exactement avec le multi-
modèle. Si à la base, Takagi et Sugeno dans leur article de référence datant de 1985 [Takagi et
Sugeno, 1985] n'ont pas été précis sur le type d'opérateur usité, toute ambiguïté a été levée avec
la sortie de l'article de Sugeno et Kang [1988] où explicitement l'opérateur produit est l'opérateur
de conjonction. Le caractère flou disparaît de la formulation du modèle TS car la partie
conséquence d'une règle est parfaitement déterminée. Le modèle TS a donc plus de rapports avec
le multi-modèle qu'avec les modèles linguistiques de Mamdani ou les modèles à relation floue.
Comparativement au multi-modèle, la seule contrainte du modèle TS est sa lecture sous forme de
propositions sur les variables de prémisse. Les notions suivantes sont par conséquent
équivalentes et expriment les mêmes idées :
Page 56 CRAN-INPL
CHAPITRE II Approche multi-modèle ou réseau de modèles locaux
Ces modèles sont partie intégrante de l'approche multi-modèle car ils sont constitués par
un ensemble d'experts qui collaborent afin de fournir le modèle global du système. La seule
différence avec le multi-modèle est la notion de probabilité associée aux fonctions
d'interpolation. Pour ces raisons, on dit que les modèles multi-experts sont des structures multi-
modèles dont les fonctions d'interpolation réalisent une décomposition stochastique de l'espace
de fonctionnement. Les modèles locaux sont ici les experts.
Strictement, les RFBR tels que définis par l'équation (I-19) au premier chapitre ne
coïncident pas avec le multi-modèle car les fonctions de base qui agissent sur les poids ne sont
pas normalisées (c'est-à-dire leur somme n'est pas égale à 1 pour tout échantillon de la base de
données) contrairement aux fonctions d'interpolation qui agissent sur les modèles locaux dans
l'approche multi-modèle. Néanmoins, le lien est possible si les fonctions de base sont
normalisées : on parle dans ce cas de RFBR généralisés [Hunt et al., 1996]. Les modèles locaux
sont alors des constantes (développement d'ordre 0 de la fonction à approcher autour des
centres). Soulignons qu'avec des modèles locaux constants, il faudrait un nombre important de
zones de fonctionnement pour représenter un système complexe car peu de phénomènes sont pris
en compte par une constante. Comparativement un multi-modèle avec des modèles locaux
affines nécessiterait un nombre réduit de zones de fonctionnement.
CRAN-INPL Page 57
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
Trouver le nombre et la structure adéquats des modèles locaux ne peut se faire de façon
simultanée. La raison est que dans l'approche multi-modèle, il y a un compromis à déterminer
entre le nombre de modèles locaux et la complexité de leur structure. Si cette structure est
complexe, l'architecture multi-modèle nécessitera peu de modèles locaux. Inversement, il faudra
plusieurs modèles locaux de structure simple pour obtenir de bonnes capacités d'approximation.
La complexité des sous-modèles est directement liée aux ordres ny et nu j des éléments du vecteur
de régression. Elle est également liée au choix d'une structure linéaire ou non-linéaire pour les
modèles locaux. Il y a donc interdépendance entre la structure des modèles locaux et la
décomposition de l'espace de fonctionnement qui impose de procéder de façon séquentielle.
Deux approches de solution sont possibles :
• fixer une structure pour les modèles locaux, trouver ensuite la décomposition adéquate de
l'espace de fonctionnement puis raffiner ultérieurement la structure des sous-modèles,
• positionner les zones de fonctionnement et rechercher alors les paramètres structuraux des
modèles locaux.
Dans la première option, on recherche dans les données récoltées, des comportements
spécifiques correspondant à la structure des modèles locaux. Ceci nécessite forcément de
préciser les variables d'entrée, les ordres et les retards de ces modèles avant de prétendre
rechercher le nombre et la position des zones de fonctionnement.
Le choix des variables d'entrée utiles et des ordres adéquats peut être guidé par les
connaissances disponibles sur le système. Autrement, il faut utiliser une technique heuristique.
Page 58 CRAN-INPL
CHAPITRE II Approche multi-modèle ou réseau de modèles locaux
La solution directe est de considérer différentes structures pour les modèles locaux, de construire
à chaque fois un multi-modèle et de retenir finalement celui qui donne les meilleures
performances. A cette solution lourde en temps de calcul, on peut préférer des outils permettant
d'identifier les variables d'entrée et les ordres utiles sans recourir au calcul d'un modèle. L'une de
ces techniques est la méthode de He et Asada [1993], améliorée par Boukhris et al. [1999] qui est
basée sur l'analyse de la sensibilité par rapport aux entrées d'un indicateur évalué à partir de
quotients de Lipschitz3. Mais la méthode ne fournit de résultats pertinents que si les données
traitées sont peu bruitées [Espinosa et Vandewalle, 1997] ou si la variance du bruit de mesure est
connue [Boukhris et al., 1999], ce qui la rend d'une utilisation délicate dans les applications
pratiques. Une autre solution certes sous-optimale mais d'une mise en œuvre simple consiste à
identifier le meilleur modèle linéaire : sa structure sera celle des modèles locaux [Tanaka et al.,
1995]. Une amélioration consiste à déterminer des modèles linéaires optimaux autour de
différents points de fonctionnement "judicieusement" choisis [Yu et al., 1997]. Les variables
d'entrée et les ordres suggérés par ces différents modèles serviront à spécifier la structure des
modèles locaux.
Cette dernière solution rejoint d'une certaine manière la deuxième option qui consiste à
positionner les zones de fonctionnement et à essayer de trouver le meilleur modèle local pouvant
être affecté à chacune des zones. Cette solution a été appliquée entres autres par [Wang et
Langari, 1995], [Nelles, 1997-a].
La taille du réseau de modèles locaux est non seulement liée à la complexité des sous-
modèles mais aussi au type de décomposition adopté pour l'espace caractéristique. On distingue
principalement trois techniques de partition : la partition grille, la partition basée sur un arbre de
décision et la classification.
Partition grille
Elle réalise un maillage de l'espace caractéristique =. Le support (ou encore intervalle de
variation) de chaque variable caractéristique zj(t) (j=1, …, nz) est divisé en pj partitions
individuelles. La partition de = est obtenue en prenant l'ensemble des combinaisons des
partitions individuelles. Le nombre de modèles locaux générés est alors :
nZ
M = ∏ pj (II-18)
j =1
3
Supposons un ensemble de N données expérimentales y t , u t 2 0 5 0 56
t =1
N
. Le quotient de Lipschitz s'obtient par :
qt1 ,t2 =
1 6 1 6 1t ≠ t ,
y t1 − y t2
6
t1 = 1,, N , t2 = 1,, N .
u1t 6 − u1t 6
1 2
1 2
CRAN-INPL Page 59
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
Ce nombre devient très vite explosif4 si la dimension de l'espace = est élevée ou le nombre de
partitions sur le support des variables caractéristiques est important. Par exemple, pour un
système à nz=4 variables caractéristiques avec pj=5 divisions par variable, le nombre de modèles
locaux est 45=1024. Pour ces raisons, la partition grille n'est adaptée qu'aux systèmes de faible
dimension (3 à 5 variables caractéristiques). Une illustration de la grille est présentée sur la
figure II-5.
z2 z2 z2 z2
z1 z1 z1 z1
c) Partition hiérarchique
b) Partition hiérarchique d) Partition par
a) Partition grille oblique par rapport aux
orthogonale aux axes classification
axes
4
Ce phénomène est désigné dans la littérature par curse of dimensionality.
Page 60 CRAN-INPL
CHAPITRE II Approche multi-modèle ou réseau de modèles locaux
des ellipses sur l'espace de régression. La forme des zones de fonctionnement est illustrée sur le
schéma d) de la figure II-5. Une excellente référence de l'application des techniques de
classification à l'identification d'un multi-modèle est l'ouvrage de Babuška [1998]. Soulignons
qu'avec cette approche, l'espace caractéristique est forcément l'espace de régression. Or la
reconnaissance des formes devient difficile si la taille de l'espace produit est grande. Pour cette
raison, la méthode ne donne des résultats probants que pour des systèmes de petite dimension et
d'ordre faible [Babuška, 1998]. Un autre désavantage de la technique de classification est qu'elle
est seulement adaptée pour les multi-modèles à erreur d'équation. Elle est difficilement
applicable à un multi-modèle à erreur de sortie : à cause de la présence des termes décalés de la
sortie du multi-modèle dans le vecteur de régression, la distribution des données dans l'espace de
régression évolue d'une itération à l'autre, ce qui rend difficile la reconnaissance des
comportements locaux du système.
Le choix des variables caractéristiques est un problème aussi épineux que celui de la
détermination de la structure des modèles locaux. Dans ce cas également, de bonnes
connaissances sur le système peuvent aider à spécifier les bonnes variables. Autrement, il faut
considérer un ensemble de variables candidates, puis appliquer des procédures heuristiques
d'essais-erreurs pour identifier les variables les plus représentatives des non-linéarités du
système.
Pour finir notre discussion sur l'identification structurelle, nous présentons trois stratégies
de recherche de la structure optimale : ascendante, descendante et alternée. Ces stratégies sont
génériques aux problèmes d'identification. Elles sont certes sous-optimales mais elles constituent
de bonnes alternatives à la recherche combinatoire.
CRAN-INPL Page 61
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
système. L'intérêt est que la structure initiale fine peut potentiellement mettre en évidence toutes
les particularités du système. La simplification ne servira en fait qu'à réduire la finesse de cette
structure initiale. Sun [1994] parle de compression de la base de modèles locaux.
La troisième approche est une solution intermédiaire entre les deux premières. Elle
consiste à ajouter de nouveaux modèles locaux jusqu'à un point d'arrêt. Ensuite, cette structure
est simplifiée. On procède ainsi de façon alternative entre la stratégie incrémentale et
décrémentale jusqu'à la satisfaction d'un critère d'arrêt. Les critères d'arrêts sont soit des critères
de validation croisée soit les critères de type FPE, AIC, MDL.
Cette méthode vise à minimiser l'écart entre la sortie du système y s et celle des modèles
locaux [Murray-Smith, 1994], [Murray-Smith et Johansen, 1997-b]. Cette démarche est légitime,
car l'idéal dans la représentation des systèmes par un multi-modèle locaux serait de caractériser
localement le fonctionnement du système. De plus si les modèles locaux sont issus de la
linéarisation d'un modèle physique autour de certains points de fonctionnement ou sont
construits à partir de connaissances comportementales du processus étudié, il est préférable
d'adopter une approche locale d'optimisation des paramètres des modèles locaux. On définit donc
pour chaque modèle local, un critère quadratique pondéré appelé critère local. Le critère local
1 05 6
associé au modèle fi ϕ t ,θ i est exprimé par :
1 N
Ji =
2 t =1
0 5 1 0 5 0 56
∑ ρ i t yi t − ys t
2
(II-19)
1M N
JL =
2 i =1 t =1
0 5 1 0 5 0 56
∑ ∑ ρ i t yi t − ys t
2
(II-20)
Si ce critère permet l'optimisation des paramètres des modèles locaux sans difficultés,
l'optimisation des paramètres des fonctions de validité sur la base du critère (II-20) pose
Page 62 CRAN-INPL
CHAPITRE II Approche multi-modèle ou réseau de modèles locaux
quelques problèmes. Telles que présentées par Johansen et Foss [1993], les fonctions de validité
ρi sont des fonctions définies de façon absolue : ce sont des fonctions d'allure gaussienne
indépendantes les unes des autres. Il en découle qu'une minimisation du critère (II-20) par
rapport aux paramètres des fonctions de validité équivaut à la minimisation de chacun des termes
Ji de façon indépendante. Deux ou plusieurs fonctions de validité peuvent être positionnées en un
même point suite à l'optimisation. Ce problème est comparable à celui rencontré avec la
technique de classification possibiliste PCM [Krishnapuram et Keller, 1996] qui est basée sur
l'optimisation d'un critère similaire à (II-20). A cause de l'indépendance des composantes du
critère, il arrive que plusieurs classes identifiées soient confondues [Barni et al., 1996] surtout si
l'initialisation de l'algorithme n'a pas été faite de façon judicieuse. Pour des systèmes de petite
dimension sur lesquels de bonnes connaissances physiques sont disponibles, on peut positionner
a priori les points de fonctionnement et éviter le problème. Faute d'informations a priori, il est
préférable d'utiliser les fonctions d'activation ωi qui dépendent de toutes les zones et garantissent
que tous les points de l'espace = seront couverts à cause de la contrainte de normalisation.
Implicitement, les limites des zones de validité sont maintenant fixées par les fonctions ωi. Le
critère d'apprentissage local est alors défini par :
1M N
JL = 0 5 1 0 5 0 56
∑ ∑ ω i t yi t − ys t
2 i =1 t =1
2
(II-21)
Pour les fonctions d'activation ωi fixées, les paramètres des modèles locaux sont
identifiés indépendamment les uns des autres. Ce découplage présente l'avantage d'éviter des
problèmes numériques lors de l'estimation des paramètres des modèles locaux [Murray-Smith,
1994]. Toutefois, l'apprentissage local nécessite plusieurs modèles locaux, comparativement à
l'apprentissage global, pour décrire le comportement du système (voir exemple II-2). En outre, le
recouvrement entre les modèles locaux doit être limité c’est-à-dire que les fonctions
d'interpolation ωi doivent avoir un support assez localisé pour garder une interprétation vraiment
locale des modèles obtenus (voir figure II-6).
L'objectif est d'ajuster les paramètres de manière à minimiser l'écart entre la sortie ys du
système et celle y du multi-modèle. Le critère minimisé est :
1 N
Jg = 1 0 5 0 56
∑ y t − ys t
2 t =1
2
(II-22)
L'apprentissage global recherche une adéquation entre le système et le modèle global sans
forcément se soucier de la qualité de l'approximation locale produite par les modèles locaux.
Dans l'apprentissage global, les modèles locaux sont positionnés de sorte que leur interpolation
donne une bonne approximation du comportement du système. Il en résulte quelquefois, une
architecture multi-modèle qui fournit une bonne approximation globale du système mais avec
CRAN-INPL Page 63
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
des modèles locaux qui ne sont pas représentatifs du comportement observé dans leur zone de
validité. Ce problème mis en évidence dans [Murray-Smith, 1994] est lié au recouvrement plus
ou moins grand qui peut exister entre les zones de fonctionnement : les modèles locaux
totalement différents du comportement réel du système se compensent entre eux pour reproduire
le comportement global désiré.
Pour illustrer nos propos sur la différence entre les deux techniques d'apprentissage, nous
considérons deux exemples simples d'approximation de fonction non-linéaire statique. Le
premier exemple montre l'influence du recouvrement sur les résultats fournis par les deux
approches. Le second exemple illustre le caractère d'interpolation de l'apprentissage global et le
nombre réduit de modèles locaux nécessaires pour approcher la fonction non-linéaire. Les
résultats obtenus par l'apprentissage local y sont présentés et analysés.
¼ Exemple II-1
Soit à approcher la fonction non-linéaire statique suivante :
t cos0t5 t ∈ −5 , 5
y = exp −
2
20
Quatre modèles locaux sont utilisés à cet effet. Le choix de M=4 est motivé par le fait
que visuellement, la fonction cible présente 4 portions de droite. Deux cas sont étudiés : il y
a peu de recouvrement entre les fonctions d'interpolation, il y a un fort recouvrement entre
ces fonctions. Précisons que la position des fonctions d'interpolation a été fixée a priori. Les
résultats obtenus sont tracés sur les parties gauche et droite de la figure II-6.
L'examen des figures montre que pour un faible recouvrement entre les fonctions
d'interpolation, les méthodes d'apprentissage global et local fournissent des approximations
globales (trait grisé) de la fonction (représentée par des points) assez similaires. Les critères
quadratiques résiduels sont respectivement 0.58 et 0.68. Visuellement, on peut se rendre
compte que les modèles locaux (trait pointillé) identifiés préservent bien l'explication locale
des données. Si le recouvrement est plus fort, l'approximation locale fournie par le multi-
modèle identifié par l'apprentissage global se dégrade fortement alors que la qualité de
l'approximation globale est nettement améliorée (critère résiduel de 0.073). Deux des
modèles locaux identifiés s'écartent nettement de la forme de la fonction dans leur zone de
validité. La raison est la compensation entre les modèles locaux qui se combinent alors pour
reconstruire le comportement observé. L'aproximation globale de la fonction cible fournie
par le multi-modèle identifié sur la base d'un critère d'apprentissage local est mauvaise
(critère résiduel de 16.98). De plus, les modèles locaux identifiés sont "biaisés".
L'explication est la prise en compte des points des zones voisines dans l'estimation des
paramètres d'un modèles local à cause du fort recouvrement. Ces points ont un degré
d'activation certes faible mais ils ont tendance à modifier la pente de la droite. Il en résulte
une inclinaison de cette dernière dans la direction de ces points (afin de minimiser l'erreur
locale), ce qui affecte la qualité de l'approximation locale du modèle identifié. Plus fort sera
le recouvrement entre les fonctions d'interpolation, plus les modèles locaux identifiés par la
technique d'apprentissage local s'écarteront du comportement local.
Page 64 CRAN-INPL
CHAPITRE II Approche multi-modèle ou réseau de modèles locaux
0.5 0.5
0 0
-0.5 -0.5
-1 -1
-5 0 5 -5 0 5
Approche locale - Critère = 0.68 Approche locale - Critère = 16.98
1 1
0.5 0.5
0 0
-0.5 -0.5
-1 -1
-5 0 5 -5 0 5
Fonctions d'interpolation Fonctions d'interpolation
1 1
0.5 0.5
0 0
-5 0 5 -5 0 5
Figure II-6 : Influence du recouvrement entre les fonctions d'interpolation sur la qualité de
l'approximation générée par les méthodes d'apprentissage local et global
¼ Exemple II-2
Ce deuxième exemple académique nous sert à expliquer pourquoi la technique
d'appentissage global a tendance à produire des modèles locaux peu explicatifs du
comportement local de la fonction cible. La fonction étudiée pour ce faire est :
4 9 0 5
y = 3 exp −t 2 sin πt
CRAN-INPL Page 65
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
2 Fonctions d'interpolation
1
1
0.8
0 0.6
-1
0.4
-2 0.2
-3 0
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
3 3
Modèles locaux
Multi-modèle 2
2 Fonction cible
Fonction cible
1
1
0
0
-1
-1 -2
-2 -3
1
-3 0
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
Page 66 CRAN-INPL
CHAPITRE II Approche multi-modèle ou réseau de modèles locaux
Jm = Jg + η J L (II-23)
II.5. CONCLUSION
Ce chapitre a été consacré à la présentation de l'approche multi-modèle. A travers cet
exercice, on a montré que le multi-modèle est un concept général regroupant des structures non-
linéaires comme les modèles flous de Takagi-Sugeno, les modèles multi-experts, ... L'idée
essentielle est la définition du modèle global du système comme la combinaison de modèles
locaux. Les notions à retenir sont : zone de fonctionnement, variables caractéristiques, fonction
de validité, fonction d'interpolation (ou d'activation), modèles locaux.
Deux approches d'optimisation des paramètres ont fait l'œuvre d'une étude détaillée. La
méthode d'apprentissage global assure une bonne qualité d'approximation générale du multi-
modèle au détriment de la qualité locale de représentation. Si l'objectif de la modélisation ne
requiert pas la caractérisation du comportement local du système (exemples : modèles de
redondance analytique en diagnostic, modèles de prévision), cette approche s'applique
pleinement. Par contre, si on recherche une bonne description locale du système, il convient
d'appliquer la méthode d'apprentissage local.
CRAN-INPL Page 67
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
Les algorithmes utilisés pour l'optimisation paramétrique ainsi que les détails techniques
des procédures de recherche de la structure d'un multi-modèle sont exposés dans le chapitre
suivant. Ce chapitre traite de la partition grille et de la partition suivant un arbre de décision. Les
techniques de classification ne sont pas abordées à cause de leurs inconvénients (limitation à des
systèmes d'ordre faible, nécessité de définir l'espace caractéristique comme l'espace de
régression, limitation de la technique à des modèles à erreur d'équation) précédemment
mentionnés au paragraphe II.4.1.2.
Page 68 CRAN-INPL
CHAPITRE III
+++126+/+5#6+102#4#/'64+37'
'65647%674'..'&'5/7.6+
/1&'.'5
CRAN-INPL Page 69
6200$,5(
III.4.4. DÉFINITION DES FONCTIONS DE VALIDITÉ DES ZONES =K1 ET =K2 ............................................................132
Page 70 CRAN-INPL
Chapitre III Optimisation paramétrique et structurelle des multi-modèles
III.1. INTRODUCTION
Le chapitre précédent a été dédié à la présentation de l'approche multi-modèle ainsi qu'à
la problématique d'identification qu'elle soulève. Une étude méthodologique de ces problèmes a
été présentée dans le chapitre II sans montrer les aspects techniques de leur mise en œuvre.
Rappelons que les questions à se poser pour construire un réseau de modèles locaux sont :
RAPPELS
Avant de rentrer dans le vif du sujet, nous faisons ici quelques rappels pour situer le cadre
de l’étude. Le multi-modèle est exprimé par la formule générale :
M
05 1 05 6 1 05 6
y t = ∑ ω i z t , β fi ϕ t , θ i
i =1
(III-1)
où les ωi sont des fonctions d'activation dépendant de variables caractéristiques z(t). Les modèles
locaux fi considérés dans ce chapitre sont des modèles entrée-sortie affines ; la sortie yi(t) d'un
modèle local est exprimée par :
05 05
yi t = ϕ Ta t θ i (III-2)
CRAN-INPL Page 71
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
T
05 05
ϕa(t) est le vecteur de régression augmenté formé par : ϕ a t = ϕ T t 1 . θi est le vecteur des
paramètres du modèle fi. Ce vecteur est de dimension :
m
ni = ny + ∑ nur + 1 (III-3)
r =1
avec m le nombre d'entrées du système, n y , nur les ordres. La sortie du modèle local fi s’écrit
également de façon polynomiale - cf. (II-11) - :
m
05 0 5 05 05 3
yi t = − Ai q y* t + ∑ Bir q ur t − nkur + θ i 0
r =1
8 (III-4)
05
où y*(t) est soit la sortie y t du multi-modèle, si ce dernier est de type erreur de sortie (OE), soit
la sortie ys(t) du système, si le multi-modèle considéré est à erreur d'équation. y*(t) peut
également être la sortie du modèle local fi dans le cas de multi-modèle parallèle à modèles locaux
découplés. Ai et Bir sont des polynômes en q-1 (q-1 : opérateur retard). Pour des raisons de
simplicité des écritures mathématiques, nous supposerons que tous les modèles locaux ont la
même structure (les mêmes entrées ur, les mêmes ordres n y , nur et les mêmes retards nkur ).
Soit pj le nombre de partitions1 réalisées sur le support d’une variable zj. On attribue à
chaque partition 3l,j de zj, une fonction de validité individuelle2 µl,j (l=1, …, pj et j=1, …, nz).
Examinons maintenant comment sont construites les zones de fonctionnement (que nous
désignons encore par zones de validité). Par exemple, la zone de fonctionnement =1 est
construite par combinaison de la 1ère partition (31,j) de chacune des variables zj (cf. figure II-5-a).
Les contours de cette zone sont délimités par la fonction de validité ρ1, produit des fonctions de
validité individuelles µ1,j, c'est-à-dire ρ1 = ∏nj =z 1 µ1, j . L'architecture multi-modèle décrite par une
grille résulte de l'ensemble de ces combinaisons susceptibles d'être générées. Le nombre de
zones =i est alors :
1
En modélisation floue, on parle de modalités.
2
Elles correspondent aux fonctions d’appartenance en logique floue.
Page 72 CRAN-INPL
Chapitre III Optimisation paramétrique et structurelle des multi-modèles
nz
M = ∏ pj
j =1
Pour un multi-modèle avec deux variables caractéristiques nz=2, et deux partitions sur le support
de ces variables, p1=2 et p2=2, la procédure de génération de toutes les zones de fonctionnement,
à partir des partitions individuelles, est résumée par le tableau III-1.
z1 z2
Fonction de
Zones =i Doublet ℑi
Partitions de z1 Partitions de z2 validité ρi
=1 1 0 1 0 µ1,1×µ1,2 (1,1)
=2 1 0 0 1 µ1,1×µ2,2 (1,2)
=3 0 1 1 0 µ2,1×µ1,2 (2,1)
=4 0 1 0 1 µ2,1×µ2,2 (2,2)
A chaque zone =i, on associe un nz-uplet noté ℑi qui code les partitions des variables zj
intervenant dans la construction de la zone =i. La fonction de validité de cette zone est déduite
comme précédemment, c'est-à-dire :
nz
ρ i = ∏ µ l(i ) , j i = 1, , M (III-5)
j =1 j
référant à la table de composition des zones. Par exemple pour la zone =3, l1( 3) = 2 et l2( 3) = 1 .
ρi
ωi = M
∑ ρk
k =1
On montre aisément que le terme au dénominateur dans cette équation se factorise sous la
forme :
M
∑ ρk
nz
= ∏ ∑ µ
pj
k =1 j =1 l =1
l, j
CRAN-INPL Page 73
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
µ
nz
=∏
l (j i ) , j = µ
nz
ωi
∑ µ
j =1
pj
∏
j =1
l (j i ) , j
l =1
l, j
qui est le produit de fonctions de validité individuelles normalisées µ l ( i ) , j . Ceci signifie, que dans
j
une partition grille, la contrainte de partition unité sur les fonctions d'activation ωi induit
implicitement une normalisation sur les fonctions individuelles µl,j des variables caractéristiques.
Il existe une kyrielle de choix pour les fonctions de validité. Les paramètres de ces
fonctions intervenant de façon non-linéaire dans l'expression du multi-modèle, leur optimisation
passe par des techniques de recherche itérative. D'un autre côté, les fonctions de validité doivent
être choisies de manière à assurer des propriétés lisses à l'approximation du système. Un choix
particulier sera donc motivé par les algorithmes d'optimisation de paramètres qu’on mettra en
œuvre et/ou la qualité d'interpolation désirée. On peut distinguer les situations suivantes :
• les fonctions de validité individuelles µl,j sont construites à partir de fonctions à dérivées
non continues comme les fonctions triangulaires ou trapézoïdales : les algorithmes de type
Newton ne peuvent s'appliquer. On a recours à des techniques comme la méthode du
simplexe de Nelder-Mead ou à des algorithmes génétiques. Des exemples d'optimisation
des paramètres de fonctions triangulaires ou trapézoïdales à partir d'algorithmes génétiques
sont reportés dans [Siarry et Guely, 1998], [Glorennec, 1999]. Par ailleurs, les fonctions de
validité continues par morceaux réalisent une interpolation linéaire alors que dans certaines
applications, il est appréciable d'avoir une transition lisse entre les modèles locaux,
• les fonctions de validité µl,j sont à dérivées continues, à l'exemple des fonctions
gaussiennes ou sigmoïdes : les techniques d'optimisation de type Newton s'appliquent alors
pleinement. Ces fonctions présentent l'avantage de réaliser des interpolations lisses entre
les modèles locaux. Pour ces raisons, nous préférerons dans la suite ce type de fonctions de
validité.
L'utilisation des fonctions de validité d'allure gaussienne a été popularisée par les
techniques "neuro-floues" [Jang, 1993]. Mais elles présentent l'inconvénient d'entraîner des
problèmes de réactivation lorsqu'elles sont normalisées [Shorten et Murray-Smith, 1997]. Ce
phénomène est illustré sur la figure III-1-b : la deuxième fonction d'interpolation décroît à partir
de son centre (dans le sens des abscisses croissantes) jusqu'à l'abscisse 0.72 où elle commence à
réactiver. Cette fonction d'interpolation devient multi-modale : le concept de modèles localement
valables n'est plus valide.
Page 74 CRAN-INPL
Chapitre III Optimisation paramétrique et structurelle des multi-modèles
1 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
Le phénomène de réactivation est évité si toutes les fonctions d'allure gaussienne définies
sur le support d'une variable zj ont la même dispersion. Pour se prémunir contre une éventuelle
réactivation, nous imposons des dispersions identiques pour les fonctions de validité
individuelles µl,j lorsque nous utilisons les gaussiennes. Par conséquent, les fonctions de validité
afférentes à une variable zj ( j = 1,..., nz ) sont définies par :
3 z 0t 5 − c 8
2
µ l, j 3z 0t58 = exp − 2σ
j
j
2
l, j
l = 1,..., p j (III-6)
j
cl,j est le centre. σj est la dispersion et elle est commune à toutes les fonctions µl,j ∀ l = 1, ..., p j .
Avec cette contrainte, la définition des pj partitions 3l,j sur le support d’une variable
caractéristique zj nécessite pj+1 paramètres (pj centres et la dispersion commune) contre 2pj
paramètres dans le cas de fonctions gaussiennes non contraintes à avoir la même dispersion.
En vue de garder une certaine flexibilité pour déterminer les zones de fonctionnement, on
peut opter pour des fonctions de validité individuelles µl,j construites à partir de sigmoïdes. Pour
éviter l’étape de normalisation, les fonctions de validité sont définies de sorte qu'elles
garantissent la contrainte de partition unité : leur pente est réglée de manière à assurer en chaque
pj
point que la somme des fonctions de validité individuelles vaut 1, c'est-à-dire ∑ µ l, j = 1 . Ce
l =1
faisant, on garantit automatiquement la contrainte de partition unité des fonctions d'activation ωi.
CRAN-INPL Page 75
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
~
L'approximation lisse de cette fonction de saturation par une fonction tangente hyperbolique µ 1
est représentée en trait grisé sur la figure III-2-a. Le centre de la tangente hyperbolique est le
milieu de l'intervalle [a1, a2] ; sa dispersion dépend de l'étendue de cet intervalle. Il en va de
même pour la définition de la deuxième fonction de saturation. A droite, se trouvent les fonctions
trapézoïdales (représentées en trait foncé) qu'on obtient en faisant la différence de ces deux
fonctions de saturation. L’approximation avec les fonctions sigmoïdes est également illustrée sur
ce schéma (trait grisé).
$1 $2 $4 $1 $2 $3 $4
$3
1 1
~
µ ~
1 µ 2
0.5 0.5
0 z 0 z
a1 c1 a 2 a3 c2 a4
a 1 c1 a 2 a3 c2 a4
a- b-
De façon générale, pour pj partitions 3l,j (l = 1,..., p j ) définies sur le support d'une
variable caractéristique zj(t) ( j = 1,..., nz ), les fonctions de validité µl,j correspondantes sont
obtenues à partir des formules suivantes :
3 0 58 ~ z t
µ1, j z j t = 1 − µ 3 0 58
1, j j
µ pj , j 3z 0t58 = µ~ 3z 0t58
j p j −1, j j
1 + tanh
z 0t 5 − c
j l, j
σ
~ z t =
µ l, j j 3 0 58 2
l, j
l = 1,, p j − 1 (III-8)
Les paramètres cl,j et σl,j sont respectivement le centre et la dispersion de la fonction sigmoïde
~ . Pour les définir, on se sert des coordonnées des points sommets $ , …, $ (voir figure III-
µ l, j 1 p
a2 l , j + a2l −1, j
cl , j = l = 1,, p j − 1 (III-9-a)
2
a2l , j − a2 l −1, j
σl, j = l = 1,, p j − 1 (III-9-b)
γ
Page 76 CRAN-INPL
Chapitre III Optimisation paramétrique et structurelle des multi-modèles
Le paramètre γ (γ ∈ [2, 5]) fixé a priori par l'utilisateur permet de régler la pente de la fonction
tangente hyperbolique comme le montrent les courbes de la figure III-3. La fonction de
saturation est en trait noir alors que les fonctions sigmoïdes sont en trait grisé. Pour γ → 2,
l'approximation de la pente de la fonction de saturation est plus précise et pour γ → 5, on
privilégie l'approximation du plateau. γ=4 est une position intermédiaire.
1 1 1
γ=2 γ=4 γ=5
0.5 0.5 0.5
0 0 0
-1 0 1 -1 0 1 -1 0 1
La paramétrisation des équations (III-9) impose aux paramètres al,j de respecter les
contraintes suivantes :
zmin, j < a1, j < a2, j < < a2 p j −2, j < zmax, j
− ds2, j
3 8
as, j = as −1, j + zmax, j − as −1, j e s = 1,, 2( p j − 1) (III-10-b)
Les équations (III-10) assurent que les paramètres as,j se trouvent sur le support de la variable
caractéristique. Mais elles ne garantissent pas qu’ils soient tous distincts. Cela peut être gênant
dans la mesure où la dispersion σl,j, calculée par la formule (III-9-b), deviendra nulle si les points
$2l-1,j et $2l,j sont confondus. Si on se réfère à la figure III-2, ce problème correspond à $1 et $2
confondus. Pour l'éviter, on impose une distance minimale dmin,j, fixée a priori, entre les points
a2l-1,j et a2l,j pour tout l=1, …, pj-1. Les paramètres ds,j pour s=1, …, 2(pj-1) constituent alors les
degrés de liberté pour positionner les fonctions de validité individuelles µl,j.
CRAN-INPL Page 77
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
Remarques
¬ Les paramètres à estimer sont les paramètres ds,j, pour s=1, …, 2(pj-1), desquels on déduit
les coordonnées as,j, ensuite les centres cl,j et les dispersions σl,j. Dans la suite, les
paramètres ds,j définissant les partitions sur le support d'une variable zj seront regroupés
dans le vecteur βj.
¬ On vérifie aisément par les équations (III-7) que la somme des fonctions de validité
définies sur le support d'une variable caractéristique est égale à 1. Par conséquent, les
fonctions d'interpolation ωi coïncident avec les fonctions de validité ρi.
¬ Le lien avec les fonctions trapézoïdales n'est pas indispensable. On peut en effet
directement raisonner sur les fonctions sigmoïdes et transférer les contraintes sur le centre
et la dispersion des sigmoïdes.
T
Soit θ = θ 1T θ T2 θ TM , le vecteur formé par la concaténation des vecteurs de
paramètres de tous les modèles locaux. La dimension de ce vecteur est :
nθ = M × n (III-11)
où n est la dimension commune à tous les vecteurs de paramètres locaux θi donnée par (III-3).
T
Soit β = β 1T β T2 β Tnz , le vecteur total des paramètres des fonctions de validité
individuelles. Sa dimension est :
nz
3
nβ = ∑ 2 p j − 1
j =1
8 (III-12)
Page 78 CRAN-INPL
Chapitre III Optimisation paramétrique et structurelle des multi-modèles
T
Notons Θ = β T θ T , le vecteur global de paramètres formé par la concaténation des vecteurs
β et θ.
Le critère optimisé est le critère d'apprentissage global défini à l'équation (II-22) que nous
rappelons ici :
1 N
Jg =
2 t =1
1 0 5 0 56
∑ y t − ys t
2
(III-13)
Dans la suite du document, sauf mention contraire, le critère d'identification paramétrique est Jg.
−1
Θ 0k +15 = Θ 0k 5 − η0k 5H0k 5G0k 5 (III-14)
où Θ 0k 5 est l'estimation obtenue à l'itération (k). η(k) est le coefficient de relaxation, G(k) une
estimation du gradient du critère Jg à l'itération (k) et H(k) une matrice qui modifie la direction de
recherche. La mise en œuvre de la recherche itérative décrite par (III-14) peut être réalisée "en
ligne " ou "hors ligne". Nous restreignons notre étude au cas "hors ligne" où la procédure de
mise à jour des paramètres fait appel à chaque itération à l’ensemble des données
d’identification. L’implémentation de la procédure en "ligne" ne présente pas de difficulté
particulière.
L'optimisation simultanée des paramètres des fonctions de validité et des modèles locaux
par une technique itérative est en général lourde. La raison est la dimension élevée de Θ. De
plus, dans le cas de la grille, il peut exister des zones plus ou moins dépourvues de données
d'apprentissage ; l'optimisation directe du vecteur Θ est sujette à des problèmes numériques. Il
est alors difficile d'assurer de bonnes propriétés de convergence de l'algorithme d'optimisation.
Dans la pratique, on essaie de simplifier le problème, soit en supposant connue la position des
zones de fonctionnement, soit en mettant en œuvre une procédure à deux niveaux qui alterne
entre l'optimisation du vecteur θ et celle de β. Nous présentons dans les paragraphes suivants,
différents algorithmes d'apprentissage, de la méthode la plus simple où les paramètres des
fonctions de validité sont fixés, à la méthode générale où tous les paramètres sont optimisés.
CRAN-INPL Page 79
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
III.2.3.1. Les paramètres des fonctions de validité sont fixés, optimisation d'un
critère quadratique par rapport aux paramètres des modèles locaux
La configuration la plus simple qu'on puisse rencontrer est celle où les fonctions de
validité sont fixées a priori. Les paramètres recherchés sont alors ceux des modèles locaux θ. Si
ces modèles sont linéaires par rapport à leurs paramètres (multi-modèle à erreur d'équation), le
critère Jg est quadratique par rapport au vecteur θ dont l'estimation est fournie par la solution
analytique des moindres carrés. Par contre, pour des modèles locaux dynamiques de type erreur
de sortie, le critère n'est pas quadratique par rapport à θ car le vecteur de régression ϕ(t)
0 5
comporte des sorties décalées y t - k (k=1, …, ny) du multi-modèle. L'estimation du vecteur θ
passe alors par une technique itérative. Néanmoins, en remplaçant dans le vecteur de régression,
0 5
les sorties y t - k par les mesures ys(t-k) de la sortie du système, le critère Jg devient quadratique
par rapport au vecteur θ . On passe d'un critère à erreur de sortie à un critère à erreur d'équation.
4
Pour un ensemble de N+na observations - na = max ny , nu1 + nku1 , , num + nkum 9 -, on
déduit des équations (III-1) et (III-2), l'écriture matricielle :
nθ ×1
Y = Φ gθ θ∈ (III-15)
ϕ 1n + 16
T
a a
ϕ 1n + 26
T
N ×n
Φ = a a
Φa ∈ (III-16-b)
a
ϕ 1 N + n 6
T
a a
N + na
W = diag ω 0t 5
i i t = na +1
Wi ∈ N×N
i = 1,, M (III-16-c)
Wi est une matrice de pondération diagonale dont les éléments sont constitués par les valeurs de
la fonction d'interpolation ωi(t) aux différents instants. Φa est la matrice de régression augmentée
comprenant les variables explicatives de la sortie du système. La minimisation du critère Jg
donne la solution analytique :
θ = R −1 Φ Tg Y
3 8 N ×1
Y∈ (III-17)
R = Φ Tg Φ g
Compte tenu de la structure de la matrice Φg, une vue éclatée de l'estimation θ est donnée par :
Page 80 CRAN-INPL
Chapitre III Optimisation paramétrique et structurelle des multi-modèles
−1
Φ Ta W12 Φ a Φ Ta W1WM Φ a "# Φ W Y "#
T
a 1
θ = ## ## (III-18)
!Φ a WM W1Φ a
T
Φ Ta WM
2
Φa $ !Φ W Y $
T
a M
Cette équation montre l'interaction qui existe entre les modèles locaux lorsque leurs paramètres
sont identifiés par la technique d'apprentissage global. On constate en effet que les éléments
diagonaux de la matrice d'information R portent sur les points appartenant aux différentes zones
de fonctionnement =1 à =M. Les termes hors diagonaux représentent le recouvrement qui existe
entre les modèles locaux. Pour un multi-modèle à une variable caractéristique dont les partitions
sont représentées par des fonctions de validité triangulaires ou trapézoïdales, il est possible
d'établir que la matrice R est une matrice tridiagonale par blocs. Ceci simplifie le calcul de
l'inverse de R d'une part et permet de montrer d'une façon plus précise, l'interdépendance qui
existe entre les vecteurs de paramètres des modèles locaux. Comparons l'équation (III-18) avec
l’estimation donnée par l’apprentissage local, que nous explicitons ci-dessous.
Apprentissage local
On considère que le critère local est quadratique par rapport aux paramètres des modèles
locaux. Pour N+na observations, les critères locaux associés aux modèles fi s'écrivent :
1 2
Ji = Φa θi − Y Wi
i = 1,, M (III-19)
2
avec la définition précédente de la matrice de pondération Wi. Les estimateurs des paramètres
des modèles locaux sont alors donnés par :
−1
3
θ i = Φ Ta Wi Φ a 8 Φ Ta Wi Y i = 1,, M (III-20)
A partir de cette série d'équations, on peut écrire le vecteur global de paramètres sous la forme :
−1
Φ a W1Φ a
T
0 0 "# Φ W Y "#T
a 1
θ =
0 ## ## (III-21)
0
0 Φ Ta WM
#
Φ #$ !Φ W Y #$
#
! 0 a
T
a M
En comparant les équations (III-18) et (III-21), on constate que dans l'approche globale,
la matrice d'information comporte des termes relatifs au recouvrement entre les modèles locaux.
Par ailleurs, les termes diagonaux de la matrice d'information font intervenir le carré de la
matrice de pondération contrairement à l'approche locale. Les estimations fournies par les deux
CRAN-INPL Page 81
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
méthodes sont quasiment égales s'il y a peu de recouvrement entre les modèles locaux. Compte
tenu de la contrainte de partition unité, peu de recouvrement signifie que les fonctions
d'activation ont des fronts plutôt raides. Le noyau d’une zone =i (ensemble des points z(t) de la
zone tels que ωi(z(t) )≈1) est quasiment confondue avec son support (ensemble des points ϕ(t) de
la zone tels que ωi(z(t) )≠0). Les produit croisés WiWj (i≠j) sont quasiment nuls3 ; les termes non
diagonaux de la matrice d’information dans l’équation (III-18) tendent vers des matrices nulles.
De plus, on a : Wi2 → Wi . L'approximation globale tend alors vers l'approximation locale. Les
qualités d'approximation locale du système obtenues par les deux méthodes d'apprentissage sont
alors semblables : c’est ce que nous avons montré dans l’exemple II-1 du chapitre II.
,,, 3UREOqPHVGHFRQGLWLRQQHPHQWGHO·HVWLPDWLRQSDUDPpWULTXH
L'inversion de la matrice d'information R dans l’approche globale peut être sujette à des
problèmes numériques liés à son mauvais conditionnement. Ce problème a été étudié dans le
chapitre I (voir paragraphe I.4.1.1) et en résulte une estimation de θ numériquement instable.
Nous examinons ci-dessous les facteurs pouvant induire ce problème en modélisation multi-
modèle .
• liées à un recouvrement trop important entre les modèles locaux. Pour deux zones =i et =j
3
On peut parler d’orthogonalité des fonctions d’activation ωi.
Page 82 CRAN-INPL
Chapitre III Optimisation paramétrique et structurelle des multi-modèles
Remarque
¬ Murray-Smith et Johansen [1997-b] ont établit que l'apprentissage local introduit une
régularisation implicite dont le paramètre de réglage est contrôlé par le recouvrement entre
les modèles locaux (en jouant sur ce recouvrement, on arrive à améliorer les performances
de généralisation du multi-modèle). En effet, l'apprentissage local est moins affecté par le
problème de conditionnement car il ne gère pas l'interaction entre les modèles locaux. De
plus la matrice d'information pondérée ΦaTWiΦa a une dimension réduite. Le calcul de
son inverse est donc plus stable. Même quand elle n'est pas stable, il y a compensation
avec le terme ΦaTWiY , ce qui donne une estimation acceptable du vecteur de paramètres
local.
III.2.3.2. Optimisation de tous les paramètres sur la base d'un critère à erreur
d'équation
Si des connaissances a priori sur la position des zones de fonctionnement ne sont pas
disponibles, les paramètres de la structure multi-modèle doivent être optimisés au moyen d'une
procédure itérative en raison de la non-linéarité du modèle global par rapport à ses paramètres.
Cependant, en supposant que le critère Jg est toujours quadratique par rapport aux paramètres des
modèles locaux (cas des modèles locaux linéaires par rapport à leurs paramètres ou d'un critère à
erreur d'équation), on peut mettre en œuvre un algorithme à deux niveaux : elle alterne entre
l'optimisation des paramètres β des fonctions de validité par une procédure non-linéaire, θ étant
fixé et l'optimisation des paramètres θ des modèles locaux par l'estimateur des moindres carrés
(III-17), éventuellement régularisés (I-29-a), β étant fixé. Les étapes de la procédure
d'optimisation sont résumées dans l'algorithme 1.
CRAN-INPL Page 83
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
augmenter sa valeur si le critère décroît, diminuer sa valeur s'il y a divergence du critère. λβ0 k 5
permet de se prémunir contre la singularité de la matrice Ha. Il est adapté selon le même schéma
heuristique que η 0βk 5 . Le gradient G et le hessien approché Ha du critère Jg nécessaires à la mise
en œuvre de la méthode de Levenberg-Marquardt s'obtiennent par les équations :
1 0 5 0 56 ∂∂yβ0t5
N
4 9
G β 0 k 5 = ∑ y t − ys t (III-22-a)
t =1 β = β 0 k 5
4 9
Ha β 0k 5 = ∑
N
05 05
∂y t ∂y t
(III-22-b)
t =1 ∂β ∂β
T
β = β 0 k 5
05
∂y t
=∑
M ∂ω z t , β
i 1 05 6 05
ϕ Ta t θ i (III-23)
∂β i =1 ∂ β
Page 84 CRAN-INPL
Chapitre III Optimisation paramétrique et structurelle des multi-modèles
La suite du calcul est développée pour des fonctions de validité de type sigmoïde. Les formules
sont semblables pour des fonctions gaussiennes. Elles sont décrites à l’annexe B.
105 6
∂ω i z t , β
=
∂ nz
∏ µ (i ) z j t , β j 3 05 8 i = 1,, M (III-24)
∂β ∂β j =1 l j , j
105 6
∂ω i z t , β 3 05 8
nz ∂µ l ( i ) , j z j t , β j nz
∂β
=∑
j =1
j
∂β
× ∏ µ l ( i ) ,h z h t , β h
h =1 h
1 05 6
h≠ j
∂β j h =1 h
1 05 6
∏ µ l ( i ) ,h z h t , β h i = 1,, M j = 1,, nz (III-25)
h≠ j
des fonctions de validité individuelles à l'équation (III-7), on constate que ces dérivées se
~ z t , β ∂β
déduisent de celles des sigmoïdes ∂µ l, j j j 3 05 8 j
(l=1, …, pl-1) par les relations suivantes :
3 0 5 8 = − ∂µ~ 3z 0t 5, β 8
∂µ1, j z j t , β j 1, j j j
(III-26-a)
∂β j ∂β j
3
∂µ l , j z j (t ), β j 8 = ∂µ~ 3z 0t5, β 8 − ∂µ~ 3z 0t5, β 8
l −1, j j j l, j j j
l = 1,, p j − 1 (III-26-b)
∂β j ∂β j ∂β j
3 0 5 8 = ∂µ~
∂µ pl , j z j t , β j p j −1, j 3z 0t5, β 8
j j
(III-26-c)
∂β j ∂β j
CRAN-INPL Page 85
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
l, j j j 3 05 8
~ z t , β ∂β des fonctions tangentes hyperboliques par rapport à β
Les dérivées ∂µ
j
j
s’obtiennent à travers une dérivation par cascade. A partir de la définition des fonctions
sigmoïdes à l'équation (III-8), on obtient :
∂
z 0t 5 − c
j l, j
∂β j = −
z 0 t 5 − c ∂σ
j l, j l, j
−
1 ∂cl , j
σ l, j
σ ∂β 2
l, j j σ l , j ∂β j
(III-27-b)
Les dérivées des centres et des dispersions par rapport au vecteur βj se déduisent à partir des
définitions (III-9). Elles s’écrivent :
∂ as , j ∂as −1, j 1 − e − 2 d
− ds2, j ∂d s , j − ds2, j
∂β j
=
∂β j s, j
∂β j
3 zmax, j − as −1, j e 8 (III-29-a)
∂d s , j
= [0 0 1 0 0]T (III-29-b)
∂β j ,
position s
Dans cet algorithme, toute modification du vecteur β est immédiatement suivie par une
mise à jour de l'ensemble des paramètres θ des modèles locaux. L'avantage de cette procédure à
deux niveaux est la réduction de la taille de l'espace paramétrique. A chaque itération de
l'algorithme, l'estimateur des moindres carrés fournit une solution optimale dans l'espace des
paramètres des modèles locaux, ce qui accélère la convergence de l'algorithme. D'autre part, les
paramètres de régularisation sont réglés de façons différentes : dans le calcul de θ , il est
déterminé de façon à assurer un bon conditionnement de la matrice d'information R (cf. équation
I-30) ; dans l'estimation de β , le paramètre de régularisation est adapté de manière heuristique.
Page 86 CRAN-INPL
Chapitre III Optimisation paramétrique et structurelle des multi-modèles
Sjöberg et Viberg [1997] ont établi que le découplage des deux espaces paramétriques permet
d'obtenir des propriétés de convergence (vitesse de convergence, minimum) similaires voire
meilleures qu'une optimisation globale surtout si le problème d'estimation paramétrique est mal
conditionné.
Remarques
1M N
JL = 0 5 1 0 5 0 56
∑ ∑ ω i t yi t − ys t
2 i =1 t =1
2
∂2 J L
=
1 M N ∂ 2ω i t
∑∑
0 5 1 0 5 0 56
yi t − ys t
2
∂β ∂β T 2 i =1 t =1 ∂β ∂β T
Comme les paramètres β des fonctions de validité n'interviennent pas dans l'erreur
05 05
quadratique ( yi t − ys t )2, il n'est pas possible d'approcher le hessien à partir des termes de
premier ordre. Le calcul du hessien nécessite une double dérivation ∂ 2ω i ∂β ∂β T qui est
lourde. Pour estimer les paramètres β, l'algorithme de Levenberg-Marquardt est donc
remplacé par celui de Quasi-Newton (voir paragraphe I.4.1.2.) qui ne nécessite pas le
calcul analytique explicite du hessien mais seulement la connaissance du gradient qui est
fourni par :
∂J L 1 N M ∂ω i t
= ∑∑
0 5 1 y0t5 − y 0t56 2
∂β 2 t =1 i =1 ∂β
i
La fonction de sensibilité est entièrement déterminée par les équations (III-24) à ((III-40)).
La deuxième modification concerne l'étape de calcul des paramètres des modèles locaux :
le vecteur de paramètres β étant fixé, ceux des modèles locaux sont estimés
individuellement en minimisant chacun des critères Ji. L'estimation des θi est obtenue par
les moindres carrés pondérés (voir équation (III-20)).
CRAN-INPL Page 87
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
comportements linéaires. Comme on désire réaliser une coopération des modèles locaux,
les paramètres θ sont estimés à la fin par l'apprentissage global.
¬ L'exemple d'une optimisation paramétrique par l'apprentissage local est présenté sur la
figure II-8 du chapitre II.
III.2.3.3. Optimisation de tous les paramètres sur la base d'un critère à erreur de
sortie
L'algorithme précédent, basé sur un critère à erreur d'équation, induit le calcul des
paramètres des modèles locaux par la méthode des moindres carrés. Or cet estimateur est biaisé
en présence de bruit de mesure. Si le multi-modèle est élaboré à des fins de commande, de
diagnostic ou de simulation du système, le modèle identifié sur la base d'un critère à erreur
d'équation risque d'avoir de mauvaises performances en simulation [Nelles, 1997-b]. Pour
certaines applications, il est plutôt souhaitable d'optimiser directement un critère à erreur de
sortie. Le modèle final aura de meilleures propriétés d'approximation au prix toutefois d'un coût
d'élaboration plus élevé.
Une autre variante de cet algorithme proposée par [Boukhris et al., 1999] peut être
utilisée et consiste à optimiser jusqu'à convergence le vecteur β pour θ fixé. A partir de cette
solution, on optimise le vecteur θ jusqu'à convergence également. La procédure est ainsi répétée
jusqu'à l'obtention de la précision désirée sur le critère d'identification.
Il est difficile de dire laquelle de ces deux variantes est la meilleure. Néanmoins, sur
certains exemples de simulation, nous avons constaté qu'avec la deuxième variante, le critère
reste "coincé" dans un minimum local. Mais, ces observations n'ont pas de caractère général et
ne doivent donc être érigées en règle générale.
Page 88 CRAN-INPL
Chapitre III Optimisation paramétrique et structurelle des multi-modèles
Si Jg(k) < Jg(θ 0 k+15 ), retourner à l'étape [4] en modifiant ηθ0 k 5 ou λθ0 k 5 .
Autrement Jg(k+1) = Jg(θ 0 k+15 ).
[6] Incrémenter k.
Réitérer à partir de l'étape [2] jusqu'à obtenir
0 5 05
Jg k + 1 − Jg k < ε .
CRAN-INPL Page 89
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
05
∂y t
=∑ i 1 05 6 05
M ∂ω z t , β M
yi t + ∑ ω i z t , β
∂yi t
1 05 6 05 (III-30)
∂β i =1 ∂β i =1 ∂β
105 6
La formule de dérivation de ∂ω i z t , β ∂β donnée par les équations (III-23) à (III-29) reste
4
inchangée . En se basant sur la forme polynomiale des modèles locaux (équation III-4), on
déduit facilement la dérivée :
05
∂yi t
= − Ai q 0 5 05
∂y t
∂β ∂β
0 5 ∂∂yβ0t5 = ∑ ∂ω 1∂zβ0t5, β 6y 0t 5
M
1 + A q, t i
i (III-31-a)
i =1
M
0 5 105 6 0 5
A q, t = ∑ ω i z t , β Ai q
i =1
(III-31-b)
A(q,t) est un polynôme d'ordre ny formé par la somme pondérée des polynômes Ai(q) des
modèles locaux.
1 0 5 0 56 0 5
∂y t
N
G θ ( k ) = ∑ y t − ys t
4 9 (III-32-a)
t =1 ∂θ θ =θ 0 k 5
H a θ 0 k 5 = ∑
4 9
N
05 05
∂y t ∂y t
(III-32-b)
t =1 ∂θ ∂θ
T
θ =θ 0 k 5
05
∂y t
=∑ i 105 6
M ∂ω z t , β
yi (t ) + ω i z t , β
∂yi t
1 0 5 6 0 5 "#$ (III-33)
∂θ i =1 ∂θ
! ∂θ
4
Implicitement, on suppose que la sortie décalée du multi-modèle n'est pas une variable caractéristique. Autrement,
1 6
il faut l'intégrer dans le calcul de la dérivée ∂ω i z (t ), β ∂β . Ce cas général a été traité dans [Boukhris et al., 1999].
Page 90 CRAN-INPL
Chapitre III Optimisation paramétrique et structurelle des multi-modèles
Toujours dans l'hypothèse que la sortie décalée du multi-modèle ne fait pas office de variable
caractéristique, le premier terme de cette dérivée s'annule. En exploitant la forme polynomiale
des modèles locaux, on montre que cette dérivée est fournie par :
0 5 ω 1z0t5, β 6ϕ 0t5
∂y t
1 a
1 + A0q, t 5 = (III-34)
∂θ
ω 1z0t5, β 6ϕ 0t 5
M a
Les équations (III-31-a) et (III-34) donnent sous forme d'équation aux différences,
l'évolution dynamique des fonctions de sensibilité. L’exploitation de ces fonctions de sensibilité
nécessite d'assurer la stabilité du polynôme [1+A(q,t)] lors de l’optimisation paramétrique.
D'après les équations (III-1) et (III-4), la stabilité du multi-modèle est liée à celle du polynôme
[1+A(q,t)]. Intuitivement, on peut penser qu'une instabilité de [1+A(q,t)] sur plusieurs instants t
résulterait en une divergence du multi-modèle et donc une divergence du critère Jg. Dans cette
situation, les estimées θ et β
0k 5 à l'itération précédente auront été rejetées puisqu'elles
0k+15
n'auront pas assuré une diminution du critère. Implicitement, la continuation de l'optimisation
suppose un polynôme [1+A(q,t)] stable.
Le problème est d'une part d'identifier les variables caractéristiques zj les plus pertinentes,
trouver le nombre de partitions à définir sur le support de chaque variable et de l'autre déterminer
la structure des modèles locaux. Dans cette section, nous présentons une méthode existante de
recherche des variables caractéristiques et du nombre de partitions associées. Nous proposons
des techniques de simplification de la structure des modèles locaux. Les méthodes de recherche
du nombre de partitions et de raffinement des modèles locaux sont ensuite intégrées dans une
procédure générale d'identification d'un multi-modèle qui réalise la décomposition de l'espace
caractéristique du système sous forme de grille.
Le critère de sélection de structure Jstruc adopté est soit un critère de validation croisé
calculé sur des données de test :
Ntest
1 0 5 0 56
Jtest = ∑ y t − ys t
t =1
2
(III-35)
soit un critère de type AIC, FPE ou MDL (cf. équations I-41, I-42 et I-43) évalué sur des
données d'identification.
CRAN-INPL Page 91
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
p1 =, …, = pnz = 1
Niveau 1
JSTRUC (1)
Le niveau 1 est le niveau d'initialisation. Le critère correspondant est celui enregistré avec
le meilleur modèle linéaire ou affine. A chaque niveau v de l'arbre, on obtient les éléments du
niveau inférieur par les opérations suivantes. On incrémente le nombre de partitions d'une et une
seule variable zj. Les paramètres de la grille sont optimisés par l'un des algorithmes présentés
auparavant. On calcule ensuite le critère Jstruc(v, j) correspondant à ce multi-modèle. On procède
de la même façon pour toutes les autres variables candidates. A cette étape v, on aura ainsi
calculé nz structures multi-modèles. Le multi-modèle retenu est celui ayant fourni le meilleur
critère Jstruc(v, j). On développe ensuite l'arbre à partir de ce modèle de meilleure qualité, ce qui
évite d'explorer toutes les branches. La recherche s'arrête si on atteint le minimum de Jstruc ou si
ce dernier évolue peu.
Page 92 CRAN-INPL
Chapitre III Optimisation paramétrique et structurelle des multi-modèles
• Si sur plusieurs niveaux, le nombre de partitions d'une variable reste figé à 1, on décide de
ne plus tester des partitions sur cet axe.
Mais soyons conscients que ces heuristiques peuvent écarter de la structure optimale dans
la mesure où on ne saurait dire si la variable ignorée à une étape ne contribue pas plus loin, dans
l'arbre, à diminuer le critère de façon significative.
Comme nous l'avons déjà souligné, l'identification d'un multi-modèle consiste à détecter
des zones où le système étudié peut être décrit par un modèle de structure simple, un modèle
affine ou linéaire. Cette formulation du problème implique que la recherche de la position des
zones et la recherche de la structure des modèles locaux ne peut se faire de façon simultanée(cf.
paragraphe II.4.1.1). Nous supposons que les connaissances disponibles sur le système ou les
techniques exposées au paragraphe II.4.1.1 permettront de suggérer une structure initiale qui sera
commune à tous les modèles locaux.
A la fin de la phase d'optimisation paramétrique, il est possible que des modèles locaux
contiennent des paramètres qui ont une faible contribution à l'explication du comportement du
système. Ceci s'explique par le fait qu'on a considéré la même structure pour tous les modèles
locaux alors qu'il est probable que certaines variables auront des degrés d'explication du système
forts différents suivant les zones de fonctionnement. Afin de satisfaire au principe de parcimonie,
ces paramètres "peu explicatifs" peuvent être supprimés de la structure multi-modèle sans nuire
aux propriétés d'approximation et de généralisation de cette dernière. La position des zones de
fonctionnement étant déterminée après l'optimisation paramétrique, la simplification de la
structure des modèles locaux équivaut à déterminer les variables les plus significatives. Les
techniques classiques de sélection de variables [Draper et Smith, 1981], [Haber et Unbehauen,
CRAN-INPL Page 93
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
Si on considère un critère quadratique par rapport aux paramètres des modèles locaux, on
retrouve les conditions de l'algorithme 1. Le modèle global est linéaire par rapport à ses
paramètres et le problème de sélection des variables utiles se ramène à l'identification de la
structure d'un modèle linéaire par rapport à ces paramètres.
Une méthode courante de sélection de variables est celle des moindres carrés
orthogonaux (MCO) [Korenberg et al., 1988]. Son application à l'optimisation de la structure de
la partie conséquence d'un modèle flou de Takagi-Sugeno est reportée dans [Wang et Langari,
1995], [Nelles, 1997-a]. C'est une méthode incrémentale qui accepte progressivement les
variables les plus explicatives dans le multi-modèle. Elle consiste à décomposer la matrice de
régression Φg comme le produit d'une matrice V1 dont les colonnes sont orthogonales entre elles
et d'une matrice V2 triangulaire supérieure. L'équation de régression linéaire Y = Φ gθ (III-15) est
transformée en une relation équivalente Y = V1θ orth . Le nouveau vecteur de paramètres est
θ orth = V2θ . L'avantage de cette transformation est l'orthogonalité entre les colonnes de V1.
L'ajout d'une nouvelle variable se fait sans nécessiter la mise à jour des paramètres associés aux
variables déjà présentes dans le multi-modèle. La prochaine variable à accepter dans le multi-
modèle est celle ayant fourni le plus fort coefficient de détermination (carré du coefficient de
corrélation) avec la sortie expliquée Ys. A la fin de l’algorithme, on revient au vecteur de
paramètres d’origine par la relation θ = V2−1θ orth . Les problèmes de cette méthode sont la perte
d'orthogonalité des colonnes de V1 au fil des itérations, la mise à jour du coefficient de
régularisation après l'ajout d'une nouvelle variable. Des détails sur l'implémentation
algorithmique des MCO sont exposés dans [Korenberg et al., 1988], [Chen et al., 1989-c].
Les MCO sélectionnent les variables significatives selon une approche ascendante. On
peut envisager la stratégie inverse qui consiste à supprimer progressivement les variables peu
significatives de la structure multi-modèle. La démarche directe est de minimiser le critère global
Jg sous la contrainte d'élimination d'un paramètre. La technique que nous exposons s'applique
sans difficultés à un critère de type erreur d'équation. Son adaptation à un critère à erreur de
sortie est possible (contrairement aux MCO) moyennant quelques aménagements.
05 49 4
J g θ ≈ J g θ + θ − θ 9 G4θ 9 + 12 4θ − θ 9 H4θ 94θ − θ 9
T T
(III-36)
Page 94 CRAN-INPL
Chapitre III Optimisation paramétrique et structurelle des multi-modèles
G(θ ) et H(θ ) sont respectivement le gradient et le hessien du critère Jg pour la valeur optimale
du θ . Ce développement est une approximation lorsqu'on considère un critère à erreur de sortie.
Dans le cas d'un critère à erreur d'équation (critère Jg quadratique par rapport au vecteur θ), la
relation (III-36) est exacte. Pour cette raison, nous développons la méthode pour un critère à
erreur d'équation. Nous décrirons par la suite les aménagements à adopter pour l'adapter à un
critère à erreur de sortie.
,,, &ULWqUHjHUUHXUG·pTXDWLRQ
∆θ = θ − θ
05 49
∆J g = J g θ − J g θ
on obtient :
1 T
0 5
∆J g ∆θ =
2
∆θ H ∆θ
5
(III-37)
Cv θ + ∆θ = 0 v ×1
4 9 (III-38)
0 1 0 0 "# v × nθ
Cv = Cv ∈
0 #$
# (III-39)
!0 0 1
La position des 1 dans la matrice des contraintes Cv désigne les variables à éliminer. La
minimisation du lagrangien résultant par rapport à ∆θ fournit la solution :
−1
∆θ = − H −1CTv Cv H −1CTv
3 8 Cv θ
θ (vc ) = θ + ∆θ = Pv θ
5
Le signe d'égalité est utilisé puisque l'équation (III-36) n'est pas une approximation mais elle est exacte. On notera
aussi que pour un critère à erreur d'équation, la matrice hessienne H est indépendante du vecteur de paramètres θ
d'où la notation H au lieu de H θ .
49
CRAN-INPL Page 95
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
Pv = I − H −1CTv Cv H −1CTv
3 8 −1
Cv
La variation de critère suite à l'élimination des v paramètres s'exprime par :
1 −1
05
∆J g v = θ T CTv Cv H −1CTv
2
3 8 Cvθ (III-40)
Cette formule permet de mesurer l'influence de la suppression d'un paramètre du modèle sur la
qualité de l'approximation. Cette procédure peut être répétée et il convient pour cela d'établir un
algorithme itératif. Ainsi, l'élimination d'un paramètre supplémentaire (par exemple le ième
élément du vecteur θ) revient à ajouter une nouvelle ligne de contrainte Ci à la matrice des
contraintes, ce qui donne la matrice augmentée :
Cv +1 =
C "#
v
!C $
i
Ci est un vecteur ligne composé d'éléments nuls à l'exception de l'élément de la position i qui est
1, c'est-à-dire :
1× nθ
Ci = [0
1 0 0] Ci ∈ (III-41)
Position i
On montre que la minimisation de la variation du critère ∆Jg (III-37) par rapport à ∆θ sous
l'ensemble des contraintes définies dans la matrice augmentée Cv+1 conduit au vecteur de
paramètres contraint :
θ (vc+)1 = Pv +1 θ (III-42)
Pv +1 = I − H −1Pv CiT Ci Pv H −1CiT
3 8 C P
−1
i v (III-43)
0 5 1
05
∆J g v + 1 = ∆J g v + θ T Pv CiT Ci Pv H −1CiT 3 8 −1 "#
Ci Pv θ (III-44)
2 ! $
Les équations (III-43) et (III-44) montrent qu'il existe une relation de récurrence entre les
matrices de projection Pv et Pv+1 et une relation de récurrence entre les variations de critère. On
peut donc déduire par récurrence la variation de critère liée à la suppression de v+1 paramètres si
on dispose des informations relatives à la suppression de v paramètres de la structure.
L'élimination ou non d'un paramètre est jugée sur l'amplitude de la variation du critère qui en
résulte. Il est alors possible de mettre en œuvre un algorithme de suppression des paramètres qui
Page 96 CRAN-INPL
Chapitre III Optimisation paramétrique et structurelle des multi-modèles
exploite ces relations de récurrence. Les étapes de cette procédure sont résumées dans
l’algorithme 3.
; @
Soit E p = 1,,. nθ , l'ensemble des indices des paramètres non nuls des
modèles locaux.
[2] Pour chaque paramètre θ(i) tel que i ∈ E p , générer le vecteur de contrainte Ci
correspondant (III-41).
Evaluer ensuite la variation de critère ∆J g ( v + 1) par l'équation (III-44).
[5] Réitérer à partir de l'étape [2] jusqu'à satisfaction d'un critère d'arrêt.
[6] Calculer le vecteur de paramètres final par les formules (III-42) et (III-43).
Remarque
CRAN-INPL Page 97
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
contrainte égalité conserve au fil des itérations la validité de l'approximation de l’équation (III-
37). Strictement, après chaque suppression de paramètres, il faut optimiser les paramètres
restants jusqu'à convergence, écrire de nouveau l'approximation et chercher le prochain
paramètre à supprimer. La récurrence sur laquelle est basée l'algorithme 3 n'est plus alors utile.
Ceci se révèle coûteux à cause de la nécessité de réestimer les paramètres par une
technique non-linéaire à chaque itération. On peut faire évoluer l'algorithme en décidant de ne
procéder à une optimisation des paramètres restants qu'au bout d'un certain nombre d'itérations.
Dans ce cas, on bénéficie de la relation de récurrence sur la variation de critère ∆J g .
Une façon directe (et c'est celle-là que nous privilégions dans nos simulations)
d'améliorer la technique est de comparer à chaque itération, la vraie variation du critère, calculée
en simulant le multi-modèle avec les valeurs actuelles de θ(vc ) , avec la variation de critère
0 5
∆J g v + 1 suggérée par l'équation (III-44). Si on constate un trop grand écart entre ces deux
grandeurs, cela signifie que l'approximation du 2e ordre du critère n'est plus valide ou la variation
∆θ ne permet pas de rester dans le domaine de validité de l'approximation. A ce moment, il faut
procéder à une nouvelle optimisation des paramètres.
Le critère d'arrêt ici est celui de l'algorithme 3 : soit la variation relative de critère
∆J reel J g (θ ) , soit un critère de généralisation de type FPE, AIC ou MDL. Cette procédure
d'élimination de paramètres peu significatifs est inspirée de la technique d'élagage de l'OBS
(acronyme de Optimal Brain Surgeon) [Hassibi et Stock, 1993] bien connue dans la communauté
des réseaux de neurones. Par rapport au réseau de neurones MLP, l'élimination ne porte pas sur
l'ensemble des paramètres (β et θ) du multi-modèle mais uniquement sur les paramètres θ des
modèles locaux. Une autre différence est à signaler : l'élimination de toutes les connexions
incidentes sur un neurone d'une couche cachée nécessite le retrait total du neurone c'est-à-dire la
suppression des poids de tous les arcs issus de ce neurone. De même, la suppression des poids de
tous les arcs issus d'un neurone caché requiert l'élimination des poids des connexions incidentes.
Ces contraintes sont nécessaires afin d'éviter que ces paramètres nuisibles [Pedersen, 1997]
influencent le calcul de la variation de critère (III-44). De telles contraintes ne sont pas gérées en
modélisation multi-modèle, ce qui constitue un gain de temps.
Page 98 CRAN-INPL
Chapitre III Optimisation paramétrique et structurelle des multi-modèles
; @
Soit E p = 1,,. nθ , l'ensemble des indices des paramètres non nuls des
modèles locaux.
[2] Pour chaque paramètre θ(i) tel que i ∈ E p , générer le vecteur de contrainte Ci
correspondant (III-41).
0 5
Evaluer ensuite la variation de critère ∆J g v + 1 par l'équation (III-44).
[4] Calculer le vecteur de paramètres contraint par les équations (III-42) et (III-
43). Calculer la variation réelle ∆Jreel en simulant le multi-modèle résultant.
Tester si le critère d'arrêt de l'algorithme portant sur ∆Jreel n'est pas satisfait.
Si oui alors arrêt de la méthode et saut à l'étape [6].
[6] Procéder à une optimisation finale des paramètres retenus dans la structure
multi-modèle. Elle se fait par l'algorithme de Levenberg-Marquardt.
Une autre méthode d’élagage des paramètres en réseaux de neurones est la méthode OBD
(Optimal Brain Damage) [LeCun et al., 1990]. Nous l’adaptons à l’identification d’un multi-
modèle. Dans cette technique, on estime à partir de l’approximation (III-37) l'augmentation du
critère que provoquerait la mise à zéro d'un paramètre sans chercher à minimiser cette variation
de critère. La formalisation mathématique de la méthode est la suivante. Forcer un paramètre θ(i)
à zéro se traduit par l’ajout au vecteur θ d’une perturbation ∆θ :
CRAN-INPL Page 99
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
0 5
T
∆θ = [0 0 - θ i 0 0]
Position i
La matrice de contrainte C(vOBD) est une matrice diagonale dont les éléments diagonaux
correspondants aux indices des v paramètres à supprimer valent 1 et tous les autres 0. A partir de
l’équation (III-37), on estime la variation de critère par :
1 T
2
3
∆J g ( v ) ≈ θ T C(vOBD) 8 H(θ ) C(vOBD) θ (III-46)
Remarques
¬ Un modèle local dont tous les paramètres sont supprimés à la suite de la procédure
d'élimination est considéré comme inutile. Sa contribution à la description du système est
nulle.
Toute la procédure d'identification d'un multi-modèle décrit par une grille (recherche des
variables candidates, recherche du nombre de partitions à associer à ces variables, optimisation
des paramètres et raffinement de la structure des modèles locaux) est résumée par le schéma
synoptique de la figure III-5.
JSTRUC 0 j5 − J 0PREC5 J
STRUC STRUC 0PREC5 < seuil ?
OUI
MULTI-MODELE FINAL
¼ Exemple III-1
Nous étudions ici un petit d'exemple d'élimination des paramètres des modèles locaux
pour une structure multi-modèle à erreur de sortie. Le multi-modèle traité dans cet exemple
est construit avec 2 variables caractéristiques ayant respectivement 3 et 2 partitions. Les
modèles locaux sont des modèles à erreur de sortie d'ordre 1. Le système étudié est décrit par
l'équation (III-47) dans l'exemple III-2.
Les méthodes OBS et OBD sont respectivement appliquées. Mais dans ces
simulations, nous n'avons pas procédé à une réoptimisation des paramètres. En d'autres
termes, nous avons supprimé les deux premiers items de l'étape [5] de l'algorithme 4. Nous
comparons l'estimation du critère suggérée par l'approximation du second ordre avec la vraie
valeur du critère Jg enregistrée en simulant la structure multi-modèle réduite. Les résultats
sont consignés sur les courbes de la figure III-6. A gauche, on présente les résultats de la
méthode OBS alors que ceux de la méthode OBD sont sur la droite. Pour une meilleure
lisibilité des courbes, nous avons effectué un zoom sur les premières valeurs. On constate
dans les deux cas, que l'approximation reste proche des valeurs réelles du critère Jg sur une
dizaine d'itérations. Ceci justifie l'application des deux algorithmes sans systématiquement
optimiser à chaque itération les paramètres restants. Si on constate un trop grand écart entre
Jg et son approximation, on envisage une mise à jour par une procédure non-linéaire. Le gain
en temps de calcul est alors très appréciable. Pour finir cette analyse, remarquons que pour
un même nombre de paramètres supprimés, la méthode OBS donne des valeurs du critère
plus faibles que la méthode OBD. L'explication découle simplement du fait que dans la
méthode OBD, on ne cherche pas à minimiser la variation de critère que provoque
l'annulation d'un paramètre.
30 80
Critère estimé
60
20
Critères
Critères
Critère réel
40
10
20
0
0 5 10 15 0
Nombre de paramètres supprimés 0 5 10 15 20
Nombre de paramètres supprimés
Zoom sur les premières valeurs des critères Zoom sur les premières valeurs des critères
5.5 20
Critère estimé
15
5
Critère réel
10
4.5
5
4 0
0 5 10 15 0 2 4 6 8 10
a- Elimination des paramètres par la technique inspirée b- Elimination des paramètres par la technique
de l'OBS inspirée de l'OBD
Figure III-6 : Comparaison critère réel Jg et critère approché par les méthodes OBD et
OBS
¼ Exemple III-2
La procédure d'identification jusqu'alors décrite est illustrée sur un exemple de
simulation. Soit à modéliser le système non-linéaire à 2 entrées et une sortie décrit par
l'équation aux différences :
0 5 y0t - 15 0.51+
yt =
u1 0t - 15 - 0.3u2 0t - 15
y0t - 15 2
+ 0.3u1 0t − 152 − 0.5u2 0t − 152 + e0t 5 (III-47)
Les entrées u1(t) et u2(t) du système sont constituées par la concaténation de créneaux
d'amplitudes (appartenant à [-1, 1]) et de durées variables. Un jeu de données de 1000 points
a servi à l'identification du modèle. Le jeu des données de validation est constitué de 800
points.
La procédure d'identification proposée sur la figure III-5 a été appliquée sur cet
exemple. Les variables caractéristiques candidates que nous avons choisies sont u1(t-1) et
u2(t-1). La structure initiale des modèles locaux est choisie de la forme :
yi t = − a10i 5 y t − 1 + b11
05 0 5 0i 5u t − 1 + b 0i 5u t − 1 + θ
0 5
1 21 2 0 5 i0
Les modèles locaux sont donc de type erreur de sortie. Les paramètres d'une structure
multi-modèle fixée sont estimés par l'algorithme 2. Le paramètre γ des fonctions de validité
est fixé à γ=3. L'élimination des paramètres est réalisée par la méthode OBS. Les résultats
obtenus sont consignés dans le tableau suivant. Deux doubles barres délimitent un niveau de
l'arbre décrit à la figure III-4.
0 5
u1 t − 1 0 5
u2 t − 1 Critère JSTRUC Critère Jg
(JTEST)
1 1 107.8 113.95
Modèle linéaire OE
2 1 85.09 79.73
1 2 36.97 39.39
1 3 31.17 29.56
2 2 3.67 2.64
3 2 3.18 2.36
2 3 2.10 1.88
3 3 2.61 1.84
2 4 1.92 1.85
2 5 2.09 1.66
3 4 1.62 1.66
4 4 172 1.61
3 5 2.33 1.56
0.5
0.5
0
0 -1 -0.5 0 0.5 1
-1 -0.5 0 0.5 1
0.5 0.5
0 0
-1 -0.5 0 0.5 1 -1 -0.5 0 0.5 1
Figure III-7 : Allure des fonctions de validité individuelles avant et après optimisation
La simulation du modèle sur des données de test (données différentes de celles qui ont
servi à l'identification de la structure) est montrée sur la figure qui suit. Cet ensemble de test
est constitué de 600 points. On constate une bonne adéquation entre la sortie réelle du
processus modélisé et le modèle identifié.
1
Mesures
0.5 Multi-modèle
n
-0.5
-1
0 100 200 300 400 500 600
Figure III-8 : Comparaison des mesures avec la simulation fournie par le multi-modèle
Les résultats du test de corrélation des résidus sont décrits sur les figures ci-après. Les
intervalles de confiance sont à 95%. On constate que les conditions de validité du multi-
modèle sont bien respectées.
rεε
1
0.5
-0.5
0 5 10 15 20 25
ru1ε ru2ε
0.2
0.2
0.1
0 0
-0.1
-0.2 -0.2
-25 -20 -15 -10 -5 0 5 10 15 20 25 -25 -20 -15 -10 -5 0 5 10 15 20 25
ru2ε ru2ε
1 2
0.2 0.2
0 0
-0.2 -0.2
-25 -20 -15 -10 -5 0 5 10 15 20 25 -25 -20 -15 -10 -5 0 5 10 15 20 25
ru2ε2 ru2ε2
1 2
0.2 0.2
0 0
-0.2 -0.2
Cette première partie du chapitre III a été consacrée à l'optimisation d'un multi-modèle à
travers une partition grille. Notre contribution à la résolution de ce problème porte sur les points
suivants :
• L'intégration de ces techniques dans une procédure heuristique de recherche des variables
caractéristiques du système et du nombre de partitions sur le support de ces variables. Cette
méthode procède d'une démarche ascendante.
L'inconvénient de la partition grille est son caractère combinatoire qui se traduit d'une
part par un nombre important de modèles locaux et de l'autre par l'existence de zones vides qui
sont inutiles car elles n'apportent pas d'information pour l'explication du comportement du
système. Dans la deuxième partie de ce chapitre, nous présentons des outils pour réduire cette
complexité de la partition grille et réaliser un pavage non régulier de l'espace caractéristique.
D'un autre côté, dans la partition grille, l'incrémentation du nombre de partitions pi d'une
variable caractéristique zi n'augmente pas d'une unité le nombre de modèles locaux mais de
∏ j =z 1 p j modèles locaux (produit du nombre de partitions des variables caractéristiques
n
j ≠i
restantes). En plus des zones vides qui sont susceptibles d'apparaître, la partition grille peut
produire des zones de fonctionnement voisines décrivant des comportements similaires du
système. Dès lors, on peut envisager de réduire le nombre de modèles locaux en combinant ces
zones voisines, en d'autres termes réaliser une fusion des modèles locaux.
Dans les sous-sections suivantes, nous exposons des techniques d'élimination et de fusion
des modèles locaux. Ensuite, nous montrerons comment ces techniques peuvent être combinées
pour construire une structure multi-modèle plus réduite à partir d'un découpage initial de l'espace
caractéristique. Deux cas seront traités : le premier illustre la construction d'un multi-modèle
dont les zones de fonctionnement sont des orthotopes (i.e. des sous-espaces orthogonaux aux
axes de l'espace caractéristique) ; le deuxième cas exploite toute la flexibilité de la démarche
pour générer des zones de forme plus libre.
citer (la liste n'est pas exhaustive) : Wang et Mendel [1992], Mouzouris et Mendel [1996], Yen
et Wang [1998-a, 1999]. Dans leurs travaux, des techniques comme la méthode SVD-QR avec
permutation de colonnes, les moindres carrés orthogonaux (MCO), les moindres carrés totaux
(Total Least Squares en anglais), … sont appliquées pour sélectionner les modèles locaux les
plus significatifs. Mais les travaux précités présentent l'inconvénient de se limiter à des modèles
locaux constants. En effet, la partition de l'espace caractéristique étant fixée, la sortie d'un multi-
modèle avec des modèles locaux constants s'écrit sous la forme de la relation matricielle linéaire
05 05N
Y = Φ gθ (III-15) où la matrice de régression Φ g = ω 1 t ω M t t =1 est formée par les degrés
d'activation de chacun des modèles locaux. Le problème d'élimination des modèles locaux se
ramène alors à une sélection de variables dans une régression linéaire. Ces méthodes deviennent
inadaptées pour des modèles locaux affines ou linéaires. Néanmoins, le point intéressant est que
la suppression d'un modèle local est assimilée à l'inactivation de ce dernier. Eliminer le modèle
fi revient par conséquent à annuler sa sortie yi(t) pour tout t. Une solution consiste à annuler le
vecteur de paramètres θi du modèle fi , puis à mettre à jour les paramètres des modèles restants.
Cette formulation a été exploitée par Boukhris et al. [2000] qui ont proposé un algorithme
d'élimination des modèles locaux basé sur une optimisation des moindres carrés sous contraintes
égalité. La pertinence de la suppression d'un modèle est directement jugée sur l'amplitude de la
variation de critère que son élimination provoque. On retrouve là les éléments sous-jacents de
l'algorithme 3. Adapté à l'élimination des modèles locaux, cet algorithme nécessite la
0 5 0
manipulation de matrices de projection Pv -cf. équation (III-43)- de taille n × M × n × M où n 5
est la dimension de chaque vecteur de paramètres locaux. A chaque itération, le calcul de la
matrice de projection fait appel à l'inversion de matrices de taille n×n. Pour limiter le volume de
calcul, nous proposons une autre méthode qui traite le problème sous le même angle mais d'une
manière plus simplifiée.
L’astuce de la technique est d’affecter une pondération αi à chaque modèle local [Gasso
et al., 1999-c]. La sortie du multi-modèle a alors pour expression :
M
05 05 05
y t = ∑ ω i t yi t α i
i =1
(III-48)
05 05
y t =ψ t α (III-49-a)
ψ 0t 5 = ~
y 0t 5 ~
y 0t 5
T T
1 M et α = α 1 α M (III-49-b)
Y = Ψα
Dans le multi-modèle initial, tous les coefficients αi ont une valeur de 1. Comme l'élimination
d'un modèle local équivaut à forcer la sortie locale correspondante à 0, il suffit d'annuler la
contribution αi du modèle local fi, puis de réestimer les autres coefficients de pondération car la
contribution des autres modèles locaux en sera modifiée. Cette modification sera d'autant plus
petite que le modèle à éliminer est peu significatif. Mathématiquement, le problème
d'élimination d'un modèle local fi se ramène à la minimisation du critère :
1 1
05
Jα =
2
Y − Ys
2
=
2
Ψα − Ys
2
sous la contrainte de la nullité de αi. Dans une formulation matricielle, cette contrainte prend la
forme Ciα = 0 - voir équation (III-41) - avec le vecteur de contrainte Ci qui est maintenant de
taille M. De façon similaire au problème d’élimination des paramètres traité au paragraphe
III.2.4.3.1, on montre que la solution de cette optimisation sous contrainte égalité est fournie
par :
α (ci ) = Pi α 0
−1
4
Pi = I − Ψ T Ψ 9−1 CiT Ci 4Ψ T Ψ 9−1 CiT Ci
où α 0 = M est le vecteur de pondérations initial constitué de 1, Pi une matrice de projection
M×M
3P ∈
i 8. La variation de critère résultant de l'élimination du modèle local f s'obtient par : i
−1
∆J = J 3α 8 − J 1α 6 = α C C 3Ψ Ψ 8 C C α
(i ) 1 T T T −1 T
c 0
2
0 i i i j 0
Le modèle local éliminé est celui ayant produit la variation de critère minimale. L'élimination
d'un autre modèle local, fj par exemple, équivaut à minimiser le critère J α sous les contraintes 05
Ciα = 0 et C jα = 0 . On en déduit la variation de critère à partir de laquelle, on décide ou non la
suppression de cet autre modèle local. Il est donc possible de mettre en œuvre un algorithme
itératif de suppression des modèles locaux. Cet algorithme est en tout point identique à
l’algorithme 3. Par conséquent, nous ne décrirons pas en détail les étapes à suivre pour éliminer
les modèles locaux. Nous renvoyons à l’algorithme 3 avec les modifications suivantes à
apporter :
1× M
♦ le vecteur de contrainte Ci est maintenant de taille M Ci ∈ 4 9.
Les autres étapes de l’algorithme restent inchangées. A la fin de l'algorithme, on obtient la liste
des modèles locaux candidats à la suppression. Le nombre de modèles à éliminer se décide sur la
base d'un critère de généralisation de type FPE, AIC ou MDL.
REMARQUES
¬ Avec la formulation (III-48) et (III-49), l'élimination d'un modèle local est ramené à un
problème de sélection de variables. Les méthodes MCO, SVD-QR, … précédemment
évoquées s'appliquent.
¬ Les paramètres des modèles locaux supprimés à la suite de cette procédure sont forcés à
zéro. Ceux des modèles locaux retenus sont ensuite réestimés. Notons que cette façon de
procéder n'élimine pas totalement l'influence des modèles peu explicatifs dans la structure
multi-modèle. En effet, la fonction d'activation ωi d'un modèle local fi non éliminé se
calcule toujours comme :
ρ
ωi = M i
∑ρj
j =1
L'idée ici est de combiner des modèles locaux voisins. Tout de suite les questions qui se
posent sont : comment réaliser cette combinaison ? Suivants quels critères décide-t-on de
fusionner deux modèles voisins ? Comment déterminer les modèles voisins ? Nous avons
répertorié dans la littérature trois approches proposant des réponses à ces questions. Nous les
exposons dans les paragraphes qui suivent.
Une méthode de fusion suggérée par Kaymak et Babuška [1995] et reprise dans [Babuška
et Verbruggen, 1997] puis dans [Babuška, 1998] se fonde sur l'analyse de la compatibilité des
modèles locaux. La structure multi-modèle sur laquelle elle s'applique est construite en réalisant
une classification des données dans l'espace produit entre la sortie du système et l'espace de
&
L'axe d'allongement maximal d'une classe définit par conséquent l'hyperplan correspondant au
modèle local. Le vecteur normal à cet hyperplan et noté Y
est le vecteur propre associé à la plus
petite valeur propre de la matrice de variance-covariance des données relevant de cette classe.
Deux classes i et j sont jugées compatibles si elles satisfont aux conditions suivantes :
• leurs centres sont proches, soit 05 05
centre i − centre j ≤ seuil1 (avec seuil1 proche de zéro),
&&
• leurs vecteurs normaux sont colinéaires soit, Yi ⋅ Y j ≥ seuil2 (seuil 2 proche de 1).
La procédure de fusion consiste donc à identifier les classes compatibles au sens de ces
deux critères, puis à les fusionner. L'illustration de la méthode est faite sur la figure III-9 où sept
classes sont utilisées pour approcher une fonction non-linéaire statique. L'algorithme de fusion
permet par exemple de combiner les classes 4 et 5 d'une part et les classes 6 et 7 de l'autre. Mais
la technique souffre de deux problèmes : le premier concerne la définition d'un indice unique de
compatibilité des classes conciliant les critères de proximité et de colinéarité. En effet, deux
classes dont les centres sont plus ou moins éloignés et qui ont des vecteurs normaux quasiment
colinéaires auront un indice de compatibilité du même ordre de grandeur que deux classes dont
les centres sont proches mais avec des vecteurs normaux non colinéaires. C'est le cas des classes
1, 2, 3 sur la figure III-9. Les classes 2 et 3 sont proches mais ne sont pas colinéaires tandis que
les classes 1 et 2 ont leurs centres éloignés mais avec des vecteurs normaux quasiment
colinéaires. Ce dilemme proximité/colinéarité peut influencer fortement la prise de décision. Le
second problème découle du premier : il est lié à la spécification d'un seuil significatif de l'indice
de compatibilité afin de décider les classes qui doivent être regroupées [Babuška, 1998].
& &Y
Y1 1
Une autre méthode de fusion a été proposée par Setnes et al. [1998] dont les travaux se
situent dans la continuité de ceux de Kaymak et Babuška [1995]. Afin d'exprimer les classes
6
Dans cette méthode de classification, le vecteur de régression comprend les sorties et les entrées décalées du
système. La méthode de classification n'existe pas pour l'instant pour des modèles locaux de type erreur de sortie.
sous la forme d'un modèle flou, on procède à une projection des classes sur les axes de l'espace
de régression (qui coïncide ici avec l'espace caractéristique). Chaque classe est alors caractérisée
par une partition (décrite par une fonction de validité individuelle) sur le support de chaque
variable de régression. Si le nombre initial de classes est important, il est courant d'avoir des
partitions qui sont très semblables : elles peuvent être combinées en une seule. Des partitions
semblables peuvent également apparaître si la position des fonctions de validité a été optimisée
sans imposer des contraintes sur leurs paramètres comme celles que nous avons définies à
l'équation (III-10). La méthode de fusion développée par Setnes et al. [1998] consiste à regrouper
de façon séquentielle les paires de partitions semblables. Cette opération de fusion s'exécute
indépendamment sur le support de chaque variable caractéristique. A la fin de la procédure, des
modèles locaux peuvent se retrouver affectés à des zones de validité identiques. Pour assurer la
cohérence du multi-modèle, ces modèles sont remplacés par un seul modèle local. En somme, la
fusion de deux modèles locaux résulte de la similarité de leurs partitions sur chaque axe de
l'espace caractéristique. L'exemple d'un multi-modèle à une variable caractéristique est montré
sur la figure III-10. A gauche, les fonctions de validité initiales, au milieu, la position de ces
fonctions après optimisation paramétrique. On constate que les fonctions de validité associées
aux partitions 33 et 34 se recouvrent fortement : elles sont très similaires ; les modèles locaux
correspondants sont fusionnés.
31 32 33 34 35 31 32 33 34 35 31 33 , 4
1
1 32 35
1
0 0
0 0.5 1 0
0 0.5 1 0 0.5 1
Figure III-10 : Méthode de fusion basée sur l'analyse de la similarité des fonctions de
validité
La réduction en nombre de modèles locaux est intimement liée au choix d'un seuil significatif
pour décider de la similarité des partitions. Si ce seuil est faible, la méthode fusionnera beaucoup
de modèles locaux ; elle en combinera peu dans le cas contraire. Cette méthode de fusion est
inadaptée dans le cas des fonctions de validité construites à partir de sigmoïdes car de part les
contraintes qu'on impose sur les paramètres de ces fonctions, on évite un recouvrement quasi
total entre elles.
La dernière approche proposée dans la littérature est le fait de Boukhris et al. [2000].
L'idée pour fusionner deux modèles locaux n'est pas d'examiner la similarité des zones de
validité ou la compatibilité des classes. Elle consiste à imposer purement et simplement une
contrainte selon laquelle deux modèles voisins considérés pour fusion doivent avoir le même
comportement. Sous cette contrainte, on met à jour le vecteur de paramètres des autres modèles
locaux, puis on évalue l'influence de cette décision sur les qualités d'approximation du multi-
modèle. De l'examen de cette influence, on décide l'acceptation ou non de la fusion de ces
modèles locaux. Cette dernière technique se fonde directement sur les capacités d'approximation
du multi-modèle contrairement aux deux méthodes précédentes ; nous la préférons pour cette
raison. De plus, sa mise en œuvre se situe dans la droite ligne des techniques d'optimisation sous
contraintes égalité que nous avons explicitées dans les algorithmes 3 et 4. La formulation
mathématique de cette méthode de fusion est développée dans le paragraphe suivant.
θ i + ∆θ i = θ j + ∆θ j (III-50)
position j
0 n×n ]
position M
(III-52)
Dans cette équation, l'indice n désigne la taille du vecteur de paramètres d'un modèle local (étant
entendu que tous les modèles locaux ont des vecteurs de paramètres de taille identique). La
fusion de deux modèles locaux revient à minimiser la variation de critère (III-37) sous la
contrainte égalité exprimée par la formule (III-52). De façon analogue au calcul du paragraphe
III.2.4.3.1, on déduit de cette minimisation le vecteur de paramètres contraint :
θ (ijc ) = I − H −1CijT Cij H −1CijT
3 8 −1
Cij θ
1 −1
∆J g ij = θ T CijT Cij H −1CijT Cijθ
05 4 9
2
Une récurrence sur la variation du critère pourrait être établie si d'autres modèles locaux sont
fusionnés. L'algorithme de fusion des modèles locaux est donc comparable à celui d'élimination
des paramètres des modèles locaux. Ses étapes sont décrites par l'algorithme 5.
[2] Pour chaque paire (fi, fj), générer la matrice de contraintes Cij correspondante
(III-52).
0 5
Evaluer la variation de critère ∆J g v +1 par la relation (III-44) dans laquelle
on remplacera le vecteur Ci par la matrice de contraintes Cij.
[3] Trouver la paire de modèles locaux (fk, fl) dont la fusion conduit à une
variation de critère minimale.
Fusionner les modèles locaux correspondants. Soit Fk ,l le nouveau modèle
local obtenu.
Incrémenter v.
[5] Réitérer à partir de l'étape [2] jusqu'à la satisfaction d'un critère d'arrêt.
[6] Calculer le vecteur de paramètres final par les formules (III-42) et (III-43).
On substituera dans (III-43) la matrice de contraintes Cij au vecteur Ci.
Comme dans les algorithmes 3 et 4, le critère d'arrêt porte sur un critère de généralisation
AIC, FPE ou MDL. Les degrés de liberté intervenant dans ces critères sont donnés par le produit
Mv × n où n est la dimension d'un vecteur de paramètres locaux, Mv est le nombre de modèles
locaux de la structure multi-modèle après la vième fusion.
4 05 9 4 05 9
Si l'on fusionne deux modèles locaux fi ϕ t ,θ i et f j ϕ t ,θ j de fonctions d'activation
105 6
respectives ω i z t , β 105 6
et ω j z t , β , on obtient un nouveau modèle local désigné par
4 05 9 105 6
Fi, j ϕ t , θ i, j . La fonction d'activation ω i, j z t , β de ce nouveau modèle est définie comme la
En modélisation floue, cette opération de fusion s'assimile à une union de deux ensembles flous
sur la base de l'opérateur t-conorme de Lukasiewicz. Cet opérateur est défini dans le tableau I-2
3 8
comme ω i, j = min ω i + ω j , 1 . La règle résultante s'interprète sous la forme de la proposition
suivante :
4 05 9
ℜi, j : si ℜi ∨ ℜ j alors Fi, j ϕ t , θ i, j
Un modèle local Fi, j issu de la fusion de fi et fj peut ensuite être combiné à un modèle fk
ou à un autre modèle Fk ,l , fusion de fk et fl. Pour ne pas complexifier les notations, nous noterons
Fi , les modèles locaux obtenus après application de l'algorithme de fusion. A chaque modèle Fi
est associé un ensemble ℑi qui comprend les indices des modèles locaux initiaux à partir
desquels Fi a été construit. Par exemple, à un modèle Fi , fusion de fj, fk et fl correspond un
: ?
ensemble ℑi = j , k , l . La fonction d'activation de ce modèle est déterminée à partir de
l'expression :
ω i = ∑ ω p = ω j +ω k + ω l (III-54)
p ∈ℑi
centre = i − centre = j
1 6 3 8 2 ≤ seuil (III-55-a)
N
05 05
∑ω i t z t
centre1= i 6 =t =1
N
(III-55-b)
∑ ω i 0t 5
t =1
Nous verrons par la suite que l'utilisation d'une partition grille nous affranchit de l'emploi de
cette notion de voisinage. Néanmoins, elle a été présentée afin de rendre l'algorithme de fusion
applicable à tous les types de partition.
L'étude est réalisée en deux temps : de prime abord, nous considérerons le cas simple d'un
espace caractéristique monodimensionnel, puis nous aborderons le cas général d'un espace
multidimensionnel.
La procédure d'optimisation structurelle est simple à mettre en œuvre dans ce cas. L'étape
d'élimination des modèles locaux est inutile puisqu'il ne peut exister de zones vides. Pour former
les paires de modèles locaux à fusionner, il suffit de prendre les modèles adjacents, ce qui évite
l'utilisation de la notion de voisinage (III-55-a). La méthode est illustrée sur un exemple de
simulation.
¼ Exemple III-3
On considère un système décrit par l'équation différentielle non-linéaire :
05 05 05 05 05
y t + y t + y t + y t 3 = u t
Ce système a été simulé, puis échantillonné à une période de 0.2s. Un jeu de données
de 1500 points a servi à l'identification d'un multi-modèle. La variable caractéristique est
05 0 5
z t = u t - 2 . Les modèles locaux sont des modèles à erreur de sortie avec le vecteur de
régression augmenté suivant 05 0 5 0 5 u0t − 15 u0t − 25
ϕ a t = − y t − 1 − y t − 2 1
T
qui
comporte les sorties décalées du multi-modèle. Ce choix préalable de ϕα(t) et de z(t) a été
fait après une série de tests effectués par la procédure de la figure III-5.
Le multi-modèle initial comporte 12 modèles locaux dont les fonctions de validité sont
construites à partir de fonctions sigmoïdes. Leur position sur le support de la variable
caractéristique est illustrée sur la figure III-12-a. Précisons que la position initiale de ces
fonctions d'activation7 a été optimisée durant quelques itérations pour les adapter aux non-
linéarités du système. Les 60 paramètres des modèles locaux ont été ensuite optimisés par un
algorithme de Levenberg-Marquardt. A la convergence de l'algorithme d'optimisation, la
procédure d'identification structurelle de la figure III-11 a été initiée. Le tableau III-3 résume
les résultats obtenus.
7
Rappelons que l'espace caractéristique étant monodimensionnel, les fonctions d'activation coïncident avec les
fonctions de validité. En effet, de part la définition des fonctions d'activation à partir des sigmoïdes, elles forment
une partition unité sur le support de la variable caractéristique.
1
ω1 ω2 ω3 ω4 ω5 ω6
0.5
0
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
1
ω1 ω2 ω3 ω4 ω6
ω5
0.5
0
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
ω1 ω2 ω3 ω4
0.5
0
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
Figure III-12 : Tracé des fonctions d'activation des modèles locaux lors de la fusion
Itération 0 1 2 3 4
Nombre de modèles
12 6 5 4 3
locaux M
Critère MDL 1.98 1.83 1.81 1.80 1.82
Critère d'identification Jg 4.90 5.15 5.24 5.35 5.67
paramètres des modèles locaux et des fonctions d'activation actuellement présents dans le
multi-modèle. La nouvelle structure multi-modèle sert de point départ pour la fusion d'autres
modèles locaux. Le processus est ainsi réitéré et l'arrêt de la procédure globale est jugé sur
les variations du critère MDL. L'optimum du critère MDL a été atteint pour un nombre de
modèles locaux égal à 4. Les fonctions d'activation associées à cette structure multi-modèle
finale sont tracées sur la figure III-12-c.
Un jeu de données de test constitué de 600 points a été ensuite utilisé pour comparer la
structure multi-modèle réduite avec la structure multi-modèle initiale constituée de 12
modèles locaux. Les tracés comparatifs de la sortie du système simulé et de celle de ces deux
multi-modèles sont présentés sur la figure III-13. La structure multi-modèle réduite fournit
des performances légèrement supérieures à la structure initiale puisque le critère quadratique
calculé sur les données de test est de 2.05 pour la structure réduite contre 2.47 pour la
structure complète. Cette différence peut provenir du fait que le multi-modèle complet s'est
trop adapté au bruit (phénomène de sur-apprentissage) et généralise donc moins bien sur les
données de test.
0 0
-0.5
-0.5
-1
0 100 200 300 400 500 600 -1
0 100 200 300 400 500 600
,,, *pQpUDWLRQGHODSDUWLWLRQLQLWLDOH
On s'attache dans cette étape à supprimer les modèles locaux dont la contribution à
l'explication de la sortie du système est faible. Etant données la partition initiale et la structure
initiale des modèles locaux, il est aisé de calculer le vecteur de paramètres des modèles locaux
par moindres carrés régularisés (la régularisation est nécessaire pour éviter des problèmes de
mauvais conditionnement liés à la rareté des données d'identification dans certaines zones de
fonctionnement). La sortie des modèles locaux est ensuite calculée et on y applique la procédure
d'élimination. Le lecteur notera une caractéristique intéressante de cette étape d'élimination : la
partition initiale sous forme de grille est une caractérisation grossière de la forme du nuage de
points dans l'espace caractéristique. L'étape d'élimination s'assimile à une délimitation plus
affinée de ce nuage de points (voir figures III-17-a, III-17-b).
Soit SR, l'ensemble des modèles locaux restants après élimination. La sortie du multi-
modèle est maintenant exprimée par l'équation :
M0 M1
05 i =1
05 05
y t = ∑ ω i t yi t = ∑
i' =1
05 05
ω i' t yi' t
i ∈ SR
La position des zones de fonctionnement (ou encore zones de validité) étant fixée, on se
focalise sur le regroupement des modèles locaux restants afin de réduire la taille de la structure
multi-modèle. La partition initiale étant sous forme de grille, il est facile de définir les paires de
modèles locaux voisins. En effet, il suffit de considérer les zones adjacentes comme le montre la
figure III-14. Sur cette figure, les flèches indiquent les zones pouvant être fusionnées. La zone =5
(ou de façon équivalente le modèle local f5), par exemple, pourra être fusionnée avec les zones
adjacentes =2, =4, =6, =8. La détermination des paires de modèles locaux voisins est ainsi
grandement facilitée.
z2
=3 =6 =9
=2 =5 =8
=1 =4 =7
z1
Figure III-14 : Définition des paires de modèles locaux voisins à partir d'une partition
grille initiale (exemple d'une grille avec 3 partitions définies sur chaque axe)
La préoccupation suivante porte sur la forme des zones de fonctionnement : faut-il limiter
ou non les zones de validité issues de la fusion à des orthotopes (hyper-rectangles) ? Pour
illustrer le problème, examinons la figure III-15.
z2 z2 z2
=3 =6 =9 =3 =6 =3 =6
=8,9 =8,9
=2,5
=2 =5 =8
=1,2,4,5
=1,4 =7 =1,4 =7 =7
z1 z1 z1
Figure III-15 : Illustration de la fusion des modèles locaux avec des zones de validité
restreintes à des orthotopes
Considérons que les modèles locaux correspondants aux zones =1 et =4 ont été fusionnés
à la première itération de l'algorithme de fusion. Désignons par F1,4 le nouveau modèle et par
=1,4 , la zone de validité qui lui correspond. Si les zones de validité sont limitées à des
orthotopes, la fusion de =1,4 avec la zone =2 ou =5 n'est pas envisageable. La seule possibilité
restante est la fusion de =1,4 avec =7. Dans l'algorithme de fusion, les paires de modèles F1,4 , f2 2 7
2 7
et F1,4 , f5 sont alors exclues des combinaisons de fusion à tester (ceci après le remplacement
des modèles f1 et f4 par le modèle F1,4 dans toutes les paires candidates où ceux-ci interviennent).
Si au cours des itérations de l'algorithme de fusion, les modèles f2 et f5 sont fusionnés (ce qui
génère la zone = 2,5 ), il est possible alors de combiner les zones =1,4 et = 2,5 pour avoir une
nouvelle zone =1,2,4,5 . Ceci est illustré sur la figure III-15. Signalons que l'absence de flèches
entre deux zones indique que leur fusion n'est pas possible.
L'intérêt que représente cette restriction des zones de validité à des orthotopes est la facilité de
lecture du multi-modèle résultant : il peut se lire comme un modèle flou c'est-à-dire chaque
modèle local s'exprime sous la forme de propositions portant sur les variables caractéristiques.
z2 z2 z2
=3 =6 =9 =3 =6
=6,8,9
=8,9
=2 =5 =8 =2,5 =2,3,5
Figure III-16 : Fusion de modèles locaux : zones de validité non limitées à des orthotopes
Cependant la lecture de la structure multi-modèle résultante est moins aisée. Une zone
non rectangulaire comme la zone = 2,3,5 ne peut plus être interprétée sous la forme de
propositions portant sur les variables caractéristiques. Elle s'interprète seulement comme la
combinaison des zones de validité parentes =i.
¼ Exemple III-4
Le système non-linéaire étudié est représenté par l'équation aux différences :
05 0 5 2 0 57 0 5
y t = 0.4u t - 1 3 + exp -0.5 y t - 1 + e t
où e(t) représente le bruit de mesure. L'entrée du système est formée par la concaténation de
créneaux d'amplitudes et de durées variables. D'après l'équation décrivant le système, la non-
linéarité est due à u(t-1) et y(t-1). Les variables caractéristiques choisies sont alors u(t-1) et
05 0 5 0 5
ys(t-1). Le vecteur de régression augmenté est ϕ a t = − ys t − 1 u t − 1 1 , soit n=3
T
paramètres pour chaque modèle local. Notons que les modèles locaux sont des modèles ARX
(modèle à erreur d'équation). Le jeu de données d'identification du multi-modèle comprend
2500 points.
♦ Etape 0 : génération de la partition grille initiale
L'espace caractéristique du système est décomposé en une grille. p1=p2=6 partitions
sont positionnées sur le support de chaque variable caractéristique. Les fonctions sigmoïdes
ont servi à la définition des fonctions de validité des partitions. Le nombre total de
1 6 1 6
paramètres nécessaires pour construire les fonctions de validité est nβ = 2 p1 − 1 + 2 p2 − 1 , soit
20 paramètres. Initialement, ces fonctions de validité individuelles sont disposées de façon
régulière sur le support des variables caractéristiques. Le nombre initial de modèles locaux
est M0 = 62 = 36 . La distribution spatiale des données dans l'espace caractéristique ainsi que le
contour des zones couvertes par ces modèles locaux sont décrits sur la figure III-17-a. La
ligne de contour des zones est tracée pour un niveau des fonctions d'activation égal à 0.4. On
remarque immédiatement que les données ne couvrent pas entièrement l'espace
caractéristique. De ce fait, la définition d'une partition grille avec une résolution "fine" crée
des zones de fonctionnement vides de données. Ces zones ne correspondent à aucun
comportement physique du système et leur élimination ne nuira pas aux capacités
d'approximation du multi-modèle.
=30
1 1
=6 =12 =18 =24 =6 =12 =18 =24 =30 =36
=36
u(t-1)
0 0
=8 =7
1
=9 =8
1
=7
0.5 0.5
=6
=5 =6 =5
u(t-1)
u(t-1)
0 0
=2 =2
=4 =4
-0.5 -0.5
=3 =3
=1 =1
-1 -1
-1 -0.5 0 0.5 1 -1 -0.5 0 0.5 1
ys(t-1) ys(t-1)
Multi-modèle final 1
(zones restreintes à des orthotopes)
9 0.831 1.93
Multi-modèle final 2
(zones de forme libre)
8 0.817 1.974
Cas 1 (restriction des zones de validité finales à des orthotopes) : la structure multi-
modèle finale comporte 9 modèles locaux.
Cas 2 (forme libre des zones de validité finales) : on obtient une structure multi-
modèle à 8 modèles locaux avec des performances légèrement supérieures à la précédente.
Le critère de validation MDL de ce multi-modèle est de 0.817 contre 0.831. Il apparaît donc
que la contrainte sur la forme des zones de validité après la fusion fournit de moins bons
résultats et augmente le nombre de modèles locaux.
La forme des zones de validité finales est décrite sur les figures III-17-c et III-17-d. La
comparaison des deux figures montre que la zone = 6 du multi-modèle final 2 (zones de
validité de forme libre) peut être vue comme une fusion des zones = 6 et = 7 du multi-
modèle final 1 (zones de validté resteintes à des orthotopes). Hormis cette différence, les
autres zones de validité dans les deux cas sont très similaires. D'ailleurs le tableau III-5 qui
donne, dans chaque cas, les groupes de zones validité initiales dont la fusion a abouti aux
zones de validité finales confirme cette observation. En conférant une flexibilité totale à
l'algorithme de fusion, il est possible d'identifier un multi-modèle plus parcimonieux.
Tableau III-5 : Groupes de zones de validité initiales dont la fusion a conduit aux
structures multi-modèles décrites sur les figures III-17-c et III-17-d
0 0
-0.5 -0.5
-1 -1
0 50 100 150 200 250 300 0 50 100 150 200 250 300
Du constat que la partition grille génère une structure multi-modèle avec des modèles
inutiles (couvrant des zones de fonctionnement vides) et des modèles adjacents pouvant décrire
le même comportement du système, nous avons proposé une méthodologie d'optimisation
structurelle basée sur la stratégie fine-to-coarse (voir paragraphe II.4.1.4). A partir d'une
structure multi-modèle dont l'espace caractéristique est décomposé sous forme d'une grille et qui
comporte un nombre initial important de modèles locaux, la procédure réduit progressivement le
nombre de modèles par la combinaison de techniques d'élimination et de fusion de modèles. En
particulier, la technique de fusion introduit une originalité : elle permet de construire des zones
de fonctionnement non limitées à des orthotopes contrairement à la partition grille ou la partition
k-d (voir paragraphe III.4). Ceci permet une réduction plus importante du nombre de modèles
locaux. La méthode suppose la connaissance des variables caractéristiques, ce qui n'est pas
toujours vrai dans la pratique. Il serait tentant d'appliquer directement la méthode d'élimination et
de fusion sur l'espace formé par les variables caractéristiques candidates, mais rappelons que
pour nz=5 variables caractéristiques et p=6 partitions sur le support de ces variables, on aboutit à
un nombre initial de modèles locaux M0 = 56 = 15625 , ce qui est rédhibitoire. Une perpective
intéressante est donc l'intégration de la méthode proposée dans une procédure globale
(développée dans la première partie du chapitre) incluant la recherche des variables
caractéristiques.
Le principe de la partition k-d est résumé par les schémas des figures III-19 et III-20. La
figure III-19 illustre l'évolution du découpage de l'espace caractéristique au fil des itérations ; la
figure III-20 montre l'arbre de décision correspondant. Les feuilles terminales de l'arbre
représentent les modèles locaux dans le multi-modèle final. Les mesures réalisées sur le système
étant bornées, l'espace = engendré par les variables caractéristiques zj (j=1, …, nz) est un
orthotope, c'est-à-dire :
z2 z2 z2 z2
Découpage de l'axe z2
z2,max z2,max z2,max
=2 =2 =2
ξ2,1 ξ2,1 ξ2,1
==
(1)
=4
=1 =1 =3 ξ2,2 =3
z2,min z2,min
=1
z1 z1 z1 z2,min z1
z1,min z1,max ξ1,1 ξ1,1
Etape 1 =
< >
z 2 < ξ 2,1
Etape 2 =1 =2
< z 1 < ξ 1,1 >
Etape 3
=1 =3
< z 2 < ξ 2,2 >
Etape 4 =1 =4
système. Pour ce faire, on évalue localement les performances du multi-modèle 0 v dans chaque
zone de fonctionnement par l'indicateur8 :
N
1 0 5 61 0 5 0 56
∑ ω i z t , β y t − ys t
t =1
2
εi = N i = 1, , v (III-57)
∑ ω 1 z0t 5, β 6
i
t =1
εi représente l'erreur quadratique moyenne du multi-modèle 0 v dans la zone =i. Dans l'équation,
05
la sortie du multi-modèle y t est soit une prédiction, soit une simulation selon que le modèle
recherché pour le système est un modèle prédictif ou un modèle de simulation ; ys(t) est la sortie
du système. La prochaine zone à raffiner est la zone =k présentant l'erreur maximale, soit :
La zone =k est divisée en deux nouvelles zones =k1 et =k2 par un hyperplan orthogonal à
l'un des axes de l'espace caractéristique. Supposons que le découpage s'effectue sur l'axe défini
par la variable zj. Les zones =k1 et =k2 sont obtenues comme suit :
= k1 = z ∈ = k / z j < ξ j
= B
= k2 = = z ∈=
;
j ∈ 1, , nz @ (III-59)
k / zj ≥ ξ j B
ξ j est le point de découpage dont la valeur doit être comprise entre les bornes de variation
z j ,min = k et z j ,max = k de la variable zj dans la zone =k. Cette façon d'exprimer les nouvelles
1 6 1 6
zones traduit une décision binaire : c'est la méthode CART. En modélisation multi-modèle,
l'utilisation de fonctions de validité d'allure gaussienne ou des fonctions sigmoïdes évite cette
décision binaire et assure un passage plus doux entre =k1 et =k2 d'un côté et leurs zones voisines
de l'autre. Précisons que si le découpage actuel est retenu comme le meilleur, les zones =k1 et =k2
seront respectivement la nouvelle zone =k et la zone =v+1 (figures III-19 et III-20).
8
Notons que d'autres critères autres que la somme pondérée des erreurs quadratiques sont applicables. Peuvent
notamment servir d'indicateur, l'erreur maximale absolue, la somme des erreurs absolues dans chaque zone de
fonctionnement.
total nz essais. Afin de réduire la complexité de la recherche, on prend en compte seulement les
axes zj vérifiant :
z j ,max = k − z j ,min = k
1 6 1 6 ≥ seuil (III-60)
z j ,max − z j ,min
Ceci revient à envisager le découpage seulement si la largeur de la zone =k suivant l'axe zj est
suffisamment grande pour le permettre. La valeur du seuil est laissée à la discrétion de
l'utilisateur.
Plutôt que de procéder ainsi par tâtonnements comme nous avons eu aussi à le faire dans
[Gasso et al., 1999-a, 1999-b], il est possible d'optimiser la valeur du point de découpage en
minimisant le critère d'identification Jg : c'est notre contribution à cette technique de partition.
Afin d'automatiser la détermination de ξ j en assurant qu'il est bien dans l'intervalle
susmentionné, l'équation précédente est transformée sous la forme :
Dans la technique de partition k-d, une zone de fonctionnement =i est caractérisée par une
partition 3i,j propre sur chaque axe zj à l'opposé de la partition grille où plusieurs zones de
fonctionnement partagent une même partition 3l,j d'une variable zj (voir tableau III-1). La
conséquence est qu'il existe autant de partitions sur le support des variables caractéristiques que
de modèles locaux dans le multi-modèle. Si l'on note µi,j la fonction de validité individuelle
associée à la partition 3i,j, on calcule la fonction de validité ρi de la zone =i par l'expression :
nz
1 0 56
ρ i z t = ∏ µ i, j z j t
j =1
3 0 58 (III-62)
Par convention, si pour une zone =i et un axe zj, on a z j ,min = i , z j ,max = i = z j ,min , z j ,max , la
1 6 1 6
fonction de validité individuelle µ i, j z j t 3 0 58 vaut uniformément 1 (inexistence de partition 3 i,j sur
cet axe).
Ces préliminaires étant posés, décrivons la construction des fonctions de validité des
nouvelles zones. Les zones =k1 et =k2 héritent leurs fonctions de validité de la zone =k. Elles
conservent toutes les fonctions de validité individuelles µk,l de la zone =k à l'exception de celle
définie sur l'axe à découper zj dont les paramètres sont modifiés. Deux cas peuvent se présenter
pour la zone =k1 :
• la partition 3k1 , j de la zone =k1 sur l'axe zj est située à l'extrémité gauche du support de zj
(implicitement, ceci signifie que z j ,min = k = z j ,min = k1 = z j ,min ). Ce cas est illustré sur la
1 6 3 8
figure III-21-a où la fonction de validité associée à la partition est tracée en trait plein.
Cette fonction de validité est donnée par :
1 − tanh
z 0t 5 − c
j k1 , j
σ
3 05 8
µ k1 , j z j t , ξ j =
2
k1 , j
(III-63-a)
ξ j − z j ,min
ck1 , j = ξ j σ k1 , j = (III-63-b)
γ
• la partition 3k1 , j n'est pas située à l'extrémité gauche (figure III-21-b). Dans ce cas la
fonction de validité individuelle est obtenue à travers la formule :
1 1
0.5 0.5
= k1 =k2
=k1 =k2
0 0
zj,min ξj zj,max zj,min(=k) ξj zj,max(=k)
a- Zone =k1 située à l'extrémité gauche du support b- Zone =k1 non située à l'extrémité gauche du support
Zone =k2 située à l'extrémité droite du support Zone =k2 non située à l'extrémité droite du support
Figure III-21 : Illustration de la définition des fonctions de validité des nouvelles zones
issues du découpage de la zone =k
• la partition 3k2 , j de la zone =k2 suivant l'axe zj est située à l'extrémité droite du support de
1 + tanh
z 0t 5 − c
j k2 , j
σ
3 05 8
µ k2 , j z j t , ξ j =
2
k2 , j
(III-65-a)
z j ,max − ξ j
ck2 , j = ξ j σ k2 , j = (III-65-b)
γ
Ce cas est illustré sur la figure III-21-a (la fonction de validité est en trait pointillé).
• la partition 3k2 , j n'est pas située à l'extrémité droite du support de zj (figure III-21-b). La
fonction de validité individuelle se déduit de l'expression :
z 0t 5 − c
j k2 , j z 0t 5 − z 1= 6
j j ,max k
tanh σ tanh σ
3 05 8
µ k2 , j z j t , ξ j =
2
k2 , j
−
2
k2 , j
(III-66)
Avec ces formulations, un seul paramètre doit être optimisé pour déterminer la fonction
de validité des nouvelles zones. En l'occurrence, il s'agit du paramètre dj qui donne ξ j par la
formule (III-61). Les paramètres des fonctions de validités des autres zones de fonctionnement
dans le multi-modèle ne sont pas modifiés.
REMARQUES
¬ Lorsque la partition 3k1 , j n'est pas située à l'extrémité gauche du support de zj, la fonction
de validité individuelle associée est définie de sorte qu'aux frontières z j ,min = k1 4 9 et
z j ,max = k1 = ξ j de la nouvelle zone =k1, elle soit égale à 0.5. Si 3k1 , j est à l'extrémité
4 9
gauche, la fonction de validité vaut 0.5 au point z j ,max = k1 = ξ j ; elle est sensiblement
4 9
égale à 1 en z j ,min = k1 = z j ,min . Le même principe guide la définition de la fonction de
4 9
validité individuelle de la partition 3k2 , j .
¬ Cette remarque est importante. Les fonctions de validité ρi (III-62) dans la technique k-d
ne sont pas normalisées (c'est-à-dire, vérifient la partition unité), contrairement au cas de la
grille. On s'en rend compte en examinant l'exemple de découpage de la figure III-21-a. En
effet les fonctions µ k1 , j (III-63-a) et µ k2 , j (III-65-a) ont des dispersions différentes (elles
sont fonctions de l'étendue de la zone) ; par conséquent µ k1 , j + µ k2 , j ≠ 1. Les fonctions
M
d'activation ω i = ρ i ∑ ρ j sont de ce fait différentes des fonctions de validité ρi.
j =1
(MC+LM, page 84) ou l'algorithme 2 (LM+LM, page 89). Dans cette dernière situation, le
vecteur de paramètres θk du modèle local fk (associé à la zone =k) sert à initialiser ceux des
nouveaux modèles locaux fk1 et fk2. Ces algorithmes nécessitent le calcul de la sensibilité de y(t)
- sortie du multi-modèle - par rapport au paramètre dj ; ces calculs ne sont pas explicités ici mais
il est aisé en s'inspirant des calculs développés au paragraphe III.2.3.2 d'obtenir cette fonction de
sensibilité. En général, la phase d'optimisation paramétrique est relativement rapide car
seulement nθ + 1 paramètres sont optimisés pour chaque axe découpé.
; @
Pour chaque variable de découpage zj ( j ∈ 1, , nz ) vérifiant le test (III-60), une
structure multi-modèle est identifiée par découpage de la zone =k. Après les étapes
d'optimisation paramétrique et de suppression des paramètres superflus, le multi-modèle
résultant est validé par calcul du critère de sélection de structure JSTRUC. JSTRUC est soit un critère
de validation croisée (évalué sur des données de test), soit un critère de généralisation AIC, FPE
ou MDL (évalué sur les données d'identification). Si m ( m ≤ nz ) variables zj parmi les nz variables
caractéristiques satisfont au test (III-60), on identifie au total m structures multi-modèles 0 v +1, l
( l = 1,, m ) à v+1 modèles locaux. Bien sûr, la structure multi-modèle 0 v+1 retenue à cette
itération est celle qui possède les meilleures performances en validation. On cherche ensuite la
zone où elle approche mal le comportement du système et on réitère la procédure. L'arrêt de la
méthode est jugée sur l'évolution du critère de validation JSTRUC. L'ensemble des opérations de
cette procédure itérative est résumé dans l'algorithme 6.
[1] Initialisation
Spécifier la structure des modèles locaux : variables d'entrée et ordres.
Identifier le modèle linéaire correspondant. Il est noté 01 . Soit
J STRUCT 01 , le critère de validation associé.
1 6
Choisir les variables caractéristiques candidates zj . L'espace caractéristique
est = = z1,min z1,max × ... × znZ ,min znZ ,max .
Poser v=1 ; = k = = ; J STRUCT 0 v = J STRUCT 01 .
1 6 1 6
[2] Identification d'une structure 0 v+1 à v+1 modèles locaux par division de =k
Pour chaque variable zj vérifiant le test (III-60),
Déterminer le point de découpage ξ j et les paramètres θ des modèles
locaux soit par l'algorithme 1 (critère à erreur d'équation), soit par
l'algorithme 2 (critère à erreur de sortie).
Simplifier la structure des modèles locaux par élimination des
paramètres superflus en utilisant l'algorithme 3 (critère à erreur
d'équation) ou l'algorithme 4 (critère à erreur de sortie).
Soit 0 v +1, j la structure multi-modèle identifiée. La valider par calcul
du critère J STRUCT 0 v +1, j .
3 8
[3] Déterminer parmi les structures multi-modèles 0 v +1, j celle, notée 0 v*+1, j ,
donnant le critère J STRUCT 0 v +1, j minimal.
3 8
Si J STRUCT 0 v*+1, j < J STRUCT
3 8 3 0 8,
v 0 v +1 = 0 v*+1, j ; aller à l'étape [4].
Autrement aller à l'étape [5].
¼ Exemple III-5
Afin d'illustrer la méthode de partition k-d et pour des fins de comparaison, nous
reprenons le système non-linéaire étudié à l'exemple III-4. Pour rappel, le système est décrit
par l'équation aux différences :
05 0 5 2 0 57 0 5
y t = 0.4u t - 1 3 + exp -0.5 y t - 1 + e t
1
=4
=8
0.5
=3
=7
0
=2 =6
-0.5
=1
=5
-1 y(t-1)
-1 -0.5 0 0.5 1
La structure multi-modèle identifiée par la partition k-d est ensuite testée sur le jeu de
validation. Ce jeu a été généré en utilisant un signal sinusoïdal (voir exemple III-4). Les
performances en validation sont légèrement inférieures à celles enregistrées dans l'exemple
III-4. En effet, la somme des écarts quadratiques sur ces données vaut 0.0202 contre 0.0118.
Ceci est également confirmé en examinant le critère quadratique Jg calculé sur les données
d'identification : il est de 2.10 pour le multi-modèle fourni par la partition k-d alors que dans
l'exemple III-4, il vaut environ 1.98 (voir tableau III-4). L'explication de ces performances
moindres réside probablement dans le fait que d'une itération à l'autre, on optimise que les
paramètres des fonctions de validité des nouvelles zones : il n'y a pas de remise en cause des
paramètres des autres zones de validité. En plus, pour optimiser les paramètres des fonctions
de validité des nouvelles zones, on utilise qu'un seul degré de liberté constitué par le point de
découpage ξ j . Même si la contrainte de partition unité modifie la valeur des fonctions
M
d'activation ω i = ρ i ∑ ρ j des autres zones, rien ne garantit que cette modification est
j =1
suffisante pour que ces zones soient bien positionnées après l'ajout d'un nouveau modèle
local. Ceci confère à la technique k-d un certain caractère de sous-optimalité. Pour mieux
illustrer nos propos, appliquons la partition k-d à la fonction non-linéaire statique étudiée à
l'exemple II-2. Ceci est développé dans l'exemple ci-dessous.
¼ Exemple III-6
4 9 0 5
La fonction non-linéaire à approcher est : y = 3 exp −t 2 sin πt . Dans l'exemple II-2,
nous avons montré qu'en utilisant la méthode d'apprentissage global, 4 modèles locaux
suffisent à bien décrire cette fonction. Les résultats fournis par la méthode de partition k-d
sont portés sur les courbes de la figure III-23. La partition k-d a suggéré 6 modèles locaux
dont les tracés sont présentés sur les courbes à droite. Ces modèles locaux approchent assez
bien la fonction cible dans leur domaine de validité mais il en faut 6 alors que 4 modèles
suffisent pour approcher correctement la fonction cible. A gauche nous avons présenté la
comparaison de la fonction cible et de l'approximation donnée par le multi-modèle. On
constate que l'approximation n'est pas parfaite puisque subsistent des écarts encerclés sur la
figure III-23-a. La non remise en cause des choix de découpage aux étapes précédentes et la
non optimisation des paramètres des fonctions de validité associées aux zones non découpées
conduisent à une surestimation du nombre de modèles locaux et à une qualité de
l'approximation légèrement inférieure. Une solution pour remédier à ce problème consiste à
optimiser à chaque itération, tous les paramètres des fonctions de validité.
3 1 4
-3 0 -3
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
a- Comparaison mesures
b- Fonctions d'activation ωi c- Tracés des modèles locaux
estimation multi-modèle
• La définition de fonctions de validité à partir de fonctions sigmoïdes. Pour assurer que ces
fonctions restent sur le support des variables où elles sont définies, une paramétrisation
particulière a été adoptée et consiste à "chaîner" les paramètres les uns aux autres.
• L'optimisation de tous les paramètres mis en jeu à travers des algorithmes à deux niveaux
alternant entre la détermination des paramètres θ des modèles locaux d'une part et des
paramètres β des fonctions de validité de l'autre. Selon que le critère d'identification est de
type erreur d'équation ou erreur de sortie, l'estimation des paramètres θ est obtenue par les
moindres carrés régularisés (la régularisation a consisté à assurer un conditionnement de la
matrice d'information) ou par l'algorithme de Levenberg-Marquardt. Les paramètres
β intervenant de façon non quadratique dans le critère d'identification, ils sont estimés par
l'algorithme de Levenberg-Marquardt.
• La simplification de la structure des modèles locaux par élimination des paramètres inutiles
aussi bien pour un critère à erreur d'équation qu'un critère à erreur de sortie.
Les limites de la partition grille sont atteintes lorsque l'espace caractéristique est de
grande dimension : le nombre de zones devient important, des zones vides de données
apparaissent ainsi que des zones redondantes (zones voisines pouvant décrire un même
comportement du système). Pour remédier à ces problèmes, nous avons :
• proposé une méthode d'élimination des modèles locaux associés aux zones vides,
• étendu l'algorithme de fusion de modèles locaux développé par [Boukhris et al., 2000] dans
le cas d'un critère à erreur d'équation à un critère à erreur de sortie.
Ces deux algorithmes ont été combinés dans une procédure qui à partir d'une partition
grille initiale réduit progressivement la structure du multi-modèle par élimination et fusion de
modèles locaux. La technique de fusion introduit une originalité : dans un espace caractéristique
multidimensionnel, elle peut conduire à des zones de fonctionnement non limitées à des
orthotopes (contrairement à la partition grille) d'où une réduction du nombre de modèles locaux.
La dernière technique de partition que nous avons étudiée procède d'une philosophie
contraire : l'architecture multi-modèle est enrichie par ajouts successifs d'un seul modèle local à
la fois. L'ajout consiste à diviser une zone de fonctionnement en deux par un découpage suivant
un axe de l'espace caractéristique. Le point clé a concerné la détermination de l'axe et du point de
découpage. Cette technique permet à la fois l'identification du nombre de modèles locaux et
l'identification des variables caractéristiques. Elle permet également d'éviter les problèmes de
mauvais conditionnement inhérents à la grille car on autorisera que le découpage des zones
pourvues en données expérimentales. Mais, par rapport à la méthode combinant élimination et
fusion de modèles locaux, elle a tendance à générer plus de modèles. Une perspective
consisterait à procéder à une fusion des modèles locaux à la fin de la partition k-d, suivie d'une
optimisation de tous les paramètres du multi-modèle résultant.
IV.1. INTRODUCTION
Ce chapitre est consacré à la recherche de modèles d'explication et de prévision des
variations de la concentration d'ozone dans l'agglomération de Nancy (France). Le travail réalisé
a été mené dans le cadre d'un contrat avec deux réseaux de surveillance de la qualité de l'air dans
la région lorraine, à savoir AIRLOR1 et AERFOM2. La motivation de l'étude découle du constat
que depuis plusieurs années, les vagues de chaleur en période estivale provoquent des épisodes
de pollution de l'atmosphère liés à l'ozone. L'ozone, de formule chimique O3, est un polluant
secondaire de la basse troposphère3 formé à partir de réactions chimiques complexes entre les
polluants primaires (oxydes d'azote, composés organiques volatiles, monoxyde de carbone,
oxyde de soufre, ...) émis directement dans l'atmosphère et l'oxygène de l'air. Ces réactions
chimiques sont fortement influencées par les conditions météorologiques (rayonnement,
température, humidité, …) et les mouvements de l'atmosphère (déplacements des masses d'air,
turbulence de l'atmosphère). Dans la stratosphère4, l'ozone est un constituant chimique
indispensable pour la protection de la terre car il y joue le rôle de filtre des radiations solaires
UV. Par contre, ses effets sur la santé humaine (migraine, affections des voies respiratoires,
irritation des organes sensoriels, ...) et sur l'environnement (en particulier la végétation) sont
nocifs lorsque sa concentration atteint des valeurs élevées dans la couche troposphérique. C'est
pourquoi une directive européenne, en date du 21/09/92, reprise par la loi sur l'air du 30/12/96 en
France a défini des normes de qualité de l'air afin de protéger la santé humaine. Ainsi, les valeurs
seuils suivantes ont été fixées pour la concentration d'ozone :
1
Association lorraine pour la surveillance de la qualité de l'air basée sur Nancy.
2
Association pour l'exploitation du réseau de mesure de la qualité de l'air des vallées de la Fensch, de l'Orne et de la
Moselle basée à Metz.
3
Couche de l'atmosphère située entre le sol et une altitude d'environ 15km.
4
Couche de l'atmosphère située immédiatement au-dessus de la troposphère.
qualité de l'air et d'anticiper les prises de décision, ceci pour prévenir suffisamment à temps la
population de ces mesures. Dans cette perspective, le CRAN5 en collaboration avec AIRLOR et
AEFORM a entrepris de travailler sur :
La validation des données a pour but de déceler des anomalies de fonctionnement des
capteurs principalement ceux de mesure de la concentration d'ozone et des polluants primaires
comme les oxydes d'azote NO et NO2. Elle revêt une double importance : d'une part,
l'élaboration de modèles descriptifs des variations du taux d'ozone requiert des données valides ;
d'autre part la diffusion permanente des données (serveur professionnel, Internet) et leur
utilisation par les réseaux de surveillance pour leurs études nécessitent que les données soient
valides.
5
Centre de Recherche en Automatique de Nancy
Dans une atmosphère non "polluée", l'ozone résulte principalement de la seule réaction
de combinaison d'un atome d'oxygène O avec l'oxygène de l'air O2 en présence d'un corps
stabilisant M (réaction (2) de la figure IV-1). L'atome d'oxygène nécessaire à cette réaction est
obtenu par photodissociation du dioxyde d'azote NO2 en NO et O (équation (1), figure IV-1).
Mais la molécule de NO ainsi formée est oxydée rapidement par l'ozone pour reformer le NO2. Il
s'établit un cycle appelé cycle de Chapman [Académie, 1993] dont l'illustration est portée sur la
figure IV-1. Un régime stationnaire s'établit, caractérisé par une concentration d'ozone plus ou
moins constante qui dépend des concentrations de NO et de NO2 et des vitesses des trois
réactions.
Production d'ozone
(1) NO 2 + hv(λ < 400 nm ) → NO + O
(2 ) O + O 2 + M → O 3 + M
Destruction de l'ozone
(3) NO + O 3 → NO 2 + O 2
Dès lors, une augmentation de la concentration d'ozone est due à une transformation du
NO en NO2 sans consommation de molécules d'ozone. En atmosphère polluée, l'action de
produits comme les composés organiques volatiles COV (hydrocarbures et composés oxygénés)
et l'aérosol urbain perturbent le cycle de Chapman en offrant des voies d'oxydation des NO
autres que celle de l'ozone comme illustré sur la figure IV-2.
O2+O O3
O O3
Rayonnement
NO2+O2 NO+O3
NO2
RO2+NO RO+NO2 COV
NO
L'action de ces composés conduit, à travers une série de réactions chimiques complexes,
à une oxydation de NO en NO2 sans destruction de l'ozone. Les molécules de NO2 formées sont
ensuite dissociées sous l'action de la lumière suivant la réaction de photolyse (1). Les atomes
d'oxygène O qui en résultent alimentent le processus de production de l'ozone : par conséquent,
on comprend aisément l'augmentation de la teneur en ozone dès que le rayonnement solaire est
suffisamment intense. Une partie des NO participe à la destruction de l'ozone alors que l'autre
partie se combine de nouveau avec les COV pour produire du NO2. Il s'installe ainsi deux cycles
: le cycle normal de Chapman et la rupture causée par la présence des COV. L'importance
relative de ces deux cycles dans la production ou la destruction de l'ozone est liée au rapport des
concentrations [COV]/[NOx] [Académie, 1993]. On distingue alors deux situations :
Ils sont émis dans l'atmosphère par des sources fixes et mobiles résultant souvent des
activités humaines. Ce sont principalement les NOx (NO et NO2) et les COV.
• Les oxydes d'azote NOx. Ils tiennent un rôle important dans le cycle de l'ozone. Ces
oxydes sont émis par les véhicules, les avions ou les installations thermiques. A ces
sources d'émission s'ajoutent des sources naturelles (charbon, produits pétroliers, …).
• Les COV. Les COV sont extrêmement nombreux et de natures diverses. Ils regroupent les
hydrocarbures (à l'exclusion du méthane) et les composés oxygénés. Les sources
d'émission sont le gaz naturel, la combustion de fuel, les transports, les industries
utilisatrices de solvants et la végétation. Ces composés ont des réactivités différentes et
sont la cause de la rupture du cycle naturel de l'ozone.
• Température. Elle est corrélée avec l’ozone mais son influence est toutefois complexe.
Elle est susceptible de modifier les vitesses de réactions de certaines espèces chimiques
faisant partie des COV. C’est aussi un indicateur indirect des conditions ensoleillées et de
l’humidité ambiante.
• Vents. Ils sont un facteur important dans la dispersion, l’accumulation et le transport des
polluants. Un vent faible est peu dispersif et favorise l'accumulation des polluants : ceci
peut contribuer à une augmentation ou une diminution du niveau d'ozone compte tenu du
rapport [COV]/[NOx]. Mais en général, un vent faible est favorable à la production
d'ozone. Inversement, un vent fort est responsable de la turbulence de l'atmosphère c'est-à-
dire toutes conditions défavorables à la formation d'ozone. Il est à souligner un phénomène
pernicieux constitué par le transport de l'ozone d'une région polluée vers le site étudié par
situation de vent fort.
l'inversion synoptique se produit à basse altitude. Les polluants émis et produits au cours
de la journée sont confinés dans un volume restreint. Si le vent est faible, on assiste à une
destruction de l'ozone. Au matin, le réchauffement du sol dû aux rayons du soleil crée une
convection verticale de plus en plus accentuée. La hauteur de la couche de mélange
augmente jusqu'à atteindre une altitude localisée à environ 1000 à 1500m puis reste
constante. Durant cette période de stagnation du niveau synoptique, la production
photochimique décrite à la section IV.2.1 prend toute son ampleur. Lorsque le
rayonnement diminue, la convection perd rapidement d'intensité et la hauteur de la couche
de mélange revient à la valeur nocturne. Cette inversion nocturne s'accompagne de la
formation d'une couche intermédiaire dont la composition est celle de la couche de
mélange en fin d'après-midi. Son contenu est recyclé dans la couche de mélange lors de la
convection verticale diurne le lendemain. Notons que si le réchauffement de l'atmosphère
est insuffisant, l'inversion synoptique se maintient à basse altitude, empêchant la formation
d'ozone.
Altitude
Atmosphère libre
1500 m Inversion synoptique
Couche Couche
intermédiaire de Couche
mélange intermédiaire
Inversion
nocturne
Conclusion
De manière synthétique, les conditions météorologiques influencent le phénomène de
deux manières, distinguées par les régimes suivants :
• régime dépressionnaire : vents forts, basse pression, atmosphère instable, humidité
importante c'est-à-dire des conditions non favorables à la production d'ozone,
• régime anticyclonique : ciel clair, vents faibles, inversion de température marquée à 1000-
1500m, accumulation de polluants, c'est-à-dire des conditions favorables aux épisodes de
pollution.
• Noyau urbain. C'est une zone d'habitat et d'activité denses avec une circulation
automobile importante. Les sources des polluants primaires sont intenses. Le rapport
[COV]/[NOx] est petit, ce qui a pour effet un piégeage de l'ozone et donc des niveaux
faibles.
• Périmètre urbain. C'est la zone périurbaine caractérisée par une densité de population et
d'activité moins importantes que dans le noyau urbain. Le piégeage chimique est moins
intense et les niveaux d'ozone relevés sont plus élevés que dans le noyau urbain.
• La zone méso-échelle. C'est un tissu urbain très lâche ou une zone rurale. Les sources des
précurseurs sont peu importantes et le rapport [COV]/[NOx] est élevé. Le phénomène de
piégeage de l'ozone est quasiment inexistant, ce qui provoque des épisodes de pollution
aigus. Cette région est de plus affectée par le panache urbain du fait du déplacement des
masses d'air.
Sur ces courbes, on distingue deux parties séparées par un trait pointillé. La partie de
gauche portant sur 4 jours, correspond aux caractéristiques observées dans un cycle normal. Sur
cette partie, il peut être remarqué que la concentration d'ozone est modulée par un cycle jour-nuit
et présente une évolution quotidienne sous la forme d'une cloche. Faible la nuit (intervalle de
temps où le rayonnement est très faible ou nul), le niveau d'ozone augmente progressivement en
début de journée pour atteindre ses valeurs maximales dans l'après-midi. Il descend ensuite à une
valeur nocturne faible et comparable à celle de la veille.
150 NO
250 NO 2 O3
100
150
50
50
Tem ps Temps
100 200 300 400 500 600 (1/4h) 100 200 300 400 500 600 (1/4h)
120
250 100
80
150 60
40
50
Tem ps 20 Tem ps
100 200 300 400 500 600 (1/4h) 100 200 300 400 500 600 (1/4h)
2
R ayonnem ent (W /m ) V itesse du vent (m /s)
800
5
600 4
3
400
2
200
1
Tem ps Te m ps
100 200 300 400 500 600 (1/4h) 100 200 300 400 500 600 (1/4h)
25
80
20
60
15
40
10 Tem ps Tem ps
100 200 300 400 500 600 (1/4h) 100 200 300 400 500 600 (1/4h)
300
975
200
973
100
Temps Tem ps
971
100 200 300 400 500 600 (1/4h) 100 200 300 400 500 600 (1/4h)
Figure IV-4 : Allure des mesures de polluants et des variables météorologiques sur une
période de 7 jours.
Remarquons que sur ces 4 jours, il y a présence des polluants primaires en début et fin de
journée, un bel ensoleillement, des températures maximales de l'ordre de 25 °C, une vitesse de
vent moyenne (de l'ordre de 2 m/s) en milieu de journée. Il y a donc là toutes les conditions
favorables à la production d'ozone : les niveaux d'ozone atteints sont supérieurs à 150 µg/m3. On
remarquera aussi qu'au cours de la nuit la vitesse du vent est très faible voire nulle. Les polluants
primaires ne sont pas dispersés et il y a donc destruction de l'ozone. La dernière constatation
qu'on peut faire sur les données de ces 4 jours, en se référant au tracé comparatif de l'ozone et
des NOx, est que les concentrations de NOx et d'ozone varient en raison inverse. La nuit, les NOx
sont présents alors que l'ozone est piégé. En début de journée, quand le niveau d'ozone monte, il
y a décroissance de celui des NOx. La relation inverse s'établit en fin de journée au moment de la
baisse de la concentration d'ozone.
Sur les mesures situées à droite du trait pointillé (représentant les 3 derniers jours), on
observera que la vitesse du vent est forte la nuit (de l'ordre de 2 m/s). Il y a dispersion des
polluants et donc absence de destruction de l'ozone. Ceci explique les niveaux nocturnes
"élevés" constatés sur ces mesures. La journée, ce vent reste fort empêchant le développement
normal du phénomène à cause toujours de la dispersion des polluants primaires. On s'en rend
compte en examinant les mesures de NOx relevées ces jours. La relation inverse précédente entre
l'ozone et les NOx est inexistante. On constate également que les conditions météorologiques
évoluent dans des sens différents : la température maximale diminue d'une journée à l'autre, le
rayonnement est par contre favorable puisqu'il augmente et l'humidité a tendance à conserver un
niveau comparable à celui des 4 derniers jours. Dans ces genres de situation, il est difficile de
dire de façon cohérente l'évolution de la concentration d'ozone. Sur ces trois jours, les niveaux
d'ozone relevés dépassent le seuil de 110µg/m3.
Ces mesures que nous avons présentées proviennent du site de mesures de Brabois qui est
périurbain. C'est l'un des sites ayant enregistré les concentrations les plus fortes en ozone de
l'agglomération nancéienne. De plus il dispose de mesures de paramètres météorologiques
pouvant servir à l'étude du phénomène. Ces données portent sur une période de cinq ans : 1995 à
1999. Les niveaux importants d'ozone sont observés généralement durant la période d'avril à
septembre6. Nous avons donc restreint la période d'étude : elle va du 1er avril au 30 septembre
pour chaque année. Précisons que les résultats de nos travaux sur la station de Brabois qui fait
partie du réseau d'AIRLOR ont été transposés dans le cadre du stage de DEA de Kribeche [2000]
à deux stations (Metz-Borny et Thionville-Piscine) du réseau AERFOM.
6
En hiver et en automne, du fait de la faiblesse de l'ensoleillement, des précipitations, de la chute de neige, les
mécanismes de production d'ozone ne sont pas initiés. Sur ces périodes, on a surtout une pollution par les oxydes
d'azote.
de 110 µg/m3. Ce choix est motivé par le fait que nous désirons examiner les conditions pouvant
conduire à un déclenchement de la première alerte, celle d'information du public. Les résultats
obtenus sont regroupés dans les tableaux suivants.
Vitesse
O3 NO NO2 Température Humidité Pression Rayonnement
vent
O3 1
NO -0.35 1
NO2 -0.40 0.63 1
Température 0.67 -0.20 -0.24 1
Humidité -0.77 0.28 0.29 -0.57 1
Pression 0.001 0.071 0.054 0.037 -0.081 1
Rayonnement 0.43 -0.21 -0.27 0.33 -0.46 0.15 1
Vitesse vent 0.14 -0.27 -0.36 -0.11 -0.24 -0.067 0.22 1
Tableau IV-1 : Corrélation entre la concentration d'ozone et les autres variables sur la
période diurne
Vitesse
O3 NO NO2 Température Humidité Pression Rayonnement
vent
O3 1
NO -0.52 1
NO2 -0.57 0.56 1
Température 0.36 -0.26 -0.010 1
Humidité -0.63 0.29 0.162 -0.33 1
Pression -0.15 0.15 0.15 0.0036 -0.060 1
Rayonnement 0.076 0.067 -0.025 0.096 -0.035 -0.065 1
Vitesse vent 0.65 -0.43 -0.55 0.059 -0.32 -0.22 0.10 1
Tableau IV-2 : Corrélation entre la concentration d'ozone et les autres variables sur la
période nocturne
L'examen des deux tableaux révèle que ce soit en période nocturne ou diurne, l'humidité a
l'une des plus fortes corrélations avec l'ozone. Pendant le jour, la température a un coefficient de
corrélation de l'ordre de 0.67. Ce coefficient tombe à 0.36 en période diurne, indiquant que les
variations de la concentration d'ozone au cours de la nuit ne peuvent s'expliquer par la
dynamique de la température. En revanche, on retrouve la relation observée visuellement entre
les NOx, l'ozone et la vitesse du vent. En période nocturne, on peut relier les variations de la
concentration d'ozone à celles du niveau des NOx et de la vitesse du vent. On peut également
relier les variations nocturnes des NOx avec la vitesse du vent (la concentration en NO2 au cours
de la nuit a par exemple un coefficient de corrélation de l'ordre de –0.55 avec la vitesse du vent).
Ces valeurs de coefficient de corrélation linéaire ne sont pas significatives au sens de la
régression linéaire. Elles indiquent simplement des dépendances qui peuvent exister entre la
Les variables explicatives les plus couramment citées dans la littérature [Fromage, 1996]
sont les données de pollution et les variables météorologiques. Ces données météorologiques
sont :
• l'humidité de l'air, soit l'humidité relative ou le point de rosée à des heures particulières,
• la pression atmosphérique mais comme nous l'avons vu, cette variable dans notre cas ne
présente aucun lien particulier avec les variations de la concentration d'ozone,
• la vitesse du vent. La grandeur pertinente pour la vitesse du vent est soit une valeur
instantanée à une heure précise de la journée (à 12h par exemple) ou encore une valeur
maximale ou moyenne sur une période déterminée (de 6h à 18h par exemple).
La plupart des modèles fonctionnant au pas de temps de la journée n'utilise qu'une seule
variable de pollution qui est la valeur maximale du jour J. Ce terme est connu sous le nom de
terme de persistance. Parfois, les valeurs maximales des jours précédents sont intégrées au
modèle afin de prendre en compte l'évolution progressive du phénomène sur plusieurs jours.
Remarque
¬ Quelques auteurs introduisent des termes supplémentaires tenant compte des effets de
saisonalité tels que le jour de la semaine ou le week-end et plus rarement la saison.
Le prétraitement des données consiste à extraire pour chaque variable une valeur
pertinente permettant de la résumer sur la journée. Nous commencerons par l'ozone ; les résultats
obtenus aideront à synthétiser l'information pour les autres variables.
,9 &RQGLWLRQQHPHQWGHODYDULDEOHR]RQH
Pour l'ozone, le problème est simple à résoudre car la plupart des seuils sont définis à
partir de la valeur moyenne sur une heure. Nous déterminons donc la valeur moyenne horaire
maximale de la journée ainsi que l'instant d'apparition de ce maximum (figure IV-5). Les
maxima d'ozone étant principalement observés en période diurne, seule cette période a été
considérée. La mesure du rayonnement a permis de déterminer les heures de lever et de coucher
du soleil en examinant les instants respectifs où le rayonnement passe au-dessus et en dessous du
seuil de 15W/m2.
250
200
mesure mesure
180 O3max moyenne horaire
Concentration en ozone en µg/m3
Concentration en ozone en µg/m3
moyenne 200
160
O3max horaire O3 prévisible
140
120 150
100
80 100
60
tO3max tO3max
40 50
20
Période diurne
Période diurne
0
0
1 2 4 6 8 10 12 14 16 18 20 22 24 1 2 4 6 8 10 12 14 16 18 20 22 24
Temps en heure Temps en heure
Remarque
¬ Le choix de la valeur moyenne horaire maximale pose un problème qui est l'apparition d'un
pic d'ozone relativement tôt dans la journée (figure IV-5-b). Ce phénomène peut être
interprété comme le recyclage du smog âgé de la couche intermédiaire dans la couche de
mélange lors du développement de cette couche [Académie, 1993]. Ce pic est difficile à
prévoir en absence de mesures en altitude. De même, des valeurs extrêmes peuvent
également apparaître relativement tard dans la journée suite à un changement de la
direction du vent ce qui les rend tout aussi imprévisibles [Académie, 1993]. Dans ce cas, il
vaudrait mieux prendre la valeur maximale moyenne du plateau observé l'après-midi sur la
concentration d'ozone (figure IV-5-b).
Sur les graphiques de la figure IV-6 sont représentés les histogrammes des maxima
horaires journaliers d'ozone et des heures d'apparition de ces valeurs maximales pour les années
1995 à 1998. L'examen de ces courbes conduit à formuler deux remarques :
• on peut constater que le nombre de jours pour lesquels le seuil d'alerte (180 µg/m3) est
dépassé est très faible (13 jours, soit 1.78 %) alors que le nombre de jours pour lesquels la
valeur maximale est inférieure à 100 µg/m3 est de 361 jours, soit 49.3%. On voit donc
apparaître une des premières difficultés de la modélisation. En effet, le modèle de
prévision sera établi principalement sur des valeurs faibles et il risque de fournir des sous-
estimations pour les valeurs élevées et donc entraîner des non-détections de dépassement
de seuil.
• les valeurs maximales d'ozone apparaissent dans 69.3 % des cas entre 12h et 17h TU.
0.25 0.18
0.16
0.2 0.14
0.12
Pourcentage
0.15
Pourcentage
0.1
0.08
0.1
0.06
0.04
0.05
0.02
0
0 5 10 15 20
0 50 100 150 200 250 heure du jour
O3max
Remarque
¬ En période estivale, la plage horaire 12h-17h TU correspond à 14h et 19h en heure locale.
Afin de tenir compte de la contrainte des réseaux de délivrer l'information aux autorités
préfectorales avant 17h, heure locale, la plage horaire a été redéfinie entre 12h et 14h TU.
La valeur maximale d'ozone est donc prise entre ces deux bornes horaires. Ces bornes
servent également à définir les valeurs pertinentes pour les variables explicatives.
,9&RQGLWLRQQHPHQWGHVYDULDEOHVH[SOLFDWLYHVRXH[RJqQHV
Sur la base des conclusions précédentes concernant les heures d'apparition des maxima
horaires d'ozone et compte tenu des contraintes d'exploitation, nous avons choisi de calculer,
pour chaque jour, la valeur "pertinente" pour les autres variables selon les règles suivantes :
• valeur maximale des moyennes horaires calculées entre 12h et 14h TU pour la température
et la vitesse du vent,
• valeur moyenne des moyennes horaires calculées entre 10h et 14h TU pour l'humidité
relative. Nous avons choisi 10h TU pour prendre en compte d'éventuelles précipitations en
début de journée (une atmosphère humide est peu propice à la production d'ozone),
• valeur moyenne des moyennes horaires calculées entre 12h et 14h TU pour la vitesse du
vent,
• valeur minimale des moyennes horaires calculées entre 1h et le lever du jour pour la
température,
La question essentielle qui se pose dans le choix des outils de prévision est de savoir quel
type de prévision il faut générer. Faut-il prévoir :
L'autre question est l'échéance des prévisions : faut-il prévoir à une échéance de 24h, 12h
ou moins ? L'objectif étant de fournir un outil d'aide à la décision aux autorités, il est préférable
en période de pollution aiguë de donner la prévision à un pas de 24h afin d'avertir suffisamment
tôt la population des éventuelles mesures de restriction.
Selon les choix effectués, on rencontre différents types de modèles dans la littérature.
Nous référons aux travaux de Fromage [1996] pour avoir une synthèse des différentes techniques
employées dans les réseaux de surveillance. De ces méthodes, nous pouvons citer :
• les modèles de régression linéaires faisant intervenir les variables explicatives soit de
façon directe, soit une transformation non-linéaire (polynomiale, exponentielle, …) de ces
variables [Bloomfield et al., 1993], [Hubbard et Cobourn, 1998],
Nous avons opté pour la génération d'une valeur numérique pour deux raisons : la
première réside dans le fait que sur l'agglomération de Nancy, il y a eu peu d'occurrence de
niveaux élevés d'ozone comme l'analyse des histogrammes l'a montré. La deuxième raison est de
mettre à disposition du réseau AIRLOR, une valeur numérique (que ce soit pour des niveaux
faibles ou élevés d'ozone) pouvant servir au pronostic de l'indice ATMO7 de la journée à venir.
Le modèle de prévision aura donc une échéance de 24h.
déjà acceptées dans le modèle linéaire que nous notons 0v. La prochaine étape v+1 consiste à
7
Indice définissant la qualité de l'air. Il tient compte du niveau des polluants principaux (SO2, NOx, O3, particules
en suspension). Il est défini par une classe de qualité. Ces classes s'échelonnent de 1 à 10, de Très Bon à Très
Mauvais.
introduire une variable exogène supplémentaire puis à rechercher ensuite les ordres et les retards
(ceci signifie qu'on remet en cause les ordres et les retards identifiés à l'étape précédente). Cette
recherche est exhaustive c'est-à-dire qu'on spécifie la valeur maximale des ordres et des retards
puis on teste toutes les combinaisons possibles. Chaque combinaison fournit un modèle linéaire
dont les performances sont évaluées sur les données de validation (celles de 1998). Le meilleur
modèle 0v+1 obtenu à l'étape v+1 est celui ayant donné le meilleur critère de validation. Si ses
performances en validation sont meilleures que celles du modèle 0v, la procédure continue sinon
elle est arrêtée et on conserve 0v comme le modèle final.
• les mesures des niveaux d'ozone des jours J et J-1 ( o3max 0t 5 et o3 max t − 1 ) qui sont des
0 5
termes de persistance,
,9 3HUIRUPDQFHVGXPRGqOHOLQpDLUH
Nous avons tracé sur la figure ci-dessous, l'histogramme des résidus (écarts entre les
concentrations maximales journalières et la prédiction fournie par le modèle) calculés sur le jeu
d'identification. On constate que la densité de probabilité de ces résidus est assimilable à une loi
normale. Sa moyenne est quasiment nulle (elle est de 0.0755) et sa dispersion est égale à 16.50.
Cette loi de distribution est représentée en trait grisé sur la figure IV-7.
20
Pourcentage (%)
15
10
0
-60 -40 -20 0 20 40 60
Erreurs de prédiction
Figure IV-7 : Histogramme des erreurs de prédiction calculées sur les données
d'identification
Pour tester la blancheur des erreurs de prédiction, nous avons réalisé des tests statistiques
des résidus (fonction d'autocorrélation, fonctions d'intercorrélation). Les résultats de ces tests de
corrélation sont décrits sur les figures IV-8. On constate la validité du modèle car les fonctions
d'intercorrélation et d'auocorrélation sont dans l'intervalle de confiance à 95%.
rε ε rε ∆T
1 0.2
0.5
0
0
-0.5 -0.2
0 5 10 15 20 25 30 -30 -20 -10 0 10 20 30
0 0
-0.2 -0.2
-30 -20 -10 0 10 20 30 -30 -20 -10 0 10 20 30
rε V
moy
0.2
-0.2
-30 -20 -10 0 10 20 30
Figure IV-8 : Tests statistiques des résidus issus du modèle linéaire de prévision
Les courbes suivantes (figure IV-9) montrent les performances du modèle sur les données
des années 1995 à 1999. Rappelons que les années 1995 à 1997 ont servi à l'estimation des
paramètres du modèle alors que celles de 1998 ont été utilisées pour identifier la structure du
modèle. L'année 1999 a servi d'année de test du modèle.
150 Prévisions
100
50
Mesures
160
3
Concentration en µg/m 140
Prévisions
120
100
80
60
40
160 Mesures
3
Concentration en µg/m
Prévisions
150
100
50
200 160
Concentration en µg/m
Prévisions
150
100
50
Mesures
140
Prévisions
120
3
Concentration en µg/m
100
80
60
40
20
0 20 40 60 80 100 120 140 160 180
Temps en jour
Figure IV-9 : Comparaisons des concentrations maximales d'ozone avec les prévisions
fournies par le modèle linéaire sur les années 1995 à 1999
Sur les figures ci-dessous, nous avons tracé l'histogramme des erreurs de prédiction pour
chacune des cinq années.
20
10
Pourcentage(%)
Pourcentage(%)
15
10
5
5
0 0
-50 -40 -30 -20 -10 0 10 20 30 40 -60 -50 -40 -30 -20 -10 0 10 20 30 40 50
Erreurs de prédiction
Erreurs de prédiction
25 25
20 20
Pourcentage (%)
Pourcentage(%)
15 15
10 10
5 5
0 0
-60 -40 -20 0 20 40 60 -40 -20 0 20 40 60 80
Erreurs de prédiction Erreurs de prédiction
15
Pourcentage(%)
10
0
-40 -30 -20 -10 0 10 20 30
Erreurs de prédiction
Figure IV-10 : Histogramme des erreurs de prévision pour les années 1995 à 1999
Le tableau IV-4 donne une vue synthétique des indices de performance du modèle de
prévision linéaire. Dans la section suivante, nous passons à la phase d'analyse et de
commentaires de ces résultats.
,9$QDO\VHHWFRPPHQWDLUHVGHVUpVXOWDWV
Globalement, le modèle obtenu fournit des résultats satisfaisants. En effet, les erreurs de
prévision sont majoritairement comprises entre –20 et 20 µg/m3 (environ 80% des erreurs)
comme l'illustrent l'histogramme de la figure IV-7. Les erreurs moyennes absolues du modèle sur
les années 1995 à 1999 (respectivement 12.83 µg/m3, 11.92 µg/m3, 14.10 µg/m3, 11.13 µg/m3 et
11.36 µg/m3) sont acceptables au vu de la précision sur les capteurs de mesure de la
concentration d'ozone, précision qui est de l'ordre de 15% de la valeur délivrée, dans des
conditions expérimentales. Hormis l'année 1997, l'écart-type des erreurs de prévision sur les 4
premières années est de l'ordre de 15 µg/m3. L'écart-type des erreurs de prévision pour l'année de
test (1999) est encore plus faible car elle est de 12.20 µg/m3. Ces résultats sont satisfaisants si on
les compare avec les valeurs rencontrées dans la littérature, par exemple [Peton, 1999], [Hubbard
et Cobourn, 1998], qui sont souvent de 1.2 à 2 fois plus importantes que les valeurs présentées
dans le tableau IV-4.
En examinant les courbes de la figure IV-9, on constate que le modèle donne des
estimations satisfaisantes des maxima journaliers d'ozone inférieurs à 160 µg/m3. Par ailleurs, on
peut remarquer qu'une moins bonne approximation est obtenue sur l'année 1997
comparativement aux autres années. On s'en aperçoit également en consultant le tableau IV-4.
Ceci peut être lié à des niveaux de NOx inhabituels élevés enregistrés sur 1997. Sur la courbe de
l'année 1995, on constate que le modèle surestime légèrement les faibles valeurs d'ozone situées
à la fin de la période estivale. Ceci explique le biais négatif pour cette année. Au titre d'autres
insuffisances du modèle, on peut signaler que le modèle arrive difficilement à estimer les
niveaux d’ozone supérieurs à 180 µg/m3. Ceci peut s’expliquer par la rareté des journées où l'on
a enregistré des dépassements du seuil de 180 µg/m3 (13 jours, soit 1.78 % des valeurs) mais
aussi par le fait que 50% des valeurs sont inférieures ou égales à 100 µg/m3 et 67% des valeurs
sont inférieures au seuil d'information (seuil à 110 µg/m3). Le modèle étant établi principalement
sur ces valeurs faibles, il fournit des sous-estimations pour les valeurs élevées. Remarquons que
sur l'année 1999, le problème de sous-estimation des niveaux élevés d'ozone ne se pose pas car
sur cette année, il n'y a pas eu de niveaux d'ozone supérieurs à 150 µg/m3. Par contre, le modèle
produit quelques surestimations (certaines sont encerclées sur le graphique de la figure IV-9
relatif à 1999) des niveaux moyens. Elles se traduisent par une valeur du biais (moyenne des
erreurs de prévisions) de -6.65 µg/m3, ce qui est relativement important comparativement au
biais sur les autres années.
Certains écarts entre le modèle et la valeur maximale d'ozone mesurée s'expliquent par le
problème de codification évoqué dans le paragraphe IV.4.1.2.1 (voir figure IV-5-b). En effet
pour cette journée particulière, on constate que la valeur prédite est de 148.70 µg/m3 alors que la
valeur maximale moyenne est de 187 µg/m3 soit une erreur de 38.29 µg/m3. Mais si on considère
la valeur maximale moyenne du plateau observé l'après-midi, qui est de 169.5 µg/m3, l'erreur
diminue à 20.79 µg/m3.
,97HVWGXPRGqOHGDQVOHVFRQGLWLRQVUpHOOHVG
H[SORLWDWLRQ
Les validations du modèle que nous venons de présenter sont réalisées uniquement avec
les mesures d'AIRLOR. Comme le modèle dépend des paramètres météorologiques du jour J+1,
les prévisions qui sont ainsi calculées peuvent être qualifiées de prévisions a posteriori au sens
où elles sont évaluées alors qu'on dispose déjà des mesures de concentration d'ozone du jour J+1.
C'est donc un cas idéal qui ne correspond pas aux conditions réelles d'utilisation du modèle. Or,
le modèle pour être opérationnel au jour J, fait appel à des variables du jour J+1 qui ne sont
disponibles qu'à travers les prévisions de Météo-France. Nous appelons ce test grandeur nature,
test a priori. Il a été réalisé sur des données du site de Brabois durant la période du 18 juillet au
29 septembre 1999. Précisons que Météo-France fournit les prévisions de la vitesse du vent sous
forme de classe avec des bornes inférieure et supérieure. Il a fallu donc générer un intervalle du
taux d'ozone dont les bornes correspondent à celles de la classe de vent prédite.
Les performances obtenues sont consignées dans le tableau IV-5 et sont comparées avec
celles qu'on obtient en utilisant les mesures d'AIRLOR (prédiction a posteriori) durant la même
période du 18 juillet au 29 septembre 1999. L'examen de ce tableau révèle que les performances
du modèle sont mauvaises dans les conditions réelles d'exploitation. La valeur prévue de la
concentration d'ozone calculée à partir des prévisions de Météo-France surestime fortement la
concentration maximale journalière. Pour preuve, le biais qui est de -29.78 µg/m3 contre -6.65
µg/m3 dans le cas de la prédiction calculée en utilisant les mesures des paramètres
météorologiques du jour effectuées sur la station de Brabois. L'écart-type et l'erreur moyenne
absolue des erreurs de prévision de la concentration d'ozone sont également détériorés.
(borne min)
120
100
80
60
40
0 10 20 30 40 50 60 70 80
Temps en jour
,9([SOLFDWLRQGXELDLVVXUODSUpGLFWLRQFDOFXOpHjSDUWLUGHVSUpYLVLRQVGH
0pWpR)UDQFH
Les écarts constatés sont à relier aux imprécisions sur les prévisions de Météo-France. A
titre d'exemple, considérons deux variables exogènes importantes intervenant dans le modèle : la
variation de température (différence des températures maximale et minimale prévues pour la
journée) et l'humidité. L'évolution des mesures réellement faites sur le site et des prévisions
fournies par Météo-France pour ces deux variables est représentée sur la figure IV-12. L'examen
de ces figures conduit aux conclusions suivantes :
• la variation de température est surestimée par Météo-France. L'erreur moyenne est évaluée
à -3.36°C,
• l'humidité est sous-estimée par Météo-France avec une erreur moyenne de 22.30%.
Moyenne des écarts mesures-prévision : -3.36°C Moyenne des écarts mesures-prévisions : 22.30%
20 100
Variation de température (°C)
15
Humidité relative (%)
80
10
60
5
40
0
Prévisions par Prévisions par
Mesures Mesures
Météo-France Météo-France
-5 20
0 20 40 60 80 0 20 40 60 80
Temps en jour Temps en jour
En utilisant les coefficients du modèle (voir tableau IV-3), on évalue que l'erreur
moyenne sur la prédiction de la concentration d'ozone due à ces deux variables (au vu des
erreurs moyennes commises par Météo-France) est égale à -23.67 µg/m3. Cette valeur est de
l'ordre de la différence entre les biais de la prédiction a priori (-29.78 µg/m3) et de la prédiction a
posteriori (-6.93 µg/m3). Le biais sur la prédiction a priori se justifie ainsi.
,9'HVVROXWLRQVSRXUDPpOLRUHUODTXDOLWpGHODSUpGLFWLRQFDOFXOpHjSDUWLU
GHVSUpYLVLRQVGH0pWpR)UDQFH
Le véritable problème qui se pose pour l'exploitation du modèle de prédiction élaboré est
la qualité des prévisions météorologiques communiquées par Météo-France. Le modèle étant
dépendant de ces prévisions, les incertitudes sur ces dernières affectent de facto la précision de la
prédiction de la concentration maximale d'ozone. Dans le cas étudié, ces incertitudes conduisent
à une surestimation des niveaux d'ozone. Pour éviter de déclencher de façon intempestive et
injustifiée des alertes pour des dépassements de seuils, quelques solutions peuvent être proposées
pour réduire la sensibilité du modèle par rapport aux incertitudes sur les prévisions de Météo-
France :
• La deuxième solution consiste à réaliser une correction des prévisions fournies par Météo-
France. Pour cela, il faut disposer d'un historique de ces prévisions, les comparer avec les
mesures réelles et en déduire un modèle de correction.
La structure des modèles locaux est celle du modèle de prévision linéaire. Les variables
caractéristiques candidates sont les suivantes : ∆T(t+1), Tmax(t+1), Tmin(t+1), O3max(t),
HRmoy(t+1), Vmoy(t+1) et Raycumul(t+1). Toutes ces variables ont été normalisées de sorte que leur
intervalle de variation soit [0, 1].
Les paramètres de la structure multi-modèle identifiée sont regroupés dans le tableau ci-
dessous. Notons que ces valeurs correspondent aux variables normalisées.
Modèle local f1 0.3 0.076 0.091 -0.27 0.13 -0.056 0.018 0.22
Modèle local f2 0.5 0.034 0.17 -0.079 -0.005 0.05 -0.103 0.17
La figure suivante décrit la position des fonctions d'activation de ces modèles locaux.
0.5
ω1 ω2
0
0 0.5 1
Pour des valeurs élevées de la variation de température ∆T (modèle local f2), on constate
que les coefficients b21 et b22 affectés à l'humidité relative ont une valeur faible en particulier b22.
Ceci pourrait s'interpréter ainsi : par temps sec c'est-à-dire en période favorable à l'obtention de
niveau relativement fort d'ozone, l'humidité a une faible contribution à l'explication du
phénomène. Si par temps sec, la vitesse du vent est forte, on assiste à une diminution du taux
d'ozone car le coefficient b41 du modèle f2 est négatif. Par contre, pour des valeurs faibles de ∆T
(modèle local f1), la vitesse du vent a une influence moindre car son coefficient est petit (0.018).
Dans le modèle local f1, l'humidité tient un rôle d'indicateur de l'évolution du temps (comme
dans le modèle de prévision linéaire) puisque les coefficients b21 et b22 sont plus significatifs que
b11 et y interviennent avec des signes opposés.
,90HVXUHVGHVSHUIRUPDQFHVGXPXOWLPRGqOHHQSUpYLVLRQSDUIDLWH
SUpYLVLRQDSRVWHULRULUpDOLVpHDYHFOHVPHVXUHVG
$,5/25
Le rapprochement des résultats de ce tableau avec ceux du tableau IV-4 révèle que
globalement, le modèle non-linéaire de prévision a des performances supérieures. Les critères
quadratiques moyens ont baissé de même que les écarts-types et les erreurs moyennes absolues.
Le biais sur les prévisions de l'année 1999 a diminué notablement. Par contre, les biais sur les
années 1995 à 1998 ont augmenté.
La conclusion à tirer est que l'utilisation d'un modèle de prévision non-linéaire contribue
à améliorer la qualité des prévisions de concentration maximale d'ozone. Toutefois, les
performances ne sont pas améliorées de façon drastique par rapport au modèle linéaire.
L'explication réside sans doute dans les difficultés à discriminer dans la base de données, les
conditions particulières sous-tendant l'obtention des différents niveaux d'ozone. En particulier,
pour les journées à forts niveaux d'ozone ( > 160 µg/m3), un examen minutieux a montré que les
paramètres météorologiques et les niveaux des polluants primaires sur ces journées ne diffèrent
pas énormément des mêmes grandeurs des journées à niveaux d'ozone plus faibles. Dans ces
conditions, il faut s'interroger sur la pertinence des informations actuelles contenues dans la base
de données. On peut donc émettre l'hypothèse que certains phénomènes comme le transport de
masse d'air, les échanges de matière entre la troposphère et la stratosphère, … qui ne sont pas
mesurés actuellement dans les réseaux pourraient apporter des éléments discriminants pour
mieux caractériser l'évolution de la concentration maximale d'ozone.
160
Mesures Prédiction a priori
Prédiction a posteriori (borne max)
140
Prédiction a priori
120 (borne min)
3
Concentration en µg/m
100
80
60
40
20
0 10 20 30 40 50 60 70 80
Temps en jour
Avant de passer aux conclusions sur les modèles de prévision, nous présentons la
deuxième partie du cahier de charge qui porte sur l'élaboration de modèles d'explication de la
concentration d'ozone à court terme.
Ce sont des modèles physiques basés sur les lois de la chimie atmosphérique et sur les
mécanismes gouvernant les mouvements de l'atmosphère. Ces modèles sont évidemment non-
linéaires et essaient de décrire les processus physiques et chimiques d'une part, et de traduire
l'interaction étroite qui existe entre eux de l'autre. On distingue deux principaux types de
modèles physiques [Académie, 1993] :
_ Modèles langragiens
Dans le modèle eulérien, le maillage réalisé est fixe dans l'espace. Les modèles
lagrangiens, par contre, sont des modèles de trajectoire qui décrivent l'évolution d'une colonne
d'air cylindrique transportée par le vent, limitée à sa base par le sol et au sommet par la limite
supérieure de la couche de mélange (voir figure IV-3). Initialement, la colonne contient une
quantité d'ozone et de précurseurs (NOx, COV). Au cours du temps, elle se charge de polluants
provenant des sources situées sur sa trajectoire. La colonne subit alors une double évolution :
Ces modèles physiques nécessitent la mesure de variables comme les COV qui ne sont
pas disponibles à l'heure actuelle dans les réseaux AIRLOR et AERFOM. Dans le cas d'un
modèle lagrangien, il faut connaître la concentration des polluants et l'évolution des paramètres
météorologiques sur la trajectoire de la masse d'air ; il faut aussi disposer des mesures de
l'évolution de la hauteur de la couche de mélange et des concentrations de polluants en altitude.
Les stations de mesure étant principalement des stations fixes, l'emploi du modèle lagrangien
implique l'utilisation d'unités de mesures mobiles. Ces stations ne relèvent pas non plus des
données en altitude pouvant alimenter ce modèle physique. Les modules physiques et chimiques
exigent la connaissance des constantes de réaction, de leur loi d'évolution, les constantes
d'advection verticale et de diffusion qui varient suivant les conditions météorologiques locales,
la latitude et la longitude du site (ce qui enlève à ces modèles physiques un caractère général). A
cause de l'indisponibilité de tous ces éléments, nous avons opté pour une modélisation de type
boîte noire à partir des mesures contenues dans la base de données AIRLOR.
Comme pour les modèles de prévision, la période d'étude s'étend du 1er Avril au 30
Septembre des années 1995 à 1998. Mais contrairement aux modèles de prévision, la recherche a
porté sur des journées pour lesquelles la moyenne horaire maximale dépasse le seuil
d'information fixé à 110µg/m3. Cette restriction permet de focaliser principalement sur les
journées à niveaux moyens ou élevés d'ozone.
Pour la modélisation, les données quart-horaires ont été moyennées au pas de temps de
l'heure. Six variables explicatives sont considérées : le NO, le NO2, la température (T), l'humidité
relative (HR), le rayonnement (Ray) et la vitesse du vent (V). La problématique pour construire
le multi-modèle est de choisir parmi ces 6 variables, celles devant intervenir comme entrées des
modèles locaux et celles qui serviront de variables caractéristiques. La procédure d'identification
est décomposée suivant les deux étapes suivantes : recherche d'une structure initiale pour les
modèles locaux, choix des variables caractéristiques candidates et réalisation du découpage de
l'espace caractéristique.
La structure des modèles locaux est celle du meilleur modèle linéaire ARX identifié. Ce
modèle a la forme suivante :
50
45
JSTRUC
40
35
30
1 2 3 4 5 6 7
Nombre de modèles locaux
Axe découpé
Etape 1 = Température
Etape 2 =1 =2 Rayonnement
Etape 4 =2 =4 Température
Etape 5 =4 =5
Figure IV-16 : Arbre de découpage illustrant les opérations effectuées à chaque étape de la
partition k-d
pollution par l'ozone. Les phénomènes chimiques intervenant dans les mécanismes de production
et de destruction d'ozone sont représentés par la présence de la variable NO2 dans le multi-
modèle. Une interprétation physique plus approfondie du modèle est toutefois difficile. Les
paramètres du multi-modèle sont portés dans le tableau IV-10.
100
50
0
0 50 100 150 200 250 300 350
Tem ps en heure
e e
A n n é e 9 8 : 1 3 3 a u 1 3 9 jo u r
M e s u re s S o rtie m u lti- m o d è le
3
C o n c e n tra tio n e n µg /m
150
100
50
0
0 20 40 60 80 100 120 140 160 180
T e m p s e n h e u re
A n n é e 1 9 9 5 : 2 2 9 e a u 2 3 3 e jo u r
150 S o rtie m u lti-m o d èle
3
C o n c e n tra tio n e n µg /m
100
50
M esu res
0
0 20 40 60 80 100 120
T e m p s e n h e u re
Concentration en µg/m3
Sortie multi-modèle
150
100
50
0
0 20 40 60 80 100 120 140 160 180
Temps en heure
Année 1998 : 218e jour au 221e jour Année 1995 : 211e jour au 214e jour
200 200
Mesures Sortie multi-modèle
Mesures Sortie multi-modèle
150 150
100 100
50 50
0
0 20 40 60 80 100 0
0 20 40 60 80 100
Temps en heure Temps en heure
Année 1995 :187 e jour au 191 e jour Année 1996 : 106 e jour au 110 e jour
200 150
Mesures Sortie multi-modèle Mesures Sortie multi-modèle
150
100
100
50
50
0 0
0 20 40 60 80 100 120 0 20 40 60 80 100 120
Temps en heure Temps en heure
Année 1996 : 116e jour au 120e jour Année 1997 : 232 e jour au 237 e jour
200
150 Mesures Sortie multi-modèle Sortie
Mesures
multi-modèle
150
100
100
50
50
0 0
0 20 40 60 80 100 120 0 50 100 150
Temps en heure Temps en heure
150
100
50
0
0 20 40 60 80 100 120 140 160 180 200
T em ps en heure
Figure IV-19 : Comparaison mesures et sortie simulée du multi-modèle sur des données de
test (données n'ayant servi ni à l'estimation des paramètres, ni à la recherche de structure)
IV.6. CONCLUSIONS
La première partie du cahier de charges des réseaux AIRLOR et AERFOM relative à la
prévision à échéance de 24h de la concentration maximale d'ozone a été traitée. Un modèle
linéaire a été identifié dans un premier temps. Ces performances (en termes d'erreur moyenne
absolue et d'écart-type) sont satisfaisantes en comparaison avec les valeurs rencontrées dans la
littérature. Un modèle non-linéaire a été ensuite construit sur la base de l'approche multi-modèle
afin d'améliorer la qualité de la prévision. Le multi-modèle identifié comporte deux modèles
locaux. Ses performances sont légèrement supérieures à celles du modèle linéaire. Il n'a pas été
possible de trouver un modèle plus performant pour quelques raisons que voici :
• La relative faiblesse du nombre d'années d'archivage des données. Le site pilote de Brabois
étudié n'a que 6 années (l'année 2000 incluse) d'archivage de données, ce qui est faible
comparativement à une ville comme Paris dont les sites les plus anciens sont opérationnels
depuis le début des années 1980. Il n'existe donc pas un historique très ancien du
phénomène. De plus, sur les 4 années utilisées pour (3 années pour l'identification des
modèles et 1 pour leur validation), les journées à fort niveau d'ozone sont peu nombreux
(1,8% des journées ont enregistré un taux d'ozone supérieur à 180 µg/m3). Les modèles de
prévision élaborés sur des valeurs faibles d'ozone ont tendance à sous-estimer ces fortes
valeurs.
• Difficultés de discriminer, au vu des variables actuelles dans la base de données, des
conditions suffisantes pour l'observation des différents niveaux d'ozone. Il se pose donc un
problème de pertinence des informations portées par ces variables. En particulier, il est
difficile pour l'heure de quantifier des apports d'ozone liés au déplacement des masses d'air
ou au recyclage du smog âgé dans la couche de mélange. En l'absence de mesures en
altitude ou d'une carte de déplacement des masses d'air et de la composition de ces masses
d'air, il est impossible de prévoir ces situations.
Compte tenu de la première remarque, il est nécessaire de procéder chaque année à une
actualisation du modèle. Cette démarche doit être systématisée de façon à enrichir le modèle par
les informations relevées durant l'année précédente. L'amélioration de la qualité de la prévision a
posteriori passe également par une analyse fine des journées où des erreurs de prévision
importantes ont été constatées. L'objectif est de déduire les causes de ces erreurs afin de les
prendre en compte dans la réactualisation du modèle de prévision. Une amélioration des modèles
passe également par une prise en compte des phénomènes de transport : une perspective
intéressante serait d'inclure dans le modèle, les concentrations d'ozone observées sur les sites
situés sur le trajet de la masse d'air arrivant dans la région lorraine.
Les constats et les propositions que nous venons de faire sont relatifs au modèle de
prévision utilisé dans des conditions que nous qualifierons de parfaites ou d'a posteriori car les
prévisions ainsi calculées le sont à un moment où la mesure d'ozone du jour est disponible. Les
modèles de prévision linéaire on non-linéaire étant fonction des paramètres météorologiques du
jour J+1, il est nécessaire pour réaliser la prévision à échéance de 24h de faire usage des
prévisions faites par Météo-France. Les incertitudes qui les entachent affectent la prévision de la
concentration d'ozone lorsque les modèles de prévision sont utilisés dans les conditions
d'exploitation envisagées par les réseaux AIRLOR et AERFOM. Ceci se traduit par une
surestimation des niveaux d'ozone et peut conduire au déclenchement de fausses alertes. Les
propositions pour remédier à ce problème ont été discutées dans le paragraphe IV.4.2.1.5. Leur
mise en œuvre nécessite qu'un historique plus ancien des prévisions de Météo-France soit
disponible. Ces points constituent des perspectives pour le développement des modèles de
prévision.
Plutôt que de déterminer un modèle caractérisant le taux d'ozone sur toute la journée
(jour et nuit), il serait plus intéressant de focaliser sur le développement du phénomène entre le
lever du jour et l'après-midi. On évite ainsi la modélisation des phénomènes nocturnes qui ne
présentent pas un réel intérêt pour les réseaux. Ceci pourra s'effectuer en affectant une
pondération nulle aux mesures de la période nocturne dans le critère d'identification.
Dans ce mémoire, les fonctions de validité individuelles associées aux partitions d'une
variable sont définies de sorte à satisfaire la contrainte de partition unité. De plus, afin d'assurer
que ces fonctions de validité sont distinctes et qu'elles demeurent sur le support de la variable
après optimisation paramétrique, une paramétrisation particulière consistant à "chaîner" leurs
paramètres est adoptée. L'estimation des paramètres des fonctions de validité et ceux des
modèles locaux est réalisée par des algorithmes à deux niveaux qui alternent entre l'estimation
des paramètres des modèles locaux et ceux des fonctions de validité. Les algorithmes ont été
développés pour des critères d'identification à erreur d'équation et à erreur de sortie. Afin d'éviter
des problèmes numériques, des techniques de régularisation ont été appliquées.
variable est important. Il en résulte des zones vides de données qui provoquent des problèmes de
conditionnement lors de l'estimation paramétrique. Des zones redondantes (zones voisines
pouvant décrire des comportements identiques du système et arbitrairement séparées par la
grille) peuvent également apparaître. Une technique d'élimination des modèles associés aux
zones vides a été proposée. L'algorithme de fusion de modèles locaux voisins compatibles
développé par Boukhris et al. [2000] dans le cadre d'un critère à erreur d'équation a été étendu à
un critère à erreur de sortie. Ces deux techniques ont été ensuite combinées dans une procédure
qui, à partir d'une partition grille, réduit progressivement le nombre de modèles locaux par
élimination et fusion de modèles locaux. La procédure introduit une originalité : elle permet de
construire des zones de fonctionnement non nécessairement limitées à des orthotopes
contrairement à la partition grille ou à la partition k-d. Ceci réduit le nombre de modèles locaux.
Lorsque les variables caractéristiques possibles du système sont importantes (au delà de 5
ou 6), l'utilisation de la grille même avec les techniques de fusion et d'élimination de modèles
locaux devient très lourde. Une possibilité pour traiter ces systèmes multivariables consiste à
réaliser un découpage de l'espace caractéristique suivant un arbre de décision : c'est la partition
k-d. La structure multi-modèle est progressivement augmentée par ajouts successifs de nouveaux
modèles locaux. L'ajout est réalisé par le découpage en deux de la zone de fonctionnement où le
multi-modèle précédent approche mal le système. Notre contribution à cette méthode est la
définition d'une nouvelle paramétrisation permettant la détermination du point de découpage par
optimisation du critère d'identification. Une étape de simplification de la structure des modèles
locaux a été intégrée à la méthode de partition k-d afin d'identifier un modèle parcimonieux.
Mais la partition k-d a tendance à surestimer le nombre de modèles locaux du fait de
l'optimisation d'un seul paramètre (le point de découpage) pour le positionnement des zones de
fonctionnement à chaque ajout de nouveau modèle. Une perspective d'amélioration consisterait à
optimiser, à chaque découpage, tous les paramètres mis en jeu dans le multi-modèle. A la fin,
une fusion des modèles locaux peut intervenir afin de limiter le nombre de modèles locaux.
Un modèle linéaire de prévision a été élaboré puis amélioré en utilisant l'approche multi-
modèle. Pour délivrer une prévision le jour J+1, ces modèles font intervenir les conditions
météorologiques du jour J+1, les mesures de concentration d'ozone des jours J et J-1, l'humidité
et la température du jour J. Les performances (erreur moyenne absolue et écart-type de la
prédiction) de ces modèles sont satisfaisantes en comparaison aux valeurs rencontrées dans la
littérature. Mais ces modèles ont une tendance à sous-estimer les valeurs élevées du taux d'ozone
dont la prédiction est importante. Ces limites des modèles de prévision sont imputables à certains
facteurs comme le faible nombre d'années d'archivage des données, la rareté des journées ayant
connu de forts niveaux d'ozone, la non prise en compte de certains phénomènes (transport de
masse d'air, recyclage en basse atmosphère de l'ozone de la haute atmosphère) à cause de
l'absence de certaines mesures. Ces constats sont valables lorsque les modèles sont utilisés a
posteriori c'est-à-dire avec les mesures des réseaux. Lorsqu'ils sont appliqués en condition
normale d'exploitation (prévision a priori faite avec les prévisions de Météo-France), ils donnent
de moins bons résultats. L'explication réside dans le fait que des incertitudes entachent les
prévisions de Météo-France ; elles affectent par conséquent la prévision de la concentration
d'ozone.
Sur le plan théorique, nous avons traité les multi-modèles dont les modèles locaux sont
des modèles ARX ou à erreur de sortie. Une extension aux modèles ARMAX est envisageable :
l'estimation des paramètres des modèles locaux peut être réalisée par une méthode des moindres
carrés généralisés, ceux des fonctions de validité étant fixés.
Par rapport à des structures non-linéaires comme les réseaux de neurones, l'approche
multi-modèle présente l'avantage d'offrir un formalisme facilitant l'intégration d'informations a
priori sur le comportement dynamique ou statique du système dans certaines zones de
fonctionnement. Il serait intéressant d'étudier la prise en compte des connaissances a priori (par
des contraintes ou des pénalisations sur les paramètres) dans l'identification d'un multi-modèle.
Des ébauches de travaux sont récemment apparues dans la littérature [Abonyi et al., 2000-a et
2000-b] et mériteraient d'être approfondies.
Ce mémoire a été axé sur l'identification de systèmes MISO. Des extensions aux
systèmes MIMO peuvent être envisagées. Nous pensons en particulier à l'utilisation de la
représentation d'état. En effet, dans le cas des systèmes linéaires, le modèle d'état est la
représentation par excellence des systèmes à plusieurs sorties. Des études peuvent être menées
afin de transposer les méthodes des sous-espaces [Bastogne et al., 1998] à l'identification d'un
système MIMO décrit par un multi-modèle.
θ = R −1Φ T Ys (A-2-a)
R = ΦT Φ (A-2-b)
L’écart quadratique entre le modèle et les observations est alors mesuré par le critère suivant :
2
J = Ys − Φ θ 3
= Ys T I − ΦR-1Φ T Ys 8 (A-3)
Si le bruit additif sur Ys est de moyenne nulle et de variance σ2I, et s'il est décorrelé avec la
matrice de régression, l’estimation θ a pour variance :
Var θ = σ 2 R −1
49 (A-4)
θ reg = R + λ I −1 Φ T Ys
0 5 (A-5)
Dans ce cas, l'écart quadratique entre le modèle et les observations est exprimé par :
2
J' = Ys − Φ θ reg
2
4 0
= Ys T I − Φ R + λI 5 −1
ΦT 9Y s (A-6)
De la même manière, en faisant l’hypothèse d’un bruit blanc, on montre que la variance des
paramètres estimés en appliquant la régularisation est fournie par l'expression :
4 9 0
Var θ reg = σ 2 R + λ I 5 R0R + λ I5
−1 −1
(A-7)
En développant les calculs, on montre que la variation de critère se factorise sous la forme :
∆J = −YsT Φ R −1 − R + λI
J 0 5 −1
R R −1 − R + λI 0 5 LΦ Y
−1 T
s (A-8)
0
A-1 − B −1 = A −1 B − A B −1. 5
En appliquant cette propriété, on exprime la différence de matrices :
0
R −1 − R + λI 5 −1
= λR −1 R + λI 0 5 −1
∆J = − λ2 YsT Φ R −1 R + λI 0 5 −2
Φ T Ys (A-9)
D est la matrice des valeurs propres de R (carré des valeurs singulières ξi de la matrice de
régression Φ) et V la matrice orthogonale des vecteurs propres. Sur la base de cette
décomposition l'expression de la variation de critère devient :
−λ 2 "#
∆J = YsT ΦVdiag
##V Φ Y
T T
2 s (A-11)
!ξ 3ξ + λ 8
2
i
2
i $
nθ ×1
Posons X = V T Φ T Ys 4X ∈ 9. La variation de critère prend la forme quadratique X T QX
avec Q une matrice diagonale définie non positive. La variation de critère ∆J est négative par
conséquent. Ceci confirme le fait que sur les données d'identification, la régularisation conduit à
une diminution de la précision du modèle. Ce constat est prévisible vu que le vecteur de
paramètre régularisé n'est pas optimal au sens des moindres carrés sur les données
d'identification. Les calculs précédemment menés ont pour objectif de quantifier la variation de
critère en fonction du paramètre de régularisation. Néanmoins, la régularisation permet d'obtenir
des paramètres plus "fiables" et on peut s’en rendre compte en examinant l’influence de la
régularisation sur la variance des paramètres.
49 1 nθ
VVT
Var θ = σ 2 Vdiag 2 V T = σ 2 ∑ i 2i
"# (A-12)
ξi i =1 ξ i ! $
avec Vi le vecteur propre de la matrice R associé à la valeur propre ξ i2 .
4 9 5 D0D + λI5 V
Var θ reg = σ 2 V D + λI 0 −1 −1 T
ξ "# ξ 2 nθ 2
Var 4θ 9 = σ Vdiag
V =σ ∑
2 i T 2 i T
reg # VV 2 2 i i
(A-13)
!3 8 #$
ξ + λ 3 8
ξ + λ 2
i
i =1 2
i
Les valeurs propres de la matrice R étant positives, l'inégalité suivante est vérifiée :
ξ i2 1
≤ (A-14)
3ξ 2
+λ 8 2
ξ i2
i
Conclusion : la variance des paramètres régularisés est effectivement inférieure à celle des
paramètres non régularisés. L’objectif visé dans la technique de régularisation est atteint. En
réduisant la variance des paramètres, on obtient une estimation des paramètres plus stable et
susceptible de mieux généraliser sur des données de test.
Quantifions la variation de la variance des paramètres. Des équations (A-12) et (A-13), on trouve
facilement l'expression suivante de la variation de la variance :
λ32ξ + λ 8 "#
2
i
49
∆ var( λ ) = var θ − var θ reg = σ 2 Vdiag 4 9 ξ 3ξ + λ 8 #
2 2 #V 2
T
(A-15)
! i i $
Nous avons donc montré que la régularisation introduit 2 effets antagonistes :
• une augmentation du critère quadratique sur les données d'identification et un biais sur les
paramètres
• une diminution de la variance des paramètres.
Il y a donc un compromis à faire entre ces deux tendances afin d’obtenir un modèle ayant un bon
pouvoir de généralisation.
M M
Formulation du multi-modèle : 05 1 05 6 1 05 6
y t = ∑ ω i z t , β fi ϕ t , θ i = ∑ ω i z t , β yi t
i =1 i =1
105 6 05
Type de découpage de l'espace caractéristique = : partition grille
On a montré au paragraphe III.2.1. que le degré d'activation du modèle local fi défini par les
relations :
05
ωi t = M
05
ρi t nz
ρ i = ∏ µ l(i ) , j
∑ ρ 0t 5 j =1 j
k
k =1
nz 05
µ l(i ) , j t nz
05
ωi t = ∏ pj
j
= ∏µ 0t 5 l (j i ) , j
j =1
∑ µ l, j
l =1
0t 5 j =1
Les fonctions de validité µl,j afférentes à une variable zj ( j = 1,..., nz ) sont définies par :
3 z 0t 5 − c 8
2
µ l, j 3z (t)8 = exp − 2σ
j
j
2
l, j
l = 1,..., p j
j
σj : sa dispersion ; elle est commune à toutes les gaussiennes µl,j ∀ l = 1, ..., p j afin d'éviter des 3 8
problèmes de réactivation (voir paragraphe III.2.2.1).
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
Elle s'écrit :
05
∂y t
=
∂ M
∑ ω i t yi t 0 5 0 5
∂cr , j ∂cr , j i =1
Pour des raisons de simplification de l'écriture, nous allons omettre le temps t dans les formules
qui suivront.
∂y M ∂ω
=∑ i
yi (B-1)
∂cr , j i =1 ∂cr , j
Décomposons la dérivée ∂ω i ∂cr , j .
∂ω i
=
∂ nz
∏ µ l ( i ) ,k z k 1 6 (B-2)
∂cr , j ∂cr , j k =1 k
Les fonctions individuelles normalisées d'une variable zj étant indépendantes des
fonctions individuelles normalisées des autres variables, nous pouvons écrire :
∂µ l ( i ) , j z j 3 8
∂ω i
1z 6
nz
= × ∏µ
j
∂cr , j ∂cr , j
k =1
lk( i ) ,k k (B-3)
k≠ j
∂µ l ( i ) , j z j 3 8 ∂ 3 8 µ l(i ) , j z j
=
j j
∂cr , j ∂cr , j pj
∑ µ 3z 8 l, j j
l =1
∂µ l ( i ) , j 3 z 8 1 ∂µ 3 z 8
j l (j i ) , j j 3 8 "#
∂µ r , j z j
= × −µ ×
j
∂cr , j pj
∂c l (j i ) , j ∂c ## (B-4)
∑ µ 3z 8 ! $
r, j r, j
l, j j
l =1
∂µ l ( i ) , j z j 3 8 ∂µ r , j z j3 8
= δ l ( i ) ,r ×
j
∂cr , j j ∂cr , j
%K1 si l (ji) = r
,r &0 si l ( i ) ≠ r
avec δ l ( i ) ,r l'opérateur de Kronecker tel que δ l ( i ) =
j j
K' j
En injectant cette expression dans (B-4) on obtient :
∂µ l ( i ) , j z j 3 8 ∂µ r , j z j 3 8
j
=
1
× δ l(i ) , r − µ l(i ) , j z j 3 8"#$ × (B-5)
∂cr , j
3z 8 ! ∂cr , j
pj j j
∑ µ l, j j
l =1
∂µ r , j z j 3 8=z j − cr , j
× µ r, j z j 3 8
∂cr , j σ 2j
z j − cr , j 1
Notons dr , j z j = 3 8 σ 2j
. La dérivée ∂µ l ( i ) , j ∂cr , j devient alors :
j
∂µ l ( i ) , j z j 3 8 3 8 × δ
µ r, j z j
j
∂cr , j
= pj
! l (j i ) , r
− µ l(i ) , j z j
j
3 8"#$ × d 3z 8 r, j j
∑ µ 3z 8 l, j j
l =1
∂µ l ( i ) , j z j 3 8
j
∂cr , j
3 8 !
= dr , j z j × δ l ( i ) , r − µ l ( i ) , j z j
j j
3 8"#$ × µ 3z 8r, j j (B-6)
∂ω i 3 8 3 8 × µ 3z 8"# × ∏ µ 1z 6
= dr , j z j × δ l ( i ) , r − µ l ( i ) , j z j
nz
∂cr , j !
j $ j r, j j
k =1
lk( i ) ,k k
k≠ j
∂ω i
"# nz nz
∂cr , j
= dr , j 3z 8 × δ × µ 3z 8 × ∏ µ 1z 6# − d 3z 8 × µ 3z 8 × µ 3z 8 × ∏ µ 1z 6
j l (j i ) , r j lk( i ) ,k k r, j j j l (j i ) , j j lk( i ) ,k k
! #$ r, j
k =1
k≠ j
r, j
k =1
k≠ j
ωi
Cette expression comporte deux termes : le premier terme est non nul si l (j i ) = r . Si
c'est le cas, l'expression entre les crochets n'est rien d'autre que la fonction d'activation
ωi du modèle fi. Il s'en suit cette expression simplifiée de la dérivée ∂ω i ∂cr , j :
1
Ne pas confondre les variables dr,j(zj) qui dépendent du temps avec les paramètres dl,j entrant dans la définition des
fonctions de validité construites à partir des sigmoïdes.
∂ω i
∂cr , j j
3 8
= d r , j z j × δ l ( i ) ,r − µ r , j z j 3 8 × ω i (B-7)
∂y
3 8 3 8 × 1ω × y 6
M
= ∑ d r , j z j × δ l ( i ) ,r − µ r , j z j i i
∂cr , j i =1 j
∂y
3 8 3 8
M
∂cr , j
= dr , j z j × ∑ δ l ( i ) , r × ω i × yi − µ r , j z j × y
i =1 j
1 6 (B-8)
Pour fixer les idées, dans le cas d'un espace caractéristique monodimensionnel elle prend la
forme :
∂y
∂cr
= dr × ω r × yr − y 1 6
B.2. DERIVEE DE LA SORTIE DU SYSTEME PAR RAPPORT A LA DISPERSION
COMMUNE σj ( j = 1,..., nz )
∂y M ∂ω
=∑ i
yi
∂σ j i =1 ∂σ j
Les calculs sont similaires à ceux de la fonction de sensibilité par rapport au centre cr,j. La
modification porte uniquement sur la dérivation ∂µ l ( i ) , j ∂σ j qui est développée ici.
j
3 8
∂µ l ( i ) , j z j
∂ 3 8
µ l(i ) , j z j
1
∂µ 3 z 8 ∂ "# l (j i ) , j j pj
j
∂σ j
=
∂σ j pj
j
=
∂σ pj
−µ 3z 8 × ∂σ ∑ µ 3z 8 # l (j i ) , j j l, j j
∑ µ l, j
l =1
3z 8 ∑ µ 3z 8 !
j
l =1
l, j j #$ j j l =1
Or on a :
3 8 = e 3z 8 × µ 3z 8
∂µ l , j z j
j j el, j 3z 8 =
j
3 z j − cl, j 8
2
(B-9-a)
∂σ
l, j l, j
j σ 3j
n'est jamais nulle. Par analogie à l'équation ci-dessus, on l'exprime comme suit :
3z 8 z 2
∂µ l ( i ) , j − cl ( i ) , j
j
=
j j
j 3 8 3 8
µ l ( i ) , j z j = el ( i ) , j z j × µ l ( i ) , j z j 3 8 (B-9-b)
∂σ j σ 3j j j j
3 8
∂µ l ( i ) , j z j
1 e z × µ z − µ z × ∑ e z × µ z "# pj
j
∂σ j
= pj 3 8 3 8 3 8 3 8 3 8 #
l (j i ) , j j l (j i ) , j j l (j i ) , j j l, j j l, j j
∑ µ l, j 3z 8 ! j
$ l =1
l =1
3 8
∂µ l ( i ) , j z j
3z 8 × !e 3z 8 − ∑ e 3z 8 × µ 3z 8"#$#
pj
= µ l(i ) , j
j
l (j i ) , j
(B-10)
∂σ j
j j l, j j l, j j
j
l =1
∂ω i
∂µ l ( i ) , j z j 3 8 nz
∂σ j
=
j
∂σ j
× ∏ µ l ( i ) ,k z k
k =1 k
1 6
k≠ j
∂ω i 3 8 3
pj
8 3 8 "# × µ 3z 8 × ∏ µ 1z 6
= el ( i ) , j z j − ∑ el , j z j × µ l , j z j
nz
∂σ j j
! l =1 #$ l (j i ) , j j
k =1
k≠ j
lk( i ) ,k k
∂ω i 3z 8 − ∑ e 3z 8 × µ 3z 8"#ω
= e
pj
(B-11)
∂σ j ! l (j i ) , j j
#$ l =1
l, j j l, j j i
∂y
=∑
M ∂ω
i
M pj 3 8
yi = ∑ el ( i ) , j z j − ∑ el , j z j × µ l , j z j ω i × yi 3 8 3 8"##$
∂σ j i =1 ∂σ j r =1 j
l =1 !
Finalement on obtient la relation donnant la fonction de sensibilité sous la forme :
∂y
6 3 8 × y
M pj
∂σ j i =1 j
3 8 1
= ∑ el ( i ) , j z j × ω i × yi − ∑ el , j z j × µ l , j z j
l =1
3 8 (B-12)
ABONYI J. LAJOS N. and SFEIZERT F. [2000-a] "Hybrid fuzzy convolution modelling and
identification of chemical process systems". International Journal of Systems Sciences, Vol. 31,
N° 4, pp. 457-466.
ABONYI J., BABUŠKA R., VERBRUGGEN H. B. and SFEIZERT F. [2000-b] "Incorporating prior
knowledge in fuzzy model identification". International Journal of Systems Sciences, Vol. 31,
N° 5, pp. 657-667.
BABUŠKA R. and VERBRUGGEN H. B. [1997] "Fuzzy sets methods for local modelling and
identification ". Chapter Two in: Multiple model approaches to modelling and control, Edited by
R. Murray-Smith and T.A. Johansen, Ed. Taylor and Francis.
BARALDI A. and BLONDA P. [1999] "A survey of fuzzy clustering algorithms for pattern
recognition-Part I". IEEE Trans. on Systems Man and Cybernetics-Part B, Vol. 29, N°6, pp. 778-
785.
BARNI M., CAPPELLINI V. and MECOCCI A. [1996] "Comments on ``A possibilistic approach to
clustering``". IEEE Trans. on Fuzzy Systems, Vol. 4, N°3, pp. 393-396.
BILLINGS S. A. and VOON W. S. [1984] "Least squares parameter estimation algorithms for non-
linear systems". Int. Journal Systems Sciences, Vol. 15, N°6, pp. 601-615.
BLOOMFIELD P., ROYLE A. and YANG Q. [1993] "Accounting for meteorological effects in
measuring urban ozone levels and trends". Rapport du National Institute of Statistical Sciences
North Carolina State University.
BOUKHRIS A., MOUROT G. and RAGOT J. [1999] "Non-linear dynamic system identification : a
multiple-model approach", Int. Journal of control, Vol. 72, N°7/8, pp. 591-604.
BOUKHRIS A., MOUROT G. and RAGOT J. [2000] "System identification using a multiple model
approach: model complexity reduction", Proc. of SYSID'2000, California, USA.
BOUTAYEB M., DAROUACH M., RAFALAHARY H. and KRZAKALA G. [1993] "A new technique
for identification of MISO Hammerstein model". Proc. of ACC, San Francisco, California, USA,
pp. 1991-1992.
BREIMAN L., FRIEDMAN J., OLSHEN R. and STONE C. J. [1984] "Classification and regression
tree". Wadsworths Belmont, CA.
CHEN S. and BILLINGS S. A. [1988] "Prediction error estimation algorithm for non-linear output
affine systems". Int. Journal of control, Vol. 47, N°1, pp. 309-332.
CHEN S. and BILLINGS S. A. [1989-a] "Recursive prediction error parameter estimator for non-
linear models". Int. Journal of Control, Vol. 49, N°2, pp. 569-594.
CHEN S., BILLINGS S. and LUO W. [1989-c] "Orthogonal least squares methods and their
application to non-linear system identification ", Int. Journal of control, Vol. 50, pp. 1873-1896.
CHEN S., BILLINGS S. A., COWAN C. F. and GRANT P. M. [1990] "Practical identification of
Narmax models using radial basis functions". Int. Journal of Control, Vol. 52, N°6, pp. 1327-
1350.
DRAPER N. R. and SMITH H. [1981] "Applied regression analysis". Wiley Series in Probability
and Mathematical Statistics, 2nd Edition. Wiley & Sons.
ERNST S. [1998] "Hinging hyperplane trees for approximation and identification". Proc. Of the
37th IEEE Conf. on Decision and Control, Tampa, Florida, USA.
ESPINOSA J. J. and VANDEWALLE J. [1997] "Fuzzy modelling and identification. A guide for the
user'', Proc. of the IEEE Singapore International Symposium on Control Theory and
Applications, Singapore. Disponible sur le site http://www.esat.kuleuven.ac.be/~espinosa/.
FNAIECH F. and LJUNG L. [1987] "Recursive identification of bilinear systems". Int. Journal of
control, Vol. 45, N°2, pp. 453-470.
FROMAGE A. [1996] "Prévision des pointes de pollution atmosphérique : état de l'art dans le
monde et perspectives pour la région Ile-de-France". Thèse professionnelle effectuée à
AIRPARIF dans le cadre du Mastère en ISIGE de l'Ecole de Mines de Paris.
GASSO K., MOUROT G. and RAGOT J. [1999-a] "Ozone concentration modelling using a multiple
model approach". Proc. of EUFIT'99, Aachen, Germany.
GASSO K., MOUROT G. et RAGOT J. [1999-b] "Modélisation de la concentration d’ozone par une
approche multimodèle". Actes des Journées Doctorales de l'Automatique [JDA'99], Nancy,
France, pp. 85-88.
GASSO K., MOUROT G., BOUKHRISS A. et RAGOT J. [1999-c] "Optimisation de la structure d'un
modèle de Takagi-Sugeno". Actes des Rencontres francophones sur la logique floue et ses
applications (LFA'99). Valenciennes, France, pp. 233-240.
GASSO K., MOUROT G. and RAGOT J. [2000-a] "Identification of an output error Takagi-Sugeno
model". Proc. of IEEE International Conference on Systems, Man and Cybernetics, Nashville,
USA.
GASSO K., MOUROT G. and RAGOT J. [2000-b] "Fuzzy rule base optimisation : a pruning and
merging approach". Proc. of IEEE International Conference on Systems, Man and Cybernetics,
Nashville, USA.
GEMAN S., BIENENSTOCK E. and DOURSAT R. [1992] "Neural networks and the bias/variance
dilemma". Neural Computation, Vol. 4, pp. 1-58.
GHIAUS C., ALLARD F., CAINI F. et GAZEAU A. [2000] "La prévision des pics d'ozone en régime
de brise à l'aide de la modélisation neuro-floue". Actes des Journées Thématiques Automatique et
Environnement, Nancy, France.
GLORRENEC P.Y. [1999] "Algorithmes d'apprentissage pour systèmes d'inférence floue". Ed.
Hermès.
HANSEN C. [1992] "Regularization tools – A Matlab package for analysis and solution of
discrete ill-posed problems". Technical University of Denmark. Disponible sur le site
http://www.imm.dtu.dk/~pch/.
HARTMANN F. et SABY C. A. [2000] "Modèles de prévisions sur 24h de dépassement des seuils
d'ozone dans l'agglomération lyonnaise". Actes des Journées Thématiques Automatique et
Environnement, Nancy, France.
HASSIBI B. and STORCK D. [1993] "Second order derivatives for network pruning : optimal
brain surgeon". Advances in Neural Information Processing systems 5, San Mateo, CA, pp.
1164-1171.
HATHAWAY R. J. and BEZDEK J. A. [1993] "Switching regression models and fuzzy clustering".
IEEE Trans. on Fuzzy Systems, Vol. 1, N°3, pp. 195-204.
HE X. and ASADA H. [1993] "A new method for identifying orders of input-output models for
nonlinear dynamic systems". Proc. of ACC, San Francisco, California, USA, pp. 2520-2523.
HEUBERGER P., VAN den HOF P. and BOSGRA O. [1995] "A Generalized Orthonormal Basis for
linear dynamical systems". IEEE Trans. on Automatic Control, pp. 451-465.
HUNT K. J., HAAS R. and MURRAY-SMITH R. [1996] "Extending the functional equivalence of
radial basis function networks and fuzzy inference systems". IEEE Trans. on Neural Networks,
Vol. 7, N° 3, pp. 776-781.
JACOBS R. A., JORDAN M. I., NOWLAN J. S. and HINTON G. E. [1991] "Adaptive mixtures of
local experts". Neural Computation, Vol. 6, pp. 181-214.
JANG J.-S. R. [1993] "ANFIS: adaptive-Network-based Fuzzy Inference system". IEEE Trans.
on Systems Man and Cybernetics, Vol. 23, N°3, pp. 665-684.
JOHANSEN T. A. and FOSS A. B. [1992] "Nonlinear local model representation for adaptive
systems". Proc. of IEE Int. Conf. on Intelligent Control and Instrumentation, Vol. 2, Singapore,
pp. 677-682.
JOHANSEN T. A. and FOSS A. B. [1993] "Constructing NARMAX using ARMAX". Int. Journal
of Control, Vol. 58, N°5, pp. 1125-1153.
JOHANSEN T. A. [1997] "On Tikhonov regularization, bias and variance in nonlinear system
identification". Automatica, Vol. 33, pp. 441-446. Disponible sur le site
http://www.itk.ntnu.no/ansatte/Johansen_Tor.Arne/public.html.
KAYMAK U. and BABUŠKA R. [1995] "Compatible cluster merging for fuzzy modelling". Proc.
of FUZZ-IEEE/IFES'95, Yokohama, Japon, pp. 897-904.
KERLING M. [1999] "Optimizing the Multilayer Perceptron – Problems, tools and strategies".
Proc. of Eufit'99, Aachen, Germany.
KORENBERG M., BILLINGS S. A., LIU Y. P. and MC ILROY P. J. [1988] "Orthogonal parameter
estimation algorithm for non-linear stochastic systems". Int. Journal of control, Vol. 48, pp. 193-
210.
KOSKO B. [1992] "Fuzzy systems as universal approximator". Proc. of IEEE Int. Conf. Fuzzy
Syst, San Diego, USA, pp. 1153-1162.
KRIBECHE A. [2000] "Elaboration de modèles de prévision des pointes d'ozone sur les sites de
Metz-borny et Thionville-Piscine". Rapport de stage de DEA, INPL.
KRISHNAPURAM R. and KELLER J. [1996] "The possibilistic C-Means algorithm : insights and
recommendations". IEEE Trans. on Fuzzy Systems, Vol. 4, N°3, pp. 385-393.
LECUN Y., DENKER J. S., SOLLA S., HOWARD R. E. and JACKEL L. D. [1990] "Optimal Brain
Damage". In David Touretzky Ed.: Advances in Neural Information Processing Systems 2,
Denver. Morgan Kaufman.
LEONTARITIS I. J. and BILLINGS S. A. [1987] "Model selection and validation methods for
nonlinear systems". Int. Journal of Control, Vol. 41, N°1, pp. 303-344.
LIN Y., CUNNIGHAM G. A. and COGGESHALL S.V. [1997] "Using fuzzy partitions to create fuzzy
systems from input-output data and set the initial weights in a fuzzy neural networks". IEEE
Trans. on Fuzzy Systems, Vol. 5, N°4, pp. 614-621.
LINDSKÖG P. [1996] "Methods, algorithms and tools for system identification based on prior
knowledge". PhD Thesis, Linköping University, Suède, ISSN 0345-7524.
LJUNG L. [1987] "System Identification : Theory for the User". Prentice-Hall, Englewood Cliffs,
N. J.
MALTI R. [1999] "Représentation des systèmes discrets sur la base des filtres orthogonaux –
Application à la modélisation des systèmes dynamiques multi-variables". Thèse de l'INPL.
MASSIEU J. F., PIGEON E., RODRIGUEZ R. et VOINOT O. [2000] "Un outil pour l'analyse des
systèmes de grande dimensions. Application à la modélisation du taux de pollution par l'ozone
dans le département du Calvados". Actes des Journées Thématiques Automatique et
Environnement, Nancy, France.
MEILA M. and JORDAN M. [1997] "Markov mixtures of experts". Chapter Five in : Multiple
model approaches to modelling and control, Edited by Murray-Smith R. and Johansen T. A., Ed.
Taylor and Francis.
MOUZOURIS G. C. and MENDEL J. [1996] "Designing fuzzy logic systems for uncertain
environments using a singular value-QR decomposition method". Proc. of FUZZ-IEEE'96, New
Orleans, USA, pp. 295-301.
MURRAY-SMITH R. [1994] "A local model network approach to nonlinear modelling". PhD
Thesis. University of Strathclyde, Computer Science Department. Disponible sur le site
http://eivind.imm.dtu.dk/staff/rod/phd_rod.html.
NELLES O. [1997-a] "Nonlinear system identification with neuro-fuzzy methods". Chapter in:
Da Ruan Ed.: Intelligent hybrid systems. Kluwers Academic publishers, Dordrecht.
NELLES O. [1997-b] "Orthonormal basis functions for nonlinear system identification with local
linear model trees (LOLIMOT)". Proc. of SYSID'97, Fukuoka, Japon. Vol. 2, pp. 667-672.
OULADSINE M., KOBI A. and RAGOT J. [1993] "Identification of a MIMO Hammerstein model".
Proc. of ECC 93, Vol. 2, pp. 621-626.
PARK J. and SANDBERG I. W. [1991] "Universal approximation using radial basis function
networks". Neural Computation, Vol. 3, pp. 246-257.
PETON N. [1999] "Méthode de groupement par soustraction pour l'identification de modèle flou :
amélioration et application à la prévision de la pollution atmosphérique". Thèse de l'Université
Montpellier II.
Powell M. [1987] "Radial basis function approximations to polynomials". Proc. of 12th Biennal
Numerical Ananlysis Conference, pp. 223-241.
PUCAR P. [1995] "Modelling and segmentation using multiple models". PhD Thesis N° 405.
ISBN 91-7871-627-6. Department of Electrical Engineering, Linköping University, Sweden.
RAMAMURTI V. and GHOSH J. [1999] "Structurally adaptive modular networks for nonstationary
environments". IEEE Trans. on Neural Networks, Vol. 10, N°1, pp.152-160.
RYAN W. [1995] "Forecasting severe ozone episodes in the Balitmore metropolitan area".
Atmospheric Environment, Vol. 29, N°17, pp. 2387-2398.
SBARBARO D. [1997] "Local Laguerre models". Chapter Ten in : Multiple model approaches to
modelling and control. Edited by R. Murray-Smith and T. A. Johansen, Ed. Taylor and Francis.
SETNES M., BABUŠKA R., KAYMAK U. and VAN NAUTA LEMKE H. R. [1998] "Similarity
measures in fuzzy rule base simplification". IEEE Trans. on Systems Man and Cybernetics-Part
B., Vol. 28, N°3, pp. 376-386.
SIARRY P. and GUELY F. [1998] "A genetic algorithm for optimizing Takagi-Sugeno fuzzy rule
bases", Fuzzy Sets and Systems, Vol. 99, pp. 37-47.
SJÖBERG J., ZHANG Q., LJUNG L., BENVENISTE A., DEYLON B., GLORRENEC P-Y.,
HJALMMARSSON H. and JUDITSKY A. [1995] "Nonlinear black-box modelling in system
identification : a unified overview". Automatica, Vol. 31, N°12, pp. 1691-1724.
STRÖMBERG J-E., GUSTAFSSON F. and LJUNG L. [1991] "Trees as black-box model structures for
dynamical systems". Proc. of ECC 91, Grenoble, France, pp. 1175-1180.
SUGENO M. and KANG G.T. [1988] "Structure identification of fuzzy model". Fuzzy sets and
systems, Vol. 28, pp. 15-33.
TAKAGI T. and SUGENO M. [1985] "Fuzzy identification of systems and its application to
modelling and control". IEEE Trans. on Systems Man and Cybernetics, Vol. 15, pp. 116-132.
TANAKA K., SANO M. and WATANABE H. [1995] "Modelling and control of carbon monoxide
concentration using a neuro-fuzzy technique". IEEE Trans. on Fuzzy Systems, Vol. 3, N°3, pp.
271-279.
WANG L. X. and MENDEL J. M. [1992] "Fuzzy basis functions, universal approximation and
orthogonal least-squares learning". IEEE Trans. on Neural Networks, Vol. 3, pp. 807-814.
WANG L. and LANGARI R. [1995] "Building Sugeno-Type models using fuzzy discretization and
orthogonal parameter estimation techniques". IEEE Trans. on Fuzzy Systems, Vol. 3, N°4, pp.
454-458.
WIGREN T. [1993] "Recursive prediction error identification using the non-linear wiener
model". Automatica, Vol. 29, N°4, pp. 1011-1025.
YEN J., and WANG L. [1998-a] "Application of statistical information criteria for optimal fuzzy
model construction". IEEE Trans. on Fuzzy Systems, Vol. 6, N°3, pp. 362-371.
YEN J., WANG L. and GILLESPIE C. [1998-b] "Improving the interpretability of TSK fuzzy
models by combining global learning and local learning". IEEE Trans. on Fuzzy Systems, Vol. 6,
N°4, pp. 530-537.
YEN J. and WANG L. [1999] "Simplifying fuzzy rule-base models using orthogonal
transformation methods". IEEE Trans. on Systems Man and Cybernetics-Part B, Vol. 29, N°1,
pp. 13-24.
YING H. [1998] "General SISO Takagi-Sugeno fuzzy systems with linear rule consequent are
universal approximators". IEEE Trans. on Fuzzy Systems, Vol. 6, N°4, pp. 582-587.
YU D., GOMM J. and WILLIAMS D. [1997] "Selection of neural model order and time-delay for
MIMO non-linear systems and a case study on a CSTR process ". Proc. of SYSID'97, Fukuoka,
Japan, Vol. 1, pp. 213-218.
ZHU Q. M. and BILLINGS S.A. [1993] "Parameters estimation for stochastic non-linear rational
models". Int. Journal of control, Vol. 57, N°2, pp. 309-333.