Gasso 2000

Institut National Polytechnique de Lorraine
Ecole Doctorale IAE+M

DFD Automatique et Production Automatisée
Centre de Recherche en Automatique de Nancy
THESE
Présentée pour l'obtention du
DOCTORAT DE
L'INSTITUT NATIONAL POLYTECHNIQUE DE LORRAINE
Par
Komi GASSO
Identification des systèmes dynamiques non-linéaires :

approche multi-modèle
Soutenue publiquement le 22 Décembre 2000 devant la commission d'examen :
M'SIRDI N. Rapporteur
GUERRA T-M. Rapporteur
TRIGEASSOU J-C. Examinateur
FOULLOY L. Examinateur
RICHARD A. Examinateur
RAGOT J. Directeur de thèse
MOUROT G. Co-Directeur de thèse
BASTIN E. Invitée
LEBOIS D. Invité
CENTRE DE RECHERCHE EN AUTOMATIQUE DE NANCY – CNRS UPRES-A N°7039

2, Avenue de la Forêt de Haye, 54516 Vandœuvre-lès-Nancy, Cedex, France
Tél : +33/(0)3 83 59 59 59 – Fax : +33/(0)3 83 59 56 44 – Email : cran-inpl@ensem.inpl-nancy.fr
4'/'4%+'/'065
Les travaux présentés dans ce mémoire ont été réalisé au sein de l'équipe Diagnostic et
Robustesse du Centre de Recherche en Automatique de Nancy (CRAN). Au terme de ce travail,
je voudrais exprimer ma gratitude envers tous ceux qui ont permis son bon aboutissement.
Je tiens, très particulièrement, à remercier Monsieur le Professeur J. RAGOT pour le

chaleureux accueil qu'il m'a réservé au sein de son équipe ainsi que pour sa constante
disponibilité et ses précieux conseils.
Mes vifs remerciements vont à G. MOUROT pour son aide, sa disponibilité, ses
judicieux et précieux conseils pendant toute la durée de ma thèse. Nos fréquentes discussions et
ses remarques constructives m'ont été d'une grande utilité dans l'avancement de mes travaux.
Je remercie Messieurs les Professeurs Nacer M'SIRDI et Thierry-Marie GUERRA d'avoir

accepté de rapporté mon mémoire.
Mes remerciements s'adressent également à Messieurs les Professeurs Jean-Claude

TRIGEASSOU, Alain RICHARD et Laurent FOULLOY qui ont accepté d'examiner et de juger
ce travail.
Je n'oublie pas dans mes remerciements Madame Emmanuelle BASTIN et Monsieur

Daniel LEBOIS avec qui j'ai collaboré dans le cadre du contrat industriel ayant fait l'objet d'une
partie de mon travail de thèse.
J'exprime ma profonde gratitude envers mes collègues de laboratoire, en particulier

Olivier ADROT, pour leur sympathie et l'ambiance cordiale qu'ils ont su faire régner au sein de
l'équipe.
J'adresse enfin mes chaleureux remerciements à Marjorie SCHWARTZ pour sa constante

disponibilité, son efficacité et sa jovialité.
6#$.'&'5/#6+'4'5
INTRODUCTION GENERALE........................................................................................ 5
CHAPITRE I MODELES DE REPRESENTATION DES SYSTEMES DYNAMIQUES

NON-LINEAIRES................................................................................... 11
I.1. INTRODUCTION ......................................................................................................................................... 13
I.2. MODELES CLASSIQUES DES SYSTEMES NON-LINEAIRES ........................................................... 14
I.3. APPROCHES RECENTES DE REPRESENTATION DES SYSTEMES NON-LINEAIRES.............. 17
I.3.1. MODELES FLOUS..................................................................................................................................... 17

I.3.1.1. Modèle de Mamdani .........................................................................................................................................20
I.3.1.2. Modèle de Takagi-Sugeno (modèle TS) ............................................................................................................22
I.3.1.3. Propriétés des modèles flous ............................................................................................................................23
I.3.1.4. Problématique d'identification des modèles flous ............................................................................................24
I.3.2. RÉSEAUX DE NEURONES .......................................................................................................................... 24

I.3.3. LES RÉSEAUX DE FONCTIONS A BASE RADIALE (RFBR) ............................................................................... 26
I.3.4. LES MODELES MULTI-EXPERTS ................................................................................................................ 28
I.3.5. AUTRES STRUCTURES NON-LINÉAIRES ...................................................................................................... 29
I.4. ASPECTS PRATIQUES DE L'IDENTIFICATION DES SYSTEMES................................................... 30
I.4.1. ESTIMATION DES PARAMETRES................................................................................................................. 30

I.4.1.1. Estimateur des moindres carrés .......................................................................................................................30
I.4.1.2. Optimisation non-linéaire ................................................................................................................................33
I.4.2. RECHERCHE DE LA STRUCTURE DU MODELE ............................................................................................ 35

I.4.3. VALIDATION DU MODÈLE ........................................................................................................................ 40
I.5. CONCLUSION .............................................................................................................................................. 41
CHAPITRE II APPROCHE MULTI-MODELE OU RESEAU DE MODELES LOCAUX 43
II.1. INTRODUCTION ......................................................................................................................................... 45
II.2. PRESENTATION DE L'APPROCHE MULTI-MODÈLE....................................................................... 46
II.2.1. FORMULATION MATHEMATIQUE .............................................................................................................. 46

II.2.2. PROPRIETES D'APPROXIMATION D'UNE ARCHITECTURE MULTI-MODELE .................................................... 48
II.2.3. STRUCTURES DES MODELES LOCAUX ....................................................................................................... 50
II.2.3.1. Modèles locaux sous forme de relation entrée-sortie .......................................................................................50
II.2.3.2. Filtres orthogonaux ..........................................................................................................................................54
CRAN-INPL Page 1
II.2.3.3. Représentation d'état ........................................................................................................................................55
II.3. LIENS AVEC LES MODÈLES NON-LINEAIRES EXISTANTS ........................................................... 56
II.3.1. MODÈLE FLOU DE TAKAGI-SUGENO (MODÈLE TS)..................................................................................... 56

II.3.2. MODÈLES MULTI-EXPERTS....................................................................................................................... 57
II.3.3. LES RÉSEAUX DE FONCTION À BASE RADIALE (RFBR)................................................................................. 57
II.4. PROBLÉMATIQUE D'IDENTIFICATION D'UNE ARCHITECTURE MULTI-MODÈLE .............. 57
II.4.1. IDENTIFICATION STRUCTURELLE ............................................................................................................. 58

II.4.1.1. Compromis nombre de modèles locaux – complexité des modèles locaux .......................................................58
II.4.1.2. Décomposition de l'espace de fonctionnement .................................................................................................59
II.4.1.3. Choix des variables caractéristiques................................................................................................................61
II.4.1.4. Stratégies d'identification structurelle..............................................................................................................61
II.4.2. TECHNIQUES D'APPRENTISSAGE .............................................................................................................. 62

II.4.2.1. Apprentissage local ..........................................................................................................................................62
II.4.2.2. Apprentissage global ........................................................................................................................................63
II.4.2.3. Apprentissage avec un critère mixte.................................................................................................................67
II.5. CONCLUSION .............................................................................................................................................. 67
CHAPITRE III OPTIMISATION PARAMETRIQUE ET STRUCTURELLE DES MULTI-

MODELES ............................................................................................. 69
III.1. INTRODUCTION ......................................................................................................................................... 71
III.2. OPTIMISATION D'UN MULTI-MODÈLE A TRAVERS UNE PARTITION GRILLE...................... 72
III.2.1. FORMULATION MATHEMATIQUE DE LA GRILLE ......................................................................................... 72

III.2.2. CHOIX DES FONCTIONS DE VALIDITE INDIVIDUELLES ................................................................................ 74
III.2.2.1. Fonctions de validité d'allure gaussienne.........................................................................................................74
III.2.2.2. Fonctions de validité élaborées à partir de fonctions sigmoïdes......................................................................75
III.2.3. ALGORITHMES D'OPTIMISATION PARAMETRIQUE ...................................................................................... 78

III.2.3.1. Les paramètres des fonctions de validité sont fixés, optimisation d'un critère quadratique par rapport aux
paramètres des modèles locaux...........................................................................................................................................80
III.2.3.2. Optimisation de tous les paramètres sur la base d'un critère à erreur d'équation ...........................................83
III.2.3.3. Optimisation de tous les paramètres sur la base d'un critère à erreur de sortie ..............................................88
III.2.4. OPTIMISATION DE LA STRUCTURE D'UN MULTI-MODÈLE DECOMPOSANT L'ESPACE CARACTERISTIQUE EN

GRILLE ................................................................................................................................................... 91
III.2.4.1. Critère de sélection de structure Jstruc...............................................................................................................91
III.2.4.2. Recherche des variables caractéristiques et de leur nombre de partitions.......................................................92
III.2.4.3. Simplification de la structure des modèles locaux............................................................................................93
III.2.5. CONCLUSION PARTIELLE ........................................................................................................................105
III.3. REDUCTION DU NOMBRE DE MODELES LOCAUX GENERES DANS UNE GRILLE :

ELIMINATION ET FUSION DE MODELES ......................................................................................... 107
III.3.1. ÉLIMINATION DE MODÈLES LOCAUX........................................................................................................107
Page 2 CRAN-INPL
III.3.2. FUSION DE MODELES LOCAUX ................................................................................................................110
III.3.2.1. Etat de l'art.....................................................................................................................................................110

III.3.2.2. Algorithme de fusion ......................................................................................................................................113
III.3.3. APPLICATION DES TECHNIQUES D'ELIMINATION ET DE FUSION DE MODELES LOCAUX A LA RECHERCHE DE

STRUCTURE D'UN MULTI-MODELE ..........................................................................................................116
III.3.3.1. Espace caractéristique monodimensionnel.....................................................................................................117

III.3.3.2. Espace caractéristique multidimensionnel)....................................................................................................120
III.4. IDENTIFICATION D'UN MULTI-MODÈLE A TRAVERS UN PARTITIONNEMENT ITERATIF :

PARTITION K-D ........................................................................................................................................ 130
III.4.1. DÉTERMINATION DE LA ZONE À DÉCOUPER .............................................................................................131
III.4.2. DÉCOUPAGE DE LA ZONE = k ................................................................................................................132

III.4.3. RECHERCHE DE L'AXE A DECOUPER ET DU POINT DE DÉCOUPAGE ...........................................................132
III.4.4. DÉFINITION DES FONCTIONS DE VALIDITÉ DES ZONES =K1 ET =K2..............................................................133
III.4.5. OPTIMISATION DU POINT DE DÉCOUPAGE ET DES PARAMÈTRES DES MODÈLES LOCAUX.............................136
III.4.6. RAFFINEMENT DE LA STRUCTURE DES MODÈLES LOCAUX ........................................................................137
III.4.7. CONTINUATION ET FIN DE LA PROCÉDURE DE PARTITION K-D ..................................................................137
III.5. CONCLUSION GENERALE DU CHAPITRE ........................................................................................ 141
CHAPITRE IV ELABORATION DE MODELES DESCRIPTIFS DES VARIATIONS

DE LA CONCENTRATION D'OZONE ............................................ 143
IV.1. INTRODUCTION ....................................................................................................................................... 145
IV.2. PARTICULARITÉS DU PHÉNOMÈNE.................................................................................................. 147
IV.2.1. MÉCANISMES DE PRODUCTION ET DE DESTRUCTION DE L'OZONE .............................................................147
IV.2.2. FACTEURS INTERVENANT DANS LE PHÉNOMÈNE.......................................................................................148
IV.2.2.1. Polluants précurseurs.....................................................................................................................................148

IV.2.2.2. Facteurs physiques et météorologiques..........................................................................................................149
IV.2.2.3. Influence de l'échelle spatiale (type de site) ...................................................................................................150
IV.3. PRÉSENTATION ET ANALYSE DES DONNEES TRAITEES ........................................................... 151
IV.4. MODELES DE PREVISION DE LA CONCENTRATION MAXIMALE QUOTIDIENNE D'OZONE

....................................................................................................................................................................... 155
IV.4.1. TRAITEMENT DES VARIABLES PRÉDICTIVES ..............................................................................................155
IV.4.1.1. Les variables prédictives courantes................................................................................................................155

IV.4.1.2. Prétraitement des données..............................................................................................................................156
IV.4.2. MODELES DE PRÉVISION RECHERCHÉS ....................................................................................................158
IV.4.2.1. Modèle de prévision linéaire ..........................................................................................................................159

IV.4.2.2. Elaboration d'un modèle de prévision non-linéaire : utilisation de l'approche multi-modèle........................169
CRAN-INPL Page 3
IV.5. MODELE A COURT TERME................................................................................................................... 173
IV.5.1. MODÈLES MATHÉMATIQUES EXISTANTS ...................................................................................................174
IV.5.2. DESCRIPTION DE L'EVOLUTION HORAIRE DE LA CONCENTRATION D'OZONE EN UTILISANT UNE APPROCHE

MULTI-MODÈLE .....................................................................................................................................175
IV.6. CONCLUSIONS.......................................................................................................................................... 181
CONCLUSION GENERALE ET PERSPECTIVES ..................................................... 185
ANNEXES................................................................................................................... 189
REFERENCES BIBLIOGRAPHIQUES....................................................................... 199
Page 4 CRAN-INPL
CHAPITRE I
+/1&'.'5&'4'24'5'06#6+10
&'55;56'/'5&;0#/+37'5
010.+0'#+4'5
CRAN-INPL Page 11
6200$,5(
I.1. INTRODUCTION ......................................................................................................................................... 13
I.2. MODELES CLASSIQUES DES SYSTEMES NON-LINEAIRES........................................................... 14
I.3. APPROCHES RECENTES DE REPRESENTATION DES SYSTEMES NON-LINEAIRES ............. 17
I.3.1. MODELES FLOUS ..................................................................................................................................... 17

I.3.1.1. Modèle de Mamdani.........................................................................................................................................20
I.3.1.2. Modèle de Takagi-Sugeno (modèle TS) ............................................................................................................22
I.3.1.3. Propriétés des modèles flous ............................................................................................................................23
I.3.1.4. Problématique d'identification des modèles flous ............................................................................................24
I.3.2. RÉSEAUX DE NEURONES .......................................................................................................................... 24

I.3.3. LES RÉSEAUX DE FONCTIONS A BASE RADIALE (RFBR) ............................................................................... 26
I.3.4. LES MODELES MULTI-EXPERTS ................................................................................................................ 27
I.3.5. AUTRES STRUCTURES NON-LINÉAIRES ...................................................................................................... 29
I.4. ASPECTS PRATIQUES DE L'IDENTIFICATION DES SYSTEMES................................................... 29
I.4.1. ESTIMATION DES PARAMETRES ................................................................................................................ 30

I.4.1.1. Estimateur des moindres carrés .......................................................................................................................30
I.4.1.2. Optimisation non-linéaire ................................................................................................................................33
I.4.2. RECHERCHE DE LA STRUCTURE DU MODELE ............................................................................................ 35

I.4.3. VALIDATION DU MODÈLE ........................................................................................................................ 40
I.5. CONCLUSION .............................................................................................................................................. 40
Page 12 CRAN-INPL
Chapitre I Modèles de représentation des systèmes dynamiques non-linéaires
I.1. INTRODUCTION
L'identification d'un système dynamique non-linéaire MISO (multi-entrées, mono-sortie)
consiste à construire un modèle mathématique de ce système à partir des mesures de ses entrées
et de sa sortie. Soit un ensemble de données d'apprentissage 'N={ys(t), U(t), t=1, ..., N} où U(t)
et ys(t) désignent respectivement les entrées et la sortie instantanées du système. L'identification
d'un système MISO à partir de ces mesures expérimentales revient à trouver une relation
mathématique de la forme :
y t = ) ϕ t ,θ
05 05 (I-1)
qui donne à chaque instant une estimation satisfaisante de la sortie ys du système. La fonction
multivariable ) est le modèle du système et y t la sortie instantanée de ce modèle. La fonction )
05
dépend du vecteur de paramètres θ et d'un vecteur de variables expliquant le comportement du
système appelé vecteur de régression et noté ϕ(t). Le vecteur de régression est formé à partir des
entrées U, de la sortie ys du système ou de la sortie y du modèle à des instants antérieurs à
l'instant courant t. Le problème d'élaboration du modèle décrit par l'équation (I-1) se décompose
en 4 tâches :
• choix des éléments du vecteur de régression ϕ(t),

• détermination de la structure de la fonction ),
• estimation du vecteur des paramètres θ,
• évaluation des performances du modèle ).
La qualité de l'approximation du comportement du système dépendra de la structure

retenue, du nombre de paramètres qu'elle contient, des variables d'entrée sélectionnées et de la
quantité d'information contenue dans les données d'apprentissage. L'un des problèmes majeurs
en identification est la détermination de la structure du modèle. Dans le cas linéaire, les
techniques de recherche de structure sont bien connues et très développées [Ljung, 1987]. Mais
l'hypothèse d'un comportement linéaire du système n'est souvent vérifiée que dans le voisinage
immédiat d'un point de fonctionnement du système. Pour peu que le système s'en éloigne, son
comportement devient non-linéaire. Pour le décrire, plusieurs types de modèles non-linéaires
sont proposés dans la littérature. Les plus anciens sont basés sur la recherche d'un modèle global
et les plus récents reposent sur le principe de décomposition d'un problème global en plusieurs
problèmes simples. Dans les paragraphes qui suivent, nous dressons l'état de l'art de la
modélisation des systèmes dynamiques non-linéaires. Après un tour d'horizon des différents
modèles non-linéaires, nous abordons dans un cadre général les aspects pratiques liés à leur
identification.
CRAN-INPL Page 13
Identification des systèmes dynamiques non-linéaires : approche multi-modèle
I.2. MODELES CLASSIQUES DES SYSTEMES NON-LINEAIRES

L'un des plus anciens modèles de représentation des systèmes non-linéaires est celui de
Volterra-Wiener. Pour un système à une entrée, il est donné par la décomposition en série :
∞
05
y t = ∑ yi t
i =1
05 (I-2-a)
t −1 t −1
05 1 61 61
yi t = ∑ ∑ hi τ 1 , , τ i u t − τ 1 u t − τ i
τ 1 =0 τ i =0
6 (I-2-b)
1
hi τ 1 , , τ i 6 est la réponse impulsionnelle d'ordre i du système. Dans la pratique, la série est
tronquée à l'ordre n mais du fait que le modèle utilise exclusivement les entrés décalées u t − τ ,0 5
il nécessite un grand nombre de paramètres pour représenter convenablement le système. Cette
description présente donc peu d'intérêt en pratique.
Une autre catégorie de modèles est celle des modèles sous forme de blocs structurés,
constitués par des blocs distincts de modèles dynamiques linéaires et de non-linéarités statiques.
Ces blocs interconnectés sont placés en série et/ou en parallèle pour former les modèles de
Wiener et de Hammerstein généralisés [Haber et Unbehauen, 1990]. La forme simple de ces
structures est illustrée sur les figures I-1 et I-2. Sur ces schémas, le signal intermédiaire v(t) entre
les deux blocs n'est pas accessible.
v(t)
Non-linéarité Système linéaire
u(t)
statique dynamique
05
yt
Figure I-1 : Modèle de Hammerstein
Système linéaire v(t)

Non-linéarité
u(t)
dynamique statique
05
yt
Figure I-2 : Modèle de Wiener
Les techniques d'identification de ces modèles qu’on peut trouver notamment dans les
références [Ouladsine et al., 1993], [Wigren, 1993], [Boutayeb et al., 1993] et [Boutayeb et
Darouach, 1995] approchent souvent la non-linéarité par un polynôme de degré fini. Le modèle
de Hammerstein d'un système mono-entrée et mono-sortie est exprimé dans ce cas par les
équations suivantes :
Page 14 CRAN-INPL
05 05 05 05
v t = c0 + c1u t + c2 u 2 t +...+ c pu p t
−1 −2 −m (I-3)
b q + b q +...+ b q
y0 t 5 = 1
−1
2
v 0t 5
−2
m
−n
1 + a q + a q +...+ a q
1 2 n
où q-1 est l'opérateur retard.
Dans la catégorie des modèles sous forme de blocs structurés, on peut ranger le modèle
GMDH (acronyme de Group Method Data Handling). Il représente le système par un ensemble
de sous-modèles interconnectés (voir figure I-3). Les sous-modèles sont disposés en couches.
Les variables d'entrée des modèles de la première couche sont les entrées du système. Ces sous-
modèles peuvent être linéaires, polynomiaux, … Les paramètres de chaque sous-modèle de la
couche 1 sont identifiés en minimisant la somme des écarts quadratiques entre la sortie du
système et celle du sous-modèle. Les sorties des sous-systèmes de la couche 1 constituent les
entrées des modèles de la couche 2. Pour limiter la complexité du problème, on ne retient d'une
couche à l'autre que les sorties les plus significatives [Haber et Unbehauen, 1990]. Le modèle
GMDH est ainsi construit couche par couche. Le sous-modèle de la dernière couche dont la
sortie est suffisamment proche de celle du système fournit la sortie globale y(t). Notons que le
modèle GMDH est similaire au réseau de neurones MLP (voir paragraphe I.3.2).
Couche 1 Couche 2
u1(t) 1
f1,1 u1 , , um 6
3
f2,1 y1,1 , , y1,n1 8
1
f1,2 u1 , , um 6
3
f2, j y1,1 , , y1,n1 8 05
yt
1
f1,n1 u1 , , um 6 3
f2,n2 y1,1 , , y1,n1 8
um(t)
Figure I-3 : Illustration du principe du modèle GMDH
Un autre type de modèle non-linéaire a été développé par Leontaritis et Billings [1985]
sous la forme de l'équation (I-1) où le vecteur de régression est :
0 5 3 8 4 9
ϕ (t ) = [ ys t − 1 , ..., ys t - ny , u1 t − nku , ..., u1 t − nku − nu1 ,
1
4 1
9
(I-4)
, um 4t − nk 9, ..., u 4t − nk
um m um − num 9 e0t − 15, ..., e1t − n 6]
e
où :
ys(t-k) - ( k = 1,, n y ) - est la sortie décalée du système,
CRAN-INPL Page 15
uj(t-k) - k = 1,, nu j + nku j - est une entrée uj du système décalée,
e(t-k) - ( k = 1,, ne ) – est le bruit de mesure à un instant antérieur à l'instant courant t,
n y est l'ordre associé à ys, nu j et nku j sont respectivement l'ordre et le retard associé à l'entrée uj,
ne est l'ordre associé au bruit de mesure e(t).
Cette représentation est appelée modèle NARMAX [Chen et Billings, 1989-b], par
extension au modèle linéaire ARMAX. Plusieurs modèles ont été dérivés de cette structure
générale.
Par exemple, on construit des modèles NARMAX polynomiaux en approchant la

fonction ) par un polynôme de degré fini n. Les monômes sont soit des termes de puissance des
variables de régression ou des termes issus du produit croisé de ces variables. Le nombre de
combinaisons augmente de manière exponentielle si le degré n du polynôme est élevé ou si le
vecteur de régression est de dimension importante. Zhu et Billings [1993] ont proposé des
modèles rationnels qui sont formés par le rapport de deux modèles NARMAX polynomiaux de
degré fini. Ces modèles ont l'avantage de donner une représentation plus concise (faible nombre
de paramètres pour une même précision) que les modèles NARMAX polynomiaux. Leur
inconvénient est la forme non-linéaire par rapport aux paramètres qui exige l'utilisation de
procédures d'optimisation non-linéaire pour l'estimation des paramètres. D'autres modèles
particuliers dérivés du modèle NARMAX sont les modèles bilinéaires et les modèles affines par
rapport à la sortie [Fnaiech et Ljung, 1987], [Chen et Billings, 1988].
Les algorithmes d'estimation paramétrique des modèles NARMAX utilisent soit des
techniques d'optimisation non-linéaire hors ligne [Billings et Voon, 1986], [Chen et Billings,
1988] ou en ligne [Chen et Billings, 1989-a], soit la méthode des moindres carrés étendus (MCE)
ou les variables instrumentales [Billings et Voon, 1984]. Ces dernières méthodes permettent
d'éliminer le biais dû à la présence des termes du bruit de mesure dans le vecteur de régression.
La recherche de structure consiste à déterminer les ordres ny, nu j , ne, les retards nku j et à choisir
l'ordre n des polynômes. Les monômes sont ensuite formés (ils constituent les variables du
modèle). Une procédure de sélection des variables est appliquée afin de retenir les variables qui
possèdent un pouvoir d'explication important de la sortie du système. La procédure de sélection
est soit une méthode basée sur l'analyse des coefficients de corrélation partielle [Billings et
Voon, 1986] soit un algorithme basé sur les moindres carrés orthogonaux (MCO) [Korenberg et
al., 1988], [Zhu et Billings, 1993].
Page 16 CRAN-INPL
I.3. APPROCHES RECENTES DE REPRESENTATION DES SYSTEMES

NON-LINEAIRES
Elles suscitent beaucoup d'intérêt ces dernières années et présentent des propriétés
attractives pour la modélisation des systèmes présentant des caractéristiques fortement non-
linéaires. Leur philosophie est basée sur la stratégie "diviser pour régner" : le système étudié est
représenté par un ensemble de modèles locaux fi(ϕ(t)) valides dans une zone de l'espace de
fonctionnement du système. La validité locale de chaque modèle est spécifiée par une fonction à
support borné (une fonction d'allure gaussienne par exemple). La sortie du modèle du système
s'exprime comme la somme pondérée des sorties yi(t) des modèles locaux, soit :
05 05 05 0 5 1 0 56
y t = ∑ ρ i t yi t = ∑ ρ i t fi ϕ t
i i
(I-5)
Les fonctions de pondération ρi(t) constituent les fonctions de validité associées aux modèles
locaux.
La construction de modèles basés sur cette relation a donné lieu à différents types de
structures dont les réseaux à fonctions de base radiale (RFBR), les modèles flous, les modèles
multi-experts, ... Les réseaux de neurones qui modélisent le système comme une succession de
couches de neurones interconnectés sont généralement rangés dans cette catégorie de modèles
non-linéaires. Notons que les modèles sous forme de blocs structurés précédemment présentés
adhèrent au principe de décomposition sans toutefois faire appel à des fonctions de validité
locale. Dans les paragraphes suivants, nous présentons ces modèles non-linéaires ainsi que la
problématique de leur identification.
I.3.1. MODELES FLOUS
Introduits par Zadeh en 1965, les concepts flous permettent de caractériser un système ou
un phénomène par un ensemble de règles composées de propositions linguistiques exprimant les
imprécisions du raisonnement humain. Modéliser un système à partir de ces concepts revient à
générer une base de règles de la forme :
si prémisse alors conséquence.
Un exemple de règle est : si la température est basse alors mettre le chauffage. La

variable température est appelée variable de prémisse. Etant donnée une mesure de la
température, pour évaluer le degré de véracité de la proposition sur la température, on se sert
d'un ensemble flou. Cet ensemble flou correspond à un qualificatif ou un label linguistique
(faible, moyen, élevé) de la variable température. Il joue le rôle d'interface entre la valeur
numérique et les qualificatifs linguistiques de cette variable. Le nombre de termes linguistiques
(encore appelé nombre de modalités) associés à une variable détermine l'importance de cette
variable dans la caractérisation de la non-linéarité du système.
CRAN-INPL Page 17
Soit x une variable de prémisse. A un ensemble flou & (représentant par exemple le
qualificatif faible) de la variable x, on associe une fonction dite d'appartenance qui fournit le
degré d'appartenance d'une mesure de x à cet ensemble flou. Cette fonction d'appartenance est
définie sur l'univers de discours X de la variable x (c'est-à-dire son intervalle de variation) par :
µ & x : X → 0, 1
05 (I-6)
Elle détermine de manière graduelle l'appartenance d'une mesure de x à &. En comparaison, les
ensembles mathématiques classiques ont des fonctions d'appartenance qui prennent deux
valeurs : 0 (non appartenance) ou 1 (appartenance). Les fonctions d'appartenance sont des
fonctions à support borné, c'est-à-dire des fonctions qui sont significativement différentes de
zéro sur un domaine limité de la variable x. Les fonctions d'appartenance usuellement employées
(leur définition mathématique, leur forme) sont regroupées dans le tableau I-1.
Fonction Formule Paramètres Forme de la fonction

1
0.8
x − b , x − b , 0 z c1, b1, c2 : sommets du 0.6
Triangle c − b c − b
max min
1
1
1 1
2
2 triangle 0.4
0.2
0
0 b1 c1 b2 1
z c1, c2, : sommets de la 0.8
x − b , 1 , x − b , 0 petite base 0.6
Trapèze c − b c − b
max min
1
1
1 2
2
2 z b1, b2 : sommets de la 0.4
0.2
grande base
0
0 b1 c1 c2 b2 1
0.8
0 x − c5
exp −
2
z c : centre 0.6
Gaussienne 2σ 2
z σ : dispersion 0.4
0.2
0
0 c-σ c c+σ 1
0.8
1 + tanh x − c z c : centre 0.6
Sigmoïde σ z σ : dispersion 0.4

2
0.2
0
0 c-σ c 1
Tableau I-1 : Fonctions d'appartenance les plus utilisées en modélisation floue
Page 18 CRAN-INPL
La structure générale d'un modèle flou présentée sur la figure I-4 comporte quatre parties
principales :
• la fuzzification : elle transforme les valeurs numériques d'entrée en ensemble flou,

• la base de connaissance constituée d'une :
¾ base de règles qui contient toutes les règles nécessaires pour décrire le système,
¾ base de données qui comprend les paramètres définissant les fonctions

d'appartenance associées aux ensembles flous et les paramètres définissant la
partie conséquence des règles,
• le moteur d'inférence : il déduit l'ensemble flou de sortie correspondant à une entrée du

système étant donnée la base de connaissance,
• la défuzzification : elle transforme l'ensemble flou de sortie en une valeur numérique si

nécessaire. Plusieurs techniques sont applicables mais la plus usitée est celle du centre de
gravité.
Base de connaissance
Base de données
Base de règles
Entrée Défuzzification Sortie

Fuzzification
Moteur d'inférence
Figure I-4 : Structure générale d'un modèle flou
La prémisse d'une règle est toujours exprimée sous la forme de propositions portant sur
les variables de prémisse. Par contre, l'expression de la partie conséquence peut avoir différentes
variantes. Suivant la forme de la partie conséquence, on distingue principalement trois types de
modèles flous [Babuška, 1998] :
• les modèles flous linguistiques proposés par Zadeh en 1973 et Mamdani en 1977 (voir
[Babuška, 1998]) : la partie conséquence est un ensemble flou et un même ensemble flou
de sortie peut être associé à plusieurs ensembles flous de prémisse,
• le modèle à relations floues proposé par Pedrycz en 1984 (voir [Babuška, 1998]) : c'est une
généralisation du modèle précédent car une prémisse est associée à plusieurs propositions
CRAN-INPL Page 19
de conséquence par l'intermédiaire d'une relation floue,
• le modèle de Takagi-Sugeno [Takagi et Sugeno, 1985] : la conséquence est une fonction

affine de variables de conséquence.
Les modèles flous linguistiques et les modèles à relation floue forment une classe de
modèles adaptés pour la représentation des systèmes non-linéaires en se basant sur des concepts
proches du langage humain. Comparativement, le modèle de Takagi-Sugeno relève plus de la
modélisation classique des systèmes car sa partie conséquence n'est pas floue et n'introduit pas
d'imprécision. Nous présentons dans les paragraphes suivants les deux types de modèles flous les
plus fréquemment rencontrés dans la littérature : modèle de Mamdani et celui de Takagi-Sugeno.
I.3.1.1. Modèle de Mamdani
Soit le modèle (I-1) ; le modèle de Mamdani exprime la fonction ) sous la forme d'un
ensemble de règles 5i :
5 i : si z t est & i alors y t est 'i

05 05 i = 1,, M (I-7)
&i est l'ensemble flou d'entrée et 'i l'ensemble flou de sortie pour la règle 5i. M est le nombre de
règles de la base de connaissance. Le vecteur z(t) ( z t ∈ 05 nz
) est le vecteur des variables de
prémisse. Ce vecteur peut être la totalité ou une partie du vecteur de régression ou comprendre
des variables auxiliaires susceptibles de caractériser les non-linéarités du système.
L'ensemble flou &i est un ensemble multivariable. Dans la pratique, comme il est
difficile de raisonner sur un ensemble multivariable et surtout pour avoir une interprétation
linguistique des règles, il est parfois préférable d'exprimer la partie prémisse comme une
combinaison logique (conjonction, disjonction ou négation) de propositions portant sur chaque
élément du vecteur z(t). Suivant cette idée, la partie prémisse de la règle 5i se décompose, par
exemple, comme suit :
5 i : si z1 t est & i,1 ou z 2 t est & i,2 . . . et znz t est & i,nz alors y t est 'i
05 05 05 05 (I-8)
où les &i,j sont les modalités associées à chacune des variables de prémisse zj(t) j = 1,, nz dans
1 6
la règle 5i. L'ensemble flou multivariable &i est ensuite construit à partir des ensembles flous
monovariables &i,j. La forme résultante de l'ensemble flou &i dans l'espace de prémisse (espace
engendré par le vecteur de prémisse z) dépend des opérateurs utilisés pour traduire les
combinaisons logiques. Les opérateurs les plus courants sont présentés dans le tableau I-2.
Page 20 CRAN-INPL
Opérateurs
Symbole Opérateurs probabilistes Opérateurs de Lukasiewicz Opérateurs de Zadeh
&1 ET &2
logiques
&1 ∧ &2 µ &1 × µ & 2 max µ &1 + µ & 2 − 1, 0

4 9 min µ &1 , µ & 2
4 9
µ &1 + µ & 2 − µ &1 × µ & 2
&1 OU &2 &1 ∨ &2 min µ &1 + µ & 2 , 1
4 9 max 4 µ & , µ & 9
NON &1 &1 1 − µ &1 1 − µ &1 1 − µ &1

1 2
Tableau I-2 : Tableau des opérateurs logiques et des principaux opérateurs algébriques
correspondants.
Le degré de véracité de la règle 5i est déterminé à partir des degrés d'appartenance

respectifs des variables zj(t) et des opérateurs logiques. Généralement, la partie prémisse est
formée par la conjonction des propositions individuelles. Si l'on considère l'opérateur produit
comme opérateur de conjonction, le degré de véracité de la règle 5i ou de façon équivalente, le
degré d'appartenance du vecteur z(t) à l'ensemble flou multivariable &i, s'exprime dans ce cas :
vi z t = µ &i z t = ∏ µ &i , j z j t
nz
1 0 56 1 0 56 j =1
3 0 58 (I-9)
Le mécanisme d'inférence consiste à déterminer l'ensemble flou de sortie à partir de la

base de règles et des entrées du système. Pour cela, on recherche pour chacune des règles 5i, une
relation de déduction ! i de l'ensemble flou de sortie 'i connaissant l'ensemble flou de prémisse
&i de ces règles. Ces relations étant construites, l'ensemble flou 'i' image d'un ensemble flou
d'entrée &' pour la règle 5i est fourni par la relation de composition :
'i'=&'ο! i
L'ensemble flou de sortie '' image de &' par le modèle de Mamdani est formé alors par l'union
des ensembles flous individuels de sortie, soit :
'' = ''i
M
i =1
Pour obtenir une sortie numérique, l'ensemble flou '' est défuzzifié. La technique de
centre de masse de l'ensemble '' :

défuzzification usuelle est celle du centre de gravité qui exprime la sortie numérique comme le
''
I y0t5 µ 1y0t56dy
y0 t 5 =
Y
'
(I-10)
I µ 1y0t56dy
Y
'
CRAN-INPL Page 21
I.3.1.2. Modèle de Takagi-Sugeno (modèle TS)
Ce modèle exprime la partie conséquence des règles comme une fonction affine des
variables d'entrée :
5 i : si z t est & i alors yi t = ϕ T t θ i1 + θ i 0

05 05 05 (I-11)
Géométriquement, il équivaut à associer un hyperplan à chaque zone de l'espace de

prémisse. Le mécanisme d'inférence de ce modèle est simple car il consiste en une relation
barycentrique pondérée par le poids de chaque règle (ce poids étant le degré de véracité de la
règle évalué à partir de l'équation I-9). La sortie globale du système est donc :
M
1 0 56 0 5
∑ vi z t yi t
05
yt = i=1
M
(I-12)
∑ v 1 z0t 56
j
j=1
Posons
1 0 56
ωi z t =
1 0 56
vi z t
(I-13)
M
∑ v 1 z0t 56
j
j =1
ωi(z(t)) est appelé degré de véracité normalisé de la règle 5i. L'équation (I-12) s'écrit :
M
05
y t = ∑ ω i z t yi t
i =1
1 0 56 0 5 (I-14)
On constate d'après la définition des degrés de véracité ωi(z(t)) que ceux-ci vérifient la contrainte
de partition unité, c'est-à-dire, leur somme vaut 1 pour tout échantillon de la base de données :
M
i =1
1 0 56
∑ω i z t = 1 ∀t (I-15)
La définition d'un modèle TS introduit la notion de degré de véracité normalisé lié au

mécanisme d'inférence du modèle TS. On constate, d'après l'équation (I-13), que le degré de
véracité normalisé ωi(z(t)) est en réalité le degré d'activation du modèle local correspondant :
c'est cette fonction qui détermine l'importance relative du modèle local associé dans l'expression
05
de la sortie y t du modèle global suivant la zone où évolue le système. De part la contrainte de
partition unité, les fonctions ωi(z(t)) sont assimilables à des fonctions d'appartenance relatives ou
probabilistes [Baraldi et Blonda, 1999]. Comparativement, les degrés de véracité vi(z(t)) sont des
fonctions d'appartenance absolues ou possibilistes [Krishnapuram et Keller, 1996] en ce sens
qu'elles évaluent la véracité d'une règle particulière en ignorant tout ce qui est relatif aux autres
règles. Pour mieux illustrer la différence entre vi(z(t)) et ωi(z(t)), nous considérons un modèle TS
Page 22 CRAN-INPL
à une variable de prémisse. Deux ensembles flous sont définis sur le support de cette variable et
sont caractérisés par des fonctions d'appartenance trapézoïdales. A gauche sur la figure I-5, sont
représentés les degrés de véracité vi(z(t)) alors qu'à droite sont tracés les degrés de véracité
normalisés ωi(z(t)).
Petit Grand Petit A Grand

1
1
A
0.5 0.5
0 0
-1 -0.5 0 0.5 1 -1 -0.5 0 0.5 1
Figure I-5 : Illustration de la différence entre les degrés de véracité des règles (partie
gauche) et les degrés d'activation (partie droite) des modèles locaux associés.
On s'aperçoit que les degrés d'activation ωi(z(t)) diffèrent des degrés de véracité vi(z(t)). En
particulier, le point A relève de la modalité petit avec un degré de véracité de 0.6. Par suite de la
normalisation, il est "promu" à un degré de 1. Ceci signifie que le modèle local associé à la
modalité petit est activé à 100% au point A bien que le degré de véracité soit de 0.6. Il y a donc
discordance entre l'activation réelle d'un modèle local et la véracité de la prémisse qui a généré
ce modèle local. Or comme le mécanisme d'inférence du modèle TS réalise une coopération et
non une compétition entre les modèles locaux, ce sont les fonctions d'activation ωi(z(t)) qui
fixent la contribution au modèle global des modèles locaux associés. Nous qualifierons donc les
ensembles flous générés par ces fonctions, d'ensembles flous relatifs ou normalisés par
opposition aux ensembles flous absolus décrits par les degrés de véracité. Les deux types
d'ensembles flous coïncident si les degrés de véracités forment naturellement une partition unité :
c'est le cas des partitions floues fortes [Lindskög, 1996], [Glorennec, 1999] ou des ensembles
flous issus d'une procédure de classification [Babuška, 1998].
I.3.1.3. Propriétés des modèles flous
On peut constater après cette description des deux types de modèles flous courants, que la
représentation des systèmes par les modèles flous, en particulier le modèle de Takagi-Sugeno,
offre un formalisme intéressant permettant d'intégrer facilement des connaissances a priori et des
expériences acquises sur le système. En effet, si des connaissances physiques sur le
comportement du système dans certaines zone de fonctionnement sont disponibles, certaines
règles peuvent être définies a priori et ne seront pas modifiées lors de la phase d'identification du
modèle [Bortolet, 1998]. Les modèles locaux associés à ces règles peuvent être issus des
CRAN-INPL Page 23
considérations physiques. A défaut du modèle physique du système, si des informations a priori

sur le gain statique, les temps de réponse et les conditions de stabilité du système dans certaines
zones de fonctionnement sont connues, leur incorporation dans le modèle flou pourra se traduire
par des contraintes inégalités sur les paramètres de la partie conséquence [Abonyi et al., 2000-a,
2000-b], [Lindskög, 1996].
En plus de cette possibilité d'intégration de connaissances a priori, les modèles flous sont
des approximateurs universels. Les propriétés d'approximation des modèles flous de type
Mamdani ont été étudiées entre autres par Wang et Mendel [1992], Kosko [1992] qui ont établi
que ces modèles peuvent approcher avec une précision arbitraire toute fonction continue définie
sur un domaine fini. Plus récemment, Ying [1998] a formulé, sur la base du théorème de
Weierstrass, les conditions suffisantes garantissant les propriétés d'approximateurs universels des
modèles de type Takagi-Sugeno.
I.3.1.4. Problématique d'identification des modèles flous
La représentation d'un système par un modèle flou soulève des problèmes pratiques. En
particulier, il faut décider du type de modèle flou (Mamdani, TS), déterminer les variables de
prémisse. La prochaine étape est la décomposition de l'espace de prémisse, la caractérisation de
la partie conséquence. La décomposition de l'espace de prémisse peut être réalisée par une
partition grille, une partition suivant un arbre de décision ou à travers une technique de
classification. Ces techniques ne sont pas présentées ici, elles feront l'objet d'un développement
ultérieur dans le chapitre II (voir paragraphe II.4.1.2). De même la problématique d'estimation
des paramètres des modèles flous est traitée en détail dans le chapitre III dans le cadre de
l'approche multi-modèle.
I.3.2. RESEAUX DE NEURONES
L'un des modèles non-linéaires les plus populaires après les modèles flous est sans
conteste les réseaux de neurones. Les premiers travaux sur les réseaux de neurones avaient pour
objectif la modélisation du fonctionnement des neurones biologiques. Le réseau de neurones
biologiques est une structure de traitement parallèle et distribué de l'information constituée par
un ensemble d'unités de traitement (les neurones) interconnectées entre elles. L'utilisation de ces
concepts pour la représentation des systèmes non-linéaires a connu un grand succès et de
nombreuses applications dans divers domaines (l'automatique, l'économie, la reconnaissance de
formes, ...) sont rapportées dans la littérature.
Dans sa structure, un réseau de neurones comprend une couche d'entrée, une couche de
sortie, une ou plusieurs couches intermédiaires appelées couches cachées. Ces couches
comportent des neurones qui reçoivent en entrée des signaux qui subissent un traitement. Le
signal résultant est ensuite transmis aux neurones d'une autre couche ou de la même couche. Les
connexions entre couches peuvent être unidirectionnelles ou bidirectionnelles.
Page 24 CRAN-INPL
On distingue différents types de réseaux de neurones mais en identification des systèmes

non-linéaires, la structure reine est le perceptron multicouches MLP (acronyme de MultiLayer
Perceptron). A chaque neurone d'une couche cachée, une fonction d'activation agit sur la somme
des entrées du neurone pondérées par des poids wi (voir figure I-6-b). La fonction d'activation est
souvent une sigmoïde d'équation :
1
05
g x =
1 + e− x
(I-16)
La sortie d'un MLP à nc couches cachées comportant chacune n neurones est exprimée par :
n
y t = w00 s 5 + ∑ w 0js 5φ j x t , Wj0c 5
05 4 05 9 (I-17)
j =1
où l'exposant (s) fait référence aux paramètres de la couche de sortie et l'exposant (c) aux termes
et paramètres des couches cachées. Le terme φj est la sortie du neurone j de la couche cachée nc.
Wj est un vecteur regroupant les poids agissant sur les entrées du neurone j. De façon générale,
la sortie φj(t) d'un neurone d'une couche cachée est calculée à partir des entrées xi(t) provenant de
la couche cachée précédente par la relation :
9 0 5
n
φ j x t , Wj0c 5 = g w0( c, j) + ∑ wi0,cj5 xi t
4 05 (I-18)
i =1
Une extension du réseau MLP est de considérer la sortie du réseau décalée dans le temps
comme un signal d'entrée des neurones des couches cachées. On parle alors de MLP récurrent.
1 1 1
ϕ1(t)
Σ y
Couche
de sortie
ϕnϕ(t)
1 1 1
Couche Couche 1 Couche 2 Couche nc
d'entrée
Figure I-6-a : Structure générale d'un réseau MLP
CRAN-INPL Page 25
1
x1(t) w w0,j
1,j
Σ φj
wn,j
xn(t)
(b)
Figure I-6-b : Structure d'un neurone d'une couche cachée
Les propriétés d'approximateurs universels des MLP ont été établies notamment par
Funahashi [1989] : elles découlent de la flexibilité des réseaux de neurones, flexibilité qui est
liée aux degrés de liberté procurés par le nombre de couches cachées et le nombre de neurones
par couche.
L'identification d'un MLP comporte la détermination des entrées ϕi(t) du réseau, le choix
du nombre de couches cachées et du nombre de neurones par couche. Pour une structure fixée,
des techniques d'optimisation non-linéaire (gradient, Gauss-Newton, ...) et d'autres dérivées de la
structure connexionniste des réseaux de neurones (algorithme de propagation arrière) sont
utilisées pour estimer les poids afin d'adapter la sortie du réseau à celle du système. Afin de
déterminer la taille optimale du réseau de neurones, deux approches heuristiques sont
applicables : la première consiste à augmenter de façon graduelle le nombre de couches et le
nombre de neurones par couche. Le contrôle de la croissance du réseau est réalisé en testant les
capacités d'approximation du réseau obtenu sur des données de validation (voir paragraphe
I.4.2). La deuxième stratégie démarre avec un réseau important puis procède par suppression
successive des connexions entre neurones (élimination des poids des connexions) jusqu'à
l'obtention d'une structure satisfaisante. Une synthèse des techniques d'élimination des poids est
présentée dans l'article de Kerling [1999].
I.3.3. LES RESEAUX DE FONCTIONS A BASE RADIALE (RFBR)
Un RFBR réalise mathématiquement une décomposition sur une base de fonctions

radiales :
M
05 i =1
4 05
y t = ∑ wi g ϕ t − Ci ∑i 9 (I-19)
avec :
g : fonction d'activation à base radiale,
wi : poids,
Ci : centre de la fonction d'activation (vecteur multidimensionnel),
Page 26 CRAN-INPL
Σi : matrice qui détermine l'étendue et l'orientation de la fonction d'activation dans

l'espace des variables de régression,
ϕ t − Ci ∑ : distance du point courant ϕ(t) au centre de la fonction d'activation et

05 i
exprimée par l'équation :
∑ i−1 ϕ t − Ci
T
ϕ t − Ci
05 ∑i
= ϕ t − Ci
1 05 6 1 05 6 (I-20)
La fonction g est caractérisée par un support borné ; elle est unimodale, monotone,
décroissante quand le point courant s'éloigne de son centre. Il existe plusieurs types de fonction
de base mais on associe généralement aux RFBR la fonction gaussienne de centre Ci et de
matrice de dispersion Σi.
A cause de la similitude des équations (I-17) et (I-19), on assimile les RFBR à des
réseaux de neurones à une couche cachée à la différence qu'un neurone de la couche cachée ne
comporte pas de sommateur et que la fonction d'activation g(.) détermine une zone d'influence à
partir de son centre Ci. Les RBFR sont également des d'approximateurs universels ; ces
propriétés ont été établies entre autres par Powell [1987], Park et Sandberg [1991].
Deux approches sont souvent considérées pour identifier un RFBR :
• Chaque point de l'espace multidimensionnel est considéré comme un centre potentiel. En

fixant les paramètres de dispersion des fonctions d'activation, l'équation (I-19) est alors
totalement linéaire par rapport aux poids. Une procédure de sélection de variables est mise
en œuvre pour déterminer les centres utiles. Chen et al. [1990], Orr [1996] ont proposé par
exemple une procédure basée sur les moindres carrés orthogonaux (MCO) : de nouvelles
fonctions d'activation sont ajoutées successivement jusqu'à l'obtention d'une structure
satisfaisante.
• Au lieu de fixer a priori les centres et les dispersions des fonctions d'activation, des
chercheurs à l'instar de Karyiannis et Mi [1997], construisent progressivement le RFBR en
divisant en deux parties, le domaine d'influence de la fonction de base où l'erreur
d'approximation est la plus élevée. Des techniques comme l'algorithme de classification
FCM (Fuzzy C-Means) servent à déterminer la position des centres qui ne coïncident plus
alors avec les points du jeu d'identification. Une fois son centre fixé, la dispersion d'une
fonction de base est déduite de la matrice de variance-covariance calculée à partir des K
plus proches voisins de son centre. Les poids wi sont ensuite optimisés par la méthode des
moindres carrés. Le procédé est réitéré jusqu'à la satisfaction d'un critère d'arrêt.
I.3.4. LES MODELES MULTI-EXPERTS
Une autre catégorie de modèles non-linéaires est constituée par les modèles multi-experts
(mixtures of experts) [Jacobs et al., 1991] qui ont fait leur apparition dans la littérature au début
CRAN-INPL Page 27
des années 1990. Cette approche est basée sur l'idée que les données analysées sont générées par
un ensemble de M experts, un expert étant une fonction d'un vecteur d'entrée ϕ(t) et d'un vecteur
de paramètres θi. Un vecteur d'entrée ϕ(t) est traité simultanément par tous les modules experts
et chaque expert fournit une sortie yi supposée corrompue par un bruit gaussien ei de moyenne
nulle et de variance σi :
05 1 05 6 05
yi t = f ϕ t , θ i + ei t i = 1,, M (I-21)
Le champ d'action d'un expert i est déterminé par une fonction d'activation gi(ϕ(t)) à support
limité. Ces fonctions d'activation pondèrent les contributions de chaque expert à la sortie du
modèle global ; elles vérifient les contraintes suivantes :
M
0 5
0 ≤ gi ϕ (t ) ≤ 1
i =1
0 5
∑ gi ϕ (t ) = 1 i = 1,, M (I-22)
Dans la formulation de cette structure non-linéaire, la fonction gi(ϕ(t)) s'interprète comme la

probabilité que la sortie du système relève de l'expert i associé, étant donnée le vecteur d'entrée
ϕ(t). Initialement, les fonctions d'activation étaient des sigmoïdes normalisées. Plus tard a été
proposée l'utilisation de fonctions de densité gaussiennes. La sortie globale générée par le
modèle multi-experts est une somme pondérée des sorties fournies par chaque expert, soit :
M
05 1 0 56 0 5
y t = ∑ gi ϕ t yi t
i =1
(I-23)
A cause de l'interprétation probabiliste de cette approche, les paramètres mis en jeu pour
décrire un modèle multi-experts sont estimés en optimisant un critère de maximum de
vraisemblance par l'algorithme EM (Expectation - Minimisation) de Dempster (voir [Meila et
Jordan, 1997] ). Cet algorithme comporte deux étapes :
• étape d'Espérance : on y évalue la probabilité qu'une donnée observée relève d'un module
expert particulier,
• étape de Maximisation : les paramètres des fonctions d'activation et ceux des modèles
experts sont calculés de manière à maximiser le critère de maximum de vraisemblance.
Il est nécessaire avant de procéder à l'optimisation paramétrique de déterminer la

structure et le nombre d'experts. Pour ce dernier problème, Ramamurti et Ghosh [1999] ont
proposé une méthode qui consiste à démarrer avec un expert puis à ajouter successivement de
nouveaux experts. S'il n'y a plus lieu d'inclure un nouvel expert, on teste la possibilité d'éliminer
certains experts afin d'annuler l'effet des éventuelles mauvaises décisions prises lors de la phase
de croissance du modèle.
Une généralisation des modèles multi-experts est le modèle multi-experts de Markov

(Markov mixtures of experts) [Meila et Jordan, 1997] qui modélise le système sous la forme
Page 28 CRAN-INPL
d'une chaîne de Markov dont les états sont les experts du système. Le passage d'un état à un autre
est lié à une probabilité de transition dépendant de l'état précédent et des entrées à l'instant
courant.
I.3.5. AUTRES STRUCTURES NON-LINEAIRES
Une structure non-linéaire issue de la communauté du traitement de signal est le réseau

d'ondelettes. La décomposition sur une base d'ondelettes autorise l'étude simultanée des
propriétés temporelles et fréquentielles d'un signal par dilatation et translation d'une ondelette
mère. Des informations sur des références bibliographiques traitant de l'identification des
systèmes sur la base d'un réseau d'ondelettes peuvent être trouvées dans [Sjöberg et al., 1995].
Une autre approche est la représentation du système par des "hinging hyperplanes".
Initialement proposée par Breiman en 1993, son application à la modélisation des systèmes non-
linéaires a été approfondie par Pucar en 1995 [Pucar, 1995]. Mathématiquement, un "hinging
hyperplane" à deux hyperplans est définie par l'une des deux équations suivantes :
05 3 05
h t = max ϕ T t θ + , ϕ T t θ − 05 8 (I-24-a)
h0t 5 = min3ϕ 0t 5θ
T +
,ϕ T 0t 5 θ 8
−
(I-24-b)
Afin d'éviter le passage brutal (switching) d'un hyperplan à l'autre, les opérateurs min et max sont
généralement remplacés par une fonction sigmoïde.
Conclusion
La liste des structures non-linéaires présentées dans cette première partie n'est pas
exhaustive. Nous nous sommes limités à la présentation des modèles courants dans la littérature.
Ces différentes structures non-linéaires sont essentiellement des modèles de type boîte noire.
Leurs propriétés d'approximateurs universels sont établies ; elles sont donc capables d'approcher
une large gamme de systèmes non-linéaires. Dans la section suivante, nous étudions les principes
généraux de l'identification des systèmes : estimation paramétrique, recherche de structure,
validation.
I.4. ASPECTS PRATIQUES DE L'IDENTIFICATION DES SYSTEMES

Pour un problème particulier, quel que soit le type de modèle choisi, il faut déterminer
correctement sa structure et estimer de façon efficace les paramètres mis en jeu de manière à
réaliser une bonne adéquation entre la sortie du modèle et celle du système. La démarche usuelle
consiste à fixer une structure, à estimer ses paramètres sur la base d'un jeu de données
d'identification, puis passer à l'étape de validation. Cette étape est destinée à évaluer les
CRAN-INPL Page 29
performances du modèle afin de décider son acceptation ou son rejet. Examinons tour à tour ces
différents points.
I.4.1. ESTIMATION DES PARAMETRES
Soit 6 une structure fixée. Elle contient forcément des paramètres qui sont regroupés
dans un vecteur θ. La valeur de ces paramètres est estimée, à partir d'un ensemble de données
expérimentales ' N = ys t , ϕ t
<1 0 5 0 56AtN=1 , par minimisation d'un critère, fonctionnelle de l'écart entre
la sortie du système y (t) et celle du modèle y0t 5 :
s
θ = arg min J θ , 'N 1 6 (I-25)

θ
1 N 2
J θ , 'N =
1 6 ∑ ε t,θ
0 5 (I-26-a)
2 t =1
ε t = y t , θ − ys t
05 0 5 05 (I-26-b)
La complexité de l'optimisation dépend de la structure du modèle.
I.4.1.1. Estimateur des moindres carrés
Supposons que le modèle du système est linéaire par rapport aux paramètres, c'est-à-dire
de la forme :
y t = ) ϕ t , θ = φT ϕ t θ
05 05 1 0 56
où φ . est une fonction qui réalise une transformation non-linéaire du vecteur de régression. La
05
solution au problème (I-25) est analytique et est fournie par l'estimateur des moindres carrés :
θ = R −1Φ T Ys (I-27-a)
R = ΦT Φ (I-27-b)
Ys = ys 1 ys N
05 0 5 T
Φ= φϕ11 0 56 φ1ϕ 0 N 56 T
(I-27-c)
Le cas typique est celui des RFBR dont les centres et la dispersion sont fixés. Les
paramètres restants interviennent alors de manière linéaire dans le modèle avec le vecteur φ ϕ t1 0 56
formé par la concaténation des fonctions de base.
_ Problème de conditionnement de l'estimation paramétrique
L'inversion de la matrice d'information R peut être sujette à des problèmes numériques

liés à son mauvais conditionnement. Une matrice carrée est dite mal-conditionnée si le rapport
Page 30 CRAN-INPL
entre sa plus grande valeur propre et sa plus petite valeur propre est élevé (supérieur par
exemple à un seuil de 106). D'un point de vue numérique, l'estimation θ n'est pas stable et est
sensible à des perturbations même faibles affectant la matrice Φ ou le vecteur Ys. Pour s’en
convaincre considérons un petit exemple d’équations linéaires à résoudre.
¼ Exemple I-1
Soit le système d’équations Ys = Φ θ avec :
0.015
0.0675 "# 0.0825 "#
Φ=
0.1915 0.8605
## 1"
et θ = # . On en déduit Ys =
1.052
## .
2.02 9.0824 !1$ .
111024
!0.7721 3.4716#$ ! 4.2437 #$
L'estimation θ que nous calculons par les moindres carrés avec ces valeurs est
exactement égale au vecteur de paramètres θ. On ajoute ensuite sur Ys, un bruit
e T = 1e −3 × -0.6483 0.9013 1.297 - 1.5503 . L’estimation obtenue est alors
T
θ = 7.552 −0.4579 qui est très différente du vrai vecteur de paramètres. Dans un
troisième temps, on ajoute sur la sortie non bruitée, une autre perturbation
e T =1e −3 × -0.11 - 0.536 0.555 0.091 . La nouvelle estimation est θ = −4.6332 2.2529
T
qui n’est pas plus proche du vrai vecteur de paramètres. L'estimation θ s'adapte donc aux
valeurs particulières prises par la perturbation additive affectant Ys. Dans cet exemple, la
cause du problème est une quasi-colinéarité des colonnes de Φ (le conditionnement de la
matrice d’information est de 1010).
Pour éviter ce type de problème, des techniques de régularisation [Hansen, 1992],

[Johansen, 1996, 1997], [Bossley, 1997], [Orr, 1996] sont appliquées pour stabiliser la solution
des moindres carrés.
_ Solution : la régularisation
La théorie de la régularisation est née des travaux de Tikhonov sur la résolution des
problèmes mathématiques mal posés, c'est-à-dire, des problèmes pour lesquels il n'existe pas une
solution unique ou la solution obtenue est instable et très sensible à de faibles perturbations.
Dans le cadre de l'identification des systèmes, les techniques de régularisation consistent à
ajouter des pénalités sur le problème d’estimation des paramètres de façon à réduire l’extrême
sensibilité du modèle par rapport aux données d'identification. Dans le cas qui nous intéresse, ces
pénalités se traduisent par l’adjonction à la matrice d'information R d’une matrice λK qui lui
confère un meilleur conditionnement. Ceci équivaut à minimiser le critère modifié suivant :
λ T
Jreg θ , 'N = J θ , 'N +
1 6 1 6 θ Kθ (I-28)
2
CRAN-INPL Page 31
Le compromis entre la pénalisation θ T Kθ et le critère J θ , ' N 1 6 est réglé par le paramètre

scalaire positif λ appelé coefficient de régularisation. D’un point de vue bayésien, ce critère
modifié correspond à l’estimateur du maximum a posteriori avec l'hypothèse a priori que les
paramètres suivent une loi normale de moyenne nulle et de variance (λK)-1.
Toute la problématique de la régularisation réside d’une part dans la détermination du

coefficient de régularisation et d’autre part dans le choix de la matrice K. Suivant le type de
pénalités qu’on désire coder dans la matrice K, différentes façons de la choisir existent [Bossley
1997], [Johansen, 1996, 1997]. La matrice K peut être, par exemple, une approximation de la
dérivée seconde ∂ 2 ) ϕ ,θ ∂ϕ ∂ϕ T afin de conférer au modèle des propriétés de lissage. Mais la
forme courante de régularisation est la "ridge regularisation" ou "weigth decay" qui correspond
au choix K=I. Son but est de limiter la norme du vecteur de paramètres dans des proportions
raisonnables. Avec cette formulation, le vecteur de paramètres régularisé est fourni par :
−1
0
θ reg = R + λ I 5 Φ T Ys (I-29-a)
ou de façon équivalente par la relation suivante :

nθ
ξi
θ reg = ∑ 9i 8iT Ys (I-29-b)
i =1 ξ i+λ
2
basée sur une décomposition en valeurs singulières de la matrice Φ. Les ξi sont les valeurs
singulières, les 9i les vecteurs propres associés aux valeurs propres ξ i2 et les 8i les vecteurs
propres de la matrice Φ Φ T . On constate d’après (I-29-b) que le coefficient de régularisation
élimine l'influence des plus petites valeurs propres qui sont responsables de l’instabilité de la
solution des moindres carrés. Pour une valeur propre ξ i2 << λ , l'axe de recherche suggéré par le
vecteur propre associé n'est pas fiable : il a peu d'influence sur le critère et son effet est donc
annihilé par λ. Par contre si ξ i2 >> λ , la direction de recherche déterminée par cette valeur
propre est importante : elle est donc peu affectée par le coefficient de régularisation.
: Détermination du paramètre de régularisation
Le choix du coefficient de régularisation est délicat : s'il est trop grand (ξ i2 << λ ∀ i ), le
vecteur de paramètres tendra vers 0 et s'il est trop petit (ξ i2 >> λ ∀ i ), l'effet stabilisant de la
régularisation est inopérant. Comme on désire améliorer le conditionnement de la matrice R, le
coefficient λ est choisi de sorte que le conditionnement τR+λI de la matrice d’information
régularisée R + λI :
ξ 2max + λ
τ R+ λI = 2
ξ min + λ
Page 32 CRAN-INPL
soit inférieur à un seuil limite τlim. Si le conditionnement actuel de R dépasse cette valeur, on
calcule λ par la formule :
ξ 2max − τ limξ 2min ξ 2max

λ= ≈ − ξ 2min (I-30)
τ lim − 1 τ lim
autrement, le problème n’est pas régularisé. Dans nos simulations, nous calculons le coefficient
de régularisation de manière à garantir un taux de conditionnement entre 105 et 106. Des valeurs
similaires ont été utilisées aussi par [Fiordaliso, 1999]. Elles sont certes arbitraires mais dans nos
simulations, elles se sont révélées suffisantes pour obtenir des résultats satisfaisants.
Il existe une deuxième approche pour déterminer le coefficient de régularisation : elle se

base sur le compromis biais/variance (voir section I.4.2). Nous ne la développerons pas ici mais
nous renvoyons à la page 38 après avoir introduit la notion de compromis biais/variance.
I.4.1.2. Optimisation non-linéaire
Lorsque le modèle du système est non-linéaire par rapport aux paramètres, il n'existe pas
de solution analytique au problème (I-25). On recourt à des techniques itératives d’optimisation
non-linéaire : partant d'une estimation courante θ 0 k 5 des paramètres, on recherche la direction
dans l'espace paramétrique et le déplacement à effectuer suivant cette direction afin de diminuer
le critère. Il existe une large variété de techniques mais dans le cadre de ce document, nous
privilégions celles basées sur un développement limité du critère J θ , ' N au voisinage du point
1 6
θ 0 k 5 (pourvu que le critère soit différentiable par rapport à θ, ce que nous supposerons tout le
long de ce mémoire). La mise à jour du vecteur des paramètres est alors dérivée de la formule
générale suivante :
θ 0 k +15 = θ 0 k 5 − η 0 k 5 D0 k 5 (I-31)
η(k) est le pas de recherche ou le coefficient de relaxation (suivant les cas) à l'itération (k) et D0 k 5
la direction de recherche dans l'espace paramétrique. Selon la façon dont D0 k 5 est calculée, on
distingue différentes méthodes d'optimisation dont les principales sont rappelées ci-dessous (voir
[Walter et Pronzato, 1994]).
Algorithme du gradient
Cette méthode est basée sur un développement du critère au 1er ordre. La direction de
recherche à l'itération (k) est spécifiée par le gradient du critère G(k) :
4 9
G θ 0k 5 =
∂J
= ∑
N 0 50 5
∂ε t , θ
ε t,θ (I-32)
∂θ θ =θ t =1 ∂θ θ =θ 0 k 5
0k 5
CRAN-INPL Page 33
Le pas de recherche η est calculé par une interpolation quadratique ou cubique du critère
autour du point θ ( k ) ou par une heuristique consistant à augmenter η si le critère décroît et à le
réduire si le critère augmente.
Algorithme de Newton
Il repose sur un développement au 2e ordre du critère. La direction et le pas de recherche
sont spécifiés simultanément par l'équation :
D0 k 5 = H0−k15 G0 k 5
où H(k) est la matrice hessienne du critère définie par :
H0 k 5 =∑
N 0 5 0 5
∂ε t , θ ∂ε t , θ
+∑
0 50 5
N ∂ 2ε t,θ
ε t,θ (I-33)
t =1 ∂θ ∂θ T t =1 ∂θ 2 θ =θ 0 k 5
Le pas η0 k 5 = 1. Cet algorithme nécessite à chaque itération l'inversion du hessien du critère, ce

qui est coûteux. De plus le hessien contient des dérivées du 2e ordre qui sont lourdes à calculer.
Par ailleurs, l'algorithme de Newton peut converger indifféremment vers un minimum ou un
maximum car rien ne garantit que le hessien H(k) est défini positif à l'optimum. Pour éviter une
divergence de l'algorithme, on utilise η comme un coefficient de relaxation afin d'assurer un
déplacement dans l'espace paramétrique qui conduise à une diminution du critère. Le coefficient
de relaxation est déterminé suivant l'heuristique guidant le choix du pas dans l'algorithme du
gradient.
Algorithme de Gauss-Newton
Simplification de la méthode de Newton, il utilise une expression approchée du hessien
en négligeant les termes du 2e ordre :
Ha = ∑
N 0 5 0 5
∂ε t , θ ∂ε t , θ
(I-34)
t =1 ∂θ ∂θ T
Le hessien approché Ha étant défini positif, cet algorithme garantit la convergence vers un
minimum. La procédure de calcul du coefficient de relaxation η reste identique.
Algorithme de Levenberg-Marquardt
De façon similaire à l'estimation des moindres carrés, le hessien peut être mal
conditionné. Pour éviter une singularité de la matrice Ha, l'algorithme de Levenberg-Marquardt
remplace le hessien approché par un hessien régularisé :
H R = H a + λ 0k 5I (I-35)
Page 34 CRAN-INPL
où I est la matrice identité de dimension appropriée et λ(k) un coefficient de régularisation. λ(k)

est mis à jour par un schéma heuristique qui consiste à augmenter sa valeur si le critère diminue
et à réduire sa valeur s'il y a divergence du critère. Pour de faibles valeurs de λ(k), l'algorithme de
Levenberg-Marquardt se réduit à celui de Gauss-Newton et pour de fortes valeurs de λ(k), il
devient une méthode du gradient avec un pas η 0 k 5 = 1 λ 0 k 5 .
Algorithme de Quasi-Newton
Comparable à la méthode de Newton ou Gauss-Newton à la différence près que l'inverse
de la matrice hessienne n'est pas calculée directement mais déduite de la relation de mise à jour
suivante :
H0 k 5 = H0 k −15 + C0 k −15 (I-36)
où C(k-1) est une matrice de correction calculée à partir de H(k-1) et des informations sur la
variation du gradient et des paramètres au point courant θ ( k ) . Au début, l'algorithme se comporte
comme celui du gradient, puis se rapproche de celui de Gauss-Newton au fur et à mesure que
l'estimation de l'inverse du hessien devient précise.
I.4.2. RECHERCHE DE LA STRUCTURE DU MODELE
Etant choisie une famille de modèle non-linéaire (RFBR, MLP, modèle flou, …), la
recherche des paramètres structuraux d'un modèle de cette famille est guidée par deux soucis : le
modèle élaboré doit être simple (c'est-à-dire comporter le moins de paramètres possibles) et
précis afin d'avoir de bonnes propriétés de généralisation. Par généralisation, nous entendons de
bonnes capacités d'approximation du modèle quand il est appliqué sur des données autres que
celles qui ont servi à son identification. Malheureusement, ces deux souhaits sont antagonistes
comme le montre le développement suivant.
_ Compromis biais/variance
Considérons que la qualité du modèle élaboré sur un jeu d'identification 'N est mesurée
par ses performances sur des jeux de validation 'NV comportant Nv données. L'erreur
quadratique moyenne de généralisation (MSGE) du modèle ) ϕ t ,θ nθ 05 comportant nθ
paramètres est exprimée par la formule [Larsen et Hansen, 1994] :
MSGE = Esp lim

%& 1 Nv
∑ ys t − ) ϕ t ,θ nθ
4 05 05 9 ()*
2 %& 4 0 5
= Esp Esp ys t − ) ϕ t , θ nθ
05 9 "#$()*
2
' Nv →∞ Nv t =1 'N v ' ! 'Nv
(I-37)
CRAN-INPL Page 35
L'objectif de l'identification est de déterminer à partir du jeu de données 'N, un modèle

qui fournit de bonnes performances sur tous les jeux de validation possibles possédant les mêmes
propriétés statistiques que les données qui ont servi à l'élaboration du modèle. Le meilleur
modèle possible ) * ϕ (t ),θ *nθ avec nθ paramètres est celui qui minimise le critère MSGE.
Supposons que les données analysées sont générées par le "vrai" modèle suivant qui est
évidemment inconnu :
ys t = )0 t + e t
05 05 05
où e(t) est une séquence aléatoire de moyenne nulle et de variance σ2. On montre que le MSGE
se décompose de la façon suivante :
%& 0 5 0 5 () + Esp%&Esp ) ϕ0t5, θ − ) ϕ0t 5, θ ()

MSGE = σ 2 + Esp Esp )0 t − ) * ϕ t , θ *nθ
2
* *
2
'

*

' ' NV

* nθ nθ
'NV
Biais 2 Variance
(I-38)
Le terme de biais mesure l'inadéquation entre le "vrai" modèle et le meilleur modèle )*. C'est un
indicateur des limites de la structure de modèle choisie. Le terme de variance donne des
indications sur la sensibilité du modèle par rapport aux différents jeux de validation. Il est
directement lié à la variance de l'estimation θ nθ c'est-à-dire à la distance entre θ nθ et θ *nθ . Ce
terme de variance est d'autant plus important que le modèle comporte beaucoup de paramètres.
En effet, l'expression asymptotique du terme de variance est donnée par [Ljung, 1987] :
nθ
Variance ≈ σ 2 (I-39)
N
La minimisation du biais implique l'augmentation de la flexibilité du modèle ). La

flexibilité ou la complexité du modèle est déterminée par le nombre de paramètres (nombre de
degrés de liberté) dans le modèle. Plus ) comportera de paramètres, plus le biais sera réduit. La
conséquence est l'augmentation du terme de variance dans le MSGE d'après (I-39) : c'est le
dilemme biais/variance [Ljung, 1987], [Geman et al., 1992] qui impose de trouver un compromis
entre la précision du modèle et sa flexibilité. Ce compromis est illustré sur la figure I-7 sur
laquelle sont tracés les termes de biais et de variance et le MSGE en fonction du nombre de
paramètres du modèle. La meilleure structure ) est celle qui minimise le MSGE.
Page 36 CRAN-INPL
1
Variance
Biais
MSGE
Critères
0.5 Structure
optim ale
0
5 10 15 20 25 30
Nom bre de param ètres
Figure I-7 : Illustration du compromis biais-variance
_ Approximations du MSGE
Dans la pratique, le calcul direct du MSGE n'est pas possible. D'autres critères ont été
proposés dans la littérature comme outils d'aide à la sélection de la structure d'un modèle.
La façon directe d'approcher le MSGE est d'évaluer la structure identifiée sur des
données de test : c'est la validation croisée qui nécessite au moins un deuxième jeu de validation.
En vue de réduire la sensibilité du modèle par rapport aux données, une démarche consiste à
diviser les données disponibles en V ensembles 'j de taille identique et ayant, si possible, les
mêmes caractéristiques. A chaque fois, un ensemble 'j différent est utilisé comme ensemble de
validation alors que les données des V-1 ensembles restants servent à l'identification d'un
modèle. V modèles )j sont ainsi construits et le critère de généralisation est approché par :
1 V Nj
∑ ∑ ys t − ) j t
3 0 5 0 58 2
MSGE ≈ (I-40)
V j =1 t =1
Dans certaines applications, la rareté des données contraint à évaluer la structure choisie
par une approximation du MSGE calculée sur les données d'identification. Ceci a conduit à des
critères de sélection qui essayent de trouver un compromis entre la précision du modèle et sa
complexité. Parmi ces critères, on peut citer :
AIC = N log J θ , 'N + 2 nθ

21 67 (I-41)
FPE = J θ , 'N
1 6 NN +− nn θ
θ
(I-42)
MDL = log J θ , 'N + nθ

21 67 0 5
log N
(I-43)
N
CRAN-INPL Page 37
_ Test d'hypothèses
Une autre façon de traiter le problème de sélection de la structure adéquate est de

l'envisager sous l'angle d'un test d'hypothèses [Leontaritis et Billings, 1987], [Ljung, 1987]. Ce
test consiste à indiquer laquelle des deux hypothèses suivantes +0 et +1 est vraisemblable au vu
des données :
+0 : les données sont générées par un modèle 00 de vecteur de paramètres θ0,
+1 : les données sont générées par un modèle 01 de vecteur de paramètres θ1,
Précisons que le modèle 01 comporte plus de paramètres que le modèle 00. Le test est basé sur
le rapport de "pseudo-vraisemblance" :
J θ 0 , 'N
1 6
LR = N log
J 1θ , ' 6
1 N
qui tend asymptotiquement vers une distribution du χ2 à s = nθ 1 − nθ 0 degrés de liberté.

L'hypothèse +0 est acceptée si LR < χ τ2 s où τ est le seuil significatif du test. Dans le cas
05
contraire, le modèle 00 est rejeté. Le test d'hypothèses se restreint à la comparaison de deux
structures à la fois. Pour l'étendre à la comparaison de plusieurs structures, Leontaritis et
Billings [1987] ont proposé le critère suivant :
C = N log J θ , 'N + nθ K 1
21 67 05 (I-44)
où K 1 = χ τ2 1 est un paramètre qui contrôle le compromis entre la précision du modèle

05 05
log2 J 1θ , ' N 67 et sa complexité nθ . Le meilleur modèle est celui qui minimise le critère C.
_ Régularisation et/ou sélection de structure
Nous avons montré précédemment que pour réduire le biais - voir (I-38) -, il faut
introduire beaucoup de paramètres dans le modèle. Une conséquence est la surparamétrisation du
modèle ; il risque de s'adapter aux réalisations particulières du bruit affectant les données
d'identification à cause de l'existence dans la structure de paramètres superflus ou inutiles : c'est
le phénomène de sur-apprentissage. Ce phénomène est gênant car le modèle identifié risque de
généraliser mal dans la mesure où les données de validation auront des réalisations différentes du
bruit. Une façon d'éviter le sur-apprentissage est de modifier la structure du modèle avec une
paramétrisation mieux adaptée : c'est la sélection de structure. Une autre approche consiste à
conserver la même paramétrisation mais en rajoutant des pénalités sur le problème d'estimation
des paramètres : c'est la régularisation. Montrons maintenant comment la régularisation permet
de déterminer un compromis entre le biais et la variance. Pour la facilité de la présentation, nous
nous mettons dans le cadre de la régularisation "ridge" appliquée à l'estimateur des moindres
carrés.
Page 38 CRAN-INPL
Il est évident à partir des équations (I-28) et (I-29) que la régularisation "ridge" contraint
à trouver un vecteur de paramètres non optimal par rapport aux données d’identification,
l'optimum étant le minimum du critère J θ , ' N . D’un autre côté, on peut montrer (voir annexe
1 6
A) que la régularisation contribue à diminuer la variance des paramètres. Outre ces deux aspects,
on a vu que le coefficient de régularisation réduit l'influence de certaines directions de
recherche ; il bride de ce fait la flexibilité du modèle. Pour cette raison, on ne parle plus de
nombre de paramètres du modèle mais de nombre effectif de paramètres (par opposition aux
paramètres superflus). Ce nombre est défini par [Bossley, 1997] :
5 9 = ∑ ξ ξ+ λ
nθ 2
40
n p eff = trace R R + λI
-1
2
i =1 i
i
(I-45)
Il est inférieur ou égal à la dimension nθ du vecteur θ et sa valeur est contrôlée par le coefficient
de régularisation λ. En résumé, la régularisation introduit un "biais" mais elle réduit la flexibilité
du modèle tout en améliorant la variance des paramètres. On retrouve là le compromis biais-
variance, ce qui suggère l'existence d'un coefficient de régularisation λ optimal qui maximise les
performances de généralisation du modèle. Dans les approximations AIC, FPE, MDL et autres
de l'erreur de généralisation, on remplace alors le nombre de paramètres du modèle par le
nombre effectif de paramètres. Ces critères généralisés s'écrivent :
AIC λ = N log J θ , 'N + 2 n peff λ

05 21 67 05 (I-46-a)
FPE λ = J θ , 'N ×
05 1 6
N + n peff λ 05 (I-46-b)
N − n peff 0λ 5
MDL λ = log J θ , 'N + n peff λ
05 21 67 0 5 logN0 N 5 (I-46-c)
Le coefficient λ est alors calculé de façon à minimiser ces critères généralisés. Cette
minimisation requiert des techniques itératives d’optimisation [Orr, 1996], [Bossley, 1997].
Remarques
¬ Dans la régularisation "ridge", un seul paramètre contrôle le compromis entre le critère

J θ , ' N et la pénalisation. On peut très bien envisager d’affecter à chaque paramètre un
1 6
coefficient de régularisation λi propre : c’est la régularisation dite locale [Orr, 1996],
[Boukari et Grandvalet, 1998], [Bossley, 1997] par opposition au cas précédent qui est une
régularisation globale. La pénalisation λθ Tθ est remplacée par θΤdiag[λi]θ . Après
optimisation, un coefficient λi=∞ implique l'annulation du paramètre correspondant. La
difficulté de cette forme de régularisation est la détermination de tous les λi.
CRAN-INPL Page 39
¬ Contrairement à la sélection de structure, la régularisation globale n'élimine pas

explicitement les paramètres superflus. Elle réduit simplement le nombre effectif de
paramètres et contraint la norme du vecteur de paramètres. Une élimination explicite
ultérieure doit intervenir.
I.4.3. VALIDATION DU MODELE
La procédure de sélection de structure permet de retenir le meilleur modèle dans une

famille donnée de modèles, en termes de compromis entre la précision et la complexité. Mais
cette procédure ne garantit pas que le modèle trouvé est adéquat eu égard aux données traitées ou
à l'utilisation envisagée du modèle. Une nécessaire étape de validation doit être réalisée.
Une méthode directe de validation d'un modèle est de tester ses capacités de
généralisation en validant le modèle sur des données de test c'est-à-dire des données entièrement
différentes de celles ayant servi à l'estimation des paramètres ou lors de la phase de recherche de
structure. En particulier, pour les modèles destinés à la simulation, cette validation se traduit par
la simulation du modèle sur les données de test.
Une autre technique de validation est le test de corrélation des résidus (écarts ε entre la
sortie du système et celle du modèle) largement appliqué dans l'identification des systèmes
linéaires. Le modèle linéaire élaboré est valide si la fonction d'autocorrélation des résidus rε ε et
si la fonction d'intercorrélation rε u entre les résidus et les entrées se trouvent dans l'intervalle de
confiance à 95% défini par ±1,96 N (voir [Ljung, 1987]). La fonction d'intercorrélation rx1x2 τ 05
entre deux variables x1 et x2 se calcule par la formule :
N −τ
∑ x1 t − x1 x1 t − x1
1 0 5 61 0 5 6
t =1
rx1x2 0τ 5 = N
2
N
2
(I-47)
∑ 1 x 0t 5 − x 6 ∑ 1 x 0t 5 − x 6
1 1 2 2
t =1 t =1
Le test des résidus peut être étendu aux systèmes non-linéaires [Leontaritis et
Billings, 1987] : pour examiner si des effets non-linéaires n'ont pas été modélisés, on détermine
si la fonction d'intercorrélation entre les résidus et des monômes formés à partir des éléments du
vecteur de régression est en dehors de l'intervalle de confiance à 95%.
I.5. CONCLUSION
L'objectif de chapitre est de dresser un état de l'art de l'identification des systèmes
dynamiques non-linéaires. Les principales structures non-linéaires couramment rencontrées dans
la littérature ont été présentées. Elles relèvent globalement de deux visions de représentation des
systèmes : l'approche globale et l'approche locale. Toutes les structures non-linéaires décrites
Page 40 CRAN-INPL
sont essentiellement des modèles boîte noire et leurs propriétés d'approximateurs universels sont
bien établies. Elles peuvent donc approcher une large gamme de systèmes dynamiques non-
linéaires.
Indifféremment du type de modèle non-linéaire choisi, son identification requiert la

recherche de sa structure optimale, l'estimation de ses paramètres et la validation du modèle final
afin d'identifier un modèle parcimonieux (c'est-à-dire un modèle précis et comportant un faible
nombre de paramètres). La deuxième partie du chapitre a été consacrée à la présentation de ces
principes généraux de l'identification des systèmes. La forme particulière de leur mise en œuvre
dépendra du modèle non-linéaire choisi.
Dans les deux chapitres suivants, nous traiterons le problème d'identification d'un
système non-linéaire par le multi-modèle : le chapitre II présente l'approche multi-modèle et on y
établit le lien qui existe cette approche et les modèles flous TS, les modèles multi-experts et les
RBRF. Le chapitre III est consacré principalement aux problèmes d'estimation des paramètres et
de sélection de la structure d'un multi-modèle.
CRAN-INPL Page 41
CHAPITRE II
++#2241%*'/7.6+/1&'.'17
4'5'#7&'/1&'.'5.1%#7:
CRAN-INPL Page 43
6200$,5(
II.1. INTRODUCTION ......................................................................................................................................... 45
II.2. PRESENTATION DE L'APPROCHE MULTI-MODÈLE....................................................................... 46
II.2.1. FORMULATION MATHEMATIQUE .............................................................................................................. 46

II.2.2. PROPRIETES D'APPROXIMATION D'UNE ARCHITECTURE MULTI-MODELE .................................................... 48
II.2.3. STRUCTURES DES MODELES LOCAUX ....................................................................................................... 50
II.2.3.1. Modèles locaux sous forme de relation entrée-sortie .......................................................................................50
II.2.3.2. Filtres orthogonaux ..........................................................................................................................................54
II.2.3.3. Représentation d'état ........................................................................................................................................55
II.3. LIENS AVEC LES MODÈLES NON-LINEAIRES EXISTANTS ........................................................... 56
II.3.1. MODÈLE FLOU DE TAKAGI-SUGENO (MODÈLE TS)..................................................................................... 56

II.3.2. MODÈLES MULTI-EXPERTS....................................................................................................................... 57
II.3.3. LES RÉSEAUX DE FONCTION À BASE RADIALE (RFBR)................................................................................. 57
II.4. PROBLÉMATIQUE D'IDENTIFICATION D'UNE ARCHITECTURE MULTI-MODÈLE .............. 57
II.4.1. IDENTIFICATION STRUCTURELLE ............................................................................................................. 58

II.4.1.1. Compromis nombre de modèles locaux – complexité des modèles locaux .......................................................58
II.4.1.2. Décomposition de l'espace de fonctionnement .................................................................................................59
II.4.1.3. Choix des variables caractéristiques................................................................................................................61
II.4.1.4. Stratégies d'identification structurelle..............................................................................................................61
II.4.2. TECHNIQUES D'APPRENTISSAGE .............................................................................................................. 62

II.4.2.1. Apprentissage local ..........................................................................................................................................62
II.4.2.2. Apprentissage global ........................................................................................................................................63
II.4.2.3. Apprentissage avec un critère mixte.................................................................................................................67
II.5. CONCLUSION .............................................................................................................................................. 67
Page 44 CRAN-INPL
CHAPITRE II Approche multi-modèle ou réseau de modèles locaux
II.1. INTRODUCTION
Désignée encore sous la dénomination de "operating regime approach", l'approche multi-
modèle a connu un intérêt certain depuis la publication des travaux de Johansen et Foss en 1992
[Johansen et Foss, 1992]. En réalité, les travaux de ces deux chercheurs ont concerné la
formalisation mathématique d'un concept qui existait sous différents noms dans plusieurs
domaines. L'idée de cette approche est d'appréhender le comportement non-linéaire d'un système
par un ensemble de modèles locaux (généralement de structure simple) caractérisant le
fonctionnement du système dans différentes zones de fonctionnement. Le modèle global du
système est une combinaison des modèles locaux. La motivation de cette décomposition découle
du constat qu'il est souvent difficile d'élaborer un modèle global susceptible de rendre compte de
toutes les particularités et de toute la complexité d'un système. Cette approche intuitive de la
modélisation a été appliquée par exemple par Tong (voir [Fiordaliso, 1999]) qui a proposé des
modèles autorégressifs à seuils (modèles TAR) pour la modélisation de séries temporelles.
Différents modèles de la série sont construits et le passage d'un modèle à un autre est déclenché
par une fonction de type échelon (fonction de Heaviside). Cette fonction est indexée sur les états
antérieurs de la série temporelle. Dans le même ordre d'idée, Strömberg et al. [1991] ont proposé
de représenter des systèmes non-linéaires avec des modèles linéaires par morceaux construits à
partir d'un arbre de décision binaire. Le résultat de ces modèles de commutation est une
approximation discontinue du système. Mais ces discontinuités peuvent être indésirables dans
certaines applications. Il est plus intéressant d'assurer un passage progressif d'un modèle à l'autre
au lieu d'une commutation brutale. Pour ce faire, on substitue aux fonctions de commutation à
front raide des fonctions à pente douce. Les zones de validité des modèles ne sont plus des
partitions disjointes totalement isolées les unes des autres mais on autorise un recouvrement
entre elles. Les fonctions de commutation sont alors des fonctions à dérivée continue dont la
pente détermine la vitesse de transition d'un modèle à l'autre. L'intégration de ce principe aux
modèles TAR a engendré les modèles autorégressifs à seuils doux (ou modèles STAR) en 1986
(voir [Fiordaliso, 1999]). Indépendamment, à la même époque, Takagi et Sugeno [1985] ont
présenté leur modèle flou dont le point essentiel est la représentation du système étudié par un
ensemble de règles "si prémisse alors conséquence". La conséquence d'une règle est un modèle
local affine et le modèle global s'obtient par agrégation des modèles locaux. Quelques années
plus tard, Jacob et al. [1991] ont présenté les modèles multi-experts dont la philosophie repose
sur la combinaison de différents experts (un expert est un modèle local décrivant le
comportement du système dans une zone limitée) par l'entremise de fonctions d'activation.
Hathaway et Bezdek [1993] ont développé les Fuzzy c-Regression Models (FCRM) comme un
problème de classification consistant à identifier c classes floues dont les prototypes sont des
modèles linéaires. La résultante de toutes ces techniques est un modèle global du système qui est
une combinaison de modèles localement valables. Cette notion a été reprise dans un cadre
CRAN-INPL Page 45
mathématique général par Johansen et Foss [1992], ce qui a conduit à l'approche multi-modèle
de représentation des systèmes non-linéaires.
Le chapitre est divisé en deux parties. La première partie est consacrée à la présentation
de l'approche multi-modèle. Nous y décrivons la formulation mathématique du multi-modèle
ainsi que ses propriétés d'approximateurs universels. Dans cette partie, nous établissons
également le lien entre l'approche multi-modèle et les modèles non-linéaires présentés dans le
premier chapitre. La deuxième partie est une description détaillée de la problématique
d'identification d'un multi-modèle. En particulier, nous abordons les problèmes de définition de
l'espace de fonctionnement du système, de décomposition de cet espace en zones de
fonctionnement. Nous discutons également du compromis à réaliser entre la complexité de la
structure des modèles locaux et leur nombre. Le dernier point évoqué dans la deuxième partie
concerne le choix d'un critère d'apprentissage pour l'estimation des paramètres d'un multi-
modèle.
II.2. PRESENTATION DE L'APPROCHE MULTI-MODELE
II.2.1. FORMULATION MATHEMATIQUE
Considérons le problème de représentation d'un système non-linéaire dynamique par le

modèle entrée-sortie général suivant :
yt =) ϕ t
05 05 (II-1)
où ϕ(t) est le vecteur de régression. Supposons qu'on dispose d'un ensemble de M modèles
locaux fi(ϕ(t)) descriptifs du comportement du système dans différentes zones de
fonctionnement. Ces modèles peuvent être construits par exemple à partir de connaissances
physiques sur le fonctionnement du système dans ces zones. La validité locale de chaque modèle
1 05 6
fi est indiquée par une fonction de validité ρ i ϕ t , β i paramétrée par le vecteur βi et telle que
1 05 6
ρ i ϕ t , β i ≥ 0, ∀i . Cette fonction est significativement différente de 0 si le point courant ϕ(t) est
proche du "centre" ϕi de la zone et décroît plus ou moins rapidement vers 0 dès qu'on s'en
éloigne. Pour un nombre suffisant M de modèles locaux judicieusement positionnés dans l'espace
de régression, on peut exprimer le modèle global recherché ) ϕ t comme la combinaison de
05
ces modèles locaux, plus précisément comme le barycentre des modèles locaux pondérés par leur
fonction de validité. Sous la condition :
M
1 05 6
∑ ρi ϕ t , β i > 0
i =1
∀ϕ t 05
on déduit le modèle global :
Page 46 CRAN-INPL
M
1 0 5 6 1 0 56
∑ ρ i ϕ t , β i fi ϕ t
05
yt = i =1
M
(II-2)
∑ ρ 3ϕ 0t 5, β 8
j j
j =1
En posant :
1 05 6
ωi ϕ t ,β =
1 05 6
ρi ϕ t , β i
(II-3)
M
∑ ρ 3ϕ 0t 5, β 8
j j
j =1
on obtient l'expression générale d'une architecture multi-modèle [Johansen et Foss, 1993] :

M
05 1 0 5 6 1 0 56
y t = ∑ ω i ϕ t , β fi ϕ t
i =1
(II-4)
La fonction de pondération ω i ϕ t 1 0 56 détermine le degré d'activation du modèle local

associé. Selon la zone où évolue le système, cette fonction indique la contribution plus ou moins
importante du modèle local correspondant dans le modèle global. Elle assure un passage
progressif et doux de ce modèle aux modèles voisins. Nous désignerons la fonction ωi également
par fonction d'activation ou fonction d'interpolation. La zone délimitée par ωi dans l'espace de
régression est appelée zone d'interpolation. Les fonctions ωi dépendent du vecteur global
T
β = β 1T β T2 β TM formé par la concaténation des vecteurs de paramètres βi des fonctions de
validité ρi. Remarquons que les fonctions d'activation sont normalisées au sens où elles vérifient
la contrainte :
M
1 05 6
∑ω i ϕ t , β = 1
i =1
∀ϕ t 05
On parle alors de partition unité [Murray-Smith, 1994].
La définition de l'approche multi-modèle introduit la notion de zone de fonctionnement

qu'il est utile de préciser pour clarifier la présentation. En automatique classique, la zone de
fonctionnement d'un système désigne un sous-espace de l'espace d'état "centré" autour d'un
point, généralement un point stationnaire (ou point d'équilibre) du système. Dans le cadre de
l'approche multi-modèle, une zone de fonctionnement doit être entendue comme une région de
l'espace de fonctionnement où le système étudié est représenté par un modèle local donné. Le
point de fonctionnement afférent à cette zone n'est pas obligatoirement un point d'équilibre du
système. Les limites d'une zone de fonctionnement sont définies par la fonction de validité
associée. D'après Johansen et Foss [1993], une fonction de validité typique est une fonction
gaussienne dont la dispersion détermine l'étendue de la zone.
CRAN-INPL Page 47
L'illustration de l'approche multi-modèle est faite sur un exemple d'approximation d'une

fonction statique. Cinq modèles locaux sont utilisés pour cette tâche. Sur la figure II-1, on
montre à gauche la fonction cible (représentée par des points) ainsi que l'approximation obtenue
en interpolant entre les cinq modèles locaux. Au milieu, on montre la position des modèles
locaux. On constate que ces modèles (en trait grisé sur la figure) sont une approximation plus ou
moins précise de la fonction cible dans leur zone de validité. Les courbes à droite décrivent
l'allure des fonctions de validité gaussiennes ainsi que celle des fonctions d'activation qui ont
servi à l'interpolation. A cause de la normalisation, ces dernières n'ont plus une allure
gaussienne, en particulier les fonctions situées aux extrémités du support. Les trois autres
fonctions d'activation conservent une allure gaussienne mais leur valeur maximale est inférieure
à 1.
1 1 Fonctions de validité
1
0.8 0.8
0.5
0.6 0.6
0
0 0.5 1
Fonctions d'interpolation
0.4 0.4
1
0.2 0.2
0.5
0 0
0
0 0.5 1 0 0.5 1 0 0.5 1
Figure II-1 : Exemple simple d'illustration de l'approche multi-modèle
II.2.2. PROPRIETES D'APPROXIMATION D'UNE ARCHITECTURE MULTI-

MODELE
Avec l'approche multi-modèle, on s'aperçoit intuitivement que toute fonction continue

peut être approchée avec une précision arbitraire en effectuant une décomposition suffisamment
fine de l'espace de régression. En se basant sur une décomposition en série de Taylor, Johansen
et Foss [1993] ont présenté un théorème qui établit que l'approximation d'une fonction non-
linéaire multivariable est réalisée avec une précision arbitraire ε et un nombre fini M de modèles
locaux si les conditions suivantes sont satisfaites :
• les mesures expérimentales sont bornées,

• le vrai modèle du système est la fonction non-linéaire )0 ϕ t 05 telle que )0 ϕ t soit (p+1)05
fois dérivable et sa dérivée d'ordre (p+1) soit bornée,
• les fonctions de validité ont un support localisé et leurs centres couvrent de façon dense
l'espace de régression (ceci équivaut à supposer une répartition suffisamment dense des
Page 48 CRAN-INPL
modèles locaux dans l'espace de régression),
• les modèles locaux fi sont les p premiers termes du développement en série de Taylor de la
fonction )0 ϕ t autour des points de fonctionnement ϕi.
05
Bien que ces résultats donnent une idée sur la façon de construire les modèles locaux, ils
ne sont pas applicables car souvent dans la pratique, le vrai modèle )0 ϕ t est inconnu. De plus
05
ces résultats ne précisent pas le nombre maximal de modèles locaux nécessaires pour garantir
une précision arbitraire ε de l'approximation, ni la position des modèles locaux. La seule
indication est une répartition dense des modèles locaux.
En marge des propriétés d'approximateurs universels, Johansen et Foss [1993] ont

également établi que l'approximation fournie par le multi-modèle est d'autant meilleure que
l'espace des points de fonctionnement (qu'on a défini jusqu'alors comme l'espace de régression)
est de dimension réduite. En effet, pour assurer une couverture dense de l'espace de régression
par les modèles locaux, il est tentant de réaliser une partition uniforme1 de cet espace. Dans ce
cas, le nombre de modèles locaux augmente de façon exponentielle avec la dimension de l'espace
de régression. L'architecture multi-modèle qui en résulte comporte un nombre élevé de degrés de
liberté. En vertu du compromis biais-variance (voir paragraphe I.4.2.), elle risque d'avoir de
mauvaises capacités de généralisation malgré la précision arbitraire avec laquelle elle peut
approcher les données d'identification. Par conséquent, travailler avec un espace de dimension
réduite permet une réduction du nombre de modèles locaux. Une autre motivation est qu'il est
plus facile de réaliser la décomposition (voir section II.4.1.2) d'un espace de petite dimension.
Un argument supplémentaire est que le comportement non-linéaire du système peut être le fait de
quelques variables de régression alors qu'il est linéaire par rapport aux autres. Dans cette
configuration, il est plus intéressant d'indexer les zones de fonctionnement sur ces variables que
nous qualifions de caractéristiques des non-linéarités du système.
Dans la suite du document, l'espace de fonctionnement du système ne sera plus

systématiquement l'espace de régression mais un espace noté = et engendré par le vecteur
05
z t = z1 t 0 5 z2 0t 5 zn 0t 5 T . Les fonctions de validité et d'activation seront dépendantes du
z
vecteur z(t). Ses composantes sont les variables caractéristiques du système. Elles sont soit des
éléments du vecteur de régression (les entrées, la sortie du système ou celle du multi-modèle aux
instants antérieurs à l’instant courant), soit des variables auxiliaires issues de la transformation
des variables de régression (transformations polynomiale, logarithmique…) et susceptibles de
rendre compte des non-linéarités du système. Nous noterons =i la zone de validité du modèle fi.
1
Dans la pratique, une couverture uniforme n'est pas nécessaire car il est peu probable que la non-linéarité du
système soit uniforme. Le système aura un comportement plus complexe dans certaines zones de fonctionnement
que dans d'autres.
CRAN-INPL Page 49
II.2.3. STRUCTURES DES MODELES LOCAUX
Il existe une large variété de choix pour définir les modèles locaux associés aux zones de
fonctionnement. La complexité de leur structure (modèle constant, modèle linéaire ou non-
linéaire) est laissée au libre arbitre de l'utilisateur. Néanmoins dans la pratique, des modèles
locaux de structure simple, principalement des modèles linéaires ou affines, sont privilégiés afin
de pouvoir appliquer les techniques d'analyse de l'automatique linéaire aux modèles locaux
(analyse des pôles et des zéros, gain statique, …). Différentes représentations des modèles
locaux sont envisageables ; certaines sont décrites dans les sous-sections qui suivent.
II.2.3.1. Modèles locaux sous forme de relation entrée-sortie
En considérant le choix des modèles locaux suggéré par Johansen et Foss [1993] (cf.
paragraphe II.2.2), on définit les modèles locaux fi comme les p premiers termes du
développement en série de Taylor du vrai modèle )0 ϕ t autour des points ϕi. En se limitant à
05
un ordre p=1, on obtient :
∂)0 ϕ
fi ϕ t = )0 ϕ i + ϕ t − ϕ i
1 0 56 1 6 1 05 6 T
∂ϕ ϕ =ϕ i
Cette expression s'arrange sous la forme :
1 0 56 05
fi ϕ t = ϕ T t θ i1 + θ i 0 (II-5)
où :
∂)0 ϕ
θ i1 = θ i 0 = )0 ϕ i − ϕ iT θ i1
1 6 (II-6)
∂ϕ ϕ =ϕ i
La forme affine (II-5) du modèle local fi (i=1, …, M) s'interprète comme la linéarisation de la

fonction multivariable )0 ϕ t autour de ϕi. Si on injecte cette expression dans l'équation (II-4),
05
la sortie du multi-modèle devient :
M
05 1 0 5 63 0 5
y t = ∑ ω i z t , β ϕ T t θ i1 + θ i 0
i =1
8
Elle peut également s'écrire :
M
05 i =1
05 1 05 6 1 05 6 05 05 05
y t = ∑ ϕ T t ω i z t , β θ i1 + ω i z t , β θ i 0 = ϕ T t θ 1 t + θ 0 t (II-7)
L'interprétation directe de cette relation est qu'une architecture multi-modèle avec des modèles
locaux affines est un modèle affine à paramètres variables au cours du temps. La variation des
paramètres est fonction de la zone de fonctionnement dans laquelle évolue le système. Il est alors
Page 50 CRAN-INPL
possible d'associer à l'espace caractéristique =, un polytope de l'espace des paramètres décrivant

le lieu d'évolution des paramètres du modèle affine (II-7) [Babuška, 1998].
Le modèle local de l’équation (II-5) s’écrit sous la forme compacte suivante :
1 05 6 05
fi ϕ t , θ i = ϕ Ta t θ i (II-8)
où θi est le vecteur de paramètres local formé par la concaténation de θi1 et θi0. ϕa(t) est le
vecteur de régression augmenté défini par :
T
05
ϕa t = ϕT t 1 05 (II-9)
La forme des modèles locaux étant définie, intéressons-nous maintenant aux éléments du
vecteur de régression car suivant la constitution de ce vecteur, on peut distinguer des formes
particulières de multi-modèle. Trois cas seront analysés étant entendu que d'autres types de
vecteur de régression sont applicables. Pour la simplicité de la présentation, on supposera que
tous les modèles locaux possèdent les mêmes paramètres structuraux (entrées, ordres, retards).
• Cas 1 : multi-modèle série-parallèlle : multi-modèle à erreur d'équation
Le vecteur de régression est formé par la sortie et les entrées du système décalées dans le
temps. Pour un système à m entrées, il a la forme suivante :
T
05 0 5 3 8 3 8 3 8 3 8 3
ϕ t = − ys t − 1 − ys t − ny u1 t − nku1 u1 t − nku1 − nu1 um t − nkum um t − nkum − num 8
(II-10)
Dans cette équation, ys représente la sortie du système, ny désigne l'ordre de la partie auto-
régressive, nu j et nku j désignent respectivement l'ordre et le retard associés à l'entrée uj
( j = 1, , m ). En adoptant une écriture polynomiale, la sortie du modèle local fi(ϕ(t), θi)
explicitée par yi(t) s'exprime :
m
05 0 5 05 05 4
yi t = − Ai q ys t + ∑ Bij q u j t − nku j + θ i 0
j =1
9 (II-11)
où :
ny
05
Ai q = ∑ ak(i ) q − k
k =1
(II-12-a)
nu j −1
05
Bij q = ∑ b (jki) q − k
k =0
(II-12-b)
CRAN-INPL Page 51
q-1 désigne l'opérateur retard. Les coefficients des polynômes Ai et Bij et θi0 sont les paramètres
des modèles locaux à estimer. La structure multi-modèle obtenue pour un système SISO2 est
schématisée sur la figure II-2. On constate aisément qu'elle est de type série-parallèle (ou erreur
d'équation) car faisant intervenir la sortie du processus décalée dans le temps.
u(t) Système ys(t)
ω1(t)
Modèle local 1
− A1 ( q ) ys (t )+B1 ( q )u( t − nk ) + θ 10 Π
ω2(t)
Modèle local 2
Π Σ y(t)
− A2 ( q ) ys ( t )+B2 ( q )u( t − nk ) + θ 20
ωM(t)
Modèle local M
−AM ( q ) ys ( t )+BM ( q )u( t − nk )+θ Π
M0
Figure II-2 : Multi-modèle série-parallèle avec des modèles locaux couplés
• Cas 2 : multi-modèle parallèle avec des modèles locaux couplés : multi-modèle de type
erreur de sortie (OE)
Le vecteur de régression contient non plus la sortie du système mais la sortie du multi-
modèle décalée dans le temps :
T
05 0 5 3 8 3 8 3 8
ϕ t = − y t − 1 − y t − ny u1 t − nku1 u1 t − nku1 − nu1 um t − nkum um t − nkum − num3 8 3 8
(II-13)
Le modèle local fi(ϕ(t), θi) s'écrit sous la forme polynomiale suivante :
m
05 0 5 05 05 4
yi t = − Ai q y t + ∑ Bij q u j t − nku j + θ i 0
j =1
9 (II-14)
avec les définitions précédentes des polynômes Ai(q) et Bij(q). On obtient une structure multi-
modèle parallèle avec le système. Son schéma est présenté sur la figure II-3.
2
Pour la clarté du schéma, nous avons représenté la structure multi-modèle pour un système SISO. L'extension à un
système MISO ou MIMO est immédiate.
Page 52 CRAN-INPL
u(t) Système ys(t)
ω1(t)
Modèle local 1
− A1 ( q ) y(t )+B1 ( q )u( t − nk ) + θ 10
Π
ω2(t)
Modèle local 2
− A2 ( q ) y( t )+B2 ( q )u(t − nk ) + θ 20 Π Σ y(t)
ωM(t)
Modèle local M
− AM ( q ) y( t )+BM ( q )u(t − nk ) + θ M 0 Π
Figure II-3 : Multi-modèle parallèle avec des modèles locaux couplés
• Cas 3 : multi-modèle parallèle avec des modèles locaux totalement découplés

Dans les deux cas précédents, les modèles locaux sont partiellement couplés en raison de
0 5
l'utilisation des mêmes termes décalés ys(t-k) ou y t − k dans leur expression. Une autre façon
d'examiner le problème est de considérer que les modèles locaux ne font pas usage des
informations passées sur la sortie du système ou du modèle et qu'ils sont totalement découplés.
Pour un système à m entrées et une sortie, le modèle local fi(ϕ(t), θi) s'exprime :
05
yi t = ∑
m 0 5 u 4t − nk 9 + θ
Bij q
(II-15)
1 + A 0q5
j uj i0
j =1 ij
Chaque modèle local est une interconnexion de m blocs parallèles dont les sorties sont sommées
pour fournir celle du modèle local. Les sorties locales sont ensuite pondérées par les fonctions
d'activation pour fournir la sortie de l'architecture multi-modèle. Cette dernière est une
interconnexion de M modèles locaux en parallèle. L'avantage de ce découplage est de spécifier
des dynamiques différentes (codées par les coefficients des polynômes Aij) pour chaque entrée
dans chaque modèle local. L'inconvénient est un nombre de paramètres plus important à estimer.
Une simplification du problème est atteinte en considérant que les polynômes Aij sont identiques
pour toutes les entrées uj (j=1, …, m). Cette structure multi-modèle est décrite sur la figure II-4.
CRAN-INPL Page 53
u(t) Système ys(t)
ω1(t)
Modèle local 1 y1(t)

Π
− A1 ( q ) y1 ( t )+B1 ( q )u( t − nk ) + θ 10
ω2(t)
Modèle local 2 y2(t)

Π Σ y(t)
− A2 ( q ) y2 ( t )+B2 ( q )u( t − nk ) + θ 20
ωM(t)
Modèle local M yM(t)

Π
− AM ( q ) y M ( t )+BM ( q )u( t − nk ) + θ M 0
Figure II-4 : Multi-modèle parallèle avec des modèles locaux totalement découplés
II.2.3.2. Filtres orthogonaux
A la place des modèles locaux sous forme de relations entrée-sortie, on peut utiliser des
filtres issus de la Base Orthogonale Généralisée [Malti, 1999]. Un modèle local décrit par un
banc de filtres orthogonaux s'exprime par :
n f −1
05 05 05
yi t = ∑ a j g j t ∗ u t
j =0
où * désigne l'opérateur de convolution. Les paramètres aj sont les coefficients de la

décomposition sur la base des nf filtres gj. La fonction de transfert d'un filtre gj de la BOG qui
s'écrit :
Gj (z) = 1 − ξ j 2

z j −1 1 − ξ *k −1z
∏

z − ξ j k =0 z − ξ k
est fonction des pôles ξj et ξj* du filtre. Ces pôles déterminent la dynamique incorporée dans le
filtre et il y a autant de paires de pôles (à trouver) que de filtres. Si cette dynamique est proche de
celle du système localement, le nombre nf de filtres nécessaires est réduit de façon drastique
[Heuberger et al., 1995]. Par ailleurs, si le comportement local du système est caractérisé par un
pôle dominant réel ou une paire de pôles complexes, les filtres de Laguerre ou de Kautz (qui
nécessitent en tout un pôle ou une paire de pôles complexes) peuvent remplacer ceux de la BOG.
Les chercheurs qui ont utilisé les filtres orthogonaux dans la représentation multi-modèle
fixent les pôles et le nombre de filtres [Sbarbaro, 1997] sur la base des connaissances a priori. Si
Page 54 CRAN-INPL
ces dernières sont indisponibles, certains à l'instar de Nelles [1997-b] identifient séparément
chacun des modèles locaux sous forme de modèle ARX. La dynamique ainsi suggérée sert à
spécifier les pôles des filtres et à déterminer le nombre de filtres [Nelles, 1997-b]. Par contre,
Malti [1999] a identifié un multi-modèle par une méthode à deux niveaux qui estime les pôles
des filtres par un algorithme non-linéaire et les coefficients ai par la méthode des moindres
carrés, le nombre de filtres de chaque sous-modèle ayant été fixé a priori.
II.2.3.3. Représentation d'état
Au lieu d'un modèle sous forme entrée-sortie, il est intéressant dans certaines applications
(par exemple l'identification de systèmes MIMO) d'utiliser une représentation d'état. D'ailleurs,
les chercheurs dont les travaux portent sur l'analyse de la stabilité du multi-modèle adoptent cette
représentation. De même, la commande des processus modélisés par l'approche multi-modèle fait
souvent appel à la représentation d'état, afin d'étendre au cas non-linéaire des techniques de
commande par retour d'état. La construction d'observateurs non-linéaires à partir de structures
multi-modèle requiert aussi des modèles locaux exprimés sous la forme de modèle d'état.
Utiliser la représentation d'état revient à exprimer le modèle du système sous la forme :
0 5 1 0 5 0 56
x t +1 = g x t , u t
y0t 5 = h1 x0t 5, u0t 56
x ∈ n et u ∈ m sont respectivement les vecteurs d'état et de commande. En supposant que les

modèles locaux sont issus d'une linéarisation des fonctions g(x, u) et h(x, u) autour de M points
(xi, ui), la formulation multi-modèle aboutit aux équations suivantes :
M
0 5
x t +1 = ∑ω i z t , β1 05 6 $ i x t + % i u t + Gi
05 05
i =1
(II-16-a)
M
05
y t = ∑ω i z t , β
i =1
1 0 5 6 & x 0t 5
i + Gi'
avec :
∂g ∂g ∂h
$i = %i = &i = (II-16-b)
∂x x = xi ∂u x = xi ∂x x = xi
u = ui u = ui u = ui
Gi = g xi , ui − $ i xi + % i ui
1 6 1 6 G
L = h xi , ui − &i xi
1 6 (II-16-c)
$i, %i, &i sont respectivement les matrices d'état, de commande et de sortie du modèle local fi. Le
vecteur des variables caractéristiques z(t) est formé par les états et la commande ou par une
combinaison de ces variables. De façon similaire au multi-modèle entrée-sortie, les équations (II-
16-a) s'arrangent sous la forme :
CRAN-INPL Page 55
0 5 ! 1 0 5 6 "#$ 0 5 ! 1 0 5 6 "#$ 0 5 !
M
i =1
M
i =1
M
x t + 1 = ∑ ω i z t , β $ i x t + ∑ ω i z t , β % i u t + ∑ ω i z t , β Gi
i =1
1 0 5 6 "#$
(II-17)
M " M "
y0t 5 = ∑ ω 1 z0t 5, β 6 & # x 0t 5 + ∑ ω 1 z0t 5, β 6 G #
i i i
'
i
!i =1 $ ! i =1 $
qui exprime le multi-modèle comme un modèle d'état dont les matrices d'état, de commande et
de sortie sont dépendantes du temps : le modèle du système s'assimile à un modèle d'état affine
variant dans le temps.
Les fonctions g et h étant en pratique inconnues, les matrices $i, %i, &i et les coefficients
Gi, Gi' mis en jeu dans le multi-modèle sont à déterminer à partir de mesures expérimentales.
II.3. LIENS AVEC LES MODELES NON-LINEAIRES EXISTANTS

Dans la présentation de l'approche multi-modèle, aucune référence n'a été faite à la
logique floue, ni aux modèles multi-experts. La comparaison de l'équation (II-4) avec les
équations (I-14) ou (I-23) exposées au chapitre I révèle une similitude entre le multi-modèle et
ces modèles particuliers. En réalité, l'approche multi-modèle est un cadre général de la
modélisation locale dans lequel s'inscrit des structures ayant des appellations différentes suivant
les communautés scientifiques. Dans ce paragraphe, nous établissons la passerelle entre le multi-
modèle et certains modèles non-linéaires présentés dans le chapitre I. Nous renvoyons le lecteur
à l'ouvrage de Murray-Smith et Johansen [1997-a] pour une description détaillée des modèles
non-linéaires relevant de l'approche multi-modèle.
II.3.1. MODELE FLOU DE TAKAGI-SUGENO (MODELE TS)
Il est évident de ranger le modèle flou TS dans la catégorie des multi-modèles. En effet,
un modèle TS réalise une partition floue de l'espace caractéristique =. Les zones de
fonctionnement sont définies en termes de propositions sur les variables de prémisse. En prenant
l'opérateur produit comme t-norme, le modèle flou TS coïncide exactement avec le multi-
modèle. Si à la base, Takagi et Sugeno dans leur article de référence datant de 1985 [Takagi et
Sugeno, 1985] n'ont pas été précis sur le type d'opérateur usité, toute ambiguïté a été levée avec
la sortie de l'article de Sugeno et Kang [1988] où explicitement l'opérateur produit est l'opérateur
de conjonction. Le caractère flou disparaît de la formulation du modèle TS car la partie
conséquence d'une règle est parfaitement déterminée. Le modèle TS a donc plus de rapports avec
le multi-modèle qu'avec les modèles linguistiques de Mamdani ou les modèles à relation floue.
Comparativement au multi-modèle, la seule contrainte du modèle TS est sa lecture sous forme de
propositions sur les variables de prémisse. Les notions suivantes sont par conséquent
équivalentes et expriment les mêmes idées :
Page 56 CRAN-INPL
• degré de véracité normalisé ⇔ fonction d'activation ou d'interpolation,

• espace de prémisse ⇔ espace caractéristique,
• variables de prémisse ⇔ variables caractéristiques,
• partie conséquence ⇔ modèle local.
II.3.2. MODELES MULTI-EXPERTS
Ces modèles sont partie intégrante de l'approche multi-modèle car ils sont constitués par
un ensemble d'experts qui collaborent afin de fournir le modèle global du système. La seule
différence avec le multi-modèle est la notion de probabilité associée aux fonctions
d'interpolation. Pour ces raisons, on dit que les modèles multi-experts sont des structures multi-
modèles dont les fonctions d'interpolation réalisent une décomposition stochastique de l'espace
de fonctionnement. Les modèles locaux sont ici les experts.
II.3.3. LES RESEAUX DE FONCTION A BASE RADIALE (RFBR)
Strictement, les RFBR tels que définis par l'équation (I-19) au premier chapitre ne
coïncident pas avec le multi-modèle car les fonctions de base qui agissent sur les poids ne sont
pas normalisées (c'est-à-dire leur somme n'est pas égale à 1 pour tout échantillon de la base de
données) contrairement aux fonctions d'interpolation qui agissent sur les modèles locaux dans
l'approche multi-modèle. Néanmoins, le lien est possible si les fonctions de base sont
normalisées : on parle dans ce cas de RFBR généralisés [Hunt et al., 1996]. Les modèles locaux
sont alors des constantes (développement d'ordre 0 de la fonction à approcher autour des
centres). Soulignons qu'avec des modèles locaux constants, il faudrait un nombre important de
zones de fonctionnement pour représenter un système complexe car peu de phénomènes sont pris
en compte par une constante. Comparativement un multi-modèle avec des modèles locaux
affines nécessiterait un nombre réduit de zones de fonctionnement.
II.4. PROBLEMATIQUE D'IDENTIFICATION D'UNE ARCHITECTURE

MULTI-MODELE
Comme tout problème de modélisation, l'identification d'une architecture multi-modèle
comprend deux tâches importantes : la recherche de la structure optimale et l'estimation des
paramètres. Dans cette section, nous analysons ces deux problématiques sans exposer les détails
techniques des solutions qui y sont apportées. Le chapitre III y est consacré. Nous limitons le
cadre de l'analyse aux modèles locaux sous forme de relation entrée-sortie, l'extension à une
représentation d'état étant immédiate.
CRAN-INPL Page 57
II.4.1. IDENTIFICATION STRUCTURELLE
Au titre de l'identification structurelle, les points essentiels à étudier sont :
• la spécification des zones de fonctionnement qui comprend :
¾ la sélection des variables caractéristiques les plus représentatives des non-

linéarités du système (de façon équivalente, la définition de l'espace
caractéristique),
¾ la décomposition de cet espace en zones de fonctionnement c'est-à-dire la

détermination de la forme, de la position et du nombre de fonctions de validité,
• la spécification de la structure de chaque modèle local (variables d'entrée, ordres et retards

associés).
L'objectif final est d'identifier un multi-modèle parcimonieux (bonnes qualités d'approximation
pour un nombre minimal de modèles locaux).
II.4.1.1. Compromis nombre de modèles locaux – complexité des modèles locaux
Trouver le nombre et la structure adéquats des modèles locaux ne peut se faire de façon
simultanée. La raison est que dans l'approche multi-modèle, il y a un compromis à déterminer
entre le nombre de modèles locaux et la complexité de leur structure. Si cette structure est
complexe, l'architecture multi-modèle nécessitera peu de modèles locaux. Inversement, il faudra
plusieurs modèles locaux de structure simple pour obtenir de bonnes capacités d'approximation.
La complexité des sous-modèles est directement liée aux ordres ny et nu j des éléments du vecteur
de régression. Elle est également liée au choix d'une structure linéaire ou non-linéaire pour les
modèles locaux. Il y a donc interdépendance entre la structure des modèles locaux et la
décomposition de l'espace de fonctionnement qui impose de procéder de façon séquentielle.
Deux approches de solution sont possibles :
• fixer une structure pour les modèles locaux, trouver ensuite la décomposition adéquate de
l'espace de fonctionnement puis raffiner ultérieurement la structure des sous-modèles,
• positionner les zones de fonctionnement et rechercher alors les paramètres structuraux des
modèles locaux.
Dans la première option, on recherche dans les données récoltées, des comportements
spécifiques correspondant à la structure des modèles locaux. Ceci nécessite forcément de
préciser les variables d'entrée, les ordres et les retards de ces modèles avant de prétendre
rechercher le nombre et la position des zones de fonctionnement.
Le choix des variables d'entrée utiles et des ordres adéquats peut être guidé par les
connaissances disponibles sur le système. Autrement, il faut utiliser une technique heuristique.
Page 58 CRAN-INPL
La solution directe est de considérer différentes structures pour les modèles locaux, de construire
à chaque fois un multi-modèle et de retenir finalement celui qui donne les meilleures
performances. A cette solution lourde en temps de calcul, on peut préférer des outils permettant
d'identifier les variables d'entrée et les ordres utiles sans recourir au calcul d'un modèle. L'une de
ces techniques est la méthode de He et Asada [1993], améliorée par Boukhris et al. [1999] qui est
basée sur l'analyse de la sensibilité par rapport aux entrées d'un indicateur évalué à partir de
quotients de Lipschitz3. Mais la méthode ne fournit de résultats pertinents que si les données
traitées sont peu bruitées [Espinosa et Vandewalle, 1997] ou si la variance du bruit de mesure est
connue [Boukhris et al., 1999], ce qui la rend d'une utilisation délicate dans les applications
pratiques. Une autre solution certes sous-optimale mais d'une mise en œuvre simple consiste à
identifier le meilleur modèle linéaire : sa structure sera celle des modèles locaux [Tanaka et al.,
1995]. Une amélioration consiste à déterminer des modèles linéaires optimaux autour de
différents points de fonctionnement "judicieusement" choisis [Yu et al., 1997]. Les variables
d'entrée et les ordres suggérés par ces différents modèles serviront à spécifier la structure des
modèles locaux.
Cette dernière solution rejoint d'une certaine manière la deuxième option qui consiste à
positionner les zones de fonctionnement et à essayer de trouver le meilleur modèle local pouvant
être affecté à chacune des zones. Cette solution a été appliquée entres autres par [Wang et
Langari, 1995], [Nelles, 1997-a].
II.4.1.2. Décomposition de l'espace de fonctionnement
La taille du réseau de modèles locaux est non seulement liée à la complexité des sous-
modèles mais aussi au type de décomposition adopté pour l'espace caractéristique. On distingue
principalement trois techniques de partition : la partition grille, la partition basée sur un arbre de
décision et la classification.
Partition grille
Elle réalise un maillage de l'espace caractéristique =. Le support (ou encore intervalle de
variation) de chaque variable caractéristique zj(t) (j=1, …, nz) est divisé en pj partitions
individuelles. La partition de = est obtenue en prenant l'ensemble des combinaisons des
partitions individuelles. Le nombre de modèles locaux générés est alors :
nZ
M = ∏ pj (II-18)
j =1
3
Supposons un ensemble de N données expérimentales y t , u t 2 0 5 0 56
t =1
N
. Le quotient de Lipschitz s'obtient par :
qt1 ,t2 =
1 6 1 6 1t ≠ t ,
y t1 − y t2
6
t1 = 1,, N , t2 = 1,, N .
u1t 6 − u1t 6
1 2
1 2
CRAN-INPL Page 59
Ce nombre devient très vite explosif4 si la dimension de l'espace = est élevée ou le nombre de
partitions sur le support des variables caractéristiques est important. Par exemple, pour un
système à nz=4 variables caractéristiques avec pj=5 divisions par variable, le nombre de modèles
locaux est 45=1024. Pour ces raisons, la partition grille n'est adaptée qu'aux systèmes de faible
dimension (3 à 5 variables caractéristiques). Une illustration de la grille est présentée sur la
figure II-5.
z2 z2 z2 z2
z1 z1 z1 z1
c) Partition hiérarchique
b) Partition hiérarchique d) Partition par
a) Partition grille oblique par rapport aux
orthogonale aux axes classification
axes
Figure II-5 : Différents types de partition de l'espace caractéristique =
Partition suivant un arbre de décision

On peut réduire le nombre de modèles locaux en adoptant une partition suivant un arbre
de décision. Utilisée notamment par Sugeno et Kang [1988], Sun [1994], Johansen et Foss
[1995], Nelles [1997-a] et Ernst [1998], elle permet de décomposer l'espace caractéristique selon
une procédure hiérarchique. A l'étape v de la décomposition, l'espace = est déjà découpé en v
zones, soit une structure multi-modèle à v modèles locaux. Le découpage d'une zone est envisagé
pour obtenir une structure à (v+1) modèles locaux. La division de cette zone peut être réalisée
par un hyper-plan orthogonal aux axes [Sugeno et Kang, 1988], [Johansen et Foss, 1995],
[Nelles, 1997-a] ou se faire suivant un hyper-plan oblique par rapport aux axes [Murray-Smith,
1994], [Ernst 1998]. Le résultat de ces techniques de partition est montré sur les schémas b) et c)
de la figure II-5. Le modèle final comporte souvent moins de zones que la partition sous forme
de grille mais il nécessite plus de fonctions de validité pour les décrire.
Partition par classification

Un autre moyen de partition est l'utilisation d'ensembles multidimensionnels issus d'une
procédure de classification. L'objectif est de rechercher des formes ellipsoïdales (par l'algorithme
de Gustaffson-Kessel) dans l'espace produit de la sortie et de l’espace de régression. Chaque
ellipse correspond à une description du comportement local du système par un hyperplan
[Babuška et Verbruggen, 1995]. Les fonctions d'activation sont ensuite déduites par projection
4
Ce phénomène est désigné dans la littérature par curse of dimensionality.
Page 60 CRAN-INPL
des ellipses sur l'espace de régression. La forme des zones de fonctionnement est illustrée sur le
schéma d) de la figure II-5. Une excellente référence de l'application des techniques de
classification à l'identification d'un multi-modèle est l'ouvrage de Babuška [1998]. Soulignons
qu'avec cette approche, l'espace caractéristique est forcément l'espace de régression. Or la
reconnaissance des formes devient difficile si la taille de l'espace produit est grande. Pour cette
raison, la méthode ne donne des résultats probants que pour des systèmes de petite dimension et
d'ordre faible [Babuška, 1998]. Un autre désavantage de la technique de classification est qu'elle
est seulement adaptée pour les multi-modèles à erreur d'équation. Elle est difficilement
applicable à un multi-modèle à erreur de sortie : à cause de la présence des termes décalés de la
sortie du multi-modèle dans le vecteur de régression, la distribution des données dans l'espace de
régression évolue d'une itération à l'autre, ce qui rend difficile la reconnaissance des
comportements locaux du système.
II.4.1.3. Choix des variables caractéristiques
Le choix des variables caractéristiques est un problème aussi épineux que celui de la
détermination de la structure des modèles locaux. Dans ce cas également, de bonnes
connaissances sur le système peuvent aider à spécifier les bonnes variables. Autrement, il faut
considérer un ensemble de variables candidates, puis appliquer des procédures heuristiques
d'essais-erreurs pour identifier les variables les plus représentatives des non-linéarités du
système.
II.4.1.4. Stratégies d'identification structurelle
Pour finir notre discussion sur l'identification structurelle, nous présentons trois stratégies
de recherche de la structure optimale : ascendante, descendante et alternée. Ces stratégies sont
génériques aux problèmes d'identification. Elles sont certes sous-optimales mais elles constituent
de bonnes alternatives à la recherche combinatoire.
La première méthode procède d'une philosophie de coarse-to-fine (du simple au

complexe). On démarre avec une structure multi-modèle simple (généralement un modèle
linéaire). Elle est ensuite complexifiée par ajouts successifs de nouveaux modèles locaux et la
prise en considération de nouvelles variables caractéristiques. Un indicateur permet de spécifier
les zones où le multi-modèle a de mauvaises capacités d'approximation et qui nécessitent un
raffinement. La procédure continue jusqu'à l'obtention d'un résultat satisfaisant. L'intérêt de cette
procédure est que la structure du multi-modèle s'adapte progressivement compte tenu de la
complexité du système. Par ce biais, on espère éviter le phénomène de sur-apprentissage.
La deuxième stratégie est l'inverse de la première : elle de type fine-to-coarse (du

complexe au simple). Une structure multi-modèle initiale complexe est considérée. Elle est
ensuite simplifiée par élimination des modèles locaux ayant un faible pouvoir d'explication et/ou
fusion des modèles locaux voisins susceptibles de décrire des comportements similaires du
CRAN-INPL Page 61
système. L'intérêt est que la structure initiale fine peut potentiellement mettre en évidence toutes
les particularités du système. La simplification ne servira en fait qu'à réduire la finesse de cette
structure initiale. Sun [1994] parle de compression de la base de modèles locaux.
La troisième approche est une solution intermédiaire entre les deux premières. Elle
consiste à ajouter de nouveaux modèles locaux jusqu'à un point d'arrêt. Ensuite, cette structure
est simplifiée. On procède ainsi de façon alternative entre la stratégie incrémentale et
décrémentale jusqu'à la satisfaction d'un critère d'arrêt. Les critères d'arrêts sont soit des critères
de validation croisée soit les critères de type FPE, AIC, MDL.
II.4.2. TECHNIQUES D'APPRENTISSAGE
L'optimisation paramétrique consiste à estimer les paramètres des fonctions de validité et

des modèles locaux. Dans le cadre de l'approche multi-modèle, trois types d'apprentissage sont
envisageables : l'apprentissage local, l'apprentissage global et l'apprentissage avec un critère
mixte.
II.4.2.1. Apprentissage local
Cette méthode vise à minimiser l'écart entre la sortie du système y s et celle des modèles
locaux [Murray-Smith, 1994], [Murray-Smith et Johansen, 1997-b]. Cette démarche est légitime,
car l'idéal dans la représentation des systèmes par un multi-modèle locaux serait de caractériser
localement le fonctionnement du système. De plus si les modèles locaux sont issus de la
linéarisation d'un modèle physique autour de certains points de fonctionnement ou sont
construits à partir de connaissances comportementales du processus étudié, il est préférable
d'adopter une approche locale d'optimisation des paramètres des modèles locaux. On définit donc
pour chaque modèle local, un critère quadratique pondéré appelé critère local. Le critère local
1 05 6
associé au modèle fi ϕ t ,θ i est exprimé par :
1 N
Ji =
2 t =1
0 5 1 0 5 0 56
∑ ρ i t yi t − ys t
2
(II-19)
où N représente la taille du jeu de données d'identification. La contribution d'une observation

05 1 05 6
particulière ϕ t au modèle local fi ϕ t ,θ i est mesurée par la valeur de la fonction de validité
05
ρ i t . Par conséquent, les observations relevant fortement de la zone de validité du modèle fi sont
prépondérantes dans l'estimation de son vecteur de paramètres θi. Le critère d'apprentissage local
est la somme de tous les critères locaux, soit :
1M N
JL =
2 i =1 t =1
0 5 1 0 5 0 56
∑ ∑ ρ i t yi t − ys t
2
(II-20)
Si ce critère permet l'optimisation des paramètres des modèles locaux sans difficultés,
l'optimisation des paramètres des fonctions de validité sur la base du critère (II-20) pose
Page 62 CRAN-INPL
quelques problèmes. Telles que présentées par Johansen et Foss [1993], les fonctions de validité
ρi sont des fonctions définies de façon absolue : ce sont des fonctions d'allure gaussienne
indépendantes les unes des autres. Il en découle qu'une minimisation du critère (II-20) par
rapport aux paramètres des fonctions de validité équivaut à la minimisation de chacun des termes
Ji de façon indépendante. Deux ou plusieurs fonctions de validité peuvent être positionnées en un
même point suite à l'optimisation. Ce problème est comparable à celui rencontré avec la
technique de classification possibiliste PCM [Krishnapuram et Keller, 1996] qui est basée sur
l'optimisation d'un critère similaire à (II-20). A cause de l'indépendance des composantes du
critère, il arrive que plusieurs classes identifiées soient confondues [Barni et al., 1996] surtout si
l'initialisation de l'algorithme n'a pas été faite de façon judicieuse. Pour des systèmes de petite
dimension sur lesquels de bonnes connaissances physiques sont disponibles, on peut positionner
a priori les points de fonctionnement et éviter le problème. Faute d'informations a priori, il est
préférable d'utiliser les fonctions d'activation ωi qui dépendent de toutes les zones et garantissent
que tous les points de l'espace = seront couverts à cause de la contrainte de normalisation.
Implicitement, les limites des zones de validité sont maintenant fixées par les fonctions ωi. Le
critère d'apprentissage local est alors défini par :
1M N
JL = 0 5 1 0 5 0 56
∑ ∑ ω i t yi t − ys t
2 i =1 t =1
2
(II-21)
Pour les fonctions d'activation ωi fixées, les paramètres des modèles locaux sont
identifiés indépendamment les uns des autres. Ce découplage présente l'avantage d'éviter des
problèmes numériques lors de l'estimation des paramètres des modèles locaux [Murray-Smith,
1994]. Toutefois, l'apprentissage local nécessite plusieurs modèles locaux, comparativement à
l'apprentissage global, pour décrire le comportement du système (voir exemple II-2). En outre, le
recouvrement entre les modèles locaux doit être limité c’est-à-dire que les fonctions
d'interpolation ωi doivent avoir un support assez localisé pour garder une interprétation vraiment
locale des modèles obtenus (voir figure II-6).
II.4.2.2. Apprentissage global
L'objectif est d'ajuster les paramètres de manière à minimiser l'écart entre la sortie ys du
système et celle y du multi-modèle. Le critère minimisé est :
1 N
Jg = 1 0 5 0 56
∑ y t − ys t
2 t =1
2
(II-22)
L'apprentissage global recherche une adéquation entre le système et le modèle global sans
forcément se soucier de la qualité de l'approximation locale produite par les modèles locaux.
Dans l'apprentissage global, les modèles locaux sont positionnés de sorte que leur interpolation
donne une bonne approximation du comportement du système. Il en résulte quelquefois, une
architecture multi-modèle qui fournit une bonne approximation globale du système mais avec
CRAN-INPL Page 63
des modèles locaux qui ne sont pas représentatifs du comportement observé dans leur zone de
validité. Ce problème mis en évidence dans [Murray-Smith, 1994] est lié au recouvrement plus
ou moins grand qui peut exister entre les zones de fonctionnement : les modèles locaux
totalement différents du comportement réel du système se compensent entre eux pour reproduire
le comportement global désiré.
Pour illustrer nos propos sur la différence entre les deux techniques d'apprentissage, nous
considérons deux exemples simples d'approximation de fonction non-linéaire statique. Le
premier exemple montre l'influence du recouvrement sur les résultats fournis par les deux
approches. Le second exemple illustre le caractère d'interpolation de l'apprentissage global et le
nombre réduit de modèles locaux nécessaires pour approcher la fonction non-linéaire. Les
résultats obtenus par l'apprentissage local y sont présentés et analysés.
¼ Exemple II-1
Soit à approcher la fonction non-linéaire statique suivante :
t cos0t5 t ∈ −5 , 5
y = exp −
2
20
Quatre modèles locaux sont utilisés à cet effet. Le choix de M=4 est motivé par le fait
que visuellement, la fonction cible présente 4 portions de droite. Deux cas sont étudiés : il y
a peu de recouvrement entre les fonctions d'interpolation, il y a un fort recouvrement entre
ces fonctions. Précisons que la position des fonctions d'interpolation a été fixée a priori. Les
résultats obtenus sont tracés sur les parties gauche et droite de la figure II-6.
L'examen des figures montre que pour un faible recouvrement entre les fonctions
d'interpolation, les méthodes d'apprentissage global et local fournissent des approximations
globales (trait grisé) de la fonction (représentée par des points) assez similaires. Les critères
quadratiques résiduels sont respectivement 0.58 et 0.68. Visuellement, on peut se rendre
compte que les modèles locaux (trait pointillé) identifiés préservent bien l'explication locale
des données. Si le recouvrement est plus fort, l'approximation locale fournie par le multi-
modèle identifié par l'apprentissage global se dégrade fortement alors que la qualité de
l'approximation globale est nettement améliorée (critère résiduel de 0.073). Deux des
modèles locaux identifiés s'écartent nettement de la forme de la fonction dans leur zone de
validité. La raison est la compensation entre les modèles locaux qui se combinent alors pour
reconstruire le comportement observé. L'aproximation globale de la fonction cible fournie
par le multi-modèle identifié sur la base d'un critère d'apprentissage local est mauvaise
(critère résiduel de 16.98). De plus, les modèles locaux identifiés sont "biaisés".
L'explication est la prise en compte des points des zones voisines dans l'estimation des
paramètres d'un modèles local à cause du fort recouvrement. Ces points ont un degré
d'activation certes faible mais ils ont tendance à modifier la pente de la droite. Il en résulte
une inclinaison de cette dernière dans la direction de ces points (afin de minimiser l'erreur
locale), ce qui affecte la qualité de l'approximation locale du modèle identifié. Plus fort sera
le recouvrement entre les fonctions d'interpolation, plus les modèles locaux identifiés par la
technique d'apprentissage local s'écarteront du comportement local.
Page 64 CRAN-INPL
Approche globale - Critère = 0.58 Approche globale - Critère = 0.073

1 1
0.5 0.5
0 0
-0.5 -0.5
-1 -1
-5 0 5 -5 0 5
Approche locale - Critère = 0.68 Approche locale - Critère = 16.98
1 1
0.5 0.5
0 0
-0.5 -0.5
-1 -1
-5 0 5 -5 0 5
Fonctions d'interpolation Fonctions d'interpolation
1 1
0.5 0.5
0 0
-5 0 5 -5 0 5
a- Faible recouvrement b- Fort recouvrement
Figure II-6 : Influence du recouvrement entre les fonctions d'interpolation sur la qualité de
l'approximation générée par les méthodes d'apprentissage local et global
¼ Exemple II-2
Ce deuxième exemple académique nous sert à expliquer pourquoi la technique
d'appentissage global a tendance à produire des modèles locaux peu explicatifs du
comportement local de la fonction cible. La fonction étudiée pour ce faire est :
4 9 0 5
y = 3 exp −t 2 sin πt
Visuellement, on constate 7 portions de courbes (numérotées de 1 à 7 sur la figure II-

7). Mais comme l'apprentissage global réalise une combinaison des modèles locaux,
seulement 4 modèles locaux (tracés en pointillé) sont suffisants pour bien approcher cette
fonction. On remarque une bonne adéquation entre la fonction cible (représentée par des
points) et son approximation (trait grisé). Les portions de courbe N°2, 4 et 6 ont été
approchées à l'aide des 4 modèles locaux. Ces portions de courbes sont assimilées à des
zones de passage entre les 4 modèles locaux : elles ne doivent donc pas être représentées par
des modèles locaux.
CRAN-INPL Page 65
2 Fonctions d'interpolation
1
1

0.8

0 0.6

-1
0.4
-2 0.2
-3 0
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
Figure II-7 : Illustration du caractère d'interpolation de l'apprentissage global
De façon générale, si la fonction non-linéaire statique comprend (2n+1) portions de

courbes, n+1 modèles locaux peuvent suffire pour l'approcher. Si on considère plus de
modèles locaux et si les fonctions d'interpolation de ces derniers se recouvrent trop, certains
des modèles locaux risquent d'être différents du vrai comportement local. Bien évidemment,
si l'objectif de la modélisation est la reconnaissance des portions de droite, il faut prendre au
minimum 2n+1 modèles locaux et procéder par l'apprentissage local. L'illustration est faite
sur la fonction non-linéaire statique qui est maintenant approchée par 7 modèles locaux. Les
résultats obtenus sont décrits sur les figures II-8. On constate sur la figure II-8-b que les 7
modèles locaux identifiés représentent bien la fonction cible dans leur zone de validité. Les
fonctions d'interpolation ont peu de recouvrement entre elles comparativement à celles
obtenues par l'apprentissage global. La conséquence est une approximation moins bonne de
la fonction statique comme le montre la figure II-8-a ; l'écart entre la fonction statique et le
multi-modèle est important surtout aux points de passage (points d'intersection entre les
fonctions d'interpolation) d'un modèle local à l'autre.
3 3
Modèles locaux
Multi-modèle 2
2 Fonction cible
Fonction cible
1
1
0
0
-1
-1 -2
-2 -3
1
-3 0
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
a-Comparaison multi-modèle – fonction cible b-Position des modèles locaux et fonctions

d'interpolation
Figure II-8 : Illustration de l'apprentissage local : structure multi-modèle à 7 modèles
locaux
Page 66 CRAN-INPL
II.4.2.3. Apprentissage avec un critère mixte

L'apprentissage local vise à préserver le caractère local de la description du système au
détriment de la qualité d'approximation globale alors que l'apprentissage global privilégie la
qualité globale au détriment de la signification locale des modèles locaux. Cet antagonisme entre
la qualité de la description locale et la précision de l'approximation globale peut être résolu en
combinant les deux approches d'identification de manière à bénéficier des avantages procurés par
chacune des approches. On peut définir un critère composite ou mixte qui est une combinaison
linéaire du critère local et du critère global [Yen et al., 1998-b] :
Jm = Jg + η J L (II-23)
Selon le choix du paramètre de pondération η, on privilégiera la précision globale du modèle ou

la qualité d'approximation locale des modèles locaux. Mais le choix de η est souvent subjectif.
II.5. CONCLUSION
Ce chapitre a été consacré à la présentation de l'approche multi-modèle. A travers cet
exercice, on a montré que le multi-modèle est un concept général regroupant des structures non-
linéaires comme les modèles flous de Takagi-Sugeno, les modèles multi-experts, ... L'idée
essentielle est la définition du modèle global du système comme la combinaison de modèles
locaux. Les notions à retenir sont : zone de fonctionnement, variables caractéristiques, fonction
de validité, fonction d'interpolation (ou d'activation), modèles locaux.
Différentes formes de modèles locaux sont possibles : modèles entrée-sortie,

représentation d'état pour ne citer que les plus couramment employées. La structure de ces
modèles peut être complexifiée à souhait mais on privilégie généralement des modèles locaux
affines afin de pouvoir leur appliquer les techniques d'analyse de l'automatique linéaire.
La problématique d'identification structurelle d'un multi-modèle a été discutée. Il ressort

de l'analyse que le nombre de modèles locaux à considérer dépend de la complexité de la
structure de ces derniers. Plus leur structure est simple, plus leur nombre sera important et vice-
versa. Différentes méthodes de décomposition de l'espace de fonctionnement ont été présentées ;
elles montrent les options qui s'offrent à l'utilisateur pour construire un multi-modèle.
Deux approches d'optimisation des paramètres ont fait l'œuvre d'une étude détaillée. La
méthode d'apprentissage global assure une bonne qualité d'approximation générale du multi-
modèle au détriment de la qualité locale de représentation. Si l'objectif de la modélisation ne
requiert pas la caractérisation du comportement local du système (exemples : modèles de
redondance analytique en diagnostic, modèles de prévision), cette approche s'applique
pleinement. Par contre, si on recherche une bonne description locale du système, il convient
d'appliquer la méthode d'apprentissage local.
CRAN-INPL Page 67
Les algorithmes utilisés pour l'optimisation paramétrique ainsi que les détails techniques
des procédures de recherche de la structure d'un multi-modèle sont exposés dans le chapitre
suivant. Ce chapitre traite de la partition grille et de la partition suivant un arbre de décision. Les
techniques de classification ne sont pas abordées à cause de leurs inconvénients (limitation à des
systèmes d'ordre faible, nécessité de définir l'espace caractéristique comme l'espace de
régression, limitation de la technique à des modèles à erreur d'équation) précédemment
mentionnés au paragraphe II.4.1.2.
Page 68 CRAN-INPL
CHAPITRE III
+++126+/+5#6+102#4#/'64+37'
'65647%674'..'&'5/7.6+
/1&'.'5
CRAN-INPL Page 69
6200$,5(
III.1. INTRODUCTION ......................................................................................................................................... 71
III.2. OPTIMISATION D'UN MULTI-MODÈLE A TRAVERS UNE PARTITION GRILLE...................... 72
III.2.1. FORMULATION MATHEMATIQUE DE LA GRILLE ......................................................................................... 72

III.2.2. CHOIX DES FONCTIONS DE VALIDITE INDIVIDUELLES ................................................................................ 74
III.2.2.1. Fonctions de validité d'allure gaussienne.........................................................................................................74
III.2.2.2. Fonctions de validité élaborées à partir de fonctions sigmoïdes......................................................................75
III.2.3. ALGORITHMES D'OPTIMISATION PARAMETRIQUE ...................................................................................... 78

III.2.3.1. Les paramètres des fonctions de validité sont fixés, optimisation d'un critère quadratique par rapport aux
paramètres des modèles locaux ........................................................................................................................80
III.2.3.2. Optimisation de tous les paramètres sur la base d'un critère à erreur d'équation ...........................................83
III.2.3.3. Optimisation de tous les paramètres sur la base d'un critère à erreur de sortie ..............................................88
III.2.4. OPTIMISATION DE LA STRUCTURE D'UN MULTI-MODÈLE DECOMPOSANT L'ESPACE CARACTERISTIQUE EN

GRILLE ................................................................................................................................................... 91
III.2.4.1. Critère de sélection de structure Jstruc...............................................................................................................91
III.2.4.2. Recherche des variables caractéristiques et de leur nombre de partitions.......................................................92
III.2.4.3. Simplification de la structure des modèles locaux............................................................................................93
III.3. REDUCTION DU NOMBRE DE MODELES LOCAUX GENERES DANS UNE GRILLE :

ELIMINATION ET FUSION DE MODELES......................................................................................................107
III.3.1. ÉLIMINATION DE MODÈLES LOCAUX........................................................................................................107
III.3.2. FUSION DE MODELES LOCAUX ................................................................................................................110
III.3.2.1. Etat de l'art.....................................................................................................................................................110

III.3.2.2. Algorithme de fusion ......................................................................................................................................113
III.3.3. APPLICATION DES TECHNIQUES D'ELIMINATION ET DE FUSION DE MODELES LOCAUX A LA RECHERCHE DE

STRUCTURE D'UN MULTI-MODELE ..........................................................................................................116
III.3.3.1. Espace caractéristique monodimensionnel.....................................................................................................117

III.3.3.2. Espace caractéristique multidimensionnel .....................................................................................................119
III.4. IDENTIFICATION D'UN MULTI-MODÈLE A TRAVERS UN PARTITIONNEMENT ITERATIF :

PARTITION K-D ....................................................................................................................................................129
III.4.1. DÉTERMINATION DE LA ZONE À DÉCOUPER.............................................................................................130

III.4.2. DÉCOUPAGE DE LA ZONE = k ................................................................................................................131
III.4.3. RECHERCHE DE L'AXE A DECOUPER ET DU POINT DE DÉCOUPAGE ..........................................................131
III.4.4. DÉFINITION DES FONCTIONS DE VALIDITÉ DES ZONES =K1 ET =K2 ............................................................132
III.4.5. OPTIMISATION DU POINT DE DÉCOUPAGE ET DES PARAMÈTRES DES MODÈLES LOCAUX.............................135
III.4.6. RAFFINEMENT DE LA STRUCTURE DES MODÈLES LOCAUX ........................................................................136

III.4.7. CONTINUATION ET FIN DE LA PROCÉDURE DE PARTITION K-D..................................................................136
III.5. CONCLUSION GENERALE DU CHAPITRE .........................................................................................140
Page 70 CRAN-INPL
Chapitre III Optimisation paramétrique et structurelle des multi-modèles
III.1. INTRODUCTION
Le chapitre précédent a été dédié à la présentation de l'approche multi-modèle ainsi qu'à
la problématique d'identification qu'elle soulève. Une étude méthodologique de ces problèmes a
été présentée dans le chapitre II sans montrer les aspects techniques de leur mise en œuvre.
Rappelons que les questions à se poser pour construire un réseau de modèles locaux sont :
• Combien faut-il de modèles locaux ?
• Quelle structure de modèles locaux faut-il choisir ?
• Comment choisir les variables caractéristiques zj et comment effectuer la

décomposition de l'espace de fonctionnement = ?
• Comment estimer les paramètres mis en jeu ?
Les réponses à ces diverses interrogations constituent le menu de ce chapitre. Le chapitre

est décomposé en trois parties : la première partie est consacrée à l'étude de la partition grille.
Dans la deuxième partie, nous proposerons à partir de la partition grille, une technique nouvelle
de construction des zones de fonctionnement par élimination et fusion des zones issues de la
partition initiale. Dans la troisième et dernière section du chapitre, nous traiterons de la méthode
de partition suivant un arbre de décision nommée partition k-d qui procède par découpages
successifs de l'espace caractéristique =. Le cadre de notre présentation se limite à ces méthodes
de partition où nous avons apporté une contribution à l'identification des systèmes par l'approche
multi-modèle. Nous invitons vivement le lecteur intéressé par les techniques de classification à
se référer aux travaux de Babuška [1998] pour un panorama de ces méthodes et leur application
à la modélisation multi-modèle.
RAPPELS
Avant de rentrer dans le vif du sujet, nous faisons ici quelques rappels pour situer le cadre
de l’étude. Le multi-modèle est exprimé par la formule générale :
M
05 1 05 6 1 05 6
y t = ∑ ω i z t , β fi ϕ t , θ i
i =1
(III-1)
où les ωi sont des fonctions d'activation dépendant de variables caractéristiques z(t). Les modèles
locaux fi considérés dans ce chapitre sont des modèles entrée-sortie affines ; la sortie yi(t) d'un
modèle local est exprimée par :
05 05
yi t = ϕ Ta t θ i (III-2)
CRAN-INPL Page 71
T
05 05
ϕa(t) est le vecteur de régression augmenté formé par : ϕ a t = ϕ T t 1 . θi est le vecteur des
paramètres du modèle fi. Ce vecteur est de dimension :
m
ni = ny + ∑ nur + 1 (III-3)
r =1
avec m le nombre d'entrées du système, n y , nur les ordres. La sortie du modèle local fi s’écrit
également de façon polynomiale - cf. (II-11) - :
m
05 0 5 05 05 3
yi t = − Ai q y* t + ∑ Bir q ur t − nkur + θ i 0
r =1
8 (III-4)
05
où y*(t) est soit la sortie y t du multi-modèle, si ce dernier est de type erreur de sortie (OE), soit
la sortie ys(t) du système, si le multi-modèle considéré est à erreur d'équation. y*(t) peut
également être la sortie du modèle local fi dans le cas de multi-modèle parallèle à modèles locaux
découplés. Ai et Bir sont des polynômes en q-1 (q-1 : opérateur retard). Pour des raisons de
simplicité des écritures mathématiques, nous supposerons que tous les modèles locaux ont la
même structure (les mêmes entrées ur, les mêmes ordres n y , nur et les mêmes retards nkur ).
III.2. OPTIMISATION D'UN MULTI-MODELE A TRAVERS UNE

PARTITION GRILLE
III.2.1. FORMULATION MATHEMATIQUE DE LA GRILLE
Soit un système non-linéaire qu'on désire représenter avec un multi-modèle comportant nz

variables caractéristiques z1 , ..., znz . On envisage de décomposer l'espace engendré par ces
variables sous la forme d'une grille. La construction de la partition grille repose sur la définition
de partitions sur le support (intervalle de variation) de chacune des variables caractéristiques.
Soit pj le nombre de partitions1 réalisées sur le support d’une variable zj. On attribue à
chaque partition 3l,j de zj, une fonction de validité individuelle2 µl,j (l=1, …, pj et j=1, …, nz).
Examinons maintenant comment sont construites les zones de fonctionnement (que nous
désignons encore par zones de validité). Par exemple, la zone de fonctionnement =1 est
construite par combinaison de la 1ère partition (31,j) de chacune des variables zj (cf. figure II-5-a).
Les contours de cette zone sont délimités par la fonction de validité ρ1, produit des fonctions de
validité individuelles µ1,j, c'est-à-dire ρ1 = ∏nj =z 1 µ1, j . L'architecture multi-modèle décrite par une
grille résulte de l'ensemble de ces combinaisons susceptibles d'être générées. Le nombre de
zones =i est alors :
1
En modélisation floue, on parle de modalités.
2
Elles correspondent aux fonctions d’appartenance en logique floue.
Page 72 CRAN-INPL
nz
M = ∏ pj
j =1
Pour un multi-modèle avec deux variables caractéristiques nz=2, et deux partitions sur le support
de ces variables, p1=2 et p2=2, la procédure de génération de toutes les zones de fonctionnement,
à partir des partitions individuelles, est résumée par le tableau III-1.
z1 z2
Fonction de
Zones =i Doublet ℑi
Partitions de z1 Partitions de z2 validité ρi
3l,1 → µ1,1 32,1 → µ2,1 3l,2 → µ1,2 32,2 → µ2,2
=1 1 0 1 0 µ1,1×µ1,2 (1,1)
=2 1 0 0 1 µ1,1×µ2,2 (1,2)
=3 0 1 1 0 µ2,1×µ1,2 (2,1)
=4 0 1 0 1 µ2,1×µ2,2 (2,2)
Tableau III-1 : Table de composition des zones de fonctionnement pour un multi-modèle à

2 variables caractéristiques et deux partitions sur le support de chaque variable
A chaque zone =i, on associe un nz-uplet noté ℑi qui code les partitions des variables zj
intervenant dans la construction de la zone =i. La fonction de validité de cette zone est déduite
comme précédemment, c'est-à-dire :
nz
ρ i = ∏ µ l(i ) , j i = 1, , M (III-5)
j =1 j
Dans cette équation, l'indice l (j i ), j désigne la partition particulière de zj intervenant dans la

construction de la zone =i. La valeur de la variable l (j i ) est fournie par le jème élément de ℑi en se
référant à la table de composition des zones. Par exemple pour la zone =3, l1( 3) = 2 et l2( 3) = 1 .
Les fonctions d'activation ωi sont issues de la normalisation des fonctions de validité ρi :
ρi
ωi = M
∑ ρk
k =1
On montre aisément que le terme au dénominateur dans cette équation se factorise sous la
forme :
M
∑ ρk
nz
= ∏ ∑ µ
pj
k =1 j =1 l =1
l, j
On en déduit que la fonction d'activation ωi est équivalente à l'expression suivante :
CRAN-INPL Page 73
µ

nz
=∏
l (j i ) , j = µ
nz
ωi
∑ µ
j =1
pj
∏
j =1
l (j i ) , j
l =1
l, j

qui est le produit de fonctions de validité individuelles normalisées µ l ( i ) , j . Ceci signifie, que dans
j
une partition grille, la contrainte de partition unité sur les fonctions d'activation ωi induit
implicitement une normalisation sur les fonctions individuelles µl,j des variables caractéristiques.
III.2.2. CHOIX DES FONCTIONS DE VALIDITE INDIVIDUELLES
Il existe une kyrielle de choix pour les fonctions de validité. Les paramètres de ces
fonctions intervenant de façon non-linéaire dans l'expression du multi-modèle, leur optimisation
passe par des techniques de recherche itérative. D'un autre côté, les fonctions de validité doivent
être choisies de manière à assurer des propriétés lisses à l'approximation du système. Un choix
particulier sera donc motivé par les algorithmes d'optimisation de paramètres qu’on mettra en
œuvre et/ou la qualité d'interpolation désirée. On peut distinguer les situations suivantes :
• les fonctions de validité individuelles µl,j sont construites à partir de fonctions à dérivées
non continues comme les fonctions triangulaires ou trapézoïdales : les algorithmes de type
Newton ne peuvent s'appliquer. On a recours à des techniques comme la méthode du
simplexe de Nelder-Mead ou à des algorithmes génétiques. Des exemples d'optimisation
des paramètres de fonctions triangulaires ou trapézoïdales à partir d'algorithmes génétiques
sont reportés dans [Siarry et Guely, 1998], [Glorennec, 1999]. Par ailleurs, les fonctions de
validité continues par morceaux réalisent une interpolation linéaire alors que dans certaines
applications, il est appréciable d'avoir une transition lisse entre les modèles locaux,
• les fonctions de validité µl,j sont à dérivées continues, à l'exemple des fonctions
gaussiennes ou sigmoïdes : les techniques d'optimisation de type Newton s'appliquent alors
pleinement. Ces fonctions présentent l'avantage de réaliser des interpolations lisses entre
les modèles locaux. Pour ces raisons, nous préférerons dans la suite ce type de fonctions de
validité.
III.2.2.1. Fonctions de validité d'allure gaussienne
L'utilisation des fonctions de validité d'allure gaussienne a été popularisée par les
techniques "neuro-floues" [Jang, 1993]. Mais elles présentent l'inconvénient d'entraîner des
problèmes de réactivation lorsqu'elles sont normalisées [Shorten et Murray-Smith, 1997]. Ce
phénomène est illustré sur la figure III-1-b : la deuxième fonction d'interpolation décroît à partir
de son centre (dans le sens des abscisses croissantes) jusqu'à l'abscisse 0.72 où elle commence à
réactiver. Cette fonction d'interpolation devient multi-modale : le concept de modèles localement
valables n'est plus valide.
Page 74 CRAN-INPL
1 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
a- Fonctions de validité d'allure gaussienne b- Fonctions d'interpolation issue de la normalisation des

fonctions de validité
Figure III-1 : Illustration du phénomène de réactivation [Shorten et Murray-Smith, 1997].
Le phénomène de réactivation est évité si toutes les fonctions d'allure gaussienne définies
sur le support d'une variable zj ont la même dispersion. Pour se prémunir contre une éventuelle
réactivation, nous imposons des dispersions identiques pour les fonctions de validité
individuelles µl,j lorsque nous utilisons les gaussiennes. Par conséquent, les fonctions de validité
afférentes à une variable zj ( j = 1,..., nz ) sont définies par :
3 z 0t 5 − c 8
2
µ l, j 3z 0t58 = exp − 2σ
j
j
2
l, j
l = 1,..., p j (III-6)
j
cl,j est le centre. σj est la dispersion et elle est commune à toutes les fonctions µl,j ∀ l = 1, ..., p j .
Avec cette contrainte, la définition des pj partitions 3l,j sur le support d’une variable
caractéristique zj nécessite pj+1 paramètres (pj centres et la dispersion commune) contre 2pj
paramètres dans le cas de fonctions gaussiennes non contraintes à avoir la même dispersion.
III.2.2.2. Fonctions de validité élaborées à partir de fonctions sigmoïdes
En vue de garder une certaine flexibilité pour déterminer les zones de fonctionnement, on
peut opter pour des fonctions de validité individuelles µl,j construites à partir de sigmoïdes. Pour
éviter l’étape de normalisation, les fonctions de validité sont définies de sorte qu'elles
garantissent la contrainte de partition unité : leur pente est réglée de manière à assurer en chaque
pj
point que la somme des fonctions de validité individuelles vaut 1, c'est-à-dire ∑ µ l, j = 1 . Ce
l =1
faisant, on garantit automatiquement la contrainte de partition unité des fonctions d'activation ωi.
Pour illustrer leur construction, inspirons-nous de fonctions trapézoïdales formant une

partition forte. Un trapèze est obtenu en faisant la différence de deux fonctions de saturation. Un
exemple est présenté sur la figure III-2. Considérons deux fonctions de saturation, tracées en trait
foncé sur le schéma de gauche. Chaque fonction est parfaitement déterminée par 2 points. La
première, par exemple est définie par les points $1 et $2 (de coordonnées respectives a1 et a2).
CRAN-INPL Page 75
~
L'approximation lisse de cette fonction de saturation par une fonction tangente hyperbolique µ 1
est représentée en trait grisé sur la figure III-2-a. Le centre de la tangente hyperbolique est le
milieu de l'intervalle [a1, a2] ; sa dispersion dépend de l'étendue de cet intervalle. Il en va de
même pour la définition de la deuxième fonction de saturation. A droite, se trouvent les fonctions
trapézoïdales (représentées en trait foncé) qu'on obtient en faisant la différence de ces deux
fonctions de saturation. L’approximation avec les fonctions sigmoïdes est également illustrée sur
ce schéma (trait grisé).
$1 $2 $4 $1 $2 $3 $4
$3
1 1
~
µ ~
1 µ 2
0.5 0.5
0 z 0 z
a1 c1 a 2 a3 c2 a4
a 1 c1 a 2 a3 c2 a4
a- b-
Figure III-2 : Construction des fonctions de validité trapézoïdales à partir de fonctions de

saturation. Approximation de ces dernières avec des fonctions sigmoïdes.
De façon générale, pour pj partitions 3l,j (l = 1,..., p j ) définies sur le support d'une
variable caractéristique zj(t) ( j = 1,..., nz ), les fonctions de validité µl,j correspondantes sont
obtenues à partir des formules suivantes :
3 0 58 ~ z t
µ1, j z j t = 1 − µ 3 0 58
1, j j
µ l, j 3z 0t58 = µ~ 3z 0t58 − µ~ 3z 0t58

j l −1, j j l, j j l = 2,, p j − 1 (III-7)
µ pj , j 3z 0t58 = µ~ 3z 0t58
j p j −1, j j
~ sont des fonctions sigmoïdes définies par :

Les µ l, j
1 + tanh
z 0t 5 − c
j l, j
σ
~ z t =
µ l, j j 3 0 58 2
l, j
l = 1,, p j − 1 (III-8)
Les paramètres cl,j et σl,j sont respectivement le centre et la dispersion de la fonction sigmoïde
~ . Pour les définir, on se sert des coordonnées des points sommets $ , …, $ (voir figure III-
µ l, j 1 p
2). Ils sont déduits par les relations suivantes :
a2 l , j + a2l −1, j
cl , j = l = 1,, p j − 1 (III-9-a)
2
a2l , j − a2 l −1, j
σl, j = l = 1,, p j − 1 (III-9-b)
γ
Page 76 CRAN-INPL
Le paramètre γ (γ ∈ [2, 5]) fixé a priori par l'utilisateur permet de régler la pente de la fonction
tangente hyperbolique comme le montrent les courbes de la figure III-3. La fonction de
saturation est en trait noir alors que les fonctions sigmoïdes sont en trait grisé. Pour γ → 2,
l'approximation de la pente de la fonction de saturation est plus précise et pour γ → 5, on
privilégie l'approximation du plateau. γ=4 est une position intermédiaire.
1 1 1
γ=2 γ=4 γ=5
0.5 0.5 0.5
0 0 0
-1 0 1 -1 0 1 -1 0 1
Figure III-3 : Allure de la fonction tangente hyperbolique en fonction du paramètre γ.
La paramétrisation des équations (III-9) impose aux paramètres al,j de respecter les
contraintes suivantes :
zmin, j < a1, j < a2, j < < a2 p j −2, j < zmax, j
où zmin, j et zmax, j sont respectivement les bornes inférieure et supérieure de l'intervalle de

variation de la variable zj. La prise en compte directe de ces contraintes lors de la phase
d'optimisation paramétrique peut se faire en utilisant des algorithmes génétiques [Glorennec,
1999] ou une technique d'optimisation sous des contraintes inégalités comme la "programmation
quadratique séquentielle" (méthode SQP). Mais l'application des procédures classiques basées
sur le gradient reste possible, en modifiant simplement la paramétrisation des fonctions de
validité de façon à inclure les contraintes mentionnées ci-dessus. Pour cela, il suffit de "chaîner"
les paramètres al,j entre eux, ce qui donne, par exemple, la paramétrisation suivante :
a0, j = zmin, j (III-10-a)
− ds2, j
3 8
as, j = as −1, j + zmax, j − as −1, j e s = 1,, 2( p j − 1) (III-10-b)
Les équations (III-10) assurent que les paramètres as,j se trouvent sur le support de la variable
caractéristique. Mais elles ne garantissent pas qu’ils soient tous distincts. Cela peut être gênant
dans la mesure où la dispersion σl,j, calculée par la formule (III-9-b), deviendra nulle si les points
$2l-1,j et $2l,j sont confondus. Si on se réfère à la figure III-2, ce problème correspond à $1 et $2
confondus. Pour l'éviter, on impose une distance minimale dmin,j, fixée a priori, entre les points
a2l-1,j et a2l,j pour tout l=1, …, pj-1. Les paramètres ds,j pour s=1, …, 2(pj-1) constituent alors les
degrés de liberté pour positionner les fonctions de validité individuelles µl,j.
CRAN-INPL Page 77
Remarques
¬ L'utilisation de fonctions sigmoïdes formant une partition unité réduit le nombre de

paramètres à estimer par rapport à des fonctions gaussiennes non contraintes à avoir la
même dispersion. En effet, si on considère pj partitions 3l,j sur l'intervalle de variation de la
variable zj, il faut définir pj-1 fonctions sigmoïdes soit 2(pj - 1) paramètres à estimer pour
cette variable.
¬ On peut réduire le nombre de paramètres à pj+1 en considérant une fonction sigmoïde de

base et en construisant les autres par opération de translation.
¬ Les paramètres à estimer sont les paramètres ds,j, pour s=1, …, 2(pj-1), desquels on déduit
les coordonnées as,j, ensuite les centres cl,j et les dispersions σl,j. Dans la suite, les
paramètres ds,j définissant les partitions sur le support d'une variable zj seront regroupés
dans le vecteur βj.
¬ On vérifie aisément par les équations (III-7) que la somme des fonctions de validité
définies sur le support d'une variable caractéristique est égale à 1. Par conséquent, les
fonctions d'interpolation ωi coïncident avec les fonctions de validité ρi.
¬ Le lien avec les fonctions trapézoïdales n'est pas indispensable. On peut en effet
directement raisonner sur les fonctions sigmoïdes et transférer les contraintes sur le centre
et la dispersion des sigmoïdes.
III.2.3. ALGORITHMES D'OPTIMISATION PARAMETRIQUE
On suppose les variables caractéristiques zj définies ainsi que le nombre pj de partitions

sur leur domaine. La structure des modèles locaux est également supposée connue. La prochaine
étape est l'ajustement des paramètres du multi-modèle sur la base des données expérimentales.
T
Soit θ = θ 1T θ T2 θ TM , le vecteur formé par la concaténation des vecteurs de
paramètres de tous les modèles locaux. La dimension de ce vecteur est :
nθ = M × n (III-11)
où n est la dimension commune à tous les vecteurs de paramètres locaux θi donnée par (III-3).
T
Soit β = β 1T β T2 β Tnz , le vecteur total des paramètres des fonctions de validité
individuelles. Sa dimension est :
nz
3
nβ = ∑ 2 p j − 1
j =1
8 (III-12)
Page 78 CRAN-INPL
T
Notons Θ = β T θ T , le vecteur global de paramètres formé par la concaténation des vecteurs
β et θ.
Le critère optimisé est le critère d'apprentissage global défini à l'équation (II-22) que nous
rappelons ici :
1 N
Jg =
2 t =1
1 0 5 0 56
∑ y t − ys t
2
(III-13)
Dans la suite du document, sauf mention contraire, le critère d'identification paramétrique est Jg.
Le problème de recherche du minimum du critère Jg par rapport à Θ n'ayant pas de

solution analytique, on a recours à des techniques itératives d’optimisation non-linéaire.
L'estimation des paramètres est dérivée de la formule générale suivante :
−1
Θ 0k +15 = Θ 0k 5 − η0k 5H0k 5G0k 5 (III-14)

où Θ 0k 5 est l'estimation obtenue à l'itération (k). η(k) est le coefficient de relaxation, G(k) une
estimation du gradient du critère Jg à l'itération (k) et H(k) une matrice qui modifie la direction de
recherche. La mise en œuvre de la recherche itérative décrite par (III-14) peut être réalisée "en
ligne " ou "hors ligne". Nous restreignons notre étude au cas "hors ligne" où la procédure de
mise à jour des paramètres fait appel à chaque itération à l’ensemble des données
d’identification. L’implémentation de la procédure en "ligne" ne présente pas de difficulté
particulière.
Selon le choix de la matrice H, on distingue différentes méthodes d'optimisation non-

linéaire dont les principales ont été exposées au chapitre I. Nous adoptons la méthode de
Levenberg-Marquardt (LM) qui possède de bonnes propriétés de convergence même pour des
problèmes mal conditionnés [Sjöberg et Viberg, 1997].
L'optimisation simultanée des paramètres des fonctions de validité et des modèles locaux
par une technique itérative est en général lourde. La raison est la dimension élevée de Θ. De
plus, dans le cas de la grille, il peut exister des zones plus ou moins dépourvues de données
d'apprentissage ; l'optimisation directe du vecteur Θ est sujette à des problèmes numériques. Il
est alors difficile d'assurer de bonnes propriétés de convergence de l'algorithme d'optimisation.
Dans la pratique, on essaie de simplifier le problème, soit en supposant connue la position des
zones de fonctionnement, soit en mettant en œuvre une procédure à deux niveaux qui alterne
entre l'optimisation du vecteur θ et celle de β. Nous présentons dans les paragraphes suivants,
différents algorithmes d'apprentissage, de la méthode la plus simple où les paramètres des
fonctions de validité sont fixés, à la méthode générale où tous les paramètres sont optimisés.
CRAN-INPL Page 79
III.2.3.1. Les paramètres des fonctions de validité sont fixés, optimisation d'un
critère quadratique par rapport aux paramètres des modèles locaux
La configuration la plus simple qu'on puisse rencontrer est celle où les fonctions de
validité sont fixées a priori. Les paramètres recherchés sont alors ceux des modèles locaux θ. Si
ces modèles sont linéaires par rapport à leurs paramètres (multi-modèle à erreur d'équation), le
critère Jg est quadratique par rapport au vecteur θ dont l'estimation est fournie par la solution
analytique des moindres carrés. Par contre, pour des modèles locaux dynamiques de type erreur
de sortie, le critère n'est pas quadratique par rapport à θ car le vecteur de régression ϕ(t)
0 5
comporte des sorties décalées y t - k (k=1, …, ny) du multi-modèle. L'estimation du vecteur θ
passe alors par une technique itérative. Néanmoins, en remplaçant dans le vecteur de régression,
0 5
les sorties y t - k par les mesures ys(t-k) de la sortie du système, le critère Jg devient quadratique
par rapport au vecteur θ . On passe d'un critère à erreur de sortie à un critère à erreur d'équation.
4
Pour un ensemble de N+na observations - na = max ny , nu1 + nku1 , , num + nkum 9 -, on
déduit des équations (III-1) et (III-2), l'écriture matricielle :
nθ ×1
Y = Φ gθ θ∈ (III-15)
avec les définitions suivantes :

N × nθ
Φ g = W1Φ a W2 Φ a WM Φ a Φg ∈ (III-16-a)
ϕ 1n + 16
T
a a
ϕ 1n + 26
T
N ×n
Φ = a a
Φa ∈ (III-16-b)
a

ϕ 1 N + n 6
T
a a
N + na
W = diag ω 0t 5
i i t = na +1
Wi ∈ N×N
i = 1,, M (III-16-c)
Wi est une matrice de pondération diagonale dont les éléments sont constitués par les valeurs de
la fonction d'interpolation ωi(t) aux différents instants. Φa est la matrice de régression augmentée
comprenant les variables explicatives de la sortie du système. La minimisation du critère Jg
donne la solution analytique :
θ = R −1 Φ Tg Y
3 8 N ×1
Y∈ (III-17)
R = Φ Tg Φ g
Compte tenu de la structure de la matrice Φg, une vue éclatée de l'estimation θ est donnée par :
Page 80 CRAN-INPL
−1
Φ Ta W12 Φ a Φ Ta W1WM Φ a "# Φ W Y "#
T
a 1
θ = ## ## (III-18)
!Φ a WM W1Φ a
T
Φ Ta WM
2
Φa $ !Φ W Y $
T
a M
Cette équation montre l'interaction qui existe entre les modèles locaux lorsque leurs paramètres
sont identifiés par la technique d'apprentissage global. On constate en effet que les éléments
diagonaux de la matrice d'information R portent sur les points appartenant aux différentes zones
de fonctionnement =1 à =M. Les termes hors diagonaux représentent le recouvrement qui existe
entre les modèles locaux. Pour un multi-modèle à une variable caractéristique dont les partitions
sont représentées par des fonctions de validité triangulaires ou trapézoïdales, il est possible
d'établir que la matrice R est une matrice tridiagonale par blocs. Ceci simplifie le calcul de
l'inverse de R d'une part et permet de montrer d'une façon plus précise, l'interdépendance qui
existe entre les vecteurs de paramètres des modèles locaux. Comparons l'équation (III-18) avec
l’estimation donnée par l’apprentissage local, que nous explicitons ci-dessous.
Apprentissage local
On considère que le critère local est quadratique par rapport aux paramètres des modèles
locaux. Pour N+na observations, les critères locaux associés aux modèles fi s'écrivent :
1 2
Ji = Φa θi − Y Wi
i = 1,, M (III-19)
2
avec la définition précédente de la matrice de pondération Wi. Les estimateurs des paramètres
des modèles locaux sont alors donnés par :
−1
3
θ i = Φ Ta Wi Φ a 8 Φ Ta Wi Y i = 1,, M (III-20)
A partir de cette série d'équations, on peut écrire le vecteur global de paramètres sous la forme :
−1
Φ a W1Φ a
T
0 0 "# Φ W Y "#T
a 1
θ =
0 ## ## (III-21)
0
0 Φ Ta WM
#
Φ #$ !Φ W Y #$
#
! 0 a
T
a M
avec une pseudo-matrice d'information diagonale.
Comparaison des deux estimations
En comparant les équations (III-18) et (III-21), on constate que dans l'approche globale,
la matrice d'information comporte des termes relatifs au recouvrement entre les modèles locaux.
Par ailleurs, les termes diagonaux de la matrice d'information font intervenir le carré de la
matrice de pondération contrairement à l'approche locale. Les estimations fournies par les deux
CRAN-INPL Page 81
méthodes sont quasiment égales s'il y a peu de recouvrement entre les modèles locaux. Compte
tenu de la contrainte de partition unité, peu de recouvrement signifie que les fonctions
d'activation ont des fronts plutôt raides. Le noyau d’une zone =i (ensemble des points z(t) de la
zone tels que ωi(z(t) )≈1) est quasiment confondue avec son support (ensemble des points ϕ(t) de
la zone tels que ωi(z(t) )≠0). Les produit croisés WiWj (i≠j) sont quasiment nuls3 ; les termes non
diagonaux de la matrice d’information dans l’équation (III-18) tendent vers des matrices nulles.
De plus, on a : Wi2 → Wi . L'approximation globale tend alors vers l'approximation locale. Les
qualités d'approximation locale du système obtenues par les deux méthodes d'apprentissage sont
alors semblables : c’est ce que nous avons montré dans l’exemple II-1 du chapitre II.
,,, 3UREOqPHVGHFRQGLWLRQQHPHQWGHO·HVWLPDWLRQSDUDPpWULTXH
L'inversion de la matrice d'information R dans l’approche globale peut être sujette à des
problèmes numériques liés à son mauvais conditionnement. Ce problème a été étudié dans le
chapitre I (voir paragraphe I.4.1.1) et en résulte une estimation de θ numériquement instable.
Nous examinons ci-dessous les facteurs pouvant induire ce problème en modélisation multi-
modèle .
: Causes du mauvais conditionnement
Dans le cadre de l’identification d’un multi-modèle, un certain nombre de causes

responsables du mauvais conditionnement de la matrice d’information peuvent être répertoriées.
Ces causes peuvent être :
• numériques : un échantillonnage trop rapide du système peut rendre des colonnes de la

matrice de régression augmentée Φa quasiment colinéaires. Elle sera mal conditionnée
induisant inévitablement le mauvais conditionnement de la matrice de régression globale
Φg. Les perturbations aléatoires affectant les mesures peuvent également provoquer ce
problème. Ce raisonnement reste valable si l’estimation des paramètres est réalisée avec
l’approche locale,
• structurelles : la surparamétrisation due au nombre parfois excessif de modèles locaux (ce

problème est typique de la grille où le nombre de sous-modèles devient très vite explosif)
et/ou l'absence ou l’insuffisance de données d'apprentissage dans certaines zones de
fonctionnement sont des causes plausibles du mauvais conditionnement. Si des zones de
fonctionnement sont dépourvues de données, les matrices de pondération Wi
correspondantes sont quasiment nulles. On remarque, à partir de l’équation (III-16-a), qu’il
va exister des blocs de Φg qui seront presque nuls ce qui induira forcément une perte de
rang de la matrice d’information,
• liées à un recouvrement trop important entre les modèles locaux. Pour deux zones =i et =j
3
On peut parler d’orthogonalité des fonctions d’activation ωi.
Page 82 CRAN-INPL
se recouvrant fortement, on a la matrice de pondération Wi ≈ W j . Les blocs matrices WiΦa

et WjΦa sont quasiment semblables. Il en résulte une "forte" colinéarité entre des colonnes
de la matrice de régression Φg et donc là aussi une perte de rang de la matrice
d'information.
La solution apportée à ce problème de mauvais conditionnement est la régularisation

(voir équation I-28). Le paramètre de régularisation est calculée de sorte à assurer un
conditionnement donné de la matrice d'information (voir équation I-30).
Remarque
¬ Murray-Smith et Johansen [1997-b] ont établit que l'apprentissage local introduit une
régularisation implicite dont le paramètre de réglage est contrôlé par le recouvrement entre
les modèles locaux (en jouant sur ce recouvrement, on arrive à améliorer les performances
de généralisation du multi-modèle). En effet, l'apprentissage local est moins affecté par le
problème de conditionnement car il ne gère pas l'interaction entre les modèles locaux. De
plus la matrice d'information pondérée ΦaTWiΦa a une dimension réduite. Le calcul de
son inverse est donc plus stable. Même quand elle n'est pas stable, il y a compensation
avec le terme ΦaTWiY , ce qui donne une estimation acceptable du vecteur de paramètres
local.
III.2.3.2. Optimisation de tous les paramètres sur la base d'un critère à erreur
d'équation
Si des connaissances a priori sur la position des zones de fonctionnement ne sont pas
disponibles, les paramètres de la structure multi-modèle doivent être optimisés au moyen d'une
procédure itérative en raison de la non-linéarité du modèle global par rapport à ses paramètres.
Cependant, en supposant que le critère Jg est toujours quadratique par rapport aux paramètres des
modèles locaux (cas des modèles locaux linéaires par rapport à leurs paramètres ou d'un critère à
erreur d'équation), on peut mettre en œuvre un algorithme à deux niveaux : elle alterne entre
l'optimisation des paramètres β des fonctions de validité par une procédure non-linéaire, θ étant
fixé et l'optimisation des paramètres θ des modèles locaux par l'estimateur des moindres carrés
(III-17), éventuellement régularisés (I-29-a), β étant fixé. Les étapes de la procédure
d'optimisation sont résumées dans l'algorithme 1.
CRAN-INPL Page 83
ALGORITHME 1 : OPTIMISATION A DEUX NIVEAUX MC+LM
[1] Initialisation : k=0, β 0 k 5 = β 0 . Εn déduire θ β 4 0 59

k
par la formule des
moindres carrés (III-17) éventuellement régularisés (I-29-a).
Calculer le critère Jg(0) correspondant à ces paramètres initiaux.
[2] Déterminer le vecteur β 0 k+15 par la relation :

−1
β 0 k +15 = β 0 k 5 − η 0βk 5 H a β 0 k 5 + λβ0 k 5 I
4 9 G β 0 k 5
4 9
Déterminer θ β 0 k+15 par les moindres carrés régularisés (s’il y a lieu).
4 9
[3] Calculer le critère Jg(k+1) correspondant aux estimations β 0 k+15 et θ β 0 k+15 . 4 9
Si Jg(k) < Jg(k+1), retourner à l'étape [2] en modifiant le coefficient de
relaxation η 0βk 5 ou le coefficient de régularisation λβ0 k 5 .
[4] Incrémenter k. Réitérer à partir de l'étape 2 jusqu'à obtenir β 0 k +15 − β 0 k 5 < ε

0 5 05
ou J g k + 1 − J g k < ε .
L'adaptation de η 0βk 5 est réalisée suivant l'heuristique décrite au paragraphe I.4.1.2 :
augmenter sa valeur si le critère décroît, diminuer sa valeur s'il y a divergence du critère. λβ0 k 5
permet de se prémunir contre la singularité de la matrice Ha. Il est adapté selon le même schéma
heuristique que η 0βk 5 . Le gradient G et le hessien approché Ha du critère Jg nécessaires à la mise
en œuvre de la méthode de Levenberg-Marquardt s'obtiennent par les équations :
1 0 5 0 56 ∂∂yβ0t5
N
4 9
G β 0 k 5 = ∑ y t − ys t (III-22-a)
t =1 β = β 0 k 5
4 9
Ha β 0k 5 = ∑
N
05 05
∂y t ∂y t
(III-22-b)
t =1 ∂β ∂β
T
β = β 0 k 5
A partir de la formulation générale (III-1) et (III-2), on exprime la fonction de sensibilité

∂y ∂β sous la forme :
05
∂y t
=∑
M ∂ω z t , β
i 1 05 6 05
ϕ Ta t θ i (III-23)
∂β i =1 ∂ β
Page 84 CRAN-INPL
La suite du calcul est développée pour des fonctions de validité de type sigmoïde. Les formules
sont semblables pour des fonctions gaussiennes. Elles sont décrites à l’annexe B.
Puisque les fonctions de validité ρi vérifient la contrainte de partition unité, on exprime à

105 6
partir de (III-5), la dérivée ∂ω i z t , β ∂β par :
105 6
∂ω i z t , β
=
∂ nz
∏ µ (i ) z j t , β j 3 05 8 i = 1,, M (III-24)
∂β ∂β j =1 l j , j
qui s’écrit encore :
105 6
∂ω i z t , β 3 05 8
nz ∂µ l ( i ) , j z j t , β j nz
∂β
=∑
j =1
j
∂β
× ∏ µ l ( i ) ,h z h t , β h
h =1 h
1 05 6
h≠ j
Rappelons que l'indice l (j i ) , j désigne la partition particulière de la variable zj intervenant dans la

définition de la zone =i. La dérivée ∂µ l , j z j t , β j ∂β est non nulle que pour les éléments de β
3 05 8
représentant les paramètres des partitions définies sur l'intervalle de variation de la variable zj.
Ces paramètres sont regroupés dans le vecteur β j = d1, j d2, j d2

"#T . L’équation
! 3 p −18, j $
j
précédente se décompose en une série de dérivées ∂ω i z t , β ∂β j fournies par : 105 6

105 6
∂ω i z t , β 3 05 8
∂µ l ( i ) , j z j t , β j nz
∂β j
=
j
∂β j h =1 h
1 05 6
∏ µ l ( i ) ,h z h t , β h i = 1,, M j = 1,, nz (III-25)
h≠ j
Explicitons maintenant les dérivées ∂µ l , j z j t , β j ∂β 3 05 8 j

(l=1, …, pj ; j=1, …, nz). De la définition
des fonctions de validité individuelles à l'équation (III-7), on constate que ces dérivées se
~ z t , β ∂β
déduisent de celles des sigmoïdes ∂µ l, j j j 3 05 8 j
(l=1, …, pl-1) par les relations suivantes :
3 0 5 8 = − ∂µ~ 3z 0t 5, β 8
∂µ1, j z j t , β j 1, j j j
(III-26-a)
∂β j ∂β j
3
∂µ l , j z j (t ), β j 8 = ∂µ~ 3z 0t5, β 8 − ∂µ~ 3z 0t5, β 8
l −1, j j j l, j j j
l = 1,, p j − 1 (III-26-b)
∂β j ∂β j ∂β j
3 0 5 8 = ∂µ~
∂µ pl , j z j t , β j p j −1, j 3z 0t5, β 8
j j
(III-26-c)
∂β j ∂β j
CRAN-INPL Page 85
l, j j j 3 05 8
~ z t , β ∂β des fonctions tangentes hyperboliques par rapport à β
Les dérivées ∂µ
j
j
s’obtiennent à travers une dérivation par cascade. A partir de la définition des fonctions
sigmoïdes à l'équation (III-8), on obtient :
1 − tanh2 z j 0t 5 − cl, j z j 0t 5 − cl, j

~ z t ,β
∂µ l, j j j3 0 5 8 = σ l, j ∂ σ l, j
(III-27-a)
∂β j 2 ∂β j
∂
z 0t 5 − c
j l, j
∂β j = −
z 0 t 5 − c ∂σ
j l, j l, j
−
1 ∂cl , j
σ l, j
σ ∂β 2
l, j j σ l , j ∂β j
(III-27-b)
Les dérivées des centres et des dispersions par rapport au vecteur βj se déduisent à partir des
définitions (III-9). Elles s’écrivent :
∂cl , j ∂a2l, j + ∂a2l−1, j "#

= 0.5 l = 1, , p j − 1 (III-28-a)
∂β j ! ∂β j ∂β j #$
∂σ l , j
= γ −1
∂a2l, j − ∂a2l−1, j "# l = 1, , p j − 1 (III-28-b)
∂β j ! ∂β j ∂β j #$
Finalement, les dérivées ∂as, j ∂β j sont données par :
∂ as , j ∂as −1, j 1 − e − 2 d
− ds2, j ∂d s , j − ds2, j
∂β j
=
∂β j s, j
∂β j
3 zmax, j − as −1, j e 8 (III-29-a)
∂d s , j
= [0 0 1 0 0]T (III-29-b)
∂β j ,
position s
pour s = 1, , 2( p j − 1) et a0, j = zmin, j
Les équations (III-23) à (III-29) donnent la fonction de sensibilité de la sortie du multi-modèle

par rapport aux paramètres des fonctions de validité ; cette fonction de sensibilité sert alors à
calculer le gradient et le hessien approché du critère (équations III-22).
Dans cet algorithme, toute modification du vecteur β est immédiatement suivie par une
mise à jour de l'ensemble des paramètres θ des modèles locaux. L'avantage de cette procédure à
deux niveaux est la réduction de la taille de l'espace paramétrique. A chaque itération de
l'algorithme, l'estimateur des moindres carrés fournit une solution optimale dans l'espace des
paramètres des modèles locaux, ce qui accélère la convergence de l'algorithme. D'autre part, les
paramètres de régularisation sont réglés de façons différentes : dans le calcul de θ , il est
déterminé de façon à assurer un bon conditionnement de la matrice d'information R (cf. équation
I-30) ; dans l'estimation de β , le paramètre de régularisation est adapté de manière heuristique.
Page 86 CRAN-INPL
Sjöberg et Viberg [1997] ont établi que le découplage des deux espaces paramétriques permet
d'obtenir des propriétés de convergence (vitesse de convergence, minimum) similaires voire
meilleures qu'une optimisation globale surtout si le problème d'estimation paramétrique est mal
conditionné.
Remarques
¬ La procédure d'estimation paramétrique à deux niveaux (optimisation non-linéaire et

moindres carrés) est transposable à la technique d'apprentissage local mais moyennant
quelques modifications. La première modification porte sur le fait que l'algorithme de
Levenberg-Marquardt ne peut être utilisé pour optimiser les paramètres des fonctions de
validité à cause de la forme particulière du critère local JL (II-21) minimisé. Pour rappel, JL
est défini par :
1M N
JL = 0 5 1 0 5 0 56
∑ ∑ ω i t yi t − ys t
2 i =1 t =1
2
Le hessien ∂ 2 J L ∂β ∂β T s'écrit alors :
∂2 J L
=
1 M N ∂ 2ω i t
∑∑
0 5 1 0 5 0 56
yi t − ys t
2
∂β ∂β T 2 i =1 t =1 ∂β ∂β T
Comme les paramètres β des fonctions de validité n'interviennent pas dans l'erreur
05 05
quadratique ( yi t − ys t )2, il n'est pas possible d'approcher le hessien à partir des termes de
premier ordre. Le calcul du hessien nécessite une double dérivation ∂ 2ω i ∂β ∂β T qui est
lourde. Pour estimer les paramètres β, l'algorithme de Levenberg-Marquardt est donc
remplacé par celui de Quasi-Newton (voir paragraphe I.4.1.2.) qui ne nécessite pas le
calcul analytique explicite du hessien mais seulement la connaissance du gradient qui est
fourni par :
∂J L 1 N M ∂ω i t
= ∑∑
0 5 1 y0t5 − y 0t56 2
∂β 2 t =1 i =1 ∂β
i
La fonction de sensibilité est entièrement déterminée par les équations (III-24) à ((III-40)).
La deuxième modification concerne l'étape de calcul des paramètres des modèles locaux :
le vecteur de paramètres β étant fixé, ceux des modèles locaux sont estimés
individuellement en minimisant chacun des critères Ji. L'estimation des θi est obtenue par
les moindres carrés pondérés (voir équation (III-20)).
¬ Dans l'approche locale d'estimation des paramètres, on obtient à la convergence de

l'algorithme, la position des zones de validité des modèles locaux. Ces zones désignent les
sous-espaces de l'espace caractéristique où le système peut être approché par des
CRAN-INPL Page 87
comportements linéaires. Comme on désire réaliser une coopération des modèles locaux,
les paramètres θ sont estimés à la fin par l'apprentissage global.
¬ L'exemple d'une optimisation paramétrique par l'apprentissage local est présenté sur la
figure II-8 du chapitre II.
III.2.3.3. Optimisation de tous les paramètres sur la base d'un critère à erreur de
sortie
L'algorithme précédent, basé sur un critère à erreur d'équation, induit le calcul des
paramètres des modèles locaux par la méthode des moindres carrés. Or cet estimateur est biaisé
en présence de bruit de mesure. Si le multi-modèle est élaboré à des fins de commande, de
diagnostic ou de simulation du système, le modèle identifié sur la base d'un critère à erreur
d'équation risque d'avoir de mauvaises performances en simulation [Nelles, 1997-b]. Pour
certaines applications, il est plutôt souhaitable d'optimiser directement un critère à erreur de
sortie. Le modèle final aura de meilleures propriétés d'approximation au prix toutefois d'un coût
d'élaboration plus élevé.
L'algorithme d'apprentissage est également une technique à deux niveaux. Il consiste à

estimer les paramètres β des fonctions de validité par la méthode de Levenberg-Marquardt pour
les paramètres θ fixés, puis à ajuster les paramètres θ des modèles locaux également par un
algorithme de Levenberg-Marquardt pour les paramètres β précédemment déterminés. La
procédure générale d'optimisation est résumée par les étapes de l'algorithme 2.
Précisons qu'au cours des optimisations non-linéaires successives, on effectue

uniquement une itération ou quelques itérations de façon à assurer la diminution du critère
d'identification Jg. Les différents vecteurs de paramètres ne sont pas optimisés jusqu'à
convergence lors des itérations successives.
Une autre variante de cet algorithme proposée par [Boukhris et al., 1999] peut être
utilisée et consiste à optimiser jusqu'à convergence le vecteur β pour θ fixé. A partir de cette
solution, on optimise le vecteur θ jusqu'à convergence également. La procédure est ainsi répétée
jusqu'à l'obtention de la précision désirée sur le critère d'identification.
Il est difficile de dire laquelle de ces deux variantes est la meilleure. Néanmoins, sur
certains exemples de simulation, nous avons constaté qu'avec la deuxième variante, le critère
reste "coincé" dans un minimum local. Mais, ces observations n'ont pas de caractère général et
ne doivent donc être érigées en règle générale.
Page 88 CRAN-INPL
ALGORITHME 2 : OPTIMISATION A DEUX NIVEAUX LM + LM
[1] Initialisation : k=0, β 0 k 5 = β 0 . Εn déduire θ β 4 0 59

k
par la formule des
moindres carrés (III-17) éventuellement régularisés (I-29-a). Calculer Jg(k).
[2] Pour le vecteur θ 0 k 5 fixé, déterminer le vecteur β 0 k+15 par :

−1
β 0 k +15 = β 0 k 5 − η 0βk 5 H a β 0 k 5 + λβ0 k 5 I
4 9 G β 0 k 5
4 9
[3] Calculer le critère Jg( β 0 k+15 ) correspondant à l'estimation β 0 k+15 .
Si Jg(k) < Jg( β 0 k+15 ), retourner à l'étape [2] en modifiant le pas de

relaxation η 0βk 5 ou le coefficient de régularisation λβ0 k 5 . Autrement
Jg(k) = Jg( β 0 k+15 ).
[4] A partir de l'estimation β 0 k+15 , trouver le vecteur θ 0 k+15 par :

−1
θ 0 k +15 = θ 0 k 5 − ηθ0 k 5 H a θ 0 k 5 + λθ0 k 5 I
4 9 G θ 0 k 5 .
4 9
[5] Calculer le critère Jg(θ 0 k+15 ) correspondant à l'estimation θ 0 k+15 .
Si Jg(k) < Jg(θ 0 k+15 ), retourner à l'étape [4] en modifiant ηθ0 k 5 ou λθ0 k 5 .
Autrement Jg(k+1) = Jg(θ 0 k+15 ).
[6] Incrémenter k.
Réitérer à partir de l'étape [2] jusqu'à obtenir
0 5 05
Jg k + 1 − Jg k < ε .
Dans les deux variantes de l'algorithme 2, le découplage des espaces paramétriques

équivaut à considérer à chaque itération que les blocs diagonaux de la matrice hessienne générale
H(Θ) sont prépondérants et à négliger donc les termes d'interaction entre les vecteurs β et θ.
L'avantage du découplage est donc un calcul plus facile de l'inverse des hessiens approchés (qui
sont de dimension plus réduite) et des réglages indépendants des coefficients de relaxation et des
coefficients de régularisation. La hiérarchisation de l'optimisation paramétrique est intuitive car
il est plus naturel de positionner les zones de fonctionnement avant d'ajuster les paramètres des
modèles locaux qui sont associés à ces zones.
En comparaison de l'algorithme 1, la fonction de sensibilité de la sortie y t du modèle 05

par rapport au vecteur β est modifiée à cause de la présence des sorties décalées du modèle dans
CRAN-INPL Page 89
le vecteur de régression. A partir des expressions (III-1) et (III-2) de la sortie du multi-modèle,

on montre qu'elle est donnée par :
05
∂y t
=∑ i 1 05 6 05
M ∂ω z t , β M
yi t + ∑ ω i z t , β
∂yi t
1 05 6 05 (III-30)
∂β i =1 ∂β i =1 ∂β
105 6
La formule de dérivation de ∂ω i z t , β ∂β donnée par les équations (III-23) à (III-29) reste
4
inchangée . En se basant sur la forme polynomiale des modèles locaux (équation III-4), on
déduit facilement la dérivée :
05
∂yi t
= − Ai q 0 5 05
∂y t
∂β ∂β
L'équation (III-30) précédente s'arrange alors sous la forme :
0 5 ∂∂yβ0t5 = ∑ ∂ω 1∂zβ0t5, β 6y 0t 5
M
1 + A q, t i
i (III-31-a)
i =1
M
0 5 105 6 0 5
A q, t = ∑ ω i z t , β Ai q
i =1
(III-31-b)
A(q,t) est un polynôme d'ordre ny formé par la somme pondérée des polynômes Ai(q) des
modèles locaux.
L'optimisation du vecteur θ par la méthode de Levenberg-Marquardt requiert le calcul du

gradient et du hessien approché du critère par rapport à θ :
1 0 5 0 56 0 5
∂y t
N
G θ ( k ) = ∑ y t − ys t
4 9 (III-32-a)
t =1 ∂θ θ =θ 0 k 5
H a θ 0 k 5 = ∑
4 9
N
05 05
∂y t ∂y t
(III-32-b)
t =1 ∂θ ∂θ
T
θ =θ 0 k 5
Le gradient et le hessien font appel à la fonction de sensibilité ∂y ∂θ dont nous exposons le

calcul ci-après. Sur la base des formules (III-1) et (III-2), cette fonction de sensibilité est
exprimée par :
05
∂y t
=∑ i 105 6
M ∂ω z t , β
yi (t ) + ω i z t , β
∂yi t
1 0 5 6 0 5 "#$ (III-33)
∂θ i =1 ∂θ
! ∂θ
4
Implicitement, on suppose que la sortie décalée du multi-modèle n'est pas une variable caractéristique. Autrement,
1 6
il faut l'intégrer dans le calcul de la dérivée ∂ω i z (t ), β ∂β . Ce cas général a été traité dans [Boukhris et al., 1999].
Page 90 CRAN-INPL
Toujours dans l'hypothèse que la sortie décalée du multi-modèle ne fait pas office de variable
caractéristique, le premier terme de cette dérivée s'annule. En exploitant la forme polynomiale
des modèles locaux, on montre que cette dérivée est fournie par :
0 5 ω 1z0t5, β 6ϕ 0t5
∂y t
1 a
1 + A0q, t 5 = (III-34)
∂θ
ω 1z0t5, β 6ϕ 0t 5
M a
avec le polynôme A(q,t) précédemment défini à l'équation (III-31-b).
Les équations (III-31-a) et (III-34) donnent sous forme d'équation aux différences,
l'évolution dynamique des fonctions de sensibilité. L’exploitation de ces fonctions de sensibilité
nécessite d'assurer la stabilité du polynôme [1+A(q,t)] lors de l’optimisation paramétrique.
D'après les équations (III-1) et (III-4), la stabilité du multi-modèle est liée à celle du polynôme
[1+A(q,t)]. Intuitivement, on peut penser qu'une instabilité de [1+A(q,t)] sur plusieurs instants t
résulterait en une divergence du multi-modèle et donc une divergence du critère Jg. Dans cette
situation, les estimées θ et β
0k 5 à l'itération précédente auront été rejetées puisqu'elles
0k+15
n'auront pas assuré une diminution du critère. Implicitement, la continuation de l'optimisation
suppose un polynôme [1+A(q,t)] stable.
III.2.4. OPTIMISATION DE LA STRUCTURE D'UN MULTI-MODELE

DECOMPOSANT L'ESPACE CARACTERISTIQUE EN GRILLE
Le problème est d'une part d'identifier les variables caractéristiques zj les plus pertinentes,
trouver le nombre de partitions à définir sur le support de chaque variable et de l'autre déterminer
la structure des modèles locaux. Dans cette section, nous présentons une méthode existante de
recherche des variables caractéristiques et du nombre de partitions associées. Nous proposons
des techniques de simplification de la structure des modèles locaux. Les méthodes de recherche
du nombre de partitions et de raffinement des modèles locaux sont ensuite intégrées dans une
procédure générale d'identification d'un multi-modèle qui réalise la décomposition de l'espace
caractéristique du système sous forme de grille.
III.2.4.1. Critère de sélection de structure Jstruc
Le critère de sélection de structure Jstruc adopté est soit un critère de validation croisé
calculé sur des données de test :
Ntest
1 0 5 0 56
Jtest = ∑ y t − ys t
t =1
2
(III-35)
soit un critère de type AIC, FPE ou MDL (cf. équations I-41, I-42 et I-43) évalué sur des
données d'identification.
CRAN-INPL Page 91
III.2.4.2. Recherche des variables caractéristiques et de leur nombre de

partitions
Il n'est nullement aisé de trouver sans tâtonnements (essais-erreurs) les "bonnes"

variables zj ainsi que le nombre de divisions pj à définir sur le support de ces variables. La
démarche adoptée relève de la stratégie incrémentale. Elle démarre avec un modèle unique
linéaire ou affine et un ensemble de variables candidates zj (j=1, …, nz) dont le nombre de
partitions pj est initialisé à 1. Par convention, une variable zj dont le nombre de partition est 1 se
voit associer une fonction de validité µ1,j qui vaut uniformément1 sur le support de zj. La
procédure consiste ensuite à ajuster la structure de façon heuristique en augmentant
progressivement le nombre de divisions des différentes variables zj [Tanaka et al., 1995],
[Glorennec, 1999]. La recherche arborescente est résumée par le schéma de la figure III-4.
p1 =, …, = pnz = 1
Niveau 1
JSTRUC (1)
p1+1, …, pnz p1, …, pnz+1

Niveau 2 p1, …, pj+1, …, pnz
JSTRUC (2, 1) JSTRUC (2, j) JSTRUC (2, nz)
p1+1, …, pnz p1, …, pi+2, …, pnz p1, …, pnz+1

Niveau 3
JSTRUC (3,1) JSTRUC (3, i) JSTRUC (3, nz)
Figure III-4 : Illustration de la procédure de recherche arborescente dans une partition

grille
Le niveau 1 est le niveau d'initialisation. Le critère correspondant est celui enregistré avec
le meilleur modèle linéaire ou affine. A chaque niveau v de l'arbre, on obtient les éléments du
niveau inférieur par les opérations suivantes. On incrémente le nombre de partitions d'une et une
seule variable zj. Les paramètres de la grille sont optimisés par l'un des algorithmes présentés
auparavant. On calcule ensuite le critère Jstruc(v, j) correspondant à ce multi-modèle. On procède
de la même façon pour toutes les autres variables candidates. A cette étape v, on aura ainsi
calculé nz structures multi-modèles. Le multi-modèle retenu est celui ayant fourni le meilleur
critère Jstruc(v, j). On développe ensuite l'arbre à partir de ce modèle de meilleure qualité, ce qui
évite d'explorer toutes les branches. La recherche s'arrête si on atteint le minimum de Jstruc ou si
ce dernier évolue peu.
Page 92 CRAN-INPL
A la fin de la recherche, toutes les variables caractéristiques zi dont le nombre de

partitions est resté à 1 ne sont pas considérées dans la définition des zones de fonctionnement. Il
n'y a pas eu de découpage suivant ces axes qui probablement ne sont pas représentatifs du
comportement non-linéaire du système.
Pour accélérer la recherche, on peut user de certaines heuristiques :
• Par exemple, si on augmente le nombre de partitions pj d'une variable zj et que le critère de

validation obtenu est supérieur à celui de l'avant-dernier multi-modèle de meilleure qualité,
on n'envisage plus dans la suite d'améliorer le modèle suivant cet axe. pj est figé à sa valeur
dans le dernier meilleur multi-modèle conservé.
• Si sur plusieurs niveaux, le nombre de partitions d'une variable reste figé à 1, on décide de
ne plus tester des partitions sur cet axe.
Mais soyons conscients que ces heuristiques peuvent écarter de la structure optimale dans
la mesure où on ne saurait dire si la variable ignorée à une étape ne contribue pas plus loin, dans
l'arbre, à diminuer le critère de façon significative.
La méthode de recherche arborescente ne garantit qu'une solution sous-optimale

puisqu'on ne parcourt pas toutes les branches. Mais elle constitue une bonne alternative à une
approche exhaustive dont le temps de recherche est prohibitif.
III.2.4.3. Simplification de la structure des modèles locaux
Comme nous l'avons déjà souligné, l'identification d'un multi-modèle consiste à détecter
des zones où le système étudié peut être décrit par un modèle de structure simple, un modèle
affine ou linéaire. Cette formulation du problème implique que la recherche de la position des
zones et la recherche de la structure des modèles locaux ne peut se faire de façon simultanée(cf.
paragraphe II.4.1.1). Nous supposons que les connaissances disponibles sur le système ou les
techniques exposées au paragraphe II.4.1.1 permettront de suggérer une structure initiale qui sera
commune à tous les modèles locaux.
A la fin de la phase d'optimisation paramétrique, il est possible que des modèles locaux
contiennent des paramètres qui ont une faible contribution à l'explication du comportement du
système. Ceci s'explique par le fait qu'on a considéré la même structure pour tous les modèles
locaux alors qu'il est probable que certaines variables auront des degrés d'explication du système
forts différents suivant les zones de fonctionnement. Afin de satisfaire au principe de parcimonie,
ces paramètres "peu explicatifs" peuvent être supprimés de la structure multi-modèle sans nuire
aux propriétés d'approximation et de généralisation de cette dernière. La position des zones de
fonctionnement étant déterminée après l'optimisation paramétrique, la simplification de la
structure des modèles locaux équivaut à déterminer les variables les plus significatives. Les
techniques classiques de sélection de variables [Draper et Smith, 1981], [Haber et Unbehauen,
CRAN-INPL Page 93
1990] peuvent être facilement adaptées à la résolution de ce problème. La mise en œuvre

particulière de ces techniques dépend du type de critère optimisé : critère à erreur d'équation
(critère quadratique par rapport aux paramètres des modèles locaux) ou critère à erreur de sortie.
Si on considère un critère quadratique par rapport aux paramètres des modèles locaux, on
retrouve les conditions de l'algorithme 1. Le modèle global est linéaire par rapport à ses
paramètres et le problème de sélection des variables utiles se ramène à l'identification de la
structure d'un modèle linéaire par rapport à ces paramètres.
Une méthode courante de sélection de variables est celle des moindres carrés
orthogonaux (MCO) [Korenberg et al., 1988]. Son application à l'optimisation de la structure de
la partie conséquence d'un modèle flou de Takagi-Sugeno est reportée dans [Wang et Langari,
1995], [Nelles, 1997-a]. C'est une méthode incrémentale qui accepte progressivement les
variables les plus explicatives dans le multi-modèle. Elle consiste à décomposer la matrice de
régression Φg comme le produit d'une matrice V1 dont les colonnes sont orthogonales entre elles
et d'une matrice V2 triangulaire supérieure. L'équation de régression linéaire Y = Φ gθ (III-15) est
transformée en une relation équivalente Y = V1θ orth . Le nouveau vecteur de paramètres est
θ orth = V2θ . L'avantage de cette transformation est l'orthogonalité entre les colonnes de V1.
L'ajout d'une nouvelle variable se fait sans nécessiter la mise à jour des paramètres associés aux
variables déjà présentes dans le multi-modèle. La prochaine variable à accepter dans le multi-
modèle est celle ayant fourni le plus fort coefficient de détermination (carré du coefficient de
corrélation) avec la sortie expliquée Ys. A la fin de l’algorithme, on revient au vecteur de
paramètres d’origine par la relation θ = V2−1θ orth . Les problèmes de cette méthode sont la perte
d'orthogonalité des colonnes de V1 au fil des itérations, la mise à jour du coefficient de
régularisation après l'ajout d'une nouvelle variable. Des détails sur l'implémentation
algorithmique des MCO sont exposés dans [Korenberg et al., 1988], [Chen et al., 1989-c].
Les MCO sélectionnent les variables significatives selon une approche ascendante. On
peut envisager la stratégie inverse qui consiste à supprimer progressivement les variables peu
significatives de la structure multi-modèle. La démarche directe est de minimiser le critère global
Jg sous la contrainte d'élimination d'un paramètre. La technique que nous exposons s'applique
sans difficultés à un critère de type erreur d'équation. Son adaptation à un critère à erreur de
sortie est possible (contrairement aux MCO) moyennant quelques aménagements.
Réalisons un développement en série de Taylor au 2e ordre du critère d'identification Jg

autour de l'estimation θ du vecteur des paramètres des modèles locaux et pour la valeur optimale
β des paramètres des fonctions de validité. On obtient :
05 49 4
J g θ ≈ J g θ + θ − θ 9 G4θ 9 + 12 4θ − θ 9 H4θ 94θ − θ 9
T T
(III-36)
Page 94 CRAN-INPL
G(θ ) et H(θ ) sont respectivement le gradient et le hessien du critère Jg pour la valeur optimale
du θ . Ce développement est une approximation lorsqu'on considère un critère à erreur de sortie.
Dans le cas d'un critère à erreur d'équation (critère Jg quadratique par rapport au vecteur θ), la
relation (III-36) est exacte. Pour cette raison, nous développons la méthode pour un critère à
erreur d'équation. Nous décrirons par la suite les aménagements à adopter pour l'adapter à un
critère à erreur de sortie.
,,, &ULWqUHjHUUHXUG·pTXDWLRQ
En remarquant que G(θ ) = 0 dans ce cas et en posant :
∆θ = θ − θ
05 49
∆J g = J g θ − J g θ
on obtient :
1 T
0 5
∆J g ∆θ =
2
∆θ H ∆θ
5
(III-37)
L'élimination de v paramètres équivaut à minimiser la variation du critère ∆Jg par rapport

à ∆θ, sous l'ensemble de v contraintes décrites par la relation matricielle :
Cv θ + ∆θ = 0 v ×1
4 9 (III-38)
La matrice des contraintes a une structure similaire à celle présentée ci-dessous :
0 1 0 0 "# v × nθ
Cv = Cv ∈
0 #$
# (III-39)
!0 0 1
La position des 1 dans la matrice des contraintes Cv désigne les variables à éliminer. La
minimisation du lagrangien résultant par rapport à ∆θ fournit la solution :
−1
∆θ = − H −1CTv Cv H −1CTv
3 8 Cv θ
de laquelle on déduit le vecteur de paramètres contraint :
θ (vc ) = θ + ∆θ = Pv θ
où la matrice de projection Pv est définie par :
5
Le signe d'égalité est utilisé puisque l'équation (III-36) n'est pas une approximation mais elle est exacte. On notera
aussi que pour un critère à erreur d'équation, la matrice hessienne H est indépendante du vecteur de paramètres θ
d'où la notation H au lieu de H θ .
49
CRAN-INPL Page 95

Pv = I − H −1CTv Cv H −1CTv
3 8 −1
Cv
La variation de critère suite à l'élimination des v paramètres s'exprime par :
1 −1
05
∆J g v = θ T CTv Cv H −1CTv
2
3 8 Cvθ (III-40)
Cette formule permet de mesurer l'influence de la suppression d'un paramètre du modèle sur la
qualité de l'approximation. Cette procédure peut être répétée et il convient pour cela d'établir un
algorithme itératif. Ainsi, l'élimination d'un paramètre supplémentaire (par exemple le ième
élément du vecteur θ) revient à ajouter une nouvelle ligne de contrainte Ci à la matrice des
contraintes, ce qui donne la matrice augmentée :
Cv +1 =
C "#
v
!C $
i
Ci est un vecteur ligne composé d'éléments nuls à l'exception de l'élément de la position i qui est
1, c'est-à-dire :
1× nθ
Ci = [0

1 0 0] Ci ∈ (III-41)
Position i
On montre que la minimisation de la variation du critère ∆Jg (III-37) par rapport à ∆θ sous
l'ensemble des contraintes définies dans la matrice augmentée Cv+1 conduit au vecteur de
paramètres contraint :
θ (vc+)1 = Pv +1 θ (III-42)
La nouvelle matrice de projection Pv+1 se déduite de l'ancienne par la relation :

Pv +1 = I − H −1Pv CiT Ci Pv H −1CiT
3 8 C P
−1
i v (III-43)
On montre également que la variation du critère (III-37) suite à l'élimination de ce nouveau

paramètre est déduite de la variation de critère précédente par la relation :
0 5 1
05
∆J g v + 1 = ∆J g v + θ T Pv CiT Ci Pv H −1CiT 3 8 −1 "#
Ci Pv θ (III-44)
2 ! $
Les équations (III-43) et (III-44) montrent qu'il existe une relation de récurrence entre les
matrices de projection Pv et Pv+1 et une relation de récurrence entre les variations de critère. On
peut donc déduire par récurrence la variation de critère liée à la suppression de v+1 paramètres si
on dispose des informations relatives à la suppression de v paramètres de la structure.
L'élimination ou non d'un paramètre est jugée sur l'amplitude de la variation du critère qui en
résulte. Il est alors possible de mettre en œuvre un algorithme de suppression des paramètres qui
Page 96 CRAN-INPL
exploite ces relations de récurrence. Les étapes de cette procédure sont résumées dans
l’algorithme 3.
ALGORITHME 3 : ELIMINATION DES PARAMETRES INUTILES (CRITERE A

ERREUR D'EQUATION)
[1] Calculer la matrice hessienne H = Φ Tg Φ g . Initialiser Pv=I, v=0.
; @
Soit E p = 1,,. nθ , l'ensemble des indices des paramètres non nuls des
modèles locaux.
[2] Pour chaque paramètre θ(i) tel que i ∈ E p , générer le vecteur de contrainte Ci
correspondant (III-41).
Evaluer ensuite la variation de critère ∆J g ( v + 1) par l'équation (III-44).
[3] Trouver le paramètre j dont l'élimination conduit à une variation de critère

minimale.
[4] Calculer la nouvelle matrice de projection Pv+1 par l'équation (III-43).

:?
Effectuer une mise à jour de E p , soit E p = E p - j . Incrémenter v.
[5] Réitérer à partir de l'étape [2] jusqu'à satisfaction d'un critère d'arrêt.
[6] Calculer le vecteur de paramètres final par les formules (III-42) et (III-43).
Le critère d'arrêt porte sur la variation relative du critère d'identification ∆J g ( v + 1) J g (θ ) .

L'arrêt de l'algorithme peut également se faire sur la base d'un critère de généralisation de type
AIC, FPE ou MDL pour tenir compte du dilemme entre la précision et la complexité du modèle
ou sur des données de validation.
Remarque
¬ A chaque itération de l’algorithme, un seul paramètre est supprimé à la fois. Il en résulte

−1
que le terme Ci Pv H −1CiT
3 8 dans l’expression (III-43) est scalaire car le vecteur Ci est
toujours de taille nθ . L’algorithme est donc extrêmement rapide et il n'existe pas de
problème numérique lié à l'inversion de cette matrice.
,,, $GDSWDWLRQ GHODPpWKRGHjXQFULWqUHjHUUHXUGHVRUWLH*DVVRHWDO

D
La difficulté dans ce cas est l'approximation du critère Jg par un développement du 2e

ordre autour de θ . En effet, rien n’assure que la variation ∆θ préconisée par la minimisation sous
CRAN-INPL Page 97
contrainte égalité conserve au fil des itérations la validité de l'approximation de l’équation (III-
37). Strictement, après chaque suppression de paramètres, il faut optimiser les paramètres
restants jusqu'à convergence, écrire de nouveau l'approximation et chercher le prochain
paramètre à supprimer. La récurrence sur laquelle est basée l'algorithme 3 n'est plus alors utile.
Ceci se révèle coûteux à cause de la nécessité de réestimer les paramètres par une
technique non-linéaire à chaque itération. On peut faire évoluer l'algorithme en décidant de ne
procéder à une optimisation des paramètres restants qu'au bout d'un certain nombre d'itérations.
Dans ce cas, on bénéficie de la relation de récurrence sur la variation de critère ∆J g .
Une façon directe (et c'est celle-là que nous privilégions dans nos simulations)
d'améliorer la technique est de comparer à chaque itération, la vraie variation du critère, calculée
en simulant le multi-modèle avec les valeurs actuelles de θ(vc ) , avec la variation de critère
0 5
∆J g v + 1 suggérée par l'équation (III-44). Si on constate un trop grand écart entre ces deux
grandeurs, cela signifie que l'approximation du 2e ordre du critère n'est plus valide ou la variation
∆θ ne permet pas de rester dans le domaine de validité de l'approximation. A ce moment, il faut
procéder à une nouvelle optimisation des paramètres.
Les aménagements à apporter à l'algorithme 3 concernent donc la réestimation des

paramètres et le choix du moment de cette nouvelle optimisation. La procédure d'élimination des
paramètres pour un critère à erreur de sortie se résume par les étapes de l'algorithme 4.
Le critère d'arrêt ici est celui de l'algorithme 3 : soit la variation relative de critère
∆J reel J g (θ ) , soit un critère de généralisation de type FPE, AIC ou MDL. Cette procédure
d'élimination de paramètres peu significatifs est inspirée de la technique d'élagage de l'OBS
(acronyme de Optimal Brain Surgeon) [Hassibi et Stock, 1993] bien connue dans la communauté
des réseaux de neurones. Par rapport au réseau de neurones MLP, l'élimination ne porte pas sur
l'ensemble des paramètres (β et θ) du multi-modèle mais uniquement sur les paramètres θ des
modèles locaux. Une autre différence est à signaler : l'élimination de toutes les connexions
incidentes sur un neurone d'une couche cachée nécessite le retrait total du neurone c'est-à-dire la
suppression des poids de tous les arcs issus de ce neurone. De même, la suppression des poids de
tous les arcs issus d'un neurone caché requiert l'élimination des poids des connexions incidentes.
Ces contraintes sont nécessaires afin d'éviter que ces paramètres nuisibles [Pedersen, 1997]
influencent le calcul de la variation de critère (III-44). De telles contraintes ne sont pas gérées en
modélisation multi-modèle, ce qui constitue un gain de temps.
Page 98 CRAN-INPL
ALGORITHME 4 : ELIMINATION DES PARAMETRES INUTILES (CRITERE A

ERREUR DE SORTIE)
[1] Calculer la matrice hessienne H(θ ) . Initialiser Pv=I, v=0.
; @
Soit E p = 1,,. nθ , l'ensemble des indices des paramètres non nuls des
modèles locaux.
[2] Pour chaque paramètre θ(i) tel que i ∈ E p , générer le vecteur de contrainte Ci
correspondant (III-41).
0 5
Evaluer ensuite la variation de critère ∆J g v + 1 par l'équation (III-44).
[3] Trouver le paramètre j dont l'élimination conduit à une variation de critère

minimale.
[4] Calculer le vecteur de paramètres contraint par les équations (III-42) et (III-
43). Calculer la variation réelle ∆Jreel en simulant le multi-modèle résultant.
Tester si le critère d'arrêt de l'algorithme portant sur ∆Jreel n'est pas satisfait.
Si oui alors arrêt de la méthode et saut à l'étape [6].
[5] Comparer ∆Jreel et ∆J g puis décider si une nouvelle optimisation des

paramètres est nécessaire.
Procéder à l'optimisation des paramètres restants s'il y a lieu puis
recommencer la procédure à partir de l'étape [1].
Autrement, calculer la nouvelle matrice de projection Pv+1 par (III-43).
:?
Effectuer une mise à jour de E p , soit E p = E p - j . Incrémenter v. Retourner
à l'étape [2].
[6] Procéder à une optimisation finale des paramètres retenus dans la structure
multi-modèle. Elle se fait par l'algorithme de Levenberg-Marquardt.
,,, $XWUHPpW KRGHG·pOLPLQDWLRQGHVSDUDPqWUHVSRXUXQFULWqUHjHUUHXU

GHVRUWLH
Une autre méthode d’élagage des paramètres en réseaux de neurones est la méthode OBD
(Optimal Brain Damage) [LeCun et al., 1990]. Nous l’adaptons à l’identification d’un multi-
modèle. Dans cette technique, on estime à partir de l’approximation (III-37) l'augmentation du
critère que provoquerait la mise à zéro d'un paramètre sans chercher à minimiser cette variation
de critère. La formalisation mathématique de la méthode est la suivante. Forcer un paramètre θ(i)
à zéro se traduit par l’ajout au vecteur θ d’une perturbation ∆θ :
CRAN-INPL Page 99
0 5
T
∆θ = [0 0 - θ i 0 0]
Position i
Si on considère l’élimination simultanée de v paramètres, le terme ∆θ prend la forme :

nθ × nθ
∆θ = −C(vOBD)θ C(vOBD) ∈ (III-45)
La matrice de contrainte C(vOBD) est une matrice diagonale dont les éléments diagonaux
correspondants aux indices des v paramètres à supprimer valent 1 et tous les autres 0. A partir de
l’équation (III-37), on estime la variation de critère par :
1 T
2
3
∆J g ( v ) ≈ θ T C(vOBD) 8 H(θ ) C(vOBD) θ (III-46)
A chaque itération, on recherche le prochain paramètre dont l’élimination conduit à une

variation minimale du critère. Par rapport à la technique OBS précédente, on s’affranchit du
calcul de l’inverse du hessien H. Mais cette méthode souffre du même problème que la méthode
OBS dans la mesure où, après l'élimination successive de paramètres, il faut procéder à une
nouvelle optimisation des paramètres restants pour garantir l’approximation du second ordre.
Pour décider à quel moment il faut optimiser les paramètres restants, on utilise la même
technique que précédemment : on compare l’estimation (III-46) avec la vraie variation de critère
qu’on obtiendrait en simulant le multi-modèle à partir du vecteur de paramètre réduit.
L’implémentation de cette méthode est semblable à l’algorithme 4 auquel nous renvoyons le
05
lecteur. Les modifications à y apporter portent sur le calcul de ∆J g v qui est obtenu par (III-46)
et sur la génération de la matrice de contrainte C(vOBD) (III-45). Le vecteur de paramètres
contraint est obtenu juste en mettant à zéro les paramètres supprimés dans le vecteur original.
Remarques
¬ Si dans les méthodes d’élimination des algorithmes 3 et 4, l'inverse du hessien H est

calculée à travers une régularisation, alors ces méthodes ne s'appliquent plus sur le critère
Jg mais sur le critère régularisé.
¬ Un modèle local dont tous les paramètres sont supprimés à la suite de la procédure
d'élimination est considéré comme inutile. Sa contribution à la description du système est
nulle.
Toute la procédure d'identification d'un multi-modèle décrit par une grille (recherche des
variables candidates, recherche du nombre de partitions à associer à ces variables, optimisation
des paramètres et raffinement de la structure des modèles locaux) est résumée par le schéma
synoptique de la figure III-5.
Page 100 CRAN-INPL

Déterminer la structure des modèles locaux : entrées ur ;

ordres et retards ny et nur et nkur
Choisir des variables caractéristiques candidates zj
Initialiser le nombre de partitions de ces variables : pj=1
Incrémenter le nombre de partition pj de la seule

1
variable candidate zj ie p j = p j + 1 j = 1, , nz 6
Initialiser la grille correspondante

Identifier les paramètres β des fonctions de validité
et les paramètres θ des modèles locaux par l'un des
algorithmes à 2 niveaux :
• Critère à erreur d'équation : Algo 1
• Critère à erreur de sortie : Algo 2
Considérer la variable suivante zi. Simplification de la structure des modèles locaux

Incrémenter son nombre de partitions pi. • Critère à erreur d'équation : Algo 3, MCO
S'il n'existe plus de variable zj, fin de la • Critère à erreur de sortie : Algo 4 (OBD ou OBS)
procédure.
Rejeter la structure Calculer le critère de validation JSTRUC j 05

Décrémenter le nombre de partitions de cette structure multi-modèle
de la variable considérée
NON Accepter la structure

05 0
JSTRUC j < JSTRUC PREC ? 5 0 5
JSTRUC PREC = JSTRUC j 05
OUI
Critères d'arrêt vérifiés ?

• p j < pmax 1∀ j = 1,, n 6 ? NON
z
JSTRUC 0 j5 − J 0PREC5 J
STRUC STRUC 0PREC5 < seuil ?
OUI
MULTI-MODELE FINAL
Figure III-5 : Organigramme récapitulant la procédure d'identification d'un multi-modèle

à travers une partition grille
CRAN-INPL Page 101

¼ Exemple III-1
Nous étudions ici un petit d'exemple d'élimination des paramètres des modèles locaux
pour une structure multi-modèle à erreur de sortie. Le multi-modèle traité dans cet exemple
est construit avec 2 variables caractéristiques ayant respectivement 3 et 2 partitions. Les
modèles locaux sont des modèles à erreur de sortie d'ordre 1. Le système étudié est décrit par
l'équation (III-47) dans l'exemple III-2.
Les méthodes OBS et OBD sont respectivement appliquées. Mais dans ces
simulations, nous n'avons pas procédé à une réoptimisation des paramètres. En d'autres
termes, nous avons supprimé les deux premiers items de l'étape [5] de l'algorithme 4. Nous
comparons l'estimation du critère suggérée par l'approximation du second ordre avec la vraie
valeur du critère Jg enregistrée en simulant la structure multi-modèle réduite. Les résultats
sont consignés sur les courbes de la figure III-6. A gauche, on présente les résultats de la
méthode OBS alors que ceux de la méthode OBD sont sur la droite. Pour une meilleure
lisibilité des courbes, nous avons effectué un zoom sur les premières valeurs. On constate
dans les deux cas, que l'approximation reste proche des valeurs réelles du critère Jg sur une
dizaine d'itérations. Ceci justifie l'application des deux algorithmes sans systématiquement
optimiser à chaque itération les paramètres restants. Si on constate un trop grand écart entre
Jg et son approximation, on envisage une mise à jour par une procédure non-linéaire. Le gain
en temps de calcul est alors très appréciable. Pour finir cette analyse, remarquons que pour
un même nombre de paramètres supprimés, la méthode OBS donne des valeurs du critère
plus faibles que la méthode OBD. L'explication découle simplement du fait que dans la
méthode OBD, on ne cherche pas à minimiser la variation de critère que provoque
l'annulation d'un paramètre.
30 80
Critère estimé
60
20
Critères
Critères
Critère réel
40
10
20
0
0 5 10 15 0
Nombre de paramètres supprimés 0 5 10 15 20
Nombre de paramètres supprimés
Zoom sur les premières valeurs des critères Zoom sur les premières valeurs des critères
5.5 20
Critère estimé
15
5
Critère réel
10
4.5
5
4 0
0 5 10 15 0 2 4 6 8 10
a- Elimination des paramètres par la technique inspirée b- Elimination des paramètres par la technique
de l'OBS inspirée de l'OBD
Figure III-6 : Comparaison critère réel Jg et critère approché par les méthodes OBD et
OBS
Page 102 CRAN-INPL

¼ Exemple III-2
La procédure d'identification jusqu'alors décrite est illustrée sur un exemple de
simulation. Soit à modéliser le système non-linéaire à 2 entrées et une sortie décrit par
l'équation aux différences :
0 5 y0t - 15 0.51+
yt =
u1 0t - 15 - 0.3u2 0t - 15
y0t - 15 2
+ 0.3u1 0t − 152 − 0.5u2 0t − 152 + e0t 5 (III-47)
Les entrées u1(t) et u2(t) du système sont constituées par la concaténation de créneaux
d'amplitudes (appartenant à [-1, 1]) et de durées variables. Un jeu de données de 1000 points
a servi à l'identification du modèle. Le jeu des données de validation est constitué de 800
points.
La procédure d'identification proposée sur la figure III-5 a été appliquée sur cet
exemple. Les variables caractéristiques candidates que nous avons choisies sont u1(t-1) et
u2(t-1). La structure initiale des modèles locaux est choisie de la forme :
yi t = − a10i 5 y t − 1 + b11
05 0 5 0i 5u t − 1 + b 0i 5u t − 1 + θ
0 5
1 21 2 0 5 i0
Les modèles locaux sont donc de type erreur de sortie. Les paramètres d'une structure
multi-modèle fixée sont estimés par l'algorithme 2. Le paramètre γ des fonctions de validité
est fixé à γ=3. L'élimination des paramètres est réalisée par la méthode OBS. Les résultats
obtenus sont consignés dans le tableau suivant. Deux doubles barres délimitent un niveau de
l'arbre décrit à la figure III-4.
0 5
u1 t − 1 0 5
u2 t − 1 Critère JSTRUC Critère Jg
(JTEST)
1 1 107.8 113.95
Modèle linéaire OE
2 1 85.09 79.73
1 2 36.97 39.39
1 3 31.17 29.56
2 2 3.67 2.64
3 2 3.18 2.36
2 3 2.10 1.88
3 3 2.61 1.84
2 4 1.92 1.85
2 5 2.09 1.66
3 4 1.62 1.66
4 4 172 1.61
3 5 2.33 1.56
Tableau III-2 : Récapitulatif de l'évolution du critère JSTRUC lors de la phase de recherche

de la structure.
CRAN-INPL Page 103

La structure optimale, au vu de ce tableau, correspond à un nombre de partitions de 3

0 5 0 5
et 4 respectivement pour les variables caractéristiques u1 t − 1 et u2 t − 1 . Le multi-modèle
comporte donc 12 modèles locaux soit 48 paramètres pour l'ensemble des modèles locaux.
La procédure d'élimination OBS a suggéré la suppression de 18 de ces paramètres. La
complexité de la structure finale est ainsi réduite. Les figures suivantes montrent la position
des fonctions de validité individuelles de la structure optimale avant et après optimisation
des paramètres.
Fonctions de validité finales de u1(t-1)
Fonctions de validité finales de u2(t-1) 1
1
0.5
0.5
0
0 -1 -0.5 0 0.5 1
-1 -0.5 0 0.5 1
Fonctions de validité initiales de u1(t-1)

Fonctions de validité initiales de u2(t-1)
1 1
0.5 0.5
0 0
-1 -0.5 0 0.5 1 -1 -0.5 0 0.5 1
Figure III-7 : Allure des fonctions de validité individuelles avant et après optimisation
La simulation du modèle sur des données de test (données différentes de celles qui ont
servi à l'identification de la structure) est montrée sur la figure qui suit. Cet ensemble de test
est constitué de 600 points. On constate une bonne adéquation entre la sortie réelle du
processus modélisé et le modèle identifié.
1
Mesures
0.5 Multi-modèle
n
-0.5
-1
0 100 200 300 400 500 600
Figure III-8 : Comparaison des mesures avec la simulation fournie par le multi-modèle
Les résultats du test de corrélation des résidus sont décrits sur les figures ci-après. Les
intervalles de confiance sont à 95%. On constate que les conditions de validité du multi-
modèle sont bien respectées.
Page 104 CRAN-INPL

rεε
1
0.5
-0.5
0 5 10 15 20 25
ru1ε ru2ε
0.2
0.2
0.1
0 0
-0.1
-0.2 -0.2
-25 -20 -15 -10 -5 0 5 10 15 20 25 -25 -20 -15 -10 -5 0 5 10 15 20 25
ru2ε ru2ε
1 2
0.2 0.2
0 0
-0.2 -0.2
-25 -20 -15 -10 -5 0 5 10 15 20 25 -25 -20 -15 -10 -5 0 5 10 15 20 25
ru2ε2 ru2ε2
1 2
0.2 0.2
0 0
-0.2 -0.2
-25 -20 -15 -10 -5 0 5 10 15 20 25 -25 -20 -15 -10 -5 0 5 10 15 20 25
III.2.5. CONCLUSION PARTIELLE
Cette première partie du chapitre III a été consacrée à l'optimisation d'un multi-modèle à
travers une partition grille. Notre contribution à la résolution de ce problème porte sur les points
suivants :
• La définition de fonctions de validité à partir de fonctions sigmoïdes. Pour assurer, après

optimisation paramétrique, que ces fonctions soient distinctes (limiter le recouvrement
entre elles) et qu'elles restent sur le support des variables caractéristiques où elles sont
définies, il faut imposer des contraintes inégalités sur leurs paramètres. Dans le souci
d'appliquer des algorithmes d'optimisation paramétrique basés sur le gradient, nous avons
formulé une paramétrisation particulière de ces fonctions. Elle consiste à "chaîner" les
paramètres les uns aux autres. La paramétrisation est définie de sorte que les fonctions de
validité forment une partition unité, ce qui simplifie le calcul des fonctions de sensibilité
utilisées lors de l'estimation paramétrique.
• La proposition d'algorithmes d'estimation des paramètres d'un multi-modèle et associés à

cette paramétrisation particulière. Ces algorithmes relèvent de la classe des techniques des
moindres carrés séparables.
CRAN-INPL Page 105

• La simplification de la structure des modèles locaux par élimination des paramètres

inutiles. Des méthodes existaient pour les multi-modèles à erreur d'équation. Nous avons
développé des techniques pour les multi-modèles à type erreur de sortie. Elles reposent sur
un développement au second ordre du critère d'identification autour de l'estimation des
paramètres des modèles locaux. L'élimination d'un paramètre se traduit par l'optimisation
d'un critère quadratique sous contrainte égalité.
• L'intégration de ces techniques dans une procédure heuristique de recherche des variables
caractéristiques du système et du nombre de partitions sur le support de ces variables. Cette
méthode procède d'une démarche ascendante.
L'inconvénient de la partition grille est son caractère combinatoire qui se traduit d'une
part par un nombre important de modèles locaux et de l'autre par l'existence de zones vides qui
sont inutiles car elles n'apportent pas d'information pour l'explication du comportement du
système. Dans la deuxième partie de ce chapitre, nous présentons des outils pour réduire cette
complexité de la partition grille et réaliser un pavage non régulier de l'espace caractéristique.
Page 106 CRAN-INPL

III.3. REDUCTION DU NOMBRE DE MODELES LOCAUX GENERES

DANS UNE GRILLE : ELIMINATION ET FUSION DE MODELES
Dans les sections précédentes, nous avons présenté des techniques permettant d’affiner la
structure des modèles locaux par élimination des paramètres inutiles. Un effet de bord de ces
techniques est la suppression d'un modèle local. Ceci s'explique par le fait que dans la partition
grille, il peut exister des zones de fonctionnement quasiment vides, voire totalement dépourvues
de données d’apprentissage. Ce problème de zones vides découle de deux causes : la première
est relative aux contraintes techniques ou économiques d'exploitation du processus étudié qui ne
permettent d'explorer tous les modes de fonctionnement du système (en appliquant des signaux
d'excitation appropriés). La seconde raison réside dans le caractère combinatoire de la partition
grille : certaines zones de fonctionnement générées dans cette partition n'existent pas
physiquement pour le système. Le problème de zones vides sera d’autant plus exacerbé que le
nombre de variables caractéristiques et le nombre de partitions sur le support de ces variables est
important. Dans ces conditions, on peut souhaiter examiner l'influence de l'élimination des
modèles locaux associés à de telles zones sur les performances d'approximation de la structure
multi-modèle.
D'un autre côté, dans la partition grille, l'incrémentation du nombre de partitions pi d'une
variable caractéristique zi n'augmente pas d'une unité le nombre de modèles locaux mais de
∏ j =z 1 p j modèles locaux (produit du nombre de partitions des variables caractéristiques
n
j ≠i
restantes). En plus des zones vides qui sont susceptibles d'apparaître, la partition grille peut
produire des zones de fonctionnement voisines décrivant des comportements similaires du
système. Dès lors, on peut envisager de réduire le nombre de modèles locaux en combinant ces
zones voisines, en d'autres termes réaliser une fusion des modèles locaux.
Dans les sous-sections suivantes, nous exposons des techniques d'élimination et de fusion
des modèles locaux. Ensuite, nous montrerons comment ces techniques peuvent être combinées
pour construire une structure multi-modèle plus réduite à partir d'un découpage initial de l'espace
caractéristique. Deux cas seront traités : le premier illustre la construction d'un multi-modèle
dont les zones de fonctionnement sont des orthotopes (i.e. des sous-espaces orthogonaux aux
axes de l'espace caractéristique) ; le deuxième cas exploite toute la flexibilité de la démarche
pour générer des zones de forme plus libre.
III.3.1. ELIMINATION DE MODELES LOCAUX
L'élimination de modèles locaux peu explicatifs a fait l'objet d'investigations de la part de

plusieurs chercheurs. Le problème traité est le suivant : étant donné un ensemble de modèles
locaux positionnés dans l'espace caractéristique, l'objectif est la détermination de l'importance
relative de ces modèles dans la description du comportement du système afin de retenir les
modèles les plus significatifs. Parmi les chercheurs qui se sont intéressés à ce problème, on peut
CRAN-INPL Page 107

citer (la liste n'est pas exhaustive) : Wang et Mendel [1992], Mouzouris et Mendel [1996], Yen
et Wang [1998-a, 1999]. Dans leurs travaux, des techniques comme la méthode SVD-QR avec
permutation de colonnes, les moindres carrés orthogonaux (MCO), les moindres carrés totaux
(Total Least Squares en anglais), … sont appliquées pour sélectionner les modèles locaux les
plus significatifs. Mais les travaux précités présentent l'inconvénient de se limiter à des modèles
locaux constants. En effet, la partition de l'espace caractéristique étant fixée, la sortie d'un multi-
modèle avec des modèles locaux constants s'écrit sous la forme de la relation matricielle linéaire
05 05N
Y = Φ gθ (III-15) où la matrice de régression Φ g = ω 1 t ω M t t =1 est formée par les degrés
d'activation de chacun des modèles locaux. Le problème d'élimination des modèles locaux se
ramène alors à une sélection de variables dans une régression linéaire. Ces méthodes deviennent
inadaptées pour des modèles locaux affines ou linéaires. Néanmoins, le point intéressant est que
la suppression d'un modèle local est assimilée à l'inactivation de ce dernier. Eliminer le modèle
fi revient par conséquent à annuler sa sortie yi(t) pour tout t. Une solution consiste à annuler le
vecteur de paramètres θi du modèle fi , puis à mettre à jour les paramètres des modèles restants.
Cette formulation a été exploitée par Boukhris et al. [2000] qui ont proposé un algorithme
d'élimination des modèles locaux basé sur une optimisation des moindres carrés sous contraintes
égalité. La pertinence de la suppression d'un modèle est directement jugée sur l'amplitude de la
variation de critère que son élimination provoque. On retrouve là les éléments sous-jacents de
l'algorithme 3. Adapté à l'élimination des modèles locaux, cet algorithme nécessite la
0 5 0
manipulation de matrices de projection Pv -cf. équation (III-43)- de taille n × M × n × M où n 5
est la dimension de chaque vecteur de paramètres locaux. A chaque itération, le calcul de la
matrice de projection fait appel à l'inversion de matrices de taille n×n. Pour limiter le volume de
calcul, nous proposons une autre méthode qui traite le problème sous le même angle mais d'une
manière plus simplifiée.
L’astuce de la technique est d’affecter une pondération αi à chaque modèle local [Gasso
et al., 1999-c]. La sortie du multi-modèle a alors pour expression :
M
05 05 05
y t = ∑ ω i t yi t α i
i =1
(III-48)
Les pondérations αi serviront à définir la contribution de chaque modèle local à la structure

multi-modèle. Elles procurent des degrés de liberté pour suggérer les modèles locaux les moins
05 05
explicatifs. En posant ~yi = ω i t yi t , la sortie locale pondérée par la fonction d'activation
correspondante, l'équation (III-48) précédente se transforme comme suit :
05 05
y t =ψ t α (III-49-a)
ψ 0t 5 = ~
y 0t 5 ~
y 0t 5
T T
1 M et α = α 1 α M (III-49-b)
Pour un ensemble de N mesures expérimentales, on écrit l'expression matricielle :
Y = Ψα
Page 108 CRAN-INPL

Dans le multi-modèle initial, tous les coefficients αi ont une valeur de 1. Comme l'élimination
d'un modèle local équivaut à forcer la sortie locale correspondante à 0, il suffit d'annuler la
contribution αi du modèle local fi, puis de réestimer les autres coefficients de pondération car la
contribution des autres modèles locaux en sera modifiée. Cette modification sera d'autant plus
petite que le modèle à éliminer est peu significatif. Mathématiquement, le problème
d'élimination d'un modèle local fi se ramène à la minimisation du critère :
1 1
05
Jα =
2
Y − Ys
2
=
2
Ψα − Ys
2
sous la contrainte de la nullité de αi. Dans une formulation matricielle, cette contrainte prend la
forme Ciα = 0 - voir équation (III-41) - avec le vecteur de contrainte Ci qui est maintenant de
taille M. De façon similaire au problème d’élimination des paramètres traité au paragraphe
III.2.4.3.1, on montre que la solution de cette optimisation sous contrainte égalité est fournie
par :
α (ci ) = Pi α 0
−1
4
Pi = I − Ψ T Ψ 9−1 CiT Ci 4Ψ T Ψ 9−1 CiT Ci
où α 0 = M est le vecteur de pondérations initial constitué de 1, Pi une matrice de projection
M×M
3P ∈
i 8. La variation de critère résultant de l'élimination du modèle local f s'obtient par : i
−1
∆J = J 3α 8 − J 1α 6 = α C C 3Ψ Ψ 8 C C α
(i ) 1 T T T −1 T
c 0
2
0 i i i j 0
Le modèle local éliminé est celui ayant produit la variation de critère minimale. L'élimination
d'un autre modèle local, fj par exemple, équivaut à minimiser le critère J α sous les contraintes 05
Ciα = 0 et C jα = 0 . On en déduit la variation de critère à partir de laquelle, on décide ou non la
suppression de cet autre modèle local. Il est donc possible de mettre en œuvre un algorithme
itératif de suppression des modèles locaux. Cet algorithme est en tout point identique à
l’algorithme 3. Par conséquent, nous ne décrirons pas en détail les étapes à suivre pour éliminer
les modèles locaux. Nous renvoyons à l’algorithme 3 avec les modifications suivantes à
apporter :
♦ calculer la matrice H = Ψ T Ψ + λI . Le coefficient de régularisation λ est obtenu par

minimisation de l'un des critères généralisés AIC(λ), FPE(λ) ou MDL(λ) (cf.
équations I-46),
♦ remplacer l’ensemble des indices des paramètres E p = 1,,. nθ ; @ par celui des
indices des modèles locaux Emod_loc = 1,,. M , : ?
♦ remplacer le vecteur θ par le vecteur α 0 = M dans le calcul de la variation de critère,
CRAN-INPL Page 109

1× M
♦ le vecteur de contrainte Ci est maintenant de taille M Ci ∈ 4 9.
Les autres étapes de l’algorithme restent inchangées. A la fin de l'algorithme, on obtient la liste
des modèles locaux candidats à la suppression. Le nombre de modèles à éliminer se décide sur la
base d'un critère de généralisation de type FPE, AIC ou MDL.
REMARQUES
¬ Avec la formulation (III-48) et (III-49), l'élimination d'un modèle local est ramené à un
problème de sélection de variables. Les méthodes MCO, SVD-QR, … précédemment
évoquées s'appliquent.
¬ Les paramètres des modèles locaux supprimés à la suite de cette procédure sont forcés à
zéro. Ceux des modèles locaux retenus sont ensuite réestimés. Notons que cette façon de
procéder n'élimine pas totalement l'influence des modèles peu explicatifs dans la structure
multi-modèle. En effet, la fonction d'activation ωi d'un modèle local fi non éliminé se
calcule toujours comme :
ρ
ωi = M i
∑ρj
j =1
Le terme au dénominateur reste la somme des M fonctions de validité initiales.

Strictement, ce dénominateur devrait être la somme des fonctions de validité des modèles
locaux conservés dans le multi-modèle. Mais comme la procédure d'élimination des
modèles locaux s'attache essentiellement à supprimer les modèles couvrant des zones à
faible densité de points, maintenir les fonctions de validité des modèles supprimés dans le
calcul des fonctions d'activation ne modifie pas énormément le résultat final.
III.3.2. FUSION DE MODELES LOCAUX
L'idée ici est de combiner des modèles locaux voisins. Tout de suite les questions qui se
posent sont : comment réaliser cette combinaison ? Suivants quels critères décide-t-on de
fusionner deux modèles voisins ? Comment déterminer les modèles voisins ? Nous avons
répertorié dans la littérature trois approches proposant des réponses à ces questions. Nous les
exposons dans les paragraphes qui suivent.
III.3.2.1. Etat de l'art
Une méthode de fusion suggérée par Kaymak et Babuška [1995] et reprise dans [Babuška
et Verbruggen, 1997] puis dans [Babuška, 1998] se fonde sur l'analyse de la compatibilité des
modèles locaux. La structure multi-modèle sur laquelle elle s'applique est construite en réalisant
une classification des données dans l'espace produit entre la sortie du système et l'espace de
Page 110 CRAN-INPL

régression6 suivant l'algorithme de Gustafson-Kessel (GK). Le nombre initial de classes M est

pris suffisamment grand afin de détecter toutes les particularités du système. Chaque classe
représente un modèle local. La forme des classes recherchées par cet algorithme est ellipsoïdale.
&
L'axe d'allongement maximal d'une classe définit par conséquent l'hyperplan correspondant au
modèle local. Le vecteur normal à cet hyperplan et noté Y
est le vecteur propre associé à la plus
petite valeur propre de la matrice de variance-covariance des données relevant de cette classe.
Deux classes i et j sont jugées compatibles si elles satisfont aux conditions suivantes :
• leurs centres sont proches, soit 05 05
centre i − centre j ≤ seuil1 (avec seuil1 proche de zéro),
&&
• leurs vecteurs normaux sont colinéaires soit, Yi ⋅ Y j ≥ seuil2 (seuil 2 proche de 1).
La procédure de fusion consiste donc à identifier les classes compatibles au sens de ces
deux critères, puis à les fusionner. L'illustration de la méthode est faite sur la figure III-9 où sept
classes sont utilisées pour approcher une fonction non-linéaire statique. L'algorithme de fusion
permet par exemple de combiner les classes 4 et 5 d'une part et les classes 6 et 7 de l'autre. Mais
la technique souffre de deux problèmes : le premier concerne la définition d'un indice unique de
compatibilité des classes conciliant les critères de proximité et de colinéarité. En effet, deux
classes dont les centres sont plus ou moins éloignés et qui ont des vecteurs normaux quasiment
colinéaires auront un indice de compatibilité du même ordre de grandeur que deux classes dont
les centres sont proches mais avec des vecteurs normaux non colinéaires. C'est le cas des classes
1, 2, 3 sur la figure III-9. Les classes 2 et 3 sont proches mais ne sont pas colinéaires tandis que
les classes 1 et 2 ont leurs centres éloignés mais avec des vecteurs normaux quasiment
colinéaires. Ce dilemme proximité/colinéarité peut influencer fortement la prise de décision. Le
second problème découle du premier : il est lié à la spécification d'un seuil significatif de l'indice
de compatibilité afin de décider les classes qui doivent être regroupées [Babuška, 1998].
& &Y
Y1 1
&Y & &

& 6 Y7 Y5
& Y5 & &
Y2 & Y2 Y4
& Y4 &
Y3 Y3
Multimodèle initial Multimodèle après fusion des classes
Figure III-9 : Illustration de la technique de fusion de [Kaymak et Babuška, 1995]
Une autre méthode de fusion a été proposée par Setnes et al. [1998] dont les travaux se
situent dans la continuité de ceux de Kaymak et Babuška [1995]. Afin d'exprimer les classes
6
Dans cette méthode de classification, le vecteur de régression comprend les sorties et les entrées décalées du
système. La méthode de classification n'existe pas pour l'instant pour des modèles locaux de type erreur de sortie.
CRAN-INPL Page 111

sous la forme d'un modèle flou, on procède à une projection des classes sur les axes de l'espace
de régression (qui coïncide ici avec l'espace caractéristique). Chaque classe est alors caractérisée
par une partition (décrite par une fonction de validité individuelle) sur le support de chaque
variable de régression. Si le nombre initial de classes est important, il est courant d'avoir des
partitions qui sont très semblables : elles peuvent être combinées en une seule. Des partitions
semblables peuvent également apparaître si la position des fonctions de validité a été optimisée
sans imposer des contraintes sur leurs paramètres comme celles que nous avons définies à
l'équation (III-10). La méthode de fusion développée par Setnes et al. [1998] consiste à regrouper
de façon séquentielle les paires de partitions semblables. Cette opération de fusion s'exécute
indépendamment sur le support de chaque variable caractéristique. A la fin de la procédure, des
modèles locaux peuvent se retrouver affectés à des zones de validité identiques. Pour assurer la
cohérence du multi-modèle, ces modèles sont remplacés par un seul modèle local. En somme, la
fusion de deux modèles locaux résulte de la similarité de leurs partitions sur chaque axe de
l'espace caractéristique. L'exemple d'un multi-modèle à une variable caractéristique est montré
sur la figure III-10. A gauche, les fonctions de validité initiales, au milieu, la position de ces
fonctions après optimisation paramétrique. On constate que les fonctions de validité associées
aux partitions 33 et 34 se recouvrent fortement : elles sont très similaires ; les modèles locaux
correspondants sont fusionnés.
31 32 33 34 35 31 32 33 34 35 31 33 , 4
1
1 32 35
1
0.5 0.5 0.5
0 0
0 0.5 1 0
0 0.5 1 0 0.5 1
a- Initialement b- Après optimisation c-Après fusion

paramétrique
Figure III-10 : Méthode de fusion basée sur l'analyse de la similarité des fonctions de
validité
La réduction en nombre de modèles locaux est intimement liée au choix d'un seuil significatif
pour décider de la similarité des partitions. Si ce seuil est faible, la méthode fusionnera beaucoup
de modèles locaux ; elle en combinera peu dans le cas contraire. Cette méthode de fusion est
inadaptée dans le cas des fonctions de validité construites à partir de sigmoïdes car de part les
contraintes qu'on impose sur les paramètres de ces fonctions, on évite un recouvrement quasi
total entre elles.
La dernière approche proposée dans la littérature est le fait de Boukhris et al. [2000].
L'idée pour fusionner deux modèles locaux n'est pas d'examiner la similarité des zones de
validité ou la compatibilité des classes. Elle consiste à imposer purement et simplement une
contrainte selon laquelle deux modèles voisins considérés pour fusion doivent avoir le même
comportement. Sous cette contrainte, on met à jour le vecteur de paramètres des autres modèles
Page 112 CRAN-INPL

locaux, puis on évalue l'influence de cette décision sur les qualités d'approximation du multi-
modèle. De l'examen de cette influence, on décide l'acceptation ou non de la fusion de ces
modèles locaux. Cette dernière technique se fonde directement sur les capacités d'approximation
du multi-modèle contrairement aux deux méthodes précédentes ; nous la préférons pour cette
raison. De plus, sa mise en œuvre se situe dans la droite ligne des techniques d'optimisation sous
contraintes égalité que nous avons explicitées dans les algorithmes 3 et 4. La formulation
mathématique de cette méthode de fusion est développée dans le paragraphe suivant.
III.3.2.2. Algorithme de fusion
: Critère à erreur d'équation
La position des fonctions de validité est supposée déterminée. On suppose aussi la

connaissance d'une estimation θ du vecteur de paramètres des modèles locaux. La fusion de
deux zones de fonctionnement ou zones de validité est réalisée en imposant le même
comportement aux modèles locaux correspondants à ces zones. Soient les modèles locaux
voisins (nous définirons par la suite la notion de voisinage) fi ϕ t ,θ i 4 05 9 4 05 9
et f j ϕ t ,θ j que
l'utilisateur désire combiner. La contrainte de fusion se traduit mathématiquement (en adoptant la
procédure du paragraphe III.2.4.3.1) par la détermination de deux vecteurs ∆θi et ∆θj tels que :
θ i + ∆θ i = θ j + ∆θ j (III-50)
En reportant à gauche le membre de droite de cette équation et en utilisant une écriture

matricielle, on écrit la contrainte (III-50) sous la forme :
nθ ×1
Cij θ + ∆θ = 0
4 9 θ ∈ (III-51)
avec la matrice de contraintes Cij définie par :

n × nθ
Cij = [0 n × n I n× n 0 n× n − I n× n 0 n× n Cij ∈

position i

position j

0 n×n ]
position M
(III-52)
Dans cette équation, l'indice n désigne la taille du vecteur de paramètres d'un modèle local (étant
entendu que tous les modèles locaux ont des vecteurs de paramètres de taille identique). La
fusion de deux modèles locaux revient à minimiser la variation de critère (III-37) sous la
contrainte égalité exprimée par la formule (III-52). De façon analogue au calcul du paragraphe
III.2.4.3.1, on déduit de cette minimisation le vecteur de paramètres contraint :

θ (ijc ) = I − H −1CijT Cij H −1CijT
3 8 −1
Cij θ
La variation de critère suite à la fusion de ces deux modèles locaux s'exprime :
1 −1
∆J g ij = θ T CijT Cij H −1CijT Cijθ
05 4 9
2
CRAN-INPL Page 113

Une récurrence sur la variation du critère pourrait être établie si d'autres modèles locaux sont
fusionnés. L'algorithme de fusion des modèles locaux est donc comparable à celui d'élimination
des paramètres des modèles locaux. Ses étapes sont décrites par l'algorithme 5.
ALGORITHME 5 : FUSION DE MODELES LOCAUX
[1] Calculer la matrice hessienne H = Φ Tg Φ g . Initialiser Pv=I, v=0 (v représente

le nombre d'itérations de l'algorithme).
Former toutes les paires (fi, fj) de modèles locaux voisins susceptibles d'être
fusionnés.
[2] Pour chaque paire (fi, fj), générer la matrice de contraintes Cij correspondante
(III-52).
0 5
Evaluer la variation de critère ∆J g v +1 par la relation (III-44) dans laquelle
on remplacera le vecteur Ci par la matrice de contraintes Cij.
[3] Trouver la paire de modèles locaux (fk, fl) dont la fusion conduit à une
variation de critère minimale.
Fusionner les modèles locaux correspondants. Soit Fk ,l le nouveau modèle
local obtenu.
[4] Calculer la nouvelle matrice de projection Pv+1 par l'équation (III-43) en

prenant soin de remplacer le vecteur Ci par la matrice de contraintes Cij.
Mise à jour de la base des paires de modèles locaux candidats à la fusion :
exclure la paire (fk, fl) ; remplacer les modèles fk et fl par le nouveau modèle
Fk , l dans toutes les autres paires où ils apparaissent.
Incrémenter v.
[5] Réitérer à partir de l'étape [2] jusqu'à la satisfaction d'un critère d'arrêt.
[6] Calculer le vecteur de paramètres final par les formules (III-42) et (III-43).
On substituera dans (III-43) la matrice de contraintes Cij au vecteur Ci.
Comme dans les algorithmes 3 et 4, le critère d'arrêt porte sur un critère de généralisation
AIC, FPE ou MDL. Les degrés de liberté intervenant dans ces critères sont donnés par le produit
Mv × n où n est la dimension d'un vecteur de paramètres locaux, Mv est le nombre de modèles
locaux de la structure multi-modèle après la vième fusion.
Page 114 CRAN-INPL

: Caractérisation des modèles locaux issus de la fusion
4 05 9 4 05 9
Si l'on fusionne deux modèles locaux fi ϕ t ,θ i et f j ϕ t ,θ j de fonctions d'activation
105 6
respectives ω i z t , β 105 6
et ω j z t , β , on obtient un nouveau modèle local désigné par
4 05 9 105 6
Fi, j ϕ t , θ i, j . La fonction d'activation ω i, j z t , β de ce nouveau modèle est définie comme la
somme des fonctions d'activation des modèles locaux parents, soit :
105 6 105 6 105 6

ω i, j z t , β = ω i z t , β + ω j z t , β (III-53)
En modélisation floue, cette opération de fusion s'assimile à une union de deux ensembles flous
sur la base de l'opérateur t-conorme de Lukasiewicz. Cet opérateur est défini dans le tableau I-2
3 8
comme ω i, j = min ω i + ω j , 1 . La règle résultante s'interprète sous la forme de la proposition
suivante :
4 05 9
ℜi, j : si ℜi ∨ ℜ j alors Fi, j ϕ t , θ i, j
où le signe ∨ désigne l'opérateur d'union.
Un modèle local Fi, j issu de la fusion de fi et fj peut ensuite être combiné à un modèle fk
ou à un autre modèle Fk ,l , fusion de fk et fl. Pour ne pas complexifier les notations, nous noterons
Fi , les modèles locaux obtenus après application de l'algorithme de fusion. A chaque modèle Fi
est associé un ensemble ℑi qui comprend les indices des modèles locaux initiaux à partir
desquels Fi a été construit. Par exemple, à un modèle Fi , fusion de fj, fk et fl correspond un
: ?
ensemble ℑi = j , k , l . La fonction d'activation de ce modèle est déterminée à partir de
l'expression :
ω i = ∑ ω p = ω j +ω k + ω l (III-54)
p ∈ℑi
Si l'ensemble ℑi correspondant à un modèle Fi est un ensemble singleton, Fi n'est rien d'autre

que le modèle originel. L'élément singleton est nécessairement l'indice du modèle local originel.
: Notion de voisinage de deux zones de fonctionnement

Dans l'exposé de l'algorithme 5 ci-dessus, nous avons évoqué à l'étape [1], la formation de paires
de modèles locaux voisins sans définir la notion de voisinage des modèles locaux. La condition
de voisinage de deux zones de fonctionnement est exprimée sous forme de distance inter-
centres :
centre = i − centre = j
1 6 3 8 2 ≤ seuil (III-55-a)
avec le seuil proche de 0 et où le centre d'une zone est le barycentre :
CRAN-INPL Page 115

N
05 05
∑ω i t z t
centre1= i 6 =t =1
N
(III-55-b)
∑ ω i 0t 5
t =1
Nous verrons par la suite que l'utilisation d'une partition grille nous affranchit de l'emploi de
cette notion de voisinage. Néanmoins, elle a été présentée afin de rendre l'algorithme de fusion
applicable à tous les types de partition.
: Adaptation de la méthode de fusion à un critère à erreur de sortie

L'algorithme 5 que nous avons présenté est relatif à un critère à erreur d'équation. Si l'on
veut l'adapter à un critère à erreur de sortie, on se trouve confronté au même problème que dans
le cas de l'élimination des paramètres inutiles du fait que l'équation (III-36) sur laquelle est basée
la méthode est une approximation du critère Jg au second ordre. Par conséquent, la variation de
paramètres ∆θ calculée au fil des itérations peut rendre invalide l'approximation : une nouvelle
optimisation des paramètres des modèles locaux restants intervient et on recommence la
procédure. Les détails de l'algorithme de fusion pour un critère à erreur de sortie ne seront pas
présentés. Les modifications à apporter à l'algorithme 5 sont les mêmes que celles apportées à
l'algorithme 3 lors de sa transposition en algorithme 4. Nous renvoyons donc à ce dernier
algorithme pour la mise en œuvre de la technique de fusion dans le cas d'un critère à erreur de
sortie. Il suffira simplement de considérer l'ensemble des paires de modèles candidats à la fusion
à la place de l'ensemble Ep des indices des paramètres des modèles locaux. Dans le calcul de la
variation de critère après fusion, il faut remplacer le vecteur de contraintes Ci par la matrice de
contraintes Cij (équation III-51). L'étape [5] de l'algorithme 4 est modifiée en incluant la mise à
jour des paires de modèles locaux à fusionner (comme décrite dans l'algorithme 5). Les autres
étapes demeurent inchangées.
III.3.3. APPLICATION DES TECHNIQUES D'ELIMINATION ET DE FUSION DE

MODELES LOCAUX A LA RECHERCHE DE STRUCTURE D'UN MULTI-
MODELE (Gasso et al., 2000-b)
Cette section décrit la combinaison des méthodes d'élimination et de fusion de modèles

afin d'optimiser la structure d'un multi-modèle. L'espace caractéristique du multi-modèle est
initialement décomposé sous forme de grille. A partir de ce maillage, la complexité de la
structure multi-modèle est réduite par élimination et par fusion des modèles locaux. L'idée sous-
jacente de cette démarche est synthétisée par le schéma de la figure III-11.
L'étude est réalisée en deux temps : de prime abord, nous considérerons le cas simple d'un
espace caractéristique monodimensionnel, puis nous aborderons le cas général d'un espace
multidimensionnel.
Page 116 CRAN-INPL

1- Elimination de Optimisation Validation du

Découpage initial paramétrique du multi-
modèles locaux multi-modèle OUI Multi-
de l'espace modèle réduit Arrêt ?
caractéristique =
2- Fusion de modèles (critère MDL, AIC,… modèle
(paramètres des fonctions de final
locaux voisins ou validation croisée) NON
validité et des modèles locaux)
Figure III-11 : Schéma synthétique résumant la construction d'une architecture multi-

modèle par élimination et fusion de modèles locaux
III.3.3.1. Espace caractéristique monodimensionnel
La procédure d'optimisation structurelle est simple à mettre en œuvre dans ce cas. L'étape
d'élimination des modèles locaux est inutile puisqu'il ne peut exister de zones vides. Pour former
les paires de modèles locaux à fusionner, il suffit de prendre les modèles adjacents, ce qui évite
l'utilisation de la notion de voisinage (III-55-a). La méthode est illustrée sur un exemple de
simulation.
¼ Exemple III-3
On considère un système décrit par l'équation différentielle non-linéaire :
05 05 05 05 05
y t + y t + y t + y t 3 = u t

Ce système a été simulé, puis échantillonné à une période de 0.2s. Un jeu de données
de 1500 points a servi à l'identification d'un multi-modèle. La variable caractéristique est
05 0 5
z t = u t - 2 . Les modèles locaux sont des modèles à erreur de sortie avec le vecteur de
régression augmenté suivant 05 0 5 0 5 u0t − 15 u0t − 25
ϕ a t = − y t − 1 − y t − 2 1
T
qui
comporte les sorties décalées du multi-modèle. Ce choix préalable de ϕα(t) et de z(t) a été
fait après une série de tests effectués par la procédure de la figure III-5.
Le multi-modèle initial comporte 12 modèles locaux dont les fonctions de validité sont
construites à partir de fonctions sigmoïdes. Leur position sur le support de la variable
caractéristique est illustrée sur la figure III-12-a. Précisons que la position initiale de ces
fonctions d'activation7 a été optimisée durant quelques itérations pour les adapter aux non-
linéarités du système. Les 60 paramètres des modèles locaux ont été ensuite optimisés par un
algorithme de Levenberg-Marquardt. A la convergence de l'algorithme d'optimisation, la
procédure d'identification structurelle de la figure III-11 a été initiée. Le tableau III-3 résume
les résultats obtenus.
7
Rappelons que l'espace caractéristique étant monodimensionnel, les fonctions d'activation coïncident avec les
fonctions de validité. En effet, de part la définition des fonctions d'activation à partir des sigmoïdes, elles forment
une partition unité sur le support de la variable caractéristique.
CRAN-INPL Page 117

1
ω1 ω2 ω3 ω4 ω5 ω6
0.5
0
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
a-Fonctions d'activation initiales
1
ω1 ω2 ω3 ω4 ω6
ω5
0.5
0
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
b-Fonctions d'activation issues de la première fusion
ω1 ω2 ω3 ω4
0.5
0
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
c-Fonctions d'activation associées à la structure multi-modèle finale
Figure III-12 : Tracé des fonctions d'activation des modèles locaux lors de la fusion
Itération 0 1 2 3 4
Nombre de modèles
12 6 5 4 3
locaux M
Critère MDL 1.98 1.83 1.81 1.80 1.82
Critère d'identification Jg 4.90 5.15 5.24 5.35 5.67
Tableau III-3 : Résultats obtenus au fil des itérations de la procédure de fusion

appliquée à un multi-modèle à erreur de sortie
On constate qu'après la première fusion, le nombre de modèles locaux est réduit de

moitié : la structure multi-modèle passe de 12 à 6 modèles locaux. Sur la figure III-12-a,
nous avons indiqué les groupes de modèles locaux qui ont été combinés. La forme des
fonctions d'activation résultant de la combinaison des fonctions d'activation initiales est
illustrée sur la figure III-12-b. Les paramètres des fonctions d'activation et ceux des modèles
locaux de cette structure multi-modèle réduite sont ensuite optimisés. Les performances de
généralisation du multi-modèle résultant sont évaluées sur les données d'identification par
calcul du critère MDL. Le nombre de degrés de liberté du critère est la somme du nombre de
Page 118 CRAN-INPL

paramètres des modèles locaux et des fonctions d'activation actuellement présents dans le
multi-modèle. La nouvelle structure multi-modèle sert de point départ pour la fusion d'autres
modèles locaux. Le processus est ainsi réitéré et l'arrêt de la procédure globale est jugé sur
les variations du critère MDL. L'optimum du critère MDL a été atteint pour un nombre de
modèles locaux égal à 4. Les fonctions d'activation associées à cette structure multi-modèle
finale sont tracées sur la figure III-12-c.
Un jeu de données de test constitué de 600 points a été ensuite utilisé pour comparer la
structure multi-modèle réduite avec la structure multi-modèle initiale constituée de 12
modèles locaux. Les tracés comparatifs de la sortie du système simulé et de celle de ces deux
multi-modèles sont présentés sur la figure III-13. La structure multi-modèle réduite fournit
des performances légèrement supérieures à la structure initiale puisque le critère quadratique
calculé sur les données de test est de 2.05 pour la structure réduite contre 2.47 pour la
structure complète. Cette différence peut provenir du fait que le multi-modèle complet s'est
trop adapté au bruit (phénomène de sur-apprentissage) et généralise donc moins bien sur les
données de test.
Critère Jtest = 2.0542 Critère Jtest = 2.4792

1 1
Mesures Mesures
0.5 Multi-modèle Multi-modèle
0.5
0 0
-0.5
-0.5
-1
0 100 200 300 400 500 600 -1
0 100 200 300 400 500 600
a- Multi-modèle à 4 modèles locaux b- Multi-modèle à 12 modèles locaux
Figure III-13 : Comparaison de la sortie du système simulé avec celles des

structures multi-modèles complète et réduite
III.3.3.2. Espace caractéristique multidimensionnel (Gasso et al., 2000-b)
Lorsque l'espace caractéristique est de dimension supérieure ou égale à 2, la mise en

œuvre de la technique de fusion devient délicate. Le problème est de savoir si les zones de
fonctionnement obtenues après la procédure de fusion doivent être limitées ou non à des
orthotopes (hyper-rectangles). Selon ce choix, on imposera des contraintes sur les zones
adjacentes à combiner lors de la fusion des modèles locaux. Avant d'aborder les détails de ce
problème, évoquons la création de la partition initiale à partir de laquelle démarre la procédure.
CRAN-INPL Page 119

,,, *pQpUDWLRQGHODSDUWLWLRQLQLWLDOH
Nous faisons l'hypothèse de la connaissance des variables caractéristiques z(t). On

décompose l'espace caractéristique correspondant suivant une partition grille. La question qui se
pose est : combien de partitions faut-il définir sur le support de chaque variable caractéristique ?
Ce choix initial détermine la finesse de la décomposition. Sans pertes de généralités, considérons
qu'on choisit le même nombre de partitions p pour les variables caractéristiques. Si p est faible,
la décomposition initiale de l'espace caractéristique est grossière. Au contraire si la valeur de p
est élevée, on obtient une décomposition fine. Dans ce cas, il est probable que la partition initiale
contiendra beaucoup de zones vides et des zones voisines décrivant des comportements
similaires du système étudié mais arbitrairement séparées par la partition. Pour choisir la valeur
de p, il est possible de s'inspirer de la règle en modélisation floue qui suggère qu'au maximum
7±2 modalités soient définies sur le support des variables caractéristiques. En suivant cette règle,
le nombre de partitions p est choisi tel que 5 ≤ p ≤ 9 . Le nombre initial de modèles locaux est
donc M0 = p nz . Précisons que la partition grille initiale peut tout simplement provenir des
méthodes d'identification développées dans la première partie de ce chapitre et résumées par
l'organigramme III-5.
,,, (OLPLQDWLRQ GHVPRGqOHVORFDX[
On s'attache dans cette étape à supprimer les modèles locaux dont la contribution à
l'explication de la sortie du système est faible. Etant données la partition initiale et la structure
initiale des modèles locaux, il est aisé de calculer le vecteur de paramètres des modèles locaux
par moindres carrés régularisés (la régularisation est nécessaire pour éviter des problèmes de
mauvais conditionnement liés à la rareté des données d'identification dans certaines zones de
fonctionnement). La sortie des modèles locaux est ensuite calculée et on y applique la procédure
d'élimination. Le lecteur notera une caractéristique intéressante de cette étape d'élimination : la
partition initiale sous forme de grille est une caractérisation grossière de la forme du nuage de
points dans l'espace caractéristique. L'étape d'élimination s'assimile à une délimitation plus
affinée de ce nuage de points (voir figures III-17-a, III-17-b).
Soit SR, l'ensemble des modèles locaux restants après élimination. La sortie du multi-
modèle est maintenant exprimée par l'équation :
M0 M1
05 i =1
05 05
y t = ∑ ω i t yi t = ∑
i' =1
05 05
ω i' t yi' t
i ∈ SR
où M1 est le cardinal de SR.
A la fin de l'élimination, on peut procéder à l'optimisation des paramètres des fonctions

de validité et de ceux des modèles locaux restants. L'optimisation est réalisée pour compenser la
perte de précision liée à la suppression de certains modèles locaux. Mais elle est réalisée sur
Page 120 CRAN-INPL

quelques itérations afin d'éviter un sur-apprentissage. Au cours de cette optimisation, la partition

grille est conservée. Les paramètres des modèles locaux éliminés sont figés à zéro et ils le
resteront dans la suite de la procédure d'identification. Seuls ceux des modèles retenus sont
optimisés. On limite ainsi l'ampleur du problème de mauvais conditionnement de l'estimation des
paramètres.
,,, )XVLRQGHV PRGqOHVORFDX[
La position des zones de fonctionnement (ou encore zones de validité) étant fixée, on se
focalise sur le regroupement des modèles locaux restants afin de réduire la taille de la structure
multi-modèle. La partition initiale étant sous forme de grille, il est facile de définir les paires de
modèles locaux voisins. En effet, il suffit de considérer les zones adjacentes comme le montre la
figure III-14. Sur cette figure, les flèches indiquent les zones pouvant être fusionnées. La zone =5
(ou de façon équivalente le modèle local f5), par exemple, pourra être fusionnée avec les zones
adjacentes =2, =4, =6, =8. La détermination des paires de modèles locaux voisins est ainsi
grandement facilitée.
z2
=3 =6 =9
=2 =5 =8
=1 =4 =7
z1
Figure III-14 : Définition des paires de modèles locaux voisins à partir d'une partition
grille initiale (exemple d'une grille avec 3 partitions définies sur chaque axe)
La préoccupation suivante porte sur la forme des zones de fonctionnement : faut-il limiter
ou non les zones de validité issues de la fusion à des orthotopes (hyper-rectangles) ? Pour
illustrer le problème, examinons la figure III-15.
z2 z2 z2
=3 =6 =9 =3 =6 =3 =6
=8,9 =8,9
=2,5
=2 =5 =8
=1,2,4,5
=1,4 =7 =1,4 =7 =7
z1 z1 z1
Figure III-15 : Illustration de la fusion des modèles locaux avec des zones de validité
restreintes à des orthotopes
CRAN-INPL Page 121

Considérons que les modèles locaux correspondants aux zones =1 et =4 ont été fusionnés
à la première itération de l'algorithme de fusion. Désignons par F1,4 le nouveau modèle et par
=1,4 , la zone de validité qui lui correspond. Si les zones de validité sont limitées à des
orthotopes, la fusion de =1,4 avec la zone =2 ou =5 n'est pas envisageable. La seule possibilité
restante est la fusion de =1,4 avec =7. Dans l'algorithme de fusion, les paires de modèles F1,4 , f2 2 7
2 7
et F1,4 , f5 sont alors exclues des combinaisons de fusion à tester (ceci après le remplacement
des modèles f1 et f4 par le modèle F1,4 dans toutes les paires candidates où ceux-ci interviennent).
Si au cours des itérations de l'algorithme de fusion, les modèles f2 et f5 sont fusionnés (ce qui
génère la zone = 2,5 ), il est possible alors de combiner les zones =1,4 et = 2,5 pour avoir une
nouvelle zone =1,2,4,5 . Ceci est illustré sur la figure III-15. Signalons que l'absence de flèches
entre deux zones indique que leur fusion n'est pas possible.
L'intérêt que représente cette restriction des zones de validité à des orthotopes est la facilité de
lecture du multi-modèle résultant : il peut se lire comme un modèle flou c'est-à-dire chaque
modèle local s'exprime sous la forme de propositions portant sur les variables caractéristiques.
Mais en exploitant toute la flexibilité de la méthode de fusion, il est possible de générer

des zones de validité non convexes et pas nécessairement limitées à des orthotopes : c'est l'une
des originalités de la procédure que nous proposons. Dans ce cas, la gestion des contraintes
évoquée auparavant devient inutile et la méthode procède par fusion des paires de modèles
locaux candidates considérées au début de l'algorithme jusqu'à la satisfaction du critère d'arrêt.
La figure III-16 montre l'exemple de zones de validité qu'on peut obtenir par ce biais.
z2 z2 z2
=3 =6 =9 =3 =6
=6,8,9
=8,9
=2 =5 =8 =2,5 =2,3,5
=1,4 =7 =1,4 =7 =1,4 =7

z1 z1 z1
Figure III-16 : Fusion de modèles locaux : zones de validité non limitées à des orthotopes
Cependant la lecture de la structure multi-modèle résultante est moins aisée. Une zone
non rectangulaire comme la zone = 2,3,5 ne peut plus être interprétée sous la forme de
propositions portant sur les variables caractéristiques. Elle s'interprète seulement comme la
combinaison des zones de validité parentes =i.
Page 122 CRAN-INPL

,,, 2SWLPLVDWLR QSDUDPpWULTXHGHO

DUFKLWHFWXUHPXOWLPRGqOHDSUqVIXVLRQ
Après la fusion des modèles locaux, la sortie de l'architecture multi-modèle réduite

s'écrit :
M2
05 05 05
y t = ∑ ω i t yi t
i =1
M2 étant le nombre de modèles locaux après la procédure de fusion. yi désigne la sortie du

modèle Fi . Les nouvelles fonctions d'activation ω i sont calculées selon la règle (III-54) c'est-à-
dire par sommation des fonctions d'activation des modèles locaux initiaux fi dont la fusion a
engendré les modèles Fi .
L'optimisation des paramètres se fait en gardant la partition grille. L'avantage de procéder

ainsi réside dans la réduction du nombre de paramètres. Considérons la procédure de fusion de la
figure III-15 où on obtient à la fin 5 zones de fonctionnement. Si l'on veut décrire chacune des
zones par une fonction de validité, on aura besoin de 10 fonctions de validité individuelles, à
raison de 5 sur chaque axe. Par contre, en maintenant la partition grille à 9 zones, il faut définir 3
fonctions de validité sur chaque axe de l'espace caractéristique soit au total 6 fonctions de
validité individuelles. Le gain en nombre de paramètres est donc évident. Une raison
supplémentaire pour conserver la partition grille apparaît dans le cas général où la flexibilité de
la méthode de fusion n'est pas bridée par la restriction des zones de validité à des orthotopes : il
n'est guère possible de définir pour une zone non rectangulaire une fonction d'activation
facilement paramétrable et il est obligatoire de la construire par sommation des fonctions
d'activation des modèles fusionnés. Pour ces raisons, nous optons pour le maintien de la partition
grille lors de la phase d'optimisation paramétrique. Mais on s'affranchit des problèmes de
régularisation inhérents à la partition grille, puisque avant cette optimisation, on a veillé à
éliminer les zones vides ou très peu pourvues en données expérimentales, puis on a réduit la
complexité de l'architecture multi-modèle en fusionnant des modèles locaux. Cette façon de
traiter le problème d'optimisation paramétrique constitue la deuxième originalité de la procédure.
,,, $UUrWGHOD SURFpGXUH
La structure multi-modèle réduite obtenue à la suite de la fusion et après optimisation de

la position des zones de validité est validée. La validation est croisée (test de la structure multi-
modèle sur des données de validation) ou s'effectue sur les données d'identification par calcul
d'un critère de généralisation AIC, FPE ou MDL. La procédure s'arrête si cette structure multi-
modèle est satisfaisante ; autrement elle est réitérée à partir de cette architecture multi-modèle.
L'élimination des modèles locaux Fi est testée (dans nos simulations, nous avons constaté qu'en
général, une étape ultérieure d'élimination des modèles locaux n'est pas nécessaire) suivie par
une nouvelle étape de fusion, d'optimisation paramétrique, puis de validation.
Illustrons maintenant la démarche décrite sur un exemple.
CRAN-INPL Page 123

¼ Exemple III-4
Le système non-linéaire étudié est représenté par l'équation aux différences :
05 0 5 2 0 57 0 5
y t = 0.4u t - 1 3 + exp -0.5 y t - 1 + e t
où e(t) représente le bruit de mesure. L'entrée du système est formée par la concaténation de
créneaux d'amplitudes et de durées variables. D'après l'équation décrivant le système, la non-
linéarité est due à u(t-1) et y(t-1). Les variables caractéristiques choisies sont alors u(t-1) et
05 0 5 0 5
ys(t-1). Le vecteur de régression augmenté est ϕ a t = − ys t − 1 u t − 1 1 , soit n=3
T
paramètres pour chaque modèle local. Notons que les modèles locaux sont des modèles ARX
(modèle à erreur d'équation). Le jeu de données d'identification du multi-modèle comprend
2500 points.
♦ Etape 0 : génération de la partition grille initiale
L'espace caractéristique du système est décomposé en une grille. p1=p2=6 partitions
sont positionnées sur le support de chaque variable caractéristique. Les fonctions sigmoïdes
ont servi à la définition des fonctions de validité des partitions. Le nombre total de
1 6 1 6
paramètres nécessaires pour construire les fonctions de validité est nβ = 2 p1 − 1 + 2 p2 − 1 , soit
20 paramètres. Initialement, ces fonctions de validité individuelles sont disposées de façon
régulière sur le support des variables caractéristiques. Le nombre initial de modèles locaux
est M0 = 62 = 36 . La distribution spatiale des données dans l'espace caractéristique ainsi que le
contour des zones couvertes par ces modèles locaux sont décrits sur la figure III-17-a. La
ligne de contour des zones est tracée pour un niveau des fonctions d'activation égal à 0.4. On
remarque immédiatement que les données ne couvrent pas entièrement l'espace
caractéristique. De ce fait, la définition d'une partition grille avec une résolution "fine" crée
des zones de fonctionnement vides de données. Ces zones ne correspondent à aucun
comportement physique du système et leur élimination ne nuira pas aux capacités
d'approximation du multi-modèle.
♦ Etape 1 : élimination des modèles locaux

L'algorithme d'élimination des modèles locaux a été appliqué ; il a suggéré la
suppression de 14 modèles locaux. Le nombre de modèles locaux est donc diminué de
M0=36 à M1= 22. Les paramètres des fonctions de validité de cette structure multi-modèle
réduite ont été ensuite optimisés durant quelques itérations. La nouvelle position des zones
est illustrée sur la figure III-17-b. Sur cette figure, les zones éliminées sont grisées. On
remarque bien que les modèles locaux supprimés correspondent aux zones vides. Le tableau
III-4 compare les performances des structures multi-modèles à 36 et 22 modèles locaux. On
constate que l'élimination des 14 modèles locaux altère peu les capacités d'approximation du
multi-modèle puisque le critère d'identification Jg est de 1.952 pour le multi-modèle complet
contre 1.955 pour le multi-modèle réduit (avant l'étape d'optimisation paramétrique). Après
optimisation paramétrique, ce critère est baissé à 1.891.
Page 124 CRAN-INPL

=30
1 1
=6 =12 =18 =24 =6 =12 =18 =24 =30 =36
=36
=17 =35 =5 =11 =17 =23 =35

=5 =11 =29
0.5 =23 =29 0.5
=4 =10 =16 =22 =34 =4 =10 =16 =22

=28 =28 =34
u(t-1)
u(t-1)
0 0
=3 =9 =15 =27 =33 =3 =27

=21 =9 =15 =33
=21
=14 =14
-0.5
=2 =8 =20 =26 =32 -0.5
=2 =8 =26 =32
=20
=1 =13 =19 =25 =31 =1 =13 =19 =25 =31
=7 =7
-1 -1
-1 -0.5 0 0.5 1 -1 -0.5 0 0.5 1
ys(t-1) ys(t-1)
a-Multi-modèle initial b-Multi-modèle après élimination des modèles locaux et

optimisation de la position des zones de validité
=8 =7
1
=9 =8
1
=7
0.5 0.5
=6
=5 =6 =5
u(t-1)
u(t-1)
0 0
=2 =2
=4 =4
-0.5 -0.5
=3 =3
=1 =1
-1 -1
-1 -0.5 0 0.5 1 -1 -0.5 0 0.5 1
ys(t-1) ys(t-1)
c-Multi-modèle final 1 d-Multi-modèle final 2

(zones de validité restreintes à des orthotopes) (forme libre des zones de validité)
Figure III-17 : Recherche de la structure multi-modèle par élimination et fusion des

modèles locaux : contour des zones de validité
CRAN-INPL Page 125

Nombre de modèles Critère d'identification

Critère MDL
locaux M Jg
Modèle linéaire ARX 1 3.79 44.28
Multi-modèle initial 36 1.007 1.952
Multi-modèle après élimination

(avant optimisation paramétrique)
22 0.9397 1.955
Multi-modèle après élimination

(après optimisation paramétrique)
22 0.906 1.891
Multi-modèle final 1
(zones restreintes à des orthotopes)
9 0.831 1.93
Multi-modèle final 2
(zones de forme libre)
8 0.817 1.974
Tableau III-4 : Résumé des indicateurs de performances lors de la procédure de recherche

de structure basée sur l'élimination et la fusion de modèles locaux
♦ Etape 2 : fusion des modèles locaux, optimisation paramétrique et validation

La méthode de fusion a été appliquée sur la structure multi-modèle réduite à 22
modèles locaux. A chaque itération de la procédure globale d'identification structurelle,
l'algorithme de fusion suggère les modèles locaux à fusionner. La fusion est réalisée ; la
structure multi-modèle qui en résulte est ensuite optimisée, puis validée. La validation est
faite sur les données d'identification par calcul du critère MDL. Le nombre de degrés de
liberté de ce critère est nβ + n × M2 avec M2 le nombre actuel de modèles locaux dans
l'architecture multi-modèle. La procédure est ainsi réitérée jusqu'à l'obtention du minimum
du critère MDL. Les deux situations de fusion ont été testées (restriction et non restriction
des zones de validité à des orthotopes). Les résultats obtenus sont consignés dans le tableau
III-4.
Cas 1 (restriction des zones de validité finales à des orthotopes) : la structure multi-
modèle finale comporte 9 modèles locaux.
Cas 2 (forme libre des zones de validité finales) : on obtient une structure multi-
modèle à 8 modèles locaux avec des performances légèrement supérieures à la précédente.
Le critère de validation MDL de ce multi-modèle est de 0.817 contre 0.831. Il apparaît donc
que la contrainte sur la forme des zones de validité après la fusion fournit de moins bons
résultats et augmente le nombre de modèles locaux.
La forme des zones de validité finales est décrite sur les figures III-17-c et III-17-d. La
comparaison des deux figures montre que la zone = 6 du multi-modèle final 2 (zones de
validité de forme libre) peut être vue comme une fusion des zones = 6 et = 7 du multi-
modèle final 1 (zones de validté resteintes à des orthotopes). Hormis cette différence, les
autres zones de validité dans les deux cas sont très similaires. D'ailleurs le tableau III-5 qui
Page 126 CRAN-INPL

donne, dans chaque cas, les groupes de zones validité initiales dont la fusion a abouti aux
zones de validité finales confirme cette observation. En conférant une flexibilité totale à
l'algorithme de fusion, il est possible d'identifier un multi-modèle plus parcimonieux.
Multi-modèle final 1 Multi-modèle final 2

(zones restreintes à des orthotopes) (zones de forme libre)
=1 (=1, =7, =13) (=1, =7, =13)
=2 (=2, =3) (=2, =3)
=3 (=8, =14, =20) (=8, =14, =20)
=4 (=9, =15, =21) (=9, =15, =21)
=5 (=16, =22) (=16, =22)
=6 (=28, =34) (=17, =23, =28, =29, =34, =35)
=7 (=17, =23, =29, =35) (=24)
=8 (=24, =30) (=30, =36)
=9 (=36) -
Tableau III-5 : Groupes de zones de validité initiales dont la fusion a conduit aux
structures multi-modèles décrites sur les figures III-17-c et III-17-d
La structure multi-modèle comportant 8 modèles locaux (multi-modèle final 2) a été

testée sur des données de validation de 300 points. Le jeu de validation est généré à partir
05 0 5
d'un signal d'entrée sinusoïdal u t = sin 2πt 100 . La comparaison de la sortie du système et
de celle du multi-modèle réduit tracées sur la figure III-18 montre les bonnes propriétés de
généralisation de ce dernier. Le critère quadratique JTEST calculé sur ces données de test vaut
0.0118. Des performances similaires sont obtenues avec la structure multi-modèle 1
(comprenant 9 modèles locaux) : le critère JTEST est de 0.0123. Comparativement, un modèle
linéaire ARX d'ordre ny=1 et nu=1 fournit un critère de 1.10.
Multi-modèle à 8 modèles locaux. JTEST = 0.0118 Modèle linéaire. JTEST = 1.10

1 1
Sortie du système
Sortie du système
Sortie du modèle
0.5
Sortie du multi- 0.5 linéaire
modèle
0 0
-0.5 -0.5
-1 -1
0 50 100 150 200 250 300 0 50 100 150 200 250 300
a-Multi-modèle à 8 modèles locaux b-Modèle linéaire
Figure III-18 : Comparaison du multi-modèle final 2 (multi-modèle à 8 modèles locaux)

avec un modèle linéaire. Tracé comparatif de la sortie du système et de celles de ces deux
modèles
CRAN-INPL Page 127

Du constat que la partition grille génère une structure multi-modèle avec des modèles
inutiles (couvrant des zones de fonctionnement vides) et des modèles adjacents pouvant décrire
le même comportement du système, nous avons proposé une méthodologie d'optimisation
structurelle basée sur la stratégie fine-to-coarse (voir paragraphe II.4.1.4). A partir d'une
structure multi-modèle dont l'espace caractéristique est décomposé sous forme d'une grille et qui
comporte un nombre initial important de modèles locaux, la procédure réduit progressivement le
nombre de modèles par la combinaison de techniques d'élimination et de fusion de modèles. En
particulier, la technique de fusion introduit une originalité : elle permet de construire des zones
de fonctionnement non limitées à des orthotopes contrairement à la partition grille ou la partition
k-d (voir paragraphe III.4). Ceci permet une réduction plus importante du nombre de modèles
locaux. La méthode suppose la connaissance des variables caractéristiques, ce qui n'est pas
toujours vrai dans la pratique. Il serait tentant d'appliquer directement la méthode d'élimination et
de fusion sur l'espace formé par les variables caractéristiques candidates, mais rappelons que
pour nz=5 variables caractéristiques et p=6 partitions sur le support de ces variables, on aboutit à
un nombre initial de modèles locaux M0 = 56 = 15625 , ce qui est rédhibitoire. Une perpective
intéressante est donc l'intégration de la méthode proposée dans une procédure globale
(développée dans la première partie du chapitre) incluant la recherche des variables
caractéristiques.
Page 128 CRAN-INPL

III.4. IDENTIFICATION D'UN MULTI-MODELE A TRAVERS UN

PARTITIONNEMENT ITERATIF : PARTITION K-D
Nous avons vu précédemment que les limites de la partition grille sont dues au problème
d'explosion du nombre de modèles locaux lorsque la dimension de l'espace caractéristique
devient élevée et/ou le nombre de partitions sur le support des variables caractéristiques est
grand. Si le nombre de variables caractéristiques candidates est important, il est beaucoup plus
judicieux de réaliser le découpage de l'espace caractéristique à l'aide d'une procédure ascendante
basée sur un arbre de décision : c'est la méthode de partition k-d qui réalise un pavage irrégulier
à l'instar de la partition décrite sur la figure III-19. Dans cette procédure, l'architecture multi-
modèle est progressivement enrichie par ajouts successifs de nouveaux modèles locaux (un à la
fois au contraire de la partition grille) jusqu'à ce qu'un critère d'arrêt soit satisfait : c'est ce qui
constitue l'intérêt principal de la partition k-d lorsque l'espace caractéristique est de grande
dimension. Cette technique de recherche de structure n'est pas récente. Elle a été notamment
proposée en modélisation multi-modèle par Sugeno et Kang [1988], Sun [1994], Johansen et
Foss [1995] sous le nom de LSA (Local Search Algorithm), Lin et al. [1997], Nelles [1997-a]
sous le nom de LOLIMOT (Local Linear Model Tree). Elle s'inspire de la méthode de
classification binaire CART (Classification Regression Tree) de Breiman et al. [1984].
Le principe de la partition k-d est résumé par les schémas des figures III-19 et III-20. La
figure III-19 illustre l'évolution du découpage de l'espace caractéristique au fil des itérations ; la
figure III-20 montre l'arbre de décision correspondant. Les feuilles terminales de l'arbre
représentent les modèles locaux dans le multi-modèle final. Les mesures réalisées sur le système
étant bornées, l'espace = engendré par les variables caractéristiques zj (j=1, …, nz) est un
orthotope, c'est-à-dire :
= = z1,min z1,max × ... × znz ,min znz ,max (III-56)
où zi,max et zi,min sont respectivement les bornes inférieure et supérieure du domaine de

variation de la variable zi.
z2 z2 z2 z2
Découpage de l'axe z2
z2,max z2,max z2,max
=2 =2 =2
ξ2,1 ξ2,1 ξ2,1
==
(1)
=4
=1 =1 =3 ξ2,2 =3
z2,min z2,min
=1
z1 z1 z1 z2,min z1
z1,min z1,max ξ1,1 ξ1,1
Etape 1 Etape 2 Etape 3 Etape 4
Figure III-19 : Découpage d'un espace caractéristique par la partition k-d
CRAN-INPL Page 129

Etape 1 =
< >
z 2 < ξ 2,1
Etape 2 =1 =2
< z 1 < ξ 1,1 >
Etape 3
=1 =3
< z 2 < ξ 2,2 >
Etape 4 =1 =4
Figure III-20 : Arbre de décision du découpage de l'espace caractéristique
A l'étape v de la procédure, l'espace = est déjà découpé en v zones de fonctionnement =1

à =v. La structure multi-modèle correspondante est notée 0 v . Si elle n'est pas satisfaisante au
sens d'un critère de validation, elle est raffinée en rajoutant un nouveau modèle local. Ceci se fait
en divisant une zone de fonctionnement en deux nouvelles zones. Deux types de découpage sont
possibles (figures II-5-b, II-5-c) : découpage suivant un hyperplan orthogonal à un axe de
l'espace = et découpage par un hyperplan oblique par rapport aux axes. Notre étude portera
uniquement sur le premier type de découpage ; le deuxième type de découpage n'a pas été étudié
faute de temps. Des détails sur ce découpage peuvent être obtenus dans les articles [Murray-
Smith, 1994], [Ernst, 1998]. Un exemple de découpage orthogonal est illustré sur la figure III-
19 : à l'étape 4, la zone =1 de l'étape précédente est divisée en découpant la variable z2. On se
rend compte que dans le découpage orthogonal, les problèmes à résoudre concernent : le choix
de la zone à découper, le choix de l'axe à découper, la recherche du point de découpage sur cet
axe et la détermination des fonctions de validité des nouvelles zones résultantes, l'estimation des
paramètres des modèles locaux du multi-modèle correspondant. Examinons un à un tous ces
problèmes.
III.4.1. DETERMINATION DE LA ZONE A DECOUPER
Comme on s'attache essentiellement aux capacités d'approximation du multi-modèle, on

recherche la zone =k où la structure multi-modèle 0 v approche mal le comportement du
Page 130 CRAN-INPL

système. Pour ce faire, on évalue localement les performances du multi-modèle 0 v dans chaque
zone de fonctionnement par l'indicateur8 :
N
1 0 5 61 0 5 0 56
∑ ω i z t , β y t − ys t
t =1
2
εi = N i = 1, , v (III-57)
∑ ω 1 z0t 5, β 6
i
t =1
εi représente l'erreur quadratique moyenne du multi-modèle 0 v dans la zone =i. Dans l'équation,
05
la sortie du multi-modèle y t est soit une prédiction, soit une simulation selon que le modèle
recherché pour le système est un modèle prédictif ou un modèle de simulation ; ys(t) est la sortie
du système. La prochaine zone à raffiner est la zone =k présentant l'erreur maximale, soit :
= k = = arg max1ε i =1,,v 6 (III-58)

i,
i
III.4.2. DECOUPAGE DE LA ZONE = k
La zone =k est divisée en deux nouvelles zones =k1 et =k2 par un hyperplan orthogonal à
l'un des axes de l'espace caractéristique. Supposons que le découpage s'effectue sur l'axe défini
par la variable zj. Les zones =k1 et =k2 sont obtenues comme suit :
= k1 = z ∈ = k / z j < ξ j
= B
= k2 = = z ∈=
;
j ∈ 1, , nz @ (III-59)
k / zj ≥ ξ j B
ξ j est le point de découpage dont la valeur doit être comprise entre les bornes de variation
z j ,min = k et z j ,max = k de la variable zj dans la zone =k. Cette façon d'exprimer les nouvelles
1 6 1 6
zones traduit une décision binaire : c'est la méthode CART. En modélisation multi-modèle,
l'utilisation de fonctions de validité d'allure gaussienne ou des fonctions sigmoïdes évite cette
décision binaire et assure un passage plus doux entre =k1 et =k2 d'un côté et leurs zones voisines
de l'autre. Précisons que si le découpage actuel est retenu comme le meilleur, les zones =k1 et =k2
seront respectivement la nouvelle zone =k et la zone =v+1 (figures III-19 et III-20).
III.4.3. RECHERCHE DE L'AXE A DECOUPER ET DU POINT DE DECOUPAGE
La détermination de l'axe à découper est heuristique. La démarche employée consiste à

tester le découpage de la zone =k sur chacune des nz variables caractéristiques candidates soit au
8
Notons que d'autres critères autres que la somme pondérée des erreurs quadratiques sont applicables. Peuvent
notamment servir d'indicateur, l'erreur maximale absolue, la somme des erreurs absolues dans chaque zone de
fonctionnement.
CRAN-INPL Page 131

total nz essais. Afin de réduire la complexité de la recherche, on prend en compte seulement les
axes zj vérifiant :
z j ,max = k − z j ,min = k
1 6 1 6 ≥ seuil (III-60)
z j ,max − z j ,min
Ceci revient à envisager le découpage seulement si la largeur de la zone =k suivant l'axe zj est
suffisamment grande pour le permettre. La valeur du seuil est laissée à la discrétion de
l'utilisateur.
Soit zj, l'axe à découper. Certains chercheurs réalisent le découpage au milieu de

l'intervalle z j ,min = k , z j ,max = k
1 6 1 6 [Nelles, 1997-a]. D'autres choisissent la valeur médiane des
points dans cet intervalle (notons que si les données sont distribuées de façon uniforme dans
l'intervalle, la valeur médiane coïncide avec le milieu de la zone). Johansen et Foss [1995]
réalisent des tests de découpage en différents points de l'intervalle z j ,min = k , z j ,max = k . Les
1 6 1 6
1 2
valeurs typiques sont /3, ½, /3 de l'intervalle. Des valeurs similaires ont également été
employées par Lin et al. [1997]. Le point de découpage ξ j dans ce cas s'obtient à partir de
l'expression :
ξ j = z j ,min = k + α z j ,max = k − z j ,min = k

1 6 3 1 6 1 68 α ∈ 0, 1
Plutôt que de procéder ainsi par tâtonnements comme nous avons eu aussi à le faire dans
[Gasso et al., 1999-a, 1999-b], il est possible d'optimiser la valeur du point de découpage en
minimisant le critère d'identification Jg : c'est notre contribution à cette technique de partition.
Afin d'automatiser la détermination de ξ j en assurant qu'il est bien dans l'intervalle
susmentionné, l'équation précédente est transformée sous la forme :
ξ j = z j ,min = k + z j ,max = k − z j ,min = k exp − d 2j

1 6 3 1 6 1 68 3 8 (III-61)
où dj est le paramètre inconnu. Avant d'exposer l'algorithme d'optimisation, examinons la façon

dont les fonctions de validité des nouvelles zones sont définies.
III.4.4. DEFINITION DES FONCTIONS DE VALIDITE DES ZONES =k1 ET =k2
Dans la technique de partition k-d, une zone de fonctionnement =i est caractérisée par une
partition 3i,j propre sur chaque axe zj à l'opposé de la partition grille où plusieurs zones de
fonctionnement partagent une même partition 3l,j d'une variable zj (voir tableau III-1). La
conséquence est qu'il existe autant de partitions sur le support des variables caractéristiques que
de modèles locaux dans le multi-modèle. Si l'on note µi,j la fonction de validité individuelle
associée à la partition 3i,j, on calcule la fonction de validité ρi de la zone =i par l'expression :
Page 132 CRAN-INPL

nz
1 0 56
ρ i z t = ∏ µ i, j z j t
j =1
3 0 58 (III-62)
Par convention, si pour une zone =i et un axe zj, on a z j ,min = i , z j ,max = i = z j ,min , z j ,max , la
1 6 1 6
fonction de validité individuelle µ i, j z j t 3 0 58 vaut uniformément 1 (inexistence de partition 3 i,j sur
cet axe).
Ces préliminaires étant posés, décrivons la construction des fonctions de validité des
nouvelles zones. Les zones =k1 et =k2 héritent leurs fonctions de validité de la zone =k. Elles
conservent toutes les fonctions de validité individuelles µk,l de la zone =k à l'exception de celle
définie sur l'axe à découper zj dont les paramètres sont modifiés. Deux cas peuvent se présenter
pour la zone =k1 :
• la partition 3k1 , j de la zone =k1 sur l'axe zj est située à l'extrémité gauche du support de zj
(implicitement, ceci signifie que z j ,min = k = z j ,min = k1 = z j ,min ). Ce cas est illustré sur la
1 6 3 8
figure III-21-a où la fonction de validité associée à la partition est tracée en trait plein.
Cette fonction de validité est donnée par :
1 − tanh
z 0t 5 − c
j k1 , j
σ
3 05 8
µ k1 , j z j t , ξ j =
2
k1 , j
(III-63-a)
avec les paramètres :
ξ j − z j ,min
ck1 , j = ξ j σ k1 , j = (III-63-b)
γ
Le centre ck1 , j de la fonction sigmoïde est le point de découpage et sa dispersion σ k1 , j est

proportionnelle à la largeur de l'intervalle z j ,min = k , ξ j . Le paramètre γ permet de
1 6
régler le recouvrement entre la zone =k1 et la zone voisine =k2. Comme au paragraphe
III.2.2.2, le paramètre γ appartient à l'intervalle [2, 5] et est fixé à priori par l'utilisateur. Si
sa valeur est faible, il y a un grand recouvrement entre les zones et inversement.
L'algorithme de partition k-d est sensible à ce paramètre car différentes valeurs de γ
peuvent conduire à des structures multi-modèles totalement différentes. L'optimisation de
la valeur de γ s'inscrit dans les perspectives de ce travail.
• la partition 3k1 , j n'est pas située à l'extrémité gauche (figure III-21-b). Dans ce cas la
fonction de validité individuelle est obtenue à travers la formule :
CRAN-INPL Page 133

z 0t5 − z 1= 6 tanh z 0t5 − c

j j ,min k j k1 , j
tanh σ σ
3 05 8
µ k1 , j z j t , ξ j =
2
k1 , j
−
2
k1 , j
(III-64)
avec les définitions précédentes (III-63-b) du centre ck1 , j et de la dispersion σ k1 , j . On peut

remarquer que µ k1 , j est la différence de deux fonctions sigmoïdes avec la deuxième
sigmoïde qui est une translation de la première.
1 1
µk1, j µk2, j µk1, j µk2, j
0.5 0.5
= k1 =k2
=k1 =k2
0 0
zj,min ξj zj,max zj,min(=k) ξj zj,max(=k)
a- Zone =k1 située à l'extrémité gauche du support b- Zone =k1 non située à l'extrémité gauche du support
Zone =k2 située à l'extrémité droite du support Zone =k2 non située à l'extrémité droite du support
Figure III-21 : Illustration de la définition des fonctions de validité des nouvelles zones
issues du découpage de la zone =k
Pour la zone =k2, deux cas sont également distingués :
• la partition 3k2 , j de la zone =k2 suivant l'axe zj est située à l'extrémité droite du support de
zj (implicitement z j ,max = k = z j ,max = k2 = z j ,max ). La fonction de validité individuelle

1 6 4 9
associée à la partition 3k2 , j est donnée par :
1 + tanh
z 0t 5 − c
j k2 , j
σ
3 05 8
µ k2 , j z j t , ξ j =
2
k2 , j
(III-65-a)
avec les définitions suivantes des paramètres :
z j ,max − ξ j
ck2 , j = ξ j σ k2 , j = (III-65-b)
γ
Ce cas est illustré sur la figure III-21-a (la fonction de validité est en trait pointillé).
Page 134 CRAN-INPL

• la partition 3k2 , j n'est pas située à l'extrémité droite du support de zj (figure III-21-b). La
fonction de validité individuelle se déduit de l'expression :
z 0t 5 − c
j k2 , j z 0t 5 − z 1= 6
j j ,max k
tanh σ tanh σ
3 05 8
µ k2 , j z j t , ξ j =
2
k2 , j
−
2
k2 , j
(III-66)
Avec ces formulations, un seul paramètre doit être optimisé pour déterminer la fonction
de validité des nouvelles zones. En l'occurrence, il s'agit du paramètre dj qui donne ξ j par la
formule (III-61). Les paramètres des fonctions de validités des autres zones de fonctionnement
dans le multi-modèle ne sont pas modifiés.
REMARQUES
¬ Lorsque la partition 3k1 , j n'est pas située à l'extrémité gauche du support de zj, la fonction
de validité individuelle associée est définie de sorte qu'aux frontières z j ,min = k1 4 9 et
z j ,max = k1 = ξ j de la nouvelle zone =k1, elle soit égale à 0.5. Si 3k1 , j est à l'extrémité
4 9
gauche, la fonction de validité vaut 0.5 au point z j ,max = k1 = ξ j ; elle est sensiblement
4 9
égale à 1 en z j ,min = k1 = z j ,min . Le même principe guide la définition de la fonction de
4 9
validité individuelle de la partition 3k2 , j .
¬ Cette remarque est importante. Les fonctions de validité ρi (III-62) dans la technique k-d
ne sont pas normalisées (c'est-à-dire, vérifient la partition unité), contrairement au cas de la
grille. On s'en rend compte en examinant l'exemple de découpage de la figure III-21-a. En
effet les fonctions µ k1 , j (III-63-a) et µ k2 , j (III-65-a) ont des dispersions différentes (elles
sont fonctions de l'étendue de la zone) ; par conséquent µ k1 , j + µ k2 , j ≠ 1. Les fonctions
M
d'activation ω i = ρ i ∑ ρ j sont de ce fait différentes des fonctions de validité ρi.
j =1
III.4.5. OPTIMISATION DU POINT DE DECOUPAGE ET DES PARAMETRES DES

MODELES LOCAUX
Pour un point de découpage donné, les équations (III-63) à (III-66) permettent de

caractériser entièrement les zones de fonctionnement des modèles locaux. Il restera à estimer les
paramètres des modèles locaux. Par conséquent, l'optimisation du paramètre dj et l'estimation des
paramètres θ des modèles locaux s'effectuent simultanément. Suivant que le critère
d'identification Jg est à erreur d'équation ou à erreur de sortie, l'estimation θ est fournie par les
moindres carrés (III-17), éventuellement régularisés (I-29-a) ou à travers l'algorithme de
Levenberg-Marquardt (III-14). La technique d'optimisation paramétrique est soit l'algorithme 1
CRAN-INPL Page 135

(MC+LM, page 84) ou l'algorithme 2 (LM+LM, page 89). Dans cette dernière situation, le
vecteur de paramètres θk du modèle local fk (associé à la zone =k) sert à initialiser ceux des
nouveaux modèles locaux fk1 et fk2. Ces algorithmes nécessitent le calcul de la sensibilité de y(t)
- sortie du multi-modèle - par rapport au paramètre dj ; ces calculs ne sont pas explicités ici mais
il est aisé en s'inspirant des calculs développés au paragraphe III.2.3.2 d'obtenir cette fonction de
sensibilité. En général, la phase d'optimisation paramétrique est relativement rapide car
seulement nθ + 1 paramètres sont optimisés pour chaque axe découpé.
III.4.6. RAFFINEMENT DE LA STRUCTURE DES MODELES LOCAUX
De façon similaire à la démarche suivie dans l'identification d'un multi-modèle dont

l'espace caractéristique est décomposé en grille, une étape de simplification de la structure des
modèles locaux par élimination de paramètres superflus intervient après la phase d'estimation
paramétrique. On recourt alors à l'algorithme 3 (page 97) si le critère Jg est à erreur d'équation ou
à l'algorithme 4 (page 99) si Jg est un critère à erreur de sortie.
III.4.7. CONTINUATION ET FIN DE LA PROCEDURE DE PARTITION K-D
; @
Pour chaque variable de découpage zj ( j ∈ 1, , nz ) vérifiant le test (III-60), une
structure multi-modèle est identifiée par découpage de la zone =k. Après les étapes
d'optimisation paramétrique et de suppression des paramètres superflus, le multi-modèle
résultant est validé par calcul du critère de sélection de structure JSTRUC. JSTRUC est soit un critère
de validation croisée (évalué sur des données de test), soit un critère de généralisation AIC, FPE
ou MDL (évalué sur les données d'identification). Si m ( m ≤ nz ) variables zj parmi les nz variables
caractéristiques satisfont au test (III-60), on identifie au total m structures multi-modèles 0 v +1, l
( l = 1,, m ) à v+1 modèles locaux. Bien sûr, la structure multi-modèle 0 v+1 retenue à cette
itération est celle qui possède les meilleures performances en validation. On cherche ensuite la
zone où elle approche mal le comportement du système et on réitère la procédure. L'arrêt de la
méthode est jugée sur l'évolution du critère de validation JSTRUC. L'ensemble des opérations de
cette procédure itérative est résumé dans l'algorithme 6.
A la fin de la procédure, on procède à une analyse du découpage de l'espace

caractéristique. Une variable caractéristique non découpée durant toute la procédure ne contribue
pas à caractériser la non-linéarité du système. Elle est donc supprimée en tant que variable
caractéristique ; de ce fait, la partition k-d permet d'optimiser le nombre de modèles locaux mais
aussi d'identifier les variables caractéristiques du système. A l'opposé, si plusieurs découpages
ont été réalisés sur un axe, la variable caractéristique correspondante est jugée très représentative
de la non-linéarité du système.
Page 136 CRAN-INPL

ALGORITHME 6 : PROCEDURE DE PARTITION K-D
[1] Initialisation
Spécifier la structure des modèles locaux : variables d'entrée et ordres.
Identifier le modèle linéaire correspondant. Il est noté 01 . Soit
J STRUCT 01 , le critère de validation associé.
1 6
Choisir les variables caractéristiques candidates zj . L'espace caractéristique
est = = z1,min z1,max × ... × znZ ,min znZ ,max .
Poser v=1 ; = k = = ; J STRUCT 0 v = J STRUCT 01 .
1 6 1 6
[2] Identification d'une structure 0 v+1 à v+1 modèles locaux par division de =k
Pour chaque variable zj vérifiant le test (III-60),
Déterminer le point de découpage ξ j et les paramètres θ des modèles
locaux soit par l'algorithme 1 (critère à erreur d'équation), soit par
l'algorithme 2 (critère à erreur de sortie).
Simplifier la structure des modèles locaux par élimination des
paramètres superflus en utilisant l'algorithme 3 (critère à erreur
d'équation) ou l'algorithme 4 (critère à erreur de sortie).
Soit 0 v +1, j la structure multi-modèle identifiée. La valider par calcul
du critère J STRUCT 0 v +1, j .
3 8
[3] Déterminer parmi les structures multi-modèles 0 v +1, j celle, notée 0 v*+1, j ,
donnant le critère J STRUCT 0 v +1, j minimal.
3 8
Si J STRUCT 0 v*+1, j < J STRUCT
3 8 3 0 8,
v 0 v +1 = 0 v*+1, j ; aller à l'étape [4].
Autrement aller à l'étape [5].
[4] Détection de la zone de validité =k à améliorer

Déterminer la qualité d'approximation locale du multi-modèle 0 v+1 dans
chaque zone par calcul de l'indicateur εi (i=1, …, v+1) de l'équation (III-
57).
Trouver la zone =k telle que : = k = = arg max1ε i =1,,v 6.
i,
i
Incrémenter v. Retourner à l'étape [2]
[5] Fin de la procédure.
CRAN-INPL Page 137

¼ Exemple III-5
Afin d'illustrer la méthode de partition k-d et pour des fins de comparaison, nous
reprenons le système non-linéaire étudié à l'exemple III-4. Pour rappel, le système est décrit
par l'équation aux différences :
05 0 5 2 0 57 0 5
y t = 0.4u t - 1 3 + exp -0.5 y t - 1 + e t
où e(t) représente le bruit de mesure.

Les variables caractéristiques choisies sont u(t-1) et ys(t-1) et le vecteur de régression
05 0 5 0 5 T
augmenté est ϕ a t = − ys t − 1 u t − 1 1 . ys(t) est une mesure de la sortie du système.
Les données d'identification sont constituées par 2500 enregistrements (ys(t), u(t)). La
procédure de partition k-d est testée sur cet exemple avec le coefficient γ=3.5. Le critère de
validation JSTRUC est un critère MDL calculé sur les données d'identification. La méthode a
suggéré 8 modèles locaux pour approcher le comportement du système. Le contour des
zones associées à ces modèles locaux est tracé sur la figure III-22. La comparaison avec les
zones obtenues par la technique de fusion et d'élimination (voir les figures III-17-c et d)
montre que le découpage obtenu par la partition k-d diffère : le découpage présente une
certaine symétrie des zones de validité par rapport à l'axe horizontal z1=0 contrairement aux
zones de validité présentées sur les figures III-17. De plus la technique de partition k-d inclut
les régions de l'espace caractéristique dépourvues de données expérimentales dans les zones
identifiées à l'opposé de la technique combinant élimination et fusion de modèles locaux.
u(t-1)
1
=4
=8
0.5
=3
=7
0
=2 =6
-0.5
=1
=5
-1 y(t-1)
-1 -0.5 0 0.5 1
Figure III-22 : Découpage de l'espace caractéristique réalisé par la technique de partition

k-d
La structure multi-modèle identifiée par la partition k-d est ensuite testée sur le jeu de
validation. Ce jeu a été généré en utilisant un signal sinusoïdal (voir exemple III-4). Les
performances en validation sont légèrement inférieures à celles enregistrées dans l'exemple
III-4. En effet, la somme des écarts quadratiques sur ces données vaut 0.0202 contre 0.0118.
Ceci est également confirmé en examinant le critère quadratique Jg calculé sur les données
Page 138 CRAN-INPL

d'identification : il est de 2.10 pour le multi-modèle fourni par la partition k-d alors que dans
l'exemple III-4, il vaut environ 1.98 (voir tableau III-4). L'explication de ces performances
moindres réside probablement dans le fait que d'une itération à l'autre, on optimise que les
paramètres des fonctions de validité des nouvelles zones : il n'y a pas de remise en cause des
paramètres des autres zones de validité. En plus, pour optimiser les paramètres des fonctions
de validité des nouvelles zones, on utilise qu'un seul degré de liberté constitué par le point de
découpage ξ j . Même si la contrainte de partition unité modifie la valeur des fonctions
M
d'activation ω i = ρ i ∑ ρ j des autres zones, rien ne garantit que cette modification est
j =1
suffisante pour que ces zones soient bien positionnées après l'ajout d'un nouveau modèle
local. Ceci confère à la technique k-d un certain caractère de sous-optimalité. Pour mieux
illustrer nos propos, appliquons la partition k-d à la fonction non-linéaire statique étudiée à
l'exemple II-2. Ceci est développé dans l'exemple ci-dessous.
¼ Exemple III-6
4 9 0 5
La fonction non-linéaire à approcher est : y = 3 exp −t 2 sin πt . Dans l'exemple II-2,
nous avons montré qu'en utilisant la méthode d'apprentissage global, 4 modèles locaux
suffisent à bien décrire cette fonction. Les résultats fournis par la méthode de partition k-d
sont portés sur les courbes de la figure III-23. La partition k-d a suggéré 6 modèles locaux
dont les tracés sont présentés sur les courbes à droite. Ces modèles locaux approchent assez
bien la fonction cible dans leur domaine de validité mais il en faut 6 alors que 4 modèles
suffisent pour approcher correctement la fonction cible. A gauche nous avons présenté la
comparaison de la fonction cible et de l'approximation donnée par le multi-modèle. On
constate que l'approximation n'est pas parfaite puisque subsistent des écarts encerclés sur la
figure III-23-a. La non remise en cause des choix de découpage aux étapes précédentes et la
non optimisation des paramètres des fonctions de validité associées aux zones non découpées
conduisent à une surestimation du nombre de modèles locaux et à une qualité de
l'approximation légèrement inférieure. Une solution pour remédier à ce problème consiste à
optimiser à chaque itération, tous les paramètres des fonctions de validité.
3 1 4
Multi-modèle 3 Modèles locaux

2
Fonction cible 0.8 Fonction cible
2
1
0.6 1
0
0
0.4
-1
-1
0.2
-2 -2
-3 0 -3
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
a- Comparaison mesures
b- Fonctions d'activation ωi c- Tracés des modèles locaux
estimation multi-modèle
Figure III-23 : Résultats de l'approximation d'une fonction non-linéaire statique à travers

la partition k-d
CRAN-INPL Page 139

Cette section a été consacrée à la présentation de la technique de partition k-d (technique

coarse-to-fine). Le principe de la technique est la décomposition de l'espace caractéristique par
découpages successifs : la structure multi-modèle est enrichie en rajoutant un seul modèle local à
la fois contrairement à la partition grille. L'ajout du modèle supplémentaire est réalisé en divisant
la zone de fonctionnement où le multi-modèle approche mal le système en deux nouvelles zones.
La division est faite par un hyperplan perpendiculaire à l'un des axes de l'espace caractéristique.
Notre contribution à cette technique à consister à trouver le point de découpage (après

proposition d'une nouvelle paramétrisation) par optimisation du critère d'identification Jg au
contraire des tests de découpage heuristiques employés dans [Johansen et Foss, 1995], [Nelles,
1997-a]. La détermination du point de découpage et l'estimation des paramètres des modèles
locaux sont conduites à travers un algorithme à deux niveaux. Nous avons également intégré à la
technique une étape d'élimination des paramètres superflus des modèles locaux afin d'identifier
un multi-modèle parcimonieux. Elle est basée sur les algorithmes 3 et 4 que nous avons
développé dans la première partie du chapitre. Ces améliorations à la partition k-d ont abouti à la
proposition d'un algorithme complet (algorithme 6) de recherche de structure d'un multi-modèle.
Le test de la méthode sur quelques exemples de simulation a montré des résultants

probants. Néanmoins, on a constaté qu'elle a tendance à surestimer le nombre de modèles locaux
ou à fournir une qualité d'approximation légèrement inférieure par rapport à la technique
combinant la fusion et l'élimination de modèles locaux (voir paragraphe III.3.3). Le problème est
dû au fait que les choix de découpage effectués aux itérations précédentes ne sont pas remis en
cause dans la suite de la procédure. De plus, lors du découpage, on n'optimise que les paramètres
des fonctions de validité associées aux nouvelles zones, ceux des autres zones étant figés. Une
perspective pour l'amélioration de l'algorithme de partition k-d proposé consisterait alors à
optimiser à chaque itération les paramètres de toutes les fonctions de validité dans le but de
mieux accorder la position des zones de fonctionnement à la structure courante du multi-modèle.
Néanmoins, l'intérêt de la méthode de partition k-d est de permettre d'aborder la modélisation de
systèmes multivariables (au-delà de 4 ou 5 variables d'entrée), ce que n'autorise pas la partition
grille. Cet intérêt est illustré sur le problème de modélisation des variations de la concentration
d'ozone présenté dans le chapitre IV.
III.5. CONCLUSION GENERALE DU CHAPITRE

Ce chapitre a été dédié à l'optimisation paramétrique et structurelle d'un multi-modèle.
Notre intérêt s'est porté sur l'optimisation d'un multi-modèle à travers une partition grille ou un
pavage irrégulier (partition k-d). La conclusion de ce chapitre est un résumé des conclusions
partielles III.2.5, III.3.4 et III.4.8 auxquelles le lecteur pourra se référer. Dans la partition grille,
les points énumérés ci-dessous ont été traités :
• La définition de fonctions de validité à partir de fonctions sigmoïdes. Pour assurer que ces
Page 140 CRAN-INPL

fonctions restent sur le support des variables où elles sont définies, une paramétrisation
particulière a été adoptée et consiste à "chaîner" les paramètres les uns aux autres.
• L'optimisation de tous les paramètres mis en jeu à travers des algorithmes à deux niveaux
alternant entre la détermination des paramètres θ des modèles locaux d'une part et des
paramètres β des fonctions de validité de l'autre. Selon que le critère d'identification est de
type erreur d'équation ou erreur de sortie, l'estimation des paramètres θ est obtenue par les
moindres carrés régularisés (la régularisation a consisté à assurer un conditionnement de la
matrice d'information) ou par l'algorithme de Levenberg-Marquardt. Les paramètres
β intervenant de façon non quadratique dans le critère d'identification, ils sont estimés par
l'algorithme de Levenberg-Marquardt.
• La simplification de la structure des modèles locaux par élimination des paramètres inutiles
aussi bien pour un critère à erreur d'équation qu'un critère à erreur de sortie.
• La recherche des variables caractéristiques et du nombre de partitions sur le support de ces

variables par une méthodologie heuristique. Elle procède d'une démarche "coarse-to-fine".
Les limites de la partition grille sont atteintes lorsque l'espace caractéristique est de
grande dimension : le nombre de zones devient important, des zones vides de données
apparaissent ainsi que des zones redondantes (zones voisines pouvant décrire un même
comportement du système). Pour remédier à ces problèmes, nous avons :
• proposé une méthode d'élimination des modèles locaux associés aux zones vides,
• étendu l'algorithme de fusion de modèles locaux développé par [Boukhris et al., 2000] dans
le cas d'un critère à erreur d'équation à un critère à erreur de sortie.
Ces deux algorithmes ont été combinés dans une procédure qui à partir d'une partition
grille initiale réduit progressivement la structure du multi-modèle par élimination et fusion de
modèles locaux. La technique de fusion introduit une originalité : dans un espace caractéristique
multidimensionnel, elle peut conduire à des zones de fonctionnement non limitées à des
orthotopes (contrairement à la partition grille) d'où une réduction du nombre de modèles locaux.
La dernière technique de partition que nous avons étudiée procède d'une philosophie
contraire : l'architecture multi-modèle est enrichie par ajouts successifs d'un seul modèle local à
la fois. L'ajout consiste à diviser une zone de fonctionnement en deux par un découpage suivant
un axe de l'espace caractéristique. Le point clé a concerné la détermination de l'axe et du point de
découpage. Cette technique permet à la fois l'identification du nombre de modèles locaux et
l'identification des variables caractéristiques. Elle permet également d'éviter les problèmes de
mauvais conditionnement inhérents à la grille car on autorisera que le découpage des zones
pourvues en données expérimentales. Mais, par rapport à la méthode combinant élimination et
fusion de modèles locaux, elle a tendance à générer plus de modèles. Une perspective
consisterait à procéder à une fusion des modèles locaux à la fin de la partition k-d, suivie d'une
optimisation de tous les paramètres du multi-modèle résultant.
CRAN-INPL Page 141

CHAPITRE IV
+8'.#$14#6+10&'/1&'.'5
&'5%4+26+(5&'58#4+#6+105
&'.#%10%'064#6+10
& 1<10'
CRAN-INPL Page 143

6200$,5(
IV.1. INTRODUCTION ....................................................................................................................................... 145
IV.2. PARTICULARITÉS DU PHÉNOMÈNE ................................................................................................. 147
IV.2.1. MÉCANISMES DE PRODUCTION ET DE DESTRUCTION DE L'OZONE ............................................................ 147

IV.2.2. FACTEURS INTERVENANT DANS LE PHÉNOMÈNE ...................................................................................... 148
IV.2.2.1. Polluants précurseurs.....................................................................................................................................148
IV.2.2.2. Facteurs physiques et météorologiques..........................................................................................................149
IV.2.2.3. Influence de l'échelle spatiale (type de site) ...................................................................................................151
IV.3. PRÉSENTATION ET ANALYSE DES DONNEES TRAITEES ........................................................... 151
IV.4. MODELES DE PREVISION DE LA CONCENTRATION MAXIMALE QUOTIDIENNE D'OZONE

....................................................................................................................................................................... 155
IV.4.1. TRAITEMENT DES VARIABLES PRÉDICTIVES ............................................................................................. 155

IV.4.1.1. Les variables prédictives courantes ...............................................................................................................155
IV.4.1.2. Prétraitement des données .............................................................................................................................156
IV.4.2. MODELES DE PRÉVISION RECHERCHÉS ................................................................................................... 158

IV.4.2.1. Modèle de prévision linéaire ..........................................................................................................................159
IV.4.2.2. Elaboration d'un modèle de prévision non-linéaire : utilisation de l'approche multi-modèle .......................169
IV.5. MODELE A COURT TERME .................................................................................................................. 173
IV.5.1. MODÈLES MATHÉMATIQUES EXISTANTS .................................................................................................. 174

IV.5.2. DESCRIPTION DE L'EVOLUTION HORAIRE DE LA CONCENTRATION D'OZONE EN UTILISANT UNE APPROCHE
MULTI-MODÈLE .................................................................................................................................... 175
IV.6. CONCLUSIONS.......................................................................................................................................... 181
Page 144 CRAN-INPL

Chapitre IV Elaboration de modèles descriptifs de la concentration d'ozone
IV.1. INTRODUCTION
Ce chapitre est consacré à la recherche de modèles d'explication et de prévision des
variations de la concentration d'ozone dans l'agglomération de Nancy (France). Le travail réalisé
a été mené dans le cadre d'un contrat avec deux réseaux de surveillance de la qualité de l'air dans
la région lorraine, à savoir AIRLOR1 et AERFOM2. La motivation de l'étude découle du constat
que depuis plusieurs années, les vagues de chaleur en période estivale provoquent des épisodes
de pollution de l'atmosphère liés à l'ozone. L'ozone, de formule chimique O3, est un polluant
secondaire de la basse troposphère3 formé à partir de réactions chimiques complexes entre les
polluants primaires (oxydes d'azote, composés organiques volatiles, monoxyde de carbone,
oxyde de soufre, ...) émis directement dans l'atmosphère et l'oxygène de l'air. Ces réactions
chimiques sont fortement influencées par les conditions météorologiques (rayonnement,
température, humidité, …) et les mouvements de l'atmosphère (déplacements des masses d'air,
turbulence de l'atmosphère). Dans la stratosphère4, l'ozone est un constituant chimique
indispensable pour la protection de la terre car il y joue le rôle de filtre des radiations solaires
UV. Par contre, ses effets sur la santé humaine (migraine, affections des voies respiratoires,
irritation des organes sensoriels, ...) et sur l'environnement (en particulier la végétation) sont
nocifs lorsque sa concentration atteint des valeurs élevées dans la couche troposphérique. C'est
pourquoi une directive européenne, en date du 21/09/92, reprise par la loi sur l'air du 30/12/96 en
France a défini des normes de qualité de l'air afin de protéger la santé humaine. Ainsi, les valeurs
seuils suivantes ont été fixées pour la concentration d'ozone :
• 360 µg/m3 (valeur moyenne sur 1 heure) : seuil d'alerte de la population,

• 180 µg/m3 (valeur moyenne sur 1 heure) : seuil d'information de la population,
• 110 µg/m3 (valeur moyenne sur 8 heures) : seuil de protection pour la santé.
Les réseaux de surveillance implantés dans les différentes régions de la France

(Marseille, Metz, Nancy, Montpellier, Paris, Caen, Martigues, Strasbourg, ...) ont alors entre
autres rôles, un devoir de surveillance de la qualité de l'air afin d'informer le public et les
autorités compétentes en cas de dépassement des seuils fixés. Ces dépassements peuvent
conduire les autorités préfectorales à prendre des mesures restrictives temporaires afin de réduire
les émissions de polluants primaires. Ces mesures peuvent être : la déviation de la circulation
automobile, la circulation automobile alternée ou ralentie, ... L'élaboration de modèles descriptifs
de l'évolution de la concentration d'ozone est donc nécessaire afin de réaliser un pronostic de la
1
Association lorraine pour la surveillance de la qualité de l'air basée sur Nancy.
2
Association pour l'exploitation du réseau de mesure de la qualité de l'air des vallées de la Fensch, de l'Orne et de la
Moselle basée à Metz.
3
Couche de l'atmosphère située entre le sol et une altitude d'environ 15km.
4
Couche de l'atmosphère située immédiatement au-dessus de la troposphère.
CRAN-INPL Page 145

qualité de l'air et d'anticiper les prises de décision, ceci pour prévenir suffisamment à temps la
population de ces mesures. Dans cette perspective, le CRAN5 en collaboration avec AIRLOR et
AEFORM a entrepris de travailler sur :
• la validation des données,

• la modélisation du phénomène de pollution par l'ozone.
La validation des données a pour but de déceler des anomalies de fonctionnement des
capteurs principalement ceux de mesure de la concentration d'ozone et des polluants primaires
comme les oxydes d'azote NO et NO2. Elle revêt une double importance : d'une part,
l'élaboration de modèles descriptifs des variations du taux d'ozone requiert des données valides ;
d'autre part la diffusion permanente des données (serveur professionnel, Internet) et leur
utilisation par les réseaux de surveillance pour leurs études nécessitent que les données soient
valides.
Les modèles recherchés doivent pouvoir fournir :
• une prévision à plus ou moins long terme (12 à 24 h),

• une prévision à moyen ou court terme (1 à 4 h voire 6 h).
Le modèle à plus ou moins long terme vise à obtenir à échéance de 24 h (voire plus ou
moins), la valeur prévisionnelle ou l'intervalle de variation de la valeur prévisionnelle de la
concentration maximale d'ozone pour la journée à venir. L'analyse de cette prévision conduira
s'il y a lieu à la mise en place des mesures de réduction précédemment mentionnées.
Le modèle à moyen terme est destiné à corriger ou à confirmer la prévision de la veille.

Cette étape de correction peut être nécessaire afin d'affiner la prévision au vu des mesures de
paramètres météorologiques et de pollution en début de journée. Le modèle à court terme répond
au besoin de simuler en temps continu la variation de la teneur en ozone à partir des paramètres
météorologiques et des concentrations des polluants primaires mesurés sur la zone géographique
concernée. L'intérêt est de disposer de résultats de simulation susceptibles de remplacer les
mesures réelles (qui servent au calcul de l'indice de qualité de l'air) en cas de défaillances des
capteurs d'ozone. Un autre intérêt de la modélisation à court terme est le suivi de l'évolution de la
concentration d'ozone en période de crise (dépassement des seuils critiques). Dans cette optique,
nous avons traité le problème d'élaboration de modèles de prévision de la concentration
maximale journalière d'ozone d'une part et celui de la construction d'un modèle d'explication des
concentrations horaires d'ozone de l'autre.
La première partie de ce chapitre est consacrée à la description des particularités du

phénomène de pollution par l'ozone. Les principaux mécanismes gouvernant le phénomène sont
présentés ainsi que les facteurs influents. La deuxième partie est axée sur la modélisation
5
Centre de Recherche en Automatique de Nancy
Page 146 CRAN-INPL

proprement dite. Elle se décompose en deux sous-sections : l'une traite de la recherche de

modèles de prévision (modèle à long terme), l'autre est dédiée au modèle à court terme. Les
résultats obtenus sont exposés dans cette partie. L'analyse critique des résultats, les limites des
modèles et les perspectives pour la continuation du projet sont également discutées.
IV.2. PARTICULARITES DU PHENOMENE

L'ozone est un constituant de la troposphère. Il n'est pas émis directement dans
l'atmosphère ; il est le produit de processus physiques et chimiques de transformation de
composés primaires. Ces processus sont complexes par le nombre de réactions chimiques mises
en jeu, par les vitesses très différentes qu'elles peuvent avoir suivant les concentrations des
polluants précurseurs, suivant les conditions météorologiques locales, suivant le relief et
l'altitude de la zone géographique considérée. Cette complexité est augmentée par les échelles
spatiales à considérer car les concentrations d'ozone relevées à une échelle locale sont
influencées par les événements de pollution à une échelle régionale voire continentale du fait du
déplacement des masses d'air. En plus de cela, il existe des échanges de polluants entre la
stratosphère et la troposphère (échanges verticaux), ce qui ajoute une complexité supplémentaire.
IV.2.1. MECANISMES DE PRODUCTION ET DE DESTRUCTION DE L'OZONE
Dans une atmosphère non "polluée", l'ozone résulte principalement de la seule réaction
de combinaison d'un atome d'oxygène O avec l'oxygène de l'air O2 en présence d'un corps
stabilisant M (réaction (2) de la figure IV-1). L'atome d'oxygène nécessaire à cette réaction est
obtenu par photodissociation du dioxyde d'azote NO2 en NO et O (équation (1), figure IV-1).
Mais la molécule de NO ainsi formée est oxydée rapidement par l'ozone pour reformer le NO2. Il
s'établit un cycle appelé cycle de Chapman [Académie, 1993] dont l'illustration est portée sur la
figure IV-1. Un régime stationnaire s'établit, caractérisé par une concentration d'ozone plus ou
moins constante qui dépend des concentrations de NO et de NO2 et des vitesses des trois
réactions.
Production d'ozone
(1) NO 2 + hv(λ < 400 nm ) → NO + O
(2 ) O + O 2 + M → O 3 + M
Destruction de l'ozone
(3) NO + O 3 → NO 2 + O 2
Figure IV-1 : Illustration du cycle de Chapman
Dès lors, une augmentation de la concentration d'ozone est due à une transformation du
NO en NO2 sans consommation de molécules d'ozone. En atmosphère polluée, l'action de
produits comme les composés organiques volatiles COV (hydrocarbures et composés oxygénés)
CRAN-INPL Page 147

et l'aérosol urbain perturbent le cycle de Chapman en offrant des voies d'oxydation des NO
autres que celle de l'ozone comme illustré sur la figure IV-2.
O2+O O3
O O3
Rayonnement
NO2+O2 NO+O3
NO2
RO2+NO RO+NO2 COV
NO
Figure IV-2 : Rupture du cycle de Chapman par l'action des COV
L'action de ces composés conduit, à travers une série de réactions chimiques complexes,
à une oxydation de NO en NO2 sans destruction de l'ozone. Les molécules de NO2 formées sont
ensuite dissociées sous l'action de la lumière suivant la réaction de photolyse (1). Les atomes
d'oxygène O qui en résultent alimentent le processus de production de l'ozone : par conséquent,
on comprend aisément l'augmentation de la teneur en ozone dès que le rayonnement solaire est
suffisamment intense. Une partie des NO participe à la destruction de l'ozone alors que l'autre
partie se combine de nouveau avec les COV pour produire du NO2. Il s'installe ainsi deux cycles
: le cycle normal de Chapman et la rupture causée par la présence des COV. L'importance
relative de ces deux cycles dans la production ou la destruction de l'ozone est liée au rapport des
concentrations [COV]/[NOx] [Académie, 1993]. On distingue alors deux situations :
• le milieu est pauvre en NOx (rapport [COV]/[NOx] grand) : augmentation de la

concentration d'ozone,
• le milieu est riche en NOx (rapport [COV]/[NOx] petit) : ralentissement de la production

voire une destruction de l'ozone.
On constate que la distribution spatiale et temporelle des polluants précurseurs jouent un

rôle important dans le développement du phénomène. A cela s'ajoute l'influence du type de
temps dans la zone étudiée. Analysons maintenant les principaux facteurs influençant le
phénomène.
IV.2.2. FACTEURS INTERVENANT DANS LE PHENOMENE
IV.2.2.1. Polluants précurseurs
Ils sont émis dans l'atmosphère par des sources fixes et mobiles résultant souvent des
activités humaines. Ce sont principalement les NOx (NO et NO2) et les COV.
• Les oxydes d'azote NOx. Ils tiennent un rôle important dans le cycle de l'ozone. Ces
Page 148 CRAN-INPL

oxydes sont émis par les véhicules, les avions ou les installations thermiques. A ces
sources d'émission s'ajoutent des sources naturelles (charbon, produits pétroliers, …).
• Les COV. Les COV sont extrêmement nombreux et de natures diverses. Ils regroupent les
hydrocarbures (à l'exclusion du méthane) et les composés oxygénés. Les sources
d'émission sont le gaz naturel, la combustion de fuel, les transports, les industries
utilisatrices de solvants et la végétation. Ces composés ont des réactivités différentes et
sont la cause de la rupture du cycle naturel de l'ozone.
IV.2.2.2. Facteurs physiques et météorologiques
Ces paramètres influencent le phénomène en intervenant de manière directe comme

catalyseur dans les réactions chimiques ou en contribuant à la réalisation de conditions
favorables au développement du phénomène.
• Rayonnement. Un ensoleillement suffisant est nécessaire au déclenchement des réactions

lorsque les précurseurs sont présents en quantité suffisante. Ceci explique les faibles
niveaux d’ozone en période nocturne (voir figure IV-4) et en hiver. Des études ont montré
que les niveaux élevés d’ozone sont souvent associés à de forts ensoleillements mais ce
facteur seul ne suffit pas pour provoquer des épisodes de pollution.
• Température. Elle est corrélée avec l’ozone mais son influence est toutefois complexe.
Elle est susceptible de modifier les vitesses de réactions de certaines espèces chimiques
faisant partie des COV. C’est aussi un indicateur indirect des conditions ensoleillées et de
l’humidité ambiante.
• Vents. Ils sont un facteur important dans la dispersion, l’accumulation et le transport des
polluants. Un vent faible est peu dispersif et favorise l'accumulation des polluants : ceci
peut contribuer à une augmentation ou une diminution du niveau d'ozone compte tenu du
rapport [COV]/[NOx]. Mais en général, un vent faible est favorable à la production
d'ozone. Inversement, un vent fort est responsable de la turbulence de l'atmosphère c'est-à-
dire toutes conditions défavorables à la formation d'ozone. Il est à souligner un phénomène
pernicieux constitué par le transport de l'ozone d'une région polluée vers le site étudié par
situation de vent fort.
• Profil vertical de la température ou dynamique de la couche de mélange. La

température ambiante diminue lorsque l'altitude augmente. Mais à partir d'une certaine
altitude, on peut constater l'inverse c'est-à-dire une augmentation de la température. Ce
point de changement du gradient de la température est appelé niveau d'inversion
synoptique. La couche atmosphérique entre le sol et ce niveau d'inversion est appelée
couche de mélange. C'est dans cette couche que se produisent les épisodes de pollution et
sa dynamique influence fortement celle de l'ozone. La figure IV-3 montre les variations de
la hauteur de la couche de mélange en fonction des heures de la journée. La nuit,
CRAN-INPL Page 149

l'inversion synoptique se produit à basse altitude. Les polluants émis et produits au cours
de la journée sont confinés dans un volume restreint. Si le vent est faible, on assiste à une
destruction de l'ozone. Au matin, le réchauffement du sol dû aux rayons du soleil crée une
convection verticale de plus en plus accentuée. La hauteur de la couche de mélange
augmente jusqu'à atteindre une altitude localisée à environ 1000 à 1500m puis reste
constante. Durant cette période de stagnation du niveau synoptique, la production
photochimique décrite à la section IV.2.1 prend toute son ampleur. Lorsque le
rayonnement diminue, la convection perd rapidement d'intensité et la hauteur de la couche
de mélange revient à la valeur nocturne. Cette inversion nocturne s'accompagne de la
formation d'une couche intermédiaire dont la composition est celle de la couche de
mélange en fin d'après-midi. Son contenu est recyclé dans la couche de mélange lors de la
convection verticale diurne le lendemain. Notons que si le réchauffement de l'atmosphère
est insuffisant, l'inversion synoptique se maintient à basse altitude, empêchant la formation
d'ozone.
Altitude
Atmosphère libre
1500 m Inversion synoptique
Couche Couche
intermédiaire de Couche
mélange intermédiaire
Inversion
nocturne
6h 12h 18h 24h
Figure IV-3 : Dynamique de la couche de mélange au cours de la journée
Conclusion
De manière synthétique, les conditions météorologiques influencent le phénomène de
deux manières, distinguées par les régimes suivants :
• régime dépressionnaire : vents forts, basse pression, atmosphère instable, humidité
importante c'est-à-dire des conditions non favorables à la production d'ozone,
• régime anticyclonique : ciel clair, vents faibles, inversion de température marquée à 1000-
1500m, accumulation de polluants, c'est-à-dire des conditions favorables aux épisodes de
pollution.
Page 150 CRAN-INPL

IV.2.2.3. Influence de l'échelle spatiale (type de site)
L'analyse des mécanismes de production et destruction de l'ozone a montré l'influence du

rapport des concentrations des NOx et des COV. La distribution spatiale et temporelle de ces
polluants primaires dépend de la localisation des sources d'émission et du phénomène de
transport. Ceci conduit à considérer différentes échelles spatiales :
• Noyau urbain. C'est une zone d'habitat et d'activité denses avec une circulation
automobile importante. Les sources des polluants primaires sont intenses. Le rapport
[COV]/[NOx] est petit, ce qui a pour effet un piégeage de l'ozone et donc des niveaux
faibles.
• Périmètre urbain. C'est la zone périurbaine caractérisée par une densité de population et
d'activité moins importantes que dans le noyau urbain. Le piégeage chimique est moins
intense et les niveaux d'ozone relevés sont plus élevés que dans le noyau urbain.
• La zone méso-échelle. C'est un tissu urbain très lâche ou une zone rurale. Les sources des
précurseurs sont peu importantes et le rapport [COV]/[NOx] est élevé. Le phénomène de
piégeage de l'ozone est quasiment inexistant, ce qui provoque des épisodes de pollution
aigus. Cette région est de plus affectée par le panache urbain du fait du déplacement des
masses d'air.
IV.3. PRESENTATION ET ANALYSE DES DONNEES TRAITEES

Avant de passer à la partie modélisation, nous faisons dans cette section, une analyse des
données que nous avons eues à traiter. Ces données sont issues des stations de mesure gérées par
les réseaux. Ces stations mesurent chacune les concentrations d'ozone et des polluants
précurseurs (NOx et éventuellement le dioxyde de soufre SO2 et le monoxyde de carbone CO).
Certaines de ces stations mesurent les paramètres météorologiques à savoir la température,
l'humidité relative, la pression, le rayonnement solaire, la vitesse et la direction du vent. Les
données sont relevées chaque quart d'heure soit 96 mesures par jour. Les figures IV-4 montrent
l'allure de ces variables sur sept jours.
Sur ces courbes, on distingue deux parties séparées par un trait pointillé. La partie de
gauche portant sur 4 jours, correspond aux caractéristiques observées dans un cycle normal. Sur
cette partie, il peut être remarqué que la concentration d'ozone est modulée par un cycle jour-nuit
et présente une évolution quotidienne sous la forme d'une cloche. Faible la nuit (intervalle de
temps où le rayonnement est très faible ou nul), le niveau d'ozone augmente progressivement en
début de journée pour atteindre ses valeurs maximales dans l'après-midi. Il descend ensuite à une
valeur nocturne faible et comparable à celle de la veille.
CRAN-INPL Page 151

Concentration d'ozone (µg/m 3 ) Tracé comparatif O 3 et NO x
150 NO
250 NO 2 O3
100
150
50
50
Tem ps Temps
100 200 300 400 500 600 (1/4h) 100 200 300 400 500 600 (1/4h)
C oncentration de NO (µg/m 3 ) Concentration de NO 2 (µg/m 3 )
120
250 100
80
150 60
40
50
Tem ps 20 Tem ps
100 200 300 400 500 600 (1/4h) 100 200 300 400 500 600 (1/4h)
2
R ayonnem ent (W /m ) V itesse du vent (m /s)
800
5
600 4
3
400
2
200
1
Tem ps Te m ps
100 200 300 400 500 600 (1/4h) 100 200 300 400 500 600 (1/4h)
Tem pérature (°C ) H um idité (% )
25
80
20
60
15
40
10 Tem ps Tem ps
100 200 300 400 500 600 (1/4h) 100 200 300 400 500 600 (1/4h)
Pression (Pa) Direction du vent (degré)

977
300
975
200
973
100
Temps Tem ps
971
100 200 300 400 500 600 (1/4h) 100 200 300 400 500 600 (1/4h)
Figure IV-4 : Allure des mesures de polluants et des variables météorologiques sur une
période de 7 jours.
Page 152 CRAN-INPL

Remarquons que sur ces 4 jours, il y a présence des polluants primaires en début et fin de
journée, un bel ensoleillement, des températures maximales de l'ordre de 25 °C, une vitesse de
vent moyenne (de l'ordre de 2 m/s) en milieu de journée. Il y a donc là toutes les conditions
favorables à la production d'ozone : les niveaux d'ozone atteints sont supérieurs à 150 µg/m3. On
remarquera aussi qu'au cours de la nuit la vitesse du vent est très faible voire nulle. Les polluants
primaires ne sont pas dispersés et il y a donc destruction de l'ozone. La dernière constatation
qu'on peut faire sur les données de ces 4 jours, en se référant au tracé comparatif de l'ozone et
des NOx, est que les concentrations de NOx et d'ozone varient en raison inverse. La nuit, les NOx
sont présents alors que l'ozone est piégé. En début de journée, quand le niveau d'ozone monte, il
y a décroissance de celui des NOx. La relation inverse s'établit en fin de journée au moment de la
baisse de la concentration d'ozone.
Sur les mesures situées à droite du trait pointillé (représentant les 3 derniers jours), on
observera que la vitesse du vent est forte la nuit (de l'ordre de 2 m/s). Il y a dispersion des
polluants et donc absence de destruction de l'ozone. Ceci explique les niveaux nocturnes
"élevés" constatés sur ces mesures. La journée, ce vent reste fort empêchant le développement
normal du phénomène à cause toujours de la dispersion des polluants primaires. On s'en rend
compte en examinant les mesures de NOx relevées ces jours. La relation inverse précédente entre
l'ozone et les NOx est inexistante. On constate également que les conditions météorologiques
évoluent dans des sens différents : la température maximale diminue d'une journée à l'autre, le
rayonnement est par contre favorable puisqu'il augmente et l'humidité a tendance à conserver un
niveau comparable à celui des 4 derniers jours. Dans ces genres de situation, il est difficile de
dire de façon cohérente l'évolution de la concentration d'ozone. Sur ces trois jours, les niveaux
d'ozone relevés dépassent le seuil de 110µg/m3.
Ces mesures que nous avons présentées proviennent du site de mesures de Brabois qui est
périurbain. C'est l'un des sites ayant enregistré les concentrations les plus fortes en ozone de
l'agglomération nancéienne. De plus il dispose de mesures de paramètres météorologiques
pouvant servir à l'étude du phénomène. Ces données portent sur une période de cinq ans : 1995 à
1999. Les niveaux importants d'ozone sont observés généralement durant la période d'avril à
septembre6. Nous avons donc restreint la période d'étude : elle va du 1er avril au 30 septembre
pour chaque année. Précisons que les résultats de nos travaux sur la station de Brabois qui fait
partie du réseau d'AIRLOR ont été transposés dans le cadre du stage de DEA de Kribeche [2000]
à deux stations (Metz-Borny et Thionville-Piscine) du réseau AERFOM.
En vue de mettre en évidence d'éventuelles relations entre les variables à disposition,

nous avons calculé la corrélation entre toutes les variables exceptée la direction du vent. Cette
variable est difficilement exploitable telle quelle pour exprimer une dépendance avec l'ozone.
Nous avons limité ce calcul à des journées où le niveau d'ozone enregistré est supérieur au seuil
6
En hiver et en automne, du fait de la faiblesse de l'ensoleillement, des précipitations, de la chute de neige, les
mécanismes de production d'ozone ne sont pas initiés. Sur ces périodes, on a surtout une pollution par les oxydes
d'azote.
CRAN-INPL Page 153

de 110 µg/m3. Ce choix est motivé par le fait que nous désirons examiner les conditions pouvant
conduire à un déclenchement de la première alerte, celle d'information du public. Les résultats
obtenus sont regroupés dans les tableaux suivants.
Vitesse
O3 NO NO2 Température Humidité Pression Rayonnement
vent
O3 1
NO -0.35 1
NO2 -0.40 0.63 1
Température 0.67 -0.20 -0.24 1
Humidité -0.77 0.28 0.29 -0.57 1
Pression 0.001 0.071 0.054 0.037 -0.081 1
Rayonnement 0.43 -0.21 -0.27 0.33 -0.46 0.15 1
Vitesse vent 0.14 -0.27 -0.36 -0.11 -0.24 -0.067 0.22 1
Tableau IV-1 : Corrélation entre la concentration d'ozone et les autres variables sur la
période diurne
Vitesse
O3 NO NO2 Température Humidité Pression Rayonnement
vent
O3 1
NO -0.52 1
NO2 -0.57 0.56 1
Température 0.36 -0.26 -0.010 1
Humidité -0.63 0.29 0.162 -0.33 1
Pression -0.15 0.15 0.15 0.0036 -0.060 1
Rayonnement 0.076 0.067 -0.025 0.096 -0.035 -0.065 1
Vitesse vent 0.65 -0.43 -0.55 0.059 -0.32 -0.22 0.10 1
Tableau IV-2 : Corrélation entre la concentration d'ozone et les autres variables sur la
période nocturne
L'examen des deux tableaux révèle que ce soit en période nocturne ou diurne, l'humidité a
l'une des plus fortes corrélations avec l'ozone. Pendant le jour, la température a un coefficient de
corrélation de l'ordre de 0.67. Ce coefficient tombe à 0.36 en période diurne, indiquant que les
variations de la concentration d'ozone au cours de la nuit ne peuvent s'expliquer par la
dynamique de la température. En revanche, on retrouve la relation observée visuellement entre
les NOx, l'ozone et la vitesse du vent. En période nocturne, on peut relier les variations de la
concentration d'ozone à celles du niveau des NOx et de la vitesse du vent. On peut également
relier les variations nocturnes des NOx avec la vitesse du vent (la concentration en NO2 au cours
de la nuit a par exemple un coefficient de corrélation de l'ordre de –0.55 avec la vitesse du vent).
Ces valeurs de coefficient de corrélation linéaire ne sont pas significatives au sens de la
régression linéaire. Elles indiquent simplement des dépendances qui peuvent exister entre la
Page 154 CRAN-INPL

variable à expliquer et les variables explicatives. La pression ne révèle aucune corrélation

particulière ni avec l'ozone, ni avec les autres variables explicatives. Elle ne sera plus considérée
dans la suite.
IV.4. MODELES DE PREVISION DE LA CONCENTRATION

MAXIMALE QUOTIDIENNE D'OZONE
Le premier type de modèle élaboré est le modèle de prévision de la concentration
maximale journalière de l'ozone. Il doit pouvoir générer une prévision pour le jour J+1 à partir
des informations disponibles jusqu'au jour J et des prévisions des variables météorologiques sur
le jour J+1. Strictement, le modèle doit être construit à partir des mesures du réseau de
surveillance mais aussi de l'historique des prévisions de temps de Météo-France. Au moment de
l'étude, nous n'avons pas eu à disposition ces prévisions. Ceci nous a donc conduit à caler le
modèle exclusivement avec les mesures d'AIRLOR en supposant qu'au jour J, les prévisions de
temps sur J+1 sont les mesures d'AIRLOR.
Les points essentiels à traiter sont : le traitement de la variable à expliquer et des

variables explicatives de façon à les synthétiser au pas de temps de la journée (c'est-à-dire
résumer chaque variable en une seule valeur représentative sur la journée), la sélection des
variables explicatives pertinentes, la construction du modèle et sa validation.
IV.4.1. TRAITEMENT DES VARIABLES PREDICTIVES
IV.4.1.1. Les variables prédictives courantes
Les variables explicatives les plus couramment citées dans la littérature [Fromage, 1996]
sont les données de pollution et les variables météorologiques. Ces données météorologiques
sont :
• la température qui est la grandeur la plus fréquemment utilisée et plus particulièrement la

température maximale en période diurne. Certains auteurs utilisent la différence entre la
température maximale et minimale de la journée. La température sert également à
quantifier la force de l'inversion thermique, ce qui donne une idée de la hauteur de la
couche de mélange. Pour cela, on calcule la différence entre des températures relevées à
différentes altitudes à certaines heures de la journée,
• le rayonnement solaire sous différentes formes, soit le rayonnement global, soit la

couverture nuageuse ou encore le nombre d'heures d'insolation du jour,
• l'humidité de l'air, soit l'humidité relative ou le point de rosée à des heures particulières,
• la pression atmosphérique mais comme nous l'avons vu, cette variable dans notre cas ne
présente aucun lien particulier avec les variations de la concentration d'ozone,
CRAN-INPL Page 155

• la vitesse du vent. La grandeur pertinente pour la vitesse du vent est soit une valeur
instantanée à une heure précise de la journée (à 12h par exemple) ou encore une valeur
maximale ou moyenne sur une période déterminée (de 6h à 18h par exemple).
La plupart des modèles fonctionnant au pas de temps de la journée n'utilise qu'une seule
variable de pollution qui est la valeur maximale du jour J. Ce terme est connu sous le nom de
terme de persistance. Parfois, les valeurs maximales des jours précédents sont intégrées au
modèle afin de prendre en compte l'évolution progressive du phénomène sur plusieurs jours.
Remarque
¬ Quelques auteurs introduisent des termes supplémentaires tenant compte des effets de
saisonalité tels que le jour de la semaine ou le week-end et plus rarement la saison.
IV.4.1.2. Prétraitement des données
Le prétraitement des données consiste à extraire pour chaque variable une valeur
pertinente permettant de la résumer sur la journée. Nous commencerons par l'ozone ; les résultats
obtenus aideront à synthétiser l'information pour les autres variables.
,9 &RQGLWLRQQHPHQWGHODYDULDEOHR]RQH
Pour l'ozone, le problème est simple à résoudre car la plupart des seuils sont définis à
partir de la valeur moyenne sur une heure. Nous déterminons donc la valeur moyenne horaire
maximale de la journée ainsi que l'instant d'apparition de ce maximum (figure IV-5). Les
maxima d'ozone étant principalement observés en période diurne, seule cette période a été
considérée. La mesure du rayonnement a permis de déterminer les heures de lever et de coucher
du soleil en examinant les instants respectifs où le rayonnement passe au-dessus et en dessous du
seuil de 15W/m2.
250
200
mesure mesure
180 O3max moyenne horaire
Concentration en ozone en µg/m3
Concentration en ozone en µg/m3
moyenne 200
160
O3max horaire O3 prévisible
140
120 150
100
80 100
60
tO3max tO3max
40 50
20
Période diurne
Période diurne
0
0
1 2 4 6 8 10 12 14 16 18 20 22 24 1 2 4 6 8 10 12 14 16 18 20 22 24
Temps en heure Temps en heure
a - Cas normal b- Problème de codification (pic tôt le matin)
Figure IV-5 : Comparaison mesure et moyenne horaire d'ozone
Page 156 CRAN-INPL

Remarque
¬ Le choix de la valeur moyenne horaire maximale pose un problème qui est l'apparition d'un
pic d'ozone relativement tôt dans la journée (figure IV-5-b). Ce phénomène peut être
interprété comme le recyclage du smog âgé de la couche intermédiaire dans la couche de
mélange lors du développement de cette couche [Académie, 1993]. Ce pic est difficile à
prévoir en absence de mesures en altitude. De même, des valeurs extrêmes peuvent
également apparaître relativement tard dans la journée suite à un changement de la
direction du vent ce qui les rend tout aussi imprévisibles [Académie, 1993]. Dans ce cas, il
vaudrait mieux prendre la valeur maximale moyenne du plateau observé l'après-midi sur la
concentration d'ozone (figure IV-5-b).
_ Evolution des maxima horaires journaliers
Sur les graphiques de la figure IV-6 sont représentés les histogrammes des maxima
horaires journaliers d'ozone et des heures d'apparition de ces valeurs maximales pour les années
1995 à 1998. L'examen de ces courbes conduit à formuler deux remarques :
• on peut constater que le nombre de jours pour lesquels le seuil d'alerte (180 µg/m3) est
dépassé est très faible (13 jours, soit 1.78 %) alors que le nombre de jours pour lesquels la
valeur maximale est inférieure à 100 µg/m3 est de 361 jours, soit 49.3%. On voit donc
apparaître une des premières difficultés de la modélisation. En effet, le modèle de
prévision sera établi principalement sur des valeurs faibles et il risque de fournir des sous-
estimations pour les valeurs élevées et donc entraîner des non-détections de dépassement
de seuil.
• les valeurs maximales d'ozone apparaissent dans 69.3 % des cas entre 12h et 17h TU.
0.25 0.18
0.16
0.2 0.14
0.12
Pourcentage
0.15
Pourcentage
0.1
0.08
0.1
0.06
0.04
0.05
0.02
0
0 5 10 15 20
0 50 100 150 200 250 heure du jour
O3max
a- Histogramme des maxima horaires journaliers b- Histogramme des heures d'apparition

d'ozone (étés 95-98)
Figure IV-6 : Histogrammes relatifs au conditionnement de la variable ozone
CRAN-INPL Page 157

Remarque
¬ En période estivale, la plage horaire 12h-17h TU correspond à 14h et 19h en heure locale.
Afin de tenir compte de la contrainte des réseaux de délivrer l'information aux autorités
préfectorales avant 17h, heure locale, la plage horaire a été redéfinie entre 12h et 14h TU.
La valeur maximale d'ozone est donc prise entre ces deux bornes horaires. Ces bornes
servent également à définir les valeurs pertinentes pour les variables explicatives.
,9&RQGLWLRQQHPHQWGHVYDULDEOHVH[SOLFDWLYHVRXH[RJqQHV
Sur la base des conclusions précédentes concernant les heures d'apparition des maxima
horaires d'ozone et compte tenu des contraintes d'exploitation, nous avons choisi de calculer,
pour chaque jour, la valeur "pertinente" pour les autres variables selon les règles suivantes :
• valeur maximale des moyennes horaires calculées entre 12h et 14h TU pour la température
et la vitesse du vent,
• valeur moyenne des moyennes horaires calculées entre 10h et 14h TU pour l'humidité
relative. Nous avons choisi 10h TU pour prendre en compte d'éventuelles précipitations en
début de journée (une atmosphère humide est peu propice à la production d'ozone),
• valeur moyenne des moyennes horaires calculées entre 12h et 14h TU pour la vitesse du
vent,
• valeur minimale des moyennes horaires calculées entre 1h et le lever du jour pour la
température,
• rayonnement cumulé sur toute la journée.

Précisons qu'en plus de ces variables, nous avons créé une nouvelle variable formée par
la différence entre les températures maximale et minimale de la journée considérée. Cette
variable désignée par variation de température fournit une image de l'amplitude thermique dont
la dynamique est reliée par nombre d'auteurs à celle de la concentration d'ozone.
IV.4.2. MODELES DE PREVISION RECHERCHES
La question essentielle qui se pose dans le choix des outils de prévision est de savoir quel
type de prévision il faut générer. Faut-il prévoir :
• une valeur numérique avec un intervalle de confiance ?

• une classe à laquelle appartiendrait la prévision du lendemain (par exemple,
O3 max < 130 µg / m 3 , 130 µg / m 3 < O3 max < 180 µg / m 3 , O3 max > 180 µg / m 3 ) ?
• les dépassements de seuil ?
Page 158 CRAN-INPL

L'autre question est l'échéance des prévisions : faut-il prévoir à une échéance de 24h, 12h
ou moins ? L'objectif étant de fournir un outil d'aide à la décision aux autorités, il est préférable
en période de pollution aiguë de donner la prévision à un pas de 24h afin d'avertir suffisamment
tôt la population des éventuelles mesures de restriction.
Selon les choix effectués, on rencontre différents types de modèles dans la littérature.
Nous référons aux travaux de Fromage [1996] pour avoir une synthèse des différentes techniques
employées dans les réseaux de surveillance. De ces méthodes, nous pouvons citer :
• les modèles de régression linéaires faisant intervenir les variables explicatives soit de
façon directe, soit une transformation non-linéaire (polynomiale, exponentielle, …) de ces
variables [Bloomfield et al., 1993], [Hubbard et Cobourn, 1998],
• les réseaux de neurones [Hartman et Saby, 2000], [Massieu et al., 2000],

• les modèles flous, [Peton, 1999], [Ghiaus et al., 2000], [Hartman et Saby, 2000],
• les arbres de classification binaires (CART) [Ryan, 1995], [Ghattas, 2000].
Nous avons opté pour la génération d'une valeur numérique pour deux raisons : la
première réside dans le fait que sur l'agglomération de Nancy, il y a eu peu d'occurrence de
niveaux élevés d'ozone comme l'analyse des histogrammes l'a montré. La deuxième raison est de
mettre à disposition du réseau AIRLOR, une valeur numérique (que ce soit pour des niveaux
faibles ou élevés d'ozone) pouvant servir au pronostic de l'indice ATMO7 de la journée à venir.
Le modèle de prévision aura donc une échéance de 24h.
IV.4.2.1. Modèle de prévision linéaire

Nous avons recherché dans un premier temps un modèle linéaire ARX. Pour ce faire,
nous avons pris les données des trois années consécutives, 1995 à 1997, comme données
d'identification. L'année 1998 a servi d'année de validation pour la recherche de la structure du
modèle. Au moment de l'élaboration du modèle, nous ne disposions que des données de ces
quatre années. Par conséquent l'année 1999 n'a pas servi à la construction du modèle. Elle fera
office d'année de test du modèle aussi bien avec les mesures d'AIRLOR que dans les conditions
réelles d'exploitation du modèle.
La démarche de recherche de structure adoptée est incrémentale : elle a consisté à
déterminer le meilleur modèle linéaire à 1 variable exogène, puis à 2, 3, 4 variables exogènes et
ainsi de suite tout en recherchant à chaque fois, l'ordre ny de la partie autorégressive et les ordres
nui et retards nkui des variables exogènes. A l'étape v de la procédure, v variables exogènes sont
déjà acceptées dans le modèle linéaire que nous notons 0v. La prochaine étape v+1 consiste à
7
Indice définissant la qualité de l'air. Il tient compte du niveau des polluants principaux (SO2, NOx, O3, particules
en suspension). Il est défini par une classe de qualité. Ces classes s'échelonnent de 1 à 10, de Très Bon à Très
Mauvais.
CRAN-INPL Page 159

introduire une variable exogène supplémentaire puis à rechercher ensuite les ordres et les retards
(ceci signifie qu'on remet en cause les ordres et les retards identifiés à l'étape précédente). Cette
recherche est exhaustive c'est-à-dire qu'on spécifie la valeur maximale des ordres et des retards
puis on teste toutes les combinaisons possibles. Chaque combinaison fournit un modèle linéaire
dont les performances sont évaluées sur les données de validation (celles de 1998). Le meilleur
modèle 0v+1 obtenu à l'étape v+1 est celui ayant donné le meilleur critère de validation. Si ses
performances en validation sont meilleures que celles du modèle 0v, la procédure continue sinon
elle est arrêtée et on conserve 0v comme le modèle final.
Le meilleur modèle de prévision linéaire identifié se présente sous la forme suivante :

O3 max t + 1 = a1O3 max t + a2 O3 max t − 1 + b11∆T t + 1 + b21 HRmoy t + 1 + b22 HRmoy t
0 5 05 0 5 0 5 0 5 05 (IV-1)
+ b31Tmax 0t 5 + b41Vmoy 0t + 15 + b0
où :
∆T = Tmax – Tmin désigne la variation de température (°C),
Tmax est la température maximale (°C),
Tmin est la température minimale (°C),
HRmoy est l’humidité relative moyenne (%),
Vmoy représente la vitesse moyenne du vent (m/s).
En plus des concentrations d'ozone, ce modèle comprend quatre variables exogènes. En

effet, pour prédire la valeur de la concentration d'ozone pour le jour J+1, quand on est au jour J,
le modèle fait intervenir :
• les mesures des niveaux d'ozone des jours J et J-1 ( o3max 0t 5 et o3 max t − 1 ) qui sont des
0 5
termes de persistance,
• la valeur prédite de la variation de température pour le jour J+1 ( ∆T 0t + 15 ),

• la valeur prédite de l'humidité relative moyenne pour le jour J+1 ( HRmoy 0t + 15 ) et la valeur
moyenne de l'humidité relevée le jour J ( HRmoy t ), 05
• la valeur prédite de la vitesse moyenne du vent pour le jour J+1 ( Vmoy 0t + 15 ),
• la mesure de la température maximale le jour J ( Tmax 0t 5 ).
Les coefficients du modèle sont consignés dans le tableau IV-3.
a1 a2 b11 b21 b22 b31 b41 b0
0.43 0.078 3.66 -0.51 0.39 0.11 -0.57 25.19
Tableau IV-3 : Coefficients du modèle de prévision linéaire
Page 160 CRAN-INPL

On constate que le coefficient b41 relatif à la vitesse du vent Vmoy t + 1 a un signe 0 5

négatif : ceci signifie qu'une vent fort contribue à diminuer le niveau d'ozone. Par contre, la
variation de température ∆T t + 1 a un coefficient positif dans le modèle : elle permet de
0 5
quantifier l'apport de l'amplitude thermique de la journée à la production d'ozone. Les
coefficients afférents à l'humidité relative b21 et b22 ont des ordres de grandeur similaires avec
des signes opposés : ceci traduit l'influence de l'évolution du temps (amélioration ou
dégradation) entre deux journées sur le niveau d'ozone. En effet, une diminution de l'humidité
relative du jour J au jour J+1 (c'est-à-dire une amélioration du temps si toutes les autres variables
météorologiques sont supposées constantes entre deux jours) a pour conséquence une
augmentation du niveau d'ozone. A l'inverse, une dégradation du temps (augmentation de
l'humidité relative) produit une diminution du niveau d'ozone. Ces conclusions corroborent les
constats de l'analyse des données effectuée au paragraphe IV.3.
,9 3HUIRUPDQFHVGXPRGqOHOLQpDLUH
Nous avons tracé sur la figure ci-dessous, l'histogramme des résidus (écarts entre les
concentrations maximales journalières et la prédiction fournie par le modèle) calculés sur le jeu
d'identification. On constate que la densité de probabilité de ces résidus est assimilable à une loi
normale. Sa moyenne est quasiment nulle (elle est de 0.0755) et sa dispersion est égale à 16.50.
Cette loi de distribution est représentée en trait grisé sur la figure IV-7.
20
Pourcentage (%)
15
10
0
-60 -40 -20 0 20 40 60
Erreurs de prédiction
Figure IV-7 : Histogramme des erreurs de prédiction calculées sur les données
d'identification
Pour tester la blancheur des erreurs de prédiction, nous avons réalisé des tests statistiques
des résidus (fonction d'autocorrélation, fonctions d'intercorrélation). Les résultats de ces tests de
corrélation sont décrits sur les figures IV-8. On constate la validité du modèle car les fonctions
d'intercorrélation et d'auocorrélation sont dans l'intervalle de confiance à 95%.
CRAN-INPL Page 161

rε ε rε ∆T
1 0.2
0.5
0
0
-0.5 -0.2
0 5 10 15 20 25 30 -30 -20 -10 0 10 20 30
rε HR rε Tmax

0.2 moy
0.2
0 0
-0.2 -0.2
-30 -20 -10 0 10 20 30 -30 -20 -10 0 10 20 30
rε V
moy
0.2
-0.2
-30 -20 -10 0 10 20 30
Figure IV-8 : Tests statistiques des résidus issus du modèle linéaire de prévision
Les courbes suivantes (figure IV-9) montrent les performances du modèle sur les données
des années 1995 à 1999. Rappelons que les années 1995 à 1997 ont servi à l'estimation des
paramètres du modèle alors que celles de 1998 ont été utilisées pour identifier la structure du
modèle. L'année 1999 a servi d'année de test du modèle.
Mesures et prévisions sur été 1995

160 Mesures
Concentration en µg/m3
150 Prévisions
100
50
20 40 60 80 100 120 140 160 180

Temps en jour
Page 162 CRAN-INPL

Mesures
160
3
Concentration en µg/m 140
Prévisions
120
100
80
60
40
20 40 60 80 100 120 140 160 180

Temps en jour
160 Mesures
3
Concentration en µg/m
Prévisions
150
100
50
20 40 60 80 100 120 140 160 180

Temps en jour
Journée du 12 août 1998 Mesures

3
200 160
Prévisions
150
100
50
20 40 60 80 100 120 140 160 180

Temps en jour
Mesures
140
Prévisions
120
3
100
80
60
40
20
0 20 40 60 80 100 120 140 160 180
Temps en jour
Figure IV-9 : Comparaisons des concentrations maximales d'ozone avec les prévisions
fournies par le modèle linéaire sur les années 1995 à 1999
CRAN-INPL Page 163

Sur les figures ci-dessous, nous avons tracé l'histogramme des erreurs de prédiction pour
chacune des cinq années.
Histogramme deserreurs de prédiction (1995) Histogrammedes erreursdeprédiction(1996)

15 25
20
10
Pourcentage(%)
Pourcentage(%)
15
10
5
5
0 0
-50 -40 -30 -20 -10 0 10 20 30 40 -60 -50 -40 -30 -20 -10 0 10 20 30 40 50
Histogrammedes erreurs de prédiction (1997) Histogramme des erreurs de prédiction (1998)
25 25
20 20
Pourcentage (%)
Pourcentage(%)
15 15
10 10
5 5
0 0
-60 -40 -20 0 20 40 60 -40 -20 0 20 40 60 80
Erreurs de prédiction Erreurs de prédiction
Histogramme des erreurs de prédiction(1999)
15
Pourcentage(%)
10
0
-40 -30 -20 -10 0 10 20 30
Figure IV-10 : Histogramme des erreurs de prévision pour les années 1995 à 1999
Le tableau IV-4 donne une vue synthétique des indices de performance du modèle de
prévision linéaire. Dans la section suivante, nous passons à la phase d'analyse et de
commentaires de ces résultats.
Page 164 CRAN-INPL

1995 1996 1997 1998 1999
Biais (µg/m3) -1.87 1.65 0.43 0.85 -6.65
Erreur moyenne absolue (µg/m3) 12.83 11.92 14.10 11.13 11.36
Ecart-type (µg/m3) 15.68 15.12 18.39 15.24 12.20
Critère quadratique moyen 248.10 230.23 336.79 231.96 192.50
Tableau IV-4 : Récapitulation des indices de performance du modèle de prévision linéaire

sur les années 1995 à 1999.
,9$QDO\VHHWFRPPHQWDLUHVGHVUpVXOWDWV
Globalement, le modèle obtenu fournit des résultats satisfaisants. En effet, les erreurs de
prévision sont majoritairement comprises entre –20 et 20 µg/m3 (environ 80% des erreurs)
comme l'illustrent l'histogramme de la figure IV-7. Les erreurs moyennes absolues du modèle sur
les années 1995 à 1999 (respectivement 12.83 µg/m3, 11.92 µg/m3, 14.10 µg/m3, 11.13 µg/m3 et
11.36 µg/m3) sont acceptables au vu de la précision sur les capteurs de mesure de la
concentration d'ozone, précision qui est de l'ordre de 15% de la valeur délivrée, dans des
conditions expérimentales. Hormis l'année 1997, l'écart-type des erreurs de prévision sur les 4
premières années est de l'ordre de 15 µg/m3. L'écart-type des erreurs de prévision pour l'année de
test (1999) est encore plus faible car elle est de 12.20 µg/m3. Ces résultats sont satisfaisants si on
les compare avec les valeurs rencontrées dans la littérature, par exemple [Peton, 1999], [Hubbard
et Cobourn, 1998], qui sont souvent de 1.2 à 2 fois plus importantes que les valeurs présentées
dans le tableau IV-4.
En examinant les courbes de la figure IV-9, on constate que le modèle donne des
estimations satisfaisantes des maxima journaliers d'ozone inférieurs à 160 µg/m3. Par ailleurs, on
peut remarquer qu'une moins bonne approximation est obtenue sur l'année 1997
comparativement aux autres années. On s'en aperçoit également en consultant le tableau IV-4.
Ceci peut être lié à des niveaux de NOx inhabituels élevés enregistrés sur 1997. Sur la courbe de
l'année 1995, on constate que le modèle surestime légèrement les faibles valeurs d'ozone situées
à la fin de la période estivale. Ceci explique le biais négatif pour cette année. Au titre d'autres
insuffisances du modèle, on peut signaler que le modèle arrive difficilement à estimer les
niveaux d’ozone supérieurs à 180 µg/m3. Ceci peut s’expliquer par la rareté des journées où l'on
a enregistré des dépassements du seuil de 180 µg/m3 (13 jours, soit 1.78 % des valeurs) mais
aussi par le fait que 50% des valeurs sont inférieures ou égales à 100 µg/m3 et 67% des valeurs
sont inférieures au seuil d'information (seuil à 110 µg/m3). Le modèle étant établi principalement
sur ces valeurs faibles, il fournit des sous-estimations pour les valeurs élevées. Remarquons que
sur l'année 1999, le problème de sous-estimation des niveaux élevés d'ozone ne se pose pas car
CRAN-INPL Page 165

sur cette année, il n'y a pas eu de niveaux d'ozone supérieurs à 150 µg/m3. Par contre, le modèle
produit quelques surestimations (certaines sont encerclées sur le graphique de la figure IV-9
relatif à 1999) des niveaux moyens. Elles se traduisent par une valeur du biais (moyenne des
erreurs de prévisions) de -6.65 µg/m3, ce qui est relativement important comparativement au
biais sur les autres années.
Certains écarts entre le modèle et la valeur maximale d'ozone mesurée s'expliquent par le
problème de codification évoqué dans le paragraphe IV.4.1.2.1 (voir figure IV-5-b). En effet
pour cette journée particulière, on constate que la valeur prédite est de 148.70 µg/m3 alors que la
valeur maximale moyenne est de 187 µg/m3 soit une erreur de 38.29 µg/m3. Mais si on considère
la valeur maximale moyenne du plateau observé l'après-midi, qui est de 169.5 µg/m3, l'erreur
diminue à 20.79 µg/m3.
Pour remédier au problème de sous-estimation lié au faible nombre de valeurs élevées

d'ozone, des essais ont été réalisés en identifiant un modèle linéaire pour les valeurs élevées.
Mais les résultats obtenus n'ont pas été très probants.
La difficulté de prédire correctement ces journées ne serait-elle pas liée à des

phénomènes de transport de masse d'air déjà fortement chargée ? En effet, lorsqu'on compare la
journée du 12 août 1998 (encerclée sur la figure IV-9) aux journées précédentes, les conditions
météorologiques étaient moins favorables et pourtant le niveau d'ozone constaté est nettement
plus élevé. Ce phénomène peut être lié au transport : il est alors difficilement quantifiable dans le
modèle à moins de disposer d'une cartographie de déplacement des masses d'air. Cette
cartographie permettrait de déterminer le trajet de la masse d'air arrivant sur la région
nancéienne ; on pourrait alors intégrer dans le modèle, des informations relatives au niveau de
pollution sur les stations se trouvant sur le trajet. C'est une perspective possible pour
l'amélioration du modèle de prévision.
,97HVWGXPRGqOHGDQVOHVFRQGLWLRQVUpHOOHVG
H[SORLWDWLRQ
Les validations du modèle que nous venons de présenter sont réalisées uniquement avec
les mesures d'AIRLOR. Comme le modèle dépend des paramètres météorologiques du jour J+1,
les prévisions qui sont ainsi calculées peuvent être qualifiées de prévisions a posteriori au sens
où elles sont évaluées alors qu'on dispose déjà des mesures de concentration d'ozone du jour J+1.
C'est donc un cas idéal qui ne correspond pas aux conditions réelles d'utilisation du modèle. Or,
le modèle pour être opérationnel au jour J, fait appel à des variables du jour J+1 qui ne sont
disponibles qu'à travers les prévisions de Météo-France. Nous appelons ce test grandeur nature,
test a priori. Il a été réalisé sur des données du site de Brabois durant la période du 18 juillet au
29 septembre 1999. Précisons que Météo-France fournit les prévisions de la vitesse du vent sous
forme de classe avec des bornes inférieure et supérieure. Il a fallu donc générer un intervalle du
taux d'ozone dont les bornes correspondent à celles de la classe de vent prédite.
Page 166 CRAN-INPL

Les performances obtenues sont consignées dans le tableau IV-5 et sont comparées avec
celles qu'on obtient en utilisant les mesures d'AIRLOR (prédiction a posteriori) durant la même
période du 18 juillet au 29 septembre 1999. L'examen de ce tableau révèle que les performances
du modèle sont mauvaises dans les conditions réelles d'exploitation. La valeur prévue de la
concentration d'ozone calculée à partir des prévisions de Météo-France surestime fortement la
concentration maximale journalière. Pour preuve, le biais qui est de -29.78 µg/m3 contre -6.65
µg/m3 dans le cas de la prédiction calculée en utilisant les mesures des paramètres
météorologiques du jour effectuées sur la station de Brabois. L'écart-type et l'erreur moyenne
absolue des erreurs de prévision de la concentration d'ozone sont également détériorés.
Validation avec les prévisions de Validation avec les mesures

Météo-France d'AIRLOR
Biais (µg/m3) -29.78 -6.93
Erreur moyenne absolue (µg/m3) 30.72 10.78
Ecart-type (µg/m3) 19.22 11.47
Critère quadratique moyen 1257 178.02
Tableau IV-5 : Comparaison des performances de la prédiction a priori et de la prédiction

a posteriori (modèle linéaire)
La figure ci-dessous compare les concentrations maximales d'ozone observées sur la

station de Brabois avec la prédiction calculée respectivement avec les mesures réelles des
paramètres météorologiques et les prévisions fournies pas Météo-France. On constate le
désaccord qui existe entre les mesures et les prédictions du taux d'ozone obtenues dans ce
dernier cas.
160 Mesures Prédiction a priori

(borne max)
Prédiction
140 a posteriori Prédiction a priori
3
(borne min)
120
100
80
60
40
0 10 20 30 40 50 60 70 80
Temps en jour
Figure IV-11 : Tracé comparatif des concentrations maximales journalières d'ozone, de la

prédiction a posteriori et des prédictions a priori
CRAN-INPL Page 167

,9([SOLFDWLRQGXELDLVVXUODSUpGLFWLRQFDOFXOpHjSDUWLUGHVSUpYLVLRQVGH
0pWpR)UDQFH
Les écarts constatés sont à relier aux imprécisions sur les prévisions de Météo-France. A
titre d'exemple, considérons deux variables exogènes importantes intervenant dans le modèle : la
variation de température (différence des températures maximale et minimale prévues pour la
journée) et l'humidité. L'évolution des mesures réellement faites sur le site et des prévisions
fournies par Météo-France pour ces deux variables est représentée sur la figure IV-12. L'examen
de ces figures conduit aux conclusions suivantes :
• la variation de température est surestimée par Météo-France. L'erreur moyenne est évaluée
à -3.36°C,
• l'humidité est sous-estimée par Météo-France avec une erreur moyenne de 22.30%.
Moyenne des écarts mesures-prévision : -3.36°C Moyenne des écarts mesures-prévisions : 22.30%
20 100
Variation de température (°C)
15
Humidité relative (%)
80
10
60
5
40
0
Prévisions par Prévisions par
Mesures Mesures
Météo-France Météo-France
-5 20
0 20 40 60 80 0 20 40 60 80
Temps en jour Temps en jour
a- Variation de température b- Humidité
Figure IV-12 : Tracé comparatif de l'évolution de la variation de température ∆T et de

l'humidité relative HR mesurées et prédites par Météo-France
En utilisant les coefficients du modèle (voir tableau IV-3), on évalue que l'erreur
moyenne sur la prédiction de la concentration d'ozone due à ces deux variables (au vu des
erreurs moyennes commises par Météo-France) est égale à -23.67 µg/m3. Cette valeur est de
l'ordre de la différence entre les biais de la prédiction a priori (-29.78 µg/m3) et de la prédiction a
posteriori (-6.93 µg/m3). Le biais sur la prédiction a priori se justifie ainsi.
,9'HVVROXWLRQVSRXUDPpOLRUHUODTXDOLWpGHODSUpGLFWLRQFDOFXOpHjSDUWLU
GHVSUpYLVLRQVGH0pWpR)UDQFH
Le véritable problème qui se pose pour l'exploitation du modèle de prédiction élaboré est
la qualité des prévisions météorologiques communiquées par Météo-France. Le modèle étant
dépendant de ces prévisions, les incertitudes sur ces dernières affectent de facto la précision de la
Page 168 CRAN-INPL

prédiction de la concentration maximale d'ozone. Dans le cas étudié, ces incertitudes conduisent
à une surestimation des niveaux d'ozone. Pour éviter de déclencher de façon intempestive et
injustifiée des alertes pour des dépassements de seuils, quelques solutions peuvent être proposées
pour réduire la sensibilité du modèle par rapport aux incertitudes sur les prévisions de Météo-
France :
• La première solution consiste à relancer le modèle le matin du jour J+1. La mesure de la

température minimale étant disponible, on réduit l'incertitude sur la variation de
température. Dans le cas présent, en adoptant cette procédure, on réduit le biais de
4.5 µg/m3. Mais cette réduction est encore faible pour permettre l'obtention d'une
prédiction fiable de la concentration maximale d'ozone. Soulignons aussi qu'au matin du
jour J+1, les prévisions météorologiques sont réactualisées par Météo-France et devraient
être, nous l'espérons, plus précises.
• La deuxième solution consiste à réaliser une correction des prévisions fournies par Météo-
France. Pour cela, il faut disposer d'un historique de ces prévisions, les comparer avec les
mesures réelles et en déduire un modèle de correction.
• La troisième solution est une alternative à la deuxième. Si l'historique des prévisions de

Météo-France est disponible, il peut être intéressant de caler directement le modèle de
prévision de la concentration maximale d'ozone à partir des prévisions météorologiques et
non plus à partir des mesures réelles effectuées sur le site. Le problème qui se posera est le
changement des outils de prévision par Météo-France. Les prévisions de Météo-France
auront des propriétés statistiques variables, ce qui impose de modifier à chaque fois le
modèle de prévision de la concentration d'ozone.
Au moment de la rédaction du mémoire, seules les prévisions de Météo-France sur l'année

1999 étaient disponibles, ce qui ne permet pas d'expérimenter les deux dernières solutions. La
base de données sera étoffée par les prévisions de Météo-France sur l'été 2000. Dès lors, il sera
possible d'esquisser concrètement des solutions d'amélioration de la qualité des prévisions de
concentration d'ozone en conditions normales d'exploitation.
IV.4.2.2. Elaboration d'un modèle de prévision non-linéaire : utilisation de

l'approche multi-modèle
Pour améliorer les performances de la prévision de concentration maximale d'ozone dans

les conditions idéales (prévision a posteriori avec les mesures d'AIRLOR), nous avons envisagé
la recherche d'un modèle non-linéaire en utilisant l'approche multi-modèle.
La structure des modèles locaux est celle du modèle de prévision linéaire. Les variables
caractéristiques candidates sont les suivantes : ∆T(t+1), Tmax(t+1), Tmin(t+1), O3max(t),
HRmoy(t+1), Vmoy(t+1) et Raycumul(t+1). Toutes ces variables ont été normalisées de sorte que leur
intervalle de variation soit [0, 1].
CRAN-INPL Page 169

La procédure d'identification résumée par l'organigramme de la figure III-5 est appliquée

pour l'identification de la structure multi-modèle (cf. paragraphe III.2.4). Les paramètres du
multi-modèle sont optimisés en utilisant l'algorithme 1 (combinaison de l'optimisation des
paramètres des fonctions de validité par l'algorithme de Levenberg-Marquardt et de
l'optimisation des paramètres des modèles locaux par moindres carrés, voir paragraphe III.2.4).
Les données des années 1995 à 1997 ont servi de jeu d'identification, l'année 1998 constituant le
jeu de validation.
Les résultats de la procédure de recherche sont consignés dans le tableau IV-6. La

meilleure structure multi-modèle identifiée comporte deux modèles locaux avec deux partitions
réalisées sur le support de la variation de température ∆T(t+1). La considération d'un nombre de
partitions plus important ou l'introduction dans la structure d'autres variables caractéristiques ne
contribue pas à améliorer le critère de validation.
Variables Nombre de Critère de Critère

caractéristiques partitions validation (Jtest) d'identification (Jg)
Modèle linéaire - 231.96 271.71
Tmax(t+1) 2 260.97 233.71
Tmin(t+1) 2 255.84 247.29
HRmoy(t+1) 2 221.93 249.71
∆T(t+1) 2 207.20 235.64
Raycumul(t+1) 2 238.59 246.53
Vmoy(t+1) 2 223.40 258.34
O3max(t) 2 232.41 248.05
∆T(t+1) 3 226.15 227.38
∆T(t+1), Tmax(t+1) 2, 2 362.92 213.76
∆T(t+1), Tmin(t+1) 2, 2 310.30 216.13
∆T(t+1), HRmoy(t+1) 2, 2 226.08 221.42
∆T(t+1), Raycumul(t+1) 2, 2 242.25 220.77
∆T(t+1), Vmoy(t+1) 2, 2 227.39 222.89
∆T(t+1), O3max(t) 2, 2 240.33 218.41
Tableau IV-6 : Récapitulation de la procédure d'identification du modèle de prévision non-

linéaire
Les paramètres de la structure multi-modèle identifiée sont regroupés dans le tableau ci-
dessous. Notons que ces valeurs correspondent aux variables normalisées.
Page 170 CRAN-INPL

a1 a2 b11 b21 b22 b31 b41 b0
Modèle local f1 0.3 0.076 0.091 -0.27 0.13 -0.056 0.018 0.22
Modèle local f2 0.5 0.034 0.17 -0.079 -0.005 0.05 -0.103 0.17
Tableau IV-7 : Paramètres du multi-modèle
La figure suivante décrit la position des fonctions d'activation de ces modèles locaux.
0.5
ω1 ω2
0
0 0.5 1
Figure IV-13 : Fonctions d'activation des modèles locaux du multi-modèle
Pour des valeurs élevées de la variation de température ∆T (modèle local f2), on constate
que les coefficients b21 et b22 affectés à l'humidité relative ont une valeur faible en particulier b22.
Ceci pourrait s'interpréter ainsi : par temps sec c'est-à-dire en période favorable à l'obtention de
niveau relativement fort d'ozone, l'humidité a une faible contribution à l'explication du
phénomène. Si par temps sec, la vitesse du vent est forte, on assiste à une diminution du taux
d'ozone car le coefficient b41 du modèle f2 est négatif. Par contre, pour des valeurs faibles de ∆T
(modèle local f1), la vitesse du vent a une influence moindre car son coefficient est petit (0.018).
Dans le modèle local f1, l'humidité tient un rôle d'indicateur de l'évolution du temps (comme
dans le modèle de prévision linéaire) puisque les coefficients b21 et b22 sont plus significatifs que
b11 et y interviennent avec des signes opposés.
,90HVXUHVGHVSHUIRUPDQFHVGXPXOWLPRGqOHHQSUpYLVLRQSDUIDLWH
SUpYLVLRQDSRVWHULRULUpDOLVpHDYHFOHVPHVXUHVG
$,5/25
De façon similaire au modèle de prévision linéaire, nous évaluons les performances du

modèle de prévision non-linéaire en termes de biais, d'erreur moyenne absolue, d'écart-type et de
critère quadratique moyen. Pour faciliter les comparaisons, nous présentons les indices de
performances sous la forme du tableau IV-8.
Le rapprochement des résultats de ce tableau avec ceux du tableau IV-4 révèle que
globalement, le modèle non-linéaire de prévision a des performances supérieures. Les critères
quadratiques moyens ont baissé de même que les écarts-types et les erreurs moyennes absolues.
Le biais sur les prévisions de l'année 1999 a diminué notablement. Par contre, les biais sur les
années 1995 à 1998 ont augmenté.
CRAN-INPL Page 171

1995 1996 1997 1998 1999
Biais (µg/m3) -2.87 2.87 2.09 1.74 -5.12
Erreur moyenne absolue (µg/m3) 11.38 11.32 13.6 10.39 9.86
Ecart-type (µg/m3) 13.87 14.48 17.71 14.32 11.39
Critère quadratique moyen 199.82 216.97 316.47 207.2 155.33
Tableau IV-8 : Récapitulation des indices de performance du modèle non-linéaire de

prévision sur les années 1995 à 1999.
La conclusion à tirer est que l'utilisation d'un modèle de prévision non-linéaire contribue
à améliorer la qualité des prévisions de concentration maximale d'ozone. Toutefois, les
performances ne sont pas améliorées de façon drastique par rapport au modèle linéaire.
L'explication réside sans doute dans les difficultés à discriminer dans la base de données, les
conditions particulières sous-tendant l'obtention des différents niveaux d'ozone. En particulier,
pour les journées à forts niveaux d'ozone ( > 160 µg/m3), un examen minutieux a montré que les
paramètres météorologiques et les niveaux des polluants primaires sur ces journées ne diffèrent
pas énormément des mêmes grandeurs des journées à niveaux d'ozone plus faibles. Dans ces
conditions, il faut s'interroger sur la pertinence des informations actuelles contenues dans la base
de données. On peut donc émettre l'hypothèse que certains phénomènes comme le transport de
masse d'air, les échanges de matière entre la troposphère et la stratosphère, … qui ne sont pas
mesurés actuellement dans les réseaux pourraient apporter des éléments discriminants pour
mieux caractériser l'évolution de la concentration maximale d'ozone.
,9 3HUIRUPDQFHVGXPXOWLPRGqOHHQSUpYLVLRQQRUPDOHSUpYLVLRQDSULRUL

UpDOLVpHDYHFOHVSUpYLVLRQVGH0pWpR)UDQFH
La période de test va du 18 juillet au 29 septembre 1999. Les performances sont exposées

dans le tableau IV-9 ci-dessous dans lequel nous rappelons celles obtenues avec le modèle de
prévision linéaire.
Manifestement, le multi-modèle réduit l'ampleur du problème de surestimation de la

concentration maximale d'ozone puisque le biais passe de –29.78 µg/m3 à –19.83 µg/m3 dans le
cas du modèle de prévision linéaire. L'erreur moyenne absolue a également baissé alors que les
écarts-types sont semblables. La figure IV-14 compare les relevés de la concentration maximale
d'ozone avec les prévisions a priori et a posteriori. On constate que l'erreur résiduelle due aux
incertitudes sur les prévisions de Météo-France demeure encore importante.
Page 172 CRAN-INPL

Validation avec les prévisions de Validation avec les mesures

Météo-France d'AIRLOR
Modèle linéaire Multi-modèle Modèle linéaire Multi-modèle
Biais (µg/m3) -29.78 -19.83 -6.93 -5.91
Erreur moyenne absolue (µg/m3) 30.72 23.49 10.78 10.26
Ecart-type (µg/m3) 19.22 19.64 11.47 11.72
Critère quadratique moyen 1257 774.15 178.02 170.6
Tableau IV-9 : Comparaison des performances de la prédiction a priori et de la prédiction

a posteriori (multi-modèle et modèle linéaire)
160
Mesures Prédiction a priori
Prédiction a posteriori (borne max)
140
Prédiction a priori
120 (borne min)
3
100
80
60
40
20
0 10 20 30 40 50 60 70 80
Temps en jour
Figure IV-14 : Comparaison des concentrations maximales journalières d'ozone, de la

prédiction a posteriori et des prédictions a priori (multi-modèle)
Avant de passer aux conclusions sur les modèles de prévision, nous présentons la
deuxième partie du cahier de charge qui porte sur l'élaboration de modèles d'explication de la
concentration d'ozone à court terme.
IV.5. MODELE A COURT TERME

Les enjeux d'un modèle à court-terme ont été discutés en introduction de ce chapitre. Il
s'agit essentiellement d'établir un modèle de simulation afin de pourvoir au remplacement des
données manquantes s'il y a lieu, d'anticiper sur un intervalle de temps court des éventuels
dépassements de seuil. Certes, il existe des modèles mathématiques basés sur les mécanismes
décrits dans la section IV.2.1. Mais ces modèles sont d'une utilisation assez lourde et nécessitent
CRAN-INPL Page 173

des mesures de polluants primaires et de paramètres météorologiques indisponibles à l'heure

actuelle dans les réseaux AIRLOR et AERFOM. Après une brève présentation de ces modèles
physiques, nous enchaînons sur les raisons du choix d'un modèle de type boîte noire. Les
résultats obtenus par l'approche multi-modèle sont présentés.
IV.5.1. MODELES MATHEMATIQUES EXISTANTS
Ce sont des modèles physiques basés sur les lois de la chimie atmosphérique et sur les
mécanismes gouvernant les mouvements de l'atmosphère. Ces modèles sont évidemment non-
linéaires et essaient de décrire les processus physiques et chimiques d'une part, et de traduire
l'interaction étroite qui existe entre eux de l'autre. On distingue deux principaux types de
modèles physiques [Académie, 1993] :
_ Modèles eulériens (modèles à grille)

Ils consistent à réaliser un maillage de la zone géographique concernée. A des intervalles
de temps choisis, la concentration des polluants est calculée dans chaque compartiment de la
grille à partir de la résolution d'équations chimiques. Les échanges entre les éléments de la grille
sont ensuite évalués. L'avantage des modèles eulériens est la description de la distribution spatio-
temporelle des polluants dans la zone étudiée. Ils permettent aussi de prendre en compte la
structure du relief, l'influence des sources d'émission fixes et mobiles [Académie, 1993]. Les
données d'entrée des modules chimiques sont les émissions de polluants. Malheureusement,
l'inventaire des émissions est difficile à réaliser ; les concentrations sont souvent des moyennes
calculées sur la zone couverte par un compartiment de la grille ou des estimations liées au trafic
automobile par exemple. De plus, les espèces chimiques répertoriées dans l'atmosphère sont très
nombreuses, près de 500, et ne peuvent donc pas toutes être insérées dans les modules chimiques
soit parce qu'elles ne sont pas mesurées pour la plupart, soit parce que la simulation des modules
chimiques nécessiterait des puissances de calcul phénoménales. Pour ces raisons, les modules
chimiques limitent le nombre des espèces en les regroupant par classes basées sur leurs fonctions
chimiques. La précision du résultat final dépend alors de la finesse du maillage, des
approximations faites sur les concentrations des polluants, de la qualité des regroupements
effectués, de la qualité des connaissances disponibles sur les mouvements de l'atmosphère dans
la zone.
_ Modèles langragiens
Dans le modèle eulérien, le maillage réalisé est fixe dans l'espace. Les modèles
lagrangiens, par contre, sont des modèles de trajectoire qui décrivent l'évolution d'une colonne
d'air cylindrique transportée par le vent, limitée à sa base par le sol et au sommet par la limite
supérieure de la couche de mélange (voir figure IV-3). Initialement, la colonne contient une
quantité d'ozone et de précurseurs (NOx, COV). Au cours du temps, elle se charge de polluants
provenant des sources situées sur sa trajectoire. La colonne subit alors une double évolution :
Page 174 CRAN-INPL

• chimique d'une part : modification de la cinétique des réactions en fonction du niveau de

rayonnement et de la température,
• physique de l'autre : déplacement de la masse d'air au gré de la direction principale du

vent, variation de la hauteur de la couche de mélange, ce qui implique l'entrée des
polluants de la couche intermédiaire dans la colonne ainsi que l'entrée des émissions des
sources se trouvant sur la trajectoire de la colonne. Ce type de modèles permet la prise en
compte des phénomènes de transport.
Ces modèles physiques nécessitent la mesure de variables comme les COV qui ne sont
pas disponibles à l'heure actuelle dans les réseaux AIRLOR et AERFOM. Dans le cas d'un
modèle lagrangien, il faut connaître la concentration des polluants et l'évolution des paramètres
météorologiques sur la trajectoire de la masse d'air ; il faut aussi disposer des mesures de
l'évolution de la hauteur de la couche de mélange et des concentrations de polluants en altitude.
Les stations de mesure étant principalement des stations fixes, l'emploi du modèle lagrangien
implique l'utilisation d'unités de mesures mobiles. Ces stations ne relèvent pas non plus des
données en altitude pouvant alimenter ce modèle physique. Les modules physiques et chimiques
exigent la connaissance des constantes de réaction, de leur loi d'évolution, les constantes
d'advection verticale et de diffusion qui varient suivant les conditions météorologiques locales,
la latitude et la longitude du site (ce qui enlève à ces modèles physiques un caractère général). A
cause de l'indisponibilité de tous ces éléments, nous avons opté pour une modélisation de type
boîte noire à partir des mesures contenues dans la base de données AIRLOR.
IV.5.2. DESCRIPTION DE L'EVOLUTION HORAIRE DE LA CONCENTRATION

D'OZONE EN UTILISANT UNE APPROCHE MULTI-MODELE
Comme pour les modèles de prévision, la période d'étude s'étend du 1er Avril au 30
Septembre des années 1995 à 1998. Mais contrairement aux modèles de prévision, la recherche a
porté sur des journées pour lesquelles la moyenne horaire maximale dépasse le seuil
d'information fixé à 110µg/m3. Cette restriction permet de focaliser principalement sur les
journées à niveaux moyens ou élevés d'ozone.
Pour la modélisation, les données quart-horaires ont été moyennées au pas de temps de
l'heure. Six variables explicatives sont considérées : le NO, le NO2, la température (T), l'humidité
relative (HR), le rayonnement (Ray) et la vitesse du vent (V). La problématique pour construire
le multi-modèle est de choisir parmi ces 6 variables, celles devant intervenir comme entrées des
modèles locaux et celles qui serviront de variables caractéristiques. La procédure d'identification
est décomposée suivant les deux étapes suivantes : recherche d'une structure initiale pour les
modèles locaux, choix des variables caractéristiques candidates et réalisation du découpage de
l'espace caractéristique.
CRAN-INPL Page 175

Le jeu de données d'identification est constitué par la concaténation de mesures réalisées

sur différentes journées consécutives en 1998, 1997 et 1995. Au total, il contient des données
relatives à 25 journées. Les données de validation sont aussi constituées par la concaténation des
mesures issues de différentes périodes de journées consécutives et portent au total sur 15
journées des années 1995 et 1998. Un troisième jeu de données n'ayant servi, ni à l'identification
des paramètres, ni à la recherche de structure est prévu pour tester les capacités de généralisation
du multi-modèle.
La structure des modèles locaux est celle du meilleur modèle linéaire ARX identifié. Ce
modèle a la forme suivante :
O3 t = a1O3 t − 1 + a2 O3 t − 2 + b11 Ray t − 1 + b21T t − 1 + b22 T t − 2

05 0 5 0 5 0 5 0 5 0 5 (IV-2)
+ b31V 0t − 25 + b V 0t − 35 + b NO 0t − 15
32 41 2
Il comprend 4 variables d'entrées : NO2, température (T), rayonnement (Ray) et vitesse du

vent (V). Ces variables correspondent aux principaux facteurs physiques et chimiques
influençant le phénomène d'après l'analyse des paragraphes IV.2.2.2 et IV.3. La température et la
vitesse du vent ont un ordre nu=2, les autres variables ayant un ordre 1. Toutes les variables
d'entrée interviennent avec un retard nk=1 à l'exception de la vitesse du vent dont le retard est 2.
L'ordre de la partie auto-régressive est 2.
A cause du nombre relativement important de variables caractéristiques candidates (6

variables), la technique de partition k-d a été privilégiée. Le multi-modèle est identifié en erreur
d'équation mais validé en erreur de sortie. En effet, à l'itération v de la méthode, on envisage
l'ajout d'un nouveau modèle local par découpage d'une zone suivant un axe. Le point de
découpage et les paramètres de tous les modèles locaux sont estimés. Dans le calcul du critère
d'identification, les termes O3 t − k - k=1,2 – sont les mesures O3mes t − k et non les sorties
0 5 0 5
décalées du multi-modèle. Les paramètres des modèles locaux sont donc calculés par la formule
des moindres carrés régularisés pour les paramètres des fonctions de validité fixés. La structure
multi-modèle ainsi identifiée est ensuite simplifiée, par élimination de paramètres inutiles, puis
testée sur les données de validation. Le multi-modèle final étant destiné à être utilisé en
simulation, la validation consiste à comparer les mesures avec la sortie simulée du multi-modèle
(erreur de sortie) et non la sortie prédite (erreur d'équation). La structure multi-modèle retenue
est celle ayant fourni le meilleur critère de validation. La prochaine zone à découper correspond
à la zone d'erreur εi (équation III-56) maximale. Les erreurs εi sont calculées sur les données de
validation. La procédure est ainsi réitérée jusqu'à l'obtention du minimum du critère de
validation JSTRUC.
La figure IV-15 montre l'évolution du critère de validation JSTRUC en fonction du nombre

de modèles locaux. La structure sélectionnée comporte 5 zones car le minimum de JSTRUC est
atteint pour ce nombre de modèles locaux.
Page 176 CRAN-INPL

50
45
JSTRUC
40
35
30
1 2 3 4 5 6 7
Nombre de modèles locaux
Figure IV-15 : Evolution du critère de validation croisée en fonction du nombre de modèles

locaux
L'arbre correspondant au découpage de l'espace caractéristique au fil des itérations est

présenté sur la figure IV-16.
Axe découpé
Etape 1 = Température
Etape 2 =1 =2 Rayonnement
Etape 3 =2 =3 Vitesse du vent
Etape 4 =2 =4 Température
Etape 5 =4 =5
Figure IV-16 : Arbre de découpage illustrant les opérations effectuées à chaque étape de la
partition k-d
En examinant l'arbre de découpage, on constate qu'aucun découpage n'a été réalisé

suivant les axes définis par le NO, le NO2 et l'humidité. On en déduit que sur les données
utilisées, ces variables ne sont pas caractéristiques du comportement non-linéaire du phénomène.
Il en résulte une simplification de la structure du multi-modèle car on passe d'une structure à six
variables caractéristiques candidates à une structure à trois variables caractéristiques. Les
variables découpées (température, rayonnement et vitesse du vent) traduisent les principaux
facteurs météorologiques et confirment la prépondérance de ces facteurs dans le phénomène de
CRAN-INPL Page 177

pollution par l'ozone. Les phénomènes chimiques intervenant dans les mécanismes de production
et de destruction d'ozone sont représentés par la présence de la variable NO2 dans le multi-
modèle. Une interprétation physique plus approfondie du modèle est toutefois difficile. Les
paramètres du multi-modèle sont portés dans le tableau IV-10.
a1 a2 b11 b21 b22 b31 b32 b4
Modèle local f1 0.78 0 0.0986 0.56 -0.486 0 0 -0.049
Modèle local f2 0.905 0 0.334 0 0 0 0 0
Modèle local f3 1.332 -0.63 0 0 0 0.142 0 -0.103
Modèle local f4 0 0.847 0 0 0 0.632 -0.558 0
Modèle local f5 -0.076 0 0 0 0.632 -0.558 0 0
Tableau IV-10 : Paramètres du multi-modèle descriptif de la variation horaire du taux

d'ozone
Les performances du multi-modèle en simulation sur les données d'identification sont

décrites sur les courbes de la figure IV-17. En trait pointillé grisé apparaît l'estimation fournie
par le multi-modèle et en trait plein les mesures de la concentration d'ozone. L'abscisse de ces
courbes représente le temps en heure et l'ordonnée la concentration d'ozone en µg/m3. On
constate que le multi-modèle fournit une bonne estimation des niveaux diurnes d'ozone mais une
piètre approximation des niveaux nocturnes (niveaux faibles sur une journée). Mais cet écart, en
période nocturne, entre les mesures du taux d'ozone et la sortie simulée du multi-modèle n'est
pas en soi un problème car la préoccupation principale de la modélisation est de parvenir à
caractériser les niveaux élevés d'ozone en période diurne, ce qui est le cas de ce multi-modèle.
Les courbes de la figure IV-18 comparent les mesures de la concentration d'ozone et la

sortie simulée du multi-modèle. Cette comparaison est effectuée sur les données de validation
c'est-à-dire les données ayant servi lors de la recherche du nombre de modèles locaux. Les
constats précédents peuvent être faits dans ce cas aussi : bonne approximation des niveaux
diurnes d'ozone (qui sont d'une grande importance pour l'application) et approximation très
moyenne des niveaux nocturnes. On constate également quelques surestimations (encerclées sur
la figure IV-18) des niveaux maxima diurnes.
Page 178 CRAN-INPL

Année 1997 : 218 e jour au 230 e jour

200
M esures Sortie m ulti-modèle
3
C oncentration en µg/m 150
100
50
0
0 50 100 150 200 250 300 350
Tem ps en heure
e e
A n n é e 9 8 : 1 3 3 a u 1 3 9 jo u r
M e s u re s S o rtie m u lti- m o d è le
3
C o n c e n tra tio n e n µg /m
150
100
50
0
0 20 40 60 80 100 120 140 160 180
T e m p s e n h e u re
A n n é e 1 9 9 5 : 2 2 9 e a u 2 3 3 e jo u r
150 S o rtie m u lti-m o d èle
3
C o n c e n tra tio n e n µg /m
100
50
M esu res
0
0 20 40 60 80 100 120
T e m p s e n h e u re
Figure IV-17 : Performances du multi-modèle en simulation sur les données

d'identification
CRAN-INPL Page 179

Année 1995 : 122e jour au 128e jour

200
Mesures
Concentration en µg/m3
Sortie multi-modèle
150
100
50
0
0 20 40 60 80 100 120 140 160 180
Temps en heure
Année 1998 : 218e jour au 221e jour Année 1995 : 211e jour au 214e jour
200 200
Mesures Sortie multi-modèle
Mesures Sortie multi-modèle
150 150
100 100
50 50
0
0 20 40 60 80 100 0
0 20 40 60 80 100
Figure IV-18 : Performances du multi-modèle en simulation sur les données de

validation (données ayant servi à la recherche de structure)
Finalement pour éprouver les capacités de généralisation du multi-modèle élaboré, il est

testé en simulation sur des données n'ayant ni servi à l'identification, ni servi à la recherche du
nombre de modèle locaux. Les données utilisées pour ce test sont relatives à des journées
consécutives des années 1995 à 1998. Les courbes de comparaison sont tracées sur la figure IV-
19. On constate que le multi-modèle donne une bonne approximation des variations d'ozone en
période diurne mais aussi une approximation acceptable des niveaux nocturnes faibles. Ceci
montre les bonnes qualités de généralisation du modèle. On remarque néanmoins quelques
surestimations des niveaux maxima d'ozone comme dans les deux cas précédents. Ce problème
de surestimation est lié au choix délibéré d'un jeu d'identification où les journées considérées
ont, à quelques exceptions près, connu des niveaux d'ozone relativement élevés. Ce choix est
motivé par le fait que les réseaux désirent surtout prédire sur une période très courte, en
l'occurrence une heure, l'évolution de la concentration d'ozone en période de forte pollution.
Page 180 CRAN-INPL

Année 1995 :187 e jour au 191 e jour Année 1996 : 106 e jour au 110 e jour
200 150
Mesures Sortie multi-modèle Mesures Sortie multi-modèle
150
100
100
50
50
0 0
0 20 40 60 80 100 120 0 20 40 60 80 100 120
Année 1996 : 116e jour au 120e jour Année 1997 : 232 e jour au 237 e jour
200
150 Mesures Sortie multi-modèle Sortie
Mesures
multi-modèle
150
100
100
50
50
0 0
0 20 40 60 80 100 120 0 50 100 150
A nnée 1998 : 225 e jour au 232e jour

200
3
M esures Sortie m ulti-m odèle

C oncentration en µg/m
150
100
50
0
0 20 40 60 80 100 120 140 160 180 200
T em ps en heure
Figure IV-19 : Comparaison mesures et sortie simulée du multi-modèle sur des données de
test (données n'ayant servi ni à l'estimation des paramètres, ni à la recherche de structure)
IV.6. CONCLUSIONS
La première partie du cahier de charges des réseaux AIRLOR et AERFOM relative à la
prévision à échéance de 24h de la concentration maximale d'ozone a été traitée. Un modèle
linéaire a été identifié dans un premier temps. Ces performances (en termes d'erreur moyenne
absolue et d'écart-type) sont satisfaisantes en comparaison avec les valeurs rencontrées dans la
littérature. Un modèle non-linéaire a été ensuite construit sur la base de l'approche multi-modèle
afin d'améliorer la qualité de la prévision. Le multi-modèle identifié comporte deux modèles
CRAN-INPL Page 181

locaux. Ses performances sont légèrement supérieures à celles du modèle linéaire. Il n'a pas été
possible de trouver un modèle plus performant pour quelques raisons que voici :
• La relative faiblesse du nombre d'années d'archivage des données. Le site pilote de Brabois
étudié n'a que 6 années (l'année 2000 incluse) d'archivage de données, ce qui est faible
comparativement à une ville comme Paris dont les sites les plus anciens sont opérationnels
depuis le début des années 1980. Il n'existe donc pas un historique très ancien du
phénomène. De plus, sur les 4 années utilisées pour (3 années pour l'identification des
modèles et 1 pour leur validation), les journées à fort niveau d'ozone sont peu nombreux
(1,8% des journées ont enregistré un taux d'ozone supérieur à 180 µg/m3). Les modèles de
prévision élaborés sur des valeurs faibles d'ozone ont tendance à sous-estimer ces fortes
valeurs.
• Difficultés de discriminer, au vu des variables actuelles dans la base de données, des
conditions suffisantes pour l'observation des différents niveaux d'ozone. Il se pose donc un
problème de pertinence des informations portées par ces variables. En particulier, il est
difficile pour l'heure de quantifier des apports d'ozone liés au déplacement des masses d'air
ou au recyclage du smog âgé dans la couche de mélange. En l'absence de mesures en
altitude ou d'une carte de déplacement des masses d'air et de la composition de ces masses
d'air, il est impossible de prévoir ces situations.
Compte tenu de la première remarque, il est nécessaire de procéder chaque année à une
actualisation du modèle. Cette démarche doit être systématisée de façon à enrichir le modèle par
les informations relevées durant l'année précédente. L'amélioration de la qualité de la prévision a
posteriori passe également par une analyse fine des journées où des erreurs de prévision
importantes ont été constatées. L'objectif est de déduire les causes de ces erreurs afin de les
prendre en compte dans la réactualisation du modèle de prévision. Une amélioration des modèles
passe également par une prise en compte des phénomènes de transport : une perspective
intéressante serait d'inclure dans le modèle, les concentrations d'ozone observées sur les sites
situés sur le trajet de la masse d'air arrivant dans la région lorraine.
Les constats et les propositions que nous venons de faire sont relatifs au modèle de
prévision utilisé dans des conditions que nous qualifierons de parfaites ou d'a posteriori car les
prévisions ainsi calculées le sont à un moment où la mesure d'ozone du jour est disponible. Les
modèles de prévision linéaire on non-linéaire étant fonction des paramètres météorologiques du
jour J+1, il est nécessaire pour réaliser la prévision à échéance de 24h de faire usage des
prévisions faites par Météo-France. Les incertitudes qui les entachent affectent la prévision de la
concentration d'ozone lorsque les modèles de prévision sont utilisés dans les conditions
d'exploitation envisagées par les réseaux AIRLOR et AERFOM. Ceci se traduit par une
surestimation des niveaux d'ozone et peut conduire au déclenchement de fausses alertes. Les
propositions pour remédier à ce problème ont été discutées dans le paragraphe IV.4.2.1.5. Leur
mise en œuvre nécessite qu'un historique plus ancien des prévisions de Météo-France soit
Page 182 CRAN-INPL

disponible. Ces points constituent des perspectives pour le développement des modèles de
prévision.
Il est indispensable de proposer un intervalle de confiance pour les prévisions des

niveaux d'ozone. Ceci nécessite une collaboration des réseaux avec Météo-France afin d'obtenir
les incertitudes sur les prévisions météorologiques.
La deuxième partie du cahier de charge a porté sur l'élaboration d'un modèle de

description des variations horaires du taux d'ozone. Le modèle identifié comporte cinq modèles
locaux et a donné des résultats globalement satisfaisants en généralisation (plus satisfaisants que
les résultats des modèles eulériens et lagrangiens exposés dans la littérature).
Pendant un certain temps, le développement des modèles de description des variations

horaires ne constituait pas une priorité pour les réseaux de surveillance de la qualité de l'air (les
modèles de prévision représentent la vraie priorité). Mais actuellement, leur utilité pourrait se
révéler en période de crise. Si des développements futurs sont envisagés, quelques propositions
peuvent être faites afin d'améliorer la qualité d'approximation du modèle.
Plutôt que de déterminer un modèle caractérisant le taux d'ozone sur toute la journée
(jour et nuit), il serait plus intéressant de focaliser sur le développement du phénomène entre le
lever du jour et l'après-midi. On évite ainsi la modélisation des phénomènes nocturnes qui ne
présentent pas un réel intérêt pour les réseaux. Ceci pourra s'effectuer en affectant une
pondération nulle aux mesures de la période nocturne dans le critère d'identification.
Une autre perspective d'amélioration est la prise en compte du caractère spatial du

phénomène c'est-à-dire l'intégration d'informations relatives aux sites se trouvant sur le trajet de
la masse d'air.
De façon similaire au modèle de prévision, il est nécessaire de fournir un intervalle de

confiance des taux d'ozone prévus par le modèle à court terme. Le problème est plus simple car il
suffit de connaître la variance des paramètres du modèle et les incertitudes sur les mesures
délivrées par les capteurs.
CRAN-INPL Page 183

+8%10%.75+10)'0'4#.''6
2'452'%6+8'5
CRAN-INPL Page 185

Que ce soit pour la simulation, la commande ou le diagnostic de fonctionnement d'un

système, l'établissement d'un modèle du système est un passage obligatoire. Dans ce mémoire,
notre intérêt s'est porté sur l'identification des systèmes dynamiques non-linéaires en utilisant
l'approche multi-modèle. Le principe de l'approche est la définition du modèle global du système
comme la combinaison de modèles valables dans certaines zones de fonctionnement du système.
Nos contributions à la résolution de ce problème ont concerné l'estimation des paramètres du
multi-modèle et la recherche de sa structure optimale. Ces développements ont été appliqués sur
un problème de prévision de la concentration d'ozone en milieu urbain.
Sur le plan théorique, après une présentation détaillée du concept de multi-modèle,

l'optimisation d'un multi-modèle à travers une partition grille a été traitée. Le principe de la grille
est la décomposition de l'espace caractéristique (ou espace de fonctionnement) du système sous
la forme d'un maillage régulier. Les zones de fonctionnement résultent de la combinaison de
partitions individuelles définies sur le support des variables caractéristiques.
Dans ce mémoire, les fonctions de validité individuelles associées aux partitions d'une
variable sont définies de sorte à satisfaire la contrainte de partition unité. De plus, afin d'assurer
que ces fonctions de validité sont distinctes et qu'elles demeurent sur le support de la variable
après optimisation paramétrique, une paramétrisation particulière consistant à "chaîner" leurs
paramètres est adoptée. L'estimation des paramètres des fonctions de validité et ceux des
modèles locaux est réalisée par des algorithmes à deux niveaux qui alternent entre l'estimation
des paramètres des modèles locaux et ceux des fonctions de validité. Les algorithmes ont été
développés pour des critères d'identification à erreur d'équation et à erreur de sortie. Afin d'éviter
des problèmes numériques, des techniques de régularisation ont été appliquées.
Au titre de l'identification structurelle, les modèles locaux sont supposés avoir

initialement la même structure (entrées, ordres et retards identiques). Cette structure est connue
soit à travers les connaissances a priori sur le système, soit par identification du meilleur modèle
linéaire sur les données expérimentales. A la fin de la phase d'estimation paramétrique, il est
possible que des modèles locaux comprennent des paramètres superflus. Ceci s'explique par le
choix d'une structure identique pour tous les modèles locaux alors qu'il est probant que certaines
variables d'entrée auront des degrés d'explication du comportement du système forts différents
d'une zone de fonctionnement à l'autre. Une forme générale de technique d'élimination de ces
paramètres inutiles a été proposée : elle s'applique aussi bien pour un critère d'identification à
erreur d'équation que pour un critère à erreur de sortie. La détermination des variables
caractéristiques des non-linéarités du système et la détermination du nombre de partitions sur le
support de ces variables sont conduites à travers une méthode de recherche heuristique. Ces
différents points ont été intégrés dans une procédure générale, fournissant ainsi à l'utilisateur un
outil d'identification d'un multi-modèle à travers une partition grille.
L'inconvénient de la partition grille est le nombre prohibitif de modèles locaux générés

lorsque la dimension de l'espace caractéristique est élevée et/ou le nombre de partitions par
Page 186 CRAN-INPL

Conclusion générale et perpectives
variable est important. Il en résulte des zones vides de données qui provoquent des problèmes de
conditionnement lors de l'estimation paramétrique. Des zones redondantes (zones voisines
pouvant décrire des comportements identiques du système et arbitrairement séparées par la
grille) peuvent également apparaître. Une technique d'élimination des modèles associés aux
zones vides a été proposée. L'algorithme de fusion de modèles locaux voisins compatibles
développé par Boukhris et al. [2000] dans le cadre d'un critère à erreur d'équation a été étendu à
un critère à erreur de sortie. Ces deux techniques ont été ensuite combinées dans une procédure
qui, à partir d'une partition grille, réduit progressivement le nombre de modèles locaux par
élimination et fusion de modèles locaux. La procédure introduit une originalité : elle permet de
construire des zones de fonctionnement non nécessairement limitées à des orthotopes
contrairement à la partition grille ou à la partition k-d. Ceci réduit le nombre de modèles locaux.
Lorsque les variables caractéristiques possibles du système sont importantes (au delà de 5
ou 6), l'utilisation de la grille même avec les techniques de fusion et d'élimination de modèles
locaux devient très lourde. Une possibilité pour traiter ces systèmes multivariables consiste à
réaliser un découpage de l'espace caractéristique suivant un arbre de décision : c'est la partition
k-d. La structure multi-modèle est progressivement augmentée par ajouts successifs de nouveaux
modèles locaux. L'ajout est réalisé par le découpage en deux de la zone de fonctionnement où le
multi-modèle précédent approche mal le système. Notre contribution à cette méthode est la
définition d'une nouvelle paramétrisation permettant la détermination du point de découpage par
optimisation du critère d'identification. Une étape de simplification de la structure des modèles
locaux a été intégrée à la méthode de partition k-d afin d'identifier un modèle parcimonieux.
Mais la partition k-d a tendance à surestimer le nombre de modèles locaux du fait de
l'optimisation d'un seul paramètre (le point de découpage) pour le positionnement des zones de
fonctionnement à chaque ajout de nouveau modèle. Une perspective d'amélioration consisterait à
optimiser, à chaque découpage, tous les paramètres mis en jeu dans le multi-modèle. A la fin,
une fusion des modèles locaux peut intervenir afin de limiter le nombre de modèles locaux.
La dernière partie de ce mémoire a été consacrée à l'application de ces développements

théoriques à un problème d'élaboration de modèles de prévision des maxima quotidiens d'ozone
d'une part et d'explication des variations horaires de la concentration d'ozone de l'autre.
Un modèle linéaire de prévision a été élaboré puis amélioré en utilisant l'approche multi-
modèle. Pour délivrer une prévision le jour J+1, ces modèles font intervenir les conditions
météorologiques du jour J+1, les mesures de concentration d'ozone des jours J et J-1, l'humidité
et la température du jour J. Les performances (erreur moyenne absolue et écart-type de la
prédiction) de ces modèles sont satisfaisantes en comparaison aux valeurs rencontrées dans la
littérature. Mais ces modèles ont une tendance à sous-estimer les valeurs élevées du taux d'ozone
dont la prédiction est importante. Ces limites des modèles de prévision sont imputables à certains
facteurs comme le faible nombre d'années d'archivage des données, la rareté des journées ayant
connu de forts niveaux d'ozone, la non prise en compte de certains phénomènes (transport de
masse d'air, recyclage en basse atmosphère de l'ozone de la haute atmosphère) à cause de
CRAN-INPL Page 187

l'absence de certaines mesures. Ces constats sont valables lorsque les modèles sont utilisés a
posteriori c'est-à-dire avec les mesures des réseaux. Lorsqu'ils sont appliqués en condition
normale d'exploitation (prévision a priori faite avec les prévisions de Météo-France), ils donnent
de moins bons résultats. L'explication réside dans le fait que des incertitudes entachent les
prévisions de Météo-France ; elles affectent par conséquent la prévision de la concentration
d'ozone.
Le modèle descriptif des variations horaires de la concentration d'ozone a servi à illustrer

la partition k-d. Les résultats obtenus sont satisfaisants mais la validation du modèle a été faite
sur un nombre limité de journées. Sur certaines périodes, le modèle présente des différences
notables avec les mesures. Une analyse fine des causes de ces écarts reste à conduire.
Quelques perspectives peuvent être proposées au travail présenté dans ce mémoire.
Sur le plan théorique, nous avons traité les multi-modèles dont les modèles locaux sont
des modèles ARX ou à erreur de sortie. Une extension aux modèles ARMAX est envisageable :
l'estimation des paramètres des modèles locaux peut être réalisée par une méthode des moindres
carrés généralisés, ceux des fonctions de validité étant fixés.
Par rapport à des structures non-linéaires comme les réseaux de neurones, l'approche
multi-modèle présente l'avantage d'offrir un formalisme facilitant l'intégration d'informations a
priori sur le comportement dynamique ou statique du système dans certaines zones de
fonctionnement. Il serait intéressant d'étudier la prise en compte des connaissances a priori (par
des contraintes ou des pénalisations sur les paramètres) dans l'identification d'un multi-modèle.
Des ébauches de travaux sont récemment apparues dans la littérature [Abonyi et al., 2000-a et
2000-b] et mériteraient d'être approfondies.
Ce mémoire a été axé sur l'identification de systèmes MISO. Des extensions aux
systèmes MIMO peuvent être envisagées. Nous pensons en particulier à l'utilisation de la
représentation d'état. En effet, dans le cas des systèmes linéaires, le modèle d'état est la
représentation par excellence des systèmes à plusieurs sorties. Des études peuvent être menées
afin de transposer les méthodes des sous-espaces [Bastogne et al., 1998] à l'identification d'un
système MIMO décrit par un multi-modèle.
En ce qui concerne l'application, quelques propositions sont faites pour améliorer la

qualité des modèles de prévision en conditions normales d'exploitation. Elles passent
essentiellement par la réduction de la sensibilité des modèles par rapport aux prévisions fournies
par Météo-France. Une solution à moyen terme consiste à conserver les modèles de prévision
actuels et développer des outils de correction des prévisons de Météo-France en collaboration
avec cette dernière. D'autres améliorations peuvent être obtenues en intégrant dans les modèles
des informations relatives au déplacement des masses d'air (effet spatial). Une autre perspective
est la détermination de l'intervalle de confiance des prévisions d'ozone compte tenu des
incertitudes sur les prévisions de Météo-France.
Page 188 CRAN-INPL

#00':'5
CRAN-INPL Page 189

$$11(;($
Propriétés de la régularisation ridge
A.1. POSITION DU PROBLEME
Estimer le vecteur de paramètres θ du système d'équations Y = Φ θ en minimisant un critère

quadratique régularisé :
2
Jreg = Ys − Φ θ + λθ Tθ (A-1)
Objectif : Montrer les effets de la régularisation "ridge" en termes de réduction de la variance des
paramètres et d'augmentation du biais. A des fins de comparaison, nous exprimons d’abord les
caractéristiques de la solution du problème d’estimation des paramètres non régularisé (ce qui
correspond à λ = 0), puis du problème régularisé.
A.2. ESTIMATION DES PARAMETRES SANS REGULARISATION
Sans régularisation, l'estimation de θ est donnée par l’expression analytique :
θ = R −1Φ T Ys (A-2-a)
R = ΦT Φ (A-2-b)
L’écart quadratique entre le modèle et les observations est alors mesuré par le critère suivant :
2
J = Ys − Φ θ 3
= Ys T I − ΦR-1Φ T Ys 8 (A-3)
Si le bruit additif sur Ys est de moyenne nulle et de variance σ2I, et s'il est décorrelé avec la
matrice de régression, l’estimation θ a pour variance :
Var θ = σ 2 R −1
49 (A-4)
A.3. ESTIMATION DES PARAMETRES AVEC REGULARISATION
La solution régularisée du problème d'estimation s'écrit :
θ reg = R + λ I −1 Φ T Ys
0 5 (A-5)
Dans ce cas, l'écart quadratique entre le modèle et les observations est exprimé par :
2
J' = Ys − Φ θ reg
2
4 0
= Ys T I − Φ R + λI 5 −1
ΦT 9Y s (A-6)
De la même manière, en faisant l’hypothèse d’un bruit blanc, on montre que la variance des
paramètres estimés en appliquant la régularisation est fournie par l'expression :
Page 190 CRAN-INPL

Annexe A
4 9 0
Var θ reg = σ 2 R + λ I 5 R0R + λ I5
−1 −1
(A-7)
Pour illustrer le compromis biais/variance qu'induit la régularisation, on examine

l’influence du coefficient de régularisation sur la variation du critère quadratique et sur la
variation de la variance des paramètres.
A.4. CALCUL DE LA VARIATION DU CRITERE
Notons ∆J la différence entre les critères quadratiques J et J'. Elle s'exprime :

2
3
∆J = J − J ' = YsT I − ΦR-1Φ T Ys − YsT I − Φ R + λI 8 4 0 5 −1
ΦT 9Y s
En développant les calculs, on montre que la variation de critère se factorise sous la forme :
∆J = −YsT Φ R −1 − R + λI
J 0 5 −1
R R −1 − R + λI 0 5 LΦ Y
−1 T
s (A-8)
Propriété : Pour deux matrices A et B inversibles, on a l'égalité suivante :
0
A-1 − B −1 = A −1 B − A B −1. 5
En appliquant cette propriété, on exprime la différence de matrices :
0
R −1 − R + λI 5 −1
= λR −1 R + λI 0 5 −1
de laquelle on déduit l'expression analytique de la variation de critère :
∆J = − λ2 YsT Φ R −1 R + λI 0 5 −2
Φ T Ys (A-9)
Considérons la décomposition en valeurs singulières de la matrice d'information R :
R = VDV T D = diag ξ 12 . . . ξ 2nθ (A-10)
D est la matrice des valeurs propres de R (carré des valeurs singulières ξi de la matrice de
régression Φ) et V la matrice orthogonale des vecteurs propres. Sur la base de cette
décomposition l'expression de la variation de critère devient :
−λ 2 "#
∆J = YsT ΦVdiag
##V Φ Y
T T
2 s (A-11)
!ξ 3ξ + λ 8
2
i
2
i $
nθ ×1
Posons X = V T Φ T Ys 4X ∈ 9. La variation de critère prend la forme quadratique X T QX
avec Q une matrice diagonale définie non positive. La variation de critère ∆J est négative par
conséquent. Ceci confirme le fait que sur les données d'identification, la régularisation conduit à
une diminution de la précision du modèle. Ce constat est prévisible vu que le vecteur de
paramètre régularisé n'est pas optimal au sens des moindres carrés sur les données
d'identification. Les calculs précédemment menés ont pour objectif de quantifier la variation de
critère en fonction du paramètre de régularisation. Néanmoins, la régularisation permet d'obtenir
CRAN-INPL Page 191

des paramètres plus "fiables" et on peut s’en rendre compte en examinant l’influence de la
régularisation sur la variance des paramètres.
A.5. CALCUL DE LA VARIATION DE LA VARIANCE DES PARAMETRES
En utilisant toujours la décomposition en valeurs singulières, la variance des paramètres non

régularisés (voir équation (A-7)) s'écrit :
49 1 nθ
VVT
Var θ = σ 2 Vdiag 2 V T = σ 2 ∑ i 2i
"# (A-12)
ξi i =1 ξ i ! $
avec Vi le vecteur propre de la matrice R associé à la valeur propre ξ i2 .
De façon analogue, la variance des paramètres régularisés se met sous la forme :
4 9 5 D0D + λI5 V
Var θ reg = σ 2 V D + λI 0 −1 −1 T
ξ "# ξ 2 nθ 2
Var 4θ 9 = σ Vdiag
V =σ ∑
2 i T 2 i T
reg # VV 2 2 i i
(A-13)
!3 8 #$
ξ + λ 3 8
ξ + λ 2
i
i =1 2
i
Les valeurs propres de la matrice R étant positives, l'inégalité suivante est vérifiée :
ξ i2 1
≤ (A-14)
3ξ 2
+λ 8 2
ξ i2
i
Conclusion : la variance des paramètres régularisés est effectivement inférieure à celle des
paramètres non régularisés. L’objectif visé dans la technique de régularisation est atteint. En
réduisant la variance des paramètres, on obtient une estimation des paramètres plus stable et
susceptible de mieux généraliser sur des données de test.
Quantifions la variation de la variance des paramètres. Des équations (A-12) et (A-13), on trouve
facilement l'expression suivante de la variation de la variance :
λ32ξ + λ 8 "#
2
i
49
∆ var( λ ) = var θ − var θ reg = σ 2 Vdiag 4 9 ξ 3ξ + λ 8 #
2 2 #V 2
T
(A-15)
! i i $
Nous avons donc montré que la régularisation introduit 2 effets antagonistes :
• une augmentation du critère quadratique sur les données d'identification et un biais sur les
paramètres
• une diminution de la variance des paramètres.
Il y a donc un compromis à faire entre ces deux tendances afin d’obtenir un modèle ayant un bon
pouvoir de généralisation.
Page 192 CRAN-INPL

%$11(;(%
Calcul des fonctions de sensibilité du critère Jg par rapport aux

paramètres des fonctions de validité : cas de fonctions gaussiennes
M M
Formulation du multi-modèle : 05 1 05 6 1 05 6
y t = ∑ ω i z t , β fi ϕ t , θ i = ∑ ω i z t , β yi t
i =1 i =1
105 6 05
Type de découpage de l'espace caractéristique = : partition grille
On a montré au paragraphe III.2.1. que le degré d'activation du modèle local fi défini par les
relations :
05
ωi t = M
05
ρi t nz
ρ i = ∏ µ l(i ) , j
∑ ρ 0t 5 j =1 j
k
k =1
est strictement équivalent à l'expression suivante :
nz 05
µ l(i ) , j t nz
05
ωi t = ∏ pj
j
= ∏µ 0t 5 l (j i ) , j
j =1
∑ µ l, j
l =1
0t 5 j =1
qui l'exprime comme le produit de fonctions d'activation individuelles normalisées µ l ( i ) , j .

j
Précisons que l'indice l (j i ), j désigne la partition particulière de zj intervenant dans la construction

de la zone =i. Nous nous baserons sur cette formulation du degré d'activation d'un modèle pour
calculer la fonction de sensibilité.
Les fonctions de validité µl,j afférentes à une variable zj ( j = 1,..., nz ) sont définies par :
3 z 0t 5 − c 8
2
µ l, j 3z (t)8 = exp − 2σ
j
j
2
l, j
l = 1,..., p j
j
cl,j : centre de la fonction gaussienne µl,j.
σj : sa dispersion ; elle est commune à toutes les gaussiennes µl,j ∀ l = 1, ..., p j afin d'éviter des 3 8
problèmes de réactivation (voir paragraphe III.2.2.1).
B.1. DERIVEE DE LA SORTIE DU SYSTEME PAR RAPPORT A UN CENTRE cr,j

( r = 1,..., p j , j = 1,..., nz )
Elle s'écrit :
05
∂y t
=
∂ M
∑ ω i t yi t 0 5 0 5
∂cr , j ∂cr , j i =1
Pour des raisons de simplification de l'écriture, nous allons omettre le temps t dans les formules
qui suivront.
∂y M ∂ω
=∑ i
yi (B-1)
∂cr , j i =1 ∂cr , j
Décomposons la dérivée ∂ω i ∂cr , j .
∂ω i
=
∂ nz
∏ µ l ( i ) ,k z k 1 6 (B-2)
∂cr , j ∂cr , j k =1 k
Les fonctions individuelles normalisées d'une variable zj étant indépendantes des
fonctions individuelles normalisées des autres variables, nous pouvons écrire :
∂µ l ( i ) , j z j 3 8
∂ω i
1z 6
nz
= × ∏µ
j
∂cr , j ∂cr , j
k =1
lk( i ) ,k k (B-3)
k≠ j
Explicitons à présent la dérivée ∂µ l ( i ) , j ∂cr , j . Elle s'obtient par :

j
∂µ l ( i ) , j z j 3 8 ∂ 3 8 µ l(i ) , j z j
=
j j
∂cr , j ∂cr , j pj
∑ µ 3z 8 l, j j
l =1
∂µ l ( i ) , j 3 z 8 1 ∂µ 3 z 8
j l (j i ) , j j 3 8 "#
∂µ r , j z j
= × −µ ×
j
∂cr , j pj
∂c l (j i ) , j ∂c ## (B-4)
∑ µ 3z 8 ! $
r, j r, j
l, j j
l =1
La dérivée ∂µ l ( i ) , j ∂cr , j est non nulle si l (j i ) = r c'est-à-dire si la partition

j
3r,j de la variable zj intervient dans la définition de la zone de validité =i du

modèle local fi. On exprime donc cette dérivée par la relation suivante :
∂µ l ( i ) , j z j 3 8 ∂µ r , j z j3 8
= δ l ( i ) ,r ×
j
∂cr , j j ∂cr , j
Page 194 CRAN-INPL

Annexe B
%K1 si l (ji) = r
,r &0 si l ( i ) ≠ r
avec δ l ( i ) ,r l'opérateur de Kronecker tel que δ l ( i ) =
j j
K' j
En injectant cette expression dans (B-4) on obtient :
∂µ l ( i ) , j z j 3 8 ∂µ r , j z j 3 8
j
=
1
× δ l(i ) , r − µ l(i ) , j z j 3 8"#$ × (B-5)
∂cr , j
3z 8 ! ∂cr , j
pj j j
∑ µ l, j j
l =1
Les fonctions de validité individuelles µ r , j étant des gaussiennes, la

dérivée ∂µ r , j ∂cr , j est fournie par :
∂µ r , j z j 3 8=z j − cr , j
× µ r, j z j 3 8
∂cr , j σ 2j
z j − cr , j 1
Notons dr , j z j = 3 8 σ 2j
. La dérivée ∂µ l ( i ) , j ∂cr , j devient alors :
j
∂µ l ( i ) , j z j 3 8 3 8 × δ
µ r, j z j
j
∂cr , j
= pj
! l (j i ) , r
− µ l(i ) , j z j
j
3 8"#$ × d 3z 8 r, j j
∑ µ 3z 8 l, j j
l =1
∂µ l ( i ) , j z j 3 8
j
∂cr , j
3 8 !
= dr , j z j × δ l ( i ) , r − µ l ( i ) , j z j
j j
3 8"#$ × µ 3z 8r, j j (B-6)
Remontons cette équation dans l'expression (B-3) de la dérivée ∂ω i ∂cr , j . Cette

dernière devient :
∂ω i 3 8 3 8 × µ 3z 8"# × ∏ µ 1z 6
= dr , j z j × δ l ( i ) , r − µ l ( i ) , j z j
nz
∂cr , j !
j $ j r, j j
k =1
lk( i ) ,k k
k≠ j
∂ω i
"# nz nz
∂cr , j
= dr , j 3z 8 × δ × µ 3z 8 × ∏ µ 1z 6# − d 3z 8 × µ 3z 8 × µ 3z 8 × ∏ µ 1z 6
j l (j i ) , r j lk( i ) ,k k r, j j j l (j i ) , j j lk( i ) ,k k
! #$ r, j

k =1
k≠ j
r, j
k =1
k≠ j
ωi
Cette expression comporte deux termes : le premier terme est non nul si l (j i ) = r . Si
c'est le cas, l'expression entre les crochets n'est rien d'autre que la fonction d'activation
ωi du modèle fi. Il s'en suit cette expression simplifiée de la dérivée ∂ω i ∂cr , j :
1
Ne pas confondre les variables dr,j(zj) qui dépendent du temps avec les paramètres dl,j entrant dans la définition des
fonctions de validité construites à partir des sigmoïdes.
CRAN-INPL Page 195

∂ω i
∂cr , j j
3 8
= d r , j z j × δ l ( i ) ,r − µ r , j z j 3 8 × ω i (B-7)
A partir de cette équation, la fonction de sensibilité de la sortie du multi-modèle par rapport au

centre cr,j s'explicite :
∂y
3 8 3 8 × 1ω × y 6
M
= ∑ d r , j z j × δ l ( i ) ,r − µ r , j z j i i
∂cr , j i =1 j
Ceci conduit à cette expression compacte de la fonction de sensibilité :
∂y
3 8 3 8
M
∂cr , j
= dr , j z j × ∑ δ l ( i ) , r × ω i × yi − µ r , j z j × y
i =1 j
1 6 (B-8)
Pour fixer les idées, dans le cas d'un espace caractéristique monodimensionnel elle prend la
forme :
∂y
∂cr
= dr × ω r × yr − y 1 6
B.2. DERIVEE DE LA SORTIE DU SYSTEME PAR RAPPORT A LA DISPERSION
COMMUNE σj ( j = 1,..., nz )
Elle est fournie par l'équation suivante :
∂y M ∂ω
=∑ i
yi
∂σ j i =1 ∂σ j
Les calculs sont similaires à ceux de la fonction de sensibilité par rapport au centre cr,j. La
modification porte uniquement sur la dérivation ∂µ l ( i ) , j ∂σ j qui est développée ici.
j
3 8
∂µ l ( i ) , j z j
∂ 3 8
µ l(i ) , j z j
1
∂µ 3 z 8 ∂ "# l (j i ) , j j pj
j
∂σ j
=
∂σ j pj
j
=
∂σ pj
−µ 3z 8 × ∂σ ∑ µ 3z 8 # l (j i ) , j j l, j j
∑ µ l, j
l =1
3z 8 ∑ µ 3z 8 !
j
l =1
l, j j #$ j j l =1
Or on a :
3 8 = e 3z 8 × µ 3z 8
∂µ l , j z j
j j el, j 3z 8 =
j
3 z j − cl, j 8
2
(B-9-a)
∂σ
l, j l, j
j σ 3j
De plus, comme les fonctions de validité de zj ont la même dispersion, la dérivée ∂µ l ( i ) , j ∂σ j

j
n'est jamais nulle. Par analogie à l'équation ci-dessus, on l'exprime comme suit :
3z 8 z 2
∂µ l ( i ) , j − cl ( i ) , j
j
=
j j
j 3 8 3 8
µ l ( i ) , j z j = el ( i ) , j z j × µ l ( i ) , j z j 3 8 (B-9-b)
∂σ j σ 3j j j j
En partant de ces considérations, on écrit la dérivée ∂µ l ( i ) , j ∂σ j :

j
Page 196 CRAN-INPL

Annexe B
3 8
∂µ l ( i ) , j z j
1 e z × µ z − µ z × ∑ e z × µ z "# pj
j
∂σ j
= pj 3 8 3 8 3 8 3 8 3 8 #
l (j i ) , j j l (j i ) , j j l (j i ) , j j l, j j l, j j
∑ µ l, j 3z 8 ! j
$ l =1
l =1
Cette écriture se simplifie :
3 8
∂µ l ( i ) , j z j
3z 8 × !e 3z 8 − ∑ e 3z 8 × µ 3z 8"#$#
pj
= µ l(i ) , j
j
l (j i ) , j
(B-10)
∂σ j
j j l, j j l, j j
j
l =1
En l'injectant dans la dérivée ∂ω i ∂σ j , on obtient :
∂ω i
∂µ l ( i ) , j z j 3 8 nz
∂σ j
=
j
∂σ j
× ∏ µ l ( i ) ,k z k
k =1 k
1 6
k≠ j
∂ω i 3 8 3
pj
8 3 8 "# × µ 3z 8 × ∏ µ 1z 6
= el ( i ) , j z j − ∑ el , j z j × µ l , j z j
nz
∂σ j j
! l =1 #$ l (j i ) , j j
k =1
k≠ j
lk( i ) ,k k
∂ω i 3z 8 − ∑ e 3z 8 × µ 3z 8"#ω
= e
pj
(B-11)
∂σ j ! l (j i ) , j j
#$ l =1
l, j j l, j j i
En exploitant cette expression, la fonction de sensibilité s'écrit :
∂y
=∑
M ∂ω
i
M pj 3 8
yi = ∑ el ( i ) , j z j − ∑ el , j z j × µ l , j z j ω i × yi 3 8 3 8"##$
∂σ j i =1 ∂σ j r =1 j
l =1 !
Finalement on obtient la relation donnant la fonction de sensibilité sous la forme :
∂y
6 3 8 × y
M pj
∂σ j i =1 j
3 8 1
= ∑ el ( i ) , j z j × ω i × yi − ∑ el , j z j × µ l , j z j
l =1
3 8 (B-12)
CRAN-INPL Page 197

+84'('4'0%'5
$+$.+1)4#2*+37'5
CRAN-INPL Page 199

ABONYI J. LAJOS N. and SFEIZERT F. [2000-a] "Hybrid fuzzy convolution modelling and
identification of chemical process systems". International Journal of Systems Sciences, Vol. 31,
N° 4, pp. 457-466.
ABONYI J., BABUŠKA R., VERBRUGGEN H. B. and SFEIZERT F. [2000-b] "Incorporating prior
knowledge in fuzzy model identification". International Journal of Systems Sciences, Vol. 31,
N° 5, pp. 657-667.
ACADÉMIE DES SCIENCES [1993] "Ozone et propriétés oxydantes de la troposphère". Rapport

N°30 de l'académie des sciences. Ed. Lavoisier.
BABUŠKA R. [1998] "Fuzzy modelling for control". International Series in Intelligent

Technologies. Kluwer Academic Publishers Boston/Dordrecht/London.
BABUŠKA R. and VERBRUGGEN H. B. [1995] "Identification of composite linear models via

fuzzy clustering". Proc. of ECC, Italy, pp. 1207-1212.
BABUŠKA R. and VERBRUGGEN H. B. [1997] "Fuzzy sets methods for local modelling and
identification ". Chapter Two in: Multiple model approaches to modelling and control, Edited by
R. Murray-Smith and T.A. Johansen, Ed. Taylor and Francis.
BARALDI A. and BLONDA P. [1999] "A survey of fuzzy clustering algorithms for pattern
recognition-Part I". IEEE Trans. on Systems Man and Cybernetics-Part B, Vol. 29, N°6, pp. 778-
785.
BARNI M., CAPPELLINI V. and MECOCCI A. [1996] "Comments on ``A possibilistic approach to
clustering``". IEEE Trans. on Fuzzy Systems, Vol. 4, N°3, pp. 393-396.
BASTOGNE T., RICHARD A. et SIBILLE P. [1998] "Identification des systèmes multivariables :

méthodes des sous-espaces. Partie I : état de l'art. Partie II : applicabilité et intérêt". Journal
Européen des Systèmes Automatisés, JESA, Vol.. 32, N°2, pp. 207-265.
BILLINGS S. A. and VOON W. S. [1984] "Least squares parameter estimation algorithms for non-
linear systems". Int. Journal Systems Sciences, Vol. 15, N°6, pp. 601-615.
BILLINGS S. A. and VOON W. S. [1986] "A prediction-error and stepwise-regression estimation

algorithm for non-linear systems". Int. Journal of Control, Vol. 44, N°3, pp. 803-822.
BLOOMFIELD P., ROYLE A. and YANG Q. [1993] "Accounting for meteorological effects in
measuring urban ozone levels and trends". Rapport du National Institute of Statistical Sciences
North Carolina State University.
Page 200 CRAN-INPL

Références bibliographiques
BORTOLET P. [1998] "Modélisation et commande multivariables floues : Application à la

commande d'un moteur thermique". Thèse de l'INSA de Toulouse.
BOSSLEY K. M. [1997] "Neurofuzzy Modelling Approaches in System Identification". PhD

Thesis of Faculty of Engineering and Applied Science. University of Southampton.
BOUKARI H. et GRANDVALET Y. [1998] "Pénalisation multiple adaptative". Actes des 13ème

Journées Francophones sur l'Apprentissage. Disponible sur le site
http://www.hds.utc.fr/WEB/heudiasyc/membres/index.html.
BOUKHRIS A., MOUROT G. and RAGOT J. [1999] "Non-linear dynamic system identification : a
multiple-model approach", Int. Journal of control, Vol. 72, N°7/8, pp. 591-604.
BOUKHRIS A., MOUROT G. and RAGOT J. [2000] "System identification using a multiple model
approach: model complexity reduction", Proc. of SYSID'2000, California, USA.
BOUTAYEB M., DAROUACH M., RAFALAHARY H. and KRZAKALA G. [1993] "A new technique
for identification of MISO Hammerstein model". Proc. of ACC, San Francisco, California, USA,
pp. 1991-1992.
BOUTAYEB M. and DAROUACH M. [1995] "Recursive identification of MISO Wiener-

Hammerstein model". IEEE Trans. on automatic control, Vol. 40, N°2, pp. 287-291.
BREIMAN L., FRIEDMAN J., OLSHEN R. and STONE C. J. [1984] "Classification and regression
tree". Wadsworths Belmont, CA.
CHEN S. and BILLINGS S. A. [1988] "Prediction error estimation algorithm for non-linear output
affine systems". Int. Journal of control, Vol. 47, N°1, pp. 309-332.
CHEN S. and BILLINGS S. A. [1989-a] "Recursive prediction error parameter estimator for non-
linear models". Int. Journal of Control, Vol. 49, N°2, pp. 569-594.
CHEN S. and BILLINGS S. A. [1989-b] "Representation of non-linear systems : the NARMAX

model". Int. Journal of Control, Vol. 49, N°3, pp. 1013-1032.
CHEN S., BILLINGS S. and LUO W. [1989-c] "Orthogonal least squares methods and their
application to non-linear system identification ", Int. Journal of control, Vol. 50, pp. 1873-1896.
CHEN S., BILLINGS S. A., COWAN C. F. and GRANT P. M. [1990] "Practical identification of
Narmax models using radial basis functions". Int. Journal of Control, Vol. 52, N°6, pp. 1327-
1350.
DRAPER N. R. and SMITH H. [1981] "Applied regression analysis". Wiley Series in Probability
and Mathematical Statistics, 2nd Edition. Wiley & Sons.
CRAN-INPL Page 201

ERNST S. [1998] "Hinging hyperplane trees for approximation and identification". Proc. Of the
37th IEEE Conf. on Decision and Control, Tampa, Florida, USA.
ESPINOSA J. J. and VANDEWALLE J. [1997] "Fuzzy modelling and identification. A guide for the
user'', Proc. of the IEEE Singapore International Symposium on Control Theory and
Applications, Singapore. Disponible sur le site http://www.esat.kuleuven.ac.be/~espinosa/.
FIORDALISO A. [1999] "Systèmes flous et prévisions de séries temporelles". Ed. Hermès.
FNAIECH F. and LJUNG L. [1987] "Recursive identification of bilinear systems". Int. Journal of
control, Vol. 45, N°2, pp. 453-470.
FROMAGE A. [1996] "Prévision des pointes de pollution atmosphérique : état de l'art dans le
monde et perspectives pour la région Ile-de-France". Thèse professionnelle effectuée à
AIRPARIF dans le cadre du Mastère en ISIGE de l'Ecole de Mines de Paris.
FUNAHASHI K. [1989] "On the approximate realization of continuous mappings by neural

networks". Neural Networks Vol. 2, pp. 183-192.
GASSO K., MOUROT G. and RAGOT J. [1999-a] "Ozone concentration modelling using a multiple
model approach". Proc. of EUFIT'99, Aachen, Germany.
GASSO K., MOUROT G. et RAGOT J. [1999-b] "Modélisation de la concentration d’ozone par une
approche multimodèle". Actes des Journées Doctorales de l'Automatique [JDA'99], Nancy,
France, pp. 85-88.
GASSO K., MOUROT G., BOUKHRISS A. et RAGOT J. [1999-c] "Optimisation de la structure d'un
modèle de Takagi-Sugeno". Actes des Rencontres francophones sur la logique floue et ses
applications (LFA'99). Valenciennes, France, pp. 233-240.
GASSO K., MOUROT G. and RAGOT J. [2000-a] "Identification of an output error Takagi-Sugeno
model". Proc. of IEEE International Conference on Systems, Man and Cybernetics, Nashville,
USA.
GASSO K., MOUROT G. and RAGOT J. [2000-b] "Fuzzy rule base optimisation : a pruning and
merging approach". Proc. of IEEE International Conference on Systems, Man and Cybernetics,
Nashville, USA.
GEMAN S., BIENENSTOCK E. and DOURSAT R. [1992] "Neural networks and the bias/variance
dilemma". Neural Computation, Vol. 4, pp. 1-58.
GHATTAS B. [2000] "Agrégation d'arbres de classification". Actes des Journées Thématiques

Automatique et Environnement, Nancy, France.
Page 202 CRAN-INPL

GHIAUS C., ALLARD F., CAINI F. et GAZEAU A. [2000] "La prévision des pics d'ozone en régime
de brise à l'aide de la modélisation neuro-floue". Actes des Journées Thématiques Automatique et
Environnement, Nancy, France.
GLORRENEC P.Y. [1999] "Algorithmes d'apprentissage pour systèmes d'inférence floue". Ed.
Hermès.
HABER R. and UNBEHAUEN H. [1990] "Structure identification of nonlinear dynamic systems- A

survey on input/output approaches". Automatica, Vol. 26, N°4, pp. 651-677.
HANSEN C. [1992] "Regularization tools – A Matlab package for analysis and solution of
discrete ill-posed problems". Technical University of Denmark. Disponible sur le site
http://www.imm.dtu.dk/~pch/.
HARTMANN F. et SABY C. A. [2000] "Modèles de prévisions sur 24h de dépassement des seuils
d'ozone dans l'agglomération lyonnaise". Actes des Journées Thématiques Automatique et
HASSIBI B. and STORCK D. [1993] "Second order derivatives for network pruning : optimal
brain surgeon". Advances in Neural Information Processing systems 5, San Mateo, CA, pp.
1164-1171.
HATHAWAY R. J. and BEZDEK J. A. [1993] "Switching regression models and fuzzy clustering".
IEEE Trans. on Fuzzy Systems, Vol. 1, N°3, pp. 195-204.
HE X. and ASADA H. [1993] "A new method for identifying orders of input-output models for
nonlinear dynamic systems". Proc. of ACC, San Francisco, California, USA, pp. 2520-2523.
HEUBERGER P., VAN den HOF P. and BOSGRA O. [1995] "A Generalized Orthonormal Basis for
linear dynamical systems". IEEE Trans. on Automatic Control, pp. 451-465.
HUBBARD M. C. and COBOURN G. [1998] "Development of a regression model to forecast

ground-level ozone concentration in Louisville, KY". Atmospheric Environment, Vol. 32, N°
14/15, pp. 2637-2647.
HUNT K. J., HAAS R. and MURRAY-SMITH R. [1996] "Extending the functional equivalence of
radial basis function networks and fuzzy inference systems". IEEE Trans. on Neural Networks,
Vol. 7, N° 3, pp. 776-781.
JACOBS R. A., JORDAN M. I., NOWLAN J. S. and HINTON G. E. [1991] "Adaptive mixtures of
local experts". Neural Computation, Vol. 6, pp. 181-214.
CRAN-INPL Page 203

JANG J.-S. R. [1993] "ANFIS: adaptive-Network-based Fuzzy Inference system". IEEE Trans.
on Systems Man and Cybernetics, Vol. 23, N°3, pp. 665-684.
JOHANSEN T. A. and FOSS A. B. [1992] "Nonlinear local model representation for adaptive
systems". Proc. of IEE Int. Conf. on Intelligent Control and Instrumentation, Vol. 2, Singapore,
pp. 677-682.
JOHANSEN T. A. and FOSS A. B. [1993] "Constructing NARMAX using ARMAX". Int. Journal
of Control, Vol. 58, N°5, pp. 1125-1153.
JOHANSEN T. A. and FOSS A. B. [1995] "Identification of non-linear system structure and

parameters using regime decomposition". Automatica, Vol. 31, N°2, pp. 321-326.
JOHANSEN T. A. [1996] "Robust identification of Takagi-Sugeno-Kang fuzzy models using

regularization". IEEE Conf. Fuzzy Systems, New Orleans. Disponible sur le site
http://www.itk.ntnu.no/ansatte/Johansen_Tor.Arne/public.html.
JOHANSEN T. A. [1997] "On Tikhonov regularization, bias and variance in nonlinear system
identification". Automatica, Vol. 33, pp. 441-446. Disponible sur le site
http://www.itk.ntnu.no/ansatte/Johansen_Tor.Arne/public.html.
KARYIANNIS N. B. and MI G. W. [1997] "Growing radial basis neural networks: merging

supervised and unsupervised learning with growth techniques". IEEE Trans. on Neural
Networks, Vol. 8, N°6, pp. 1492-1506.
KAYMAK U. and BABUŠKA R. [1995] "Compatible cluster merging for fuzzy modelling". Proc.
of FUZZ-IEEE/IFES'95, Yokohama, Japon, pp. 897-904.
KERLING M. [1999] "Optimizing the Multilayer Perceptron – Problems, tools and strategies".
Proc. of Eufit'99, Aachen, Germany.
KORENBERG M., BILLINGS S. A., LIU Y. P. and MC ILROY P. J. [1988] "Orthogonal parameter
estimation algorithm for non-linear stochastic systems". Int. Journal of control, Vol. 48, pp. 193-
210.
KOSKO B. [1992] "Fuzzy systems as universal approximator". Proc. of IEEE Int. Conf. Fuzzy
Syst, San Diego, USA, pp. 1153-1162.
KRIBECHE A. [2000] "Elaboration de modèles de prévision des pointes d'ozone sur les sites de
Metz-borny et Thionville-Piscine". Rapport de stage de DEA, INPL.
KRISHNAPURAM R. and KELLER J. [1996] "The possibilistic C-Means algorithm : insights and
recommendations". IEEE Trans. on Fuzzy Systems, Vol. 4, N°3, pp. 385-393.
Page 204 CRAN-INPL

LARSEN J. and HANSEN L.K. [1994] "Generalization Performance of Regularized Neural

Network Models''. Proc. of the IEEE Workshop on Neural Networks for Signal Processing IV,
Piscataway, New Jersey, pp. 42-51. Disponible sur le site
http://eivind.imm.dtu.dk/s!taff/jlarsen/pubs/frame.htm.
LECUN Y., DENKER J. S., SOLLA S., HOWARD R. E. and JACKEL L. D. [1990] "Optimal Brain
Damage". In David Touretzky Ed.: Advances in Neural Information Processing Systems 2,
Denver. Morgan Kaufman.
LEONTARITIS I. J. and BILLINGS S. A. [1985] "Input-output parametric models for non-linear

systems. Part I: deterministic non-linear systems; Part II: stochastic non-linear systems". Int.
Journal of control, Vol. 41, N°2, pp. 303-344.
LEONTARITIS I. J. and BILLINGS S. A. [1987] "Model selection and validation methods for
nonlinear systems". Int. Journal of Control, Vol. 41, N°1, pp. 303-344.
LIN Y., CUNNIGHAM G. A. and COGGESHALL S.V. [1997] "Using fuzzy partitions to create fuzzy
systems from input-output data and set the initial weights in a fuzzy neural networks". IEEE
Trans. on Fuzzy Systems, Vol. 5, N°4, pp. 614-621.
LINDSKÖG P. [1996] "Methods, algorithms and tools for system identification based on prior
knowledge". PhD Thesis, Linköping University, Suède, ISSN 0345-7524.
LJUNG L. [1987] "System Identification : Theory for the User". Prentice-Hall, Englewood Cliffs,
N. J.
MALTI R. [1999] "Représentation des systèmes discrets sur la base des filtres orthogonaux –
Application à la modélisation des systèmes dynamiques multi-variables". Thèse de l'INPL.
MASSIEU J. F., PIGEON E., RODRIGUEZ R. et VOINOT O. [2000] "Un outil pour l'analyse des
systèmes de grande dimensions. Application à la modélisation du taux de pollution par l'ozone
dans le département du Calvados". Actes des Journées Thématiques Automatique et
MEILA M. and JORDAN M. [1997] "Markov mixtures of experts". Chapter Five in : Multiple
model approaches to modelling and control, Edited by Murray-Smith R. and Johansen T. A., Ed.
Taylor and Francis.
MOUZOURIS G. C. and MENDEL J. [1996] "Designing fuzzy logic systems for uncertain
environments using a singular value-QR decomposition method". Proc. of FUZZ-IEEE'96, New
Orleans, USA, pp. 295-301.
CRAN-INPL Page 205

MURRAY-SMITH R. [1994] "A local model network approach to nonlinear modelling". PhD
Thesis. University of Strathclyde, Computer Science Department. Disponible sur le site
http://eivind.imm.dtu.dk/staff/rod/phd_rod.html.
MURRAY-SMITH R. and JOHANSEN T. A. [1997-a] "Multiple model approaches to modelling and

control". Edited by R. Murray-Smith and T. A. Johansen, Ed. Taylor and Francis.
MURRAY-SMITH R. and JOHANSEN T. A. [1997-b] "Local learning in local model networks".

Chapter Seven in: Multiple model approaches to modelling and control. Edited by R. Murray-
Smith and T. A. Johansen, Ed. Taylor and Francis.
NELLES O. [1997-a] "Nonlinear system identification with neuro-fuzzy methods". Chapter in:
Da Ruan Ed.: Intelligent hybrid systems. Kluwers Academic publishers, Dordrecht.
NELLES O. [1997-b] "Orthonormal basis functions for nonlinear system identification with local
linear model trees (LOLIMOT)". Proc. of SYSID'97, Fukuoka, Japon. Vol. 2, pp. 667-672.
ORR M. J. [1996] "Introduction to radial basis function networks". Rapport technique

disponible sur le site http://www.anc.ed.ac.uk/~mjo/rbf.html.
OULADSINE M., KOBI A. and RAGOT J. [1993] "Identification of a MIMO Hammerstein model".
Proc. of ECC 93, Vol. 2, pp. 621-626.
PARK J. and SANDBERG I. W. [1991] "Universal approximation using radial basis function
networks". Neural Computation, Vol. 3, pp. 246-257.
PEDERSEN M. W. [1997] "Optimization of recurrent neural networks for times series

modelling". PHD Thesis of IMM, Denmark.
PETON N. [1999] "Méthode de groupement par soustraction pour l'identification de modèle flou :
amélioration et application à la prévision de la pollution atmosphérique". Thèse de l'Université
Montpellier II.
Powell M. [1987] "Radial basis function approximations to polynomials". Proc. of 12th Biennal
Numerical Ananlysis Conference, pp. 223-241.
PUCAR P. [1995] "Modelling and segmentation using multiple models". PhD Thesis N° 405.
ISBN 91-7871-627-6. Department of Electrical Engineering, Linköping University, Sweden.
RAMAMURTI V. and GHOSH J. [1999] "Structurally adaptive modular networks for nonstationary
environments". IEEE Trans. on Neural Networks, Vol. 10, N°1, pp.152-160.
RYAN W. [1995] "Forecasting severe ozone episodes in the Balitmore metropolitan area".
Atmospheric Environment, Vol. 29, N°17, pp. 2387-2398.
Page 206 CRAN-INPL

SBARBARO D. [1997] "Local Laguerre models". Chapter Ten in : Multiple model approaches to
modelling and control. Edited by R. Murray-Smith and T. A. Johansen, Ed. Taylor and Francis.
SETNES M., BABUŠKA R., KAYMAK U. and VAN NAUTA LEMKE H. R. [1998] "Similarity
measures in fuzzy rule base simplification". IEEE Trans. on Systems Man and Cybernetics-Part
B., Vol. 28, N°3, pp. 376-386.
SHORTEN R. and T.A. MURRAY-SMITH R. [1997] "Side-effects of normalising basis functions in

local model networks ", Chapter Eight in: Multiple model approaches to modelling and control.
Edited by R. Murray-Smith and T.A. Johansen, Ed. Taylor and Francis.
SIARRY P. and GUELY F. [1998] "A genetic algorithm for optimizing Takagi-Sugeno fuzzy rule
bases", Fuzzy Sets and Systems, Vol. 99, pp. 37-47.
SJÖBERG J., ZHANG Q., LJUNG L., BENVENISTE A., DEYLON B., GLORRENEC P-Y.,
HJALMMARSSON H. and JUDITSKY A. [1995] "Nonlinear black-box modelling in system
identification : a unified overview". Automatica, Vol. 31, N°12, pp. 1691-1724.
SJÖBERG J. and VIBERG M. [1997] "Separable non-linear least-squares minimization- Possible

improvements for neural net fitting". Proc. of IEEE Workshop in Neural Networks for Signal
Processing, Florida, USA.
STRÖMBERG J-E., GUSTAFSSON F. and LJUNG L. [1991] "Trees as black-box model structures for
dynamical systems". Proc. of ECC 91, Grenoble, France, pp. 1175-1180.
SUGENO M. and KANG G.T. [1988] "Structure identification of fuzzy model". Fuzzy sets and
systems, Vol. 28, pp. 15-33.
SUN C. T. [1994] "Rule-base structure identification in an adaptive-network-based fuzzy

inference system". IEEE Trans. on Fuzzy Systems, Vol. 2, N°1, pp. 64-73.
TAKAGI T. and SUGENO M. [1985] "Fuzzy identification of systems and its application to
modelling and control". IEEE Trans. on Systems Man and Cybernetics, Vol. 15, pp. 116-132.
TANAKA K., SANO M. and WATANABE H. [1995] "Modelling and control of carbon monoxide
concentration using a neuro-fuzzy technique". IEEE Trans. on Fuzzy Systems, Vol. 3, N°3, pp.
271-279.
WALTER E. et PRONZATO [1994] "Identification de modèles paramétriques à partir de données

expérimentales". Edition Masson.
WANG L. X. and MENDEL J. M. [1992] "Fuzzy basis functions, universal approximation and
orthogonal least-squares learning". IEEE Trans. on Neural Networks, Vol. 3, pp. 807-814.
CRAN-INPL Page 207

WANG L. and LANGARI R. [1995] "Building Sugeno-Type models using fuzzy discretization and
orthogonal parameter estimation techniques". IEEE Trans. on Fuzzy Systems, Vol. 3, N°4, pp.
454-458.
WIGREN T. [1993] "Recursive prediction error identification using the non-linear wiener
model". Automatica, Vol. 29, N°4, pp. 1011-1025.
YEN J., and WANG L. [1998-a] "Application of statistical information criteria for optimal fuzzy
model construction". IEEE Trans. on Fuzzy Systems, Vol. 6, N°3, pp. 362-371.
YEN J., WANG L. and GILLESPIE C. [1998-b] "Improving the interpretability of TSK fuzzy
models by combining global learning and local learning". IEEE Trans. on Fuzzy Systems, Vol. 6,
N°4, pp. 530-537.
YEN J. and WANG L. [1999] "Simplifying fuzzy rule-base models using orthogonal
transformation methods". IEEE Trans. on Systems Man and Cybernetics-Part B, Vol. 29, N°1,
pp. 13-24.
YING H. [1998] "General SISO Takagi-Sugeno fuzzy systems with linear rule consequent are
universal approximators". IEEE Trans. on Fuzzy Systems, Vol. 6, N°4, pp. 582-587.
YU D., GOMM J. and WILLIAMS D. [1997] "Selection of neural model order and time-delay for
MIMO non-linear systems and a case study on a CSTR process ". Proc. of SYSID'97, Fukuoka,
Japan, Vol. 1, pp. 213-218.
ZHU Q. M. and BILLINGS S.A. [1993] "Parameters estimation for stochastic non-linear rational
models". Int. Journal of control, Vol. 57, N°2, pp. 309-333.
Page 208 CRAN-INPL

Gasso 2000

Transféré par

Droits d'auteur :

Formats disponibles

Gasso 2000

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Gasso 2000

Transféré par

Droits d'auteur :

Formats disponibles

Institut National Polytechnique de Lorraine

Ecole Doctorale IAE+M

Présentée pour l'obtention du

Identification des systèmes dynamiques non-linéaires :

Soutenue publiquement le 22 Décembre 2000 devant la commission d'examen :

CENTRE DE RECHERCHE EN AUTOMATIQUE DE NANCY – CNRS UPRES-A N°7039

Je tiens, très particulièrement, à remercier Monsieur le Professeur J. RAGOT pour le

Je remercie Messieurs les Professeurs Nacer M'SIRDI et Thierry-Marie GUERRA d'avoir

Mes remerciements s'adressent également à Messieurs les Professeurs Jean-Claude

Je n'oublie pas dans mes remerciements Madame Emmanuelle BASTIN et Monsieur

J'exprime ma profonde gratitude envers mes collègues de laboratoire, en particulier

J'adresse enfin mes chaleureux remerciements à Marjorie SCHWARTZ pour sa constante

CHAPITRE I MODELES DE REPRESENTATION DES SYSTEMES DYNAMIQUES

I.1. INTRODUCTION ......................................................................................................................................... 13

I.2. MODELES CLASSIQUES DES SYSTEMES NON-LINEAIRES ........................................................... 14

I.3. APPROCHES RECENTES DE REPRESENTATION DES SYSTEMES NON-LINEAIRES.............. 17

I.3.1. MODELES FLOUS..................................................................................................................................... 17

I.3.2. RÉSEAUX DE NEURONES .......................................................................................................................... 24

I.4. ASPECTS PRATIQUES DE L'IDENTIFICATION DES SYSTEMES................................................... 30

I.4.1. ESTIMATION DES PARAMETRES................................................................................................................. 30

I.4.2. RECHERCHE DE LA STRUCTURE DU MODELE ............................................................................................ 35

I.5. CONCLUSION .............................................................................................................................................. 41

CHAPITRE II APPROCHE MULTI-MODELE OU RESEAU DE MODELES LOCAUX 43

II.1. INTRODUCTION ......................................................................................................................................... 45

II.2. PRESENTATION DE L'APPROCHE MULTI-MODÈLE....................................................................... 46

II.2.1. FORMULATION MATHEMATIQUE .............................................................................................................. 46

II.3. LIENS AVEC LES MODÈLES NON-LINEAIRES EXISTANTS ........................................................... 56

II.3.1. MODÈLE FLOU DE TAKAGI-SUGENO (MODÈLE TS)..................................................................................... 56

II.4. PROBLÉMATIQUE D'IDENTIFICATION D'UNE ARCHITECTURE MULTI-MODÈLE .............. 57

II.4.1. IDENTIFICATION STRUCTURELLE ............................................................................................................. 58

II.4.2. TECHNIQUES D'APPRENTISSAGE .............................................................................................................. 62

II.5. CONCLUSION .............................................................................................................................................. 67

CHAPITRE III OPTIMISATION PARAMETRIQUE ET STRUCTURELLE DES MULTI-

III.1. INTRODUCTION ......................................................................................................................................... 71

III.2. OPTIMISATION D'UN MULTI-MODÈLE A TRAVERS UNE PARTITION GRILLE...................... 72

III.2.1. FORMULATION MATHEMATIQUE DE LA GRILLE ......................................................................................... 72

III.2.3. ALGORITHMES D'OPTIMISATION PARAMETRIQUE ...................................................................................... 78

III.2.4. OPTIMISATION DE LA STRUCTURE D'UN MULTI-MODÈLE DECOMPOSANT L'ESPACE CARACTERISTIQUE EN

III.2.5. CONCLUSION PARTIELLE ........................................................................................................................105

III.3. REDUCTION DU NOMBRE DE MODELES LOCAUX GENERES DANS UNE GRILLE :

III.3.1. ÉLIMINATION DE MODÈLES LOCAUX........................................................................................................107

III.3.2.1. Etat de l'art.....................................................................................................................................................110

III.3.3. APPLICATION DES TECHNIQUES D'ELIMINATION ET DE FUSION DE MODELES LOCAUX A LA RECHERCHE DE

III.3.3.1. Espace caractéristique monodimensionnel.....................................................................................................117

III.3.4. CONCLUSION PARTIELLE ........................................................................................................................129

III.4. IDENTIFICATION D'UN MULTI-MODÈLE A TRAVERS UN PARTITIONNEMENT ITERATIF :

III.4.1. DÉTERMINATION DE LA ZONE À DÉCOUPER .............................................................................................131

III.4.2. DÉCOUPAGE DE LA ZONE = k ................................................................................................................132

III.4.4. DÉFINITION DES FONCTIONS DE VALIDITÉ DES ZONES =K1 ET =K2..............................................................133

III.4.5. OPTIMISATION DU POINT DE DÉCOUPAGE ET DES PARAMÈTRES DES MODÈLES LOCAUX.............................136

III.4.6. RAFFINEMENT DE LA STRUCTURE DES MODÈLES LOCAUX ........................................................................137

III.4.7. CONTINUATION ET FIN DE LA PROCÉDURE DE PARTITION K-D ..................................................................137

III.4.8. CONCLUSION PARTIELLE ........................................................................................................................141

III.5. CONCLUSION GENERALE DU CHAPITRE ........................................................................................ 141

CHAPITRE IV ELABORATION DE MODELES DESCRIPTIFS DES VARIATIONS

IV.1. INTRODUCTION ....................................................................................................................................... 145

IV.2. PARTICULARITÉS DU PHÉNOMÈNE.................................................................................................. 147

IV.2.1. MÉCANISMES DE PRODUCTION ET DE DESTRUCTION DE L'OZONE .............................................................147

IV.2.2. FACTEURS INTERVENANT DANS LE PHÉNOMÈNE.......................................................................................148

uj(t-k) - k = 1,, nu j + nku j - est une entrée uj du système décalée,

e(t-k) - ( k = 1,, ne ) – est le bruit de mesure à un instant antérieur à l'instant courant t,

x − b , x − b , 0 z c1, b1, c2 : sommets du 0.6

x − b , 1 , x − b , 0 petite base 0.6

1 + tanh x − c z c : centre 0.6

Sigmoïde σ z σ : dispersion 0.4