Partie II
Identification d'une méthode inverse

Chapitre 4 Nature du problème inverse

Cette partie présente la stratégie que nous avons suivie pour identifier un algorithme adapté à la résolution du problème de l'estimation des paramètres de COLDO étant données la non-linéarité de ce modèle (Chapitre 3) et la structure du jeu de données décrit dans le Chapitre 2. Ce quatrième chapitre est consacré à la formulation et à la caractérisation mathématique de ce problème inverse. Pour cela, nous nous placerons provisoirement dans un contexte théorique : les données in situ seront remplacées par des données artificielles non bruitées fabriquées à partir de COLDO.

4.1 Un problème d'estimation paramétrique

D'une façon très générale, les méthodes inverses qui nous intéressent ont pour but d'estimer numériquement des caractéristiques d'un système réel à partir d'observations de ce système. La stratégie consiste à utiliser ces observations pour estimer des propriétés numériques d'un modèle, qui sont les analogues des caractéristiques naturelles auxquelles on s'intéresse (Figure 21). Cette procédure d'ajout des informations apportées par les observations à celles qui sont inclues dans les équations du modèle est appelée assimilation de données. On oppose la théorie inverse à l'approche directe (Figure 21) dont l'objet est la simulation d'un système réel avec un modèle aux propriétés connues, et à partir d'un état initial défini par des observations. La Figure 22 présente un exemple classique de problème inverse où l'on cherche à estimer la pente et l'ordonnée à l'origine de la droite - ou modèle - y(x)=a.x+b qui explique au mieux la relation entre les observations y_i et les valeurs x_i.

La théorie inverse a été développée dans des domaines divers, pour estimer des propriétés variées de modèles ayant des structures elles-mêmes variées… Il en résulte des formulations et des méthodes apparemment différentes selon les disciplines. En fait, la plupart des méthodes inverses reposent sur les mêmes "ingrédients de base" et c'est surtout l'interprétation de ces "ingrédients" qui varie selon les domaines. Le choix d'une méthode inverse dépend avant tout de la nature des propriétés du modèle que l'on recherche.

Figure 21. Schéma réalisé d'après Menke (1989) sur la distinction entre l'approche directe (flèches vertes) et l'approche inverse (flèches rouges).

Figure 22. Un problème inverse classique: ajustement d'une droite (le “modèle”) à un ensemble d'observations. Le trait vert symbolise le calcul de la distance entre une observation y^o_i et la valeur prédite par le modèle, y_i=a.x_i +b.

En océanographie, on rencontre principalement deux grands types de problème inverse. En océanographie physique les modèles sont basés sur des lois physiques que l'on peut considérer comme exactes relativement aux lois phénoménologiques utilisées en biogéochimie. De plus, les données physiques sont beaucoup plus abondantes que les données biogéochimiques. Cependant, à cause des termes non-linéaires, des erreurs d'approximation induites par le choix des échelles représentées par les modèles et des erreurs dans la paramétrisation de ces échelles, il est nécessaire de corriger régulièrement les prévisions de l'état de l'océan pour limiter la divergence par rapport à son état réel. Pour cela, les mesures réparties dans le temps et dans l'espace sont interpolées sur la grille du modèle et comparées aux prévisions. En pondérant judicieusement l'importance des informations apportées par les mesures - par définition imprécises - et par les prévisions, une estimation améliorée de l'état de l'océan à la date considérée est réalisée, et utilisée comme condition initiale pour calculer les prévisions ultérieures. Dans ce type de problème, les propriétés du modèle que l'on recherche sont les valeurs des variables d'état à une date donnée. Plusieurs formulations de cette approche dite variationnelle sont utilisées, qui ont été initialement développées en météorologie. Elles ont ensuite été appliquées à l'océanographie physique et à la chimie atmosphérique comme le montrent les références proposées ci-dessous. Le filtre de Kalman est l'une des plus connues (De Mey, 1997; Ménard, 2000; Prinn, 2000; Todling, 2000), et possède des variantes dont le "filtre de Kalman étendu" (Evensen, 1992) et "le filtre de Kalman d'ensemble" (Evensen, 1994). On a également recours à l'interpolation optimale (De Mey, 1997), à la méthode des représenteurs (Bennett, 1992) ou à celle des fonctions de Green (Enting, 2000). Ces différentes formulations présentent de nombreuses similitudes d'un point de vue théorique (Wunsch, 1996).

L'autre type de problème inverse consiste à estimer les paramètres du modèle. On reconnaît dans cette définition le problème inverse que nous avons proposé de résoudre dans la conclusion du Chapitre 3. Pour le distinguer clairement du précédent, nous le qualifierons en accord avec Walter et Pronzato (1994) et Evensen (1998) de problème d'estimation paramétrique. C'est un problème fréquent en biogéochimie de l'océan (Vézina et Platt, 1988; Murnane, 1994; Fasham et Evans, 1995; Matear, 1995; Prunet et al., 1996b; Spitz et al., 1998; Evans, 1999; Gunson et al., 1999). En effet, il n'existe pas de loi exacte en biogéochimie. Par conséquent, les erreurs de prévision d'un modèle biogéochimique peuvent s'expliquer par une mauvaise paramétrisation (empirique) des processus, ou par un mauvais choix des valeurs des paramètres. L'estimation des paramètres permet donc dans un second temps de corriger les paramétrisations. Nous illustrerons cette application dans la section 8.2. D'autre part, comme nous l'avons mentionné plus haut, les modèles biogéochimiques sont hautement intégrés (regroupement des variables et des processus). Il est donc difficile de fixer la valeur des paramètres à partir de mesures in situ ou in vitro.

4.2 Caractérisation mathématique du problème inverse

4.2.1 Minimisation d'une fonction coût

Malgré leur diversité apparente, la majorité des méthodes inverses sont basées sur le calcul d'une fonction coût mesurant l'écart entre chacune des N_o observations y^o_i et les N_o simulations y_i des variables observées (Figure 22). La fonction coût, notée J, dépend du vecteur des propriétés du modèle que l'on recherche, soit . Sa formulation la plus simple est la suivante :

. (9)

Dans notre cas, le vecteur K correspond au vecteur des N_p = 8 paramètres du modèle COLDO, que nous noterons p^{note 6}.

La distance entre observations et prévisions est très généralement mesurée à partir d'une norme L₂ (Eq. 9). Le choix de la norme dépend de la loi de distribution des données. Si les mesures sont supposées précises, c'est-à-dire réparties selon une distribution peu étalée, tout écart entre données et prévisions est significatif, et doit donc être fortement pénalisé. Pour cela, on choisit une norme d'ordre élevé. La norme L₂ suppose que les mesures sont distribuées selon une loi gaussienne. Notons qu'en biogéochimie, la vérification de cette hypothèse exige de recourir à des tests spécifiquement adaptés à de faibles quantités de données (Madansky, 1988).

Si l'on met de côté pour le moment l'influence des erreurs sur les données, l'estimation du vecteur K expliquant le mieux les données y_i^o revient mathématiquement à minimiser la fonction J(K). Il existe un grand nombre d'algorithmes de minimisation, dont le choix dépend en premier lieu de la forme de la fonction à minimiser. Celle-ci dépend de la dynamique - linéaire ou non-linéaire - du système étudié, du type des propriétés K - variables d'état X ou paramètres p - recherchées, et enfin de la structure du jeu de données assimilé.

4.2.2 Un problème inverse fortement non-linéaire

(a) Mise en évidence

La linéarité ou la non-linéarité du problème inverse dépend à la fois de la dynamique du modèle^{note 7} et du type de propriété recherché. Comme le montre l'Encadré 1 sur des exemples simples, le problème inverse consistant en l'estimation des variables d'état X_i(t) d'un modèle à la date t (par exemple, à l'instant initial) est un problème inverse linéaire ou non-linéaire, selon que la dynamique du modèle est linéaire ou non-linéaire (cf. cas 1 et 2 de l'Encadré 1). Par contre, le problème de l'estimation des paramètres p_i d'un modèle dynamique est toujours un problème inverse non-linéaire, que la dynamique du modèle soit linéaire ou non (cf. cas 3 de l'Encadré 1 ; Evensen et al., 1998). Dans le cas où la dynamique du modèle est non-linéaire, il s'agit d'un problème inverse fortement non-linéaire.

On en déduit que l'estimation des huit paramètres du modèle non-linéaire COLDO à partir des données EUMELI est un problème inverse fortement non-linéaire.

Cas 1 : soit le modèle dynamique
,
dont la dynamique est linéaire et dont on recherche les conditions initiales X_o_.. p est un paramètre constant au cours du temps. La forme discrétisée du modèle est :
,
où Dt est le pas de temps. En posant , le modèle devient :
.
Soit y^o une mesure de X à la date t_k. La fonction coût, fonction des conditions initiales, s'écrit :
.
On reconnaît ici l'équation d'une parabole, caractérisée par une dérivée seconde indépendante de la variable recherchée, X_o :
.
Ce problème inverse est linéaire.
Cas 2 : soit le modèle

dont la dynamique est non-linéaire, et dont on recherche les conditions initiales X_o. p est un paramètre constant au cours du temps. La forme discrétisée du modèle à la date t₁ est :
.
Soit y^o une mesure de X₁. La fonction coût est un polynôme à l'ordre 4 de X_o : il ne s'agit plus d'une parabole. Par suite, la dérivée seconde est un polynôme à l'ordre 2 de X_o. Ce problème inverse est non-linéaire.
Cas 3 : on considère le modèle du cas 1, dont la dynamique est linéaire. On cherche à estimer le paramètre constant p. Soit y^o une mesure de X à la date t_k. La fonction coût, fonction de p, s'écrit :

J(p) est un polynôme à l'ordre 2k de p. Ce n'est une parabole que dans la situation où k = 1, c'est-à-dire si l'on compare les données et les prévisions au premier pas de temps, ce qui est peu utile en pratique. La dérivée seconde est un polynôme à l'ordre 2k-2 de p. Ce problème inverse est non-linéaire, quelle soit la dynamique - linéaire ou non-linéaire - du modèle.

Encadré 1. Démonstration dans des cas très simples de la relation entre la nature linéaire ou non-linéaire du problème inverse, la dynamique du modèle et le type de propriété estimé (variable d'état ou paramètre).

On montre que lorsque le problème inverse est linéaire et que les données assimilées permettent de contraindre toutes les inconnues X_i(t), alors toutes les sections de la fonction coût J(X(t)) le long de combinaisons linéaires des X_i(t) sont des paraboles (cf. cas 1 de l'Encadré 1 ; Figure 23a). Par conséquent, J(X(t)) n'admet qu'un minimum, qui est la solution au problème inverse. Dans le cas où le problème inverse est non-linéaire, les sections de la fonction coût le long de combinaisons linéaires des inconnues (variables d'état ou paramètres) ne sont plus des paraboles. Elles ont la forme de bols plus ou moins déformés (cf. cas 1 et 2 de l'Encadré 1 ; Figure 23a-b). Lorsque le problème est fortement non-linéaire, on montre que les fonctions coût J(p) peuvent avoir des formes très complexes, et présenter plusieurs minima locaux ainsi que des points de selle. Ces variations complexes sont l'expression des bifurcations du modèle, c'est-à-dire de la sensibilité de la dynamique des solutions vis-à-vis de la valeur des paramètres (Crawford, 1991 ; section 3.2.2).

Figure 23. Forme des fonctions coût associées aux cas 1 (a), 2 (b) et 3 (c) de l'Encadré 1. La forme discrétisée des modèles est intégrée sur 500 pas de temps Dt. La comparaison entre les trajectoires d'essai et la trajectoire optimale est faite à partir de t = 10.Dt, puis tous les 10.Dt.

(b) Complexité de la forme des fonctions coûts

Nous avons étudié la complexité des fonctions coût associées à l'estimation des paramètres du modèle non-linéaire COLDO en cartographiant des sections de ces fonctions à partir de données artificielles (Athias et al., 2000a-b; Annexe 4 et Annexe 5).

Calcul d'un jeu de données artificielles

Nous avons fabriqué un jeu de données artificielles représentant le transfert de l'Al au site EUMELI oligotrophe. Pour cela, nous avons intégré la version semi-spectrale du modèle (PSyDyn, section 3.2.3) pendant trois années, entre 1000 et 4200 m de profondeur, et avec un vecteur de paramètres connu p^opt, dont les valeurs sont données dans le Tableau 13. Elles sont comprises entre les valeurs extrêmes relevées dans la littérature (Tableau 14). Les profils initiaux du flux de masse (Fm) et du flux d'Al (Fe) ont été calculés à partir des échantillons collectés par les pièges au site O pendant la période allant du 14 au 24 mai 1991 (Bory et Newton, 2000), selon la procédure décrite dans la section 3.1.3. Le profil initial de la concentration en Al filtré (Cpe) est supposé constant avec la profondeur, et égal à la valeur mesurée par les pompes in situ en juin 1992 à 1000 m au site O (0,09963 mg/m³ ; Tachikawa et al., 1999 ; section 2.3.2(b)). Le profil initial de la concentration en Al dissous (Cde) est également supposé constant avec la profondeur. Sa valeur (0,54 mg/m³) est égale à celle mesurée à 1000 m par Gelado-Caballero et al. (1996) à proximité des Iles Canaries (28°24'N, 15°11'W) en mars 1991. Les conditions aux limites ont été calculées pour une année et sont utilisées pour chacune des trois années d'intégration. Les conditions aux limites journalières de Fm et Fe ont été calculées selon la méthode exposée dans la section 3.1.3, à partir des mesures collectées à 1000 m entre la période du 14 au 24 mai 1991 et le 6 mai 1992 au site O. Les conditions aux limites de Cpe et Cde sont constantes aux cours du temps, et égales aux valeurs des profils initiaux.

Symbole

Pseudo-données des figures 24, 25 et 27

Pseudo-données de la figure 26

Source

Paramètres biogéochimiques

K_des (/j)

0,31940

0,53250

1

K_ag (m³/mg/j)

0,01597

0,01171

1

K_ad (/j)

0,00200

0,00390

1

K_rp (/j)

0,05090

0,05090

1

K_rg (/j)

0,05090

0,0509

1

Paramètres physiques

V_p (m/j)

10,00

10,00

2

V_g (m/j)

180,00

180,00

2

K_z (m²/j)

1000,00

1000,00

3

Sources : 1. cf. Tableau 14 ; 2. Whitfield et Turner (1987) ; 3. Zakardjian et Prieur (1994) ; L. Prieur, communication personnelle (1997).

Tableau 13. Valeurs des paramètres utilisées pour calculer les données artificielles associées aux cartes des figures 25 à 27.

Nous avons vérifié que ces simulations sont du même ordre de grandeur que les données réelles (Figure 24). Les simulations des N_v = 4 variables d'état ont été échantillonnées à N_d = 2 profondeurs (z₁ =2000 m et z₂ = 3000 m). A chaque profondeur, les valeurs ont été extraites tous les 10 jours, entre le 500è^me et le 1000è^me jour d'intégration, ce qui représente N_m = 51 pseudo-mesures par profondeur. Ce jeu de données artificielles contient le même type de mesures et approximativement les mêmes résolutions temporelle et spatiale que le jeu de données réelles (section 2.3.2). Nous noterons W_i^t (i=1,…,N_v) les (N_d´ N_m) matrices des pseudo-mesures, et V_i la variance de chaque type de pseudo-mesure. Aucun bruit n'a été ajouté aux sorties du modèle : les pseudo-données sont supposées parfaites. L'influence des erreurs des données sur la résolution du problème inverse sera abordée dans la Partie III.

Analyse de sections de fonctions coût

Les cartes des fonctions coût ont été réalisées en intégrant PSyDyn avec plusieurs vecteurs de paramètres d'essai notés p, en utilisant les mêmes conditions initiales et conditions aux limites que pour les simulations de référence (Figure 24). Les simulations obtenues ont été échantillonnées avec la même stratégie que pour constituer le jeu de pseudo-données, ce qui fournit pour chaque vecteur d'essai N_v = 4 matrices de prévision W_i(p). Nous avons choisi de formuler le coût selon :

(10)

Les N_v matrices C_i^t sont diagonales, et leurs éléments sont les inverses des variances V_i mentionnées plus haut. Leur prise en compte rend les termes de la fonction coût adimensionnels, et permet de donner la même importance à toutes les variables d'état. Le choix de cette formulation est justifié par Athias et al. (2000a ; cf. Annexe 4 et section 5.3.1).

La Figure 25a-b montre une représentation en deux et trois dimensions d'une section de J(p). La valeur de K_ad, K_rp, K_rg, V_p, V_g et K_z associée aux vecteurs d'essai p est égale à leur valeur optimale (Tableau 13). Les valeurs de K_des et K_ag ont été échantillonnées régulièrement dans les gammes 0-0,9369 /j et 0-0,04684 m³/mg/j respectivement, de façon à définir 2025 vecteurs p. Cette section ne couvre qu'une partie des valeurs admissibles pour ces paramètres (Tableau 14), en raison des temps de calculs élevés. Elle permet malgré tout de mettre en évidence les caractéristiques essentielles des fonctions coût associées aux problèmes inverses fortement non-linéaires (Mazzega, 2000). On constate tout d'abord que la section n'a pas la forme d'un bol. Son Minimum Global (MG) de coordonnées (0,3194 ; 0,01597) correspond aux valeurs optimales de K_des et K_ag respectivement (Tableau 13). C'est l'unique point de la section pour lequel le coût est nul. Le MG se trouve dans un large bassin d'attraction au fond très plat, dont l'axe est parallèle à celui du paramètre K_ag. La section montre une autre vallée, plus étroite, dont l'axe est aussi parallèle à celui de K_ag. Elle est associée à des valeurs élevées de K_des (K_des» 0,6 /j). Il s'agit du bassin d'attraction d'un minimum secondaire de coordonnées (0,6175 ; 0,00319) dont le coût vaut environ 38. Le point de coordonnées (0,5538 ; 0,00100) est un point de selle. A cause des instabilités numériques de PSyDyn (section 3.2.3), le coût ne peut pas être calculé pour K_des>0,67 /j.

Site

Profondeur (m)

Traceurs

Estimations (/an)

Source

Modèles à deux compartiments dissous et particulaire

Pacifique nord-ouest

5 - 5000

²²⁸Th, ²³⁰Th

K_ad = 1,5
K_rp = 6,3

1

Bassins du Guatemala
et du Panama

1000 - 4700

²²⁸Th, ²³⁰Th, ²³⁴Th

0,2 £ K_{ad
£} 1,3
1,3 £ K_{rp £} 6,3

2

Modèles à trois compartiments, identiques à ceux de COLDO

Mer des Sargasses

40 - 2000

¹⁴³Nd, ¹⁴⁴Nd

K_ad = 4,7 ± 1,8
K_rp = 127 ± 50
K_ag = 55 ± 17
K_des = 182 ± 70

3

Pacifique nord-ouest
et Mer du Japon

500 - 5500

²²⁸Th, ²³⁰Th, ²³⁴Th

0,2 £ K_{ad
£} 0,9
0,4 £ K_{rp £} 1,9
0,1 £ K_{ag £} 2,4
148 £ K_{des £} 3600

4

Station P
(Pacifique Nord)

0 - 4000

²²⁸Th, ²³⁰Th, ²³⁴Th

K_ad = 0,47 ± 0,09
K_rp = 0,97 ± 0,09
K_ag = 0,22 ± 0,01
K_des = 0,8 ± 0,2

5

Pacifique Equatorial
et Station P
(Pacifique Nord)

0 - 500

²²⁸Th, ²³⁰Th, ²³⁴Th

Pacifique Equatorial :
1 £ K_{ad £} 100
0,1 £ K_{rp £} 73,0
0,1 £ K_{ag £} 55,0
14 £ K_{des £} 5500

6

Station P :
1 £ K_{ad £} 40
7 £ K_{rp £} 33
0,5 £ K_{ag £} 55,0

NABE^*

150 - 300

²²⁸Th, ²³⁴Th

0,51±12 £ K_{ag
£} 33,2±128
108±207 £ K_{des £} 407±928

7

Atlantique nord-ouest

25 - 5500

²²⁸Th, ²³⁰Th, ²³⁴Th

4 £ K_{ad
£} 6
3 £ K_{rp £} 77
2,1 £ K_{ag £} 3,6
136 £ K_{des £} 196

8

Station P
(Pacifique Nord)

0 - 4000

²²⁸Th, ²³⁰Th, ²³⁴Th

K_ad = 0,74 ± 0,35
K_rp = 1,7 ± 0,9
K_ag = 0,3 ± 0,0
K_des = 175 ± 3580

9

NABE^*

100 - 400

²²⁸Th, ²³⁴Th

2,0±0,2 £ K_{ag
£} 76±9
156±17 £ K_{des £} 524±74

10

Sources : 1. Nozaki et al. (1981) ; 2.Bacon et Anderson (1982) ; 3. C. Jeandel, communication personnelle, 1997 ; 4. Nozaki et al. (1987) ; 5. Murnane et al. (1990) ; 6. Clegg et Whitfield (1991) ; 7. Cochran et al. (1993) ; 8. Murnane et al. (Murnane et al., 1994) ; 9. Murnane (1994) ; 10. Murnane et al. (1996) ; ^* North Atlantic Bloom Experiment.

Tableau 14. Compilation bibliographique des estimations des paramètres biogéochimiques du cycle des particules océaniques (Athiaset al., 2000a). Ces travaux sont basés sur l'utilisation de modèles des échange dissous-particulaire similaires à COLDO, mais l'estimation des paramètres repose la plupart du temps sur l'hypothèse d'état stationnaire (cf. section 3.2.1(a)).

Figure 24. Données in situ et simulations associées au transfert de l'Al au site EUMELI oligotrophe. Les données in situ (en rouge) sont utilisées pour définir les conditions initiales et les conditions aux limites. Les paramètres utilisés pour calculer les simulations à 2000 m (trait plein bleu) et 3000 m (trait plein vert) sont donnés dans le Tableau 13. Les symboles (carrés et triangles) représentent les pseudo-mesures échantillonnées à chaque profondeur.

Ainsi, la cartographie du coût permet de retrouver les paramètres du modèle utilisés pour calculer les pseudo-données, à condition que six des huit paramètres soient fixés, c'est-à-dire supposés connus.

Nous avons réalisé la carte d'une autre section de la même fonction coût, toujours en fonction de K_des et K_ag (Figure 25c-d). Les valeurs de K_rp, K_rg, V_p, V_g et K_z sont toujours égales aux valeurs optimales. Mais cette fois, nous avons considéré que K_ad est mal connu, et que l'on fait une erreur en fixant sa valeur à K_ad = 4.10^-3 /j (Tableau 13). On constate que la forme de la section est significativement différente de celle de la section précédente. Le MG a migré vers le point de coordonnées (0,4900 ; 0,00430). Son coût vaut environ 23. Le minimum secondaire s'est également déplacé vers le point de coordonnées (0,6059 ; 0,00320), dont le coût est approximativement 67. Cette expérience montre qu'une faible erreur sur la valeur d'un paramètre supposé connu peut induire une erreur importante dans le positionnement du MG.

Par conséquent, dans le cas de l'assimilation de données réelles, la fonction coût doit être minimisée simultanément par rapport aux N_p = 8 paramètres de COLDO.

La Figure 26 montre une section d'une autre fonction coût, réalisée à partir d'un autre jeu de pseudo-données. Les conditions initiales, les conditions aux limites et la stratégie d'échantillonnage des simulations sont analogues à celles qui ont été décrites précédemment. Seul le vecteur des paramètres optimal est différent : il est donné dans le Tableau 13. Cette section dépend toujours de K_des et K_ag. Les six autres paramètres sont fixés à leur valeur optimale. On retrouve la présence de deux vallées, dont les axes sont parallèles à celui de K_ag. Mais elles ont tendance à se rejoindre pour n'en former qu'une seule. En outre, le coût du minimum secondaire (~ 0,22), de coordonnées (0,6388 ; 0,03090) est très proche de celui du MG. Cela signifie qu'il existe deux jeux de paramètres capables de générer des pseudo-données pratiquement identiques. Cette expérience démontre que dans le cas de problèmes inverses fortement non-linéaires, les difficultés posées par la minimisation de la fonction coût dépendent du jeu de paramètres recherché.

Figure 25. Sections bidimensionnelles de la fonction coût calculée avec les pseudo-données représentées sur la Figure 24. Pour la première section (a en 2D et b en 3D), les valeurs de K_ad, K_rp, K_rg, V_p, V_get K_zsont les valeurs optimales (Tableau 13). Pour la deuxième section (c en 2D et d en 3D), la valeur de K_ad est fixée à 4.10^-3 /j. Les valeurs de K_rp, K_rg, V_p, V_get K_z sont les valeurs optimales. Les abréviations sont : MG : Minimum Global, MS : Minimum Secondaire, et PS : Point de Selle.

Figure 26. Section bidimensionnelle de la fonction coût associée aux paramètres optimaux donnés dans le Tableau 13. Les valeurs de K_ad, K_rp, K_rg, V_p, V_get K_z sont les valeurs optimales. Les abréviations sont identiques à celles de la Figure 25.

Figure 27. Section bidimensionnelle de la fonction coût associée à un jeu de pseudo-données calculées avec COLDO et les paramètres optimaux donnés dans le Tableau 13. Les valeurs de K_ad, K_rp, K_rg, V_p, V_get K_z sont les valeurs optimales. Les abréviations sont identiques à celles de la Figure 25.

Enfin, nous avons réalisé une section d'une fonction coût associée à un jeu de pseudo-données calculé non plus avec PSyDyn, mais avec COLDO. Les paramètres optimaux, les conditions initiales, les conditions aux limites et la stratégie d'échantillonnage des simulations sont identiques à ceux utilisés pour fabriquer les pseudo-données de la Figure 24. La section obtenue en ne faisant varier que K_des et K_ag est différente de celle de la Figure 25a-b. Elle ne présente qu'une seule vallée étroite, qui est le bassin d'attraction du MG. Son axe est toujours parallèle à celui de K_ag. Pour les valeurs de K_des > 0,32 /j, la section montre un grand nombre de minima locaux. Nous pensons que ceux-ci sont liés au contrôle de la positivité des variables réalisé par COLDO (section 3.1.4) qui peut perturber la dynamique fondamentale des équations (Eqs. 2-5). Notons que COLDO peut être intégré pour des valeurs de K_des > 0,67 /j. Cette dernière section montre que les fonctions coût associées aux deux versions du modèle possèdent le même type de complexité.

Les expériences présentées dans la suite de cette partie sont basées sur la version semi-spectrale PSyDyn, en raison de son coût réduit en temps de calcul.

4.2.3 Influence de la structure du jeu de données assimil

éLa forme des fonctions coût, et par conséquent la possibilité de retrouver les paramètres caractéristiques d'un système réel sont largement influencées par la résolution temporelle et spatiale des données in situ, et par la nature des variables mesurées.

La dynamique non-linéaire d'un système réel est caractérisée à partir d'un ensemble d'échelles temporelles définies à partir de l'exposant de Lyapunov principal (Abarbanel et al., 1993; Abarbanel, 1996; Frede et Mazzega, 1999a-b; Mazzega, 2000 ; cf. section 3.2.2). Par exemple, l'horizon de prédiction quantifie la durée maximale pendant laquelle on peut prédire l'évolution temporelle du système. En théorie, la durée totale et la fréquence (temporelle) d'échantillonnage du système permettant de retrouver les paramètres doivent être déterminées en fonction de ces échelles temporelles. Lorsque la durée d'échantillonnage couvre plusieurs de ces échelles, les instabilités caractéristiques de la dynamique du système réel ont le temps de se manifester, et les différences entre les dynamiques associées à plusieurs vecteurs de paramètres du modèle sont détectables. Par conséquent, plus la durée sur laquelle les données in situ sont assimilées est longue, plus la résolution de la fonction coût est élevée, ce qui favorise l'individualisation des minima locaux (Mazzega, 2000). Toujours relativement aux échelles temporelles caractéristiques, l'augmentation de la fréquence d'échantillonnage revient à ajouter des points de comparaison entre les données in situ et les simulations, et permet de mieux distinguer le coût du minimum global relativement à celui des autres minima (Evensen et Fario, 1997; Mazzega, 2000). Malheureusement, les données biogéochimiques sont toujours bien trop peu nombreuses pour permettre le calcul de l'exposant de Lyapunov (Abarbanel et al., 1993). Mais la biogéochimie de l'océan est fortement influencée par les forçages physiques externes (Andersen et Prieur, 2000; Claustre et al., 2000). On peut penser que les échelles caractéristiques de ces forçages sont plus accessibles, étant donnée la relative abondance des mesures de la physique de l'océan et qu'elles contiennent des indices sur la durée et la fréquence d'échantillonnage des variables biogéochimiques (Lawson et al., 1996). Une autre approche possible pour calculer les échelles de temps caractéristiques consiste à les estimer à partir des modèles biogéochimiques, en supposant qu'ils reproduisent correctement la dynamique naturelle (Mazzega et Athias, 1998a-b).

Jusqu'à présent, aucun des articles consacrés à l'estimation de paramètres de modèles biogéochimiques ne considère l'influence de la densité (spatiale) des mesures in situ. En effet, la plupart sont basés sur l'étude de modèles à "zéro-dimension" d'écosystèmes planctoniques évoluant dans une couche mélangée supposée homogène (Fasham et Evans, 1995; Matear, 1995; Lawson et al., 1996; Spitz et al., 1998; Evans, 1999). Certains travaux utilisent des modèles décrivant l'évolution de ces écosystèmes dans une couche mélangée hétérogène verticalement, mais ils n'assimilent que des mesures (ou pseudo-mesures) de la surface de la mer. Leur objectif est de développer des méthodes d'assimilation des mesures de la couleur de l'océan (Prunet et al., 1996a-b; Gunson et al., 1999). Cependant, on peut penser qu'une augmentation de la densité des données permet de rejeter des vecteurs de paramètres générant des distributions irréalistes des variables d'état.

La nature et la diversité des types de variables observées contrôlent également la possibilité d'estimer les paramètres caractérisant le fonctionnement du système réel. Dans le cas de systèmes dynamiques non-linéaires où les variables sont très fortement couplées, l'assimilation d'observations relatives à une seule des variables d'état peut suffire à contraindre tous les paramètres (Mazzega, 2000). En effet, les couplages non-linéaires propagent les informations apportées par les observations vers toutes les variables d'état. Mais ce n'est pas toujours le cas. Par exemple, il est souvent impossible de contraindre toutes les variables d'état des modèles d'écosystèmes planctoniques par des données in situ. Matear (1995) et Prunet et al. (1996b) montrent que les données in situ dont ils disposent ne permettent d'estimer que des combinaisons linéaires des paramètres de ces modèles : ces problèmes inverses sont dits sous-déterminés. Du point de vue de la géométrie de la fonction coût, le manque d'observations indépendantes sur l'état du système réel induit une déformation du voisinage du MG. Au lieu d'avoir la forme d'un bol (dans le cas d'une section bidimensionnelle), il est étiré le long d'une vallée. On parle d'une dégénérescence de la fonction coût. C'est ce qu'on observe sur les fonctions coût calculées avec PSyDyn et COLDO (Figures 25 à 27) : l'axe du bassin d'attraction du MG est toujours parallèle à celui du paramètre K_ag. En d'autres termes, les prévisions du modèle sont peu sensibles aux variations des valeurs de K_ag et les mesures (ou pseudo-mesures) assimilées contraignent mal ce paramètre. Notons que dans le cas des problèmes inverses non-linéaires, l'axe de la vallée peut ne pas être rectiligne (Vallino, 2000). D'une façon générale, la sous-détermination peut être réduite en diversifiant les types d'observations.

Comme nous l'avons mentionné en comparant les figures 25a-b et 26 réalisées à partir de jeux de pseudo-données ayant la même structure (section 4.2.2(b)), la complexité de la fonction coût varie en fonction du vecteur de paramètres recherché. En effet, la dynamique du système au moment de l'échantillonnage dépend de ce vecteur de paramètres. Par conséquent, la structure du jeu de données (résolutions spatiale et temporelle, nature des variables mesurées) nécessaire pour l'estimer varie en fonction la dynamique. Autrement dit, la possibilité d'estimer les paramètres expliquant les mesures d'un système réel non-linéaire dépend de l'état du système, c'est-à-dire des paramètres eux-mêmes.

La possibilité d'estimer les paramètres caractéristiques d'un système réel dépend fortement des erreurs sur les mesures. Ce point sera étudié en détail dans la Partie III. Enfin, il est nécessaire que le modèle soit en mesure de reproduire la dynamique naturelle du système. Nous reviendrons sur cette question dans les Parties III et IV.

4.3 Conclusion du chapitre

L'estimation des paramètres du modèle non-linéaire COLDO expliquant les données in situ collectées aux sites EUMELI est un problème inverse fortement non-linéaire. Les fonctions coût qui lui sont associées sont très complexes, et possèdent de nombreux minima locaux dans l'espace de recherche des N_p = 8 paramètres.

La résolution de ce problème exige dans un premier temps de déterminer un algorithme permettant de minimiser de telles fonctions. Dans un second temps, nous devrons vérifier que la structure et la qualité du jeu de données collectées à EUMELI permet effectivement de contraindre les paramètres du modèle.

Chapitre 5 Inadéquation des méthodes inverses linéaires

Après une présentation synthétique des stratégies employées pour résoudre les problèmes inverses linéaires, ce chapitre démontre que le formalisme et les méthodes de minimisation utilisés dans ces situations ne sont pas appliquables à l'estimation des paramètres de COLDO. Cette démonstration est illustrée par deux exemples d'application de l'approche linéaire à notre problème (Athias et al., 2000a-b).

5.1 Caractéristiques de l'approche linéaire

5.1.1 Principe des méthodes d'optimisation

L'analyse présentée dans le chapitre précédent montre que la résolution d'un problème inverse linéaire revient mathématiquement à minimiser une fonction coût J de N_p variables dont les sections réalisées dans toutes les directions de l'espace des inconnues sont des paraboles (cf. cas 1 de l'Encadré 1 ; Figure 23a). La stratégie consiste donc à décomposer la recherche du MG du coût en plusieurs minimisations de fonctions paraboliques d'une seule variable. Ces fonctions sont des sections du coût faites dans des directions judicieusement choisies de l'espace de recherche des inconnues.

Les algorithmes de descente de gradient sont conçus pour minimiser des fonctions quadratiques (Figure 28). Il s'agit donc d'algorithmes de minimisation locale. Ils sont tous basés sur la même stratégie. Un point de départ K₀ est choisi dans l'espace des inconnues, puis une première direction de progression r₀ est définie. Ensuite, l'algorithme calcule un pas de progression l₀ adéquat dans cette direction. La progression va toujours dans le sens de la diminution du coût, et le point de départ est actualisé selon :

. (11)

La procédure est répétée jusqu'à ce que l'algorithme converge vers le minimum global du coût, K^opt, seul point où le gradient du coût s'annule : . Dans la mesure où ils reposent sur des évaluations du gradient du coût, ces algorithmes de minimisation sont dits déterministes.

Figure 28. Minimisation par un algorithme de descente de gradient d'une fonction coût parabolique associée à un problème inverse linéaire. K^opt est la solution du problème inverse et les K_k sont les estimations successives de la solution.

Il existe de nombreux algorithmes de descente de gradient. On distingue en particulier la méthode de Newton, avec ses variantes "Newton discrète", "Newton tronquée", "quasi-Newton", la méthode de Plus Forte Pente (PFP ou "Steepest Descent"), et la méthode du Gradient Conjugué (GC). Elles se distinguent principalement par la stratégie employée pour définir les directions de progression successives r_k. La méthode de PFP est la plus rudimentaire de ce point de vue. La direction r_k définie au point K_k est celle du gradient négatif du coût. Les méthodes de directions conjuguées garantissent la minimisation de toute fonction quadratique de N_p variables en N_p itérations au maximum. Les N_p directions r_k (0£ k£ N_p - 1) sont linéairement indépendantes et mutuellement conjuguées par rapport à la forme quadratique du coût, c'est-à-dire que :

(12)

où est Hes la matrice Hessienne du coût :

(13)

La première direction r₀ est choisie de la même façon que pour la méthode de PFP. Des descriptions détaillées de ces algorithmes sont disponibles dans le recueil de Press et al. (1986) et dans celui réalisé dans le cadre du Computational Science Education Project par le Département de l'Energie des Etats-Unis (CSEP ; http://csep1.phy.ornl.gov/csep.html). Il existe également des algorithmes de minimisation locale qui ne requièrent que des évaluations ponctuelles du coût, tels que celui du simplex et celui dit de Powell (Press et al., 1986), mais ils sont peu utilisés dans notre domaine. La méthode de Powell est comparable à une méthode de directions conjuguées, mais la définition des directions r_k (0£ k£ N_p - 1) n'exige pas d'évaluer les dérivées de J(K) (Evans, 1999). La minimisation est terminée lorsque le scalaire l_k est nul (Eq. 11).

Comme nous l'avons mentionné précédemment, dans beaucoup de situations les observations y^o n'apportent pas suffisamment d'informations pour estimer les inconnues indépendamment les unes des autres. Le problème inverse est sous-déterminé. Mais il est aussi possible que les observations contiennent des informations trop variées pour que le modèle puisse toutes les expliquer. Il n'est alors pas possible de trouver de solution au problème inverse : il est dit sur-déterminé. En fait, la plupart des problèmes inverses sont à la fois sous- et sur-déterminés. Certaines inconnues, voire combinaisons linéaires d'inconnues, ne sont pas du tout contraintes par les données. Elles sont dites non-observables, et la fonction coût montre des dégénérescences étirées parallèlement aux directions définies par ces combinaisons linéaires. Pour d'autres inconnues, aucune valeur ne permet d'expliquer les observations. Lorsque le problème inverse est linéaire, nous avons montré (cf. cas 1 de l'Encadré 1) que les N_o prévisions y_i équivalentes aux N_o observations y_i^o dépendent linéairement du vecteur des inconnues selon :

(14)

où H est une matrice correspondant au noyau des données (Menke, 1989). A partir de cette notation, la fonction coût de l'équation (9) s'écrit :

(15)

On montre que les dimensions et le rang de H, que l'on peut calculer par une décomposition en valeurs singulières, permettent d'identifier la sous- ou sur-détermination du problème (Menke, 1989; Wunsch, 1996). La décomposition de H en valeurs singulières sert aussi à repérer les combinaisons linéaires des inconnues qui sont contraintes par les observations, et à détecter les inconnues non-observables. On peut ainsi se limiter à l'estimation des seules inconnues observables. Enfin, la décomposition de H est utilisée pour déterminer les combinaisons linéaires des observations qui sont expliquées par le modèle ajusté. Cette approche algébrique revient à analyser les déformations du "bol" associé au MG (section 4.2.3).

5.1.2 Linéarisation de problèmes inverses non-linéaires

Dans le cas où le problème inverse est faiblement non-linéaire (par opposition à fortement non-linéaire), nous avons montré que les sections du coût dans différentes directions de l'espace des inconnues ont des formes de paraboles plus ou moins déformées (cf. cas 2 et 3 de l'Encadré 1 ; Figure 23b-c). Dans cette situation, les algorithmes de descente de gradient restent généralement applicables.

Figure 29. La linéarisation d'un problème inverse non-linéaire conduit à minimiser les paraboles tangentes à J(K) au niveau des solutions a priori calculées successivement à partir de K^prior (d'après Menke (1989)).

Dans le cas où le problème inverse est non-linéaire, le noyau des données H dépend des inconnues. La relation (14) devient :

(16)

L'approche linéaire reste applicable malgré la présence de minima locaux à condition que l'on ait une bonne connaissance a priori des inconnues, c'est-à-dire que l'on soit en mesure de définir une solution a priori K^prior qui se trouve à l'intérieur du bassin d'attraction du MG. Il est alors possible de linéariser la relation (16) autour de K^prior et de se ramener localement à un problème inverse linéaire (Figure 29). La forme linéarisée est appelée modèle linéaire tangent. La minimisation par un algorithme de descente de gradient de la parabole tangente au coût en K^prior fournit une meilleure solution a priori, autour de laquelle la relation (16) est à nouveau linéarisée pour effectuer une nouvelle itération. L'itération des phases de linéarisation et de minimisation conduit progressivement au MG. Ainsi, le problème inverse non-linéaire est décomposé en une succession de problèmes inverses linéaires locaux. Mais il est important de signaler que le succès de cette approche dépend directement du choix de K^prior. Si celui-ci est défini en dehors du bassin d'attraction du MG, la minimisation conduit à un minimum local (Figure 30).

Figure 30. Dans le cas où K^prior est trop éloigné de la solution K^opt, les minimisations successives des paraboles tangentes à J(K) peuvent conduire à un minimum local (d'après Menke (1989)).

Cette formulation basée sur la linéarisation de problèmes inverses non-linéaires est fréquemment employée en océanographie. Les algorithmes de minimisation locale utilisés sont variés. Ainsi, Murnane (1994) estime les paramètres d'un modèle linéaire du cycle des particules à partir de la méthode de PFP. Les méthodes de PFP, de Newton (Lawson et al., 1996; Prunet et al., 1996b; Spitz et al., 1998; Evans, 1999; Gunson et al., 1999), celle du GC (Schartau et al., 2001) interviennent souvent dans l'estimation des paramètres de modèles d'écosystèmes planctoniques. En particulier, Spitz et al. (1998), Gunson et al. (1999) et Schartau et al. (2001) ont recours à la méthode adjointe pour estimer les gradients du coût et des paraboles tangentes (Errico, 1997). Enfin, Eknes et Evensen (1997) utilisent la méthode des représenteurs (Bennett, 1992) pour calculer certains des paramètres d'un modèle d'Ekman 1-D.

5.2 Spécificité des problèmes inverses fortement non-linéaires

Rappelons que les problèmes inverses fortement non-linéaires correspondent à l'estimation des paramètres de modèles dont la dynamique est non-linéaire (section 4.2.2(a)). Comme nous l'avons montré dans le Chapitre 4, les fonctions coût qui leurs sont associées sont très complexes : elles possèdent de nombreux minima locaux et des points de selle. Ce sont autant de points où le gradient du coût est nul : ils vérifient donc le critère d'arrêt de la minimisation par un algorithme de descente de gradient. De plus, la sensibilité de la dynamique des modèles non-linéaires à la valeur des paramètres (section 3.2.2) ne permet pas de définir une solution a priori dont on soit sûr qu'elle se trouve dans le bassin d'attraction du MG. D'ailleurs, la largeur du bassin du MG dépend du rapport entre la durée totale d'échantillonnage et le temps caractéristique du développement des instabilités calculé à partir de l'exposant de Lyapunov principal du système (section 4.2.3). Autrement dit, ce type de problèmes inverses est non-linéarisable et l'approche inverse linéaire ne peut pas leur être appliquée. Certains auteurs l'appliquent malgré tout (Spitz et al., 1998) et pour s'affranchir de l'influence de la solution a priori sur le résultat de la minimisation, ils en essaient plusieurs et conservent le minimum dont le coût est le plus faible. Cependant, le nombre d'essais à effectuer pour trouver le MG peut être très élevé, et il doit être déterminé empiriquement.

Dans la mesure où l'on ne peut pas définir de solution a priori, on ne peut pas s'affranchir de la présence des minima locaux. Ils rendent impossible toute décomposition de la minimisation en des minimisations successives de sections. Il est donc nécessaire dans ce cas de recourir à un algorithme d'optimisation globale.

Les cartes des Figures 25a-b et 26 montrent que la forme de la fonction coût au voisinage du MG et du minimum secondaire est différente. La vallée du MG est plus large que celle du minimum secondaire. Cela signifie que la sous- ou sur-détermination du problème, et l'observabilité des paramètres, qui sont des propriétés globales du coût dans le cas linéaire, sont des propriétés locales du coût dans le cas non-linéaire. Elles ne peuvent être étudiées qu'au voisinage du MG. Cette dernière spécificité vaut pour tous les problèmes inverses non-linéaires, qu'ils soient ou non linéarisables.

5.3 Exemples d'applications de la théorie inverse linéaire à l'estimation des paramètres de COLDO

5.3.1 L'algorithme des moindres carrés non-linéaire généralisé

Tarantola et Valette (1982) ont formalisé la résolution des problèmes inverses non-linéaires basée sur la linéarisation autour d'une solution a priori (Figure 29). Ils utilisent le critère des moindres carrés et le formalisme de l'algèbre linéaire. Cet algorithme porte le nom d'Algorithme des Moindres Carrés non-linéaire Généralisé (AMCG). C'est la technique qui a été la plus utilisée pour estimer les paramètres du cycle des particules océaniques au cours des dix dernières années (Murnane, 1994; Murnane et al., 1990, 1994, 1996).

Nous avons montré que cet algorithme n'est pas applicable à l'estimation des paramètres du modèle COLDO, en réalisant des expériences d'inversions simulées ou expériences jumelles ("twin experiments"; Athias et al., 2000a). Il s'agit de vérifier si l'algorithme de Tarantola et Valette (1982) permet de retrouver le vecteur de paramètres utilisé pour calculer un jeu de pseudo-données précis. Le jeu de pseudo-données considéré est celui que nous avons décrit dans la section 4.2.2(b), et qui est représenté sur la Figure 24. Les expériences jumelles sont très fréquemment employées pour tester des méthodes inverses (Lawson et al., 1996; Spitz et al., 1998; Gunson et al., 1999; Vallino, 2000; Schartau et al., 2001). Elles permettent en effet de s'affranchir des difficultés liées aux erreurs de paramétrisation du modèle, et des difficultés liées aux erreurs sur les données dans le cas où les pseudo-données sont supposées parfaites. Elles sont également riches en information sur la façon dont on doit interpréter les résultats d'inversions. La suite de cette seconde partie est essentiellement basée sur des expériences de ce type.

Les différentes inversions simulées réalisées avec l'AMCG correspondent à des situations variées. En particulier, certaines reposent sur l'hypothèse fréquente selon laquelle la colonne d'eau est à l'état stationnaire, et d'autres prennent en compte la variabilité temporelle des mesures. Quelles que soient les hypothèses, l'AMCG ne permet jamais de retrouver le vecteur de paramètres optimal. Nous avons montré que le formalisme fondamentalement linéaire de cet algorithme n'est pas adapté à la forte non-linéarité de notre problème inverse.

Nous avons choisi de ne pas reprendre la démonstration dans ce manuscrit. Elle est décrite dans les sections 3 et 5 de l'article d'Athias et al. (2000a) qui est reproduit dans l'Annexe 4. Dans ce même article, nous avons également montré que la formulation du coût de l'Eq. (10) est mieux adaptée à la résolution de notre problème inverse.

5.3.2 La méthode du gradient conjugué non-linéaire

Nous avons également appliqué une méthode de descente de gradient à la minimisation de la fonction coût définie par l'Eq. (10). Il s'agit de la méthode du Gradient Conjugué (GC) non-linéaire : à partir d'une première solution a priori, un algorithme de GC (section 5.1) minimise des paraboles tangentes au coût de façon itérative (Figure 29). Il existe trois versions différentes du GC non-linéaire : celle de Fletcher-Reeves (Fletcher et Reeves, 1964), celle de Polak-Ribière et celle de Hertenes-Stiefel (Press et al., 1986 ; recueil du CSEP : http://csep1.phy.ornl.gov/csep.html). Nous avons choisi la première version, car c'est la plus employée. En particulier, Schartau et al. (2001) l'ont appliquée à l'estimation des paramètres d'un modèle d'écosystème planctonique. Nous avons utilisé le code développé par Gilbert et Nocedal (1992 ; http://www.ece.nwu.edu-/~rwaltz/CG+.html).

Figure 31. Minimisation de la section du coût représentée sur la Figure 25a-b par l'algorithme du gradient conjugué non-linéaire de Fletcher-Reeves (Fletcher et Reeves, 1964; Gilbert et Nocedal, 1992). Le losange rouge indique le point de départ (i.e. p^prior). Les points rouges symbolisent les mises à jour des solutions a priori, autour desquelles le problème est linéarisé. La minimisation s'achève sur le minimum secondaire (petite croix bleue) de la section, et non sur le minimum global (grande croix bleue). L'étoile bleue symbolise le point de selle.

Nous avons appliqué le GC non-linéaire à l'estimation de deux (K_des et K_ag) des huit paramètres de COLDO utilisés pour calculer les pseudo-données de la Figure 24 (Athias et al., 2000b ; Annexe 5). Les six autres paramètres sont supposés parfaitement connus. Cela revient à analyser la capacité de cet algorithme à minimiser la section représentée sur la Figure 25a-b. Le point de départ, de coordonnées (0,6 ; 0,04684) se trouve à l'intérieur de la vallée secondaire. La Figure 31 montre le trajet parcouru par l'algorithme. Après 171 évaluations du coût, la minimisation s'est arrêtée sur le minimum local situé dans la même vallée que la solution a priori, c'est-à-dire sur le minimum secondaire de la section. Cette figure est une illustration du schéma théorique de la Figure 30.

Le résultat de cette expérience est indépendant de l'algorithme de descente de gradient utilisé. Le principe des méthodes de minimisation locale n'est pas adapté à l'estimation des paramètres de COLDO à partir de mesures in situ parce que la dynamique non-linéaire du modèle ne permet pas de définir de solution a priori.

5.4 Conclusion du chapitre

Les méthodes inverses classiquement utilisées en océanographie sont basées sur une approche fondamentalement linéaire. Elles reposent toutes sur des algorithmes de minimisation locale.

La dynamique non-linéaire de COLDO rend impossible le choix de la solution a priori nécessaire pour linéariser le problème inverse associé à l'estimation des paramètres du modèle. Ce problème inverse fortement non-linéaire exige de recourir à un algorithme d'optimisation globale.

La stratégie que nous avons suivie pour sélectionner cet algorithme fait l'objet du chapitre suivant.

Chapitre 6 Sélection d'un algorithme d'optimisation globale

Nous avons choisi de comparer trois Algorithmes d'Optimisation Globale (AOG) :

le recuit simulé est utilisé en géophysique depuis le milieu des années 1980 (Rothman, 1985) et il est régulièrement employé tant en océanographie physique (Barth et Wunsch, 1990; Krüger, 1993) que biogéochimique (Matear, 1995; Vallino, 2000) depuis le début des années 1990,

l'algorithme génétique a la réputation d'être bien adapté aux problèmes d'estimation paramétrique (Goldberg, 1989). Il a déjà été appliqué en océanographie physique pour optimiser la stratégie de déploiement de bouées (Barth, 1992; Hernandez et al., 1995). Dans un travail contemporain du nôtre, Vallino (2000) l'a appliqué à l'assimilation de données dans un modèle d'écosystème planctonique à “ zéro dimension” ,

le TRUST (Terminal Repeller Unconstrained Subenergy Tunneling) est encore très peu employé en géophysique. Mais d'après ses auteurs, il serait l'AOG le plus rapide (Cétin et al., 1993).

Après avoir décrit chaque algorithme, nous les comparerons sur la base d'expériences d'inversions simulées. Les premières consisteront à analyser la capacité des AOG à minimiser la section 2-D du coût représentée sur la Figure 25a-b. Notre objectif est de sélectionner celui qui fournit le meilleur compromis entre une convergence rapide vers le MG et une simplicité d'application. Le travail présenté dans ce chapitre fait l'objet d'un article (Athias et al., 2000b) qui est reproduit dans l'Annexe 5.

6.1 Présentation de trois algorithmes d'optimisation globale

6.1.1 Le TRUST

Le TRUST est un algorithme déterministe, c'est-à-dire basé sur l'évaluation de dérivées de la fonction à minimiser. C'est aussi un algorithme dynamique qui se déplace à vitesse variable à l'intérieur de cette fonction. Il a été développé récemment par Cétin et al. (1993) et est encore peu connu. Aussi allons-nous en rappeler succinctement le fondement mathématique : celui-ci est illustré sur la Figure 32. Des descriptions plus détaillées sont proposées par Barhen et Protopopescu (1996) et Barhen et al. (1997).

Supposons dans un premier temps que la fonction coût à minimiser, J, ne dépende que d'une seule variable x dont les valeurs peuvent varier entre x_L et x_U. Au départ, l'une des bornes, x^* (x^* = x_L ou x_U), est utilisée pour définir une fonction de subénergie notée E_sub(x,x ^*), par une transformation non-linéaire de J :

. (17)

Dans cette expression, et a est une constante. Comme le montre la Figure 32, E_sub(x,x*) a les mêmes extrema que la fonction à minimiser et leur ordre relatif n'est pas modifié. D'après l'équation (17), E_sub(x,x*) tend vers zéro lorsque . Par conséquent, E_sub(x,x*) a la même forme que J(x) sauf au niveau des segments où J(x) est supérieur à J(x*), qui sont aplanis (Figure 32). Dans le cas où x* n'est pas un minimum local de J, l'exploration de l'intervalle [x_L , x_U] débute par l'intégration du système dynamique suivant :

(18)

à partir du point où e est une petite perturbation qui pousse le TRUST à l'intérieur du domaine de recherche. Ainsi, il descend le gradient de E_sub(x,x*), d'autant plus rapidement que la pente est forte, jusqu'à ce qu'il détecte un minimum local. Celui-ci est à son tour noté x* et sert à définir une nouvelle fonction de subénergie (Eq. 17). Mais celle-ci est plate au voisinage de x* (Figure 32). Cela peut aussi se produire au début de la minimisation, lorsque x_L ou x_U sont des minima locaux de J. Dans ces situations, un terme appelé repeller est ajouté à la fonction de subénergie, qui éjecte l'algorithme loin de x* :

(19)

où b est la force du repeller et u est la fonction de Heaviside ( si et sinon).

Figure 32. Principe de la minimisation globale par le TRUST suivant 4 cycles ((a) à (d); extrait de Cétinet al., 1993). Sur ces schémas, f(x)etcorrespondent respectivement à J(x) et mentionnées dans le texte. Le point de départ est x* = x_L . Ensuite, x₁ ^*, x₂ ^* et x₃ ^* sont les minima locaux détectés successivement par le TRUST, qui sont utilisés pour définir les fonctions de subénergie E_sub (x,x*), et sur lesquels sont définis les “repellers”. Enfin, x_GM ^* est le minimum global.

Le système dynamique contrôlant la progression de l'algorithme devient :

. (20)

Après avoir été éjecté de x*, l'algorithme traverse le plateau qui l'entoure. Ensuite, dès qu'il rencontre une vallée il descend à nouveau le gradient de E_sub(x,x*), jusqu'à ce qu'il détecte un nouveau minimum local, qui remplacera le précédent.

Ainsi, l'algorithme explore la fonction coût en alternant des phases de descente de gradient et des phases où il creuse des tunnels à l'intérieur des "monts" de cette fonction. Lorsqu'il atteint le MG, la fonction de subénergie qui est définie est constante. L'algorithme est alors éjecté du domaine de recherche (Figure 32).

Figure 33. Première minimisation de la section bidimensionnelle du coût par le TRUST. Il minimise la fonction j(a) obtenue en échantillonnant la section par une spirale d'Archimèdès discrète (petits points et tirets verts), à partir du losange rouge de coordonnées (0,6 ; 0,02342). La fonction j(a) et le gradient des fonctions de subénergie ont été évalués sur les points bleu clair. Les points rouges sont les minima locaux détectés par le TRUST. Le dernier (encerclé) est une première estimation du MG. Le vrai MG, le minimum secondaire et le point de selle sont symbolisés respectivement par la grande croix, la petite croix et l'étoile bleues.

Cet algorithme, conçu pour la minimisation globale de fonctions d'une seule variable, peut être appliqué à la minimisation de fonctions de plusieurs variables, en échantillonnant ces fonctions par une hyperspirale (Ammar et Cherruault, 1993). Ainsi, pour minimiser la section 2-D du coût (Figure 25a-b), nous l'avons échantillonnée par une spirale d'Archimèdès discrète (Figure 33) après avoir normalisé le domaine de recherche de façon à ce que les deux paramètres varient entre 1 et -1. On obtient ainsi une fonction approchée j, qui ne dépend que de l'angle a. La spirale est centrée sur le point de coordonnées (0,6 ; 0,02342) à l'intérieur de la vallée secondaire. La distance entre les spires et l'arc entre deux points de la spirale sont fixés empiriquement à 0,1. La section est couverte par 15,75 spires, dont certaines sortent nécessairement du domaine de recherche (Figure 33). Pour confiner la minimisation à ce domaine, la fonction coût est projetée symétriquement de part et d'autre des frontières. Les systèmes dynamiques successifs (Eqs. 18 et 20) sont intégrés par la méthode des différences finies. La constante a (Eq. 17) vaut 2 : c'est la valeur recommandée par Cétin et al. (1993). La force du repeller (b, Eq. 20) a été calculée empiriquement de façon à ce que l'algorithme s'éloigne de deux pas de spirale lorsqu'il est éjecté d'un repeller. L'arc associé à la perturbation e est fixé empiriquement à 0,025. Empiriquement toujours, on estime qu'un point est un minimum local du coût lorsque la norme du gradient est inférieure à 0,5.

6.1.2 Le recuit simulé

Le Recuit Simulé (RS) est un algorithme stochastique : la minimisation repose sur des processus aléatoires et n'exige que des évaluations ponctuelles de la fonction étudiée. Il est basé sur le modèle thermodynamique de la croissance des cristaux. Pour un matériau donné, la configuration des atomes dans un cristal parfait correspond un état d'énergie minimal. Pour obtenir un tel cristal, on peut tout d'abord chauffer le matériau à une température initiale T = T_o. Cet apport d'énergie permet le déplacement aléatoire des atomes et le passage à un état liquide amorphe. Ensuite, on diminue très progressivement la température : c'est la phase de recuit. Au cours du refroidissement, les atomes continuent à se déplacer aléatoirement. Toutes les nouvelles configurations conduisant à un diminution d'énergie sont réalisées. Celles qui induisent une augmentation d'énergie sont parfois opérées, avec une probabilité d'autant plus faible que la température est basse : elle est proportionnelle au facteur de Boltzman où DE est la différence d'énergie entre deux configurations, T la température et k_B la constante de Boltzman.

Kirkpatrick et al. (1983) ont initié l'adaptation de ce modèle à des problèmes d'optimisation globale. Le principe du RS est illustré sur la Figure 34. La fonction à minimiser, J(p), joue le rôle de l'énergie, et la température est remplacée par un paramètre de contrôle noté T. La probabilité qu'une augmentation du coût soit acceptée est définie à partir de la fonction de Metropolis f_M :

(21)

où p_ref et p^* sont respectivement l'ancien et le nouveau vecteur de paramètres évalués. Le vecteur p^* est accepté si est supérieur à un nombre d choisi aléatoirement entre 0 et 1. Le RS est décrit de façon détaillée dans le recueil du CSEP, par Barth et Wunsch (1990) et Krüger (1993).

Figure 34. Principe de la minimisation de la fonction coût J(p) par le recuit simulé. Les détails sont donnés dans le texte.

Nous avons utilisé le code disponible sur le site internet du CSEP (http://csep1.phy.ornl.gov/csep.html). Dans un premier temps, le domaine de recherche est normalisé de façon à ce que tous les paramètres varient entre -1 et 1. Ensuite, huit paramètres algorithmiques doivent être empiriquement ajustés (Krüger, 1993). Pour déterminer la température initiale T_o, on évalue le coût de 1000 vecteurs de paramètres obtenus en modifiant aléatoirement le vecteur initial choisi par l'utilisateur. On calcule ensuite la moyenne des augmentations du coût, <DJ⁺ >, et T_o est définie selon :

(22)

où c est la probabilité qu'un vecteur associé à un coût plus élevé que le précédent soit accepté. Nous l'avons fixée à 0,9. Le pas aléatoire maximal que l'algorithme peut réaliser à partir du vecteur de paramètres initial, s_o, est fixé à 1. La température T et la longeur maximale des pas aléatoires s diminuent par à-coups (Figure 34). Elles restent constantes jusqu'à ce que 200 vecteurs de paramètres aient été évalués ou que 100 vecteurs aient été acceptés. Il s'agit des seuils du recuit. Ensuite, T et s sont réduites de 10 %. L'exploration de la fonction coût s'arrête dès qu'un seuil vérifie les deux critères d'arrêt suivants :

aucune réduction absolue du coût n'a été enregistrée,

la proportion des augmentations du coût acceptées relativement au nombre total des augmentations essayées doit être inférieure à 1 %.

6.1.3 L'algorithme génétique

L'Algorithme Génétique (AG) est également un algorithme stochastique : il est basé sur des opérateurs dans lesquels interviennent des processus aléatoires. Ils simulent les mécanismes génétiques et ceux de la sélection naturelle. Comme le RS, l'AG n'exige que des évaluations ponctuelles de la fonction à minimiser. Chaque vecteur de paramètres p est considéré comme le génotype d'un individu. A partir des limites des valeurs réalistes de chaque paramètre, la valeur des paramètres est codée en base 2 sur une chaîne de bits. Les séries de bits des N_p paramètres sont mises bout-à-bout, dans un ordre a priori quelconque, et le résultat constitue le chromosome d'un individu haploïde. Les simulations générées à partir de p sont l'analogue de son phénotype. Du point de vue de notre problème inverse, p est d'autant plus performant que J(p) est faible. On considère donc que quantifie l'adaptation de l'individu à son environnement (ou "fitness"). Le principe de la minimisation est illustré sur la Figure 35. L'AG classique débute par la génèse d'une population aléatoire d'individus. Le coût associé à chacun d'eux est évalué : des couples de parents sont sélectionnés d'une façon qui peut, selon les méthodes, favoriser les individus les plus performants. Les chromosomes des parents sont recombinés par des "crossovers". Les crossovers les plus simples correspondent à un échange d'une portion de la chaîne de bits entre les chromosomes des parents. Ils induisent de petites modifications des vecteurs de paramètres dans l'espace de recherche et permettent d'explorer la fonction coût au voisinage des individus les plus performants. Chaque couple donne naissance à un ou plusieurs enfants. Les chromosomes des enfants peuvent à leur tour être modifiés par des mutations c'est-à-dire par des remplacements d'un certain nombre de "0" de la chaine de bits par des "1" et inversement. Les mutations favorisent les migrations de populations entre les vallées du coût, c'est-à-dire une exploration à plus grande échelle que les crossovers. Les enfants deviennent à leur tour parents. On montre que cette manipulation des gènes permet aux individus les plus performants d'avoir une descendance plus importante, et conduit finalement au meilleur individu. Des descriptions détaillées de différents types d'algorithmes génétiques sont proposées par Goldberg (1989; 1994) et Man (1997).

Figure 35. Principe de la minimisation par l'algorithme génétique. Les détails sont donnés dans le texte.

Nous avons utilisé le code développé par Carroll (1996 ; http://www.staff.uiuc.edu/~car-roll/ga.html). Plusieurs versions sont disponibles : nous avons choisi celle que son auteur juge la plus robuste. L'algorithme porte le nom de "micro-algorithme génétique". Cette variante a l'avantage de manipuler de petites populations de N_i = 5 individus, soit 20 à 40 fois plus réduites que celles d'un AG classique. A chaque génération, 5 couples de parents sont définis. Certains individus peuvent appartenir à plusieurs couples, et d'autres n'appartenir à aucun couple. Tous les segments des gènes (i.e. bits de codage) ont la même probabilité m_c = 0,5 d'être échangés entre les chromosomes des parents. Un seul enfant naît de chaque couple, et la probabilité que ses gènes subissent une mutation est nulle. A chaque nouvelle génération, l'algorithme évalue la convergence de la population. Pour cela, il calcule pour chaque individu le nombre des bits différents de ceux du meilleur individu. Si leur proportion est inférieure à 5 %, cette population disparaît. Elle est remplacée par 4 individus générés aléatoirement, auxquels s'ajoute le meilleur individu de la population précédente. Cela limite le piégeage de l'algorithme par un minimum local. La reproduction est élitiste : le meilleur individu est conservé à la génération suivante si aucun enfant ne l'a surpassé. L'algorithme s'arrête lorsqu'il a évalué générations.

6.2 Comparaison d'inversions simulées

Dans un premier temps, nous allons analyser la capacité des trois AOG à retrouver les valeurs de K_des et K_ag utilisées pour calculer les pseudo-données décrites dans la section 4.2.2(b), et représentées sur la Figure 24. La précision attendue sur les estimations de K_des et K_ag est respectivement de 10^-5 /j et de 10^-5 m³/mg/j. Les autres paramètres du modèle sont supposés parfaitement connus ; leurs valeurs sont rappelées dans le Tableau 16. La restriction à l'estimation de ces deux paramètres permet d'étudier graphiquement le comportement des algorithmes à l'intérieur de la section du coût représentée sur la Figure 25a-b, sur laquelle nous nous sommes déjà basés pour tester l'algorithme du GC non-linéaire (section 5.3.2)

Les résultats décrits ci-dessous dépendent en partie des algorithmes choisis parmis les nombreuses variantes du RS et de l'AG (Goldberg, 1989) et des paramètres algorithmiques. Pour la plupart des paramètres algorithmiques nous avons utilisé les valeurs recommandées et nous n'avons pas cherché à les optimiser. Par contre, les résultats sont indépendants de la norme choisie pour calculer la fonction coût (Eq. 10 ; section 4.2.2(b)).

6.2.1 Estimation de deux paramètres

(a) Performances du TRUST

Le TRUST a trouvé le MG de la section après 2019 évaluations du coût (Tableau 15), bien que le point de départ se trouve dans le bassin d'attraction du minimum secondaire (Figure 33). Nous avons en fait réalisé six minimisations successives sur des domaines de plus en plus restreints centrés sur l'estimation du MG à la minimisation précédente. Le taux de réduction du domaine de recherche est de 70 %. La Figure 33 montre la progression du TRUST lors de la première minimisation. Rappelons qu'il minimise la fonction j(a) obtenue en échantillonnant la section à partir du centre de la spirale discrète. Les points bleu clair représentent les points où j(a) ainsi que le gradient des fonctions de subénergie successives ont été évalués. Le TRUST a détecté deux minima locaux, dont les coûts décroissent depuis le centre de la spirale. Le dernier est une première estimation du MG : ses coordonnées sont (0,3318 ; 0,02106). La fonction de subénergie associée à j(a) en ce point est plate, donc le TRUST s'est ensuite simplement déplacé vers l'extrémité de la spirale. Pour gérer les vecteurs de paramètres associés à des instabilités numériques de PSyDyn (section 4.2.2(b)), nous avons artificiellement fixé leur coût à deux fois celui du dernier repeller. Le gradient du coût en ces points vaut le double du seuil défini pour repérer les minima locaux. De cette façon, le TRUST creuse un tunnel dans les zones où PSyDyn ne peut pas être intégré.

La Figure 36a montre l'évolution du coût au cours des six minimisations. Chacune est associée à un nuage de points. Le coût de l'estimation du MG correspond toujours au coût le plus faible pour chaque minimisation, sauf pour la première. Le point dont le coût est inférieur à celui de l'estimation du GM (encerclé sur la Figure 36a) est identifiable sur la Figure 33 : ses coordonnées sont (0,3318 ; 0,01581). En fait, la norme du gradient en ce point est supérieure au seuil de détection des minima locaux, donc le TRUST poursuit normalement sa progression. A cause de la nature discrète de la spirale, l'algorithme est passé par dessus la vallée du MG localement très étroite.

(b) Performances du recuit simul

éLe RS a identifié le MG de la section à partir de 22 627 calculs du coût opérés sur 156 phases de recuit (Tableau 15). Les 1000 premières évaluations sont consacrées au calcul de la température initiale, soit T_o = 30 498. La progression du RS dans la section est représentée sur la Figure 37.

Nous avons fait débuter le RS dans la vallée secondaire, sur le même point de départ que l'algorithme du GC non-linéaire (Figure 31). Il a exploré la totalité du domaine de recherche, avant de se concentrer dans le bassin d'attraction du MG, et n'a pas été piégé par le minimum secondaire. Une analyse attentive des résultats montre qu'un grand nombre d'évaluations sont redondantes. Lorsque la modification aléatoire du dernier vecteur évalué conduit le RS à un vecteur avec lequel PSyDyn est instable numériquement, ce dernier est refusé, et l'algorithme doit faire un nouvel essai. Si elle conduit à un vecteur situé au-delà des limites du domaine exploré, l'algorithme est ramené à l'endroit où la limite a été franchie. La Figure 37 montre que cette technique tend à faire stagner l'algorithme sur les frontières du domaine.

La Figure 36b montre l'évolution du coût au cours de la minimisation. Globalement, le coût diminue progressivement. On observe clairement que le RS accepte des augmentations du coût, mais avec une fréquence qui diminue avec la température. On constate également que le coût du dernier vecteur de paramètres évalué à la fin d'un seuil de recuit n'est pas forcément le plus faible. Cela s'explique par les critères qui contrôlent le passage d'un seuil à un autre (section 6.1.2). Entre le 50è^me et le 65è^me seuil, tous les coûts sont très proches. A ce moment, le RS explore la région centrée autour de (0,3 ; 0,027) où le gradient est très faible (Figure 37). Le MG est trouvé dès le 90è^me seuil : le premier critère d'arrêt de l'algorithme est vérifié. L'algorithme oscille ensuite autour de la solution, jusqu'à ce que la proportion des augmentations du coût acceptées soit inférieure à 1 % (deuxième critère d'arrêt).

Figure 36. Evolution du coût au cours de l'estimation de K_des et K_ag (a) par le TRUST: le coût des vecteurs évalués est représenté par les points verts. Les six points rouges sont les estimations du MG calculées au cours de six minimisations successives. Le point vert encerclé montre que l'estimation de la première minimisation n'est pas optimale; (b) par le recuit simulé: les points rouges représentent le coût du dernier vecteur accepté à la fin de chaque seuil de recuit. Les points verts symbolisent les coûts les plus faibles et les plus élevés pour chaque seuil; (c) par l'algorithme génétique: les points rouges et verts indiquent respectivement le coût des individus les plus et les moins performants de chaque génération.

Pour tester la robustesse du RS relativement au point de départ, nous avons réalisé deux autres minimisations, avec les mêmes paramètres algorithmiques. Elles débutent aux coins de coordonnées (0 ; 0) et (0 ; 0,04684). Les température de départ sont similaires à la précédente (T_o = 30 285 et T_o = 30 274 respectivement). Le RS retrouve le MG dans les deux cas, après 18 293 et 22 721 calculs du coût respectivement. Par contre, nous avons constaté que le RS peut être piégé par un minimum local si le point de départ est situé à l'intérieur du domaine de recherche.

Figure 37. Minimisation de la section bidimensionnelle du coût par le recuit simulé. Le losange rouge symbolise le point de départ de coordonnées (0,6; 0,04684). Les petits points verts sont les 21 627 vecteurs évalués. Les points bleus sont les derniers vecteurs évalués à la fin de chacun des 156 seuils de recuit. La minimisation s'est arrêtée sur le point rouge. Le MG, le minimum secondaire et le point de selle sont symbolisés respectivement par la grande croix, la petite croix et l'étoile bleues.

(c) Performances de l'algorithme génétique

L'AG a trouvé le MG en réalisant 2000 calculs de la fonction coût (Tableau 15). Comme pour le TRUST, nous avons réalisé deux minimisations successives, au cours desquelles 200 générations de 5 individus ont été évaluées. La Figure 38 montre le comportement de l'AG au cours de la première minimisation. Les individus de la première génération sont très dispersés. L'un d'eux est situé dans le bassin d'attraction du minimum secondaire. Malgré cela, l'algorithme n'a pas été piégé par ce minimum local. Il a exploré toutes les régions, même celles où PSyDyn est instable. En effet, lorsqu'un individu (i.e. vecteur de paramètres) susceptible de générer des instabilités est détecté, on lui affecte artificiellement une mauvaise adaptation à son milieu (i.e. un coût égal à 10 000), de façon à réduire au maximum sa descendance. Dans la mesure où les bornes du domaine servent au codage des paramètres en binaire, aucun individu ne peut naître en-dehors de celui-ci. La convergence de l'AG vers le voisinage du MG est très rapide, ce qui explique que tous les meilleurs individus ne sont pas observables sur la Figure 38. La première estimation est très proche de la solution : c'est le point de coordonnées (0,3207 ; 0,01612).

TRUST

Recuit Simulé

Algorithme Génétique

Optimisation de K_des et K_ag

Nombre d'évaluations du coût

2 019

22 627

2 000

Coût maximal évalué

3 278,3192

9 917,5037

7 571,6474

Coût final

0,0000

0,0000

0,0000

Optimisation des N_p = 8 paramètres du modèle

Nombre d'évaluations du coût

-

17 244

1 000

Coût maximal évalué

-

9 970,4787

8 111,3732

Coût final

-

94,7349

1,3092

Tableau 15. Résultats des expériences d'inversions simulées. On rappelle que les pseudo-données fabriquées à partir du modèle sont non bruitées.

Figure 38. Première minimisation de la section bidimensionnelle du coût par l'algorithme génétique. L'algorithme a évalué 1000 vecteurs de paramètres (petits points verts). La première génération de 5 individus est indiquée par les losanges verts. Les points bleus représentent les meilleurs individus de chacune des 200 générations. Le point rouge est la première estimation du MG. Le MG, le minimum secondaire et le point de selle sont symbolisés respectivement par la grande croix, la petite croix et l'étoile bleues.

La Figure 36c représente l'évolution du coût des individus les plus et les moins performants de chaque génération au cours des deux minimisations. On constate que le meilleur individu reste identique entre la 129è^me et la 200è^me génération : cela reflète la nature élitiste de la reproduction. La seconde minimisation a été réalisée sur un domaine centré sur la première estimation, et contracté de 90 et 98 % dans la direction de K_des et K_ag respectivement. Le choix de ce domaine est explicité par Athias et al. (2000b ; Annexe 5). Nous ne reviendrons pas sur ce point, car nous pourrons toujours nous contenter de minimisations sur 200 générations pour les inversions ultérieures. Le coût diminue très lentement à partir de la 240è^me génération, et le MG est détecté à la 368è^me génération.

6.2.2 Estimation de tous les paramètres du modèle

Il nous est rapidement apparu que la complexité du TRUST rend son application à l'estimation de plus de deux paramètres très laborieuse. Nous justifierons ce point en détail dans la section 6.3. Par contre, si l'on fait abstraction des éventuelles limitations liées au temps de calcul, l'estimation des huit paramètres du modèle par le RS ou l'AG ne pose pas plus de difficulté que celle de deux paramètres. Les deux inversions simulées suivantes comparent donc la capacité de ces deux algorithmes à retrouver les huit paramètres utilisés pour calculer les pseudo-données (Tableau 16). Les paramètres algorithmiques sont inchangés. Les intervalles de recherche des paramètres sont définis à partir des valeurs trouvées dans la littérature (Tableau 16).

Symbole

Valeur optimale (p^opt)

Intervalle de recherche

Source

Paramètres biogéochimiques

K_des (/j)

0,31940

[0 ; 2,2]

1

K_ag (m³/mg/j)

0,01597

[0 ; 0,22]

1

K_ad (/j)

0,00200

[0 ; 0,0137]

1

K_rp (/j)

0,05090

[0 ; 0,356]

1

K_rg (/j)

0,05090

[0 ; 0,356]

1

Paramètres physiques

V_p (m/j)

10,00

[0 ; 10]

2

V_g (m/j)

180,00

[0 ; 200]

2

K_z (m²/j)

1000,00

[25 ; 2000]

3

Sources : 1. cf. Tableau 14 ; 2. Whitfield et Turner (1987) ; 3. Zakardjian et Prieur (1994) ; L. Prieur, communication personnelle (1997).

Tableau 16. Délimitation des intervalles de recherche des huit paramètres du modèle à partir d'une compilation bibliographique.

La minimisation par le RS a été initiée avec un vecteur dont les composantes sont les valeurs minimales des paramètres. Le calcul de la température fournit T_o = 64 497. Le coût a lentement décru de ~395,78 à ~94,73 et l'algorithme s'est arrêté après 16 244 évaluations du coût réalisées sur 144 phases de recuit (Tableau 15). La Figure 39a montre que dès la 70è^me génération, il s'est trouvé piégé dans le bassin d'attraction d'un minimum local. Il est possible que nous aurions trouvé la solution en ajustant les paramètres algorithmiques, mais ce n'était pas notre objectif : nous recherchons un algorithme robuste.

Figure 39. Estimation des huit paramètres du modèle utilisés pour calculer les pseudo-données décrites dans la section 4.2.2(b). (a) Evolution du coût pendant la minimisation par le recuit simulé. Pour chaque seuil de recuit, les points verts représentent les coûts extrêmes, et les points rouges le dernier coût évalué à la fin du seuil. (b) Evolution du coût lors de la minimisation par l'algorithme génétique sur 200 générations, puis par l'algorithme du gradient conjugué non-linéaire sur 16 itérations. Les points rouges et verts correspondent respectivement aux individus les plus et les moins performants de chaque génération. (c) Estimation des paramètres par l'algorithme génétique couplé à l'algorithme du gradient conjugué non-linéaire. Pour chaque paramètre, la différence entre la valeur estimée (p_i) et la valeur optimale (p_i^opt ) est normalisée relativement à la valeur optimale.

L'évaluation de 200 générations par l'AG (soit 1000 évaluations du coût) a permis de rapidement localiser un vecteur dans le voisinage du MG dont le coût est ~1,31 (Tableau 15 ; Figure 39b-c). Nous avons constaté lors de l'estimation de K_des et K_ag que la convergence de l'AG dans le proche voisinage du MG est très lente. Par conséquent, au lieu de poursuivre la minimisation avec l'AG, nous avons amorcé une descente de gradient avec de l'algorithme du GC non-linéaire utilisé dans la section 5.3.2 (Gilbert et Nocedal, 1992) à partir de l'estimation calculée par l'AG. Le MG a été détecté après 741 calculs du coût supplémentaires, ce qui confirme que l'AG a bien détecté le bassin d'attraction de la solution. Pour comparaison, la poursuite de la minimisation par l'AG conduit à un coût de ~0,66 après 7250 calculs supplémentaires du coût.

6.3 Sélection

Les expériences décrites dans la section 6.2 montrent que les trois AOG permettent de retrouver les valeurs de K_des et K_ag utilisées pour calculer les pseudo-données non bruitées (Tableau 15). Contrairement à ce que l'on aurait pu attendre d'algorithmes de minimisation locale, ils n'ont pas été piégés par le minimum local de la section, bien que nous les ayions fait débuter à l'intérieur de la vallée secondaire. Ils n'ont pas non plus été piégés par le point de selle, et ils ont convergé malgré le faible gradient du coût dans le bassin d'attraction du MG. Cette section présente une comparaison du comportement des trois algorithmes dans le but d'en sélection un. Nous nous sommes basés sur des critères d'ordre très général de façon à pouvoir à terme appliquer cette approche à d'autres modèles biogéochimiques :

Les modèles biogéochimiques sont caractérisés par un grand nombre de paramètres - plusieurs dizaines généralement -. Le coût de l'algorithme, en terme d'effort de programmation et de temps de calcul, doit être compatible avec le nombre élevé des paramètres.

Les paramètres des modèles biogéochimiques sont soumis à une contrainte de positivité. Plus généralement, les domaines de recherche des paramètres sont bornés : l'algorithme doit permettre un gestion aisée des frontières.

L'algorithme doit être robuste si l'on veut généraliser son application à différents modèles biogéochimiques tout en s'affranchissant d'une phase d'ajustement laborieuse.

Il peut apparaître in fine que nous aurions pu anticiper certains défauts des algorithmes. En fait, leurs avantages et inconvénients interagissent fortement et d'une façon qui dépend du problème. Les tester sur des inversions simulées était donc une étape essentielle, qui nous a permis en outre de progresser dans la compréhension du problème inverse.

6.3.1 Evaluation du TRUST

La minimisation de la section bidimensionnelle par le TRUST est approximativement aussi coûteuse en terme de temps de calcul que celle faite par l'AG (Tableau 15). Mais le TRUST s'avère être très mal adapté au problème inverse que nous étudions.

Son défaut majeur provient de sa nature déterministe : sa convergence dépend directement de l'évaluation des dérivées de j(a). La dérivée première intervient dans les phases de descente de gradient (Eqs. 18 et 20 ; Figure 32). Nous avons montré (Figures 33 et 36) que le résultat de la minimisation est influencé par le choix du seuil de détection des minima locaux, dont la valeur doit être ajustée à la structure de la fonction à minimiser. En outre, nous avons calculé les gradients de j(a) par la méthode des différences finies. Nous pensons que cette méthode grossière devient rapidement insuffisante dans le cas de fonctions très irrégulières, telles que celle de la Figure 28. Celle-ci a été calculée à partir de la version non spectrale du modèle, que nous comptons utiliser pour l'assimilation des données réelles. Le calcul des gradients exige alors de recourir à des méthodes plus précises, mais aussi beaucoup plus lourdes à programmer, telle que la méthode adjointe (Spitz et al., 1998; Gunson et al., 1999; Schartau et al., 2001). Cela risque de rendre la programmation de la minimisation très laborieuse. De plus, la force du repeller b (Eq. 20) dépend en toute rigueur de la dérivée seconde au niveau des repellers a*. Nous avons simplifié l'algorithme de Cétin et al. (1993) en supposant que b est une constante, mais la validité de cette approximation est vraisemblablement dépendante du problème considéré.

Dans la mesure où les fonctions coût associées à l'estimation des paramètres des modèles biogéochimiques - très généralement non-linéaires - sont très complexes, et que nous n'avons pas directement accès à leurs dérivées, nous pensons que les méthodes déterministes sont d'une façon générale mal adaptées à ce type de problèmes inverses. En testant plusieurs méthodes inverses sur l'estimation des paramètres d'un modèle d'écosystème planctonique, Vallino (2000) aboutit à la même conclusion.

Si la convergence du TRUST original est rigoureusement démontrée dans le cas de la minimisation de fonctions continues d'une seule variable (Cétin et al., 1993), celle de notre version simplifiée appliquée à l'estimation de plusieurs paramètres n'est pas garantie. Rappelons que la plupart des paramètres algorithmiques ont dû être ajustés empiriquement, tels que ceux qui sont associés à la résolution d'échantillonnage de la spirale d'Archimèdès, b (Eq. 20) et e. Or ils dépendent étroitement de la structure de la fonction coût.

Plus généralement, l'application du TRUST à des problèmes concrets se révèle être très laborieuse. C'est un algorithme récent, dont aucun code n'est directement disponible dans la littérature ou sur internet. L'échantillonnage des fonctions de plusieurs variables par une hyperspirale (Ammar et Cherruault, 1993) pour se ramener à une fonction d'une seule variable devient vite délicat lorsque le nombre de variables augmente. En outre, la géométrie de la spirale rend très difficile la prise en compte des bornes du domaine de recherche. La projection de la fonction coût de part et d'autre des frontières devient également très complexe lorsque la dimension du problème augmente. Ces difficultés justifient que ne n'ayions pas testé le TRUST sur l'estimation des huit paramètres du modèle. Le TRUST est donc très mal adapté à l'estimation des nombreux paramètres des modèles biogéochimiques.

En conclusion, si le TRUST est un algorithme très séduisant d'un point de vue théorique, il est extrêmement délicat à appliquer. Cela expliquerait son utilisation encore très limitée à l'heure actuelle.

6.3.2 Evaluation du recuit simulé

A la différence du TRUST, le RS et l'AG sont des algorithmes stochastiques qui n'exigent que des évaluations ponctuelles des fonctions coût. Leurs bases conceptuelles sont telles que leur application n'est pas compliquée par l'augmentation du nombre de paramètres à estimer. D'une façon générale, les méthodes stochastiques sont mieux adaptées à l'estimation des paramètres des modèles biogéochimiques. Il faut noter cependant que leur convergence n'est que statistique et que, comme pour le TRUST, elle ne peut pas être rigoureusement garantie.

Le RS est appliqué depuis suffisamment longtemps pour que des codes soient directement disponibles dans la littérature ou sur internet. Le test de la minimisation de la section 2-D montre que s'il trouve le bassin d'attraction du MG, le RS est ensuite capable de localiser très précisémment le MG, même si le gradient local est faible. La technique mise en place pour limiter l'influence des instabilités numériques de PSyDyn semble efficace, dans la mesure où le RS se concentre rapidement vers les régions où le modèle est intégrable.

Cependant, le RS possède un certain nombre de lacunes. Tout d'abord, il est extrêmement coûteux : la minimisation de la section 2-D exige dix fois plus de calculs du coût que le TRUST ou l'AG (Tableau 15). Le temps de calcul pourrait peut-être être réduit en optimisant certains paramètres algorithmiques, mais certainement pas de façon significative car il est lié à la nature purement stochastique de l'algorithme. Aucune information sur les vecteurs déjà évalués n'est mémorisée, ce qui rend possible les redondances. Seule la diminution de la température (T) et du pas maximal de déplacement aléatoire (s) favorise statistiquement la convergence vers le MG (Figure 34). Ce défaut limite considérablement son application à l'estimation d'un grand nombre de paramètres. D'autre part, nous avons testé plusieurs méthodes pour maintenir le RS à l'intérieur du domaine de recherche, et aucune n'est réellement satisfaisante. Celle que nous avons choisie induit la stagnation du RS sur les frontières du domaine (Figure 37).

Enfin, le RS est un algorithme peu robuste. Le nombre de paramètres algorithmiques à ajuster est très élevé (section 6.1.2). Nous n'avons pas trouvé de règle - même empirique - qui permettrait de fixer objectivement leur valeur en fonction du problème à résoudre. Par exemple, la convergence dépend très fortement du schéma de décroissance de la température (Krüger, 1993). Or il existe un grand nombre de procédures empiriques pour fixer T_o qui produisent des résultats très variables. Nous avons pu constater en les testant qu'elles ne permettent pas toutes au RS de converger. Bien qu'il soit stochastique, sa convergence dépend du point de départ : comme le signalent les auteurs du recueil du CSEP ( http://csep1.phy.ornl.gov/csep.html) il vaut mieux choisir un point de départ situé sur la frontière du domaine exploré. Le fait que le RS ait été piégé par un minimum local lors de l'estimation des huit paramètres du modèle confirme son manque de robustesse.

6.3.3 Evaluation de l'algorithme génétique

Bien que son usage soit encore peu répandu, l'AG originel est très simple à appliquer. Si l'intérêt croissant pour les algorithmes basés sur les théories de l'évolution des espèces (globalement qualifiés d'algorithmes évolutifs ; Bäck, 1992, 1996; Bäck et Schwefel, 1993, 1996; Schoenauer et Michalewicz, 1997) conduit à un raffinement et à une complexité croissante, on trouve dans la littérature (Goldberg, 1989, 1994) et sur internet (Carroll, 1996, 1997) des versions simples et efficaces.

Figure 40. Cube associé à un schème de dimension 3. Le schème **0 désigne la base du cube (d'après Manet al., 1997).

L'AG peut en fait être qualifié de " quasi-stochastique" , ce qui lui confère trois avantages essentiels par rapport au RS. Tout d'abord, le fondement de la théorie des AG repose sur la manipulation de schèmes. Un schème est une description d'un hyperplan dans un espace à dimensions (Man et al., 1997). Prenons l'exemple d'un domaine de recherche pouvant être codé sur trois bits. Il peut être représenté par un cube dont la chaîne 000 est l'origine (Figure 40). Si l'on associe le symbole ‘*' au cas où la valeur du bit (0 ou 1) n'a pas d'importance, alors le schème **0 désigne la base du cube. Ainsi, la chaine de bits issue du codage d'un vecteur de paramètres correspond à la juxtaposition de schèmes. Cela signifie que lorsque l'AG évalue ce vecteur, il n'en retire pas qu'une information sur la valeur ponctuelle du coût : il en extrait une information sur les performances de plusieurs hyperplans impliqués dans la géométrie de la fonction coût. L'évaluation d'une population de vecteurs apporte donc une information statistique sur la géométrie de la fonction coût. La théorie des schèmes est à la base de l'hypothèse des briques élémentaires ("building block hypothesis" ). Les “ briques” désignent des schèmes de faible dimension, d'ordre faible (c'est-à-dire dont beaucoup de positions peuvent être désignées par le symbole ‘*') et très performants. Selon cette hypothèse, l'AG recherche le MG en juxtaposant les briques qu'il a identifiées et mémorisées au cours du run. L'accès à une information statistique sur la forme du coût, et la mémorisation partielle de cette information par les mécanismes génétiques expliquent la réduction du temps de calcul entre le RS et l'AG (Figure 14).

Ensuite, le codage des paramètres à partir de leurs valeurs extrêmes admissibles permet une gestion très aisée des domaines de recherche bornés. A l'intérieur de ce domaine, il est possible de modifier ponctuellement le coût pour que l'AG ne soit pas perturbé par les instabilités numériques du modèle (section 6.2.1(c)).

Les expériences décrites dans la section précédente montre que l'AG converge très rapidement vers le proche voisinage du MG, mais qu'ensuite sa progression est très lente. Nous verrons dans la Partie III que cette lenteur n'est pas un inconvénient majeur. En effet, lorsque nous utiliserons des données réelles entâchées d'erreurs nous devrons nous contenter du repérage des bassins d'attraction de certains minima locaux (section 7.1.2).

Comme pour tous les algorithmes de minimisation stochastiques, la convergence de l'AG ne peut pas être garantie. Les procédures de codage des paramètres, de sélection des parents, de crossover et de mutation exigent l'ajustement de plusieurs paramètres. Cependant, il nous a semblé à la lecture de Bäck et Schwefel (1993), de Goldberg (1994), de Carroll (1996 ) et de Schoenauer et Michalewicz (1997) que des règles empiriques mais robustes existent pour fixer leur valeur. Elles font d'ailleurs l'objet de recherches intenses à l'heure actuelle. Le succès de l'AG lors de l'estimation des huit paramètres du modèle est un argument en faveur de la robustesse du code de Carroll (1996 ; Figure 39b-c).

Néammoins, l'application de cette version de l'AG à l'estimation de plusieurs dizaines de paramètres, par exemple pour inverser un modèle d'écosystème planctonique, peut être limitée par le nombre élevé d'intégrations du modèle exigé. Une solution partielle consiste en l'évaluation en parallèle des individus d'une population (modèle maître-esclave, Schoenauer et Michalewicz, 1997). De plus, l'AG n'est qu'une branche des algorithmes évolutifs (Bäck, 1996). Un autre type d'algorithmes évolutifs, encore inappliqué en océanographie, est celui des stratégies évolutives. Il s'agit d'AG"intelligents" dont certains paramètres algorithmiques tels que le taux de mutation évoluent au cours de l'optimisation pour s'adapter à la structure du problème. Ils ont été conçus spécifiquement pour résoudre des problèmes d'estimation paramétrique fortement non-linéaires. Bäck et Schwefel (1993) comparent les différents algorithmes évolutifs sur l'optimisation de trois fonctions théoriques : la convergence des stratégies évolutives est toujours beaucoup plus rapide que celle des AG.

6.4 Conclusion du chapitre

En nous basant sur une série d'inversions simulées, nous avons montré que les AOG sont mieux adaptés à la résolution de problèmes inverses fortement non-linéaires que les algorithmes de minimisation associés à la théorie inverse linéaire (Chapitre 5). En effet, ils sont conçus pour minimiser des fonctions complexes possédant plusieurs minima locaux. Il est important de souligner que leur convergence est empirique et donc non garantie.

Les trois AOG que nous avons testé (TRUST, RS, AG) sont capables de retrouver deux des huit paramètres de PSyDyn utilisés pour fabriquer un jeu de données artificielles non bruitées, dont la structure reflète celle du jeu de données EUMELI. Ils se contentent d'une information a priori sur les inconnues sous la forme de leurs intervalles de valeurs possibles, et n'exigent pas de linéariser localement le problème inverse.

Ces tests montrent que d'une façon générale les algorithmes déterministes tels que le TRUST sont moins bien adaptés à l'estimation des paramètres biogéochimiques que les algorithmes stochastiques dont font partie le RS et l'AG. De plus, la complexité du TRUST rend son application à l'estimation de nombreux paramètres très laborieuse. Le RS s'avère être un algorithme très coûteux en temps de calcul et peu robuste. Enfin, l'AG est facile à appliquer, il est le plus robuste des trois AOG et il converge rapidement vers le bassin d'attraction du MG. Il est le seul capable de retrouver l'ensemble des huit paramètres optimaux. De nombreuses équipes de recherche nationales (dont l'Equipe Evolution Artificielle et Apprentissage de l'Ecole Polytechnique (EEAAX) de M. Schoenaurer, http://www.eeaax.polytechnique.fr/eeaax.html) travaillent au développement des algorithmes évolutifs d'une façon générale. Cela nous assure d'un éventuel soutient informatique pour les applications futures de notre approche.

La Partie III est consacrée à l'application de l'AG à l'assimilation d'un premier jeu de données EUMELI. Elle a pour but la poursuite du développement de notre approche inverse par la prise en compte des incertitudes des mesures in situ et des erreurs du modèle.

Back | Next

Titre: Th�se de V�ronique Athias-Lef�vre
Version: 1
Date: 21 ao�t 2001

Symbole	Pseudo-données des figures 24, 25 et 27	Pseudo-données de la figure 26	Source
Paramètres biogéochimiques
K_des (/j)	0,31940	0,53250	1
K_ag (m³/mg/j)	0,01597	0,01171	1
K_ad (/j)	0,00200	0,00390	1
K_rp (/j)	0,05090	0,05090	1
K_rg (/j)	0,05090	0,0509	1
Paramètres physiques
V_p (m/j)	10,00	10,00	2
V_g (m/j)	180,00	180,00	2
K_z (m²/j)	1000,00	1000,00	3

Site	Profondeur (m)	Traceurs	Estimations (/an)	Source
Modèles à deux compartiments dissous et particulaire
Pacifique nord-ouest	5 - 5000	²²⁸Th, ²³⁰Th	K_ad = 1,5 K_rp = 6,3	1
Bassins du Guatemala et du Panama	1000 - 4700	²²⁸Th, ²³⁰Th, ²³⁴Th	0,2 £ K_{ad £} 1,3 1,3 £ K_{rp £} 6,3	2
Modèles à trois compartiments, identiques à ceux de COLDO
Mer des Sargasses	40 - 2000	¹⁴³Nd, ¹⁴⁴Nd	K_ad = 4,7 ± 1,8 K_rp = 127 ± 50 K_ag = 55 ± 17 K_des = 182 ± 70	3
Pacifique nord-ouest et Mer du Japon	500 - 5500	²²⁸Th, ²³⁰Th, ²³⁴Th	0,2 £ K_{ad £} 0,9 0,4 £ K_{rp £} 1,9 0,1 £ K_{ag £} 2,4 148 £ K_{des £} 3600	4
Station P (Pacifique Nord)	0 - 4000	²²⁸Th, ²³⁰Th, ²³⁴Th	K_ad = 0,47 ± 0,09 K_rp = 0,97 ± 0,09 K_ag = 0,22 ± 0,01 K_des = 0,8 ± 0,2	5
Pacifique Equatorial et Station P (Pacifique Nord)	0 - 500	²²⁸Th, ²³⁰Th, ²³⁴Th	Pacifique Equatorial : 1 £ K_{ad £} 100 0,1 £ K_{rp £} 73,0 0,1 £ K_{ag £} 55,0 14 £ K_{des £} 5500	6
			Station P : 1 £ K_{ad £} 40 7 £ K_{rp £} 33 0,5 £ K_{ag £} 55,0
NABE^*	150 - 300	²²⁸Th, ²³⁴Th	0,51±12 £ K_{ag £} 33,2±128 108±207 £ K_{des £} 407±928	7
Atlantique nord-ouest	25 - 5500	²²⁸Th, ²³⁰Th, ²³⁴Th	4 £ K_{ad £} 6 3 £ K_{rp £} 77 2,1 £ K_{ag £} 3,6 136 £ K_{des £} 196	8
Station P (Pacifique Nord)	0 - 4000	²²⁸Th, ²³⁰Th, ²³⁴Th	K_ad = 0,74 ± 0,35 K_rp = 1,7 ± 0,9 K_ag = 0,3 ± 0,0 K_des = 175 ± 3580	9
NABE^*	100 - 400	²²⁸Th, ²³⁴Th	2,0±0,2 £ K_{ag £} 76±9 156±17 £ K_{des £} 524±74	10

	TRUST	Recuit Simulé	Algorithme Génétique
*Optimisation de K_des* et K_ag**
Nombre d'évaluations du coût	2 019	22 627	2 000
Coût maximal évalué	3 278,3192	9 917,5037	7 571,6474
Coût final	0,0000	0,0000	0,0000
*Optimisation des N_p = 8 paramètres du modèle*
Nombre d'évaluations du coût	-	17 244	1 000
Coût maximal évalué	-	9 970,4787	8 111,3732
Coût final	-	94,7349	1,3092

Symbole	Valeur optimale (p^opt)	Intervalle de recherche	Source
Paramètres biogéochimiques
K_des (/j)	0,31940	[0 ; 2,2]	1
K_ag (m³/mg/j)	0,01597	[0 ; 0,22]	1
K_ad (/j)	0,00200	[0 ; 0,0137]	1
K_rp (/j)	0,05090	[0 ; 0,356]	1
K_rg (/j)	0,05090	[0 ; 0,356]	1
Paramètres physiques
V_p (m/j)	10,00	[0 ; 10]	2
V_g (m/j)	180,00	[0 ; 200]	2
K_z (m²/j)	1000,00	[25 ; 2000]	3