Home
Problèmes Mal-posés - Publication Mehdi DANECH
Contents
1. 1 Y W Le dernier l ment de ce tableau est toujours mis gal z ro 27 vecteurNonNull tableau de dimension C_NombreNonNull contient la liste des indices des mon mes n tant pas consid r s comme nuls Le coefficient W du 198 mon me num rot s de 0 C_NombreVE est l l ment vecteurNonNull i du tableau vecteurW transformation Ce tableau de dimension C_NombreVE 1 x C_Degre 1 explicite la signification de 1 mon me En gros transformation tablit la liaison entre les variables d entr e celles dont les valeurs sont fournies par l utilisateur et les variables explicatives La i variable explicative est le produit des variable d entr e d indices transformation i n n variant de 0 Degre l en appelant variable d entr e d indice C_NonDefini 1 la constante 1 transformation i 1 3 7 1 1 signifie que la variable explicative est gale au produit des variables d entr e x1 x3 et x7 Le tableau transformation est bord en haut et droite par des termes de valeur C_NonDefini 1 Ces termes servent lors du calcul de la pr vision 2 2 D claration de fonction Est ensuite d clar e une fonction appel e formula lt Ordre du mod le gt qui permet de calculer une approximation Cette fonction n cessite en entr e un vecteur de type float et correspondant aux valeurs d
2. 26 1 LE FICHIER saosaoa ni det ainsi nt 26 2 LE FICHIER SOURCE de 26 2 1 D CLARATIONS DE VARIABLES eee 26 2 2 D C ARA TION DE FONCTION 28 2 3 EXPLOITATION DU FICHIER Crainn E E A AE A Ae 28 DIR ARE PEER T CR 29 LES PREVISION a nent tn ten ae 29 2 LA MOD LISATION RS 29 3 L INFERPR TATION ea 30 3 1 R CUP RATION DES R SULTATS eee 30 3 2 AUTR S OUTILS INT RESSANTS 31 ANNEXE ina AE O E A OTETO nanas 35 BIBLIOGRAPHIE 36 1 Introduction L objet de ce rapport est d introduire le lecteur aux m thodes de r solution de probl mes mal pos s et de lui montrer en quoi cette m thode utilis e ici dans le cadre du logiciel ATLAS de la soci t SOFRESUD est plus avantageuse que les m thodes classiques base de r gression Cette tude s ins re dans le cadre de notre travail de r flexion demand par la DSCR sur une nouvelle g n ration du dispositif Bison Fut On introduira dans un premier temps la notion de probl me mal pos pour ensuite s int resser leurs m thodes de r solution et ce que celles ci peuvent apporter la r solution d un pro
3. 12 ATLAS ordre 2 ATLAS ordre 1 6000 5000 4000 3000 trafic 2000 1000 jour du mois Erreur L R el E ATLAS ordre 2 ATLAS ordre 1 Heure 15 trafic Erreur L 11 20 R el ATLAS ordre 2 4 ATLAS ordre 1 6000 5000 4000 3000 trafic 2000 1000 0 O N 0O O N 19 jour du mois Erreur 9 Comparaison ATLAS R gression On compare ici diff rentes utilisations d ATLAS Ordre 1 et Ordre 2 entre eux puis avec une r gression classique 9 1 Description du support de la comparaison Pour la comparaison on a cherch cr er un mod le qui d termine pour une heure donn e en avril le trafic routier un l avance au p age de Saint Arnoud et cela uniquement partir de donn es calendaires On a donc cr 24 mod les diff rents avril avril _ avril H23 Les mod les effectivement utilis s lors de comparaison correspondent aux heures 4 6 8 10 12 15 18 20 et 23 Les variables utilis es pour la description d crites Annexe 4 sont au nombre de 29 et sont principalement des variables binaires servant rep rer des v nements calendaires d buts de week end de cong scolaire 12 Pour ATLAS a s par pour chaque heure les donn es en trois paquets les ann es 1986 1991 c
4. problems SIAM J Sci Comput Vol 14 N 6 1487 1503 November 1993 M R Trummer method for solving 1ll posed linear operator equation SIAM J Number Anal Vol 21 N 4 pp 729 737 August 1984 L Eld n An algorithm for the regularization of ill conditioned banded least squares problems SIAM J Sci Stat Comput Vol 5 N 1 pp 237 254 March 1984 B Cattan Etude de la m thode du maximum d entropie sur la moyenne Application la synth se d ouverture optique Rapport d option de l Ecole Polytechnique promotion 1993 2 Like Nous remercions M G Thauront pour nous avoir aiguill sur cet ouvrage 36
5. op rateur de normalisation R z IIz z ll utilis lorsque l on recherche une solution de Az u qui soit normale z La m thode dite de l entropie consiste trouver parmi les solutions v rifiant yll2 lt celle qui maximise l entropie s z Xx In 7 7 Z 2 x tant une approximation initiale de la solution Il existe encore beaucoup d autres m thodes La r solution de chacun de ces probl mes fournit une solution approch e de Az u poss dant les propri t s de stabilit recherch es 6 Convergence de la m thode de r gularisation de Tikhonov 6 1 Notion d op rateur On consid re l quation Az u o est un op rateur d un espace dans un espace U Si l op rateur inverse pest pas continu et qu on ne dispose pas de la valeur exacte mais de u v rifiant d u u lt la solution approch e Z A u ne peut videmment pas tre consid r e comme une approximation de lt D finition Un op rateur est appel op rateur r gularisant pour l quation Az dans le voisinage de u s il v rifie les propri t s suivantes 1 3 6 gt 0 tq R u soit d fini sur gt 0 x u e U I d u u lt 2 il existe une fonction telle que Ve gt 0 26 0 61 tel que 0 lt 6 gt d ZexsZs lt 5 2 us Cette d finition suppose pas que l op r
6. Pour effectuer une mod lisation un ordre plus grand que 1 ATLAS consid re tous les mon mes de degr inf rieur ou gal l ordre de la mod lisation C_NombreVE repr sente le nombre de ces variables C_NombreNonNull Parmi ces mon mes un certain nombre sont intrins quement nuls ou constants et certains peuvent tre deux deux proportionnels ATLAS rep re ces mon mes et ne s en servira plus dans la suite de ses calculs C_NombreNonNull repr sente le nombre de mon mes n ayant pas t s supprim s et servant effectivement dans le polyn me ATLAS ne rep re pas les colonnes colin aires et se contente de celles qui sont deux deux effectivement proportionnelles 2 1 2 D claration de tableaux ecartType tableau de dimension 1 contient pour chacun des mon mes la valeur de l cart type Le dernier l ment du tableau est gal l cart type de la grandeur expliquer moyenne tableau de dimension C_NombreVE 1 contient la valeur moyenne de chacun des mon mes Le dernier l ment est gal la valeur moyenne de la grandeur expliquer Valeur moyenne et cart type sont calcul s partir de l ensemble des donn es contenues dans le fichier d apprentissage vecteur W tableau de dimension C_NombreNonNull 1 contient pour chacun des mon mes prenant effectivement part au polyn me de mod lisation la valeur du coefficient W dans la formule
7. DU SUPPORT DE LA COMPARAISON 12 9 2 COMPARAISON ENTRE LES VALUATIONS L ORDRE 2 ET L ORDRE ssisssssessesseeseeresesesrrssrrsses 13 9 3 COMPARAISON ENTRE ATLAS ET UNE R GRESSION CLASSIQUE esse eenesneeenneeneesnmeesnneenne 14 GRAPH OUE N a a ee diese us 16 10 ETUDE DU CHOIX DU COEFFICIENT 17 10 1 ERREUR SUR 1 D APPRENTISSAGE 17 10 2 ERREUR SUR 1 DE 17 10 3 ERREUR SUR 1 DE 18 LO CONCLUSION 18 11 CONCLUSION SUR L INT R T DE LA M THODE DE R GULARISATION ss 20 ANNEXE E nE E SAES EEE EEO ES S ASKE EEES ESE etats tes 21 L OBJET DU LOGICIEL 21 2 MODED EMPLOL 21 2 1 FICHIERS terne rene T 21 2 2 COMMANDES DE L INTERFACE 23 2 3 FICHERS DE 24 3 REMARQUES DIVERSES SUR L UTILISATION DE ATLAS 24 ANNEXE
8. apporte pas une grandeur pertinente 3 2 4 totale C est la somme des contributions de toutes les variables explicatives dans lesquelles appara t une variable d entr e donn e Elle caract rise donc l importance de cette variable d entr e 3 2 5 Exemples 3 2 5 1 Liste des dix contributions pr pond rantes pour l heure 13 10 416 16 28 415 15 28 216 32 pour l heure 15 0 416 15 28 215 8 28 16 28 _ 8 0095 22 33 Contribution 3 2 5 2 Variation des coefficients en fonction de l heure coefficient 16 coefficient 26 4 16 coefficient 15 coefficient 28 15 28 Contribution 34 4 Description des 29 variables explicatives case 0 VarExTLHebdoSin jour mois annee case 1 VarExTLHebdoCos jour mois annee case 2 numero_serie case 3 VarExTLMoisCos jour case 4 VarExTLMoisSin jour case 5 WEAbpresPont numero_ serie case 6 VWEApresPont numero_serie case 7 VarExTLDebRep numero_ serie case 8 VarExTLLDebRep numero_ serie case 9 VarExTLFinRep numero_ serie case 10 VarExTLVFinRep numero_ serie variables specifique a des mois case 11 debut WECongesScolaires numero_serie fevrier case 12 VdebutWECongesScolaires numero_serie case 13 LdebutWECongesScolaires numero_serie case 14 SLdebutWECongesScolaires numero_ serie pont case 15 debut WELong numero_ s
9. apporte une pr cision sensiblement meilleure que l ordre 1 tout en conservant des temps de calculs supportable Augmenter l ordre entra ne une croissance exponentielle des variables explicatives possible Il faut donc s assurer que ce nombre reste inf rieur au nombre d l ments de l espace d apprentissage et que les temps de calculs ne deviennent pas trop grands 23 2 2 6 Sp cifier le param tre de r gularisation lambda permet de fixer la valeur du param tre de r gularisation c est dire la sensibilit du mod le trouv par rapport aux donn es fournies en entr e lambdamin et lambdamax ordermin et ordermax indiquent ATLAS les bornes l int rieur desquelles 11 recherchera le param tre de r gularisation optimum 2 2 7 Lancer l apprentissage et r aliser la pr vision go permet de lancer l apprentissage puis de r aliser la pr vision fin de cette op ration les erreurs et obtenues en apprentissage en r gularisation et en pr vision sont mesur es et affich es l cran 2 3 Fichiers de sortie ATLAS fournit en sortie deux fichiers un fichier texte et un source en C appel s respectivement lt Pr fixe gt lt du mod le gt txt et lt Pr fixe gt _ lt ordre du mod le gt C 2 8 1 Le fichier texte Ce fichier est une recopie du fichier de pr vision auquel est ajout une derni re colonne constitu e des valeurs que le
10. conduit une bonne approximation de cet Le choisit sera alors celui qui optimise cette approximation 7 Description d taill e de la m thode employ e par ATLAS Le logiciel ATLAS repose sur la m thode de r gularisation de Tikhonov cherche donc minimiser la fonctionnelle AZI 2 o et u repr sentent un ensemble de donn es historiques que l on fourni au programme et o est un r el fourni par l utilisateur ATLAS peut cependant d terminer automatiquement la constante id ale l aide d une m thode similaire la m thode GCV voqu e plus haut et qui est plus pr cis ment d crite au chapitre 10 Les donn es historiques que l on fournit au logiciel sont divis es en trois ensembles l ensemble d apprentissage il comprend les donn es sur lesquelles seront effectu es les calculs et qui constitue en fait la matrice l ensemble de g n ralisation constitu de donn es historiques qui auraient pu priori faire partie de l ensemble d apprentissage mais que l on a mises part et qui servent orienter les algorithmes de convergence internes Pour une efficacit optimale cet ensemble doit tre environ 4 5 fois plus petit que le pr c dent l ensemble de pr vision est celui sur lequel est effectu la pr vision L un des travaux de l utilisateur consiste donc s parer les deux premiers ensembles Cette s paration ne n cessite pas de
11. faible nombre d individus pris en compte pour le calcul de ces erreurs 30 pour le mois d Avril 95 Les heures 12 15 et 20 montrent une meilleure pr cision du mod le l ordre 2 mais on peut encore consid rer les diff rences de 4 6 1 1 et 5 7 comme encore non significatives L erreur du mod le l ordre varie entre 15 et 46 L erreur du mod le l ordre 2 varie entre 15 et 3190 En conclusion Lorsque le mod le l ordre 2 est plus pr cis que celui l ordre 1 1 l est souvent de mani re tr s significative Dans les autres cas on peut consid rer ces deux mod les comme quivalents Ce mod le est de plus beaucoup plus r gulier dans ses pr visions que le mod le l ordre 1 L ordre 2 appara t donc comme plus int ressant exploiter Remarquons l importance du nombre de variables explicatives qui doit tre inf rieur au nombre d l ments du fichier 13 d apprentissage pour une mod lisation optimum Si ce nombre de variables explicatives devient trop grand lorsqu on augmente le degr ou le nombre de variables d entr e les erreurs la pr vision augmentent de mani re significative 9 3 Comparaison entre ATLAS et une r gression classique 9 3 1 ATLAS l ordre 1 On compare d abord la r gression classique avec ATLAS l ordre 1 Le nombre de variables explicatives restant le m me la seule diff rence entre ces deux m thodes r side dans la tech
12. mod le a pr vues pour chacun des vecteurs constituant le fichier de pr vision 2 83 2 Le source Il s agit d un source directement exploitable dans un programme en et qui contient les r sultats de la mod lisation 3 Remarques diverses sur l utilisation de ATLAS 24 Ne pas terminer une session ATLAS autrement les commandes quit ou exit En effet si on sort de mani re trop brutale le programme refuse de se relancer nouveau et informe plus de licence Il est alors n cessaire d arr ter puis de relancer le serveur Ce qui s effectue de la mani re suivante D marrer Param tres Panneau de configuration ADMS SOFRESUD Stop puis Launch puis Ne pas imposer 0 comme valeur de Cela cause des probl mes d ex cution du programme et ne fournit aucun r sultat int ressant ATLAS doit toujours tre accompagn du Fichier Formula C qui permet la g n ration de l un des fichiers de sortie Son absence dans le r pertoire entra ne une erreur d ex cution 25 2 Description des fichiers de sortie ATLAS fournit en sortie deux fichiers diff rents un fichier texte nomm lt Pr fixe gt _ lt Ordre de mod le gt txt et un fichier contenant un source en appel lt gt lt du mod le gt C Voici une description d taill e du contenu de ces deux fichiers 1 Le fichier texte Ce fichier est une recopie du fichier d
13. pr cautions particuli res si ce n est que l ensemble de g n ralisation doit tre le plus possible repr sentatif du comportement syst me ATLAS poss de aussi d autres caract ristiques le distinguant un peu plus d un logiciel de r gression classique la capacit d effectuer la recherche en consid rant non seulement les variables explicatives propos es par l utilisateur mais aussi les combinaisons de celles ci jusqu un degr choisi arbitrairement par l utilisateur ce qui permet une mod lisation plus fine la s paration des donn es historiques en deux ensembles un ensemble d apprentissage sur lequel sont effectu s les calculs et un ensemble de g n ralisation qui sert optimiser et orienter la convergence de l algorithme de minimisation de la fonctionnelle 8 Application de ATLAS la pr diction court terme Voici quelques exemples des pr dictions horizon un an effectu es par ATLAS l ordre 2 et l ordre 1 pour le mois d avril 1995 aux heures 8 12 15 et 20 On a indiqu de plus les erreurs sur chacun des trois espaces apprentissage g n ralisation et pr vision Cette erreur correspond la racine carr e de la moyenne des erreurs quadratiques R el ATLAS ordre 2 ATLAS ordre 1 Heure 8 6000 5000 4000 trafic 6 0 O Q N N N LO jour du mois Erreur 10
14. sensible aux conditions initiales Celles ci n tant plupart du temps connues qu avec une pr cision finie on observe alors un caract re al atoire la solution qui peut para tre insupportable lors d une utilisation pratique des r sultats cette solution peut du fait de l incertitude sur les donn es ne pas tre math matiquement d finie Comme on veut malgr tout un r sultat il faut rechercher parmi les non solutions de ce probl me celle qui r pond le mieux notre attente il faut donc arriver caract riser cette attente de fa on plus pr cise Les m thodes de r solution de probl mes mal pos s fournissent coup s r une solution unique au probl me pos Celle ci peut tre un peu moins fid le que la solution du probl me classique mais elle poss de la propri t d tre stable c est dire d tre moins sensible de faibles variations des conditions initiales entra nant par l une plus grande robustesse des r sultats 4 En quoi la pr vision court terme est elle un probl me mal pos INRETS DART dans le cadre d une r flexion men e autour d une nouvelle g n ration de Bison Fut doit se pencher sur les mod les de pr vision du trafic routier horaire un an l avance partir de donn es uniquement calendaires L tude pr sente s est effectu e sur le p age de Saint Arnoud pour lequel on dispose des donn es du trafic horaire pour chacun des jours de ce
15. INSTITUT NATIONAL DE RECHERCHE INRETS SUR LES TRANSPORTS ET LEUR S CURIT Cl ment FOREST Mehdi Danech Pajouh Probl mes Mal pos s Un exemple d application la pr vision court terme Mars 1998 SOMMAIRE INTRODUCTION 3 2 QU EST QU UN PROBL ME MAL POS sssunmenenmneneneenenneenns 4 2 1 NOTIONS DE PROBL MES BIEN ET MAL POS S sers cecee 4 2 2 EXEMPLES DE PROBL MES MAL POS S seen esceeesnneceneeesnnessnnneenneescnnesnneesenns eme 4 3 QU APPORTENT LES M THODES DE R SOLUTION DE PROBL MES MAL POS S 9 5 4 EN QUOI LA PR VISION COURT TERME EST ELLE UN PROBL ME 5 5 6 EXEMPLES DE M THODES DE R SOLUTION ssseseeeneeneeemnnnrnnennmnnnnnereneree 6 CONVERGENCE DE LA M THODE DE R GULARISATION DE 7 6 1 NOTION D OP RATEUR 7 6 2 R GULARISATION DE 7 6 3 M THODE SIMPLE POUR LA D TERMINATION DU COEFFICIENT DE 9 7 DESCRIPTION D TAILL E DE LA M THODE EMPLOY E PAR ATLAS 9 8 APPLICATION DE ATLAS LA PR DICTION COURT TERME meeeeens 10 9 COMPARAISON ATLAS R GRESSION sum 12 9 1 DESCRIPTION
16. ar le choix d une constante dite constante de r gularisation commande LAMBDA sa robustesse c est dire sa sensibilit de petites variations du jeu de donn es fourni ATLAS simultan ment applique ce mod le un jeu de variable explicatives C est sa fonction de pr vision 2 Mode d emploi 2 1 Fichiers d entr e L utilisateur doit fournir trois jeux de donn es au logiciel constituant les espaces d apprentissage de g n ralisation et de pr vision C est partir des donn es contenues dans l espace d apprentissage que le logiciel va cr er le mod le optimal L espace de g n ralisation sert contr ler le sur apprentissage c est dire la trop grande sp cificit du mod le obtenu par rapport aux donn es fournies ou encore sa robustesse Pour des r sultats optima le fichier d apprentissage doit tre environ cinq fois plus grand que le fichier de g n ralisation de plus les donn es qu ils contiennent doivent tre distinctes Le fichier de pr vision sera celui sur lequel sera appliqu le mod le calcul par ATLAS 21 2 1 1 Format des fichiers Les fichiers fournis devront se pr senter sous la forme de fichiers textes txt Chacune des lignes des fichiers correspond une observation Elle est compos e d une liste des variables explicatives s par es les unes des autres par des tabulations et est termin e par la valeur de la grandeur expliquer Pour le fic
17. ateur 0 soit univoque et il existe en fait une grande diversit d op rateurs r gularisants Un tel op rateur est donc capable de fournir une approximation de 2 aussi pr cise que l on veut pour peu que l on dispose d une pr cision suffisante sur Le probl me de recherche d une solution approch e de Az stable vis vis de faibles variations du second membre se r duit donc 1 rechercher un op rateur r gularisant 2 d finir le param tre de r gularisation 6 2 R qularisation de Tikhonov On nonce sans les d montrer les r sultats justifiant la m thode de r gularisation de Tikhonov Cette m thode consiste prendre pour solution du probl me Az u la solution de min 2112 On suppose que l quation AZ u n admet qu une seule solution Zex 6 2 1 Fonction stabilisatrice Soit Q z une fonctionnelle positive continue d un sous ensemble de dense sur On dit que Q est une fonctionnelle stabilisatrice si v rifie 2 appartient au domaine de d finition de b V d gt Q l ensemble des z tels que Q z lt d est un compact Observons que l op rateur z 117112 est bien videmment stabilisateur 6 2 2 Existence d une solution min 2 2 2 Soit l ensemble des solutions possibles de et Q z une fonctionnelle stabilisante d finie sur Th or me Soit un op rateur
18. ation normale du logiciel et il n est pas possible de les dissocier On peut cependant d sirer lorsqu on veut effectuer une pr vision s affranchir de l tape de recherche du polyn me si l op ration d j t effectu e une fois En exploitant le fichier 1 est possible de mettre la main sur les coefficients du polyn me g n r par ATLAS Si le tableau variables explicatives contient la valeur des variables explicatives correspondant l v nement pour lequel on veut effectuer une pr vision le programme suivant r alise cette pr vision et met sa valeur dans la variable prevision include stdio h include stdlib h include lt Pr fixe gt lt Ordre du mod le gt C Chemin et nom du fichier source main float variables_explicatives Nombre_de_variables_en entr e 29 float prevision Partie du programme initialisant variables_explicatives prevision formula lt Ordre du mod le gt amp variables_explicatives 3 L interpr tation L interpr tation consiste en l analyse des r sultats fournis par ATLAS On va d abord montrer comment atteindre ces r sultats puis comment s en servir pour obtenir d autres chiffres int ressants 3 1 R cup ration des r sultats d ATLAS Les r sultats de la mod lisation tant contenus dans le fichier source en le plus simple consiste faire cette r cup ration l int rieur d un programme C Pour cela il f
19. aut P inclure le fichier de sortie l int rieur de son propre programme via l instruction include lt gt lt du mod le gt C Rappelons 1 1 la formule permettant d effectuer l estimation de la grandeur Y l aide des variables explicatives Xi produit d un certain nombre de variables d entr e X X W Y i Voici une liste des r sultats directement accessibles C_NombreVE repr sente le nombre de variables explicatives moyenne i repr sente la valeur moyenne de la variable explicative X pour les vecteurs fournis dans le fichier d apprentissage C est un tableau de type float ecartType i repr sente la valeur de cart type de la variable explicative X pour les vecteurs fournis dans le fichier d apprentissage C est un tableau de type float vecteurW i repr sente la valeur du coefficient W pour la variable explicative d indice vecteurNonNull i C est un tableau de type float 30 Notons que ce coefficient W n est d fini que pour les variables explicatives non identiquement nulles l int rieur de l espace d apprentissage d o l utilisation du tableau vecteurNonNull moyenne C_Nombre VE repr sente la valeur moyenne de la grandeur expliquer Y pour les vecteurs fournis dans le fichier d apprentissage ecartType C_NombreVE repr sente la valeur de l cart type de la grandeur expliquer Y pour les vecteurs f
20. bl me On d crira dans ses grandes lignes ce logiciel en s attardant plus pr cis ment sur la m thode de r solution de Tikhonov qu il utilise et dont on fournit une bauche de justification Apr s un exemple des r sultats issus de cette approche on les comparera avec ceux obtenus par une r gression classique On s int ressera enfin aux m thodes employ es par ce logiciel pour fixer de mani re automatique la valeur du coefficient de r gularisation afin de savoir s il est possible d am liorer ce choix On conclura enfin l tude sur les avantages que pr sente la r solution par la m thode des probl mes mal pos s sur d autres m thodes de r solution plus classiques L annexe propose un mode d emploi succinct du logiciel ATLAS de mani re faciliter son utilisation L annexe 2 d crit plus pr cis ment les fichiers fournis en sortie par ce logiciel L annexe 3 expose quelques m thodes d exploitation du logiciel passant entre autre par l exploitation des fichiers de sortie 2 Qu est ce qu un probl me mal pos 2 1 Notions de probl mes bien et mal pos s R soudre un probl me num rique c est trouver sa solution z partir des donn es ou conditions initiales u z Ce probl me est dit correctement pos s il poss de les propri t s suivantes 1 pour tout l ment ueU il existe une solution zEeF 2 la solution est d finie de fa on unique 3 le prob
21. continu de dans U Quels que soient u U et gt 0 il existe un l ment z qui minimise la fonctionnelle M z u IIAz ull 2 XQ 7 c est dire tel que min M 2 0 z u Posons z ce qui est toujours possible le th or me affirmant l existence i 6 2 3 Caract re r gularisant de R Th or me Soit Ze solution de AZ Us AZex u Alors Ve gt 0 deux fonctions continues non n gatives et non d croissantes sur 0 telles que 02 9 lt 1 60 lt tq Y lt 60 62 6 05 d u u lt 7 7 lt avec Z R u L op rateur R est donc bien r gularisant au voisinage de En fait R est r gularisant pour tout u U En rappelant le caract re stabilisateur de 72117112 on bien la validation de la m thode de r gularisation de Tikhonov 6 3 M thode simple pour la d termination coefficient de r gularisation Une difficult des m thodes de r gularisation r side dans le choix de la valeur du param tre Il existe une grande vari t de m thodes permettant d optimiser ce choix reposant sur une tude attentive du probl me pos Il existe toutefois une m thode empirique tr s simple mettre en uvre appel e en anglais Generalized cross validation GCV L id e consiste mettre de c t l une des donn es du probl me et consid rer que la valeur optimale de
22. e d erreur sur l espace de g n ralisation Heures 0 6 8 10 et 15 Elle peut aussi tre situ e en dessus Heure 2 ou en dessous Heure 20 Ne pouvant conna tre d avance aucune caract ristique de cette courbe on est contraint de rabattre pour sur le choix de l ordinateur c est dire celui qui minimise l erreur sur l espace de g n ralisation 10 4 Conclusion Lorsqu on demande ATLAS de d terminer tout seul la valeur id ale de la valeur fournie est celle pour laquelle la valeur de l erreur sur l espace de g n ralisation est minimum Compte tenu de l information disponible sur l espace de pr vision et du fait que l espace de g n ralisation est constitu d v nements potentiels cette valeur para t comme la meilleure utiliser 18 Erreur Erreur en fonction de pour chacun des trois espaces Heure 0 Lambda Heure 15 Heure 8 5 Erreur g 3 6 10 Erreur A 8 8 8 8 Erreur 2 y gt 0 9 o R amp o Apprentissage G n ralisation Pr vision 19 11 Conclusion sur 1 1 de la m thode de r gularisation Par rapport aux r gressions classiques les m thodes de r gularisation sont plus pr cises et pr se
23. e pr vision fs txt auquel est ajout une derni re colonne constitu e des valeurs que ATLAS a pr vues pour chacun des vecteurs constituant le fichier de pr vision Il poss de la forme suivante grandeur grandeur variables explicatives r elle pr vue liste des vecteurs Les premi res colonnes sont identiques celles du fichier de pr vision fs et la derni re contient le r sultat de la pr vision 2 Le fichier source C C est un fichier susceptible d tre inclus dans n importe quel programme C Il est compos de deux parties une partie compos e de d clarations de variables une partie consistant en une d claration de fonction Le squelette de ce fichier est contenu dans le fichier Formula 2 1 D clarations de variables Le fichier contient un certain nombre de d clarations de variables servant retrouver le polyn me de mod lisation 26 2 1 1 D clarations de constantes Ces constantes sont d finies l aide d un instruction define Elles sont donc utilisables par tout programme situ dans le m me bloc C_NonDefini Vaut 1 Lorsque dans la suite des d clarations un terme n est pas d fini on met sa valeur 1 Cette constante sert acc l rer la fonction de calcul de la pr vision C_Degre Degr du polyn me de mod lisation Ordre de la recherche C_NombreVE Nombre de variables explicatives
24. erie case 16 VdebutWELong numero_ serie case 17 FinWELong numero_ serie case 18 LFinWELong numero_ serie debut de conges en semaine case 19 debutCongesScolaires numero_ serie case 20 LdebutCongesScolaires numero_ serie premier WE de conges scolaires case 21 premier WE numero_serie case 22 Vpremier WE numero_serie case 23 LpremierWE numero_ serie case 24 SLpremierWE numero_ serie case 25 VdebutWELong numero_serie 1 case 26 LdebutCongesScolaires numero_ serie 1 case 27 VarExTLAnneeCos jour mois annee case 28 VarExTLAnneeSin jour mois annee 35 Bibliographie Une tr s bonne introduction aux probl mes mal pos s est pr sente dans l ouvrage de A Tikhonov M thodes de r solution de probl mes mal pos s qui reste malheureusement assez difficile rencontrer Le reste de la bibliographie provient essentiellement de SIAM Society for Industrial and Applied Mathematics et notament de 1 parution J Sci Stat Comput qui consacre r guli rement quelques articles au probl mes mal pos s A Tikhonov V Ars nine M thodes de r solution de probl mes mal pos s Editions Mir 1976 P C Hansen Truncated singular value decomposition solutions to discrete ill posed problems with ill determined numerical rank SIAM J Sci Stat Comput Vol 11 N 3 pp 503 518 May 1990 P C Hansen D P O Leary The use of L curvein the regularization of discrete
25. es variables d entr e pour la pr vision d sir e et fournit en sortie un r el de type float gal la valeur de cette pr vision 2 3 Exploitation du fichier C Ce fichier est utilisable facilement dans n importe quel programme via l instruction include du pr compilateur suffit d ins rer au d but du source l instruction include lt NomDuFichier gt C La fonction et toutes les variables qui y sont d clar es sont alors utilisables dans la suite du programme 28 3 EXPLOITATION DES RESULTATS On peut exploiter ATLAS de trois mani res diff rentes pour la pr vision mod lisation pour l interpr tation 1 La pr vision La pr vision reste l usage principal du logiciel ATLAS ce pour quoi il a t con u R aliser une pr vision correspond l exploitation du fichier texte de sortie Pour r aliser ce fichier ATLAS recopie le fichier de pr vision fs txt auquel il ajoute une colonne contenant la pr vision obtenue pour chacun des vecteurs composant le fichier de pr vision Une lecture de la derni re colonne de ce fichier permet donc de conna tre les r sultats de la pr vision 2 La mod lisation Pour effectuer une pr vision ATLAS consid re les fichiers d apprentissage et de g n ralisation ts et gs et d termine un polyn me qu il applique ensuite au fichier de pr vision fs Ces deux tapes s effectuent l une apr s l autre lors d une utilis
26. ession classique par la pr sence du terme en Ce terme permettant d assurer l existence d un minimum pour la fonctionnelle ainsi que sa stabilit caract rise l loignement que l on est pr t tol rer entre le mod le cherch et celui qui aurait t d termin par une r gression classique Un grande valeur de est th oriquement souhaitable dans le cas d un syst me tr s chaotique une valeur faible est souhaitable lorsque le syst me tudi est tr s r gulier Le programme peut soit utiliser la valeur de souhait e par l utilisateur soit rechercher la valeur id ale de ce param tre l int rieur d un intervalle d sign Par une tude pour diff rentes valeurs de des erreurs du mod le d termin par le logiciel par rapport chacun des trois espaces apprentissage g n ralisation et pr vision on a cherch savoir de quelle mani re il d terminait la valeur id ale de et si il existait un moyen d am liorer ce choix on n a pas tudi ces erreurs pour une valeur de gale 0 car ATLAS n tant pas pr vu pour un tel fonctionnement les r sultats obtenus sont sans signification 10 1 Erreur sur l espace d apprentissage Pour les cinq heures tudi es la courbe d erreur sur l espace d apprentissage pr sente des aspects tout fait similaires Cette courbe cro t avec et cette croissance est de plus en plus forte quand s approche de 0 Cela semble en co
27. h rence avec le fait que caract rise l loignement entre le mod le recherch et celui minimisant les moindres carr s 10 2 Erreur sur l espace de g n ralisation Pour les cinq heures tudi es la courbe d erreur sur l espace de g n ralisation pr sente des aspects relativement semblables D une valeur assez lev e aux alentours de 0 l erreur d cro t fortement pour atteindre un minimum correspondant des valeurs de comprises entre 1 et 5 Cette erreur augmente alors l g rement avec part pour l heure 0 cette erreur est toujours sup rieure l erreur sur l espace d apprentissage 17 On remarque que pour chaque heure tudi e la valeur du optimal calcul e par l ordinateur correspond au minimum de cette courbe d erreur sur l espace de g n ralisation On en d duit que lorsqu on lui laisse le choix le logiciel recherche parmi les valeurs de contenues dans l intervalle de recherche celle qui minimise l erreur sur l espace de g n ralisation 10 3 Erreur sur l espace de pr vision On aimerait trouver un moyen de d terminer minimisant l erreur sur cet espace de pr vision Les courbes d erreur sur l espace d apprentissage en fonction de sont de trois types courbes d croissantes ex Heures et 2 courbes croissantes ex Heure 6 courbe d croissante puis croissante ex Heures 8 10 15 et 20 Cette courbe peut croiser la courb
28. hier de pr vision FS la pr sence de cette valeur est n cessaire au bon fonctionnement du programme mais n est pas utilis e elle peut permettre apr s coup d effectuer des comparaisons pr vision r alit et on peut tr s bien la remplir de mani re quelconque ex avec des 0 A noter que l on ne peut se passer de ce fichier de pr vision ATLAS besoin de sa pr sence m me s il n est compos que d un vecteur nul grandeur variables explicatises apprendre liste des vecteurs 0L SRE De tels fichiers peuvent tre cr s partir d Exel ou de Word en utilisant la commande Fichier Enregistrer sous de fichiers Texte seulement ou encore l aide de n importe quel diteur de texte 2 1 2 Conventions sur le nom des fichiers d entr e Les noms des fichiers devront tre de la forme lt Pr fixe gt ts pour le fichier d apprentissage lt Pr fixe gt gs pour le fichier de g n ralisation lt Pr fixe gt fs pour le fichier de pr vision Il suffit alors d indiquer au programme le pr fixe commun aux trois noms par la commande data data avril_H10_ indique qu on travaillera sur avril_H10_ts txt avril_H10_gs txt et avril H10_FS txt Les commandes ts gs et fs permettent cependant de sp cifier pour chaque phase et de mani re ind pendante le fichier que l on d sire utiliser fs avril_H11_fs txt indique que la pr vision se fera
29. hode de r solution par r gression classique n est pas satisfaisante Lorsque la matrice est mal conditionn e les r sultats sont beaucoup trop sensibles de faible variations des donn es initiales 5 Exemples de m thodes de r solution Les m thodes de r solution voqu es ici sont appel es m thodes de r gularisation Ces m thodes consistent introduire dans le probl me une information a priori sur la solution recherch e G n ralement au lieu de chercher min 72 012 ce qui correspond l approximation des moindres carr s on cherche min 2 12 2 7 caract rise l information apport e et o gt 0 est un r el appel coefficient de r gularisation et caract risant l importance qu on apporte cette information Plus ce coefficient est grand plus est importante lors de la r solution l influence du terme en 2 En pratique la valeur de ce r el est le plus souvent tr s petite devant les autres grandeurs types du probl me peut tre de diff rents types norme L ou L R z 112112 ou 122 ex r gularisation de Tikhonov utilis e typiquement lorsque les matrices sont mal conditionn es ou lorsqu il existe une infinit de solutions au probl me pos op rateur type d riv ou son quivalent discret R z IILzll ou Az utilis en restitution d image lorsqu on veut introduire l id e d une corr lation entre plusieurs pixels
30. l me est stable sur les espaces F U c est dire qu une variation infinit simale du second membre ne va pas perturber la solution plus que de mani re infinit simale Une approximation de la solution est aussi une solution approch e Ou encore gt 0 2 7 36 gt 0 tq d u u lt 2 Z lt et repr sentant les espaces d appartenance de 7 et d repr sentant indistinctement les distances sur ces deux espaces Les conditions 1 et 2 caract risent sa d termination math matique la condition 3 sa d termination physique ainsi que la possibilit d emploi des m thodes num riques de sa r solution partir de donn es approch es Les probl mes qui ne poss dent pas ces propri t s sont appel s probl mes mal pos s 2 2 Exemples de probl mes mal pos s Un exemple classique de probl me mal pos est la d rivation d une fonction u t connue approximativement On montre que la r solution de l quation 5 7 5 95 u x est mal pos e b s agit d une int grale dite de Fredholm que l on trouve lorsqu on s int resse au probl me inverse de la diffusion de chaleur 51 est une matrice non inversible la r solution de Az u est un probl me mal pos 3 les m thodes r solution de probl mes mal pos s La r solution de probl mes mal pos s pr sente plusieurs difficult s la solution peut tre tr s
31. lassique 2 fois contre 4 En conclusion Sauf pour l heure 23 o cela est discutable la m thode de r gularisation est soit plus pr cise soit quivalente une r gression classique Son usage est donc plus int ressant chapitre 10 fournit plus de pr cision sur cette d termination 14 9 3 2 ATLAS l ordre 2 Une utilisation d ATLAS l ordre 2 combine deux modifications par rapport une m thode de r gression classique une recherche de la solution un plus haut degr que pour la r gression simple ici un polyn me l ordre 2 contre un ordre 1 pour la r gression simple l utilisation de la m thode de r gularisation pour r aliser l approximation L ordre 2 correspond l utilisation courante d ATLAS Le choix de la valeur de est laiss l ordinateur On observe pour les heures 4 6 15 et 23 la r gularisation est plus pr cis que le r gression classique et ce de mani re tr s significative Les diff rences de taux d erreur sont de 18 11 20 et 14 pour les heures 10 12 et 20 elle reste encore le plus pr cis mais de mani re moins significative Les diff rences de taux d erreurs sont de 1 5 et 5 pour les heures 8 et 18 la r gression classique est la plus pr cise mais les diff rences de 0 et 1 ne sont pas significatives Le taux d erreur de la r gression varie entre 48 et 15 Celui de la r gularisation varie ent
32. nique de mod lisation r gression pour l une et r gularisation pour l autre L apport majeur des techniques de r gularisation est d apporter une plus grande robustesse au mod le g n r Le choix de la valeur du coefficient de r gularisation a t laiss l ordinateur Celui ci choisit l int rieur d un intervalle donn ici 0 100 la valeur de qui minimise l erreur du mod le lorsqu il est appliqu sur l espace de g n ralisation On observe pour les heures 6 et 15 la r gularisation fournit une pr vision beaucoup plus pr cise qu une r gression normale Les diff rences entre les taux d erreurs tant respectivement de 11 et 19 pour les heures 4 8 10 12 et 18 la r gularisation est plus pr cise que la r gression classique mais les diff rences de taux d erreur ne sont pas significatives 2 3 2 1 0 et 0 20 heures la r gression est un peu plus pr cise que la r gularisation mais la diff rence d erreur n est pas significative 1 23 heures la r gression est plus pr cise que la r gularisation et la diff rence des taux d erreur est de 6 On peut se poser la question quant au caract re significatif de cette diff rence Les variations du taux d erreur de la r gularisation et de la r gression apparaissent comme quivalents les erreurs de la m thode de r gularisation montant cependant moins souvent au dessus de 30 que la r gression c
33. ntent de plus l norme avantage de la robustesse des r sultats les variations de ceux ci sont en effet peu sensibles de faibles fluctuations des donn es du probl me Le gain de pr cision de cette approche est encore plus significatif lorsqu elle est combin e avec une augmentation mesur e des variables explicatives Ces m thodes pr sentent cependant une difficult majeure qui d courage bien souvent sa mise en uvre elles n cessitent en effet la d termination par l utilisateur d un coefficient dit de r gularisation et dont d pend la justesse des r sultats La d marche du logiciel ATLAS consistant en une s paration des donn es d tude en deux blocs dont l un sert de garde fou est satisfaisante et simple mettre en application Pour des probl mes tels que celui de la pr vision court terme pouvant tre consid r s comme des probl mes mal pos s les solutions base de m thodes de r gularisation apparaissent pratiques performantes et qu il serait int ressant de consid rer 20 1 Mode d emploi 1 Objet du logiciel ATLAS est un logiciel qui extrapole un jeu de donn es variables explicatives grandeur apprendre pour essayer d en tablir un mod le optimal sous la forme d un polyn me de variables explicatives Il est laiss l utilisateur la possibilit de d terminer la pr cision du mod le en fixant le degr du polyn me g n r commande ORDER ainsi que p
34. onstituent l espace d apprentissage les ann es 1992 1994 constituent l espace de g n ralisation l ann e 1995 constitue l espace sur lequel sera effectu e la pr vision Pour la r gression on a fourni une variable explicative suppl mentaire constante la r gression de mani re ce que le mod le g n r puisse ne pas passer par l origine Ce mod le est cr partir des ann es 1986 1994 l ann e 1995 servant comparer les r sultats 9 2 Comparaison entre les valuations l ordre 2 et l ordre 1 Une augmentation de la valeur de l ordre augmente de fa on importante le nombre de variables explicatives de fa on rechercher une plus grande finesse du mod le Pour les fichiers d AVRIL 95 ce nombre passe de 29 variables pour l ordre 1 175 variables pour l ordre 2 ce qui est maximal compte tenu du fichier d apprentissage qui contient 178 l ments On a effectu une comparaison de la pr cision des pr visions obtenues pour l ordre 1 et pour l ordre 2 On observe Pour les heures 4 et 23 le mod le obtenu par l ordre 2 est beaucoup plus pr cis que celui l ordre 1 les diff rences de pourcentage d erreur tant respectivement de 15 et 20 Pour les heures 6 8 10 et 18 le mod le l ordre 1 est plus pr cis que celui l ordre 2 mais les diff rences de 0 3 2 5 1 6 et 1 7 peuvent tre consid r es comme non significatives compte tenu du
35. ournis dans le fichier d apprentissage Reste tablir un lien entre les variables d entr e fournies par l utilisateur et les variables explicatives C est l objet du tableau transformation Transformation ce tableau permet d expliciter les variables explicatives en fonction des variables d entr e C est un tableau de type entier jn transformation i 1 n signifie que la variable explicative X est produit des variables d entr es Ej Soit 3 2 Autres outils int ressants 3 2 1 Contribution La contribution d une variable explicative repr sente part de cette variable dans le polyn me de g n ralisation C est le rapport entre la valeur absolue de son coefficient et la somme des valeurs absolues de tous ces coefficients G wW 2W Elle permet de retrouver facilement quels sont pour un mod le donn les coefficients pr pond rants On peut aussi suivre l volution de l importance d un coefficient avec le mod le 3 2 2 Le rapport W C est le coefficient situ devant la variable l int rieur du polyn me de g n ralisation un facteur pr s 3 2 8 6 contribution 31 Ci 25 W 0 La contribution caract risait les variables normalis e La G contribution s occupe des variables non normalis es Elle est int ressante lorsque l on consid re des variables bool ennes pour lesquelles l cart type n
36. re 30 et 15 et est moins souvent proche de ses valeurs maximales 2 fois contre 4 En conclusion Pour la moiti des heures consid r es ATLAS l ordre 2 est significativement plus pr cis qu une r gression classique Pour les autres heures le logiciel est soit meilleur mais de mani re moins significative soit tout fait quivalent la r gression classique Ce mod le reste de plus beaucoup plus r gulier dans ses taux d erreur qu une r gression classique L utilisation l ordre 2 semble donc plus avantageuse La pr cision est souvent meilleure au pire quivalente mais en tout cas beaucoup plus stable que celle d une r gression classique Cette m thode de r gularisation un peu modifi e se montre donc tr s int ressante 15 Pourcentage d erreur 9 4 GRAPHIQUES COMPARAISON ATLAS REGRESSION AVRIL Pourcentage d erreur en fonction de l heure et de la m thode employ e R gression ORDRE 2 ORDRE 1 Le pourcentage d erreur est calcul comme suit erreur quadratique de la m thode nombre r el total de v hicules 100 50 0 45 0 40 0 35 0 300 E Regression 25 0 BORDRE 2 20 0 OORDRE 1 15 0 10 0 5 0 0 0 16 10 Etude du choix du coefficient Pour la d termination du mod le A z le logiciel cherche minimiser une fonctionnelle de la forme J z 1212 Comme on l a vu cette minimisation diff re d une r gr
37. s dix derni res ann es On cherche en fait r aliser un mod le pour chaque heure de chaque mois AVRIL 10H MAI 18H La m thode actuelle consiste effectuer sur les donn es correspondantes une r gression classique du type Az u o u est un vecteur dont chaque l ment repr sente la valeur du trafic pour l un des jours de l historique et est une matrice dont les l ments correspondent aux valeurs des variables explicatives pour chacun de ces jours Les r sultats sont alors appliqu s aux donn es calendaires du jour d sir de fa on tablir la pr vision On cherche donc r soudre le probl me min J z avec 2 IN AZz ull Plusieurs l ments font en sorte que l on peut ici consid rer ce probl me comme mal pos La matrice peut ne pas tre de rang plein ou ses colonnes peuvent tre fortement corr l es Cela entra ne la multiplicit des solutions ou une extr me sensibilit de celles ci par rapport de faibles variations des donn es A et u Le choix des diff rentes variables explicatives tant arbitraire et imparfait les r sultats recherch s ne sont qu indicatifs et on ne veut pas qu une variation de quelques v hicules sur l une ou l autre des donn es de l historique ne vienne perturber de mani re sensible les r sultats On ne doit pas exiger d un tel mod le des pr cisions d un ordre sup rieur une cinquantaine de v hicules Sur ces points la m t
38. sur avril_H11_fs txt et non plus sur avril_H10_fs txt 22 2 2 Commandes de l interface 2 2 1 0btenir de l aide help et donnent acc s liste des commandes disponibles et pr sente bri vement leur effet print affiche quelle est la valeur courante de chaque param tre de la mod lisation 2 2 2 Quitter ATLAS quit exit et mettent fin la session ATLAS 2 2 3 Sp cifier les fichiers d entr e data suivi d un nom de pr fixe permet de sp cifier en une seule op ration le nom des trois fichiers d entr e condition qu ils se nomment lt Pr fixe gt TS txt lt Pr fixe gt GS txt et lt Pr fixe gt ES txt voir plus haut ts gs et fs suivis d un nom de fichier permettent de sp cifier les fichiers utilis s dans les phases d apprentissage de g n ralisation et de pr vision 2 2 4 Sp cifier le fichier de sortie ps suivi d un pr fixe permet de sp cifier le nom des fichiers de sortie Ces fichiers se nomment lt gt lt du mod le gt txt et lt Pr fixe gt lt ordre du mod le gt C voir plus loin 2 2 5 Sp cifier l ordre du mod le order permet de fixer l ordre du mod le c est dire le degr du polyn me recherch ordermin et ordermax indiquent ATLAS les bornes l int rieur desquelles il recherchera l ordre optimum On utilise le plus fr quemment l ordre 2 car 1
Download Pdf Manuals
Related Search
Related Contents
User Manual 1 - CNET Content Solutions HP ProLiant DL380 Gen9 Server User Guide Samsung Mini Audio System FS9000 manual de utilizador Groupe SEB USA - T-FAL Aquaspeed FV5150 User's Manual FP Etiquetage & FDS Call Analyser and Colt Online - Partner Colt Telecom Barcelona CORPUS ET OUTILS DE LA RECHERCHE EN SCIENCES Copyright © All rights reserved.
Failed to retrieve file