Home
Comparaison entre l`analyse logit et probit et les réseaux de
Contents
1. 245514698 Le r seau de neurones Les variables exog nes XXe Le taux de sitc s sur les donn es de test Le taux de succ s sur les donn es de test 1006720278 04997308985 95 33 17528163 R1 0 1725771473 R2 0 04274028618 R1 0 1806207902 R1 0 1801312077 B2 0 0458321564 84 00 96 65 96 03 EECH 94 37 Figure 6 Comparaison des r sultats num riques du Chapitre 5 122 N Minoiu Histograme 120 4 Fr quence d apparition x Ad N Es D A d i D di A N x ef di df ef e A af A af ef Ai Revenu Figure 7 L histograme des revenus d un chantillon de 600 individus am ricains Source Ruud 2000 v Annexe Fr quence d apparition ge Figure 8 L histograme des ages d un chantillon de 600 individus am ricains Source Ruud 2000 v Annexe Comparaison entre l analyse logit 123 References 1 A Ainslie X Dreze Data Mining Using Neural Networks as a Benchmark for Model Building D cision Marketing 1996 janvier avril pages 9 12 2 H J Andrei J A Hagenaars S K hnel Analyse von Tabellen und kategorialen Daten Springer 1997 3 B H Baltagi Econometrics Springer 1998 4 W H Greene Econometric analysis Prentice Hall 1993 5 C Hagen Neuronale Netze zur statis
2. Comparaison entre l analyse logit 11 Neuron 12 Neuron 7 de 13 Neuron Neuron 1p Couche 2 t re d entr e couche de de C Neuron Neuron sortie 2 Neuron sortie m sortie 1 ouche de sortie Figure 5 Un r seau de neurones Le mod le probit VER TXT PIS R TE Les variables exog nes Ebbe La variance du bruit eh ei La variance du bruit eh ai Le taux de succ s sur les donn es de calibration Les coeficients estim s Le taux d succ s sur les donn es de test 121 YeRT TER TS x2HR He Les variables exog res XI Le mod le probit De Les ccefcients estim s Le taux de succ s sur les donn es de calibration Le taux de succ s sur les donn es de test R3 24 52296512 52 98 012093814 04382100361 16 88090287 97 66 97 01 B1 0 7063622074 D i 38040005 R1 0 6328939257 R2 0 1659178004 B3 13 42700919 3888207096 Le mod le probit Les variables exog nes 020 Le taux de succ s sur Les co ficients estim s les donn es de calibration 51 98 1015740974 02780071312 980160022 51 65 pepe 0210008808 358 148386616 Dole o ojlo ele DH 9119868636
3. tudes empiriques on peut dire que les performances des r seaux de neurones sont meilleures que celle des mod les probit et logit mais cependant tr s variables en rapport avec le type d application Dans les ap plication o les performances des deux outils sont comparables on a une d pendance lin aire entre les variables exog nes et la variable latente C est le cas de l tude r alis e par Ainslie et Dreze dans laquelle on cherche pr dire la d cision d acheter une certaine marque d automobile en fonction des caract ristiques individuelles In tercept Asset level Income Credit Card Upscate Retail Card Financial Distress und Auto Loan 4 7 La qualit et la quantit des donn es L analyse de l influence de la qualit et de la quantit des donn es sur les r sultats obtenus peut tre faite aussi uniquement par des m thodes empiriques Langche Zeng a montr dans une de ses tudes Prediction and Classification with Neural Network Models que jusqu un certain niveau du bruit les r seaux de neurones ont des meilleurs perfromances que les mod les probit et logit Mais m me les r seaux de neurones ont un taux d erreur lev pour de grands niveaux du bruit Dans le chapitre suivant de cet article on va pr senter une tude empirique de la d pendance entre le taux de succ s et le niveau de bruit dans le cas d un mod le lin aire et d un mod le non lin aire estim s l aide des deu
4. On dispose uniquement d un certain nombre de combinaisons d entr es et de leurs sorties correspondantes Apr s la calibration du r seau partir des donn es exemple il est important de v rifier les performances du r seau sur de nouvelles donn es En effet l objectif est d apprendre un comporte ment g n ral et non pas de r produire les donn es exemple propri t des r seaux de neurones appell e capacit de g n ralisation Par capacit de g n ralisation on entend que les r seaux peuvent interpoler ou extrapoler avec une bonne pr cision apr s un apprentissage correct et m me si les donn es d entr e ne sont plus celles 15v Wiedmann Buckler 2001 p 59 16v Hagen 1997 p 19 f 17v Wiedmann Buckler 2001 p 53 18V Hagen 1997 p 24 ff si ei Comparaison entre l analyse logit 113 de la base d apprentissage le r seau calcule correctement les sorties correspondantes Pour am liorer cette capacit de g n ralisation les donn es doivent tre choisies de mani re qu elles soient repr sentatives pour le domaine tudi Malheureusement dans les applications r elles on dispose de donn es affect es par le bruit distorsionn es Dans ce cas l le r seau risque de s adapter trop aux donn es et d apprendre galement le bruit Ce ph nom ne s appelle sur adaptation ou sur g n ralisation Pour viter ce ph nom ne les donn es disponibles sont divis es dans trois ensemble
5. atoire Y est d finie par la formule suivante Y 1 pour Y gt 0 3V Langche Zeng Prediction and Clasification with Neural Network Models p 4 4v Alain Monfort Statistique p 23 108 N Minoiu Yi 0 pour Y lt 0 De cette fa on la probabilit d une d cision positive Y 1 est gale la probabilit d une bonit positive Y gt 0 et apr s les calculs on obtient la m me formule que pour le proc d de la fonction d utilit WM 1 X W TX gt 0 W e gt BI lz W e lt BTX 2 3 Le proc d de l esp rance conditionn e Ce type de Binary Choice Model d finit Y comme une variable al atoire discr te et binaire qui peut prendre les valeurs 0 et 1 La probabilit de l venement Y 1 est exprim e l aide d une fonction inconnue F X DI qui doit avoir les pro pri t s d une fonction de r partition La distribution de la variable al atoire Y est la suivante W Y 1 F X 8 und W Y 0 1 F X 8 L esp rance conditionn e de la variable al atoire Y sachant X va tre alors E YIX 0 x 1 F X 8 1x F X 8 F X 8 Si pour les deux premiers proc d s on suppose F comme fonction de r partition des variables al atoires et eo alors on va voir que dans les trois types de Binary Choice Model la fonction de r partition de la variable al atoire conditionn e Y est la suivante W Y 1 X FIT Zi und W Y 0 X 1 F 6TX P
6. de nos jours les donn es peuvent tre m moris es et trait es dans des bases de donn es d une dimension variant de quelques gigaoctets quelque terraoctets La n cessit des m canismes d valuation et de traitement automatique de ces bases de donn es a constitu le d but d une nouvelle science Knowledge Discovery in Databases Cette science utilise d une part la technologie des bases de donn es et des outils statistiques mais aussi de l intelligence artificielle ou l apprentissage automatique v Figure 1 Cet article a comme objectif une description comparative de deux outils qui peu vent tre utilis s pour extraire des informations utiles partir de tr s grandes bases de donn s un outil statistique le mod le logit ou probit et un outil d riv de l intelligence artificielle les r seaux de neurones Le type de probl me qui peut tre r solu l aide des mod les logit ou probit est connu dans la litt rature comme Binary Proceedings of The 2 nd International Colloquium of Mathematics in Engineering and Numerical Physics MENP 2 April 22 27 2002 University Politehnica of Bucharest Romania BSG Proceedings 8 pp 105 123 Geometry Balkan Press 2003 1V Wiedmann Buckler 2001 p 21 106 N Minoiu Choice Model Un probl me de type Binary Choice Model peut tre d crit de la mani re suivante un individu caract ris par certaines propri t s doit faire un choix parmi deux types d
7. apprendre repr sente pour les r seaux de neurones une caract ristique fondamentale Pendant le processus d apprentissage les r seaux de neurones ajustent dynamiquement les poids et ventuellement les param tres des fonctions d activation tels que les donn es d apprentissage soient r produites avec la meilleure pr cision possible Il y a aucune restriction pour la relation entre les variables d entr e et les sorties Au contraire pour les mod les probit et logit l utilisateur doit imposer priori la forme de la d pendance ce qui est plus d licat Pour l estimation des mod les logit ou probit on calcule les coefficients HD mais pas la forme fonctionnelle Le chercheur peut utiliser plusieurs hypoth ses il peut ajouter ou liminer les variables superposer le mod les avec les donn es empiriques mais malgr toutes ces possibilit s les proc d s statistiques restent des mod les statiques qui n ont pas la capacit intrins que d apprendre et de s adapter automatiquement l application pratique 4 4 La complexit du mod le La mod lisation peut repr senter une activit compliqu e pour les r seaux de neu rones Si on veut de tr s bonnes pr cisions il faut adapter le r seau au probl me pratique Par la mod lisation du r seau on entend choisir les fonctions de propaga tion les fonctions d activation et de sorties des neurones choisir le nombre de couches et le nombre de neurones sur chaque couche Le
8. de neurones La m thode de maximum de vraisemblance est un proc d analytique qui conduit un minimum global L algorithme de r tropropagation est au contraire un proc d d optimisation qui ne garantit qu un minimum local En plus le temps de calcul de cet algortihme est beaucoup plus lev Une autre diff rence est la signification des valeurs de sortie des deux m thodes Les m thodes logit et probit donnent la probabilit d une d cision positive tandis que les r seaux de neurones sont calibr s pour des r ponses binaires et non pas pour une probabilit Ceci car les donn es exemple appries par le r seau ont que des sorties 0 ou 1 et le r seau apprend un comportement dont la r ponse soit une de ces deux valeurs discr tes 21V Sarle 1994 p 3 ff Comparaison entre l analyse logit 115 Figure 3 Un r seau avec un neurone et le mod le logit 4 2 La non lin arit La non lin arit des r seaux de neurones leur offre un grand avantage par rapport aux mod les probit ou logit Les r seaux de neurones peuvent saisir toute sorte d interactions entre les variables endog nes pour calculer la sortie Les mod les logit et probit supposent une d pendance lin aire entre les variables endog nes et la variable latente D un point de vue th orique le r seau de neurones peut mod liser toute relation repr sent e par les donn es exemple 4 3 La capacitat d apprendre La capacit d
9. effectuer les calculs la distribution logit semble plus avantageuse cependant dans la plupart des applications il n y a pas une diff rence notable de performance L estimation des coefficients 8 se fait par la m thode de maximum de vraisamblance Maximum Likelihood 3 Les r seaux de neurones Si les analyses probit et logit sont des proc d s conometriques caract ris s par deux tapes la cr ation d un mod le suivie par l estimation de ses param tres les r seaux de neurones appartiennent une cat gorie diff rente d outils d analyse des donn es Comme leur nom le sugg re les r seaux de neurones ont eu comme point de d part les connaissances biologiques et plus pr cisement neuro physiologiques pro pos du cerveau humain Les r seaux de neurones biologiques sont des ensembles de neurones qui amplifient ou attenuent les signaux qui traversent leurs liaisons Un neurone est constitu d un noyau de dendrytes qui re oivent le signal d entr e et l axon La communication entre les neurones est de nature lectrochimique et elle est assur e par des synapses Les r seaux de neurones artificiels sont un mod le symplifi du mode de fonctionnement des r seaux biologiques d crits plus haut L objectif est de cr er des syst mes qui ont la plus importante propri t du cerveau humain la capacit d apprentissage En effet on peut dire qu apr s un processus de pr paration les r seaux de neurones artificiels a
10. meilleur choix peut tre fait par des 116 N Minoiu essais empiriques mais il existe aussi des techniques d optimisation Ces techniques permettent d obtenir des r seaux tr s sp cialis s pour l application Ceci peut tre un avantage par rapport aux mod les probit et logit mais comme presque toute appli cation a besoin d une architecture d di e les outils d optimisation sont tr s couteux en temps de calcul 4 5 Interpr tation des r sultats La possibilit d interpr ter les r sultats obtenus apr s l valuation d une base de donn es est tr s importante pour la comparaison des deux outils Comme on l a vu plus haut les r seaux de neurones ont en d savantage consid rable ils restent pour l utilisateur un mod le bo te noire Les d pendances entre les variables endog nes et exog nes vont rester inconnues l utilisateur cause de la forme complexe du mod le Les effet marginales des variables d entr e sont eux aussi difficiles calculer Du point de vue des possibilit s d interpr tation les mod les logit et probit sont sup rieurs aux r seaux de neurones On peut par exemple calculer l aide d une d riv partielle de la variable latente par rapport une variable exog ne l effet marginal de cette variable L effet marginale estim de la variable X est exactement le coefficient qui lui correspond Ki OY Y 0X e ze NT 0 Pj De l autre c t le signe du coeff
11. relation entre les caract ristiques d un individu et son comportement d cisional En r sum ceci est possible cause de ces quatre propri t s des r seaux de neurones 0 Non lin arit la relation recherch e ne doit pas tre lin aire les d pendaces non lin aires sont m me mieux approxim es Capacit d apprentissage Il faut faire aucune hypoth se propos de la forme de la d pendance celle ci va tre d termin e partir des donn es exemple Capacitat de g n ralisation M me si les donn es d appprentissage sont bruit es le r seau peut apprendre le processus initial Nombre de variables Le nombre de variables d entr e n est pas limit comme pour d autres proc d s d interpolation par exemple l interpolation spline Il y aussi des propri t s moins souhaitables comme par exemple le fait que la fonction reste inconnnue l utilisateur qui a acc s seulement aux sorties qui corre spondent des entr es donn es On va revenir sur ces propri t s dans un paragraphe 19V Wiedmann Buckler 2001 p 62 20V Wiedmann Buckler 2001 p 45 Adamy 2000 p 120 f Zeng 1996 p 8 ff 114 N Minoiu ult rieur lorsqu on va comparer les r seaux de neurones avec les mod les logit et probit 4 Les mod les probit et logit par rapport aux r seaux de neurones Apr s avoir pr sent les mod les logit et probit et le r seaux de neurones comme des m thodes appropri es pour Bin
12. Comparaison entre l analyse logit et probit et les r seaux de neurones Nicoleta Minoiu Abstract Cet article est une pr sentation comparative des performances de deux outils pour la fouille de donn es Le premier est un outil statistique le mod le logit ou probit Le deuxi me les r seaux de neurones peut tre aper u comme un approximateur de fonctions universel La premi re partie de l article pr sente l origine et le mode d emploi des mod les logit et probit La deuxi me partie traite les r seaux de neurones et leurs propri t s Enfin les deux outils sont compar s d un point de vue th orique et pratique par l interm de d un exemple fictif Mathematics Subject Classification 2000 62 07 68T10 Key words fouille de donn es mod le logit mod le probit r seaux de neurones 1 Motivation Ces derni res ann es pendant lesquelles les m dias les t l communications et les technologies de l information ont transform notre soci t dans une soci t exclu sivement bas e sur l information on a constat que le probl me n est pas d obtenir et d administrer les donn es mais d extraire les informations utiles partir de ces donn es De plus en plus nombreux sont les managers qui se voient confront s avec le probl me de ne pas pouvoir prendre une d cision justifi e par une majorit des donn es disponibles cause de leures trop grandes dimensions Grace la technologie moderne
13. Sciences de l Ing nieur fili re allemande Etudiante 5 ann e dipl me d ing nieur conomiste partir de septembre 2002 Alfred Messel Weg 10 A 62 64289 Darmstadt Allemagne E mail minoi unicoleta yahoo de
14. ary Choice Model on va faire une comparaison des deux outils de cette nouvelle science Knowledge Discovery in Databases On va essayer de r pondre aux questions suivantes Quelles sont les similarit s et le diff rences de deux outils Quels sont leurs avantages et d savantages respectifs La r ponse ces questions commence avec une comparaison d un point de vue math matique et continue avec une pr sentation comparative des plusieurs propri t s qui peuvent influencer la d cision d utiliser ces outils pour des probl mes pratiques non lin arit capacit d apprentissage capacit de g n ralisation complexit du mod le conditions impos es aux donn es disponibles l interpretation des r sultats 4 1 Comparaison d un point de vue math matique Les r seaux de neurones et les mod les logit et probit sont similaires d un point de vue math matique Un r seau de neurones avec un seul neurone et une fonction d activation probit ou logit ont la m me repr sentation math matique que le mod le probit et logit respectivement v Figure 3 Les r seaux de neurones peuvent tre vus comme des mod les probit et logit non lin aires avec des relations complexes entre les variables endog nes Une diff rence entre les deux m thodes est le proc d de calcul des coeffiecients des poids la m thode de maximum de vraisemblance pour les mod les logit et probit et l algorithme de r tropropagation pour les r seaux
15. as de mani re explicite une constante comme variable endog ne pour le coefficient 83 alors ce logiciel ne prend pas en compte ce coeffcient D apr s les variables endog nes utilis es on peut distinguer trois cas essay s de mani re empirique dans cet exemple 1 Les variabile endog nes sont X 1 X 2 et la constante 1 qui correspond au terme libre Ga 2 Les variabile endog nes sont X 1 X 1 Xiz et la constante 1 3 Les variabile endog nes sont X 1 X 2 Pour chaque paire Lo Kaal Software LimDep a re u la valeur correspondante de la variable al atoire Y Les sorties fournies par le programme ont t les coefficients des variables en dog nes et le taux de succ s pour les 300 observations utilis es pour l estimation Le taux de succ s pour les autres 300 observations a t calcul en Excel Comparaison entre l analyse logit 119 Pour calibrer les r seaux de neurones on a utilis le logiciel Neural Connections prouduit par Recognition System Ltd On a choisi un r seau avec une topologie simple un r seau feedforward avec deux neurones dans la couche d entr e une couche cach e avec deux neurones et un neurone de sortie Les fonctions d activation de tous les neurones ont t des sigmo des La m thode de calibration utilis e a t la m thode du gradient conjugu une extension de l algorithme de r tropropagation Apr s le r seau a t calibr avec les 300 observations utilis e
16. bles Comme d crit plus haut pour les r seaux de neurones il y a un conflit entre la qualit de la pr diction et l interpr tabilit des coefficients du mod le Si la trans parence du mod le n est pas une priorit les r seaux de neurones peuvent tre utilis s avec succ s pour des fonctions de pr diction Les autres d savantages des r seaux de neurones le temps de calcul la complexit du mod le peuvent tre am lior s par des automatiosations Si au contraire la possibilit de comprendre les relations inclues dans le mod le est importante on peut toujour b n ficier des avantages des r seaux de neurones en utilisant les deux outils en parall lle Les r seaux de neurones font des bonnes pr dictions et les mod les logit et probit servent pour l interpr tation des relations entre les variables exog nes et les variables latentes Dans ce cas l les r seaux de neurones servent de Benchmark Modell 6 Les r seaux de neurones sont mon avis un extension tr s utile des mod les conom triques conventionnels mais ils ne peuvent pas les remplacer Ces m thodes traditionnelles sont pr f rables lorsqu on conna t les d pendences de causalit entre les variables Dans ce cas l elles peuvent donner des meilleurs r sultats que les r seaux de neurones 7 Annexe Distribution normale Distribution logit Figure 4 Distribution normale et distribution logit 26V Ainslie Dreze 1996 p 12
17. e comportement diff rent Pour une population finie d individus on conna t les propri t s ainsi que le comportement adopt et on aimerait pr dire le comportement pour un nouveau individu pour lequel on conna t uniquement les propri t s Par exemple l individu pourrait tre un client potentiel caracteris par son age son revenu et le nombre d enfants Si on dispose d une base de donn es qui contient les caract ristiques de plusieurs individus ainsi que leur d cision d acheter un produit ou pas on pourra pr dire non seulement la disposition d un nouvel individu de devenir client mais aussi quelles propri t s conditionnent la qualit de client Technologie de bases de donn es Intelligence artificielle Statistique C Fouille de donn es Apprentisage automatique Figure 1 La fouille de donn es comme un domaine d tude interdisciplinaire Source Nakhaeizadeh 1998 p 2 Dans l article on d crit dans un premier temps les mod les logit et probit ainsi que les r seaux de neurones sans entrer dans les d tails Par la suite on fait une com paraison des deux outils d un point de vue th orique et on insiste sur leur utilisation pratique sur un exemple Les conclusions reflettent les r sultats pratiques obtenus 2 Les fonctions de r partition Probit et Logit Binary Choice Model est un probl me de choix discret dichotomique qu on peut trouver dans la l
18. e revenu moyen et le vecteur A d crit les m mes conditions dans le pays d immigration Un individu a la fonction d utilit Uu BT Xo en pour le choix 0 de ne pas emmigrer et l utilit U BTX 1 pour le choix 1 emmigra tion cu si 1 sont des variabiles al atoires composantes de l utilit individuelle qui n apparaissent pas dans le vecteur X L individu choisit l alternative 1 lorsque l utilit U est sup rieure l utilit Uo Soient o 1 et BTX GTX OI Non Le comportament peut tre d crit math matiquement par l expression suivante U gt Uo gt co e BI X EI Xo gt lt BTX La probabilit du choix 1 est ainsi la probabilitat que l utilit U soit sup rieure l utilit Uu W Y 1 X W U gt Uo W eo 1 lt B T X OI Kul W e lt GTX 2 2 La regression avec une variable latente Pour cette mod lsation on fait l hypoth se de l existence d une variable latente Y qui repr sente une combinaison des caracteristiques X d un individu Par exemple pour des probl mes de type credit scoring Y peut tre la bonit d une entreprise i et Y la d cision oui ou non d accorder un cr dit Y est ensuite d crit par une regression lin aire Y B TXi Lex i est une variable al atoire qui repr sente les influences non negligeables mais aussi non mesurables du milieu sur la variable Y La variable al
19. es compliqu es trouvent de plus en plus d utilisations ces derni res ann es La r ponse est donn e par une d monstration du math maticien russe Kolmogorov qui a prouv en 1957 que toute fonction continue peut tre repr sent e 10 Ausf hrlicher Scherer 1997 p 47 ff und Hagen 1997 p 7 f llpour la d finition du processus d apprentisage v Kapitel 0 12V Adamy 2000 p 128 13v Hagen 1997 p 12 14P us de d tails Scherer 1997 p 54 f 112 N Minoiu par un r seau avec un nombre fini de neurones avec n importe quelle pr cision Mais comment est il possible pour un r seau d approximer toute fonction continue Ce processus est appell apprentissage Le succ s des r seaux de neurones est d au fait qu elles sont capables d apprendre un certain comportement partir des donn es exemple De ce point de vue les r seaux de neurones artificiels ont un comportement similaire aux r seaux biologiques L apprentissage l aide des donn es exemple peut tre surveill e quand les sor ties du r seau sont compar es aux sorties exemple ou non surveill e Dans ce deuxi me cas on n utilise pas des sorties exemple et les poids sont appell s des fonc tions nerg tiques Un proc d de calibration du r seau de neurones est une m thode de calcul de poids optimaux 7 L algorithme le plus utilis dans ce but est l algorithme de r tropropagation Backpropagation qui peut tre utilis
20. es observations utilis es dans le processus d estimation du mod le est consid rablement inf rieure celui du r seau de neurones calcul pour les m mes donn es La sensibilit du r seau de neurones par rapport au niveau du bruit est par ailleurs sup rieure au mod le probit Pour un tr s grand niveau du bruit 103 5 les performances des deux m thodes restent 70 On peut dire que pour cette application concr te la capacit de pr diction des r seaux de neurones est beaucoup sup rieure par rapport au mod le probit mais seulement pour un niveau de bruit relativement faible Dans le cas du mod le probit on peut interpr ter les valeurs des coefficients estim s et on peut ainsi trouver la forme estim e de la variable latente et donc la fa on don t les variables d entr e influent sur la sortie Par exemple on porrait trouver qu une augmentation du revenu g n re une hausse de la variable latente Y et implicitement la probabilit d une d cision favorable Un augmentation de lage de l individu a au contraire un effet n gatif 120 N Minoiu 6 Conclusions En fin apr s une comparaison th orique et pratique des deux outils on tempte de donner une r ponse la question lequel des deux outils devrait tre utilis pour un probl me concr t A mon avis avant de se poser cette question il faut d cider le but de l analyse une bonne pr diction ou la compr hension des influences de diff rentes varia
21. icient estim montre si l influence de la variable latente est croissante ou d croissante par rapport la variable Xj Malgr ces difficult s il y a quelque possibilit s d intepr ter les r sultats des r seaux de neurones par exemple les proc d s de Input Pruning 3 Un proc d de Input Pruning est une technique d optimisation de la complexit du r seau de neurones par l limination des variables d entr e Cette technique permet de savoir si une variable d entr e a une influence sur la sortie ou pas 4 6 La capacitat de g n ralisation La capacit de g n ralisation caract rise les r seaux de neurones et galement les mod les logit et probit La question reste d valuer les performances d interpolation et d extrapolation des deux outils A cause de la structure compliqu e des r seaux de neurones la r ponse cette question ne peut tre donn e que par des tudes empiriques les possibilit s des tudes th oriques sont trop limit es face cette com plexit Pour effectuer la comparaison on a utilis plusieurs crit res qui ont la base le nombre de d cisions estim es correctement et le nombre total de donn es de test Le taux de succ es est calcul comme poucentage des d cisions estim es correctement 22V Hertz Krogh Palmer 1992 p 156 23V Wiedmann Buckler 2001 p 71 24V Zeng 1996 p 7 Comparaison entre l analyse logit 117 Comme une constatation g n rale des
22. itt rature sous formes diff rentes On va pr senter ici trois fa ons diff rentes de l aborder qui conduisent au m me formalisme math matique Le point de d part est chaque fois est le proc s al atoire avec deux r alisations possibles par exemple un proc s de d cision avec les valeurs symboliques oui et Par d finition ces deux valeurs symboliques ont les valeurs enti res 0 et non 2V Monfort 2000 p 23 ff Comparaison entre l analyse logit 107 1 ce qui nous permet d introduire la variable al atoire Y de la mani re suivante Y 1 si la d cision est oui et Y 0 dans le cas contraire Par la suite on d finit un vecteur de variables exog nes et mesurables qui conditionnent l apparition de chacune des deux r alisations X X1 X2 Kall ainsi qu un vecteur des coefficients B 81 Ba D I Les trois fa ons d aborder le mod le sont e Le proc d de la fonction d utilit e Le proc d de la r gression latente e Le proc d de l exp rance conditionn e Ces trois proc d s vont tre expliqu s l aide des exemples concrets 2 1 Le proc d de la fonction d utilit Ce type de Binary Choice Model sert pr dire la d cision d un individu d emmigrer ou pas Ce probl me peut tre formalis de la mani re suivante le vecteur Xo d crit les conditions dans le pays d emigration temp rature moyenne densit de la popu lation l
23. our les deux premiers cas on a suppos une combinaison lin aire BTX Cette hy poth ese peut tre valable galement pour le troisi me cas tant que F a les propri t s d une fonction de r partition 2 4 Les distributions probit et logit Il est vident que pour les trois types de Binary Choice Model la distribution de la variable d pendante Y est d t min e par la distribution de la variable On se demande alors quelle serait cette distribution Si les effets de plusieurs influences ext rieures sont superpos s le choix d une distribution gaussienne pour serait justifi par le th or me limite centrale Le mod le Probit est d finit de cette fa on BTx W Y 1 X F BTX I p t dt avec y t SC T 5v Greene 1993 p 813 ff 6v Theil 1971 p 630 Comparaison entre l analyse logit 109 L hypoth se d une distribution normale standard pour ne change pas la structure du mod le car toute variable avec une distribution normale peut tre ramen e une distribution normale standard de moyenne nulle et variance 17 Pour beaucoup d applications on utilise la distribution logit IT el X W Y 1 X PI I EI I aT La diff rence de cette distribution par rapport la distribution probit est que la fonction F varie plus vite autour de ZT X 0 v Figure 4 Le choix parmi les deux distributions est difficilement justifiable d un point de vue th orique et d pend de l application Pour
24. pour l apprentissage sur veill L apprentissage surveill est un apprentissage par correction des erreurs C est pour quoi il faut d abord d finir une fonction d erreur Cette fonction pourrait tre S m par exemple l erreur moyenne quadratique YL Yi VI o s repr sente le i 1 j 1 nombre de couples X Y utilis s pour l apprentissage m est le nombre de neurones dans la couche de sortie et Ki est la r ponse du r seau pour l entr e X L algorithme de r tropropagation peut tre appliqu pour n import quel type de fonction d erreur La fonction d erreur d pend de tous le poids du r seau et doit tre minimis e A cause de la non lin airit du r seau on ne peut pas trouver un minimum gloabal par une m thode analytique C est pour cette raison qu on cherche un minimum local par une m thode it rative par une descente de gradient r cursive La m thode est d crite dans tous les d tails dans Hagen Une remarque int ressante est que la solution finale de ce processus d optimisation repr sent e par les valeurs des poids en fin d apprentissage peut tre diff rente d un apprentissage l autre m me si les don es utilis es pour la calibration sont les m mes Ceci car cette solution d pend des conditions initiales comme tout proc d d optimisation locale Les r seaux de neurones sont utilis s pour des application o la fonction qui lie les entr es et les sorties est inconuue
25. pprennent un certain comportement Un r seau de neurones peut tre appris distinguer les potentiels clients des personnes non interess es partir d un chantillon repr sentatif d individus Comment cela peut tre possible quelle est la structure d un r seau de neurones et par quel moyen l apprentissage devient possible va tre d crit dans les paragraphes suivantes 3 1 D finitions D un point de vue global on peut regarder les r seaux de neurones comme des bo tes noires avec au moins une entr e et une ou plusieurs sorties A l int rieur de ces bo tes TV Greene 1993 p 819 8V Greene 1993 p 815 110 N Minoiu il y a des neurones qui jouent le r le d op rateurs de calcul et des connexions entre eux Par d finition un neuron n est caracteris l instant t par le touple X t Wi t ailt f 9 h Dans ce touple on a X t Let 2 t En t R le vecteur d entr e l instant t W t wi t wio t win t R le vecteur des poids l instant t ai t R l tat d activation du neurone l instant t h R x R R avec s t A X t W t la fonction de propagation qui g n re le signal d entr es t g RXR R avec at g si t aift 1 la fonction d activation qui calcule l tat d activation a t l instant t et f R gt R cu yi t f ait fonction de sortie qui donne la sortie y t du neurone i l instant t Figu
26. re 2 Construction d un neurone Source Scherer 1997 p 46 9V Hagen 1997 p 6 f Comparaison entre l analyse logit 111 Mais qu est ce que repr sentent toutes ces fonctions et vecteurs Figure 2 Le vecteur d entr e x t peut repr senter les valeurs d entr e donn es par l utilisateur pour la premi re couche ou les sorties de la couche ant rieure pour les autres couches de neurones Si le neurone est situ dans la premi re couche une des entr es doit tre constante Les poids W t qui vont tre modifi pendant l apprentissagel mod lisent la plasticit synaptique L tat d activation d finit l tat actuel d un neurone La fonc tion de propagation d crit le traitement de l information qui est fait par le neurone La fonction d activation calcule la transformation de l tat d activation l instant t 1 partir de l tat d activation l instant t La fonction de sortie calcule la valeur de sortie d un neurone en fonction de sont tat d activation Les neurones sont les composantes de base d un r seau de neurones Par la con nexion des sorties et des entr es on cr e des structures comme pr sent es par exemple sur la Figure 5 dans l annexe En principe on peut connecter des neurones de types diff rents mais en pratique on utilise au plus deux types de neurones Dans la plupart des cas les fonctions d activation des neurones ne sont pas lin aires On peut remarquer facilement une for
27. ression est un bruit gaussien de moyenne nulle et de variances diff rentes e N 0 0 La variable al atoire Y est d finie par Y 1 pour Y gt 0 Yi 0 pour Y lt 0 La valeur du coefficient 83 414 a t la valeur m diane de X 1 Ko Kan dans le but d avoir dans l chantillon disponible un nombre gal de d cisions positives et n gatives pour une variable latente sans bruit La variance du bruit a t respectivement 0 5 10 15 et 25 de la valeur m diane Plus la variance est lev e plus la probabilit des grandes valeurs du bruit augmente 5 2 Utilistion concr te des deux outils Pour la calibration de deux outils on a utilis 300 observation de l chantillon disponible On a calcul ensuite le taux de succ s du mod le probit pour les donn es utilis es dans la calibration ainsi que pour les autres 300 observations Pour les r seaux de neu rones ces derni res 300 observations ont t divis es dans deux parties une partie 35 ont t utilis es comme donn es de validation c est dire comme t moin pour arr ter le processus d apprentissage et sur le reste on a calcul le taux de succ s de la pr diction du r seau Pour estimer le mod le probit on a utilis Software Limdep Version 7 0 Econo metric Software written by William H Greene Ce logiciel fait une estimation de la variable latente d apr s l expression suivante Y BTX de Si on introduit p
28. s des donn es d apprentissage des donn es de validation et des donn es de test Les donn es d apprentissage servent la calibration des poids du r seau modifi s en fonction de l erreur effectu e Pendant l apprentissage on calcule galement l erreur sur les donn es de validation Cette erreur n est pas utilis e pour modifier les poids du r seau mais pour d tecter les sur apprentissage Au d but l erreur sur les donn es de validation doit diminuer le r seau apprend la fonction sous jacente Si cette erreur augmente le r seau commence apprendre le bruit et il a un mauvais comportement en g n ralisation Les donn es de test sont utilis es pour valuer les performances du r seau en fin d apprentissage A la fin de ce paragraphe d di au proc d d apprentissage par r tropropagation il faut accentuer sur le fait que ce est qu un algorithme d optimisation Ceci signifie que le proc d ne trouve pas un optimum global car on ne sait pas viter les minimums locales ou les surfaces planes de la fonction d erreur 3 3 Les propr t s des r seaux de neurones Comme vu plus haut les r seaux de neurones peuvent tre assimil s dans certaines conditions des approximateurs universels Ce fait explique pour quoi les r seaux de neurones peuvent pr dire un comportement d cisional et peuvent r soudre de probl mes de type Binary Choice Model les r seaux de neurones artificiels peuvent approximer la
29. s pour la calibration du mod le probit apr s il a t valid par 35 des observations restantes le logiciel nous a fourni le taux de succ s sur le reste de 265 d observations Les r sultats du mod le probit et du r seaux de neurones sont montr s sur la Figure 6 dans l Annexe 5 3 Interpretation de r sultats On va d abord interpr ter les r sultats de deux cas pour le mod le probit pour lequel on a suppos l existence d un coefficient libre 83 Les taux de succ s pour les observa tions utilis es pour la calibration sont comparables et sup rieurs 90 m me pour des niveaux de bruit lev s Pour les observations qui n ont pas t utilis es pour la calibration sont au contraire tr s diff rents Dans le cas o on a utilis X 1 X 2 comme variables exog nes le taux de succ es tr s proche de la valeur minimale adimissible 50 D autre part si on utilise X 1 et Ka Xi2 comme variables exog nes le taux de succ s sur l ensemble de calibration est comparable au taux de succ s sur l ensemble de test Ce comportement du mod le probit montre que sa capacit de pr diction est tr s r duite dans les cas non lin aires Le niveau du bruit semble ne pas avoir une grosse influence sur le taux de succ s Le troisi me cas du mod le probit o les variables exog nes ont t Xi Xi va tre compar par la suite avec le r seau de neurones qui a m mes variables d entr e Ko Kn Le taux de succ s pour l
30. te non lin arit des sorties m me si les fonctions de propagation dans la couche de sortie sont lin aires La connexion des neurones dans plusieurs couches permet de mod liser par le r seau des fonctions tr s complexes Le choix de la fonction d activation d pend du type de l application Dans nom bre d application on utilise des sigmo des comme fonctions d activation D autres exemples sont la fonction logit ou la tangente hyperbolique Un r seau de neurones artificiels avec des fonctions d activation sigmo dales et plusieurs couches s appelle per ceptron multi couche Multilayer Perzeptron MLP Pour des classifications clus tering on utilise une autre classe de fonctions des fonctions avec activation locale Les r seaux de neurones artificiels avec de telles fonctions d activation s appellent Ra dial Basis Function RBF La fonction identit ou la fonction marche peuvent aussi tre employ es comme fonctions d activationt3 La topologie est la fa on de connecter les neurones dans un r seau de neurones On a par exemple la topologie Feedforward les neurones transmettent les signaux dans une seule direction et la topologie Feedback qui permet l existence des boucles 14 Des liaisions bidirectionnelles sont aussi possibles 3 2 Proc d d apprentissage l algorithme de r tropropagation Apr s les d finitions math matiques des r seaux de neurones il est l gitime de se demander pourquoi ces structur
31. tischen Datenanalyse Shaker 1997 6 A Monfort Statistique Univ Ecole Polytechnique 2000 7 G Nakhae zadeh Data Mining Theoretische Aspekte und Anwendungen Physica 1998 8 P A Ruud An Introduction to Classical Econometric Theory Current Population Survey March 1995 U S Bureau of the Census Oxford University Press 2000 9 S Sarle Neural Networks and Statistical Models Proceeding of Nineteenth Annual SAS Users Group International Conference avril 1994 pages 3 6 10 A Scherer Neuronale Netze Grundlagen und Anwendungen Vieweg 1997 11 H Theil Principles of Econometrics John Wiley amp Sons 1971 12 K P Wiedmann F Buckler Neuronale Netze im Management In Wiedmann Buckler Hrsg Neuronale Netze im Marketing Management Praxisorientierte Einf hrung in modernes Data Mining Gabler 2001 pages 15 34 13 K P Wiedmann F Buckler H Buxel Data Mining Ein einf hrender berblick In Wiedmann Buckler Hrsg Neuronale Netze im Marketing Management Praxisorien tierte Einf hrung in modernes Data Mining Gabler 2001 pages 37 100 14 L Zeng Prediction and Classification with Neural Network Models Prepared for de livery at the American Political Science Association Annual Meeting San Francisco 1996 15 J Hertz A Krogh R G Palmer Introduction to the Theory of Neural Computation Addison Wesley 1991 Nicoleta Minoiu Universit Politehnica Bucarest D partement de
32. x outils 5 Le mod le probit et les r seaux de neurones com paraison pratique Comme d crit au chapitre pr c dent la capacit de pr diction des mod les probit logit et r seaux de neurones est influenc e de mani re significative par le type de relation entre les variables exog nes et la variable latente ainsi que par la qualit des donn es Par la suite on va montrer par un exemple fictif que malgr les meilleurs performances des r seaux de neurones par rapport aux mod les logit et probit leur capacit de g n ralisation est affect e par le niveau du bruit 5 1 La construction de l exemple fictif L exemple fictif sur lequel on va tester les deux outils les r seaux de neurones et les mod les logit et probit a t constitu de la mani re suivante On disposait d une base de donn es qui contient 600 observations soit l age et le revenu de 600 individus diff rents Le revenu Xo v Figure 7 Annexe et Tage Zoo v Figure 8 Annexe d un individu i ont t suppos es des variables exog nes La variable latente Y a t constitu e par la relation non lin aire suivante entre les variables exog nes VF bi Xa Bo Ko Xiz b3 25V Ainslie Dreze 1996 p 9 10 118 N Minoiu On a choisi pour les coefficients 61 B2 la valeur 1 et pour 83 la valeur 414 Avec ces coefficients la variable latente a la forme suivante VI Xii Xil Xiz 414 Ei Dans cette derni re exp
Download Pdf Manuals
Related Search
Related Contents
Version PDF - Argenteuil DPX406DAB DPX306BT 18 BIBLIOGRAPHIE. ASTOLFI, J.P. (1993). L`école pour apprendre Model #: 1025S LIT. #: 9301930403 Samsung Galaxy Copyright © All rights reserved.
Failed to retrieve file