Home

cours de data mining 8 : modelisations reseaux de neurones et de

image

Contents

1. On constate que les r sultats se valent entre les deux mod lisations EPF 4 5 ann e IAP Cours de Data Mining 8 R seaux de neurones page 17 30 Bertrand LIAUDET Flux cl mentine A Chr Menumz Churn N Churn LE TA Fe Churn Churn RS 3333 churn bt Ag ce Chum a A ral rin E 78 TS y A nb appel total J onso totale Typer bn ad N Churn A ae conso totale Churn Churn RS Churn R Chum Flux Cl mentine R seaux de neurones R gles de d cision EPF 4 5 ann e IAP Cours de Data Mining 8 R seaux de neurones page 18 30 Bertrand LIAUDET Les r seaux de Kohonen 1 G n ralit s Introduits en 1982 Initialement appliqu s l image et au son M canisme efficace de classification pour les donn es alpha num rique C est une esp ce de r seau de neurones C est aussi une esp ce de carte auto organisatrice SOM Self Organizing Map 2 Les cartes auto organisatrices SOM G n ralit s Une carte auto organisatrice est un proc d qui convertit un signal d entr e complexe plusieurs variables par exemple en une nouvelle variables cat gorielle c est donc un proc d de classification mod lisation non supervis e Les SOM sont une g n ralisation de l analyse en composantes principales Elle fonctionne comme un r seau de neurones sans variable cible et avec plusieurs n uds dans la couche de s
2. 0 000 10 000 20 000 000 10 000 20 0000 000 10 000 20 000000 10 000 20 0000 000 10 000 20 000 000 10 000 20 000 Conso intemationale en minutes EPF 4 5 ann e IAP Cours de Data Mining 8 R seaux de neurones page 26 30 Bertrand LIAUDET Ce graphique montre que le mode de consommation internationale est peu pr s le m me quelle que soit les options Ce qui veut dire que le produit option internationale est soit inint ressant soit mal pr sent M Histogramme de Nb msg 2 aA semer Eaton O g n rer ae in_clusters 10 12 in_clusters Oo N O N Comptage OUTRE N N 0 000 20 00040 000 0 000 20 00040 000 0 000 20 00040 000 0 000 20 00040 000 0 000 20 00040 000 0 000 20 00040 000 Nb msg RAS PEK 24 9 26 46 e Le churn est sur repr sent en 10 et 20 rose et vert pale c est dire dans l option internationale et les toutes options e Le churn est sous repr sent en 00 bleu c est dire dans l option mail e Les 3 autres classes correspondent aux sans options EPF 4 5 ann e IAP Cours de Data Mining 8 R seaux de neurones page 27 30 Bertrand LIAUDET Interpr tation des classes par r gles de d cision On peut faire une mod lisation des r gles de d cision avec les classes de Kohonen comme attribut cible On obtient les r sultats suivants R gles pour 00 contient 1 r
3. X 1 Y 2 405 enregistrements X 2 Y 0 76 enregistrements X 2 Y 2 458 enregistrements X 3 Y 0 231 enregistrements oa xX 3 Y 2 692 enregistrements Annuler Appliquer R initialiser gt D tails des classes Pour analyser le d tail des classes on peut e Utiliser l onglet afficheur cf diagramme pr c dent e Cr er un attribut correspondant la nouvelle classe Pour cela faire un g n rer n ud calculer dans l onglet mod le Puis ajouter la formule suivante dans le n ud if SKX Kohonen 0 and KY Kohonen 0 then 00 elseif KX Kohonen 0 and KY Kohonen 2 then 02 elseif KX Kohonen 1 and KY Kohonen 0 then 10 elseif KX Kohonen 1 and KY Kohonen 2 then 12 elseif KX Kohonen 2 and KY Kohonen 0 then 20 elseif KX Kohonen 2 and KY Kohonen 2 then 22 elseif KX Kohonen 3 and KY Kohonen 0 then 30 elseif KX Kohonen 3 and KY Kohonen 2 then 32 else 99 endif Ensuite il reste faire une analyse exploratoire sur chaque classe EPF 4 5 ann e IAP Cours de Data Mining 8 R seaux de neurones page 23 30 Bertrand LIAUDET R sultats avec le param trage expert Dans le param trage expert on choisit largeur 3 et longeur 3 Pour les 20 premiers cycle le voisinage est 2 et le taux d apprentissage eta d croit partir de 0 3 Pour les 150 cycles sui
4. R seaux de neurones page 28 30 Bertrand LIAUDET si Mail in no et Dur e de vie du compte gt 91 500 et Dur e de vie du compte gt 113 500 et International in yes alors 20 R gles pour 22 contient 1 r gle s R gle 1 pour 22 793 0 938 si Mail in no et Dur e de vie du compte gt 91 500 et Dur e de vie du compte gt 113 500 et International in no alors 22 Par d faut 02 On retrouve ce qu on a mis au jour dans l analyse exploratoire A noter que si la production des r gles est rapide leur interpr tation n est pas facile effectuer Flux cl mentine A E A 1 Cham Koho Kohonen A aid in_clusters R M Typer 14 Champs Kohonen amp A 3333 churn bt Kohonen in_clusters Flux Cl mentine R seaux de Kohonen DS 13333 churn bd Typer Kohonen Vers le flux Flux Cl mentine Super n ud EPF 4 5 ann e IAP Cours de Data Mining 8 R seaux de neurones page 29 30 Bertrand LIAUDET 14 Champs PEKNE De g n r Typer 14 Champs Flux Cl mentine Analyse exploratoire d nosnmm coseans sossen ET in_clusr jons Options A in_clusters in_clusters N ART nso totale Conso totale in_clusters in_clusters A 4 fa Conjnternationale Dur e de vie du comp D16 gt gt AF in_clustersRS 1D 3 D 2 Flux Cl mentine Analyse exploratoire et arbre de d cision EPF 4
5. gle s R gle 1 pour 00 830 1 0 si Mail in yes et International in no alors 00 R gles pour 02 contient 2 r gle s R gle 1 pour 02 799 0 974 si Mail in no et Dur e de vie du compte lt 91 500 et International in no et Dur e de vie du compte lt 86 500 alors 02 R gle 2 pour 02 66 0 803 si Mail in no et Dur e de vie du compte lt 91 500 et International in no et Dur e de vie du compte gt 86 500 et Nb dappels de jour lt 104 alors 02 R gles pour 10 contient 1 r gle s R gle 1 pour 10 92 0 815 si Mail in yes et International in yes alors 10 R gles pour 12 contient 2 r gle s R gle 1 pour 12 50 0 76 si Mail in no et Dur e de vie du compte lt 91 500 et International in no et Dur e de vie du compte gt 86 500 et Nb dappels de jour gt 104 alors 12 R gle 2 pour 12 472 0 761 si Mail in no et Dur e de vie du compte gt 91 500 et Dur e de vie du compte lt 113 500 et International in no alors 12 R gles pour 20 contient 3 r gle s R gle 1 pour 20 83 1 0 si Mail in no et Dur e de vie du compte lt 91 500 et International in yes alors 20 R gle 2 pour 20 55 1 0 si Mail in no et Dur e de vie du compte gt 91 500 et Dur e de vie du compte lt 113 500 et International in yes alors 20 R gle 3 pour 20 93 1 0 EPF 4 5 ann e IAP Cours de Data Mining 8
6. s de 3 couches successives une couche d entr e une couche cach e et une couche de sortie Toutefois il peut y avoir 0 ou N couches cach es e D une couche l autre tous les n uds de la premi re couche n uds in sont reli s tous les n uds de la seconde n uds out e Chaque liaison a un poids une valeur entre 0 et 1 e Chaque n uds des couches cach es et de sortie poss de aussi un poids une valeur entre 0 et 1 e Le nombre de n uds de la couche d entr e d pend du nombre de variables prises en compte et de leur type En simplifiant on peut dire qu on a un n ud par variable en entr e e Le nombre de couches cach es et le nombre de n uds pour chaque couche cach e est param trable par l utilisateur e Fn g n ral la couche de sortie ne contient qu un n ud Toutefois elle peut en contenir plus En simplifiant on peut dire que ce n ud correspond la variable de sortie 3 Type des donn es en entr e La valeur des donn es en entr e et en sortie doit tre comprise entre 0 et 1 Traitement des variables num riques On applique une standardisation min max aux donn es num rique x x moy X max X min X Si on applique les r sultats une population dans laquelle le min et le max ont chang on peut obtenir des r sultats erron s Traitement des variables cat gorielles Si elles sont ordonn es on peut affecter chaque cat gorie une v
7. 5 ann e IAP Cours de Data Mining 8 R seaux de neurones page 30 30 Bertrand LIAUDET
8. fonction de distance euclidienne Le n ud de sortie qui a le meilleur r sultat on dit le meilleur score est le n ud gagnant il re oit l individu en question Le meilleur score c est la plus petite distance entre les poids de connexion et les donn es d entr e Principe de fonctionnement liaison de voisinage des n uds de la couche de sortie Comme dans tous les r seaux de neurones les n uds d une m me couche et particuli rement de la couche de sortie ne sont pas reli s entre eux Toutefois les poids des n uds de voisinage du n ud gagnant sont adapt s pour favoriser leur victoire en cas de donn es similaires C est ce qu on appelle la coop ration et l adaptation des n uds de la couche de sortie L adaptation c est ce qui correspond l apprentissage Comme dans tous les r seaux de neurones les n uds d une m me couche et particuli rement de la couche de sortie ne sont pas reli s entre eux 3 Les r seaux de Kohonen Les r seaux de Kohonen sont des cartes auto organisatrice SOM avec une variation dans la technique d apprentissage Dans les r seaux de Kohonen les n uds dans le voisinage du n ud gagnant ajustent leur poids en utilisant une combinaison lin aire du vecteur d entr e et du vecteur de poids en cours 4 Avantages et inconv nients Avantages Les r seaux de Kohonen permettent une classification raffin e Inconv nients La lecture des r su
9. poids repr sente la cl du m canisme d apprentissage par le r seau de neurones e Pour un individu les n uds de la couche d entr e prennent la valeur normalis e des variables d entr e du mod le e Pour un individu les noeuds des couches cach es et de sortie prennent une valeur qui est une combinaison une somme le plus souvent des combinaisons lin aires des n uds in et des poids correspondants Pour un n ud j donn on a donc NET j Somme pouride 0 N Wij Xi Avec NET valeur du n ud dans le r seau 1 allant de 0 N N tant le nombre de n uds in W i j poids de la liaison entre le n ud i qui est in et le n ud j qui est out X i valeur du n ud i avec X 0 1 7 La fonction sigmo de Dans un neurone r el les signaux sont envoy s entre les neurones quand la combinaison des donn es d entr e d passe un certain seuil le seuil d activation Le comportement n est pas lin aire car la r ponse ne d pend pas lin airement de l incr ment de la stimulation La fonction qui mod lise ce comportement est appel e fonction d activation C est une fonction non lin aire La fonction d activation la plus commune est la fonction sigmo de y 1 1 exp x soit SIG NET n 1 1 exp NET n EPF 4 5 ann e IAP Cours de Data Mining 8 R seaux de neurones page 5 30 Bertrand LIAUDET Avec exp fonction expone
10. tropropagation consiste ajuster les poids des n uds et des liaisons en remontant du n ud de la couche de sortie aux n uds de la couche d entr e D apr s Des donn es la connaissance de Daniel T Larose Vuibert 2005 EPF 4 5 ann e IAP Cours de Data Mining 8 R seaux de neurones page 7 30 Bertrand LIAUDET En g n ral les r seaux font la mise jour apr s chaque calcul de la valeur de sortie d un enregistrement Cet ajustement sera fonction de e L erreur de pr vision e Le taux d apprentissage valeur comprise entre 0 et 1 Le taux d apprentissage ta Le taux d apprentissage est un param tre qui favorise l volution de la SEC vers le minimum Quand le taux d apprentissage est faible les ajustements sont faibles Quand le taux d apprentissage est fort les ajustements sont forts Mais un taux d apprentissage trop fort fait d passer la SEC optimum Le taux d apprentissage peut voluer au cours de l apprentissage Au d but il est lev pour s approcher rapidement de la solution Quand le r seau commence converger le taux est graduellement r duit pour ne pas d passer la SEC optimum Le terme de moment alpha Le terme de moment est un param tre suppl mentaire qui favorise l volution de la SEC vers le minimum Intuitivement on peut comprendre son fonctionnement ainsi la courbe d volution de la SEC en fonction des poids n est
11. 0 alors True Par d faut False E Proportion de SR Churn 1 10 44 On voit que la mod lisation par r gles de d cision on arrive 348 churn true ce qui est moins bon qu avec la mod lisation par neurones multiples Par contre les 348 churn true corresponde massivement aux churn true d origine EPF 4 5 ann e IAP Cours de Data Mining 8 R seaux de neurones page 15 30 Bertrand LIAUDET Cr ation d un attribut somme des consommation On cr e un attribut qui somme les consommation de jour soir e et nuit ainsi que le nombre d appels o E Analyse Pr cision estim e 91 243 Couche d entr e 8 neurones Couche cach e 1 12 neurones Couche cach e 2 5 neurones Couche de sortie 1 neurones EJ importance relative des entr es conso totale 0 703075 Appels au service client _ _ 0 591353 International SES 0 286848 Conso internationale en minutes 0169773 Nb dappels internationaux 0 126858 Nb msg 0 0850753 Mail 0 0832427 nb appel total 0 0590152 EJ Champs E Cible O Churn M Entr es E Appels au service client Conso internationale en minutes O International O Mail Nb dappels internationaux Nb msg conso totale nb appel total EJ Cr er des param tres Utiliser les donn es partitionn es faux M thode Multiple E Proportion de SN Churn 12 2 Fichier Edi
12. COURS DE DATA MINING 8 MODELISATIONS RESEAUX DE NEURONES ET DE KOHONEN EPF 4 5 ann e Option Ing nierie d Affaires et de Projets Finance Bertrand LIAUDET 8 Mod lisations R seaux de neurones et de Kohonen 2 L s r seaux d neurones iron ni sale asos ent ner een sde een ni ele ini Esi 2 1 G n ralit s 2 2 Architecture et principes de fonctionnement 3 3 Type des donn es en entr e 4 4 Exploitation des r sultats 4 5 Param trage de la couche cach e 5 6 Valeurs des n uds et des liaisons 5 7 La fonction sigmo de 5 8 La SEC 6 9 La r tropropagation I 10 Crit res d arr t 9 11 Mod le avec plusieurs variables cibles 10 12 Interpr tation des r sultats l analyse de la sensibilit 10 IN LCE LATI EEEE ETE EEE E EEEE TEE P A E E EE E TE 11 Le fichier de churn 11 Les r seaux de Kohonen e essesseseeseesessessesoesoesossoesessesoesoesoesoesoesereesoesoesoesossosseseesoesoesosse 19 1 G n ralit s 19 2 Les cartes auto organisatrices SOM 19 3 Les r seaux de Kohonen 20 4 Avantages et inconv nients 20 5 Interpr tation des r sultats validit et interpr tation des classes 21 Applications SR RS Te 22 Le fichier de churn 22 1 dition octobre 2008 EPF 4 5 ann e IAP Cours de Data Mining 8 R seaux de neurones page 1 30 Bertrand LIAUDET 8 MODELISATIONS RESEAUX DE NEURONES ET DE KOHONEN Les r seaux d
13. aleur comprise entre 0 et 1 Si elles ne sont pas ordonn es la m thode pr c dent risque de conduire des r sultats erron s du fait de la cr ation de voisinages irr ls Chaque cat gorie peut tre alors tre trait e comme une variable bool enne 4 Exploitation des r sultats Les r sultats sont compris entre 0 et 1 Classification On peut cr er des classes le nombre de classes choisi d finissant l amplitude Exemple 4 classes d amplitude 1 4 0 25 Pr vision d une variable X EPF 4 5 ann e IAP Cours de Data Mining 8 R seaux de neurones page 4 30 Bertrand LIAUDET Pour la pr vision le r sultat sera d normalis x x max X min X min X Exemple Pr vision du prix d une action dont le min vaut 20 le max 30 et la sortie du r seau 0 69 Pr vision 0 69 30 20 20 26 9 5 Param trage de la couche cach e On peut choisir le nombre de n uds de la couche cach e et le nombre de couche cach e Plus le nombre de n uds augmente plus le r seau est apte identifier des ph nom nes complexe Toutefois un trop grand nombre de n uds conduit un sur apprentissage dans l chantillon d apprentissage finalement nuisible aux chantillons de test 6 Valeurs des n uds et des liaisons e Lors de l initialisation un poids est donn al atoirement chaque liaison et chaque n ud des couches cach es et de sortie L ajustement de ces
14. e Vuibert 2005 EPF 4 5 ann e IAP Cours de Data Mining 8 R seaux de neurones page 2 30 Bertrand LIAUDET Neurone formel Les donn es d entr e x sont recueillies partir des neurones du flux sup rieur dans l ensemble des donn es et sont combin es dans une fonction combinatoire telle la somme Cette fonction combinatoire est en entr e d une fonction d activation qui produit une r ponse envoy e en entr e d autres neurones at Se mue LC pee TTSA H Sch ma d un neurone formel Avantage des r seaux de neurones Robuste aux donn es bruit es Permettent de mod liser de grandes vari t s de comportements Inconv nients Les r sultats sont assez opaques la diff rence de la m thode des arbres de d cision La mise en uvre qui passe par un apprentissage peut tre longue 2 Architecture et principes de fonctionnement Couche d entr e Couche cach e Couche de sortie Exemple d un petit r seau de neurones e Un r seau de neurones formels est dispos en couches de neurones formels D apr s Des donn es la connaissance de Daniel T Larose Vuibert 2005 D apr s Des donn es la connaissance de Daniel T Larose Vuibert 2005 EPF 4 5 ann e IAP Cours de Data Mining 8 R seaux de neurones page 3 30 Bertrand LIAUDET e Les neurones sont appel s n uds e La plupart des r seaux sont constitu
15. e dans laquelle il y a 483 churn true On constate toutefois que les deux mod lisations donnent un r sultat assez mauvais moins de la moiti des churn mod lis true correspondent un churn true dans la population d origine EPF 4 5 ann e IAP Cours de Data Mining 8 R seaux de neurones page 14 30 Bertrand LIAUDET Comparaison avec la mod lisation par r gle de d cision EJ R gles pour True contient 5 r gle s R gle 1 pour True 51 0 667 si Conso de jour en minutes lt 264 450 et Appels au service client lt 3 500 et International in no et Conso de jour en minutes gt 223 250 et Conso de soir e en minutes gt 259 800 alors True R gle 2 pour True 51 1 0 si Conso de jour en minutes lt 264 450 et Appels au service client lt 3 500 et International in yes et Nb dappels internationaux lt 2 500 alors True R gle 3 pour True 43 1 0 si Conso de jour en minutes lt 264 450 et Appels au service client lt 3 500 et International in yes et Nb dappels internationaux gt 2 500 et Conso internationale en minutes gt 13 100 alors True R gle 4 pour True 102 0 873 si Conso de jour en minutes lt 264 450 et Appels au service client 3 500 et Conso de jour en minutes lt 160 200 alors True R gle 5 pour True 101 0 95 si Conso de jour en minutes gt 264 450 et Mail in no et Conso de soir e en minutes gt 187 75
16. e neurones 1 G n ralit s Imiter le cerveau humain L inspiration l origine de la technique des r seaux de neurones formels commun ment appel r seau de neurones vient du fait que le cerveau humain est un syst me apprenant qui n est pas bas sur les principes de la logique formelle mais sur une structure le cerveau humain contenant environ 100 milliards de neurones reli s entre eux par 10 000 contacts synaptiques soit environ un million de milliards de synapses Les r seaux de neurones formels sont une tentative pour imiter le m canisme d apprentissage qui se produit dans le cerveau Neurone r el Les neurones r els pr sentent trois r gions principales le corps cellulaire les dendrites prolongements relativement courts et arborescents du corps cellulaire et l axone prolongement long et fibreux Un neurone utilise des dendrites pour rassembler des donn es d entr e issues d autres neurones Ces donn es d entr e sont combin es pour produire une r ponse envoy e d autres neurones ou d autres cellules Les axones transportent les influx en provenance du corps cellulaire vers d autres cellules la longueur d un axone est tr s variable elle peut atteindre 1 m chez l homme et pr s de 10 m chez la girafe Dendrites PE Synapse n a Tel Corps de ab la cellule Sch ma d un neurone r el D apr s Des donn es la connaissance de Daniel T Laros
17. eurones page 21 30 Bertrand LIAUDET Applications Le fichier de churn R seau de Kohonen Pour avoir des pr cisions sur le mode d emploi on utilise le bouton dans la fen tre en cours On va utiliser 2 m thodes e Le param trage par d faut e Le param trage expert R sultats avec le param trage par d faut Le param trage par d faut d finit 4 fois 3 12 classes au maximum gt Entr es du mod le amp Kohonen El Fichier G n rer E f A E Resureru amp bevstopnertout EJ Analyse KX Kohonen 4 KY Kohonen 3 Couche d entr e 13 neurones Couche de sortie 12 neurones EJ Champs M Entr es E Appels au service client E Conso de jour en minutes E Conso de nuit en minutes Conso de soir e en minutes E Conso internationale en minutes 8 Dur e de vie du compte O International O Mail Nb dappels de jour Nb dappels de nuit Nb dappels de soir e E Nb dappels internationaux a Nb msg ENT Annuler Appliquer _ R initialiser EPF 4 5 ann e IAP Cours de Data Mining 8 R seaux de neurones page 22 30 Bertrand LIAUDET gt Classes trouv es amp Kohonen El Fichier G n rer all E E E R duire tout R duire tout R duire tout _ D veloppertout _ D veloppertout X 0 Y 0 829 enregistrements amp X 0 Y 2 625 enregistrements X 1 Y 0 17 enregistrements
18. hurn M Entr es E Appels au service client E Conso de jour en minutes Conso de nuit en minutes Conso internationale en minutes O International O Mail Nb dappels de jour Nb dappels de nuit Nb dappels internationaux 2 Nb msg M Cr er des param tres Utiliser les donn es partitionn es faux M thode Multiple La synth se affiche e La pr cision 95 17 e Les variables en entr e et la variable cible e La m thode rapide et la topologie du r seau 2 couches cach es et 12 n uds cach s e Les attributs les plus influents dans la pr diction du churn o Appel au service client et consommation jour o International et consommation nuit La dur e du calcul pas sur notre graphique Imn 23 s Du point de vue des param tres observ s les deux m thodes se valent peu pr s EPF 4 5 ann e IAP Cours de Data Mining 8 R seaux de neurones page 13 30 Bertrand LIAUDET Comparaison entre les deux m thodes a partir de l analyse du churn R partition du churn dans la population initiale E Proportion de Churn 1 2 Fichier Edition G n rer als Proportion 85 51 14 49 Churn E False Churn E False Table On constate que la mod lisation rapide arrive 509 churn true contre 257 dans la mod lisation rapide Autrement dit la mod lisation rapide donne un r sultat plus proche de la situation d origin
19. ltats n est pas facile Le nombre de classe maximum est fix e a priori C est aussi l ordre de grandeur du nombre de classes final EPF 4 5 ann e IAP Cours de Data Mining 8 R seaux de neurones page 20 30 Bertrand LIAUDET 5 Interpr tation des r sultats validit et interpr tation des classes Comme pour toute analyse de classification plusieurs techniques peuvent tre utilis es pour valider et interpr ter les classes Analyse exploratoire des classes obtenues Il faut faire une analyse exploratoire de chaque classe pour comparer les r partitions des diff rentes variables dans chacune des classes et les r partitions de variables cibles dans les diff rentes classes Supprimer les variables cibles potentielles des variables d entr e Si on pr voit d analyser certaines variables cibles dans les classes obtenues il faut supprimer ces variables des variables d entr e de la mod lisation de Kohonen Arbre de d cision On faire un arbre de d cision avec comme variable cible la variable de classification cr par le r seau de Kohonen Travailler sur deux sous populations On peut diviser la population d origine en deux al atoirement et v rifier qu on obtient des r sultats concordants dans les deux sous ensemble par observation des r partitions dans chaque classe et par analyse exploratoire de chaque classe EPF 4 5 ann e IAP Cours de Data Mining 8 R seaux de n
20. m me temps qu on minimise la SEC dans l ensemble d apprentissage on v rifie qu on la minimise aussi dans l ensemble de validation Quand elle croit dans l ensemble de validation c est qu on commence entrer en phase de sur apprentissage C est un bon crit re d arr t Taux d erreur Taux d erreur sur l ensemble de validation Taux d erreur min Taux d erreur sur l ensemble d apprentissage x Sur apprentissage Sous apprentissage Complexit optimale Complexit du mod le Le mod le doit atteindre le taux d erreurs minimum pour l ensemble de validation EPF 4 5 ann e IAP Cours de Data Mining 8 R seaux de neurones page 9 30 Bertrand LIAUDET 11 Mod le avec plusieurs variables cibles On peut avoir plusieurs variables cibles dans un r seau de neurone La couche de sortie aura alors autant de n ud qu il y a de variable cible La pr diction se fera sur le n uplet de valeur des variables cibles 12 Interpr tation des r sultats l analyse de la sensibilit Un inconv nient des r seaux de neurones est leur opacit Il fournisse une fonction de pr diction mais cette fonction n est pas traduisible comme dans les arbres de d cision en un ensemble de r gles intuitivement compr hensibles Cependant on peut mesurer l influence relative de chaque variable sur le r sultat en sortie L analyse de la sensibilit effectue cette me
21. nd not International then Option Mail elseif not Mail and International then Option Inter else Sans options endif Proportion de Options 2 DER Fichier Xlo valeur Proportion Comptage Sans options 65 41 2180 Option Mail Option Inter Toutes options LR in_clusters HE R partition des classes dans les cat gories d options EPF 4 5 ann e IAP Cours de Data Mining 8 R seaux de neurones page 25 30 Bertrand LIAUDET E Proportion de Options 3 Proportion Option Mail 24 9 Optioner 59 Toutes options DS 275 in_clusters E 00 R partition normalis e des classes dans les cat gories d options Si on compare la r partition des classes en fonction de la dur e de vie on constate que les 3 classes sans options se divisent en fonction de la dur e de vie Les 3 autres classes mail inter et toutes options ont une dur e de vie de type gaussien On constate aussi que la classe inter d borde un peu sur la classe toute option gt Consommation totale MA Histogramme de Conso totale El Ficnier Edition G n rer ee in_clusters 10 12 400 00600 00800 000 400 00000 00800 000 400 00000 00800 000 400 00000 00800 000 400 00600 00800 000 400 00000 00800 000 Conso totale Fichier gt Edition Y G n rer ROBE in_clusters 00 02 10
22. ntielle exp 1 2 7 NET n NET du n ud n SIG NET n sigmo de du NET du noeud n 0 5 0 0 j T 5 0 ke Graphe de la fonction sigmo de La fonction sigmo de est telle que lorsque les donn es d entr e sont proches du centre de l intervalle f x est lin aire Lorsque les donn es d entr e s loignent du centre f x est curviligne Lorsque les donn es sont tr s loign es du centre f x devient quasiment constante Donc les incr ments du NET d un n ud produisent des incr ments variables de SIG NET pr s du centre un incr ment du NET produit un incr ment lin aire du SIG Plus on s carte du centre moins l incr ment du NET a d effet sur le SIG Loin du centre un incr ment du NET ne produit pas d incr ment du SIG La fonction sigmo de est aussi appel e fonction d crasement elle crase les extr mes On va appliquer la fonction sigmo de la valeur NET de chaque n ud 8 La SEC Les r seaux de neurones sont une m thode supervis e on choisit une variable cible Chaque individu avec ses variable en entr e passe travers le r seau et fournit un r sultat dans le n ud de sortie Cette valeur de sortie est compar e celle de la variable cible Erreur de pr vision valeur de la donn e r elle valeur de sortie Cette erreur est analogue celle des mod les de r gression En g n ral les mod les r seau de neurone calculent une
23. ortie La carte structure les n uds en sortie en classes de n uds Architecture Couche de sortie 4 A A I va i I e A RU N l 7 y Nr A TD 7 4 I l 2 PS Z l sisi au l x UN A i Aa vw X NZ A Y A l 41 A ASA AN a a iay IS R er f r4 TIDA Xa a AA UNA TA lt N AN fins Y AR X NS A W R REA RON E i i N 2 2 SK 1 7 Connexions avec poids V o ANAT 2 ASUA Donn es d entr e Age Revenu Sch ma d une carte auto organistrice SOM 7 D apr s Des donn es la connaissance de Daniel T Larose Vuibert 2005 EPF 4 5 ann e IAP Cours de Data Mining 8 R seaux de neurones page 19 30 Bertrand LIAUDET A la diff rence des r seaux de neurones les SOM n ont pas de couche cach e La couche de sortie contient plusieurs n uds repr sent sous la forme d un treillis rectangulaire un carr de dimension 3 dans l exemple ci dessus Le nombre de n uds de la couche de sortie est fix arbitrairement par l utilisateur Il d finit le nombre maximum de classes Principes de fonctionnement fonction de score Les valeurs des n uds de la couche d entr e valeurs normalis es des variables prises en compte par le mod le sont distribu es dans les n uds de la couche de sortie apr s transformation en fonction des pond rations du r seau on parle de fonction de score Cette fonction est g n ralement une
24. pas une simple parabole Elle contient plusieurs minimums ou paliers Le terme de moment permet d viter que la recherche du meilleur minimum s arr te un palier interm diaire ou qu il se trouve avant ou apr s le meilleur palier SEC Courbe de l volution du SEC en fonction du poids On peut interpr ter cette courbe en disant que le terme de moment favorise le fait de ne pas s arr ter au palier A le fait de ne pas aller au palier C le fait de s arr ter au palier B 6 D apr s Des donn es la connaissance de Daniel T Larose Vuibert 2005 EPF 4 5 ann e IAP Cours de Data Mining 8 R seaux de neurones page 8 30 Bertrand LIAUDET 10 Crit res d arr t L algorithme peut traiter tous les enregistrements de l ensemble des donn es d apprentissage un nombre de fois ind termin Il faut donc d terminer un crit re d arr t Le temps viter La mod lisation par r seau de neurones peut prendre plusieurs heures Le temps peut donc tre un crit re d arr t si on est press mais il risque de conduire un mod le peu efficace Minimiser la SEC dans l ensemble d apprentissage viter La SEC peut tre un crit re d arr t mais elle risque de conduire une sur apprentissage m morisant des caract ristiques idiosyncrasiques propres aux individus ind pendamment de leur groupe Minimiser la SEC dans l ensemble de validation En
25. r es E Appels au service client E Conso de jour en minutes Conso de nuit en minutes Conso internationale en minutes O International O Mail Nb dappels de jour Nb dappels de nuit Nb dappels internationaux L Nb msg Q Cr er des param tres Utiliser les donn es partitionn es faux M thode Rapide La synth se affiche La pr cision 92 42 Les variables en entr e et la variable cible La m thode rapide et la topologie du r seau 1 couche cach e et 3 n uds cach s Les attributs les plus influents dans la pr diction du churn o Appel au service client et consommation jour o Internationalet les appels au service client La dur e du calcul pas sur notre graphique 2 s EPF 4 5 ann e IAP Cours de Data Mining 8 R seaux de neurones page 12 30 Bertrand LIAUDET R sultats avec la m thode multiple EJ Analyse Pr cision estim e 95 178 Couche d entr e 13 neurones Couche cach e 1 7 neurones Couche cach e 2 5 neurones Couche de sortie 1 neurones Ez Importance relative des entr es Conso de jour en minutes 0 779745 Appels au service client 0 551973 International 0 299785 Conso de nuit en minutes 0 220306 Conso internationale en minutes 011119 Mail 0 098513 Nb msg 0 0977003 Nb dappels internationaux _ 0 0898257 Nb dappels de nuit __ 0 0683568 Nb dappels de jour 0 0257146 EJ Champs E Cible OS C
26. somme des erreurs au carr SEC SEC Somme pour tous les enregistrements donn e r elle donn e en sortie D apr s Des donn es la connaissance de Daniel T Larose Vuibert 2005 EPF 4 5 ann e IAP Cours de Data Mining 8 R seaux de neurones page 6 30 Bertrand LIAUDET Le probl me consiste donc minimiser la valeur de SEC en fonction de l ensemble des valeurs de pond ration des n uds et des liaisons 9 La r tropropagation En raison de la nature non lin aire de la fonction sigmo de il n existe pas de r solution analytique de la minimisation de la SEC La r tropropagation met en uvre des calculs math matiques et algorithmiques complexes que nous ne pr sentons pas ici Nous pr sentons seulement les principaux concepts et param tres qui entrent en jeu M thode de d croissance du gradient de la SEC pour ajuster les pond rations Pour minimiser la SEC on utilise la m thode de d croissance du gradient qui donne la direction dans laquelle il faut ajuster la pond ration pour faire d cro tre la SEC SEC Wa W Wio w Courbe de l volution du SEC en fonction du poids La courbe ci dessus montre une volution parabolique de la SEC en fonction d une seule pond ration C est une simplification qui permet de montrer que la d riv de la courbe donne la pente et nous dit dans quel sens il faut ajuster le poids La r tropropagation La r
27. sure EPF 4 5 ann e IAP Cours de Data Mining 8 R seaux de neurones page 10 30 Bertrand LIAUDET Applications Le fichier de churn R seau de neurones Pour avoir des pr cisions sur le mode d emploi on utilise le bouton dans la fen tre en cours On va utiliser 2 m thodes e Rapide e Multiple Cette m thode cr e plusieurs r seaux de topologie diff rente le nombre exact de r seaux cr s d pend des donn es d apprentissage Ces deux m thodes sont assez rapides e Elagage exhaustif Cette m thode donne souvent les meilleurs r sultats c est aussi la plus lente Cette m thode peut se r v ler tr s lente tout particuli rement avec les ensembles de donn es volumineux EPF 4 5 ann e IAP Cours de Data Mining 8 R seaux de neurones page 11 30 Bertrand LIAUDET R sultats avec la m thode rapide Q EJ Analyse Pr cision estim e 92 421 Couche d entr e 13 neurones Couche cach e 1 3 neurones Couche de sortie 1 neurones Q a Importance relative des entr es Appels au service client 0 748625 Conso de jour en minutes 0 703762 International _ 0 291153 Conso internationale en minutes 0 178311 Conso de nuit en minutes _ 0153778 Nb msg 0 08636 Mail 0 0757285 Nb dappels de jour 0 0627624 Nb dappels de nuit 0 0520928 Nb dappels internationaux 0 0509746 E Champs E Cible o8 Churn M Ent
28. tion G n rer ER 10 98 P False On voit que le r sultat est plus int ressant qu avec les consommation s par es la concordance entre le churn true calcul et le churn true d origine est meilleure A noter qu on pourrait acc der au chiffrage avec le n ud Sortie Matrice EPF 4 5 ann e IAP Cours de Data Mining 8 R seaux de neurones page 16 30 Bertrand LIAUDET E R gles pour False contient 5 r gle s EJ R gles pour True contient 5 r gle s R gle 1 pour True si et et et alors conso totale lt 701 100 Appels au service client 3 500 International in yes Nb dappels internationaux lt 2 500 True R gle 2 pour True si et et et et alors conso totale lt 701 100 Appels au service client 3 500 International in yes Nb dappels internationaux gt 2 500 Conso internationale en minutes gt 13 100 True R gle 3 pour True si et et alors conso totale lt 701 100 Appels au service client gt 3 500 conso totale lt 541 650 True R gle 4 pour True si et et et alors conso totale gt 701 100 Mail in no conso totale lt 760 950 nb appel total gt 292 500 True R gle 5pour True si et et alors conso totale gt 701 100 Mail in no conso totale gt 760 950 True Par d faut False E Proportion de SR Churn 3 2l Fichier Ed SEB
29. vants le voisinage est 1 et le taux d apprentissage eta d croit partir de 0 3 gt Classes trouv es amp Kohonen El Fichier G n rer EI iay ES ES amp R duire tout D velopper tout 0 Y 0 830 enregistrements yen Y 2 882 enregistrements 1 Y 0 75 enregistrements 1 Y 2 480 enregistrements P X 2 Y 0 248 enregistrements X 2 Y 2 818 enregistrements in_clusters E 00 EPF 4 5 ann e IAP Cours de Data Mining 8 R seaux de neurones page 24 30 Bertrand LIAUDET Interpr tation des classes par analyse exploratoire En utilisant l afficheur et ou en faisant une analyse exploratoire pour chaque classe on arrive aux r sultats suivants in_clusters 10 12 in_clusters E E BE o E B 2 22 0 000 100 000 200 000 0 000 100 000 200 000 0 000 100 000 200 000 0 000 100 000 200 000 0 000 100 000 200 000 0 000 100 000 200 000 Dur e de vie du compte On a 3 classes classiques 00 10 et 20 La classe 2 est dur e de vie faible La classe 12 dur e de vie moyenne La classe 22 dur e de vie forte On peut aussi observer la r partition des classes dans les options Pour cela on cr e un attribut calculer qui prend en compte les deux options Attribut options if Mail and International then Toutes options elseif Mail a

Download Pdf Manuals

image

Related Search

Related Contents

to Model Documentation  Ideenprojekt 2289  4ポートUSB3.0ハブ 取扱説明書  

Copyright © All rights reserved.
Failed to retrieve file