Home

tp de data mining 1 - Site de Bertrand LIAUDET

image

Contents

1. es page 5 8 Bertrand LIAUDET Clementine e Ajouter le n ud Graphique Proportion au flux e Connecter le n ud Source D limit au n ud Sortie Audit donn es e Double cliquer que le n ud Graphique Proportion Choisir le champs international superposer churn normaliser par couleur e Ex cuter 13 Corr lation entre le Churn et l option messagerie Graphique Proportion Dans une nouvelle feuille de flux afficher les proportions de churn selon la valeur de l option messagerie avec un graphique de proportion Quelles conclusions pouvez vous en tirer 13 Calcul du nombre de clients r cup rables Sortie Matrice Afficher les donn es chiffr es des 2 analyses pr c dentes avec le n ud Sortie Matrice En ramenant le taux de churn de ceux qui ont pris l option internationale au taux de churn de ceux qui ne l ont pas pris combien de clients pourrait on conserver En ramenant le taux de churn de ceux qui n ont pas pris l option mail au taux de churn de ceux qui l ont pris combien de clients pourrait on conserver Clementine e Ajouter le n ud Sortie Matrice au flux e Connecter le n ud Source D limit au n ud Sortie Matrice e Double cliquer que le n ud Sortie Matrice Choisir le champs international pour ligne et le champs churn pour colonne e Ex cuter Dans a
2. TP DE DATA MINING 1 COMPREHENSION ET PREPARATION DES DONNEES AVEC SPSS CLEMENTINE EPF 4 5 ann e Option Ing nierie d Affaires et de Projets Finance Bertrand LIAUDET TP n 1 de DATA MINING IES DONNEES 1 Jeu de donn es d attrition churn sssssoeeeeeoeoesesesoeosoosoosessossoossossossosseesesssossssssseo 1 Jeu de donn es d VOUS nn end dosettes den encier esse meretensesdnes etes 7 Autres Jeux de dO nn es sn nianninihian ns se 7 TP N 1 DE DATA MINING LES DONNEES Le premier TP a pour objectif de se familiariser avec le logiciel SPSS Clementine et de mettre en uvre les phases de compr hension et de pr paration des donn es d un processus de data mining Un mode d emploi succinct de SPSS Clementine est propos dans un autre document Jeu de donn es d attrition churn 1 Ouvrir un flux 2 Travailler sur le fichier d attrition Source D limit Combien d attributs y a t 1l dans ce fichier Onglet Donn es Triez les par type Tri de l onglet stockage Observez les caract ristiques des attributs Onglet Type Lire les valeurs Que constatez vous EPF 4 ann e IAP TP de Data mining 1 Les donn es page 1 8 Bertrand LIAUDET Forcez le type du n de d partement faites le passer de intervalle ensemble Relire les valeurs Rappel Le fichier de donn es d origine doit tre conserv intact Clemen
3. e noeud Sortie table Connecter le n ud Ops sur lignes fusionner au n ud Sortie table Les c r ales Traiter le probl me de la compr hension et de la pr paration des donn es Quelles sont vos conclusions EPF 4 ann e IAP TP de Data mining 1 Les donn es page 8 8 Bertrand LIAUDET
4. itres au 100 km 1 gallon au 28 25 miles soit 28 25 miles par gallon 3 Poids Poids du v hicule 4 Cylindres Nombre de cylindres du moteur 5 cm3 Volume du moteur 6 Hp Puissance du moteur 7 Time to 60 Temps pour atteindre les 60 miles s 8 Ann e Ann e de sortie d usine 9 Origine Origine du constructeur Autres jeux de donn es Les employ s et les d partements pour refaire un peu de SQL Affichez le tableau des donn es pour Emp et Dept Faites la jointure entre emp et dept Affichez les r sultats tri s par nom et pr nom d employ en pr sentant les attributs dans le bon ordre Afficher le nombre d employ s et le salaire moyen par d partement En pratique Soit les deux tables suivantes Dept numDept nom ville Emp numEmp nom fonction suphi date salaire prime numDept EPF 4 ann e IAP TP de Data mining 1 Les donn es page 7 8 Bertrand LIAUDET Clementine exemple 01 Emp Dept Ouvrir un nouveau flux Ajouter deux n uds Source D limit au flux Double cliquer sur les n uds et associer le fichier texte manipuler Ajouter le noeud Ops sur lignes fusionner Connecter les n uds Source D limit au n ud Ops sur lignes fusionner Double cliquer sur Ops sur lignes fusionner s lectionner cl s comme m thode de fusion et d placer la cl possible en cl pour fusion Ajouter l
5. mit bouton droit connecter cliquer sur e Afficher l Audit des donn es S lectionner Sortie Audit donn es bouton Les colonnes Graphique Type Unique sont double cliquables pour Toutes les colonnes permettent de faire des tris en cliquant sur le nom de la colonne 6 Statistiques d taill es Sortie Statistiques Afficher et analyser les statistiques d taill es EPF 4 ann e IAP TP de Data mining 1 Les donn es page 3 8 Bertrand LIAUDET Clementine e Ajouter le n ud Sortie Statistiques au flux Les statistiques ne s appliquent qu aux donn es continues e Connecter le n ud Source D limit au n ud Sortie Statistiques S lectionner le n ud Source D limit bouton droit connecter cliquer sur Audit donn es e Double cliquer sur le n ud Sortie Statistiques s lectionner les variables examiner et les statistiques souhait es s lectionner les toutes e Afficher le tableau des statistiques S lectionner Sortie Statistiques bouton droit ex cuter RESULTATS Les calculs statistiques sont effectu s sur 16 variables les 16 variables continues Les 4 variables discr tes n ont pas t prises en compte La variable numT l a d j t limin e Aide En cliquant sur le en haut droite de la fen tre Clementine fournit une aide pour l interpr tation et le param
6. pparence cliquer sur inclure les totaux des lignes et des colonnes 13 Corr lation entre le Churn et le nombre d appels au service client Dans une nouvelle feuille de flux afficher les proportions de churn selon le nombre d appels au service client avec un graphique de proportion Quelles conclusions pouvez vous en tirer 14 Corr lation du Churn et de la consommation de jour Dans une nouvelle feuille de flux afficher les proportions de churn selon la consommation par jour avec un histogramme Quelles conclusions pouvez vous en tirer 15 Corr lation du Churn avec la consommation de jour et les appels au service client Superposer le churn dans le nuage consommation jour et appels service client Quelles sont les zones remarquables EPF 4 ann e IAP TP de Data mining 1 Les donn es page 6 8 Bertrand LIAUDET Quelles conclusions pouvez vous tirer 16 Faites une synth se de toute votre analyse Jeu de donn es de voitures Traiter le probl me de la compr hension et de la pr paration des donn es Quelles sont vos conclusions Dictionnaire des variables N Nom de la variable Signification de la variable Type de variable Autres Cat gorielle ou autre Caract ristiques 1 N Num ro du v hicule 2 Consommation en Consommation en mile par gallon 4 546 mile par galon litres 1 gallon 1 mile 1609 m tres 10 l
7. rtie Tableau Afficher le tableau des donn es Essayer de faire des tris Que pouvez vous constater Que pensez vous de cet outil EPF 4 ann e IAP TP de Data mining 1 Les donn es page 2 8 Bertrand LIAUDET 3333 chum cod tt Statistiques Clementine e Ajouter le n ud Sortie Table au flux Sortie Table ex cuter e Connecter le n ud Source D limit au n ud Sortie Table S lectionner le n ud Source D limit bouton droit connecter cliquer sur e Afficher le tableau des donn es S lectionner Sortie Table bouton droit 5 Afficher l audit de donn es Sortie Audit Combien d attributs sont trait s par l audit Pourquoi Trier les donn es par type Quelle est la dur e de vie moyenne des contrats Que signifie la moyenne des codes d partement Expliquer la signification de chaque variable Trier les donn es par asym trie Que constatez vous Quelles conclusions pouvez vous tirer de l observation des histogrammes Clementine donn es continues et les donn es discr tes Audit donn es droit ex cuter RESULTATS obtenir des pr cisions e Ajouter le n ud Sortie Audit donn es au flux L audit de donn es traite les e Connecter le n ud Source D limit au n ud Sortie Audit donn es S lectionner le n ud Source D li
8. tine e Ouvrir un nouveau flux e Ajouter le n ud Source D limit au flux e Double cliquer sur ce n ud et associer ce n ud le fichier texte manipuler e Avoir de l information sur le type des donn es S lectionner Source D limit Double cliquer Choisir l onglet donn es et regarder la colonne stockage Clementine distingue entre entier r el cha ne et date e Avoir de l information sur les valeurs possibles des donn es S lectionner Source D limit Double cliquer Choisir l onglet types cliquer effacer toutes les valeurs puis lire les valeurs et regarder les colonnes type et valeurs Clementine d finit des types intervalle bool ens et ensemble mais aussi sans type e Forcer le type du n de d partement le faire passer de intervalle ensemble Ainsi on aura bien une variable cat gorielle 3 Observer la qualit des donn es Sortie Qualit 3333 churn_TP bt i Qualit Afficher le maximum de caract ristiques Trier les r sultats Quels attributs posent probl me Clementine e Ajouter le n ud Sortie Qualit au flux e Connecter le n ud Source D limit au n ud Sortie Qualit e Double cliquer sur le n ud Sortie Qualit Tout cocher e Ex cuter 4 Afficher le tableau des donn es So
9. trage du r sultat 7 Filtrer toutes les donn es hors norme Sortie Statistiques On a mis au jour des donn es hors norme Filtrer ces donn es et recommencer l audit de donn es LD E bandei 20 Champs Clementine e On peut produire un n ud S lection partir du graphique de l histogramme ou des proportions 9 Afficher la matrice crois e d partement Reg US Sortie Matrice Le n de d partement est une variable cat gorielle Quelles conclusion peut on en tirer 3333 churn cod txt Typer A noter que le n ud typer est inutile car le type est d j impos dans le n ud Source D limit EPF 4 ann e IAP TP de Data mining 1 Les donn es page 4 8 Bertrand LIAUDET Faire les statistiques du num ro de t l phone e Ajouter le n uds Ops champs Typer au flux Graphique proportions e Connecter les n uds Source D limit Ops champs Typer et Graphique proportions e Double cliquer sur le n ud Ops champs Typer Passer le type de lt numTel ensemble et la direction in constater qu il y a maintenant 21 champs pour le n ud statistique e Afficher le tableau de proportions trier par comptage 10 Donner le nombre d occurrences de chaque num ro de t l phone Graphique Proportion Champs Typer On utilisera l o
10. util de proportion et le n ud typer Quels sont les nombres d occurrences min et max Quelle conclusion peut on en tirer Faire les statistiques du num ro de t l phone e Ajouter le n uds Ops champs Typer au flux Graphique proportions e Connecter les n uds Source D limit Ops champs Typer et Graphique proportions e Double cliquer sur le n ud Ops champs Typer Passer le type de lt numTel ensemble et la direction in constater qu il y a maintenant 21 champs pour le n ud statistique e Afficher le tableau de proportions trier par comptage 11 Rechercher toutes les corr lations possibles entre les variables num riques Sortie Statistiques Quelles corr lations trouvez vous Montrez graphiquement les corr lations avec un nuage de point 3333 chum cod bt Statistiques 12 Filtrer le tableau de d part et faire un audit Dans un nouveau flux filtrer les attributs inutiles on utilisera le n ud typer filtrer les donn es hors norme et faire un audit 13 Corr lation entre le Churn et l option internationale Graphique Proportion Dans une nouvelle feuille de flux afficher les proportions de churn selon la valeur de l option internationale avec un graphique de proportion Quelles conclusions pouvez vous en tirer EPF 4 ann e IAP TP de Data mining 1 Les donn

Download Pdf Manuals

image

Related Search

Related Contents

Presentación de PowerPoint  このたび公売する財産は、動産7点(見積価額合計82,400円)せり売り  Chauvet SCAN LED 100 Indoor Furnishings User Manual  infraestructura distribuida para la construcción de paquetes debian  BIS910  Page 1 Page 2 ーー( 2 放端の管理 不融 歯科用カ・ ス ーー` 2  Black Box T1/E1 User's Manual  HP M127fn User's Manual  4x M12x140 4x M12x40(10,9)  取扱説明書 - 三菱電機  

Copyright © All rights reserved.
Failed to retrieve file