Home
Redalyc.Transformer L`information en connaissance avec stanalyst
Contents
1. analyse de l information En effet une fois que l information qui nous int resse est disponible dans des bases de donn es ou bien dans le web et nous disposons de syst mes de recherche d information ou de moteurs de recherche le probl me est alors celui d analyser l information collect e Le pr suppos est que la quantit d information collect e d passe les moyens humains ordinaires et qu il faut donc s aider de moyens informatiques ad quats Autrement dit le stockage la recherche et la diffusion d information sont des activit s caract ristiques du traitement de l information auxquelles vient s ajouter l analyse de l information Ce qui importe c est de distinguer l objectif et la forme de l analyse de l information Les objectifs d pendent des secteurs d activit ou l information repr sente une valeur qu il est d int r t exploiter une mati re transformer en information utile transformer en connaissances Quant la forme de le faire il y a diff rentes modes d impl mentation de ce travail de transformation 2 2 Analyse de l information Commengons par la d finition que nous avons adopt e Polanco 1997 comme guide de nos travaux conduisant STANALYST Pour ensuite revenir sur la place de l analyse dans un syst me d information Notre d finition correspond l analyse assist e par ordinateur En g n ral par l analyse de l information on entend la phase d interpr tation que l utilisateur r a
2. dition mots cl s types de documents et date de publication cette phase statistique connue comme bibliom trie est suivie d une phase o l aspect linguistique ou textuel des donn es est primordial en bref titres r sum s et indexation Titres et r sum s sont la source de Enc Bibli R Eletr Bibliotecon Ci Inf Florian polis n esp 1 sem 2008 83 l indexation automatique On sait que les mots cl s expriment les concepts qui sont pr sents dans les documents C est a partir de la matrice D N P N documents x P mots cl s que l on passe la phase de classification automatique dont le produit est l organisation des documents et des mots cl s en classes et les classes sont visualisables sur des cartes L analyste actionnant les modules du syst me obtient des r sultats c est a dire de l information propos des donn es collect es corpus qu il peut par la suite utiliser pour faire un travail d interpr tation ou d analyse plus approfondie On remarquera que nous ne sommes pas encore avec STANALYST au niveau du texte plein full text les donn es sont toujours des r f rences bibliographiques extraites des bases de donn es et donc des donn es structur es 3 3 Architecture et fonctionnement L architecture de STANALYST est la suivante L ACCUEIL est une page HTML statique ou l utilisateur d clare son nom et son mot de passe pour acc der aux diff rents modules L utilisateur cr e alors un PR
3. et des trois mondes de Popper Par ailleurs ces deux formulations se ressemblent fortement Nous sommes d accord avec la remarque de Brooks 1980 que le r le de la science de l information est l exploration et l organisation du troisi me monde de Popper celui de la connaissance objective Dans sa contribution The foundations of information science 1980 apr s un rappel de la th orie popp rienne des trois mondes et de la connaissance objective Brooks soutient What information science needs at its roots it seem to me is an objective rather a subjective theory of knowledge Part L p 127 Nous partageons cet avis depuis le commencement de nos travaux conduisant la conception de STANALYST Au m me temps nous avons t orient s par la th orie de la connaissance d Althusser 1965 des trois g n ralit s D apr s Popper il existe le monde de ph nom nes physiques et sociaux monde 1 le monde subjectif des tats de conscience des tats mentaux et des dispositions behavioristes celui du sujet connaissant monde 2 et par rapport auquel la connaissance crite celle qui est v hicul e par la litt rature scientifique que STANALYST permet d analyser repr sente la connaissance objective monde 3 Ceci Enc Bibli R Eletr Bibliotecon Ci Inf Florian polis n esp 1 sem 2008 86 induit la reconnaissance qu il y a deux cat gories de probl mes concernant l analyse de la connaissance La premi
4. En appliquant ce sch ma notre cas les donn es seraient la GI que l analyste transforme en connaissance GII au moyen de l application d une technologie de l information telle que STANALYST GII On voit que le sch ma correspond bien la notion de processus de production et auquel s ajuste l id e de la transformation des donn es en information et de celle ci en connaissance il y a toujours d un c t l entr e et de l autre la sortie du syst me op rant la transformation ou conversion c est aussi l id e de produire une information labor e partir d une information brute L tat de l information labor e ou de brute n est pas une donne absolue ni n cessairement fix par la nature des donn es ces tats de l information d pendent la fois du syst me mis en ceuvre comme par exemple STANALYST et de son but c est dire le besoin informationnel qu il entend satisfaire Donn es STANALYST R sultats Monde 3 eG n ralit s III Monde 2 eG n ralit s eMonde 1 eG n ralit s Figure 5 Correspondance de STANALYST avec les trois mondes de Popper et les trois g n ralit s d Althusser La figure 5 montre STANALYST la place de l agent humain auquel font r f rences le Enc Bibli R Eletr Bibliotecon Ci Inf Florian polis n esp 1 sem 2008 87 monde 2 de Popper M 2 comme les g n ralit s II d Althusser G II en tant que technologie op rant sur des d
5. RICY T FAPESP 23 25 de Mayo 2007 b Sao Paulo Brasil RIP A COURTIAL J P Co word maps of biotechnology An example of cognitive scientometrics Scientometrics v 6 1984 p 381 400 ROY AUTE J Les groupes nominaux complexes et leurs propri t s application l analyse de l information Th se de doctorat de l Universit Henri Poincar Nancy 1 1999 SALTON G MCGILL M J Introduction to Modern Information Retrieval New York McGraw Hill Book 1983 SAPORTA G Probabilit s analyse des donn es et statistique Paris Editions TECHNIP 1990 VAN RIJSBERGEN C J Information Retrieval London Butterworth 1979 ABSTRACT STANALYST Is it useful for doing what How is it made To which design does answer it We will try to give answer to these three questions locating us in the context of the information science Here we concentrate primarily on the function and the design which are at the base of STANALYST by leaving to side instructions for use It is not a technological approach remaining exclusively at the level of an information technology description On the contrary the task that we assert ourselves 1s to place technology within the framework of a certain design of the work on information Our central subject is to show what the information analysis means and how we can carry out this analysis with a tool designed to produce elaborated information and still to more transform information into knowledge The inte
6. le premier ex cute une classification non hi rarchique bas e sur une variante de k means appel e k means axial Lelu 1993 le second une classification hi rarchique bas e sur la cooccurrence de mots L emploi de ces m thodes de classification automatique sert d tecter des th mes ou des centres d int r t partir des donn es L utilisateur dispose ainsi de deux points de vue qu il peut comparer gr ce une fonction du module INFOMETRIE Rappelons au passage que les m thodes de classification automatique rel vent de l analyse de donn es Saporta 1990 Lebart et al 1997 La visualisation des classes sur une carte offre un moyen d valuer la position des th mes classes sur un plan de repr sentation Les cartes constituent un des moyens de la visualisation de l information Card et al 1999 Le r le de la visualisation est primordial dans l analyse de Enc Bibli R Eletr Bibliotecon Ci Inf Florianopolis n esp 1 sem 2008 84 l information Brachman et Anand 1996 Les modules pr sentent tous une m me organisation graphique compos e de trois fen tres la premi re affiche l historique du processus la seconde correspond au lancement des op rations propres chaque module et la troisi me permet la gestion des r sultats Pour la mise en uvre des op rations l utilisateur n a qu cliquer sur les commandes signal es dans chacune des fen tres En entr e de chaque module l utilisateur est solli
7. comme le syst me permettant d extraire de l information utile partir des donn es puis de transformer l information en connaissances qui deviennent elles par la suite des actions qui g n rent nouveau des donn es et le cycle recommence cette id e nous l avons esquiss e dans Polanco 1999 L analyse de l information est donc une fonction sp cifique l gard des autres deux fonctions stockage et recherche d information L analyse de l information constitue une fonction propre n cessitant une recherche sp cifique et des impl mentations technologiques particuli res Ceci ne signifie pas qu elle ne s int gre pas dans un syst me d information global r unissant les trois fonctions L analyse de l information est une expression g n rique qui pr sente des rapports g n rique sp cifique avec le domaine que l on conna t comme la d couverte de connaissance dans les bases de donn es en anglais knowledge discovery in databases Fayyad et al 1996 Piatetsky Shapiro amp Frawley 1991 et la fouille de donn es data mining Maimon amp Rokach 2005 si les donn es sont des textes alors on parle de fouille de textes text mining Dans le cas qui nous int resse ici l analyse se traduit dans la fouille de donn es textuelles pour l acquisition et repr sentation de connaissances En effet le concept d analyse de l information apparait comme le d nominateur commun des toutes ces op rations o l in
8. dans un syst me d information L actualit et l importance de la visualisation se laisse sentir pour le nombre d articles de synth se publi s par l Annual Review of Information Science and Technology entre 1995 et 2005 voir les volumes 39 2005 37 2003 32 19977 et 30 1995 Enc Bibli R Eletr Bibliotecon Ci Inf Florianopolis n esp 1 sem 2008 85 3 htip lan caicyt g0v ar 3000 7 Orange p y 2 Fichier Editon Affichage Favors Out 7 Qrem x m JO Rechercher So ravers 2 Adresse ME http fian caicyt go ar 32000 v Bee Lees gt maton nist er dans l application Figure 4 Une prise d cran de la page d acc s telle qu elle s affiche aujourd hui 4 TROISIEME QUESTION A QUELLE CONCEPTION REPONDE T IL Nous nous r f rerons la conception de la connaissance qui sous tend STANALYST en tant que technologie de l intelligence D une part la connaissance est comprise comme un processus de production Althusser 1965 et d autre part la connaissance qui nous int resse ici est la connaissance objective Popper 1972 comme il a t d j voqu dans la section 2 Cette double vision nous m ne consid rer l analyse de l information comme un processus de production dont la mati re premi re est la connaissance objective et son instrument de travail STANALYST Le mod le tient comme base d origine les th ories philosophiques des trois g n ralit s d Althusser
9. encore de technologie de l intelligence insistant alors sur la structure et les techniques mises en uvre La section 4 d veloppe la conception pist mologique la base de STANALYST et laquelle cet outil repr sente une r ponse technologique Comme 1l est traditionnel une conclusion close l article 3 http www france conesud cl BIREME http www bireme br CAICYT http www caicyt gov ar CONICYT http www conicyt cl RICYT http www ricyt edu ar En phase beta test STANALYST bases FRANCIS et PASCAL est accessible l INIST http stanalyst inist fr en phase alpha test STANALYST SciELO est accessible BIREME http turquesa bireme br 8080 et au CAICYT http lan caicyt gov ar 3000 Enc Bibli R Eletr Bibliotecon Ci Inf Florianopolis n esp 1 sem 2008 T 2 PREMIERE QUESTION A QUOI SERT IL STANALYST sert pour l analyse de l information Mais alors que devons nous entendre par analyse de l information au del de sa compr hension intuitive Cette section est un essai de r ponse 2 1 Traitement de l information On distingue trois phases dans le traitement de l information d abord le stockage puis l acc s ou la recherche d information et enfin l analyse elle m me D un point de vue logique on peut consid rer ces trois phases comme les fonctions constitutives d un systeme d information le stockage et gestion des donn es les m canismes de recherche d information et puis l
10. information par l extraction de morceaux d information qui sont saillantes aux besoins de l utilisateur En g n ral dans le contexte du traitement de l information technologie et science se trouvent intimement entrelac es Souvent la technologie de l information soul ve des probl mes qui provoquent de nouvelles recherches au niveau de la science de la computation Cette remarque concerne aussi STANALYST 2 3 Etude de la science et de la technologie Afin d clairer la position de l analyse de l information dans le contexte des tudes de la science et de la technologie nous utilisons le sch ma de Leydesdorif 1989 sur l existence de trois dimensions et que nous formulons ainsi les chercheurs scientifiques et ing nieurs travaillant dans des organisations produisent des connaissances qu ils communiquent sous la forme de textes articles brevets notes documentation technique chacune de ces dimensions les chercheurs les documents et les connaissances correspond un objet d analyse ou d tude pour la sociologie des sciences et des techniques pour la science de l information et pour les approches comportant le suffixe m trie ou m trique Tel que le montre la figure 2 nous proposons de revoir le sch ma tridimensionnel sous la forme d un cycle Le cycle met en vidence le flux entr es et sorties dans le processus de production de connaissances scientifiques et technologiques Connaissances Figur
11. re cat gorie comprend les probl mes relatifs aux actes de g n ration ou de formation de connaissances la seconde comprend les probl mes ayant trait aux structures de la connaissance produite au sens d crite et publique C est la deuxi me cat gorie de probl mes qui constitue l objet de notre travail Il s agit d analyser l tat de la connaissance produite et couch e dans des documents crits afin de fournir une repr sentation de sa structure un moment donn e de son d veloppement On ne cherche pas capter la connaissance des sujets comme c est le cas dans la tradition des syst mes experts A notre avis l analyste ne doit pas s occuper de la connaissance en action dans les comp tences des individus sujets de la connaissance mais de la connaissance produite par eux et stock e dans les bases de donn es l objectif tant l extraction de connaissances utiles pour la prise de d cision la d finition de strat gies et l valuation de l tat de la science et de la technologie un moment donn Aujourd hui cette activit est repr sent e par la d couverte de connaissances dans les bases de donn es comme il a t dit dans la section 2 Dans le sch ma d Althusser 1965 des trois g n ralit s la g n ralit I GI designe les objets d une science la g n ralit II GID les moyens de travail th orique et la g n ralit III GII est la connaissance que l on produit comme r sultat du travail de GII sur GI
12. AAAI Press The MIT Press 1996 p 1 34 FRAWLEY W J PIATETSKY SHAPIRO G MATHEUS C Knowledge Discovery in Databases An Overview n PIATETSKY SHAPIRO G FRAWLEY W J eds Knowledge Discovery In Databases AAAI Press MIT Press 1991 p 1 30 GRIVEL L FRANCOIS C Une station de travail pour classer cartographier et analyser l information bibliographique dans une perspective de veille scientifique et technique SOLARIS n 2 Presses Universitaires de Rennes 1995 p 81 112 JACQUEMIN C DAILLE B ROYAUTE J POLANCO X In Vitro Evaluation of a Program for Machine Aided Indexing Information Processing and Management v 38 n 6 2002 p 765 792 POPPER K Objective Knowledge Oxford The Clarendon Press 1979 LEBART L MORINEAU A PIRON M Statistique exploratoire multidimensionnelle Paris DUNOD 1997 LELU A Mod les neuronaux pour l analyse de donn es documentaires et textuelles Th se de doctorat de l Universit de Paris 6 1993 LEYDESDORFF L The Relations between Qualitative Theory and Scientometric Methods in Science and Technology Studies Scientometrics v 15 n 5 6 1989 p 333 347 LEVY P Les technologies de l intelligence Paris La D couverte 1990 MAIMON O ROKACH L eds The Data Mining and Knowledge Discovery Handbook Berlin Springer 2005 Enc Bibli R Eletr Bibliotecon Ci Inf Florianopolis n esp 1 sem 2008 89 POLANCO X La notion d analyse de l infor
13. OJET c est dire un r pertoire dans lequel seront stock s tous les r sultats le concernant et d finissant ainsi un environnement de travail Il en est le propri taire mais il a galement la possibilit de donner acc s son projet aux utilisateurs associ s reconnus par la station Les modules CORPUS BIBLIOM TRIE INDEXATION et INFOM TRIE constituent les modules de travail Ces modules ex cutent des programmes qui op rent sous la commande de l utilisateur Le module CORPUS permet de r diger et ex cuter une requ te ce qui a pour effet de g n rer un corpus qui sera utilis par les modules suivants Le module BIBLIOMETRIE supporte la production de statistiques descriptives qui fournissent une information quantitative et que l on peut ensuite traiter conform ment aux lois bibliom triques Bradford Lotka Zipf Le module INDEXATION permet de r viser l indexation pr existante en vue de la classification th matique Il autorise galement de proc der une indexation automatique du corpus en s appuyant pour cela sur ILC un ensemble d outils d ing nierie linguistique r alisant une indexation contr l e partir de plusieurs r f rentiels terminologiques comme il est expos notamment dans Royaut 1999 Daille et al 2001 Jacquemin et al 2002 Le module INFOMETRIE permet une classification th matique l aide de deux programmes de classification automatique non supervis e NEURODOC et SDOC Grivel amp Frangois 1995
14. OMMENT EST IL FAIT 3 1 Technologie de l intelligence STANALYST est d abord une technologie congue pour l analyse de l information et dans cette mesure nous pouvons dire aussi que STANALYST est une technologie de l intelligence L expression technologie de l intelligence a t propos e par Levy 1990 et c est donc de lui que nous l empruntons pour d signer les outils informatiques d aide l analyse D autre part elle nous a t sugg r e par l intelligence conomique et la veille technologique et scientifique Mais si nous consid rons l intelligence artificielle Enc Bibli R Eletr Bibliotecon Ci Inf Florianopolis n esp 1 sem 2008 82 alors nous voyons que celle ci cherche introduire de l intelligence dans les syst mes d information particuli rement dans les syst mes base de connaissances ou l apprentissage et le raisonnement sont mis en place Mais ici nous devons distinguer entre d une part produire des technologies intelligentes et d autre part produire des technologies de l intelligence Pourtant 11 est permis de parler de technologies intelligentes de l intelligence Ce quoi nous devons nous orienter car STANALYST n est pas encore ce stade Le projet est ouvert 3 2 Mod le Mod liser la notion d analyse de l information s impose afin de pouvoir le donner une impl mentation op rationnelle c est dire technologique Comme nous l avons soulign Polanco 2007a STANALYST cons
15. T est pour la premi re fois d crit tel qu il existe aujourd hui Besagni et al 2004 La version compatible avec les bases SciELO fut elle expos e en janvier 2006 dans un s minaire international Santiago du Chili Polanco 2006 et puis en novembre de la m me ann e Buenos Aires dans les journ es internationales d tude comparative France Am rique Latine sur el espacio p blico de las ciencias sociales y humanas publi es en 2007 dans un livre Polanco 2007 Dans ce contexte de chercheurs en sciences humaines et sociales fut sp cialement soulign l aide que STANALYST pouvait signifier au travail acad mique et la recherche Quelque temps apr s la conf rence internationale de RICYT mai 2007 S o Paulo fut soumise une contribution ou la pr sentation de STANALYST SciELO est suivie d une application sur des donn es sur le cancer extraites des bases SciELO Argentine Br sil et Chili Cette application illustrait le type d analyse que l on peut faire avec STANALYST partir des bases SciELO Finissons cette synopsis en rappelant que sur le plan op rationnel STANALYST est encore dans une phase exp rimentale La suite de l article s organise de la mani re suivante la section 2 r pond ce quoi sert STANALYST mettant en valeur la notion d analyse de l information et de ce qu elle repr sente Qu est ce qu on peut faire avec STANALYST La section 3 d taille les aspects de technologie de l information et plus
16. Veille Strat gique Scientifique et Technologique VSST2004 Toulouse 25 29 octobre 2004 p 319 320 BRACHMAN R J ANAND T The process of knowledge discovery in databases A Human Centered Approach n FAYYAD U M PIATETSKY SHAPIRO G SMYTH P UTHURUSAM Y R eds Advances in knowledge discovery and data mining AAAI Press The MIT Press 1996 p 37 57 BROOKES B The foundations of information science Part I Philosophical aspects Journal of Information Science v 2 1980 p 125 133 CALLON M COURTIAL J P TURNER W A BAUIN S From Translation to Problematic Networks An Introduction to Co Word Analysis Social Science Information v 22 1983 p 191 235 CALLON M LAW J RIP A Mapping the Dynamics of Science and Technology London The Macmillan Press 1986 CALLON M COURTIAL J P PENAN H La Scientom trie Paris Presses Universitaires de France 1993 coll Que sais je 2727 CARD S K MACKINLAY J D SCHNEIDERMAN B Readings in information visualization using vision to think San Francisco California Morgan Kaufmann Publisher Inc 1999 DAILLE B ROYAUTE J POLANCO X Evaluation d une plate forme d indexation de termes complexes Revue TAL v 41 n 2 2001 FAYYAD U M PIATETSKY SHAPIRO G SMYTH P From Data Mining To Knowledge Discovery An Overview n FAYYAD U M PIATETSKY SHAPIRO G SMYTH P UTHURUSAM Y R eds Advances In Knowledge Discovery And Data Mining
17. cit de remplir un formulaire de param tres d terminant selon les modules soit les statistiques souhait es soit le type d indexation automatique ou pas soit la m thode et les variables de la classification automatique Actuellement l indexation automatique du module INDEXATION op re sur l anglais et le fran ais De sorte que l indexation automatique des donn es SciELO se fait exclusivement partir d articles dont les titres et les r sum s sont en anglais L ambition serait de pouvoir largir le traitement automatique de langues l espagnol et au portugais Or l indexation automatique partir de l espagnol et du portugais reste conditionn e au d veloppement d outils linguistiques adapt s au traitement automatique de ces deux langues D autre part le fait de pouvoir travailler sur plusieurs langues pose le probl me complexe du multilinguisme c est dire d tre capable de traiter automatique au m me temps des donn es de langues diff rentes et non pas s par ment Nous savons que le respect de la diversit linguistique dans le monde num rique d pend de plus en plus de la mise en place des solutions multilingues S1 nous consid rons que STANALYST se trouve maintenant dans un contexte multilingue la recommandation de l UNESCO sur la promotion et l usage du multilinguisme apparait comme incontournable Cependant 11 ne faut pas se cacher la complexit technologique que la gestion multilingue implique
18. droit de propri t STANALYST se trouve actuellement li aux seules bases PASCAL et FRANCIS de l INIST CNRS plus les bases SciELO 1 http www inist fr http www scielo org 2 Enc Bibli R Eletr Bibliotecon Ci Inf Florian polis n esp 1 sem 2008 76 La compatibilit de STANALYST avec les bases SciELO est le r sultat d un projet de coop ration multilat ral entre organismes de la France l Argentine le Br sil et le Chili soutenu par le Minist re des Affaires Etrang res de France entre 2005 2006 l initiative de la D l gation r gional de coop ration France C ne Sud Dans ce projet particip rent l Institut de l Information Scientifique et Technique du Centre National de la Recherche Scientifique INIST CNRS le Centro Latino Americano e do Caribe de Informa o em Ci ncias da Sa de BIREME OPS OMS le Centro Argentino de Informaci n Cient fica y Tecnol gica CAICYT la Comisi n Nacional de Investigaci n Cient fica y Tecnol gica du Chili CONICYT et la Red Iberoamericana Interamericana de Indicadores de Ciencia y Tecnolog a RICYT La premi re r f rence STANALYST est de 2001 ou cette station d analyse est pr sent e comme an integrated environment for clustering and mapping analysis on science and technology en soulignant le linguistic processing module et les clustering programms Polanco et al 2001 C est seulement dans un poster en 2004 que STANALYS
19. e 2 Le cycle du sch ma tridimensionnel de Leydesdorff 1989 6 Citation 25 09 2007 http www itl nist gov iad 894 02 related projects muc index html Enc Bibli R Eletr Bibliotecon Ci Inf Florianopolis n esp 1 sem 2008 81 Ce sch ma permet d observer qu il y a une diff rence entre documents et connaissances comme l avait d j remarqu Brooks 1980 document and knowledge are not identical entities Ainsi la m trique appliqu e sur les documents bibliom trie ne traduit pas directement une mesure des connaissances contenues dans les documents Mesurer des documents untel a produit n articles ne signifie pas mesurer des connaissances car le nombre d articles n est pas gal au nombre de connaissances produites articles connaissances D autre part le sch ma permet galement d observer que la connaissance dans l espace mentale des chercheurs et ing nieurs peut se distinguer de la connaissance que l on extrait des textes de leurs publications Les connaissances existant dans l espace mental d un individu font de lui un expert dans un domaine donn Et son tude rel ve de la psychologie cognitive La connaissance contenue dans les publications constitue une connaissance objective au sens de Popper 1972 Les connaissances ont deux modes d exister l un dans l espace mental de leurs producteurs et l autre dans des documents Cette derni re forme est l objet de notre approche
20. formation repr sente une mati re premiere quil faut traiter afin d obtenir une information utile Rappelons au passage que depuis ses origines la d couverte ou extraction de connaissance est d finie presque toujours dans ces m mes termes the non trivial extraction of implicit unknown and potentially useful information from data Frawley et al 1991 A c t de la recherche d information champ traditionnel et central de la science de l information van Rijsbergen 1979 Salton amp McGill 1983 partir de 1987 s est d velopp un nouveau champ sous le nom d extraction d information information extraction Les Message Understanding Conferences MUC ont t lanc es et financ es par le DARPA pour encourager l laboration de nouvelles et meilleures Enc Bibli R Eletr Bibliotecon Ci Inf Florian polis n esp 1 sem 2008 80 m thodes d extraction d information On peut lire dans le site officiel de cette initiative Information Extraction is a technology that is futuristic from the user s point of view in the current information driven world Rather than indicating which documents need to be read by a user it extracts pieces of information that are salient to the user s needs Links between the extracted information and the original documents are maintained to allow the user to reference context L extraction d information est donc une technologie de l information qui se distinguerait de la recherche d
21. is questions nous situant dans le contex te de la science de l information Ici nous nous concentrons essentiellement sur la fonc tion et la conception qui sont la base de STANALYST en laissant de c t son mode d emploi Ce n est pas un discours technologique au sens de rester exclusivement au ni veau de la description d une technologie de l information Au contraire la tache que nous nous imposons est de placer la technologie dans le cadre d une certaine conception du travail sur l information Notre sujet central est d montrer qu est ce que l analyse de l information et comment nous pouvons r aliser cette analyse avec un outil congu pour produire une information labor e et plus encore pour transformer l information en connaissances L int r t du sujet est encore plus sensible l heure actuelle o la soci t est reconnue comme soci t de l information et l on estime en outre que celle ci volue vers une soci t de la connaissance Mots clef Technologie de l intelligence Analyse de l Information Information Elabor e Bibliom trie Infom trie 1 INTRODUCTION Dans son sens le plus g n ral STANALYST est une technologie de l information sp cialis e pour l analyse de l information STANALYST est le produit de recherches men es dans l INIST CNRS Elle est accessible depuis un navigateur web et int gre sous une interface commune un ensemble de programmes informatiques Pour des raisons de circonstance mais aussi de
22. lise d une mani re directe et manuelle Les limites de ce type d analyse sont videntes du moment ou il s agit de traiter une quantit importante de donn es cela d une part et d autre lorsque nous souhaitons incorporer l analyse dans un syst me de production d information labor e Nous avons appel analyse de l information l application 1 de techniques statistiques c est dire bibliom triques 2 de traitement automatique du langage naturel 3 de classification automatique non supervis e et 4 de repr sentation graphique cartographie du contenu cognitif et factuel des donn es bibliographiques Cette d finition est op rationnelle au moyen des technologies que nous avons concu et d velopp dont STANALYST est l aboutissement L objectif commun de ces quatre processus est de signaler les centres d int r t les th mes ou les topiques contenus dans une quantit d information disponible en langage naturelle donn es textuelles et autour desquels s agr gent les divers l ments de cette information 1 e articles p riodiques auteurs laboratoires pays Ensuite de visualiser Enc Bibli R Eletr Bibliotecon Ci Inf Florianopolis n esp 1 sem 2008 78 les themes ou topiques sur une carte afin d appr cier leurs positions relatives Maintenant si nous cherchons a placer l analyse telle quelle vient d tre d finie dans un syst me d information nous avons besoin de contraster l analyse de l infor
23. mation avec le stockage de donn es et la recherche d information mais aussi avec l extraction d information et l acquisition de connaissances partir des bases de donn es En faisant cela nous contribuons d finir la place de STANALYST dans un syst me d information Au sens le plus large du terme Information retrieval deals with the representation storage organization of and access to information items Baeza Yates amp Ribeiro Neto 1999 Comme le rappellent les auteurs eux m mes ils ont repris la distinction entre recherche de donn es data retrieval et recherche d information information retrieval de van Rijsbergen 1979 Une distinction que nous pouvons tendre l analyse de l information pour distinguer celle ci de l analyse de donn es et souligner que la relation entre information et donn e n est pas une relation d identit L analyse de donn es fait partie de l arsenal de techniques statistiques que l analyse de l information peut mettre en uvre pour atteint ses fines c est donc un moyen pour que l analyse de l information r alise ses propres objectifs Dans le contexte de la recherche d information c est dire de l information retrieval la recherche de donn es data retrieval consiste principalement en d terminer quels documents dans une collection contiennent les mots cl s de la requ te que l utilisateur a formul Comme Baeza Yates et Ribeiro Ne
24. mation dans le domaine de l information scientifique et technique Colloque INRA 21 23 octobre 1996 Tours In VOLLAND NEIL P L information scientifique et technique Nouveaux enjeux documentaires et ditoriaux Paris INRA 1997 p 165 172 POLANCO X Plus que d un syst me d information 1l s agit de transformer l information en connaissance et la connaissance en action Le Micro Bulletin Paris CNRS D l gation aux syst mes d information 1999 p 15 25 POLANCO X FRANCOIS C ROYAUTE J BESAGNI D STANALYST An Integrated Environment for Clustering and Mapping Analysis on Science and Technology Proceedings of the 8 International Conference on Scientometrics and Informetrics July 16 20 Sydney Australia v 2 2001 p 871 873 POLANCO X STANALYST Una aplicaci n para nuevos estudios bibliom tricos sobre bases de datos locales II Seminario Internacional sobre Indicadores de Ciencia Tecnolog a e Innovaci n 16 18 de enero de 2006 Santiago Chile POLANCO X STANALYST un sistema de ayuda al an lisis de la informacion Jn VERMEREN P ed El espacio p blico de las ciencias sociales y humanas El papel pol tico y los paradigmas Estudio comparativo Francia Am rica Latina Jornadas Internacionales 2006 Buenos Aires Editores del Puerto 2007 a p 98 103 POLANCO X et alu STANALYST SciELO Modelo y uso para la vigilancia cient fica VII Congreso Iberoamericano de Indicadores de Ciencia y Tecnolog a
25. nuel d utilisation nous nous sommes attel surtout rester un niveau conceptuel et de tour d horizon Le d faut de ce type d approche est qu elle laisse sous silence des aspects techniques et scientifiques importantes La consolation est de penser que nous avons fourni au moins un cadre ou placer la technologie que STANALYST repr sente et des moyens pour la mettre en perspective et si n cessaire la d passer Et pour finir un aveu aujourd hui l auteur revoit STANALYST de ce quadruple point de vue 1 des apports de l apprentissage automatique c est dire machine learning dans le domaine de la classification 2 de l tat d avancement de la repr sentation des connaissances et du raisonnement voir par exemple ce qui se fait propos du web s mantique 3 ainsi que de la s mantique dans l ing nierie de langues et 4 des apports de la th orie de graphes hypergraphes et treillis l analyse de r seaux de connaissance En somme STANALYST est pour nous la source d un nouveau programme scientifique Autrement dit le monde est ouvert et non pas clos REFERENCES ALTHUSSER L Pour Marx Paris Maspero 1965 BAEZA YATES R RIBEIRO NETO B Modern Information Retrieval New York ACM Press Addison Wesley 1999 Enc Bibli R Eletr Bibliotecon Ci Inf Florianopolis n esp 1 sem 2008 88 BESAGNI D FRANCOIS C POLANCO X ROCHE I Stanalyst Une station pour l analyse de l information n Actes de
26. onn es et produisant une nouvelle intelligence leur sujet C est vrai que ces deux philosophes ont mis leurs th ories avant l re de la soci t de l information elles rel vent plut t de l poque de la soci t industrielle En revanche nous r fl chissons et agissons de plein pied dans l information et la gestion de connaissances et nous nous en servons habituellement des technologies de l information dans notre travail de producteurs de connaissances S CONCLUSION STANALYST A quoi sert il Comment est il fait A quelle conception r ponde t il Nous avons tent de fournir les r ponses ces trois questions en mettant en valeur la notion d analyse de l information et ce qu elle repr sente Plus qu une technologie de l information c est une technologie de l intelligence nous avons dit insistant au m me temps sur la structure et les techniques mises en ceuvre par la station d analyse Et pour finir nous avons r v l son cadre pist mologique ou s assise l analyse en tant que processus de transformation donn es information connaissance Nous avons pu signaler le r le d agent technologique artificiel qu un tel instrument joue dans le processus de production de connaissances ou de traitement de la connaissance objective Cela nous fait penser l univers des sciences de l artificielle Simon ou le sujet abord viendrait finalement se positionner Pas question dans cet article de mode d emploi ni de ma
27. rest of the subject is even more Enc Bibli R Eletr Bibliotecon Ci Inf Florianopolis n esp 1 sem 2008 90 sensitive at the present time where our society is recognized to be an information society and it 1s estimated moreover that she evolves to a knowledge society KEYWORDS Technology of Intelligence Elaborate Information Information Analyse Bibliometry Informetry Originais recebidos em 08 02 2008 Texto aprovado em 13 03 2008 Enc Bibli R Eletr Bibliotecon Ci Inf Florianopolis n esp 1 sem 2008 9
28. titue une technologie de l information au service du travail intellectuel comparable un traitement de texte ou un tableur auxquels nous sommes habitu s nous en servir pour nos travaux dans l enseignement et la recherche L id e de base est que l analyse suppose comme pr alable en avoir un projet en t te propos de ce que l on veut analyser Ensuite la d marche consiste d limiter un domaine d tude sous la forme d un corpus sur lequel se suivent des op rations de type quantitatif qualitatif et de classification La traduction technologique de ces op rations intellectuelles est r alis e par des modules qui produisent un certain nombre de r sultats et avec lesquels l analyste ou le chercheur r alise sont propre travail intellectuel d explication et d interpr tation La figure 3 rendre visible d une mani re pur e ce que nous venons de dire CORPUS fe Domaine BIBLIOMETRIE EAM Statistique PROJET INDEXATION Description INFOMETRIE feel Classification Figure 3 Le mod le STANALYST Suite a la d finition d un projet apparaissent les modules op rationnels accompagn s ici par les mots cl s g n riques de la connaissance qu ils produisent respectivement L analyse comprend d abord une phase statistique dont l objectif est de connaitre les fr quences et distributions des donn es bibliographiques et de leurs composants comme par exemple auteurs pays d affiliation revues et leurs pays d
29. to observent l utilisateur d un syst me de recherche d information est plus concern par la recherche des informations sur un sujet d int r t que par la recherche des donn es satisfaisant une requ te Un langage d extraction de donn es comme SQL par exemple vise essentiellement rendre op rationnelle l interrogation d une base de donn es relationnelle en revanche la recherche d information a trait au langage naturel dans l objectif de satisfaire le besoin d information de l utilisateur de ce fait la notion de pertinence est au centre de la recherche d information A ces deux paliers data retrieval et information retrieval dans le traitement de l information vient s ajouter un troisi me o l objectif est convertir l information pertinente en connaissance propos d un sujet d termin L analyse suppose comme nous l avons dit que les syst mes de stockage de donn es et de recherche d information existent et sont efficaces A partir de l le probl me de l analyse de l information est celui d exploiter l information d j trouv e autrement dit de la traiter en tant qu objet d tude visant en derni re instance l acquisition et la repr sentation de connaissances La formule est donc un cycle comme le suggere la figure 1 Enc Bibli R Eletr Bibliotecon Ci Inf Florianopolis n esp 1 sem 2008 79 Figure 1 Le cycle de l analyse de l information L analyse de l information est propos e
30. tout en gardant l esprit la remarque de Brooks 1980 Il est int ressant de noter que dans le champ de la scientom trie la m thode de mots associ s co word analysis a t propos e depuis le d but comme une scientom trie cognitive Rip amp Courtial 1984 ou scientom trie qualitative Callon et al 1986 car son objectif via les associations de mots cl s cooccurrences est de saisir le contenu cognitif des documents ce que l analyse de citations et co citations ne fait qu indirectement Callon et al 1993 STANALYST s inscrit justement dans cette tradition inaugur e par le programme LEXIMAPPE au d but des ann es quatre vingts Callon et al 1983 Les mots que les acteurs emploient ainsi que les mots cl s indexant les documents envoient vers de concepts et les concepts leur tour renvoient des objets m talinguistiques dans le monde objets physiques ou abstraits Ceci est connu en linguistique s mantique comme le triangle s miotique S agissant de documents c est le langage crit qui importe ici de traiter vis a vis du langage parl ou parole Le module INDEXATION de STANALYST doit donc tre revue de cette perspective c est au travers des mots ou de termes et leurs variations que l on acc de aux concepts et connaissances Ce module r alise pour le moment seulement une analyse morphologique et syntaxique du langage naturel manquant d une couche d analyse s mantique 3 DEUXIEME QUESTION C
31. v Y YF F Encontros Bibli revista eletr nica de Encontros Bibl i biblioteconomia e ci ncia da informa o E ISSN 1518 2924 bibli ced ufsc br Universidade Federal de Santa Catarina Brasil Polanco Xavier Transformer L information en connaissance avec stanalyst Cadre conceptuel et modele Encontros Bibli revista eletr nica de biblioteconomia e ci ncia da informac o num Esp primer semestre 2008 pp 76 91 Universidade Federal de Santa Catarina Florianopolis Brasil Disponible en http www redalyc org articulo oa id 14709807 Comment citer Num ro complet T P Syst me d Information Scientifique R seau de revues scientifiques de l Am rique latine les Cara bes l Espagne et le Portugal Site Web du journal dans redalyc org Projet acad mique sans but lucratif d velopp sous l initiative pour l acc s ouverte Plus d informations de cet article TRANSFORMER L INFORMATION EN CONNAISSANCE AVEC STANALYST CADRE CONCEPTUEL ET MODELE TURNING INFORMATION INTO KNOWLEDGE WITH STANALYST CONCEPTUAL FRAMEWORK AND MODEL Xavier Polanco xavier polanco lip6 fr xavier polanco inist fr Laboratoire d Informatique de Paris 6 Universit Pierre et Marie Curie Paris 6 Institut de l Information Scientifique et Technique Centre National de la Recherche Scientifique R sum STANALYST A quoi sert il Comment est il fait A quelle conception r ponde t il Nous allons essayer de donner r ponse ces tro
Download Pdf Manuals
Related Search
Related Contents
Manhattan 150965 "user manual" Stock-options et actions gratuites Por 5AYR54 Ventilateurs Epson PowerLite Pro G6050W Zonet ZPS1002 print server クルマ 好きで ゴメン! Mode d`emploi User Guide Copyright © All rights reserved.
Failed to retrieve file