Home

le filtrage d`information sur internet : convergences et

image

Contents

1. beau dommage 2 ceveil 3 10 08 1999 sur le Canada LYCOS beau dommage 442 04 08 1999 sur le Web mondial beau dommage 948 ceveil 31 04 08 1999 sur le Web francais VOILA beau dommage recherche avanc e la phrase 382 28 07 1999 sur le Web mondial beau dommage recherche avanc e la phrase 545 ceveil 317 28 07 1999 sur le Web francophone COPERNIC beau dommage recherche rapide expression exacte 76 29 07 1999 sur le Web beau dommage recherche rapide expression exacte 29 ceveil 38 29 07 1999 sur le Web en fran ais 2 3 La casse les caract res diacritiques et les caract res sp ciaux Le traitement r serv la casse soit la distinction entre lettres majuscules et minuscules varie beaucoup d un outil de recherche l autre Certains SRI ignorent compl tement ce ph nom ne ramenant toute s quence une suite de lettres minuscules D autres optent pour un traitement diff renci g n ralement selon la formule suivante une requ te enti rement en minuscules rep che toutes les 74 Cynthia Delisle dea 1999 enssib occurrences du motif concern majuscules et minuscules confondues tandis qu une requ te comportant des majuscules ne rep re que le motif exact soumis Par exemple paris rep re paris Paris PARIS etc mais Paris ne rep re que Paris De la m me mani re la gestion des caract res diacritiques accents c dilles etc divise les SRI
2. URL http www voila fr Cat gorie Moteur Versions localis es Oui 7 Version francophone Oui interface localis e Taille de la base de donn es 100 millions d URL dont plus de six millions d URL francophones Possibilit de soumission manuelle d URL Oui Indexation du texte int gral Oui Prise en compte d un fichier robots txt ou Oui d une balise lt ROBOTS gt Prise en compte des m ta donn es Oui Pr sence d une section de type annuaire Oui cha nes Traitement de la casse Indiff renci Traitement des caract res sp ciaux et diacritiques Indiff renci pour les caract res diacritiques Les caract res non alphanum riques sont ignor s Mode de recherche par d faut OU Options de restriction de recherche Web francophone vs Web mondial vs Newsgroups vs D p ches AFP Sons vs images vs vid os Pays francophones ou type d organisation 10 options Type de fichier recherche avanc e 11 options pour le Web uniquement Mots proches recherche avanc e Pays mondiaux ou type d organisation recherche avanc e 89 options Sur le nom de domaine recherche avanc e e rea O Recherche th matique l aide de moteurs sp cialis s recherche avanc e Fonctions bool ennes ET OU SAUF formulaire recherche avanc e Emploi de Oui recherche avanc e Recherche d
3. XVI Affichage d un taux de pertinence Oui valuation de la pertinence Par d faut LYCOS consid re le rep rage de tous les mots de la requ te la pr sence de mots cl s dans les titres et en t tes mais non les balises META et le nombre de liens qui pointent vers une page La recherche avanc e offre l usager la possibilit de configurer lui m me l importance basse moyenne ou haute accorder dans l valuation de pertinence aux l ments suivants chercher tous les mots occurrences des mots ce crit re compare le nombre de fois que le mot recherch figure dans un document avec le nombre moyen d apparitions de ce mot dans tous les documents de la base de donn es mots proches du d but de la page mots proches les uns des autres apparition des mots dans le titre ou les rubriques mots dans l ordre Comme ce mode de recherche tudie le poids des diff rents crit res de pertinence les uns par rapport aux autres il est tout aussi utile de mentionner les crit res jug s d importance basse que de mentionner ceux valu s d importance haute Particularit s Sous chaque entr e la fonction Pour plus de r ponses comme celle ci permet d utiliser le document concern comme point de d part d une recherche pour des documents semblables Un service de traduction d unitermes mots simples en 32 langues est disponible XVII Annexe J VOILA
4. requ te initiale Le T L N se superposant aux syst mes bool ens ou statistiques engendre pour sa part un accroissement la fois du rappel et de la pr cision Utilis au niveau du traitement du document il permet une extraction et un stockage plus riche de l information utilis au niveau du traitement de la requ te il facilite l expression des besoins d information gr ce la puissance du langage r el utilis au niveau de l valuation des r ponses il simplifie la mise en correspondance avec le sens et l intention de la requ te am liorant du m me coup l valuation de pertinence On peut pr voir que l avenir les interfaces en langue naturelle s imposeront comme les pr f r es de la plupart des utilisateurs 27 Cynthia Delisle dea 1999 enssib Selon S Feldman Without NLP we have gone about as far as we can go Text databases are getting bigger Search engines are returning larger and larger sets of documents While Boolean search techniques allow us to narrow down our retrieval to a manageable size they eliminate too many potentially valuable documents statistical search techniques overwhelm us with documents even with relevance ranking NLP presents new tools for honing a search query so that it states our information need fully and then matches that query with an elaborate knowledge base built with NLP techniques My prediction is that the best systems in the future will be thos
5. 7 XML eXtended Mark up Language est un format de document lectronique destin terme remplacer HTML Hypertext Mark up Language actuellement le standard pour les documents diffus s sur le Web 8 Pratiquement tomb en d su tude aujourd hui Gopher d velopp l Universit du Minnesota fut un pr curseur du Web qui permettait la navigation sur le R seau par des choix dans des menus Un outil de recherche nomm VERONICA fut 32 Cynthia Delisle dea 1999 enssib recherche comportent in vitablement des liens invalides en quantit plus ou moins importante selon les cas 1 4 L ambiguit linguistique 1 4 1 La surabondance de synonymes Cette situation s explique par la valorisation de la paraphrase dans les textes autres que purement techniques pour des raisons d l gance et de style Elle est galement tributaire des diff rences linguistiques diachroniques r gionales ou professionnelles 1 4 2 La polys mie Les donn es suivantes concernent l anglais mais sont int ressantes titre indicatif Le Webster s Seventh Dictionary recense quelque 60 000 entr es or de celles ci 21 488 soit presque 40 ont deux sens ou plus Wacholder amp al 1994 En fait dans la langue de Shakespeare un mot aurait en moyenne sept acceptions diff rentes La situation est d autant plus pr occupante que ce sont les mots les plus courants qui ont le plus de sens distincts titre d exe
6. Dans la mesure o comme nous l avons mentionn la majorit des internautes entrent leurs requ tes sans y incorporer d op rateurs et sans identifier explicitement les locutions par l emploi de guillemets de cases cocher ou de choix dans un formulaire une suite de mots cl s en langue anglaise peut aussi bien tre form e de termes totalement disjoints que comporter un ou plusieurs groupe s de mots fonctionnant comme un tout La situation est diff rente en d autres langues En allemand les noms compos s demeurent habituellement des unitermes obtenus en agglutinant les mots initiaux par exemple Regenschirm parapluie partir de Regen pluie et Schirm b ton En fran ais les noms compos s obtenus par juxtaposition de noms simples comme cheval vapeur sont relativement rares D ordinaire ce type de syntagme comporte 4 Comme nous l avons constat ces deux modes de requ te ne sont pas forc ment quivalents Mais ces nuances op ratoires n alt rent en rien les conclusions de ce test particulier dans la mesure o il s agit ici d une comparaison intra outil 81 Cynthia Delisle dea 1999 enssib l inclusion minimale d une pr position entre les diff rents l ments comme dans course de voitures et voiture de course structure qui peut servir les rep rer et emp che la confusion avec une simple suite de mots cl s individuels Dans la mesure o l emploi de mots compos s
7. Traitement de la casse Indiff renci Traitement des caract res sp ciaux et Indiff renci diacritiques Mode de recherche par d faut OU Options de restriction de recherche Sur le titre Sur l URL Sites Web vs Usenet recherche avanc e Cat gories vs Sites Web vs D p ches d actualit vs tout recherche avanc e Restriction chronologique sur la date d indexation recherche avanc e sept options Fonctions bool ennes ET OU troncature formulaire recherche avanc e Emploi de Oui Recherche de locutions Oui ou formulaire en recherche avanc e Requ te l int rieur d un premier groupe de r sultats Non Classement des r sultats Pertinence pr sum e Affichage par d faut Cat gories YAHOO s il y en a qui contiennent les mots cl s recherch s Sites Web r pertori s Cat gorie Titre R sum Pages Web index es par INKTOMI si aucun cat gorie ou site sinon ce choix est accessible en option Titre Premi res lignes URL D p ches d actualit Possibilit de modifier l affichage par d faut Oui Choix de la quantit de r sultats afficher Oui recherche avanc e Regroupement des r sultats par site clustering Oui pour INKTOMI Affichage d un taux de pertinence Non valuation de la pertinence nombre de mots cl s rep r s des YAHOO tient com
8. abord on peut remarquer que pour deux des outils les moteurs LYCOS et VOILA les r sultats rep r s pour beau dommage en isolant les sites de langue fran aise sont sup rieurs en nombre ceux g n r s en faisant porter la requ te sur l ensemble du Web LYCOS beau dommage 442 04 08 1999 sur le Web mondial beau dommage 948 04 08 1999 sur le Web francais VOILA beau dommage recherche avanc e la phrase 382 28 07 1999 sur le Web mondial beau dommage recherche avanc e la phrase 545 28 07 1999 sur le Web francophone 7 http www ceveil qc ca 70 Cynthia Delisle dea 1999 enssib Faut il en d duire que ces outils ont labor des bases de donn es distinctes ou qu ils appliquent un quota sur le nombre de pages en fran ais sond es lors de recherches sur le Web mondial Par ailleurs les r sultats fournis par le moteur INFOSEEK soul vent galement premi re vue quelques interrogations si tout le Web affiche 155 occurrences de la locution beau dommage alors que la France n en fournit aucune et le Canada 2 seulement on peut se demander d o proviennent les 153 autres On pourrait tout d abord tre tent de conclure soit que cette expression est sur repr sent e dans les pages belges et suisses soit qu elle a fait l objet d un emprunt par quelque langue trang re Mais apr s inspection des r sultats il appert que cette s
9. 1 3 1 Niveau phon tique phonologique Ce niveau r f re la fa on dont les mots sont prononc s Il n est pas important en ce qui concerne le rep rage de textes crits mais s av re crucial pour la compr hension du langage oral et dans les syst mes de reconnaissance vocale 1 3 2 Niveau morphologique En linguistique le morph me d signe la plus petite partie d un mot porteuse de sens Ce niveau concerne donc l analyse componentielle des mots par exemple l tude des racines chanson pour chansonnier chansonnette en anglais child pour childlike childish children ou des pr fixes et suffixes poly in ation s Sous forme de troncature automatique stemming c est le niveau le plus commun ment incorpor dans les SRI et depuis le plus longtemps Il est noter que plus les langues ont une morphologie riche ce qui n est pas le cas de l anglais plus l attention port e dans un SRI ce niveau linguistique s av re payante 1 3 3 Niveau lexical Le niveau lexical concerne l analyse du sens des mots uniquement le sens du dictionnaire hors de tout contexte C est ce niveau qu un SRI peut op rer un tiquetage grammatical des parties du discours 20 Cynthia Delisle dea 1999 enssib 1 3 4 Niveau syntaxique Ce niveau identifie le r le jou par chacun des mots l int rieur d une phrase et les relations des termes entre eux le marquage des parties du disc
10. 1999 enssib 102 Annexes Fiches signal tiques Table des annexes ANNEXE A CTROUVE COM mn snannnnnnnnnnnenmenennmnmenmnmenennnnnennenennnnne l ANNEXE B NOMADE nnssssnnmnnannnnenmnnnnnneenennnnnnmnmenennnnnennenennns lI ANNEXE C YAHOO ssssssssssnsnunssnnsunnunnnnnnnnnsnnnsnnnnnnnnnnnnnnnnnnnnnnnnnnnn IV ANNEXE D ALTAVISTA sssssssnnssnnsnnnennnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn VI ANNEXE E ECI LA susssssssnssnnnsnnnsnnsnnnunnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn VIII ANNEXE F EXCITE nnnn ns nsnenennmnmammmnmmmnnnnnnennenennnnnanmnmnnennennenennnnnnnne X ANNEXE G HOTBOT s sssssssunsensennnnnnnnnnnnnsnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn XII ANNEXE H NFOSEEK sssssssnsssnsennnnnnnunsnnnunnnnnnnnnnsnnnnnnnnnnnnnnnnnnn XIV ANNEXE I LYCOS sssssssssnssnnssnnsnnnunnnnnnnunnunnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn XVI ANNEXE J VOILA nn nn ns nnsnenennnnnanemmmnnnnnnnenennennnmnmennnnnnnennenne XVIII ANNEXE K COPERNIC 99 sssssssnsssnsennnnnnsunnnnnsnnnnnnnnnnnnnnnnnnnnnnnnnnnn XX ANNEXE L DIGOUT4U VERSION 1 5 sssssssssnnssssnnnnnnnnnnnnnnnnnnnnnn XXII 103 Cynthia Delisle dea 1999 enssib Annexe A Ctrouve com URL http www ctrouve com Cat gorie Annuaire Versions localis es Non Version francophone Outil francophone sites en provenance de tous les pays Taille de la base de donn es Plus de 60 000 sites Possibilit de soumission manuelle
11. Il serait fort utile de pouvoir rep rer des informations plus pr cises que le simple nom de ces fichiers ou un ventuel r sum de leur contenu Un peu comme les moteurs permettent de retrouver un renseignement qui figure dans l ni me page d un document en texte int gral il y aurait lieu de d velopper ce mode d acc s pour les autres types de fichiers ce qui constitue n en pas douter un d fi redoutable pour les concepteurs d outils de recherche Enfin 1l sera galement int ressant de voir comment les outils de recherche sur Internet volueront en ce qui concerne les nouvelles technologies mises au point afin de tenter de rendre la machine un peu plus conviviale pour l tre humain moyen l heure o par exemple les fureteurs Web commencent permettre la navigation sur la base de simples commandes prononc es voix haute verra t on bient t des outils de recherche qui accepteront en direct des requ tes vocales 93 Cynthia Delisle dea 1999 enssib Bibliographie Outre les sources mentionn es ci apr s nous avons eu recours dans le cadre de ce travail l information pr sente sur les sites m mes des divers outils de recherche Nous avons tent pour les r f rences des ressources lectroniques de fournir une description aussi exhaustive que possible Toutefois certaines informations manquent parfois date nom du responsable etc car elles sont demeur es introuvables R
12. contexte th orique nous pr senterons et discuterons les r sultats que nous avons obtenus en proc dant plusieurs requ tes exemplaires destin es analyser le comportement r el des SRI sur Internet face certaines th matiques d importance couverture des ressources traitement des caract res accentu s efficacit respective des modes de rep rage de type bool en ou statistique et des requ tes en langue naturelle etc Nous terminerons par quelques consid rations sur les implications pour l usager des diff rences souvent subtiles et inattendues constat es entre les 9 Cynthia Delisle dea 1999 enssib divers outils de recherche test s au niveau du fonctionnement et du traitement de l information Des suggestions d investigations futures seront galement formul es 10 Cynthia Delisle dea 1999 enssib Premi re partie le rep rage de l information Cynthia Delisle dea 1999 enssib 11 1 Les principaux types de syst mes de rep rage de l information SRI 1 1 Les syst mes bool ens ou traditionnels Comme leur nom l indique ces syst mes se basent sur la logique d velopp e par le math maticien britannique George Boole Ils utilisent des op rateurs pour combiner des termes de recherche entre eux comme s il s agissait d nonc s math matiques DIALOG et LEXIS NEXIS sont des exemples Ces syst mes appr hendent un texte comme une suite al atoire de mots d lim
13. de polytermes etc 14 Cynthia Delisle dea 1999 enssib gt L op rateur de proximit La recherche sur la proximit est consid r e comme une extension du mod le bool en L op rateur de proximit permet de rechercher des entr es o les mots d sir s apparaissent l int rieur d une fen tre de voisinage dont l ampleur varie selon les outils g n ralement entre 10 et 100 mots parfois beaucoup plus Les formulations les plus habituelles sont anglophones NEAR ou FOLLOWED BY dans ce dernier cas on tient galement compte de la lin arit c est dire de l ordre d apparition des termes Pour rechercher des termes c te c te un peu comme une recherche de locution mais sans souci de lin arit on emploie parfois galement un op rateur de proximit sp cifique dit op rateur d adjacence Il est g n ralement symbolis par ADJ Exemples commerce NEAR lectronique rep rera les entr es o ces deux termes figurent pr s l un de l autre Commerce FOLLOWED BY lectronique exigera de plus que l ordre de saisie des mots soit respect Commerce ADJ lectronique pour sa part recherchera les entr es o ces deux termes apparaissent imm diatement l un c t de l autre peu importe l ordre d apparition 1 2 Les syst mes statistiques ou probabilistes Les syst mes statistiques ou probabilistes sont une application des recherches men es aux tats Unis par G S
14. environnement en maintenant des agents en recherche permanente sur le site d un concurrent aucun des mouvements conomiques et strat giques de celui ci n chappera aux utilisateurs desdits agents Les agents intelligents pourront galement tre utilis s enfin pour laborer des bases de donn es th matiques ou pour analyser des serveurs hors ligne Quelques agents intelligents Nom URL AURESYS http ms161u06 u 3mrs fr hom html DiGOuT4U http www arisem com index_fr html INFORIAN QUEST 98 http www inforian com MATA HARI http www thewebtools com NEARSITE http www nearsite com PRICELINE http www priceline com SELECTCAST http www aptex com products selectcast htm SHOPPING EXPLORER http www shoppingexplorer com WEBWHACKER http www bluesquirrel com products whacker whacker html WEBZINGER http www webzinger com 6 Conclusion de la seconde partie Sur Internet le processus de rep rage de l information est confront de multiples difficult s certaines sp cifiques comme l instabilit des ressources d autres 51 Cynthia Delisle dea 1999 enssib communes tous les syst mes d information par exemple les probl mes d coulant des ambigu t s langagi res Les outils de recherche d velopp s pour tenter de g rer cette situation sont tr s nombreux l heure actuelle ils continuent de se multiplier un rythme effr n et il n est sans doute pas ex
15. hGH is produced in the pituitary gland of humans and the hormone is 18 Mai 1999 3kb www novo dk backgrou backgrou bahghuk htm Ce dernier extrait est non seulement de langue anglaise mais se rapporte comme on le voit a un site consacr aux hormones de croissance humaine Cela laisse entrevoir la strat gie de recherche de DIGOUTAU les documents comportant tous les concepts d finis par le logiciel sont favoris s mais lorsque les documents de ce type se font rares les agents se rabattent rapidement sur ceux qui ne renferment que l un ou l autre de ces concepts En fait pour cette requ te on peut compter sur les doigts d une main les r ponses exploitables comme celle ci qui semble toutefois tre davantage un article d opinion qu un texte informatif sur le sujet taux de pertinence de 91 la Baleine Mars Avril 1997 http www apro fr natcog at publications baleine b_1997_3 html Y a t il obligation pour 1 homme europ en de manger du b uf am ricain aux hormones Sanitairement non Commercialement oui Rien ne prouverait que le b uf enrichi aux hormones pose un probl me de sant pour le consommateur Rien ne prouve le contraire non plus surtout 4 longue ch ance Naturellement pour cette organisation le doute doit profiter au commerce et aux am ricains au nom de la libre concurrence La requ te maladie de la vache folle a t un peu plus fructueus
16. parfait et les r sultats s chelonnent entre 98 et des taux aussi bas que 6 ou 7 Pour b uf aux hormones par exemple les derniers documents fournis sont des recettes de cuisine Saveurs du monde Matambre Roulade de b uf aux ufs cuits durs http saveurs sympatico ca ency_6 boeuf matambre htm Saveurs du monde Matambre Roulade de b uf aux ufs cuits durs Matambre Roulade de b uf aux ufs cuits durs Temps de cuisson 2 heures environ ou davantage selon la partie de b uf choisie 1 flanchet de b uf de 1 3 kg ou autre partie de b uf braiser 1 oignon coup grossi rement 60 ml de vinaigre de vin sel poivre thym et persil Farce 450 g d pinards 375 ml de chapelure fraiche Pour cette requ te du reste les r sultats s av rent d cevants dans leur ensemble Plus du tiers des r ponses est constitu par la r p tition incessante de cet extrait d une interrogation adress e DEJA COM outil sp cialis dans la recherche l int rieur des groupes de discussion Deja com Discussion Search Results http r hotbot com r hb_res_sp_hlt_deja http www deja com hotbotad dnquery xp query boeuf aux hormones Discussion Search Results boeuf aux hormones Help Feedback Top Forums related to boeuf aux hormones Up to 50 off on books about boeuf aux hormones at Amazon com Get more forums related to boeuf aux hormones Messages related to b uf aux hormones Mes
17. pertinence les requ tes en langage naturel ne se r v lent gu re exploitables d ordinaire dans une telle requ te les termes sont analys s comme tant s par s par des OU ce qui r sulte en un mode de recherche tr s large Gr ce au tri de pertinence les documents les plus pertinents se retrouvent en t te de liste Les strat gies de recherche voluent galement gr ce au tri de pertinence qui permet la gestion de larges ensembles de r ponses il devient possible de tailler les requ tes bool ennes de mani re les rendre beaucoup plus larges qu il n tait praticable autrefois en incluant des synonymes ou des termes de recherche suppl mentaires D o la n cessit pour les usagers surtout professionnels de revoir leurs pratiques Taking full advantage of these advanced technologies i e relevance ranking natural language searching document as query feedback and automatic concept construction requires experienced searchers to rethink their strategies The old techniques of narrowing a Boolean set blindly until it is small enough to cope with discarding relevant documents with each step are the wrong way to search with these new tools Rather the user must learn to expand the search net then browse from the top down Evans 1994 Ajoutons enfin que dans le contexte d Internet l application rigoureuse des crit res de rappel et de pr cision pose probl me D une part la
18. phrase exacte plus de 200 78 Cynthia Delisle dea 1999 enssib c t d azur phrase exacte plus de 200 cot d azur phrase exacte plus de 200 tire bouchon phrase exacte 116 tire bouchon phrase exacte 31 28 07 1999 EXCITE NB le traitement de la casse est indiff renci c te d azur 5 827 cote d azur 1 393 c t d azur 1 cot d azur 0 tire bouchon 174 tire bouchon 174 27 07 1999 en fran ais sur le Web mondial HoTBOT c te d azur 7 890 cote d azur 5 680 c t d azur 9 cot d azur 4 C te d Azur 7750 C te d azur 7750 c te d Azur 6 990 Cote Azur 64 tire bouchon 140 tire bouchon 140 23 08 1999 any language INFOSEEK NB le traitement de la casse est indiff renci c te d azur 5 573 cote d azur 10 047 c t d azur 25 cot d azur 1 C te d Azur 5 573 C te d azur 5 573 c te d Azur 5 573 Cote d Azur 10 047 tire bouchon 144 tire bouchon 144 Lycos NB le traitement de la casse est indiff renci 10 08 1999 sur tout le Web c te d azur 1 402 cote d azur 402 79 Cynthia Delisle dea 1999 enssib c t d azur 123 cot d azur 19 tire bouchon 42 tire bouchon 64
19. res de restriction g ographique ou linguistique ou qui sont des adeptes de la recherche par locution De toute fa on la ma trise absolue du processus de recherche sur le Web demeurera sans doute une chim re Information retrieval on the Web is rooted in an interactive graphical presentation and mouse based point and shoot input which is different from the traditional query based search technique The Web search procedures which follow the links between hypertexts involve large jumps between information subjects Users facing too many choices might jump away from the original search target or get lost in cyberspace It is almost impossible to formalize a search strategy or to repeat the same search procedure at a different time in a complicated search procedure The interaction of Internet tools is limited compared with more established electronic sources Dong amp Su 1997 En ce qui concerne les orientations futures de recherche il convient tout d abord de mentionner l int r t que pr senterait l tude approfondie du mode de fonctionnement des outils en ce qui a trait l analyse linguistique effectu e sur les documents et les requ tes Quelles sont pr cis ment par exemple les r gles mises en uvre pour permettre l largissement d une recherche sur les pluriels r guliers et irr guliers et les termes proches phon tiquement Les algorithmes utilis s cette fin pour produire automatiqueme
20. tre inversement proportionnels et atteindre ensemble un total de 100 au lieu des 200 de la recherche id ale un syst me qui favorise la pr cision voit d ordinaire son taux de rappel baisser et vice versa le plus souvent c est la pr cision qui est privil gi e La figure ci dessous r sume cette situation 25 Cynthia Delisle dea 1999 enssib Recherche id ale Pr cision 0 Rappel 100 Figure 1 la pr cision et le rappel 4 Conclusion de la premi re partie Les performances des SRI en termes de pr cision et de rappel sont fort variables Les syst mes bool ens et statistiques peuvent ainsi tre dispos s aux deux extr mit s d un m me spectre mplacables les syst mes bool ens rep chent exactement ce qu on leur a demand Si l on a bien formul sa requ te on obtient ce que l on cherchait sinon on risque de ne rien rep rer qui soit utile Selon certaines tudes les syst mes bool ens m me en pr sence de sp cialistes chevronn s de linformation n atteignent gu re que 20 de taux de rappel Addison amp al 1993 Les syst mes bool ens pr sentent g n ralement des interfaces peu conviviales ce qui conjugu leur mode d interrogation base de mots cl s et d op rateurs logiques et de proximit contribue a les rendre difficiles ma triser pour les usagers non sp cialistes En fait ils s av rent souvent frustrants m me pour les experts qui doivent m
21. 7 d cire d an de D gine eiga der ete ee ASAT pii rende der marroien aooe ol noe oes cen par ba scale J iar ohier d dreaduaion 3a le poo d ure erie ur eee dents Geared l radie rat pia lod che paris c rah eee ur tore Che des Le sens wt bourecteure wept dis hais miomos cateri de plus en plus kaa El Figure 2 la fonction Extraits pertinents dans DIGOUT4U Source guide d utilisation de DIGOUT4U 2 Les tests effectu s Les tests pr sent s dans cette section ont t r alis s entre le 27 juillet et le 23 ao t 1990 Quelques remarques pr liminaires e L annuaire NOMADE et le moteur ECILA ne pr cisent pas le nombre total de r ponses une requ te lorsque ce dernier d passe un certain plafond respectivement fix 150 et 200 Les r sultats sont donc parfois plus flous en ce qui les concerne 59 Cynthia Delisle dea 1999 enssib e Les annuaires YAHOO et NOMADE redirigeant les requ tes infructueuses vers des outils de type moteur respectivement INKTOMI et ALTAVISTA nous incluons les r sultats en provenance de ces outils lorsque n cessaire e Pour toutes les requ tes adress es l annuaire CTROUVE COM nous avons d nous en tenir au mode d interrogation par d faut soit un OU implicite entre les mots aucune autre option de recherche n tant disponible e Afin de confirmer les r sultats recueillis chaque requ te effectu e a t syst matiquement resoumise une seconde
22. ME PARTIE DU COMPORTEMENT DES SRI SUR INTERNET LORS DE QUELQUES REQUETES TEST cccccccscccnssccnnsesnesenessennesenees 56 1 Les outils retenus 57 2 Les tests effectu s 59 2 1 Les modes de formulation d une requ te 60 2 2 Les ressources francophOmes 20 crdurumieriuselanduenetetenedretintennene s 69 2 3 La casse les caract res diacritiques et les caract res sp ciaux 74 2 4 L ordre des MOLS neue rame sun dame ienenedestrananMesse idee denses es 80 2 5 R sultats obtenus avec DIGOUTAL 4 siens asnsesaeunanev eutaneerennnes 83 3 Conclusion de la troisi me partie 88 CONCLUSION nissan siennes a a n es suite san Waele 91 BIBLIOGRAPALE na veineuse eubn deine eta da 94 ANNEXES FICHES SIGNAL TI QUES ta nu sant sean nice ins 103 Cynthia Delisle dea 1999 enssib It is surprising what some search engines find and what others do not find Alan Poulter The design of World Wide Web search engines a critical review 1997 Cynthia Delisle dea 1999 enssib Introduction Internet peut tre d fini comme un r seau informatique global o des milliers d ordinateurs identifi s de mani re unique par un num ro IP et un nom de domaine communiquent entre eux via le protocole TCP IP Emanant l origine du milieu acad mique am ricain ce r seau des r seaux n a cess de croitre depuis sa naissance en 1969 et plus particuli rement depuis l arr
23. Moteur Versions localis es Non Version francophone Non Taille de la base de donn es Plus de 110 millions d URL Possibilit de soumission manuelle d URL Oui Indexation du texte int gral Oui Prise en compte d un fichier robots txt ou Oui d une balise lt ROBOTS gt Prise en compte des m ta donn es Oui Pr sence d une section de type annuaire Oui HOTBOT Directory Traitement de la casse Diff renci Traitement des caract res sp ciaux et Diff renci diacritiques Mode de recherche par d faut ET Options de restriction de recherche Sur le titre Sur un nom de personne Sur les liens vers une URL Sur un intervalle de temps huit options Sur la langue dix options Sur l inclusion dans les page d images de fichiers vid o de fichiers MP3 de fichiers javascript recherche avanc e huit options suppl mentaires sur la pr sence de types pr cis de fichier Sur l extension des noms de fichiers recherche avanc e Avant apr s une date pr cise recherche avanc e Sur le domaine pour l Am rique du Nord ou le continent recherche avanc e 16 options Sur le nom de domaine recherche avanc e Sur les variantes grammaticales par exemple avec cette option une requ te sur thought retrouvera des occurrences de think et de thinking recherche avanc e Sur la cat gorie de page pages d accueil pages personnelles pages d
24. Puisque l acquisition du langage chez l tre humain se fait par le biais de l assimilation progressive des r gles et mod les patterns and templates qui le structurent les enfants apprenant ainsi par exemple exprimer l opposition singulier pluriel ou construire une phrase une question ou un ordre le T L N 18 Cynthia Delisle dea 1999 enssib pose comme principe que si nous arrivons d finir ces patrons et les d crire un ordinateur alors nous pourrons enseigner la machine une partie de la mani re dont nous parlons et nous comprenons entre nous L experte am ricaine E Liddy d finit ainsi le T L N Natural language processing is a range of computational techniques for analyzing and representing naturally occurring texts at one or more levels of linguistic analysis for the purpose of achieving human like language processing for a range of particular tasks or applications Liddy 1998 Les syst mes de T L N sont dans les faits des syst mes statistiques auxquels l on adjoint des bases conceptuelles des bases de connaissances ou des thesaurus et que l on dote d une interface en langue naturelle La t che centrale du T L N en ce qui a trait aux SRI concerne la traduction de requ tes et de documents en langage naturel donc potentiellement ambigus en repr sentations internes non ambigu s pouvant tre utilis es pour la mise en correspondance et le rep rage Id aleme
25. a chaque mot d un document la ou les page s o il figure du reste on les appelle aussi parfois des index Pour reprendre une comparaison commun ment admise If we regard the World Wide Web as a huge disorganized book then a subject 39 Cynthia Delisle dea 1999 enssib directory is like a table of contents and search engines are like the book s indexes Dong amp Su 1997 Les moteurs permettent a l usager de rep rer l information non suite une navigation th matique mais via l interrogation l aide de mots cl s et de commandes logiques d une base de donn es index e leur fonctionnement rejoint ainsi celui des logiciels de gestion documentaire usuels En g n ral deux modes de recherche sont disponibles recherche simple propos e par d faut partir de la page d accueil de l outil avec plus ou moins de possibilit s de recherche et recherche avanc e accessible en option et o des possibilit s de recherche vari es et approfondies souvent param trables sont offertes Voici ce que dit O Andrieu propos des moteurs Lorsque l internaute saisit un mot cl dans le formulaire propos le moteur va en rechercher les occurrences dans son index c est dire dans le contenu le texte des pages Web sauvegard es au pr alable Une fois identifi le lot de pages contenant le terme demand le moteur classe les pages par ordre de pertinence selon un ordre et un al
26. aise le moteur ECILA et les annuaires CTROUVE COM NOMADE et 69 Cynthia Delisle dea 1999 enssib YAHOO soit dot s d options de recherche de restriction linguistique et ou g ographique permettant d isoler des portions francophones d Internet nous avons voulu tablir si des options comme le Web fran ais le Web francophone ou les sites de langue fran aise prenaient en compte la totalit du contenu disponible en fran ais ou si elles ne limitaient pas plut t la recherche de l usager aux URL en provenance de France d Europe francophone ou au mieux d un ensemble pr d fini de pays de la Francophonie Pour ce faire nous avons utilis nouveau la requ te portant sur beau dommage en tant que locution l hypoth se sous jacente tant qu une grande quantit des URL potentiellement pertinentes pour cette recherche provient du Qu bec Pour les outils qui le permettaient nous avons cette fois fait porter la requ te selon les cas soit sur une option pr d finie du type Web francophone par opposition Web mondial soit sur une restriction linguistique en fran ais soit enfin sur une restriction g ographique France Qu bec Canada Nous avons ensuite soumis tous les SRI une requ te visant rep rer l URL d un organisme qu b cois le Centre d expertise et de veille Inforoutes et Langues CEVEIL Ici aussi les donn es obtenues sont surprenantes plusieurs gards Tout d
27. aux signes pour respectivement forcer et exclure la pr sence d un mot dans un document Ces fonctions bool ennes simplifi es peuvent s av rer utiles pour mieux filtrer les r ponses par exemple une requ te sur le mot p che peut judicieusement tre enrichie par fruit lorsqu on ne s int resse qu aux poissons Elles pr sentent d ordinaire l avantage de ne pas d sactiver l algorithme de pertinence de l outil de recherche comme cela peut tre le cas avec l utilisation des op rateurs AND OR et AND NOT Selon certains experts tels D Sullivan et S Feldman l emploi des signes et des guillemets serait d ailleurs plus appropri que la construction de requ tes 61 Cynthia Delisle dea 1999 enssib traditionnelles avec des op rateurs bool ens pour la recherche sur les SRI du Web For example enter a string of words and most search engines will naturally try to find them in close proximity to each other This eliminates a need to specify a proximity command like NEAR Likewise do a search at AltaVista or Google and they will automatically try to detect phrases in your queries and give you pages that contain those phrases By entering a complex Boolean command you are searching in a way the search engines are not designed for Sullivan 1999 N anmoins comme le font remarquer X Dong et L T Su there is no consensus on which way of submitting a query can improve precision i
28. based information retrieval Online Review 1991 15 6 373 382 Stock O A third modality of natural language Artificial Intelligence Review 1995 9 2 3 129 146 Strzalkowski T Natural language information retrieval Information Processing amp Management 1995 31 3 397 417 Sullivan D Crawling under the hood an update on search engine technology Online 1999 23 3 30 38 Tegenbos J et P Nieuwenhuysen My kingdom for an agent Evaluation of Autonomy an intelligent search agent for the Internet Online amp CDROM Review 1997 21 3 139 48 Thil J Outils intelligents de recherche d informations mythe ou r alit Technologies Internationales 1996 26 7 10 98 Cynthia Delisle dea 1999 enssib Tomaiuolo N G et J G Packer An analysis of Internet search engines assessment of over 200 search queries Computers in Libraries 1996 16 58 62 Tudor J D The new alchemy using droids amp agents to threat information overload Online 1997 21 6 50 58 Vidmar D J Darwin on the Web the evolution of search tools Computers in Libraries 1999 19 22 28 Wacholder N et R J Byrd Retrieving information from full text using linguistic knowledge In Martha E Williams d Proceedings of the 15th National Online Meeting 1994 Learned Information Inc New York 10 12 May 1994 Medford New Jersey Learned Information
29. constitue une excellente technique pour l interrogation de SRI il nous semble que l ordre d apparition des mots dans les requ tes de base pourrait tre exploit pour faciliter l identification de ces derniers y compris en fran ais puisque la plupart des SRI liminent de ces requ tes les soi disant mots vides articles conjonctions pr positions etc ramenant ainsi course de voitures et voiture de course course voiture versus voiture course Un tel processus pourrait s effectuer via la confrontation de la requ te avec des bases de connaissances lexicales id alement multilingues recensant les mots compos s Plus simplement une solution mitoyenne pour limiter le silence tout en augmentant la pr cision des r sultats serait de proposer en t te des classements de pertinence les documents o l ordre d apparition des mots est respect f CTROUVE COM course voiture 1 012 voiture course 1 012 28 07 1999 NOMADE course voiture recherche avanc e tous les mots 39 voiture course recherche avanc e tous les mots 39 30 07 1999 sur Tout Nomade YAHOO course voiture 15 voiture course 15 29 07 1999 ALTA VISTA 2 La troncature en s est automatique sur la plupart des outils de recherche Ce qui n tait pas le cas lors de notre test course voiture par exemple a souvent rep ch en priorit des documents consacr s aux voitures de course
30. et contribuent ainsi d finir efficacement un concept Par exemple une recherche sur le SIDA l aide de cette fonctionnalit peut permettre de rep rer des documents pertinents mais o cette expression n est jamais explicitement mentionn e parce qu on y parle uniquement de VIH etc Proposant des termes reli s pour une recherche conceptuelle ces outils peuvent parfois donner l impression de r aliser une analyse linguistique mais il ne faut donc pas perdre de vue qu en r alit ils se bornent afficher une liste des termes qui apparaissent fr quemment dans les documents du corpus o figurent les termes de la requ te Par ailleurs ce type de 8 Sur Internet DIRECT HIT est un syst me de ce genre Il mesure quelles sont les pages visit es par les usagers partir d une liste de r sultats de recherche les pages r ellement visit es obtiennent une augmentation de leur cote de pertinence celles qui sont laiss es de c t voient la leur baisser DIRECT HIT est notamment incorpor HOTBOT Cette strat gie est employ e par exemple par INFOSEEK Son utilit appara tra plus vidente la lecture de la seconde partie de ce travail 17 Cynthia Delisle dea 1999 enssib syst mes de rep rage pr sente galement l avantage de permettre d utiliser un document entier en tant que requ te c est la fonction More like this ou Plus de r ponses comme celle ci que l on trouve sur de
31. in One Ce genre 35 T n est du reste pas requis d tre responsable d un site pour proposer son inclusion un moteur Chaque internaute est libre de sugg rer ce qui lui pla t situation qui contribue sans doute au caract re fortement h t roclite des bases de donn es Cynthia Delisle dea 1999 enssib http www av com http altavista digital com http www electricmonk com http www excite com http www fr excite com http www hotbot com http infoseek go com http www english lycos com http www lycos fr http www northernlight com http www nlsearch com http www webcrawler com URL http www ecila fr http www lokace com http www voila fr http www voila com d instrument recense habituellement un grand nombre d outils de recherche en fournissant un acc s direct sur une m me page la ligne de commande de chacun d eux Utiles dans la mesure o ils permettent la consultation de plusieurs services partir d un m me site et disposent souvent d une interface astucieuse qui vite l usager d avoir retaper continuellement sa requ te ces m tamoteurs de premi re g n ration demeurent toutefois assez primitifs et ne rendent que peu de services suppl mentaires Ils se chargent tout simplement de communiquer la requ te concern e aux diff rents outils de recherche g n ralement de fa on s quentielle Quel
32. me carr ment inexacte Dans une telle conjoncture bl mer principalement la n gligence ou l incomp tence des utilisateurs pour justifier de l incurie actuelle des outils de recherche rel ve de la mauvaise foi caract ris e Si la solution au probl me du rep rage d information sur Internet comporte effectivement un aspect reli la formation des usagers elle devra surtout s appuyer d une part sur un mouvement de normalisation intra et inter outils des caract ristiques de fonctionnement et d autre part sur le perfectionnement des instruments de seconde g n ration plus intelligents et conviviaux qui commencent appara tre comme DIGOUTAU 90 Cynthia Delisle dea 1999 enssib Conclusion Nous conclurons en discutant bri vement les implications pour l usager profane de la r alit actuelle du rep rage de l information sur Internet et en proposant quelques pistes pour des recherches futures Comme nous l avons sugg r d j pour l internaute type la pr cision des r sultats demeure le souci principal suite une requ te loin devant le rappel qui pr occupe tant les sp cialistes de l information 80 des usagers du Web ne visionneraient que les deux premi res pages d une liste de r sultats et encore Dans ce contexte on peut supposer que l impact des probl mes de rep rage qui ont t discut s tout au long de ce travail demeure relativement mineur pour ces usager
33. peuvent rencontrer les suffrages de nombreuses client les Pour les particuliers ils peuvent agir comme guides vers les informations recherch es sur le Web comme assistants d achat ou encore pour la gestion documentaire personnelle lorsque l agent est configur pour effectuer des recherches sur le poste m me de l utilisateur Beaucoup d agents voluent au fil du temps s adaptent aux circonstances prennent des d cisions et enrichissent eux m mes leur comportement sur la base des observations qu ils effectuent ils peuvent donc tudier les r actions de leur propri taire face aux premiers r sultats de leur travail et modifier leurs activit s en cons quence afin de mieux coller aux attentes de ce dernier Pour les entreprises les agents intelligents s av rent galement d une utilit appr ciable dans un contexte de veille concurrentielle et technologique sur Internet 50 Cynthia Delisle dea 1999 enssib L agent intelligent est l outil de pr dilection du cyber veilleur De fa on transparente ou active il est oblig de passer par lui pour retrouver l information pertinente au milieu de ce cyber fatras Careil et de Fr mont s d Les agents intelligents permettent en effet aux veilleurs d conomiser du temps tout en effectuant un parcours exhaustif des sources d information Il devient aussi possible pour les entreprises de mettre en place des pratiques de surveillance syst matique de l
34. proximit des mots cl s entre eux emplacement des mots cl s dans le document 16 Cynthia Delisle dea 1999 enssib Depuis peu dans le cas particulier des SRI sur Internet on recourt en outre aux indicateurs suivants le nombre de liens dans la base de donn es pointant vers une page un peu la mani re d une tude scientom trique de citations ou la pr sence d un lien en provenance d un site important le nombre de fois qu une page est visit e partir d une liste de r sultats pour les outils qui incorporent un annuaire la pr sence dans l annuaire de la page concern e Par ailleurs pour tous les syst mes statistiques la pr sence de l ensemble des mots cl s de la requ te dans un document assure toujours ce dernier l mergence en t te de liste des r sultats ainsi pour une requ te comportant la fois bananes et pommes un document avec une occurrence de bananes et une occurrence de pommes pr c dera immanquablement un document avec seulement trois occurrences de bananes La pond ration selon le rang d apparition expliqu e plus haut est l une des techniques employ es pour garantir ce r sultat L approche d velopp e par les syst mes statistiques rend possible l identification automatique de termes reli s aux mots d une requ te related terms c est dire de termes qui co occurrent dans la base de donn es avec les termes de la requ te
35. qui explique que les bases de donn es des outils de 14 Ceci s explique probablement par le fait que le grand public soit la majorit des internautes privil gie la pr cision aux d pens de l exhaustivit un usager qui fait une requ te sur un mot cl comme cars ou travels n a vraiment pas besoin de rep cher toutes les r f rences potentiellement pertinentes qui existent sur le Web Du reste malgr sa pi tre performance au niveau du rappel les consommateurs continuent de pl bisciter LYCOS qui demeure un des services majeurs de recherche d information sur le Web 5 Les cadres permettent de disposer de plusieurs fen tres sur une page Web 16 Les pages dynamiques sont des pages qui r sident en pi ces d tach es dans une base de donn es corps de la page en t tes pieds de page etc Suite une demande d acc s la base de donn es assemble les divers l ments et d livre en temps r el la page Web Les pages dynamiques sont reconnaissables 4 la pr sence d un point d interrogation dans leur URL exemple http www website com cgi bin getpage cgi name sitemap C est pr cis ment ce symbole qui pose probl me car la plupart des outils de type moteur ne lisent pas URL au del d o l impossibilit d indexer la page il s agit l d un choix d lib r destin viter les pi ges robot o une m me page peut tre soumise des milliers de fois sous des URL l g rement diff rentes
36. sites de fabricants petites annonces etc ou entrem l dans les premi res places ces documents avec ceux traitant de courses de voitures Puisque la distinction fond e sur l ordre des mots est particuli rement susceptible d tre pertinente en anglais il est d ailleurs curieux que les outils d origine anglo saxonne en tiennent si peu compte toutefois peut tre effectuent ils ce genre de traitement sur les requ tes clairement compos es de mots cl s de langue anglaise ce que nous n avons pas v rifi 82 Cynthia Delisle dea 1999 enssib course voiture 10 535 voiture course 10 535 23 08 1999 any language ECILA course voiture tous les mots plus de 200 voiture course tous les mots plus de 200 29 07 1999 EXCITE course voiture 849 voiture course 849 27 07 1999 en fran ais sur le Web mondial HOTBOT course voiture 2 060 voiture course 2 080 23 08 1999 any language INFOSEEK course voiture 53 voiture course 53 10 08 1999 sur tout le Web Lycos course voiture 207 voiture course 207 04 08 1999 sur le Web mondial VOILA course voiture recherche avanc e 1 369 voiture course recherche avanc e 1 369 28 07 1999 sur le Web mondial COPERNIC course voiture recherche rapide tous les mots 89 voiture course recherche rapid
37. souvent administrer aux SRI de longues cha nes de synonymes et d adjectifs 1 4 7 Les false drops Il faut entendre par l les documents qui sont rep ch s suite une requ te mais qui sont sans rapport aucun avec le sujet Ce ph nom ne de bruit est d en bonne partie au tandem bon mot mauvais sens il concerne en particulier les systemes bool ens qui ne v rifient pas automatiquement la proximit et la fr quence des mots A un moindre niveau il affecte galement les syst mes statistiques Le probl me des false drops illustre avec acuit d ailleurs les limites de ces deux modes de rep rage Most of today s commercial and Web search technologies retrieve information without knowing what it means They do this by matching strings of letters words in the query to the documents in I Voir la suite de cette section Malgr nos essais nous n avons pu formuler d quivalent fran ais pour cette expression anglo saxonne fort r pandue 35 Cynthia Delisle dea 1999 enssib the database in order to find exact or best matches This is like trying to carry on a conversation with a parrot The parrot can mimic speech but it ties words to at most a treat or a curse not to their inherent meaning Feldman 1999 2 Les annuaires Nous retiendrons comme premier type d outils de recherche sur Internet les annuaires que l on appelle galement guides r pertoires ou catalogu
38. sultats par site Non clustering Affichage d un taux de pertinence Oui valuation de la pertinence Les facteurs suivants sont examin s pour le tri de pertinence Pr sence des termes de la requ te dans le titre dans les balises META ou en d but de page Nombre de termes pr sents Pr sence de termes significatifs sont consid r s comme tels les mots relativement rares dans la base de donn es de l outil Nombre de liens qui pointent vers une page donn e Particularit s L acc s l annuaire NOMADE est int gr dans la page d accueil affichage des cat gories de base XV Annexe I Lycos URL http www lycos fr Cat gorie Moteur Versions localis es Oui 13 Version francophone Oui interface localis e Taille de la base de donn es 35 millions d URL selon R Hock Hock 1999 Possibilit de soumission manuelle d URL Oui Indexation du texte int gral Oui Pr sence d une section de type annuaire Oui Guides du Web Traitement de la casse Indiff renci Traitement des caract res sp ciaux et Diff renci diacritiques Mode de recherche par d faut ET Options de restriction de recherche Web fran ais i e sites en fr ch et be vs Web mondial Recherche d images recherche avanc e Recherche de sons recherche avanc e Recherche en langage naturel recherche avanc e Su
39. sur la fr quence d apparition des termes dans le document et dans l ensemble de la base de donn es et leur emplacement le titre et les balises META en particulier lt KEYWORDS gt sont favoris s HOTBOT prend galement en compte la longueur du document au sens o un document court recevra une meilleure valuation qu un document plus long pr sentant le m me nombre d occurrences d un terme donn Particularit s Suite une requ te HOTBOT affiche les cat gories pertinentes de son r pertoire s il y en a avant les pages Web rep ch es par le robot XIII Annexe H INFOSEEK ne http www infoseek com Home pg Home html amp sv FR amp svx INTL_IN_GO FO FR Cat gorie Moteur Versions localis es Oui 12 Version francophone Oui interface localis e Taille de la base de donn es 50 millions d URL selon R Hock Hock 1999 Possibilit de soumission manuelle d URL Oui Indexation du texte int gral Oui Prise en compte d un fichier robots txt ou Oui d une balise lt ROBOTS gt Prise en compte des m ta donn es Oui Indexation des cadres Non Pr sence d une section de type annuaire Oui NOMADE Traitement de la casse Diff renci Traitement des caract res sp ciaux et Diff renci diacritiques Mode de recherche par d faut OU Options de restriction de recherche Tout le Web vs France i e site
40. 04 08 1999 sur le Web mondial VOILA NB le traitement de la casse est indiff renci c te d azur recherche avanc e la phrase 19 638 cote d azur recherche avanc e la phrase 19 638 c t d azur recherche avanc e la phrase 19 638 cot d azur recherche avanc e la phrase 19 638 tire bouchon recherche avanc e la phrase 280 tire bouchon recherche avanc e la phrase 64 28 07 1999 sur le Web mondial COPERNIC c te d azur recherche rapide expression exacte 79 cote d azur recherche rapide expression exacte 73 c t d azur recherche rapide expression exacte 32 cot d azur recherche rapide expression exacte 21 C te d Azur recherche rapide expression exacte 80 Cote d Azur recherche rapide expression exacte 70 C t d Azur recherche rapide expression exacte 34 Cot d Azur recherche rapide expression exacte 15 tire bouchon recherche rapide expression exacte 58 tire bouchon recherche rapide expression exacte 53 29 07 1999 sur le Web 2 4 L ordre des mots Il nous a paru int ressant de v rifier si l ordre des mots tait pris en compte en ce qui a trait aux requ tes de base Nous avons donc administr aux SRI de notre chantillon deux requ tes successives l une portant sur les mots course et voiture l autre sur les mots voiture et course Afin de rendre les deux termes obliga
41. 1 402 C te d azur 1 402 c te d Azur 1 402 04 08 1999 sur le Web mondial VOILA NB le traitement de la casse est indiff renci c te d azur recherche avanc e la phrase 19 638 cote d azur recherche avanc e la phrase 19 638 c t d azur recherche avanc e la phrase 19 638 cot d azur recherche avanc e la phrase 19 638 28 07 1999 sur le Web mondial Une telle perte de pr cision certes est d plorable On peut toutefois se demander si elle n est pas pr f rable la situation que provoque au niveau du rappel chez les autres outils la conjonction du traitement diff renci et de la recherche par locution Consid rons les r sultats suivants HOTBOT c te d azur 7 890 C te d Azur 7 750 C te d azur 7 750 c te d Azur 6 990 23 08 1999 any language EXCITE 76 Cynthia Delisle dea 1999 enssib NB le traitement de la casse est indiff renci c te d azur 5 827 cote d azur 1 393 c t d azur 1 cot d azur 0 27 07 1999 en fran ais sur le Web mondial On voit que les motifs exacts sont recherch s lors de chacune des requ tes puisque le total des occurrences obtenues par les requ tes a la syntaxe pauvre respectivement c te d azur et cote d azur demeure inf rieur la somme des totaux de leurs variantes respectives Ceci revient dire qu un internaute d
42. ERENCE FIND http www infind com INFERENCE FIND version fran aise http www infind com infind_fr METACRAWLER http www metacrawler com SAVYSEARCH http www savvysearch com 5 Les agents intelligents Le concept d agent intelligent recouvre des r alit s nombreuses et diverses Au sens large les agents intelligents peuvent tre d finis comme des outils permettant d automatiser p riodiquement ou la demande des t ches de fa on transparente pour l utilisateur qui b n ficie des r sultats Philippe Courtot CEO de Verity cit dans Careil et de Fr mont s d Dans le contexte plus sp cifique de la recherche d information ces logiciels sont g n ralement dot s a des degr s divers des caract ristiques de base suivantes e L automatisation et l autonomie du fonctionnement e La mobilit c est dire l aptitude voyager sur les r seaux 47 Cynthia Delisle dea 1999 enssib e La capacit d interaction avec des interlocuteurs humains ou m caniques e La capacit dynamique d apprentissage Contrairement aux annuaires aux moteurs et aux m tamoteurs les agents intelligents ne forment pas une classe clairement d limit e de SRI sur Internet D une part ils sont souvent incorpor s aux outils des autres groupes les robots que nous avons voqu s pr c demment constituent en fait un type l mentaire d agent intelligent tout comme les m tamoteurs sont une applicati
43. ESSOURCES IMPRIMEES Addison E R Feder J et H D Wilson The impact of plain English searching on end users In Martha E Williams d Proceedings of the 14th National Online Meeting 1993 Learned Information Inc New York 4 6 May 1993 Medford New Jersey Learned Information Inc 1993 5 9 Allen E E Searching naturally Internet Reference Services Quarterly 1998 3 2 75 81 Allen J Natural Language Understanding 2 Ed Redwood City Californie Benjamin Cummings 1995 XV 654 pages Andrieu O Cr er du trafic sur son site Web Paris Editions Eyrolles 1998 500 pages Andrieu O Trouver l info sur Internet Paris Editions Eyrolles 1998 460 pages Balas J L Exploring some new search tools for librarians Computers in Libraries 1999 19 34 37 Basch R Researching Online for Dummies Foster City Californie IDG Books Worldwide 1998 328 pages Basch R Searching in plain English Link Up USA 1994 11 2 14 15 Belkin N J et W B Croft Information filtering and information retrieval two sides of the same coin Communication of the ACM 1992 35 12 29 38 94 Cynthia Delisle dea 1999 enssib Blakeman K Intelligent agents search tools of the future Business Information Searcher 1997 7 1 16 18 Brandt S D What flavor is your Internet search engine Computers in Libraries 1997 17 47 50 Centre d exper
44. GUISHIAUS cessioni aa AE EEEE EAE EAS 33 1 4 1 La surab ndan s de SYNONYMES nirani aisn nakaasa dE een ed 33 1 42 La ROSE 24801 rnsosursgneessessmmenesnrisenentiase asus TETELE IRANE 33 1 4 3 Les variations orthographiques et les erreurs d orthographe et de frappe 34 1 4 4 Les pertes d information lors du traitement 34 1 4 5 L inconst nce de l indexation Rama lues semestres 35 1 4 6 La difficult de formulation de certains concepts 35 1 4 7 Les eae Grose iriiria tata O ERE E A dote Maiden 2t 35 2 Les annuaires 36 3 Les moteurs 39 4 Les m tamoteurs 44 5 Les agents intelligents 47 5 1 Agents de recherche d information 2c c ccc cicsccea sin eiaeceee se ee ninin eee ee se 48 Cynthia Delisle dea 1999 enssib Jall F d rateurs d recherch siisieusuauandeneeneunenriseneurs rentente 48 5 1 2 POC GES OGIO LC RE E TEET 48 5 2 Agents pour la consultation hors WON ic ccc setae ed eine eae te aud 49 D3 AGCHUS AUTONOMES css essences mamans nana name nada dE de n Eei 49 5 4 Agents pour le commerce l ctronigu 2 0 2 0 0c0ccceceencsaead veuseuseveceecans 49 5 4 1 Assistants d achat shopbots 1 cece cc cece eee e eee eeeeeeeteeeneeeeees 49 5 4 2 Agents d analyse de la demande 49 6 Conclusion de la seconde partie 51 TROISI
45. Inc 1994 441 447 Warner A J Natural language processing Annual Review of Information Science and Technology 1987 22 79 108 Warner A J Natural language processing in information retrieval Bulletin of the American Society for Information Science 1988 14 18 19 Watson D Is this software after your job Library Association Record 1997 99 7 364 365 Weinberg B H Levels of linguistic analysis and information processing In Charles W Husbands et Ruth L Tighe d Information revolution proceedings of the 38th ASIS Annual Meeting Boston Massachusetts October 26 30 1975 Washington DC American Society for Information Science 1975 12 71 72 Young C W Eastman C M et R L Oakman An analysis of ill formed input in natural language queries to document retrieval systems Information Processing amp Management 1991 27 6 615 622 RESSOURCES ELECTRONIQUES Sites sp cialis s Abondance recherche d information r f rencement et promotion de sites Web http www abondance com Maintenu par Olivier Andrieu Les agents intelligents http ms161u06 u 3mrs fr Maintenu par Bruno Mannina 99 Cynthia Delisle dea 1999 enssib La Loupe guide de recherche sur Internet http laloupe magnit com Meta News http www metanews net Maintenu par la soci t La Mine Les moteurs de recherche francophones http www idf net mdr Maintenu par la s
46. ND HOTBOT beau dommage all the words par d faut 1 250 Beau Dommage all the words par d faut 290 beau dommage 390 Beau Dommage 220 beau dommage 1 250 Beau Dommage 290 beau dommage exact phrase 390 Beau Dommage exact phrase 220 beau AND dommage Boolean phrase 1 270 Beau AND Dommage Boolean phrase 290 beau dommage recherche avanc e must contain the 1 250 words Beau Dommage recherche avanc e must contain the 290 words beau dommage recherche avanc e must contain the 390 phrase Beau Dommage recherche avanc e must contain the 220 phrase 23 08 1999 any language ALTAVISTA beau dommage 431 Beau Dommage 467 beau dommage 431 Beau Dommage 467 3 La sensibilit la casse se rapporte la prise en compte de la distinction majuscules minuscules Cette question est abord e plus en d tail dans un test subs quent Pour le moment mentionnons simplement que en principe une requ te enti rement en minuscules est cens e rep cher toutes les occurrences du motif peu importe la casse alors qu une requ te comportant des majuscules n est rep r e que telle quelle 65 Cynthia Delisle dea 1999 enssib beau dommage 15 960 Beau Dommage 596 beau AND dommage recherche avanc e 3 295 Beau AND Dommage recherche avanc e 596 beau NEAR dommage recherche avanc e 549 Beau NEAR Domm
47. Recherche sur un poste local fichiers htm html txt Classement des r sultats Pertinence pr sum e tri par titre disponible Affichage par d faut Titre URL Indice de pertinence Taille du fichier en KO Nombre de citations d doublonnage Temps mis pour rep rer le document L exportation des r sultats inclut les titres les URL et les notes de pertinence des documents Dans le cas d une exportation avec r sum le fichier g n r inclut galement pour chaque document des extraits pertinents par rapport la requ te initiale Possibilit de modifier l affichage par d faut Oui Choix de la quantit de r sultats afficher Oui Regroupement des r sultats par site Oui optionnel clustering Affichage d un taux de pertinence Oui valuation de la pertinence Les documents sont valu s en fonction des concepts pr sents ind pendamment des termes employ s de la syntaxe et de la langue Les ic nes c t des documents sourient ou non en fonction du taux de pertinence Un document avec un taux de pertinence de 30 contient un des l ments du th me de la recherche un document not 90 ou plus contient tous les concepts recherch s Particularit s Il faut formuler les requ tes en langage naturel Le syst me g re indiff remment le fran ais et l anglais Il est possible de filtrer les r sultats obtenus selon diff
48. TCAST 49 Cynthia Delisle dea 1999 enssib Certes pour le moment les agents intelligents ont quelque peu usurp leur nom Ils deviennent toutefois de plus en plus efficaces et on commence voir se r aliser les pr dictions formul es leur sujet par J de Rosnay en 1995 Les agents vont rapidement constituer une nouvelle population d tres virtuels Comme des virus informatiques contr l s ils vont se reproduire constituer des groupes des cultures Repr sentants de la vie artificielle ils vont progressivement coloniser des continents entiers du cyberespace Des agents travailleront en quipe Munis de permis et d autorisations d achat de n gociation ils pourront se partager un travail et comparer des informations leurs comp tences s accroissant au fur et mesure de leurs travaux de recherche ou de pr paration de dossiers Circulant sur les r seaux ces intra terrestres d un nouveau genre offriront leurs services Gr ce aux algorithmes g n tiques des programmes d agents pourront muter s autos lectionner voluer pour r soudre des probl mes de plus en plus complexes Leur valeur augmentera la bourse des emplois lectroniques Mais les agents repr senteront aussi des dangers potentiels Sachant tout sur les habitudes pr f rences ou secrets de leurs patrons ils pourront tre kidnapp s sur les r seaux et utilis s contre leurs employeurs de Rosnay 1995 Les agents intelligents
49. active Boolean and natural language searching with an online medical textbook Journal of the American Society for Information Science 1995 46 7 478 489 Hock R Web search engines features and commands Online 1999 23 3 24 28 Hyams P Q What creates no noise but isn t silent Information World Review 1997 131 37 38 Jacso P Don t kiss Boolean goodbye It s AND not OR let alone XOR Information Today 1994 11 2 22 24 Jones K S Artificial intelligence what can it offer information retrieval In Kevin P Jones et Verina Horsnell d Informatics 3 Conference held by the Aslib Coordinate Indexing Group 2 4 Apr 75 Emmanuel College Londres Aslib 1978 3 10 Kang H K et K S Choi Two level document ranking using mutual information in natural language information retrieval Information Processing amp Management 1997 33 3 289 306 Lalonde L G et A Vuillet Chercher et trouver dans Internet Montr al Editions Logiques 1998 139 pages 96 Cynthia Delisle dea 1999 enssib Lardy J P Les outils de recherche d information sur Internet guides listes th matiques et index Documentaliste 1996 33 1 33 39 Larouk O Modeling users needs schemas of interrogation and filtering of answers from the Web in co operative mode In Widad Mustafa el Hadi Jacques Maniez et Steven A Pollitt d Structures and Relations in Knowledge Organiz
50. ag r de pr tendre qu il en appara t de nouveaux presque tous les jours Face un tel foisonnement l internaute moyen est souvent tent de s en tenir la consultation d un service ou deux parmi les plus connus tels ALTAVISTA ou YAHOO Pourtant il est au contraire imp ratif lorsque l on m ne des recherches d information sur Internet de ne pas se cantonner un seul outil ni m me un seul genre d outils Ici aussi la compl mentarit est le ma tre mot aucun outil de recherche n offre de couverture parfaitement exhaustive en outre il semble que les recoupements entre les portions d Internet couvertes par les diff rentes bases d outils de m me type demeurent assez minimes bien qu il soit fort difficile d valuer la situation ce niveau Comme par ailleurs les diff rents types d outils ont t con us pour r pondre des besoins distincts recherches simples g n rales ou th matiques pour les annuaires et m tamoteurs recherches complexes ou pointues pour les moteurs il s av re beaucoup plus judicieux d employer en parall le plusieurs outils sans pour autant tomber dans la surench re deux ou trois outils de chaque type suffisent g n ralement Comme les outils sont de valeur parfois tr s in gale les choix de l usager se r v lent lourds de cons quences Outre les mesures de rappel et de pr cision malgr les r serves pr c demment voqu es les indicateurs suiva
51. age recherche avanc e 470 23 08 1999 any language INFOSEEK beau dommage 155 Beau Dommage 155 beau dommage 155 Beau Dommage 155 beau dommage 860 Beau Dommage 176 beau AND dommage 860 Beau AND Dommage 176 10 08 1999 sur tout le Web Par ailleurs comme on pouvait s y attendre le mode de recherche par locution abaisse sensiblement le nombre des r sultats obtenus Cette tendance s observe pour les moteurs ECILA EXCITE VOILA et HOTBOT quoique dans une moindre mesure pour les requ tes impliquant des majuscules dans ce dernier cas On la retrouve galement de mani re moins marqu e chez COPERNIC Les r sultats fournis par le moteur LYCOS cet gard sont surprenants l emploi de guillemets ne modifie pas le nombre de r sultats obtenus par la requ te par d faut alors que les options la phrase exacte et tous les mots adjacents diminuent effectivement ce nombre et que le choix tous les mots dans l ordre l augmente Lycos beau dommage 442 beau dommage 442 beau dommage recherche avanc e la phrase exacte 182 beau dommage recherche avanc e tous les mots dans 452 l ordre beau dommage recherche avanc e tous les mots adjacents 183 04 08 1999 sur le Web mondial Quant aux diff rentes fa ons de formuler manuellement des locutions chez INFOSEEK et ALTAVISTA elles se sont bien av r es quivalentes entre elles 66 Cy
52. agers inexp riment s face un SRI a d montr que le quart d entre eux n atteignaient m me pas le seuil d fini comme minimal d habilet de recherche On peut raisonnablement supposer qu une situation semblable pr vaut actuellement sur Internet o les usagers sp cialistes des syst mes d information ne constituent plus qu une minorit appel e sans doute devenir encore plus infime dans les prochaines ann es 1 2 La couverture limit e des SRI Sur Internet 1l est vident que plus la base de donn es d un outil est imposante et compl te plus ce dernier est susceptible de trouver des r ponses une requ te en particulier pour les sujets obscurs ou tr s pr cis Toutefois selon un article publi dans la revue Science le meilleur outil au niveau de la couverture du Web HOTBOT n indexait que 34 des 320 millions de pages estim es disponibles au moment de l tude Le pire LYCOS ne d passerait pas les 3 Cette situation inqui tante ne semble pas destin e s am liorer bien au contraire en regard de la croissance incontr l e du Web et galement du fait que l augmentation de la 2 Borgman C L The user s mental model of an information retrieval system an experiment on a prototype online catalog International Journal of Man Machine Studies 1986 24 47 64 13 Lawrence S R et C L Giles Searching the World Wide Web Science 280 1998 98 100 31 Cynthia De
53. alis es Non Version francophone Outil francophone sites en provenance de tous les pays Taille de la base de donn es Possibilit de soumission manuelle d URL Oui Indexation du texte int gral Limitation 30 Ko Prise en compte d un fichier robots txt ou Non d une balise lt ROBOTS gt Prise en compte des m ta donn es Oui Indexation des cadres Non Pr sence d une section de type annuaire Oui Guides d ECILA Traitement de la casse Indiff renci Traitement des caract res sp ciaux et Indiff renci pour les caract res diacritiques diacritiques Les caract res non alphanum riques sont ignor s Mode de recherche par d faut ET Options de restriction de recherche Sur le titre recherche avanc e Sur le nom de domaine recherche avanc e Sur le nom de fichier recherche avanc e Sur les balises lt KEY WORDS gt et lt DESCRIPTION gt recherche avanc e Fonctions bool ennes ET O formulaire Lorsque le O est s lectionn il est possible de taper dans la ligne de commande les op rateurs ET O qui est alors implicite PROCHE ET NON ainsi que les parenth ses Emploi de Non Recherche de locutions mo Oui formulaire ou quand le OU est s lectionn Requ te l int rieur d un premier groupe de r sultats Oui possibilit de restreindre la recherche aux titres a
54. alton partir du milieu des ann es 1960 Ils vont au del des approches bool ennes par mots cl s dont ils tentent d am liorer les performances Leur but est de permettre le rep rage des documents qui s av rent similaires un ensemble de mots Gr ce des technologies algorithmiques qui exploitent probabilit s et statistiques inf rentielles ils rep rent et trient les r ponses selon leur degr de correspondance avec la requ te de l usager c est dire selon leur chance d tre jug es pertinentes par ce dernier Ce type de recherche fournit donc non seulement les concordances exactes exact matches d une requ te mais aussi celles qui s en rapprochent close matches La plupart des outils de recherche 7 Voir notamment Salton amp McGill 1983 15 Cynthia Delisle dea 1999 enssib sur Internet dont il sera question dans la suite de ce travail soit rel vent de cette cat gorie soit sont des syst mes bool ens augment s de ce type de capacit s statistiques en particulier de fonctions d valuation de pertinence relevancy ranking De mani re tr s sch matique les syst mes statistiques basent leur fonctionnement sur le d nombrement des occurrences totales de chaque terme sauf ventuellement les mots vides dans un document de m me que dans l ensemble de la base de donn es de l outil Toutefois ceci ne veut pas dire n cessairement que les outils statistiques se bornent c
55. an S E Searching natural language systems searchers know thy engine Searcher 1994 2 8 34 39 Feldman S E Testing natural language comparing DIALOG TARGET and DR LINK Online 1996 20 6 71 79 Gaizauskas R et Y Wilks Information extraction beyond document retrieval Journal of Documentation 1998 54 1 70 105 95 Cynthia Delisle dea 1999 enssib Garman N Meta search engines Online 1999 23 3 74 78 Gauch S Intelligent information retrieval an introduction Journal of the American Society for Information Science 1992 43 2 175 182 Gillaspie D L The role of linguistic phenomena in retrieval performance Proceedings of the 58th Annual Meeting of the American Society for Information Science 1995 90 96 Green R The expression of conceptual syntagmatic relationships a comparative survey Journal of Documentation 1995 51 4 315 338 Haas S W Natural language processing toward large scale robust systems Annual Review of Information Science and Technology 1996 31 83 119 Hayes P J et G Koerner Intelligent text technologies and their successful use by the information industry In Martha E Williams d Proceedings of the 14th National Online Meeting 1993 Learned Information Inc New York 4 6 May 1993 Medford New Jersey Learned Information Inc 1993 189 196 Hersh W R et D H Hickam An evaluation of inter
56. ances 2 4 La pr sentation des r sultats Elle peut se faire par date par champ ou par pertinence pr sum e par rapport la requ te 24 Cynthia Delisle dea 1999 enssib 3 Les crit res d valuation d un SRI la pr cision et le rappel La pertinence des r sultats obtenus suite une requ te est le crit re que l on utilise habituellement lorsque l on d sire jauger l efficacit et la qualit d un SRI Cette pertinence fait appel au jugement de l usager final ce dernier ayant toujours raison et on la mesure l aide de deux grands indicateurs la pr cision et le rappel La pr cision se rapporte au pourcentage des documents rep r s qui sont jug s pertinents par l utilisateur final Le rappel quant lui concerne le pourcentage de documents parmi tous ceux de la base de donn es qui seraient jug s pertinents par l utilisateur final s ils taient rep r s qui sont effectivement rapatri s dans les faits Les expressions taux de bruit et taux de silence sont galement utilis es pour d signer ces ph nom nes respectifs Le SRI accompli serait donc celui qui parviendrait retrouver tout ce qui int resse l utilisateur tout en ne rep chant rien de ce qui ne l int resse pas en d autres termes atteindre la fois 100 de rappel et 100 de pr cision Il s agit actuellement d un id al purement th orique puisque dans les faits ces deux taux ont plut t tendance
57. ant un lien hypertextuel pointant vers son URL Ce r sultat peut tre atteint soit par l emploi des commandes avanc es des moteurs de recherche soit par le recours aux annuaires en retrouvant la ou les cat gorie s o le site en question a t r f renc 55 Cynthia Delisle dea 1999 enssib Troisi me partie du comportement des SRI sur Internet lors de quelques requ tes test Cynthia Delisle dea 1999 enssib 56 1 Les outils retenus Nous avons examin 12 outils lors de nos investigations e Trois annuaires Ctrouve com Nomade Yahoo e Sept moteurs AltaVista Ecila Excite HotBot Infoseek Lycos Voila e Un m tamoteur COPERNIC 99 e Un agent intelligent DIGOUT4U La s lection des annuaires et des moteurs s est faite sur la base de leur notori t COPERNIC 99 et DiGOUT4U pour leur part ont t choisis parce qu une version gratuite tait disponible en t l chargement Dans le cas des outils internationaux nous avons utilis la version de langue fran aise lorsqu elle tait disponible que ce soit sous la forme d une base de donn es compl tement distincte YAHOO FRANCE ou uniquement d une interface adapt e VOILA INFOSEEK FRANCE LYCOS FRANCE Des fiches signal tiques d taill es sont disponibles en annexe pour chacun de ces outils Les 11 premiers correspondant globalement aux caract ristiques de leurs classes respectives telles que nous les avons esquiss e
58. ation Proceedings of the Fifth International ISKO Conference Lille France 25 29 August 1998 W rzburg Ergon Verlag 1998 106 115 Le Guern M Un analyseur morpho syntaxique pour l indexation automatique Le Fran ais Moderne 1991 59 1 22 35 Leontyeva N N Stages of information analysis of natural language texts International Forum on Information and Documentation 1987 12 8 14 Liddy E D An alternative representation for documents and queries In Martha E Williams d Proceedings of the 14th National Online Meeting 1993 Learned Information Inc New York 4 6 May 1993 Medford New Jersey Learned Information Inc 1993 279 284 Liddy E D Enhanced text retrieval using natural language processing ASIS Bulletin 1998 24 4 Disponible sur le Web http www asis org Bulletin Apr 9S8 liddy html Mauldin M Carbonell J et R Thomason Beyond the keyword barrier knowledge based information retrieval Information Services amp Use 1987 7 4 5 103 117 Narasimhamurthi N Intelligent information retrieval an introduction Information Studies 1996 2 2 75 84 Notess G R Rising relevance in search engines Online 1999 23 3 84 86 Notess G R Search engines in the Internet age Online 1999 23 3 20 22 O Donnell R et A F Smeaton A linguistic approach to information retrieval In Ruben Leon d Proceedings of the 16th Resear
59. cas de recherche infructueuse Les moteurs INFOSEEK FRANCE et EXCITE FRANCE pour leur part affichent les cat gories et les descriptions de sites de l annuaire NOMADE Quelques moteurs en langue anglaise Nom URL ALTAVISTA http www altavista com I n est habituellement pas possible de retirer ou de modifier manuellement les r f rences ainsi incluses p remptoirement dans la base de donn es d un moteur Toutefois on peut emp cher l aspiration d une page gr ce l emploi de la balise HTML lt ROBOTS gt ou l insertion d un fichier sp cial robots txt Du moins en th orie car les moteurs de recherche ne prennent pas toujours en compte la pr sence de ces l ments 43 Cynthia Delisle dea 1999 enssib THE ELECTRIC MONK EXCITE EXCITE version fran aise HOTBOT INFOSEEK Lycos LYCOS version fran aise NORTHERN LIGHT WEBCRAWLER Quelques moteurs en langue frangaise Nom ECILA LOKACE VOILA VOILA version mondiale 4 Les m tamoteurs Le troisi me grand groupe d outils de recherche est celui des m tamoteurs Ce sont des instruments qui visent faciliter la transmission d une m me requ te vers diff rents moteurs et annuaires Les m tamoteurs se subdivisent en deux cat gories La premi re rassemble les Configurable Unified Search Interfaces CUSI que l on appelle galement de mani re plus prosa que les biblioth ques de moteurs ou les All
60. ch Colloquium of the British Computer Society Information Retrieval Specialist Group Drymen Scotland 22 23 March 1994 Londres Taylor Graham 1996 68 80 O Kane K C World Wide Web based information storage and retrieval Online amp CDROM Review 1996 20 1 11 19 97 Cynthia Delisle dea 1999 enssib Polity Y valuation des modes de recherche en langage naturel Documentaliste 31 3 136 142 Poulter A The design of World Wide Web search engines a critical review Program 1997 31 2 131 145 Pritchard Schoch T Comparing natural language retrieval Win amp Freestyle Online 1995 19 4 83 87 Pritchard Schoch T Natural language comes of age Online 1993 17 3 33 43 Repman J et R D Carlson Surviving the storm using metasearch engines effectively Computers in Libraries 1999 19 50 55 Sabah G Knowledge representation and natural language understanding AJ Communications 1993 6 3 4 155 186 Salton G et M J McGill Introduction to Modern Information Retrieval New York McGraw Hill 1983 400 pages Shukla K K Some AI techniques for information retrieval DESIDOC Bulletin of Information Technology 1996 16 4 13 18 Smeaton A F Natural language processing and information retrieval special issue Information Processing amp Management 1990 26 1 19 186 Smeaton A F Prospects for intelligent language
61. connaissances qui regroupent les termes des langues cibles ainsi que la s mantique qui s y rapporte DIGOUT4U exploite ainsi une base de connaissances g n raliste The Genus qui regroupe environ 35 000 termes fran ais 17000 termes anglais et 70 000 r gles formes fl chies rattachement des termes aux id es d sambiguisation id es associ es hyperonymie s mantique etc Il est possible d y incorporer des bases de connaissances sp cialis es suppl mentaires relatives par exemple un m tier ou un domaine d activit En outre lorsqu un l ment n est pas compris par le syst me l utilisateur peut illico en pr ciser simplement et rapidement la d finition Cet ajout sera ensuite conserv Une recherche avec DIGOUTAU se d roule ainsi e D usager formule une requ te en langue naturelle la saisie d une simple suite de mots cl s est d conseill e e Le logiciel identifie les concepts de la requ te et envoie ses agents interroger les outils de recherche du Web e Les premi res pages de r sultats rapatri es sont lues par DIGOUT4U qui les classe et leur attribue une note de pertinence en comparant la requ te au contenu s mantique de la page e Les agents poursuivent leur investigation en profondeur en suivant les liens hypertextuels contenus dans les documents ayant obtenu un score de pertinence lev Quand la recherche est termin e et apr s des fonctions d dition classiques on p
62. croissance exponentielle de la taille du Web et la couverture limit e que les outils de recherche en effectuent font du rappel une mesure difficile exploiter telle quelle car il s av re impossible dans les faits de d terminer combien de r ponses potentiellement pertinentes existent pour une requ te D autre part l valuation de pr cision doit aussi tre adapt e puisque les SRI sur Internet retournent habituellement une tr s grande quantit de r sultats qui ne peut faire l objet d une valuation de pertinence dans sa totalit 29 Cynthia Delisle dea 1999 enssib Seconde partie les SRI sur Internet Cette section s inspire de notre note de synth se Les Outils de recherche sur Internet typologie et principales caract ristiques que l on pourra consulter pour plus de d tails 30 Cynthia Delisle dea 1999 enssib 1 Les obstacles au rep rage de l information sur Internet Avant de pr senter plus en d tail les diff rents types de SRI sur Internet il peut tre utile de rappeler succinctement le contexte g n ral dans lequel volue la recherche d information sur le Web La liste qui suit r sume les principales difficult s qu elle doit g rer plusieurs sont de port e plus globale et s appliquent tous les syst mes d information 1 1 Le manque d habilet et de formation la recherche des usagers Une tude de 1986 portant sur le comportement d us
63. de l espace appara tre en version compl te dans le premier paragraphe afin d tablir clairement la r f rence puis revenir par la suite sous des formes plus courtes l entit ayant d j t introduite Outre les synonymes le chercheur doit donc penser aux diverses variantes orthographiques possibles quand vient le moment d imaginer les diff rentes mani res dont un concept peut tre exprim l emploi de la troncature peut ventuellement lui faciliter un peu la t che Le probl me des fautes pour sa part est aggrav par l incorporation de plus en plus fr quente dans les bases de donn es de textes num ris s l aide de techniques de reconnaissance optique de caract res ROC Selon certaines tudes en effet ces textes sans une relecture attentive des preuves peuvent facilement comporter jusqu 30 erreurs par page Feldman 1999 1 4 4 Les pertes d information lors du traitement Comme nous le verrons dans la troisi me partie de ce travail des ph nom nes comme l ordre des mots la distinction minuscules majuscules ou la pr sence de signes diacritiques et de caract res sp ciaux ne sont pas toujours g r s de mani re coh rente et efficace par les outils de recherche Des subtilit s comme les distinctions entre AIDS et aids SIDA et assistants school library et library school biblioth que scolaire et cole de biblioth conomie tache et t che leur chappent donc souvent de m me
64. de la Bourse r sultats sportifs horoscope 53 Cynthia Delisle dea 1999 enssib automatiquement les documents rep r s comme chez ALTAVISTA ou INFOSEEK etc e Il faut rappeler que les outils de recherche m me pris dans leur ensemble ne peuvent rendre compte de tout ce qui se trouve sur Internet Comme nous l avons mentionn plusieurs facteurs expliquent cette situation immensit et m tamorphoses du R seau sites non trouv s ou non explor s en profondeur difficult s d acc s pr sence de firewalls sites interdits aux robots et de traitement censure etc Une ressource non recens e demeurant quasi impossible d couvrir moins de suivre un lien ou d en conna tre I URL d avance les outils de recherche en d pit de leurs lacunes actuelles restent toutefois la meilleure fa on d exploiter l information disponible sur Internet Les conseils suivants sont susceptibles d en optimiser l emploi e R sumer au pr alable son besoin d information sous forme d une phrase puis identifier les principaux concepts ayant trait la requ te en d terminant les termes les plus significatifs plusieurs de pr f rence Les mots cl s retenus doivent dans la mesure du possible s av rer discriminants c est dire tre rares ou inhabituels Les mots trop communs sont viter absolument de m me naturellement que les fautes d orthographe et de frappe Il faut galement songe
65. de locutions Oui Requ te l int rieur d un premier groupe Non de r sultats Classement des r sultats Pertinence pr sum e Affichage par d faut Indice de pertinence Titre Lien pour effectuer une recherche sur des documents similaires URL R sum du contenu Possibilit de modifier l affichage par d faut Oui recherche avanc e Choix de la quantit de r sultats afficher Oui recherche avanc e Regroupement des r sultats par site clustering Oui option Affichage d un taux de pertinence Oui valuation de la pertinence Peu d informations sont disponibles ce niveau L on sait du moins qu EXCITE tient notamment compte du nombre de liens qui pointent vers une page Particularit s Syst me ICE Intelligent Concept Extraction gr ce cette technologie EXCITE pr tend pouvoir effectuer une recherche par concept c est dire d terminer les relations entre mots et concepts pour effectuer ensuite une recherche d quivalences La fonction Sites similaires c t de chaque URL permet d utiliser le document concern comme point de d part d une recherche pour des documents semblables Un r sum est tabli automatiquement pour chaque URL partir des phrases dominantes de la page d accueil XI Annexe G HotBot URL http www hotbot com Cat gorie
66. de sites Oui Modes de recherche Navigation th matique Recherche par mots cl s Prise en compte des m ta donn es Oui Traitement de la casse Indiff renci Traitement des caract res sp ciaux et Indiff renci diacritiques Mode de recherche par d faut OU Fonctions bool ennes Non Emploi de Non Recherche de locutions Non Requ te l int rieur d un premier groupe de r sultats Non toutefois une navigation g ographique est disponible parmi les r sultats d une requ te Classement des r sultats Pertinence pr sum e Affichage par d faut Titre Pays et ville si connus Nom du responsable Date d inscription URL Premi res lignes du texte Possibilit de modifier l affichage par d faut Non Choix de la quantit de r sultats afficher Non Affichage d un taux de pertinence Non valuation de la pertinence Chaque mot re oit un poids en fonction de sa position le titre le descriptif et certains l ments du contenu du site balises META liens hypertextuels caract res gras sont favoris s On tient galement compte de la distance entre les mots Particularit s Lors de l enregistrement d un site une liste de mots cl s est fournie par le responsable ou constitu e par les soins de l quipe ditoriale Le mode de classement de CTROUVE COM est bas sur ces listes la page d accuei
67. des recherches sur des parties de mots Notons qu elle est moins flexible dans le contexte de la recherche d information sur le Web qu en ce qui a trait aux logiciels documentaires traditionnels impossibilit de l appliquer en d but de mot n cessit fr quente de saisir un nombre minimum de caract res etc Elle est toutefois int ressante en ce qu elle permet de faire des recherches sur des mots de m me famille et sur les variations de genre et de nombre Exemples biblio rep rera biblioth que biblioth ques biblioth caire bibliophile etc La troncature peut aussi s utiliser l int rieur d un mot pour remplacer un ou plusieurs caract re s coll sion rep rera collision et collusion La recherche de locutions wow Elle fonctionne habituellement l aide des guillemets et permet la recherche exacte d une s quence ordonn e de mots adjacents Exemple commerce lectronique rep rera toutes les entr es o ces deux mots figurent l un c t de l autre et dans cet ordre 5 Il existe toutefois quelques exceptions entre autres l outil de recherche HOTBOT Pour l ensemble de ce travail nous emploierons le terme locution pour d signer les groupes de mots qui fonctionnent comme un mot simple et dont le sens global diff re souvent sensiblement du sens initial des composantes par exemple pot de vin On pourrait galement parler de syntagmes de synapsies de mots compos s
68. dial ALTAVISTA beau dommage 15 960 beau AND dommage recherche avanc e 3 295 23 08 1999 any language EXCITE beau dommage 194 beau dommage segment 194 27 07 1999 en fran ais sur le Web mondial LYCOS beau dommage 442 beau dommage recherche avanc e la phrase exacte 182 beau dommage recherche avanc e tous les mots adjacents 183 04 08 1999 sur le Web mondial Dans le cas de l opposition AND peut tre faut il voir dans ces chiffres un reflet du fait que l emploi d op rateurs bool ens d sactive chez certains outils ainsi que nous l avons pr cis plus haut l algorithme de pertinence qui permet l affichage d un tr s grand nombre de r ponses avec les meilleures en t te de liste 63 Cynthia Delisle dea 1999 enssib 2 D un autre c t l inverse des modes de recherche de prime abord bien distincts ont aussi produit la fois des sommes identiques et des sommes diff renci es les modes de recherche par d faut et par locution entre autres ont souvent tendance se confondre EXCITE beau dommage 41 717 beau dommage 194 beau dommage segment 194 beau dommage le s mot s 1 935 27 07 1999 en fran ais sur le Web mondial VOILA beau dommage 62 121 beau dommage recherche avanc e la phrase 382 beau dommage recherche avanc e les mots 1 152 28 07 1999 sur le Web mondial NOMADE beau d
69. e Possibilit de modifier l affichage par d faut Oui Choix de la quantit de r sultats afficher Oui Regroupement des r sultats par site Oui clustering Affichage d un taux de pertinence Non valuation de la pertinence Un poids est assign chacun des mots d une page Web Cette pond ration tient compte de la fr quence des mots et de leur position dans la page titre balises META gros caract res gras italique etc Particularit s Les mots cl s de la requ te sont surlign s dans les r sultats Les r sultats de recherche combinent les pages index es par le robot et les r ponses qui proviennent des cha nes Un r sum est constitu automatiquement pour chaque entr e partir des balises META et ou du contenu textuel des pages Les sites comportant un tilde dans leur URL sont index s comme pages personnelles On entend par page personnelle tout site dit par une personne physique et qui pr sente cette personne et ses activit s Ce genre de site peut parfois renfermer n anmoins des informations d taill es sur un sujet d int r t g n ral art sport r gion touristique etc XIX Annexe K COPERNIC 99 URL http www copernic com fr pour t l chargement Cat gorie M tamoteur Versions localis es Oui 3 Version francophone Oui Outils interrog s Quelque 40 sources principaux moteurs et annuair
70. e r guli re permet d appr hender le contenu Lardy 1996 En l absence de toute gestion centralis e des ressources le Web confronte l usager une conjoncture paradoxale o l information se r v le la fois directement accessible et fort difficile atteindre Cette situation a engendr l apparition de sites que l on pourrait qualifier d aiguilleurs du Web les outils de recherche Le premier outil de recherche d velopp pour Internet fut ARCHIE Bas l Universit McGill Montr al il permettait des fouilles par mots cl s dans une base de donn es de noms de fichiers disponibles par FTP Depuis les outils de recherche ne cessent de se multiplier sur Internet Dans le contexte du Web ils se pr sentent comme des services de rep rage constitu s d une ou plusieurs base s de Pour File Transfer Protocol gt Dans la mesure o seule une petite minorit des ressources d Internet est inaccessible partir du Web le terme outil de recherche du Web est d sormais synonyme pour ainsi dire du terme outil de recherche d Internet 8 Cynthia Delisle dea 1999 enssib donn es d crivant essentiellement des ressources WWW d un logiciel de recherche et d une interface usager galement accessible via le Web Poulter 1997 Ces outils peuvent tre r partis en quelques cat gories de base ils varient n anmoins norm ment entre eux sur de nombreux points de d tail Il est souv
71. e tous les mots 88 29 07 1999 sur le Web 2 5 R sultats obtenus avec DIGOUTAU Toutes les requ tes soumises l agent intelligent DIGOUTAU ont t r alis es le 30 juillet 1999 Le logiciel a t configur de mani re fonctionner 20 minutes par requ te et ne rep rer que des documents en fran ais Suite chaque recherche les Cynthia Delisle dea 1999 enssib 83 r sultats ont t filtr s l aide de l option les 100 meilleures pages et export s avec r sum s Nous avons conserv les requ tes Beau Dommage CEVEIL et C te d Azur nous avons galement soumis les nonc s b uf aux hormones et maladie de la vache folle Nous pr sentons ci dessous les mots cl s fran ais et anglais sugg r s par le logiciel pour chaque requ te e Beau Dommage Mots cl s fran ais choisis par DIGOUTAU beau dommage Mots cl s anglais choisis par DIGOUTAU beautiful dommage e CEVEIL Mots cl s fran ais choisis par DIGOUTAU ceveil Mots cl s anglais choisis par DIGOUTAU ceveil e C te d Azur Mots cl s fran ais choisis par DIGOUT4U c te ciel Mots cl s anglais choisis par DIGOUT4U c te sky e bceuf aux hormones Mots cl s fran ais choisis par DIGOUT4U b uf hormone Mots cl s anglais choisis par DIGOUT4U ox hormone e maladie de la vache folle Mots cl s fran ais choisis par DIGOUT4U maladie vache folle Mots cl s ang
72. e Elle a permis de rep rer des documents comme ceux ci taux respectifs de 97 et 86 de pertinence Dossier sur la vache folle par G Latzko Toth http www mlink net glt prions htm Dossier sur la vache folle par G Latzko Toth Le point sur la maladie de la vache folle Officiellement cantonn e 1 esp ce bovine jusqu en 1996 1 pid mie d enc phalopathie spongiforme qui a frapp ensemble du cheptel anglais Seules de l g res variations d URL sont constat es ce qui incline penser que DIGOUT4U est tomb lors de cette requ te dans ce que nous avons appel pr c demment un pi ge a robot 87 Cynthia Delisle dea 1999 enssib pourrait bien avoir franchi la barri re des esp ces pour s en prendre 1 homme Aujourd hui la plupart des chercheurs du monde entier la suite d un groupe de chercheurs britanniques consid rent qu une vingtaine de cas de maladie de Creutzfeldt Jakob une maladie humaine jusqu ici rarissime sont tr s probablement li s 1 ingestion de viande contamin e De plus la recherche acc l r e sur cette maladie a vu triompher hypoth se nagu re tr s controvers e selon laquelle ces maladies sont caus es par un nouveau type d agents infectieux les prions qui ont valu leur inventeur Stanley Prusiner le prix Nobel de m decine 1997 un article de vulgarisation pour mieux comprendre de quoi il s a
73. e locutions Oui recherche avanc e Requ te l int rieur d un premier groupe de r sultats Non Classement des r sultats Pertinence pr sum e classement chronologique inverse disponible en option Affichage par d faut Symbole boussole ou loupe permettant d identifier l origine des r ponses robot ou cha nes Titre R sum gt VOILA offre une possibilit int ressante et novatrice celle de pratiquer des recherches th matiques sur pr s de 30 sujets diff rents gr ce une technologie algorithmique qui permet lors de la constitution de la base de donn es suite aux investigations du robot de classer automatiquement les pages recueillies l int rieur d une arborescence de th mes la base de donn es du moteur voque donc un peu la structure d un annuaire La restriction th matique d une recherche peut ainsi s effectuer en amont en optant pour un th me sp cifique dans le formulaire de recherche avanc e ou en aval suite une requ te le moteur propose l usager un liste de th mes susceptibles de correspondre la th matique de recherche ce qui permet de filtrer les r ponses obtenues dans un premier temps Cette pratique limite le probl me des false drops que nous avons voqu plus haut XVIII Date de derni re modification du document Taille du fichier en KO URL Lien pour atteindre d autres pages sur le m me sit
74. e that combine useful features from several information retrieval technologies Feldman 1999 Les approches bool ennes statistiques et de T L N doivent donc tre vues comme tant compl mentaires plut t que concurrentes ou mutuellement exclusives titre d exemple dans le domaine l gal un cas exemplaire au niveau de la pertinence n a que peu de valeur en admettant m me qu il en ait aucune si un statut ult rieur a t promulgu ou si une instance sup rieure a renvers par la suite le jugement concern Dans cette conjoncture la pr cision bool enne s av re pr f rable au tri de pertinence statistique Les syst mes bool ens outre leur efficacit pour rep rer un objet connu d avance performent habituellement bien lors de recherches par champ ou bibliographiques Les syst mes statistiques et de T L N offrent de meilleures performances pour les recherches plus g n rales celles en texte int gral ou celles men es par des usagers inexp riment s L avenir est sans aucun doute la combinaison d l ments en provenance de ces diverses m thodes De plus en plus de SRI amalgament ainsi le meilleur de deux ou trois mondes des syst mes bool ens offrent un classement de pertinence des syst mes statistiques recourent des techniques de T L N comme la lemmatisation 28 Cynthia Delisle dea 1999 enssib automatique ou l identification des noms propres De m me sans le tri de
75. elle de pratiquer des interrogations r currentes c est dire d effectuer une nouvelle recherche l int rieur des r sultats d une requ te pr c dente e La rapidit de fonctionnement e La facilit globale d utilisation et la convivialit e La pr sence de proc dures d aide claires et d taill es En effet cet aspect ne doit pas tre n glig comme le souligne J N Plourde La documentation pour les services de rep rage aide les utilisateurs a atteindre deux objectifs Le premier est d valuer la pertinence de la base c est dire sa nature objets r pertori s ses objectifs son autorit etc Le second est la maitrise et l utilisation efficace des services de rep rage et la v rification du comportement de ces services obtient on les r sultats escompt s Plourde 1996 e Loriginalit de l outil e Les services compl mentaires par exemple les diff rentes ressources inh rentes aux sites de type portail la possibilit de traduire Les portails sont des sites qui tentent de se positionner comme point d entr e de l internaute sur le Web La plupart des outils de recherche sur Internet voluent actuellement vers ce type de services En addition la fonction de recherche d information proprement dite et parfois au d triment de la qualit de celle ci ils proposent d sormais tout un ventail de services suppl menaires actualit s d p ches d agence m t o cours
76. en page jusqu au dernier lien existant Each robot will produce a different view of resources on the WWW according to its page retrieval strategy Poulter 1997 Mentionnons que contrairement aux annuaires les moteurs qui se d clinent en plusieurs versions linguistiques ne proposent en g n ral que des versions localis es d une m me base de donn es EXCITE FRANCE LYCOS FRANCE Beaucoup des 41 Cynthia Delisle dea 1999 enssib grands moteurs internationaux ne se donnent d ailleurs pas cette peine et se contentent de doter leur interface anglophone d une option de recherche de restriction linguistique ALTAVISTA HOTBOT NORTHERN LIGHT Un des avantages de la d marche de type moteur r side dans le fait que l utilisateur n a pas conna tre la cat gorie et la structure hi rarchique dans laquelle pourrait se trouver l information recherch e puisque cette derni re n est pas compartiment e de la sorte et que la recherche s op re principalement par concordance avec un mod le pattern matching Par ailleurs comme l absence d intervention humaine quivaut souvent une absence de d ontologie les moteurs sont en principe plus performants que les annuaires pour rep rer des documents contenu sensible violence pornographie ou carr ment sujets controverse sites haineux terroristes p dophiles etc une caract ristique que l on peut ou non applaudir mais qui est conforme l es
77. enci indiff renci pris en compte NOMADE indiff renci diff renci YAHOO indiff renci diff renci ignor s ALTAVISTA diff renci diff renci ignor s ECILA pris en compte EXCITE indiff renci diff renci ignor s HOTBOT diff renci diff renci ignor s INFOSEEK indiff renci diff renci ignor s Lycos indiff renci diff renci pris en compte VOILA indiff renci indiff renci pris en compte COPERNIC diff renci diff renci pris en compte Tableau 1 Traitement de la casse des caract res diacritiques et des caract res sp ciaux 75 Cynthia Delisle dea 1999 enssib On constate au vu de ces r sultats que les outils de notre chantillon sont majoritairement insensibles la casse mais sensibles aux caract res diacritiques En ce qui concerne le traitement appliqu aux caract res sp ciaux ils se r partissent parts gales entre la prise en compte et la non prise en compte Accessoirement les donn es obtenues ont mis en vidence un inconv nient potentiel du mode de recherche par locution souvent le pr f r des sp cialistes Le rep rage exact cens le caract riser ne peut pas tre int gralement mis en uvre chez les outils qui op rent au d part un traitement indiff renci de la casse ou des caract res diacritiques comme le montrent les r sultats suivants Lycos c te d azur 1 402 C te d Azur
78. ensent des pages individuelles et non des sites en tant qu entit s e Aucune structuration classification ou hi rarchisation de l information n est effectu e e Leur fonctionnement ne comporte aucune intervention humaine e Il n est pas absolument n cessaire d inscrire les pages d un site aupr s des divers moteurs on peut tout simplement choisir d attendre que les robots d busquent le site concern au d tour d un lien le visitent et en indexent les diff rentes pages Cette m thode demeure n anmoins al atoire et requiert habituellement l coulement d un certain laps de temps Il est donc nettement pr f rable d opter pour la soumission manuelle des URL que l on d sire faire conna tre Pratiquement tous les moteurs offrent en effet une fonction de type Add a site ou Add URL qui sert signaler au robot l adresse de pages visiter Enfin si les annuaires et les moteurs sont des outils bien distincts il convient de signaler que de plus en plus de sites de recherche combinent l acc s aux deux genres d instruments selon des formules qui privil gient l un ou l autre type moteur agr ment d un annuaire par exemple VOILA ou annuaire compl t d un moteur de recherche externe par exemple FRANCITE Une autre tactique consiste conclure des accords de partenariat avec des soci t s concurrentes l annuaire YAHOO par exemple dirige l internaute sur le moteur INKTOMI en
79. enssib cole nationale sup rieure des sciences de l information et des biblioth ques M MOIRE DE DEA Sciences de l Information et de la Communication option Syst mes d information documentaire LE FILTRAGE D INFORMATION SUR INTERNET CONVERGENCES ET DI VERGENCES ENTRE OUTILS DE RECHERCHE Cynthia DELI SLE Sous la direction de Omar LAROUK Universit de Bourgogne IUT de Dijon Septembre 1999 Universit Lumi re Ecole Nationale Sup rieure Universit Jean Moulin Lyon 2 des Sciences de l Information Lyon 3 et des Biblioth ques LE FILTRAGE D INFORMATION SUR INTERNET CONVERGENCES ET DIVERGENCES ENTRE OUTILS DE RECHERCHE R sum Le rep rage de l information sur Internet est actuellement une t che ardue dont le succ s ou l insucc s est tributaire en bonne partie de l efficacit des outils de recherche Nous pr sentons les caract ristiques des diverses cat gories d outils de m me que les r sultats de quelques tests effectu s en ligne Ces derniers permettent de mieux appr hender les nuances de traitement entre outils et leurs implications pour le processus de recherche d information Descripteurs syst me d information rep rage de l information filtrage de l information Internet Word Wide Web outil de recherche annuaire moteur m tamoteur agent intelligent Abstract Information retrieval on the Net remains a difficult task Whether it succeeds or not depends
80. ent ardu d en d terminer le fonctionnement exact puisque leurs concepteurs qu ils soient du milieu acad mique ou industriel s av rent d ordinaire fort peu diserts sur le sujet soucieux de prot ger des proc d s de nature propri taire Pourtant cette connaissance approfondie des divers syst mes de rep rage de l information SRI sur Internet et de leur comportement r el face une requ te est absolument indispensable si l on d sire viter les biais que les apparences et les id es pr con ues introduisent trop fr quemment souvent l insu m me de l internaute dans les r sultats d une recherche Elle permet galement de faciliter autant que faire se peut un processus qui demeure intrins quement hasardeux comme le fait remarquer S Feldman Searching is a language game Find just the right combination of words and you have the key to the black box of answers that we call a database Guess wrong and the box remains mum or worse it spews back non sense Feldman 1999 C est dans cette optique que s inscrit notre m moire Nous nous proposons dans un premier temps de passer en revue les notions g n rales relatives au processus de rep rage de l information puis en second lieu d introduire les caract ristiques plus sp cifiques de la recherche d information sur Internet notamment en r sumant la typologie des outils actuellement disponibles d di s cette fin Suite cette mise en
81. es Le prototype en fut la WORLD WIDE WEB VIRTUAL LIBRARY localis e au CERN Les annuaires sont des regroupements par sujet des ressources d Internet Ils consistent en des classements arborescents o l acc s au th me souhait s effectue en parcourant une s rie de rubriques et de sous rubriques Comme on peut le lire dans l aide en ligne de l annuaire YAHOO l analogie avec un arbre s impose clairement chaque cat gorie du guide ou branche de l arbre abrite plusieurs sous cat gories d autres branches qui elles m mes vous donnent le choix entre plusieurs chemins possibles au fur et mesure de votre balade etc En fait les annuaires dont les ramifications successives conduisent des sujets de plus en plus pointus pratiquent ce que l on pourrait appeler le principe de l entonnoir D ordinaire ils incorporent galement un moteur de recherche par mot cl ce qui permet d effectuer directement une requ te sur le sujet souhait Ces listes th matiques de sites constituent en quelque sorte l quivalent cybern tique et moins labor du plan de classification que l on applique traditionnellement dans les biblioth ques et centres de documentation Elles pr sentent galement des similitudes avec les bibliographies th matiques info guides et autres listes imprim es de ressources que les biblioth caires mettent la disposition de leur client le et avec ces pages Web personnelles qui prop
82. es francophones et anglophones groupes de discussion r pertoires d adresses de courriel et sites de vente en ligne de livres Traitement de la casse Indiff renci Traitement des caract res sp ciaux et Diff renci diacritiques Mode de recherche par d faut ET Options de restriction de recherche Le Web vs Le Web francophone vs Groupes de discussion vs Adresses email vs Achat de livres Fonctions bool ennes ET OU formulaire ET OU SAUF crits en toutes lettres sont disponibles pour la fonction raffiner soit lorsqu on effectue une recherche plus approfondie dans les documents t l charg s Emploi de Non Recherche de locutions Oui ou formulaire Les moteurs de recherche ne supportant pas les guillemets ne sont pas utilis s si ces signes apparaissent dans la requ te Requ te l int rieur d un premier groupe de r sultats Oui Classement des r sultats Pertinence pr sum e tri par titre date de la recherche ou URL en option Possibilit de tri ascendant ou descendant Affichage par d faut Titre Indice de pertinence Sommaire Outil s ayant rep r le document URL Possibilit de modifier l affichage par d faut Oui Choix de la quantit de r sultats afficher Oui Regroupement des r sultats par site Non clustering Affichage d un taux de pertinence Oui Particularit s Le
83. es op rateurs dits bool ens L op rateur ET Il permet de rendre la pr sence de mots obligatoire Il est galement symbolis par son quivalent anglais AND ou par l espace lorsqu il est pris par d faut Exemple commerce ET lectronique rep rera toutes les entr es o ces deux mots figurent L op rateur OU Il permet de rendre la pr sence de mots optionnelle Il est galement symbolis par son quivalent anglais OR ou par l espace lorsqu il est pris par d faut Exemple commerce OU lectronique rep rera toutes les entr es qui comprennent au minimum un de ces deux mots L op rateur SAUF Il permet d exclure la pr sence de mots Il est galement symbolis par ses quivalents anglais NOT BUT NOT ou AND NOT Exemple commerce SAUF lectronique rep rera toutes les entr es o figure le mot commerce mais sans qu y apparaisse le terme lectronique 13 Cynthia Delisle dea 1999 enssib Les parenth ses Elles permettent de limiter la port e des op rateurs bool ens et ou d introduire un ordre de priorit entre les diff rentes parties d une requ te Exemple commerce OU paiement ET lectronique rep rera les entr es qui contiennent la fois lectronique et soit commerce soit paiement soit ces deux termes La troncature Elle consiste recourir l emploi de masques jokers ou wild cards G n ralement symbolis e par ou ou la troncature permet d effectuer
84. eut exporter comme r sultat final une liste de r f rences class es par pertinence et incluant ou non des r sum s Soulignons pour clore cette br ve pr sentation que le logiciel dispose d une fonction particuli rement int ressante qui permet pour chaque document rep r de demander l affichage d une fen tre sp ciale contenant d une part une courbe de pertinence repr sentant la distribution de l information pertinente au fil du texte 58 Cynthia Delisle dea 1999 enssib et d autre part les extraits phrases pertinents du document s lectionn s par rapport la requ te initiale Comme on le voit dans la figure ci apr s l usager est libre de configurer le niveau de restitution de l information Quand le curseur est en haut l extrait est tr s court et concerne le ou les pic s de pertinence Plus le curseur est abaiss et plus les extraits sont longs et nombreux Erhart poments A KRATES E exp de 1 ano dre g nies cle ph e ph kaa et that curl cnie en et ke drepandi oe pieces char banke our eut Pee se rare ce concep de la page charac ibia Ade eres ech den ed eects i rore que eo her deo ache a node ee chee Bone Cor lagares chere put dee eain ec pee eet ele crea les el porera pa da AL siau HELU PAD rehotmels garbi s Test a i Imeria ga LT 0 amaaa du poieni hega ra ra por ir s kinika rds od acids ree conus du neve chui geuga
85. fois quelques minutes d intervalle Pour chacun des tests pr sent s les r sultats int graux sont fournis la suite de nos commentaires d introduction et d analyse Les requ tes effectu es avec DIGOUT4U font l objet d une section ult rieure 2 1 Les modes de formulation d une requ te l exception de l annuaire CTROUVE COM tous les outils de notre chantillon proposent l internaute des alternatives au mode de recherche par d faut qui relie les mots de la requ te par ET ou OU selon les cas Certains SRI permettent ainsi l emploi d op rateurs et de modificateurs directement sur la ligne de commande d autres pr sentent les options disponibles sous forme de menus d roulants de cases cocher de boutons radio etc d autres enfin soit la plupart choisissent de m ler ces deux approches Deux possibilit s se r v lent particuli rement r pandues la recherche de locutions et l emploi des op rateurs bool ens Disponible dans tous les outils via l utilisation de guillemets ou de tirets ou encore le choix d options comme le segment la phrase exacte ou rechercher avec l expression la recherche de locutions ainsi que nous l avons expliqu dans la premi re partie de ce travail permet la recherche exacte d une s rie ordonn e de mots adjacents Les r sultats de recherche sont ainsi pur s des documents o les mots de la requ te apparaissent uniquement s par
86. ge la sant ob sit protection face au soleil et la maladie cancer SIDA maladie d Alzheimer etc 3 Conclusion de la troisi me partie La m thodologie que nous avons appliqu e pour examiner les SRI sur Internet demeure une bauche et gagnerait tre retravaill e sur certains aspects Il y aurait ainsi lieu d accro tre la taille de l chantillon d outils de viser une repr sentation plus quitable des diff rentes cat gories d instruments et de sortir des sentiers battus pour valuer des syst mes moins connus Il conviendrait aussi de multiplier les points de comparaison et surtout d augmenter consid rablement le nombre des requ tes soumises pour chacun d eux Enfin il serait sans doute int ressant de mener ce type d analyse sur une base longitudinale afin de suivre l volution dans le temps du comportement des outils 88 Cynthia Delisle dea 1999 enssib Les donn es obtenues doivent donc tre abord es avec une certaine circonspection Elles ont n anmoins le m rite de d montrer que le fonctionnement des outils de recherche contribue sensiblement rendre le processus de rep rage de l information sur Internet encore plus complexe et al atoire Un des probl mes les plus fr quemment voqu s pour expliquer le relatif constat d chec de la recherche d information sur le Web outre le gigantisme des bassins de ressources recenser et les vicissitudes d
87. git Prions les microbes du 3e type arrivent L Encephalopathie Spongiforme Bovine http www who ch inf am am113 html C est en novembre 1986 lorsqu une forme jusque l inconnue de maladie neurologique est apparue chez des bovins au Royaume Uni que 1 attention de la communaut scientifique a t attir e pour la premi re fois sur 1 enc phalopathie spongiforme bovine ESB Entre novembre 1986 et le 31 mai 1996 environ 160 000 cas de cette maladie des bovins nouvellement identifi e ont t confirm s au Royaume Uni Diff rentes hypoth ses ont t avanc es pour expliquer 1 apparition de cette maladie dans la cha ne alimentaire du b tail parmi lesquelles sa pr sence spontan e chez des bovins dont les carcasses ont ensuite t introduites dans la cha ne alimentaire du b tail ou encore son entr e dans cette cha ne partir de carcasses de moutons atteints d une maladie similaire La maladie est mortelle pour les bovins en quelques ou quelques semaines mois Dans un groupe de pays constitu par la France 1 Irlande le Portugal et la Suisse la maladie est apparue dans des troupeaux indig nes et le ph nom ne a t attribu en partie 1 importation d aliments pour b tail en provenance du Royaume Uni Toutefois la seconde moiti de la liste des r sultats s loigne r solument du th me de la vache folle pour proposer des documents reli s de mani re plus lar
88. gorithme bas sur certains crit res de tri qui lui est sp cifique Le moteur de recherche effectue donc ses recherches sur des pages Web alors que l annuaire pour sa part vous proposera des sites Web L est toute la diff rence qui explique qu il est absolument impossible de comparer les r sultats fournis par les deux types d outils http www abondance com Le fonctionnement des moteurs s appuie sur la collecte de donn es par des robots lesquelles sont ensuite index es directement l aide des mots qui les constituent De gigantesques bases de donn es autrement plus imposantes que celles des annuaires sont ainsi labor es elles op rent grosso modo sur le mode des fichiers invers s en tablissant des correspondances entre des mots et des URL Les utilisateurs sondent la base l aide d un module d interrogation qui recourt un 40 Cynthia Delisle dea 1999 enssib langage de requ te plus ou moins standard des interfaces conviviales sont g n ralement mises en place afin de faciliter l interaction L activit des moteurs de recherche contrairement celle des annuaires est enti rement automatis e Les robots qui connaissent diverses autres appellations vocatrices notamment spider araign e ant fourmi worm ver de terre ou se faufiler wanderer vagabond crawler nageur etc sont tout simplement des programmes informatiques qui tournent sur un o
89. greatly on the search engines effectiveness We review the categories and main features of WWW search engines and present the results of some online tests These results allow us to conceive of the subtle differences that exist between search engines regarding information processing The resulting implications in the information retrieval process are also discussed Keywords information system information retrieval information filtering Internet World Wide Web WWW search engine subject directory search engine keyword search engine meta search engine agent Cynthia Delisle dea 1999 enssib Remerciements Ma gratitude va monsieur Omar Larouk mon directeur de recherche ainsi qu tous mes proches et amis du Qu bec pour leur affectueuse sollicitude et leur soutien moral virtuels Un merci tout sp cial a R qui se reconnaitra Cynthia Delisle dea 1999 enssib TABLE DES MATI RES INTRODUCTION sssssssnssnnnnnsnnnnnunsannsnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn 7 PREMI RE PARTIE LE REP RAGE DE L INFORMATION 11 1 Les principaux types de syst mes de rep rage de l information SRI 12 1 1 Les syst mes bool ens ou traditionnels ccccccce cece cesses ee eeenaeeeeeees 12 1 2 Les syst mes statistiques OU probabilistes 15 1 3 Les syst mes de traitement du la
90. it s entre eux par des signes de ponctuation des espaces typographiques ou d autres caract res tels amp _ Ils apparient requ tes et documents via le principe de concordance de mod le pattern matching et plus particuli rement la recherche de concordances exactes exact matches Lorsque la requ te de l usager est confront e au contenu de la base de donn es les entr es qui apparaissent sur la liste de r sultats sont celles qui contiennent la ou les chaine s recherch e s soit dans le texte m me du document soit dans d autres champs de l enregistrement par exemple les balises META d un fichier HTML ou encore s il y a lieu les rubriques de classification Les r sultats ne font l objet d aucun tri 4 Les balises META comme leur nom le sugg re sont des informations sur l information elles fournissent aux outils de recherche des renseignements sp cifiques par exemple un r sum ou une suite de mots cl s relatifs au contenu d une page Web Ces codes appartiennent au langage HTML et ne sont pas visibles pour l utilisateur Ils s inspirent du travail effectu pour les documents en sciences humaines dans le cadre de la TEI Text Encoding Initiative qui visait sp cifier des descripteurs de contenu l usage des auteurs et des diteurs pour diff rents types de documents 12 Cynthia Delisle dea 1999 enssib Les principaux op rateurs utilis s sont les suivants gt L
91. ituation d coule du fait qu INFOSEEK affiche pour tout le Web des URL qui r pondent la requ te sans gard leur terminaison de nom de domaine com edu net fr ca etc alors que les r sultats sont limit s aux URL en fr pour la France et ceux en ca pour le Canada Une situation similaire se pr sente pour le moteur EXCITE qui propose l internaute le choix entre le Web mondial et le Web fran ais dans sa page d accueil Puisqu elle limite la recherche aux sites en fr expression Web fran ais signifie ici Web de France et non Web de la Francophonie ce qui n est pas vident de prime abord a tout le moins pour les francophones hors de Hexagone On voit ici quel silence important peut d couler d une simple restriction g ographique appliqu e en toute bonne conscience par un internaute non averti A noter aussi que l on constate pour ce test des incoh rences entre nos r sultats et les affirmations officielles des concepteurs des divers outils ainsi l opposition Web mondial Web francais existe galement chez LYCOS ot l option Web fran ais est cens e limiter la recherche aux URL en fr be et ch Ceci n a pas emp ch cet outil de rep rer P URL du CEVEIL avec une recherche sur le Web francais ce qui n a pas t le cas pour EXCITE Lors de l examen des r sultats pour la requ te ceveil nous avons pris soin de distinguer les SRI qui identifiaient le site lui m me o
92. iv e du World Wide Web en 1993 La simplicit d utilisation et le caract re attractif de ce dernier ont favoris en effet une augmentation radicale du nombre des internautes de m me qu une diversification de ceux ci les scientifiques et universitaires des origines ont t rejoints puis massivement d pass s par les entreprises et le grand public s duits par le potentiel commercial et les pages bariol es du nouveau m dium Le R seau d ploie maintenant ses ramifications aux quatre coins du monde On assiste l explosion de nouveaux march s qui menacent de concurrencer s rieusement les Nord Am ricains utilisateurs de la premi re heure l Europe notamment l Europe de l Est l Asie l Am rique du Sud La quantit de documents et de services disponibles augmente de mani re incontr l e et la mondialisation entra nant in vitablement une diversification des langues des sujets et des types de ressources on peut affirmer sans risque d exag ration que tout un chacun ou presque est d sormais susceptible de trouver son bonheur sur Internet Le R seau en effet constitue la fois un mode de communication attrayant par exemple en ce qui a trait au courriel au bavardage en direct ou aux transactions financi res s curis es et une exceptionnelle mine de renseignements accessibles simultan ment plusieurs usagers en tout temps et pour un co t relativement minime Il a notamment h rit de ses
93. l regroupe alphab tiquement l ensemble des mots cl s qui les composent Chaque mot cl constitue ainsi un lien qui donne acc s la liste des sites o il figure de m me qu une liste des autres mots cl s communs ces m mes sites Une fa on de proc der originale mais qui pose d vidents probl mes en termes d homog n it et de rigueur de classement 5 Cet outil s appelait jusqu tout r cemment EUREKA Annexe B NOMADE URL http www nomade fr Cat gorie Annuaire Versions localis es Non Version francophone Outil francophone sites en provenance de tous les pays Taille de la base de donn es 75 000 sites Possibilit de soumission manuelle de sites Oui Modes de recherche Navigation th matique Recherche par mots cl s Prise en compte des m ta donn es Oui Traitement de la casse Indiff renci Traitement des caract res sp ciaux et Indiff renci diacritiques Mode de recherche par d faut OU Options de restriction de recherche Tout NOMADE vs communiqu s de l AFP vs sites r cents vs s lections de NOMADE Sur la racine recherche avanc e Sur la nature du site ducation personnel entreprise etc recherche avanc e cinq options Sur la r gion fran aise ou le Qu bec recherche avanc e 31 options Sur les pays d Europe francophone et d Am rique du Nord recherche avanc e huit optio
94. lais choisis par DIGOUT4U disease mad cow On voit que le processus de d composition en mots cl s des requ tes fonctionne bien sur les noms communs b uf aux hormones maladie de la vache folle mais conna t des rat s en ce qui concerne les noms propres il aurait t nettement pr f rable de conserver telles quelles des expressions comme Beau Dommage et C te d Azur que le logiciel n identifie visiblement pas comme tant des locutions On peut toujours lui pardonner sa m connaissance de la r alit musicale qu b coise mais une telle ignorance est plus surprenante en ce qui concerne une expression aussi r pandue que C te d Azur DIGOUTAU affiche une traduction de la requ te en mots cl s fran ais et anglais m me lorsque l emploi d une des deux langues est d sactiv comme c tait ici le cas Nous incluons les mots cl s en anglais obtenus suite nos requ tes pour donner une id e de la performance du logiciel ce niveau Si cela avait t le cas il aurait probablement propos la traduction anglaise pertinente de C te d Azur soit French Riviera 84 Cynthia Delisle dea 1999 enssib Toutefois en examinant les r sultats obtenus on constate que ces probl mes de traduction en mots cl s n ont pas emp ch DIGOUTAU de produire des r sultats tout fait honorables en ce qui concerne les requ tes relatives des noms propres Parmi les r ponses valu es 100 de pe
95. lisle dea 1999 enssib taille de leur base de donn es ne semble gu re tre une priorit chez la plupart des concepteurs d outils Un autre probleme consid rable ce niveau concerne l augmentation du Web invisible c est a dire des pages dont le traitement pose d importantes difficult s aux outils de recherche Les cadres frames en sont un exemple typique il n est pas rare de voir des sites de ce genre de 100 pages ou plus uniquement repr sent s dans l index d un outil par leur page d accueil o en outre la seule information index e est souvent l inscription This site requires frames Les pages dynamiques sont galement probl matiques pour la plupart des outils de recherche de m me que celles qui emploient la technologie XML 1 3 L instabilit des ressources Internet est d une mouvance intrins que chaque jour des ressources apparaissent disparaissent ou d m nagent Comme par ailleurs le Web descend en droite ligne du Gopher il en a h rit plusieurs des caract ristiques notamment le fait que les liens entre documents ne soient pas bidirectionnels une ressource vers laquelle pointe un lien n est pas au courant de cet tat de fait Si cette ressource change est d plac e ou cesse d exister les liens URL ne font donc pas l objet d une mise jour automatique et demeurent bien souvent pendants d o le fameux code Erreur 404 C est ce
96. moriser les diff rences subtiles entre les diverses interfaces bool ennes 26 Cynthia Delisle dea 1999 enssib Comme le souligne R Evans The strength of exact match Boolean searching is precision its weakness is recall It is a very good tool for finding a specific document that the user already knows is in the database because the user knows specific query terms to use But for finding documents about a general topic that is defined subjectively in the end user s mind traditional Boolean falls short Evans 1994 Les syst mes statistiques au contraire misent sur le rappel ils se soucient toutefois galement de la pr cision puisque leur classement pr sente les r sultats les plus pertinents en premier ce niveau ils font un peu mieux que les syst mes bool ens atteignant un taux de rappel de pr s de 50 Addison amp al 1993 Avec ces syst mes on obtient non seulement ce que l on a demand mais aussi ventuellement ce que l on aurait d demander de m me que bien souvent des documents qui renferment les termes de la requ te mais pas l information recherch e Leur fa on de proc der comporte n anmoins l avantage de sugg rer l usager des fa ons de modifier sa question s il n a pas trouv ce qu il cherchait ainsi en regardant les termes co occurrents avec les mots de sa requ te dans des documents partiellement pertinents il peut d cider d largir ou de pr ciser la
97. mple run a 29 sens qui se subdivisent en pr s de 125 sous sens cette polys mie fondamentale des langues naturelles s ajoutent en outre les usages m taphoriques et les comparaisons Nous l avons vu beaucoup des pi ges du traitement automatique sont occasionn s par cette ambigu t du langage Les probl mes d ambiguit lors du rep rage d information sur Internet sont d autant plus critiques que les SRI qu on y trouve actuellement ne parviennent pas extraire l information contextuelle contenue dans les documents et les requ tes ils ne disposent pas non plus de la masse d informations sur le monde emmagasin e dans le cerveau des usagers To humans disambiguation and paraphrasing are second nature to the point that they find it hard to conceive of the inherent complexity of linguistic expressions Wacholder amp al 1994 d velopp pour Gopher il autorisait la recherche par mots cl s dans une base de donn es de descriptions d items de 33 Cynthia Delisle dea 1999 enssib 1 4 3 Les variations orthographiques et les erreurs d orthographe et de frappe Un certain nombre de noms communs sont d orthographe fluctuante par exemple cl clef ou fantasme phantasme en anglais on pourrait citer gray grey theatre theater aluminium aluminum etc Les noms propres pr sentent eux aussi des variantes ainsi dans un texte ils peuvent figurer en version abr g e dans le titre pour sauver
98. n searching and what kind of search technique should be selected when using different search engines Dong amp Su 1997 Selon ces auteurs a good search engine should be able to retrieve highly relevant results no matter what kind of query is submitted Idem C est la raison pour laquelle pour chacun des outils de notre chantillon nous avons choisi de mettre en parall le les diff rentes mani res d exprimer une requ te pour ensuite comparer entre elles les quantit s de r sultats obtenues Nous avons retenu cette fin la requ te beau dommage qui nous semblait int ressante parce que tout en tant constitu e de mots individuels tr s courants elle peut r f rer en tant qu expression la fois une locution du lexique commun de la langue et un nom propre groupe de musique qu b cois Pour chaque outil les diff rentes mani res de rep rer des documents contenant simultan ment ces deux mots ont t test es en plus du mode de recherche par d faut qui comme nous l avons mentionn est parfois un OU Nous avons ainsi recouru aux guillemets l op rateur AND ou ET de m me qu certaines options propres chaque outil du genre laisser le moteur d cider pour YAHOO Lorsqu un outil permettait deux proc dures apparemment quivalentes par exemple l emploi de guillemets et Selon S Feldman cette situation tient au fait que les requ tes de type bool en ont t d velopp es pour de
99. nce de 100 sont en allemand ou en anglais Par ailleurs le regroupement des r sultats et l affichage d un seul document par site clustering demeurant optionnels chez DigOut4U nous avons remarqu pour ces trois requ tes Rappelons que l extrait de texte affich par DIGOUT4U correspond la ou aux portion s du texte cens e s correspondre le mieux la requ te initiale On voit que figurent dans cette phrase les mots c te et ciel identifi s comme mots cl s par le logiciel pour C te d Azur 85 Cynthia Delisle dea 1999 enssib une forte concentration des r sultats autour de quelques URL ainsi pour C te d Azur le site de la Chambre de Commerce et d Industrie Nice C te d Azur fournit plus de la moiti des r sultats tandis que plus des trois quarts de ceux obtenus pour la requ te CEVEIL proviennent du site lui m me Assez curieusement par contre les r sultats obtenus pour b uf aux hormones et maladie de la vache folle sont plut t mitig s Ils sont tout d abord assez peu nombreux respectivement 66 et 34 r ponses au lieu des 100 autoris es seuil que les autres requ tes ont atteint sans peine Le taux de pertinence des r ponses varie galement beaucoup alors que pour les trois requ tes pr c dentes 1l atteignait 100 pour les documents en t te de liste et descendait jusqu 95 ou 90 pour les documents les moins bien cot s pour ces deux requ tes on ne trouve aucun score
100. ne Il est habituellement possible de sp cifier le niveau de profondeur des pages inclure Exemple WEBWHACKER 5 3 Agents autonomes Ces agents ont pour mission de d pister toutes les pages susceptibles de r pondre une requ te donn e ils peuvent ventuellement prendre l initiative d enrichir cette derni re Ils filtrent et analysent les documents trouv s ne rapatriant que ceux qui sont r ellement pertinents Ils permettent souvent l emploi du langage naturel Exemple DIGOUTAU 5 4 Agents pour le commerce lectronique 5 4 1 Assistants d achat shopbots Destin s aux consommateurs ils enregistrent les pr f rences de ces derniers et visent faciliter la s lection de boutiques virtuelles de marques ou de produits Ils peuvent ainsi parcourir les galeries marchandes du Web la recherche d un produit ou service sp cifique comparer les prix dresser un tableau r capitulatif des offres disponibles recommander des produits ou m me proc der directement l achat Ces assistants peuvent tre g n ralistes exemple SHOPPING EXPLORER ou porter sur un domaine d activit pr cis exemple PRICELINE pour les billets d avion chambres d h tel etc 5 4 2 Agents d analyse de la demande Destin s aux commer ants ils permettent de mieux conna tre la demande et les consommateurs pour une meilleure gestion des profils clients et la personnalisation de l offre Exemple SELEC
101. net Edition du 1 juin 1998 http www bibl ulaval ca vitrine giri index htm Conf rence des recteurs et des principaux des universit s du Qu bec CREPUQ Sous comit des biblioth ques Groupe de travail sur l acc s aux ressources documentaires Sous groupe de travail sur Internet GIRI 2 Guide des indispensables de la recherche dans Internet Edition du 1 mars 1999 http www bibl ulaval ca vitrine giri giri2 index html de Rosnay J Les agents intelligents robots logiciels 19 octobre 1995 http 194 199 143 5 derosnay agent htm Jakob D Trouver des informations sur le Web Flash R seau 15 Biblioth que nationale du Canada Services de technologie de l information 10 octobre 1995 r vis le 29 juillet 1997 http www nlc bnc ca pubs netnotes fnotes15 htm 101 Cynthia Delisle dea 1999 enssib Koster M Robots in the Web threat or treat Avril 1995 http info webcrawler com mak projects robots threat or treat html Laublet P Collecte d information et recherche documentaire sur Internet CAMS Universit de Paris Sorbonne S d post rieur 1997 http www mpl orstom ftr CDROM ch06 laublet laublet htm Ce document est d sormais inaccessible Plourde J N D finition et application de crit res d valuation d outils de recherche dans Internet Cursus 1996 1 2 http www fas umontreal ca EBST cursus vol 1no2 plourde html Cynthia Delisle dea
102. ngage naturel T L N 18 1 3 1 Niveau phon tique phonologique 20 1 3 2 Niveau morphologig Ut rr resipi sinned lacsawedvataneeasiadavediounenenn awe ge 20 1 353 Niveau lexical iise versavuiess men ENNE esd Dino sd DRAERS 20 1 3 4 SEES ae A ee ee 21 1 3 5 Nivea SEMIBMTGQUE minarine iunn inanir dues datent diet aad ee 21 1 3 6 Wee he lll co i eee 21 L3 7 APR DONS LES De LAREC ENS LEE oia ine dds ee denen eee eh 22 2 Comment fonctionne un SRI 23 2al Le traitement des JOCUMERTS use snari in a inna ia Pani 23 auk Le traitement des M QU SS 0 cciesccccersresecaneecentenseneiienedeesseatenaeeeerenned 24 2 3 L appariement des requ tes query matching 24 2 4 La pr sentation des r sultats se siiesssstindenssaimesnsatmenneedee center canes 24 3 Les crit res d valuation d un SRI la pr cision et le rappel 25 4 Conclusion de la premi re partie 26 SECONDE PARTIE LES SRI SUR INTERNET ns snnenennennnnnnne SO 1 Les obstacles au rep rage de l information sur Internet 31 1 1 Le manque d habilet et de formation la recherche des usagers 31 1 2 La couverture limit e des SA ses cvecsccscvesseeaccninredcamianes id riia eiae 31 1 3 L instabilit des ressources 4444444sssscs 32 L4 Lem DIGS MR
103. nombreux outils de recherche sur Internet Mais l encore une recherche de documents similaires partir d un document jug pertinent s appuie uniquement sur des comparaisons statistiques et non sur la mise en correspondance de mots word matches ni a fortiori sur des analyses s mantiques ou pragmatiques Ajoutons enfin qu avec ces syst mes les mots de la requ te peuvent tre indiqu s tels quels sans tre n cessairement joints par de quelconques op rateurs ou modificateurs Du reste le tri de pertinence red finit de fait les op rateurs bool ens les OU par exemple ne sont plus seulement des OU ils fonctionnent aussi comme des ET flous fuzzy ANDs The combination of these ranking algorithms makes an OR more than just an OR It also is a fuzzy AND because the more of the user s terms there are in a retrieved document the higher it will rank Evans 1994 1 3 Les syst mes de traitement du langage naturel T L N Le T L N peut tre consid r comme un sous champ du secteur de l intelligence artificielle Les recherches qui y sont men es s appuient sur des disciplines comme la linguistique l informatique et les sciences cognitives La recherche sur le langage naturel vise la compr hension et la mod lisation de la fa on dont l tre humain construit le sens d une phrase ou d un document notamment via l identification des indices exploit s pour b tir cette signification
104. ns Sur le public adulte enfant professionnel etc recherche avanc e cinq options Fonctions bool ennes ET OU formulaire recherche avanc e Emploi de Non Recherche de locutions Oui Requ te l int rieur d un premier groupe Non de r sultats Classement des r sultats Pertinence pr sum e Affichage par d faut Nature du site Nom de l diteur Ville si connue Pays Public s Titre Description Cat gorie s URL Possibilit de modifier l affichage par d faut Non Choix de la quantit de r sultats afficher Non Affichage d un taux de pertinence Non Particularit s Une requ te infructueuse est automatiquement redirig e vers ALTAVISTA d o la pr sence ventuelle de pages en d autres langues dans les r sultats Sauf si on emploie des guillemets les mots non significatifs ne sont pas pris en compte et pr positions etc sont syst matiquement limin s articles conjonctions Annexe C YAHOO URL http www yahoo fr Cat gorie Annuaire Versions localis es Oui 20 Version francophone Oui base de sites d di e Taille de la base de donn es Plus de 75 000 sites Possibilit de soumission manuelle de sites Oui Modes de recherche Navigation th matique Recherche par mots cl s
105. nt ce type de SRI pourrait permettre aux usagers de faire part de leurs requ tes de mani re naturelle et avec tous les d tails requis exactement comme ils le feraient avec un biblioth caire de r f rence et comprendrait le sens sous jacent de la requ te dans toute sa subtilit et sa complexit Ce syst me permettant une analyse identique des documents de la base de donn es peu importe leur nature il serait d s lors possible d effectuer une mise en correspondance conceptuelle part enti re des requ tes et des documents La recherche sur le T L N est actuellement en plein essor car l interrogation en langue naturelle de bases de donn es en texte int gral est depuis longtemps consid r e comme l une des cl s possibles au probl me de l usager final dans le domaine de l information lectronique Comme nous le verrons plus loin les SRI actuels conviennent surtout leurs concepteurs et aux sp cialistes form s aux proc dures d interrogation Les syst mes de T L N s ils peuvent ventuellement 19 Cynthia Delisle dea 1999 enssib manier les requ tes de type bool en ou statistique fonctionnent en effet particuli rement bien sur des demandes en langage ordinaire Il existe sept niveaux linguistiques au moins partir desquels les humains extraient le sens d un texte oral ou crit et qui sont donc susceptibles d tre incorpor s un syst me de T L N
106. nt les variantes morphologiques des mots ainsi tant donn un terme comme travel les formes travels traveled traveling etc sont g n r es se basaient exclusivement l origine du moins sur les r gles de l anglais Cette remarque s applique galement aux processus de d coupage d une requ te en mots cl s souvent sur la base de la ponctuation a la troncature a droite sur les pluriels aux listes de mots vides etc Comment la situation a t elle volu ce niveau Le traitement du fran ais et d autres langues est il d sormais pris en charge convenablement Comment les SRI parviennent ils g rer de fa on On peut opposer ici les r gles morphologiques motiv es linguistiquement aux algorithmes de troncature qui se contentent de couper un certain nombre de caract res partir de la fin d un mot 92 Cynthia Delisle dea 1999 enssib simultan e la r alit de plus en plus multilingue d Internet Constate t on une diff rence marqu e ce sujet entre les outils d origine anglo saxonne et les autres Une autre th matique surveiller concerne la mani re dont les SRI sur Internet s y prendront pour favoriser la recherche de l information disponible sous des formats non textuels les fichiers audio et vid o par exemple se multiplient l heure de la grande convergence constat e entre les diff rents m dias Internet radio t l vision presse etc
107. nthia Delisle dea 1999 enssib Ajoutons titre d information que les diverses possibilit s de recherche dont il a t question ici demeurent l apanage d une minorit d internautes une tude men e sur plus de 50 000 requ tes soumises par quelque 18 000 usagers d EXCITE a d montr que l op rateur AND tait utilis dans moins de 7 des requ tes et les guillemets et signes dans moins de 6 des requ tes CTROUVE COM beau dommage 110 28 07 1999 NOMADE beau dommage 2 beau dommage 2 beau dommage recherche avanc e tous les mots 2 30 07 1999 dans Tout Nomade YAHOO beau dommage 62 cat gories 720 sites beau dommage 0 173 avec INKTOMI beau dommage 0 1 744 avec INKTOMI beau dommage recherche avanc e rechercher avec 0 173 avec INKTOMI l expression beau dommage recherche avanc e rechercher avec tous 0 1 744 avec INKTOMI les mots beau dommage recherche avanc e laisser le moteur 62 cat gories 720 sites d cider 29 07 1999 ALTAVISTA beau dommage 431 Beau Dommage 467 beau dommage 431 Beau Dommage 467 beau dommage 431 Beau Dommage 467 beau dommage 431 Beau Dommage 467 beau dommage 431 Beau Dommage 467 beau dommage 431 Beau Dommage 467 beau_dommage 431 Jansen B J Spink A Bateman J et T Saracevic Real life information retrieval a study
108. nts peuvent s av rer utiles lorsque vient le moment d valuer un outil de recherche e La cr dibilit de l organisme de maintenance e La taille de la base de donn es l ampleur et l objectivit de la couverture les modalit s d ajout notamment la possibilit de soumission de sites e La fr quence de mise jour e Les fonctionnalit s disponibles pour les modes de recherche simple et avanc e Il convient de v rifier tout particuli rement 52 Cynthia Delisle dea 1999 enssib les domaines de recherche possibilit d effectuer des recherches limit es par champ titre intitul de l URL liens hypertextuels etc par genre de ressources forums Usenet adresses de courriel pages personnelles etc ou par type de fichiers texte image fichiers audio ou vid o possibilit de faire des requ tes sur des intervalles de dates ou des noms de personne les modes d interrogation possibilit de requ tes bool ennes ou en langage naturel sensibilit la casse et aux caract res diacritiques prise en compte de la proximit et de l ordre des mots l affichage des r sultats facilit de consultation possibilit de configurer la quantit de r sultats afficher et le format d affichage pr sence d un pourcentage de pertinence par rapport la requ te crit res de tri disponibles ventuellement la possibilit d acc der l historique des recherches et c
109. oci t IDF net Les outils de recherche pour enfin s y retrouver http pages infinit net popnet recherche Maintenu par la soci t Services Pop net Search Engine Showdown anglophone http www notess com search Maintenu par Gregg R Notess Search Engine Watch anglophone http www searchenginewatch com Maintenu par Danny Sullivan Un outil de veille strat gique sur Internet http perso club internet fr nygren Maintenu par Pierre Nygren Forum de discussion alt internet search anglophone Cynthia Delisle dea 1999 enssib 100 Listes de discussion diffusion Agents Porte sur les agents intelligents Pour inscription mailto agents subscribe egroups com I Search Digest anglophone Porte sur les outils de recherche http www audettemedia com i search Motrech Porte sur les moteurs de recherche http www chez com jcharron motrech presentation html Pour inscription mailto motrech subscribe egroups com Autres documents en ligne Careil J M et B de Fr mont Les agents intelligents Pr sentation interactive disponible pour consultation sur le site de Bruno Mannina http ms161u06 u 3mrs fr Conf rence des recteurs et des principaux des universit s du Qu bec CREPUQ Sous comit des biblioth ques Groupe de travail sur l acc s aux ressources documentaires Sous groupe de travail sur Internet G RI Guide d initiation la recherche dans Inter
110. of user queries on the Web SIGIR Forum 1998 32 1 5 17 67 Cynthia Delisle dea 1999 enssib Beau_Dommage 467 beau dommage 15 960 Beau Dommage 596 beau AND dommage recherche avanc e 3 295 Beau AND Dommage recherche avanc e 596 beau NEAR dommage recherche avanc e 549 Beau NEAR Dommage recherche avanc e 470 23 08 1999 any language ECILA beau ET dommage plus de 200 beau dommage phrase exacte 82 beau dommage tous les mots plus de 200 29 07 1999 EXCITE beau dommage 41 717 beau dommage 194 beau dommage 1 935 beau AND dommage 1 935 beau dommage segment 194 beau dommage le s mot s 1 935 27 07 1999 en fran ais sur le Web mondial HOTBOT beau dommage all the words par d faut 1 250 Beau Dommage all the words par d faut 290 beau dommage 390 Beau Dommage 220 beau dommage 1 250 Beau Dommage 290 beau dommage exact phrase 390 Beau Dommage exact phrase 220 beau AND dommage Boolean phrase 1 270 Beau AND Dommage Boolean phrase 290 beau dommage recherche avanc e must contain the 1 250 words Beau Dommage recherche avanc e must contain the 290 words beau dommage recherche avanc e must contain the 390 phrase Beau Dommage recherche avanc e must contain the 220 phrase 23 08 1999 any language INFOSEEK bea
111. ojetSILC fr html le recours des m thodes de ce genre nous para t nettement plus s r et performant 72 Cynthia Delisle dea 1999 enssib CTROUVE COM ceveil 0 28 07 1999 NOMADE beau dommage 2 30 07 1999 dans Tout Nomade beau dommage 0 30 07 1999 dans la France beau dommage 1 30 07 1999 dans le Qu bec beau dommage 2 30 07 1999 dans le Canada ceveil 1 30 07 1999 dans Tout Nomade ceveil 0 30 07 1999 dans la France ceveil 0 30 07 1999 dans le Qu bec ceveil 1 30 07 1999 dans le Canada YAHOO ceveil 2 sites frangais uniquement 29 07 1999 ALTAVISTA beau dommage 431 23 08 1999 any language beau dommage 299 ceveil 343 23 08 1999 French ECILA ceveil 43 29 07 1999 EXCITE beau dommage 194 27 07 1999 en fran ais sur le Web mondial beau dommage 8 ceveil 5 sites fran ais uniquement HOTBOT 27 07 1999 en frangais sur le Web francais beau dommage 390 Cynthia Delisle dea 1999 enssib 23 08 1999 any language 73 beau dommage 72 ceveil 54 23 08 1999 French INFOSEEK beau dommage 155 10 08 1999 sur tout le Web beau dommage 0 ceveil 1 site fran ais 10 08 1999 sur la France
112. ommage 2 beau dommage 2 beau dommage recherche avanc e tous les mots 2 30 07 1999 dans Tout Nomade ALTA VISTA beau dommage 431 beau dommage 431 23 08 1999 any language INFOSEEK beau dommage 155 beau dommage 155 10 08 1999 sur tout le Web LYCOS beau dommage 442 beau dommage 442 beau dommage 442 beau AND dommage 442 34 beau WITH dommage 442 beau ADJ dommage 442 beau BEFORE dommage 442 beau OADJ dommage 442 Selon l aide en ligne de Lycos l op rateur WITH est quivalent l op rateur AND OADJ pour sa part quivaut l op rateur d adjacence ADJ mais introduit une notion additionnelle de prise en compte de l ordre d apparition des termes Cynthia Delisle dea 1999 enssib 64 04 08 1999 sur le Web mondial En outre on constate galement des diff rences entre les quelques outils sensibles la casse HOTBOT se conforme au comportement attendu de m me qu ALTAVISTA sauf en ce qui concerne le mode de recherche par d faut o beau dommage obtient moins de r ponses que Beau Dommage nous supposons ici que la recherche par locution respecte la casse de mani re absolue ce qui explique que Beau Dommage rep re plus d occurrences que beau dommage Par contre INFOSEEK semble ne tenir compte de la casse que lors de requ tes impliquant des signes ou l op rateur A
113. ompter les mots de la requ te pr sents dans la base de donn es et que le document avec le plus d occurrences gagne car une tactique aussi simpliste tendrait favoriser exag r ment les documents de taille importante Un m canisme suppl mentaire d assignation de poids diff renci s aux divers mots existe donc g n ralement la formule la plus fr quente consistant affecter ces derniers un poids inversement proportionnel leur fr quence totale d apparition dans la base de donn es un mot relativement rare est ainsi dot d un poids plus consid rable qu un mot tr s commun Le principe sous jacent est que le contenu informationnel d un terme est inversement proportionnel sa fr quence d apparition autrement dit plus un mot figure souvent dans un texte ou un ensemble de textes moins il est discriminant et v hicule en soi d information D autres facteurs peuvent tre consid r s dans le proc d de pond ration des r sultats par exemple la densit qui tient compte de la fr quence d apparition d un mot dans un document et de la taille de ce dernier Une m thode reli e consiste appliquer une courbe de pond ration d clinante o la premi re occurrence d un mot dans un document re oit plus de poids que la seconde elle m me sup rieure la troisi me etc En ce qui concerne l valuation des documents les crit res suivants sont galement susceptibles d tre utilis s la
114. on de cette technologie D autre part les agents varient norm ment entre eux au niveau de leurs caract ristiques sp cifiques P Nygren http perso club internet fr nygren propose un classement des agents intelligents susceptibles d tre rencontr s sur Internet en fonction de leur mission c est dire de leur capacit ex cuter des t ches particuli res 5 1 Agents de recherche d information 5 1 1 F d rateurs de recherche Ces outils accomplissent de nombreuses t ches recherche d information simultan e sur plusieurs outils rapatriement et indexation des pages en local classement et gestion des informations limination des doublons cr ation de r sum s surveillance des modifications de sites selon une p riodicit param trable etc Les m tamoteurs s inscrivent dans cette cat gorie 5 1 2 Agents sectoriels Ce sont des f d rateurs de recherche sp cialis s dans un domaine pr cis par exemple les sciences et techniques la finance ou la litt rature Les agents sectoriels consultent des outils de recherche sp cialis s dans les domaines concern s D ailleurs le terme robot sert parfois aussi d signer les agents intelligents 48 Cynthia Delisle dea 1999 enssib 5 2 Agents pour la consultation hors ligne Ces outils permettent d aspirer un site Web texte et images pour le recopier sur un poste local en respectant l arborescence du site d origi
115. oposer leurs propres annonces Le recours ces m tamoteurs r duit donc de fa on substantielle le nombre d acc s au moteur de recherche traditionnel ce qui compromet ses recettes publicitaires et risque terme de signer son arr t de mort D autre part se pose un probl me d thique est il juste d utiliser pour son propre compte les technologies et investissements mis en uvre par d autres soci t s sans contrepartie financi re www abondance com Certains outils de recherche importants par exemple NORTHERN LIGHT emp chent d ailleurs les m tamoteurs d acc der leur site en raison du caract re parasitaire de ces derniers 46 Cynthia Delisle dea 1999 enssib Ajoutons ce qui n tonnera personne que les m tamoteurs anglophones font g n ralement preuve de ce que l on pourrait qualifier de myopie anglo saxonne en ce qui concerne la liste des outils sonder Le concept de m tamoteur tout en tant int ressant en soi demeure donc l objet d un certain nombre de r serves Pris pour ce qu il est toutefois et utilis un peu la mani re d un annuaire pour des recherches larges et th matiques ce type d outil peut tout de m me s av rer d une utilit non n gligeable Quelques SUSI Nom URL ARI NE http www espace2001 com moteur COPERNIC http www copernic com fr DEBRIEFING http www debriefing com france DOGPILE http www dogpile com INF
116. origines universitaires une grande richesse en litt rature grise c est dire en textes acad miques diffusion restreinte g n ralement difficiles obtenir ou rep rer partir de sources documentaires TCP est le sigle de Transmission Control Protocol IP celui de Internet Protocol Cynthia Delisle dea 1999 enssib traditionnelles Internet s affirme galement de plus en plus comme le m dia de pr dilection pour suivre l volution de l actualit mondiale nationale ou r gionale puisque l information peut y tre diffus e en permanence de fa on quasi simultan e et ne conna t ni restrictions d espace comme dans la presse crite ni limites de temps comme la t l vision ou la radio Mais pour exploiter pleinement toutes ces richesses encore faut il en conna tre l existence Et c est la que le bat blesse puisque le rep rage des ressources constitue pr cis ment le talon d Achille d Internet comme le souligne J P Lardy Des ressources informationnelles impressionnantes sont disponibles sous des formes tr s vari es et peu structur es dispers es sur des milliers de serveurs ce qui les rend tr s difficiles rep rer identifier et valuer Il est quasiment impossible un utilisateur d avoir une id e pr cise de ce quoi il peut acc der sur le r seau C est une situation d routante par rapport aux banques de donn es commerciales dont une pratiqu
117. ormulation des requ tes notamment les op rateurs utiliser et les questions de majuscules et de diacritiques aux options d affichage etc e Pour une requ te en fran ais il est souvent pr f rable de s adresser en priorit des outils disponibles en langue fran aise particuli rement en ce qui concerne les annuaires e Si une requ te donn e demeure infructueuse avec les outils usuels recourir aux m tamoteurs pour croiser les recherches se servir d agents intelligents rechercher dans les foires aux questions FAQ utiliser des newsgroups judicieusement choisis pour poser la question tenter une nouvelle requ te l aide de mots cl s plus g n riques e Si au contraire une requ te particuli re s av re trop fructueuse ajouter un ou plusieurs mot s cl s suppl mentaire s pour les outils qui le permettent recourir aux op rateurs bool ens notamment la recherche de locutions exploiter les possibilit s de recherche avanc e tenter une nouvelle requ te l aide de mots cl s plus sp cifiques e Il ne faut pas n gliger les outils de recherche sp cialis s dont on a souvent int r t se faire des signets e On peut galement recourir avec profit ce que P Nygren http perso club internet fr nygren appelle la reverse psychology cette technique consiste partir d un site jug pertinent rechercher syst matiquement toutes les pages poss d
118. osent en 3 galement connu sous l appellation Laboratoire europ en pour la physique des particules le CERN situ en Suisse est l origine du concept de World Wide Web 36 Cynthia Delisle dea 1999 enssib compilation les meilleures ressources d Internet ou tout simplement les sites pr f r s de leur auteur Le consultant Internet fran ais Olivier Andrieu propose la d finition suivante des annuaires Un annuaire est un outil de recherche qui recense un certain nombre de sites et non de pages Web au travers de fiches descriptives comprenant en r gle g n rale le titre l adresse l URL et un bref commentaire d une longueur allant le plus souvent de 15 25 mots au maximum Chaque site est inscrit dans une ou plusieurs cat gorie s on parle galement de rubrique s Ces outils peuvent ainsi tre consid r s comme les pages jaunes du Web Lorsqu un mot cl est saisi dans le formulaire propos l annuaire effectue une recherche sur les occurrences de ce terme dans ses fiches descriptives de site et non pas dans le contenu des pages du site en question Il s agit l de la diff rence la plus notable avec les moteurs de recherche www abondance com On peut r sumer ainsi les principales caract ristiques des annuaires ils recensent des sites et non des pages individuelles ils structurent leur inventaire selon une classification en g n ral
119. ours r alis l tape pr c dente est exploit cette fin La structure d une phrase v hicule en effet ce genre d informations y compris dans les cas o le sens des mots eux m mes demeure inconnu titre d exemple Paul frappe Jean et Jean frappe Paul sont des nonc s form s des m mes mots mais dont les sens sont bien diff rents La position des mots permet ici de d terminer qui est le sujet et qui est l objet de l action Les syst mes avanc s de T L N arrivent exploiter cette information structurelle notamment en emmagasinant des repr sentations de chaque phrase ou en caract risant les genres de relations par exemple en identifiant comme des d finitions les nonc s o des mots sont joints par des expressions comme est un 1 3 5 Niveau s mantique Ce niveau concerne l analyse des sens possibles d une phrase Les mots sens multiples y sont d sambigu s s Puisque vue de l ext rieur une cha ne de caract res utilis e dans diff rents contextes demeure identique la prise en compte des mots qui l entourent se r v le n cessaire afin d identifier le sens en jeu Dans les SRI il peut galement y avoir expansion des requ tes query expansion par ajout de synonymes et d veloppement des lieux g ographiques par exemple New England se d veloppera en Maine Massachusetts New Hampshire Vermont Rhode Island et Connecticut 1 3 6 Niveau discursif Le niveau discursif e
120. parfois laborieuse en ce qui concerne les modes de recherche avanc e L utilisation de ces m tamoteurs fait face toutefois certains probl mes pratiques Tout d abord il s av re impossible pour ces logiciels d exploiter les fonctionnalit s avanc es des outils de recherche pr cis ment parce que la syntaxe en est tr s variable Leurs requ tes doivent demeurer suffisamment basiques pour tre accept es par tous les outils auxquelles elles sont envoy es ce qui en diminue la puissance Ensuite comme le fait remarquer O Andrieu les m tamoteurs font la synth se de r sultats fournis par plusieurs moteurs diff rents classant chacun leurs r sultats de fa ons diff rentes sans utiliser les m mes crit res de pertinence Une synth se de documents class s de fa ons ainsi disparates est elle si simple que cela effectuer et surtout est elle plus pertinente La question reste pos e www abondance com Par ailleurs il souligne juste titre les probl mes moraux que suscite l apparition de ce genre d outils L utilisation de ce type de m tamoteurs engendre un autre probl me de fond quasiment tous les moteurs de recherche sur lesquels ils s appuient se financent gr ce aux bandeaux publicitaires qu ils affichent Or les promoteurs de cette couche logicielle suppl mentaire que sont les m tamoteurs ne r percutent pas syst matiquement ou pas du tout ces bandeaux pr f rant m me parfois pr
121. prit libertaire et anarchiste du Net Le taux de rappel obtenu par les moteurs est souvent bon mais 1l s accompagne malheureusement d une grande quantit de bruit c est dire d une baisse du taux de pr cision les moteurs suscitent des r ponses tr s h t rog nes o les doublons abondent parfois La non mise jour des index constitue souvent galement une source de probl mes Autre inconv nient contrairement aux annuaires les moteurs abandonnent l usager lui m me rien ne guide ni ne balise la recherche et ne fonctionnent habituellement pas sur le mode d un ensemble de r ponses qu il est possible de restreindre et d affiner successivement la recherche se fait en un coup et un seul Enfin leur maniement demeure d licat et les recherches peuvent prendre beaucoup de temps G n ralement plus appr ci s des internautes aguerris que des d butants les moteurs en un certain sens sont plus puissants que les annuaires Ils sont donc tout indiqu s pour des recherches qui portent sur des sujets fins et pr cis ou sur un objet dont l existence est connue d avance mais ils risquent de g n rer des milliers de r ponses d int r t in gal si la requ te s av re trop vague ou trop commune Comme on le voit les moteurs se diff rencient des annuaires de nombreux points de vue On peut r sumer ainsi leurs principales caract ristiques 42 Cynthia Delisle dea 1999 enssib e Ils rec
122. propre Poutil certains ont recours aux classifications documentaires traditionnelles comme celle de la Biblioth que du Congr s de Washington utilis e notamment par la WORLD WIDE WEB VIRTUAL LIBRARY ou celle de Dewey mais le cas demeure rare le rep rage et la cat gorisation des ressources s effectuent souvent manuellement au moins en partie Les annuaires recourent cette fin soit des professionnels de la documentation biblioth caires documentalistes soit des sp cialistes des diverses th matiques concern es par exemple des m decins pour la rubrique Sant soit encore des volontaires r mun r s ou non les annuaires incorporent parfois directement des sites Web dans leur base de donn es suite une d cision de l quipe ditoriale ou une suggestion en provenance des usagers du service toutefois il est g n ralement 37 Cynthia Delisle dea 1999 enssib n cessaire d entreprendre une d marche d lib r e d inscription le responsable du site enregistrer doit soumettre ce dernier qui est alors visit valu et si accept inclus dans l arborescence de l outil Le principe des annuaires pr sente plusieurs avantages Tout d abord ces instruments permettent de guider l utilisateur dans ses investigations ils s av rent donc moins intimidants que la ligne de commande vide des autres outils de recherche Gr ce la cat gorisation effectu e s
123. pte des crit res suivants exactitude des correspondances emplacement mots cl s une correspondance dans le titre d un site a priorit sur la m me correspondance dans le commentaire dans le corps du texte ou dans l URL hi rarchie des cat gories parmi les cat gories correspondantes celles qui sont situ es en haut de l arborescence YAHOO donc plus g n rales sont mieux class es que les cat gories inf rieures plus pr cises Particularit s Une requ te qui ne donne pas de r sultats dans YAHOO FRANCE est transf r e automatiquement vers la base de donn es du moteur INKTOMI Seule l quipe ditoriale d cide des cat gories o indexer un site Annexe D ALTAVISTA URL http www altavista com http altavista digital com http www av com Cat gorie Moteur Versions localis es Oui 3 Version francophone Non Taille de la base de donn es Plus de 150 millions d URL Possibilit de soumission manuelle d URL Oui Indexation du texte int gral Oui Prise en compte d un fichier robots txt ou Oui d une balise lt ROBOTS gt Prise en compte des m ta donn es Oui Indexation des cadres Oui Pr sence d une section de type annuaire Oui Directory Channels Traitement de la casse Diff renci Traitement des caract res sp ciaux et Diff renci diacritiques Mode de recherche par d faut OU Option
124. que la n cessit de mettre en correspondance des formes comme online et on line Il y a la une perte d information importante puisque la prise en compte des majuscules par exemple peut favoriser le traitement des A re SOO abr viations des acronymes et des noms propres menus Gopher du monde entier 1 OCR sous sa forme anglaise 2 Quoique ces derni res soient aussi souvent crites en minuscules comme modem pour modulation demodulation 34 Cynthia Delisle dea 1999 enssib 1 4 5 L inconstance de l indexation humaine Selon certaines tudes l homog n it de l indexation humaine est au mieux de 50 y compris en ce qui concerne le travail accompli par une seule et m me personne Feldman 1999 On peut supposer que cette situation s observe galement dans les outils de recherche de type annuaire 1 4 6 La difficult de formulation de certains concepts Sur Internet les SRI ne permettent pas toujours la formulation de requ tes en langue naturelle comme le souligne E Liddy The engines expect minimal one word or two word queries and are optimized for them rather than for sentences which would enable the user to fully present their information need Liddy 1998 Cela augmente la difficult prouv e d finir des concepts importants mais vagues Speaking in code is difficult and it leaves out important aspects of thought Feldman 1999 Actuellement la seule solution consiste bien
125. ques CUSI parmi bien d autres Nom URL ALL IN ONE SEARCH PAGE http www allonesearch com Easy Search japonais http www aist go jp NIBH honda EasySEARCH index cgi GOLDENBRICK francophone http www goldenbrick fr goldensearch recherche html THE SEARCH PLACE http users isaac net duane search Ceci dit le terme m tamoteur renvoie la plupart du temps une seconde cat gorie d outils valeur ajout e ceux l les Simultaneous Unified Search Interfaces SUSI Ces m tamoteurs fonctionnent en transmettant simultan ment la requ te de l usager plusieurs outils de recherche principalement des moteurs La quantit d outils ainsi interpell s est tr s variable elle se situe d ordinaire entre 5 et 150 Les m tamoteurs r cup rent par la suite les diff rentes listes de r sultats et les fa onnent en un document unique Certains proc dent en outre un classement de pertinence suppl mentaire et l limination des doublons Plusieurs d entre eux permettent galement de configurer la liste des sources interroger de ce type d outil 45 Cynthia Delisle dea 1999 enssib Les principaux avantages li s l emploi des SUSI ont trait au gain de temps il n est plus requis de visiter les outils un un et au fait qu ils dispensent l usager de la n cessit de s initier aux modalit s d utilisation de chacun des sites interroger entreprise qui s av re
126. r d ventuels synonymes et traductions e Il est imp ratif de bien conna tre le fonctionnement des outils employ s en ce qui a trait au type d indexation effectu e aux domaines de t l chargement de logiciels petites annonces dossiers sp ciaux ex crise du Kosovo rapport Starr Pages Jaunes et Blanches bavardage en direct adresse gratuite de courriel et h bergement de pages Web offres d emploi calendriers et agendas en ligne dictionnaires lectroniques ench res en ligne envoi de cartes postales mise en place de filtres familiaux tels PAV Family Filter d ALTAVISTA destin s bloquer en principe l acc s aux pages contenu disgracieux horaires des programmes de t l vision tat du trafic sur les routes personnalisation du site c est dire l occasion pour l usager de configurer ses pr f rences d interface possibilit d installer en local l outil pour les recherches internes sur un site etc Les choix sont quasi infinis et la cr ativit des concepteurs semble sans bornes L Office de la langue fran aise du Qu bec d finit le firewall ou coupe feu comme un dispositif informatique qui permet le passage s lectif des flux d information entre un r seau interne et un r seau public ainsi que la neutralisation des tentatives de p n tration en provenance du r seau public http www olf gouv qc ca 54 Cynthia Delisle dea 1999 enssib recherche la f
127. r d faut Non Choix de la quantit de r sultats afficher Non Regroupement des r sultats par site Non clustering Affichage d un taux de pertinence Non valuation de la pertinence ALTAVISTA tient compte des crit res suivants fr quence d apparition des mots cl s emplacement des mots cl s une importance sp cifique est accord e aux balises META et au titre nombre de termes trouv s proximit des mots cl s entre eux liens qui pointent vers une page Particularit s L usager est invit formuler ses requ tes en langage naturel Le logiciel est quip d une technologie de filtrage permettant d identifier automatiquement les pages offensantes c est dire celles reli es aux th mes suivants drogues tabac alcool discours haineux jeux d argent violence sexualit explicite Les internautes sont galement invit s participer cet effort d puration en soumettant des URL bannir Par d faut seules les requ tes sur les images et les fichiers sons et vid os sont filtr es il est possible de faire filtrer en outre les pages Web ou de d sactiver le tout Cette technologie ne fonctionne toutefois que pour le contenu d Internet diffus en langue anglaise ALTAVISTA offre un service de traduction automatique entre l anglais et cinq autres langues VII Annexe E ECILA URL http www ecila fr Cat gorie Moteur Versions loc
128. r le titre recherche avanc e Sur P URL recherche avanc e Sur un site d termin recherche avanc e Sur la langue recherche avanc e 15 options Fonctions bool ennes AND ou WITH OR NOT ADJ mots c te c te et ordre indiff rent BEFORE mots c te c te et ordre respect NEAR fen tre de 25 mots FAR distance d au moins 25 mots OADJ ONEAR et OFAR servent introduire une notion d ordre des mots L intervalle de 25 mots pour NEAR et FAR peut tre modifi par l usager De m me on peut faire en sorte d indiquer un intervalle maximum de s paration des mots pour ADJ qui est de z ro par d faut ainsi que pour OADJ ONEAR et OFAR Emploi de Oui Recherche de locutions Oui Requ te l int rieur d un premier groupe de Oui r sultats Classement des r sultats Pertinence pr sum e Affichage par d faut Lien vers le serveur sur lequel est h berg le document Titre Description ou extrait de page URL Indice de pertinence Taille du fichier en KO Lien pour effectuer une recherche sur des documents similaires Possibilit de modifier l affichage par d faut Non Choix de la quantit de r sultats afficher Oui Regroupement des r sultats par site clustering En partie seulement les sites sont regroup s par nom de domaine commun mais on trouve plus d une page pour un m me site
129. rdinateur reli au R seau et qui explorent syst matiquement celui ci de mani re collecter l information pr sente Les robots proc dent en rep rant les liens hypertextuels d un document pour ensuite aller visiter les pages vers lesquelles pointe ce dernier Ils parcourent ainsi rapidement un site puis d autres sites qui lui sont li s et ainsi de suite Comme le fait remarquer J N Plourde c est l automatisation et la syst matisation de ce que l on fait de chez soi en se baladant dans le Web Plourde 1996 Une fois le site index le robot revient r guli rement capturer une version plus r cente des diff rentes pages Il n est pas rare que le m me robot soit utilis par plusieurs moteurs diff rents avec seulement quelques diff rences de param trage G n ralement seuls les fichiers ASCII et HTML sont index s et non par exemple les fichiers compress s ou de type pdf Le fonctionnement m canique des robots fait en sorte qu il est fort difficile de contr ler quelles pages sont r cup r es pour tre index es Le contenu de la base d un moteur demeure donc essentiellement tributaire des sites utilis s comme points de d part et de la strat gie privil gi e pour la visite des liens ce peut tre une strat gie en largeur o tous les liens imm diats dans l ensemble des pages rapatri es sont visit s ou une strat gie en profondeur o pour une s lection de documents le robot descend de page
130. rents crit res par exemple pour ne garder que ceux dont la pertinence est sup rieure 50 ou encore les 50 meilleurs XXII
131. rtinence par le logiciel pour la recherche C te d Azur requ te au demeurant fort vague on trouve ainsi des titres comme e Azur org le site de la C te d Azur e Centre de Ressources C te d Azur e Chambre de Commerce et d Industrie Nice C te d Azur e Hotels de la C te d Azur e Informations pratiques C te d Azur French Riviera France e etc De m me la quasi totalit des documents rep r s pour la requ te Beau Dommage pr sentent un lien plus ou moins substantiel selon les cas puisqu il s agit parfois d une simple mention avec le groupe qu b cois textes de chansons discographies biographies des membres du groupe etc Toutes les r ponses obtenues pour la requ te CEVEIL mentionnent galement explicitement cet organisme selon des niveaux de d tail variables Pour ces requ tes les false drops constituent donc l exception titre d exemple mentionnons le rep chage cocasse pour la requ te C te d Azur d un site consacr aux truites arc en ciel et dot d un taux de pertinence de 98 La truite arc en ciel http www ncr dfo ca COMMUNIC ss marin rainbow arc ciel htm oy 46 Les grosses truites arc en ciel anadromes de la c te du Pacifique sont connues sous le nom de steelhead Force est de constater cependant quelques probl mes d identification linguistique pour la requ te C te d Azur o plusieurs des documents propos s dont certains avec des taux de pertine
132. s une tr s grande quantit de r sultats est d ordinaire rep r e suite une requ te sur Internet et le tri de pertinence faisant son uvre il se trouve presque immanquablement en t te de liste des r sultats quelques r f rences susceptibles de satisfaire le besoin d information ou de divertissement de ces internautes Le fait de passer c t d une quantit importante de r sultats potentiellement tout aussi int ressants leur demeure la limite indiff rent ils ne souffriront de cette situation que lors de recherches pointues En fait nous inclinerions m me penser que les dysfonctionnements et limitations des outils de recherche sur Internet ne devraient pas constituer outre mesure un sujet de pr occupation pour les utilisateurs finaux non sp cialistes en admettant qu ils en aient conscience du moins dans la mesure o leurs besoins demeurent satisfaits Tout au plus peut on leur conseiller de ne jamais rien prendre pour acquis et d effectuer l occasion quelques requ tes exemplaires afin de v rifier le comportement des SRI lorsque les r sultats s av rent peu nombreux ou insatisfaisants ceci vaut tout particuli rement pour les utilisateurs qui appliquent 48 Jansen B J Spink A Bateman J et T Saracevic Real life information retrieval a study of user queries on the Web SIGIR Forum 1998 32 1 5 17 91 Cynthia Delisle dea 1999 enssib fr quemment des crit
133. s SRI qui ne disposaient pas de la puissance de traitement exig e par des requ tes formul es davantage en langage naturel ce qui n est plus le cas des outils contemporains 3 tant donn l ampleur limit e de ce travail nous avons choisi d analyser les donn es de ce test uniquement en ce qui concerne le rappel mais il aurait t tout aussi int ressant de comparer les diff rents modes de requ te au point de vue de la pr cision 62 Cynthia Delisle dea 1999 enssib l option phrase exacte les deux proc dures ont t v rifi es Enfin nous avons test au passage les alternatives l emploi de guillemets pour d finir manuellement une locution lorsque les outils en proposaient par exemple l utilisation de tirets entre les mots pour ALTAVISTA et INFOSEEK Au vu des disparit s et des contradictions pour ne pas dire des aberrations relev es lors de l analyse des donn es il s av re bien ardu de tirer des conclusions d ensemble des r sultats de ce test Ainsi d un c t nous avons constat que des modes de recherche quivalents premi re vue et consid r s comme tels par certains outils produisent avec d autres outils des sommes diff renci es INFOSEEK beau dommage 860 beau AND dommage 860 10 08 1999 sur tout le Web LYCOS beau dommage 442 beau AND dommage 442 04 08 1999 sur le Web mon
134. s autres mots de la phrase du paragraphe du document l assignation automatique de termes d indexation ou de larges cat gories th matiques le stockage de repr sentations formelles de chacune des phrases 2 2 Le traitement des requ tes Cette tape concerne surtout les syst mes statistiques et de T L N qui doivent accomplir en aval un travail qui est partiellement accompli en amont par le chercheur en ce qui concerne les syst mes bool ens rendre les requ tes compr hensibles par la machine Les syst mes statistiques peuvent ventuellement proc der l identification des termes importants de la requ te l identification des racines et des variations de genre et de nombre l assignation d une pond ration chacun des termes de la requ te Dans leur forme la plus achev e les syst mes de T L N peuvent mener bien l tiquetage de toutes les parties du discours l identification des sujets objets agents verbes le d veloppement des termes g ographiques l ajout de synonymes et de formes alternatives pour les noms propres Les syst mes de T L N moins d velopp s pour leur part se contentent habituellement d effectuer l identification des racines et une analyse syntaxique de base 2 3 L appariement des requ tes query matching Cette tape concerne la mise en correspondance des requ tes avec le fichier invers et le cas ch ant la base de connaiss
135. s dans la seconde partie de ce travail nous nous bornerons ici a apporter quelques pr cisions suppl mentaires sur le fonctionnement de l agent intelligent DIGOUT4U DIGOUTAU est un produit d velopp par la compagnie ARISEM Ce logiciel est d di la recherche de documents sur Internet Pour ce faire il s appuie sur la technologie L4U Language4U relative la constitution de bases de connaissances lexico s mantiques multilingues Grace a une analyse s mantique et pragmatique des textes ce syst me de compr hension du langage naturel fait en sorte que l id e sous jacente a une requ te est reconnue sous toutes ses formes d expression le syst me g re indiff remment le fran ais et l anglais ce qui permet par exemple de 3 A l origine nous avions pr vu d inclure dans nos examens plusieurs autres outils de type agent notamment INFOSCAN pour le filtrage du courriel http www machinasapiens com francais produits infoscan infoscan html et NOMINO SRI dont le fonctionnement est bas sur une analyse morpho syntaxique tr s pouss e http www ling ugam ca nomino Nous avons malheureusement d y renoncer cause de probl mes d quipement informatique 3 Pour ARtificial Intelligence amp SEMantics 57 Cynthia Delisle dea 1999 enssib formuler une requ te dans une langue et de rep rer si on le d sire des documents des deux langues Cette capacit se fonde sur des bases de
136. s de restriction de recherche Pages Web vs images vs fichiers vid os vs fichiers audio Sur la langue 25 options Dans Usenet Sur un intervalle de dates recherche avanc e Les recherches suivantes se tapent en toutes lettres dans la ligne de requ te Sur le titre Sur l URL Sur le nom de domaine Sur l h te nom de l ordinateur Sur les noms d images Sur les liens hypertextuels Sur le texte introduisant les liens hypertextuels Sur les applets Java Sur le texte int gral d une page excluant les tiquettes d images les URL et les liens Fonctions bool ennes Troncature AND OR AND NOT NEAR parenth ses recherche avanc e Emploi de Oui uniquement dans la recherche simple Recherche de locutions _ Oui ou emploi des signes suivants entre les termes Requ te l int rieur d un premier groupe de r sultats Non Classement des r sultats Pertinence pr sum e dans la recherche avanc e il est possible de d samorcer le tri par pertinence pr sum e Affichage par d faut Titre ou la mention No Title VI Balise lt DESCRIPTION gt ou d faut premi res lignes du document URL Date de derni re modification Taille du fichier en KO Langue du document Lien offrant la possibilit d une traduction automatique Possibilit de modifier l affichage pa
137. s doublons sont supprim s de m me que sur commande les liens inaccessibles ou invalides Les mots cl s de la requ te sont surlign s dans les r sultats Un historique d taill des recherches est accessible 53 gt La version commerciale permet de consulter plus de 140 sources XX Les r sultats de recherche peuvent tre consult s hors ligne mis jour et raffin s l aide d op rateurs logiques Le logiciel peut t l charger sur le disque dur de l usager les documents rep r s suite une requ te Le programme est perp tuellement mis jour le t l chargement de la version la plus r cente tant automatique au moment de l utilisation XXI Annexe L D GOUT4U version 1 5 URL http www arisem com pour t l chargement Cat gorie Agent intelligent Versions localis es Oui 2 Version francophone Oui Outils interrog s Par d faut DIGOUTAU consulte les outils de recherche les plus usuels ALTAVISTA HOTBOT YAHOO etc ou les newsgroups classiques On peut galement lancer les agents partir d une URL sp cifique ou d un fichier au format HTML qui propose des liens vers d autres pages Traitement de la casse Indiff renci Traitement des caract res sp ciaux et Diff renci diacritiques Options de restriction de recherche Langue des documents Limitation de la recherche un seul site
138. s en fr seulement ou choix d un autre pays 19 options Le signe pipe permet d effectuer une recherche avec un mot pour ensuite r duire les r sultats obtenus en utilisant un autre mot par exemple fromage ch vre L emploi des majuscules est sugg r pour les noms de personnes de lieux les mots susceptibles d appara tre enti rement en majuscules les titres INFOSEEK consid re des mots qui se suivent et qui commencent chacun par une majuscule comme un seul nom ou un titre Les noms et les titres doivent tre s par s entre eux par des virgules Sur le titre Sur le nom de domaine Sur les liens Sur l URL Il convient de noter qu INFOSEEK FRANCE ne pr sente pas de page de recherche avanc e sauf pour la premi re toutes les options pr c dentes s utilisent en tapant les instructions en toutes lettres dans la ligne de commande Emploi de Oui Recherche de locutions Oui ou emploi de entre les mots Requ te l int rieur d un premier groupe de r sultats Non Classement des r sultats Pertinence pr sum e Affichage par d faut Titre Contenu de la balise lt KEY WORDS gt ou d faut premi res lignes du texte Indice de pertinence XIV URL Taille du fichier en KO Possibilit de modifier l affichage par d faut Oui Choix de la quantit de r sultats afficher Non Regroupement des r
139. s les uns des autres 60 Cynthia Delisle dea 1999 enssib Outre son utilit pour d limiter les mots compos s cette m thode s av re particuli rement efficace pour les recherches sur des noms propres Par exemple en recherchant Ronald Reagan on vite les r f rences relatives des particuliers nomm s Ronald durant la p riode Reagan En anglais l emploi de guillemets autour d un nom comme River Phoenix restreindra la recherche aux documents consacr s cet acteur am ricain en excluant tout ce qui traite des rivi res pr s de la ville de Phoenix en Arizona En fran ais un exemple du m me type pourrait tre une recherche consacr e l acteur Pierre Brasseur o la d finition comme locution emp chera le rep chage de sites consacr s la bi re ou la gemmologie Selon l aide en ligne du moteur HOTBOT la recherche sous forme de locution permettrait en fait de diviser par 15 le volume des r ponses obtenues L utilisation des op rateurs bool ens pour sa part s effectue a travers des choix dans des formulaires tous les mots au moins un mot etc ou via la saisie sur la ligne de commande des classiques AND OR et NOT avec quelques nuances selon les outils certains exigent en effet emploi de majuscules ou la r criture de NOT en AND NOT Les quivalents fran ais sont utilis s dans certains SRI francophones par exemple ECILA Une strat gie reli e consiste permettre le recours
140. sages 1 25 of exactly 67 matches Re du boeuf aux hormones su fr rec Sport cyclisme du boeuf aux hormones sur le fr rec sport cyclisme Re du boeuf aux hormones su fr rec sport cyclisme Re du boeuf aux hormones su fr rec sport cyclisme 86 Cynthia Delisle dea 1999 enssib Le moteur VOILA fournit galement lui seul un autre tiers des 66 r ponses sous la forme de r f rences peu conviviales comme celle ci Voila les r ponses http world voila com search dt amp medor web amp kw boeuf hormone amp an 1 amp dc amp ad 0 amp ap 8 Tous les services de Voila ACTUALITE Journal AFP Programmes T l Bourse M t o Programmes Sorties Horoscope ANNUAIRES Pages Jaunes Pages Blanches Rues Commer antes Adresses E mail Paris en Photos COMMUNICATION E Mail gratuit Voila Club Newsgroups Chat INFOVILLE Plans Itineraires Tourisme RECHERCHE Web Francophone Web Mondial ACCUEIL boeuf 7 210 hormone 89 843 Affiner la recherche The Hormone Foundation 1 mot sur 2 Welcome to the Hormone Foundation web site The Hormone Foundation is dedicated to improving the quality of life by promoting the prevention diagnosis and treatment of human disease in 8 Juil 1999 lkb www hormone org Plus de pages sur ce site Facts about human growth hormone mot sur 2 Facts about human growth hormone What is human growth hormone Human growth hormone
141. sireux d obtenir des renseignements sur la C te d Azur et qui recourt la recherche par locution dans un outil comme EXCITE ou HOTBOT passe in vitablement c t d une quantit non n gligeable de r sultats peu importe la mani re dont il saisit sa requ te Pour r aliser toutes les implications de ce ph nom ne il ne faut pas perdre de vue que beaucoup de textes sur Internet sont inaccentu s ou r dig s enti rement en majuscules Une autre source de probl mes ce niveau peut venir de l emploi des majuscules accentu es les usages variant selon les r gions de la Francophonie des recherches sur des mots comme Etat Etat ou cole Ecole risquent fort d tre hasardeuses Les r sultats de ce test enfin ont nouveau contredit l occasion ce que l on peut lire dans le mode d emploi des diff rents outils C est le cas notamment pour NOMADE qui affirme ne distinguer ni casse ni caract res diacritiques et pour INFOSEEK qui a produit des r sultats indiff renci s au niveau de la casse alors que cet outil pr tend baser son identification des noms propres sur les distinctions de majuscules Les r sultats ci dessous n incluent pas les variantes avec majuscules pour les outils insensibles la casse moins qu elles n aient fait l objet d un commentaire comme pour INFOSEEK Plus pr cis ment INFOSEEK consid re deux mots qui se suivent et qui commencent chacun par une majusc
142. sites fran ais Un peu dans le m me ordre d id es il est tonnant que l annuaire NOMADE permette de rep rer l URL du CEVEIL pour une recherche sur le Canada mais non pour une recherche sur le Qu bec d autant plus que cette URL comme beaucoup de sites qu b cois pr sente la double terminaison qc ca Afin de faciliter les comparaisons nous pr sentons ci dessous la fois les r sultats de ce test et les donn es pertinentes recopi es du test pr c dent Pour les outils ne permettant aucune des restrictions mentionn es plus haut nous indiquons uniquement les r sultats de la requ te ceveil Les chiffres fournis pour cette derni re requ te incluent au moins une page en provenance du site lui m me moins d indication contraire 38 Cette tactique est d autant plus condamnable que les risques de bruit et de silence sont multiples outre le fait que tous les sites de France par exemple ne se terminent pas par fr bon nombre de pages en fran ais proviennent de pays officiellement non francophones De plus un site en ca a plus de chance d tre en anglais qu en frangais un site en be peut fort bien tre en n erlandais et un site en ch en allemand etc Puisque des technologies fort efficaces existent d ja qui permettent d identifier automatiquement la langue d une page Web voir par exemple SILC Syst me d Identification de la Langue et du Codage l URL http www rali iro umontreal ca Pr
143. sur Internet en deux factions d une part ceux qui liminent compl tement les accents d autre part ceux qui optent pour une prise en compte non stricte o tache rep re tache et t che tandis que t che ne rep re que t che Enfin les caract res non alphanum riques tels ou font eux aussi l objet de traitements variables selon les cas leur pr sence dans une requ te est parfois ignor e et parfois strictement respect e Nous avons soumis aux outils de recherche diverses variantes de la requ te c te dazur c te d azur cote d azur c t d azur cot d azur C te d Azur Cote d Azur C t d Azur C te d azur c te d Azur etc Les requ tes tire bouchon et tire bouchon ont galement t mises en parall le afin de v rifier le traitement des caract res sp ciaux Toutes les requ tes retenues ont t d finies comme locutions afin de favoriser leurs chances d tre recherch es telles quelles Le tableau ci dessous r sume nos conclusions Les mentions diff renci et pris en compte ont t attribu es dans tous les cas o les multiples versions d une requ te ont entra n une variation ne serait ce que minimale dans les r sultats Nous avons signal par un point d interrogation les cas o les donn es recueillies ne permettent pas de trancher Casse Caract res diacritiques Caract res sp ciaux CTROUVE COM indiff r
144. tats semblent sugg rer toutefois c est que les difficult s de rep rage sont aussi caus es par le fait que le monde des outils de recherche sur 89 Cynthia Delisle dea 1999 enssib Internet constitue un domaine de faux semblants et d apparences trompeuses o un outil en dissimule souvent un autre Un univers o par exemple des mani res de formuler une requ te pr sent es comme quivalentes peuvent ultimement se diff rencier au niveau des r sultats alors que l inverse des formulations apparemment distinctes vont se traduire dans les faits par des r sultats identiques Des fluctuations de ce type se rencontrant la fois entre les outils et pour un m me instrument il devient impossible de d finir des principes de recherche uniform ment valables De m me les tiquettes des choix disponibles sur les pages des outils de recherche sont quivoques on ne sait jamais vraiment ce qu elles recouvrent et ce qui est laiss de c t Enfin comme nous l avons vu propos du traitement des majuscules et des lettres accentu es certains des choix logistiques op r s par les outils de recherche peuvent s av rer tr s lourds de cons quences dans certains contextes or ces implications sont rarement connues des usagers m me sp cialistes Couronnant le tout la documentation en ligne des divers SRI ne se r v le souvent d aucune utilit pour clairer l internaute tant incompl te confuse voire m
145. tion une seule fois sera pr f r un document tr s volumineux contenant trois fois les mots de la question Particularit s Les mots cl s de la requ te sont surlign s dans les r sultats L emploi du langage naturel est conseill La syntaxe avanc e d interrogation s inspire de celle d ALTAVISTA Annexe F EXCITE URL http www excite fr Cat gorie Moteur Versions localis es Oui 8 Version francophone Oui interface localis e Taille de la base de donn es Plus de 50 millions d URL Possibilit de soumission manuelle d URL Oui Indexation du texte int gral Oui Prise en compte d un fichier robots txt ou Oui d une balise lt ROBOTS gt Prise en compte des m ta donn es Non Indexation des cadres Non Pr sence d une section de type annuaire Oui cha nes Traitement de la casse Indiff renci Traitement des caract res sp ciaux et Diff renci diacritiques Mode de recherche par d faut OU Options de restriction de recherche Web mondial vs Web francais i e France uniquement Restriction linguistique recherche avanc e six langues Restriction g ographique recherche avanc e huit options Fonctions bool ennes AND OR AND NOT parenth ses L emploi des op rateurs bool ens d sactive le mode de recherche par concept voir plus bas Emploi de Oui Recherche
146. tise et de veille Inforoutes et Langues CEVEIL Internet intranet extranet comment en tirer profit Montr al Les ditions Transcontinental 1998 208 pages Courtois M P et M W Berry Results ranking in Web search engines Online 1999 23 3 39 46 Croft W B Approaches to intelligent information retrieval Information Processing amp Management 1987 23 4 249 254 Dalloz X Les agents intelligents arrivent L Atelier 1995 46 47 24 27 Desert S E WESTLAVW is natural v Boolean searching a performance study Law Library Journal 1993 85 4 713 42 Dong X et L T Su Search engines on the World Wide Web and information retrieval from the Internet a review and evaluation Online amp CDROM Review 1997 21 2 67 82 Doszkocs T E Natural language processing in information retrieval Journal of the American Society for Information Science 1986 37 4 191 196 Evans R Beyond Boolean relevance ranking natural language and the new search paradigm In Martha E Williams d Proceedings of the 15th National Online Meeting 1994 Learned Information Inc New York 10 12 May 1994 Medford New Jersey Learned Information Inc 1994 121 128 Feldman S E NLP meets the Jabberwocky natural language processing in information retrieval Online 1999 23 3 62 72 Disponible sur le Web http www onlineinc com onlinemag OL1999 feldman5 html Feldm
147. toires nous avons utilis le symbole devant chaque mot pour tous les outils qui le Nous entendons par l des requ tes ne comportant ni op rateurs ni modificateurs ni d finition d options de recherche autres que celles disponibles par d faut 80 Cynthia Delisle dea 1999 enssib permettaient soit la majorit dans les autres cas nous avons choisi l option tous les mots Nous escomptions une r ponse n gative Effectivement seuls le moteur HOTBOT et le m tamoteur COPERNIC ont produit des r sultats diff renci s lors de ce test encore que cette diff rence soit fort minime dans le cas de COPERNIC 89 versus 88 Les autres outils ne font aucun cas de l ordre d apparition des termes d une requ te de base On peut certes justifier cette situation en argumentant que ce genre de prise en compte automatique engendrerait inutilement beaucoup de silence L ordre des mots en effet s av re non pertinent pour les requ tes en OU et pour la majorit des requ tes en ET Il est cependant plusieurs cas o une telle distinction peut s av rer utile Nous n en d velopperons qu un titre d exemple le traitement des locutions En anglais les noms compos s ou noun phrases form s par la juxtaposition de noms simples sont monnaie courante par exemple box office partir de box bo te et office bureau ou dress circle premier balcon partir de dress robe et circle cercle
148. traitement des documents On commence galement voir appara tre des proc d s comme l identification automatique des noms propres bas e sur la reconnaissance des majuscules et non sur une m thode plus motiv e linguistiquement et celle des locutions qui semble s appuyer surtout sur la proximit des mots entre eux 2 Comment fonctionne un SRI Le fonctionnement d un SRI peut tre divis en quatre grandes tapes 2 1 Le traitement des documents C est l tape de l ajout des documents au syst me et de la construction du fichier invers soit la liste alphab tique de tous les mots pr sents dans la base de donn es les mots vides tant laiss s de c t avec les adresses de chacune de leurs occurrences Pour les syst mes statistiques il y a aussi tablissement de poids diff renci s pour les mots pr sents dans les documents D autres op rations peuvent ventuellement avoir lieu cette tape l ajout ou la cr ation de bases de connaissances avec des lexiques internes des r seaux s mantiques des listes de syntagmes de synonymes de pronoms personnels extraction additionnelle d information ou la r alisation d op rations diverses sur les mots lors du stockage lemmatisation identification des cat gories du discours identification des noms propres et ou communs 23 Cynthia Delisle dea 1999 enssib identification du r le des mots et de leurs relations avec le
149. u des sites qu b cois ou canadiens reli s de ceux qui ne proposaient que des liens externes loign s par exemple uniquement des sites fran ais mentionnant le CEVEIL Tous les outils de notre chantillon permettent de retrouver cette URL partir de leur contenu 71 Cynthia Delisle dea 1999 enssib francophone qu il soit le seul disponible ou qu il ait t cern travers la requ te l exception d EXCITE et des annuaires CTROUVE COM et YAHOO videmment dans ces deux derniers cas la pr sence d un site est conditionnelle son inscription pr alable ce qui explique probablement ces r sultats n gatifs nous y avons constat par ailleurs l inclusion de nombreux sites qu b cois Ces r sultats permettent de conclure globalement un bon recensement de l ensemble du contenu fran ais d Internet bien que certains outils pr sentent le d faut important de baser leur classification linguistique sur les suffixes de domaine Parmi les autres curiosit s constat es mentionnons que pour certains annuaires l attribution d un site un pays semble se baser uniquement sur les donn es indiqu es par le webmestre lors de l inscription y compris lorsque ces derni res sont contredites par la terminaison de l URL Par exemple dans CTROUVE COM plusieurs sites se terminant par ch soit la Suisse mais comportant la mention France l indication du pays sont class s parmi les
150. u dommage 155 68 Cynthia Delisle dea 1999 enssib Beau Dommage 155 beau dommage 155 Beau Dommage 155 beau dommage 155 Beau Dommage 155 beau dommage 860 Beau Dommage 176 beau AND dommage 860 Beau AND Dommage 176 10 08 1999 sur tout le Web Lycos beau dommage 442 beau dommage 442 beau dommage 442 beau AND dommage 442 beau WITH dommage 442 beau ADJ dommage 442 beau BEFORE dommage 442 beau OADJ dommage 442 beau dommage recherche avanc e la phrase exacte 182 beau dommage recherche avanc e tous les mots 589 beau dommage recherche avanc e tous les mots dans 452 l ordre beau dommage recherche avanc e tous les mots adjacents 183 04 08 1999 sur le Web mondial VOILA beau dommage 62 121 beau dommage recherche avanc e 1 152 beau AND dommage 61 130 beau dommage recherche avanc e la phrase 382 beau dommage recherche avanc e les mots 1 152 28 07 1999 sur le Web mondial COPERNIC beau dommage recherche rapide 76 beau dommage recherche rapide expression exacte 76 beau dommage recherche rapide tous les mots 87 30 07 1999 sur le Web 2 2 Les ressources francophones Nous avons ensuite v rifi la couverture sp cifique du Web francophone chez les diff rents outils de notre chantillon Ces derniers tant soit exclusivement de langue fran
151. u traitement documentaire tient la difficult d appropriation pour l internaute moyen des multiples syst mes de rep rage aux syntaxes d interrogation parfois sibyllines Comme le souligne A Poulter It is highly ironic that a unitary global information space of networked computers of all types various client server applications and standard format data files accessible via one freely available software package a WWW client browser should be so balkanised by a plethora of search engines It is the complete reverse of the traditional information world of printed sources CD ROM and online databases where a limited and comparatively stable range of well known and trusted search tools attempt to homogenise a large number of physically separate and disparate collections Poulter 1997 Il est certain du reste que la performance d un outil de recherche est tributaire en partie du comportement de l usager de son background de ses besoins informationnels Ce dernier porte d ordinaire une part de responsabilit dans l insucc s de ses requ tes de recherche comme Poulter le fait remarquer This is a common failing of WWW search engines in that although they are populist tools they assume a great deal on the part of their searchers Idem D autres facteurs externes peuvent galement jouer un r le ce niveau tels le type de requ te effectu e ou le sujet sur lequel porte la recherche Ce que nos r sul
152. ule ce qui n est pas tout fait le cas de C te d Azur comme un titre ou un nom propre Peut tre cet outil limite t il la reconnaissance de la casse ces cas particuliers 77 Cynthia Delisle dea 1999 enssib CTROUVE COM NB le traitement de la casse est indiff renci c te d azur 987 cote d azur 987 c t d azur 987 cot d azur 987 tire bouchon 0 tire bouchon 42 28 07 1999 NOMADE NB le traitement de la casse est indiff renci c te d azur 124 cat gories plus de 150 sites cote d azur 124 cat gories plus de 150 sites c t d azur 0 16 avec ALTAVISTA cot d azur 0 tire bouchon 0 537 avec ALTAVISTA tire bouchon 0 537 avec ALTAVISTA 30 07 1999 sur Tout Nomade YAHOO NB le traitement de la casse est indiff renci c te d azur 134 cote d azur 135 c t d azur 0 6 avec INKTOMI cot d azur 0 tire bouchon 3 tire bouchon 3 29 07 1999 Alta Vista c te d azur 23 835 cote d azur 30 319 c t d azur 16 cot d azur 12 C te d Azur 15 236 C te d azur 15 999 c te d Azur 20 765 Cote d Azur 30 751 tire bouchon 537 tire bouchon 537 23 08 1999 any language ECILA c te d azur phrase exacte plus de 200 cote d azur
153. uligner que les annuaires disponibles en plusieurs versions linguistiques ne constituent pas autant de copies d une m me base de donn es simplement coiff es d interfaces diff rentes Il s agit bien dans les faits de bases totalement dissoci es 1l importe donc de les interroger successivement et d effectuer les requ tes dans la langue de l interface par exemple en anglais dans YAHOO INTERNATIONAL et en fran ais dans YAHOO FRANCE 38 Cynthia Delisle dea 1999 enssib Quelques annuaires en langue anglaise Nom URL Galaxy http galaxy einet net Jassan http www jassan com Looksmart http www looksmart com Magellan http magellan excite com Open Directory Project http dmoz org Snap http www snap com Yahoo International http www yahoo com Quelques annuaires en langue fran aise Nom URL Carrefour http www carrefour net CTrouv http www ctrouve com Francit http www i3d qc ca Nomade http www nomade fr Yahoo France http www yahoo fr 3 Les moteurs Le second type d outils de recherche sur Internet est constitu par ce que l on appelle des moteurs WEBCRAWLER fut le premier instrument de ce genre en ligne depuis avril 1994 Si les annuaires voquent le plan de classification des biblioth ques traditionnelles les moteurs pour leur part ressemblent un peu a ces programmes qui produisent automatiquement des index primitifs en associant
154. un niveau de profondeur d termin recherche avanc e Les recherches suivantes peuvent galement tre exploit es l aide de directives tap es en toutes lettres dans la ligne de commande profondeur de la recherche titre crit res temporels pr sence de type pr cis de fichiers de formulaires HTML de cadres HTML de tableaux HTML domaine pour l Am rique du Nord ou code de pays une liste des suffixes de domaine peut tre consult e titre d aide m moire nom de domaine Fonctions bool ennes Troncature ET O formulaire Il est galement possible de choisir l option Boolean phrase dans le formulaire ce qui permet d utiliser les op rateurs bool ens usuels AND OR NOT parenth ses en les tapant en toutes lettres dans la ligne de XII commande Emploi de Oui Recherche de locutions Oui ou formulaire Requ te l int rieur d un premier groupe de r sultats Oui Classement des r sultats Pertinence pr sum e Affichage par d faut Titre Premi res lignes du texte Indice de pertinence Date URL Possibilit de modifier l affichage par d faut Oui Choix de la quantit de r sultats afficher Oui Regroupement des r sultats par site clustering Oui optionnel Affichage d un taux de pertinence Oui valuation de la pertinence L valuation de pertinence se base
155. ur l information il s av re ais pour l usager de butiner entre sites traitant d un m me sujet un peu comme l on bouquine devant les rayons d une biblioth que La philosophie des annuaires permet galement de limiter le taux de bruit et s accompagne d une substantielle valeur ajout e due l activit humaine de s lection d valuation et de hi rarchisation des ressources On note galement bien s r certains inconv nients augmentation du taux de silence en supposant qu un document soit class dans une seule cat gorie couverture relativement restreinte d un bassin potentiel de millions de sites Web mise jour moins rapide que pour les autres outils d pendance par rapport aux choix ditoriaux des r alisateurs il n y a souvent qu un pas entre l valuation des ressources et la censure En outre m me si les requ tes de recherche sont possibles elles offrent en g n ral moins de souplesse et de pr cision que celles permises dans les outils de type moteur De mani re globale on peut donc dire que les annuaires favorisant le rep rage de sites g n raux sur un sujet donn s av rent surtout utiles pour des fouilles vastes et th matiques ou pour d buter une recherche d information encore mal d finie Leur convivialit en faisant par ailleurs les outils de recherche les plus simples d utilisation ils sont galement tout indiqu s pour les d butants Il convient enfin de so
156. ux URL ou aux balises lt DESCRIPTION gt Classement des r sultats Pertinence pr sum e Affichage par d faut Titre sinon URL Lien permettant d acc der un aper u du document Nombre d toiles le nombre d toiles permet de savoir combien de mots de la requ te ont t trouv s dans le document Contenu de la balise lt DESCRIPTION gt ou d faut les premi res lignes du texte URL Taille du fichier en KO Date de derni re mise jour du fichier si cette info est fournie sur le serveur Possibilit de modifier l affichage par d faut Non Choix de la quantit de r sultats afficher Non De plus le nombre total de r ponses est limit 200 VIII Regroupement des r sultats clustering par site Non Affichage d un taux de pertinence Non toutefois les sites les plus pertinents re oivent un nombre d toiles beaucoup plus important que ce que le nombre de mots de la requ te ne laisserait pr voir valuation de la pertinence Pour une requ te simple la recherche des mots cl s s effectue d abord dans la balise lt KEY WORDS puis dans le titre et enfin dans le texte int gral ECILA tient galement compte de la pr sence de tous les termes de la requ te de m me que de la concentration des mots cl s dans chaque document ainsi un document de quelques lignes contenant tous les mots de la ques
157. vels of linguistic processing reflect an increasing size of unit of analysis as well as increasing complexity and difficulty as we move from top to bottom The larger the unit of analysis becomes i e from morpheme to word to sentence to paragraph to full document the less precise the language phenomena and the greater the free choice and variability Liddy 1998 Bien s r tous les syst mes de T L N n op rent pas sur l ensemble de ces niveaux Les produits qui prennent en charge les niveaux linguistiques lev s sont rares surtout quand on s int resse la fois au traitement des documents et celui des requ tes A titre d exemple on peut citer CONQUEST INQUERY et DR LINK En r alit la plupart des syst mes contemporains dits de T L N se limitent aux plus bas niveaux de compr hension et ce uniquement du c t des requ tes 1 Pour plus de d tails voir par exemple www textwise com pr sentation de DR LINK 22 Cynthia Delisle dea 1999 enssib En ce qui concerne les SRI sur Internet la majorit d entre eux sont actuellement capables de tronquer sur le pluriel singulier les termes de la requ te ou m me d ajouter soustraire certaines autres formes d un mot essentiellement gr ce la manipulation de suffixes Certains INFOSEEK ASKJEEVES peuvent en outre interpr ter quelque peu la syntaxe en parsant les l ments de la requ te mais ils n appliquent pas cette technique au
158. xploite la structure documentaire des diff rents genres de textes et de requ tes en vue d une extraction additionnelle de sens On peut ainsi tirer parti par exemple des traits structurels caract ristiques d un article de journal d un article scientifique d un roman policier etc En profitant de cette structure pr visible le T L N peut d terminer le r le d une pi ce d information sp cifique 21 Cynthia Delisle dea 1999 enssib dans un document opinion fait pr diction conclusion etc La r solution des anaphores se fait galement ce niveau 1 3 7 Niveau pragmatique Ce niveau r f re au substrat s mantique form par l ensemble des connaissances du locuteur sur le monde connaissances ext rieures aux documents ou aux requ tes eux m mes mais n cessaires leur bonne compr hension Pour inclure ce niveau dans les syst mes de T L N il s av re n cessaire de leur adjoindre de gigantesques bases de connaissances o des chercheurs ont recens patiemment tout leur savoir sur le monde Cette technique est longue et co teuse elle pr sente en outre le d savantage de ne pas toujours refl ter rapidement les derni res volutions des connaissances humaines La taille de l objet d analyse augmente donc au fur et mesure que l on avance vers les niveaux sup rieurs de compr hension de m me que les difficult s rencontr es par le traitement automatique The le

Download Pdf Manuals

image

Related Search

Related Contents

TCM 3000 BL  KAPO CASSETTE ANTI- MOUCHES MOUSTIQUES PAE  Samsung NX05RH0CEJ User Manual  SIDA - World Health Organization    HP 11i User's Manual  Registration Screen  Nyko HD-Link Wii  Manual 1 - Best R/C (BestRC.com)  Newstar FPMA-D950D flat panel desk mount  

Copyright © All rights reserved.
Failed to retrieve file