Home

1. Introduction .........................................................

image

Contents

1. R cup rer article WEB PROGRAMME Les chiffres sur le sch ma correspondent aux instants dans le temps Cela montre bien que les actions r cup rer le titre et r cup rer l article se d roulent s quentiellement Alors que les actions ins rer le titre dans la table article et ins rer l article dans la table article se d roulent en m me temps L algorithme met peu pr s 15 minutes pour r cup rer les articles et leurs titres pour le site de presse Ouest France fr 4 2 La strat gie adopter pour indexer les termes 4 2 1 Les motifs de mot utilis s Nous devons pr sent r cup rer les th mes d un article Les th mes ou termes d un article de presse sont en fait les mots ou groupes de mots qui ont une occurrence sup rieure un dans l article Par ailleurs nous avons d cid de prendre comme th mes seulement les groupes de mots au moins deux mots dans un terme dans l int r t de n avoir que des th mes plus parlants et plus int ressants pour l utilisateur Dans le but de rep rer des th mes possibles dans un article on passe le texte de l article dans une routine qui contient des motifs de mots rep rer puis elle nous ressort tous les termes correspondants ces motifs Ces motifs seront impl ment s dans la routine par des expressions r guli res Voici le sch ma du principe de r cup ration des th mes ensemble de termes Routine
2. Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 33 sur 55 Projet ILRI SVG Newspaper Cette tape pass e il a fallu r cup rer le r sultat du champ quand l utilisateur va lancer sa recherche via le bouton ok Pour ce faire nous acc dons au contenu de la zone de texte puis nous r cup rons la donn e Chaque l ment en SVG est accessible si nous respectons le D O M Une fois la donn e r cup r e nous appelons l URL de notre page avec les nouveaux param tres de la recherche Code de la fonction function getTerme evt svgdoc evt getT arget getOwnerDocument cible champ_ recherche objet svgdoc getElementByld cible child objet getFirstChild t child getData var z lt php echo _SERVER PHP_SELF gt window location href z terme t Nous avons cr aussi une fonction pour remettre le champ vierge qui est appel quand l utilisateur va commencer une nouvelle saisie Notre site a d j bien avanc il va falloir maintenant travailler sur le contenu du site et le tri de l information qui est stock dans la base de donn es v Cr ation des graphiques Nous avons voulu repr senter des informations compl mentaires sur les termes Nous avons d cid de noter la proportion d un terme dans diff rents articles Termes raffarin Ic ne d information sur un terme Fig 12 Information sur les termes
3. est le mot tap par l utilisateur Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 50 sur 55 Projet ILRI SVG Newspaper L utilisateur peut aussi ajouter un terme ceux qu il a entr Pour cela il doit cliquer sur le symbole L utilisateur a galement la possibilit de lancer une nouvelle recherche partir des termes qu il a obtenu Il doit donc cliquer sur le terme qu il l int resse Recherche avec ce terme Une nouvelle page s affiche dans laquelle le mot s lectionn se trouve dans la zone de recherche Le mot s lectionn se retrouve ici 12 06 2004 e WE Je W sS D ole 4 Termes Etat Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 51 sur 55 Projet ILRI SVG Newspaper Informations sur les termes Pour obtenir des informations sur la pr sence et la fr quence des termes dans les articles l utilisateur doit cliquer sur l ic ne O qui se situe la droite du terme Un camembert avec des pourcentages appara t Plus le pourcentage est lev plus l article parle du terme ahap ilena comiiniyersite maise oo eue nement Wanadoo Fichier Editon Affichage Favoris Outils 2 WU Q Pr c dente x E e B JO Rechercher Se Favoris Qui Adresse http www julienvdb com universite maitrise projet_maitrise int
4. o D codage d un document XML XML permet donc de d finir un format d change selon les besoins de l utilisateur et offre des m canismes pour v rifier la validit du document produit Il est donc essentiel pour le receveur d un document XML de pouvoir extraire les donn es du document Cette op ration est possible l aide d un outil appel analyseur parseur Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 40 sur 55 Projet ILRI SVG Newspaper Le parseur permet d une part d extraire les donn es d un document XML ainsi que de v rifier ventuellement la validit du document o Avantages d un document XML La lisibilit aucune connaissance ne doit th oriquement tre n cessaire pour comprendre un contenu d un document XML Auto descriptif et extensible Une structure arborescente permettant de mod liser la majorit des probl mes informatiques Universalit et portabilit les diff rents jeux de caract res sont pris en compte D ployable il peut tre facilement distribu par n importe quels protocoles m me de transporter du texte comme HTTP Int grabilit un document XML est utilisable par toute application pourvue d un parseur Extensibilit un document XML doit pouvoir tre utilisable dans tous les domaines d applications XML est particuli rement adapt l change de donn es et de documents donc SV
5. Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 34 sur 55 Projet ILRI SVG Newspaper A ce stade nous n avons pas les donn es donc nous avons cr une fonction qui va prendre en param tre un tableau de valeur et un tableau de noms La fonction makeGraphe prend aussi le nom du terme et son identifiant Nous dessinons en fait un cercle vide puis pour chaque valeur du tableau de donn es nous allons dessiner la part qu il repr sente dans le cercle Nous utilisons la commande path de SVG qui g re les trac s Partie principale de la fonction qui permet de dessiner les parts du graphique for i 0 i lt sizeof graph_ data i echo lt path d M 0 0 I 100 O A 100 100 0 if Sgraph_angles i gt pi echo 1 1 else echo O 1 echo round 100 cos graph_angles i round 100 sin graph_angles i Z echo style fill graph_colors i fill opacity 7 echo transform translate round 6 cos old graph_angles i 2 round 6 sin old graph_angles i 2 rotate round old pi 180 gt old graph_angles i Ensuite il nous a fallu marquer la l gende sur le cot du graphique avec le bon code de couleurs Nous avons parcouru le tableau des noms puis nous les avons crits 5 2 Requ te sur les termes et articles Apr s avoir d fini notre mod le d interface pendant que l
6. un champ html car nous avons pas la possibilit de mettre l indicateur de curseur dans le champ C est moins facile pour l utilisateur de savoir o il en est Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 42 sur 55 Projet ILRI SVG Newspaper yY Les sessions en php Au d part nous voulions utiliser les sessions php pour pouvoir faire un panier afin de sauvegarder les articles m moris s pour que le lecteur puisse revenir sur sa s lection On souhaitait les utiliser aussi pour ne pas faire passer nos variables dans URL et ainsi viter que les param tres soient visibles la mani re de la m thode GET dans les formulaires HTML Nous avions cr er le caddie virtuel mais au moment de l int grer dans notre code il y a eu un conflit d ent tes Le navigateur ne reconna t alors plus SVG Ce probl me vient du plugin Nous avons essay avec Davy Gigan de r soudre le probl me mais sans r sultat positif La question a t pos e sur une newsgroup PHP et SVG et ainsi que sur divers forum mais l aussi nous n avons pas eu de solution v La base de donn es Nous avons t oblig de transporter la base de donn es d un serveur un autre car on ne peut pas se connecter la base de donn es de la fac via un autre serveur pour des raisons de s curit Nos scripts ont t plac s sur un serveur personnel car nous n avons pas pu t
7. Page 12 sur 55 Projet ILRI SVG Newspaper Apr s observation sur des sites de presse utilisant cette repr sentation nous avons constat que les d veloppeurs l utilisaient essentiellement pour des liens vers des images des animations Flash Nous n aurons donc pas besoin de stocker ces liens Il faudra donc trouver un moyen de r cup rer tous les liens d une page HTML partir de la premi re repr sentation Un autre d tail qui a son importance toutes les URL Universal Resource Locator pr sents dans les balises lt a gt ne sont pas absolues En effet une URL correspond une adresse sur le site ou l ext rieur et peut donc tre relative ou absolue Une adresse est relative si elle ne rappelle pas le chemin complet du fichier complet mais seulement son adresse par rapport au chemin actuel Il faudra donc rendre toutes les URL absolues pour viter les redondances La derni re chose que nous avons observ e concernant le source html c est la formulation des textes de liens En effet ils peuvent tre sous plusieurs formes Du texte plus ou moins long et bien format Aux Europ ennes le PS confirme sa victoire des R gionales Une image repr sentant le texte notamment pour les rubriques LECTIONS EUROP ENNES nn o ononoanan101010102010202020 Ou encore une image illustrant le texte de lien adjacent Le Portugal ou la belle Europe d en bas Gr ce l Euro 2004 tous les projecteurs
8. SVG nous permet de d finir des courbes de B zier l aide de la balise lt PATHS Bien videment il a fallu trouver une solution math matiques pour que la courbe fluctue de part et d autre de la droite d finie par point de d part article point d arriv e terme mais sans trop s en carter Nous avons utilis s des courbes de B zier On d finit un trac avec un l ment path ayant un attribut d lt donn es de trac gt o d contient les commandes moveto line curve avec des courbes de B zier cubique ou quadratique arc et closepath vY Les commandes moveto M ou m tablissent un nouveau point courant vY Les commandes de courbe de B zier quadratique Q ou q dessinent une courbe de B zier quadratique du point courant jusqu au point x y en utilisant le point x1 y1 comme point de contr le On peut sp cifier plusieurs jeux de coordonn es pour le dessin d un polyb zier Une fois la commande ex cut e le nouveau point courant devient la paire de coordonn es finale x y utilis e dans le polyb zier vV Les commandes de courbe de B zier quadratique T ou t dessine une courbe de B zier quadratique du point courant jusqu au point x y Le point de contr le est sens tre le reflet du point de contr le de la commande pr c dente par rapport au point de contr le S il n y a pas de commande pr c dente ou si celle ci n tait pas une Q q T ou t le point de contr le est sens co ncid
9. article en associant dans la table termeArticle l identifiant du terme et celui de l article dans lequel le terme a t trouv Nous avons choisi d tablir cette table dans la base de donn es dans le but de pouvoir g rer le fait d avoir un terme associ plusieurs articles et un article associ plusieurs termes De plus cela permet d tudier le croisement des termes dans les articles pour faciliter la navigation de termes en termes de l utilisateur Ou bien dans le but d obtenir des statistiques entre les articles et leurs termes Avant l insertion des termes dans la table terme tout comme l insertion des articles on doit prot ger les caract res de guillemets et d apostrophes contenus dans ces termes En outre pour chaque terme ins r on calcule sa longueur le nombre de caract res dans la Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 25 sur 55 Projet ILRI SVG Newspaper cha ne que l on ins re aussi dans la table terme La longueur du terme aura pour but de s lectionner les termes afficher dans l interface Dans les grandes lignes l indexation des articles et des termes d un site de presse peut se sch matiser ainsi Les documents contenants un article sont identifi s dans la table liensArticle table remplie lors du crawling R cup ration des titres dans la base de donn es table liens et des arti
10. autre quipe s occupait du crawling il nous a fallu d finir les requ tes utiles nos besoins pour une pr sentation de l information la plus pertinente possible Il a fallu recroiser les diff rentes tables de notre base pour pouvoir trier l information Le premier travail s est situ sur les termes et sur la page de pr sentation les termes du jour Nous avons d fini un mode de calcul pour choisir les termes les plus pertinents nous faisons le produit de son nombre d occurrences par sa longueur En effet nous avons pu voir que les mots courts sont les mots les moins significatifs pour l apport d information Exemple de requ te SQL mysqal_query SELECT termeterme AS terme terme id terme AS id terme terme lon AS longueur COUNT terme id_ terme AS nb FROM termearticle terme WHERE termearticle id terme terme id terme GROUP BY id terme ORDER BY nb DESC longueur DESC LIMIT 10 Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 35 sur 55 Projet ILRI SVG Newspaper Ensuite nous avons travaill sur les requ tes o l utilisateur va rentrer un terme ou un ensemble de termes Ici il a fallu recouper les termes avec les articles Nous recherchons d abord les articles qui contiennent les termes recherch s puis nous ordonnons les articles par nombre d occurrences des termes de ces derniers de mani re d croissante Nous avons do
11. avons choisi est MySQL Tout comme PHP il est gratuit et en plus il s int gre vraiment bien avec celui ci Outre Oracle qui est payant et surtout tr s cher nous aurions pu utiliser PostgreSQL un autre SGBD utilisant SQL comme langage PostgreSQL est beaucoup plus volu que MySQL il est gratuit lui aussi En effet PostgreSQL est beaucoup plus orient objet et dispose d un langage de proc dures qui lui est propre Mais la diff rence de MySQL la communaut d utilisateurs de PostgreSQL est encore tr s peu d velopp e mais surtout l ex cution de requ tes simples est beaucoup plus lente qu avec MySQL Or dans notre programme nous n utilisons que des requ tes simples 3 2 R cup rer le graphe de liens d un site Afin de cerner les moyens que nous allions pouvoir mettre en uvre pour accomplir cette t che nous avons tudi les sources de diff rents sites de presses Nous avons ensuite essayer de comprendre l arborescence globale d un site son graphe de liens Une fois cette phase d tude effectu e nous avons fait des choix conceptuels qui nous ont permis d obtenir la fonction requise 3 2 1 Etude des sources des sites de presse tude d une page html Depuis le d but des ann es 1990 et l explosion d Internet le langage HTML Hyper Text Markup Language est un standard incontournable et sa capacit tre tendue par d autres langages de scripts permet d sormais aux sites Internet d tre beauco
12. de ses co accus s Myriam Delay a de AFP 21h22 A LA UNE nouveau accabl lundi 12 d entre eux tandis N Record historique du p trole international que son fils Jonathan en accusait sept Le en cl ture 41 72 dollars europe proc s est plus que jamais suspendu la parole 2 AFP 21h14 r france des enfants alors que la pol mique sur les soci t m thodes de l instruction se d veloppe L ADP ouverture capital pas r gions remise en cause par carnet Enjeu Une semaine capitale accident Roissy Bussereau pe i Profil Un pr sident d routant AFP 20h45 ee orums R cit L obsession du r seau p dophile Les derni res d p ches HR Londres et Washington veulent une re limite souple leur pr sence en Irak Un jeune Fran ais J r me Le projet de r solution pr sent lundi au eF E pid irav Conseil de s curit de l ONU pr voit simplement Haenhel a sorti Andre Agassi 1 20 5 T 052 que le mandat accord aux forces d occupation ECONOMIE 24 05 2004 21 28 Fininfo fr soit r examin un an apr s le transfert de version tente souverainet un gouvernement irakien CAC 40 0 3628 82 0 60 culture cin ma Le baril de p trole a atteint rechercher 5 F une valeur EA APA un nouveau record historique Strat gie Bush doit d voiler son plan examens 2004 Forum La guerre d Irak ALSTOM finances x at Bruxelles r clame Paris pe forums Le terminal 2E de Roissy a t vacu Je n
13. et l indexation des termes et articles 1 1 Les sites de presse actuels Les sites presse actuels adoptent tous ou presque le m me type d interface graphique qui est calqu e sur la version papier du journal On se retrouve donc avec des pages au contenu abondant et non clair pour le lecteur On voit tout de suite que l information ne tient pas sur une page que l utilisation de la scroll bar est indispensable pour voir la totalit de la page On pr sente au lecteur un nombre trop important de liens hypertextes qui ne lui permet pas de se retrouver correctement On peut retrouver ce type d interface sur tous les grands sites de presse tels que Le Monde Le Figaro Le Monde fr A la Une Microsoft Internet Explorer MIE Fichier Edition Affichage Favoris Outils Si w K la be Liens www julienvdb com 4 Google 4 M t o France Pr c dente Favoris Historique Actualiser Arr ter Adresse http www lemonde fr lundi 24 Nai 2004 feJ Jlonc Mse jour 21h20 Paris 4 N Ele ur garder en m moire oubli S abonner au Monde fr 5 par mois identifiant Forums Examens 2004 Ba ions G o Am rique Cannes 2004 Rechercher La parole des enfants au sommes LES D P CHES Un supporter du FC Porto ES MTE __ c ur du proc s d Outreau js trop press contr l 196 1 mois Alors qu elle avait disculp la semaine derni re 1 km h sur l 410 13
14. et celui du contenu des articles Les messages entre le syst me et l administrateur ne vont que dans un sens ils sont envoy s par l administrateur et re us par le syst me Ces messages peuvent avoir un rapport avec la base de donn es ou l interface Pour ce qui concerne la base de donn e l administrateur a la possibilit de mettre jour certaines donn es notamment les informations importantes qui arrivent en cours de journ es Il peut galement introduire de nouveaux Journaux Pour l interface il peut en modifier les couleurs Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 5 sur 55 Projet ILRI SVG Newspaper Tableau r capitulatif Diagramme Administrateur Utilisateur R sultats de la recherche Conu de l article Modification de la BD pour les mises jour de la BD pour ins rer un journal s couleurs Mots dans le mo de recherche Clic sur l article Navigue dans le graphe de termes ur Nouve Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 6 sur 55 Projet ILRI SVG Newspaper 2 4 Navigation type sur notre site v Arriv e sur le site Avant de pouvoir effectuer des recherches l aide de notre site l utilisateur arrive sur une page o il doit choisir le journal qu il veut consulter Il pe
15. interface Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 19 sur 55 Projet ILRI SVG Newspaper 3 4 2 Diagramme UML Crawler ra Indexeur 4 Indexation d un site de presse 4 1 La strat gie adopter pour indexer un article de presse 4 1 1 Indexer le titre d un article Chaque article d un site de presse poss de un titre Dans le but de pr senter les articles l utilisateur pour atteindre l article en question il devra cliquer sur son titre Nous devons faire en sorte de r cup rer le bon titre associ au bon article Nous avons plusieurs strat gies pour identifier un titre par rapport son article qui lui est propre La premi re piste que nous avions suivie est d isoler le titre par rapport la page html de l article En effet dans la plupart des pages html d un site il y a un couple de balises lt title gt lt title gt dont le contenu est le titre de la page que l on veut r cup rer Car comme nous l avons vu pr c demment l article d un site de presse est dans le contenu d une page html Malheureusement le contenu se trouvant entre ces deux balises titres n est pas toujours le titre de l article correspondant Pour la plupart des sites de presse il repr sente plut t le nom du journal C est dire que ce contenu est statique il ne change pas au fur et mesure des pages Donc cette
16. lorsque l utilisateur clique sur le bouton qui permet d afficher l article nous effectuons la translation c est dire que les coordonn es de la fen tre changent pour se retrouver l int rieur de l cran Nous avons utilis aussi cette technique pour les rubriques pour afficher les informations sur les personnes qui ont particip ce projet ainsi que pour faire appara tre les statistiques concernant les occurrences d un terme dans un article Techniquement nous utilisons les balises de SVG pour d clencher une animation simple par un seul v nement Exemple lt animateTransform id animFenetre attributeName transform type translate from 200 to 300 begin Os dur 1s fill freeze gt Si cette animation doit se d clencher sur plusieurs v nements nous utiliserons un script EcmaScript Ce script est d taill dans la partie A la d couverte de SVG Animations et scripting v Cr ation des liens Pour cr er les liens entre les termes et les articles nous avons utilis les courbes de B zier Ces courbes sont d finies par 4 points Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 31 sur 55 Projet ILRI SVG Newspaper Point qui d finissent l incurvation de la courbe Point d arriv e de la courbe Point de d part de la courbe Milieu de la courbe Fig 10 Principe des courbes de Bezier
17. solution ne peut pas nous convenir pour rep rer un titre d article La seconde piste sur laquelle nous nous sommes pench s est d essayer de trouver un titre d article dans les informations contenues dans le lien qui pointe l article en question Nous avons vu qu un lien identifi par la balise lt a gt en html poss de plusieurs param tres dans le contenu de cette balise Outre son url et son texte de lien il y a un param tre alt qui affiche dans le navigateur de l utilisateur par l interm diaire d une bande jaune se pla ant sous le pointeur de la souris quand celui ci est positionn sur le lien une information concernant le lien Pour quelques sites de presse on peut y retrouver le titre de l article qui est point par ce lien mais pour une grande partie y est affich l url du lien ou m me parfois rien du tout Donc nous ne pouvons pas r cup rer le titre de cette mani re Finalement nous avons opt pour la strat gie suivante tout titre d un article est en fait le texte de lien du lien qui le pointe Comme nous l avons vu pr c demment le texte de lien est contenu entre les deux balises html de liens lt a gt lt a gt Il est donc facile Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 20 sur 55 Interface Projet ILRI SVG Newspaper de l isoler De plus cette strat gie fonctionne pour tous les sites de presse La r
18. souvent une liste plus longue d articles de derni res minutes Il s est av r que ce nombre est tr s difficile chiffrer En effet 1l y a toujours des pages qui ne rappellent pas les rubriques Pour une rubrique le nombre de liens sortants sera forc ment plus grand que pour un article En effet une rubrique poss dera des liens pour toutes ses sous rubriques plus des liens pour des articles correspondants Tandis qu un article ne poss dera bien souvent qu un lien de retour vers sa rubrique et quelques liens vers des articles ayant trait au m me sujet Un autre facteur qui peut d terminer la diff rence entre un article et une rubrique c est le nombre d occurrences d une page dans le graphe de liens On voit bien que le graphe de liens est l encore d terminant Ce nombre d occurrences est en fait le nombre de liens entrants pour cette page Il est facile de remarquer qu une rubrique sera appel e beaucoup plus de fois qu un article Une rubrique est en effet appel e par ses articles pour cr er un lien de retour ainsi que par ses sous rubriques pour la m me raison Tandis qu un article n est appel que par sa rubrique sur certains sites par des articles ayant trait au m me sujet et galement par la une ou t te de rubrique s il repr sente une information importante ou r cente Nous avons galement pu remarquer un genre de rubriques qui ne nous int resse pas pour le sujet de notre projet les annuair
19. sur 55 Projet ILRI SVG Newspaper Exemple de script pour faire glisser une fen tre Ici on peut rajouter des param tres comme le nom de l objet d placer function glisse evt witch from to objet svgDocument getElementB yId witch var X objet getAttribute x 1 if X gt to else dx vitesse to X 100 X dx objet setAttribute x X setTimeout glisse evt which from to 25 Nous avons donc d crit l ensemble du travail effectu et nous allons maintenant nous exprimer sur les difficult s rencontr es ainsi que notre opinion sur ce projet 7 Difficult s rencontr es Concernant le crawl v Faire en sorte que les navigateurs et surtout le serveur web de la fac n arr te pas les fonctions au bout de 30 secondes Nous avons r solu ce probl me gr ce une fonction PHP set_time_limit qui permet de d passer les 30 secondes d ex cution pour une fonction vY Trouver une m thode efficace pour diff rencier les articles des rubriques v Optimiser le code du crawler un maximum pour ne pas passer 3 heures crawler Concernant l indexation yY Bien comprendre la gestion et d tection des groupes mots pleins mots vides y Correctement nettoyer la page pour r cup rer l article Concernant l interface v Les formulaires Trouver la mani re de simuler un champ de formulaire HTML en SVG n a pas t tr s facile et le r sultat n est pas aussi propre qu
20. G l est aussi Notre choix de SVG s est fait car 1l est facilement impl mentable on peut int grer n importe quel langage l int rieur du moment qu il respecte les standards de la W3C Il est gratuit contrairement Flash de Macrom dia Il se marie tr s facilement avec Php qui permet de rendre notre site dynamique Et surtout il ne nous tait pas connu 6 2 2 Animation et scripting Un des points forts de SVG c est que l on peut d finir et d clencher des animations soit d clarativement 1 e en incorporant les l ments d animation SVG dans un contenu SVG soit via un script Le principe pour les scripts est d acc der l l ment voulu puis de modifier ses attributs On acc de aux l ments par le biais du DOM Document Object Model Exemple d une animation pour faire glisser une fen tre sans script lt g id fenetre gt lt animateTransform id animFenetre attributeName transform type translate from 200 to 300 begin Os dur 1s fill freeze gt lt g gt Cette animation va se d clencher au chargement de la page on pourrait la d clencher sur un v nement onclick onmouseover mais si on a une multitude d l ments d placer il faudra alors r p ter ce code pour chaque l ment On peut alors choisir de scripter l animation Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 41
21. Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 44 sur 55 Projet ILRI SVG Newspaper 9 R f rences Le langage SVG tait nouveau pour nous Nous avons d l apprivoiser Pour ce faire nous avons utilis plusieurs sites Internet Nous nous sommes inscrits la newsgroup en anglais traitant de SVG Elle est tr s vivante 9 1 SVG La sp cification http www w3c org Tutorial et traduction de la sp cification http www yoyodesign org Exemples http pilat free fr Exemples cours http www svgefr org 9 2 PHP MySQL Manuel PHP http www php org Manuel MySQL http www mysql com 10 Annexes Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 45 sur 55 Projet ILRI SVG Newspaper Manuel d utilisation Choix du journal Le choix du journal s effectue sur la premi re page qui appara t l cran Obtenir des informations sur cette personne Choix du journal Pour choisir un journal il suffit de cliquer sur son titre Journal s lectionn Cette premi re page permet galement d obtenir des informations sur les personnes qui ont particip la r alisation de ce site Pour cela il faut cliquer sur le nom de la personne Julien Van Den Bossche Maitrise Informatique http Avww julienvdb com info julienvdb com Anthony L
22. Projet ILRI SVG Newspaper 1 Introductio is sn nt na annees Page 3 1 1 Les sites de presses actuels esse Page 3 1 2 Une pr sentation plus accessible Page 4 2 Pr sentation de notre site sessseessenssenessennsssensssseese Page 4 2 1 Les normes respecter ssssseeeeeennseessesnseseee Page 4 2 2 Un site r utilisable facile Modifier Page 5 2 3 Description du mod le sesneennsssse Page 5 2 31 Les ACIQUFS En een annee tenants Page 5 2 3 2 Les informations chang es esssescsesccesocesocesocesscesseesoeeo Page 5 2 4 Pr sentation globale navigation type sur le site sssess0e000 Page 7 3 L Cravw n nn ren ee Sen es Page 11 3 1 Choix technologiques ssesccsssssooecssssccecssoocccecssoocessssoseesssseseesso Page 11 3 2 R cup rer le graphe de liens d un site seesseessoesseesooesocesosesoe Page 12 3 2 1 Etude des sources des sites de presse Html PHP Page 12 3 2 2 Choix CONCPIURIS 55 sne chu side mr trente Page 14 3 3 Diff rencier articles rubriques Page 16 3 3 1 Phase d tudes et de tests mssessessseeeeeeesnseee Page 16 3 3 2 Choix Conc ptnels s ss ts nn de Page 17 3 4 La Base de donn es centre de l interaction entre quipe Page 19 3 4 1 Pr sentation Choix s esseesseessessooesocesocesocesocesecsscessoessoeesoee Page 19 3 4 2 Diagramme UML ste seseneshesenssais Page 20 4 indexation anis assorties Page 20 4 1 Strat gie d
23. ar exemple sont r utilisables facilement Elles se situent dans un fichier annexe qui constitue une librairie L ensemble de nos choix sur les couleurs peut tre modifi par le biais d un fichier externe On peut alors modifier la couleur du texte du fond d cran 2 3 Description du mod le Dans cette partie nous allons vous pr senter les acteurs concern s par notre site ainsi que les informations chang es entre ces acteurs et le syst me 2 3 1 Les acteurs L utilisateur est un acteur important Ses relations avec le site sont du type questions r ponses Il interroge le syst me par l interm diaire du moteur de recherche et obtient des r sultats qui sont en rapport avec sa requ te Une autre cat gorie d acteur est galement concern e par notre site Il s agit de l administrateur Il intervient sur le syst me mais celui ci ne lui r pond pas 2 3 2 Les informations chang es Les informations chang es entre le syst me et les acteurs correspondent en fait des r ceptions et l mission de messages entre les acteurs et le syst me L utilisateur se sert du site pour effectuer des recherches Il met un message qui correspond aux mots qu il a entr dans le moteur de recherche Le syst me lui renvoie alors les articles qui sont en relation avec ces mots Il peut galement recevoir d autres types d information comme l affichage des liens entre les termes et les articles
24. btient des r sultats satisfaisants Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 10 sur 55 Projet ILRI SVG Newspaper E http www julienydb com universite maitrise projet_maitrise interf php terme Raffarin Microsoft Internet Explorer Fichier Edition Affichage Favoris Outils Q RA gt i K la be Liens amp www julienvdb com 8 Google 8 M t o France Pr c dente Favoris Historique Actualiser Arr ter http fu julienvdb com universite maitrise projet_maitrise interf php terme Raffarin y F r5 14 06 2004 We JEwsS iola v nements o numeriques e r gionales monde jeux video D chat terre culture e lections US politiques musique foot Ge soci t s e cin ma e d p ches amp vous e livres imprimer l article conomie rebonds a haut de page emploi chroniques sports voyages sciences meteo e medias nous contacter Internet Fig 7 Consultation par rubrique Vous avez pr sent une vision globale de notre site nous allons donc pouvoir vous expliquer comment nous avons r aliser ce travail en vous exposant les diff rentes tapes de la conception 3 Le crawling Cette partie du projet consiste r cup rer le graphe de liens d un site c est dire r cup rer l arborescence interne du site Au cours de ce crawling nous allons galement
25. chaine lt text gt cptligne chaine Scpt 15 chaine tok tok strtok if cptligne 20 cpt 20 if num 0 t num 1 echo lt a gt lt text x 1300 y 540 style text anchor middle fill 22C3D1 onclick montre evt t numero 1 gt Suivant lt text gt lt a gt lt g gt n else t num 1 echo lt a gt lt text x 1200 y 540 style text anchor middle fill 22C3D1 onclick montre evt t numero 0 gt Pr c dent lt text gt lt a gt t num 1 echo lt a gt lt text x 1300 y 540 style text anchor middle fill 22C3D1 onclick montre evt t numero 1 gt Suivant lt text gt lt a gt lt g gt n cptligne 0 first 1 num cpt 220 cpt 20 n num 1 if num 0 echo lt text x 1200 y 540 style text anchor middle fill 22C3D1 onclick montre evt n numero 0 gt Pr c dent lt text gt lt g gt Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 30 sur 55 Projet ILRI SVG Newspaper else echo lt g gt return num v Affichage des articles Pour faire appara tre la fen tre des articles nous utilisons la translation Nous cr ons cette fen tre hors de l interface principale avec des coordonn es n gatives de fa on ce qu elle ne soit pas visible l cran Ensuite
26. chard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 49 sur 55 Projet ILRI SVG Newspaper Liens entre un terme et les articles qui le contiennent Nouvelle recherche partir des r sultats Si dans les r sultats obtenus certains termes n int ressent pas l utilisateur il peut les retirer Pour cela il doit cliquer sur le symbole qui se trouve la gauche de celui ci Lorsque le curseur de la souris se trouve sur ce symbole la phrase Retirer de la recherche appara t Symbole pour ajouter ce __ Jacques Chiraci terme la recherche Ris Symbole pour retirer ce terme des r sultats de la recherche Une nouvelle recherche est alors lanc e mais le r sultat obtenu ne contient pas le terme retir Une partie de l interface est pr vu pour rappeler l utilisateur les termes de sa requ te pr c d par un ainsi que ceux qu il a retir pr c d par un MINES ES Termes raffarin Jacques Chirac wa a E E b Et les inconnus qui Sarkozy un poids lourd Apr s les retraites Donnedieu de Vabres Critiques unanimes restent ou qui disparaissent serr dans ses marges Fillon change de front prime au condamn Fran ois France Syndication Syndication RSS Q O O Sarxoz O Chirac O Vabres O Donnedietig Termes raffarin Jacques Chirac Jacques Chirac est le terme retir de la recherche raffarin
27. cinq articles Si il y a plus de cinq articles concern s par la requ te l utilisateur peut les consulter gr ce au bouton Suivant Il pourra revenir la page d origine en cliquant sur Pr c dent Boutons permettant de passer d une page l autre Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 48 sur 55 Projet ILRI SVG Newspaper Il existe deux mani res pour visualiser les liens entre les articles et les termes Tout d abord en pla ant le curseur sur un article Les courbes qui apparaissent permettent de savoir quels termes sont contenus dans l article raffarin ient us Borloo ta t te d un Et les inconnus qui Sarkozy un poids lourd apetit Matignon restent ou qui disparaissent serr dans ses marges es N VEN Sarkozy de Mcolas Sarkozy O w Se a NE Etal O Chirag O p ierr Jacques Chirag O Lu Liens entre un article et les termes qu il contient Puis il est galement possible d obtenir des liens en pla ant le curseur sur un terme Les courbes permettent alors de voir les articles qui contiennent ce terme a SVG iNewsPape Termes rafain EEEE Oo se y Et les inconnus qui Sarkozy un pol s lourd Jacques Micolas O Mcoias Sarkozy O Chirac O Fran ois O Pierre Jacques Chirag O Recherche avec ce terme Suivant _ Anthony Lecot Antoine Cau
28. cles correspondants dans les pages html des sites de presse Pour chaque article insertion de son titre et de son texte d article dans la table article Pour chaque article contenu dans la table article on r cup re ses termes gr ce aux motifs de mot qui sont en fait des expressions r guli res Tous les termes sont ins r s dans la table terme ainsi que leur longueur Ces termes sont identifi s et associ s aux articles dans lesquels ils apparaissent dans la table termeArticle Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 26 sur 55 Projet ILRI SVG Newspaper Toutes les informations concernant le site de presse l article son titre et ses termes sont comme nous l avons dit ins r es dans une base de donn es dont voici le d tail des tables qui concernent l indexation article id article int 6 article id rub titreArticle id terme int 6 termeArticle id terme int 6 id article int 6 EEE L enregistrement des donn es des sites de presses est maintenant achev nous allons pouvoir traiter l interface graphique et la pr sentation de l information 5 La conception de l interface choix 5 1 Cr ation d une architecture La premi re chose faire est de d finir un type d interface un squelette du site qui sera stat
29. contenant les motifs de mots rep rer Ensemble de th mes Texte de L article Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 23 sur 55 Projet ILRI SVG Newspaper Maintenant nous allons voir un peu plus pr cis ment les motifs que nous avons utilis s Nous avons tout d abord les motifs primaires qui serviront rep rer les motifs de mots qui nous int ressent Maj tous les mots dont le premier caract re est une lettre majuscule et les suivantes sont soit majuscules soit minuscules Min tous les mots de trois lettres ou moins n ayant que des lettres minuscules Spa tout caract re d espace __ Ponct tout caract re de ponctuation MajLetter une seule lettre majuscule Voyons maintenant les motifs de mots qui nous permettront d isoler les th mes d un article Maj Spa Min Spa Ma j permet de r cup rer des groupes de mots comme par exemple XV de France Guerre en Irak De plus on voit bien que le mot en minuscule est un mot vide et qu il est entre deux mots pleins Maj Spa Maj permet de r cup rer deux mots pleins qui se suivent et qui sont de motif Maj tous les deux Par exemple Jacques Chirac Maj Spa Ma jLetter Ponct Spa Maj permet de r cup rer des termes comme par exemple Georges W Bush _ Maj Spa Min Ponct Maj est presque similaire au premier sauf que le mot
30. cup ration du texte de lien d une page html par les expressions r guli res se fait lors de la phase de crawling Mais dans l indexation on associe le titre le texte de lien l article correspondant Nous verrons plus loin comment est r cup r l article A partir de la table liens de la base de donn es on r cup re les textes de liens de chaque article cette phase t r alis e dans le crawling Non seulement le titre d un article permet de r sumer le contenu de l article ainsi que le ou les th mes abord s mais en plus il peut nous servir filtrer encore plus les pages html C est dire que toutes les pages html d un site de presse ne sont pas toutes des pages contenants un article Les principales s lections ont eu lieu dans le crawling nous proposons donc dans la phase d indexation de ne lancer l algorithme qui r cup re les articles que si le nombre de mots contenu dans le titre d un article est sup rieur ou gal trois Ce filtrage permet notamment de ne pas prendre en compte certaines pubs les dossiers et les rubriques qui comportent une s rie de liens pointant vers des articles mais pas un seul article donc inint ressant pour l indexation Nous allons maintenant voir comment r cup rer un article dans une page html 4 1 2 Indexer le texte de l article Jusqu maintenant nous avons pu identifier quelles sont les pages d un site de presse qui contiennent un article Le but
31. d sormais est d isoler l article car c est lui qui nous int resse Comme pour l indexation d un titre plusieurs strat gies s offrent nous pour l indexation d un article En g n ral les pages contenants un article s organisent suivant ce sch ma Page contenant un article Nom du site de presse Menu Titre de l article ARTICLE i Dossiers nHCOrWWCX Copyright Charte Contacts a premi re piste pour indexer un article tait de se servir des tableaux dans Ie code html En effet tous les l ments de la page menu rubriques article publicit s charte sont Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 21 sur 55 Projet ILRI SVG Newspaper contenus dans des tableaux html par les balises lt table gt pour le d but du tableau lt tr gt pour le d but d une ligne lt td gt pour le d but d une cellule et leurs fermetures correspondantes lt td gt lt tr gt et lt table gt Le but tait donc d arriver enlever tous les tableaux html sauf celui du milieu contenant l article Seulement cette solution n est pas standard pour tous les sites car malgr une structure commune au niveau de l apparence dans le code html ils sont tous diff rents De plus si les balises html de tableaux ne sont pas toutes ferm es ou qu elles s entrecrois
32. de dans sa capacit pouvoir d crire n importe quel domaine de donn es gr ce son extensibilit Il va permettre de structurer poser le vocabulaire et la syntaxe des donn es qu il va contenir En r alit les balises XML d crivent le contenu plut t que la pr sentation contrairement HTML Ainsi XML permet de s parer le contenu de la pr sentation ce qui permet par exemple d afficher un m me document sur des applications ou des p riph riques Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 38 sur 55 Projet ILRI SVG Newspaper diff rents sans pour autant n cessiter de cr er autant de versions du document que l on n cessite de repr sentations o Mise en forme d un document XML XML est un format de description des donn es et non de leur repr sentation comme c est le cas avec HTML La mise en page des donn es est assur e par un langage de mise en page tiers A l heure actuelle il existe trois solutions pour mettre en forme un document XML v CSS Cascading StyleSheet la solution la plus utilis e actuellement tant donn qu il s agit d un standard qui a d j fait ses preuves avec HTML que nous utiliserons XSL eXtensible StyleSheet Language un langage de feuilles de style extensible d velopp sp cialement pour XML Toutefois ce nouveau langage n est pas reconnu pour l instant comme un standard officiel v XSLT eXten
33. de donn es est r ellement le centre du projet En effet elle est remplie par le crawling et l indexation et est utilis e par l interface SVG On a d j vu en d tail le remplissage des tables sites liens pages liensRub et liensArticle dans la section pr c dente ainsi que leurs attributs Ces tables sont donc remplies tour tour par le crawler Seul la table sites est remplie par l administrateur pour y ajouter des sites Internets Qui seront d ailleurs modifi s par la suite pour y ajouter des statistiques Les tables liensRub et liensArticles sont en fait des tables de relations En effet elles ne contiennent que les identifiants respectifs des liens et des rubriques ou articles Elles nous servent pour diff rencier les articles des rubriques Pour la partie indexation les tables article terme et termeArticle entrent en jeu Nous en verrons les attributs la fin de la partie suivante La table article contient le titre de l article ainsi que son identifiant et l identifiant de la rubrique laquelle chaque article appartient Les termes de l article sont stock s dans la table terme L encore nous avons une table de relation entre termes et articles termeArticle Gr ce aux remplissages de ces tables l interface de notre programme peut piocher dans la base de donn es afin de pr senter le contenu du site Et ainsi proposer l internaute une magnifique interface SVG r alis e par le bin me d
34. ecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 46 sur 55 Projet ILRI SVG Newspaper Recherche Une fois le journal choisi l utilisateur peut lancer une recherche http vdbcomputer svg accueil php Microsoft Internet Explorer Fichier Edition Affichage Favoris Outils gt i K Bl x Liens www juienvdb com 8 Google 4 M t o France Pr c dente Suivante Favoris Historique Actualiser Arr ter sse http vdbcomputer sva accueil php Zone de recherche t Termes du jour SJ intranet local d marrer EGUS A Pour cela il lui suffit de taper sa requ te dans la zone de recherche Exemple de recherche Un clic sur permet d afficher les r sultats de la recherche Ceux ci se d composent en deux parties D abord les articles concern s par les mots de la recherche et ensuite les principaux termes contenus dans ces articles Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 47 sur 55 Projet ILRI SVG Newspaper Termes raffarin raffarin Articles concern s Termes contenus dans les par le mot raffarin articles Il peut galement effectuer une recherche partir des termes du jour Pour cela il lui suffit de cliquer sur celui qui l int resse Les r sultats d une recherche ne peuvent contenir que
35. ent appliquer un algorithme permettant de ne r cup rer que le contenu d un seul tableau celui de l article ne marcherait pas pour tous les sites de presse Nous avons donc opt pour une autre strat gie qui est de ne garder que ce qui est texte dans la page C est dire qu il y aura beaucoup d l ments enlever dans le code html chose qui se fera gr ce aux expressions r guli res La premi re chose faire est de ne garder que le corps du document c est dire enlever toutes les en t tes Plus pr cis ment on retire tout ce qui est avant la balise html lt body gt et tout ce qui est apr s la balise lt body gt Ensuite on supprime tous les liens En fait on enl ve tout ce qui y a entre les balises de lien lt a gt et lt a gt donc les textes de liens ainsi que ce qui pourrait y avoir entre les balises lt option gt et lt option gt et les balises lt script gt et lt script gt C est dire les labels de formulaires et le JavaScript Dans le but d avoir un texte vraiment propre on appliquera ensuite la cha ne le code de la page un d balisage complet toutes les balises html et autres tags seront enlev es Pour finir on effectue un nettoyage complet de la cha ne de caract res Le titre de l article souvent r p t sera supprim chaque occurrence de celui ci On peut supprimer aussi quelques caract res sp ciaux comme amp nbsp tabulation Tout ce qui est sauts de
36. er avec le point courant Une fois la commande ex cut e le nouveau point courant devient la paire de coordonn es finale x y utilis e dans le polyb zier Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 32 sur 55 Projet ILRI SVG Newspaper Exemple lt path d M340 380 Q340 330 370 265 T400 150 style stroke 4D54DE fill none gt Fig 11 Rendu SVG du code ci dessus v Zone de recherche Les champs de formulaire n existe pas en SVG nous avons donc du en cr er Nous avons en fait dessin un rectangle avec une zone de texte vide Cette tape relativement facile ne permet l utilisateur de rentrer son texte Il a donc fallu cr er un script qui va tre d clench quand l utilisateur va cliquer sur le rectangle qui d signe le champ et ainsi il pourra rentrer son texte On va reconna tre les frappes de l utilisateur et ainsi nous allons pouvoir inscrire ce qu il recherche dans le champ en modifiant le contenu de la zone de texte Code de la fonction var phrase function tape evt svgdoc evt getT arget getOwnerDocument key evt getCharCode if key 8 amp amp phrasel phrase phrase substring 0 phrase length 1 else lettre String fromCharCode key phrase phrase lettre cible champ_ recherche objet svgdoc getElementByld cible child objet getFirstChild child setData phrase Anthony Lecot
37. erf php terme raffarin OK Liens Google es G Recherche Web p E 78 bloqu e s fg Options 2 Termes raffarin Norton AntiVirus el er raffarin Le si ge chiraquien de Un gouvernement us Borloo la t te d un Etles inconnus qui Sarkozy un poids lourd la citadelle Sarkozy avant de servir petit Matignon restent ou qui disparaissent serr dans ses marges Le si ge chiraquien de la citadelle Sarkozy Et les inconnus qui restent ou qui disparaissent Sarkozy un poids lourd serr dans ses marges Un gouvernement us avant de servir Borloo la t te d un petit Matignon Jacques O Nicolas O Nicolas Sarkozy O Chirag O Fran ois Pierre O Jacques Chirag O internet demarrer per o Ih p w diendo Le si ge chiraquien de ja citadelle Sarkozy Etles inconnus qui restent ou qui disparaissent Sarkozy un poids lourd serr dans ses marges Un gouvernement us avant de servir Bortoo la t te d un petit Matignon ourcentage repr sentant l utilisation du mot Etat dans l article Le si ge chiraquien de la citadelle Sarkozy Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 52 sur 55 Projet ILRI SVG Newspaper Affichage des articles Pour afficher un article il faut cliquer sur l image LS situ e au dessus du titre de l ar
38. es rubriques c est exactement la clause inverse des articles ce qui est tout fait logique Voici donc le sch ma des tables qui nous servent au cours de la phase de diff renciation id_site int 2 url varchar 128 titre varchar 128 minLS int 3 moyenneLS int 3 moyenneOcc int 3 persistant varchar 128 actif tinyint l id page int 6 nivoMin tinyint 1 liensSortants int 3 nbOcc int 3 LS lt moyenneLS OU nbOcc lt moyenneOcc ET LS gt moyenneLS ET nbOcc gt moyenneOcc liensArticle liensRub id_rub int 10 id_ lien int 10 RE Le temps d ex cution de cette phase pour Ouest France est de moins de cing minutes et renvoie 1162 pages int ressantes compos es de 1078 articles et 38 rubriques 46 liens ont taient cart s du fait de leurs nombres de liens sortants insuffisants id_ article int 10 int 10 id_ lien Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 18 sur 55 Projet ILRI SVG Newspaper 3 4 La Base de donn es centre de l interaction entre quipe 3 4 1 Pr sentation choix Apr s ces deux premi res parties il est devenu indispensable de pr senter nos choix quant au sch ma de la base de donn es Ces choix furent motiv s essentiellement par l quipe de crawling indexation et ont taient valid s par l quipe d interfa age La base
39. es termes sa recherche en cliquant sur l ic ne droite du terme Quand le curseur de la souris passe sur l un des ic nes une info bulle lui dit l action envisageable par ex enlever ce terme de la recherche L utilisateur peut galement obtenir des informations sur la fr quence des termes dans les articles En passant le curseur de la souris sur l ic ne situ c t de chaque terme un camembert appara t avec des pourcentages qui correspondent au nombre d occurrences du terme dans les articles qui le contiennent Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 9 sur 55 Projet ILRI SVG Newspaper CA PPPaUNeNvEb comune ste mamie proetemetaiseintenephprienne tetann Wanadoo Fichier Edition Affichage Favoris Outils 2 ou X CA B B L Rechercher Se Favoris M dia te maitrise projet maitrise interf phpiterme raffarin OK Liens B Recherche Web p EP 78 bloqu e s EU options Norton AntiVirus a ie 12 06 2004 5 Termes raffarin internet demarrer 3 http www juienvdb re Paint Fig 6 Pr sence du mot Etat dans les diff rents articles v Rubrique L utilisateur a la possibilit de consulter le site par le biais des rubriques Cette consultation n est pas tr s pertinente car le crawling des rubriques est difficile Sur certains sites on o
40. es webs ou encore les cotations boursi res Il nous faudra donc liminer les sous rubriques r currentes de ces rubriques pour clarifier notre pr sentation de contenu du site 3 3 2 Choix conceptuels Trouver le minimum de liens sortants pour un site s est av r tr s dur r aliser nous avons donc trouv une autre m thode faire la moyenne des liens sortants pour ensuite avoir une donn e de diff renciation Nous avons donc pris tous les liens qui n taient pas des clones et les avons enregistrer dans une table page Nous avons ajout dans cette table la donn e nbLiensSortants qui correspond exactement au nombre de liens sortants de cette page Cette op ration tait ais e car 1l a suffit de compter le nombre de liens clone ou pas qui avait pour p re la page ajout e et voil Pour calculer le nombre de liens entrants il suffisait de compter le nombre de clone plus 1 Ce facteur est aussi d terminant En effet une rubrique sera appel e beaucoup de fois par ses articles et sous rubriques Tandis qu un article ne sera appel que par sa rubrique les articles li s et peut tre la une si c est un article r cent Nous avons galement utilis une valeur importante le plus petit nombre de liens sortants d une page qui est sup rieur 10 Ce nombre nous permet de ne pas s lectionner des pages dont l acc s serait payant ou m me une pop up avec une image La m thode de diff renciation s effectue en deu
41. iers d j enregistr s dans la base de donn es on a ajout un champ clone dans la table liens Quand le crawler enregistre le tableau de liens dans la base il v rifie pour chaque lien que son URL n est pas pr sent dans la base Si c est le cas il met le champ clone 1 sinon il le met 0 Ainsi le crawler ne crawle que les liens qui ont le champ clone I Le crawler s arr tera donc quand pour une profondeur donn e il n y a que des clones Pour la version finale du projet nous nous sommes limit s une profondeur 3 de crawl En effet une bonne partie des articles est crawl e la profondeur 3 Cette profondeur est cependant param trable pour permettre de personnaliser le crawl en fonction du site Voici donc le sch ma de la table liens que nous remplissons au cours de cette premi re phase Nous ajoutons bien entendu le niveau du lien et l identifiant de son p re pour pouvoir le situer Le reste nous l avons expliqu pr c demment Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 15 sur 55 Projet ILRI SVG Newspaper id_ lien int 6 nivo tinyint l pere int 6 url varchar 200 texteLien text original text clone tinyint l Apr s crawling sur le site de Ouest France voil l arborescence avec le nombre de liens total le nombre de liens utiles et le nombre de liens externes ou vers de
42. il h rite d un portefeuille tr s largi Par Tonino SERAFINI et Fran ois WENZ DUMAS jeudi 01 S avril 2004 Liberation 00 00 Le profil C tait le 21 octobre dernier Dans ha l arri re salle de Chez Marius un bar PMU de Valenciennes Nord Jacques Chirac et Jean Louis Borloo d jeunaient avec des repr sentants associatifs Le que S pr sident de la R publique red couvrait caf t Sarxozy t Chirac C f Nicolas une journ e durant par l entremise du ministre de la Ville la fracture sociale Le chef de l Etat est rentr enthousiaste de cette d couverte du laboratoire valenciennois persuad que son ministre tait un des rares qui r ussissent Borloo 52 ans a toujours t l troit dans son costume de ville Bonne gueule au franc parler dat O Jacques O Fran ois O Piere d Internet EE eLEc es K i _ ttp Fig 5 Ecran montrant les r sultats d une recherche ainsi qu un article 2 d marrer v Recherche approfondie L utilisateur peut affiner sa recherche En effet si certains termes obtenus ne l int ressent pas il peut les retirer par l ic ne qui se trouve droite du terme pas tr s visible sur la copie d cran Dans ce cas une nouvelle recherche est lanc e avec les m mes mots d origine tap s par l utilisateur avec les m mes articles mais sans les termes inint ressants pour l utilisateur Il peut aussi ajouter un d
43. indexation d un site de Presse sssseessosessoocessosee Page 20 4 1 1 Indexer le titre d un article ses Page 21 4 1 2 Indexer le texte d un article ses Page 23 4 2 Strat gie d indexation des termes ssesseesseesscesseesooesccesocesoe Page 23 4 2 1 Les motifs de mots utilis s sssessseseeenseee Page 23 4 2 2 Traitements des mots insertion dans la BD Page 25 5 La conception de l interface choix ssssececssooecesssooescssssoocesssseseeeoo Page 27 5 1 Cr ation d une architecture eessseesssocesoocessocssoocessocessocessoosee Page 27 5 2 Requ te sur les termes et artiCles ssssssesseesenseee Page 35 5 3 Vers un site dynamique insertion des requ tes sers Page 37 5 4 FINANSAUON an en sn td ne ennemis teens Page 37 6 Les outils utilis s pour l interface esse Page 38 6 1 Le dynamisme du site avec PHP MySQL esmense Page 38 6 2 A la d couverte de SVG sseesseesseescessoeccoessocesecesoesscesscesseesseesoees Page 38 6 2 1 SVG bas sur XML ssssessessssoccsssccesoocessocessocessocessoesssoosss Page 38 Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 1 sur 55 Projet ILRI SVG Newspaper 6 2 2 L animation et le scripting ss Page 41 7 Difficult s rencontr es eesesesesssoessoesscesscesocesocesoeesoeesoesooescoescoesosesoe Page 42 8 Conclusion travail en groupe sssssssessessseseseses
44. ique dans un premier temps statique dans le sens o il n y a pas de base de donn es derri re pour rendre le site dynamique Nous allons vous expliquer les techniques que nous avons utilis pour pr senter l information Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 27 sur 55 Projet ILRI SVG Newspaper L architecture de notre interface est construite de la fa on suivante Date du jour Fen tre principale o Zone de recherche apparaissent les r sultats AE MOVAS w Termes raffarin raffann Remaniement Hier les tractations entre le duo ex cutif et les ministrables ont t tendues et compliqu es jusqu aux derni res heures Par Vanessa SCHNEIDER jeudi 01 avril 2004 Liberation 00 00 eux heures C est le temps qu il a fallu patienter pour enregistrer la premi re gaffe d un membre du gouvernement Raffarin 3 Elle est l oeuvre de Michel Barnier qui s est dit dans la soir e heureux de rejoindre une quipe en difficult De beaux d buts de diplomate pour le nouveau ministre des Affaires Etrang res En difficult cette quipe l a t d s sa composition tant celle ci fut poussive a fall trois jours entiers au duo Chirac Raffarin pour y parvenir Et ce n est qu 19 h 25 hier soir que Philippe Ba secr taire g n ral de l Elys e a pu Suivant Barre permettant d obtenir les Fen tre qui co
45. lien Van Den Bossche Beno t Moulin Interface graphique Page 43 sur 55 Projet ILRI SVG Newspaper 8 3 Am liorations possibles Concernant le crawl nous aurions aim traiter les points suivants Possibilit de crawler le site sur toute sa profondeur Cette m thode est tr s co teuse en temps mais permettrais une indexation totale d un site v Possibilit de crawler un site avec une heuristique La phase de crawl ne s arr terait alors qu apr s avoir r cup rer un nombre d articles d termin s Cette heuristique pourrait tenir compte de l url absolues d un fichier par exemple l arborescence des r pertoires Possibilit de mettre jour des statistiques plus pouss es pour chaque site Ceci consisterait m moriser les rubriques avec leurs chemins d acc s Et si l utilisateur affirme que ce n est pas une rubrique modifier la statistique Concernant l indexation yY Respect des paragraphes de la police de caract res y Ajout des images dans les articles Concernant l interface Nous aurions aim travailler avec les rubriques mais ces derni res sont difficiles diff rencier lors de la partie crawling Nous aurions souhait travailler avec les sessions en php pour faire notre caddie virtuel et viter de faire passer les param tres dans l url Nous aurions souhait int grer les images dans les articles mais la r cup ration de ces derni res a chou lors du crawl Anthony
46. ligne et espaces avant le d but du premier mot de la cha ne et apr s la fin du dernier mot de la cha ne seront supprim s Finalement on se retrouve avec une cha ne de caract res nettoy e et surtout correspondant l article que l on veut isoler On va maintenant voir d un point de vue g n ral le principe de l algorithme d indexation d un article et de son titre ainsi que l interaction avec les tables de la base de donn es Pour chaque lien consid r comme pointant vers un article tous les liens identifi s dans la table liensArticle on r cup re son titre gr ce la table liens et on r cup re l article correspondant au lien qui le pointe puis on ins re l article avec un identifiant unique r cup r dans la table liensArticle ainsi que son titre correspondant dans la table article Lors de l insertion dans la base de donn es on n oubliera pas de prot ger les caract res de guillemets et d apostrophes des articles et des titres pour viter des incoh rences et des erreurs Le sch ma suivant reprend les grandes lignes de l algorithme que l on vient de voir Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 22 sur 55 Projet ILRI SVG Newspaper R cup rer titre BD Page HTML Table liens Table liensArticle Table article
47. maintenant l utilisation de ces motifs de mots l indexation des termes et leurs relations avec les articles Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 24 sur 55 Projet ILRI SVG Newspaper 4 2 2 Le traitement des mots et l insertion dans la base de donn es Le principe g n ral de ce qui reste faire est qu partir des articles qui sont index s dans la base de donn es on r cup re tous les termes et on les indexe leur tour dans la base On se base donc sur l algorithme suivant pour tout article tant index dans la table article on applique la routine contenant les motifs de r cup rations de termes on teste pour chaque terme s il existe d j dans la table terme Si c est le cas on ins re les bons identifiants dans la table termeArticle Sinon on ins re le terme dans la table terme on indique sa relation avec l article dans termeArticle fin Voici le sch ma qui d crit l algorithme pr c dent BD Table article 3 R cup rer termes Table termeArticle j Table terme 3 Comme pour le sch ma d indexation des articles les chiffres correspondent aux instants dans le temps L algorithme s ex cute en 10 minutes peu pr s pour indexer tous les termes pour le site de presse Ouest France fr On voit bien la cr ation d une relation entre un terme et un
48. nc obtenu les articles les plus pertinents pour l utilisateur Les identifiants des articles vont tre stock s dans une variable que l on va construire et qui sera une variable qui respectera la syntaxe SQL pour qu elle puisse tre introduite dans une autre requ te Requ te SQL requete mysql_query SELECT article id article AS numarticle article titreArticle AS titre COUNT terme id_terme as nb FROM terme termearticle article WHERE terme id_ terme termearticle id terme and termearticle id_article article id_article and terme terme GETIterme GROUP BY numarticle ORDER BY nb DESC Code pour la cr ation de la variable liste_article while rownb lt offset nbmax amp amp ligne mysqal_fetch_array requete tabldArticle i ligne numarticle if rownb gt offset if rownb offset liste_article ligne numarticle else liste_article ligne numarticle Stockage des articles liste_article Par exemple la fin de la boucle on se retrouve avec liste_article 1 5 112 34 Maintenant il nous faut trouver les autres termes qui relient ces articles entre eux pour pouvoir faire naviguer l internaute dans les graphes de termes Pour se faire nous avons stock les num ros des articles que l on a tri s puis on va les utiliser dans une nouvelle requ te cette requ te va choisir tous les termes en commun aux articles choisis puis va les cla
49. nsions Ce format supporte galement les animations comme en t moigne notre site SVG admet trois types d objets graphiques des contours graphiques vectoriels par exemple des trac s consistant en lignes droites et courbes des images et du texte Les objets graphiques peuvent tre regroup s styl s transform s et compos s dans des objets pr c demment rendus L ensemble de fonctions comprend des transformations imbriqu es des trac s de rognage des masques bas s sur la couche alpha et des objets de gabarit Les dessins SVG peuvent tre interactifs et dynamiques Des applications sophistiqu es de SVG sont r alisables avec le renfort d un langage de script pour agir sur le Mod le Objet du Document DOM de SVG qui offre un acc s complet tous les l ments attributs et propri t s Nous avons choisit le langage EcmaScript qui est tr s proche du Javascript Un large jeu de gestionnaires d v nements tel que onmouseover et onclick peut tre assign s tout objet graphique SVG Comme SVG s appuie sur le XML nous allons vous pr senter le XML puis ensuite quelques l ments particuliers et propres SVG 6 2 1 SVG bas sur XML XML eXtensible Markup Language langage balises extensibles est en quelque sorte un langage HTML am lior permettant de d finir de nouvelles balises Il s agit effectivement d un langage permettant de mettre en forme des documents gr ce des balises La force de XML r si
50. ntient l article rubriques ou de revenir la page d accueil Liens entre les articles et les termes Fig 8 Description de notre interface Nous avons r fl chi sur plusieurs types d interfaces avec plusieurs rectangles un pour les rubriques un pour la recherche un pour les r sultats un pour les articles mais cela ne convenait pas car la place pour afficher les r sultats de la recherche se trouvait r duite Nous avons donc d cid de cr er une interface qui privil gie les r sultats Les autres l ments contenu de l article statistiques n apparaissent que lorsque l utilisateur le d cide chaque l ment appara t par mouvement de translation yY Syst me de coordonn es Lors de la cr ation d une interface en SVG nous travaillons beaucoup avec les coordonn es des objets Le coin sup rieur gauche de la fen tre correspond l origine du rep re L axe des abscisses est dirig de gauche droite et celui des ordonn es de haut en bas Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 28 sur 55 Projet ILRI SVG Newspaper Tous les l ments doivent tre affich s avec leurs positions Le texte fait partie des l ments graphiques et donc nous avons du faire une fonction pour g rer le retour la ligne Il n existe pas de marqueur de retour la ligne en SVG comme on peut le trouver en HTML La foncti
51. on va mettre le texte la ligne toutes les n longueurs Nous comptons la longueur de chaque mot puis nous incr mentons un compteur Si le compteur arrive n alors on passe la ligne Si le compteur est sup rieur n avec le dernier mot alors on passe la ligne et on affiche ce mot puis on relance la m me proc dure avec le reste du texte On vite ainsi de couper les mots v Principe de visualisation des articles Nous avons choisi d viter l utilisation de la scrollbar dans les articles et nous avons choisi de garder le principe des livres tourner une page On a alors la fin de chaque page d un article un bouton pr c dent et un bouton suivant raffann d voiler la nouvelle quipe de Jean Pierre Raffarin un gouvernement pl thorique 43 membres au fort go t de d j vu 25 anciens Epilogue d une longue journ e de tractations Le matin Raffarin se rend une nouvelle fois l Elys e pour un entretien avec Jacques Chirac Depuis l aurore les lus de droite et de gauche se succ dent dans les m dias pour dire tout le bien ou tout le mal qu ils pensent de sa reconduction Matignon Le porte parole de l UMP Renaud Donnedieu de Vabres pas encore nomm ministre de la Culture fayote C est une bonne nouvelle parce que Jean Pierre Raffarin est un blicain authentique humaniste P 4 3 i age suivant t sollicit en tapant comme un sourd sur Raffarin d plo
52. our les extensions nous Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 14 sur 55 Projet ILRI SVG Newspaper avons simplement utilis une expression r guli re Si l extension est dans l ensemble suivant on n enregistre pas le lien dans la base de donn es mailto javascript pdf jpg bmp gif jspx swf Cette liste est exhaustive et permet un bon tri Si l on met toutes les extensions d images possibles la phase de test prendra plus de temps Il faut toujours garder l esprit de rendre le code le plus optimal possible Pour ce qui est des liens externes nous avons ajout dans la base de donn es une table sites Cette table contient pour chaque site son nom son url et une cha ne de caract res persistants Cette cha ne correspond l url de la page web priv e des caract res du d part Exemple pour le site de Ouest France URL http www ouest france fr Cha ne persistante ouest france fr Le cas de Ouest France est particulier En effet la cha ne persistante est un motif d expression r guli re Il s est av r que Ouest France utilisait la notation avec et sans tiret Dans tous les autre cas c est juste l URL priv e de http www Pour naviguer dans un site l URL peut tre constitu ainsi http tv ouestfrance fichier asp http www ouest france tv fichier asp Pour ne pas crawler des fich
53. ouveaux en gagements mots crois s jeux utoabila en raison de nouveaux craquements shopning Ces craquements provenant de aeaa M la vo te du b timent se sont fait Les pays membres de l UE F He fpubs lemonde fr RealMedia ads click_Ix ads HOME LEMONDE index_homepage exclu 1564924482 Top2 lemonde2_t FE ore SRE RM 0 Internet CONSTITUTION EUROP ENNE Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 3 sur 55 Projet ILRI SVG Newspaper Fig 1 Exemple de Une du site Le Monde 1 2 Une pr sentation plus accessible Comme on vient de le d crire ci dessus trop d informations est pr sent au lecteur Pour tenter de pr senter cette information nous avons d cid de faire naviguer le lecteur dans les graphes de termes et graphes d articles Les termes sont des mots ou des groupes de mots qui se r p tent dans un article Bien entendu il ne faut pas s occuper des articles des d terminants par exemple Donc dans chaque article on peut extraire les termes les plus r currents et ainsi les stocker pour avoir facilement acc s l information car ils seront les mots clefs de l article On peut relier donc les termes aux articles Dans plusieurs articles on va retrouver des termes identiques et on pourra alors relier ces articles par ces termes communs Fig 2 Le terme 1 et le terme 4 relie les deux articles 2 Pr senta
54. paper Un site de presse au m me titre que la plupart des sites webs commerciaux a la particularit de rappeler certains liens importants sur presque toutes les pages rubriques pages d accueil Cette fonctionnalit est d ailleurs in vitable pour un gain de temps vident de navigation pour l internaute Il nous faudra donc galement trouver une parade cela pour ne pas tudier une page d j crawl e 3 2 2 Choix conceptuels Tout d abord il nous a fallut coder une fonction pour obtenir le tableau de liens d une page HTML Pour cela nous avons utilis la fonction php preg_match_all C est en fait une fonction issue du langage PERL et qui utilise les expressions r guli res pour trouver toutes les occurrences d une cha ne de caract res dans une autre Voici donc le motif d expression r guli re que nous avons utilis pour obtenir le tableau de lien lt Ta A href HREF gt gt 2 n lt a A gt Ce motif prend en compte la casse de l expression les sauts de lignes ventuels et les param tres qui peuvent se trouver l int rieur de la balise ouvrante Ensuite nous savons que la troisi me colonne du tableau retourn correspond l URL du fichier point par le lien Nous savons galement que la cinqui me colonne correspond au texte de lien Ensuite il nous faut rendre les URL absolues Pour cela nous avons d velopp un petit programme q
55. rant une Fig 9 La fen tre de l article Pour mettre en place ce type de visualisation nous comptons le nombre de lignes que nous affichons puis partir d un nombre de lignes donn nous cr ons une nouvelle division au sens du DOM de la W3C qui va permettre de cr er la page suivante de l article Une fois les divisions cr er nous les rendons invisibles en modifiant l attribut de chaque division Quand l article appara t nous mettons la premi re division visible Quand on fait une transition d une division une autre on appelle une fonction cacheTout qui permet de cacher toutes les divisions puis ensuite on rend visible la division souhait e Par exemple si on a d coup l article 1 en 3 pages nous aurons les divisions 1_0 lt 1_1 et 1 2 Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 29 sur 55 Projet ILRI SVG Newspaper Fonction alaligne qui permet de mettre le texte la ligne et de g n rer les pages des articles function alaligne string numero string l article numero numero de l article cptligne 0 tok strtok string cpt 220 chaine first 1 num 0 while tok if cptligne 0 amp amp first 1 num2 numero _ num echo lt g id num2 visibility hidden gt n Sfirst if strlen chaine strlen tok gt 40 echo lt text x 1125 y cpt
56. ravailler la fac du fait qu il y a eu des difficult s installer un navigateur acceptant SVG 8 Conclusion 8 1 Le travail en groupe Ce travail en groupe de deux bin mes tait tr s int ressant et enrichissant En effet malgr quelques lenteurs de communications au d but nous avons r ussi bien nous r partir les t ches Cette exp rience tait vraiment enrichissante car elle nous a appris g rer notre temps et notre volution dans le travail en fonction d une autre quipe L une ne peut effectivement pas fonctionner sans l autre 8 2 Notre point de vue sur le projet Ce projet tait tr s int ressant et de plus il semble aller dans le sens de la plupart des webmasters rendre la navigation sur les sites Internet plus facile En effet on voit d j des sites comme le Monde ou Lib ration ajouter chaque article des liens vers les articles ayant trait au m me sujet Nous avons pu d couvrir les coulisses des sites de presse ce qui nous permet de mieux les conna tre Nous avons pu travailler avec un nouveau langage SVG qui est tr s puissant bas sur XML et on peut incorporer n importe quelle langage l int rieur d un code SVG qui respecte les standards XML et en plein essor Nous avons appris d couvrir ce langage par nous m me et nous avons bien vu l int r t des newsgroups forums et autres communaut s de d veloppeurs Anthony Lecot Antoine Cauchard Crawling et Indexation Ju
57. rmer la fen tre des rubriques y J SVG NewsPaper e Termes Raffarin e numeriques e r gionales jeux video Ea chat amp culture amp lections US musique foot p ches imprimer l article naut de page Rubriques Retour la page d accueil Pour revenir la page d accueil o se trouvent les termes du jour il faut cliquer sur le bouton Les Titres Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 54 sur 55 Projet ILRI SVG Newspaper Bouton pour revenir la page Les Termes du Jour Ve Termes raffarin Jacques Chirac Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 55 sur 55
58. s pages d un format proscrit 22500 20000 17500 15000 12500 10000 7500 nombre de liens 5000 2500 Statistiques de ouest france 21305 12897 total E utiles pas stock s 2626 1524 7 i 0 72 52 32 423 R 0 1 2 3 profondeur Le temps d ex cution d un tel crawl est de 2171 secondes soit peu pr s 35 minutes 3 3 Diff rencier article rubrique Pour effectuer cette t che nous avons du dans un premier temps assimiler les diff rentes structures des sites de presses Nous avons pour cela essayer diff rents tests sur des param tres int ressants du graphe de liens 3 3 1 Phase d tude et de tests Le premier l ment de test que nous avons utilis pour diff rencier les articles et les rubriques c est le nombre de liens sortants d une page Tout d abord nous avons essay de d terminer le nombre minimum de liens sortants pour une page c est dire le nombre de liens qui sont pr sents sur toutes les pages Ce nombre de liens correspond la structure de navigation d un site le titre du journal tout en haut la liste des rubriques sur le c t gauche au milieu des articles br lants et droite bien Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 16 sur 55 Projet ILRI SVG Newspaper
59. see Page 43 8 1 Le travail en groupe 22 nn saone en tee Page 43 8 2 Notre point de vue sur le projet sssssesseeseseseseseee Page 43 8 3 Am liorations possibles ssssesseesssesenesseseeeneceee Page 44 9 R f rENC snamnssnnnisndanamanmanosessedsessse Page 45 10 Annexes manuel utilisateur ssssssseessssseeseseeeseeesses Page 46 Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 2 sur 55 Projet ILRI SVG Newspaper 1 Introduction Le but de notre travail qui s effectue deux bin mes est de faciliter le contenu des sites de presse Les Unes des sites actuels sont tr s charg es et tiennent sur plusieurs crans Beaucoup d informations sont amen es au lecteur et il n est pas forc ment m me de se rep rer dans cette amas d informations qui rend le site peu lisible Trop de directions possibles liens hypertextes sont propos es l internaute qui se retrouve ainsi noy dans le contenu du site On a donc remarqu un manque d accessibilit l information qui nous a amen travailler sur un nouveau concept de pr sentation de cette information Dans la suite de ce rapport nous allons vous expliquer comment nous avons pu cr er une nouvelle pr sentation en utilisant la navigation dans les graphes de termes et dans les graphes des articles ainsi que par une tude pr alable des sites de presse donnant lieu au crawling
60. sible StyleSheet Language Transformation Il s agit d une recommandation W3C du 16 novembre 1999 permettant de transformer un document XML en document HTML accompagn de feuilles de style o Structure d un document XML XML fournit un moyen de v rifier la syntaxe d un document gr ce aux DTD Document Type Definition Il s agit d un fichier d crivant la structure des documents y faisant r f rence gr ce un langage adapt Ainsi un document XML doit suivre scrupuleusement les conventions de notation XML et peut ventuellement faire r f rence une DTD d crivant l imbrication des l ments possibles Un document suivant les r gles de XML est appel document bien form Un document XML poss dant une DTD et tant conforme celle ci est appel document valide Exemple de DTD On d finit un l ment comme suit lt ELEMENT Nom Mod le gt puis on peut assigner plusieurs types de Mod le Type pr d finiDescription ANY L l ment peut contenir tout type de donn es EMPTY L l ment ne contient pas de donn es sp cifiques PCDATA L l ment doit contenir une cha ne de caract re Exemple de d claration dans la DTD lt ELEMENT Nom PCDATA gt Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 39 sur 55 Projet ILRI SVG Newspaper Exemple d utilisation lt Nom gt Dupond lt Nom gt D autre part il es
61. sont braqu s sur ce pays jeune contrast et surtout tr s dynamique t Bia Lire l article Z Etude de l arborescence d un site de presse Un site web correspond une arborescence finie qui peut tre plus ou moins profonde mais qui restera toujours finie On a constat qu une profondeur trois on touche quasiment tous les articles et ce sur presque tous les sites En effet une profondeur correspond un clic de linternaute En trois clics linternaute est entr dans une rubrique puis une sous rubrique et enfin vers un article En effet la plupart des sites de presses poss dent une arborescence de rubrique qui est gale 2 Par contre il ne faut pas oublier que sur un site web il peut y avoir des liens externes c est dire des liens qui pointent vers d autres sites web Il nous faudra donc trouver un moyen d viter de sortir de la structure interne du site sans quoi la phase de crawling ne manquerait pas de parcourir le World Wide Web Dans le graphe de liens d un site web on trouve des fichiers poss dant diff rentes extensions html php asp jpg exe zip pdf cgi xml xhtml Il nous faudra donc d cider quels types de fichiers nous allons stocker dans notre graphe et quels types nous allons exclure au cours d une phase de crawling Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 13 sur 55 Projet ILRI SVG News
62. sser par nombre d occurrences de mani re d croissante Ici on se limite au dix meilleurs termes Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 36 sur 55 Projet ILRI SVG Newspaper La requ te SQL requete mysql_query SELECT terme id terme AS idTerme terme terme AS nomterme COUNT terme id_terme AS nb FROM termearticle terme where termearticle id_article IN liste_article AND termearticle id_terme terme id_terme AND terme terme _GET terme GROUP BY terme id_terme ORDER BY nb DESC LIMIT 10 5 3 Vers un site dynamique insertion des requ tes Nous avons maintenant notre architecture et nos requ tes nous devons maintenant combiner les deux pour que notre site fonctionne correctement Cette tape appelle les fonctions d finies dans l architecture du site fonction alaligne avec en param tres les r sultats des requ tes SQL On appelle les fonctions dans des boucles tant que la requ te donne des enregistrements alors appliquer les diff rentes fonctions aux enregistrements Exemple while ligne mysql_fetch_array requete terme ligne terme if ligne idterme idterme if idterme makegraph tabdata tabnom ligne terme idterme 5 4 Finalisation Cette phase nous a permis de croiser nos r sultats avec les requ tes SQL simples tap es dans une fen tre MySQL pour v rifier si l on n a
63. stocker des variables utiles afin de diff rencier les articles des rubriques 3 1 Choix technologiques Pour faire tourner nos algorithmes de crawling et d indexation nous utilisons PHP qui est un langage de script multi plateformes PHP poss de beaucoup d avantages par rapport ces principaux concurrents que sont Java JSP et ASP tant tous les trois les principaux langages dynamiques utilis s sur Internet Pour commencer PHP est gratuit et open source contrairement ASP qui appartient Microsoft et est lui payant De plus la syntaxe de PHP est proche de celle du C et c est un langage de haut niveau c est dire que beaucoup de fonctions existent d j sans avoir les reprogrammer Enfin les avantages de PHP par rapport JSP c est qu il s int gre tr s bien avec un Syst me de Gestion de Base de Donn es SGBD comme MySQL ou PostgreSQL et que les temps d ex cutions de ses scripts sont Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 11 sur 55 Projet ILRI SVG Newspaper plus rapides que ceux des scripts JSP Un autre avantage par rapport Java est que PHP g re plus facilement les expressions r guli res principaux outils de notre programme Cela s explique par le fait que PHP a grandement remplac le langage PERL qui tait tr s pratique dans la manipulation de cha nes de caract res Le syst me de gestion de base de donn es que nous
64. t possible de d finir des r gles d utilisation c est dire les l ments XML qu un l ment peut ou doit contenir Cette syntaxe se fait l aide de notations sp cifiques dont voici un r capitulatif Op rateurfSignification Exemple L l ment doit tre pr sent au minimum une fois A L l ment peut tre pr sent plusieurs fois ou aucune A L l ment peut tre optionnellement pr sent A L l ment A ou B peuvent tre pr sents pas les deux A B L l ment A doit tre pr sent et suivi de l l ment B A B 0 Les parenth ses permettent de regrouper des l ments afin de leur appliquer les A B autres op rateurs Ainsi on peut cr er la d claration suivante dans la DTD lt ELEME personne nom prenom telephone email gt lt ELEME nom PCDATA gt lt ELEME prenom PCDATA gt lt ELEME telephone PCDATA gt lt ELEME email PCDATA gt Cette d claration pourra donc donner un document XML du style lt personne gt lt nom gt Dupond lt nom gt lt prenom gt Jean lt prenom gt lt telephone gt 0231967867 lt telephone gt lt email gt Dupond J wanadoo fr lt email gt lt personne gt Bien d autres l ments sont importants dans les DTD mais nous n allons pas nous exposer plus dessus On pourra voir les sp cifications sur le site de r f rence http www w3 org TR REC xml dt doctype
65. ticle Ensuite pour faire d filer les pages de l article il faut utiliser les boutons Pr c dent et Suivant Le bouton Fermer sert faire dispara tre la fen tre de l article Bouton permettant de fermer Cliquer ici pour afficher l article W foniatrie Q C Newre Termes Etat Remaniement Hier les tractations entre le duo ex cutif et les ministrables ont t tendues et compliqu es jusqu aux derni res heures Par Vanessa SCHNEIDER jeudi 01 avril 2004 Liberation 00 00 eux heures C est le temps qu il a fallu patienter pour enregistrer la premi re gaffe d un membre du gouvernement Raffarin 3 Elle est l oeuvre de Michel Barnier qui s est dit dans la soir e heureux de rejoindre une quipe en trois jours entiers au duo Chirac Raffarin pour y parvenir Et ce n est qu 19 h 25 hier soir que Philippe Bas secr taire g n ral de l Elys e a pu Suivant Contenu de l article i Bouton permettant le d filement des pages Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 53 sur 55 Projet ILRI SVG Newspaper Affichage des rubriques Pour obtenir les diff rentes rubriques l utilisateur doit cliquer sur le bouton pr vu cet effet Une fen tre contenant les rubriques appara t Pour la refermer il lui suffit de cliquer sur le bouton Fermer Bouton pour obtenir les rubriques d R Bouton fe
66. tion de notre site 2 1 Les normes respecter Bien videmment le but de notre travail est de refaire la pr sentation d une autre mani re 1l ne faut pas reprendre ce qui existe d j Comme on vient de le voir nous essayons de travailler sur les termes les articles et leurs liens donc nous allons nous attacher faire une pr sentation de l information autour de ces liaisons entre termes et articles Pour repr senter ces liaisons nous devons utiliser des dessins dynamiques Nous nous sommes accord pour garder l acc s l information par le biais des rubriques Notre site doit pouvoir accueillir n importe quel site de presse dans n importe quelle langue Le cahier des charges est assez libre car c est notre imagination qui doit nous amener une interface agr able et efficace Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 4 sur 55 Projet ILRI SVG Newspaper 2 2 Un site r utilisable facile modifier Le site a t con u pour qu il soit r utilisable sur un grand nombre de sites de presse La source des donn es pour l interface graphique est une base de donn es dont le sch ma a t d fini par l quipe enti re Nous pouvons crawler la plupart des sites de presses actuels L ensemble des fonctions pour dessiner les courbes entre termes dessiner des graphiques d placer des l ments SVG translation p
67. tre d une part les titres des articles qui sont en relation avec les mots tap s par l utilisateur d autre part les principaux termes contenus dans ces articles En passant le curseur de la souris sur les articles et sur les termes l utilisateur peut alors observer dans quels articles il pourra trouver les diff rents termes Enfin il lui suffit de cliquer sur un article pour pouvoir le lire S1 l utilisateur est int ress par d autres termes qui r sultent de sa recherche il peut cliquer dessus pour lancer de nouvelles recherches partir de ces termes Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 8 sur 55 Projet ILRI SVG Newspaper 2 E http www julienvdb com universite maitrise projet_maitrise interf php terme Raffarin Microsoft Internet Explorer Fichier Edition Affichage Favoris Outils d 2 a Q X D K Le Le Liens www julienvdb com 8 Google M t o France Pr c dente ar Favoris Historique Actualiser Arr ter Adresse http www julienydb com universite maitrise projet_maitrise interf php terme Raffarin v OK 15 06 2004 Termes Raffarin Le si ge chiraquien de Un gouvemement us RENE MA Re d un Etles inconnus qui Sarkozy un poids lourd la citadelle Sarkozy avant de servir era 1 restent ou quidisparaissent serr dans ses marges Emploi et Coh sion sociale Etiquet ministre social
68. ui prend en compte la structure de l URL trouv e puis concat ne le chemin du fichier o se trouvait le lien Si pas http dans l adresse Si en premier caract re ajoute l url du site devant l adresse Sinon reconstitution de l url absolue Sinon c est bon on nettoie juste l adresse Il nous faut galement faire un travail d affinage sur les textes de liens Nous avons d cid d exploiter uniquement le texte de lien sous format texte Nous avons donc programm un petit script qui nettoie le texte de lien pour ne garder que le texte int ressant Si le texte de lien n est qu une image nous essayons malgr tout de prendre la l gende comme texte de lien alt ou name Nous conservons aussi l original du texte de lien dans un champ de la table Une fois ces fonctions cod es il nous reste coder la boucle principale du crawling qui va stocker le graphe de liens dans la base de donn es MySQL Cette boucle devra en fait commencer par stocker le tableau de liens de la une puis automatiquement cr er et stocker les tableaux de liens de chaque lien du premier tableau de liens Et ainsi de suite jusqu ce qu une condition soit v rifi e Pour avoir une boucle qui s arr te il nous faut respecter les conditions cit es dans la partie pr c dente Pour viter de sortir du site et de stocker des fichiers qui poss dent des extensions non voulues nous avons d fini une m thode StockOuPas qui fait le tri P
69. up plus dynamiques Nous nous sommes donc int ress s dans un premier temps l impact que pouvez avoir ces diff rents langages sur la clart et l int grit des sources HTML Les principaux langages de scripts utilis s par les sites de presses sont le PHP Hypertext PreProcessor ASP de Microsoft Active Server Pages le CGI Common Gateway Interface le JavaScript issu du Java qui peut lui produire des applets petit programmes java visible gr ce un navigateur le Vbscript qui est lui issu du Visual Basic et enfin le langage XML eXtensible Markup Language qui permet aux d veloppeurs de cr er leurs propres balises Pour r cup rer le graphe de liens d un site il faut tre capable de trier dans les sources du programme ce qui correspond un lien Il existe en fait deux m thodes pour repr senter un lien lt a param tres href url param tres gt texte de lien lt a gt lt javascript onClick window open gt Cependant la plupart des liens sont repr sent s avec la premi re m thode Les param tres pr sents l int rieur de la balise lt a gt peuvent tre devant ou derri re l url ou les deux Pour ce qui est de la deuxi me repr sentation des param tres peuvent galement tre pr sents De plus apr s la cha ne onClick on peut avoir n importe quelle fonction java Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique
70. ut galement sur cette page obtenir des informations sur les cr ateurs du site A EMTEC on EX CAEN enya conan Fichier Edition Affichage Favoris Outils 2 Q Pr c dente a gt x a A B Rechercher Se Favoris v da Adresse http www julienvdb com universite maitrise projet_maitrise Ex Liens Google v 5 Recherche Web 9 EP 78bloqu e s fa Options Norton AntiVirus E i A htp fmm jen QOMBAG 11 50 Fig 3 Choix du journal v Page de Une Une fois le journal choisi l utilisateur arrive sur la page de Une avec les termes les plus fr quents qui apparaissent aujourd hui Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 7 sur 55 Projet ILRI SVG Newspaper El http vdbcomputer svg accueil php Microsoft Internet Explorer L Fichier Edition Affichage Favoris Outils F1 2 S K L Liens www julienvdb com Google M t o France Pr c dente r Favoris Historique Actualiser Arr ter Adresse E http vdbcomputer svg accueil php Ni OK Termin SJ Intranet local COUR RCDOER SES lt E Anp er m g B 7 Fig 4 La page de Une yY Recherche classique Une fois le journal choisi l utilisateur entre les termes de sa recherche dans le champ pr vu cet effet Ensuite il clique sur OK et voit les r sultats de la recherche appara
71. vait pas perdu d information quand on a travaill avec nos tableaux et nos diff rentes fonctions Ensuite on a pu retoucher quelques effets visuels sur l interface tel que des effets sur les textes au passage de la souris Dans cette p riode nous avons aussi fait go ter notre site un public le plus large possible pour avoir un retour sur l interface Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 37 sur 55 Projet ILRI SVG Newspaper 6 Les outils utilis s pour l interface 6 1 Le dynamisme du site avec PHP et MySQL PHP et MySQL forme le couple id al pour g n rer un contenu dynamique dans un site web PHP va permettre de faire passer des variables de pages en pages de travailler sur du texte de manipuler des tableaux MySQL va permettre d interroger notre base de donn es et ainsi cr er nos requ tes Nos choix se sont orient s vers ces langages pour diff rentes raisons Leurs portabilit s La syntaxe de PHP qui se rapproche des langages tel que le C PHP est un langage proc dural avec possibilit de faire de l objet PHP et MySQL sont des langages libres PHP s ex cute cot serveur ce qui est pratique pour la s curit 6 2 A la d couverte de SVG SVG signifie Scalable Vector Graphics Il s agit d une recommandation du W3C World Wide Web Consortium bas e sur XML pour les graphiques vectoriels en deux dime
72. vide repr sent par Min dans le premier motif est remplac par la concat nation des motifs primaires Min Ponct qui permettent de r cup rer des termes comme par exemple C te d Ivoire Maj Ponct Maj Spa Maj permet de r cup rer des termes comme par exemple Jean Pierre Raffarin Ilya aussi d autres motifs qui sont assez similaires ceux d j cit s Ce qu il faut voir c est que nous avons opt pour une strat gie particuli re afin de r cup rer les th mes d un article Le principe de base est de ne prendre que les groupes de mots commen ant par une lettre majuscule ou tant enti rement en majuscules en fonction de motifs d j d termin s La plupart des mots en majuscules contenus dans ces groupes de mots dans leur contexte sont consid r s comme des mots pleins importants qui d finissent le th me On se sert des mots vides peu importants quand ils sont tous seuls mais importants et int ressants quand ils sont en relation avec des mots pleins dans certains motifs dans le but de r cup rer un terme plus proprement et plus significatif En effet le terme Guerre en Irak est compos de deux mots pleins que sont Guerre et Irak et d un mot vide qui est en Le mot vide tout seul ne veut rien dire mais dans le terme il situe o se trouve la Guerre en Irak D o l importance de cr er des motifs de mots et de bien composer ceux ci en fonction de mots pleins et de mots vides Nous allons voir
73. x phases une phase qui transpose les liens non clon s de la table liens dans une table pages avec ajout du nombre de liens sortants du nombre d occurrences de la page et du niveau minimum o la page appara t une phase de r elle diff renciation en utilisant les donn es du site moyenne de liens sortants nombre d occurrences et minimum de liens sortants Anthony Lecot Antoine Cauchard Crawling et Indexation Julien Van Den Bossche Beno t Moulin Interface graphique Page 17 sur 55 Projet ILRI SVG Newspaper Pour la phase de diff renciation nous avons cr er deux tables liensArticle et liensRub qui contiendront uniquement les identifiants des pages associ es Il nous a donc suffit d utiliser une fonction de s lection SQL avec les l ments de comparaisons suivants Article minLiensSortants lt liensSortants O nbOcc lt moyenneOcc ET liensSortants gt minLiensSortants Le premier crit re utilise la moyenne de liens sortants et la moyenne d occurrences Nous avons galement ajout dans le premier crit re une clause qui enl ve les pages dont le nombre de liens sortants est inf rieur un nombre minimum de liens sortants En effet si la page n a pas assez de liens sortants cela correspond bien souvent une page payante ou un pop up ce qui n est donc pas int ressant pour nous Rubrique 1iensSortants gt moyenneLiensSortants ET nbOcc gt moyenneOcc Pour la s lection d

Download Pdf Manuals

image

Related Search

Related Contents

Longshine LCS-FS8416 network switch  318557-000 - State Water Heaters  Sistema di gestione delle immagini FusePanel™  Accéder à nos fonds documentaires par internet, via Gallica  Philips Remote control RC4715  Datamax Pro Plus 2 Bedienungsanleitung.CDR  Valeurs Actuelles - Galerie Samarcande  

Copyright © All rights reserved.
Failed to retrieve file