Home
Application aux Textes Techniques sous Format HTML
Contents
1. Entre des approches qui ne prennent pas du tout en compte la structure des documents segmentation en une suite de mots alors qu ils agit d une caract ristique forte de nos textes techniques et celles qui ne proposent que cela la segmentation partir du sommaire nous devons parvenir un quilibre La probl matique qui se pose dans cet ordre d id es est celle de l unit choisir pour d couper le texte technique qui servira par la suite comme base pour son indexation Nous souhaiterons d finir cette unit par une m thodologie qui requiert la prise en compte de l ensemble des connaissances qui r sident dans un texte structur connaissance structurelle dispositionnelle et typographique Nous formulons l hypoth se que ces diff rents l ments jouent un r le essentiel dans le marquage des UDs ils peuvent ainsi donner des instructions de d coupage du texte en unit s coh sives Ouerfelli amp Lallich 99 Le statut de l UD est interm diaire entre la phrase et la plus petite unit logique r percut e dans le sommaire Cette unit doit tre rep r e d limit e et caract ris e gr ce des indicateurs formels pr sents en surface et non ambigus Ainsi il faut monter un niveau plus haut l int rieur de l unit logique ce niveau correspond au paragraphe typographique Ainsi l id e directrice de notre m thode de segmentation est de partir d une unit minimale ici le paragraphe typographique pour
2. avec la liste num rative qui lui succ de Les listes sont marqu es aussi par les sous listes de diff rents niveaux 1 2 3 Chaque sous liste est li e un l ment soit de la liste principale le cas de la sous liste de niveau 1 soit de l une des sous listes le cas des sous listes de niveau 2 ou 3 Pour les diff rents niveaux des sous listes il faut toujours monter au niveau de l l ment de la liste principale pour avoir une certaine autonomie et coh sion s mantique et syntaxique 6 2 2 Les objets non textuels Les objets non textuels dans le corpus correspondent aux tableaux et figures Ces objets sont sp ciaux et de ce fait n cessitent un traitement particulier Du point de vue typographique les tableaux et les figures constituent des entit s autonomes lls sont s par s des autres paragraphes par deux balises lt P gt correspondant l alin a Cependant ces objets sont li s aux unit s qui les pr c dent soit des paragraphes textuels ou bien un l ment d une liste Il est noter qu il existe deux types de tableaux e Les tableaux avec leur structuration en lignes et cellules dont la lecture est convergente entre lignes et cellules Ils sont structur s par les deux balises lt TABLE gt et lt TABLE gt e Les tableaux avec leur structuration lin aire dont la lecture est lin aire aussi Ces tableaux sont pr sents dans le manuel des vols paraboliques Ils sont marqu s par les balises d ouve
3. 3 Regroupement des paragraphes textuels en Unit s Documentaires textuelles Il s agit des cas o on d c le un encha nement lin aire des id es entre les paragraphes textuels Ainsi on a rep r les marqueurs de continuit entre les paragraphes qui se succ dent Ces marqueurs sont essentiellement de nature linguistique e Pr sence de Marqueurs d Int gration Lin aire Si Alors Ensuite Ainsi De plus galement d autre part au d but du paragraphe e Pr sence des mots de liaison par exemple Pour cela Pour ce faire au d but du paragraphe e Reprise anaphorique au d but du paragraphe a Reprise par un d monstratif ce cette ces b Reprise par un pronom personnel il elle Il est noter que les pronoms personnels se pr sentent rarement dans notre corpus dans la mesure o la description dans ces textes est une description d objets et de t ches relatives ces objets ou bien de proc dures de r alisation d une action dans un champ technique particulier et non pas de personnes C est le caract re impersonnel qui caract rise ces textes au sens de Vigner 76 L l ment d terminant dans notre approche c est que toute anaphore consiste en un lien entre deux segments textuels univoquement d limitables Cette position conduit consid rer comme peu acceptable le cas o un pronom n est pas pr c d d un ant c dent Par exemple dans la phrase suivante extraite du manuel des utilisateurs des
4. attaquer un corpus technique compos de 3 manuels d utilisateurs dans des domaines techniques vari s Les 3 manuels sont en langue fran aise avec une organisation logique tr s forte Ces manuels sont Campagne de vols paraboliques manuel des utilisateurs ce manuel d crit les techniques du vol parabolique technique de pilotage la man uvre parabolique etc e XCOMPIL Guide d utilisation ce manuel pr sente les caract ristiques d un outil XCOMPIL pour compiler les fichiers informatiques e Manuel d utilisation de l Analyseur Logique Tektronix 1241 il d crit les propri t s d un analyseur de l tat lectrique des circuits microprocesseurs Les diff rents manuels traitent des domaines diff rents a ronautique informatique ou bien l lectronique Cette diversit dans le contenu et la forme devrait permettre d aboutir des crit res de segmentation applicables sur des corpus techniques de nature diff rente Ainsi ce choix de travailler sur plusieurs textes techniques nous permettrait de g n raliser les r gles de segmentation auxquelles nous aboutirons la suite de ce travail d investigation 6 2 Traitement du corpus 6 2 1 Les objets textuels Ces objets correspondent aux diff rents types de paragraphes d finis supra a Traitement des titres Comme nous l avons signal le paragraphe titre a un statut particulier par rapport aux autres types de paragraphes On distingue deux t
5. de la recherche retrouver un ensemble de r f rences de documents dont le contenu correspond au th me recherch parmi ensemble des documents de la base documentaire consid r e Les progr s technologiques stockage magn tique dition structur e permettent maintenant de disposer des documents int graux sur support informatique L information stock e dans la base peut comporter la fois la description du document physique et intellectuelle et le texte int gral du document L av nement de ces technologies a fait appara tre une nouvelle g n ration de bases de donn es savoir les bases de donn es textuelles parmi lesquelles on distingue es bases de documents textuels qui contiennent des textes de documents nombreux peu volumineux et peu structur s articles de presse et les bases textuelles structur es qui contiennent le texte d un ou de plusieurs documents de forte structuration et de taille volumineuse Une application de cette derni re cat gorie est la recherche d information dans les manuels techniques de description et d utilisation de dispositifs techniques complexes comme celles de gros logiciels ou d appareillages complexes C est dans ce cadre que nous situons le pr sent travail L indexation de ces documents soul ve des probl mes sp cifiques li s aux sp cificit s des textes techniques h t rog n it taille volumineuse et l application vis e op ratoire de la recherche d i
6. point de vue typographique caract res et polices se distinguent du texte principal et de mise en valeur qui facilitent leur rep rage du genre lg INTERVAL VALEUR gt LIGNE lt VALEUR gt lt elementi gt lt element2 gt e Paragraphe textuel nous rangeons dans ce type tout paragraphe ne correspondant pas aux diff rents types voqu s ci dessus Le paragraphe textuel se compose d un nombre variable de phrases qui sont souvent autonomes du point de vue syntaxique et s mantique On distingue deux cat gories de paragraphe textuel le paragraphe textuel au sens classique commun ment admis correspondant aux paragraphes que l on trouve dans tout texte Le crit re formel caract risant ce paragraphe est son ouverture par une majuscule et sa fermeture par un signe de ponctuation souvent une ponctuation forte et il est encadr entre deux alin as La seconde cat gorie correspond au paragraphe consigne donnant des instructions au lecteur pour l ex cution d une t che ou d une proc dure Le paragraphe consigne se caract rise par des crit res formels de nature typographique gras italique et il est g n ralement marqu par des indicateurs lexicaux bien d finis du genre remarque important attention recommandation qui expliquent sa fonction sp cifique et permettent de le distinguer du texte principal 6 Exp rimentation 6 1 Mat riel linguistique tudi Nous avons choisi donc de nous
7. sont li es entre elles mais sans pr sence de marqueurs de surface permettant d tablir cette relation De plus on a recens des cas dans lesquels les marqueurs de continuit ne remplissent pas leur fonction et sont ainsi une source d ambigu t Ces cas exigent un traitement particulier pour atteindre notre objectif trac d s le d part savoir une segmentation qui assure une homologie entre la pertinence des UDs et l articulation logique du texte Une autre remarque concernant les paragraphes textuels du genre consigne qui ont un statut particulier Ces paragraphes ne seront pas trait s dans le pr sent article Par contre on a pas recens dans le corpus des paragraphes nonc s de commande qui sont souvent inscrits dans la continuit d une unit adjacente g n ralement un paragraphe textuel 7 Conclusion En terme de conclusion de cet article on peut dire que le paragraphe peut servir comme une unit de base pour segmenter le texte technique en UDs tout en tenant compte des paragraphes adjacents repr sentant un continuum dans le sens Ce ph nom ne est repr sent par les indices de continuit inter paragraphique La prise en compte de ces indices permet d assurer une segmentation refl tant l _ articulation logique des diff rents aspects trait s dans le texte Dans ce sens intervient le dynamisme de la m thode de segmentation adopt e avec la prise en compte bien videmment des diff rents m dias
8. 4 La segmentation pour l indexation Un certain nombre de travaux en recherche d information se sont int ress s la segmentation des textes avec deux pr occupations la premi re r pond au souci de ne pas noyer l utilisateur sous une masse trop importante de documents en r ponse une requ te lorsque les documents sont de taille importante La seconde r side dans une plus grande efficacit de la recherche elle m me Ainsi au lieu de calculer une similarit entre une requ te et la totalit d un texte on mesure la similarit entre cette requ te et chacune des UDs constituant le texte Ceci va tout fait dans le sens de notre objectif de d part savoir la segmentation du texte technique pour un acc s plus pr cis et plus localis l information base d UDs fines int rieur de la structure globale du texte La t che de segmentation des textes est trait e sous plusieurs angles dans la litt rature selon la finalit vis e reconnaissance du texte ou bien extraction et recherche d _ information Dans un processus de recherche d information on distingue diff rentes m thodes de segmentation e Segmentation en une suite de mots e Segmentation en phrases e Segmentation en paragraphes e Segmentation en unit s logiques r percut es dans le sommaire Ces diff rentes m thodes sont pr sent es en d tail dans Lallich amp Ouerfelli 98 Nous allons nous contenter ici pr senter notre point de vue
9. Pratiques d indexation dans les Bases Textuelles Structur es Application aux Textes Techniques sous Format HTML Tarek Ouerfelli et Genevi ve Lallich Boidin Universit Stendhal R sum Parvenir un syst me de recherche d information technique capable de donner en r ponse une unit de texte pertinente n cessite en amont de l indexation une phase de segmentation du texte en Unit s Documentaires fines et coh rentes Dans cet article nous avan ons quelques l ments sur la strat gie de segmentation qui pourra tre adopt e dans un processus d indexation d un texte technique volumineux La strat gie de segmentation adopt e sera pr sent e partir des r sultats d une exp rimentation men e sur plusieurs textes techniques sous format HTML Cette strat gie se veut dynamique avec la prise en compte des diff rents m dias qui existent dans les textes techniques texte figure tableau Ainsi l Unit Documentaire indexer qui se trouve l int rieur de l unit logique peut tre une unit textuelle compos e d un ou de plusieurs paragraphes ou bien une unit composite de paragraphe tableau et figure 1 Introduction La recherche documentaire classique interroge des bases documentaires dont les enregistrements sont des r f rences de documents Ainsi la probl matique de la recherche information dans ces syst mes consiste partir de P expression de la requ te d un utilisateur qui d finit le th me
10. chercher l UD r pondant aux propri t s requises autonomie linguistique coh sion syntaxique et s mantique formant un bloc th matique homog ne Ouerfelli amp Lallich 99 5 2 Segmentation en paragraphes Dans cette section on va pr senter les r sultats d une exp rimentation faite sur trois manuels techniques sous format HTML La finalit de cette exp rimentation est de d tecter les marqueurs de changement d une UD une autre permettant de donner des crit res de segmentation du texte technique Avant de pr senter ces r sultats on va par la suite d finir quelques termes essentiels dans notre tude pour pr ciser la mani re dont chaque terme est utilis 5 3 D finition des termes Paragraphe et alin a Par commodit nous d signons dans ce travail par paragraphe un bloc de texte d limit par deux a in as L alin a dans notre travail est consid r comme un signe typographique jouant le r le de d limiteur de paragraphe A priori alin a correspond suivant le cas un retour la ligne lt BR gt suivi d une indentation lt BLOCKQUOTE gt et ou d un saut de deux lignes lt P gt Cette id e rejoint l avis de Bessonnat 88 qui consid re l alin a comme un signe blanc qui d limite une quantit voire le texte du paragraphe Typage des paragraphes Le bloc de texte d limit par les deux alin as peut avoir diff rentes valeurs et en P occurrence diff rents crit res de formes Ainsi on distingue
11. diff rents types de paragraphes dans les textes techniques Chaque paragraphe se caract rise par sa fonction et sa forme e Paragraphe titre est un paragraphe particulier Il se distingue des autres types de paragraphes par sa forme typographique mis en relief et sa fonction comme indice de rupture avec ce qui pr c de et indice de continuit avec au moins le paragraphe qui lui succ de directement e Liste d l ments la liste est un objet textuel que l on peut consid rer comme un bloc coh sif qui vise transmettre une information d une fa on bien pr cise G n ralement cet objet textuel r pond une grammaire annonce de liste items cl ture Dans ce travail nous allons traiter les listes comme des objets textuels form s d un ensemble d l ments items dont l alin a constitue l ouverture et la fermeture de cet ensemble Ces listes peuvent tre ordonn es dans un ordre num rique 1 2 3 ou bien alphab tique a b c Ce type de liste est inscrit entre les deux balises d ouverture et de fermeture lt OL gt et lt OL gt Elles peuvent aussi tre marqu es par des puces entre les balises lt UL gt et lt UL gt e Enonc s de commandes ce sont des unit s sp cialis es elles ont pour fonction de pr senter les param tres d ex cution d une application dans le langage du domaine qui est compr hensible par la machine Elles ont g n ralement des caract ristiques sp ciales du
12. ent des connaissances communes Il vise informer non pas un individu particulier mais un l ment indiff renci de cette cat gorie socio professionnelle de la r alit du fonctionnement et des propri t s d un dispositif technique Le texte technique se caract rise par un certain nombre de caract ristiques dont principalement l h t rog n it Il peut comporter des informations sous forme diff rente texte image figure tableau il peut comporter aussi diff rentes typologies d unit s textuelles du genre premier plan second plan Caro 95 ou bien objet action Paganelli 97 La repr sentation de son contenu doit prendre en consid ration ces caract ristiques ainsi que l application vis e par son utilisation en l occurrence l objet de la recherche d information dans ce texte qui est de nature op rative C est essentiellement ce qui diff rencie les textes techniques des autres types de textes 3 Pratiques d usage des textes techniques La recherche d _ information dans les textes techniques est essentiellement vis e op ratoire pour r aliser une t che ou une action Vigner 76 Bronckart 85 Un utilisateur expert recherche de l information en vue de r pondre un besoin professionnel Lors de la consultation d un manuel technique l utilisateur effectue une recherche dans le but de savoir pour faire Il cherche g n ralement atteindre directement une donn e pr cise l information la plus l mentai
13. et s mantique Dans ce sens chaque paragraphe d signe un th me d un point de vue particuliers Cependant ce r sultat n est pas toujours valable sur tout le corpus on trouve en effet des paragraphes qui se suivent et qui sont intuitivement rattach s au niveau des id es v hicul es De ce fait pour assurer l homologie entre la segmentation et l articulation logique du texte nous avons rep r les indices de surface qui ne m nent pas l insertion d une marque d UD entre deux paragraphes qui se suivent Ceci va tout fait dans le sens de notre conception de l UD qui doit tre consid r e non seulement comme une unit typographique mais comme une unit de structure qui a des caract ristiques s mantiques et grammaticales Elle doit pr senter des crit res de coh sion s mantique et syntaxique Les indices rep r s ne menant pas un d coupage en paragraphes seront pr sent s par la suite c Paragraphe liste d l ments Ces listes puces ou bien ordonn es sont toujours li es un morceau de texte pr c dent Ce morceau peut tre un paragraphe textuel g n ralement ce paragraphe se termine par le connecteur typographique indiquant une ouverture vers un autre objet textuel La liste peut tre aussi pr c d e d un titre avec des caract res typographiques gras diff rents du texte normal Ces titres jouent le r le en quelque sorte d indice de rupture avec ce qui pr c de et d indice de continuit
14. iner la structure logique c est dire chercher l int rieur de cette structure refl t e par les titres du sommaire pour avoir un acc s plus pr cis l information Cependant on ne proc dera pas leur limination lls seront stock s dans un fichier part et serviront comme hi rarchie lors de la r ponse la requ te de l utilisateur Ils constituent l environnement hi rarchique de la r ponse Ainsi cette r ponse se trouve structurellement cadr e par cons quent elle gagnera en pertinence et en lisibilit Dans ce sens Caro 95 rappelle que les titres et intertitres assurent une fonction de rep rage lors de la lecture d un texte Ces titres sont consid r s comme des balises permettant de naviguer dans l univers informationnel du texte De ce fait il nous semble n cessaire de pr senter en plus de l unit r ponse le contexte dans lequel elle se situe Ce qui permettra de la pr ciser et de l enrichir Ce principe ne s appliquera que pour les titres correspondant aux UDs retenues pour l indexation Par cons quent les titres des unit s filtr es ne seront pas retenus on fait allusion ici aux titres du genre proc d s Kerkouba 84 qui ne sont pas informatifs Ils annoncent la fonction de l unit textuelle qui suit par exemple pr sentation introduction conclusion b Paragraphe Textuel Dans la majorit des cas les paragraphes constituant chaque section sont autonomes du point de vue syntaxique
15. nformation dans ces textes Cette t che se r alise en deux tapes compl mentaires e D coupage du texte en Unit s Documentaires UD qui seront utilis es comme base pour son indexation e Repr sentation du contenu de ces UDs La premi re tape constitue l axe principal de ce travail Ainsi nous pr sentons dans un premier temps les propri t s sp cifiques du texte technique Cette pr sentation nous conduit d finir dans un second temps les pratiques d usage et l indexation de ce type de texte Enfin nous avan ons quelques l ments sur la strat gie de segmentation qui pourra tre adopt e dans un processus d indexation d un texte technique volumineux 2 Propri t s des textes techniques Nous d signons par texte technique un document de type manuel d utilisation de dispositifs techniques Il est fortement structur avec une organisation logique bien d finie Le texte technique v hicule des savoirs et des savoir faire propres un champ technique particulier II repr sente aussi bien la description d une machine avion train radar syst me informatique du fonctionnement de cette machine et des divers processus la concernant que la description des proc dures de r alisation d une action technique dans un environnement bien pr cis De surcro t le texte technique s adresse un groupe socialement et professionnellement homog ne d utilisateurs qui effectuent une activit op ratoire et partag
16. par rapport ces m thodes La segmentation en une suite de mots proc de par un d coupage arbitraire elle laisse de c t les aspects syntaxiques et s mantiques du texte Par cons quent elle peut produire du bruit lors de la r ponse la requ te de l utilisateur La segmentation en phrases n est pas fiable lorsqu on attend en r ponse une partie de texte ne n cessitant pas de travail d inf rence de la part de l utilisateur sachant que la phrase ne pr sente pas de garantie de compl tude syntaxique De la m me fa on que la segmentation en phrases celle en paragraphes n est pas non plus suffisamment fiable du fait de la difficult interpr ter un paragraphe dans des contextes dans lesquels il est rattach une unit qui le pr c de ou bien qui lui succ de Certes la segmentation s appuyant sur la structure logique refl t e par le sommaire pr sente avantage de donner en r ponse des unit s coh rentes Cependant dans notre probl matique qui est de r pondre un besoin op rationnel cette unit n est pas suffisamment fine et elle pourrait engendrer du bruit lors de la r ponse la requ te de l utilisateur Ce qui nous am ne nous investir dans une r flexion pour trouver une UD qui pourrait tre une unit de base pour l indexation du texte technique et qui pourrait satisfaire au maximum l attente del utilisateur dans ce domaine 5 Strat gie de segmentation dynamique 5 1 Principe
17. paragraphes et ses fonctions Pratiques 57 81 100 Bronckart J P 1985 Le fonctionnement du discours Neuch tel Paris Delachaux amp Niestl Editeurs Caro S 1995 R le des organisateurs para linguistiques dans la consultation des documents lectroniques 7h se de Doctorat en Sciences de l information et de la communication Grenoble 3 Kerkouba D 1984 M thode d indexation automatique des documents fond s sur l exploitation de leurs propri t s structurelles Application un corpus technique 7h se de Doctorat en Informatique IMAG Lallich G et T Ouerfelli 1998 La segmentation pour l indexation d un document technique principe et m thodes Rencontre Internationale sur l extraction le Filtrage et le R sum Automatique Sfax 11 14 novembre 1998 Ouerfelli T et G Lallich 1999 Base textuelle structur e et indexation l exemple de la documentation technique Colloque international en sciences de l information Tunis 3 5 mars 1999 Paganelli C 1997 La recherche d information dans des bases de documents techniques en texte int gral Etude de l activit des utilisateurs 7h se de Doctorat en Sciences de l Information et de la Communication Grenoble 3 V d nina L G 1989 Pertinence linguistique de la pr sentation typographique Paris Peter Vigner G 1976 Le fran ais technique Paris Hachette
18. qui existent dans le texte technique texte tableau figure Ainsi l UD indexer qui se trouve l int rieur de l unit logique peut tre une UD compos e d un ou de plusieurs paragraphes ou bien une unit composite de paragraphe tableau et figure La phase de segmentation permet de d couper le texte en plusieurs unit s autonomes Par la suite il serait int ressant de voir s il est envisageable de filtrer les unit s pour ne garder que celles qui sont informatives Il serait important aussi de donner des crit res de surface caract risant ces unit s comme non informatives Cette perspective constitue la prochaine tape de notre travail de recherche Notes 1L UD peut tre compos e du texte seulement comportant g n ralement une ou plusieurs phrases Elle peut tre aussi une combinaison du texte avec un tableau ou bien une figure formant un ensemble relativement autonome et coh sif 2 Connaissances Recherche d information Interfaces et Syst me de Traitement Automatique de la Langue 3 HyperText Markup Language 4 Le point de vue est l angle ou l aspect sous lequel est envisag le sujet 5 Le texte ici fait r f rence au paragraphe l objet de base de notre tude 6 Ce qu on appelle ant c dent savoir un segment de texte situ l avant de l anaphorique dans le texte et ayant avec celui ci une relation d interpr tation ou de cor f rence Bibliographie Bessonnat D 1988 Le d coupage en
19. re satisfaisant son besoin Ainsi le processus de recherche d information se doit alors d tre particuli rement rapide et efficace d o vient l int r t de traiter le texte technique comme une construction mol culaire susceptible d tre d compos e en unit s plus fines pour donner naissance de nouvelles UDs utilisables pour effectuer des lectures sp cifiques Ce qui permettra d une part une repr sentation fine de son contenu et d autre part un acc s plus localis l information Ainsi nous devons tenir compte de ces diff rents aspects pour l indexation du texte technique Cette op ration qui doit se faire non plus sur le texte dans sa globalit mais sur des parties autonomes du point de vue s mantique et syntaxique Ainsi ce type de texte pr sente des propri t s d usage sp cifiques qui exigent leur prise en compte dans le cadre de la conception d un syst me automatis de recherche d information pour garantir une certaine efficacit de ce syst me dans la r ponse aux demandes de ses utilisateurs Parvenir un syst me de recherche d information technique capable de donner en r ponse une unit de texte pertinente n cessite donc en amont de l indexation une phase de segmentation en unit s fines et coh rentes Cette question repr sente la probl matique soulev e dans notre travail de recherche men l quipe CRISTAL2 sur laquelle nous allons apporter des l ments de r ponse
20. rture et de fermeture des listes puces lt UL gt lt TABLE gt et lt TABLE gt lt UL gt Les diff rentes figures trouv es dans le corpus ont pour fonction soit la repr sentation du contenu du paragraphe pr c dent dans ce cas elles apportent de l information explicative sur l objet textuel soit une fonction d interpr tation lorsqu elles donnent des l ments pour l interpr tation du sens du paragraphe qui est un peu complexe Dans ce sens la figure apporte des informations compl mentaires relatives l accomplissement du but du paragraphe Ainsi cette figure peut tre consid r e comme une unit de second plan selon la terminologie de Caro 95 de type para texte Elle joue le r le de guidage de la compr hension non plus de tout le texte mais du paragraphe textuel ou bien du tableau qui lui est rattach A partir des donn es voqu es ci dessus on peut conclure la compl mentarit entre l objet textuel et l objet non textuel dans le texte technique D une part le tableau peut num rer des objets signal s dans le paragraphe qui le pr c de ainsi il apporte des informations compl mentaires et n cessaire l interpr tation du contenu informatif du paragraphe D autre part le texteS peut servir de contexte la figure il peut contribuer ainsi sa compr hension De surcro t la figure peut remplir par rapport au texte une certaine fonction d interpr tation ou d illustration de son contenu 6
21. vols paraboliques est recommand de planifier une campagne de vols paraboliques longtemps lavance La tournure est impersonnelle de ce fait le pronom ne constitue pas un indice de continuit entre les deux blocs textuels adjacents Ainsi l ant c dent f se voit donc attribuer un r le central dans le m canisme de continuit et le maintien de la coh sion dans la mesure o l interpr tation de l anaphore exige l emprunt d un l ment qui la pr c de fixant son interpr tation De cette fa on elle peut tre consid r e comme un indice de continuit entre des paragraphes textuels adjacents e Pr sence des marqueurs ci dessous ci dessus ces marqueurs pointent vers un objet textuel ou non textuel qui pr c de ci dessus ou bien qui succ de ci dessous Ces indices sont souvent pr sents au d but ou la fin du paragraphe Voil donc les diff rents l ments recens s dans le corpus jouant le r le de relais et de continuit entre au moins deux paragraphes adjacents Ces l ments constituent un dispositif de coh sion dans le texte Il faut ajouter ces l ments de nature linguistique le signe typographique exprim par les Ce signe de ponctuation en marquant la limite d un bloc il sert annocer le suivant Ce dernier apporte toujours une explication ou une pr cision V d nina 89 Il est noter que dans le corpus trait on a recens des cas dans lesquels les unit s adjacentes
22. ypes de titres dans le corpus trait e Les titres non num rot s ils n apparaissent pas dans le sommaire Ces titres sont identifi s dans les documents sources par les balises lt P gt lt B gt et lt B gt La balise lt P gt concerne les sauts de deux lignes et la balise lt B gt concerne la typographie des caract res qui est le gras Ces titres sont souvent li s l unit textuelle qui les pr c de e Exemple du manuel des utilisateurs des vols paraboliques lt P gt lt B gt Check list des sources de risques lt B gt lt P gt lt OL gt 1 Mati re fluide inflammable et combustible liquide vapeur o gaz C J C lt DL gt F gt Dans cet exemple le paragraphe constitu d une liste num rative d l ments pr sente un seul bloc Intuitivement le titre est li ce bloc il annonce cette liste et l indexe en quelque sorte e Les titres index s par le sommaire ces titres sont num rot s dans le texte ils repr sentent les diff rentes sections et sous sections abord es dans le texte H1 H2 H3 Ils sont inscrits dans le sommaire et ils utilisent les m mes crit res typographiques que les titres non num rot s mais avec des polices de caract res diff rentes en taille Ces titres constituent des niveaux g n riques de ce fait ils ne seront pas retenus lors de l indexation Ce choix va tout fait dans le sens de notre objectif de la m thode de segmentation visant aff
Download Pdf Manuals
Related Search
Related Contents
Philips HD camcorder CAM300WH Samsung Split Mural - AR07FSFPDGMN manual de utilizador matriz de correlación 4 - VThunder KPRO 15.10 - audiodesign pro La responsabilite sociale au service de la lutte contre l 700Ko operación - Lincoln Electric 356C - Promac Copyright © All rights reserved.
Failed to retrieve file