Home
L`annotation structurelle
Contents
1. Bloc sup rieur plan du texte gt lt div type SC ana SCplan de texte xml id plan de texte du_Captif gt lt ab gt lt ptr target entr e pr face gt JADT 2010 10 International Conference on Statistical Analysis of Textual Data 1154 L ANNOTATION STRUCTURELLE lt ptr target s quence narrative 1 gt lt ptr target simple p riode P11 gt lt ptr target valuation finale gt lt ab gt lt div gt lt div gt lt body gt lt text gt lt TEL gt Dans le bloc Segmentation du texte analys en nonc s du document d annotation on a mis le texte r f r par les span titre explicatif puisque la r f rence aux empans textuels dans le document annot suffit recomposer le texte Ces divers segments phrastiques ou propositionnels sont organis s des fins d analyse en plusieurs regroupements p riodiques et un regroupement s quentiel La composition structurelle emprunte donc ici la forme classique de l embo tement d l ments TEI lt div gt division portant l attribut type SC On utilise les divisions comme on le ferait pour d crire la structure formelle d un texte sauf que cette fois ci le contenu textuel des divisions est constitu de r f rences des segments dont les pointeurs une fois valu s conduiront finalement des empans textuels dans le document analys Il s agit en quelque sorte de d
2. w29 n Rh4 gt s inclinaient Rhp3 lt span gt lt span ana Rh me xml id R30 32 from w30 to w32 n Rhp5 gt vers elle Th1 lt span gt lt ab gt lt ab xml id TR4 type Th meRh me xml base doc1 xm gt lt span ana Th me xml id T33 34 from w33 to w34 n Th1 gt Et Jeannie lt span gt lt span ana Rh me xml id R35 37 from w35 to w37 n Rh6 gt disait en marchant lt span gt lt ab gt lt Les progressions th matiques gt lt ab xml id PT1 type Progression Th matique ana Th meConstant gt lt span from T1 4 n Th1 gt Et un jour Jeanie th me initial en d but de phrase lt span gt lt span from T13 13 n Th1 gt Elle anaphore pronominale lt span gt lt span from T33 34 n Th1 gt Et Jeanie reprise lt span gt lt ab gt lt ab xml id PT2 type Progression Th matique ana Th matisationLin aire gt lt span from R14 18 n Rh2 gt regardait les fleurs d eau lt span gt lt span from T24 27 n Th2 gt et toutes les fleurs lt span gt lt ab gt lt ab xml id PT3 type Progression Th matique ana Th matisationLin aire gt lt span from R30 32 n Rhp5 gt vers elle lt span gt lt span from T13 1
3. amp P9 Pn4 3b P4a amp P4d Pn3 P5 P7 Figure 2 Plan de texte du Captif extrait d Adam 2005 203 204 Pour repr senter cette analyse d Adam en XML TEI nous avons d abord balis le texte source selon le format Sacacomie En plus du d coupage en mots le texte contient un d coupage en nonc s et en phrases Le document d annotation externe suivant pr sente ces d coupages et la JADT 2010 10 International Conference on Statistical Analysis of Textual Data FRAN OIS DAOUST YVES MARCOUX JEAN MARIE VIPREY 1153 structure compositionnelle du texte pr c d e d l ments lt interp gt qui d crivent les cat gories de l analyse lt TEI xmins http www tei c org ns 1 07 gt lt teiHeader gt lt etc lt teiHeader gt lt text gt lt body gt lt D finition des cat gories interpr tatives gt lt div type Analyse subtype SC xml id anal gt lt interpGrp type Unit s discursives gt lt interp xml id nonc gt On consid rera comme nonc lt interp gt lt interp xml id Phrase gt On entendra par phrase typographique lt interp gt lt interpGrp gt lt interpGrp type SC gt lt interp xml id plan_de_texte gt Le plan du texte fait partie de la structure compositionnelle qui organise la coh sion d une suite lin aire de s quences Adam2005 chapitre 6 lt interp gt lt interp xml id s quence gt Les s qu
4. est repris dans une suite de relations th mes rh mes lt interp gt lt interp xml id Th matisationLin aire gt La th matisation lin aire correspond une progression th matique dans laquelle un rh me est repris titre de th me dans la succession des nonc s lt interp gt lt Les relations Th mes Rh mes gt lt ab xml id TR1 type Th meRh me xml base doc1 xml gt lt span ana Th me xml id T1 4 from w1 to w4 n Th1 gt Et un jour Jeanie th me initial en d but de phrase lt span gt lt span ana Rh me xml id R5 12 from w5 to w12 n Rh1 gt partit la recherche de son amoureux lt span gt lt ab gt lt ab xml id TR2 type Th meRh me xml base doc1 xm gt lt span ana Th me xml id T13 13 from w13 to w13 n Th1 gt Elle lt span gt lt span ana Rh me xml id R14 18 from w14 to w18 n Rh2 gt regardait les fleurs d eau lt span gt lt span ana Rh me xml id R19 23 from w19 to w23 n Rhp3 gt et leurs tiges pench es lt span gt lt ab gt lt ab xml id TR3 type Th meRh me xml base doc1 xm gt lt span ana Th me xml id T24 27 from w24 to w27 n Th2 gt et toutes les fleurs Rh2 lt span gt lt span ana Rh me xml id R28 29 from w28 to
5. lt fileDesc gt lt profileDesc gt lt langUsage gt lt language ident fr gt Fran ais lt language gt lt langUsage gt lt profileDesc gt lt encodingDesc gt lt refsDecl gt lt p gt Le texte est d coup en pages l ment vide pb ligne l ment vide Ib et mots l ment w lt p gt lt refsDecl gt lt encodingDesc gt lt teiHeader gt lt text lt body gt lt pb n 49 gt lt p gt lt lb gt lt w xml id w1 gt Et lt w gt lt w xml id w2 gt un lt w gt lt w xml id w3 gt jour lt w gt lt w xml id w4 gt Jeanie lt w gt lt w xml id w5 gt partit lt w gt lt w xml id w6 gt lt w gt lt w xml id w7 gt la lt w gt lt w xml id w8 gt recherche lt w gt lt w xml id w9 gt de lt w gt lt w xml id w10 gt son lt w gt lt w xml id w11 gt amoureux lt w gt lt w xml id w12 gt lt w gt lt w xml id w13 gt Elle lt w gt lt w xml id w14 gt regardait lt w gt lt w xml id w15 gt les lt w gt lt w xml id w16 gt fleurs lt w gt lt lb gt lt w xml id w17 gt d lt w gt lt w xml id w18 gt eau lt w gt lt w xml id w19 gt et lt w gt lt w xml id w20 gt leurs lt w gt lt w xml id w21 gt tiges lt w gt lt w xml id w22 gt pench es lt w gt lt w xml id w23 gt lt w gt lt w xml id w24 gt et lt w gt lt w xml id w25 gt toutes lt w gt lt w xml i
6. structuralement ouvertes Charolles 1993 311 cit par Adam 2005 36 sont rarement prises en compte M me si ces connexions peuvent partager le m me formalisme d annotation que les relations syntaxiques leur nature est tr s diff rente Adam le souligne d s qu on d passe le seuil de la phrase ce ne sont plus les solidarit s syntaxiques qui pr valent mais plut t des marques et des instructions relationnelles de port e plus ou moins lointaine Adam 2005 36 S appuyant sur Charolles Adam introduit l id e de marques instructionnelles qui signalent au destinataire que telle unit doit tre comprise comme entretenant telle relation avec telle ou telle autre Charolles 1993 311 cit par Adam 2005 36 Dans la tradition de l analyse statistique des donn es textuelles on marque habituellement les parties du corpus Il s agit g n ralement de balisage de la structure formelle du corpus en termes de documents de tours de parole de locuteurs de paragraphes etc Ainsi par exemple l analyse factorielle des correspondances pourra sur la base de l analyse des fr quences lexicales de chacune des parties marqu es produire une synth se des donn es contrastant simultan ment les profils lexicaux et les parties du corpus Mais ces divisions simples entre parties demeurent un p le reflet des relations structurales entre segments textuels Dans la tradition de l analyse de texte par ordinateur A
7. 3 n Th1 gt elle chiasme qui rh matise le pronom anaphorique de PT1 lt span gt lt ab gt lt div gt lt body gt lt text gt lt TEL gt anal xml JADT 2010 10 International Conference on Statistical Analysis of Textual Data 1152 L ANNOTATION STRUCTURELLE Apr s l ent te TEI le corps du document comprend un l ment lt div gt division avec un attribut subtype qui indique le type d analyse effectu et un identifiant pour ce bloc d analyse dans l attribut xml id La valeur Th meRh me de l attribut type dans lt ab gt indique la nature de la relation d crite dans le bloc La valeur de l attribut xml id identifie chacune des relations et l attribut xml base indique sur quel document portent les r f rences de la relation On retrouve ensuite des l ments interp avec leur identifiant dans l attribut xml id qui contiennent des explications sur les cat gories de l analyse On retrouve ensuite des blocs l ment ab pour arbitrary bloc qui d crivent les diverses relations de type Th meRh me Dans les lt span gt qui d finissent les empans r f r s par l analyse on utilise l attribut ana pour pointer vers la cat gorie analytique appliqu e l empan ici un texte libre dans un l ment lt interp gt Le contenu textuel des span n est l qu titre informatif pour faciliter la lecture sans retourner au texte primaire Les relations th mes rh mes se co
8. C et qui utilise des m canismes de pointage permettant de faire r f rence des parties d un ou de plusieurs autres documents num riques aussi localisables par les m canismes JADT 2010 10 International Conference on Statistical Analysis of Textual Data 1148 L ANNOTATION STRUCTURELLE standards du Web URI et URL On utilise le terme d annotation dans son sens le plus large comprenant aussi le simple fait de commenter et de citer une ressource On peut qualifier les documents d annotation de secondaires par rapport aux documents annot s que l on pourrait qualifier de primaires Bien s r un document consid r une tape donn e comme secondaire deviendra primaire par rapport un autre document secondaire qui l annoterait Le langage de balisage XML est maintenant l approche privil gi e pour constituer des documents structur s ou semi structur s en offrant une syntaxe unique et extensible selon des principes bien d finis La Text Encoding Initiative TED est ce consortium qui se consacre depuis 1987 formuler des propositions pour l encodage des textes en format num rique pour la communaut des sciences humaines Depuis leur version 3 les propositions de la TEI sont exprim es dans une syntaxe XML L adoption des recommandations de la TEI par un grand nombre d organismes dans le monde nous a incit s tout naturellement nous r f rer ces recommandations pour proposer des formats XML TEI po
9. L annotation structurelle Fran ois Daoust Yves Marcoux Jean Marie Viprey UQAM Centre ATO Qu bec Canada 2 UdeM EBSI GRDS Qu bec Canada 3 UFC Besan on France R sum Dans la tradition de l analyse de textes par ordinateur l annotation et la cat gorisation font partie des op rations permettant d enrichir les donn es textuelles au fur et mesure de leur analyse clair e par des outils statistiques et divers modes de lecture comparative En g n ral cependant les unit s ainsi enrichies sont des occurrences individuelles des unit s de contexte ou des formes lexicales affubl es de propri t s attributs ou structures de traits Mais la structuration de ces unit s et leur mise en relation sont plus rarement abord es C est cette dimension que nous appelons l annotation structurelle Du point de vue de la repr sentation nous proposons que l annotation structurelle prenne la forme de documents externes d annotation en XML respectant une syntaxe conforme aux recommandations de la Text Encoding Initiative TEI et s inscrivant dans le mod le de d p t de donn es adapt la constitution de corpus de recherche Des exemples inspir s de la linguistique textuelle seront utilis s pour illustrer cette proposition Abstract In the tradition of computer aided text analysis annotation and categorization are among the operations used to enrich the textual material in the c
10. TO certains logiciels par exemple SATO Daoust 2009 permettent d annoter en cours d analyse les unit s lexicales les occurrences et les segments afin de rendre compte d une vari t de paradigmes cat goriels Il JADT 2010 10 International Conference on Statistical Analysis of Textual Data FRAN OIS DAOUST YVES MARCOUX JEAN MARIE VIPREY 1147 reste qu il s agit d une annotation plat qui ne peut marquer la relation que par h ritage sur les unit s terminales Ainsi par exemple pour marquer la relation dialogique entre locuteurs on pourra avoir une propri t indiquant qui est l nonciateur et une autre indiquant qui il s adresse La conjonction des deux permettra de configurer dynamiquement les parties du texte et du lexique soumettre aux analyseurs statistiques L annotation structurelle vise aller au del de cette annotation simple structure implicite en marquant sous forme de multiples graphes les connexions induites par les marques instructionnelles dont parle Adam En conjonction avec le filtrage des annotations simples le parcours des graphes permettra de contraster beaucoup plus ais ment les segments textuels en fonction de leurs positions dans l une ou l autre des annotations structurelles Dans la tradition de l ATO la cat gorisation dans sa dimension lexicale forme en tant que classe et textuelle occurrence de la forme en contexte permet de soumettre l anal
11. arolles M 1993 Les plans d organisation du discours et leur interaction in Moirand S Bouacha A A Beacco J C and Collinot A editors Parcours linguistiques de discours sp cialis s Berne Peter Lang pp 301 314 Daoust F 2009 Syst me d analyse de texte par ordinateur SATO Manuel de r f rence version 4 3 Centre d analyse de texte par ordinateur UQAM 2007 modifi en 2009 http www ling uqam ca sato satoman fr html JADT 2010 10 International Conference on Statistical Analysis of Textual Data 1156 L ANNOTATION STRUCTURELLE Daoust F Duchastel J Marcoux Y and Rizkallah E 2008 JADT 2008 Pour un mod le de d p t de donn es adapt la constitution de corpus de recherche In Actes des JADT 2008 vol 1 pp 355 367 Presses universitaires de Lyon 2008 http www cavi univ paris3 fr lexicometrica jadt jadt2008 pdf daoust duchastel marcoux rizkallah pdf Daoust F and Marcoux Y 2006 Logiciels d analyse textuelle vers un format XML TEI pour l change de corpus annot s In Les Cahiers de la MSH Ledoux no 3 Actes des JADT 2006 vol 1 pp 327 340 Presses universitaires de Franche Comt 2006 http www cavi univ paris3 fr lexicometrica jadt jadt2006 PDF 029 pdf Fleury S 2009 Le m tier textom trique Trameur Centre de textom trie CLA T U Paris 3 Sorbonne nouvelle http tal univ paris3 fr trameur Habert B 1998 Des mots complexes possibles aux mots c
12. artit la recherche de son amoureux Elle regardait les fleurs d eau et leurs tiges pench es et toutes les fleurs s inclinaient vers elle Et Jeanie disait en marchant JADT 2010 10 International Conference on Statistical Analysis of Textual Data 1150 L ANNOTATION STRUCTURELLE Voici comment nous pourrions inscrire ce texte dans un document primaire XML TEI conforme la proposition avanc e de Sacacomie doc1 xml lt xml version 1 0 encoding utf 8 gt lt TEI xmins http www tei c org ns 1 07 gt lt teiHeader gt lt fileDesc gt lt titleStmt gt lt title gt Texte utilis pour exemplifier une analyse fonctionnelle de type th me rh me Ph bus 1884 2002 429 version lectronique lt title gt lt respStmt gt lt resp gt mis en forme par lt resp gt lt name gt Fran ois Daoust lt name gt lt respStmt gt lt titleStmt gt lt publicationStmt gt lt distributor Universit du Qu bec Montr al Centre ATO lt publisher gt lt pubPlace gt Qu bec Canada lt pubPlace gt lt date gt 2008 02 05 lt date gt lt publicationStmt gt lt notesStmt gt lt note gt Des annotations analytiques sur le texte figurent dans des fichiers s par s lt note gt lt notesStmt gt lt sourceDesc gt lt bibl gt Adam Jean Michel La linguistique textuelle Introduction l analyse textuelle des discours Page 49 Armand Colin Paris 2005 ISBN 2 200 26752 5 lt bibl gt lt sourceDesc gt
13. d w26 gt les lt w gt lt w xml id w27 gt fleurs lt w gt lt w xml id w28 gt s lt w gt lt w xml id w29 gt inclinaient lt w gt lt w xml id w30 gt vers lt w gt lt w xml id w3 1 gt elle lt w gt lt w xml id w32 gt lt w gt lt w xmlid w33 gt Et lt w gt lt w xml id w34 gt Jeannie lt w gt lt lb gt lt w xml id w35 gt disait lt w gt lt w xml id w36 gt en lt w gt lt w xml id w37 gt marchant lt w gt lt etc lt p gt lt body gt lt text gt lt TEP docl xml JADT 2010 10 International Conference on Statistical Analysis of Textual Data FRAN OIS DAOUST YVES MARCOUX JEAN MARIE VIPREY 1151 Et voici maintenant un document d annotation externe anal xml d crivant les relations th mes rh mes pr sent es dans le sch ma 8 de Jean Michel Adam lt xml version 1 0 encoding utf 8 gt lt TE lt teiHeader gt lt etc lt teiHeader gt lt text gt lt body gt lt div type Analyse subtype Th meRh me xml id anal gt lt interp xml id Th me gt Le th me est l nonc qui se pose comme connu lt interp gt lt interp xml id Rh me gt Le rh me est un nonc qui ajoute de l information sur un nonc th me lt interp gt lt interp xml id Th meConstant gt Le th me constant correspond une progression th matique dans lequel un m me th me
14. ences sont des unit s textuelles complexes compos es d un nombre limit de paquets de propositions nonc s Elles constituent des r seaux relationnels hi rarchiques formant des entit s relativement autonomes pr sentant des agencements dits narratifs argumentatif explicatif dialogal etc Adam2005 chapitre 5 lt interp gt lt etc gt lt interpGrp gt lt Segmentation du texte analys en nonc s gt lt spanGrp xml id Seg3 type Segmentation ana nonc xml base borges_adam xml gt lt span from w2 to w13 xml id 1 gt Jun n ou Tapalqu on raconte l histoire suivante lt span gt lt span from w14 to w23 xml id 2a gt Un enfant disparut apr s un raid d Indiens lt span gt lt span from w24 to w33 xml id 2b gt on dit que les Indiens l avaient enlev lt span gt lt etc gt lt spanGrp gt lt Segmentation du texte analys en phrases gt lt spanGrp xml id Seg4 type Segmentation ana Phrase gt lt span from 1 xml id P1 gt lt span from 2a to 2b xml id P2 gt lt etc lt spanGrp gt lt Composants de l analyse compositionnelle gt lt div type SC ana SCsequence_ narrative xml id s quence narrative 1 gt lt etc lt div gt lt div type SC ana SCsequence_ narrative xml id
15. entr e pr face gt lt etc gt lt div gt lt div type SC ana SCp riode argumentative xml id P11_argumentative gt lt span type SC from 1 1a xml id 61 la proposition p gt premier argument lt span gt lt span type SC from 11b xml id 11b proposition q gt second argument lt span gt lt span type SC from 1 1c xml id 11c conclusion non c gt renversement de la conclusion implicite du retour d finitif la maison lt span gt lt div gt lt div type SC ana SCp riode_ narrative xml id P11_narrative gt lt span type SC from 1 1a xml id 61 1a Pnl gt Situation initiale Pn1 lt span gt lt span type SC from 11b xml id 6 11b Pn2 gt N ud Pn2 lt span gt lt span type SC from 1 1c xml id 61 1c Pn4 gt D nouement Pn4 lt span gt lt div gt lt div type SC ana SCp riode xml id simple p riode P11 gt lt alt mode incl targets P11_argumentative P11_ narrative weights 0 5 0 5 gt lt div gt lt div type SC ana SCp riode xml id valuation_ finale gt lt span type SC from P12 xml id PnQ gt valuation finale Cette prose p riodique domin e par le rythme contribue au glissement de genre du r cit factuel au r cit po tique Adam 2005 211 lt span gt lt div gt lt
16. euvent provenir de son contenu linguistique interne mais aussi du contexte communicationnel dans lequel s inscrit le texte L annotation en particulier dans sa composante structurelle est donc un processus interactif et it ratif qui exigera des strat gies d optimisation informatique permettant un temps de r ponse acceptable du point de vue de l interaction de l analyste avec son corpus Il faudra aussi trouver le moyen de faciliter l usage des langages d interrogation et de mises jour comme XQuery et Xquery Update Facility Des formalismes comme XPath et XSLT sont aussi des outils puissants mais leur ma trise directe par le lecteur analyste pose des probl mes On fait donc face de nombreux d fis pour rendre accessible l annotation structurelle des d fis sur les formalismes des donn es et des langages de requ te sur les strat gies d implantation informatique sur l ergonomique et sur l apprentissage Cependant l intensit des recherches dans le monde XML est telle que les ressources disponibles pour relever ces d fis se d veloppent rapidement R f rences Adam J M 2005 La linguistique textuelle Introduction l analyse textuelle des discours Paris Armand Colin ATONET 2005 R seau pour l change de ressources et de m thodologies en analyse de texte assist e par ordinateur ATONET http www atonet net Bakhtine M 1984 Esth tique de la cr ation verbale Paris Gallimard Ch
17. ivisions port e analytique l int rieur d un document d analyse portant sur un texte objet de l analyse qui est contenu dans une ressource externe Les valeurs de l attribut ana renvoient des explications sur l interpr tation de chaque structure compositionnelle l ments interp Dans l exemple on trouve deux structures pleinement expos es On a P11 argumentative avec ses trois span correspondant deux arguments et une conclusion Et on a P11 narrative contenant trois empans textuels correspondant la situation au n ud et au d nouement de la p riode narrative En fait ces deux structures sont deux points de vue sur la m me portion du texte Aussi la division suivante simple p riode P11 indique l ment alf que ces interpr tations sont possibles en m me temps mode incl part gale weights 0 5 0 5 Les deux analyses ne sont pas directement incluses dans l l ment a f mais elles sont r f r s par des pointeurs sur les l ments div pr c demment d crits Finalement la division plan de texte du Captif rassemble via l l ment ab pour arbitrary bloc sous forme de pointeurs l ment Ptr tous les pisodes par des r f rences aux divisions d analyse d j d crites Cette construction du plan du texte par modules est une formalisation directe d un processus d analyse qui rel ve d un va et vient entre la reconnaissance d l ments macrostructurels leur d com
18. ment abord es C est cette dimension que nous appelons l annotation structurelle que nous pr senterons ici sous la forme de proposition de format de document externe d annotation JADT 2010 10 International Conference on Statistical Analysis of Textual Data 1146 L ANNOTATION STRUCTURELLE Nous proc derons d abord une mise en contexte visant situer cette proposition dans le contexte des changes au sein de la communaut de l analyse des donn es textuelles assist e par ordinateur Nous proc derons ensuite la pr sentation d une proposition de syntaxe concr te XML TEI pour l annotation structurelle Pour illustrer cette proposition nous ferons appel une mise en forme d exemples d annotation structurelle tir s d un ouvrage de Jean Michel Adam 2005 sur la linguistique textuelle Nous terminerons par des perspectives derecherche sur l implantation et l exploitation de ces structures dans un contexte d analyse de texte par ordinateur 2 Probl matique Nous d signons par annotation structurelle l ajout des ressources textuelles existantes d annotations analytiques visant la mise en relation de segments textuels explicitant le fonctionnement de la langue du discours et de la mise en texte Ces mises en relation sont des pratiques de base de l analyse textuelle dans sa tradition scolaire Sur un plan plus formel l analyse syntaxique est la forme la plus connue de l annotation str
19. module capable de produire ces repr sentations graphiques Plus encore il offre d j des fonctions pour ajouter des n uds et des arcs entra nant des modifications quivalentes dans la structure XML sous jacente L interface graphique pour l affichage et la construction des annotations structurelles n est pas le seule approche possible On pourrait par exemple souhaiter disposer d assistants facilitant l instanciation des sch mas de structures On pourrait associer ces sch mas des contraintes de divers ordres position relative dans le texte valeurs dans une structure de traits etc permettant de valider les structures Au del de ces contraintes d int grit il s agirait de faciliter le d pistage de segments susceptibles d occuper des positions manquantes dans des structures partiellement construites Par exemple la reconnaissance de marqueurs de liaison pourrait d clencher l instanciation de structures dont les arguments resteraient rep rer Ainsi une occurrence de l adverbe premi rement sugg re une structure num rative ou argumentative dont les termes devraient aussi tre introduits par des marqueurs de relation d un certain type port par un trait lexical Cela nous ram ne l id e des marques instructionnelles dont parle Adam Le genre du texte analys induit aussi des attentes de lecture et des strat gies de rep rage des composants de la structure attendue Donc les instructions de lecture p
20. mpl tent par des relations de progression th matique reliant les th mes entre eux La structure de progression lin aire par exemple indique qu un l ment rh matis est repris titre de th me dans une autre relation La progression th matique r utilise les segments d j d crits mais dans des constructions diff rentes Ainsi dans l exemple on retrouve l utilisation d l ments lt ab gt de type progression th matique L attribut ana pr cise le type de progression impliqu e Les lt span gt reprennent les nonc s impliqu s dans la structure Le contenu des l ments permet d apporter des commentaires explicatifs destin es au lecteur humain L attribut n reprend simplement les tiquettes symboliques utilis es par Adam 3 3 Deuxi me illustration la structure compositionnelle d un texte La relation th me rh me m me si elle peut d passer la fronti re de la phrase couvre un empan textuel relativement restreint l oppos la structure compositionnelle d un texte recouvre l ensemble du texte Adam nous en donne un exemple sur un court r cit de Jorge Luis Borges El Hacedor traduit par J M Adam 2005 203 204 Plan de texte du Captif cs Er TR Bt valuation finale Entr e pr face S QUENCE SIMPLE P RIODE P12 PnQ P1 Pn0 NARRATIVE 1 P11 11a 11b 11c Situation Situation initiale finale P2 amp P3a Pn1 P10 Pn5 D nouement N ud Pn2 R Action P8
21. n connexion n est pas seulement intratextuelle elle est aussi intertextuelle Les textes font r f rence les uns aux autres directement ou par le partage de m mes paradigmes Plus encore l analyse textuelle en tant qu elle m me pratique discursive produit des textes sur des textes des annotations sur des textes y compris des textes d annotation et d analyse Notre entreprise de mod lisation doit donc aussi comporter une dimension documentaire permettant de mettre en relation les textes qui circulent dans l espace public et autour desquels s articule le discours social Voil pourquoi du point de vue de son inscription concr te dans l espace public nous proposons que l annotation analytique commentaires cat gories ou graphes prenne la forme de documents d annotation XML respectant une syntaxe conforme aux recommandations du Text Encoding Initiative TEI Ces documents pourront ainsi s int grer plus ais ment au mod le de d p t de donn es adapt la constitution de corpus de recherche Daoust et al 2008 Ces syst mes de d p t de donn es surtout connus pour la diffusion des publications scientifiques peuvent tre tendus aux r sultats et proc dures d analyse au del de leur synth se dans les articles scientifiques 3 Documents d annotation en TEI 3 1 Les propositions de Sacacomie Un document d annotation est une ressource lectronique poss dant un identifiant unique au sens du W3
22. omplexes existants l apport des corpus M moire pr sent pour l obtention d une habilitation diriger des recherches Document de syn th se Universit Lille IN Charles de Gaulle http www limsi fr Individu habert Publications Fichiers hdr node4 html Lebart L 2005 Data and Text Mining cole nationale sup rieure de t l communications Paris http www enst fr egsh lebart Reinert M 2002 Alceste Manuel de r f rence Universit de Saint Quentin en Y velines CNRS Salem A Lamalle C Martinez W Fleury S Fracchiolla B Kuncova A and Maisondieu A 2003 Lexico3 Outils de statistique textuelle Manuel d utilisation Syled CLA2T Universit de la Sorbonne nouvelle Paris 3 http www cavi univ paris3 fr Ilpga ilpga tal lexicoWWW TEI Consortium 2007 TEI P5 Guidelines for Electronic Text Encoding and Interchange TEI Consortium eds http www tei c org Guidelines PS Viprey J M 2009 DiaTag Astartex Universit de Franche Comt http laseldi univ fcomte fr do cument viprey page JMV htm W3C 2009a XQuery Update Facility 1 0 W3C W3C Candidate Recommendation 09 June 2009 http www w3 org TR 2007 REC xquery 20070123 W3C 2007a XML Path Language XPath 2 0 W3C Recommendation 2007 http www w3 org TR 2007 REC xpath20 20070123 W3C 2007b XQuery 1 0 An XML Query Language W3C Recommendation 2007 http www w3 org TR 2007 REC xquery 20070123 W3C 2007c XSL Transfo
23. ourse of the analysis with the help of statistical tools and various comparative reading functions In general however such enrichments are applied to textual units which are single occurrences context units or lexical forms and consist simply in associating properties attributes or feature sets to those units The possibility of defining structures or relations among textual units is seldom considered even though it allows a strictly larger set of enrichments to be expressible This is what we call structural annotation We propose representing structural annotations in the form of stand off XML documents compliant with the Text Encoding Initiative TEI recommendations and compatible with the research corpora repository model defined in earlier work Examples drawn from textual linguistics will illustrate our proposal Keywords structural annotation TEI textual linguistics 1 Introduction Dans la tradition de l analyse de texte par ordinateur l annotation et la cat gorisation font partie des op rations permettant d enrichir les donn es textuelles au fur et mesure de leur analyse clair e par des outils statistiques et divers modes de lecture comparative En g n ral cependant les unit s ainsi annot es sont des occurrences individuelles des unit s de contexte ou des formes lexicales affubl es de propri t s attributs ou structures de traits Mais la structuration de ces unit s et leur mise en relation sont plus rare
24. position en structures plus fines jusqu aux propositions nonc s et leur rassemblement dans un plan de texte englobant 4 Conclusion et perspectives Le recours aux recommandations de la TEI pour r aliser des documents d annotation en g n ral et d annotation structurelle en particulier nous semble une voie prometteuse pour la diffusion et l interop rabilit des traitements sur corpus Le partage des m mes formalismes pour l dition lectronique des corpus et pour la production de documents d analyse sur les corpus traduit bien la r alit discursive de textes sur les textes qui se r pondent et s entrecroisent Certes la repr sentation XML d un document d annotation structurelle m me si elle est directement lisible par l humain n est pas la repr sentation privil gi e du point de vue JADT 2010 10 International Conference on Statistical Analysis of Textual Data FRAN OIS DAOUST YVES MARCOUX JEAN MARIE VIPREY 1155 ergonomique Aussi nous pouvons appliquer une feuille de style XSLT qui transforme cette repr sentation en une autre repr sentation XML qui traduit le formalisme d crit en graphes constitu s de n uds et d arcs entre les n uds Cette repr sentation peut alimenter des librairies graphiques qui traceront le graphe la mani re des figures qui illustrent les exemples de Jean Michel Adam Ainsi Serge Fleury a d j int gr dans son logiciel Le Trameur Fleury 2009 un
25. rmations XSLT Version 2 0 W3C Recommendation 2007 http www w3 org TR 2007 REC xslt20 20070123 Weinrich H 1964 1973 Le temps Paris Seuil cit par Adam 2005 JADT 2010 10 International Conference on Statistical Analysis of Textual Data
26. t interpGrp gt qui permet aussi de factoriser des attributs communs un ensemble de balises lt interp gt Ici on fait appel la combinaison des l ments lt span gt et lt interp gt pour distinguer le sch ma g n ral de l analyse avec la d finition des concepts de l instanciation du concept sur un passage donn La TEI signale qu on pourrait aussi utiliser des structures de traits plut t que des l ments lt interp gt Les structures de traits sont particuli rement appropri es lorsque l analyse renvoie des syst mes cat goriels Donc la TEI nous fournit tous les l ments et les attributs qu il nous faut dans un ensemble bien document et diffus dans la communaut des sciences humaines 3 2 Premi re illustration la relation th me rh me Dans les paragraphes qui suivent nous pr senterons un premier exemple de document TEI illustrant l application de la perspective fonctionnelle de la phrase sur une courte phrase extraite d Adam 2005 49 Voici la phrase et le sch ma sch ma 8 Sch ma 8 Pt Etun jour Jeanie partit la recherche de son amoureux T Rh1 P2 Elle regardait les fleurs d eau et leurs tiges pench es Thi Rh2 Rh propre 3 et toutes les fleurs s inclinaient vers elle Th2 Rh2 Rh4 Rhp3 Rhp5 Tht P3 Et Jeanie disait en marchant Th1 Rh6 Figure 1 Exemple de relation th me rh me sch ma 8 extrait d Adam 2005 49 Et un jour Jeanie p
27. type d annotation il s agit L attribut xml base JADT 2010 10 International Conference on Statistical Analysis of Textual Data FRAN OIS DAOUST YVES MARCOUX JEAN MARIE VIPREY 1149 contient l URL du document analys Dans l exemple il s agit du nom du document doc source xml sur monsite org On assume ici que ce document contient le texte analyser d coup en mots identifi s par l attribut xml id des l ments lt w gt Le contenu de la balise lt span gt est utilis pour d limiter un passage et expliquer la nature de l annotation concern e Les attributs from et to contiennent un pointeur sur le d but et la fin du passage sur lequel porte l annotation l attribut to est facultatif si le passage ne comporte qu un l ment Dans l exemple w1 et w4 renvoient aux valeurs de l attribut xml id des l ments lt w gt dans le document primaire doc1 xml Le lt span gt d signe donc de fa on simple une tendue textuelle allant d un mot un autre chacun des mots tant identifi par une tiquette unique dans le document r f r ici par l attribut xm base L attribut ana pointe sur une interpr tation de l l ment Il est courant d inscrire cette interpr tation dans un l ment lt interp gt Les recommandations de la TEI indiquent que cet l ment lt interp gt vise r sumer l interpr tation d une annotation analytique L l ment lt interp gt peut faire partie d un l
28. ucture pour annoter les formes lexicales et leurs occurrences Notre proposition de format pour l annotation structurelle s appuie sur cette proposition avanc e de Sacacomie Elle reprend l utilisation de l l ment span sugg r par la TEI pour r f rer dans le document secondaire d annotation un empan textuel dans le document primaire annot Cet l ment span est pr sent dans le chapitre intitul Simple Analytic Mechanisms du TEI P5 Guidelines TEI Consortium 2007 Il y est d crit comme un des m canismes simples de r f rence des empans textuels utilis s des fins analytiques Il permet d associer une annotation interpr tative un passage de texte r f r par des pointeurs Les lt span gt peuvent tre coiff s d un l ment lt spanGrp gt comme illustr dans l exemple suivant lt spanGrp resp Adam2005 type Th meRh me xml base http monsite org doc source xml gt lt span from w1 to w4 xml id Th1 ana th me gt Th me initial en d but de phrase Et un jour lt span gt lt spanGrp gt La balise lt spanGrp resp Adam2005 type Th meRh me xml base http monsite org doc source xml gt permet de factoriser des attributs communs un ensemble de lt span gt resp renvoie la description g n ralement dans l ent te TEI de la personne responsable de cette annotation alors que type indique de quel
29. ucturelle avec ses for ts d arbres qui annotent les divers composants de la proposition et de la phrase Au del de la phrase la linguistique textuelle dans la foul e de Bakhtine 1984 per oit le texte comme un r seau de d terminations La linguistique textuelle a pour r le au sein de l analyse de discours de th oriser et de d crire les agencements d nonc s l mentaires au sein de l unit de haute complexit que constitue un texte Elle a pour t che de d tailler les relations d interd pendance qui font d un texte un r seau de d terminations Weinrich 1973 174 La linguistique textuelle porte autant sur la description et la d finition des diff rentes unit s que sur les op rations dont tous les niveaux de complexit les nonc s portent la trace Adam 2005 33 Malgr le fait que l analyse textuelle fasse grand tat des multiples structures qui traversent le texte la tradition de l analyse statistique des donn es textuelles lui a fait peu de place Certes plusieurs chercheurs ont situ leur travaux aux confins de l analyse syntaxique telle que pratiqu e en traitement automatique de la langue et de l analyse de discours de tradition lexicom trique voir entre autres Habert 1998 Mais ces travaux sont g n ralement limit s la prise en compte des syntagmes nominaux dans l analyse contrastive des nonc s Les connexions du texte et du discours en tant qu unit s
30. ur l change de corpus et de ressources textuelles au sein des communaut s qui gravitent autour des JADT C est ainsi que le r seau ATONET 2005 a propos un sous ensemble de balises TEI pour traduire des fins d change les formats propri taires utilis s par les logiciels d analyse textuelle couramment employ s au sein de la communaut de la recherche C est ce que nous avons appel les propositions de Sacacomie Daoust and Marcoux 2006 du nom du lieu o s est tenu le s minaire pr sentant ces propositions Les propositions de Sacacomie comprennent un encodage dit embarqu embedded en anglais des annotations simples Cela signifie que les annotations peuvent s inscrire dans le document primaire selon la pratique de la majorit des logiciels consid r s par le groupe de travail d ATONET Alceste Reinert 2002 Diatag Astartex Viprey 2009 DTM Lebart 2005 Lexico Salem et al 2003 et SATO Daoust 2009 En fait nous formulions l poque deux propositions une proposition de base servant de commun d nominateur aux logiciels existants et une proposition avanc e comprenant un d coupage en mots marqu par la paire de balises lt w gt lt w gt L l ment w est accompagn d un attribut xml id identifiant chacun des mots de mani re unique Cette proposition comprenait aussi le principe de document d annotation externe utilisant les structures de traits avec leur l ment fs feature str
31. yse statistique des fr quences de cat gories marquant des r sultats d analyse et d interpr tation susceptibles par exemple de rendre compte d l ments de la structure syntaxique ou s mantique de l nonc L annotation structurelle permet en plus de compter des configurations c est dire des motifs structurels l int rieur de certains empans d termin s par des structures plus amples par exemple telle structure argumentaire dans tel type d pisode narratif L int r t de l annotation structurelle ne se limite pas bien entendu la qualification des unit s soumises au calcul statistique Comme les concordances par exemple elle est un outil de navigation permettant des parcours hypertextuels appuyant l interpr tation sur l explicitation des connexions qui tissent le discours et le texte Cette navigation doit aller dans les deux sens de la localit l occurrence vers les structures et les l ments qu elles connectent d une part et d autre part de la structure par exemple le plan du texte vers ses parties constituantes Ces parcours sont l extension de notre pratique actuelle qui nous plonge du contexte au lexique du lexique au contexte une extension aussi des parcours des r seaux de co occurrents et des r seaux lexicaux Ce premier type de consid rations justifiant notre proposition d annotation structurelle est compl t par des consid rations d ordre documentaire La mise e
Download Pdf Manuals
Related Search
Related Contents
4 - SEW-Eurodrive Préservatifs masculins MAJOR OFFICE ACTIVITIES WV-CL924A - Alacron.com Zonet ZEW1603 Sony CDX-MP40 User's Manual CT-5100WP 取扱説明書ダウンロード(3.51MB COURS DE SCIENCES DE L`ÉCOLE MODERNE HOW-TO GUIDE Siemens EH601MV17E hob Copyright © All rights reserved.
Failed to retrieve file