Home
quantifier les faits langagiers - Lexicometrica
Contents
1. 70 16 2 UTILISER DES CORPUS ARBORES se seen 71 17 UN OBJECTIF LA DESAMBIGUISATION LEXICALE semer 74 18 UNE OPPOSITION FONDAMENTALE CONSTRUCTION LEXICALE OU LBLON 8I Eu E810 B EID n 75 18 1 BASES DE CONNAISSANCES LEXICALES eee 76 18 1 1 Dictionnaires ette 76 18 1 2 ThesaHF gs ice ess ee dt scade euet 78 18 1 3 Terminologl s s dete t ge et tiet e 80 18 2 BASES DE CONNAISSANCES CONCEPTUELLES esee 80 18 3 UNE OPPOSITION REELLE MAIS FLOUE csssscssceeesesseseeeecesssesseceeesceesaueeceeescesseaeeeeeeeeeees 81 19 UNE GRANDE DIVERSITE DE RESSOURCES LEXICALES eee 82 19 1 DES DISTINCTIONS DE SENS PLUS OU MOINS FINES siennes 82 19 2 DES RESSOURCES GENERALES OU SPECIALISEES ee 83 19 3 DES SOURCES PLUS OU MOINS INFORMATISEES seine 85 19 5 1 Dictionnaires et thesaurus sur support lectronique 85 19 3 2 Ressources lecironiques reines dut AR i i 85 19 3 3 Ressources informatis es ere 86 20 UN EXEMPLE DE RESEAU LEXICAL WORDNET cccssssssssssccssssecessecssseees 87 20 1 UN PROJET AMBITIEUX rec PNE 87 20 1 1 Repr senter les sens de mots ses 87 20 1 2 Mettre les sens en r seau vicccccccccccccccsccsccccsecssssccccssssssseccesessssesecesesetsseseseeees 88 20 1 3 Quelques chiffres 89 20 2 UNE STRUCTURE RICHE ET DIFFERENCIEE eene eene eene ener n
2. dans un premier temps pouvait servir de point de d part pour classifier d autres mots 188 parcellaires que l on peut ensuite projeter sur le corpus pour en induire de nouvelles Une variante de cette d marche incr mentale part non des premi res classes induites mais d un tiquetage grossier du corpus C est ce que font R Basili et al 1993b ou R Grishman et J Sterling 1994 mais aussi Z Harris voir chapitre VII 45 2 Projeter des cat gories sur un corpus 45 2 1 Segmentation en unit s s mantiques D j pr sente au niveau morpho syntaxique la question de la segmentation du corpus se pose d autant plus au niveau s mantique que la tradition fait davantage d faut Quelle unit de sens faut il retenir On consid re souvent le mot par solution de facilit parce que les sources lexicales utilis es sont elles m mes structur es autour des mots aux expressions polylexicales et mots compos s pr s Dans certains cas cependant les unit s inf rieures sont tiqueter pour une tude th matique de Enfants les pr fixes n gatifs doivent tre compt s au m me titre que les adverbes de n gation lesquels comportent au contraire g n ralement plusieurs mots ne pas Il est par ailleurs souvent difficile d identifier les mots qui dans un syntagme ou dans une phrase doivent porter une tiquette donn e Dans Enfants les expressions difficult s financi res pas assez d argent consid rations
3. Une exception au moins le corpus de 65 000 mots d oral transcrit enfants de 6 12 ans analys manuellement Polytechnic of Wales qui s inspire troitement de la Grammaire Fonctionnelle Syst mique de Halliday 178 n cessaire pour que le corpus puisse tre r utilis Black et a 1993 p 37 Il est enfin un crit re que nous carterons celui du temps n cessaire au parsage lui m me D abord parce qu il est difficile de donner des informations comparables les langages informatiques utilis s la taille des m moires leur configuration changent notablement le sens des mesures Ensuite parce le temps de calcul n est plus une ressource rare et qu en outre l am lioration des performances des machines le r duit continuement Enfin parce que l optimisation des parseurs est un art fructueux mais qu il faut probablement attendre une plus grande maturit du domaine pour qu elle soit vraiment l ordre du jour pour les corpus arbor s 44 4 Post traitement et co ts C est la phase de nettoyage manuel des r sultats fournis par le parseur utilis Il peut s agir comme pour le syst me TOSCA de choisir entre les analyses alternatives propos es Halteren et Oostdijk 1993 p 157 159 Sont utilis es des for ts partag es shared forests qui mettent en facteur commun les sous arbres partag s L annotateur examine la phrase en contexte et s lectionne chaque point d ambiguit le sous arbre appropri
4. ayant pour sujet e congr s ou le sigle a CFTC suivis d une compl tive en que Une autre tude Habert 1983 consacr e aux r solutions g n rales des congr s de la CFTC de 1945 1964 et de la CFDT de 1965 1979 trouve une opposition similaire D un c t une r solution circonstancielle ancr e dans le temps de l nonciation indications pr cises de lieu verbes d affirmation ou d interpellation De l autre une r solution th orique qui s affranchit de l ici et maintenant de l nonciation pr sent de v rit g n rale avec les flexions d tre et avoir effacement de l nonciateur verbes modaux marques d articulation logique du discours etc Les r solutions examin es se situent entre ces deux p les la r solution th orique prenant le pas en 1945 moment d affirmation du syndicalisme chr tien dans une France de l apr s guerre marqu e par le r le du Parti Communiste et de la CGT et en 1970 1973 et 1976 o la CFDT apr s 1968 opte pour le socialisme autogestionnaire travers ces deux tudes l une sur une p riode courte 5 ans l autre sur le moyen terme 34 ans il semble que deux types de textes au moins soient disponibles pour permettre un acteur social de se situer dans le pr sent associ s des postures distinctes Les deux types de textes d gag s pour le discours syndical tr s sp cifiques ne s int grent pas imm diatement dans ceux propos s par Bi
5. That and zero complementisers in late modern english exploring archer from 1650 1990 in The verb in contemporary English Theory and description Aarts B Meyer C F Cambridge University Press Cambridge 1995 241 257 FucHs C resp Linguistique et traitement automatique des langues Hachette Paris 1993 238 GALE W A CHURCH W program for aligning sentences in bilingual corpora Computational Linguistics 19 1 1993 75 102 GAUSSIER E GREFENSTETTE G SCHULZE M Traitement du langage naturel et recherche d information quelques exp riences sur le fran ais in FRANCIL 97 1997 9 14 GAUSSIER E LANGE J M Mod les statistiques pour l extraction de lexiques bilingues TAL 36 1 2 1995 133 156 GAZDAR G KLEIN E PULLUM G K SAG I A Generalized Phrase Structure Grammar Harvard University Press Cambridge MA 1985 GAZDAR G MELLISH C Natural Language Processing in Lisp Addison Wesley Reading 1989 GioRDANO R The TEI header and the documentation of electronic texts Computers and the Humanities 29 1995 75 85 GOLDFARB C F The SGML Handbook Clarendon Press 1990 GOOSSENS M Introduction pratique SGML Cahiers Gutenberg 19 1995 27 58 GRANGER S International corpus of learner english in English language corpora design analysis and exploitation Aarts J de Haan P Oostdijk N Rodopi Amsterdam 1993 57 71 GREEN
6. ASSADI H BOURIGAULT D Classification d adjectifs extraits d un corpus pour l aide la mod lisation de connaissances in JADT 95 1995 ATWELL E HUGHES J SOUTER C Amalgam Automatic mapping among lexico grammatical annotation models in The Balancing Act Combining Symbolic and Statistical Approaches to Language Las Cruces USA 1994 11 21 AUTHIER REVUZ J M ta nonciation et d figement in La locution en discours Martins Baltar M ENS de Fontenay St Cloud Paris 1995 17 40 BARKEMA H Determining the syntactic flexibility of idioms in Creating and using English language corpora Fries U Tottie G Schneider P Rodopi Amsterdam 1994 39 52 Bibliographie 235 BARKEMA Idiomaticy in english NPs in English language corpora design analysis and exploitation Aarts J de Haan P Oostdijk N Rodopi Amsterdam 1993 257 278 BARNBROOK G Language and Computers A practical Introduction to the Computer Analysis of Language Edinburgh University Press Edinburgh 1996 BASIL R DELLA Rocca M Pazienza M T Contextual word sense tuning and disambiguation Applied Artificial Intelligence 11 1997 235 262 BASILI R PAZIENZA M VELARDI P not so shallow parser for collocational analysis COLING 94 1994 447 453 BASILI R PAZIENZA M VELARDI P Acquisition of selectional patterns in sublanguages Machine Translation 8 1993 175 201 B
7. 12000 10000 8000 lemmes 6000 4 4000 4 2000 4 nombre des occurrences H H H 1 0 50000 100000 150000 200000 250000 300000 Figure 2 L accroissement du vocabulaire mesur en formes graphiques et en lemmes Cet exemple souligne la n cessit de pratiquer des comparaisons sur des comptages r alis s selon des normes de d pouillement identiques 48 MESURES DE RECURRENCE SUR L AXE SYNTAGMATIQUE Les op rations de comptage des unit s dans un corpus passent n cessairement par une phase de d limitation qui isole ces derni res de leur contexte imm diat L exp rience montre cependant qu apr s cette phase pr liminaire il est int ressant d tudier en outre les r currences et cooccurrences d unit s compos es suite de cat gories syntaxiques locutions ou expressions fig es qui infl chissent voire modifient totalement leurs significations sous l angle de leurs r p titions ventuelles dans le corpus 48 1 S quences d unit s Au plan lexical par exemple les r currences d unit s comme s curit sociale niveau de vie etc sont dot es dans les textes socio politiques d un sens que l on ne peut d duire partir du sens des formes qui les composent Bibliographie 199 On appelle segment r p t toute suite d unit s textuelles reproduite sans variation plusieurs endroits d un corpus Le nombre des unit s qui composent le segment est sa longueur On peut recenser les
8. 24 2 3 D sambiguiser un ensemble de mots On peut donc d sambiguiser un texte en retenant pour un mot donn le sens le plus proche des sens des mots voisins M Sussna propose une m thode de d sambiguisation globale qui respecte la co d termination des sens En effet si on ne calcule qu un sens la fois comme le font la plupart des approches num riques de la d sambiguisation de mots la question se pose de savoir s il faut et comment on peut tenir compte du A priori une mesure de densit calcul e partir de relations plus nombreuses devrait d autant mieux rendre compte de la notion de parent s mantique et on pourrait s attendre de meilleurs r sultats de ganariga atan Les exp riences ont montr que la diff rence est n gligeable ajouter l information m ronymique n am liore pas la pr cision et n augmente la couverture que de 3 environ ibid Ici la couverture correspond la proportion de noms effectivement d sambiguis s D une langue l autre 115 fait qu un sens a t choisi pour un mot quand on cherche d sambiguiser le mot suivant Guthrie et a 1994 M Sussna cherche d sambiguiser non pas un mot en fonction de son contexte mais un ensemble de mots conjointement en tenant compte de leur contrainte mutuelle Sussna 1993 Cela suppose de consid rer toute la combinatoire des sens possibles de calculer une distance binaire pour chaque couple de mot et de re
9. ISABELLE P La bi textualit vers une nouvelle g n ration d aides la traduction et la terminologie META 37 4 1992 721 737 ISABELLE P WARWICK ARMSTRONG S Les corpus bilingues une nouvelle ressource pour le traducteur in La traductique Bouillon P Clas A Presses de l Universit de Montr al Montr al 1993 288 306 JACQUEMIN C KLAVANS J L TZOUKERMANN E Expansion of multi word terms for indexing and retrieval using morphology and syntax in ACL EACL 97 Madrid 1997 24 81 JACQUEMIN C ROYAUT J Retrieving terms and their variants in a lexicalized unification based framework in SIGIR 94 Dublin 1994 132 141 JOHANSSON S This scheme is badly needed some aspects of verb adverb combinations in The verb in contemporary English Theory and description Aarts B Meyer C F Cambridge University Press Cambridge 1995 218 240 240 JOHANSSON S Continuity and change in the encoding of computer corpora in Corpus based research into language Ooostdijk N de Haan P Rodopi Amsterdam 1994 13 32 JOHANSSON S The encoding of spoken texts Computers and the Humanities 29 1995 149 158 JUSTESON J S KATZ S M Principled disambiguation Discriminating adjective senses with modified nouns Computational Linguistics 21 1 1995 1 28 KARLSSON F Robust parsing of unconstrained text in Corpus based research into language Oo
10. Les recherches de C Jacquemin Jacquemin 1994 sur la variation des termes en langue de sp cialit empruntent une d marche radicalement diff rente o la qu te de variations est contr l e par des connaissances des r gles linguistiques Au lieu de chercher des s quences en intersection c est dire partageant des mots avec des expressions toutes faites il s agit d engendrer les variations syntaxiques possibles de termes techniques et de v rifier si ces variations se rencontrent effectivement en corpus 88 Bien qu il postule que en principe les expressions libres acceptent l application de toutes les r gles et sont donc totalement flexibles ibid p 44 Barkema montre d ailleurs quelque inqui tude sur ce point et souhaite v rifier pour des expressions libres comme the old man ou the bird in the garden si les variations effectives de ces expressions correspondent bien au profil de variations attendues Ressources lexicales 59 15 3 1 Une repr sentation syntaxique contrainte des termes L objectif est d inventorier les variations en corpus des termes d un domaine On parle aussi de mots cl s ou de descripteurs quand ces l ments sont utilis s en informatique documentaire pour indexer des documents Certains de ces descripteurs sont des mots simples comme paradigme en linguistique La plupart sont des mots complexes comme axe paradigmatique en linguistique Ce sont les descripteurs complexes q
11. METAL MONEY CASH CREDIT LINE COIN CONSUMER CREDIT NICKEL DIME OPEN END CREDIT CREDIT CARD lien hyperonymique lien antonymique Figure 3 4 Exemple de sous hi rarchie de WordNet 20 2 Une structure riche et diff renci e WordNet d compose le lexique en cing cat gories noms verbes adjectives adverbes et mots fonctionnels Chacune de ces cat gories a sa propre structure interne Ce sont des exp riences sur les associations de mots qui ont mis en vidence l origine que l organisation varie d une cat gorie syntaxique l autre ibid 20 2 1 Des hi rarchies de noms L ensemble des noms qui comporte des formes simples et des mots compos s mais pas de noms propres est organis autour de la relation d hyponymie qui se d finit comme suit on dit qu un concept repr sent par le synset x X est l hyponyme du concept repr sent par le synset ly y si les locuteurs dont l anglais est la langue maternelle acceptent les phrases du type Un x est une sorte de y ibid p 8 Miller 1993 p 17 donne un exemple de chaine hyponymique televangelist lt evangelist preacher lt clergyman lt spiritual leader lt person La structure induite est en fait un ensemble de 25 hi rarchies domin es 199 Cette derni re cat gorie n est toutefois pas int gr e WordNet NDA Dans x lt y le mot x est donn comme l hyponyme du mot y On aurait pour le fran a
12. corpus V ronis et Khouri 1995 insiste sur la n cessit de distinguer les descriptions lexicales c est dire l ensemble des associations trait valeur qui caract risent chaque forme et les tiquettes le passage des premi res aux secondes se faisant par traduction toute description lexicale devant correspondre une tiquette au plus Litt ralement des tiquettes valises sur le mod le de portmanteau word PREMIERE PARTIE mot suis mot suis esu tre mut suivre cat gorie verbe cat gorie verbe mot la mot la mot la lemme le lemme le lemme la cat gorie d terminant cat gorie pronom cat gorie nom mot France lemme France cat gorie nom ou figurent les deux verbes correspondant potentiellement a la forme fl chie suis suivre et tre tous deux l gitimes hors contexte et les trois tiquettes possibles pour 28 La degr d tiquetage n cessaire une exp rience sur un corpus d pend troitement des objectifs de la recherche envisag e Si l on veut se servir d un corpus tiquet pour extraire des suites de cat gories syntaxiques on peut tol rer un tel degr d ambiguit et trier a posteriori les r sultats Par contre si l on souhaite tudier un ph nom ne massif comme la d termination dans des gros corpus on ne saurait se satisfaire d un tiquetage qui laisse en suspens les choix ici entre d terminant et pronom pour e a les 8 4 3 Une vision large de l
13. le lemme correspondant tell la structure syntaxique dans laquelle s ins re le mot Vd Vd indique que ce mot est la t te d un groupe verbal Le point signale l endroit o le mot et sa cat gorie doivent s ins rer C est l quivalent de Vd VVdv told 8 2 L in vitable parpillement des tiquetages Les exemples donn s manifestent la diversit en taille et en vis e des jeux d tiquettes et des strat gies d tiquetage sous jacentes Cette Les majuscules sont dans le texte de d part 22 Nous reviendrons sur ce dernier champ au chapitre suivant consacr aux corpus arbor s cette annotation syntaxique n est g n ralement pas consid r e comme faisant partie de l tiquetage proprement parler 18 PREMIERE PARTIE diversit tient l utilisation envisag e du corpus mais aussi son mode d tiquetage manuel ou automatique ainsi qu l absence de consensus sur certains cat gories ou sur leur extension L exp rience montre qu un groupe d annotateurs n est pas forc ment coh rent dans les tiquettes qu il attribue manuellement un texte Il en va de m me pour un m me individu au fil du temps J V ronis et L Khouri soulignent 1995 p 235 le fait que les jeux d tiquettes ne sont g n ralement pas comparables ce qui retarde l valuation ou la combinaison des tiqueteurs et des tiquetages Pour reprendre Leech et ses coll gues 1994 p 51 il n y a pas de meilleur jeu d t
14. sees tenes teens e eet 8 5 1 L ECRIT AU TRAVERS DE CORPUS ENRICHIS DE LANGUES VIVANTES usines 8 5 2 LES CORPUS LES RESSOURCES ET LES RECHERCHES DE LANGUE ANGLAISE c 9 5 3 UN POINT DE VUE AUX FRONTIERES DE LA LINGUISTIQUE eene eene nnne 9 5 4 DIVERSITE DES PUBLICS CONCERNES cccccccscccsesssssscsecesecsesesecccsecssesesecsssessseseesceeeaes 10 6 DEMARCHE SUINIE OE 10 6 1 LES CORPUS ANNOTES ET LEURS UTILISATIONS ccccecsccesssesssssecccssssssscscescessaesceeescesseaes 10 6 2 DIMENSIONS TRANSVERSALES cccccccccccssesssscsecccsssccscsecesscseassesecssecsssssesccecessseseeeseeseaees 11 6 3 METHODOLOGIES ET TECHNIQUES users 11 7 PRINCIPAUX CORPUS CITES Nonae ea ree i iea 11 7 CORPUS ANGLAIS OU AMERICAINS eeceeeeeeeeeeeeen 12 1 27 CORPUS FRANCAIS eee Pet ed tee e bos gerade Peste ete steve vie tee ee P e niet 13 8 DEETNITIONS ce ire asea i sr ESE or r Ea or P 15 Sk EXEMPLES eerte evite per be Fere EEEE Da eh potes E OE 16 8 2 L INEVITABLE EPARPILLEMENT DES ETIQUETAGES users esse screens 17 8 3 UNE REPRESENTATION CANONIQUE ssssssssssescsesesseeceecesenseaeeesesesesseaeeecesesesaeeeeeeesensuaeeesees 19 8 4 TYPES D ETIQUETAGE ccscsscecesscccescececsseecesseseeseseeecesseccessecscesseccesesecesss
15. 2 Inexistence SECTION RELATION Class V Words Relating to the Voluntary Powers DIVISION 1 INDIVIDUAL VOLITION SECTION VOLITION IN GENERAL 1 ACTS OF VOLITION 600 Will 601 Necessity Class VI Words Relating to the Sentient and Moral Powers 998 Rite 999 Canonicals 1000 Temple Figure 3 3 Organisation g n rale des 1 000 cat gories conceptuelles du Roget s Theasaurus 18 1 3 Terminologies Les terminologies constituent un troisi me type de ressources lexicales G n ralement tablies pour des domaines sp cialis s elles sont peu adapt es la d sambiguisation de vastes corpus Outils traditionnels de la recherche documentaire cf chapitre IV section 3 elles visent recenser les d nominations d un domaine cf chapitre Il section 3 4 et peuvent galement servir marquer les termes dans le cadre d un tiquetage partiel de corpus 18 2 Bases de connaissances conceptuelles Alors que les ressources lexicales structurent l espace des mots les r seaux s mantiques et ontologies issus d une autre tradition aussi ancienne que la lexicographie refl tent une conceptualisation du monde Il s agit cette fois de recenser les cat gories d objets ou 7 Cette tradition qui remonte la m taphysique antique a t largement revisit e re ue trentaine d ann es par les recherches dans le domaine de l Intelligence r ticielle Ressources lexicales 81 con
16. ADV here RB ADV always RB AUX TNS VP VPRES buck VBP PP PRES up RP NP NBAR ADJ nervous Ju NPL newcomers NNS PP PREP with IN NP DART the DT NBAR N tale NN PP of PREP NP DART the DT NBAR ADJP ADJ first JJ PP of PREP NP PROS their PP NBAR NPL countrymen NNS 2 S NP PRO AUX to TNS VP V visit VB NP PNP Mexico NNP 2 MID NP IART a DT NBAR N boatload NN PP of PREP NP NBAR NPL warriors NNS VP VPPRT blown VBN ADV NP NBAR CARD 375 CD NPL years NNS ADV ago RB 2 FIN 2 Apr s simplification automatique et avant correction manuelle 180 La repr sentation est simplifi e pour faciliter la t che des annotateurs en rendant le r sultat visuellement plus clair et en liminant des distinctions mineures nom propre nom commun par exemple S NP ADJ Battle tested industrial managers VP buck PP up NP nervous newcomers 2 PP with NP the tale PP of NP the ADJP first PP of NP their countrymen S NP to VP visit NP Mexico NP a boatload PP of NP warriors VP blown ashore NP 375 years ago 2 3 Apr s correction manuelle L environnement utilis permet d attacher un constituant de changer sa position dans l arbre de modifier
17. C est le r le des indices entre chevrons sur les traits attach s aux noeuds le trait nombre et le trait genre de l adjectif ins r doivent avoir la m me valeur que les traits correspondants attach s fonction Le lemme de l adjectif ajout n est pas pr cis par contre Les m ta r gles comprennent donc des d corations sur les noeuds Ces informations permettent de contraindre leur application On pourrait ajouter par exemple le trait type relationnel v qualificatif relationnel pour emp cher l engendrement d une variation avec un adjectif qualificatif fonction satisfaisante ventriculaire gauche L adjectif satisfaisante portant le trait type qualificatif il y aurait conflit entre la valeur du trait dans la m ta r gle et celle de satisfaisante Une autre m ta r gle peut faire fond sur la valeur du trait nom base associ ventriculaire pour engendrer l arbre correspondant fonction du ventricule gauche o l adjectif relationnel ventriculaire est remplac par le syntagme pr positionnel quivalent Cette transformation peut op rer dans l autre sens ce qui permet d obtenir infarctus myocardique partir d infarctus du myocarde Ces transformations sont donc conditionn es par la pr sence de certains traits Le terme infarctus du myocarde peut tre transform en infarctus myocardique parce qu est associ au noeud correspondant myocarde le trait adjectif relationnel myocardique Le terme angine de po
18. EEG OLOFSSON M ALTENBERG B Discontinuous recurrent word combinations in the London Lund corpus in Creating and using English language corpora Fries U Tottie G Schneider P Rodopi Amsterdam 1994 63 78 EL B ZE M SPRIET T Int gration de contraintes syntaxiques dans un syst me d tiquetage probabiliste TAL 36 1 2 1995 47 66 ENGWALL G Not chance but choice Criteria in corpus creation in Computational Approaches to the Lexicon Atkins B Zampolli A Oxford University Press Oxford 1994 49 82 EVANS D A ZHAI C Noun phrase analysis in unrestricted text for information retrieval in ACL 96 Santa Cruz USA 1996 EvES E LEECH G Progress in UCREL research improving corpus annotation practices in English language corpora design analysis and exploitation Aarts J de Haan P Oostdijk N Rodopi Amsterdam 1993 125 143 FELLBAUM C GROSS D MILLER Adjectives in WordNet in Five Papers on WordNet http www cogsci princeton edu wn sept 1997 1993 26 39 revised version FIALA P HABERT B La langue de bois en clats les d figements dans les titres de la presse quotidienne fran aise MOTS 1989 83 98 FILLMORE C J ATKINS B Starting where the dictionaries stop The challenge of corpus lexicography in Computational Approaches to the Lexicon Atkins B Zampolli A Oxford University Press Oxford 1994 349 396 FINEGAN E BIBER D
19. erreur difficile homog n iser et surtout trop co teuse L a partie du corpus Brown qui est tiquet e par les classes de mots de WordNet un exemple de corpus important disponible et d sambiguis la main montre clairement combien il est difficile d obtenir des donn es satisfaisantes Ce corpus est relativement petit de l ordre de quelques centaines de milliers de mots en comparaison de la taille des corpus actuels plusieurs millions ou dizaines de millions de mots la m thode d annotation qui a t utilis e est tr s co teuse en temps de travail et la qualit des r sultats refl te la difficult de la t ches standards actuels les annotateurs sont en d saccord dans environ 10 des cas Resnik 1995 D o le besoin de m thodes automatiques robustes de d sambiguisation de corpus et l int r t des travaux qui comme Sussna 1993 cherchent les mettre au point 190 CHAPITRE IX QUANTIFIER LES FAITS LANGAGIERS Divers outils informatiques permettent d extraire partir de corpus ayant fait l objet d un travail d annotation les occurrences d unit s textuelles qui correspondent un patron donn mot lemme cat gorie grammaticale ou s mantique patron syntaxique etc Ces outils permettent ais ment de constituer la liste exhaustive des contextes o cette unit p le apparait L examen des diff rents contextes d une unit textuelle projette un clairage indispensab
20. maintain sustain forecast continue Exp rapid growth cf buy out bid raise capital profit growth cf electronics group total revenue growth rate cf profit margin future performance growth potential cf company spokeswoman board seat future growth cf speciality chain bottom line Ces entr es ne ressemblent gu re des entr es habituelles de dictionnaire Pourtant elles constituent un ensemble d indications qui peut guider le lexicographe dans son travail de r daction Elles comportent six rubriques les quatre derni res tant optionnelles 23 1 1 Des donn es quantitatives Le nombre de contextes ou d occurrences du nom vedette et son rang dans l ordre de fr quences d croissantes renseignent sur son poids dans le corpus Les noms les plus fr quents du corpus m dical par ordre d croissant cell patient effect study case sont en effet repr sentatifs du domaine consid r Sur l exemple ci dessus on constate que growth et therapy sont ainsi nettement plus fr quents que year De surcroit on sait que le rang des noms d un corpus donne une indication sur le degr de sp cificit ou de g n ralit de ces noms Srinivasan 1992 Le fait que patient soit plus fr quent que child ou woman treatment plus fr quent que therapy lui m me plus fr quent que chemotherapy parait en effet sugg rer que patient fonctionne dans le corpus m dical comme de child ou woman ou que la chimio
21. titre d exemple les pourcentages d ambiguit obtenus par le syst me TOSCA sur un corpus d 1 5 million de mots de prose anglaise contemporaine Halteren et Oostdijk 1993 p 155 12 Ces chiffres donnent une id e des difficult s rencontr es en analyse syntaxique automatique 13 3 3 Sous sp cification l est possible de laisser une analyse sous sp cifi e c est dire incompl te sur un point donn Cela revient limiter artificiellement l ambiguit en la laissant implicite Par exemple les attachements pr positionnels adjectivaux souvent difficiles effectuer automatiquement peuvent tre laiss s en suspens pour permettre une post dition sp cifique Le parseur ENGCG Voutilainen et Heikkila 1994 p 190 dans fat butcher s wife indique juste que fat s attache un nom droite sans d cider s il s agit de butcher la femme du gros boucher ou de wife la grosse femme du boucher et n effectue pas non plus les rattachements des adverbiaux notoirement d licats C est encore le cas du parseur Fidditch Hindle 1994 dans Penn Treebank qui ne rattache pas les groupes dont il ne peut pas d terminer avec certitude le r le dans une structure de plus haut niveau cf chapitre VIII Cela peut aboutir fournir pour une phrase une suite d arbres non reli s entre eux Dans certains cas des noeuds sont laiss s sans tiquette quand leur d limitation est claire mais pas leur cat gorie Black et al 1
22. 183 190 PERY WOODLEY M P Quels corpus pour quels traitements automatiques TAL 36 1 2 1995 213 232 PERY WooDLEY M P Les crits dans l apprentissage cl s pour analyser les productions des apprenants F References Hachette Paris 1993 PETERS P American and british influence in australian verb morphology in Creating and using English language corpora Fries U Tottie G Schneider P Rodopi Amsterdam 1994 149 158 PuJoL N Corpora l ments pour un Guide Juridique Rap tech Institut de Recherches Comparatives sur les Institutions et le Droit CNRS Ivry sur Seine 1993 QUIRK R GREENBAUM S LEECH G SVARTVIK J A Comprehensive Grammar of the English Language Longman London 1985 RAJMAN M Approche probabiliste de l analyse syntaxique TAL 36 1 2 1995 157 201 RAUMOLIN BRUNBERG H The position of adjectival modifiers in late middle english noun phrases in Creating and using English language corpora Fries U Tottie G Schneider P Rodopi Amsterdam 1994 159 168 REINERT M Alceste une m thodologie d analyse des donn es textuelles et une application Aur lia de G rard de Nerval Bull de M thod Sociol 26 1990 24 54 RENOUF A A word in time first findings from the investigation of dynamic text in English language corpora design analysis and exploitation Aarts J de Haan P Oostdijk N Rodopi Amsterdam 1993 279 288
23. 51 2 Articuler diff rents syst mes d unit s La comparaison entre les diff rentes parties d un corpus devient encore plus lisible si l on implique les d comptes r alis es pour chacune d elles l int rieur de diff rents syst mes d unit s linguistiques De la m me mani re que nous l avons fait ci dessus il est possible de compl ter la description des parties du corpus par des comptages r alis s sur l ensemble des annotations disponibles dans le corpus consid r Le tableau 7 montre les m mes op rations de s lection d unit s caract ristiques 290 Cf Salem 1987 1993 Habert et Salem 1995 214 r alis es cette fois partir des annotations de type grammatical et des segments constitu s partir de ces derni res Tableau 7 Formes graphiques lemmes cat gories grammaticales et segments r p t s les plus caract ristiques pour les r pondants les plus dipl m s unit s F f Ind C nom adjectif 863 312 07 F financi res 174 79 06 L financier virgule 123 59 06 F les difficult s financi res 19 14 05 nom adjectif ponctuation 32 20 05 L le difficult financier 19 14 05 F probl mes 108 47 04 F difficult s financi res 32 19 04 C adjectif coord adjectif 20 13 04 C coord adjectif 26 16 04 C nom adjectif coord adjectif 19 13 04 C determinant ind nom adjectif 36 20 04 L difficulte financier virgule 12 10 04 L que ce 26 17 04 L difficul
24. A l inverse dans le cas de Penn Treebank o le parseur d terministe Fidditch Hindle 1994 fournit une analyse syntaxique unique pour chaque phrase mais laisse des constituants non rattach s la t che des annotateurs est d attacher les constituants orphelins Voici pour la phrase Battle tested industrial managers here always buck up nervous newcomers with the tale of the first of their countrymen to visit Mexico a boatload of warriors blown ashore l tat des traitements fourni dans Marcus et al 1993 p 322 325 1 Analyse syntaxique automatique produite par Fidditch Les constituants non attach s d butent par Les syntagmes pr positionnels commen ant par of sont attach s un nom s ils en suivent un c est le cas pour tale of boatload of et restent non attach s dans le cas contraire first of Les virgules qui peuvent jouer le r le de conjonctions fragmentent aussi l ensemble d arbres S NP NBAR ADJP ADJ Battle tested JJ ADJ industrial JJ NPL managers NNS 257 titre anecdotique deux chiffres emprunt s Hindle 1994 p 116 avec Fidditch de l ordre de 6 heures pour analyser un million de mots et presque deux semaines pour analyser 44 millions de mots de d p ches de l agence Associated Press F Karlsson indique ainsi 1994 p 142 qu une r criture du parseur ENCG a fait passer le temps d analyse de 3 5 mots seconde 400 500 mots seconde Bibliographie um
25. Cet objectif est moins ambitieux que ceux qu implique une traduction automatique Par opposition la comp tence active mise en jeu par les syst mes de traduction automatique la recherche de correspondances dans les traductions pr existantes suppose seulement une comp tence passive qui en principe devrait tre moins difficile atteindre ibid p 289 La nature m me de l objectif conduit des m thodes diff rentes On part de l quivalence traductionnelle qui est au contraire le r sultat final escompt de la traduction automatique L alignement peut s effectuer aux diff rents niveaux de structuration de l nonc des sections du texte aux mots en passant par les paragraphes et les phrases C est ce que P Isabelle et S Warwick Amstrong ibid nomment la r solution de l alignement Les correspondances deviennent de plus en plus difficiles tablir lorsqu on diminue la taille des entit s rapproch es Les grandes sections d un document sont g n ral en relation bijective entre les deux versions C est encore souvent le cas pour les paragraphes Les phrases font d j exception Une phrase dans une langue peut se traduire par deux phrases voire plus dans l autre nous en 142 DEUXIEME PARTIE avons vu des exemples L ordre des propositions ou des phrases peut varier En deca de la proposition la variation de l ordre des mots ainsi que le remplacement d un mot dans une langue par une p riphrase ou une
26. GROSS G Degr de figement des noms compos s Langages 90 1988 57 70 GuHA R LENAT D B Enabling agents to work together Communications of the ACM 37 7 1994 127 142 GUILLET A Fondements formels des classes s mantiques dans un lexique grammaire Langages 98 1990 70 102 GUTHRIE J GUTHRIE L WILKS Y AIDINEJAD Subject dependent co occurrences and word sense disambiguation in ACL 91 Berkeley USA 1991 HABERT B resp Traitements probabilistes et corpus TAL 36 1 2 1995 Bibliographie 239 HABERT B tudes des formes sp cifiques et typologie des nonc s les r solutions g n rales des congr s de la CFTC CFDT de 1945 1979 MOTS 11 1985 127 154 HABERT B L analyse des formes sp cifiques Bilan critique et propositions d utilisation MOTS 7 1983 97 124 HABERT B HERVIOU PICARD M L BOURIGAULT D QUATRAIN R ROUMENS M Un outil et une m thode pour comparer deux extracteurs de groupes nominaux in FRANCIL 97 1997 509 516 HABERT B NAULLEAU E NAZARENKO A Symbolic word clustering for medium size corpora in COLING 96 Copenhague Danemark 1996 tm 1 490 495 HABERT B SALEM A L utilisation de cat gorisations multiples pour l analyse quantitative de donn es textuelles TAL 36 1 2 1995 249 276 HARRIS Z GOTTFRIED M RYCKMAN T MATTICK JR P Daladier A Harris T Harris S The Form of Information in Science
27. La ma trise de ces mots en plusieurs mots est pourtant essentielle dans l apprentissage d une langue Ils s av rent en effet souvent opaques dans la phase de compr hension et causes d h sitations dans la phase de production C est pourquoi Mel cuk leur donne une place centrale dans son Dictionnaire Explicatif et Combinatoire du Fran ais Ses fonctions lexicales Mel cuk 1988 visent mettre au jour les r alisations lexicales les plus probables des mots pour exprimer une modification s mantique donn e Le degr fort se dit ainsi chaudes larmes quand il s agit de pleurer et tout rompre quand le verbe est applaudir Depuis une quinzaine d ann es la phras ologie suscite un renouveau d int r t en linguistique ainsi qu en TALN Dans la lign e logique des tudes men es sur les possibilit s combinatoires des mots simples qui soulignaient les multiples restrictions existantes Guillet 1990 les tudes du LADL ont montr l importance des mots compos s Elles ont abouti en particulier un dictionnaire lectronique des mots compos s en fran ais Silberztein 1993 Ce dictionnaire constitue un inventaire extr mement pouss des expressions sur le plan quantitatif mais aussi sur le plan qualitatif Chaque entr e est assortie de la description de ses variantes possibles En TALN l volution des formalismes vers la lexicalisation c est dire la r duction des r gles g n rales au profit de r gles rend
28. La version utilis e du Hansard align qui correspond trois ans de d bats repr sente 21 6 millions de mots anglais et 24 1 millions de mots fran ais Elle comprend 5 993 occurrences de guerre 384 de froide 5 977 de war et 673 de cold Pour un volume globalement quivalent au corpus de Birmingham utilis par Barkema on rencontre pr s de trois fois plus d occurrences de cold war ou guerre froide 314 occurrences On ne trouve aucune occurrence de guerres froides ni de cold wars On ne trouve qu un seul exemple de discontinuit entre les deux composants de l expression c est l exemple 4 ci dessus Ces constats confirment l analyse de Barkema sur la rigidit de l expression Dans 8 cas d ailleurs la traduction de cold war se fait par Guerre froide la majuscule soulignant le fonctionnement comme un tout ind composable 31 UTILISATION DES TEXTES ALIGNES Le recours aux textes align s constitue par certains c t s une riposte aux limites rencontr es dans l automatisation de la traduction automatique Le point de d part n est pas une formalisation de deux langues et de leur mise en correspondance mais la r utilisation des traductions existantes produites par des traducteurs humains Les textes align s fournissent un appui critique la traduction Cet appui peut consister v rifier qu il a pas d omissions dans la traduction On en a pr cis ment relev une dans l exemple 3 de la section 1 Un autre probl me est ce
29. Les articulations logiques veulent entra ner dans un r seau d enchainements qui font appel au simple examen de la nature des choses 12 3 Analyses multi dimensionnelles Toutes proportions gard es les tudes typologiques partir de formes graphiques seules ou partir de traits linguistiques clairement identifi s cf 2 tiennent de la reconstitution d animaux disparus partir de fossiles pars et incomplets Au vu de donn es langagi res fragmentaires on Il est int ressant cet gard de noter que l utilisation par la CFTC et la CFDT de ces deux types de r solutions ne se superpose pas m caniquement l volution historique de cette conf d ration La d confessionnalisation de 1964 n entraine pas un changement sur ce plan C est quand cette organisation veut affirmer fortement un projet social propre qu elle recourt la r solution th orique en 1945 dans l imm diat apr s guerre et apr s 1968 38 PREMIERE PARTIE postule l existence d un squelette syntaxique voire textuel On fait l hypoth se de d pendances fonctionnelles entre des l ments relevant de niveaux distincts de l analyse linguistique Avec le risque d inventer des monstres langagiers sans existence r elle Les techniques d analyses statistiques multi dimensionnelles comme l analyse factorielle des correspondances utilis e par Biber ont pr cis ment pour objectif de manifester les corr lations effectives entre des variab
30. S entendre sur des descriptions g n riques pour les grands types de documents utilis s dictionnaires po sie th tre oral textes align s documents historiques ainsi que pour les niveaux d annotation qui peuvent les d corer tiquettes arbres apparat critique r f rences crois es Une initiative de grande ampleur la 229 Text 226 L ISO Organisation Internationale de Normalisation a adopt en octobre 1986 SGML Standard Generalized Markup Language dans le but d atteindre une r elle souplesse d utilisation de r utilisation et d change de l information Cette norme internationale ISO dd a t rapidement adopt e par de nombreuses institutions priv es et publiques dans le monde anglo saxon American Association of Publishers British Library Oxford University Press industrie a ronautique Boeing Airbus mais aussi en France Syndicat National de Edition Cercle de la Librairie REN lt Le succ s grandissant de SGML tient aussi au fait qu une grammaire particuli re HTML issue de SGML d crit le langage hypertextuel utilis pour le Web Un traitement de texte urant Word offre ainsi la possibilit d exporter un document en mode HTML 25 Van Herwijnen 1994 constitue une introduction globale et pratique SGML Soutenue par l Association for Computers and the Humanities l Association for Computational Linguistics et l Association for and Linguistic Compound Le roar a t
31. SPERBERG MCQUEEN C M La TEI simplifi e une introduction au codage des textes lectroniques en vue de leur change Cahiers Gutenberg 24 1996 23 151 CALLIOPE COLLECTIF La parole et son traitement automatique Masson Paris 1989 CHANOD J P TAPANAINEN P Creating a tagset lexicon and guesser for a french tagger in Proceedings of EACL SIGDAT workshop on From Texts To Tags Issues In Multilingual Language Analysis 1995 58 64 CHANOD J P TAPANAINEN P Tagging French comparing a statistical and a constraint based method in EACL 95 Dublin 1995 149 156 CHARLET J BACHIMONT B BOUAUD J ZWEIGENBAUM P Onmntologie et r utilisabilit exp rience et discussion in Acquisition et ing nierie des connaissances tendances actuelles Aussenac Gilles N Laublet P Reynaud C C padu s Editions Toulouse 1996 69 87 CHISHOLM D RoBEY D Encoding verse texts Computers and the Humanities 29 1995 99 111 CHURCH K W Char Align A program for aligning parallel texts at the character level in ACL 93 Columbus Ohio 1993 CHURCH K W One term or two in SIGIR Seattle USA 1995 310 318 CHURCH K W HANKS P Word association norms mutual information and lexicography Computational Linguistics 16 1 1990 22 29 Bibliographie 237 CHURCH W MERCER L Introduction to the special issue on Computational Linguistics Using Large Corpor
32. chaque mot est assorti d une tiquette morpho syntaxique et parfois munis d arbres syntaxiques on parle alors de corpus arbor s sont aujourd hui disponibles pour l anglais et pour l am ricain Les outils d interrogation de ces corpus enrichis ainsi que les outils d annotation proprement dits tiqueteurs analyseurs syntaxiques etc se r pandent Depuis quelque temps d j on trouve dans le domaine public des tiqueteurs pour l anglais qui permettent de cat goriser des textes pr alablement saisis sur support magn tique Cutting et al 1992 Brill 1995 Leurs quivalents pour le fran ais apparaissent Ce qui est neuf ce n est pas l utilisation de corpus lectroniques En France un fonds de quelque 160 millions de mots a ainsi t patiemment constitu l Institut National de la Langue Fran aise INaLF CNRS depuis les ann es soixante et constitue une base textuelle d sormais accessible en ligne Frantext Ce fonds a servi en particulier la r daction des dix sept volumes du Tr sor de la Langue Fran aise La nouveaut r side dans l enrichissement des corpus l accroissement de leur taille et dans l accessibilit effective des corpus et des outils D abord les corpus ne sont plus des suites de mots nus c est dire de simples cha nes de caract res mais ils sont annot s ou encore enrichis Nous entendons par l l ajout d information de quelque nature qu elle soit morphologique syntaxique s m
33. de un d fil de un relation direct entre notre arm e et le nation Norme E Cat gorisation en parties du discours pronom verbe subordonnant pronom adverbe verbe subordonnant verbe pronom ponctuation d terminant num ral nom pronom verbe pr position d terminant nom ponctuation coordonnant pronom verbe adverbe adjectif ponctuation d terminant nom pr position d terminant nom ponctuation pr position d terminant nom ponctuation pr position d terminant nom adjectif pr position d terminant nom coordonnant d terminant nom ponctuation Le dernier tat du texte r sulte d un tiquetage permettant d identifier les occurrences de quelques indices nonciatifs Norme Rep rage d indices nonciatifs embrayeur non personne non personne non personne non personne embrayeur Remarquons que dans le cas de la mise en oeuvre de cette derni re norme de d pouillement il ne s agit plus d une segmentation du texte de d part 47 2 D comptes automatis s A la phase de d limitation des unit s qui peut tre une segmentation succ de une phase de regroupement de celles que l on consid re comme identiques le temps de l exp rience identification 196 Pour un m me texte les diff rentes normes de d pouillement ne con
34. de la r publique je suis je le crois tr s fid le ce que je su jours j ai observ avec je le crois une grande patience pour ants que cela contribuera je le crois utilement au redressement bre de plans j ai donn je le crois vraiment plus d expansion rachever le portrait moi je le dessine tous les jours par des a ite je l ai dit alger je le dirai amman en jordanie o je s dans le monde la france je le dirai simplement a d j apport Pour g n raliser ce type de d marche l ensemble des formes du corpus il faut mettre en oeuvre des proc dures de quantification qui viteront au chercheur d avoir examiner l ensemble des contextes de chacune des formes du corpus Ce chapitre propose un survol des approches quantitatives les plus courantes d un corpus de textes La section 1 pr sente des objectifs de recherche qui conduisent op rer des d comptes textuels des fins de comparaison Les probl mes li s l identification des unit s dans le texte sont abord s dans la section 2 La section 3 traite du rep rage des s quences d unit s Les sections 4 et 5 introduisent ensuite des m thodes permettant de comparer les d comptes r alis s au sein d un corpus partitionn La section 6 est consacr e l articulation des d comptes r alis s partir de diff rents syst mes d annotation Nous terminons section 7 par un exemple de recherche sur les s ries textuelles chronologiques qui combine
35. e des donn es consid r es comme pertinentes Nous ne d veloppons pas cet aspect ici Hearst 1992 exploite par exemple cette m thode pour rener er des relations hyponymiques dans un corpus destin es enrichir un thesaurus existant 184 45 1 Construire des cat gories s mantiques La difficult de r utiliser les bases lexicales sp cialis es l inad quation des bases lexicales g n rales et plus fondamentalement le manque de ressources lexicales notamment pour le fran ais cf chapitre 111 soul vent la question de l acquisition des connaissances lexicales La construction manuelle de ce type de base de donn es requiert l exp rience d un lexicographe et pour les langues sp cialis es celle d un expert du domaine Le co t et la difficult de ces entreprises ont mis l honneur les m thodes automatiques ou semi automatiques qui consid rent les corpus comme des sources de connaissances pour la construction de cat gories s mantiques dans l id e qu elles puissent servir ensuite tiqueter des corpus La construction de ces cat gories s mantiques qu il s agisse de classes de synonymes de groupes de mots relevant d un m me champ s mantique ou d un m me th me suit toujours le m me principe g n ral La d marche consiste e d finir le contexte d un mot de mani re identifier les mots qui cooccurrent avec lui l ensemble des mots qui figurent dans le m me contexte et qui dans une approc
36. eere ennt nenne nene 121 26 DEFINITIONS ET ENJEUX oaa aee aa EU ere Rer Eee aea ELIO 123 27 UN CORPUS POUR L ETUDE DE LA DIACHRONIE ARCHER rss 124 27 1 L ANGLAIS ET L AMERICAIN DE 1650 A AUJOURD HUI sise eene 124 27 2 ECHANTILLONNAGE DES REGISTRES sisi ee 125 27 3 STRUCTURATION TEMPORELLE eere nnne nennen 126 27 4 REPRESENTER LES ETATS DE LANGUE OU DES IDIOLECTES ue 126 28 TUDES DE LA DIACHRONIE ccccsssscsscssssssssesssssessesssssssssssssesssssssssscssesscssessssseesssessess 127 28 1 LA COURTE DUBEE certe x v eee Le ec ct ire ha dec lentes d 127 28 2 L EMOYEN TERME 3 iet etd eee o E EE REC EO iaei LXX EROR E ED EVE tions E CER Ee te 128 28 3 LAETONGUEDUREE 7 3 2 dci ERE GERM RENE REN EO e PET EEG 129 28 3 1 La position des adjectifs en moyen anglais tardif 129 28 3 2 L alternance that eese 130 28 3 3 L volution des d monstratifs en fran ais 131 29 PROBLEMES METHODOLOGIQUES seen enr eene eee en reete ene eee to eet ee senes etas 133 29 1 DES CORPUS PETITS ET PEU ANNOTES sine ee eee nenne nnne n ess esses 133 29 2 VERIFIER ET PRECISER LES EVOLUTIONS sisi e 135 29 3 ACCEPTABILITE ET FREQUENCE cessent nnnn e enne 135 29 4 AFFINER LES EXPLICATIONS 136 30 DEFINITION ET EXEMPLES sn eee ense enne s
37. exposition Les pr dictions que l on peut faire sur la cat gorie la plus probable pour known d pendent donc du genre choisi pour estimer les fr quences des cat gories possibles en va de m me pour la probabilit d une cat gorie lorsqu on connait la cat gorie pr c dente Dans le m me corpus la copule be est suivie d un passif dans 13 96 des cas dans les textes de fiction et dans 31 des cas dans les textes expositifs Biber et Finegan 1994 sur un corpus d articles du New England Journal of Medicine et de The Scottish Medical Journal montrent galement que les parties canoniques d un article scientifique introduction m thodes r sultats discussion comportent des diff rences sensibles entre eles Le pr sent est fr quent dans l introduction et la discussion et relativement rare dans la partie m thodes Le pass a la distribution inverse On comprend d s lors mieux la politique qui consiste d membrer certains documents pour ne pas sur repr senter certaines de leurs sous parties et plus largement cette chantillonnite qui surprend souvent un esprit francais 214 A Voutilainen dans Karlson et al 1995 montre que dans les corpus quilibr s entre diff rents genres que sont Brown et LOB cover couvrir couverture est un nom dans s 96 S cas un verbe dans 60 Dans un manuel d entretien de voiture il s agit dans tous es cas d un nom 150 La d marche suivie pour la constitu
38. extraire par divers traitements des d finitions de dictionnaire Ils rel vent d une vision relationnelle de la s mantique proche de la conception distributionnelle qui sous tend la plupart des travaux sur corpus cf chapitre VIII section 5 La structuration en cat gories s mantiques est galement exploit e pour l annotation de corpus Dans le Roget s plus de 30 000 mots sont r parties dans 1000 cat gories s mantiques num rot es de 1 1 000 elles m mes organis es en cinq hi rarchies de faible profondeur cinq niveaux au maximum cf figure 3 3 On voit donc appara tre deux niveaux possibles de cat gorisation aux feuilles de la hi rarchie des regroupements lexicaux dans la structure une cat gorisation conceptuelle De fait diverses exp riences ont montr l int r t que pr sentent les cat gories s mantiques d un thesaurus comme le Roget s pour la d sambiguisation lexicale P Cet exemple est emprunt au thesaurus de Merriam Webster dans sa version en ligne WWWebster Thesaurus 1997 http www m w com thesaurus htm sept 1997 gt l A du Roget s Thesaurus de 1911 dans sa version lectronique actuellement epo e l adresse hittp ecco bsee swin edu au text roget headings html oir notamment Grefenstette 1996 ou Yarowsky 1992 80 PREMIERE PARTIE Class Words Expressing Abstract Relations SECTION EXISTENCE 1 BEING IN THE ABSTRACT 1 Existence
39. gi s permet d entreprendre une typologie linguistique de ces textes mais il n est pas s r qu on puisse g n raliser ais ment les oppositions d gag es 9 1 Circularit des d marches typologiques habituelles La typologie des textes a suscit de nombreux travaux Le plus souvent ces recherches cherchent soit caract riser les modes de production des textes typologies situationnelles soit identifier les fonctions vis es par les textes typologies fonctionnelles Les objectifs peuvent tre didactiques permettre un apprenant d identifier et de produire les diff rents types de textes de sa langue ou d une langue trang re ou linguistiques par exemple dans la lign e de la distinction histoire versus discours de Benveniste L hypoth se partag e par ces diff rentes recherches est que chacun des types postul s se caract rise par l association d un certain nombre de caract ristiques linguistiques La d marche part souvent des types situationnels ou fonctionnels d finis au d part examine les textes qui rel vent de chacun de ces types et leur fonctionnement linguistique et essaie de mettre en vidence certaines corr lations entre types et traits linguistiques On ne sait toutefois pas si en partant d une autre typologie a priori on ne rassemblerait pas sous un m me chef des textes diff rents ce qui aurait toutes chances de produire des agr gats de traits linguistiques distincts de ceux produits par la typolog
40. le d veloppement des corpus lectroniques a tr s largement b n fici cette derni re d cennie des apports techniques et financiers de la communaut du TALN qui voit l une tape indispensable pour la mise au point de syst mes de traitement du langage robustes L accent est bien s r mis sur la langue contemporaine Autrement dit il n y a pas vraiment de raisons que beaucoup de temps et d nergie soit consacr la recherche sur les tats de langue anciens On peut donc escompter un retard sensible dans les techniques et les moyens mis en uvre pour l annotation des corpus historiques Les corpus historiques actuels sont d ailleurs tr s sensiblement plus petits que les corpus synchroniques Finegan et Biber 1995 Que l on compare le million et demi de mots d Helsinki ou d Archer avec les 100 millions de mots tiquet s au surplus de BNC En dehors de ces projets de corpus con us pour tudier la diachronie parce qu il est co teux de constituer des corpus bien r partis sur les genres et les p riodes les constats sont souvent tablis sur les ensembles de textes qui sont effectivement disponibles sous forme lectronique mais qui ne forment pas vraiment un corpus historique au sens d Archer par exemple Cette situation biaise videmment les observations et leur interpr tation sans que les chercheurs qui ont recours ces rassemblements de circonstance en soient toujours conscients L annotation de ces corpus se heurt
41. me on voudrait fonder la recherche sur les sens de mots et non sur les mots eux m mes Dans le domaine tr s actif de la recherche documentaire c est l un des axes qui est explor Sans d velopper les probl mes li s l expansion de requ tes Voorhes 1994 les paragraphes qui suivent mettent l accent sur la d sambiguisation lexicale D une langue l autre 109 de gros volumes de textes tout venant S il est trop t t pour faire tat d exp riences et de r sultats sur des syst mes int grant effectivement un traitement lexical nous voudrions ici montrer l une des pistes prometteuses consistant exploiter une base lexicale g n rale Nous nous appuyons plus particulierement sur le travail de M Sussna 1993 Son impact sur un syst me de recherche d information n est pas r ellement valu mais il montre tout le parti qu on peut tirer d une base lexicale g n rale comme WordNet voir chapitre 111 supra 24 2 D sambiguiser des corpus l aide de WordNet M Sussna 1993 d fend l id e qu un syst me de recherche documentaire peut exploiter une source de connaissances comme WordNet pour d sambigu ser des documents et les indexer sur les sens de mots plut t que sur les mots Son corpus d exp rimentation est un ensemble du Time Magazine comportant 425 articles de quelques centaines de mots en moyenne Les chapitres sur les corpus tiquet s et arbor s ont montr les questions que soul ve la d sambigu sation
42. ou tout autre type d annotation Le probl me de la partition effective du corpus rev t une importance toute particuli re dans la mesure o il s agira ensuite d tudier le contraste entre les parties d coup es dans le corpus La partition r alis e on n observera ensuite que des diff rences entre fragments du corpus ayant fait l objet d un m me regroupement De son c t la s lection d un syst me d unit s linguistiques organise la comparaison des parties sur un plan d analyse d termin par les objectifs de la recherche Les paragraphes qui suivent exposent bri vement les principes g n raux du fonctionnement de ces m thodes sur des exemples emprunt s Enfants En regroupant par exemple au sein d une m me partie les r ponses fournies par les individus qui ont obtenu un dipl me quivalent on r alise une 204 partition du corpus en trois parties Aucun Baccalaur at Sup rieur Cette partition permet ensuite d tudier les variations entre agr gats de r ponses 49 2 Rep rer les faits saillants La m thode des sp cificit s Lafon 1980 permet de mettre en vidence les cases du tableau de d part dont l effectif est particulierement lev sp cificit s positives ainsi que celles dont l effectif est au contraire anormalement faible sp cificit s n gatives Elle s applique successivement chacune des cases du tableau d crit plus haut Pour calculer le diagnostic relatif l effectif constat pou
43. permettre l identification automatique des m mes formes ind pendamment de leur position dans la phrase les majuscules de d but de phrase ont t transform es en minuscules Les barres verticales mat rialisent la segmentation des unit s Norme B Elimination des majuscules de d but de phrase je crois qu on ne peut que souhaiter cela le 14 juillet c est sans aucun doute et c est fort important l occasion d une revue d un d fil d l une relation directe entre notre arm e et la nation Dans une phase suivante Norme C on a r uni certaines unit s Bibliographie 195 polylexicales Norme C Regroupement d unit s polylexicales je crois qu on ne peut que souhaiter cela le 14 juillet c est sans aucun doute et c est fort important P occasion d une revue d un d fil d une relation directe entre notre arm e et la nation Dans les deux tats suivants les mots du texte ont t remplac s par des tiquettes respectivement des lemmes Norme D et des cat gories grammaticales Norme E Norme D Lemmatisation je croire que on ne pouvoir que souhaiter cela le quatorze juillet ce tre sans aucun doute et ce tre fort important le occasion de un revue
44. porte une autre tiquette marquant ce d placement et un indice le lie la trace correspondant sa position logique Dans l exemple suivant John wanted to go Nns s123 John wanted Ti o 123 to go 7 Leech et al 1995 p 19 Ressources lexicales 53 s indique la fonction sujet o la fonction objet de l infinitive Ti pour le verbe wanted Le fant me s123 indique la position logique du sujet de surface John L indice 123 tablit le lien entre la r alisation de surface et le fant me Les conventions de notation des tiquettes des noeuds permettent de distinguer les tiquettes pr terminales celles des syntagmes celles des propositions et celles des unit s racines 15 PHRASEOLOGIE ET TRAITEMENTS SYNTAXIQUES Les corpus arbor s sont disponibles depuis le d but des ann es quatre vingt dix c est dire depuis moins longtemps que les corpus tiquet s accessibles depuis les ann es quatre vingts La primaut de l anglais se fait ici crasante il n existe pas ce jour de corpus arbor du fran ais ais ment disponible En TALN ces corpus servent surtout la mise au point des parseurs L observation de corpus arbor s permet de pr ciser les r gles employer d analyser automatiquement des corpus de taille plus importante de retravailler les r gles en jeu et ainsi de suite Cette utilisation est voqu e au chapitre VIII Les corpus arbor s servent galemen
45. s dont les fr quences varient fortement dans des textes dont la longueur peut elle m me tre tr s variable Le logiciel THIEF d tienne Brunet permet par exemple d tudier la r partition de chacune des formes attest es dans le corpus du Tr sor de la Langue Francaise parmi dix tranches chronologiques pr d finies On trouve figure 3 l histogramme d un indice qui permet de juger de la r partition de la 281 Lafon 1984 et Labb 1990 proposent des m thodes destin es extraire les couples d unit s lexicales qui se rencontrent souvent l int rieur d une m me phrase Church et Hanks 1990 utilisent dans le m me but l information mutuelle issue de la th orie de la communication de R Shannon 202 forme gloire dans ces dix tranches 80 60 40 20 20 40 1550 1630 1692 1735 1780 1820 1855 1885 1910 1928 1942 1960 Figure 3 La forme gloire dans dix tranches du TLF Cette repr sentation graphique du ph nom ne appelle une interpr tation tr s simple La forme est tomb e dans une d su tude relative au fil des p riodes consid r es La multiplication de r sultats de ce type propos de formes diff rentes incite poser au corpus des questions plus g n rales Quelles sont les formes qui subissent un sort similaire au cours des m mes p riodes Quelles sont celles qui au contraire voient le nombre de leurs occurrences augmenter relativement Pour r pondre de mani re plus globa
46. sentation g n rale des domaines et des echniques du TALN C est le cas du Survey of English Usage R Quirk et de Quirk et al 1985 contrastes socio linguistiques L examen des corpus pose ensuite la question de l articulation de la performance et de la comp tence Aux dires de G Sampson 1994 p 180 la linguistique de corpus prend le langage comme elle le trouve Le corpus Mitterrand1 Labb 1990 p 95 pr sent infra en 7 2 2 comprend par exemple l nonc suivant Moi je suis de la France Je ne dis pas je suis la France Je suis de la France Toutes mes pens es toutes mes fa ons d tre toutes mes sensations toutes mes vibrations elles sont de la France Plusieurs des constructions qu emploie F Mitterrand paraissent nettement a grammaticales ne s agit pourtant pas d un lapsus mais d un choix d lib r comme le prouvent les reprises Si comme l affirme J C Milner 1989 p 55 l activit grammaticale ne consiste pas enregistrer les donn es de langue elle consiste mettre sur ces donn es un jugement diff rentiel c est dire isoler l impossible de langue ibid les linguistiques de corpus se trouvent confront es un ventail de r alisations langagi res qui remet en cause les distinctions tranch es entre acceptable et non acceptable Troisi mement les corpus peuvent rassembler des nonc s sur lesquels l analyste n est pas forc me
47. tre qu un verbe comme dans Max le veut l tiquette pronom clitique est limin e 42 3 Difficult s Les unit s polylexicales occupent une place fondamentale dans le lexique Un segmenteur qui ne dispose pas d inventaires de ces unit s va mietter tort les textes De multiples techniques ont t test es pour faciliter le rep rage automatique de ces mots complexes Certaines d entre elles ont t voqu es au chapitre Il D autres reposent sur le filtrage statistique des mots qui s attirent au sein d un contexte restreint d autres encore sur l utilisation de patrons syntaxiques du type nom pr position nomj comme cadre de vie d autres enfin combinent ces deux approches Daille 1993 Cependant nombre de s quences propos es par ces outils ne constituent pas fait des d nominations cf I 3 3 Les inventaires d unit s complexes r alis s pour le TALN suscitent g n ralement la perplexit ou la contestation sur la d limitation faite et sur le choix de consid rer telle s quence comme une unit d nominative plut t que comme un syntagme libre Le risque sym trique de l miettement est de consid rer tort des suites de mots comme des unit s polylexicales L utilisation de dictionnaires comprenant un nombre important d unit s complexes fait naitre en outre des ambiguit s pour les s quences qui fonctionnent comme un tout dans certains domaines et qui sont consid rer comme des s
48. 117 179 Karlson 147 Karlsson 40 47 169 172 Katz 117 179 Khouri 17 20 Kittredge 151 Kleiber 64 Koster 69 170 Kroch 136 Kyt 123 124 Labb 4 12 188 192 Lafon 178 179 192 l analyse multi dimensionnelle 136 Lancaster IBM Treebank 11 langage artificiel 3 47 naturel Voir TALN Lang 141 langue g n rale 82 sp cialis e 82 177 langue de sp cialit 57 langue sp cialis e 100 LDB 70 LDOCE 45 70 146 Le Monde 126 Le Pesant 151 Lebart 12 179 183 196 199 Leech 4 41 44 48 49 51 167 168 169 210 lemmatisation 117 119 lemme 6 lemmes 188 Lenat 80 lexique s mantique 80 Lexter 63 64 65 66 67 LEXTER 45 67 Ligozat 18 21 Lindberg 83 linguistique textuelle Voir typologie des textes LOB 6 8 11 22 127 145 147 211 locutions 190 London Lund 11 23 Longman Dictionary of Contemporary English 82 111 115 MacKeown 117 MacMahon 180 Maingueneau 151 Mair 127 128 134 Marandin 39 176 Marchello Nizia 130 131 132 134 135 136 Marcus 40 44 50 70 144 167 172 175 Mathieu Colas 162 Mel cuk 40 48 53 Mellish 5 Menelas 7 12 28 58 62 65 68 97 103 149 152 159 projet 80 82 83 248 Mercer 2 5 M rialdo 166 m ronymie 90 112 mesure de distance 104 m thode des sp cificit s 195 202 m thodes de classification 197 m thodes factorielles 197 201 Mikheev 180 Miller 84 85 86 88 89 90 Milner 4 Mitterra
49. 146 ilnya 124 uncertain nombre de 121 tout lheure RS BR BR PR BR BR O1 O1 OO rm co C 279 On s tonne par exemple lors de l analyse d Enfants de ne pas trouver de segments r p t s comprenant des verbes dans les r ponses sp cifiques cf infra des plus dipl m s 200 48 2 Quasi segments A c t des s quences reprises l identique plusieurs endroits du corpus on trouve des s quences qui sont l objet de reprises partielles la s quence je cat gorie verbe fermement que par exemple peut se r aliser sous la forme je pense fermement que je crois fermement que etc B cue 1993 a propos un algorithme qui rep re des quasi segments r p t s Cet algorithme permet par exemple de rassembler en une m me unit faire lemme lt 1 gt sport les s quences comme faire du sport et faire un peu de sport etc Cependant les quasi segments sont encore plus nombreux que les segments et leur recensement pose des probl mes de s lection et d dition 48 3 Cooccurrences Pour une unit p le donn e plusieurs m thodes permettent de s lectionner d autres unit s textuelles qui ont fortement tendance se trouver dans un m me voisinage que cette unit 9 Le principe g n ral de ces m thodes est le suivant Pour s lectionner les formes cooccurrentes d une forme p le on commence par d finir une unit de contexte ou voisinage l int rieur duquel on consid rera que deux
50. 201 M me si des environnements informatiques ad quats all gent parfois la charge D une langue l autre 135 29 2 V rifier et pr ciser les volutions C Mair 1995 p 260 r sume assez bien ce que la linguistique diachronique va gagner dans ces nouvelles tudes L approche du changement linguistique bas e sur les corpus corrigera des distorsions videntes dans la litt rature actuelle sur le sujet Il sera possible de s parer l usuel et le normal de l exceptionnel A la diff rence de l observateur qui enregistre l exemple unique d une nouvelle construction tout en omettant de noter les preuves massives de la persistance de l ancienne construction l analyste de corpus sera en position de d crire les tendances statistiques avec pr cision Ce constat se v rifie d j pour l exemple des d monstratifs en fran ais Les textes de la p riode effectivement disponibles sous forme lectronique ne couvrent pas loin s en faut tout ce qui est r pertori Les conclusions et d comptes actuels seront donc sans doute infl chis Le recours au corpus permet n anmoins une finesse d analyse de l volution forme par forme du syst me des d monstratifs qui n tait pas envisageable auparavant Il entra ne surprises r valuations d couvertes le grand nombre des donn es qui nous sont d sormais accessibles montre une situation fort inattendue en moyen fran ais Marchello Nizia 1995 p 165 Mais il en va d
51. 225 234 BIBLIOGRAPHIE ABREVIATIONS UTILISEES 55 3 1 1 Actes ACL Association for Computational Linguistics ANLP Applied Natural Language Processing COLING International Conference on Computational Linguistics EACL European Chapter of the Association for Computational Linguistics EURALEX International Congress on Lexicography FRANCIL Journ es du r seau FRANCais des Industries de la Langue IJCAI International Joint Conference in Artificial Intelligence JADT Journ es de l Analyse des Donn es Textuelles SIGIR Special Interest Group in Information Retrieval ACM 55 3 1 2 Revue TAL Traitement Automatique des Langues 55 3 1 3 Association ACM Association for Computing Machinery AARTS J Corpus linguistics an appraisal in Computers in Literary and Linguistic research Hamesse J Zampolli A Champion Slatkine Paris Gen ve 1990 13 28 ABEILLE A Les nouvelles syntaxes grammaires d unification et analyse du fran ais Armand Colin Paris 1993 AGIRRE E RIGAU G Word sense disambiguation using conceptual density in COLING 96 Copenhague Danemark 1996 tm 1 16 22 ALTENBERG B Recurrent verb complement constructions in the London Lund corpus in English language corpora design analysis and exploitation Aarts J de Haan P Oostdijk N Rodopi Amsterdam 1993 227 246 AMSTRONG S ed Using Large Corpora The MIT Press Cambridge Massachusetts 1994
52. Les interrogations juridiques peuvent donc concerner la cr ation du corpus sa protection une fois constitu et enfin sa diffusion Lors de la cr ation du corpus il s agit d abord d identifier les mat riaux vis s et le r gime juridique de chacun d eux certains peuvent tre prot g s par le droit d auteur d autres non comme fr quemment les textes officiels d origine l gislative administrative ou judiciaire pour faciliter leur diffusion Des autorisations en fonction des traitements envisag s peuvent tre demander non seulement pour le respect du droit p cuniaire et patrimonial mais aussi pour celui du droit moral de l auteur sur son uvre droit de divulgation droit au respect de l uvre La reproduction op r e peut en outre correspondre un r gime d exception au droit de reproduction usage priv reproduction par des tablissements de recherche etc L utilisation pr vue du corpus influe aussi sur la nature des autorisations n gocier Les produits issus d un corpus index thesaurus lexique doivent galement tre prot g s au m me titre que le corpus lectronique lui m me La diffusion du corpus peut se faire par cessions de droits soit par licences d utilisation commercialisation par CD ROM soit par contrats d abonnement ou d interrogation RE Le rapport de N Pujol 1993 ne donne pas l ensemble des situations qui peuvent se pr senter et des attitudes adopter mais fourni
53. RESNIK P Disambiguation noun groupings with respect to WordNet senses in Third Workshop on Very Large Corpora Yarowsky D Church K Cambridge USA 1995 54 68 REsNIK P Using information content to evaluate semantic similarity in a taxonomy in 5 1995 Bibliographie 243 REY A CHANTREAU S Dictionnaire des expressions et locutions Le Robert Paris 1979 RILOFF E Little words can make a big difference for text classification in SIGIR Seattle USA 1995 130 136 ROLE F Le codage informatique des apparats critiques valuation des recommandations de la Text Encoding Initiative Cahiers Gutenberg 24 juin 1996 153 165 RYCKMAN T De la structure d une langue aux structures de l information dans le discours et dans les sous langages scientifiques Langages 99 1990 21 28 SAGER N FRIEDMAN C eds Medical Language Processing Computer Management of Narrative Data Addison Wesley Reading 1987 SALEM A Pratique des segments r p t s essai de statistique textuelle Kliencksieck Paris 1987 SALTON G Automatic Text Processing The Transformation Analysis and Retrieval of Information by Computer Addison Wesley Reading 1989 SAMPSON G Susanne a domesday book of english grammar in Corpus Based Research into Language Oostdijk N de Haan P Rodopi Amsterdam 1994 169 187 SAPORTA G Probabilit s analyse des donn es et statist
54. SGML qui est maintenant pr sent dans pratiquement tout logiciel de gestion de document SGML offre en plus des m canismes particuliers pour noter les caract res exotiques en faisant abstraction de leur r alisation physique sur telle ou telle architecture C est le cas des caract res accentu s mais aussi de l alphabet phon tique international On peut ajouter de nouvelles conventions de notation pour les caract res ou suites de caract res non pr vus ce qui permet de faire face au caract re ouvert des notations n cessaires Soulignons que SGML n est pas une grammaire des textes possibles mais un m ta langage permettant de d finir la grammaire des diff rents types de textes 38 2 Les types de textes TEI Une fois ce balisage logique introduit il est possible d acc der aux l ments d information On peut extraire la repr sentation phon tique l empan de texte compris entre phonetique et phonetique ou les cat gories des diff rents homographes ou les sens de l adjectif etc Ce premier niveau de normalisation s av re cependant insuffisant La grammaire compl te d finie peut suffire pour Le Petit Robert elle peut se r v ler inadapt e pour d autres dictionnaires En outre rien n emp che plusieurs groupes ou individus de se donner des conventions diff rentes pour un m me type de document ce qui emp che de comparer et d changer les r sultats Un deuxi me niveau est donc n cessaire
55. TOSCA Ce peut tre aussi le cas en analyse partielle Certains analyseurs en revanche visent ne fournir qu une seule analyse C est le cas de Fidditch Hindle 1994 utilis pour Penn Treebank Cette deuxi me possibilit l vidence facilite la production de gros volumes de texte arbor puisque le post traitement manuel n a pas trier parmi les possibles L objectif d une ou de plusieurs analyses compl tes pour du texte tout 73 Certains chercheurs pensent m me que ces mod les avant tout th oriques sont de peu de profit pour d velopper des analyseurs utilisables au contraire des grandes ammaires descriptives Black et al 199 77 un Nous Ure reprenons pas son exigence de rapidit pour des raisons expliqu es au apitre VIII d Karlsson ibid cite l objectif qui para t extr mement ambitieux de 90 d analyses justes Cf les pourcentages d ambiguit fournis en 1 3 2 Ressources lexicales 49 venant est encore loin d tre r alisable Les parseurs capables de produire des r sultats partiels sont donc n cessaires ce qui favorise les analyseurs montants Les analyseurs montants bottom up regroupent progressivement des structures de niveau de plus en plus lev les analyseurs descendants top down suivent une approche inverse des niveaux sup rieurs vers les mots Les premiers sont plus appropri s que les seconds pour fournir des r sultats partiels en quelque sorte ils savent s arr t
56. annot s sont aujourd hui l gion et nous ne saurions pr tendre en dresser la liste Cependant certains d entre eux sont devenus canoniques soit du fait des m thodes employ es pour les constituer et les annoter c est le cas de Susanne par exemple soit en raison des tudes linguistiques qui les ont utilis s L index renvoie aux passages o ces deux aspects sont voqu s Ce sont ces corpus anglais et am ricains que nous pr sentons Ils sont en g n ral disponibles pour la recherche universitaire 7 1 Corpus anglais ou am ricains e Brown Ce corpus tiquet d un million de mots a t mis au point en 1979 par W Francis et Kucera l universit Brown USA Il comprend 500 extraits de 2 000 occurrences chacun provenant de textes am ricains publi s en 1961 et relevant de 15 genres reportage crits scientifiques et techniques etc Il a t soigneusement tiquet Par sa mise dans le domaine public il a jou un r le moteur dans le renouveau des tudes sur corpus e LOB Lancaster Oslo Bergen Ce corpus tiquet a t con u comme l quivalent anglais de Brown ll comprend galement 1 million de mots s lectionn s selon les m mes crit res mais partir de textes anglais publi s en 1961 e Susanne Ce corpus de 128 000 occurrences annot sous la direction de G Sampson 1994 1995 est constitu de 64 extraits de 2 000 occurrences chacun pris dans Brown comprend des reportages des textes lit
57. ans retenue Biber et al 1994 p 5 M Kyt 1993 t moigne de la complexit des param tres prendre en compte pour rassembler des donn es repr sentatives de l am ricain entre 1600 et 1700 dans le cadre d un autre corpus historique Seuls sont retenus les documents crits et ventuellement imprim s aux Etats Unis et pour la p riode commen ant en 1670 date qui s pare la premi re g n ration d immigrants de ses descendants provenant d auteurs n s dans ces colonies ou tablis depuis suffisamment longtemps Les dates d installation diff rentes des colonies du Sud Virginie premi res arriv es en 1607 et du Nord Plymouth 1620 baie de Massachusetts 1630 etc am nent constituer des chantillons distincts pour rendre compte de leurs histoires langagi res propres Certains registres caract ristiques des colonies ont t int gr s r cits de captivit t moignages etc L appr hension de l oral ne peut s effectuer que par des biais Le langage de tous les jours trouv dans la correspondance priv e certains journaux intimes ou des textes faits pour tre dits fournissent un moyen d approcher le langage parl du pass le vrai coeur du changement linguistique De la m me mani re les crits des immigrants les moins duqu s qui n auraient peut tre pas pris la plume dans leur pays d origine mais qui taient forc s de le faire dans les colonies peuvent aussi nous donner des aper us glimpse
58. corpus accuse un retard d autant plus sensible ce qui retarde d autant les exp rimentations et partant les avanc es th oriques On sait m moriser des corpus et des ressources langagi res de plus en plus vastes Malgr des initiatives de mise en convergence il n existe pas encore de chaines de traitement standard pour ces donn es La normalisation commence devenir effective pour les corpus Elle ne l est pas encore pour les programmes correspondants qui restent la plupart du temps exp rimentaux On est encore assez loin de stations de travail textuelles qui permettraient d articuler des traitements diversifi s sur des corpus tiquetage correction interactive parsage annotation s mantique d comptes et mod lisation Certaines dimensions restent peu abord es en linguistique de corpus C est le cas de la textualit en tant que telle M me les tudes de Biber lorsqu elles caract risent les types de texte comme des constellations de traits linguistiques ne rendent pas compte de l organisation des textes au del de la phrase de l enchainement des nonc s La dimension pragmatique s efface galement en raison de la primaut accord e la morpho syntaxe Nous avons d j cit l adage de Sampson 1994 p 180 la linguistique de corpus prend le langage tel qu il est Le pi ge serait de le laisser tel qu il est c est dire de n introduire aucun d placement th orique La manipulation des co
59. de l ensemble des manipulations offertes Les interrogations peuvent associer les contraintes structurelles un noeud de telle cat gorie dans telle position de dominance ou de d pendance par rapport tel autre noeud et des conditions sur les d corations des noeuds qui peuvent comporter un certain nombre d tiquettes ce qui quivaut un syst me de traits On peut par exemple chercher les phrases constructions bi transitives du type gave him a book ou encore construire un tableau indiquant le nombre de noms modifi s par un groupe adjectival pr pos et leurs Souter 1993 le montre en d tail sur 7 collections ou corpus arbor s M Par exemple pour la version pars e au sein de l quipe ASCOT de l universit DAE ca du Longman Dictionary of Contemporary English LDOCE Souter 1993 Voire d autres donn es arborescentes comme des d finitions de dictionnaire Halteren et Heuvel 1990 p 10 72 PREMIERE PARTIE correspondants avec adjectif postpos et le nombre de noms non modifi s C est LDB que Barkema a utilis pour d terminer les diff rentes r alisations syntaxiques du patron de base adjectif nom singulier Comme pour l tiquetage deux grandes fonctionnalit s sont n cessaires Elles doivent d ailleurs pouvoir se combiner D abord filtrer les arbres r pondant des contraintes arbitrairement complexes Les outils actuellement disponibles comme ceux fournis avec Penn Treebank sont encore
60. dessus cette m thode a t test e avec succ s sur plus de 20 corpus de 1 6 millions de caract res Grefenstette 1993 soit approximativement de 150 000 850 000 mots Ces corpus sont pr alablement tiquet s La construction de ces entr es de dictionnaire ne fait appel aucune connaissance s mantique C est l le point fort de la m thode qui repose sur des techniques de bas niveau knowledge poor techniques en ce sens que le processus d extraction repose enti rement sur des traitements morpho syntaxiques et statistiques du corpus 23 2 2 Un ensemble de traitements simples Le traitement du corpus est effectu par le logiciel SEXTANT Grefenstette 1994a qui traduit dans un premier temps le corpus pr alablement 155 Nous parlons de traitement de bas niveau parce que c est une approche des textes qui ne n cessite pas qu une mod lisation s mantique des connaissances du domaine soit pr alablement construite la main Grefenstette 1994a p 3 104 DEUXIEME PARTIE tiquet en un ensemble de relations de d pendances syntaxiques L accent est mis sur les noms et ne sont conserv es que les relations entre un nom d une part et un adjectif un verbe ou un autre nom d autre part En simulant ce traitement sur les extraits de Menelas donn s ci dessous on obtient comme contextes pour le nom pisode ses relations avec les mots suivants pr senter OBJ survenir SUJ douloureux pr cordi
61. du corpus La similarit entre deux mots est mesur e comme une distance entre les vecteurs repr sentant chacun de ces mots Ces mesures de similarit s sont difficiles exploiter en tant que telles Les scores obtenus ne s interpr tent pas dans l absolu mais seulement relativement les uns aux autres Par ailleurs les mesures ou les classements obtenus r sistent l interpr tation On a souvent besoin de savoir sur quels criteres deux mots sont rapproch s Le probl me vient plus fondamentalement de ce qu une liste tri e des similaires d un mot donn n est pas une classe ces listes sont centr es autour d un mot p le et ce n est pas parce que ship navire et truck camion par exemple sont tous les deux similaires boat bateau Hindle 1990 que les deux relations de similarit s sont comparables ni que ship et truck sont n cessairement similaires entre eux Partant de ce constat G Grefenstette 1994 propose de structurer cette liste des similaires d un mot selon ses diff rents axes s mantiques ce qui revient distinguer diff rents types de similarit s J Bouaud et ses coll gues 1997 choisissent de repr senter un ensemble de relations de similarit s sous la forme d un graphe qui situe un mot dans un r seau de similarit s et fait ressortir des zones denses riches en similarit s crois es Pour aller plus loin dans cette voie il faut construire des classes s mantiques partir d une relation d quivalenc
62. est le plus riche en relations Dans la pratique ce niveau fondamental n est pas clairement identifiable Cette structure hi rarchique peut tre parcourue de haut en bas ou de bas en haut A partir d un sens donn on peut ainsi retrouver ses anc tres hyperonymes directs et indirects ses descendants hyponymes directs ou indirects mais aussi ses fr res coordinates Outre leur place dans cette structure hi rarchique les sens des noms se d finissent par des propri t s leurs attributs leur composition et leurs fonctions La composition est d crite par diff rents types de relations m ronymiques dans WordNet les relations de composant objet compos branche arbre d l ment ensemble arbre for t et de mati re arbre bois En revanche les attributs un arbre peut tre grand vieux et les fonctions une hache sert couper ne sont pas repr sent s dans WordNet Ce sont en effet des relations trans cat gorielles qui devraient terme relier les hi rarchies de noms aux r seaux des adjectifs ou des verbes 20 2 2 Des classes d adjectifs Les synsets d adjectifs comprennent essentiellement des adjectifs qualificatifs m me si des noms ou locutions pr positionnelles utilis es comme modifieurs y figurent galement Ces adjectifs ne s organisent pas comme les noms Pour les adjectifs il n existe pas de relation hi rarchique 141 C est particuli rement vrai de la botanique ou de la zoologie d
63. faudrait pouvoir op rer sur le corpus de Birmingham qui a servi extraire les variantes de cold war Malheureusement ce vaste corpus n est pas muni de structures syntaxiques Comme Barkema le souligne lui m me il faudrait pouvoir calculer le poids de chaque r alisation syntaxique d un sch ma fondamental sur le m me corpus que celui utilis pour extraire les variations d expressions relevant de ce sch ma En effet rien ne dit que la flexibilit des syntagmes libres ou celle des expressions toutes faites soit la m me dans tous les registres On sait par exemple que l crit journalistique contemporain francais fait souvent appel des locutions qui sont d tourn es par exemple ce titre de Lib ration du 20 mars 1989 apr s les lections municipales Coup d tat de gr ce Fiala et Habert 87 C est dire ne constituant pas des expressions toutes faites 58 PREMIERE PARTIE 1989 p 91 D autres registres comme le discours juridique sont peut tre plus conservateurs quant la phras ologie qu ils v hiculent Ne disposant pas de corpus arbor de taille suffisante pour pouvoir y observer des ph nom nes de flexibilit Barkema par la force des choses en est r duit peser les variations effectives avec une balance r gl e sur d autres donn es langagi res le corpus de Nim gue ce qui constitue un biais dont on ne peut pas mesurer les cons quences dans l imm diat Barkema cherche caract riser la flexib
64. fin du groupe en cause probablement pour faciliter le rep rage visuel des groupes et des fronti res Les ench ssements font appara tre une hi rarchie dont l indentation pla ant les constituants de m me niveau une m me distance de la marge gauche facilite la perception N Ce DEDEMMS guide NCOMS N V P leur PPCAGMP permet V VINIP3 P de PREPD Vi se_PPRE6MP familiariser_VPRN Il peut galement tre vertical On distingue comme dans Susanne formes tiquettes de mots parties d arbres Pour l exemple choisi 67 Cit dans Leech et al 1996 p 6 Les corpus arbor s Ce guide leur permet de se familiariser avec les op rations de r seau local effectu es par les utilisateurs DEDEMMS NCOMS PPCA6MP V_VINIP3 PREPD PPRE6MP VPRN PREP DARDFP NCOFP PREPD NCOMS AJQMS VTRPSFP PREP DARDMP NCOMP 43 IN N V P P P IP P N A A N P A P N P A N P Vi P V Th TA DEDEMMS NCOMS PPCAGMP V VINIP3 TU M zn e i Eod NCOFP T FER ib QUE PREP E De Le guide M de l fad jd op rateurs de r seau local effectu s par les utilisateurs Le mot figure en premi re colonne sa cat gorie en seconde La troisi me colonne fournit une partie de l arbre syntaxique le point y marque l nsertion du sous groupe constitu de la cat gorie et du mot Les deux premi res lignes correspondent ainsi a
65. financi res ont toute une connotation n gative mais quel mot associer cette tiquette n gative 45 2 2 D sambiguisation s mantique Si les probl mes d ambiguit sont n glig s dans la langue de sp cialit notamment l tiquetage peut se faire hors contexte sur la liste des formes du texte C est l approche de Basili et al 1993c semble t il Pourtant l objectif est g n ralement de d sambiguiser le corpus et l tiquetage doit tre fait en contexte L tiquetage manuel est envisageable pour les corpus de taille moyenne en dec du million de mots s il faut choisir parmi quelques tiquettes g n rales parce que les cas ambigus sont rares et faciles trancher Une fois qu une classe s mantique est clairement d finie avec l aide d une interface conviviale l tiquetage la main d un mot est l affaire de quelques secondes Nous avons r solu de simplement sauter les mots pour lesquels le choix d une tiquette n est pas vident ou pour lequel aucune tiquette ne 272 C est dire s il prend plus de 30 secondes Basili et al 1993a NDA Bibliographie 189 parait adapt e ibid p 346 347 On n a pas forc ment besoin de faire appel un linguiste pour l tiquetage m me si on a besoin d un linguiste pour tablir un jeu d tiquettes appropri Basili et a 1993a p 157 S il faut proc der un tiquetage fin en revanche la proc dure manuelle devient sujette
66. gle g n rale la premi re personne du Suivi d une n gation ponctuation RU Deed pronom personnel verbe indicatif pr sent 1 re personne singulier adverbe n gation ponctuation faible e motif nom ponctuation fone est sur employ les formes correspondantes les plus employ es tant ch mage 1 f occurrences occurrences goisme 8 occurrences et argent 7 32 PREMIERE PARTIE Les bacheliers sont caract ris s par les enchainements de syntagmes pr positionnels puisqu on trouve des patrons comme nom pr position article d fini nom pr position article d fini nom ou encore comme nom adjectif ponctuation faible nom pr position nom Ce dernier patron est li des num rations nominales non d termin es cf l absence de d terminant apr s la ponctuation faible comme dans la r ponse raison financi re situation de travail peur de perdre son travail pour la femme qui s absente pour raison de maternit Les plus dipl m s privil gient nettement l adjectif et une forme qui en est proche le participe pass en particulier dans des coordinations dans des patrons r p t s comme nom adjectif coordonnant adjectif ou adjectif ponctuation faible adjectif 10 5 Pr ciser l emploi des adjectifs qualificatifs et relationnels Hors contexte les lemmes des adjectifs du corpus ont t r partis entre les cat gories suivantes adjectif qualificatif mau
67. homog nes 207 francophonie ressources 211 Frantext 2 Frei 135 Fuchs 3 Gale 140 141 Gaussier 141 Gazdar 5 40 53 54 genres 153 grammaires locales 163 grammaires locales 163 grammaires locales 166 granularit de la description 73 115 graphe 39 Grefenstette 78 94 98 99 101 102 103 104 105 117 118 119 120 177 178 179 180 211 Grishman 117 151 178 180 Gross 38 54 151 Guha 80 Guillet 53 Guthrie 76 81 108 114 Habert 12 25 26 53 56 66 71 162 196 203 Halteren 44 46 70 171 172 Hanks 178 179 192 Hansard 137 139 Hansard 145 Harris 149 150 151 152 Hatzivassiloglou 117 Hearst 177 Heikkila 46 48 Helsinki 8 11 123 125 128 129 133 147 Herdan 183 Herzog 116 Heuvel 70 hi rarchie 78 85 90 conceptuelle 80 lexicale 81 profondeur 113 Hindle 46 47 117 121 172 178 179 histoire 22 36 Holmes 184 homog n isation 161 HTML 155 Humphrey 83 hyponymie 74 89 112 177 et distance 82 hyponymie et fr quence 99 ICE 17 Ide 76 111 119 154 156 identification 183 implication 91 indexation 106 118 inf rence linguistique 105 information mutuelle score d association 120 121 Intelligence Artificielle 74 80 interpr tation 180 INTEX 163 247 18 La feuille de style ayant servi saisir ce document IS A 74 Isabelle 139 140 141 142 211 Jacquemin 53 57 58 62 68 213 jeux d tiquettes diversit 16 Justeson
68. la mise au point et le test du logiciel sur des corpus vari s ont conduit rajouter d autres r gles galement n gatives La d marche est proche de celle utilis pour l tiquetage cf chapitre VIII peu peu on d gage les r gularit s l uvre et on met au point des proc dures qui s appuient sur elles Au total Lexter au del des proc dures mises en oeuvre essaie donc de formaliser partiellement la notion de d nomination possible 15 5 Enjeux pratiques et th oriques 15 5 1 Am liorer la description lexicographique Barkema ibid souligne que le degr de flexibilit d une expression est rarement indiqu par les dictionnaires qui donnent cette s quence Le dictionnaire COBUILD Sinclair et al 1987 fait partiellement exception pour moment of truth minute de v rit est ainsi indiqu que la seule modification possible de l expression est l utilisation au pluriel Le rep rage des r alisations possibles tel qu il est effectu par Barkema permet d enrichir la description lexicographique des expressions concern es Il en va de m me en terminologie sp cialis e o les r sultats de FASTER isolent des variantes int grer dans les ressources lexicales En acquisition terminologique Lexter permet d enrichir le r pertoire des termes utiliser L cr mage par ce programme des d nominations possibles facilite le travail du lexicographe sp cialis Les concordances de mots fr quents sont en effet sou
69. la transformation au fil du temps de certaines formes lexicales en simples marques grammaticales Help se viderait progressivement de son sens et deviendrait un simple tai pour l infinitif associ Pour C Mair ibid p 267 en outre l opposition faite par les grammaires entre les deux constructions n est pas tout fait exacte L anglais et l am ricain suivraient un mouvement parall le quoique d cal dans l volution de l utilisation de help 28 3 La longue dur e 28 3 1 La position des adjectifs en moyen anglais tardif H Raumolin Brunberg 1994 tudie la position des adjectifs en moyen anglais tardif 1350 1500 Elle s appuie sur les donn es d Helsinki Elle examine particuli rement l hypoth se avanc e par plusieurs chercheurs selon laquelle la position de base serait post nominale on trouverait globalement plus d adjectifs apr s qu avant le nom pour les adjectifs pouvant se pr senter dans les deux positions la post position serait plus fr quente enfin la position apr s le nom serait non marqu e H Raumolin Brunberg limite son tude la prose pour que n interviennent pas les contraintes sur l ordre des mots propres la po sie Le sous corpus examin comprend 200 000 mots Les constats effectu s dans Helsinki contrecarrent nettement l hypoth se formul e ci dessus La comparaison de deux sous p riodes 1350 1420 et 1420 1500 ne montre pas d volution sur la position de l adjectif l en
70. les variantes repr sentant 28 de cette zone terminologique Les variantes valid es repr sentent 15 des occurrences de termes Cette estimation semble d ailleurs une valeur plancher au regard d exp riences sur d autres langues et d autres corpus La variation terminologique est donc loin d tre n gligeable contrairement un pr jug r pandu les termes seraient les noms univoques et stables des notions d un domaine Les r sultats de Barkema vont dans le m me sens cette fois ci pour la langue g n rale Il semble en effet qu au total l intuition linguistique ou en langage sp cialis celle d un terminologue voire d un expert du domaine sous estime les variantes effectives des d nominations complexes Le recours au corpus renouvelle 5 Cf Authier Revuz 1995 T Institut National pour l Information Scientifique et Technique CNRS 70 PREMIERE PARTIE donc l analyse de la variation de ces unit s polylexicales 15 5 4 Caract riser la flexibilit normale Barkema distingue ibid 40 41 1993 trois dimensions qui s articulent la flexibilit syntaxique la possibilit pour un groupe de se voir appliquer tout ou partie des r gles du constituant dont il rel ve la compositionnalit le fait que le sens de la s quence soit ou non fonction du sens de ses constituants et enfin la collocativit les pr f rences d emploi d un mot comme dans l association privil gi e conomist
71. lieu pronoms et pro verbes questions passifs modaux coordination n gation Ils sont identifi s automatiquement en limitant au maximum la v rification manuelle L tiquetage mis en uvre par Biber s loigne de l tiquetage morpho syntaxique pratiqu en g n ral Il est partiel et partial Il est in quitable il s int resse des fonctionnements linguistiques tr s sp cifiques qu il analyse en d tail tandis qu il en laisse d autres dans l ombre Par exemple il privil gie certains verbes modaux et certaines formes verbales passif pr sent mais ne traite pas syst matiquement l ensemble des classes de verbes ni toutes les flexions verbales La statistique multidimensionnelle 3 est mise contribution pour rep rer les oppositions majeures entre associations de traits linguistiques Elle rassemble les traits qui ont tendance appara tre ensemble Elle constitue dans le m me temps les configurations de traits qui sont syst matiquement vit s par ces rassemblements Cette d marche permet d obtenir des p les multiples positifs et n gatifs correspondant ces constellations positives et n gatives Ces p les deux deux constituent des dimensions Chaque texte par son emploi des traits linguistiques tudi s se situe en un point d termin de l espace n dimensions d termin par cette analyse La typologie construite par D Biber partir des r sultats de l analyse factorielle s organise au
72. morpho syntaxique ou syntaxique de corpus Quelles informations morpho syntaxiques ou quel niveau de structuration syntaxique faut il repr senter Comment assigner cette information aux diff rentes parties du corpus Ces questions se posent galement pour la d sambiguisation lexicale Quels sens de mots faut il prendre en compte Comment identifier le sens d un mot en contexte D terminer les sens repr senter pour un mot donn soul ve en fait deux questions compl mentaires Celle de la granularit de la description on peut retenir des distinctions de sens plus ou moins fines Et celle des sources de connaissances il s agit de d terminer l ventail des sens possibles pour un mot donn M Sussna 1993 propose d exploiter les distinctions fines de sens telles que WordNet peut les repr senter L approche de M Sussna est par ailleurs contextuelle Comme beaucoup de travaux de d sambiguisation lexicale 9 elle repose sur l id e que le contexte d un mot permet d identifier le sens dans lequel il est employ Sous jacente est l intuition que l on tend s lectionner pour un mot le sens qui est li au contexte De fait dans la plupart des cas nous ne percevons pas d ambiguit car le contexte suffit r duire l espace des sens possibles L id e est de retenir pour un mot donn le sens qui se rapproche le plus de ceux de ses voisins c est dire de mesurer la parent ou la distance s mantique 6 entre les sens de di
73. ne 170 43 3 DESAMBIGUISATION PROBABILISTE siennes nee 171 43 4 PERFORMANCES ene eme ne rhe nr enne n nn nnns nn sens ense esses ss e ess asse neis 172 43 5 POST TRAITEMENT ET nee ne en enn suce nnns nsn nnns nnne ase esses esse ene 173 43 6 EVALUATION ET NOUVELLES TENDANCES e e ne en enne nes esses senes essen e 173 44 ANALYSE SYNTAXIQUE eere eee to eet senes seen esee eate eee eee 174 44 1 STRUCTURATION PAR REGLES eene sese nenne ne sene nenne rennen nnn 175 232 44 1 1 R gles fi gdiiyes iss e a RR i Ede aede 175 44 1 2 R gles positives Miss member E d o e ae 175 44 2 STRUCTURATION PROBABILISTE sure eerte eene eee nennen 175 44 3 PERFORMANCES ET EVALUATION ceeeeeennnnen 176 44 4 POST TRAITEMENT ET COUTS dec store ke e ee et Ear ae aea 178 44 5 COUTS een ta t rero t eor eei ride tee tu c e et et ect XXE Pee D eee de 182 44 6 DIFFICULT S tenet e Bie cece E eee rv p tu E dn 182 45 TIQUETAGE SEMAN HWIS DI DT T 183 45 1 CONSTRUIRE DES CATEGORIES SEMANTIQUES sise ee eee eee nennen enne esee 184 45 1 1 D finir un contexte ss 184 45 1 2 Calculer des 186 45 1 3 Construire des classes de 187 45 1 4 Proc der par it r
74. occurrences des variantes syntaxiques de ce sch ma dont le passage au pluriel Il compare alors la fr quence obtenue pour une variation de cold war relevant d un patron donn avec la fr quence attendue La fr quence attendue d une telle variation s obtient en multipliant le nombre total d occurrences de cold war et de ses variations par le nombre de fois o le patron de cette variation se r alise dans les syntagmes libres par rapport au nombre d occurrences du sch ma dont rel ve cold war et de ses variations au sein des syntagmes libres Dans les 16 183 syntagmes nominaux du corpus de Nim gue 1 257 rel vent du sch ma adjectif absolu nom commun singulier et 171 de ce sch ma et de ses variantes syntaxiques On s attendrait alors trouver 49 15 occurrences du sch ma de base 111 13 x 1 257 3 171 alors qu on en trouve 111 la r alisation au singulier cold war est notablement plus fr quente que pr vu ce qui signifie aussi que cold war pr sente moins de variations que le sch ma syntaxique dont elle rel ve ne le permet L examen des carts entre les fr quences attendues et les fr quences observ es souligne le fait que la post modification de cold war par un syntagme pr positionnel est moins fr quente qu on ne s y attendrait Il en va de m me de la r alisation au pluriel 0 rencontr e 24 64 occurrences attendues 15 2 3 valuation L approche de Barkema pourrait tre am lior e Dans l id al il
75. on cherche aujourd hui d velopper des outils automatiques Quels que soient les textes ouvrages parties d ouvrages articles ou m me d p ches crits dans une ou plusieurs langues documents techniques ou non quand on a affaire un nombre important de textes il faut faire du tri Deux voies sont possibles Les document peuvent tre class s a priori en groupes homog nes le plus souvent th matiques mais le tri peut aussi se faire a posteriori en fonction d un objectif sp cifique par l extraction cibl e d un sous ensemble de textes pertinents au regard de cet objectif La premi re direction soul ve deux difficult s Si l ventail des cat gories est donn au pr alable il faut identifier les indices permettant d associer un texte une ou plusieurs cat gories on parle alors de cat gorisation de textes Mais si le jeu de cat gories n est pas donn il faut galement d terminer les crit res de classement classification de textes Dans la seconde direction le crit re de choix est fix par l utilisateur qui formule une requ te les textes portant sur l a ronautique par exemple mais il faut rep rer les multiples formes sous lesquelles ce th me peut tre exprim dans la base de textes interrog e Les premiers outils de recherche documentaire reposaient et reposent encore souvent sur des mots clefs cens s refl ter le contenu du document Toute la question est alors de d terminer quels sont le
76. ouvrent d sormais Rappelons en effet que les entr es donn es ci dessus ont t engendr es de mani re enti rement automatique Ces entr es constituent des bauches ou un premier d grossissage qui donnent au lexicographe une vue synth tique sur le poids donn es quantitatives et le fonctionnement syntagmatique expressions et verbes op rateurs ou paradigmatique voisins et variantes d un mot dans le corpus consid r 23 2 Une m thode enti rement automatique Ces entr es ne sont pourtant pas de qualit gale L entr e de year parait plus difficile exploiter que celles de growth En r gle g n rale on constate que plus les noms sont techniques et fr quents meilleure est leur description Pour appr cier la pertinence des informations extraites et savoir interpr ter des r sultats parfois surprenants il importe de comprendre par quelles m thodes et dans quelles conditions ces entr es ont pu tre construites partir des corpus 23 2 Une seule donn e le corpus En mati re de donn es la m thode repose sur le corpus et sur le corpus seulement Dans la mesure o il est exploit comme source de connaissances pour d crire une langue sp cialis e il est primordial de partir d un corpus homog ne et repr sentatif de cette langue voir chapitre VII mais en tant que telle la m thode d extraction de G Grefenstette est ind pendante du domaine trait Au del des corpus m dicaux et financiers cit s ci
77. p riodes qui pr c dent Pour chaque terme dont la fr quence d passe un seuil fix l avance pour chaque p riode du corpus partir de la seconde on compare selon le mod le des sp cificit s pr sent plus haut la sous fr quence observ e dans la p riode consid r e la fr quence de cette m me unit dans l ensemble des p riodes pr c dentes Le tableau 8 donne quelques accroissements sp cifiques majeurs pour l ensemble de Mitterrand1 Les accroissements sp cifiques sont not s l aide des symboles et qui indiquent des sp cificit s respectivement positive et n gative de l accroissement i e un sur emploi et un sous emploi sp cifique par rapport aux parties pr c dentes La derni re colonne indique la p riode p r ie la partie du corpus concern e par le diagnostic d accroissement sp cifique Pour chaque terme la colonne Fx donne le nombre des occurrences de ce terme dans le groupe de p riodes 291 s agit des deux premiers facteurs issus de l analyse du tableau croisant formes graphiques de fr quence sup rieure 20 et p riodes 1 397 formes x 7 p riodes Bibliographie 217 pr c dentes Tableau 8 Chronique des sp cificit s maximales pour Mitterrand1 terme F f Spec p r nationalisations 42 31 0 12 2 israel 71 56 2 11 3 monsieur 430 213 91 11 4 nouvelle cal donie 33 22 20 11 4 r f rendum 27 19 18 yti 4 tr s 627 329 127 11 4 cha ne 39 36 34 19 5 la franc
78. plusieurs des m thodes pr sent es dans le chapitre 46 POURQUOI QUANTIFIER Au del des tudes centr es chaque fois sur un type d unit textuelle particulier s est d velopp un courant dont les d nominations ont vari au cours du temps et qui se fixe pour but l tude quantitative des faits langagiers L approche quantitative permet seule d acc der la description de ph nom nes textuels qui pr sentent un grand int r t une fois mis en vidence et dont il aurait t difficile de cerner les contours a priori 46 1 tudier la variation de traits linguistiques dans un corpus Certaines tudes men es par des linguistes se fixent pour but principal la description de la variation au sein d un corpus de l ensemble des l ments d un m me syst me d unit s linguistiques graph mes formes lemmes lexies syst me de cat gories grammaticales s quences etc En g n ral ce type de t che s accommode mal de proc dures de segmentation et 273 Chacune de ces m thodes est pr sent e dans Lebart et Salem 1994 274 Cf par exemple Herdan 1964 Muller 1968 192 d identification approximatives des unit s de d compte Il n cessite au contraire que le texte analys soit soumis lors d une tape pr alable une r flexion minutieuse sur les proc dures de rep rage d identification et d annotation des unit s recenser Une fois les comptages r alis s pour chacune des unit s du syst me o
79. pour ces textes et pour les traits choisis pour les opposer Peut on accorder une port e plus g n rale aux types ainsi construits Biber 1995 a appliqu la m me d marche mais cette fois ci quatre corpus le corpus anglais initial et trois ensembles de textes en cor en somali et nukulaelae tuvaluan Malgr des diff rences nettes li es en particulier au degr d alphab tisation et la place des traditions orales dans les langues consid r es Biber ibid p 359 pense pouvoir mettre l hypoth se que les types textuels qu il d gage sont communs plusieurs langues m mes si leur r alisation linguistique diff re d une langue l autre L articulation de ces constats g n raux sur des corpus diversifi s avec des analyses dans un domaine particulier ne va cependant pas de soi Ainsi Bergounioux et coll 1982 tudient les r solutions g n rales vot es par les congr s conf d raux des quatre centrales interprofessionnelles CFDT CFTC CGT et FO pendant les ann es 1971 1976 Ce corpus n est pas tiquet soulignons le La r partition pr cise d un certain nombre de formes marques d nonciation d termination coordination pronoms pr positions etc dans les textes J P Sueur 1982 tudie dans une optique tr s proche les contrastes entre parties de la R solution G n rale du congr s de 1976 de la CFDT Il tiquette manuellement cette fois les traits qui lui paraissent pertinents et u
80. pour les formes pr fix es en et l existence de textes enregistr s en nombre suffisant une p riodisation pr cise pour chaque forme cil et cist 203 L les textes nous parviennent par copistes et parfois g n rations de copistes interpos es auxquels s ajoute in vitablement l intervention de l diteur moderne jamais un texte n est le pur reflet de l usage de l auteur il s agit n cessairement d une langue hybride Marchello Nizia 22 p D une langue l autre 137 par exemple Ces donn es et ces outils permettent de donner consistance aux facteurs qui sont invoqu s l volution de l accent qui passe du mot au groupe syntaxique et l influence de parent s de plus haut niveau de syst mes m ta morphologiques et s mantiques g n raux avec la restructuration du syst me pronominal Nous avons vu l usage de la notion d analogie pour expliquer l invention de ce il viendrait compl ter ces et faire pendant avec lui au couple e les C Marchello Nizia rappelle ibid p 176 178 les critiques qu appelle l usage de cette notion pour rendre compte en derni re instance de certaines volutions L analogie est le plus souvent utilis e au coup par coup Elle fonctionne alors comme explication de la derni re chance Elle est utilis e de mani re superficielle par opposition des r gles d ment formalis es Au del des explications parfois hasardeuses par l analogie l annot
81. projection des cat gories soulignent J V ronis et L Khouri ibid p 237 M me si l on est d accord sur le jeu d tiquettes leurs extensions c est dire l ensemble des formes lexicales qu elles couvrent peuvent tre diff rentes Le probl me est particulierement aigu pour les cat gories ferm es d terminants pronoms adjectifs ind finis etc o l on rencontre de tr s grosses diff rences d appr ciation dans les cat gories et ce dans la plupart des langues Comme l indiquent Greenbaum et Yibin 1994 p 35 l identit des tiquettes entre deux jeux peut tre trompeuse dans la mesure o l assignation des tiquettes peut tre diff rente Ils citent le cas de l tiquette adverbe qui est conserv e par CE International Corpus of English pour les adverbes utilis s comme modifieurs de noms then dans the then president mais que l tiqueteur CLAWS remplacerait par l tiquette adjectif Dans les cas J P Chanod et P Tapanainen 1995a indiquent ainsi qu ils ont ignor la distinction masculin f minin en francais pour les noms et les adjectifs dans la mesure o cette distinction suppose l utilisation de contextes larges une envie de soleil diffuse et o finalement pour leurs objectifs rep rage de l accord sujet verbe et ambiguit nom yerbe elle joue un r le mineur C est la pratique d E Tzoukermann et de ses coll gues 1995 avec des jeux de 253 et 67 tiquettes respectivem
82. qu ils ont mises au point pour le rancais 172 right etaient mal tiquet s dans la partie orale du corpus dans la mesure o l apprentissage avait t r alis sur la partie crite Leech et a 1994 43 4 Performances Aucun dictionnaire ne peut tre enti rement exhaustif En outre les entr es du dictionnaire peuvent tre incompl tes certaines cat gories pourtant possibles en sont omises Un analyseur morphologique ne fournit pas non plus d hypoth ses sur la totalit des mots tiqueter Il reste donc toujours des mots inconnus ne serait ce qu en raison des noms propres des mots emprunt s des langues trang res ou des n ologismes d bureaucratiser Les taux habituellement cit s tournent autour de 95 98 d tiquettes justes Ce chiffre parait encourageant Cependant ces performances incluent souvent les ponctuations parmi les formes tiquet es Or les ponctuations couvrent environ 10 15 96 de la surface des textes ce qui diminue d autant le nombre des formes lexicales qui sont effectivement correctement cat goris es Par ailleurs nous l avons vu une bonne moiti des formes d un texte ne rel ve que d une cat gorie et d une seule La d sambiguisation est donc comptabiliser sur le reliquat seulement ce qui double le pourcentage d erreur Notons enfin que 5 d erreur c est une tiquette erron e tous les 20 mots soit plus d une fois par phrase dans un texte courant Une telle p
83. que la diversit voire l clatement des horizons th oriques et des r alisations pratiques 2 QUOI SERVENT LES CORPUS ANNOTES La conjoncture actuelle tient semble t il la rencontre d une tradition anglo saxonne de linguistique descriptive s appuyant sur les corpus lectroniques et d un profond changement de cap en traitement automatique du langage naturel d sormais TALN Cette convergence apparente cache de profondes divergences sur la nature des donn es langagi res constituer et sur leur utilisation 2 1 La linguistique descriptive anglo saxonne et ses questions Le rejet de principe formul par N Chomsky d s 1957 du recours aux corpus au profit de l appel l intuition du locuteur natif a rel gu dans les limbes les travaux de linguistique quantitative et les tudes empiriques de donn es attest es C est du moins l impression qui domine quand on se retourne sur les quarante derni res ann es de l histoire de la linguistique Cette image est partiellement fausse Dans le monde anglo saxon o l empirisme bien compris garde toujours quelque attrait parall lement aux mutations des mod les chomskyens et de leurs avatars s est progressivement affirm e une linguistique faisant appel de plus en plus syst matiquement des corpus lectroniques pour d velopper partir des faits rassembl s des dictionnaires et des grammaires descriptives mais aussi pour tester des hypoth ses confronter u
84. r tiqueter le corpus Il s agit alors de composer avec l tat pr sent de l tiquetage d en tirer les informations qui se rapprochent de celles recherch es C est cette d marche que nous avons vue l oeuvre dans les tudes typologiques sur le discours syndical faute de disposer de corpus tiquet s il y a 15 ans dans les limbes pour l anglais et inexistants pour le fran ais on tudie aussi pr cis ment que possible un ensemble d limit de formes graphiques de mots malgr le bruit introduit par l utilisation de cette repr sentation sommaire A l inverse si dans le cas pr sent une telle d marche typologique peut se satisfaire pour un premier d grossissage de corpus bruts c est dire r duits des formes graphiques elle gagne sans conteste utiliser des corpus tiquet s de mani re sp cifique L cart entre les donn es utilis es par ces diff rentes analyses et la plus ou moins grande imm diatet d interpr tation qui en r sulte d bouche n anmoins sur la n cessit plus g n rale de v rifier l ad quation possible au prix de d tournements ventuels entre les conventions d annotation du corpus utilis et les objectifs de recherche vis s 11 1 3 Le r tiquetage est incontournable L cart entre les cat gories associ es un corpus d j cat goris ou fournies par un tiqueteur accessible et celles dont on peut avoir besoin pour une tude donn e implique s
85. r partition et l volution des diff rentes formes Les hypoth ses qu elle propose s appuient sur des constats que seul permet le traitement de tr s gros corpus Elle souligne en effet ibid p 138 139 Par g n ralisation ou simplification abusive on gomme le fait que ce n est pas 194 L opposition s mantique entre les deux s ries ind niable est plus complexe Elle a suscit de nombreuses analyses Marchello Nizia p 129 130 L hypoth se actuellement plus satisfaisante selon C Marchello Nizia est celle de G Kleiber ibid p 129 137 Pour ce dernier les formes en CIST indiquent au destinataire qu il faut op rer l appariement r f rentiel partir du contexte d nonciation imm diat de l occurrence contexte spatio temporel repr sent ou contexte nonciatif ou discursif ce qui n est pas le cas pour les formes en CIL Cf section 4 1 sur la taille des corpus historiques 132 DEUXIEME PARTIE tout le paradigme de ciL qui est devenu pur pronom mais seulement quatre formes sur sept celui celle ceux celles cil cel et celi ont disparu Pour cil on peut dire qu il s agissait d une forme de cas sujet singulier ou pluriel et d s lors que la d clinaison disparaissait les formes qui instanciaient les diff rents cas devaient dispara tre Mais pourquoi est ce celui qui s est conserv et non cel et pourquoi l inverse pour le f minin est ce celle et non pas celi qui s est conserv De m me ce
86. raire constituent un filtre suppl mentaire Environ 400 titres r pondent ces premiers crit res de p riode de genre et de diffusion L limination des livres traduits ou de ceux dont la premi re dition pr c de le d but de la p riode retenue ram ne cet ensemble 161 titres Deux conditions suppl mentaires sont retenues l auteur doit tre n en France et faire partie des auteurs les plus jeunes des meilleurs ventes l action du roman doit tre situ e dans la France de l apr s guerre ce qui n cessitait un examen des textes Derni re contrainte la taille globale du corpus fix e 500 000 mots par comparaison avec des recherches similaires D o le choix de fragments totalisant 20 000 mots la taille d un livre de poche tr s court pour chacun des 35 romans finalement choisis Pour mieux rendre compte de chacune des oeuvres ces fragments ne sont pas cons cutifs ils sont form s de 10 chantillons de 2 000 mots extraits au hasard de chacune des ceuvres Bibliographie 149 35 2 Constituer un corpus de r f rence Deux positions s opposent et constituent les p les entre lesquels se r partissent les cr ateurs de corpus Gros c est beau more data is better data pourrait tre le slogan de la premi re La conviction sous jacente est que l largissement m canique des donn es m morisables les centaines de millions de mots actuelles deviendront terme des milliards en fait in vitablement un cha
87. recherche documentaire 96 106 115 registres 122 123 124 127 129 130 134 153 relation hi rarchique 88 lexicale 88 s mantique 88 relation de d pendance Voir contexte syntaxique relationnels adjectifs 28 31 57 Renouf 127 162 repr sentativit Voir requ te 106 expansion de 107 mots clefs 106 requ tes expansion de 107 r seau de sens 77 s mantique 74 79 Resnik 82 111 117 120 121 ressources lexicales 72 r utilisabilit 83 Rey 53 Rigau 82 Roget s thesaurus 78 79 80 81 Rollinger 116 Ryckman 151 Sager 149 150 151 Salem 12 26 179 183 196 199 203 Sampson 4 7 11 38 50 51 176 213 Saporta 179 197 Savitch 179 180 Schmid 167 score d association 120 segment r p t 202 segmentation 162 183 d finition 162 s mantique 181 segments r p t s 190 s mantique diff rentielle 86 91 distributionnelle 78 s mantique distributionnelle hypoth se de 98 sens de mot 73 sens de mots 86 s ries textuelles chronologiques 205 SGML 155 9 Shannon 192 Silberztein 53 162 163 166 silence 6 similarit 104 108 118 179 mesure de 177 179 r seau de 179 Sinclair 5 7 67 213 skeleton parsing Voir analyse squelettique Smith 180 SORTE DE 74 80 sous langages 149 Souter 45 70 sp cificit n gative 195 sp cificit positive 195 Spriet 165 166 168 statistique multidimensionnelle 193 Stein 167 Sterling 117 178 180 structuratio
88. requ tes sur les informations pr sentes dans une collection de tables ces m thodes faisant appel l alg bre relationnelle qui permet d exprimer ces requ tes sans entrer dans les d tails de la mise en ceuvre des op rations Dans une base de donn es syntaxiques il y a bien accumulation d informations et un certain d membrement puisque les analyses sont simplement juxtapos es Mais n y sont pr sents ni une formalisation g n rale des donn es pr sentes on a d j soulign l clatement des pratiques d annotation syntaxique ni un langage de requ te ad quat ni m me la possibilit d ajouter ou de retirer des informations ce que permettent les bases de donn es La vari t des informations pr sentes et leur structuration complexe en termes d ench ssement de constituants mais aussi de liens horizontaux par exemple pour les co r f rences ou pour les discontinuit s ou encore de structures de traits d corant les noeuds constituent il est vrai un d fi la formalisation C est LDB Linguistic DataBase qui se rapproche le plus d un outil de gestion et d interrogation de vastes ensembles de phrases arbor es Cet outil a d ailleurs t utilis pour d autres ensembles arbor s que ceux de l universit de Nim gue pour lesquels il a t concu Il est possible donc de transformer un corpus arbor pour le rendre interrogeable par LDB Halteren et Heuvel 1990 offrent une pr sentation approfondie
89. s La modification isole des s quences au statut plus incertain La permutation enfin aboutit un taux de bruit encore plus important il tient au r le s mantique flou des pr positions dites incolores en francais comme en anglais de of Ce sont l les premiers l ments d une v ritable grammaire de la variation terminologique capable de caract riser pr cis ment les op rations possibles et leur domaine d application On peut m me se demander si c t de m canismes tr s g n raux intervenant dans les 92 Ph nom ne d incertitude positionnelle assez fr quent dans ce domaine En voici un autre exemple syndrome douloureux thoracique syndrome thoracique douloureux 64 PREMIERE PARTIE diff rents langages sp cialis s ne peuvent pas se rencontrer des r gularit s particuli res tel ou tel domaine Dans l imm diat cependant il y a peu de diff rences d un corpus l autre sur les types de m ta r gles utiliser ce qui pourrait plaider pour une certaine stabilit de la langue technique au regard des m canismes syntaxiques employ s 15 4 La recherche de candidats termes Les deux approches que nous venons de pr senter cherchent les variations d expressions toutes faites de la langue g n rale ou de termes de langues de sp cialit On part donc de s quences r pertori es dont on cherche en corpus des r alisations modifi es Le travail que nous examinons maintenant est orient par l objectif co
90. son tiquette Grace des notations Bibliographie 181 sp cifiques on peut d une part indiquer qu une s quence est un constituant majeur mais que sa cat gorie syntaxique est sujette discussion et d autre part rendre compte des ambiguit s r elles c est le cas pour blown ashore 375 years ago qui peut modifier soit warriors soit boatload d o l indication pseudo attach S NP Battle tested industrial managers here always VP buck up NP nervous newcomers PP with NP the tale PP of NP NP the ADJP first PP of NP their countrymen S NP to VP visit NP Mexico NP NP a boatload PP of NP NP warriors VP 1 blown ashore ADVP NP 375 years ago VP 1 pseudo attach 182 44 5 Co ts Pour l insertion manuelle d arbres syntaxiques rudimentaires parenth sage et tiquetage des constituants la vitesse peut atteindre une phrase par minute Black et al 1993 p 20 La moyenne pour l analyse syntaxique manuelle effectu e l universit de Lancaster est de 51 minutes pour 1 000 mots cela comprend pr traitement parenth sage et tiquetage grossier dans un environnement informatique sp cifique et post traitement ibid p 60 D apr s Marcus et al 1993 p 323 la correction des r sultats du parseur utilis pour Penn Treebank suppose un temps d apprentissage de l ordre de deux mois plus long que le nettoyage de l tiquetage La vitesse moyen
91. syntaxique automatique ambiguit 45 descendante 48 environnements informatiques 69 montante 48 niveaux d annotation 48 partielle 62 63 robuste 47 sous sp cification 46 Andr 156 annotation jurisprudence 158 s mantique 72 annot Voir corpus anti dictionnaire 109 110 117 118 antonyme 75 77 antonymie 91 112 directe 91 indirecte 91 apprentissage analyse syntaxique 65 arbor Voir corpus arbor s corpus notations textuelles 41 relations 39 utilisation 52 arbre 39 description logique 40 arbre hi rarchique 197 arbres squelettiques 44 INDEX Archer 6 11 123 124 125 129 133 145 147 153 211 archive Voir archive Assadi 178 180 Atkinson 123 attestation 105 Atwell 45 70 Authier Revuz 68 Bakhtine 36 balisage 154 Barkema 54 55 56 57 67 68 69 71 138 139 146 base conceptuelle 74 77 de connaissances 73 lexicale 74 base lexicale lectronique 84 informatis e 85 sur support lectronique 86 basic level 90 Basili 82 83 91 178 180 181 Bensch 179 180 Benveniste 22 36 Benz cri 199 Bergounioux 122 Biber 7 22 23 24 25 33 35 37 123 124 125 126 129 133 147 148 149 153 213 bi concordanciers 140 bilingues corpus Voir align s textes Birmingham corpus de 54 56 139 146 bi texte Voir align s textes Black 45 46 47 70 145 150 157 158 168 170 171 172 175 176 214 Blackwell 161 Bla
92. tat de l art abstrait Ambiguit s techniques le savoir dont dispose le parseur n est pas suffisant pour choisir entre des possibles mais un locuteur n a pas de difficult s le faire en fonction de ses connaissances g n rales ou au vu du contexte C est le cas des rattachements pr positionnels et Emission de TF1 Ca nous int resse Monsieur le Pr sident du 28 avril 1985 Dans le pr traitement les contractions pr position article d fini aux du des sont gd compos es ponr faciliter les op rations ult rieures T Briscoe 1994 p 99 donne l exemple de la d finition de youth hostel A hostel for usu young people walking around country areas on holiday for which they pay small amounts of money to the youth hostels association or to the international yha dans le Longman Dictionary of Contemporary English LDOCE Le parseur inclus dans ALES Natural Language Tools avec un dictionnaire de 20 000 entr es a produit plus de 2 50 analyses Voir Souter et Atwell 1994 p 151 pour un autre exemple d analyse ambigu l inverse un annotateur confront des phrases isol es peut se trouver dans l incapacit de trancher Black et al 1993 p 40 Ressources lexicales 47 adjectivaux Dans l expression traitement du langage naturel s il ne dispose pas dans son lexique de l expression angage naturel un analyseur peut ne pas savoir s il faut rattacher naturel traitement ou langage Voici
93. techniques tr s sp cifiques chacune permettant de saisir un aspect particulier des ph nom nes d crire Il en r sulte une image imparfaite souvent floue mais qui n anmoins refl te le sens que l on cherche cerner En retour l exp rimentation devrait permettre de mieux comprendre les ph nom nes observ s 25 1 Fonder une s mantique sur les corpus Les exp riences d crites ci dessus t moignent d un changement dans la vision m me de ce qu est la s mantique on est pass d une conception logique une conception distributionnelle selon laquelle le sens d un mot et plus largement d une unit textuelle peut se d crire par les contextes dans lesquels il figure Au cours des ann es 1970 et 1980 c est surtout l intelligence Artificielle qui s int resse l analyse s mantique de textes L approche retenue est celle d une compr hension en profondeur avec l objectif de construire une repr sentation logico s mantique de la phrase du paragraphe ou du texte Il s agit de mod liser les v nements et situations dont parle le texte Mais en d pit de leur int r t th orique la plupart de ces travaux n ont pas t test s en vraie grandeur sur des textes r els de plus d une page portant sur des domaines vari s comportant des mots inconnus et parfois mal r dig s etc De m me qu en syntaxe les techniques d analyse robustes ont progressivement remplac les techniques traditionnelles dans les syst mes de
94. valuer l int r t de chacune d entre elles pour les recherches tant linguistiques que computationnelles 14 2 Informations fournies dans Susanne Voici les choix faits pour Susanne aux diff rents niveaux d analyse d finis supra 352 tiquettes sont utilis es pour l tiquetage des mots Sampson 1995 fournit pour les cat gories ferm es la liste exhaustive et pour les cat gories ouvertes les crit res d attribution Les noms propres sont r partis en noms de personne noms de lieux etc Les n uds portent jusqu trois types d information cat gorie fonction et indice permettant de relier le noeud un autre n ud Les relations fonctionnelles suivantes sont indiqu es sujet logique objet direct logique objet indirect logique agent du passif sujet de surface objet de surface circonstants de lieu de direction de temps de mani re etc Les tiquettes cat gorielles fournissent de nombreuses informations sur les constituants ainsi nomm s forme et type de verbe pour les groupes verbaux par exemple Des indices lient les paires de noeuds pour montrer l identit r f rentielle entre des constituants qui se trouvent dans certaines configurations syntaxiques Une tiquette sp cifique dans le champ r serv au mot repr sente la trace c est dire la position logique d un constituant plac en fait ailleurs ou qui est effac dans la structure syntaxique de surface Simultan ment un constituant d plac
95. www m w com dictionary htm sept 1997 La pr sence de mots en majuscules indiquant des renvois constitue la seule particularit de ce dictionnaire lectronique dans la version en ligne il suffit de cliquer sur le mot EED pour en consulter l entr e one la diff rence des traditions lexicographique anglophone et francophone cet Sgar les anglo saxons font grand usage de thesaurus mais c est un outil m connu um rancophones l inverse ces derniers utilisent davantage les dictionnaires de angue Ressources lexicales 79 credit Function n Text 1 Synonyms BELIEF 1 credence faith Related Word confidence reliance trust 2 Synonyms INFLUENCE 1 authority prestige weight Related Word fame renown reputation repute Contrasted Words disrepute ignominy obloquy opprobrium Antonyms discredit 3 one that enhances another he is a credit to his family Synonyms asset Related Word honor 4 favorable notice or attention resulting from an action or achievement took all the credit for the idea Synonyms acknowledgment recognition Related Word attention notice distinction fame honor glory kudos Figure 3 2 Exemple d entr e de thesaurus le nom credit Les thesaurus fournissent en fait un mat riau plus directement utilisable que les dictionnaires pour la d sambiguisation lexicale Ils donnent directement les associations de mots synonymie hyponymie antonymies que l on cherche
96. 1 UTILISER ETIQUETEURS ET CORPUS ETIQUETES 11 1 Adapter l tiquetage aux objectifs de recherche 11 1 1 Un tiquetage est orient par une famille de t ches Meyer et Tenney parlent 1993 p 25 26 d tiquetage finalis problem oriented tagging propos de l tude de l apposition dans Survey of English Usage faite par l un d eux Ils ajoutent que les programmes d tiquetage disponibles sont moins utiles pour le linguiste travaillant sur corpus qui souhaite tudier une construction linguistique donn e en d tail et adapter le jeu d tiquettes qu il met en oeuvre pour tudier cette construction I faut g n raliser ce constat Un tiquetage est toujours orient par une t che m me si c est implicite Le jeu d tiquettes utilis permet d tudier certains ph nom nes ou de d velopper certains traitements ult rieurs tandis qu il laisse d autres aspects linguistiques dans l ombre et n est pas compatible avec d autres applications Ainsi la distinction du genre et du nombre pour les noms et adjectifs dans l tiquetage d Enfants n est pas forc ment pertinente pour une tude nonciative de ce corpus mais par contre elle est utile pour une analyse syntaxique ult rieure elle permet de v rifier des contraintes d accord au sein du groupe nominal A l inverse tous les tiqueteurs ne fournissent pas le temps et la personne pour les verbes conjugu s bien que cette information soit Ne serait ce quen raison de la
97. 3 p 154 ou pour am liorer l analyse produite c est la solution retenue par Penn Treebank Marcus et al 1993 13 3 Types d analyse 13 3 1 Analyse partielle analyse compl te L analyse peut tre partielle ou compl te Compl te c est un arbre qui couvre l ensemble de la phrase dont les feuilles sont les mots de la phrase Partielle une phrase donn e correspond ent un ou plusieurs arbre s qui laisse nt des parties qui ne sont pas analys es Une analyse partielle peut correspondre l incapacit du parseur pour une phrase particuliere ou en g n ral produire des structures qui couvrent l int gralit des donn es analys es Mais une analyse partielle A priori il est toujours possible de passer automatiquement d un format un autre et d en fournir une version r ellement arbor e comme ici m me si le d tail du codage propre tel corpus peut rendre difficile la mise au point du traitement n cessaire 46 PREMIERE PARTIE peut correspondre aussi au fait de ne s int resser qu aux composants d une certaine nature syntaxique C est ainsi qu en terminologie automatis e les extracteurs de groupes nominaux se concentrent sur ces syntagmes o figurent les d nominations polylexicales du domaine Dans la phrase suivante de Mitterrand1 le Louvre lib r du le minist re des les finances cela repr sente un immense palais le plus grand mus e du le monde un kilom tre sept cent si vous
98. 7 dans un graphe 119 dans un r seau 111 mesure 104 s mantique 108 110 179 vectorielle 119 179 distance du chi deux 196 distance s mantique partir de d finitions 110 distinction de domaine 81 distinction de sens 81 grossi re 81 homographique 81 distinctions de sens 74 76 distribution 179 DTD 154 Dunlop 157 Dupuis 136 chantillonnage 125 129 El B ze 165 lagage 169 El B ze 165 166 168 embrayeurs 22 40 169 171 172 encodage de dictionnaire 84 Enfants 15 18 19 21 26 32 33 35 181 190 194 198 199 200 Enfants 73 ENGCG 46 48 Engwall 146 enrichi Voir corpus quivalence relation de 178 tiquetage 14 ambiguit 20 comparaison 34 d tournement 33 environnements informatiques 34 finalis 32 int gral 20 26 manuel 181 partiel 20 23 transformation 26 33 tiquetage s mantique 73 exemples 73 tiquet Voir corpus tiqueteur 20 tiquette s mantique 73 tiquettes 186 EuroWordnet 92 expansion Voir d pendant expansion de requ tes 107 expressions fig es 190 expressions fig es ou semi fig es 178 Eyes 44 famille de sens 81 FASTER 62 67 fen tres de mots 178 feuilles 39 Fiala 56 162 Fidditch 46 47 172 figement 54 69 filtrage 35 des contextes 179 filtrages 192 Finch 180 Finegan 123 124 125 126 129 133 147 247 flexibilit Voir phras ologie variation flexibilit syntaxique 69 formes chrono
99. 830 1848 a classe ouvri re contestaient les organisations ouvri res De m me les ann es 1970 ont vu s opposer les d fenseurs des libert s r publicaines la gauche et les syndicats aux d fenseurs de a libert avec bien entendu des contenus partiellement diff rents Cette distinction est en revanche moins pertinente dans le cas de l tude de Menelas le comportement du singulier et du pluriel de st nose ne justifie pas qu on les consid re s par ment L clairage qu apporte l approche quantitative la connaissance d un corpus de textes r unis des fins de comparaison s exprime de mani re privil gi e sous forme de contrastes entre les unit s que l on peut d compter dans les parties du corpus Ces circonstances fournissent indirectement un critere quant au choix des unit s retenir dans les analyses textuelles si les diff rentes r alisations d une unit linguistique sont distribu es de la m me mani re parmi les parties du corpus que l on compare il ne sert rien de les distinguer dans les comptages car elles ne seront pas l origine des contrastes mis en lumi re par les analyses statistiques Si par contre les r alisattions d une m me unit ont des ventilations tr s diff rentes l int rieur du corpus consid r le fait de les r unir en une m me unit statistique prive le chercheur de constats qui auraient pu l int resser Bibliographie 221 CONCLUSION G Leech 1991 p 25 souligne le t
100. 993 p 19 13 4 Analyseurs de texte tout venant Nous pr cisons les types de parseurs qui sont effectivement employ s pour l annotation de vastes corpus ainsi que les choix qui conditionnent leur fonctionnement production d une seule analyse ou de plusieurs 48 PREMIERE PARTIE analyse descendante ou montante Certains formalismes syntaxiques contemporains comme LFG HPSG les grammaires d arbres adjoints Abeill 1993 ou comme le mod le Gouvernement et Liage ont donn lieu la r alisation de parseurs Toutefois ces analyseurs sont avant tout destin s tester le traitement par ces formalismes de ph nom nes linguistiques complexes d pendances distance etc S ils visent avoir la couverture la plus large possible il faut entendre cet objectif comme la capacit traiter un un la plupart des probl mes syntaxiques d une langue et non comme la capacit traiter l enchev trement de ces probl mes dans des phrases authentiques longues et complexes qui peuvent m me violer certaines r gles grammaticales Les parseurs de ces ob diences ne semblent pas dans l imm diat utilisables sur de vastes corpus notre connaissance il n existe d ailleurs pas de corpus annot selon leurs principes Par opposition aux parseurs avant tout destin s tester des formalismes syntaxiques raffin s l objectif des analyseurs qui sont voqu s dans ce chapitre est le parsage robuste Il s agit pour repr
101. AGE AU FIL DU TEMPS CORPUS ET DIACHRONIE 26 DEFINITIONS ET ENJEUX L coulement du temps structure de nombreux corpus sans qu ils permettent pour autant la saisie de l volution du langage La volont de cr er des dictionnaires reposant sur l usage effectif et son changement a par exemple contribu la cr ation de corpus lectroniques int grant des donn es de diff rentes p riodes C est le cas du Tr sor de la Langue Fran aise INaLF CNRS qui s appuie sur une base de textes de plus de 160 millions de mots s talant du XVI au XX si cle Toutefois de tels corpus ne constituent pas forc ment des corpus adapt s aux tudes diachroniques Le registre litt raire y domine au d triment d autres registres La dimension temporelle structure galement d autres corpus encore plus sp cialis s Corpus mono metteur c est le cas de Mitterrand1 dont les textes s gr nent sur le premier septennat Corpus pluri locuteurs c est le cas des r solutions g n rales des quatre grandes conf d rations syndicales ouvri res frangaises tudi es entre 1971 et 1976 Bergounioux et al 1982 Ces corpus sont de la m me mani re restreints un registre ou des variations sur un m me registre entretien interview et discours de circonstance pour Mitterrand r solutions de congr s pour Bergounioux et al 1982 Le temps intervient mais on ne peut saisir son r le que sous un angle limit une th matique un domaine o
102. ASILI R PAZIENZA M VELARDI P Semi automatic extraction of linguistic information for syntactic disambiguation Applied Artificial Intelligence 7 1993 339 364 BASILI R PAZIENZA M VELARDI P What can be learned from raw texts Machine Translation 8 1993 147 173 BECUE M BOLASCO S Les quasi segments pour une classification automatique des r ponses ouvertes in JADT Montpellier 1993 310 325 BENSCH P A SAVITCH W J An occurrence based model of word categorization Annals of Mathematics and Artificial Intelligence 14 1995 1 16 BENzECRI J P L analyse des correspondances Dunod 1973 BENZECRI J P La taxinomie Dunod 1973 BERGOUNIOUX A LAUNAY M F MOURIAUX R SUEUR J P TOURNIER M La parole syndicale Presses Universitaires de France Paris 1982 BIBER D Dimensions of register variation a cross linguistic comparison Cambridge University Press Cambridge 1995 BIBER D Representativeness in corpus design Linguistica Computazionale IX X 1994 377 408 BIBER D Variation accross speech and writing Cambridge University Press Cambridge 1988 BIBER D FINEGAN E Intra textual variation within medical research articles in Corpus based research into language Ooostdijk N de Haan P Rodopi Amsterdam 1994 201 222 BiBER D FINEGAN E ATKINSON D ARCHER and its challenges compiling and exploring a representative corpus
103. Analysis of Immunology Sublanguage Kluwer Academic Publisher Dordrecht 1989 HATZIVASSILOGLOU V McKeown K Towards the automatic identification of scales Clustering adjecives according to meaning in ACL 93 Columbus USA june 1993 172 182 HEARST M A Automatic acquisition of hyponyms from large text corpora in COLING 92 Nantes 1992 539 545 HERDAN G Quantitative Linguistics Butterworths Londres 1964 HERZOG O ROLLINGER C eds Text Understanding in LILOG Springer Verlag Heidelberg 1991 HINDLE D A parser for text corpora in Computational Approaches to the Lexicon Atkins B Zampolli A Oxford University Press Oxford 1994 103 152 HiNDLE D Noun classification from predicate argument structures in ACL 83 Berkeley USA 1990 268 275 HOLMES D 1 The analysis of literary style A review J R Statistic Soc 148 Part 4 1985 328 341 HUMPHREY B L LINDBERG D A Building the Unified Medical Language System in Proceedings of the 6th Annual SCAMC IEEE Washington 1989 475 480 IDE N SPERBERG MCQUEEN C M The Text Encoding Initiative its history goals and future development Computers and the Humanities 29 1995 5 16 IDE N V RONIS J eds The Text Encoding Initiative Background and context Kluwer Academic Publishers Dordrecht 1995 IDE N V RONIS J Encoding dictionaries Computers and the Humanities 29 1995 167 180
104. BAUM S The tagset for the International Corpus of English in Corpus Based Computational Linguistics Souter C Atwell E Rodopi Amsterdam 1993 11 24 GREENBAUM S YiBIN Tagging the British ICE corpus English word classes Corpus based research into language Ooostdijk N de Haan P Rodopi Amsterdam 1994 33 46 GREENSTEIN D BURNARD L Speaking with one voice Encoding standards and the prospects for an integrated approach to computing in history Computers and the Humanities 29 1995 137 148 GREFENSTETTE G Automatic thesaurus generation from raw text using knowledge poor techniques in Proceedings of the 9th Conference on Oxford English dictionary Oxford 1993 GREFENSTETTE G Corpus derived first second and third order affinities in EURALEX Amsterdam 1994 GREFENSTETTE G Evaluation techniques for automatic semantic extraction Comparing syntactic and window based approaches in Corpus Processing for Lexical Acquisition Boguraev B Pustejovsky J The MIT Press Cambridge Massachusetts 1996 205 216 GRISHMAN R KITTREDGE R eds Analyzing Language in Restricted Domains Sublanguage Description and Processing Lawrence Erlbaum Ass Hillsdale 1986 GRISHMAN R STERLING J Generalizing automatically generated selectional patterns in COLING 94 Kyoto 1992 tm 3 742 747 GROSS G Classes d objets et description des verbes Langages 115 1994 15 30
105. BENO T HABERT ADELINE NAZARENKO ANDR SALEM Les linguistiques de corpus REMERCIEMENTS Ce livre doit beaucoup aux laboratoires dans lesquels nous avons travaill l Equipe de Linguistique et Informatique ELI de l Ecole Normale Sup rieure de Fontenay St Cloud Equipe d Accueil 463 le Laboratoire d Informatique de Paris Nord URA 1507 CNRS et Universit Paris 13 UPRES SYLED EA 2290 Universit Sorbonne nouvelle Paris 3 et l UMR 9952 Lexicom trie et Textes Politiques CNRS INaLF et ENS de Fontenay St Cloud Nous remercions particuli rement Christiane Marchello Nizia ELI pour son appui chaleureux Merci ceux qui ont compl t notre documentation et notre information Andr e Borillo Jacques Bouaud Anne Daladier Fernande Dupuis Marc El B ze Fabrice Issac Sylvain Kahane Dominique Labb Ludovic Lebart Monique Lemieux Elie Naulleau Jean Marie Marandin et Jean V ronis Merci aussi Pierrette Habert et Serge Heiden pour leur soutien technique et leur conseils Merci enfin nos coll gues et proches qui nous ont relus avec une g n rosit vigilante Sophie Aslanid s Didier Bourigault C cile Fabre Serge Fleury Helka Folch Christian Jacquemin Lucie Langlois Isabelle Moulinier Christiane Marchello Nizia Sandrine Oriez Marie Paule P ry Woodley et Pierre Zweigenbaum INTRODUCTION 1 LE REGAIN D INTERET POUR LES CORPUS De vastes corpus de textes lectroniques tiquet s
106. Ce nouveau contexte permet surtout d examiner trois questions Tout d abord les nonc s d un domaine particulier qui rel vent donc pour Harris d un sous langage pr sentent ils vraiment des particularit s syntaxiques par rapport la langue dite g n rale la fois en ce qui concerne les constructions rencontr es et les types de contraintes syntaxiques des entr es lexicales L existence de vastes corpus de r f rence au sens donn en section 1 autorise des tudes contrastives nouvelles sur ce point En second lieu Harris s appuyait sur un informateur du domaine et utilisait les cat gories d entit s fournies par cet informateur comme point de d part pour d terminer les classes d op randes en fonction des op rateurs utilis s Cependant une partie des recherches actuelles en TALN qui visent d gager partir d une analyse syntaxique les op rateurs et leurs arguments au sein d un domaine donn essaient souvent de le faire sans ce recours un premier d grossissage conceptuel du domaine L conomie de ce recours s explique en partie par la difficult d obtenir ce type de renseignements on dispose parfois de textes d un domaine sp cialis mais pas forc ment d informateurs comp tents dans ce domaine Existe aussi la conviction qu il 223 Les travaux plus r cents autour de Gaston Gross sur les classes d objets Gross 1994 Le Pesant 1994 nous semblent galement loign s de l optique ouverte par l hy
107. IONNELS esse eee ene nene enne 156 38 NORMALISER UN CORPUS eee eene esee ten tenes eene esee ees 157 38 1 REPRESENTATIONS LOGIQUES SGML eee 157 38 2 LES TYPES DE TEXTES De eee ted cea e ee a ee det 159 39 DOCUMENTER UN CORDPUG ccccccsssssscccsescssssecccescssecececescssssccesecessccnceccsesscecsecesens 160 39 1 ORIGINE ET HISTOIRE DU CORPUS c 3 o zer rimes HEU ecc E E Y DE ELE EE tt 161 39 2 JURISPRUDENCE D ANNOTA TION tte EX ev Fe te ERE DE XH Eo FCU C C ea 161 40 CONTRAINTES ET CONDITIONS INSTITUTIONNELLES seems 162 40 1 ASSISES INSTITUTIONNELLES EXE EE FD PE LETRA 162 40 2 PROBLEMES JURIDIQUES esse eee E R AEREE E E 163 41 NETTOYAGE ET sccccccsssssccscceccssscescccssssssesececesessesecesesens 165 42 SEGMENTATION Ets aet teretere teri Sa iret e ees seva ee Lo aeo EEE EErEE Vas re eiu e ea Ess 166 42 1 REPERER LES UNITES cscccssessssssssesscenscensceasccanccasccunceeaccuscecuscessceascesseesscesseeesecesoess 166 42 2 TECHNIQUES n a itecto nte dece RE 167 42 3 DIBFICULTES TTC bare nine tentes 168 43 TIQUETAGE MORPHO SYNTAXIQUE ccssssscssssccsssscccssssccssssccesssecesssscesessescees 169 43 1 TAUX D AMBIGULLE 5 2 e ertet tn eer t ETE ER 169 43 2 DESAMBIGUISATION PAR REGLES eeeeeeeeeen
108. LTIDIMENSIONNELLES ss eee eee eee eee eee eee tosta enata 206 50 1 CLASSER LES UNITES AEE S EA P 206 50 1 1 Classification ascendante hi rarchique 207 50 1 2 Classifications de formes ses 208 50 1 3 Classifications descendantes ss 209 50 2 L APPROCHE FAGTORIEL E fs rh reste enc einer ee one Ce Pe tea PO do 209 51 ARTICULER DES CONSTATS SUR DES UNITES DIFFERENTES 212 51 1 ARTICULER UNITES ISOLEES ET SEQUENCES D UNITES eene ener 212 51 2 ARTICULER DIFFERENTS SYSTEMES D UNITES sise nemen eee nennen eene 213 52 TEMPS LEXICAL tasas enata sensa sensns ta sensns enean asini 215 Bibliographie 233 52 1 1 Accroissements sp cifiques 216 52 1 2 Formes chrono homog nes essere nennen nennen 218 53 CONCLUSION or 219 DAS BILAN erc RE 221 54 1 AVANCEES nn te nent Re enr e RUE Cs 221 54 2 LIMITES e ec Iu AL euis a E EIU 222 54 3 QUESTIONNEMENTS tintin nee ee exce terne 223 55 PERSPECTIVES scene SHEER TREE USD O SISTONE men 223 55 1 MENACES E uen 224 55 2 ESPOIRS teret meer ree ener n eR e reae en nr nee ess 225 55 3 CONDITIONS de Le ert ea De teer ted dacs Mantes ee ri rer te rtr E arrete eodd
109. Le rappel est la proportion des r ponses pertinentes extraites par rapport au total des r ponses pertinentes possibles Le silence correspond alors les r ponses pertinentes non extraites Le bruit renvoie aux informations non pertinentes produites Par difficult trouver une expression satisfaisante nous parlons parfois d annotation manuelle par opposition une annotation automatique c est dire effectu e par un programme L annotation n est jamais vraiment manuelle des programmes sp cifiques ont pour objectif de faciliter le travail de la personne qui annote l annotateur ou l analyste voire de v rifier partiellement la coh rence des informations qu elle fournit Inversement l annotation automatique est souvent pr c d e ou suivie d interventions humaines Annoter revient regrouper sous un m me chef un m me type des r alisations linguistiques distinctes ses occurrences C est le lemme pour les flexions d un mot grand pour grand grands grande grandes peut s agir d une classe plus abstraite Les suites de mots e pr sident de la r publique et le livre des Hois sont deux occurrences du type syntagme nominal tout comme je ici et maintenant constituent trois occurrences du type embrayeur Signalons enfin que nous employons souvent le mot ambiguit pour des situations o un locuteur n en per oit pas Le fait de dire que pomme de terre peut ventuellement tre ambigu dans sort les pommes de terre pa
110. NTS SYNTAXIQUES sense 53 15 1 LE RENOUVEAU DES ETUDES LINGUISTIQUES DE LA PHRASEOLOGIE 53 15 2 LA FLEXIBILITE EN CORPUS D EXPRESSIONS POLYLEXICALES esee 55 15 2 1 Les variations en corpus d expressions toutes faites sess 55 15 2 2 Mesurer la flexibilit stie e 56 1x23 Lose nates nd Sd te 57 15 3 LA VARIATION DE TERMES EN LANGUE DE SPECIALITE eee 58 15 3 1 Une repr sentation syntaxique contrainte des termes osses 59 15 3 2 Engendrer des variantes possibles de termes 60 15 3 3 Rep rage des variations syntaxiques engendr es 63 15 3 4 Vers une grammaire de la variation terminologique 63 15 4 LA RECHERCHE DE CANDIDATS TERMES 64 15 4 1 Isoler les groupes d allure d nominative ss 65 15 4 2 Le corpus comme 66 15 4 3 Vers une grammaire des d nominations complexes possibles 67 15 5 ENJEUX PRATIQUES ET THEORIQUES sus 68 15 5 1 Am liorer la description lexicographique ss 68 15 5 2 Distinguer variantes et variations 69 Bibliographie 229 15 5 3 Importance quantitative de la variation ss 69 15 5 4 Caract riser la flexibilit normale essen 70 16 UTILISER DES PARSEURS ET DES CORPUS ARBORES e eeee eerte 70 16 1 UTILISER DES PARSEURS seen nnne nnns EEEE
111. Net la synonymie est contextuelle deux expressions sont synonymes dans un contexte linguistique C si la substitution de l une par l autre dans C ne modifie pas la valeur de v rit Par exemple le fait de substituer plank board modifie rarement la valeur de v rit dans des contextes li s la charpenterie mais cette substitution serait totalement inappropri e dans d autres contextes de board ibid p 6 20 1 2 Mettre les sens en r seau Si le synset ensemble de synonymes dans la terminologie de WordNet sert d identifiant pour un sens la liste des mots qui le composent ne donne qu une vue tr s partielle du concept sous jacent Les liens que ce synset entretient avec d autres synsets la compl tent WordNet est con u comme un r seau lexical Les synsets en sont les n uds Ils sont reli s entre eux par des relations d hyponymie d antonymie de m ronymie d implication ou de d rivation morphologique La figure ci dessous montre de mani re simplifi e comment le premier sens de credit cr dit se situe par rapport aux synsets voisins c est un hyponyme de asset avoir un hyperonyme lointain 9 de credit card carte de cr dit un antonyme de cash argent comptant Les relations qui structurent WordNet n ont pas toutes le m me statut 131 WordNet n existant pas ce jour pour le fran ais tous les exemples sont emprunt s l anglais Les diff rents sens de credit distingu s ici
112. VIII 102 DEUXIEME PARTIE c est surtout quelque chose dont on parle ou qui donne des informations say En fait cette rubrique des verbes op rateurs donne une premi re indication synth tique des contextes d emplois du nom vedette Le fait que age g de figure parmi les verbes associ s year explique la pr sence surprenante premi re vue des noms de personnes women child patient etc aux c t s des termes de dur e day week month etc C est semble t il l importance des contextes du type woman aged of thirty years qui rapproche woman et year 23 1 5 Les expressions La liste des expressions nominales les plus fr quentes dans lesquelles entre le mot vedette donne une autre indication contextuelle Comme la pr c dente cette rubrique introduite par Exp permet par exemple de contraster les emplois de growth dans la langue m dicale et dans la presse financi re Dans les deux cas on parle du rythme de la croissance growth rate growth retardation rapid growth mais l objet de la croissance diff re tumor body dans un cas profit dans l autre A chaque expression sont associ es une ou plusieurs expressions voisines titre de documentation G Grefenstette souligne ainsi l cart d emploi d une expression commune aux deux corpus growth rate dans un cas growth rate est associ growth retardation tandis que dans l autre corpus le taux de croissance est associ des consid rations de profit et d
113. a Computational Linguistics 19 1 1993 1 24 CHURCH K GALE W Concordance for Parallel Texts in Proceedings of the 7 Annual Conference of the UW Centre for the New Oxford English Dictionary and Text Research Oxford 1991 COVER R C ROBINSON P M W Encoding textual criticism Computers and the Humanities 29 1995 123 136 COWIE J GUTHRIE J GUTHRIE L Lexical disambiguation using simulated annealing in COLING 92 Nantes 1992 359 365 CUTTING D KUPIEC J PEDERSEN J SIBUN P A practical part of speech tagger in ANLP 92 1992 DAGAN l ITAI A SCHWALL U Two languages are more informative than one in ACL 9f Berkeley USA 1991 130 137 DAILLE B Rep rage et extraction de terminologie par une approche mixte statistique et linguistique TAL 36 1 2 1995 101 118 DAILLE B Study and implementation of combined techniques for automatic extraction of terminology in Actes The Balancing Act Combining Symbolic and Statistical Approaches to Language Las Cruces USA 1995 29 36 DALADIER A Aspects constructifs des grammaires de Harris Langages 99 1990 57 84 DUNLOP D Practical considerations in the use of TEI headers in large corpora Computers and the Humanities 29 1995 85 98 DUPUIS F LEMIEUX M GOSSELIN D Cons quences de la sous sp cification des traits de Agr dans l identification de Pro Language Variation and Change 3 1992 275 299
114. a distance s mantique se pose dans les m mes termes 112 DEUXIEME PARTIE Traditionnellement la distance de deux noeuds a et b dans un r seau est mesur e par la longueur du chemin le plus court entre a et b Malheureusement la taille de WordNet cf chapitre Ill section 3 1 3 rend cette approche impraticable du fait du nombre de chemins explorer pour calculer la distance entre deux noeuds Pour simplifier on peut donc comme le font E Agirre et G Rigau 1996 ou P Resnik 1995b ne consid rer que la partie hi rarchique de WordNet Soit C l ensemble des concepts dans une taxonomie organis e autour de la relation EST UNE SORTE DE IS A telle qu un noeud puisse h riter de plusieurs p res Intuitivement on peut consid rer que deux concepts sont d autant plus similaires qu ils partagent plus d information cette information tant indiqu e dans la taxonomie par le plus petit concept qui les domine tous les deux La m thode reposant sur le d compte des ar tes mesure cela indirectement si le chemin le plus court entre deux noeuds est tout de m me long cela signifie qu il faut remonter haut dans la hi rarchie jusqu des noeuds assez abstraits pour trouver cet anc tre commun Par exemple dans WordNet NICKEL pi ce de 10 cents en nickel et DIME pi ce de 10 cents sont tous les deux domin s par COIN pi ce alors que la classe la plus sp cifique laquelle appartiennent la fois NICKEL et CREDIT CARD
115. a langue envisag e en elle m me et pour elle m me Saussure I Adj 1832 1 Relatif la linguistique Etudes linguistiques Th ories linguistiques gt distributionnalisme g n ratif grammaire g n rative structuralisme 2 Propre la langue envisag du point de vue de la langue Fait linguistique gt langagier Expression linguistique Signe syst me changement linguistique Communaut g ographie linguistique Politique linguistique 3 Relatif l apprentissage des langues trang res Vacances s jours linguistiques l tranger Bain linguistique Cette entr e de dictionnaire fournit au lecteur humain de multiples indices lui permettant de classer les informations le gras signale les renvois d autres entr es les caract res droits les d finitions et les renseignements techniques datation cat gorie syntaxique Les informations occupent une place relativement fixe la transcription phon tique est au tout d but entre crochets les datations apr s la cat gorie ou en d but de d finition C est une interpr tation qui s appuie sur la tradition lexicographique et les conventions propres chaque dictionnaire Les italiques servent la fois l tymon linguiste et aux expressions utilisant le mot dans un de ses sens avec des mises en facteur signe syst me changement linguistique Les outils d annotion pour pouvoir utiliser un tel dictionnaire doivent disposer d u
116. able une unit polylexicale une indication de domaine analyse de donn es math matiques statistiques et encore moins s en servir pour n utiliser que les unit s pro pros au domaine d autant que les domaines sont perm ables la linguistique peut fron l expression analyse des donn es dans ses deux acceptions J P Chanod et P Tapanainen 1995b les CHA r cis ment partir d une m me iras et d un m me analyseur morphologique Ils donnent l avantage l approche par r gles 550 Ces 8 formes sont la le l les en un une a Les chiffres de J P Chanod et P Tapanainen 1995b concordent globalement 170 58 25 96 11 96 1 2 96 2 96 0 5 96 0 1 96 Plus de la moiti des mots ne soient pas ambigus Le nombre de mots pouvant relever de 4 8 tiquettes est tr s restreint 4 4 dans le premier cas et 5 6 dans le second Le taux moyen d ambiguit par mot se monte alors 1 72 pour le premier corpus et 1 81 pour le 43 2 D sambiguisation par r gles Certaines suites de cat gories sont illicites Par exemple deux tiquettes sont possibles pour e d terminant ou pronom et pour guide verbe ou nom Cependant toute la combinatoire n est pas r alisable dans la s quence e guide Des quatre possibilit s seules sont actualisables Pronom verbe il le guide et d terminant nom le guide commence son expos On peut donc crire une premi re r gle d
117. able 5 alors que les travaux de Harris sur les sous langages aboutissent des grammaires s mantiques qui associent aux diff rentes positions de patrons syntaxiques des classes s mantiques restreintes L Analyse Automatique du Discours AAD d velopp e par Michel P cheux P cheux 1969 Maingueneau 1991 au d but des ann es soixante dix a utilis une m thode de normalisation manuelle des nonc s elle aussi inspir e de l analyse distributionnelle et assortie d un traitement informatique L accent tait mis cependant sur la langue g n rale ou du moins sur des domaines non techniques discours politique Les recherches contemporaines sur les sous langages ne sont pas cit es Aujourd hui comme le chapitre Il l a montr l existence d analyseurs robustes rend partiellement possible l application grande chelle de la m thodologie harrissienne On peut attacher automatiquement de vastes documents des arbres syntaxiques y compris en utilisant des m thodes d apprentissage pour adapter le parseur certains ph nom nes propres aux documents en cause sous cat gorisation des adjectifs attachements pr positionnels Les arbres syntaxiques peuvent tre simplifi s pour obtenir des phrases l mentaires Des op rations de r criture d arbres peuvent en fonction du mat riel lexical de l arbre transformer encore ces arbres passage du passif l actif etc pour faciliter la mise en vidence de r gularit s
118. achement du groupe pr positionnel par des r gles ad hoc 1994 gt En g n ral les relations de cooccurrence ne sont pas orient es et l ordre dans lequel figurent les mots est indiff rent On peut toutefois proposer des m thodes de pond ration des analyses concurrentes gas d ambiguit syntaxique Voir par exemple Grishman et 1994 N on seulement les associations syntaxiques refl tent une information fonctionnelle ce que ne font pas les paires rapproch es sur une base graphique mais la m thode extraction de ces associations syntaxiques est aussi plus efficace le nombre d associations utiles d tect es tant consid rablement plus lev que ce qu on obtient par des m thodes reposant sur une distance graphique Basili et al 1993a p 154 L analyse syntaxique fonctionne en effet comme un premier filtre 186 plus souvent statistique on ne retient comme cooccurrents que les mots figurant anormalement souvent dans les m mes contextes 6 45 1 2 Calculer des similarit s Une fois d finie la notion de contexte on peut calculer pour un mot l ensemble de ses cooccurrents sa distribution Cette distribution sert alors repr senter les mots et permet de les comparer entre eux C est l approche suivie par G Grefenstette et d crite au chapitre IV Concr tement cela signifie qu un mot se repr sente par un vecteur sur l ensemble des cooccurrents possibles sur l ensemble des mots
119. ad a letter from you Cette alternance et ses conditions ont largement t tudi es Les donn es d Helsinki ont permis de montrer une tendance g n rale la progression de la construction z ro entre 1350 et 1710 Finegan et Biber 1995 reprennent l tude de cette alternance en utilisant Archer sur la p riode allant de 1650 1990 Mais ils se restreignent trois genres les lettres les sermons et les articles m dicaux Toutes p riodes confondues la r partition par construction et par registre est la suivante tat f Paradoxalement les r sultats pour les articles m dicaux et les sermons vont a contrecourant de la tendance mise en vidence pour Helsinki Au contraire ces deux registres favorisent contin ment et de plus en plus nettement la construction avec that par rapport la construction z ro Finegan et Biber interpr tent ce d calage par une progression plus g n rale de ces registres vers une forme plus cultiv e literate et moins orale Les lettres t moignent d une volution comparable mais plus att nu e avec un tonnant renversement de tendance pour la p riode 1900 1949 o la construction z ro domine Ces volutions d cal es poussent multiplier les points de vue dans l analyse globale de changements linguistiques Finegan et Biber examinent d ailleurs les attirances de certains des verbes majeurs pour chacune de ces deux constructions toutes p riodes confondues 193 Fi
120. age and Speech Klein E F Veltman Springer Verlag 1991 1 7 LiGOzAT G Repr sentation des connaissances et linguistique Armand Colin Paris 1994 MAINGUENEAU D L analyse du discours introduction aux lectures de l archive Hachette Paris 1991 MAIR C Changing patterns of complementation and concomitant grammaticalisation of the verb help in present day british english in The verb in contemporary English Theory and description Aarts B Meyer C F Cambridge University Press Cambridge 1995 258 271 MAIR C Is see becoming a conjunction the study of grammaticalisation as a meeting ground for corpus linguistics and grammatical theory in Creating and using English language corpora Fries U Tottie G Schneider P Rodopi Amsterdam 1994 127 137 MARANDIN J M CoRI M Grammaires d arbres polychromes TAL 34 1 1993 101 132 MARANDIN J M Analyseurs syntaxiques Equivoques et probl mes TAL 34 1 1993 5 34 MARCHELLO NIZIA C L volution du fran ais ordre des mots d monstratifs accent tonique Armand Colin Paris 1995 MARCUS M P HiNDLE D FLECK M M D theory Talking about talking about trees in ACL 83 1983 129 136 MARCUS M SANTORINI B MARCINKIEWICZ M A Building a large annotated corpus of english The Penn Treebank Computational Linguistics 19 2 1993 313 330 MATHIEU COLAS M Les mots traits d union Probl mes de lexicogr
121. ail de M Sussna montre le parti qu on peut tirer d un r seau comme WordNet La comparaison avec d autres exp riences montre cependant que le choix de la mesure de parent s mantique le type des relations prises en compte notamment et le poids des conditions d exp rimentation le type de corpus par exemple ont une grande influence sur les r sultats De la d sambiguisation lexicale la recherche documentaire un pas important reste franchir Des questions plus fondamentales se posent par ailleurs Elles concernent notamment la finesse des distinctions de sens prendre en compte et la couverture des bases lexicales utilis es 7 Pour une fen tre de 10 mots et en ne retenant que 2 sens par mot il faut d j calculer 1 000 distances binaires par exemple Et si l on consid re la finesse des distinctions de sens faites dans WordNet et la s lection des noms retenus pour indexer un document il faut compter avec beaucoup plus de sens par mot A titre d indication dans la liste f donn e ci dessus des noms d crivant le contenu d un article de presse les noms comportent en moyenne 3 7 sens 116 DEUXIEME PARTIE 24 3 1 La granularit de la description lexicale L tiquetage d crit par M Sussna est un tiquetage fin qui exploite les distinctions de sens de WordNet dans ce qu elles ont de plus riche Or on a vu au chapitre que d autres niveaux de distinctions de sens sont envisageables Dans le cadre de la recherche docume
122. ailleurs plus aux exigences de taille qui peuvent tre les n tres aujourd hui Les corpus comparables ibid p 12 constituent des s lections de textes similaires dans plus d un langage ou dans plusieurs vari t s d un langage On peut consid rer LOB et Brown comme des corpus comparables Tous deux regroupent des textes provenant des m mes genres et de la m me ann e 1961 mais ils rel vent pour le premier de l anglais pour le second de l am ricain Les corpus sp cialis s sont limit s une situation de communication ou un domaine Parmi ces corpus on trouve les ensembles relevant de sous langages que l on trouve dans les domaines scientifiques et techniques cf section 3 Les corpus ou collections parall les sont constitu s d un ou de plusieurs documents traduit s dans une ou plusieurs langues cf chapitre VI L exemple canonique est le Hansard les d bats du Parlement canadien en anglais et en francais Beaucoup de corpus constituent des ressources achev es d s lors immuables on n y ajoute plus rien mais on peut en extraire ventuellement des sous corpus l oral dans BNC par exemple ou une diachronie restreinte dans Archer l inverse avec la possibilit de capter en continu des donn es dans certains secteurs les fichiers de composition de grands journaux comme le Times par exemple est apparue la notion de corpus de suiv monitor corpus Sinclair 1996 p 4 Par d finition un tel
123. ais pas gene 9 Plus fondamentalement les r sultats d pendent de la qualit de l analyse syntaxique G Grefenstette 1993 donne l exemple curieux de human cell et year period associ s l expression cancer cell La d composition des groupes nominaux du type 3 year period est mal reconnue Comme le syst me ne rep re pas que 3 quantifie le seul year il d compose 3 year period en 3 year period au lieu de 8 year period l analyse donc 3 year period et 3 human cells de la m me mani re et cr e un rapprochement artificiel entre les deux expressions Les erreurs d analyse bruitent les r sultats L exemple cit est suffisamment surprenant pour attirer l attention du lexicographe mais certaines erreurs de rattachement peuvent cr er des rapprochements indus et n anmoins plausibles qui peuvent passer inapercus La fiabilit de l analyse syntaxique est donc essentielle pour ce type de traitement C est la raison pour laquelle SEXTANT ne prend encore en compte que les relations de d pendance binaire dans le calcul des contextes et non les syntagmes nominaux de taile sup rieure pour lesquels les risques d erreur sont multipli s Le point essentiel demeure les contraintes d une approche lexicographique consistant inf rer des propri t s en langue partir des observations faites sur corpus c est dire de ce qui est attest Cette approche repose sur l hypoth se que le corpus est un reflet int ressant de la man
124. al hyperthermique effort repos Trait m dicalement il a d j pr sent plusieurs reprises des pisodes douloureux pr cordiaux d effort et de repos Depuis cette poque on ne note aucune r cidive d angor jusqu il y a 8 jours o il a pr sent un pisode de pr cordialgie survenant l effort durant environ 45 minutes sans irradiation On notait par ailleurs la survenue d un pisode hyperthermique probablement en rapport avec une mise en place prolong e d une voie veineuse Le nombre de contextes d un nom est donc le nombre de relations de d pendance dans lesquelles il entre C est sur la base d un corpus vu comme un ensemble de contextes que sont calcul es toutes les informations syntagmatiques et paradigmatiques tudi es plus haut Les relations syntagmatiques sont donn es par les contextes eux m mes les rubriques des verbes op rateurs et des expressions regroupent respectivement les contextes verbaux et nominaux du nom vedette Le logiciel se contente de trier les listes par ordre de fr quence et d liminer les contextes trop peu fr quents ou syntaxiquement ambigus Les relations paradigmatiques sont calcul es en comparant la liste des contextes de deux entit s Dans le cas du voisinage des noms l intuition sous jacente est que deux noms sont voisins s ils figurent dans les m mes contextes ou s ils partagent beaucoup de contextes Par exemple supposer qu on obtienne pour symptomatologie et crise l
125. alement optionnelles une d finition un trait de domaine des indications concernant le niveau de langue ou la modernit du mot une liste de synonymes ou de renvois analogiques des antonymes des expressions ou tournures dans lesquelles entre le mot vedette des phrases ou citations comme exemples d emploi ou m me une ou plusieurs traductions possibles dans une autre langue La liste des sens pour un mot donn varie d un dictionnaire l autre leur description aussi On a souvent soulign le nombre des d finitions circulaires o deux ou plusieurs mots se d finissent les uns par les autres ainsi que le manque de coh rence dans la forme m me des d finitions ou l ordre des indications Il faut rappeler par ailleurs que les dictionnaires sont destin s des locuteurs ayant d j une bonne ma trise de la langue dont ils ne fournissent qu une description parcellaire Il sont donc a priori peu adapt s aux traitements automatiques 110 Nous donnons un exemple en anglais pour permettre la comparaison des informations donn es par les diff rentes ressources lexicales que nous voquons dans ce chapitre certaines de ces ressources WordNet en particulier n tant disponible que pour l anglais On pourra ne cette entr e avec celle d un dictionnaire fran ais traditionnel donn e au chapitre VII section 5 Les dictionnaires bilingues entrent en effet dans cette liste Ressources lexicales TI Pourtant diverses exp riences ont
126. alement fonction de la traduction des parties de cette unit et ce jusqu au niveau d un ensemble fini d quivalences l mentaires C est effectivement ce principe qui rend possible la d marche d alignement Mais en m me temps comme nous l avons vu la r solution de l alignement peut tre plus ou moins grande des correspondances des grandes parties du texte et des paragraphes s accommodent de d calages un niveau plus fin c est le cas du troisi me exemple de la section 1 o une partie de la phrase source n a pas de correspondant traductionnel Comme l indiquent P Isabelle et S Warwick Amstrong ibid p 302 un syst me d alignement fin permettrait de rep rer les erreurs de traduction li s aux faux amis c est dire les cas o un mot est traduit par un mot trompeusement proche comme eventually pour ventuellement Les textes align s permettent galement d examiner les quivalences entre s quences non compositionnelles les d calages localis s qu elles repr sentent sont contrebalanc s par l alignement des structures plus vastes dans lesquelles elles figurent Les textes align s permettent en ce sens une r partition relativement harmonieuse des t ches entre machine et traducteur L alignement produit un d grossissage des mises en correspondance En fonction de la requ te qu il effectue le traducteur puise dans les r ponses et s appuie sur les blocs align s pour examiner les parall les ou les
127. alificatif relationnel coordonnant adjectif relationnel v qualificatif relationnel permet de chercher les noms suivis de deux adjectifs coordonn s soit relationnels soit qualificatifs ou relationnels c est ce qu indique la disjonction v De tels environnements facilitent le n cessaire retour au contexte qui permet d viter les commentaires oiseux de simples artefacts Dans Enfants par exemple les r ponses fournies par les plus dipl m s paraissent plus riches en s quences du type adjectif qualificatif nom Ce r sultat attire l attention en francais moderne l ant position de l adjectif est une construction de langue tenue D ception l examen des s quences relevant de ce patron montre qu en fait il s agit souvent d adjectifs modifiant un nom ant pos L ambiguit est due l absence de marque de ponctuation entre les groupes nominaux dans des suites de formes comme temps libre argent 12 ENJEUX THEORIQUES 12 1 Le dit est le dire L examen des cat gories employ es et des segments de cat gories conduit s attacher aux patrons syntaxiques des nonc s voire aux genres textuels qui peuvent expliquer le recours tel type de construction D autres ph nom nes linguistiques s offrent une exploration m thodique et la quantification Nous esp rons avoir montr qu une analyse du dire du style du mode de parler tait tout aussi instructive qu une analyse du dit Le d tour par des cat gories ab
128. alors que cette proportion tombe 56 pour les textes qui ne rel vent pas de la fiction Malheureusement ils ne fournissent pas d hypoth ses sur les raisons de ce d calage Les textes informatifs comprennent ils des phrases plus longues des constructions sp cifiques par exemple propres des disciplines scientifiques ou techniques qui ne se rencontreraient pas dans les textes de fiction Selon A Voutilainen et J Heikkila 1994 p 194 le parseur ENCG donne l tiquette syntaxique correcte d un mot dans 96 des cas 85 environ des mots n ont plus qu une seule tiquette syntaxique la fin du processus d mondage mais avec un taux d erreur de 3 Les constats de Black et al 1993 p 2 5 voici quelques ann es sont plus s v res Les auteurs parlent de d plorable tat de l art ibid p 2 et citent trois exp riences peu encourageantes Dans la premi re trois des auteurs chercheurs IBM Watson ont proc d de mani re ind pendante en 1990 l valuation de quatre parseurs importants pour l anglais sur 35 phrases de 13 mots extraites au hasard de d p ches 2 millions de mots de l agence Associated Press Les avis concordaient un des syst mes analysait 60 96 des phrases correctement Les scores des trois autres parseurs allaient de 35 40 de r sultats justes Deuxi me exp rience en 1992 le concepteur d un parseur important a pris 50 phrases de 13 mots dans Brown en variant les genres choi
129. ans les recherches de Barkema comme dans celles de C Jacquemin une fois rep r es des variations autour de s quences de d part termes ou expressions toutes faites une des difficult s consiste isoler les variantes effectives celles qui fonctionnent comme des r alisations possibles pour les expressions consid r es En langue de sp cialit c est le recours un expert qui seul permet de trancher En langue g n rale il faut liminer les variations qui constituent des d figements intentionnels des jeux de langage et non des variantes des expressions de d part Ainsi les exemples 7 a not so cold war against Kaddafi et 9 a period of cold and hot civil war which ended with Hitler s invasion of Austria de Barkema semblent relativement loign s du sens originel qui renvoie au monde d apr s Yalta et qu voquent les exemples 5 6 et 11 par exemple 15 5 3 Importance quantitative de la variation C Jacquemin a valu les r sultats de l extraction de variations de descripteurs engendr es par m ta r gles Il a utilis l INIST un corpus de 125 000 mots dans le domaine de la physique de la m tallurgie et un sous ensemble du lexique terminologique PASCAL utilis l INIST pour l indexation manuelle 6 621 termes li s la physique et la chimie de la m tallurgie Les m ta r gles taient au nombre de 112 Les occurrences de termes et de leurs variantes couvrent en nombre de mots 7 de la surface du corpus
130. ant compte des particularit s d emploi des mots sinon un par un du moins par classes r duites s est accompagn e d un renouveau des tudes et des propositions de traitement des expressions dites fig es L tude des unit s polylexicales a conduit un certain nombre d auteurs Gazdar et al 1985 Abeill 1993 Habert et Jacquemin 1995 postuler que ces unit s rel vent des r gles g n rales de la grammaire mais 82 n en va bien s r pas de m me pour un dictionnaire lectronique Les fonctions de recherche permettent de s parer l entr e concern e et les points d acces Cf Abeill 1993 pour une pr sentation sur ce point dans trois formalismes contemporains Ressources lexicales 55 qu elles ob issent des contraintes suppl mentaires et qu en particulier elles sont moins flexibles que les syntagmes libres de m me cat gorie par exemple on ne peut dire en conservant le m me sens Zchampignon tr s atomique ou champignon atomique et dangereux etc Dans la logique de cette approche on peut examiner une s quence qui constitue ventuellement une unit polylexicale tudier les transformations syntaxiques dont elle est passible et en tirer un constat global sur le degr de figement de cette s quence L hypoth se est que plus une s quence est fig e c est dire moins elle accepte de transformations syntaxiques plus il y a de chances qu il s agisse d une unit polylexicale C est l hypo
131. ante ans et en genres journaux intimes fiction crits journalistiques m decine science d cisions de justice th tre sermons etc e BNC British National Corpus Ce corpus tiquet de 100 millions de mots m le oral 10 96 et crit textes de fiction partir de 1960 et textes informatifs partir de 1975 Les chantillons sont repr sentatifs d une grande diversit de situations langagi res mais sans organisation par th mes registres ou genres Burnard 1995 e Penn Treebank Ce corpus arbor Marcus et al 1993 comprend 4 millions de mots issus de sources diverses Manuels IBM Brown Department of Energy Department of Agriculture textes litt raires Library of America oral transcrit DARPA Air Travel Information System informations financi res Dow Jones 7 2 Corpus francais Nous ajoutons trois corpus fran ais annot s Ils associent langue sp cialis e Menelas et langue g n rale Mitterrand1 Enfants 1 5 ne sont pas dans le domaine public a aussi servi de banc d essai un certain nombre de m thodes d acquisition automatique ou Menelas Ce corpus tiquet et partiellement arbor de 84 839 occurrences et 6191 formes diff rentes a t rassembl pour le projet europ en Menelas Zweigenbaum 1994 de compr hension de comptes rendus d hospitalisation Il concerne les maladies II r unit un extrait de manuel m dical des comptes rendus d hospitalisat
132. antique prosodique critique Le niveau d annotation progresse r guli rement Les ann es quatre vingts ont t consacr es l tiquetage morpho syntaxique La d cennie actuelle voit se d velopper les corpus arbor s Les annotations s mantiques mergent et vont se r pandre Ensuite la taille de ces corpus ne cesse de cro tre Church et Mercer 1993 notent ce propos Il y a juste 10 ans le corpus de Brown avec son million de mots tait consid r comme un grand corpus Aujourd hui de nombreux centres de recherche disposent de donn es textuelles de millions voire de milliards de mots Le British National Corpus BNC comprend par exemple 100 millions de mots tiquet s Enfin ces ressources sont d sormais accessibles aux chercheurs universitaires pour des co ts raisonnables et ne sont plus r serv es aux seuls centres de recherche industriels ou aux organismes qui ont constitu et mis au point ces donn es et ces outils 1 Il s agit de Brown University USA Faut il voir dans cet engouement actuel pour les corpus le retour aux d buts de la linguistique structurale am ricaine des ann es cinquante Apr s l accent chomskyen sur la formalisation et l intuition du locuteur natif la revanche de l empirisme Le d couragement serait de mise s il y avait effectivement pi tinement et ressassement Or l tude des origines de ces travaux le montre ce sont les discontinuit s qui l emportent ainsi
133. aphie informatique Paris 1994 MCENERY T WILSON A Corpus Linguistics Edinburgh University Press Edinburgh 1996 MCMAHON J G SMITH F J Improving statistical language model performance with automatically generated word hierarchies Computational Linguistics 22 2 1996 217 247 McNaught J User needs for textual corpora in natural language processing Literary and Linguistic Computing 8 9 1993 227 234 MEL CUK Paraphrase et lexique dans la th orie linguistique sens texte Lexique 6 1988 13 54 MELBY A E TIF an electronic terminology interchange format Computers and the Humanities 29 1995 159 166 MELIS PUCHULU A Les adjectifs d nominaux des adjectifs de relation Lexique 10 1991 33 60 MERIALDO B Mod les probabilistes et tiquetage automatique TAL 36 1 2 1995 7 22 MERIALDO B Tagging english text with a probabilistic model Computational Linguistics 20 2 1994 155 171 MILKHEEV A FINCH S P A workbench for acquisition of ontological knowledge from natural language in Actes 9th Knowledge Acquisition for Knowledge Based Systems Workshop Banff 1995 MILLER G A Nouns in WordNet A lexical inheritance system in Five Papers on WordNet http Awww cogsci princeton edu wn sept 1997 1993 10 25 revised version 242 MILLER G A BECKWITH R FELLBAUM C GROSS D MILLER K J Introduction to WordNet An on line le
134. as cat gorie adverbe type n gation plusieurs transformations ont t utilis es e la r duction aux parties du discours traditionnelles dipl me tudes sup rieures ge 30 forme je cat gorie pronom forme sais cat gorie verbe forme pas cat gorie adverbe a e l limination des marques de personne genre et nombre pour les noms et les adjectifs forme ne cat gorie adverbe dipl me tudes sup rieures age 30 forme les cat gorie d terminant type d fini forme gens cat gorie nom forme sont cat gorie verbe mode indicatif temps pr sent forme goistes cat gorie adjectif e l ajout de la distinction entre adjectifs qualificatifs et adjectifs relationnels Certains adjectifs sont en troite correspondance avec des noms Leur Les corpus arbor s 29 tude compl te donc celle de la r partition de cette cat gorie majeure au sein du corpus Ce sont les adjectifs relationnels Rappelons leurs propri t s Melis Puchulu 1991 Ce sont des adjectifs d nominaux ils peuvent tre mis en rapport avec des s quences de nom comme dans lection pr sidentielle lection du pr sident ls ne sont pas gradables une carte tr s g ographique et ne peuvent tre employ es de mani re pr dicative cette carte est g ographique Dans une s quence d adjectifs post pos s ils sont imm diatement apr s le nom les adjectifs qualificat
135. ation lt cat gorie gt verbe lt cat gorie gt lt lemme gt tre lt lemme gt lt forme gt suis lt forme gt Cette derni re repr sentation destin e faciliter les changes et r utilisations de corpus repose sur des normes de balisage pr sent es au chapitre VI Ces conventions rendent explicite une repr sentation canonique de l tiquetage Les informations associ es un segment de texte peuvent en effet tre repr sent es par une structure d associations trait valeur du type de celles utilis es par les formalismes syntaxiques contemporains Nous notons ces structures entre accolades chaque trait tant s par par le signe de sa valeur cet endroit et par une virgule du trait suivant La ligne de Susanne donn e supra abstraction faite du champ notant l analyse syntaxique se note alors 25 On se reportera Abeill 1993 p 29 31 pour une pr sentation g n rale de ces structures et Ligozat 1994 ch 3 etch 5 pour un approfondissement formel 20 PREMIERE PARTIE r f rence N01 0010d cat gorie VVDv forme told lemme tell et celle de Mitterrand1 suis tre 11 se transcrit ainsi forme suis lemme tre cat gorie 1 1 Comme les noms des traits sont fournis on peut disposer les associations trait valeur dans n importe quel ordre La version suivante de la ligne de de Mitterrand1 est strictement quivalente la pr c dente cat gorie 1 1 forme suis lemme tre Enfants n
136. ation linguistique de corpus tal s dans le temps fournit d sormais la possibilit d tudier des corr lations extr mement complexes et pratiquement non perceptibles sans appui informatique entre des ph nom nes situ s aux diff rents niveaux de l analyse linguistique ainsi que leur volution au fil du temps C est le cas d une des hypoth ses majeures de C Marchello Nizia la corr lation de l volution des d monstratifs avec celle des pronoms personnels On souhaiterait alors tout naturellement d passer le recours des concordances et des comptages sur les seuls d monstratifs pour disposer de donn es chiffr es sur les deux syst mes et pouvoir examiner les corr lations si elles existent entre eux par le recours par exemple l analyse multi dimensionnelle cf chapitre IX On progresserait vers le test effectif de l hypoth se plus g n rale qui est pos e ibid p 168 les syst mes morphologiques des langues s organisent un niveau sup rieur en macro syst mes s mantiques et formels plus abstraits et ce sont ces m ta structures qui sont cause de certains des changements qui affectent les syst mes du niveau inf rieur imm diatement perceptibles eux Dans une optique proche les contraintes pesant sur l omission du sujet pronominal en moyen fran ais sont soumises dans Dupuis et al 1992 une analyse multivariable partir de l examen de la distribution du sujet dans 10 textes s chelonnant
137. ationnel Syndrome tr s douloureux est d ailleurs impossible ans ce domaine 30 PREMIERE PARTIE adverbe ponctuation Le programme d analyse des sur emplois et des sous emplois voqu supra permet d opposer les locuteurs selon leur niveau d tudes Ce sont les tiquettes pour chacun des jeux qui sont soumises examen mais aussi les suites d tiquettes les segments r p t s constitu s d tiquettes Une fois d gag es les tendances d emploi des tiquettes et de leurs enchainements des outils de filtrage permettent d extraire dans les textes cat goris s les s quences relevant des sch mas syntaxiques retenus 10 3 Une premi re opposition style nominal et style verbal L examen des proportions relatives d emploi des parties du discours selon les parties du corpus est instructive La proportion des noms et des adjectifs cro t avec le niveau de dipl me A l inverse le domaine du verbal verbes adverbes pronoms d croit avec l l vation du niveau d tudes Ce constat rejoint d ailleurs ceux faits sur plusieurs corpus pour d autres tudes socio linguistiques On notera la place minente toutes parties confondues du nom et des pr positions elle tient peut tre ce que le type de question pos e favorise des nonc s qui se pr sentent sous la forme d un groupe nominal Si l on s en tient aux parties du discours seules et qu on exclut les segments r p t s dans lesquels elles entrent les sa
138. ations sinistr s 187 45 2 PROJETER DES CATEGORIES SUR UN CORPUS cnrs see 188 45 2 1 Segmentation en unit s s mantiques nr 188 45 2 2 D sambigu sation s mantique ss 188 46 POURQUOI QUANTIFIER 00 0 ccssscssssscssssscsssscccssnsscesssscscsssccsesseccsssscessssessssssesses 191 46 1 TUDIER LA VARIATION DE TRAITS LINGUISTIQUES DANS UN CORPUS 191 46 2 REALISER DES TYPOLOGIES DE TEXTES ET DE DOCUMENTS users 192 46 3 DECELER DES CORRELATIONS ENTRE PHENOMENES eere eee nennen nennen 192 AT LES BT UH Doe 193 47 1 NORMES DE DEPOUILLEMENT eee I n 194 47 2 DECOMPTES AUTOMATISES tpe rete rede inter et ee E one YE ERE 195 47 3 INCIDENCE DE LA NORME SUR LES DECOMPTES see I e e eene nennen enne seens 196 47 4 EXEMPLE L ACCROISSEMENT DU VOCABULAIRE eere ere ene enne eene 197 48 MESURES DE RECURRENCE SUR L AXE SYNTAGMATIQUE ss 198 48 1 SEQUENCES D UNITES esse eene 198 48 2 QUASESEGMENTS 5 oett e e E rt een desc es eek I tre 200 48 3 COOECURRENCES TE 200 48 4 FILTRAGE DES RESULTATS rte ous cone the gua heh ed Reuben dae eee Ede ud 201 49 COMPARER DES DECOMPTES AU SEIN D UN CORPUS 201 49 1 ORGANISER LA PARTITION DU CORPU S a nnns ess sese essen e 203 49 2 R PERER LES FAITS SAIELANTS LR ve HD Fr HE EC EHE CER COE 204 50 APPROCHES MU
139. autions l gitimes comme apr s 1340 au moins en l tat actuel de notre documentation on ne trouve plus aucune trace de ce morph me cist en fran ais Marchello Nizia 1995 p 159 136 DEUXIEME PARTIE distordue dans les deux sens certains faits de tr s faible fr quence peuvent avoir chapp l attention et l inverse certaines caract ristiques dominantes peuvent tre sous estim es L oral est par ailleurs insaisissable sinon par les biais qu offrent certaines types d crits avec le risque que rappelle C Blanche Benveniste 1997 p 36 propos de la Grammaire des fautes d H Frei de confondre fautif et parl et de prendre les fautes typiques de scripteurs inexp riment s pour des reflets de l oral La d couverte de nouveaux documents de nouvelles ditions critiques peuvent en plus amener r valuer la place de certains ph nom nes 9 Les corpus permettent par contre d approcher les r gularit s centrales d un tat de langue oubli Pour cerner les impossibles de langue C Marchello Nizia ibid p 22 propose de recourir au raisonnement suivant On accordera une importance privil gi e l absence de formes ou de constructions attendues et corr lativement aux paraphrases En effet si un tour attendu n est jamais attest et qu on rencontre r guli rement sa paraphrase en lieu et place o on l attendait alors on a le droit de formuler l hypoth se que le t
140. ayant suivi des tudes sup rieures Un des objectifs de l utilisation d une version tiquet e du corpus tait de d gager des l ments caract ristiques des parlures des styles sociaux pr sents Quelles sont les cat gories morpho syntaxiques privil gi es par chaque type de locuteur Quels sont les patrons syntaxiques qui leur sont propres 10 2 Varier le jeu d tiquettes selon les ph nom nes observ s Le corpus a t tiquet par l tiqueteur AlethCat Le nettoyage manuel qui a suivi a permis de rectifier un certain nombre d erreurs de cat gorisation et d homog n iser la lemmatisation des formes Les tiquettes employ es par l tiqueteur utilis une soixantaine au total sont relativement rudimentaires partie du discours ventuellement sous type dans la partie du discours type de d terminant par exemple traits morphologiques verbe conjugu infinitif participe genre nombre personne Bien d autres informations pourraient tre associ es aux mots type de verbe auxiliaire modal mot attendant des arguments A l inverse la pr sence de certaines indications le genre le nombre pour les noms et les adjectifs par exemple peut rendre plus difficile la perception de certaines r gularit s on disperse par exemple les occurrences de la cat gorie des noms en masculin singulier masculin pluriel f minin singulier et f minin pluriel Pour faciliter l tu
141. b 1990 t tudi au niveau des mots dans Lebart et Salem 1994 Une fois lemmatis tiquet et corrig il a t analys dans Habert et Salem 1995 PREMIERE PARTIE LES CORPUS ANNOTES ET LEURS UTILISATIONS CHAPITREI LES CORPUS ETIQUETES Etiqueter un texte c est une forme d annotation dans laquelle on associe des segments de texte le plus souvent les mots une ou plusieurs tiquettes le plus leur cat gorie grammaticale voire leur lemme Dans la premi re section nous donnons de brefs exemples de corpus tiquet s et nous d finissons les types d tiquetage rencontr s Un premier exemple d utilisation de corpus tiquet s section 2 repose sur un tiquetage approfondi d une partie seulement du corpus Il vise mettre en vidence de mani re inductive une typologie des textes sur la base des corr lations observ es entre les traits linguistiques retenus Un second exemple section 3 fait appel un tiquetage complet mais fruste la partie du discours et quelques renseignements morphologiques Cet tiquetage permet de contraster les parlures qui coexistent dans le corpus tudi Nous abordons en section 4 l utilisation d tiqueteurs ou de corpus tiquet s et en section 5 les enjeux th oriques des recherches rendues possibles par ce niveau d annotation 8 DEFINITIONS Commen ons par trois brefs exemples qui donnent un aper u de la diversit des ti
142. ber qui sont pourtant con us pour rendre compte d une grande diversit d nonc s La question de la g n ralit des typologies induites partir des comportements observ es reste donc encore largement ouverte c anon de la technique probabiliste correspondante est effectu e dans le apitre IX deux apports de pe La simple lecture ne percoit qu une partie limit e des sur emplois effectifs Elle est bien en peine de juger s ils sont significatifs ou non Les sous emplois le creux d une partie au regard de l ensemble chappent le plus souvent la conscience Ils sont ici d gag s MER La CFTC centrale chr tienne s est transform e en 1964 en CFDT une minorit constituant la CFTC maintenue L volution r cente de la CFDT vers plus de pragmatisme s accompagne d ailleurs d une utilisation en congr s de formes proches de celles de la r solution circonstancielle Les corpus arbor s 27 10 TIQUETAGE INTEGRAL ET SOCIO STYLISTIQUE Un tiquetage int gral bien que rudimentaire permet d examiner les parlures d un corpus regroupant des nonc s de plusieurs locuteurs de diff rentes cat gories sociales 10 1 Rep rer les cat gories et les suites de cat gories de diff rents locuteurs Enfants une fois tiquet et lemmatis a t tudi Habert et Salem 1995 sous l angle de l opposition entre locuteurs sans dipl me titulaires du baccalaur at et personnes
143. besoins de la structuration l inverse en d pit de l ambition parfois affich e il para t illusoire de croire l universalit de l ontologie r sultante et de penser qu une 82 PREMIERE PARTIE conceptualisation du monde puisse tre ind pendante de la langue de son concepteur Concr tement cette d pendance est en particulier marqu e dans le fait que les noeuds et les relations d un tel r seau conceptuel portent des tiquettes emprunt es au langage naturel ce qui conditionne et biaise l interpr tation 19 UNE GRANDE DIVERSITE DE RESSOURCES LEXICALES Au del de cette distinction entre ressources lexicales et ressources conceptuelles diff rents param tres sont prendre en compte dans le choix d une base de connaissances pour un projet donn 19 1 Des distinctions de sens plus ou moins fines Les bases lexicales fournissent g n ralement des distinctions de sens fines Le Petit Robert liste douze sens pour le nom cours r partis en 6 sens principaux Le Websters Collegiate Dictionary distingue trois entr es pour le nom bank et au total seize sens diff rents WordNet ou le Roget s thesaurus distinguent respectivement 8 et 20 acceptions pour le mot credit On peut rechercher au contraire des distinctions de sens plus grossi res ce qui r duit le nombre de sens et donc la polys mie des mots Les dictionnaires tablissent des distinctions homographiques 20 Guthrie et al 1994 repr sent es so
144. ble ss 34 11 2 ENVIRONNEMENTS DE CATEGORISATION ET DE MANIPULATION DE TEXTE ETIQUETE 35 11 2 1 COLE DOTS CT METER 35 11 2 2 Manipuler des corpus tiquet s ss 35 12 ENJEUX ero rtra t tyre everti Pao ra Pose eene acsevente sunsiesenesessececosecesuentess 36 12 1 LE DIT ESTEE DIRE UB et ren tte ere 36 12 2 LINGUISTIQUE ET TEXTUALITE uses 37 12 3 ANALYSES MULTI DIMENSIONNELLES 37 13 DIVERSITE DES CORPUS ARBORES eese eese eee eene entes toas tns toss tosta setas 39 13 1 NOTER DES RELATIONS SYNTAXIQUES sus seems enne nnns ener nnns enean 40 13 1 1 Arbres graphes et relations 40 13 1 2 Grammaires de constituants et grammaires de d pendance 41 13 1 3 Notations textuelles eene nnne nennen 42 13 2 OBTENIR DES ANALYSES cs ior DEREN T PEU PE EO E METRE 45 13 3 TYPES D ANALYSE nn en E GU URINE 45 13 3 1 Analyse partielle analyse compl te ss 45 13 3 2 Une seule analyse ou plusieurs ss 46 13 3 3 SOUS SD CIJICIlIOI odes tie eet Eae eu Eee Nene Feo NR e Ree cele et 47 13 4 ANALYSEURS DE TEXTE TOUT VENANT gt siennes 47 13 5 NIVEAUX eerte nU UR PNE EN Re ee RE E 49 14 UNE REALISATION EXEMPLAIRE SUSANNE se mmnnnennenennes 51 14 1 UNE ANNOTATION EXHAUSTIVE Deere 51 14 2 INFORMATIONS FOURNIES DANS SUSANNE une 52 15 PHRASEOLOGIE ET TRAITEME
145. ble de ses synonymes entre accolades ou d faut par la paraphrase entre guillemets donn e dans WordNet a texte original The allies after Nassau 165 Nous n avons pas tiquet sens les mots qui ne sont pas employ s comme noms et qui n ont t conserv s que du fait d une erreur de cat gorisation morpho syntaxique Nous ne donnons aucune description synonymique ou paraphrastique pour les noms qui n admettent qu un seul sens sens 1 1 D une langue l autre 111 In december 1960 the U S first proposed to help NATO develop its own nuclear strike force But Europe made no attempt to devise a plan Last week as they studied the Nassau accord between President Kennedy and Prime Minister MacMillan Europeans saw emerging the first outlines of the nuclear NATO that U S wants and will support It all sprang from the anglo U S crisis over cancellation of the bug ridden skybolt missile and the U S offer to supply Britain and France with the proved polaris Time dec 28 b liste de noms allies Nassau december U S NATO strike force Europe attempt plan week Nassau accord President Kennedy Prime Minister MacMillan Europeans outlines NATO U S support crisis cancellation bug skybolt missile U S Britain France polaris c liste de noms absents de WordNet Kennedy MacMillan skybolt d liste des noms figurant dans un anti dictionnaire Nassau december U S NATO Europe Europeans Britain e liste de noms s l
146. ble des parties et celles r alis es partir de l ensemble des unit s r pondent des besoins d analyse distincts qui entrainent dans les deux cas des utilisations diff rentes de la m thode Dans la pratique il existe un grand nombre de fa ons de proc der qui correspondent cette d finition ce qui explique la grande vari t des m thodes de classification automatique sur ces m thodes on peut consulter Saporta 1990 p 241 261 208 50 1 2 Classifications de formes Lorsqu il s agit d tudier des textes litt raires politiques historiques les classifications portant sur les formes d un corpus concernent en g n ral des ensembles dont la dimension d passe tr s largement celle de l ensemble des parties L arbre de classification r alis partir d un tel ensemble se pr sente sous une forme relativement volumineuse qui complique consid rablement toute synth se globale Dans la pratique on abordera l tude des classifications ainsi r alis es en consid rant par priorit les associations qui se r alisent aux deux extr mit s du dendrogramme e les classes du niveau inf rieur de la hi rarchie constitu es par des agr gations de formes agr g es d s le d but de la classification et qui correspondent souvent des associations de type cooccurrentielles e les classes sup rieures souvent constitu es de nombreuses formes que l on tudiera globalement Les associations r alis es aux premiers ni
147. carte de cr dit est ASSET avoir Cette derni re m thode de calcul revient cependant r duire WordNet une hi rarchie de liens hyperonymiques et lui fait perdre une grande partie de sa richesse lexicale M Sussna choisit de combiner ces deux approches du chemin le plus court et du chemin passant par le plus petit anc tre commun II mesure la distance entre deux noeuds a et b par la longueur du chemin le plus court reliant a et b au sein de la sous hi rarchie domin e par p le plus petit anc tre commun a et b figure 1 infra Cette approximation para t satisfaisante m me si parfois on ne retrouve pas le chemin le plus court dans le cas de la figure 1 le raccourci antonymique qui va de a ben passant c est limin Ce chemin peut tre compos d ar tes de diff rentes natures liens hi rarchiques d hyponymie relations de m ronymie d antonymie Reprenons l exemple de P Resnik d j cit au chapitre 3 2 1 Le chemin a empruntant les liens hyponymiques de COIN ASSET et de ASSET CREDIT CARD est de longueur 9 tandis que le chemin b qui emprunte les liens hyponymiques de COIN CURRENCY le lien d antonymie de CURRENCY CREDIT et les liens hyponymiques de CREDIT CREDIT CARD est plus court longueur 8 M Sussna retient ce chemin qui est mixte mais plus court quele que soit la source de connaissances exploit e Plusieurs auteurs ont ainsi cherch mesurer la parent des sens
148. ce non r ponse comme refus explicite de r pondre ou comme mise en doute pr alable des propos tenus est centrale dans cette partie Le patron sur employ pronom personnel adverbe n gation verbe 3 me personne singulier adverbe n gation est d pour l essentiel l emploi n gatif du pr sentatif y a dans des r ponses comme c est la situation qui d cide le logement si il n y a pas de place ou encore quand il n y a pas assez d argent dans le m nage ne faut pas cependant en tirer des cons quences quant l orientation argumentative des r ponses M me si l on trouve des s quences qui mentionnent des difficult s n y a pas de travail 3 occurrences dont l une en contexte conditionnel le pr sentatif n gatif peut servir au locuteur plaider au contraire pour le fait d avoir des enfants Les r ponses suivantes en t moignent il n y a pas de couple sans enfant ou encore n y a pas de raison valable Les sans dipl mes se caract risent en outre par des phrases plus courtes ventuellement r duites un nom seul non d termin Nous ne donnons que les valeurs des traits pour faciliter la lecture Pour d terminer la place du ph nom ne au d but de chaque r ponse a t introduit un anti point not ponctuation d but phrase Les segments r p t s comprenant cette tiquette confirment la tendance des locuteurs sans dipl me commencer la phrase par un pronom personnel en r
149. cepts du domaine consid r et ventuellement de repr senter leurs propri t s ainsi que les relations qu ils entretiennent entre eux Il en r sulte des hi rarchies ou des r seaux de concepts Les ontologies proposent un d coupage du monde ou de la repr sentation que nous en avons en cat gories ces cat gories tant organis es en hi rarchie par des liens SORTE DE S A Lorsque s y ajoutent d autres types de relations relations de causalit d appartenance etc on obtient non plus un arbre ou une hi rarchie mais un graphe un r seau s mantique ou conceptuel dans la terminologie de l intelligence Artificielle Initialement cantonn s des domaines tr s sp cialis s ou des exemples de taille limit e ces r seaux servaient surtout valider une approche un formalisme ou une th orie La d cennie pr sente voit cependant appara tre des bases de connaissances conceptuelles de grande ampleur Le projet Cyc est exemplaire cet gard Guha et Lenat 1990 Commenc e il y a plus de 10 ans l ontologie pi ce centrale de cette base de connaissances contient aujourd hui des dizaines de milliers de noeuds ou concepts Pour ses concepteurs le haut de cette hi rarchie qui comporte plus de 3 000 concepts est form de cat gories universelles 18 3 Une opposition r elle mais floue Les ressources conceptuelles ont l avantage de s affranchir du niveau de structuration proprement lexical qui regroupe les di
150. ci quelques segments r p t s significatifs d terminant d fini nom adjectif relationnel nom adjectif qualificatif relationnel 10 6 Evaluation et perspectives L analyse des d comptes portant sur l utilisation de divers jeux d tiquettes donne une image int ressante de l usage de l appareil Les corpus arbor s 33 linguistique par les diff rents ensembles de locuteurs expression personnelle modalisant la r ponse faite dominante n gative pour les sans dipl mes versus expression nominale situ e hors du ici et maintenant pour les dipl m s Les bacheliers marquent une pr f rence pour les syntagmes pr positionnels les dipl m s du sup rieur pour les adjectifs en particulier coordonn s Les locuteurs ayant fait des tudes sup rieures font appel plut t aux adjectifs d nominaux qu aux syntagmes pr positionnels pour modifier les noms l inverse des locuteurs ne poss dant que le baccalaur at S agirait il d un ph nom ne d hypercorrection d une mani re d viter le style substantif Cependant bien d autres interpr tations pourraient tre produites pour les donn es constitu es avec ces diff rents jeux d tiquettes Par exemple entre des r ponses directes baccalaur at et tudes sup rieures et des r ponses diff r es sans dipl mes o les formules comme je ne Sais pas etc ressemblent aux items de retardement de la r ponse mis en vidence en analyse de la conversation 1
151. cooccurrence 177 cooccurrences 191 Corbin 52 Cori 39 corpus align 8 annot 2 7 arbor 2 16 38 archive Voir archive collection 145 comparables 145 de r f rence 145 148 de suivi 126 146 de taille moyenne 181 de textes 145 d chantillons 145 d finition 5 145 246 La feuille de style ayant servi saisir ce document disponibilit 159 documentation 156 enrichi 2 7 tiquet 2 nu 2 7 oral 7 parole 7 probl mes juridiques 159 sp cialis 145 corpus de taille moyenne 178 corpus linguistics 3 corpus sp cialis 83 180 corr lations 184 Courtois 162 co ts annotation morpho syntaxique 168 annotation syntaxique 172 enjeux 161 couverture d sambiguisation lexicale 115 Cowie 111 119 Cutting 2 Cyc 80 82 Daladier 149 150 151 d finition dictionnairique 76 DELAC 162 d limiteur caract res 162 dendrogramme 197 d nomination 64 fonctionnement d nominatif 64 d pendance grammaires de 40 relation 39 d pendance syntaxique 178 d pendant 48 d sambigu sation 6 118 analyse syntaxique 66 compl te 74 degr de 74 tiquetage 20 globale 113 lexicale 73 80 107 morpho syntaxique 166 s mantique 181 syntaxique 169 170 descripteur 58 dictionnaire 75 81 de langue 77 lectronique 75 sous forme papier 75 84 sur support lectronique 75 84 Dictionnaire du Moyen Fran ais 131 dilution de relation 112 discours 22 36 distance 19
152. core contrairement certaines propositions En outre l cart entre les proportions pour les occurrences et les lemmes indique que beaucoup des adjectifs pr c dant habituellement le nom sont tr s fr quents great good holy etc Les post pos s sont au contraire peu fr quents comme le montre le tableau suivant RE de l adjectif occurrences CUM post nominal er 195 269 BE MR 58 n6 191 Un peu comme dans les constructions verbe s du type prendre peur o le nom v hicule l essentiel du s mantisme le verbe apportant des indications temporelles et aspectuelles Les adjectifs qui apparaissent uniquement post pos s sont 90 d origine latine ou fran aise 130 DEUXIEME PARTIE Les r sultats obtenus sont galement tr s proches d tudes faites pour l anglais contemporain Enfin l examen des divers registres repr sent s dans le sous corpus ne manifeste pas d carts significatifs dans le placement des adjectifs par rapport aux constats globaux qui viennent d tre donn s Au regard de ces r sultats H Raumolin Brunberg conclut la primaut de la position ant pos e de l adjectif en anglais tout au long de son histoire 28 3 2 L alternance that z ro En anglais apr s certains verbes comme hear hope know think say et tell certaines propositions objet peuvent tre introduites par that hope that becoming a catholic will give you peace of mind ou rester non marqu es told him h
153. corpus ne cesse de cro tre Il devient alors possible d tudier l volution de certains ph nom nes langagiers n ologismes emplois privil gi s un moment donn de certains suffixes ou pr fixes etc un peu comme les ditions papier de certains dictionnaires d usage Le Petit Larousse Le Petit Robert servent de sonde sur le lexique et ses changements Dans la mesure o ces corpus de suivi sont r cents ils ne peuvent renseigner dans l imm diat que sur la courte dur e moins d une d cennie Mais avec le temps ils contribueront notre connaissance de l volution de certains secteurs de la langue cf chapitre V Un corpus lectronique est un corpus qui est encod de mani re standardis e et homog ne pour permettre des extractions non limit es l avance ibid p 5 En effet la simple existence sur support lectronique ne fait pas d un ensemble de textes un corpus lectronique Encore faut il que ce document ob isse des conventions de repr sentation de codage r pandues voire faisant consensus qui permettent la transmission et la r utilisation des donn es textuelles en cause cf section 5 713 ou encore corpus barom tre 148 35 LANGUE GENERALE 35 1 Etudier une dimension particuli re La nature des ph nom nes tudier peut r clamer des donn es tr s vastes ou au contraire se satisfaire d un corpus restreint H Barkema 1994 p 271 indique ainsi un corpus d un mil
154. corpus ne figurent pas dans WordNet C est donc autant de mots qui ne peuvent pas tre d sambiguis s Toute la question est donc de savoir quel int r t peut avoir une d sambiguisation partielle pour un syst me de recherche documentaire Appr hender une parent s mantique sous la forme d une distance entre les sens de mots dans un r seau comme WordNet soul ve ainsi plusieurs questions De multiples formules de distance sont test es mais il est pr matur de chercher tirer une conclusion d finitive sur les param tres prendre en compte et pour se faire une v ritable id e de leur impact sur les r sultats de d sambiguisation Seule l exp rience et le recul permettront de clarifier peu peu cette question 11 Si M Sussna ne mentionne pas ce probl me de couverture pour WordNet c est probablement qu il ne cherche traiter que des articles de presse En fait c est dessein qu il choisit ce corpus dans une base documentaire n ous travaillons partir de la collection d articles du Time Magazine qui est la moins sp cialis e et la moins technique parce que WordNet est un lexique de l anglais g n ral Sussna 1993 D une langue l autre 117 25 UN MEME PARTI PRIS D EMPIRISME Ces travaux montrent que l exploitation s mantique des corpus est largement empirique Il s agit toujours d approcher le sens tel que le livre le corpus en biaisant l aide de techniques simples souvent par une combinaison de
155. corpus porteurs d annotations s mantiques Mais l tiquetage s mantique est d abord conditionn par la mise disposition des connaissances s mantiques La nature m me des sources lexicales utilis es d termine en grande partie la m thode d tiquetage et le jeu d tiquettes retenus Aujourd hui c est donc la question de ces ressources qui para t centrale Ce chapitre d crit les principales sources actuellement utilis es ou utilisables pour tiqueter s mantiquement des corpus Seules les connaissances s mantiques sont prises en compte L objectif est non pas de dresser un catalogue de ces ressources mais d en esquisser une typologie Ces ressources ont t concues selon des principes et dans des perspectives vari es Elles portent l empreinte de ces diff rences de conception Il s agit ici d valuer dans quelle mesure elles peuvent servir l tiquetage s mantique de corpus et plus pr cis ment 100 101 IIS d passent gu re 200 000 mots Nous ne mentionnons donc pas les autres types de connaissances eee pee MES que ces sources les dictionnaires notamment peuvent comporter n trouvera ce type de catalogue sur des pages web r guli rement mises jour Un roupe de travail de l Association for Computational Linguistics ACL SIGLEX Special nterest Group on the Lexicon se charge notamment de recenser les ressources lexicales disponibles http Awww clres com dict html 74 PREMIERE PARTIE la d sambig
156. cques sont re us comme sous la forme Sont re us Pierre et Jacques Ce sont les grammaires de constituants qui sont majoritairement employ es pour les corpus annot s syntaxiquement La langue trait e peut expliquer le choix fait Les grammaires de constituants semblent mieux adapt es aux langues ordre des mots relativement contraint et aux syntagmes nettement identifiables comme l anglais Les grammaires de d pendance conviennent davantage aux langues o l ordre des mots est plus libre le finnois par exemple Contribuent sans doute galement cette pr pond rance le poids des travaux proprement linguistiques qui rel vent de cette tradition mais aussi le fait que la technologie des parseurs pour les langages informatiques fait aussi appel aux grammaires hors contexte Les grammaires de d pendance offrent cependant l avantage de faciliter l utilisation des relations hi rarchiques entre mots d un nonc Si l on veut d gager les cadres de sous cat gorisation des verbes par exemple cette approche permet un 55 On trouve dans le mod le GPSG Gazdar et al 1985 la volont de d coupler dans les r gles hors contexte la relation de dominance et l ordre lin aire c est dire la c dence Toutefois le parseur ENCG English Constraint Grammar Karlsson et al 1995 cr e des structures de d pendance pour l anglais Karlsson 1994 p 130 142 fournit plusieurs exemples de r sultats comment s extraits d un manuel in
157. ction est g n ralement pr sent e comme un am ricanisme dans les grammaires anglaises Une tude d taill e indique que la premi re est effectivement la variante dominante en anglais dans les ann es soixante Le corpus de 1991 montre ibid p 264 d une part que la fr quence de help avec un compl ment infinitif s accro t sensiblement par rapport 1961 et d autre part que la construction avec 1 Pour les corpus de suivi le probl me n est pas de r aliser une dition lectronique propre exempte de coquilles faisant autorit mais de pouvoir utiliser au plus vite des donn es vastes qui vont se trouver rapidement remplac es par d autres Blackwell 1993 p 101 Le nettoyage ne vise pas la perfection Il doit simplement permettre le fonctionnement des outils logiciels deris ration des donn es Vu la taille des donn es trait es il doit tre enti rement automatique ou limiter au maximum l intervention humaine D une langue l autre 129 infinitif seul domine d sormais en particulier sans SN sujet logique de l infinitif La construction avec infinitif seul domine galement dans le CD ROM de 1991 du journal The Guardian Comme il s agit d un journal dont la langue est tenue cette pr dominance montre que la construction en cause a perdu la connotation de rel chement qui tait la sienne trente ans auparavant C Mair voit dans cette volution l indice d une grammaticalisation d finie comme
158. dant donn s titre indicatif Ils donnent un ordre de grandeur ils n autorisent pas vraiment des projections des comparaisons A chaque niveau les types d annotation different trop pour qu une mise en parall le soit ais e Pour s en tenir l tiquetage la taille du jeu d tiquettes peut changer du tout au tout le co t de la correction 41 NETTOYAGE ET HOMOGENEISATION La phase initiale de nettoyage et d homog n isation des textes collect s sous forme lectronique est une tape souvent sous estim e alors qu elle est cruciale Dans certains cas les textes int grer dans un corpus ont t frapp s pour la circonstance ils contiennent des fautes de frappe ou d orthographe Dans d autres cas ils sont issus d une reconnaissance 166 optique il faut restituer les mots qui ont t r partis entre deux lignes corriger les erreurs typographiques Il peut s agir galement de textes d j saisis pour d autres fins bandes de composition de livres ou de journaux le codage qui y figure doit tre pris en compte pour tre transform ou supprim Nous ne connaissons pas d tude sp cifique sur les co ts de cette phase Le compte rendu du projet AVIATOR Blackwell 1993 permet n anmoins d valuer les difficult s rencontr es L objectif est ici de d velopper des filtres permettant de nettoyer du texte tout venant pour tudier l volution presque au quotidien de l anglais dans la perspective d un co
159. de 1 000 mots pr traitement passage de l tiqueteur probabiliste CLAWS correction manuelle 43 6 Evaluation et nouvelles tendances Eric Brill 1995 r sume ainsi les points forts et les faiblesses des deux approches Les tiqueteurs stochastiques ont bien des avantages sur les tiqueteurs b tis manuellement en particulier ils rendent superflue la construction laborieuse de r gles manuelles et saisissent des informations utiles qui peuvent ne pas avoir t remarqu es par l analyste humain Cependant les tiqueteurs stochastiques pr sentent l inconv nient que les connaissances linguistiques ne sont captur es qu indirectement par le biais de grands tableaux statistiques L criture de r gles se heurte rapidement la complexit des interactions effectives entre les r gles En effet chaque r gle agit sur un texte qui a t modifi par les r gles pr c dentes Il faut donc pr voir autant que faire se peut ces interactions qui peuvent devenir d une complexit tr s grande voire ne plus tre maitrisables A l inverse la mise au point des r gles peut s appuyer sur l intuition des locuteurs L tiquetage et la d sambiguisation comme d autres secteurs de l annotation des donn es textuelles donnent lieu des approches mixtes o un tiquetage probabiliste est corrig in fine par des r gles du type de celles 174 voqu es ci dessus ou vice versa Les techniques d apprentissage sont gal
160. de cap que nous assistons actuellement Les enjeux industriels sont consid rables Ce n est donc pas un hasard si les initiatives de constitution de corpus annot s et de ressources langagi res de grande taille ont re u dans le monde anglo saxon des soutiens financiers importants du secteur priv dition mais aussi de la puissance publique La mise dans le domaine public de ces nouvelles ressources apparait comme la condition sine qua non pour que les chercheurs et les industriels puissent progresser efficacement partir de ces sources de connaissances Dans la communaut du TALN l accent est mis sur les tr s vastes ensembles de donn es textuelles des centaines de millions de mots l objectif tant comme le soulignent K Church et R Mercer ibid p 1 une couverture large bien que peut tre superficielle de texte tout venant plut t qu une analyse en profondeur de domaines artificiellement restreints Ce sont des traitements automatiques du langage ancr s fortement dans des donn es attest es data intensive approach to language qui sont vis s 3 CHOIX TERMINOLOGIQUES Nous employons le mot corpus dans une acception assez restreinte emprunt e J Sinclair 1996 p 4 Un corpus est une collection de donn es langagi res qui sont s lectionn es et organis es selon des crit res linguistiques explicites pour 8 Deux signes parmi bien d autres de cette pr minence A la fin des ann es quatre vin
161. de de telle ou telle opposition on a donc transform le jeu d tiquettes employ soit en liminant des informations pr sentes soit en en rajoutant 8 D velopp par la soci t GSI ERLI Cet tiqueteur est con u pour pr parer le travail gun analyseur syntaxique automatique ha Notons que l tiquetage automatique aboutit parfois souder physiquement des gonstituants de mots compos s bien que met en vidence vis vis Une tiquette sp cifique non r ponse rend compte de l absence d une r ponse la question pour un locuteur donn 2 C est un changement syst matique ou confirmer au coup par coup qu on pourrait pores Ment r aliser avec les fonctions de remplacement d un simple traitement de extes 28 PREMIERE PARTIE Si l on prend la phrase suivante je ne sais pas les gens sont goistes peut tre en faisant abstraction du lemme apr s tiquetage et correction lt S01 31 gt je PROPERS ne ADVNEG sais VIPR1S pas ADVNEG PONCT FAIBLE les DETDEF gens NOMMP sont VIPR3P goistes ADJMP peut tre ADV PONCT FORTE que l on peut repr senter aussi pour plus de clart de la mani re suivante dipl me tudes sup rieures ge 30 gt forme je cat gorie pronom type personnel forme ne cat gorie adverbe type n gation forme sais cat gorie verbe mode indicatif temps pr sent nombre singulier personne 1 forme p
162. de dictionnaire le nom credit 18 1 2 Thesaurus Les thesaurus constituent un deuxi me type de base de connaissances lexicales Ils organisent la description des sens de mots de mani re diff rente des dictionnaires de langue Ces derniers proposent avant tout des d finitions de mots alors que les thesaurus reposent sur une s mantique plus sp cifiquement relationnelle et servent mettre une id e en mots ou trouver le mot juste Les thesaurus comporte g n ralement deux voies d acc s Un acc s par les mots comme les dictionnaires les thesaurus comportent des entr es Mais aussi un acc s par les id es ou notions les thesaurus regroupent les sens de mots en grandes cat gories s mantiques et s apparentent en cela aux ressources conceptuelles Les figures 3 2 et 3 3 illustrent ces deux aspects La figure 3 2 montre qu un mot avec ses diff rents sens r pertori s se d finit par la place qu il occupe dans un vaste r seau de mots et de sens c est dire par les liens qu ils entretient avec d autres mots Le thesaurus distingue quatre sens diff rents pour le nom credit et pour chacun met lui associe des synonymes des mots voisins des antonymes et des mots oppos s L exemple le montre la d finition quand elle est pr sente ne sert qu faciliter l identification du sens 112 Cet exemple est emprunt au dictionnaire de Merriam Webster dans sa version en ligne WWWebster Dictionary 1997 http
163. de distinction entre la cat gorie du pronom et celle du d terminant mouvement amorc avec l apparition du d terminant ce ces et achev la fin du moyen ge par l institution de formes purement pronoms 29 PROBLEMES METHODOLOGIQUES La constitution et l annotation de corpus diachronique rencontrent des obstacles sp cifiques Les ressources r sultantes permettent n anmoins de v rifier de pr ciser les volutions et de renouveler les explications qui en sont fournies 29 1 Des corpus petits et peu annot s La constitution m me des corpus pose des probl mes sp cifiques pour les tats anciens d une langue o les sources sont des manuscrits l ancien fran ais par exemple Les variantes graphiques d une m me forme peuvent tre nombreuses Mais il est d sormais possible de m moriser et de relier diff rents types de documents C est le cas du projet Charrette dirig par Uitti Universit de Princeton les transcriptions diplomatiques des huit manuscrits du Xllle si cle du Chevalier de la Charrette de Chr tien de Troyes soit pr s de 36 000 lignes pour un po me d environ 7 100 lignes sont reli es une version lectronique de l dition Foulet Uitti et aux images de ces manuscrits La philologie voit ainsi s ouvrir de nouvelles perspectives 200 Les 28 formes de d monstratifs repertori es C Marchello Nizia 1995 se r alisent en plus de 80 graphies 134 DEUXIEME PARTIE Nous l avons vu
164. de mots partir de leur d finition dans un dictionnaire et des mots qu elles ont en commun Cowie et al 1992 et V ronis et Ide 1990 par exemple exploitent respectivement le Longman ictionary of contemporary English et le Collins 7 C est nous qui donnons les quivalents fran ais Nous avons galement remplac MEDIUM OF EXCHANGE par ASSET pour rendre la citation coh rente avec la version 1 5 de ordNet et la figure ci dessous qui s en inspire Les liens d antonymie ne sont pas des liens hi rarchiques D une langue l autre 113 lien hyperonymique lien antonymique Figure 1 Calcul du chemin le plus court au sein d une sous hi rarchie ASSET Qc coL P _ Y CREDIT METAL MONEY CASH 1 COIN CREDIT CARD lien hyperonymique lien antonymique Figure 2 Calcul du chemin le plus court dans une sous hi rarchie de WordNet Pour aller de CREDIT CARD COIN le chemin qui passe par le plus petit anc tre commun ASSET est de longueur 9 Le chemin qui emprunte le lien antonymique entre CREDIT et CASH est plus court longueur 8 Pour tenir compte de l h t rog n it des liens emprunt s M Sussna pond re diff remment chaque type de lien Sans entrer dans le d tail de ces poids qui sont d termin s exp rimentalement retenons les points suivants e Les liens de synonymie ont un poids nul et ne comptent pas dans les mesures de distance entre noeuds les noeuds de WordNet tant des ensembles
165. de synonymes synsets la synonymie est une relation interne aux noeuds e Les liens d antonymie ont le poids le plus fort e Les poids des liens hyponymiques et m ronymiques varient avec la dilution de la relation qui est mesur e en fonction du nombre de liens de m me type attach s aux noeuds concern s Dans le cas par exemple de la relation A POUR PARTIE entre les noeuds VOITURE et PARE BRISE l intuition est que cette relation refl te une parent d autant moins forte qu une voiture comporte plus d l ments e que plus de liens A POUR PARTIE partent du n ud VOITURE mais d autant plus forte 114 DEUXIEME PARTIE l inverse que les pare brises entrent dans la composition de moins d objets i e que moins de liens A POUR PARTIE arrivent au noeud PARE BRISE De fait le mot pare brise voque quasi automatiquement une voiture e Toutes les relations sont pond r es en fonction de leur profondeur dans la hi rarchie Ce poids permet de tenir compte du fait que dans l exemple de la figure 2 supra NICKEL et DIME sont plus proches que CREDIT et MEDIUM OF EXCHANGE parce qu ils sont situ s plus bas dans la hi rarchie et refl tent donc des concepts plus sp cifiques La longueur d un chemin est donc calcul e comme la somme des poids des diff rentes ar tes qui le composent et la distance entre deux noeuds est donn e par la longueur du chemin le plus court reliant ces deux noeuds au sein de la sous hi rarchie do
166. des travaux pouss s linguistique descriptive permettent de mieux ma triser les causalit s l oeuvre influence des types de textes jeu entre sous langages et langue g n rale poids du temps etc Les informaticiens y trouveront mati re am liorer leurs mod les et leurs techniques Parce que les corpus lui semblent le moyen de constituer les ressources linguistiques n cessaires des traitements effectifs le TALN se confronte d sormais toute la complexit du langage Disposer de corpus annot s renouvelle les m thodes et les objectifs de la linguistique descriptive Le foisonnement des recherches t moigne de la vigueur du champ Il y a probablement une chance historique saisir celle d une coop ration enfin fructueuse Bibliographie 227 TABLE DES MATIERES 1 LE REGAIN D INTERET POUR LES CORPUS cccssssscssseecsssrscsssscssssssssssssessseees 3 2 QUOI SERVENT LES CORPUS ANNOTES ecce eee eese eene estere eee ene see tno seen 4 2 1 LA LINGUISTIQUE DESCRIPTIVE ANGLO SAXONNE ET SES QUESTIONS ses 4 2 2 LE CHANGEMENT DE CAP EN TALN ii eene nene nne eene nenne nena 5 3 CHOIX TERMINOLOGIQUES eere ee ee eee ee eee set en e eee aene seen eee seen seen 6 4 NOTATIONS ktt cuenta une venae e nr Ee kno aee pk aae E PNE dite 7 5 ORIENTATION DE L OUVRAQGE ses notato eet
167. difficult d assurer une d sambiguisation efficace sur ce point travaille est un pr sent de l indicatif 1 re et 3 me personne du singulier mais aussi un pr sent du subjonctif aux m mes personnes et enfin un imp ratif 2 me 34 PREMIERE PARTIE particuli rement pr cieuse dans une perspective typologique comme celle de Biber Une cat gorisation donne ainsi voir certains ph nom nes et en ignore d autres Il faut donc multiplier les points de vue et tout le moins tre conscient des capacit s heuristiques et des angles morts des jeux d tiquettes auxquels on a recours Les projets de comparaison et d valuation d tiqueteurs se d veloppent aujourd hui Paroubek et al 1997 Ce qu on peut en attendre ce n est certainement pas une mise en vidence de la meilleure cat gorisation ce qui n a pas grand sens mais l identification des objectifs points forts et faiblesses de chaque cat gorisation et de l ad quation de chacune aux projets de recherche envisag s 11 1 2 Un tiquetage peut tre d tourn Nous rencontrons avec les corpus tiquet s une situation courante pour les corpus annot s en g n ral L annotation du corpus utilis ne correspond pas exactement la classification souhait e des donn es aux ph nom nes que l on souhaite isoler au regard th orique que l on porte sur eux Pire pour diverses raisons le plus souvent le manque de moyens financiers et humains il n est pas possible de
168. ditum something entrusted to another loan from neuter of creditus past participle of credere to believe entrust more at CREED Date 1537 1 reliance on the truth or reality of something gave credit to everything he said 2 a the balance in a person s favor in an account b an amount or sum placed at a person s disposal by a bank c time given for payment for goods or services sold on trust long term credit d 1 an entry on the right hand side of an account constituting an addition to a revenue net worth or liability account 2 a deduction from an expense or asset account e any one of or the sum of the items entered on the right hand side of an account f a deduction from an amount otherwise due 3 a influence or power derived from enjoying the confidence of another or others b good name ESTEEM also financial or commercial trustworthiness 4 archaic CREDIBILITY 5 a source of honor a credit to the school 6 a something that gains or adds to reputation or esteem HONOR took no credit for his kindly act b RECOGNITION ACKNOWLEDGMENT quite willing to accept undeserved credit 7 recognition by name of a person contributing to a performance as a film or telecast the opening credits 8 a recognition by a school or college that a student has fulfilled a requirement leading to a degree b CREDIT HOUR synonym see BELIEF INFLUENCE 78 PREMIERE PARTIE Figure 3 1 Exemple d entr e
169. divergences dans le d tail L alignement produit automatiquement est videmment limit mais il est suffisant pour beaucoup de t ches de traductique L alignement du moins gros grains peut sembler une t che plus ais e que l tiquetage ou le parsage En tout cas il y a un grand d calage entre la relative simplicit des m thodes employ es pour obtenir des textes align s et la richesse extr me des utilisations de ces corpus bilingues Ce d calage m me est source d espoir 208 Ta X A Par opposition un alignement syntagme syntagme voire mot mot TROISIEME PARTIE METHODES ET TECHNIQUES Bibliographie 145 CHAPITRE VII CONSTITUER UN CORPUS 34 DEFINITIONS ET TYPOLOGIE DES CORPUS Il y a vingt ou trente ans la constitution d un corpus lectronique tait une t che ardue saisie et correction du texte sur cartes perfor es traitement informatique dans des centres de calcul distants sur des machines dont les capacit s de stockage et de calcul limitaient la taille des donn es manipulables Avec l av nement de la micro informatique l introduction des r seaux l augmentation de la taille des m moires et la rapidit croissante des traitements la situation a radicalement chang Beaucoup d crits professionnels existent directement sous forme lectronique et sont donc recyclables au sein d un corpus Le captage de textes est d sormais ais Paradoxalement la notion m me de c
170. du langage C est dessein que le mot texte n est pas employ ici En effet comme pour Archer ou pour BNC les techniques d chantillonnage peuvent amener briser la s quentialit des textes de d part on extrait ventuellement des fragments en plusieurs endroits d un m me texte pour viter de sur repr senter ou sous repr senter certaines caract ristiques Les corpus de textes complets s opposent aux corpus d chantillons ibid p 9 On cherche en outre respecter les crit res suivants une taile aussi importante que les moyens techniques le permettent par souci de repr sentativit des chantillons diversifi s et ventuellement de taille similaire une origine nettement rep r e les coordonn es des documents primaires sont conserv es Par opposition ibid djes mots comme collection ou archive renvoient des ensembles de textes qui ne n cessitent pas de s lection ou d organisation ou dont la s lection ou l organisation ne n cessitent pas de crit res linguistiques Les CD ROM du journal Le Monde par exemple rassemblent des articles relevant de discours parfois loign s langue g n rale de la vie politique et sociale nationale et internationale langues sp cialis es diverses conomie sport m t orologie etc Il est donc plus ad quat de parler de la collection du Monde sur CD ROM que du corpus du Monde On peut alors opposer corpus de r f re
171. du moins Les dictionnaires d expressions idiomatiques foisonnent pour anglais 54 PREMIERE PARTIE dictionnaires sur support papier O faire figurer champignon atomique sous l entr e champignon ou sous atomique Le rattachement champignon para t naturel toutefois c est bien d nergie nucl aire qu il s agit et on souhaiterait maintenir ce lien O faire entrer a vol e Ces locutions sont d ailleurs soumises d formation la r alisation originelle goulet d tranglement est concurrenc e par goulot d tranglement mais si les dictionnaires d conseillent certaines variantes ils ne r pertorient pas pour autant toutes les variantes effectives Ensuite on voit souvent dans ces s quences la partie imag e m taphorique de la langue comme le souligne A Rey Rey et Chantreau 1979 1 ce qui conduit alors privil gier une tude de l origine et de l volution de ces s quences et peut tre sous estimer leur place dans la langue courante un dictionnaire de locutions s il n est pas un simple recueil de traductions ne peut tre qu historique ibid p XII Enfin les limites de l ensemble consid r sont floues et variables les crit res qui permettent de dire qu une s quence fonctionne comme un mot compos Si l on consid re verre vin comme un nom compos faut il en faire de m me de toutes les s quences similaires verre cognac verre ap ritif verre kyr
172. du premier tiers du XIVe si cle jusqu la fin du XV si cle cette analyse montre que parmi les facteurs examin s la p riode du texte l opposition prose po sie le type de proposition et la personne du sujet c est le type de proposition dont l influence ressort nettement l omission est plus souvent le fait des principales et des ind pendantes que des ench ss es Les analogies r elles devraient tre d sormais plus facilement objectivables La vision des causalit s l oeuvre dans le changement linguistique en sera probablement renouvel e Ces causalit s sont peut tre chercher des niveaux de structuration beaucoup plus abstraits Kroch 1990 p 239 que ceux qui sont envisag s g n ralement 20 Cf aussi Kroch 1990 p 238 138 DEUXIEME PARTIE CHAPITRE VI D UNE LANGUE A L AUTRE LES CORPUS ALIGNES 30 DEFINITION ET EXEMPLES On appelle textes align s ou bi textes des couples de textes dont l un est une traduction de l autre et pour lesquels il existe un systeme de mise en relation entre segments du texte de grain quivalent sections paragraphes phrases On parle galement de corpus bilingues Des occurrences de guerre froide ou cold war sont fournies par le Hansard align c est dire les d bats du Parlement canadien o la version en anglais est mise en correspondance avec la version fran aise Voici quatre exemples de contextes align s o chaque fois le texte source es
173. duisent pas aux m mes d comptes Dans chaque exp rience pratiqu e ces normes ne pr sentent pas le m me degr de pertinence ni les m mes avantages ou inconv nients quant leur mise en oeuvre N anmoins au del des consid rations propres chaque domaine une fois d finie la norme de d pouillement et sa jurisprudence les m thodes de la statistique s appliquent de mani re aveugle aux d comptes r alis s partir de chacune des normes Comme on peut le voir sur les index r alis s partir de ces transformations du texte de d part le syst me des fr quences des unit s soumises aux d comptes d pend troitement de la norme de d pouillement retenue On voit sur ce petit exemple la grande latitude des choix possibles quand aux types de d comptes que l on peut op rer partir d un m me texte muni d annotations Pour chaque recherche particuli re ces choix r sultent avant tout des objectifs de recherche poursuivis Norme A Norme B Norme E Norme F 4 j 4 pr position 15 non personne 4 d 3 d 3 d terminant 8 embrayeur 2 C 2 2 nom 8 est 2 c est 2 ponctuation 6 et 2 2 pronom 5 une 2 et 2 verbe 5 14 1 une 2 adverbe 2 arm e 1 nation 1 coordonnant 2 aucun 1 ne 1 subordonnant 2 cela 1 notre 1 adjectif 2 wht A num ral 1 34 types 31 types 11 types 2 types 45 occ 40 occ 56 occ 6 occ 47 3 Incidence de la norme sur les d comptes Mitterrand1 a t soumis des d pouillemen
174. e c est dire des corpus diversifi s associant des registres diff rents et offrant aux linguistes Bibliographie 223 comme aux informaticiens des objets d tude vari s Il n existe pas non plus d tiqueteur lemmatiseur imm diatement accessible ni d quivalent francais de WordNet pour l annotation s mantique Le risque est que soient baptis s du nom de corpus des rassemblements de textes lectroniques disponibles n offrant pas les m mes garanties de diversit quant aux types de texte inclus ce qui biaiserait les tudes ult rieures Une autre limite est celle de l tanch it des communaut s concern es Institutionnellement en France le TALN et la linguistique rel vent de deux secteurs disciplinaires aux fonctionnements loign s entre ces domaines les passerelles et les collaborations sont encore fragiles Les formations autour du traitement automatique du langage par exemple rel vent dans l imm diat d un secteur ou de l autre mais pas d une convergence des deux L volution actuelle peut enfin conduire marginaliser des travaux percus comme moins directement utiles L tude diachronique de la langue en fournit un exemple Mais l exp rimentation de formalismes sophistiqu s peut galement p tir du nouveau contexte 54 3 Questionnements Du c t linguistique les travaux que nous avons pr sent s poussent examiner ou r examiner sur des bases renouvel es des ph nom nes jusqu pr se
175. e gate par analogie avec Watergate n est gu re productif en mars 1991 seul ce mot est utilis mais donne naissance en fin 1992 i raq gate dianagate camillagate threshergate A Renouf ibid p 286 287 donne aussi les 50 pr fixes non re over etc et suffixes ike based style etc les plus fr quents dans les compos s de mars 1991 28 2 Le moyen terme La constitution des premiers corpus de r f rence pour l anglais remonte aux ann es soixante avec Brown et LOB Ces deux corpus fournissent un chantillon voulu repr sentatif de l usage am ricain d un c t anglais de l autre en 1961 pr cis ment au sein d un certain nombre de registres Plus de trente ans nous s parent de ces instantan s du d but des ann es soixante Aussi peut on s en servir pour examiner les carts avec l usage actuel C est l objectif de C Mair 1995 Il compare l emploi de help dans Brown et LOB avec l usage en 1991 C Mair a constitu pour ce faire un corpus selon les m mes crit res que LOB ceci pr s que les textes retenus sont de 1991 Il appuie galement son analyse sur le CD ROM du journal The Guardian pour la m me ann e Il examine l volution des constructions suivantes de help 4 to infinitif Maybe he will help to turn our fair city into a ghost town infinitif seul ventuellement pr c d d un SN sujet logique de cet infinitif helped him mend his bicycle La deuxi me constru
176. e performance 23 1 6 Les variantes Cette derni re rubrique introduite par le mot clef Fam souvent absente donne des variantes morphologiques du nom vedette g n ralement un quivalent adjectival ou verbal therapy therapeutic bile biliary excretion excrete reduction reduce l est souvent pr cieux pour un non sp cialiste du domaine de rep rer quelles sont dans l ensemble des d rivations possibles en langue celles qui sont attest es dans le corpus ou au contraire de constater qu un quivalent possible ne semble pas employ Ainsi l entr e de blood sang ne mentionne t elle pas bloody sanglant qui de fait n a gu re un sens m dical On trouve galement sous cette rubrique des variantes orthographiques adeaminase a deaminase Dans certains cas cette rubrique regroupe non pas des variantes proprement parler mais des mots qui appartiennent la m me famille d rivationnelle lymphocyte lymph lymph node lymphatic lymphoia s mantique Le recours aux corpus plut t qu l introspection est chose ancienne pour la lexicographie sp cialis e et il est clair que les entr es ainsi constitu es automatiquement demandent tre retravaill es par un 155 Pour savoir si growth figure comme sujet et ou comme objet du verbe say il faut revenir au corpus D une langue l autre 103 lexicographe Le travail de G Grefenstette montre cependant toutes les possibilit s que le traitements automatiques de corpus
177. e 1016 722 106 11 5 la majorit 91 70 45 12 5 notre 442 337 35 11 5 nous 2059 1700 308 11 5 avons 523 488 30 11 6 tudiants 28 28 27 21 6 majorit 212 149 90 20 5 nous 2059 1877 177 17 6 oeuvres 29 24 19 11 6 pour 100 204 195 2 N12 6 arabe 34 34 23 13 7 l iran 50 50 41 27 7 monde arabe 21 21 T7 12 7 nous 2059 2059 182 N12 7 Pour une p riode donn e la liste des accroissements sp cifiques de la p riode renseigne sur l mergence d un vocabulaire particulier Le tableau 9 donne les accroissements ainsi calcul s pour la 79 partie du corpus constitu e par des interventions effectu es au cours des ann es 1987 1988 Tableau 9 Accroissements sp cifiques majeurs pour la 7 p riode de Mitterrand1 218 l iran 50 41 27 iran 53 41 25 arabe 34 23 13 monde arabe 21 17 12 d instruction 20 16 11 instruction 23 17 11 l irak 29 18 09 irak 32 18 08 lection 35 18 07 pr sident 303 73 07 d armes 27 15 07 un pr sident 28 15 07 politiques 105 34 07 armes 93 32 07 juge 35 17 07 pays 748 151 07 nous avons 413 27 06 inflation 83 0 N06 avons 523 35 N07 jeunes 134 2 N07 nous 2059 182 12 52 1 2 Formes chrono homog nes Les m thodes pr sent es ci dessus permettent de d crire au fil des p riodes l volution des unit s textuelles que l on peut recenser dans un corpus chronologique Les sch mas d volution tablis pour chacune des unit s font appara tre des ensembles d unit s qui ont
178. e 171 bien que ou carte bleue Les automates ou transducteurs correspondants ne savent pas traiter les d pendances longue distance que l on trouve en syntaxe C est galement le cas en d sambiguisation probabiliste 43 3 D sambiguisation probabiliste La d sambiguisation probabiliste s appuie sur le caract re positionnel de langues comme le fran ais et l anglais lequel fournit des contraintes locales fortes Dans le graphe orient des tiquettes possibles pour chacun des mots il s agit de chercher le chemin de probabilit maximale Le choix de l tiquette la plus probable en un point donn se fait au regard de l historique des derni res tiquettes qui viennent d tre attribu es En g n ral cet historique se limite aux deux ou trois tiquettes pr c dentes on parle alors de bigrammes ou de trigrammes Il repose sur des chaines de Markov Calliope 1989 p 360 370 M rialdo 1995 p 11 13 Ces m thodes supposent de disposer d un corpus d apprentissage Ce corpus d apprentissage doit tre d une taille suffisante pour permettre une estimation fiable des probabilit s des suites de cat gories et des diff rentes cat gories d un mot donn dans ces encha nements Le co t de pr paration de ce corpus d apprentissage est important On proc de alors par approximation Un premier corpus d apprentissage relativement court permet d tiqueter un corpus plus important Celui ci est corrig ce qui permet de r estimer
179. e d autres unit s linguistiques devront faire l objet d tudes au cas par cas Bibliographie 201 Pour chaque unit p le on s lectionne ainsi un ensemble d unit s qui se trouvent situ es de mani re privil gi e dans les m mes unit s de contexte 48 4 Filtrage des r sultats La s lection automatis e des segments r p t s quasi segments et cooccurrences fr quemment attest s dans un corpus produit des listes d unit s qui renvoient en g n ral des niveaux tr s diff rents de l analyse linguistique lexies plus ou moins fig es tournures syntaxiques r currentes tournures de rh torique etc Pour r duire le volume des listes ainsi constitu es certains chercheurs ont entrepris de constituer des proc dures de filtrages applicable ces listes afin d en extraire par exemple les seuls l ments qui correspondent des syntagmes bien form s P je suis pr sident de la r publique 49 COMPARER DES DECOMPTES AU SEIN D UN CORPUS PARTITIONNE Pour appr cier la r partition d une unit linguistique l int rieur d un corpus il est n cessaire d tablir des comparaisons avec l ensemble des unit s de m me type contenues dans le corpus Une unit ne peut tre jug e fr quente ou rare dans un texte que par comparaison avec d autres unit s dans ce m me texte ou dans d autres textes En pratique ces comparaisons sont souvent malais es du fait qu il faut appr cier des d comptes qui concernent des unit
180. e des connaissances ext rieures sont exploit es elles n ont pas le r le que leur donnait l intelligence Articificielle En introduisant des distinctions s mantiques suppl mentaires on peut caract riser plus pr cis ment les contextes mais c est la confrontation des contextes entre eux qui fait merger le sens Les connaissances projet es sur le corpus ne servent alors que de r v lateurs 25 2 Exploiter des r sultats approximatifs M me si des perfectionnements sont envisageables ces techniques sont approximatives Les donn es ne sont jamais totalement fiables la d sambiguisation des corpus reste imparfaite un anti dictionnaire n est jamais ni complet ni totalement pertinent Les op rations sont elles m mes approch es l extraction des fen tres graphiques ne respecte pas totalement les fronti res naturelles des zones textuelles comme l insertion d un exemple ou d une citation le calcul des variantes morphologiques met l accent sur le seul pr fixe Le traitements effectu s ne sont que partiellement maitris s Par exemple le volume des donn es manipuler impose g n ralement de les comprimer on limine ainsi les mots outils des mots trop rares etc Aucune de ces m thodes de compression de donn es n est cependant neutre Elles reviennent toujours modifier la d finition initiale du contexte et affectent les r sultats On a souvent soulign l influence de la lemmatisation sur les performances de rec
181. e direct n est qu un antonyme indirect de ight 20 2 3 Des r seaux de verbes Comme les noms et les adjectifs les verbes sont regroup s en synsets Ceux ci comportent des formes simples mais aussi des tournures verbales comme ook up qui sont tr s fr quentes en anglais Les synsets se r partissent eux m mes en 15 cat gories g n rales 14 pour les actions et v nements 1 pour les tats La relation centrale pour le r seau des verbes n est ni l hyponymie ni l antonymie mais l implication WordNet en distingue quatre types la cause give have donner avoir la pr supposition succeed try r ussir essayer untie tie d nouer nouer l inclusion snore UE ronfler dormir ou buy acheter payer et la troponymie 9 limp walk boiter marcher Soulignant toutefois la complexit de la s mantique des verbes et la difficult de d finir une s mantique proprement diff rentielle les auteurs de WordNet reconnaissent la moindre maturit du r seau des verbes Dans la pratique les travaux qui exploitent ce r seau des verbes des fins de d sambiguisation lexicale s en tiennent souvent aux grandes cat gories s mantiques Basili et a 1997 21 TABLER SUR L EXISTANT Les ressources lexicales existantes ont chacune leurs faiblesses D s lors qu elles visent une couverture un peu large du lexique elles reposent sur 3 lourd et pesant respectivement 45 Eger et de peu de po
182. e en outre des obstacles sp cifiques Une langue cas comme l ancien fran ais connait une variation importante dans l ordre des mots alors que les tiqueteurs et parseurs disponibles ont t con us pour des langues o l ordre des mots est notablement plus contraint La connaissance du lexique et de la syntaxe de ces tats de langue n offre pas non plus le m me appui une automatisation A l inverse ces corpus historiques tant destin s pour leur tr s grande majorit rester nus ils ne permettent pas facilement de valider ou d invalider des hypoth ses linguistiques Ils supposent une analyse tr s souvent manuelle des donn es pour trier les faits et proposer des hypoth ses mais aussi pour comparer la repr sentation formelle postul e avec le corpus Ainsi T Nevalainen 1994 pour tudier l volution de l opposition en anglais entre les formes des adverbes en y et sans suffixe slowly slow en contrastant la p riode 1350 1420 avec la p riode 1640 1710 commence par extraire d Helsinki les formes se terminant en y elle r pertorie 14 variantes graphiques du suffixe limine celles qui ne sont pas des adverbes ainsi que les adverbes faits sur une base nominale namely et cherche les adjectifs ayant servi de base aux adverbes ainsi isol s Ce sont encore de simples concordances qui sont employ es par Finegan et Biber 1995 p 245 dans leur tude de l alternance that z ro apr s certains verbes
183. e entre les mots C est l pour nous le v ritable troisieme ordre d affinit 267 Ce m est cependant pas le seul type de filtrage possible pour la recherche de collocations F Smadja 1993 filtre les collocations sur une base syntaxique ou m me en fonction de leur degr de figement Voir par exemple Lafon 1981 Church et Hanks 1990 ou E et Katz 1996 D autres auteurs visant la construction de classes s mantiques plut t que la recherche de collocations consid rent au contraire aue le seul fait qu un contexte soit attest une fois suffit le rendre significatif Bensch et Savitch 1995 Bouaud 1997 Signalons par ailleurs un filtrage statistique ne peut s effectuer que sur un volume important de donn es Nous pr f rons parler ici de similarit entre les mots plut t que de distance comme le font les travaux de classification automatique Le terme de distance s mantique est d ordinaire employ pour d signer des distances calcul es partir d une taxonomie ou d un r seau cf supra G Grefenstette 1997 ou P Bensch et W Savitch 1995 s inspirent de la mesure de Jaccard ou Tanimoto mais la litt rature sur les m thodes de classification pr sente de multiples mesures de similarit Saporta 1990 Lebart et Salem 1994 et diff rentes mesures sont employ es en acquisition de connaissances s mantiques Bibliographie 187 45 1 3 Construire des classes de mots Cette tape n est pas abord e dans le tra
184. e et distingu o l adjectif peut tre modifi coordonn etc Les travaux sur le figement ont sans doute eu tendance confondre ces dimensions qui sont partiellement ind pendantes Le recours aux corpus permet de cerner pr cis ment la premi re d entre elles Barkema montre comment un corpus arbor permet de fournir une caract risation fine de la flexibilit attendue pour un sch ma syntaxique donn On peut alors porter un jugement sur les r alisations effectives d une expression relevant de ce sch ma L emploi d un corpus arbor souligne le fait que certaines r alisations d un sch ma syntaxique sont plus probables que d autres pond rations qui chappent pour l essentiel la conscience d un locuteur Les contraintes sur la flexibilit ont suscit depuis longtemps les recherches Barkema essaie de caract riser pr cis ment l autre p le de l opposition la flexibilit normale C est effectivement une t che n cessaire pour pouvoir parler en connaissance de cause de degr de figement Le corpus offre le moyen de pond rer les r gles applicables un constituant donn 16 UTILISER DES PARSEURS ET DES CORPUS ARBORES 16 1 Utiliser des parseurs La mise au point des parseurs n cessite des m canismes complexes qui sont dans l imm diat plut t l apanage d informaticiens que de linguistes L criture et l ajustement de grammaires pour des analyseurs robustes n cessite par exemple des m canismes de p
185. e fournit que la cat gorie et le lemme c t des indications sur le dipl me et l ge du locuteur Ces indications pourraient tre elles m mes ajout es sous forme de traits attach s chaque mot Elles seraient alors distribu es au lieu d tre mises en facteur ce qui donnerait en format vertical dipl me baccalaur at ge 60 cat gorie DETDEF forme les lemme le dipl me baccalaur at ge 60 cat gorie NOMFP forme difficult s lemme difficult De telles structures de traits sont ouvertes il est toujours possible de rajouter des dimensions par exemple des tiquettes s mantiques On peut galement enlever une partie des associations trait valeur attach es un mot et simplifier par l m me son tiquetage On en verra un exemple dans la section 3 Susanne fournit un trait r f rence identifiant de mani re unique le mot examin Dans Mitterrand1 il faut conna tre le fichier dont provient l occurrence Le soin apport par Susanne sur ce point peut paraitre superflu C est pourtant en d finitive sur cette identification univoque que repose la possibilit de v rifier les annotations port es sur un corpus ou les analyses qui en sont faites Un autre chercheur peut se reporter exactement au bon endroit dans le texte de d part examiner un contexte plus large etc C est donc la condition sine qua non d un travail collectif Si l on adopte cette repr sentation canonique on co
186. e m me pour l opposition that z ro et pour la position des adjectifs en moyen anglais tardif C Mair ajoute 1995 p 260 les innovations grammaticales g n ralement ne bouleversent pas le langage mais s tablissent d abord dans des genres textuels sp cifiques des registres ou des niches fonctionnelles Les corpus comme t moignages de performance r elle rendront plus faciles l tude de ces types de contraintes Cette d marche est exemplifi e par l tude de l alternance that z ro Elle reste entreprendre pour la position des adjectifs seule la prose a t tudi e et pour les d monstratifs Il n est pas exclu en effet que la distinction po sie prose influence l emploi des d monstratifs en particulier pour la r partition entre d terminants et pronoms 29 3 Acceptabilit et fr quence Par d finition il n existe pas pour les tats disparus d une langue de comp tence du locuteur actuel L rudit contemporain ne saurait affirmer cet nonc n est pas acceptable En effet sa connaissance de ce qui lui para t possible ou non dans la p riode qu il tudie provient uniquement de sa connaissance intime de textes en nombre fini dont il a fini par abstraire les m canismes lexicaux et syntaxiques dominants Elle n quivaut pas loin s en faut une capacit produire des nonc s relevant de cet tat de langue La perception des r gularit s l oeuvre est probablement 202 D o des pr c
187. e pression La deuxi me tape ne garde que les groupes complexes maintien est laiss de c t ce stade Les groupes sont en effet moins ambigus et apportent davantage d information Que l on compare donn es et base de P t te extension t te extension de fonctionnement temp rature nominale 66 PREMIERE PARTIE donn es ou analyse de donn es La premi re expression renvoie l informatique la seconde aux statistiques donn es tout seul potentiellement aux deux A cette tape les groupes sont galement d compos s de mani re r cursive selon un sch ma d pendanciel en T te Expansion La repr sentation de temp rature nominale de fonctionnement est alors L int r t de ce type de d composition c est de permettre les regroupements paradigmatiques qui sont si r v lateurs en langage sp cialis Regroupement sur les t tes on peut mettre jour des liens de co hyponymie entre plusieurs candidats termes commen ant tous par analyseur analyseur morphologique analyseur syntaxique analyseur robuste analyseur montant ou d hyperonymie entre une s quence courte analyseur syntaxique et une s quence qui la prolonge analyseur syntaxique d terministe Regroupement sur les expansions il permet de voir les attributs spectre troit qui modifient un nombre restreint de t tes d terministe ne modifie gu re qu analyseur en TALN et ceux qui sont moins sp cifiques automatique en informati
188. e seule donn e le Corpus ss 103 23 2 2 Un ensemble de traitements simples ss 103 23 3 LES LIMITES D UNE APPROCHE EMPIRIQUE eee e e nennen nnn nne nnne sense ene 105 24 FAIRE DES DISTINCTIONS DE SENS DE MOTS POUR LA RECHERCHE DOCUMENTAIRE obe too eoo tale e ep eed sets anti danses den esse e En set eo aae Cede Qu sise landes ete 107 24 1 RETROUVER DES TEXTES DANS UNE BASE DOCUMENTAIRE cctt eee 107 24 1 1 Principe g n ral ss 107 24 1 2 La question de la variation lexicale ss 108 24 2 DESAMBIGUISER DES CORPUS A L AIDE DE WORDNET ss 109 24 2 1 Un article d sambiguis see 110 24 2 2 Mesurer la distance entre les n uds de WordNet eene 111 24 2 3 D sambigu ser un ensemble de mots 114 24 3 DE LA DESAMBIGUISATION LEXICALE A LA RECHERCHE DOCUMENTAIRE 115 24 3 1 La granularit de la description lexicale ss 116 24 3 2 La couverture des bases 1 116 25 UN MEME PARTI PRIS D EMPIRISME e eee ee eene eere eee ene ene et 117 25 1 FONDER UNE SEMANTIQUE SUR LES CORPUS suisse rennen enne ener nennen nnn 117 25 2 EXPLOITER DES RESULTATS APPROXIMATIES sise seeessssscssccssccesscesscessesee 118 25 3 COMBINER DES TECHNIQUES SIMPLES sereine sene tnn nennen 119 25 4 MODELISER PAR AJUSTEMENTS SUCCESSIFS sise e eee ene 120 25 5 EXPERIMENTER POUR MIEUX EXPLIQUER
189. ectes De quels usages les corpus historiques constitu s sont ils repr sentatifs Une des r ponses possibles est celle qui sous tend la cr ation d Archer les variations observ es rel vent des genres ou des types textuels sous jacents Si l on veut tudier l volution d une langue il faut articuler l chelonnement des textes dans le temps avec leur stratification en genres qui ont une coh rence et un mouvement propres D o une d marche d chantillonnage al atoire utilisant des extraits courts mais nombreux Finegan et Biber 1995 p 252 soulignent ainsi que la repr sentation du genre sermons est probablement plus satisfaisante dans Archer que dans Helsinki m me si ce dernier corpus comprend des textes entiers qui totalisent un nombre de mots plus important Helsinki en effet utilise les sermons de deux pr cheurs seulement tandis Cet article fournit des extraits significatifs de tels documents ibid 5 8 Ainsi pour la fiction anglaise le r pertoire Oxford Companion to English Literature OCEL a t utilis Les 1 099 pages de l OCEL ont t divis es par le produit du nombre de p riodes et de textes requis pour chaque p riode ce qui a fourni un intervalle de 13 pages Le num ro de la premi re page consid r e a t tir au hasard puis on a examin la page suivante 13 pages d intervalles et ainsi de suite Pour les textes de fiction par exemple sur chaque page examin e on a pris le premie
190. ectionn s allies strike force attempt plan week accord president prime minister outlines support crisis cancellation bug missile france polaris time f liste de sens allies sens 1 3 an alliance of nations joining together to fight a common enemy strike sens 2 6 an attack that is intended to seize or inflict damage on or destroy an objective force sens 4 7 forcefulmess strength attempt sens 1 2 effort endeavor endeavour try plan sens 1 3 program programme week sens 3 8 calendar week accord sens 3 4 treaty pact president sens 5 6 President of the United States President Chief Executive prime sens minister sens 2 4 government minister outlines 3 3 schema support sens crisis sens 2 2 a crucial stage or turning point in the course of something cancellation sens 1 2 the act of cancelling calling off some arrangement bug 2 5 glitch missile sens 1 2 rocket propelled weapon france sens 1 1 polaris sens 1 1 time sens 4 9 the continuum of experience in which events pass from the future through the present to the past 24 2 2 Mesurer la distance entre les n uds de WordNet Pour M Sussna l objectif est donc de mesurer par une distance entre les noeuds de WordNet la proximit des sens de diff rents mots dans un espace s mantique c est dire leur parent 16 Cette question du calcul de l
191. eecesseseessaeescesseees 21 8 4 1 Etiquetage int gral ou partiel sise 21 8 4 2 Une tiquette ou plusieurs tiquettes ss 21 8 4 3 Une vision large de l tiquetage ss 22 9 TIQUETAGE PARTIEL ET TYPOLOGIE DE eene eere 23 9 1 CIRCULARITE DES DEMARCHES TYPOLOGIQUES HABITUELLES suisses 23 9 2 DEGAGER LES CORRELATIONS DE TRAITS LINGUISTIQUES D 23 9 3 GENERALITE DES TYPOLOGIES INDUITES users ene nennen nennen nenne nnne rennen 25 10 TIQUETAGE INTEGRAL ET SOCIO STYLISTIQUE eene eere eene 27 10 1 REPERER LES CATEGORIES ET LES SUITES DE CATEGORIES DE DIFFERENTS LOCUTEURS 27 10 2 VARIER LE JEU D ETIQUETTES SELON LES PHENOMENES 27 10 3 UNE PREMIERE OPPOSITION STYLE NOMINAL ET STYLE VERBAL see 30 10 4 EXAMEN DES PATRONS SYNTAXIQUES CARACTERISTIQUES DE CHAQUE TYPE DE LOCUTEUR 31 228 10 5 PRECISER L EMPLOI DES ADJECTIFS QUALIFICATIFS ET RELATIONNELS 32 10 6 EVALUATIONET PERSPECTIVES trente eer eroi CR er REID E edu 32 11 UTILISER ETIQUETEURS ET CORPUS ETIQUETES ss sesesnnnsnenree 33 11 1 ADAPTER L ETIQUETAGE AUX OBJECTIFS DE RECHERCHE eene 33 11 1 1 Un tiquetage est orient par une famille de t ches 33 11 1 2 Un tiquetage peut tre d tourn essent 34 11 1 3 Le r tiquetage est incontourna
192. ement Nous montrons ainsi sur un corpus de r ponses des questions ouvertes l emploi d tiquettes morpho syntaxiques pour contraster plus finement les styles sociaux des locuteurs Les chercheurs du TALN qui peuvent relativement facilement se procurer du texte lectronique trouveront dans ces pages des indications m thodologiques sur la constitution de corpus en particulier sur l influence des genres textuels Nous parlons de linguistiques de corpus au pluriel pour souligner cette diversit d approches 6 DEMARCHE SUIVIE L ouvrage se divise en trois parties Nous partons des corpus annot s et des autres ressources textuelles disponibles Nous abordons ensuite d autres dimensions du travail sur corpus l tude du sens celle de la diachronie les textes align s Nous finissons par les probl mes m thodologiques et techniques plus abstraits pour les premiers plus ph m res pour les seconds Les renvois bibliographiques nombreux t moignent de l intense activit de recherche et de d veloppement autour des corpus lectroniques Ils comprennent des actes de conf rence et m me des rapports techniques la recherche est active dans ce domaine 6 1 Les corpus annot s et leurs utilisations Le chapitre aborde les corpus tiquet s des tiquettes morpho syntaxiques sont associ es aux mots Le chapitre Il traite des corpus arbor s des repr sentations syntaxiques d corent les phrases Au sein de chacun de ce
193. ement alphabet phon tique et signes sp cifiques pour noter la prosodie etc Les seconds rel vent de la communaut de la reconnaissance de la parole et restent plus proches d enregistrements 15 Blanche Benveniste 1997 M Sampson p re de Susanne cf infra MSS conventions d annotation annotation scheme et syst me d annotation annotation system m thode qui met en ceuvre ces conventions La m thode peut tre manuelle ou automatique thesaurus C est le cas aussi des textes align s o l un des textes est la traduction de l autre Aujourd hui on ne dispose plus seulement de corpus annot s pr alablement mais d outils permettant de traiter de nouveaux textes et de constituer de nouveaux corpus enrichis Ces outils d annotation tiqueteurs analyseurs syntaxiques retiennent aussi notre attention 5 2 Les corpus les ressources et les recherches de langue anglaise Qu on ne voie ni une anglophilie excessive ni un engouement coupable pour la modernit am ricaine dans l attention que nous accordons aux corpus aux ressources en anglais ou en am ricain et aux travaux qui s en servent anglo saxons eux aussi pour la plupart N cessit fait loi Les corpus enrichis sont aujourd hui majoritairement de langue anglaise ou am ricaine m me lorsqu ils sont d velopp s dans des pays ext rieurs au monde anglo saxon c est le cas du corpus de Nim gue aux Pays Bas ainsi que d Helsinki Les travaux qui
194. ement mises contribution La tentative la plus achev e est actuellement celle d E Brill 1995 dont l tiqueteur est en cours d adaptation pour le frangais Le syst me dispose d un dictionnaire associant aux formes les probabilit s qu elles portent telle ou telle cat gorie La cat gorie la plus probable est projet e sur le corpus de mise au point Les erreurs commises ainsi sont rep r es par comparaison avec la version tiquet e la main de ce corpus Le syst me propose des r gles de correction assez proches finalement de celles qui ont t voqu es ci dessus Elles sont de la forme changer une tiquette a en tiquette b si le mot pr c dent est tiquet w Elles prennent en compte un contexte troit deux positions avant ou apr s la forme examin e Sont retenues les r gles qui am liorent le plus l tat de la cat gorisation c est dire qui enl vent le plus d erreurs et en ajoutent le moins Ces r gles sont alors appliqu es Une nouvelle comparaison et une nouvelle g n ration et application de r gles sont op r es jusqu ce qu il ne soit plus possible de corriger le texte sans ajouter davantage d erreurs qu on n en corrige C est une autre forme automatique cette fois du processus mentionn de t che d huile autour dilots de confiance E Brill indique par exemple que son syst me apprend 447 transformations sur un corpus d entrainement de 600 000 mots avec une exactitude de 97 2 mais que
195. en partie financ par le National Endowment for the Humanities am ricain la DG XIII de 160 Encoding Initiative a depuis dix ans rassembl des chercheurs de diff rentes disciplines et de toutes nationalit s pour proposer des conventions sur ces types de documents Elle a d bouch sur des Recommandations en 1994 De nombreux projets de constitution de corpus et de ressources linguistiques ont adopt la TEI BNC par exemple Pour reprendre les termes de J Andr 1996 p 17 la TEI constitue un inventaire une sorte de flore au sens de Buffon des divers l ments pouvant constituer un document litt raire et elle repr sente en ce sens une avanc e dans la description et la formalisation des types de documents en circulation dans les diverses communaut s langagi res Elle fournit ainsi indirectement des l ments pour les typologies de textes et les tudes sur les genres discursifs I ne faut pas s inqui ter de la lourdeur de ces balisages dont t moigne l exemple choisi Ils ne sont absolument pas faits pour tre ins r s et utilis s la main Des environnements sp cifiques permettent le balisage de textes et la v rification de la conformit du balisage effectu avec une grammaire fournie tout comme les traitements de texte cachent l utilisateur les codages permettant de m moriser la pr sentation qu il a choisie 39 DOCUMENTER UN CORPUS Sans une documentation jointe un corp
196. endre les crit res de F Karlsson 1994 p 122 de pouvoir analyser sans se bloquer du texte tout venant en fournissant ventuellement des r sultats partiels d aboutir un taux satisfaisant d analyses correctes ie o les mots sont domin s par une tiquette syntaxique unique et ad quate et de ne pas aboutir des r sultats aberrants pour des phrases de longueur et de complexit raisonnable D Hindle 1994 p 105 rejoint cette caract risation Il insiste en outre sur le fait que le parseur doit toujours produire quelque chose m me sur un nonc non grammatical tient mais c est un point qui ne fait pas l unanimit ce qu un r sultat et un seul soit retourn pour une phrase donn e Il souhaite enfin que le parseur permette une am lioration incr mentale Les langages artificiels langages de programmation langages de repr sentation de connaissances sont con us a priori pour viter toute ambiguit quand un programme est ex cut son comportement un moment donn de son ex cution avec des donn es d termin es doit tre univoque L ambiguit est au contraire centrale pour les langues naturelles Elle est souvent ressentie comme une difficult pour les traitements automatiques Beaucoup de parseurs pour les langues naturelles ont pour vis e la production de l ensemble des analyses possibles Ce peut tre le cas au niveau de la phrase dans son ensemble comme dans le syst me
197. ent Les corpus arbor s 19 de conversion c est dire de passage d une cat gorie une autre sans changements d rivationnels doit on attribuer la cat gorie de d part ou celle d arriv e Comment cat goriser par exemple parler dans la s quence le parler vrai comme un infinitif ou comme un nom 8 3 Une repr sentation canonique Les corpus tiquet s peuvent donc se pr senter sous des formats variables verticalement comme Mitterrand ou Susanne ou horizontalement Enfants Dans ces trois exemples la nature des informations doit tre d duite de l usage de divers caract res qui prennent un sens particulier crochets point virgule accolades passages la ligne ainsi que de la place o les informations figurent La cat gorie constitue la troisi me colonne de Susanne et de Mitterrandi et elle occupe la troisi me position de chaque triplet pour Enfants On peut figurer ainsi le d codage de l tiquetage d un mot annot dans Mitterrand1 mot s parateur de lemme s parateur de cat gorie s parateur de champ champ triplet Past e Pour faciliter la r cup ration d un champ donn et la transmission des corpus on doit passer de ces indications positionnelles une repr sentation logique ce qui revient isoler chaque type d information et lui donner un nom soit avant cette information cat gorie verbe lemme tre forme tre soit autour de cette inform
198. entes de longueur in gale et de divers genres chroniques romans chansons le geste po sie lyrique ou didactique chartes trait s philosophiques etc 027 occurrences sur 8 237 d monstratifs D une langue l autre 133 une volution parall le de et de cil ibid p 164 En outre les comptages op r s montrent qu en moyen fran ais les deux paradigmes CIST et CIL ne sont pas encore sp cialis s l un pour les d terminants l autre pour les pronoms Les emplois pronominaux sont occup s essentiellement par trois formes celui celle et cestui Ce serait l encore l influence du syst me pronominal qui aurait jou Ont en effet t conserv es comme pronoms d monstratifs les formes celui ceux celle celles ressemblant aux pronoms personnels employ s de mani re autonome ui eux elle elles celles sans correspondant pronominal disparaissant comme celi cesti cestui Par ailleurs les formes longues se sp cialisent en moyen francais dans la fonction de pronom alors que dans la p riode pr c dente la d termination focalisante les caract risait Ce serait aussi le contrecoup du remplacement progressif de l accent tonique de mot valeur distinctive encore pr sent en ancien voire en moyen fran ais par l accent en fin de groupe syntaxique la d termination marqu e trouvant dans ci et post fix s le moyen de souligner cet accent de groupe Cette volution est une deuxi me tape dans le mouvement
199. er o N1 ressortit la classe des m decins et N2 celle des art res on dilate une art re coronaire une art re circonflexe etc La d nomination sous langage tient du faux ami Ces sous langages ne sont pas forc ment en effet des sous ensembles de la langue g n rale Certains traits de la langue g n rale s y retrouvent d autres leur sont propres La pr dictibilit de certains arguments peut provoquer leur omission syst matique on ne parlera pas ici d ellipse par exemple dans le domaine de la vinification on sucre est acceptable mais on sucre le mo t qui explicite l argument n est pas un nonc bien form Inversement les sous langages peuvent recourir des patrons syntaxiques particuliers qu il serait difficile d int grer tels quels une grammaire de langue C est le cas de certains motifs d nominatifs qui forment de v ritables grammaires locales Par ailleurs les sous langages diff rent des langages contr l s Ils r sultent d ajustements lents et pour une large part non raisonn s au sein d une communaut langagi re restreinte Les langages contr l s se caract risent galement par un lexique et une syntaxe limit s mais ils proviennent d une planification linguistique dans des domaines o une communication moins quivoque ou plus concise est particuli rement importante dans l aviation par exemple 36 2 Analyses de sous langages 36 2 1 La m thodologie harri
200. er en chemin en produisant des groupes qui ne sont pas forc ment tous reli s mais qui peuvent d j tre utilis s 13 5 Niveaux d analyse L examen des corpus arbor s existants permet dans Leech et al 1996 p 9 de distinguer par ordre de complexit croissante les niveaux d annotation suivants illustr s sur l exemple utilis supra 13 5 1 1 Simple parenth sage des constituants Ce sont en fait des crochets qui sont le plus souvent utilis s Ce guide leur permet de se familiariser 13 5 1 2 tiquetage des constituants C est la repr sentation fournie plus haut dans cet exemple seules les tiquettes des noeuds pr terminaux sont plus complexes On appelle parsage squelettique skeleton parsing le fait de s en tenir ces deux niveaux voire au premier seul Ce d grossissage syntaxique qui peut tre effectu manuellement relativement faible co t peut suffire certaines analyses automatiques ult rieures recherche de cadres de sous cat gorisation ou servir de base d entrainement un analyseur probabiliste cf chapitre VIII 13 5 1 3 Indication des relations de d pendance Elle fournit les liens entre les gouverneurs Tesni re ou Mel cuk ou t tes et leurs d pendants Leur notation se fait par des fl ches Ces liens relient uniquement des mots la diff rence des grammaires de constituants o les ensembles reli s peuvent correspondre au
201. erformance handicape un parseur intervenant en aval La fiabilit d un tiqueteur donn est valuer l aune des t ches qui vont avoir recours par la suite au texte tiquet les enjeux ne sont pas les m mes s il s agit d analyse syntaxique automatique ou d tude de la r partition de certains patrons morpho syntaxiques Il convient aussi de comparer les r sultats affich s avec ceux qui proviennent d une intervention manuelle M Marcus et al 1993 indiquent l tiquetage manuel a pris peu pr s deux fois plus de temps que la correction d un tiquetage automatique avec un taux de d saccord entre personnes tiquetant peu pr s double et un taux d erreur presque de 50 plus lev Il est en outre extr mement difficile de comparer les performances les jeux d tiquettes leur taille changent d un syst me l autre 37 cat gories pour Chanod et Tapanainen 1995 253 pour Tzoukermann et al 1995 par exemple Le taux d ambiguit d un tiquetage est en effet proportionnel la taille du jeu d tiquettes employ Il faut galement tenir compte la stabilit des r sultats si le taux d ambiguit restant ne varie que faiblement 1 2 96 dans les exp riences d E Tzoukermann et al 1995 selon qu ils emploient un jeu de 67 ou de 253 cat gories 2 5 des formes ont t analys es diff remment Stein et Schmid 1995 p 29 des r sultats relativement divergents sont donc fournis En outre le
202. es deux l ments les plus proches Ce couple constitue alors un nouvel l ment dont on peut recalculer la fois le poids et les distances par rapport chacun des l ments qu il reste classer A l issue de cette tape le probl me se trouve ramen celui de la classification de n 1 l ments On agr ge nouveau les deux l ments les plus proches et l on r it re ce processus n 1 fois au total jusqu puisement de l ensemble des l ments Chacun des regroupements effectu s en suivant cette m thode s appelle un noeud L ensemble des l ments terminaux rassembl s dans un noeud est une classe La repr sentation de la classification sous forme d arbre hi rarchique ou dendrogramme est la repr sentation la plus courante L interpr tation d une telle hi rarchie s appuie sur l analyse des seules distances entre l ments ou classes faisant l objet d un m me noeud i e seules les proximit s entre l ments appartenant une m me classe peuvent tre interpr t es Appliqu e au tableau analys ci dessus la classification ascendante hi rarchique produit un regroupement en deux sous ensembles relativement distincts les dipl m s du sup rieur d une part et les sans dipl mes d autre part Les groupes de dipl mes interm diaires se r partissant entre ces deux sous ensembles Tableau 5 Classification sur les parties d Enfants A 30 Les classifications effectu es sur l ensem
203. es deux analystes Black et al 1993 p 34 Un logiciel permet de comparer les r sultats de deux analystes sur un m me texte Il sert aussi aux analystes d butants v rifier la qualit de leur travail au regard des annotations d analystes plus chevronn s Enfin un grammairien exp riment effectue une v rification approfondie par chantillonnage sur 1 96 du r sultat Il importe galement de contr ler la coh rence d un annotateur au cours du temps parce que sa compr hension des conventions d annotation et sa finesse d analyse voluent Un corpus n est compr hensible que si l on dispose non seulement des tiquettes utilis es pour les mots comme pour les constituants mais surtout d informations sur le mode d attribution de ces tiquettes et les crit res de d coupage sous jacents listes pour les cat gories ferm es crit res aussi pr cis que possibles pour les cat gories ouvertes assortis d exemples en 233 C Muller 1973 p 10 le disait d j voici longtemps en particulier pour la segmentation la lemmatisation Nous ne connaissons pas d tudes sur ce point Cette absence s explique sans doute par la difficult faire r analyser les m mes donn es intervalles de temps suffisamment loign s ou trouver des donn es diff rentes pr sentant les m mes difficult s d annotation 162 particulier des cas litigieux Parall lement aux corpus annot s se d veloppent pour chaque sch ma d annota
204. es limites entre elles sont sp cifi es de mani re suffisamment d taill e pour que dans l id al deux analystes annotant ind pendamment le m me texte et se r f rant aux m mes conventions soient forc s de produire la m me analyse structurale Sampson 1994 p 169 Enfin Susanne comme le souligne l acronyme Surface and Underlying Structural ANalyses of Natural English vise une annotation 52 PREMIERE PARTIE aussi exhaustive que possible pratiquement tous les niveaux d finis supra y sont repr sent s ibid p 170 son but comparable celui de la taxonomie de Linn au dix huiti me si cle dans le domaine de la botanique n est pas d identifier les cat gories qui sont optimales sur le plan th orique ou qui refl tent n cessairement l organisation psychologique de la comp tence linguistique des locuteurs mais simplement d offrir un sch ma de cat gories et des fa ons de les utiliser qui rende ais aux chercheurs en TALN l enregistrement syst matique et sans ambigu t de l usage r el sans malentendus sur des emplois locaux d une terminologie analytique En ce sens Susanne qui r sulte d une annotation enti rement humaine explore les limites de l annotation syntaxique Nombre des annotations que ce corpus fournit ne pourraient pas tre ajout es automatiquement d autres corpus au moins dans l imm diat En disposer de fa on exp rimentale et sur un corpus de taille r duite permet cependant d
205. es listes de contextes suivantes symptomatologie pr senter OBJ associer OBJ survenir SUJ douloureux pr cordial atypique effort probl me crise pr senter OBJ prolonger OBJ suivre SUJ douloureux la comparaison des distributions tend montrer que pisode est plus similaire de symptomatologie que de crise Formellement les contextes d un nom constituent un ensemble de propri t s ses attributs et le Nous consid rons ici que les mots ont t pr alablement lemmatis s Les marqueurs OBJ et SUJ indiquent respectivement que le nom figure en position objet ou sujet du verbe Dans les r sultats de G Grefenstette la nature des relations entre noms ou entre un adjectif et un nom n est pas explicit e 1994a p 42 Nous n avons pas consid r ici que les groupes pr positionnels durant 45 minutes et sans irradiation devaient tre rattach s pisode Pour l anglais G Grefenstette r sout le probl me du rattachement du groupe pr positionnel par des r gles ad hoc ibid D une langue l autre 105 logiciel mesure le degr de similarit entre deux noms sur la base du nombre d attributs qu ils partagent Dans la liste des voisins d un nom vedette on retient les noms qui en sont le plus similaires condition que de mani re r ciproque le nom vedette figure galement en bonne position dans la liste des similaires de ceux ci C est sur le m me principe que Grefenstette ra
206. es sont peu adapt es au traitement de corpus sp cialis s nous avons montr que les sens de mots propos s par la plupart des dictionnaires lectroniques accessibles en ligne ne permettent souvent pas d exprimer les sens de mots dans un contexte sp cifique Certains emplois sp cifiques e techniques ou simplement jargonnants sont souvent absents des sources vis e g n rale comme WordNet ou le Longman Dictionary of Contemporary English Ces sources sont donc trop peu sp cifiques en ce qui concerne le langage du domaine et trop g n rales parce qu elles donnent une vue vague de la langue ind pendante de toute application Basili et a 1997 p 237 Trop peu sp cifiques dans la mesure o certains mots et certains sens de mots sp cialis s ne sont pas repr sent s Trop g n rales car elles d crivent la diversit des sens de la langue g n rale alors que la polys mie est souvent r duite dans les textes produits dans des domaines sp cialis s Malheureusement les sources sp cialis es font souvent d faut et 121 Soit litt ralement OREILLE DE LAPIN SORTE DE ANTENNE DE TELEVISION PHYTOPLANCTON SORTE DE ETRE VIVANT En anglais on appelle rabbit ear oreille de lapin les antennes de t l vision en forme de V A Bien que des projets pour la construction d ontologies g n rales existent comme le projet Cyc mentionn ci dessus aucune exp rience notre connaissance n a t fa
207. est ensuite divis successivement en classes de mani re dichotomique chaque tape Ce processus aboutit rassembler des formes qui ont tendance se retrouver dans des contextes proches 50 2 L approche factorielle L analyse factorielle des correspondances cr e une typologie qui porte la fois sur l ensemble des parties du corpus et sur l ensemble des unit s par lequel ce dernier est d crit N gligeant toute une partie de l information contenue dans le tableau des distances cette m thode fournit des repr sentations approch es des distances calcul es entre les l ments de chacun des deux ensembles mis en correspondance Les graphiques plans qui sont un des r sultats fournis par l analyse sont en quelque sorte les meilleures repr sentations bidimensionnelles possibles de chacun des ensembles Sur ces graphiques deux parties sont proches si elles emploient les m mes unit s dans des proportions semblables Cette m thode permet de cr er une typologie qui peut s affiner au fur et mesure de la prise en compte des axes factoriels successifs Elle est particuli rement adapt e la mise en vidence des principales oppositions qui sous tendent le corpus Remarquons que la classification ascendante hi rarchique et l analyse factorielle sont des m thodes tr s compl mentaires dans la mesure o l une permet au chercheur de concentrer son attention sur les proximit s locales pouvant exister entre chaque l ment alor
208. et 11 est accessible ladresse http www altavista com Dans le contexte de la recherche documentaire le mot terme d signe cl d indexation 108 DEUXIEME PARTIE ceux l seulement Dans la pratique il faut trouver le meilleur compromis entre rappel et pr cision L indexation est l tape clef de ce processus de recherche documentaire Comment repr senter le contenu d un document Les clefs d indexation sont g n ralement des mots clefs dans l ensemble des mots d un document on s lectionne ceux que l on suppose repr senter le mieux le contenu du document par exemple en liminant les mots les plus fr quents et les moins fr quents suppos s peu discriminants dans l tape ult rieure de s lection des documents 24 1 2 La question de la variation lexicale Dans cette approche par mots clefs qui est sans conteste robuste se pose toutefois le probleme de la variation lexicale Consid rons maintenant une deuxi me requ te d un tudiant en m decine probl me de circulation dans les art res Un syst me fond sur les mots clefs indexe cette requ te comme celle de l automobiliste mentionn e plus haut circulation ET art re extrait donc le m me ensemble de documents qui comporte aussi bien des textes sur la circulation sanguine que des textes sur la circulation automobile En r ponse sa requ te l automobiliste va donc trouver beaucoup de textes m dicaux non pertinents pour lui faible
209. eu beaucoup d connaissances partag es g n rales sp cialis es personnelles 5 Destinateur a variation d mographique sexe ge profession etc b statut individu institution dont l identit est connue 6 Factualit informatif factuel interm diaire imaginaire 7 Objectifs persuader amuser difier informer expliquer donner des consignes raconter d crire enregistrer se r v ler am liorer les relations interpersonnelles 8 Th mes Attacher les valeurs de ces param tres au corpus constitu permet d examiner le lien entre cet ancrage situationnel et la caract risation proprement linguistique du corpus Bibliographie 157 38 NORMALISER UN CORPUS L change des corpus et leur r utilisation ont but jusque r cemment sur l clatement des codages pratiqu s Un travail de normalisation est en cours pour y rem dier Cette normalisation s pare repr sentation physique et repr sentation logique des documents Elle propose des conventions g n rales pour les diff rents types de textes 38 1 Repr sentations logiques SGML Le Petit Robert fournit l entr e suivante pour inguistique phon tique n f et adj 1826 de linguiste N f 1 vx Etude comparative et historique des langues grammaire compar e philologie compar e 2 fin XIX MOD Science qui a pour objet l tude du langage envisag comme syst me de signes La linguistique a pour unique objet l
210. eux un etc Dans la plupart des cas on n autorise pas les liens crois s On examine alors tous les appariements possibles compatibles avec les appariements retenus comme licites On calcule un score refl tant la qualit des corr lations des longueurs des segments contenus pour chaque appariement On retient l appariement dont le score est le meilleur Les r sultats sont entre 95 et 100 d appariements justes Cette famille de m thodes pr sente l avantage de ne pas n cessiter de recours un dictionnaire Inversement l examen gros grain des corr lations entre les deux textes emp che une resynchronisation quand l appariement se d cale un endroit donn La deuxi me m thode prend appui sur les mots apparent s entre deux langues proches gouvernement government par exemple Il ne s agit pas d utiliser un dictionnaire mais de rep rer des distances entre cha nes de caract res par exemple en termes de co t de passage d une cha ne l autre en nombre d effacements ajouts et substitutions 29 Cf aussi Blank 1995 Lang et Gaussier 1995 T che qui est moins vidente qu elle n en a l air Que l on pense aux titres aux num rations aux l gendes de tableaux et de figures aux incises D une langue l autre 143 33 PROBLEMES ET ENJEUX P Isabelle et S Warwick Amstrong insistent ibid p 290 sur la compositionnalit de la traduction la traduction d une unit textuelle est g n r
211. expression polylexicale dans l autre constituent des obstacles plus vidents encore l alignement P Isabelle et S Warwick Amstrong ibid p 292 fournissent une d finition tout fait g n rale de l alignement T1 T2 Fs C Fs T1 Fs T2 Ti est le texte source T2 sa traduction Fs est une fonction de segmentation cf chapitres VII et VIII qui fragmente le texte il peut s agit de mots de phrases de paragraphes de sections C est une fonction de correspondance qui relie l ensemble des segments produits par Fs sur le texte source Fs T1 l ensemble des segments fournis par Fs sur le texte cible Fs T2 Deux m thodes sont employ es pour l alignement La premi re s appuie sur l existence d une tr s forte corr lation entre la longueur d un segment source et celle de sa traduction La seconde utilise les paires particulieres des mots pour mettre en corr lation D autres propositions sont des variations sur ces propositions de base ou encore la combinaison des deux approches La premi re m thode utilise donc la corr lation tr s forte entre la longueur des segments qui sont mis en correspondance traductionnelle ibid p 295 Les segments peuvent tre mesur s en nombre de mots Brown et al 1991 ou en nombre de caract res Gale et Church 1991 Chacun des deux textes est d abord d compos en phrases On se donne un ensemble d appariements licites un z ro z ro un un un un deux d
212. faut lorsqu on se propose de traiter des corpus sp cialis s Deux autres pistes sont explor es La premi re consiste sp cialiser une source lexicale g n rale pour l ajuster un domaine de sp cialit R Basili et ses coll gues tentent ainsi d adapter la taxonomie des verbes de WordNet divers domaines sp cialis s en se fondant sur l information contextuelle apport e par un corpus repr sentatif du domaine consid r Ils distinguent les sens de verbes selon leur appartenance aux 15 grandes cat gories s mantiques de WordNet changement cognition communication contact motion Il s agit de s lectionner parmi les diff rents sens associ s un verbe donn ceux qui sont pertinents dans le domaine et d ajouter les sens sp cialis s qui ne seraient pas repr sent s dans le r seau initial La seconde piste vise constituer les ressources lexicales dont on a besoin Cette construction peut tre manuelle mais cela limite consid rablement la finesse de la description R Basili et a 1993a d crivent une exp rience de ce type ils utilisent une quinzaine de cat gories tr s g n rales action artefact lieu mati re pour tiqueter des textes sp cialis s Elle peut galement tre automatique Il s agit alors d acqu rir des connaissances lexicales sp cialis es partir des corpus du domaine de nombreux travaux se situent dans cette optique nous y revenons au chapitre IV 123 LJorsque les conna
213. ff rents mots qui se trouvent contigus dans le texte et de retenir la combinaison qui 19 Voir Guthrie et al 1994 EE PM Nous distinguons la notion de parent s mantique de la mesure de similarit s mantique La parent qui est g n ralement mesur e comme une distance entre les mots peut recouvrir diff rents types de liens s mantiques synonymie antonymie pr f rence s lectionnelle y compris les relations de similarit qui mesurent plus Sp cifiquement un certain degr de substituabilit des mots en contexte voir supra 3 2 110 DEUXIEME PARTIE minimise la distance globale L originalit de ce travail consiste exploiter au maximum la structure de r seau de WordNet pour mesurer les distances entre les mots et prendre en compte le probl me de la co d termination des sens dans une approche globale de la d sambiguisation Nous d veloppons ces deux aspects apr s avoir montr sur un exemple les r sultats que M Sussna cherche obtenir 24 2 Un article d sambiguis Sur un exemple d article cit par M Sussna 1993 nous montrons quel r sultat peut tre obtenu en exploitant les distinctions de sens de WordNet pour d sambiguiser les sens de mots partir de l article original point a ci dessous un premier traitement permet de s lectionner les mots clefs du document Les noms tant traditionnellement suppos s plus repr sentatifs du contenu d un document que les autres cat gories syn
214. ff rents sens d un mot polys mique et qui repr sente les synonymes par des unit s distinctes m me si elles sont s mantiquement li es Le mode de structuration conceptuel est plus proche du sens des mots que des mots eux m mes et donc mieux adapt l objectif de la d sambiguisation lexicale l inverse quand il s agit d tiqueter un corpus on a affaire des mots Etablir le lien entre un concept ou une primitive ontologique et ses r alisations linguistiques l ensemble des mots qui y renvoient ne va pas de soi L exp rience de mod lisation du projet Menelas Zweigenbaum 1994 a mis en vidence la n cessit de construire un lexique s mantique interface entre une ontologie objet conceptuel et le texte pour faire le lien entre le concept et le mot De la m me mani re les concepteurs de l ontologie Cyc pr voient une interface linguistique L opposition est cependant loin d tre nette Les thesaurus on l a vu sont des objets hybrides et les noms des classes sup rieures de la hi rarchie du Roge s thesaurus words expressing mots exprimants soulignent l ambivalence conceptuelle et lexicale de cette hi rarchie De fait les mots ne s organisent pas facilement en une hi rarchie bien structur e le niveau sup rieur qui est abstrait et qui recouvre des grandes notions peu repr sent es dans le lexique est g n ralement structur in abstracto avec parfois de nouveaux concepts ou termes cr s pour les
215. finir des contextes syntaxiques Seuls les mots appartenant au m me syntagme ou mieux en relation de d pendance syntaxique sont alors retenus comme cooccurrents Pour tudier les contraintes de s lection on consid re ainsi les relations sujet verbe ou verbe objet Church et Hanks 1990 Hindle 1990 tandis qu on prend le groupe nominal comme contexte pour rep rer les classes d adjectifs Assadi et Bourrigault 1995 Cette approche syntaxique suppose de disposer d un corpus arbor ou partiellement arbor et g n ralement d sambiguis sur le plan morpho syntaxique 9 mais elle engendre moins de bruit que l approche graphique les contextes linguistiquement aberrants l association jours pisode dans l exemple ci dessus sont limin s Cela rend cette approche bien adapt e aux corpus de taille moyenne Basili et a 1993a Bouaud et al 1997 Les contextes documentaires enfin sont d finis partir d une unit textuelle paragraphe partie article chapitre document C est ce type de contexte que G Grefenstette d finit pour le calcul des variantes De nombreux auteurs ne retiennent par ailleurs que les contextes les plus significatifs Ce filtrage a posteriori des contextes pr alablement extraits est le Nous n avons pas consid r ici que les groupes pr positionnels durant 45 minutes et sans irradiation devaient tre rattach s pisode Pour l anglais G Grefenstette r sout le probl me du ratt
216. formatique d Alice au pays des merveilles et d une encyclop die Inversement certains formalismes cherchent rendre compte des variations d ordre des mots dans le cadre des grammaires de constituants 42 PREMIERE PARTIE lagage imm diat qui ne conserve que les liens de d pendance pertinents 13 1 3 Notations textuelles Puisque les arbres constituent la notation pr pond rante nous continuons parler de corpus arbor s Le stockage d arbres pour leur traitement informatique suppose de passer d une repr sentation dans le plan une repr sentation textuelle essentiellement lin aire elle figure par l ench ssement la relation de d pendance et par la succession la relation de pr c dence Des dispositifs annexes permettent de d passer les limites des arbres Il s agit g n ralement d indices attach s aux noeuds et de renvois ces indices pour exprimer les autres relations Le format de pr sentation des corpus arbor s varie Il peut tre horizontal c est le cas de cet exemple emprunt la banque d arbres d IBM France Ce DEDEMMS guide NCOMS NJV P leur 6 P permet V VINIP3 P de PREPD Vi se PPRE6MP familiariser avec PREP IN les DARDFP op rations NCOFP P de PREPD IN r seau NCOMS A local AJQMS A effectu es VTRPSFP P par PREP N les DARDMP utilisateurs NCOMP N P A N P Vi P V L tiquette du constituant est souvent fournie deux fois au d but et la
217. gts araissaient deux sommes sur le TALN La premi re Gazdar et Mellish 1989 pr sentait les ormalismes d unification et cartait dans l introduction toute quantification Comme tous ceux qui comptent les moutons le savent bien compter est une t che parfaitement ennuyeuse M me les premiers ordinateurs comptaient vite et bien sans en mourir d ennui G Gazdar et C Mellish ajoutaient propos des index et concordances Aujourd hui de tels travaux continuent sous la r brique linguistique litt rature et ordinateur mais ne rel vent plus de la linguistique computationnelle B Partee et ses coll gues dans leur vaste pr sentation des mod les math matiques pour la linguistique 1990 ne mentionnaient qu une fois en 613 pages les mod les statistiques et probabilistes pour dire qu ils ne seraient pas abord s servir d chantillon du langage Nous pr cisons cette optique au chapitre VI A cette aune nombre de ressources textuelles perdent cette d nomination Il s agit souvent de collections ou de rassemblements de textes lectroniques plut t que de corpus proprement parler Nous empruntons au qu becois le terme parsage parsing pour d signer l analyse syntaxique automatique et le mot parseur parser pour le programme qui effectue cette op ration En recherche d information la pr cision repr sente la proportion de r ponses pertinentes donn es par rapport au total des r ponses extraites
218. guistiques Les tudes existantes en fournissent des caract risations empiriques fines La g n ralit des cat gories d gag es leur lien aux genres et registres intuitivement distingu s par les locuteurs restent travailler Ces r sultats appellent peut tre un renouveau de la linguistique textuelle on attend un mod le de la comp tence textuelle qui int gre les contraintes d taill es mises en vidence Il reste galement explorer le fonctionnement social des types de textes disponibles dans une communaut langagi re donn e Pour Bakhtine Nous ne parlons qu travers certains genres discursifs c est dire que tous nos nonc s poss dent certaines formes relativement stables et typiques pour se constituer en totalit s Todorov 1981 p 129 L organisation de chacun de ces genres est socialement significative Le genre forme un syst me mod lisant qui propose un simulacre du monde ibid p 128 C est le cas des deux types de r solutions de congr s syndicaux voqu s en 2 3 La r solution d clarative ou circonstancielle va de pair avec un refus de tenir un discours global sur la soci t Elle l gif re essentiellement pour le laps de temps qui la s pare du congr s suivant La r solution analytique ou th orique s installe dans l ternel pr sent de la th orie d passant les limites du ici et maintenant L id ologie s y exprime dans de longs d veloppements sans locuteur explicite
219. h nom ne syntaxique bien d fini elle est donc souvent relativement simple par rapport aux nonc s effectivement rencontr s par les parseurs d di s au texte tout venant On manque en tout tat de cause de donn es comparatives Un premier crit re d valuation est celui de la justesse linguistique des r sultats retenus Elle est difficile appr cier On peut tout de m me opposer des analyseurs et partant des corpus arbor s qui visent un simple d grossissage et ceux qui au prix ventuellement d un post traitement important aboutissent des analyses v rifi es et coh rentes au sein du cadre th orique choisi et qui peuvent servir de pierre de touche des par r gles et analyse probabiliste Ce livre r sulte d une collaboration troite pendant cinq ans entre le centre de recherche IBM Watson et l universit de Lancaster UCREL Unit for Computer Research gn the English Language 2 En principe ce corpus doit tre aussi vaste que le permettent les moyens rassembl s La pr cision des estimations qu il autorise en d pend La collaboration IBM Watson Universit de Lancaster a abouti par exemple l analyse manuelle de 800 000 mots Black et al 1993 p 16 Bibliographie 177 recherches linguistiques fines Pour le syst me TOSCA H van Halteren et N Oostdijk 1993 p 155 indiquent que pour les textes de fiction dans 88 96 des cas l analyse juste fait partie des r sultats produits par le parseur
220. h language corpora Fries U Tottie G Schneider P Rodopi Amsterdam 1994 189 200 WARNESSON l Applied linguistics optimization of semantic relations by data aggregation techniques Applied Stochastic Models and Data Analysis 1 1985 121 141 WRIGHT S In search of history English language in the eighteenth century in English language corpora design analysis and exploitation Aarts J de Haan P Oostdijk N Rodopi Amsterdam 1993 25 39 WRIGHT S The place of genre in corpus in Corpora across the centuries Kyt M Rissanen M Wright S Rodopi Amsterdam 1994 101 110 YAROWSKY D Word sense disambiguation using statistical models of Roget s categories trained on large corpora in COLING 92 Nantes 1992 p 454460 ZWEIGENBAUM P MENELAS an access system for medical records using natural language Computer Methods and Programs in Biomedicine 45 1994 117 120 Abeill 18 47 53 accroissement du vocabulaire 189 accroissements sp cifiques 205 acquisition de connaissances 83 92 acquisition des connaissances lexicales 177 adjectif qualificatif 90 relationnel 90 Agirre 82 AlethCat 26 30 alignement 140 align s textes Voir corpus d finition 137 ambiguit 6 morpho syntaxique 165 Amstrong 211 analogie 136 analyse des correspondances 201 analyse du discours 95 analyse multi dimensionnelle 37 analyse syntaxique 105 partielle 44 totale 44 analyse
221. he distributionnelle de la s mantique en d crivent le sens e d finir une mesure de similarit entre les mots deux deux chaque mot tant repr sent par les relations de cooccurrence dans lesquelles ils entrent e exploiter cette mesure de similarit pour construire des classes de mots consid r s comme quivalents selon le point de vue consid r par exemple des synonymes ou des mots relevant du m me domaine ces trois tapes correspondent trois ordres d affinit Grefenstette 1994b trois niveaux de relations entre les mots les relations de cooccurrence de similarit et d quivalence 9 Le travail de G Grefenstette pr sent au chapitre IV suit cette d marche g n rale Nous nous appuyons sur cet exemple dans ce qui suit 45 1 1 D finir un contexte Le choix de la nature du contexte d pend du corpus exploit et des relations s mantiques recherch es G Grefenstette retient le syntagme nominal pour identifier les noms s mantiquement voisins et le document pour construire les familles de mots cf chapitre IV section 2 Trois grandes classes de 1 Nous ne consid rons ici que les relations entre mots mais les affinit s peuvent tre calcul es pour d autres unit s on a vu Ill 2 que Grefenstette calcule des similarit s gntre des expressions en l occurrence des groupes nominaux 1993 T Nous g n ralisons le propos de G Grefenstette en d crivant le troisi me ord
222. herche documentaire Church 1995 et pour l analyse de contenu Lebart et Salem 1994 ou celle des mots fonctionnels Riloff 1995 Seule l exp rience pourra permettre de mesurer l impact de ces traitements et d ajuster les m thodes employ es aux objectifs poursuivis Les r sultats obtenus sont parcellaires Souvent seuls les noms sont pris en compte 1 y a plusieurs raisons cela La fiabilit des analyseurs ne permet pas toujours d exploiter les contextes verbaux La description lexicale des noms dans un r seau comme WordNet est plus riche et plus structur e donc plus exploitable que pour les autres cat gories Enfin les techniques mettre en uvre ou les relations exploiter diff rent on ne d crit pas un adjectif ou un verbe comme on d crit un nom Pourtant la description lexicale des adjectifs et des verbes est importante et des verbes peuvent tre de bonnes clefs d indexation pour les corpus sp cialis s notamment Des m thodes ont t propos es pour d crire les adjectifs ou les verbes mais tout un travail d exp rimentation et de mise au point reste faire pour construire s agit de rep rer le sch ma de sous cat gorisation des verbes Hindle 1990 Resnik 1993 Grishman et Sterling ou les liens d antonymie et les relations scalaires entre les adjectifs Justeson et Katz 1996 Hatzivassiloglou et MacKeown D une langue l autre 119 automatiquement des bauches d entr es de dicti
223. i re dont les mots sont effectivement employ s Cela suppose que le corpus soit homog ne ou du moins que sa variation interne soit n gligeable en regard des ph nom nes tudi s C est une hypoth se forte nous y revenons au chapitre VII Le corpus d termine par ailleurs la couverture lexicographique seuls les mots et les sens attest s peuvent tre d crits puisque de la non attestation on ne peut jamais conclure qu un mot est tranger une langue de sp cialit Les mots faiblement repr sent s dans le corpus sont galement difficiles d crire Les techniques utilis es par SEXTANT supposent que les mots aient un nombre raisonnable d occurrences La description construite partir des 103 occurrences de year est nettement moins exploitable que celles de growth ou therapy qui portent sur deux fois et demi plus d occurrences dans le corpus m dical La qualit et la fiabilit des descriptions lexicographique baissent avec le nombre de contextes dans lequel figurent les entr es e avec la quantit d information disponible Or des mots peu fr quents peuvent tre des termes du domaine et certains emplois rares sont importants d crire parce qu ils sont difficiles comprendre intuitivement On touche l aux limites intrins ques de l approche pr sent e ici Le travail lexicographique ne peut reposer enti rement sur les corpus Mais si les informations extraites de corpus doivent tre contr l es corrig es c
224. ible Deux familles de m thodes permettent d effectuer ces r ductions e Les m thodes factorielles produisent des repr sentations graphiques sur lesquelles les proximit s entre points lignes et entre points colonnes traduisent les associations statistiques entre lignes et entre colonnes e Les m thodes de classification op rent des regroupements en classes ou en familles de classes hi rarchis es des lignes ou des colonnes 50 1 Classer les unit s et les textes Les m thodes de classification ascendante hi rarchique s appliquent aux tableaux double entr e d crits plus haut On peut soumettre la classification soit l ensemble des colonnes du tableau qui correspondent la plupart du temps aux diff rentes parties d un corpus soit celui des lignes de ce m me tableau lesquelles correspondent en g n ral un syst me d unit s textuelles recens es dans le corpus 5 En analyse des donn es on utilise souvent une distance qui est une somme de carr s pond r s dite distance du chi deux Cette distance posseds toute une s rie de propri t s particuli rement int ressantes Lebart et Salem 1994 p 87 Bibliographie 207 50 1 1 Classification ascendante hi rarchique Dans le cas de la classification ascendante hi rarchique on part d un ensemble de n l ments affect s chacun d un poids proportionnel leur importance dans l ensemble et entre lesquels on a calcul des distances On commence par agr ger l
225. ible Puisque les corpus et les outils entrent de plus en plus dans le domaine public les r sultats pr sent s par les recherches sont v rifiables sur les m mes donn es ou au contraire amendables par confrontation avec d autres donn es Les faits deviennent un peu plus t tus Exp rimenter c est aussi pouvoir construire des mod les symboliques ou quantitatifs et les tester sur des donn es Comme l crit J Sinclair 1991 p 100 La langue a l air assez diff rente quand on en examine un grand morceau d un coup Les distinctions tranch es s estompent Aux diff rents niveaux de l analyse linguistique on peut s parer usuel exceptionnel et tout fait improbable On peut d sormais quantifier de nouveaux ph nom nes On peut aussi examiner les corr lations entre des traits linguistiques multiples Mais il reste acqu rir pour la syntaxe et la s mantique une exp rience similaire celle qui a t d velopp e en analyse statistique du lexique Elle permettra d attribuer leur v ritable dimension aux r sultats obtenus actuellement 55 3 Conditions Les linguistiques de corpus se r v leront fructueuses comme domaine de recherche si l on accepte l imparfait c est dire des ressources toujours impures et si s affirment des collaborations soutenues entre linguistes et informaticiens Les corpus annot s comme les outils d annotation reposent sur des approximations L ampleur des moyens r unir force des
226. ible d inf rer une description de la langue consid r e partir des observations faites sur le corpus Pour G Grefenstette cette perspective est r aliste 1994a p 135 les sens g n raux des mots peuvent tre identifi s partir des sch mas syntaxiques et lexicaux dans lesquels ils figurent en corpus et nous avons les moyens de rep rer objectivement ces sens et de les d crire Ses travaux montrent qu il est possible de construire automatiquement des bauches d entr es de thesaurus qui peuvent aussi bien servir de base un lexicographe pour la r daction d entr es de dictionnaires Nous pr sentons dans un premier temps les r sultats qu il obtient Nous en soulignons l int r t lexicographique Nous d crivons ensuite les m thodes qui permettent d obtenir ces r sultats automatiquement partir de corpus Nous terminons en indiquant les limites de cette approche 23 1 Des bauches d entr es de dictionnaires Nous pr sentons ci dessous les exemples d entr es de dictionnaire que donne G Grefenstette ibid annexe 5 pour les mot growth croissance therapy th rapie et year ann e Elles suivent le sch ma suivant Nom vedette donn es quantitatives gt NOM DU CORPUS D ORIGINE Relat i48 liste des noms voisins Vbs 149 liste des verbes op rateurs Exp 15 liste des expressions et de leurs expressions voisines Fam 151 liste des variantes gt Ces entr es ont t construites e
227. ids 146 Massif pesant Un verbe x est un troponyme d un verbe y si on peut dire que x c est y d une certaine mani re Ressources lexicales 93 des approximations Dans WordNet les sens repr sent s par les synsets sont souvent difficiles ma triser pour qui n est pas lexicographe professionnel et ils comportent une part importante d arbitraire C est le cas pour tous les dictionnaires Les cat gories s mantiques tr s g n rales l inverse sont souvent peu contestables car peu discriminantes La hi rarchie des noms la partie la plus stable du r seau repose sur des chaines d hyponymie qui pour la langue g n rale sont le plus souvent approximatives La structuration des r seaux des adjectifs ou des verbes para t moins solide Pourtant l apparition de ressources lexicales de taille importante aussi imparfaites soient elles a donn le coup d envoi des travaux de s mantique partir de corpus Ce sont des dictionnaires sur support informatique ou des thesaurus lectroniques comme WordNet qui ont permis de mettre au point de nouvelles m thodes de d sambiguisation automatique cf IV 3 Et c est l utilisation m me de ces ressources qui permettra d en am liorer la conception La lexicographie lectronique proprement parler n en est encore qu ses d buts de nouveaux moyens de stockage et d investigations induisent de nouvelles structures et organisations de donn es lesquelles donnent voir de nouveaux ph no
228. ie pr c dente La r partition des textes retenus sous les rubriques choisies est elle m me contestable Il y a l une circularit d autant plus g nante que l existence de types textuels distincts parait intuitivement fond e m me s il s av re d licat de l tayer empiriquement 9 2 D gager les corr lations de traits linguistiques D Biber Une autre optique consiste faire merger les types de textes gr ce un traitement statistique de textes tiquet s C est la ligne directrice des travaux de D Biber 1988 1989 Ce dernier examine les cooccurrences entre 67 traits linguistiques dans les 1 000 premiers mots de 481 textes d anglais contemporain crit et oral Ces textes proviennent de LOB et Elle oppose les nonc s reli s au moment de l nonciation emploi du pr sent d embrayeurs comme les pronoms de premi re et deuxi me personne le discours ceux qui effacent cet ancrage emploi du pass simple de la non personne c est ire la troisi me personne l histoire Cet chantillonnage a pour fonction de faciliter la comparaison des distributions de traits linguistiques CT chapitre VII et chapitre IX 24 PREMIERE PARTIE London Lund et rel vent de genres divers articles de recherche reportages conversations nouvelles radiophoniques Les traits tudi s ressortissent 16 cat gories distinctes comme marqueurs de temps et d aspect adverbes et locutions adverbiales de temps et de
229. ification des accords et des compatibilit s s mantiques etc 44 2 Structuration probabiliste Les parseurs reposant sur des r gles butent sur deux types de probl mes comme le rappelle M Rajman 1995 p 158 la couverture linguistique et l ambigu t Couverture les r gles mises au point sont soit trop permissives elles acceptent des nonc s incorrects soit au contraire trop restrictives elles refusent des agencements de mots pourtant valides Ambiguit le nombre d hypoth ses propos es est souvent tr s important cf chapitre 11 L id e g n rale du parsage probabiliste est de remplacer la distinction dk Rajman 1995 fournit une introduction g n rale aux mod les probabilistes pour l analyse syntaxique Black et al 1993 constitue une pr sentation beaucoup plus d taill e la fois en ce qui concerne l apprentissage des param tres d un mod le probabiliste et pour l interaction entre approche 176 binaire acceptable non acceptable pour un couple s quence structure par une probabilit les s quences inacceptables pouvant correspondre alors une probabilit nulle ibid p 159 Les deux probl mes mentionn s trouvent l leur solution Certains agencements sont reconnus comme rares mais possibles D autres prennent une place centrale leur probabilit tant forte La probabilit attribu e chaque structure pour une phrase donn e permet de classer les structures par probabilit croissa
230. ifs venant apr s une lection pr sidentielle surprenante une lection surprenante pr sidentielle L opposition n est pas une opposition de nature mais d emploi Ainsi certains adjectifs relationnels ont galement des emplois qualificatifs Cette politique est conomique Cette formule est tr s conomique Le r sultat est ici dipl me tudes sup rieures ge 30 forme les cat gorie d terminant type d fini forme gens cat gorie nom forme sont cat gorie verbe mode indicatif temps pr sent nombre pluriel personne 3 forme goistes cat gorie adjectif type qualificatif Ces transformations une fois effectu es ont t soumises l analyse quantitative les diff rentes versions tiquet es du texte r duites leurs seules tiquettes ce qui donne pour l tiquetage en parties du discours dipl me tudes sup rieures ge 30 cat gorie pronom cat gorie adverbe cat gorie adverbe cat gorie ponctuation cat gorie verbe encore en liminant le nom du trait retenu dipl me tudes sup rieures ge 30 pronom adverbe verbe Et inversement certains adjectifs d emploi surtout qualificatif peuvent se r v ler relationnels selon le contexte On trouve ainsi dans Menelas syndrome douloureux thoracique o la place de douloureux entre le nom et un autre adjectif relationnel prouve que cet adjectif est ici rel
231. ilit du sch ma de base dont rel ve une expression donn e Une partie des recherches actuelles en syntaxe met l accent sur les contraintes lexicales gouvernant l application des r gles syntaxiques Tout adjectif par exemple n accepte pas la totalit des r gles de formation des groupes adjectivaux ni ne rentre dans toutes les places syntaxiques possibles ant pos post pos apr s copule Nous avons vu au chapitre les restrictions propres aux adjectifs relationnels construction copulative et adverbe de degr sont impossibles Les adjectifs de couleur pr sentent d autres particularit s Barkema examine simplement les variations du patron adjectif absolu nom commun singulier C est sans doute une caract risation encore trop grossi re Cependant s il para t n cessaire d utiliser des cat gories plus fines c est accro tre en amont la difficult de disposer d un corpus la fois suffisamment vaste et tiquet avec suffisamment de finesse 15 3 La variation de termes en langue de sp cialit Pour obtenir les variations possibles de cold war Barkema utilise un programme qui cherche les phrases comprenant war au singulier ou au pluriel et cold pas forc ment conjoints ni dans cet ordre Le tri des s quences effectivement pertinentes est par contre manuel Dans certaines d entre elles cold et war n appartiennent pas au m me syntagme ou bien ne suivent pas la relation de d pendance pr sente dans l expression source
232. ine L objectif est ainsi r sum ibid p 198 La grammaire d un sous langage doit attraper les restrictions d occurrences qui distinguent un champ de discours scientifique d un autre Les tapes de cette mise en vidence sont les suivantes En premier lieu une analyse syntaxique manuelle pour Harris automatique pour Sager d un corpus du sous langage consid r En second lieu une r gularisation syntaxique par mise en phrases l mentaires de type sujet verbe compl ments ventuels Cela suppose des restructurations transformations linguistiquement fond es passage d une nominalisation au verbe correspondant dilatation d une art re coronaire X dilate une art re coronaire passage l actif pour les passifs etc de mani re augmenter les proximit s L interrogation d un expert du domaine permet de disposer des entit s arguments de verbes qui lui paraissent fondamentales Sur cette base les r gularit s op rateur arguments verbe sujet et compl ments permettent de mettre au jour les classes et les sch mas caract ristiques du sous langage 36 2 2 Les analyses r alis es dans ce cadre Les travaux fondateurs sont ceux de Harris et de son quipe sur le discours pharmaceutique et biologique Harris et al 1989 Ryckman 1990 ainsi que ceux de l quipe de N Sager New York University sur le langage m dical Sager et al 1987 ces derniers s appuyant sur un parseur de l ang
233. ins qui sont plus fr quents aussi fr quents et moins fr quents que le mot vedette cette indication pouvant refl ter le degr de g n ralit Pour le lexicographe cette liste donne un premier apercu des relations lexicales autour du nom vedette relations dont il n est pas vident de se faire une id e a priori la lecture du corpus ou m me partir de concordances Cette liste doit tre contr l e parfois mond e ou compl t e la liste des voisins de year semble peu satisfaisante par exemple Le retour aux contextes permet de v rifier le sens dans lequel les mots sont employ s Dans tous les cas cette liste demande tre interpr t e pour que soit identifi e la nature des relations lexicales sous jacentes 23 1 4 Les verbes op rateurs Ces verbes sont introduits par le mot clef Vbs Il s agit des verbes auxquels le nom vedette est r guli rement associ comme sujet objet direct ou compl ment pr positionnel Les verbes sont class s par ordre de fr quence d croissante Cette rubrique renseigne sur les emplois du nom vedette et les relations dans lesquelles il entre On constate ainsi que la croissance growth dans le corpus financier est quelque chose dont le rythme volue slow accelerate maintain sustain continue mais aussi quelque chose qui se pr voit expect forecast En termes de fr quences 3 Le principe du calcul des similarit s qui permet de construire cette liste est expos au chapitre
234. internes chaque cat gorie Le verbe anglais record ou son quivalent francais enregistrer admettent ainsi en langue g n rale trois sens repr sent s par les cat gories de la cognition de la communication et de la perception E Agirre et G Rigau 1996 exploitent de la m me mani re les 25 grandes cat gories de noms de WordNet pour tablir des grandes oppositions de sens Dans Bouaud et al 1997 une cat gorisation gros grain est labor e de la m me mani re partir d une nomenclature m dicale dans la perspective d un tiquetage s mantique de Menelas Si ces sources permettent de d crire des distinctions de sens fines ou grossi res il est g n ralement plus difficile d tablir des distinctions interm diaires Les distinctions et hi rarchies de sens des dictionnaires ou thesaurus ne refl tent pas une description homog ne dans sa granularit De fait dans WordNet certains liens hyponymiques refl tent une proximit s mantique beaucoup plus grande que d autres on trouve des liens qui semblent repr senter pour certains une courte distance RABBIT EARS IS A TELEVISION ANTENNA et pour d autres une longue distance PHYTOPLANKTON IS A LIVING THING Resnik 19953 19 2 Des ressources g n rales ou sp cialis es Il faut galement distinguer les sources qui permettent de d crire la langue g n rale et celles qui rendent compte d une langue sp cialis e Les bases lexicales g n ral
235. ion et des lettres des m decins hospitaliers leurs coll gues non hospitaliers propos de patients communs Mitterrand1 Ce corpus tiquet et lemmatis regroupe les interventions radio t l vis es de F Mitterrand au cours de son premier septennat Il a t constitu par D Labb Institut d Etudes Politiques de Grenoble Il compte 305 124 occurrences et 9 309 formes La qualit du travail d tiquetage et de lemmatisation ainsi que la minutie de la v rification font de ce corpus de taille moyenne un excellent observatoire de la langue g n rale par opposition par exemple Menelas d crit supra Enfants Ce corpus est constitu de r ponses la question Quelles sont les raisons qui selon vous peuvent faire h siter une femme ou un couple avoir un enfant Cette question a t pos e en 1981 2 000 personnes repr sentant la population des r sidents m tropolitains de 18 ans et plus lors d une enqu te effectu e par le Centre de Recherches et de Documentations sur la Consommation CREDOC sous la direction de L Lebart sur les conditions de vie et les aspirations des Fran ais Ce corpus comprend 15 523 occurrences ponctuation non comprise et 1 305 formes Chaque r ponse est pr c d e d indications sociologiques sur la personne interrog e sexe ge niveau de dipl me etc sist e de terminologies scientifiques et techniques t tudi dans une perspective politologique Lab
236. ions qu un op rateur donn impose ses arguments en langue g n rale l argument de mourir peut tre un nom anim mais aussi un nom abstrait a mort d une illusion aux limites extr mement nettes rencontr es dans ce qu il appelle les sous langages langages de disciplines scientifiques ou techniques m ta langage comme celui de la grammaire ou de la linguistique Selon lui ces sous langages se caract risent par un lexique limit et par l existence de sch mas de phrases en nombre fini Ces sch mas ont la particularit d tre 216 On se reportera Biber 1993a 1994 pour une discussion approfondie 217 Le caract re distinctif d un sous langage c est que pour certains sous ensembles des phrases du langage les restrictions de s lection pour lesquelles on ne peut pas fournir de r gles pour le langage dans son ensemble int grent la grammaire Dans un zoue les classes lexicales ont des fronti res relativement tranch es qui refl tent la division des 0910 8 ae Mond en cat gories qui sont clairement diff renci es dans le domaine Sager 29 Harris et al 1989 fournit a la fois le cadre m thodologique global et des exemples d analyses effectives en particulier sur le fran ais elles sont dues alors a A Daladier 152 des combinaisons particuli res de sous classes de mots propres au sous langage en question Ainsi dans Menelas sous diverses formulations se manifeste le sch ma N1 dilat
237. ique 57 62 68 V ronis 17 20 76 111 119 154 156 Vijay Shanker 40 Voutilainen 46 48 147 Warwick Amstrong 139 140 141 142 WordNet 73 75 81 82 83 84 85 86 87 88 89 90 91 92 108 109 110 111 112 113 114 115 117 119 120 181 211 Wright 123 124 125 126 WWWebster Dictionary 77 WWWebster Thesaurus 78 Yarowsky 78 Zweigenbaum 12 80 Cet ouvrage pr sente un panorama de travaux r cents dans le domaine du traitement automatique des textes L ouvrage d crit les principaux types de ressources informatis es actuellement disponibles corpus de textes ayant fait l objet d annotations morphologiques syntaxiques ou s mantiques ressources dictionnairiques proc dures permettant d en richir automatiquement ou semi automatiquement des textes r unis en corpus L utilisation conjointe de ces ressources est illustr e partir d exemples emprunt s des recherches effectives men es dans des domaines tr s divers Au del de la communaut des linguistes et de celle du traitement automatique du langage cet ouvrage concerne les lexicographes les didacticiens les analystes de contenu etc ainsi que tous ceux que leur travail confronte l tude de la langue du discours et des textes Beno t Habert ancien l ve de l ENS de Saint Cloud agr g de lettres modernes docteur de 3 cycle en linguistique et docteur en informatique est ma tre de conf rences en informatique l ENS de Fo
238. ique Technip Paris 1990 ScHMIED J Analysing style variation in the east african corpus of english in Creating and using English language corpora Fries U Tottie G Schneider P Rodopi Amsterdam 1994 167 174 SILBERZTEIN M Dictionnaires lectroniques et analyse automatique de textes Le syst me INTEX Informatique linguistique Masson Paris 1993 SIMARD M FOSTER G ISABELLE P Using cognates to align sentences in bilingual corpora in Proc of the Fourth International Conference on Theoretical and Methodological Issues in Machine Translation TMI 92 Montreal Canada 1992 SIMONIN GRUMBACH J Pour une typologie des discours in Langue discours soci t pour Emile Benveniste Seuil Paris 1975 85 121 SINCLAIR J Preliminary recommendations on Corpus Typology Rap tech EAGLES Expert Advisory Group on Language Engineering Standards may 1996 CEE SINCLAIR J HANKS P Fox G MooN R STOCK P eds Collins COBUILD English Language Dictionary Collins Glasgow 1987 SMADJA F Retrieving collocations from text Xtract Computational Linguistics 19 1 1993 143 177 SOUTER C Towards a standard format for parsed corpora in English language corpora design analysis and exploitation Aarts J de Haan P Oostdijk N Rodopi Amsterdam 1993 197 212 SourER C ATWELL E Using parsed corpora a review of current practice in Corpus based research into la
239. iquettes dans la pratique la plupart des jeux d tiquettes constituent plut t des compromis entre la finesse de la description linguistique et ce qui peut tre attendu pour des raisons pratiques d un syst me automatique d tiquetage On peut recourir un jeu d tiquettes important pour pouvoir distinguer ais ment certains cas d ambiguit quitte se ramener un jeu plus restreint une fois l tiquetage op r Inversement sur certains points le jeu d tiquettes peut en rester des distinctions relativement grossi res parce qu il s av re difficile d obtenir sur des subdivisions plus fines un consensus de la part des personnes d finissant l ensemble d tiquettes utiliser Greenbaum 1993 ou parce que des cat gories trop fines rendraient plus long et plus hasardeux le travail de correction manuelle des r sultats de l tiquetage automatique Greenbaum ibid p 18 donne l exemple de la distinction comptable non comptable importante pour les noms en grammaire anglaise mais difficile tablir avec s ret a fortiori automatiser Il propose alors de s en tenir l opposition ais ment d tectable entre singulier et pluriel A charge pour ceux qui entendent pr cis ment tudier la dimension comptable non comptable d annoter en cons quence leur corpus Par ailleurs les jeux d tiquettes correspondent aussi sur certains points des divergences th oriques r elles Il en va de m me de la
240. is la s quence suivante t l vang liste vang liste pr dicateur lt eccl siastique lt chef spirituel lt personne Ressources lexicales 9 par des cat gories s mantiques g n rales unique beginner person dans l exemple ci desus possession hyperonyme direct de asset pour la sous hi rarchie repr sent e par la figure 3 1 Au sein d une hi rarchie la hauteur est variable selon les zones du lexique concern es les synsets les plus bas se situent 3 10 parfois m me 12 niveaux d cart du sommet De fait si le vocabulaire technique se pr te souvent bien ce type d organisation il est plus difficile de d finir des cha nes hyponymiques entre les mots de la langue courante Kleiber et Tamba 1990 dans lexemple ci dessus on peut se demander si tous les pr dicateurs preacher sont effectivement des eccl siastiques clergyman I faut souligner que les liens hyponymiques d une taxonomie lexicale ne repr sentent pas une distance uniforme Dans la pratique on peut donc distinguer des grandes cat gories g n rales qui forment le sommet des diff rentes hi rarchies ou la totalit des synsets Il est difficile d tablir des distinctions interm diaires G Miller 1993 p 17 consid re qu il existe un niveau fondamental basic level qui permettrait de d finir des cat gories g n riques ou fondamentales situ quelque part entre le sommet et la base de la hi rarchie c est le niveau qui
241. issances ont des d pendances par rapport la t che qui sont connues et constantes on peut faire des ontologies r utilisables pour enelas c est le cas des m dicaments et c est le seul la description du Vidal dictionnaire des m dicaments fournit toute les connaissances n cessaires pour prendre en compte tous les usages que l on peut faire d une ontologie des m dicaments dans un cadre th rapeutique et c est ce cadre qui est sous tendu par la plupart des a M dicales qui ont besoin d une ontologie des m dicaments Charlet et al 1996 Leur d marche consiste identifier pour chaque cat gorie s mantique un noyau de verbes repr sentatifs et rep rer les contextes dans lesquels ces verbes figurent pour construire une description distributionnelle de chaque cat gorie puis assigner un ou plusieurs sens un verbe en comparant sa distribution avec celles des classes s mantiques Ressources lexicales 85 19 3 Des sources plus ou moins informatis es Les ressources utilisables se distinguent enfin par la forme sous laquelle elles se pr sentent Entre les dictionnaires ou terminologies classiques sur support papier et un r seau s mantique dot d une interface volu e comme WordNet il y a divers degr s d informatisation va de soi qu une ressource informatis e permet des traitements plus divers et moindres co ts 19 3 1 Dictionnaires et thesaurus sur support lectronique Les base
242. isse pas forc ment traduire en arbres Autant dire qu une coop ration approfondie entre informaticiens sp cialistes du TALN et linguistes est n cessaire et le restera longtemps Il semble d ailleurs que le monde anglo saxon arrive plus facilement faire coop rer sciences humaines et sciences plus dures comme le montrent les conditions de r alisation de BNC ou de Penn Treebank alors qu en France la division entre lettres et sciences reste extr mement forte ne serait ce que par l existence d universit s distinctes pour chaque secteur Enfin la constitution de corpus est une entreprise de longue haleine et co teuse Elle suppose des moyens financiers et institutionnels lourds Le consortium l origine de BNC est significatif cet gard On note l alliance de comp tences universitaires en linguistique et en informatique et d entreprises priv es en particulier d diteurs ainsi que le soutien de la puissance publique 40 2 Probl mes juridiques Peu de corpus sont dans le domaine public sans condition aucune l acc s aux documents primaires comme le fait de disposer du regroupement de documents et de leur annotation sont soumises des restrictions diverses La pr sence de donn es personnelles peut faire obstacle la mise disposition de la communaut C est le cas de Menelas M me anonymis les noms propres de personne et de lieux sont remplac s par des cha nes de caract res conventionnel
243. istage de trace disent les informaticiens examiner en d tail le processus m me d analyse d une phrase pour v rifier la pertinence des r gles employ es ajouter des r gles n cessaires etc comme dans le banc d essai de grammaires de l universit de Nim gue Nederhof et Koster 1993 p 174 Ou encore un g n rateur qui produit al atoirement des phrases en fonction des r gles et du lexique utilis s cela permet de rep rer certains incoh rences ou le laxisme sur certains points de la grammaire L utilisation de parseurs pour la constitution de corpus arbor s suppose encore dans une coop ration troite entre linguistes et informaticiens Les Ressources lexicales 71 exemples de telles coop rations sont encore rares le groupe de Nim gue Lancaster Treebank Black et al 1993 et Penn Treebank Marcus et al 1993 16 2 Utiliser des corpus arbor s Pour parler des corpus annot s syntaxiquement on utilise galement les d nominations de banques d arbres treebank et de bases de donn es syntaxiques syntactic database Souter et Atwell 1994 p 142 Ces appellations pourraient faire croire une utilisation ais e des corpus arbor s au m me titre que les bases de donn es du commerce Il n en est rien Au sens informatique une base de donn es associe des tables d information repr sentant des relations dans un sens assez proche de celui de la th orie des ensembles et des m thodes pour exprimer des
244. it des classements nuanc s qui comportent toujours des zones d ind termination la mati re sur laquelle elle op re est minemment continue et il est rare qu on puisse y tracer des limites nettes elle exige la plupart du temps un examen attentif de l entourage syntagmatique et paradigmatique avant de trancher La statistique dans toutes ses applications ne va pas sans une certaine simplification des cat gories elle ne pourra entrer en action que quand le continu du langage a t rendu discontinu D 47 1 Normes de d pouillement Malgr les connotations v hicul s par le mot norme dans le domaine linguistique la notion de norme de d pouillement doit tre ici comprise comme une exigence de standardisation provisoire des textes contenus dans un corpus Cette standardisation est destin e avant tout les rendre comparables les stabiliser le temps d une exp rience Nous allons illustrer sur un court extrait de Mitterrand les probl mes li s l tablissement d une telle norme Le premier fragment de texte tat A correspond au texte tel qu il a t saisi au d part tat A Texte de d part Je crois qu on ne peut que souhaiter cela Le 14 juillet c est sans aucun doute et c est fort important l occasion d une revue d un d fil d une relation directe entre notre arm e et la nation Le second Norme B montre le m me extrait du corpus apr s quelques transformations de surface destin es
245. it par des entr es distinctes soit par les premi res divisions de sens Ainsi pour l anglais bank on peut diff rencier l tablissement bancaire et la berge pour le fran ais cours on peut distinguer les sens de coulement et de enseignement sans pour autant prendre en compte toute la diversit des sens donn s par les dictionnaires Les dictionnaires donnent par ailleurs des distinctions de domaine m decine l gislation technique qui sont elles aussi exploitables dans la perspective de la d sambiguisation lexicale Guthrie et al 1991 Ces distinctions grossi res peuvent galement tre obtenues partir de thesaurus Il faut alors tirer parti du haut de la hi rarchie des sens Ces bases lexicales sont g n ralement structur es comme un ensemble de hi rarchies distinctes chacune tant domin e par une cat gorie s mantique g n rale Pour un mot on peut ainsi distinguer des grandes familles de sens sur la base de l appartenance des sens l une ou l autre Dans l dition de 1972 120 Dans la 9 dition ll s agit plut t de grandes familles de sens que de vrais homographes ces sens pouvant tre d riv s les uns des autres Ressources lexicales 83 de ces hi rarchies C est l approche de R Basili et al 1997 p 248 qui ne retiennent pour travailler sur les verbes que 15 grandes cat gories de WordNet perception motion cr ation changement et ignorent les distinctions plus fines
246. ite pour utiliser ces ontologies pour le traitement de corpus 84 PREMIERE PARTIE celles qui existent ne peuvent pas tre r utilis es dans une perspective diff rente de celle pour laquelle elles ont t con ues initialement L exp rience de Charlet et al 1996 est instructive cet gard Travaillant dans le domaine m dical o les exp riences de ce type sont anciennes ces auteurs ont cherch pour mod liser le domaine des maladies r utiliser une base de connaissances pr existante Unified Medical Language System UMLS Humphrey et Lindberg 1989 pr cis ment con ue comme un r seau s mantique unifi pouvant tre utilis dans diff rentes perspectives Cette tentative s est sold e par un chec et les deux principales raisons invoqu es ne sont en rien sp cifiques cette exp rience La premi re concerne la couverture du domaine M me si UMLS est une base de connaissances sp cialis e les auteurs font un constat similaire celui que fait R Basili pour les ressources lexicales g n rales ils ont du enrichir certaines parties de la hi rarchie La seconde est plus fondamentale l ontologie d un domaine d pend d un point de vue sur ce domaine et de la t che qui est vis e et de la t che pour laquelle elle a t con ue elle n est donc r utilisable que dans la mesure o la t che demeure la m me ce qui est rare Les ressources lexicales font donc particulierement d
247. itement lexicographique de G Grefenstette 1993 mais cette piste est explor e par d autres auteurs pour la mod lisation d un domaine notamment En interpr tant le score de similarit entre les mots comme une mesure de distance entre des objets on peut appliquer les m thodes de classification automatique pour construire des classes de mots Il s av re cependant que les classes induites partir de corpus sont difficiles exploiter Les m thodes purement inductives produisent des regroupements de mots h t rog nes Pour construire des cat gories s mantiques coh rentes il faut corriger ces premiers r sultats en fusionnant ou en scindant certaines classes pour obtenir une granularit r guli re en liminant les intrus parfois en reconstituant la main des classes compl tement clat es Pourtant si l on consid re l ampleur et la difficult de la t che consistant donner une description lexicale de l ensemble des mots d un corpus et d un corpus sp cialis notamment il s av re que les connaissances lexicales induites partir de corpus aussi bruit es et imparfaites soient elles sont pr cieuses Ce sont des bauches qui proposent une premi re organisation du mat riau lexical et permettent d amorcer le travail de description A Mikheev et 5 Finch 1995 soulignent par exemple l int r t de ces m thodes de classification pour la mod lisation des connaissances d un domaine construction de clas
248. itrine ne pourra pas tre transform de la m me mani re l adjectif poitrinaire a le sens d atteint de tuberculose poitrinaire et n est pas l adjectif relationnel qui serait n cessaire pour le d clenchement de cette m ta r gle Une m ta r gle peut dans des conditions bien d finies s appliquer sur les r sultats d autres m ta r gles Les deux m ta r gles vues pr c demment peuvent par exemple se combiner pour engendrer la variation potentielle fonction adjectif du ventricule gauche Z Pour ajouter ces contraintes on associe poitrine le trait adjectif relationnel sans et poitrinaire le trait nom base sans par exemple Ressources lexicales 63 C Jacquemin a mis au point par exp rimentation sur diff rents corpus les m ta r gles n cessaires pour rendre compte des transformations effectivement rencontr es pour les termes techniques de plusieurs corpus techniques m decine m tallurgie Toutes les variantes potentielles pr vues par les m ta r gles et leurs combinaisons partir d un ensemble de descripteurs du domaine sont engendr es 15 3 3 Rep rage des variations syntaxiques engendr es L analyseur robuste FASTER d velopp par C Jacquemin recherche ces variations dans un corpus du domaine le plus souvent tiquet au pr alable C est un analyseur tr s particulier il se cantonne un type de composant syntaxique le groupe nominal et s en tient aux groupes qui comprennent certai
249. l accusatif latin S ajoute parfois c est le cas pour les d monstratifs un second cas r gime singulier issu du datif latin Au total 14 formes diff rentes 28 si l on inclut celles pr fix es en A partir du XVII si cle le paradigme des pronoms Celui ci vient est totalement s par de celui des d terminants Cet homme vient Une tape marque le passage d un syst me l autre Au XII si cle apparait au nord de la France une nouvelle forme de cas r gime masculin pluriel ces toujours d terminant va ensuite tre employ galement au f minin pluriel Fin XII d but XIII si cle appara t ce d terminant masculin singulier au cas r gime employ uniquement devant un mot commengant par une consonne ce chevalier C est en fait un nouveau paradigme qui merge le troisi me ce ces uniquement d terminant et toujours atone sans opposition de genre au pluriel et s mantiquement indiff renci pas d opposition proximit loignement Ce changement profond n a pas d quivalent dans la plupart des autres langues romanes o les formes de d monstratifs continuent tre employ es la fois comme d terminants et comme pronoms Il reste nigmatique les changements phon tiques ne suffisent expliquer ni la sp cialisation globale des paradigmes ni la s lection des formes survivantes au sein de chaque paradigme L objectif de C Marchello Nizia 1995 p 115 181 est d expliquer dans le d tail la
250. lagage qui remplace la combinatoire par les deux seules suites licites de cat gories On utilise alors des r gles n gatives D autre part certaines formes permettent d dicter des r gles positives Elles imposent en effet des contraintes fortes sur celles qui les pr c dent ou les suivent imm diatement Ainsi me ou te sont suivis soit d un pronom clitique me le donne puis d un verbe soit directement d un verbe On peut alors s appuyer sur cette information pour liminer des ambiguit s Dans me le garde le ne peut tre qu un pronom clitique et garde qu un verbe De telles formes servent de levier pour d sambiguiser une partie de leur entourage On parle d ilots de confiance Les clitiques post pos s et reli s par un trait d union offrent galement de tels appuis dans Route t il correctement le courrier route ne peut tre qu un verbe Les formes nouvellement d sambiguis es servent leur tour de point d appui les lots de confiance vont croissant Les outils de d sambiguisation sont donc de mani re g n rale des grammaires locales Silberztein 1993 qui prennent en entr e le graphe correspondant la projection des diff rentes tiquettes sur le texte et liminent une partie des chemins de ce graphe ou inversement qui rajoutent des chemins par exemple pour rendre compte des unit s complexes comme M El B ze et T Spriet 1995 p 52 53 donnent des chiffres proches Bibliographi
251. lais L examen d autres domaines est rapport dans Grishman et Kittredge 1986 La communaut du TALN tant anglo saxonne que fran aise s est souvent inspir e de l approche harrissienne des sous langages pour traiter les domaines restreints auxquels elle est souvent confront e 36 3 Evaluation et perspectives Curieusement en France dans la communaut linguistique la conception harrissienne des sous langages a eu peu de post rit en dehors des travaux d Anne Daladier 1990 Les travaux autour de Maurice Gross disciple de Harris se sont centr s sur les propri t s des entr es lexicales de la langue 222 Of Daladier 1990 P 75 Les cat gories d analyse du contenu informatif de ces textes ont t pour la plupart induites en employant des m thodes d analyse distributionnelles de la formulation de l information dans ce domaine Seules les cat gories l mentaires c est dire celles dont le sens ne d pend pas d autres cat gories et qui sont repr sent es pour cette raison comme des arguments terminaux de cat gories ou de combinaison de cat gories de niveau sup rieur ont t directement introduites par des du domaine e de facon non constructive D autres travaux men s dans cette optique se sont inspir s de nomenclatures existantes en m decin 154 g n rale En outre l accent porte sur une caract risation avant tout syntaxique la s mantique est con ue comme trop peu formalis
252. latifs une m me partie fournit une description de cette partie par la mise en vidence des termes qu elle sur emploie ainsi que celle des termes qu elle sous emploie Voici titre d exemple dans le tableau 4 ci dessous les formes jug es sp cifiques c est dire les formes tout particulierement sur repr sent es resp sous On trouve un panorama des applications de ces m thodes aux textes socio politiques dans Habert 1985 206 repr sent es dans la partie du corpus qui correspond aux plus dipl m s 50 APPROCHES MULTIDIMENSIONNELLES Chacune des dimensions du tableau rectangulaire consid r plus haut permet de d finir des distances ou des proximit s entre les l ments de l autre 28 Ainsi l ensemble des colonnes dans notre cas les parties du corpus permet de d finir l aide de formules appropri es des distances entre lignes ici les unit s appartenant un syst me d annotation De la m me fa on l ensemble des lignes permet de calculer des distances entre colonnes On obtient ainsi des tableaux de distances auxquels sont associ es des repr sentations g om triques complexes d crivant les similitudes existant entre les lignes et entre les colonnes des tableaux rectangulaires analyser Le probl me est alors de rendre assimilables et accessibles l intuition ces repr sentations au prix d une perte de l information de base qui doit rester la plus petite poss
253. le des questions de ce type il faut recourir aux m thodes de la statistique multidimensionnelle Le point de d part des diff rentes m thodes qui servent organiser la description comparative des parties d un corpus est un tableau double entr e que l on constitue en croisant les parties du corpus et les diff rents types qui constituent le syst me d unit s pr alablement choisi 282 Le calcul d cart r duit employ ici compare l cart de la r partition observ e dans chaque tranche une r partition th orique Bibliographie 203 Parties Unites textuelles Figure 4 Tableau de d part pour les analyses statistiques A l intersection de la ligne correspondant l unit et de la colonne correspondant la partie j on trouve un nombre gal la fr quence de l unit j dans la partie du corpus La fr quence de l unit dans le corpus est gale Fj La longueur de la partie somme de toutes les occurrences de la partie j est gale fj 49 1 Organiser la partition du corpus A partir d un m me corpus il est possible de constituer toute une s rie de partitions diff rentes par metteur ou par groupe d metteurs si le corpus est plurilocuteur en fonction de la date de r daction etc On peut ensuite d crire chacune des parties ainsi constitu es par des syst mes de d comptes faisant intervenir des unit s de diff rents niveaux lemmes formes graphiques cat gories grammaticales
254. le helicopters h licopt res rappelant l poque de la guerre froide cold war helicopter program programme achat d h licopt res digne de la guerre froide the EH 101 cold war helicopters h licopt res EH 101 concus pour la guerre froide cold war helicopters h licopt res de la guerre froide Ces contextes r currents sont appuy s par la paraphrase suivante helicopters to fight the cold war h licopt res destin s la guerre froide e des contextes qui pr cisent les parties prenantes du conflit larv the Moscow Washington cold war La guerre froide entre Moscou et Washington helicopters for the cold war with the Soviet Union h licopt res pour faire la guerre froide avec I Union sovi tique The cold war between the two blocs cette guerre froide l entre les deux Blocs e post cold war nom o le nom en question renvoie une dimension temporelle modifi par le syntagme post cold war the post cold war environment le climat d apr s guerre froide in a post industrial post cold war world environment en cette p riode postindustrielle et d apr s guerre froide In a post industrial post cold war environment l re postindustrielle la guerre froide tant chose du pass 140 DEUXIEME PARTIE the post cold war era dans l re de l apr s guerre froide post cold war world depuis la fin de la guerre froide the post cold war situation l apr s guerre froide
255. le sur les emplois que cette unit trouve dans le corpus faisant appara tre des r gularit s qu une lecture cursive du corpus n aurait pas toujours r v l es Cependant d s que le nombre des contextes est un peu lev les mises en contextes ainsi r alis es comme les concordances etc deviennent des objets difficilement manipulables m me sous forme informatis e L organisation de ces listes d finition et ordre de pr sentation des contextes influence tr s fortement la perception de divers ph nom nes relatifs la forme p le Le tableau 1 regroupe quelques lignes extraites des 5 030 contextes de la forme je dans Mitterrand1 Ces contextes sont tri s par ordre alphab tique d apr s la forme qui suit le p le Une telle approche permet de remarquer en inspectant l ensemble des lignes de contexte r alis es pour cette forme que les occurrences de je sont prises dans des r p titions plus longues je le crois je le dis etc Tableau 1 Extrait d une concordance de la forme je dans Mitterrand ue la france qui a acquis je le crois la confiance et le respect res personnels aussi et je le crois qui se r f rent la moral cer des propositions pour je le crois saisir le monde entier du rt des facilit s qui ont je le crois sauv le secteur du textil Bibliographie 191 ation de la fin du si cle je le crois tout fait sans quoi je n n souvient aussi cela est je le crois tout fait venu de consi
256. les ce corpus fournit des informations personnelles ge sympt mes traitements qui permettraient ventuellement de retrouver les patients concern s violant ainsi le droit dont ils jouissent sur les informations les concernant loi Informatique et Libert s L attention s est souvent centr e sur la protection des auteurs et ayant droits des documents primaires les ouvrages inclus dans un corpus La protection de ceux qui ont annot le corpus n est pas moins importante L enrichissement d un corpus par tiquetage ou parsage constitue en effet une plus value consid rable pour la recherche il peut servir de base de nouvelles annotations apprentissage de chaines de Markov ou de grammaires probabilistes Les corpus r sultant le plus souvent de la coop ration de diverses personnes physiques et morales il faut identifier 23 Oxford University Press Longman Group Ltd Chambers Harrap Oxford University Computing Services Unit for Computer Research on the English Language Lancaster University British Library Research and Development Department Ont par ailleurs contribu au financement de ce projet UK Department of Trade and Industry le Science Engineering Research Council ainsi que la British Library et la British Academy A l exception notable de Susanne d chargeable par ftp anonyme Sampson 1994 p 187 black ox ac uk ota suzanne 164 pr cis ment les diff rentes parties prenantes et leurs droits
257. les 100 premi res suffisent assurer une d sambiguisation exacte 96 8 ibid p 557 Ces r gles peuvent s appuyer soit sur les cat gories ventuellement multiples soit aussi sur les mots domin s par les cat gories Pour reprendre les termes de Leech et de ses coll gues 1994 p 61 La guerre contre l erreur est une guerre d usure dans laquelle des strat gies vari es sont employ es mais o il ne faut pas s attendre une solution miracle Le r le de la personne qui corrige a posteriori reste crucial mais l limination de l erreur est une t che qui est petit petit pass e l ordinateur 44 ANALYSE SYNTAXIQUE Nous mentionnons avant tout l analyse syntaxique automatique L analyse syntaxique manuelle n cessite surtout de disposer d un environnement informatique facilitant la t che de parenth sage et de cat gorisation des constituants Elle rend plus cruciale la v rification de l homog n it des 23 Comme l indiquent M El B ze et T Spriet 1995 p 48 il suffit d crire 4 5 r gles pour traiter environ 50 96 des erreurs commises par un syst me probabiliste E Tzoukermann et al 1595 constituent comme autant de modules un analyseur morphologique un ensemble de r gles d lagage et un tiqueteur probabiliste ils les combinent de diverses mani res en retenant 43 possibilit s jouant sur des seuils et des ordres distincts et examinent les performances selon les choi
258. les multiples Elles mettent en vidence des r gularit s qui chappent l observation l il nu Elles d bouchent sur des regroupements de comportements langagiers qui peuvent renouveler nos analyses des d pendances entre niveaux linguistiques Elles manifestent des oppositions qui restructurent notre cat gorisation pr alable des donn es Comme la proto phrase donn e comme sous jacente aux r solutions d claratives Bergounioux et al 1982 p 178 voqu es en 2 3 consid rant le congr s L Pn 3 me personne pr sent que subjonctif d terminan fini z Pour poursuivre la m taphore notons que l apport de ces m thodes a t consid rable en classification des esp ces elles ont permis d am liorer les taxonomies SS ee limit es dans leur capacit percevoir et organiser des corr lations multiples Les corpus arbor s 39 CHAPITRE II LES CORPUS ARBORES Nous montrons dans une premi re section les notations employ es pour rendre compte des relations syntaxiques et nous rappelons la nature des ph nom nes noter Nous pr sentons dans une deuxi me section un corpus arbor Susanne qui repr sente une r alisation exemplaire par la finesse de l annotation produite et par la mani re dont les choix effectu s sont document s La troisi me section est consacr e l utilisation de corpus arbor s et de parseurs pour l tude de la phras ologie La derni re secti
259. les probabilit s Il sert donc un second apprentissage Et ainsi de suite Les unit s polylexicales sont mal prises en compte dans cette approche Ainsi pour reprendre l exemple de M El B ze et T Spriet 1995 les adjectifs et participes plac s imm diatement droite du nom compos cour d appel s accordent avec cour et non avec appel La probabilit d un adjectif ou d un participe pass f minin singulier apr s un nom masculin singulier comme appel sera pourtant donn e comme tr s faible par le corpus d apprentissage juste titre d ailleurs Plus g n ralement les d sambiguisations qui reposent sur un contexte large chappent ce type de m thode Des ambigu t s comme premi re troisi me personne du singulier dans je ne le pense pas il ne le pense pas ne sont pas limin es parce que ces tiqueteurs probabilistes s appuient sur le contexte de la cat gorie pr c dente voire des deux cat gories pr c dentes pour trancher et qu ici il faudrait prendre en compte les trois cat gories pr c dentes Chanod et Tapanainen 19952 L approche probabiliste suppose par ailleurs que le corpus d apprentissage ne pr sente pas des fonctionnements langagiers trop diff rents du corpus tiqueter Dans le cas de BNC un certain nombre de mots comme well et 252 J P Chanod et P Tapanainen 1995b ont ainsi d velopp un tiqueteur qui comprend 75 r gles E Tzoukermann et al 1995 donnent des exemples des r gles
260. lion de mots est bien trop restreint pour tudier la flexibilit des expressions toutes faites et un corpus de 20 millions de mots est trop petit pour trouver un nombre suffisant d occurrences de toutes les expressions idiomatiques Il fournit les chiffres suivants 1993 p 271 272 sur l ensemble des noms compos s r pertori s par LDOCE Longman Dictionary of Contemporary English 88 d entre eux apparaissent une fois ou plus dans les 20 millions de mots du corpus de Birmingham 48 96 plus de 10 fois et 30 plus de 20 fois La proportion de ceux d entre eux pour lesquels une tude de flexibilit est possible s av re donc r duite Donnons un exemple de corpus sp cialis congu pour l tude d un ph nom ne bien d limit G Engwall 1994 p 60 64 se fixe comme objectif au milieu des ann es soixante dix d tudier sur le plan linguistique les mots les syntagmes et les constructions de la prose frangaise litt raire contemporaine travers le roman Apr s avoir consid r l tat des ressources lectroniques de l poque et en particulier le corpus du Tr sor de la Langue Francaise G Engwall retient la p riode 1962 1970 pour pouvoir rendre compte des ann es soixante La d nomination de roman recouvrant des crits bien divers le classement d une bibliographie francaise les Livres de l ann e lui sert de pierre de touche Les listes des meilleures ventes des Nouvelles litt raires et du Figaro litt
261. lui des faux amis partiels Isabelle et Warwick Amstrong 1993 p 302 Max fut arr t par le FBI gt Max was arrested by the FBI versus Max arr ta le moteur Max arrested the engine gt Max stopped the engine Disposer de contextes align s permet de v rifier l ad quation de la traduction qu on se propose d utiliser Il importe alors de pouvoir filtrer les contextes sur des expressions des deux langues la fois Les textes align s servent de ressource pour les termes dont la traduction homologu e dans la langue cible ne correspond pas forc ment une traduction mot mot Le Hansard align montre que les traducteurs utilisent g n ralement droit compensateur pour countervail et parfois droit compensatoire Isabelle 1992 En langue g n rale les textes align s donnent acc s la bonne expression que le traducteur ne trouvera pas forc ment dans un dictionnaire ou des solutions auxquelles il n avait pas pens mais qui le satisfont et qui lui permettent de varier son expression Voici quelques quivalences trouv es dans le Hansard pour l expression cartes sur table ibid Il a mis cartes sur table He has put his facts on the table D une langue l autre 141 Mettez donc les cartes sur table Put your cards on the table Si c est le cas mettons cartes sur table If that is the case let us get it on the table Peut il jouer cartes sur table Will he come clean with the Canadian
262. m nes Ceci nous am ne souligner avec inqui tude l absence de ressources similaires pour le francais Si la recherche sur les corpus en fran ais peut sans doute tirer profit de l exp rience anglo saxonne pour viter certains t tonnements des probl mes sp cifiques se posent pour chaque langue qui imposent certains ajustements voire la mise au point de m thodes particuli res ou le d veloppement d outils sp cifiques L absence de ressources lexicales informatis e pour le fran ais est d j un frein pour tous les traitements s mantiques Faute de moyens la plupart des travaux fran ais s int ressent l acquisition de connaissances partir de corpus cf chapitre VIII section 5 7 EuroWordnet un projet de construction dun WordNet multilingue t lanc en mars 1996 Vossen 1996 Il concerne initialement l allemand l italien et l espagnol La France accuse un certain retard DEUXIEME PARTIE DIMENSIONS TRANSVERSALES D une langue l autre 95 CHAPITRE IV DES MOTS AUX SENS SEMANTIQUE EN CORPUS 22 DEFINITIONS ET ENJEUX Les travaux sur corpus dans le domaine s mantique foisonnent D une exp rience l autre l objectif est toujours d acc der au sens que v hicule le corpus mais ces travaux pour la plupart assez ponctuels ont des vis es extr mement vari es et s appuient sur des m thodes fort diff rentes Le pr sent chapitre cherche faire appara tre la fois l unit et les con
263. mandchous ne se repr sentent pas le monde de la m me mani re 1 reste que les bases lexicales et conceptuelles diff rent dans leur vis e les unes d crivent le lexique les autres cherchent mod liser le monde ou la repr sentation que nous nous en faisons Les bases lexicales sont parfois utilis es pour construire des cat gories s mantiques et les bases conceptuelles pour d crire les mots mais dans chaque cas ce n est pas leur vis e premi re 18 1 Bases de connaissances lexicales La lexicographie cherche recenser les mots d une langue donn e et les d crire dans leurs diff rents sens leurs relations et leurs emplois Cette description peut se pr senter sous diff rentes formes De mani re classique nous distinguons les dictionnaires les thesaurus et les terminologies 18 1 1 Dictionnaires Les dictionnaires qu ils se pr sentent sous forme papier sur support lectronique ou qu ils soient con us pour le support lectronique qu ils soient sp cialis s ou de langue g n rale contiennent les m mes types d informations s mantiques La figure 3 1 ci dessous en donne un exemple tir d un dictionnaire lectronique anglais 9 Pour une langue donn e les dictionnaires recensent les mots et les expressions consid r es comme lexicalis es et donnent pour chacun une liste de sens organis e en une arborescence de sens et de sous sens Chaque sens est d crit par une combinaison d indications g n r
264. mentionn es par G Miller on peut reconstituer une partie de l information manquante dans l entr e de arbre en recherchant les entr es qui comportent les mots arbre ou plante dans leurs d finitions 19 3 2 Ressources lectroniques Dans les ressources qui ne constituent que les versions lectroniques de dictionnaires traditionnels cependant l information v hicul e par la typographie et la mise en page peut tre difficile exploiter quand elle n est pas purement et simplement perdue Or elle est importante pour l utilisateur elle indique le statut des informations et guide l interpr tation de l utilisateur Pour pr server cette information et la rendre exploitable il faut donc l encoder Nous revenons au chapitre VII sur les principes d un tel encodage L important ici est de distinguer les ressources sur support 86 PREMIERE PARTIE lectronique et les ressources lectroniques en tant que telles dont le codage est con u pour faciliter l acc s par des traitements automatiques pour expliciter le statut des informations donn es et donc en fournir les r gles d interpr tation 19 3 3 Ressources informatis es La mise sur support informatique des ressources lexicales ouvre la voie des nouveaut s plus radicales S affranchir du support papier c est d abord s affranchir de l ordre lin aire La structuration du dictionnaire en entr es distinctes la num rotation des sens et les diverses marques typographiques taie
265. min e par le p re commun C est par l exp rimentation que M Sussna ajuste les diff rents param tres de cette mesure En ce qui concerne la diversit des liens prendre en compte M Sussna montre par exemple en jouant sur les poids des diff rentes relations et en privil giant les chemins hi rarchiques le long des liens hyponymiques que l on obtient de meilleurs r sultats de d sambiguisation lorsqu on exploite toute la richesse des r seaux mixtes comme WordNet contenant la fois des relations hi rarchiques et des relations non hi rarchiques Sussna 1993 Les exp riences men es par E Agirre et G Rigau 1996 qui donnent une densit s mantique dans WordNet comme mesure de la parent entre les sens de mots semblent montrer en revanche que les liens m ronymiques apportent peu la d sambigu sation Les conditions exp rimentales et les mesures tant diff rentes il est malheureusement difficile de comparer ces r sultats Appr hender une parent s mantique sous la forme d une distance entre les sens de mots dans un r seau comme WordNet soul ve ainsi de nombreuses questions De multiples formules sont test es mais il est encore beaucoup trop t t pour tirer une conclusion d finitive sur les param tres prendre en compte et pour se faire une v ritable id e de leur impact sur les r sultats de d sambiguisation Seule l exp rience et le recul permettront de clarifier peu peu cette question
266. mit bas e sur un usage proche du stock des formes lexicales des agr gats proches par le dipl me ou par l ge figure 9 Il faut comprendre que la m thode de calcul ne s appuie aucun moment sur des donn es ext rieures lui permettant d inf rer des proximit s entre tel ou tel agr gat Les rapprochements sont effectu s uniquement partir des comparaisons du stock de vocabulaire employ par les r pondants appartenant un m me agr gat ge dipl me S450 B 50 EU A 50 Be B 50 A 50 S 30 Figure 9 Les 9 classes Age x Dipl me sur le plan des deux premiers facteurs de l analyse Une repr sentation simultan e des formes et des parties sur le m me graphique peut permettre de mettre en vidence les formes qui sont principalement responsables de cette typologie 212 5 ARTICULER DES CONSTATS SUR DES UNITES DIFFERENTES L articulation des r sultats obtenus l aide de telles m thodes partir de diff rentes normes de d pouillement permet une description beaucoup plus s re des contrastes entre les parties du corpus La typologie r alis e sur les parties d pend peu dans le cas qui nous pr occupe des variations dans la norme de d pouillement lemme formes graphiques etc Loin de constituer une g ne pour l interpr tation les clairages compl mentaires projet s par diff rent syst mes d unit s nous aident mieux comprendre les oppositions pouvant exister entre les textes que l on c
267. mme le concept auquel il renvoie il se d finit aussi en opposition tout un ensemble de mots comme si ge chaise tabouret berg re par les connotations de confort d aisance et d importance qu il v hicule arriver dans un fauteuil fauteuil de pr sident par ses emplois m tonymiques le fauteuil de pr sident d signant souvent la fonction de pr sident etc Dans la pratique les bases lexicales et conceptuelles dessinent deux espaces diff rents Leur structure est parfois similaire la relation SORTE DE IS A en anglais de l Intelligence Artificielle et de ses r seaux s mantiques est le pendant conceptuel de la relation d hyponymie entre les mots L opposition est parfois difficile caract riser on voudrait distinguer des cat gories conceptuelles universeles ou du moins ind pendantes de la langue mais force est de constater qu un francophone et un anglophone sans parler des inuits ou des 1 Objet est ici entendre dans un sens large il s agit aussi bien d objets concrets e d entit s abstraites ou d v nements Nous ne parlons pas ici de notion mais de concept Ce terme est utilis en l intelligence Articificelle pour d signer l image mentale que nous nous faisons des en du monde sans pr juger de Ia nature de cette image ou de son rapport au monde reel tog oppose ainsi les d finitions extensionnelles et intentionnelles Cf Kleiber amp Tamba 1990 76 PREMIERE PARTIE
268. mpl mentaire l acquisition terminologique c est dire rep rer les termes d un domaine quelconque qui n ont pas encore t r pertori s Il s ins re dans un contexte industriel la Direction des Etudes et Recherches d Electricit de France DER EDF Une grande entreprise industrielle comme EDF doit maitriser des flux d informations lectroniques immenses rapports de recherche internes articles et publications glan es sur les r seaux documents destin s au public etc Il importe de pouvoir rapidement retrouver l information pertinente dans cette masse de donn es par exemple extraire les documents qui parlent d une notion donn e Pour certains domaines une terminologie a t tablie par des documentalistes ou des terminologues Elle r pertorie les principales notions du domaine et leurs r alisations linguistiques les termes correspondants Elle comprend ventuellement des liens de synonymie d antonymie d hyperonymie Par exemple on trouvera dans la terminologie du domaine du TALN des termes comme analyseur syntaxique formalismes d unification cha nes de Markov un lien de synonymie entre analyseur syntaxique et parseur un lien d hyperonymie entre parseur et analyseur robuste un analyseur robuste est un type de parseur Ces liens sont utilis s pour largir les recherches effectu es un syst me de recherche d information pourra gr ce cette terminologie rapatrier les textes parlant de parseur et d analyseur
269. n Ces entr es de dictionnaires r sultent d un long travail d exp rimentation et d une exploitation judicieuse de techniques simples 23 3 Les limites d une approche empirique Pour bien utiliser un outil comme SEXTANT dans une perspective lexicographique il est galement important d en connaitre les limites L approche d crite ci dessus pr sente certaines faiblesses La rubrique la moins satisfaisante est incontestablement celle des variantes qui m le notamment les variantes orthographiques et d rivationnelles L algorithme de recherche des variantes morphologiques privil gie les variations qui ne portent pas sur l initiale du mot et associe des mots qui ont seulement le Nous entendons par similarit la relation existant entre deux choses similaires c est dire peu pr s de m me nature de m me ordre Petit Hobert dition de 1973 Nous avons recours cet anglicisme parce que le mot similitude n a pas le m me sens ue l anglais relation unissant deux choses exactement semblables Petit Robert dition de 19 di On trouve dans la litt rature Saporta 1990 beaucoup de mesures de distances pour ce type de comparaison G Grefenstette retient une forme pond r e de l indice de Jaccard qui rapporte le nombre d attributs partag s par deux l ments au nombre d attributs poss d s en propre par l un ou l autre 1994a p 48 49 106 DEUXIEME PARTIE m me pr fixe antigen est associ antibody m
270. n cessairement la plus appropri e Cela ne va pas de soi Nous avons vu que des distinctions fines de sens peuvent n tre pas pertinentes pour la s lection de documents voir supra 3 3 1 120 DEUXIEME PARTIE De la m me mani re il n est pas certain que la lemmatisation syst matique Church 1995 ou la morphologie d rivationnelle avec notamment le regroupement des mots appartenant la m me famille d rivationnelle stemming Gaussier et coll 1997 am liore les performances de la recherche documentaire Par ailleurs le travail de G Grefenstette 1993 le montre les traitements linguistiques sont lourds et peuvent souvent tre convenablement approch s parfois supplant s par des techniques frustes 25 4 Mod liser par ajustements successifs C est toujours de mani re empirique qu on cherche rendre compte du sens que v hicule le texte On tente de construire un mod le qui d crive au mieux les effets de sens observ s ou per us Ce mod le n est pas construit a priori il est progressivement mis au point au vu des r sultats obtenus Ce travail d ajustement permet en retour de mieux comprendre la nature des ph nom nes d crits Le volume des textes traiter impose de s affranchir du d tail de tel effet de sens et de la diversit des ph nom nes de surface pour donner une description synth tique du corpus Dans les exemples pr sent s ici comme souvent cette mod lisation repose sur des mesures quanti
271. n de dictionnaire 85 structure de traits 58 structure trait valeur 18 20 39 Sueur 4 24 34 suivi corpus de Voir corpus Susanne 6 7 10 11 16 18 19 21 38 41 44 50 51 157 159 176 Sussna 108 109 110 111 112 113 114 115 117 118 119 120 177 181 symboliques m thodes 5 synonymes 75 77 85 86 87 synonymie 80 87 88 107 liens de 112 synset 86 87 88 89 90 91 92 syntagmatique 103 description 102 tagger Voir tiqueteur TALN 3 Tapanainen 17 164 165 166 167 technique de bas niveau 118 techniques de bas niveau 102 TEI 156 157 terme 57 terminaux noeuds 39 terminologie acquisition 63 Tesni re 40 48 t te 48 65 The Guardian 126 127 128 thesaurus 77 80 81 99 177 sur support lectronque 84 THIEF 193 TLF 193 Todorov 36 TOSCA 44 46 47 170 171 172 tout venant texte 47 trace 69 TransSearch 137 140 treebank Voir arbor s corpus Tr sor de la Langue Frangaise 2 122 146 193 troponymie 91 type 6 249 18 typologie 199 typologie des textes 14 22 fonctionnelle 22 situationnelle 22 typologies situationnelles 153 Tzoukermann 17 165 166 167 168 Uitti 132 UMLS 83 unification formalismes d 47 Unified Medical Language System 83 unit de contexte 192 199 unit s polylexicales 52 162 163 166 van der Linden 54 van Herwijnen 155 250 La feuille de style ayant servi saisir ce document variation terminolog
272. n mod le postul aux r alisations effectives Aarts 1990 C est le courant des linguistiques de corpus ou sur corpus en anglais corpus linguistics Cette utilisation de corpus annot s de grande taille vari s et assortis d outils d exploration puissants permet d observer plus finement les ph nom nes et remet en question une partie des postulats de la linguistique Tout d abord la diversit m me des corpus et le fait que certains d entre eux ont t constitu s pour rendre compte des registres et des genres langagiers permettent des tudes approfondies de la variation langagi re Il est possible d tudier dans le d tail en d passant les caract risations trop globales et donc caricaturales l opposition entre oral et crit l organisation globale des textes mais aussi les 3 Notre analyse est proche de celle de M P FPN ery 1995 Cette d nomination est un calque maladroit de l anglais NLP Natural Language Processing Elle p tit de l h sitation entre langue et langage pour la traduction de language Rappelons qu on entend ar langage naturel une langue de communication par opposition aux langages formels notations ogiques et aux langages artificiels langages de programmation Comme le soulignait A Guillet la langue francaise marque la distinction entre les deux ordres langagiers On dit parle le verlan mais pas parle le Prolog m On se reportera Fuchs et al 1993 pour une pr
273. n parenth s e o chaque parenth se ouvrante est suivie d une t te puis des d pendants de celle ci et ce de mani re r cursive V permet N guide D Ce P leurT 13 5 1 4 Indication des relations fonctionnelles Il s agit de noter les fonctions comme sujet objet direct objet indirect etc Sujet Ce DEDEMMS guide NCOMS NIV P lt Objetindirect gt leur PPCAGMP permet V VINIP3 13 5 1 5 Classification plus fine des syntagmes Elle peut tre assur e par un syst me de traits N genre masc nombre sing Ce DEDEMMS guide NCOMS Nj V mode indicatif temps pr sent 3 P nombre plur leur_PPCAGMP P permet V VINIP3 13 5 1 6 Relations logiques ou profondes Il s agit d indiquer les liens de co r f rence de rassembler les constituants discontinus Dans le cas pr sent un indice entre chevrons peut manifester la cor f rence entre leur et le sujet implicite explicit par 78 Du moins dans les cas o il n y a pas de discontinuit s Ressources lexicales 5 un constituant vide de se familiariser Ce DEDEMMS guide NCOMS NIV P 8 leur 6 P permet V VINIP3 P de PREPD N 8 N Vi se PPRE6MP familiariser Ces constituants vides peuvent servir ensuite faciliter le rep rage des relations pr dicat arguments dans les phrases Marcus et al 1993 p 321 13 5 1 7 Information sur le rang d une unit synta
274. n a ainsi montr comment volue dans A a recherche du temps perdu le champ s mantique du temps lequel devient de plus en plus pr sent et de plus en plus sombre au fur et mesure que l on avance dans l oeuvre Brunet 1983 comment se transforment les id es r volutionnaires dans le discours de Roseli re quelles sont les pr occupations que mettent principalement en avant les jeunes dans les enqu tes d opinion Lebart et Salem 1994 Au del de la seule tude du vocabulaire l ambition de M P cheux avec l analyse du discours est de mettre en vidence sous la diversit des formes rh toriques de surface les phrases l mentaires ou de D une langue l autre 97 base d un discours Il s agit par exemple pour P cheux et ses coll gues de mettre en vidence l ambiguit id ologique du rapport Mansholt Maingueneau 1991 Le recours aux m thodes statistiques a d j permis de renouveler les tudes th matiques Brunet 1991 mais l existence de corpus tiquet s et surtout arbor s ouvre de nouvelles perspectives en mati re d analyse de contenu 22 2 2 Recherche documentaire Dans le prolongement des analyses th matiques l analyse s mantique de corpus int resse galement la recherche documentaire Les codifications traditionnelles des biblioth caires refl tent les th mes principaux des ouvrages Avec l essor des besoins en traitement de l information et le d veloppement d une v ritable industrie
275. n acc s ais aux diff rents types d information Le simple texte m me avec ses indications de pr sentation gras italiques maigre etc n est pas directement utilisable La repr sentation physique doit faire place une repr sentation logique C est l quivalent de la transformation que nous avons op r e lors de la pr sentation de l tiquetage lorsque nous avons 224 N Ide et J V ronis 1995b analysent en d tail le codage des dictionnaires 158 remplac les notations positionnelles par une explicitation des types d information dans une structure trait valeur Le balisage logique d un document revient indiquer sa structure ses subdivisions et leurs relations se r alise en deux tapes La premi re est l identification des l ments possibles pour un texte donn et de leurs relations C est en quelque sorte crire une grammaire de texte C est ce qu on appelle une D finition de Type de Document DTD La deuxi me tape est l introduction des balises choisies dans le document relevant de cette DTD en respectant les r gles dit es pour leur combinaison En adaptant au fran ais la grammaire de dictionnaires fournie par N Ide et J V ronis 1995b et en simplifiant l extr me on peut distinguer les l ments suivants la forme subdivis en orthographe et phon tique et les homographes relevant de parties du discours distinctes inguistique nom et linguistique adjectif et
276. n est pas tout le paradigme de CIST qui s est conserv en devenant pur d terminant Sur six seules deux formes la forme du f minin singulier cette et cele du masculin singulier devant voyelle cet viennent directement du paradigme cist Ce n en provient pas non plus que proprement le pluriel pic ne 6 ces Les autres formes au nombre de quatre cist cestui cez cestes ont disparu C Marchello Nizia s appuie sur un important corpus d ancien et de moyen fran ais Pour l ancien fran ais ont t utilis s seize textes en vers ou en prose ibid p 147 148 soit pr s de 685 000 mots s chelonnant de 1100 environ 1300 environ Ces textes se situent dans le domaine litt raire central dans les recherches des m di vistes et une concordance est disponible pour chacun d eux Ils comprennent 8 237 d monstratifs Pour le moyen fran ais XIV et XV si cles le corpus utilis pour la constitution du Dictionnaire du Moyen Francais INaLF Nancy qui compte environ 4 millions de mots et qui est d origine plus vari e a fourni pr s de 36 000 occurrences de d monstratifs L examen d taill des concordances des formes longues pr fix es en suffix es en ui i ou portant les deux affixes dans le corpus d ancien francais permet de mieux cerner les notions de soulignement d expressivit de renforcement utilis es jusqu alors Ces formes sont en effet employ es en d but de phrase ou de
277. n soumet ces d comptes des traitements statistiques afin de mettre en vidence les variations des diff rentes unit s 46 2 R aliser des typologies de textes et de documents Un courant relativement ancien de l analyse quantitative des textes op re des quantifications dans le but de r aliser des typologies portant sur l ensemble des textes r unis en corpus Le probl me de l attribution d auteur en est un exemple Il s agit de d terminer si tel ou tel texte sur lequel on manque de renseignements pr sente des caract ristiques quantitatives laissant supposer qu il a pu tre crit par un auteur dont on poss de par ailleurs des chantillons de textes On s efforce donc de d terminer des syst mes d unit s discriminantes qui permettent de trancher en mati re d attribution La comparaison des descriptions quantitatives des diff rents textes doit permettre dans ce cas d obtenir des indications qui ne r sultent pas de connaissances a priori sur les textes mais bien des similitudes qu ils pr sentent au plan quantitatif On a recours des m thodes comparables lorsqu il s agit de pr lever parmi un vaste ensemble de documents ceux d entre eux qui peuvent pr senter de l int r t pour une t che particuli re probl me de l indexation et de la r cup ration de documents industriels Pour ce second type d tudes le probl me de la nature linguistique des unit s qui permettent de mener bien les t ches entreprises n est pas ce
278. nalyses Plus int ressant ils se sentaient mal l aise avec si peu d indications sur ce qui tait juste ou faux ils se consultaient les uns les autres et d veloppaient leur propre norme non crite sur la mani re d analyser les phrases ou bien consultaient les traitements fournis dans les grammaires usuelles Les conventions tacites et al atoires d velopp es ainsi pouvaient m me tre mutuellement incompatibles Nous avons fini par c der la demande de standards de codification et le manuel d analyse est devenu de plus en plus d taill jusqu r duire un minimum les zones d incertitude Black et al 1993 p 41 40 CONTRAINTES ET CONDITIONS INSTITUTIONNELLES 40 1 Assises institutionnelles Comme nous l avons vu pour les corpus tiquet s il y a toujours adapter une annotation donn e changement de cat gories rajout de balises soit pour comparer des annotations distinctes sur un m me texte soit pour ajouter supprimer ou changer des cat gories Cela suppose d abord des environnements informatiques adapt s dans l imm diat ils sont cr s au coup par coup et ne sont pas standardis s Cela implique galement une Bibliographie 163 identification fine des transformations et de leur difficult ce qui n cessite une certaine culture th orique et pratique issue de la tradition informatique des langages formels Par exemple nous l avons vu une notation d pendancielle ne se la
279. nce et corpus sp cialis Un corpus de r f rence est concu pour fournir une information en profondeur sur une langue Il vise tre suffisamment tendu pour repr senter toutes les vari t s pertinentes du langage et son vocabulaire caract ristique de mani re pouvoir servir de base des grammaires des dictionnaires et d autres usuels fiables ibid p 10 Brown LOB et BNC constituent des corpus de r f rence les deux premiers uniquement pour l crit le troisieme 210 Par exemple les phrases analys es manuellement l universit de Lancaster 1 million de mots dans le cadre de la collaboration avec IBM Watson Black et al 1993 p 23 ont t extraites au hasard d un ensemble de 20 millions de mots de po de l agence Associated Press Elles ne sont pas cons cutives ce qui ne facilite d ailleurs pas forc ment leur compr hension par les annotateurs John Sinclair ajoute Un corpus est suppos contenir un grand nombre mots L objectif fondamental de la constitution d un corpus est le rassemblement de donn es en grandes quantit s Il P aee de pr ciser ce qu il entend par grandes quantit s G Leech fait cho 1991 P 11 en fin de compte la diff rence entre une archive et un corpus doit r sider dans le fait que ce dernier est concu ou n cessit pour une fonction repr sentative pr cise Bibliographie 147 pour l oral galement Les deux premiers ne r pondent d
280. nche Benveniste 7 135 BNC 2 7 11 20 133 145 147 148 156 159 166 168 211 Bouaud 82 152 178 179 180 Bourigault 63 Bourrigault 178 180 Brill 2 168 211 Briscoe 45 176 Bronckart 24 Brown 2 6 8 11 50 127 145 147 153 181 211 Brown P 141 bruit 6 Burnard 148 Calliope 166 caract res d limiteurs 188 cat gorie conceptuelle 74 78 s mantique 78 universelle 80 cat gorie s mantique 180 18 fine 181 g n rale 90 91 92 grossi re 180 cat gories grammaticales 186 cat gories s mantiques 177 cha nes de Markov 166 168 champ s mantique 178 Chanod 17 164 165 166 167 Chantreau 53 Charlet 83 Charrette 132 Church 2 5 140 141 178 179 192 classe 197 classe de mots 177 180 classe s mantique 179 classification 180 classification ascendante hi rarchique 197 classification automatique 179 180 Classifications descendantes 199 CLAWS 17 168 cl d indexation 106 clef d indexation 117 COBUILD 67 co d termination des sens 113 collection Voir corpus Collins 111 collocativit 69 comp tence 134 compositionnalit 69 concept 74 80 concepts dans WordNet 86 concordances 182 constituants grammaires de 40 contexte 108 d finition de 177 documentaire 104 178 graphique 104 178 phrase 104 significatif 179 syntaxique 178 contexte documentaire 179 contextes 182 contrainte de s lection 178 contr l s langages 150
281. ndl 4 7 12 15 18 19 20 45 122 182 184 185 186 188 190 205 206 208 mod le hyperg om trique 195 mod lisation 80 modifieur 48 monitor corpus Voir corpus de suivi Voir corpus de suivi motif Voir filtrage Muller 183 185 MULTEXT 19 Nederhof 69 170 nettoyage 161 Nevalainen 133 Nim gue corpus de 56 niveau fondamental 90 NLP Voir TALN noeud 197 non terminaux noeuds 39 normalisation 153 norme 185 norme de d pouillement 185 186 normes de d pouillement 187 notion 74 nu Voir corpus Nunberg 163 occurrences 6 ontologie 79 82 Oostdijk 44 46 171 172 paradigmatique 103 description 102 parall les corpus Voir align s textes parent 54 108 136 141 Paroubek 211 parsage 6 parser Voir parseur parseur 6 parsing Voir parsage Partee 5 partition d un corpus 194 PASCAL 68 patron 182 Voir filtrage pattern matching Voir filtrage P cheux 151 Penn Treebank 11 44 46 47 70 71 159 172 175 176 pertinence 106 P ry Woodley 3 9 phrase structure grammars Voir constituants phras ologie 52 tudes linguistiques 52 variation 54 pistage 69 polys mie 80 107 ponctuation 163 pond ration des analyses 178 pr c dence relation 39 pr cision 6 107 pr terminaux noeuds 39 primitive ontologique 80 quantification 135 183 quasi segments 191 Quirk 3 Rajman 170 rappel 6 107 Raumolin Brunberg 128 129
282. ne de correction est alors de l ordre de 475 mots l heure voire 575 ou 675 quand les sorties du parseur sont simplifi es avant correction L valuation faite est la suivante ibid A un taux moyen de 750 mots par heure une quipe d annotateurs temps partiel travaillant 3 heures par jour devrait arriver 2 5 millions de phrases analys es corrig es en un an chaque phrase tant corrig e une seule fois I faut en outre pr voir le temps de familiarisation avec les conventions d annotation syntaxique Black et a 1993 indique ainsi qu il a fallu attendre six mois d apprentissage en moyenne avant que le travail d un annotateur devienne optimal 44 6 Difficult s Tout ne ressortit pas un format d arbre C est le cas des l ments parenth tiques qui forment des structures autonomes non reli es au reste de la phrase Cela suppose que le parseur puisse suspendre l analyse englobante effectuer celle d un tel l ment et reprendre l analyse de plus haut niveau Briscoe 1994 p 98 A supposer que l on arrive analyser automatiquement de telles structures il reste disposer des notations ad quates La distinction entre les arguments d un verbe et ses simples modifieurs s av re extr mement d licate ajouter de mani re coh rente Le dessein dans Penn Treebank tait d ajouter manuellement cette information La difficult rencontr e a conduit faire machine arri re De la m me mani re Susanne n a pa
283. negan et Biber ibid p 251 253 montrent dans le d tail les difficult s d une comparaison des r sultats sur Helsinki et sur Archer pour la p riode approximativement partag e par ces deux corpus 1640 1710 et 1650 1699 respectivement Les principes d chantillonnage diff rent on l a vu La taille r duite des parties correspondant cette p riode pour les deux corpus fait aussi obstacle D une langue l autre 131 les verbes say tell et know montrent une forte pr f rence pour that dans les trois registres tandis que think montre une pr f rence nette pour la construction z ro du moins en m decine et dans les lettres ibid p 250 28 3 3 L volution des d monstratifs en fran ais En fran ais les d monstratifs ont connu un changement morphologique radical Aux XI et XII si cles s opposent s mantiquement deux paradigmes de d monstratifs Le premier d sormais CIST est issu du latin vulgaire ecce iste le second d sormais CIL d ecce ille Le premier exprime la proximit le second l loignement temporel ou spatial soit par rapport l auteur soit par rapport l un des personnages Chacune des formes peut tre aussi bien pronom Cil vient que d terminant Cil chevaliers vient et il existe en outre des formes longues pr fix es par i icelui etc Rappelons que l ancien fran ais poss de une d clinaison opposant deux cas le cas sujet issu du nominatif latin et le cas r gime issu de
284. nes entr es lexicales dans des relations de d pendance bien d finies et ob issant des contraintes fines gr ce aux traits d corant les n uds non terminaux Dans Menelas les m ta r gles appliqu es fonction ventriculaire gauche permettraient de rep rer fonction systolique ventriculaire gauche fonction ventriculaire gauche systolique ainsi que valution de la fonction globale du ventricule gauche et fonction du ventricule gauche Les transformations non pr vues aboutiraient un silence c est dire la non extraction d une variation effective C est le cas de l acronyme attest FVG C est le cas encore du remplacement de la t te par un hyponyme cin tique ventriculaire gauche ou par une p riphrase tat fonctionnel du ventricule gauche 15 3 4 Vers une grammaire de la variation terminologique C Jacquemin distingue au sein des variations possibles les modifications la t te ou un d pendant recoit un modifieur fonction systolique ventriculaire gauche les permutations fonction ventriculaire gauche fonction du ventricule gauche et les coordinations comme l hypoth tique fonction ventriculaire gauche et droite Le tri des variations rapport es par l analyseur entre variantes effectives et bruit s quences non reli es au terme de d part manifeste une dissym trie de ces trois op rations La coordination avec ses contraintes s mantiques d bouche souvent sur des variantes non ambigu
285. nguage Ooostdijk N de Haan P Rodopi Amsterdam no 12 dans Language and computers studies in practical linguistics 1994 143 158 SRINIVASAN P Thesaurus construction in nformation Retrieval Data Structures and Algorithms Frakes W B Baeza Yates R Prentice Hall New Jersey 1992 STEIN A ScHMID H tiquetage morphologique de textes fran ais avec un arbre de d cision TAL 36 1 2 1995 23 36 SUEUR J P Pour une grammaire du discours laboration d une m thode exemples d application MOTS 5 1982 145 185 SUSSNA M Word sense disambiguation for free text indexing using a massive semantic network in Proceedings of the Second International Conference on Information and Knowledge Management Bhargava B Finin T Yesha Y ACM 1993 67 74 244 SVARTVIK J EEG OLOFSSON M FORSHEDEN O ORESTR B THAVENIUS C Survey of Spoken English Lund University Press Lund 1982 TAPANAINEN P J RVINEN T Syntactic analysis of natural language using linguistic rules and corpus based patterns in EACL 95 Dublin 1995 Toporov T M Bakhtine Le principe dialogique Le Seuil Paris 1981 TZOUKERMANN E RADEV D R Using word class for part of speech disambiguation in Fourth Workshop on Very Large Corpora Ejerhed E Dagan l Copenhague Danemark 1996 1 13 USHIODA A Hierarchical clustering of words and application to nlp tasks in 4th Workshop on Very Large C
286. nir les analyses les types d analyses et d analyseurs les niveaux d annotation syntaxique 13 1 Noter des relations syntaxiques 13 1 1 Arbres graphes et relations Les arbres sont le dispositif habituel pour noter les relations syntaxiques La tradition veut que les feuilles soient la base et la racine au sommet On distingue les noeuds terminaux les feuilles et les autres noeuds appel s non terminaux Ces noeuds non terminaux englobent les noeuds pr terminaux qui dominent directement les feuilles Si l on consid re un noeud et ses fils un arbre mat rialise deux relations particuli res celle de d pendance imm diate entre le p re et ses fils et celle de pr c dence imm diate entre un noeud a n et son ou ses cadet s A un noeud est associ e une tiquette SN et ventuellement des d corations une s rie d associations trait valeur du type genre masculin nombre singulier Comme pour l tiquetage morpho syntaxique les tiquettes simples ou complexes se ram nent en fait toutes une structure de traits SN cat SN et SNMS cat SN genre masculin nombre singulier Conceptuellement chaque noeud correspond donc non une tiquette mais une structure de traits Les deux relations de d pendance et de pr c dence ne suffisent pas noter la vari t des ph nom nes syntaxiques Deux n uds fr res s par s par d autres noeuds peuvent constituer une unit discontinue comme la n gation com
287. niveau des phrases TAL 36 1 2 1995 67 80 LAVAGNINO J MYLONAS E The show must go on Problems of tagging performance texts Computers and the Humanities 29 1995 113 121 LE PESANT D Les compl ments nominaux du verbe lire une illustration de la notion de classe d objets Langages 115 septembre 1994 31 46 LEBART L SALEM A Statistique textuelle Dunod Paris 1994 LEECH G The state of the art in corpus linguistics in English Corpus Linguistics Aijmer K Altenberg B Longman London 1991 8 29 LEECH G BARNETT R KAHREL P Preliminary recommendations for the Syntactic Annotation of Corpora Rap tech EAGLES Expert Advisory Group on Language Engineering Standards march 1996 CEE LEECH G BARNETT R KAHREL P Syntactic Annotation Survey of Annotation Practices Rap tech EAGLES Expert Advisory Group on Language Engineering Standards april 1995 CEE LEECH G GARSIDE R ATWELL E The automatic grammatical tagging of the LOB corpus Newsletter of the International Computer Archive of Modern English 7 1983 13 33 Bibliographie 241 LEECH G GARSIDE R BRYANT M The large scale grammatical tagging of text experience with the British National Corpus in Corpus based research into language Ooostdijk N de Haan P Rodopi Amsterdam 1994 47 64 LIBERMAN M Y The Trend towards Statistical Models in Natural Language Processing in Natural Langu
288. nn la notion de parent s mantique repose sur des associations d id es toutes personnelles et on sait que la d finition d un mot varie d un dictionnaire l autre y compris pour ce qui est de la distinction de ses diff rents sens On arrive ainsi un paradoxe On observe l extr me sensibilit des r sultats au mode de calcul utilis aux param tres pris en compte et leurs poids respectifs Par des r glages exp rimentaux on sait construire des mod les op ratoires qui d crivent effectivement les effets de sens dans un corpus donn Pour autant on ne sait pas toujours expliquer pourquoi tel mod le est meilleur que tel autre Pourtant ces exp riences devraient progressivement permettre de mieux comprendre en retour les ph nom nes que lon cherche mod liser La diversit des conditions exp rimentales fait qu il est souvent difficile de tirer des conclusions g n rales sur les propri t s de telle mesure l importance de tel param tre ou l ad quation de tel mod le et nos connaissances en la mati re sont encore parcellaires et fragiles Pourtant l exp rimentation syst matique consistant tester un un diff rents param tres comme le font M Sussna 1993 ou G Grefenstette 1994a la confrontation de diff rentes mesures sur les m mes donn es exp rimentales comme le fait Daille 1994 par exemple commencent porter leurs fruits La convergence des r sultats de diff rents auteurs Sussna 1993 Agi
289. nnaire ici La d sambiguisation est dite totale ou compl te si chaque mot est associ un sens et un seul C est le cas de l exemple donn ci dessus On parle en revanche de d sambiguisation partielle si certains mots ne comporte pas d tiquette de sens ou s il en comporte plusieurs au contraire Pour le verbe sais dans l exemple ci dessus on aurait pu ainsi viter de trancher entre diff rents sens tr s proches et laisser deux tiquettes sais sens l A 1 sens 1 B 1 Le degr de la d sambiguisation est une notion relative D un dictionnaire l autre les distinctions de sens ne se recouvrent pas deux sens distingu s dans l un peuvent tre confondus dans l autre 18 UNE OPPOSITION FONDAMENTALE CONSTRUCTION LEXICALE OU CONCEPTUELLE Une premi re distinction oppose les bases lexicales aux bases conceptuelles les premi res d crivent des mots et les secondes des objets du monde tels que nous nous les repr sentons Mettons cette opposition en vidence partir d un exemple Le mot fauteuil et la notion ou le concept de fauteuil sont deux choses diff rentes Le concept se d finit traditionnellement soit par l ensemble des chaises du monde r el auxquelles il renvoie soit plut t par un ensemble des propri t s un fauteuil est ainsi un si ge comportant g n ralement quatre pieds un dossier et des accoudoirs un si ge tant lui m me un meuble fait pour s asseoir Si le mot fauteuil se d finit en partie co
290. nnaires par des m thodes comme celles utilis es par Grefenstette 1994 Un autre point positif est le recul des illusions en ce qui concerne le traitement automatique de textes tout venant Les conditions instutionnelles r unir les performances des outils existants ainsi que le co t de l obtention de corpus annot s sont d sormais mieux connus Les op rations d valuation des outils et des ressources qui ont t lanc es dans le monde anglo saxon et qui d butent pour la francophonie Paroubek et al 1997 sont salutaires elles fournissent des tats de l art sectoriels et pr cis L observation raisonn e de donn es volumineuses enrichit la pratique linguistique Elle fournit des donn es que l intuition du linguiste aurait refus es tax es d inacceptables ou qu elle n aurait pas pr vues variation d expressions toutes faites et de termes Elle accroit la pr cision des descriptions ou les rectifie en linguistique diachronique par exemple Elle rend manifeste le poids des diff rentes r gles Les traitements multidimensionnels permettent de rep rer des corr lations inattendues et en tout cas non perceptibles directement entre des ph nom nes langagiers relevant de niveaux distincts de l analyse linguistique 54 2 Limites Les ressources pour le fran ais sont encore denr e rare Il n existe pas d quivalents pour le francais de Brown LOB et de BNC pour la langue contemporaine ou d Archer pour l histoire de la langu
291. nne enne enn 90 20 2 1 Des hi rarchies de 90 20 2 2 Des classes d adjectifs i oe ere 91 20 2 3 Des r seaux de verbes nan 92 21 TABLER SUR L EXISTANT eeesseseescceesccsssocsesocsesoecesoececoesscocesceecsceoescecescscesoecesoecesoscesoee 92 22 DEFINITIONS ET ENJEUX 1 0000 csssscessscessscccssccccssccsesssscesssecscssscccsssessesssssessssssssees 95 22 1 UN OBJECTIF COMMUN ACCEDER AU 5 95 22 DES APPLICATIONS VARIEBBS 12r e E ERREUR UNE RETO ATEM E PER 96 22 2 1 ANALYSE CE COWO6HWM ie tec e ote E E tated coh trente ae aveo t Bites 96 22 2 2 Recherche nennen nene esee nena 97 22 2 3 Acquisition de connaissances eese eerte nre nennen 97 23 CONSTRUIRE AUTOMATIQUEMENT DES ENTREES DE DICTIONNAIRE 99 23 1 DES EBAUCHES D ENTREES DE DICTIONNAIRES uses nnne nennen nnne 99 23 1 1 Des donn es quantitatives 100 23 1 2 Le corpus d origine ate ete eget e C 101 23 1 3 Les noms VOlsllSi ciis ciet tese eco ue eee ea ee nn oe eee eed te Deka Ede ee ee a 101 23 1 4 Les verbes op rateurs siennes 101 230 23 1 5 Les CXPTESSIONS echo baru RI ORG I RII EIER PES 102 23 1 6 Les Varianless i oce lcm re o eoi eot ee d ae d ce iex es boned ees 102 23 2 UNE METHODE ENTIEREMENT AUTOMATIQUE s sscccsceesesssseeecesesenseeceesceesauaeeeeesceeseas 103 23 2 1 Un
292. nom who la place de which qui a t choisi pour renvoyer des ant c dents humains Hope 1990 a montr que le choix des marqueurs relatifs dans les oeuvres de Shakespeare et Fletcher tait bas s sur deux syst mes en comp tition Alors que celles de Fletcher sont typiques de l association moderne entre le relatif who et des ant c dents humains l usage suivi par Shakespeare sugg re que ce trait n est pas un facteur aussi significatif pour son choix Pour ces deux crivains donc la s mantique du syst me de marqueurs relatifs a des valeurs diff rentes Le rassemblement de donn es textuelles plus importantes pour un groupe d auteurs contemporains a pour objectif alors de caract riser l usage commun de ce groupe par rapport aux idiolectes de chacun des auteurs Se pose aussi la question de la part de la manipulation stylistique de la langue de l idiolecte et de l usage du moment 28 TUDES DE LA DIACHRONIE Les corpus lectroniques permettent d examiner l volution de certains ph nom nes langagiers sur de tr s courtes dur es d une ann e sur l autre par exemple sur le moyen terme quelques d cennies et sur le long terme on peut alors comparer des tats de langue reconnus comme distincts dans la tradition linguistique ancien francais moyen francais francais classique francais moderne ou examiner les changements au fil des si cles 28 1 La courte dur e J Sinclair a forg le terme de corp
293. ns dipl mes se caract risent par les non r ponses et par le sur emploi du verbe et des cat gories associ es adverbe et pronom les plus dipl m s par le suremploi des adjectifs et de la coordination Le faible nombre des cat gories employ es et le nombre important d occurrences de chaque tiquette d bouchent sur des segments r p t s d tiquettes extr mement nombreux On note la pr sence de syntagmes pr positionnels enchain s chez les bacheliers comme nom pr position d terminant nom pr position d terminant nom ainsi que le poids des adjectifs chez les dipl m s du sup rieur en particulier dans des coordinations nom adjectif coordonnant adjectif adjectif ponctuation 54 adjectif nom adjectif ponctuation nom adjectif d terminant nom adjectif ponctuation d terminant nom adjectif La r duction du corpus aux seules parties du discours fournit une premi re approche de l utilisation du mat riel linguistique selon les types L utilisation de segments r p t s de formes ou d tiquettes est pr sent e dans le apitre IX shar comme dans les deux segments r p t s suivants il s agit en fait de la virgule dans son r le de coordonnant Les corpus arbor s 31 de locuteurs Certains ph nom nes se trouvent cependant cras s par cette r duction le sur emploi significatif de la cat gorie adverbe chez les non dipl m s correspond dans
294. ns un domaine comme utilisables au m me degr par la m thode d analyse propos e Dans le domaine m dical par exemple on trouve cependant diff rents types de textes qui correspondent des situations de communication typiques manuels destin s au futur m decin compte rendus d examens ou de traitements lettres des coll gues sur un patient commun mais aussi articles scientifiques sur de nouveaux traitements vulgarisation etc Les trois premiers types seuls se trouvent repr sent s dans Menelas L analyse s par e de ces trois types montre que le discours didactique n est pas forc ment au moins dans ce cas le meilleur observatoire des r gularit s de ce domaine par souci de g n ralisation il utilise des hyperonymes qui ne se rencontrent pas dans les compte rendus d hospitalisation On y trouve peut tre des r gularit s propres tout discours didactique pluriels g n riques pr sent de v rit g n rale etc qui parasitent la perception du sous langage proprement dit Derni re question donc comment articuler finement sous langages et genres discursifs 37 ARTICULER TYPOLOGIE INTERNE ET TYPOLOGIE EXTERNE La m thodologie suivre pour d limiter l ensemble que l on souhaite repr senter et pour rassembler des mat riaux effectivement repr sentatifs combine pour le moment encore tr s empiriquement une caract risation des situations de communication pertinentes des genres et registres utili
295. nsemble de th mes ne correspond pas au sens que l analyse du discours cherche exhiber sous la forme de phrases de base et pas davantage au sens des mots et locutions que les lexicographes tentent de d crire Nous d veloppons ci dessous en 2 et 3 deux exemples d applications qui s inscrivent respectivement dans le champ de l acquisition de connaissances en l occurrence lexicographiques partir de corpus sp cialis s et dans celui de la recherche documentaire Par leur d marche empirique nous y revenons en 4 ces exemples nous paraissent repr sentatifs des travaux actuels en mati re d exploitation s mantique de corpus D une langue l autre 99 23 CONSTRUIRE AUTOMATIQUEMENT DES ENTREES DE DICTIONNAIRE Le travail du lexicographe pour la langue g n rale consiste le plus souvent fusionner et mettre jour des sources ant rieures existantes Mais laborer des dictionnaires pour une langue sp cialis e suppose de cerner la langue consid r e Le lexicographe doit g n ralement se familiariser avec le domaine par la lecture des textes produits par les acteurs du domaine puis compl ter ses connaissances par des entretiens avec les experts du domaine Le co t de ce travail est indubitablement un frein l laboration de ces dictionnaires sp cialis s et la perspective de pouvoir les construire automatiquement ou semi automatiquement partir de corpus est all chante L hypoth se sous jacente est qu il est poss
296. nstate que le trait cat gorie est utilis diff remment selon les cas Par exemple pour le mot je la valeur de ce trait est 5 c est dire Pronom pour Mitterrand et PROPERS pour Enfants Dans ce corpus l tiquette pr cise donc de mani re relativement transparente le type de pronom dont il s agit On peut alors expliciter les composants d une telle tiquette cat gorie pronom type personnel Il est fr quent que les tiquettes d un corpus ne soient pas atomiques mais complexes on doit les d composer C est le cas pour Susanne ou VVDv est en fait une abr viation pour categorie verbe temps pass D velopper ainsi les tiquettes complexes facilite l lagage e projet europ en MULTEXT de cr ation de ressources linguistiques informatis es monolingues et multilingues et d outils g n riques d annotation et d exploitation de Les corpus arbor s 21 ou l enrichissement des traits attach s un mot 8 4 Types d tiquetage L tiquetage peut tre produit par un programme qu on appelle un tiqueteur tagger ou bien r sulter d une annotation manuelle ou bien provenir d une combinaison des deux Le traitement de gros volumes de textes rend cependant in luctable le recours un tiqueteur 8 4 Etiquetage int gral ou partiel Dans les exemples que nous avons fournis chaque mot fait l objet d un tiquetage On rencontre par ailleurs des textes tiquet s partiellement les renseignements at
297. nt m me de porter des jugements d acceptabilit C est le cas par exemple pour des corpus de langues mortes Ancien Fran ais Anglais m di val etc Mais c est aussi le cas pour des corpus de langues de sp cialit pour lesquels une partie des contraintes syntaxiques et s mantiques restent opaques qui n est pas du domaine L examen des r gularit s rencontr es au sein du corpus est alors un moyen parfois le seul de reconstituer la grammaire sous jacente Enfin m me lorsqu il s agit d un tat de langue correspondant la comp tence langagi re de l analyste un corpus permet d appr cier l importance relative des diff rentes r alisations Certaines constructions par exemple sont extr mement fr quentes d autres rares ou exceptionnelles On peut penser que de tels d calages ne concernent pas vraiment la linguistique en tant que telle Ce serait peut tre la position de J C Milner 1989 p 34 toutes les questions que soul ve la science du langage dans toutes ses versions sont des questions fines d s qu elle d passe la banalit une proposition de linguistique concerne peu de donn es la fois et elle y fait apparaitre g n ralement ce que l opinion courante tiendrait pour des d tails On peut aussi chercher articuler les r gles et le poids compar des diff rentes r gularit s observ es Dans cette conception les r gles ne sont pas toutes sur le m me plan certaines sont ce
298. nt des premiers pas pour chapper cette contrainte et donner un acc s direct certaines donn es Pour autant il n tait pas possible de consulter en parall le plusieurs entr es d un dictionnaire de rep rer des sym tries des parall lismes et plus g n ralement la structure sous jacente un ensemble de mots sans un long parcours de renvois en renvois et un patient travail de reconstitution De la m me mani re pour se faire une id e g n rale de la hi rarchie d un thesaurus il est important de pouvoir varier le niveau de description une approche dynamique que ne permettait pas le support papier L outil informatique permet d sormais de structurer les ressources lexicales sur d autres bases et la multiplication des liens entre les diff rents l ments d information autorise de nouveaux modes de consultation WordNet en est un exemple int ressant cf section 4 9 En cons quence les dictionnaires lectroniques permettent de gagner en coh rence Prenons pour seul exemple le travail effectu sur le fran ais par Warnesson 1985 pour constituer partir de diff rentes sources traditionnelles un nouveau dictionnaire des synonymes reposant sur une d finition formelle de la synonymie comme relation d quivalence La coh rence d un tel dictionnaire en faciliter l exploitation Dans ce domaine de la lexicographie l informatique a d j induit de profonds bouleversements avec notamment de nouveaux mode
299. nt le parsage fruste progresse m me si les t tonnements dominent encore pour les 222 traitements s mantiques Constatons que certaines t ches d annotation sont progressivement automatis es avec ventuellement des phases de pr ou de post traitement On commence mieux cerner ce qui est effectivement automatisable et ce qui ne le sera probablement jamais C est ce que nous avons vu avec l acquisition terminologique chapitre 11 la fronti re entre le rep rage automatique et ce qui rel ve de comp tences humaines peu formalisables se pr cise Il est frappant de constater que certaines de ces avanc es reposent sur des techniques somme toute relativement simples On est tonn par l cart entre les m thodes utilis es parfois frustes et la richesse des r sultats comme l indique E Brill 1995 544 Les m thodes bas es sur les corpus sont souvent capables de r ussir tout en ignorant la complexit r elle du langage en s appuyant sur le fait que des ph nom nes linguistiques complexes peuvent souvent tre observ s indirectement par le biais de simples piph nom nes C est le cas pour l alignement de textes qui utilise parfois une corr lation tr s forte entre la longueur des segments qui sont mis en correspondance traductionnelle Isabelle et Amstrong 1993 que cette longueur soit mesur e en nombre de mots ou en caract res C est le cas encore de la production d bauches d entr es de dictio
300. nt insuffisamment tudi s place de la ponctuation structuration globale des textes et grammaires textuelles articulation langue g n rale langues de sp cialit etc Du c t informatique le succ s pratique du m tissage des traitements r gles et des traitement num riques pose sur le fond la question de mod les qui articulent finement observation et appel la comp tence des locuteurs et l expertise des sp cialistes Une question reste ouverte quelles g n ralisations permettent les multiples constats si fins soient ils op r s sur les corpus annot s 55 PERSPECTIVES Sans nous risquer pr dire l avenir des linguistiques de corpus nous soulignons la fois les menaces qui p sent sur leur d veloppement et les espoirs qui semblent permis Nous terminons par ce qui nous para t tre les conditions d une volution positive du domaine 292 T faudrait en outre mentionner le secteur de l informatique documentaire dont les recherches sont mal connues en linguistique et en TALN bien qu elles soient riches d enseignement pour le traitement des corpus annot s 224 55 1 Menaces Les menaces sont de trois ordres les retards m thodologiques et techniques dans les moyens d utiliser des corpus annot s les dimensions laiss es dans l ombre par les linguistiques de corpus et enfin des impasses intellectuelles Les moyens mat riels de calcul ne cessent de progresser Le versant logiciel des traitements de
301. ntaire l important est qu il y ait correspondance entre la description de la requ te et celle du document Un compromis est trouver entre la finesse de la description des sens et la capacit de l utilisateur pr ciser sa requ te ma triser ce niveau de description On sait en effet que le commun des mortels ne ma trise pas facilement toutes les distinctions de sens des lexicographes Si cette question de la granularit de la description n est pas abord e par M Sussna et il est encore difficile d valuer quel est le bon niveau de description pour la recherche documentaire 24 3 2 La couverture des bases lexicales L exploitation de bases g n rales pour les t ches d indexation pose un probl me de la couverture On a vu chapitre 11 1 supra que les bases lexicales g n rales comme WordNet ne couvrent que partiellement les corpus sp cialis s Or les syst mes de recherche documentaire doivent indexer tout type de texte des textes sp cialis s comme des articles de presse La question de la couverture est donc cruciale Krovetz 1991 indique que 50 60 des mots susceptibles d tre retenus comme clefs d indexation par un syst me de recherche documentaire sont absents du Longman Dictionary of Contemporary English E Agirre et G Rigau 1996 qui travaillent sur un ensemble de textes diversifi s diff rents types d articles de presse textes scientifiques et humoristiques signalent que 11 des noms de leur
302. nte et de garder la ou les structures de plus forte probabilit Un corpus arbor de d part sert l apprentissage du mod le la probabilit des diff rentes r alisations d un syntagme donn est estim e partir de sa fr quence dans ce corpus L utilisation du mod le sur un corpus plus large permet de v rifier l ad quation du mod le et de l am liorer en accroissant le corpus d apprentissage 44 3 Performances et valuation Puisque nous l avons vu l annotation syntaxique peut varier norm ment en complexit il est malais de comparer les r sultats de diff rents parseurs Une des possibilit s encore peu explor e Atwell et al 1994 consiste a aligner plusieurs repr sentations syntaxiques d un m me texte Une version rudimentaire de cette approche Black et al 1993 p 4 consiste r duire l annotation aux parenth sages en liminant toutes les tiquettes pour ne garder donc que les d coupages structurels et leurs emboitements On peut alors ais ment comparer deux parenth sages et rep rer les d saccords C est ce qui est appel ibid le score de coh rence structurelle structural consistency score Une autre optique consiste soumettre un ensemble de phrases de test plusieurs analyseurs et comparer avant tout manuellement leurs r sultats Cette deuxi me d marche sert plut t examiner de mani re fine les r actions des parseurs chaque phrase est centr e autour d un p
303. ntenay Saint Cloud Adeline Nazarenko ancienne l ve de l ENS agr g e de lettres modernes docteur en informatique est ma tre de conf rences en informatique l uni versit Paris X III Andr Salem docteur de 3 cycle en statistique math matique docteur d tat s lettres et sciences humaines est maitre de conf rences en sciences du langage l universit Paris Ill 251 251 18 La feuille de style ayant servi saisir ce document 252 Cet ouvrage pr sente un panorama de travaux r cents dans le domaine du traitement automatique des textes L ouvrage d crit les principaux types de ressources informatis es actuellement disponibles corpus de textes ayant fait l objet d annotations morphologiques syntaxiques ou s mantiques ressources dictionnairiques proc dures permettant d en richir automatiquement ou semi automatiquement des textes r unis en corpus L utilisation conjointe de ces ressources est illustr e partir d exemples emprunt s des recherches effectives men es dans des domaines tr s divers Au del de la communaut des linguistes et de celle du traitement automatique du langage cet ouvrage concerne les lexicographes les didacticiens les analystes de contenu etc ainsi que tous ceux que leur travail confronte l tude de la langue du discours et des textes Beno t Habert ancien l ve de l ENS de Saint Cloud agr g de lettres modernes docteur de 3 cycle en linguistique e
304. nti res lastiques c est dire qu elles peuvent tant t d limiter des groupes nominaux d nominatifs tant t en faire partie C est le cas de sur article d fini ibid p 109 111 En g n ral c est une limite 1 on raccorde le c ble d alimentation sur le coffret de d charge batterie Mais ce n est pas toujours le cas 2 action sur le bouton poussoir de r armement 3 action sur le syst me d alimentation de secours En faire une limite intangible c est liminer 2 et 3 L accepter au sein des candidats termes conduit isoler e c ble d alimentation sur le coffret de d charge batterie qui ne constitue certainement pas une s quence d nominative La solution r side l encore dans l apprentissage endog ne Il porte cette fois ci sur les noms suivis d une s quence sur article d fini contexte droit imm diat Un premier passage sur le texte rel ve tous ces contextes Un second les trie et r partit les noms en deux groupes ceux qui sont productifs avec sur qui figurent dans le texte avec un nombre suffisant d expansions diff rentes introduites par sur article d fini et ceux qui ne sont suivis qu exceptionnellement par sur article d fini Lexter consid re que l expansion des premiers peut tre introduite par sur article d fini et garde alors les s quences ayant pour t te un niveau quelconque ces noms suivis d une expansion introduite par sur article d fini Dans les autres ca
305. ntierement automatiquement partir de deux corpus sp cialis s diff rents MED ou MERGERS cf infra Growth 284 contexts frequency rank 25 MED Relat tumor effect tissue antigen protein development Vbs retard stimulate show follow enhance accelerate Exp growth 14s Pour related words Pour verbs Pour expressions 151 Pour family 100 DEUXIEME PARTIE hormone cf bone marrow parathyroid hormone growth rate cf growth retardation folic acid tumor growth cf body growth tenuazonic acid growth retardation cf dna content body weight body growth cf tumor growth body weight Therapy 256 contexts frequency rank 28 MED Relat test response treatment procedure operation drug chemotherapy dose administration Vbs use respond follow remain receive combine Exp radiation therapy cf survival rate cancer chemotherapy steroid therapy cf inclusion disease cancer chemotherapy hormone therapy cf intra arterial infusion steroid therapy corticosteroid therapy cf connective tissue plama concentration Fam therapeutic Year 103 contexts frequency rank 93 MED Relat woman child patient day week month hour Vbs age occur follow Exp year period cf survival rate hormone therapy Growth 320 contexts frequency rank 139 MERGERS Relat level increase gain loss performance return rise decline flow expansion Vbs say expect slow accelerate
306. ntillon de plus en plus repr sentatif du langage trait Si l on n arrive pas cerner pr cis ment les caract ristiques de l ensemble des productions langagi res il ne reste qu englober le maximum d nonc s possibles terme la n cessit de choisir finirait par s estomper La seconde approche plus sensible aux variations propres aux donn es textuelles constitue des ensembles aux conditions de production et de r ception plus nettement d finies et corr l es leurs caract ristiques langagi res La logique de cette position conduit m me quilibrer en taille les chantillons retenus voire ne pas retenir des empans de texte continus de mani re viter de sur repr senter des lieux du texte particuliers l introduction par exemple Cette technique de constitution des textes par chantillonnage est souvent pratiqu e pour les corpus anglo saxons BNC Archer LOB Brown Helsinki L chantillonnage touche donc la fois le choix des documents int grer et la partie de ces documents conserver Biber 1993a p 222 226 montre les variations des pond rations de certains traits linguistiques selon le genre consid r Les fr quences des tiquettes possibles pour un mot changent Dans LOB pour les textes de fiction known est un passif dans 26 des cas un pr t rit dans 65 96 et un adjectif dans 6 96 Ces proportions passent 65 96 13 et 15 respectivement pour les textes expositifs
307. ntiques qui relient entre eux les sens de mots c est dire les synsets ou concepts Par ailleurs les relations d hyponymie et de m ronymie se distinguent des autres parce qu elles construisent une hi rarchie entre les noeuds qu elles relient Ces liens hi rarchiques d terminent des possibilit s d h ritage au sens o les noeuds h ritent certaines propri t s des noeuds qui les dominent Dans l exemple ci dessus si le noeud COIN porte une propri t h ritable le fait d tre compos de m tal par exemple qui pourrait tre repr sent par un lien m ronymique de mati re entre les noeuds METAL et COIN les noeuds NICKEL et DIME h ritent cette propri t de leur hyperonyme 20 1 3 Quelques chiffres La taille du vocabulaire couvert suffit donner la mesure de l ambition qui a pr sid la construction de ce r seau WordNet comporte 95 600 unit s lexicales diff rentes 51 500 mots simples et 44 100 expressions collocations A ces mots sont associ s quelques 70 100 sens diff rents Le tableau 3 1 montre comment ces unit s et sens se r partissent Tableau 3 1 TJ Noms Verbes Adjectifs Nombre de cat gories 25 14 g n rales 137 Nous reprenons ici la terminologie de WordNet Les chiffres que nous citons sont ceux que donnent Miller et a 1993 Ce sont des approximations ce qui explique l inexactitude des totaux WordNet continue de cro tre 90 PREMIERE PARTIE ASSET MEDIUM OF CHANGE
308. ntral puisque le but ultime est le regroupement de textes La s lection du syst me des unit s de d compte qui sert de base aux comparaison se fait avant tout en fonction de l efficacit pratique de l ensemble de la d marche au regard de la t che consid r e Ces deux types de pr occupation sections 1 2 et 1 2 se combinent parfois en proportions variables dans des tudes particuli res La mise en place de proc dures vis es typologiques pose du m me coup le probl me du choix des unit s les mieux m me de faire ressortir des oppositions 46 3 D celer des corr lations entre ph nom nes Une tude portant sur la r partition des pronoms personnels de la premi re en Le travail de Holmes 1985 pr sente une revue assez compl te des travaux en mati re d attribution d auteur Bibliographie 193 personne dans chacune des huit ann es de Mitterrandi montre que la fr quence d emploi de ces pronoms varie sensiblement au cours du temps On constate sur la figure 1 une tendance l augmentation du pronom je et une diminution du pronom nous Cette tendance s inverse l g rement dans la derni re ann e du septennat Comme on le voit les deux ph nom nes manifestent une certaine liaison au cours du temps 250 nous 200 150 v 1 B wa 50 n 0 Mitt Mit2 Mits Mite Mit7 p riode Figure 1 volution des formes je et nous dans Mitterrand1 On comprend ais ment que ce
309. ntrales d autres p riph riques Les r gles changent alors de statut C est une vision probabiliste de la grammaire Sueur 1982 p 148 150 2 2 Le changement de cap en TALN La tradition des linguistiques de corpus a re u ces derni res ann es un appui vigoureux et inattendu de la communaut du TALN qui a donn un nouvel essor la constitution et l utilisation de corpus annot s Cet appui d coule de la prise de conscience progressive d une inad quation relative des paradigmes utilis s pour le TALN En effet la sophistication des formalismes utilis s ne d bouche pas toujours Intervention radio t l vis e du 2 mars 1986 Ce renfort est soulign comme une heureuse surprise par un linguiste descriptiviste connu G Leech 1991 p 20 Nous sommes maintenant dans une position o la recherche bas e sur corpus a vraiment d coll non seulement comme un paradigme d investigation linguistique reconnu mais comme une contribution cl pour le d veloppement de logiciels de traitement du langage naturel La recherche va probablement susciter non seulement l attention des universitaires mais le financement industriel et public qui sera n cessaire si l on veut obtenir les progr s souhait s sur des syst mes de traitement fiables et efficaces Deux causes sont g n ralement avanc es Tout d abord un syst me de TALN a besoin de ressources dictionnaires grammaires la fois tr s vastes en nombre d entr e
310. ntuelles comme mots compos s ou expressions compos es puis une d sambiguisation par dictionnaires Par exemple analyse des donn es au sens statistique n accepte pas le pluriel pour analyse ni le singulier pour donn es ni le remplacement de des par de le r le de la ponctuation dans l analyse syntaxique voir Nunberg 1990 p techniques prouv es des automates et des transducteurs tats finis lui donnent une grande efficacit 168 des grammaires locales ibid p 154 167 Par exemple la phrase Luc a travaill pour le Minist re de l int rieur admet deux interpr tations ibid p 139 C est de l int rieur que Luc a travaill pour le Minist re et C est pour le Minist re de l int rieur que Luc a travaill y a conflit entre deux unit s polylexicales Minist re de l int rieur et de l int rieur La repr sentation produite signale les deux d coupages Luc a travaill pour le 1 Minist re 2 de l int rieur 2 1 o les indices identifient les deux possibilit s En l occurrence l ambiguit n est pas lev e Dans d autres contextes on peut trancher Des grammaires locales laguent le graphe que constitue le texte dans lequel ont t ajout es les tiquettes des mots simples et les expressions et mots compos s Elles permettent d liminer certains chemins Par exemple lorsqu un mot peut tre pronom clitique ou d terminant et qu il est suivi d une forme qui ne peut
311. ocessing A case study in part of speech tagging Computational Linguistics 21 4 1995 543 565 BRISCOE T Prospects for practical parsing of unrestricted text robust statistical parsing techniques in Corpus based research into language Ooostdijk N de Haan P Rodopi Amsterdam 1994 97 120 BRONCKART J P BAIN D SCHNEUWLY B DAVAUD C PASQUIER A Le fonctionnement des discours un mod le psychologique et une m thode d analyse Delachaux amp Niestl Lausanne 1985 BROWN P LAI J MERCER R Aligning sentences in parallel corpora in ACL 91 Berkeley USA 1991 BRUNET E Le Vocabulaire de Marcel Proust Slatkine Champion Gen ve Paris 1983 BRUNET E Le vocabulaire fran ais de 1789 nos jours d apr s les donn es du Tr sor de la langue fran aise Slatkine Champion Gen ve Paris 1981 BRUNET E What do statitistics tell us in Research in humanities Computing Clarendon Press Oxford tm 1 1991 35 46 BURNAGE G DUNLOP D Encoding the British National Corpus in English language corpora design analysis and exploitation Aarts J de Haan P Oostdijk N Rodopi Amsterdam 1993 79 96 BURNARD L Users Reference Guide for the British National Corpus British National Corpus Consortium Oxford University Computing Services Oxford UK may 1995 BURNARD L What is SGML and how does it help Computers and the Humanities 29 1995 41 50 BURNARD L
312. of historical english registers in Creating and using English language corpora Fries U Tottie G Schneider P Rodopi Amsterdam 1994 1 14 BLACK E GARSIDE R LEECH G EYES E MCENERY A LAFFERTY J MAGERMAN D ROUKOS S Statistically driven computer grammars of English the IBM Lancaster approach Rodopi Amsterdam 1993 BLACKWELL S From dirty data to clean language in English language corpora design analysis and exploitation Aarts J de Haan P Oostdijk N Rodopi Amsterdam 1993 97 106 BLANCHE BENVENISTE C Approches de la langue parl e en fran ais Ophrys Paris 1997 BLANK Sentence alignment methods and implementations TAL 36 1 2 1995 81 100 BOGURAEV B PUSTEJOVSKY J eds Corpus processing for lexical acquisition The MIT Press Cambridge 1996 BoLAsco S Sur diff rentes strat gies dans une analyse des formes textuelles une exp rimentation partir de donn es d enqu te in JADT Barcelone 1992 69 88 236 BOUAUD J HABERT B NAZARENKO A ZWEIGENBAUM P Regroupements issus de d pendances syntaxiques en corpus cat gorisation et confrontation deux mod lisations conceptuelles in Actes ng nierie des connaissances Roscoff 1997 207 223 BOURIGAULT D Analyse syntaxique locale pour le rep rage de termes complexes dans un texte TAL 34 2 1993 BRILL E Transformation based error driven learning and natural language pr
313. om it BE comme verbe principal les pronoms ind finis etc Si l on compare les registres th tre lettres et journaux intimes se font plus impliqu s depuis le XVII si cle tandis que la m decine devient plus informationnelle La comparaison entre anglais et am ricain sur la m me dur e montre que les registres am ricains sont g n ralement plus informationnels que leurs quivalents anglais 27 1 L anglais et l am ricain de 1650 aujourd hui Archer a t constitu pour permettre l tude diachronique de l anglais et de l am ricain entre 1650 et aujourd hui par le biais de dix registres qui m lent th matiques et genres Les registres sont les suivants pour l crit journaux intimes lettres fiction crits journalistiques m decine anglais seulement science anglais seulement d cisions de justice am ricain seulement et pour l crit li l oral c est dire imitant l oral ou servant de base une production orale les conversations fictives le th tre les sermons et hom lies 178 Des documents cossais 1450 1700 et am ricains 1600 1700 constituent deux corpus compl mentaires Kyt 1993 e A Representative Corpus of Historical English Registers Il y a donc recouvrement pour la p riode 1650 1700 ce qui autorise des comparaisons fructueuses sur les choix faits pour repr senter ce laps de temps cf infra Le corpus rassembl Cambridge English Facul
314. omaines o la connaissance est traditionnellement organis e selon les cat gories de l esp ce du ggnre du taxon MON MT WordNet distingue les adjectifs qualificatifs des adjectifs relationnels a vu au chapitre 1 l int r t de ce types de distinction pour le traitement de Enfants Les adjectifs relationnels sont consid r s comme des variantes stylistiques de noms ils se d finissent par rapport ces noms auxquels ils sont li s Nous mettons ici l accent sur les seuls adjectifs qualificatifs 92 PREMIERE PARTIE comme l hyponymie La relation fondamentale structurant l espace des adjectifs est l antonymie Cette relation sym trique mise en vidence par des tests psycholinguistiques sur les associations de mots est difficile formaliser Les auteurs retiennent l id e que les adjectifs antonymes expriment deux valeurs oppos es d un m me attribut Partant cependant du constat que certains adjectifs proches par le sens heavy et weighty 143 par exemple ont des antonymes diff rents light et weigthless et que beaucoup d adjectifs qualificatifs ponderous n ont pas d antonymes directs la structure retenue est celle de classes d adjectifs similaires entre eux ces classes tant organis es autour d adjectifs p les qui peuvent s opposer d autres p les par des liens d antonymie heavy et light sont donc consid r s comme antonymes mais ponderous qui est similaire heavy et qui n a pas d antonym
315. omme composants de mots C est le cas du trait d union qui joint deux mots dans vient il mais pas dans va et vient C est le cas encore de l apostrophe 2 Cf Fiala et Habert 1989 Renouf 1993 Silberztein 1993 0 111 136 montre la complexit des ph nom nes Mathieu Colas 1994 montre l h t rog n it extr me des emplois du trait d union dans les Bibliographie 167 s parateur comme guillemet simple pour signaler l lision composant dans aujourd hui les abr viations et la repr sentation du langage parl v la au t chose C est le cas surtout de l espace partie int grante des unit s complexes une carte bleue Les unit s complexes occupent une place importante en fran ais On estime au cinqui me d un texte la surface qu elles couvrent Pour le francais des inventaires extr mement fournis ont t r alis s au LADL sous l impulsion de M Gross aboutissant un dictionnaire lectronique de mots compos s ou DELAC Courtois 1990 Silberztein 1993 p 60 108 Ce dictionnaire associe aux s quences retenues des indications sur leurs variations ventuelles flexion discontinuit s alternances lexicales ainsi que leurs propri t s syntaxiques transformations Mentionnons la difficult d couper automatiquement le texte en phrases titres num rations s par es par des points virgules exemples ins r s dans le texte et faisant interposition etc La ponctuation offre des indices pe
316. ompare 51 1 Articuler unit s isol es et s quences d unit s L exemple qui suit montre comment articuler de tels d comptes dans le cadre de la m thode des sp cificit s la plus simple des m thodes expos es jusqu ici Les occurrences du segment r p t s probl mes financiers peuvent tre consid r es comme un sous ensemble des occurrences de la forme probl mes pour lesquelles une occurrence de la forme financiers apparait imm diatement apr s On peut appliquer au segment r p t probl me financiers le calcul des sp cificit s Pour les deux formes et le segment voqu s ce calcul donne Forme dipl me Aucun BACC Sup F probl mes 41 03 20 b 47 04 108 financiers 37 b 19 b 30 b 86 probl mes financiers 17 03 11 b 23 03 51 Comme on le voit les diagnostics ci dessus ne coincident pas tous entre eux Ils rendent compte de la diversit des associations r alis es dans le corpus La forme financiers par exemple est consid r e comme r guli rement r partie alors que le segment probl mes financiers et la forme probl mes sont plut t sur repr sent s chez les plus dipl m s Le tableau 6 interclasse d apr s un indice de sp cificit calcul selon les m mes proc dures des diagnostics obtenus sur des formes et sur des segments r p t s dans le corpus L avantage de ce second tableau sur son homologue r alis partir des formes simples est qu il constitue un pas r alis automatiquement vers la remi
317. ompl t es elles constituent n anmoins une vue d ensemble sur l emploi d un mot et une source importante pour la r daction d entr es de dictionnaire Pour exploiter ce type de donn es le lexicographe devra acqu rir l exp rience des outils permettant de les obtenir afin de d pister les points faibles de telle entr e identifier les associations douteuses 16 Selon G Grefenstette cet algorithme pourrait tre modifi ventuellement en exploitant une base de r gles morphologiques de d rivations La qualit des r sultats devrait s en trouver am lior e D une langue l autre 107 rep rer les effets d une analyse syntaxique inexacte ou ambigu et pour compl ter les informations extraites par ses propres m thodes d investigation 24 FAIRE DES DISTINCTIONS DE SENS DE MOTS POUR LA RECHERCHE DOCUMENTAIRE L essor d une soci t de la communication avec notamment le d veloppement d un r seau donnant libre acc s de plus en plus de donn es textuelles a profond ment modifi les objectifs de la recherche documentaire S il s agit toujours de s lectionner dans une base de documents un sous ensemble de documents pertinents au regard des besoins d un utilisateur on a maintenant affaire des bases approchant le milliard de mots Evans et Zhai 1996 o les textes de langue g n rale ex articles de presse c toient des textes de langue sp cialis e relevant de domaines plus techniques 24 1 Retrouver des te
318. on examine les enjeux th oriques de corpus arbor s et les conditions pratiques de leur emploi 13 DIVERSITE DES CORPUS ARBORES M me si les jeux d tiquettes varient et si les s quences cat goriser selon qu on regroupe ou non des unit s polylexicales il est relativement ais de se faire une id e d un corpus tiquet une cat gorie est associ e chaque occurrence du texte Cette belle simplicit disparait d s qu on aborde les corpus arbor s c est dire d cor s d arbres L annotation r sultante peut varier du tout au tout Il s agit en effet de d limiter des groupes de les nommer les cat goriser et de statuer sur leurs relations A ces trois niveaux les points de vue sont multiples Tous les constituants ne font pas l unanimit c est le cas du syntagme verbal cher la tradition chomskyenne et rejet par M Gross G Sampson Sampson 1995 p 4 cite ce propos une exp rience significative A la rencontre de 1991 de l Association for Computional Linguistics des chercheurs en TALN appartenant neuf institutions diff rentes se sont vu demander de d limiter les constituants d un ensemble de phrases Pour l exemple suivant voici les seuls parenth sages qui ont fait l unanimit 40 PREMIERE PARTIE He said this constituted a very serious misuse of the Criminal Court processes Nous d finissons les principales facettes des corpus arbor s les notations disponibles la mani re d obte
319. on modifi s selon le sch ma syntaxique auquel ils ob issent Sch ma occurrences num ros d terminant cold coordonnant adjectif adjectif war 1 occ 9 proposition 15 2 2 Mesurer la flexibilit Apr s cette premi re tape de recueil Barkema se fixe pour objectif d valuer et m me de mesurer la flexibilit observ e Les variations effectives de la s quence dans un corpus jug repr sentatif sont elles pr visibles Au contraire sont elles plus importantes ou moins 5 L tude pr cise de cette s quence s inscrit dans une recherche plus vaste l examen des variations de 450 expressions dans le m me corpus Barkema 1993 Ressources lexicales 57 importantes que ce quoi on pouvait s attendre L hypoth se sous jacente est que la flexibilit d pend au premier chef du sch ma syntaxique de d part de la s quence examin e Pour pouvoir porter un jugement sur ces variantes observ es c est dire d terminer si cold war est aussi flexible qu on pourrait s y attendre il faut d abord caract riser la flexibilit effective du sch ma sous jacent adjectif nom Barkema utilise alors le corpus de Nim gue 130 000 mots entierement arbor et qui contient 16 183 syntagmes nominaux relevant de 1736 patrons syntaxiques distincts compte le nombre d occurrences du sch ma adjectif nom avec un adjectif absolu et un nom commun singulier ainsi que le nombre d
320. onnaires effectivement exploitables Quant la question de la d sambiguisation des verbes H Basili et ses coll gues 1997 soulignent qu elle est peu explor e Les r sultats obtenus sont n anmoins int ressants Les entr es de dictionnaire construites automatiquement m me si elles demandent tre retravaill es par un lexicographe donnent une vue globale du fonctionnement du mot dans un corpus technique Elles aident se rep rer dans une langue sp cialis e en s affranchissant des pr jug s induits par la langue g n rale On peut supposer qu une d sambiguisation lexicale m me partielle augmente toujours la qualit de l indexation d un document et am liore la pr cision des syst mes de recherche documentaire 25 3 Combiner des techniques simples Les exp riences rapport es ci dessus reposent sur des techniques frustes au regard de l ambition s mantique Une fois donn es les ressources corpus enrichi et ou ressources lexicographiques g n rales il s agit d extraire des contextes de calculer des distances d liminer les mots figurant dans un anti dictionnaire de comparer des pr fixes de mots pour le calcul des variantes morphologiques etc Aucune de ces op rations ne fait appel un traitement s mantique certaines ne n cessitent m me aucune connaissance linguistique Dans la pratique c est souvent la combinaison de diff rentes techniques qui donne les meilleurs r sultats C est patent dans Grefenste
321. orpora Ejerhed E Dagan l Copenhague Danemark 1996 28 41 VAN HALTEREN H DEN HEUVEL T V Linguistic exploitation of syntactic databases the use of the Nijmegen Linguistic DataBase program Rodopi Amsterdam 1990 VAN HALTEREN H OOSTDIJK Towards a syntactic database the TOSCA analysis system in English language corpora design analysis and exploitation Aarts J de Haan P Oostdijk N Rodopi Amsterdam 1993 145 162 VAN HERWIJNEN E SGML pratique International Thomson Publishing France Paris 1995 VAN DER LINDER E J Incremental processing and the hierarchical lexicon Computational Linguistics 18 2 1992 218 237 V RONIS J IbE N Word sense disambiguation with very large neural networks extracted from machine readable dictionaries in COLING 90 Helsinki Finlande 1990 389 394 VERONIS J KHOURI L tiquetage grammatical multilingue le projet MULTEXT TAL 36 1 2 1995 233 248 VIJAY SHANKER K Using descriptions of trees in a Tree Adjoining Grammar Computational Linguistics 18 4 1992 482 516 VOORHEES E M Query expansion using lexical semantic relations in SIGIR 94 1994 VOSSEN P Right or wrong Combining lexical resources in the EuroWordNet project in EURALEX 96 Su de 1996 tm Il 715 728 VOUTILAINEN A HEIKKILA J An english constraint grammar ENGCG a surface syntactic parser of english in Creating and using Englis
322. orpus s en est obscurcie l or e des traitements informatiques de donn es textuelles le co t m me de la cr ation d un corpus conduisait peser m rement les textes y int grer identifier pr cis ment les crit res de rassemblement Aujourd hui que le texte lectronique foisonne des documents se trouvent parfois agr g s avant tout parce qu ils sont faciles d acc s sans que leur mise en relation ait t r ellement pens e La m re pes e d un regroupement ad quat l objectif poursuivi c de le pas la seule disponibilit des ressources La communaut 20 Ce qui est appel cr ment dans Marcus et al 1993 p 313 n 1 des regroupements opportunistes 146 du TALN appelle souvent corpus les grandes collections de documents qui lui servent mettre au point ses traitements Les rencontres organis es depuis plusieurs ann es par l ACL Association for Computational Linguistics sur les tr s grands corpus very large corpora traitent de tr s vastes donn es textuelles plut t que de corpus proprement parler On serait plut t tent de voir l du texte texte dont on ne sait pas toujours tr s bien de quels usages langagiers il est repr sentatif Nous adoptons la d finition plus restreinte de John Sinclair 1996 p 4 Un corpus est une collection de donn es langagi res qui sont s lectionn es et organis es selon des crit res linguistiques explicites pour servir d chantillon
323. otto sees eter toes seen ee sense sena 138 31 UTILISATION DES TEXTES ALIGNES seen 140 Bibliographie 231 32 METHODES D ALIGNEMENT uicccsccsccsscossstncccscossssncscssossssnsscscossssnsvcasscsssasvcasscsssnssccedese 141 33 PROBLEMES ET EN JEUX eroesesenekesensenesvuesenvksee seekvaszevaco ses kvus enc sede n euo eese aUa dea rana dn 143 34 DEFINITIONS ET TYPOLOGIE DES CORPUS e eeeeee 145 35 LANGUE GENERALE eee esee tt sebo drea en suba drea a cuba ne ea ee na ane NR UIN REOR aea OU E Een e aaa TU Mesue dn 148 35 1 ETUDIER UNE DIMENSION PARTICULIERE sisi n eene nnne enne nen nennen sees 148 35 2 CONSTITUER UN CORPUS DE REFERENCE nee nnnee ee eee enne enne nne nennen se esses eene 149 35 3 PEUT ON CONSTITUER DES ECHANTILLONS REPRESENTATIFS 150 36 LANGUES DE SPECIALITE ET SOUS LANGAGES eere eene neenon nonno 151 36 1 LES HYPOTHESES DE Z HARRIS sssssssssssscesssecccsccceescesscessecssccssecsssessscesesesseseseeesss 151 36 2 ANALYSES DE 5005 152 36 2 1 La m thodologie harrissienne ss 152 36 2 2 Les analyses r alis es dans ce cadre 153 36 3 EVALUATION ET PERSPECTIVES cesses 153 37 ARTICULER TYPOLOGIE INTERNE ET TYPOLOGIE EXTERNE 155 37 1 TYPOLOGIE DES TEXTES GENRES ET REGISTRES esse 156 37 2 TYPOLOGIE DES PARAMETRES SITUAT
324. our la description du mot boeuf Mais explique l inverse que cette mesure soit mal adapt e la mod lisation conceptuelle d un domaine ce que Habert et a 1996 met en vidence Pour d crire le concept auquel renvoie un mot ses propri t s et les relations dans lequel il entre il faut au contraire liminer les attirances proprement lexicales et s appuyer davantage sur les associations banales comme manger lever du boeuf viande de boeuf boeuf cuit etc L information mutuelle est donc un bon indice lexicographique mais un mauvais outil de mod lisation conceptuelle Par ailleurs cette mesure qui met l accent sur les ph nom nes rares Basili et al 1993b p 179 est peu adapt e aux contextes syntaxiques elle serait utile si on pouvait se fier entierement aux analyses ibid mais elle donne en fait trop d importance des relations dues des ambiguit s syntaxiques ou des erreurs d analyse ibid C est la multiplication et la confrontation des exp riences utilisant la mesure de l information mutuelle et la comparaison avec des mesures diff rentes qui permet de tirer des conclusions de port e un peu g n rale de progressivement mieux comprendre ses propri t s comme mesure de distance entre les mots et de cerner les conditions de son utilisation 176 Le fait pour un mot de figurer toujours ou tr s souvent dans le s m me s contexte s D une langue l autre 123 CHAPITRE V LE LANG
325. our qu on attendait l est dans ce cas agrammatical La quantification occupe par cons quent une place centrale Mais elle rencontre des difficult s sur des corpus d tats anciens de la langue Lorsqu il s agit d tudier des propri t s linguistiques fines le nombre d occurrences d un ph nom ne donn dans une partie du corpus est souvent faible inf rieur la dizaine Il n est d ailleurs pas toujours possible soit pour des raisons de co t soit plus fondamentalement parce que les sources sont lacunaires de compl ter les inventaires du ph nom ne vis Ces petites quantit s ne rendent cependant pas pour autant ill gitime le recours des mod les probabilistes appropri s pour valuer leur significativit Certains de ces mod les sont pr sent s au chapitre IX 29 4 Affiner les explications Le recours des corpus diachroniques favorise pour l analyse du syst me des d monstratifs en frangais un renouvellement de l explication du changement morphologique Traditionnellement la causalit retenue tait la suivante un changement phon tique d clenche un changement morphologique qui peut lui m me entrainer un changement syntaxique Les tudes r centes sur lesquelles s appuie C Marchello Nizia poussent relativiser dans ce cas le poids des changements proprement phon tiques pour ces par exemple Parall lement les concordances facilitent l tude d taill e des comportements syntaxiques par exemple
326. ournant des ann es actuelles Ceux qui travaillent sur corpus lectroniques se trouvent soudain dans un univers en pleine expansion Pendant des ann es la linguistique de corpus a t l obsession d un petit groupe qui recevait peu de soutien que ce soit de la linguistique ou de l informatique Ce constat vaut au tout premier chef pour le monde anglo saxon Mais si l on fait le bilan du domaine couvert par les linguistiques de corpus quelles perspectives s ouvrent en particulier pour la francophonie 54 BILAN Face un domaine riche en travaux d horizons th oriques et m thodologiques vari s en TALN et en linguistique nous ne pr tendons pas avoir rendu compte des recherches les plus repr sentatives Comment face un champ en pleine mouvance en identifier les grandes tendances Il aurait fallu un recul dont nous ne disposons pas et qu notre avis on ne peut pas encore prendre Nous avons plut t cherch fournir une typologie de travaux prometteurs Esp rons que cette typologie puisse aussi servir de grille de lecture pour situer d autres recherches que celles qui ont t directement voqu es 54 1 Avanc es La robustesse est le ma tre mot des techniques d annotation qui sont vis es pour les textes tout venant On est loin de pouvoir en donner une d finition pr cise N anmoins l examen des outils disponibles et des corpus annot s le montre l tiquetage est relativement bien ma tris actuelleme
327. ouvent une recat gorisation partielle du corpus Nous avons montr comment pour Enfants l ajout d une personne du singulier Les corpus arbor s 35 nouvelle distinction adjectif qualificatif relationnel venait pr ciser une tiquette existante Le r tiquetage peut aussi conduire des r visions plus drastiques lorsque les choix de segmentation de d part sont remis en cause le choix des mots compos s pertinents pour le corpus en cause ou quand certains ph nom nes sont trait s diff remment par exemple rapide analys tant t comme un adjectif tant t comme un adverbe dans Prenons une rapide d cision Le r tiquetage total ou partiel peut aussi avoir comme vis e l alignement des r sultats de deux tiqueteurs sur un m me corpus des fins de comparaison ou d valuation Atwell et al 1994 Selon Belmore 1994 p 52 Une mani re d utiliser les corpus pour am liorer de mani re cumulative les analyses consiste d terminer les diff rences exactes entre deux analyses d un m me corpus Dans l id al l une des deux analyses partirait de la premi re et repr senterait alors un essai explicite d am lioration 11 2 Environnements de cat gorisation et de manipulation de texte tiquet Paradoxalement il semble que le besoin d environnements informatiques de cat gorisation et de manipulation de texte tiquet souvent soulign par les participants des projets d tiquetage et de struct
328. par D Labb 1990 moi je 5 jeje 5 ase ne ne 6 je je 5 dis dire 11 suis tre 11 pas pas 6 de de 81 la le 7 5 France France 22 suis tre 11 wp la le 7 France France 22 Le texte annot est constitu d une s rie de triplets comme suis tre 11 le mot le lemme la cat gorie repr sent e par un nombre Les trois informations sont s par es par des virgules Les corpus arbor s 17 8 1 1 3 Susanne La phrase DAN MORGAN TOLD HIMSELF HE WOULD FORGET Ann Turner est repr sent e ainsi N01 0010b NP1m DAN Dan O S Nns s N01 0010c NP1s MORGAN Morgan 5 5 N01 0010d VVDv TOLD tell Vd Vd N01 0010e PPX1m HIMSELF himself Nos i s Nos i N01 0010f PPHS1m HE he Fn o Nas s Nas s N01 0010g VMd WOULD will Vdc N01 0010h VVOv FORGET forget s Vdc 01 0010 NP1f Ann Ann Nns o N01 0010j NP1s Turner Turner Nns o Fn o S N01 0010k YF Le texte est pr sent sous la forme d un tableau un mot du texte de d part correspond une ligne Chaque ligne fournit une suite de champs Ici pour la troisi me ligne N01 0010d VVDv TOLD tell Vd Vd e une r f rence le nom du fichier dont provient cet extrait N01 et un num ro de ligne au sein de ce fichier 0010d e une indication d dition le tiret indique que le texte n a pas t corrig cet endroit une cat gorie VVDv la forme fl chie telle qu on la rencontre dans le corpus told
329. people Il devrait jouer cartes sur table avec les Canadiens It should present Canadians with the straight goods Les techniques actuelles d alignement poussent vouloir exploiter le tr sor que constituent les traductions d j existantes P Isabelle ibid indique Au Canada seulement bon an mal an le volume de traductions atteint au moins un demi milliard de mots La masse des traductions produites chaque ann e contient infiniment plus de solutions plus de probl mes que tous les outils de r f rence existants et imaginables L objectif est alors de chercher s il n existe pas d j une solution au probl me de traduction rencontr dans les traductions existantes plut t que d en inventer une de toutes pi ces Les bi concordanciers comme TransSearch permettent de telles recherches Les corpus align s permettent de rep rer des n ologismes et la traduction qui en est donn Ils viennent aussi rem dier aux in vitables lacunes des dictionnaires Gale et Church 1991 montrent par exemple que dans les corpus qu ils avaient align s en jeu servait souvent de traduction at risk alors qu un dictionnaire comme le Robert et Collins ne mentionne pas cette quivalence 32 METHODES D ALIGNEMENT L objectif est selon P Isabelle et S Warwick Amstrong 1993 p 288 la reconstitution automatique des correspondances traductionnelles qui unissent les segments d un texte source et ceux de sa traduction
330. pl te ne pas dans Ne me quitte pas L anaphore suppose un lien entre l anaphorique et son ant c dent il s agit d un lien entre des noeuds qui ne sont g n ralement pas fr res mais des niveaux diff rents de la repr sentation syntaxique Certains constituants sont flottants leur insertion un endroit donn ne rend pas compte de leur port e r elle C est le cas des adverbes de phrase comme heureusement dans Heureusement Jean a termin son ann e et Jean a heureusement termin son ann e L attachement r el d un noeud peut rester en suspens m me pour un locuteur c est le cas dans Jean a heureusement termin son ann e o heureusement peut modifier la phrase dans son ensemble mais galement le syntagme verbal seul il est heureux que Jean ait termin son ann e Jean a termin son ann e d une mani re heureuse Visiblement l arbre ne suffit plus noter tous ces ph nom nes On peut souhaiter recourir des graphes moins limit s o un n ud peut tre le point d arriv e de plusieurs ar tes Il faudrait m me que ces graphes puissent tre polychromes 9 pour visualiser ais ment les diverses Cf Marandin et Cori 1993 pour une proposition formelle en ce sens Les corpus arbor s 41 relations l oeuvre Une autre direction de travail consiste utiliser des descriptions logiques d arbres o l on ne manipule ni des arbres ni des graphes mais la conjonction logique des divers types de
331. plement percevoir la difficult Un tranger qui ne conna trait que les mots isol s et pas le terme m dical angine de poitrine partagerait pourtant l h sitation de l analyseur Lexter dans un premier temps propose les deux d coupages pour cette s quence angine de poitrine instable et angine de poitrine instable Le programme effectue un seul d coupage pour les s quences non ambigu s Dans un deuxi me temps Lexter regarde si l un des sous groupes des s quences ambigu s constitue un groupe non ambigu relev au cours du premier temps C est ainsi qu on rencontre Ce terme g n rique recouvre comme d pendant modifieur et argument Ressources lexicales 67 dans Menelas angine de poitrine mais pas poitrine instable On choisit alors le d coupage qui contient le groupe non ambigu ici fangine de poitrine instable L valuation empirique de cette m thode sur diff rents corpus ibid p 113 114 donne les r sultats suivants dans 75 des cas la d sambiguisation obtenue est correcte 20 des s quences restent non d sambiguis es 5 des s quences sont d sambiguis es de mani re erron e Une comparaison de cette approche par apprentissage et d une r solution des ambiguit s par des r gles a priori Habert et al 1997 semble donner l avantage la premi re m thode La d limitation des groupes maximaux repose galement partiellement sur l apprentissage Certaines s quences constituent en effet des fro
332. possible de pouvoir pr tendre faire tat d un ensemble repr sentatif des travaux relevant des linguistiques de corpus Il faudrait une culture linguistique la fois extr mement vaste et tr s approfondie sur certains points pour appr hender et valuer la multiplicit des travaux linguistiques partir de corpus Nous esp rons tout de m me que notre insertion dans des projets interdisciplinaires nous aura permis de percevoir et de faire sentir l aspect s minal de certaines recherches Peut tre notre regard oblique se r v lera t il rafraichissant 16 Nous distinguons l anglais et l am ricain dans ce livre dans la mesure pr cis ment o l existence M iss PARS comme LOB et Brown a permis des tudes contrastives sur ce point comme air 5 4 La diversit des publics concern s S il met l accent sur les recherches linguistiques s appuyant sur des corpus annot s cet ouvrage n est pas uniquement destin aux linguistes La didactique des langues est aussi concern e Les corpus repr sentent des ressources importantes pour l apprentissage des langues ph nom nes collocatifs et phras ologie micro syntaxe des entr es lexicales tude des langues de sp cialit typologie des textes Nous abordons tous ces aspects La lexicographie en particulier sp cialis e la terminologie commence d j utiliser les m thodes et les outils qui sont pr sent s ici L analyse de contenu peut tirer profit des nouveaux outils de trait
333. poth se des sous langages Il s agit de cat goriser les mots en fonction des classes d op rateurs qui leur conviennent ainsi un bruit sera plut t un v nement que quelque chose de concret dans la mesure o l on dit un bruit se produisit Malgr cet emploi de la notion harrissienne d op rateur appre ri deux divergences essentielles demeurent MM dps que l on peut isoler de telles classes en langue g n rale le recours l intuition du linguiste et non un corpus Bibliographie 155 suffit de disposer d un ensemble suffisamment vaste de documents du domaine pour que le retraitement d analyses syntaxiques fasse merger les r gularit s syntactico s mantiques La question demeure donc peut on induire les sch mas d un domaine sans le recours une expertise humaine soit au d part soit pour valider les regroupements produits automatiquement Bouaud et al 1997 pour Menelas comparent les r sultats des classements inspir s de la m thodologie harrissienne avec une nomenclature m dicale gros grain 115 aboutissent un constat nuanc les regroupements sur la base de contextes syntaxiques l mentaires sont relativement proches des classes de cette nomenclature mais il est n cessaire de faire appel des connaissances du domaine pour pr ciser ou corriger cette cat gorisation base linguistique En troisi me lieu les travaux sur les sous langages traitent souvent tous les discours produits da
334. pproche certaines expressions Les expressions radiation therapy et cancer chemiotherapy sont associ es parce qu elles partagent un nombre de contextes qui est significatif tant donn le nombre total de contextes dans lesquels elles figurent Pour ce calcul toutefois G Grefenstette ne retient pas les relations de d pendance binaire comme contexte mais il prend un contexte plus large la phrase C est encore sur le m me principe que sont calcul es les variantes morphologiques Le fait est que dans un paragraphe ou un document portant sur un sujet donn une m me notion s exprime sous des formes diverses Dans un document on trouvera par exemple le verbe r duire et quelques lignes plus loin la m me id e reprise sous forme nominale r duction SEXTANT calcule donc des similarit s entre les mots de sens plein du corpus en prenant comme contexte les num ros de documents dans lesquels ils figurent puis il s lectionne ceux qui paraissent sur une base graphique tre des variantes morphologiques Le principe g n ral de SEXTANT est donc simple il repose essentiellement sur le calcul de similarit s Tout l int r t vient d une d finition appropri e des contextes D finir les contextes sur une base syntaxique plut t que graphique revient les filtrer au pr alable et r duit le bruit engendr Habert et al 1996 Grefenstette 1996 Faire varier la taille des contextes permet de faire ressortir diff rents types d associatio
335. pr cision tandis que des textes qui l auraient int ress ne sont pas s lectionn s parce qu ils parlent de trafic et non de circulation faible rappel Prendre en compte les relations de synonymie trafic circulation et de polys mie circulation sanguine circulation automobile permettrait de gagner respectivement en rappel et en pr cision C est g n ralement par une expansion de requ te que l on prend en compte les relations de synonymie autour des mots clefs de la requ te On enrichit la requ te en indiquant quels synonymes peuvent tre substitu s aux mots clefs sans modifier le contenu de la requ te dans l exemple ci dessus on obtient ainsi la formule circulation OU trafic ET art re OU axe Cette expansion peut se faire soit automatiquement soit sous le contr le de l utilisateur dans le cadre d un syst me interactif qui l aide formuler sa requ te en sugg rant des synonymes Si la polys mie des mots de la requ te peut galement tre trait e interactivement le syst me peut de la m me mani re sugg rer des distinctions de sens pour r duire la polys mie dans les documents il faut des m thodes de d sambiguisation automatique Indexer un document non sur les mots clefs eux m mes circulation mais sur leur sens circulation automobile implique d identifier le sens dans lequel le mot est employ dans un contexte donn Synonymie et polys mie sont en fait les deux faces du m me probl
336. pr s de la moiti des cas 354 occurrences sur 653 des adverbes de n gation C est sont alors les r sultats obtenus avec un jeu d tiquettes mi chemin du jeu restreint des parties du discours et de celui trop clat fourni par l tiqueteur AlethCat qui ont t examin s Il a sembl important de pouvoir disposer de sous types des cat gories majeures employ es l instar d adverbe de n gation par rapport adverbe 10 4 Examen des patrons syntaxiques caract ristiques de chaque type de locuteur Cumulant des emplois multiples les unit s lexicales de la n gation ne pas gu re jamais que dominent les nonc s des sans dipl mes Elles structurent le patron sur employ pronom personnel adverbe n gation verbe 1 re personne singulier adverbe n gation de type je ne vois pas je ne sais ou le m me patron suivi de la virgule je ne sais pas reste de la r ponse qui ne constitue pas exactement une r ponse mais une d valorisation pr alable de la r ponse venir Par ailleurs bon nombre d exemples du patron adverbe n gation verbe pr sent 3 me personne singulier adverbe n gation sur employ galement par ces locuteurs correspondent l indication par l enqu teur de la difficult r pondre chez la personne interrog e ne voit pas de raisons 4 occurrences ne sait pas 8 occurrences et des variantes comme ne peut pas r ponare La non r ponse comme silen
337. pris les dictionnaires comme sources de connaissances pour tiqueter les sens de mots c est dire pour d sambiguiser lexicalement les corpus Il s agit alors d exploiter leurs distinctions de sens chaque sens tant repr sent selon les cas par sa d finition elle m me et la liste des mots qu elle contient V ronis et Ide 1990 par une mention de domaine Guthrie et al 1991 par les diff rentes traductions possibles dans une langue cible etc Apr s avoir dress un panorama des travaux de d sambiguisation lexicale qui visent assigner un sens aux mots d un corpus L Guthrie et al 1994 p 87 reconnaissent que le moment beaucoup de chercheurs ont trouv qu un dictionnaire standard avec ses distinctions de sens faites par des lexicographes professionnels est la meilleure source de connaissances exploiter pour la d sambiguisation En effet les dictionnaires ont le m rite de proposer une description fine et relativement homog ne de l ensemble des mots courants Les dictionnaires les plus complets d crivent les sens archaiques et rares peu utiles pour le traitement des textes tout venant mais les dictionnaires usuels donnent une bonne description de la langue courante m me si certains sens d riv s et m taphoriques faciles restituer par un tre humain ne sont pas mentionn s credit Pronunciation kre dit Function noun Etymology Middle French from Old Italian credito from Latin cre
338. que ou en TALN 15 4 2 Le corpus comme norme Les deux tapes reposent sur un postulat sous jacent limiter autant que possible l appel un savoir linguistique sur la langue dans son ensemble Lexter n cessite seulement que le texte analys ait t tiquet pr alablement pour pouvoir proc der une analyse syntaxique partielle Mais Lexter n utilise ni informations s mantiques ni donn es de sous cat gorisation pr positions r gies par des noms pr dicatifs ou par des adjectifs attendant un r gime pr positionnel oublieux de attentif etc Cet asc tisme volontaire s explique par la conviction tay e par l analyse d taill e de textes de domaines techniques distincts qu on ne peut pas forc ment projeter les connaissances linguistiques g n rales sur les textes techniques ou qu inversement les textes d un domaine donn peuvent poss der des particularit s combinatoires des r gimes de noms ou d adjectifs qui le caract risent distinctes de celles d un autre domaine Le corr lat logique de ce minimalisme est l appel l apprentissage endog ne C est consid rer le corpus comme sa propre norme et utiliser les r gularit s qu il manifeste pour effectuer d coupages et structuration Lexter est souvent confront des ambiguit s structurelles Dans la s quence de Menelas angine de poitrine instable faut il rattacher instable poitrine ou angine Un locuteur francais doit faire un effort pour sim
339. ques de corpus ou d sambiguiser le sens des mots en contexte Le chapitre V pr sente l utilisation de corpus dans une perspective diachronique sur la longue dur e ou au contraire sur des p riodes courtes Il indique les difficult s propres de la constitution de corpus historiques et les pr cautions m thodologiques n cessaires lors de leur utilisation Le chapitre VI d crit les textes align s un texte crit dans une langue est mis en parall le avec sa version dans une ou plusieurs autres langues 6 3 M thodologies et techniques La derni re partie regroupe les r flexions m thodologiques et les informations techniques La compr hension pr alable des tudes utilisant des corpus rend plus tangibles les enjeux de la constitution d un corpus et les choix m thodologiques qu elle n cessite en particulier en ce qui concerne les normes destin es faciliter l change et la r utilisation des donn es textuelles SGML TEI C est l objet du chapitre VII En essayant d viter l herm tisme bien conscients que c est probablement le point sur lequel les volutions sont les plus rapides et les plus difficiles anticiper nous pr sentons au chapitre VIII les techniques d tiquetage et d analyse syntaxique celles d annotation s mantique ainsi que le toilettage et la segmentation des donn es textuelles Le chapitre IX pr sente rapidement la quantification des faits langagiers 7 PRINCIPAUX CORPUS CITES Les corpus
340. quetages effectifs comme de leur manque de lisibilit et de clart 16 PREMIERE PARTIE 8 1 Exemples 8 1 1 1 Enfants Les r ponses fournies par les personnes interrog es Les difficult s financi res et mat rielles Je ne sais pas les gens sont goistes peut tre sont lemmatis es et tiquet es cf 3 2 de la mani re suivante lt S01 23 gt le les DETDEF difficult difficult s NOMFP financier financi res ADJFP et et CCOORD mat riel mat rielles ADJFP PONCT FORTE lt S01 31 gt je PROPERS ne ne ADVNEG savoir sais VIPR1S pas pas ADVNEG PONCT FAIBLE le les DETDEF gens gens NOMMP tre sont VIPR3P go ste goistes ADJMP peut tre peut tre ADV PONCT FORTE Chaque r ponse commence par des renseignements sur l interview son ge en deuxi me position apr s S01 1 renvoie inf rieur 30 ans 2 entre 30 et 50 ans 3 au del de 60 ans et son niveau d tude en premi re position apr s S012 1 sans 2 baccalaur at 3 tudes sup rieures Puis chaque mot pr c d de son lemme est suivi de sa cat gorie morphosyntaxique entre accolades NOMMS nom masculin singulier par exemple 8 1 1 2 Mitterrand1 Le fragment suivant est extrait de l mission de TF1 Ca nous int resse Monsieur le pr sident du 2 mars 1986 moi je suis de la France je ne dis pas je suis la France Il est cod de la mani re suivante
341. qui sont utiles l utilisateur final dans le cadre d une application donn e Seul le lexicographe peut dire si les bauches d entr es de dictionnaires construites automatiquement lui fournissent effectivement un bon point de d part C est dans la mesure o la d sambiguisation lexicale tele que lenvisage permet d am liorer significativement la pr cision de la recherche de documents qu elle pr sente un int r t par exemple Le verdict d utilit est la seule D une langue l autre 121 v ritable valuation possible La maturit du domaine ne permet malheureusement pas toujours de mener cette valuation globale bien mais l exemple des entr es de dictionnaire construites par SEXTANT montre n anmoins la f condit de cette d marche empirique En ce qui concerne l tiquetage morpho syntaxique et syntaxique il existe des corpus tiquet s qui font l objet d un consensus suffisant pour servir de r f rence et on peut comparer entre eux les r sultats obtenus par des m thodes diff rentes En mati re s mantique en revanche la subjectivit des ph nom nes et la diversit des objectifs se traduisent par une grande h t rog n it des tiquetages et interdisent toute valuation interm diaire 25 5 Exp rimenter pour mieux expliquer Toute la difficult vient de qu en mod lisant on cherche rendre compte de notions qui sont essentiellement intuitives et largement subjectives Pour un locuteur do
342. r cises pour les ditions utilis es quand il s agit de documents imprim s mais aussi les objectifs vis s par le regroupement ses responsables ainsi que les r visions qu a subies le corpus au fil de sa mise au point 39 2 Jurisprudence d annotation La qualit primordiale d un syst me d annotation c est sa coh rence interne Comme utilisateur d un corpus annot on peut regretter tel ou tel choix Par exemple dans Susanne les deuxi me troisi me etc l ments conjoints par une coordination sont repr sent s comme des subordonn s du premier Sampson 1994 p 184 Une coordination de la forme a b and c est indiqu e ainsi a b and c L essentiel est que l on puisse tabler sur la coh rence de traitement toutes les coordinations sont effectivement not es ainsi Si l on s int resse la coordination on pourra filtrer les sous arbres pertinents leur forme globale ne varie pas D o l importance des contr les de qualit et des proc dures de comparaison plus ou moins automatis s des r sultats de plusieurs annotateurs correcteurs sur les m mes textes Pour les 800 000 mots d cor s syntaxiquement l universit de Lancaster le dispositif tait le suivant D abord la double analyse pour comparer le travail d un annotateur avec celui des autres Le but de la double analyse n est pas tant la production d un fragment correct que la d tection de divergences significatives dans les pratiques d annotation d
343. r auteur anglais ayant crit un roman dans une des p riodes retenues et on a choisi son 3 roman s il y en avait 3 ou plus ou son 2 ou son unique roman On a continu jusqu obtenir le nombre de textes n cessaires pour toutes les p riodes ce qui a n cessit plusieurs passes sur l OCEL en tirant chaque fois un nouveau num ro au asad pour la premi re page consid r e E On reviendra au chapitre IX sur les raisons de ce choix exemple pour les textes journalistiques ou scientifiques anciens les documents ont souvent une taille inf rieure 2 000 mots Il faut alors regrouper Inversement dans les p riodes r centes la longueur des textes oblige pr lever les 500 premiers et derniers mots ainsi qu un empan de 1 000 mots au milieu pour ne pas sur repr senter certains sites particuliers des textes introduction conclusion etc D une langue l autre 127 qu un chantillon plus lev de pr cheurs figure dans Archer D autres travaux Wright 1993 p 27 29 insistent au contraire sur la dimension idiolectale des observations S Wright ibid p 28 cite par exemple les recherches sur l emploi de certains marqueurs relatifs au d but du XVII si cle le syst me des relatives diff rait du syst me actuel en ce que le pronom which pouvait optionnellement servir renvoyer un ant c dent humain aussi bien qu un ant c dent non humain Cependant progressivement c est le pro
344. r une unit dans une partie donn e on prend en compte la comparaison de quatre nombres Ke sous fr quence de l unit dans la partie consid r e Fj fr quence de l unit dans l ensemble du corpus tj nombre des unit s dans la partie T nombre total des unit s du corpus Un calcul de type probabiliste permet de porter un jugement sur l effectif contenu dans la case analys e compte tenu des trois autre nombres Fi tj T Si l effectif kjj se situe dans les limites de ce que le calcul permettait d esp rer on dit que la r partition constat e est banale ce que l on note b Si ce n est pas le cas on calcule un indice de sp cificit de la forme XX o indique une sp cificit positive sur repr sentation par rapport ce que les nombres Fi tj T laissaient pr voir indique une sp cificit n gative sous repr sentation XX est un indice de sp cificit qui est d autant plus lev que la sous fr quence analys e s carte d une r partition neutre qui est sous jacente au mod le des sp cificit s Les constats de sp cificit s tablis pour une m me unit propos de chacune des parties du corpus permettent de d crire le comportement de cette unit au sein du corpus On voit ci dessous les diagnostics de sp cificit s obtenus dans chacune des parties pour la forme probl mes qui compte 108 occurrences dans l ensemble du texte Aucun Baccalaur at Sup rieur To
345. rait relativement raisonnable Il n en va pas de m me pour prend les pommes de terre Pourtant les programmes de traitement ne disposent pas toujours des connaissances qui leur permettraient de choisir dans de tels cas Il est d usage en TALN de parler d ambiguit pour ces situations C est cet usage que nous suivons La d sambiguisation consiste choisir entre un certain nombre de possibilit s 4 NOTATIONS Les corpus et les ressources textuelles sont cit s par leur nom seul sans d terminant en gras italique Nous parlons de Brown et non du corpus Brown ou du Brown la fois pour limiter le retour du mot corpus d j bien suffisamment l honneur dans ces pages et pour viter de statuer sur l ad quation de la notion telle que nous l entendons l ensemble textuel consid r Les mentions des corpus des ressources textuelles des auteurs et des notions sont rassembl es dans un m me index Les termes techniques avec ventuellement leur correspondant anglais entre parenth ses sont d tach s en italiques lors de leur premi re utilisation Ils sont Cf chapitre VIII Il s agit souvent d un acronyme Susanne Archer ou du lieu ou de l institution l origine du corpus Brown ou d un m lange des deux LOB London Oslo Bergen wen Sauf dans quelques cas bien sp cifiques comme parsage nous cherchons viter les anglicismes repris dans l index Les crochets servent isoler des suites de trait
346. re d affinit comme celui des relations d quivalence plut t que comme celui des axes s mantiques qui nous semblent avoir un statut interm diaire entre la similarit et l quivalence Bibliographie 185 contextes peuvent tre identifi es les contextes graphiques syntaxiques et documentaires L extrait de Menelas suivant montre la diff rence pour le mot pisode entre une fen tre de 7 mots encadr e et le contexte syntaxique tel que le d finit Grefenstette 1994 en italiques Depuis cette poque on ne note aucune r cidive d angor jusqu il y a 8 jours o il a pr sent un pisode amp pr corgialgie survenant l effort durant J environ 45 minutes sans irradiation Les contextes graphiques se d finissent comme des fen tres de mots deux mots cooccurrent s ils figurent moins de x mots de distance 9 dans l ordre lin aire du texte La taille de la fen tre d pend des relations s mantiques que l on recherche les cooccurrences petite moyenne et grande distance tendant respectivement faire ressortir des expressions fig es ou semi fig es prendre pour avoir faim des contraintes de s lection boire vin et des mots appartenant au m me champ s mantique Lafon 1981 Church et Hanks 1990 Le calcul des fen tres graphiques ne n cessitant qu un corpus segment elles sont souvent privil gi es pour le traitement de gros corpus L apparition de corpus arbor s permet d sormais de d
347. registrer leurs conversations Les consignes taient de varier les moments d enregistrement jours ouvr s fins de semaine et de noter chaque fois la situation d interlocution datation environnement participants L enregistrement pouvait tre effectu l insu des participants par la personne choisie mais les interlocuteurs taient pr venus in fine pour que l on puisse effacer l enregistrement si l anonymat r alis ne leur suffisait pas En tout plus de 700 heures d enregistrement ont t r alis es Outre cet chantillon d mographique ont t int gr es des transcriptions d interactions orales typiques dans divers domaines affaires r unions prises de parole syndicales consultations m dicales ou l gales ducation et information cours et conf rences informations radio t l vis es prises de parole publiques sermons discours politiques discours parlementaires et l gaux loisirs commentaires sportifs r unions de clubs 35 3 Peut on constituer des chantillons repr sentatifs Les deux positions expos es en 2 3 s accordent implicitement sur la difficult en mati re de langage donner une d finition positive de la 215 Les extraits de livres repr sentent 45 000 mots d un seul tenant le d but tant choisi au hasard en respectant toutefois les limites discursives du type chapitre Bibliographie 151 repr sentativit Veut on repr senter les textes effectivement re us Ou bien le
348. relations identifi es entre les noeuds Elle est explor e par Vijay Shanker 1992 dans la lign e des travaux de M Marcus Marcus et al 1983 Cette remise en cause de l arbre comme mode fondamental de notation syntaxique n est pas nouvelle Elle peut plus profond ment renvoyer au choix entre grammaires de constituants et grammaires de d pendances 13 1 2 Grammaires de constituants et grammaires de d pendance On trouve dans Tesni re les prol gom nes des grammaires de d pendance Mel cuk qui s inscrit dans cette lign e contraste 1988 p 12 42 les grammaires de d pendance avec les grammaires de constituants phrase structure grammars Les grammaires de constituants mettent au premier plan l inclusion d un segment dans une cat gorie syntagmatique et des segments d un type dans des segments de niveau sup rieur deux constituants sont ou bien ench ss s ou bien disjoints La plupart des noeuds y sont non terminaux Les noeuds d un niveau donn sont ordonn s lin airement Les relations de domination sont entre constituants et non pas entre mots Les grammaires de d pendance r v lent les liens hi rarchiques entre mots Tous les n uds sont terminaux lls ne suivent pas forc ment un ordre lin aire Un arbre de d pendance du type V sont re us N N Pierre Coord et N Jacques ne contient aucune information directe concernant l ordre lin aire des mots dans l nonc qui peut se r aliser sous la forme Pierre et Ja
349. robl me de l accroissement du vocabulaire apparition de formes nouvelles au fur et mesure que l on avance dans la lecture du corpus a t largement tudi dans les travaux de la statistique textuelle La figure 2 rend compte de l accroissement du vocabulaire mesur en lemmes et en formes graphiques Les deux courbes ont la m me allure g n rale A un accroissement relativement fort au d but du corpus succ dent des p riodes d accroissement plus modestes bien que tout allongement du corpus entra ne toujours l apparition de nouvelles formes Le nombre de formes nettement inf rieur dans le cas du corpus lemmatis fait que la deuxi me courbe est toujours largement situ e en dessous de la premi re En fait deux tendances contraires influent sur les rapports qu entretiennent ces nombres e le rep rage de certaines unit s compos es de plusieurs formes graphiques l instar l envi d abord d ailleurs etc tend r duire le nombre des occurrences du corpus lemmatis e l inverse l clatement en plusieurs unit s distinctes de chacune des nombreuses occurrences des formes graphiques contract es au le des de les etc tend pour sa part augmenter le nombre des occurrences du corpus lemmatis par rapport au texte initial 277 Les d comptes suivi de l ast risque r sultent d une approximation statistique 778 Du grec hapax legomenon chose dite une fois 198 14000 4 nombre des types
350. robuste si la demande porte sur les analyseurs syntaxiques Dans d autres domaines il n y a pas de terminologie disponible Cette absence peut tenir au co t de la constitution d une terminologie par des documentalistes L volution extr mement rapide de certains secteurs peut aussi contrecarrer le dessein de prendre un instantan des termes qui y sont employ s l image produite a toutes chances d tre d form e Le vocabulaire de la navigation sur les r seaux Internet Web offre un bon exemple de tels changements incessants L acquisition terminologique a de mani re g n rale pour objectif d isoler les d nominations d un domaine pour cr er ou compl ter une terminologie D Bourigault a d velopp la DER EDF Lexter Bourigault 1993 un analyseur destin isoler les candidats termes pr sents dans un Ressources lexicales 65 corpus de texte tout venant pr alablement tiquet Il entend par candidats termes les syntagmes nominaux qui ont un fonctionnement d nominatif L hypoth se fondamentale est qu un analyseur peut d grossir le travail de rep rage des d nominations effectives d un domaine Clairement certaines s quences nominales parce qu elles font r f rence au cotexte ou au contexte n ont pas la g n ricit requise pour des d nominations Kleiber 1984 Par exemple e maintien de sa temp rature ne serait pas retenu en raison du possessif tandis que e maintien de temp rature
351. roches parfois par le m me locuteur Leur talement dans le temps doit permettre de mettre en vidence ce qui varie au cours du temps Nous appelons ces corpus des s ries textuelles chronologiques Mitterrand constitue nous l avons vu un corpus de ce type Dans le cas des telles s ries les r sultats factoriels font apparaitre un sch ma d volution chronologique qui rend compte de l existence d une volution Les apparitions disparitions ou fluctuations des formes s effectuent de mani re suffisamment organis e au regard du temps pour que les p riodes cons cutives apparaissent plus proches dans l emploi qu elles font du vocabulaire que les p riodes s par es par un intervalle de temps plus long La figure 10 montre des r sultats issus d une AFC portant sur les formes de fr quence sup rieure ou gale 5 occurrences dans Mitterrand1 On le voit les p riodes cons cutives sont plut t proches les unes des autres L ensemble des points dessine une ligne incurv e en son centre 216 Figure 10 Les deux premiers facteurs issus de l analyse des correspondances Pour avancer dans l analyse il faut cr er des proc dures permettant d exhiber les unit s textuelles responsables de cette volution d ensemble 52 1 1 Accroissements sp cifiques Le calcul des accroissements sp cifiques permet de rep rer les changements brusques dans l utilisation d un terme lors d une p riode donn e par rapport l ensemble des
352. rpus annot s est lourde Le d ferlement des donn es peut aussi d router par son intrication complexe de ph nom nes multiples Tout le langage s engouffre Le risque est alors un empirisme linguistique radical fleur de donn es et sans recul Ceux qui mettent au point traitements et outils peuvent tre de leur c t tent s par une certaine commis ration pour les tudes proprement linguistiques Ces derni res ne se confronteraient jamais au langage r el 293 J P Sueur 1982 144 d gage tout de m me des pistes et montre des premiers r sultats C Filmore et B Atkins 1994 montrent la complexit de l analyse du verbe risk lorqu on part comme eux de corpus 1 743 contextes fournis par l APHB American Publishing House for the Blind et de 470 extraits du corpus la base du dictionnaire COBUILD Ils comparent les tendances Observ es dans ces contextes avec le traitement op r dans dix dictionnaires Ils insistent sur les choix th oriques comme seuls moyens de s orienter dans le flux des attestations 295 L expression est de M P P ry Woodley 1995 p 216 Bibliographie 225 55 2 Espoirs Les recherches dont nous venons de d gager les grands traits renouvellent la dimension empirique et exp rimentale de la linguistique en particulier en ce qui concerne la quantification des faits langagiers Pour reprendre les termes de C Jacquemin une linguistique v ritablement exp rimentale est poss
353. rpus de suivi cf chapitre VII Deux millions et demi de mots provenant du journal The Times sont trait s chaque mois Le titre m me de ce compte rendu donne une id e de l ampleur du probl me Des donn es sales au langage propre Comme S Blackwell le souligne ibid la correction de ce qui semble tre des erreurs typographiques ne va pas forc ment de soi Une orthographe non standard a parfois pour but d imiter une prononciation trang re dialectale ou idiolectale Ou bien le mot a t forg dans une optique ludique mot valise d formations diverses Il s agit alors de choix d lib r s de la part de l nonciateur qui doivent donc tre conserv s comme tels Les donn es comprennent parfois des codes propres au traitement pour lequel les documents taient destin s au d part par exemple des indications de photocomposition Les titres sous titres et l gendes suscitent aussi un traitement sp cifique quoiqu ils constituent des unit s part enti re ne pas m ler au texte qui les environne ils sont g n ralement d pourvus de ponctuation finale Il faut donc distinguer leur d but et leur fin 42 SEGMENTATION La segmentation consiste d couper une suite de caract res en unit s mots simples ou unit s polylexicales 42 1 Rep rer les unit s Le rep rage des mots est d licat Un certain nombre de caract res en effet fonctionnent tant t comme s parateurs de mots tant t c
354. rre et Rigau 1996 Resnik 1995b montre que la parent s mantique d un ensemble de mots est per ue comme d autant plus grande que leurs sens sont plus pr cis Le cas du score d association est exemplaire de cette d marche empirique K Church et P Hanks ont propos 1990 de mesurer la force de cooccurrence de deux mots par une mesure fond e sur la notion d information mutuelle et emprunt e la th orie de l information Ils ont 175 Pour un sens donn on peut mesurer ce degr de sp cificit ou contenu informationnel Resnik 1995b par la hauteur du n ud qui le repr sente dans une hi rarchie comme WordNet ou par le nombre de noeud que ce noeud domine 122 DEUXIEME PARTIE montr l int r t et la diversit des r sultats qu elles permettait d obtenir A leur suite de nombreux auteurs ont eu recours cette mesure Hindle 1990 Resnik 1995b Pourtant le choix de cette mesure n est jamais r ellement justifi on en explicite les propri t s formelles mais sans expliquer pourquoi cette mesure est pertinente pour mesurer des contraintes de s lection La convergence de diff rentes exp riences montre cependant qu en donnant un poids important aux v nements rares et en soulignant les emplois sp cialis s le score de cooccurrence fait ressortir les expressions fig es ce qui est pr cieux dans une perspective lexicographique l association de il et de boeuf dans oeil de boeuf est int ressante p
355. rudimentaires et en tout tat de cause non g n riques ils sont faits pour traiter d arbres selon un format d encodage donn et ne travaillent pas un niveau de g n ralit suffisant Deuxi me fonctionnalit transformer des arbres Il peut s agir de changer des tiquettes pour faciliter l interpr tation ou de restructurer des sous arbres Alors que les techniques de transduction d arbre sont bien maitris es en informatique leur mise la disposition des utilisateurs de corpus arbor s reste pour l essentiel r aliser Cf Habert et al 1997 pour une utilisation de la transduction d arbres pour la comparaison de deux outils d acquisition terminologique Ressources lexicales 73 CHAPITRE III LES RESSOURCES LEXICALES POUR L ETIQUETAGE SEMANTIQUE Apr s la constitution de corpus de plus en plus volumineux l apparition de corpus tiquet s puis arbor s on commence voir merger des corpus porteurs d annotations s mantiques C est un niveau d annotation suppl mentaire qui ouvre de nouvelles perspectives dans l exploitation des corpus lheure actuelle ces corpus porteurs d annotations s mantiques n existent cependant qu l tat embryonnaire Les exp riences men es sont tr s diverses reflets de conceptions s mantiques tr s diff rentes L essor des corpus arbor s a fait suite celui des corpus tiquet s et on peut s attendre dans les prochaines ann es l apparition et au d veloppement des
356. s de la langue a 10 fragments de 2 000 mots pour diminuer le poids des idiolectes Par exemple la correspondance peut relever de la litt rature voire de la philosophie comme de l change en priv aux XVI et si cles Wright 1993 p 26 Finegan et Biber 1995 249 expliquent lincoh rence relative de leurs r sultats concernant les lettres par l h t rog n it de ce registre 126 DEUXIEME PARTIE 185 parl e ibid p 5 Pour Archer au sein d un registre le choix des ouvrages repose sur une proc dure al atoire au sens probabiliste Un protocole bien d fini permet galement pour chaque registre d extraire des fragments pas forc ment continus de 2 000 mots 27 3 Structuration temporelle L chelonnement des documents retenus peut avoir comme logique une p riodisation C est le choix d Archer qui distingue donc des p riodes de cinquante ans ce sont les blocs qui sont soumis ensuite l analyse linguistique et statistique Le parti pris du corpus couvrant l anglais de 1600 1800 Cambridge Wright 1993 est tout autre un talement continu des documents avec une ossature form e de textes s lectionn s dix ans d intervalle L objectif est ici de permettre au chercheur de choisir les intervalles qui lui paraissent pertinents et de ne pas l enfermer dans une p riodisation qui peut s av rer non valide pour sa recherche 27 4 Repr senter les tats de langue ou des idiol
357. s s et des types de textes en circulation 156 37 1 Typologie des textes genres et registres D Biber distingue clairement les types de textes qui rel vent de l analyse linguistique et les registres ou genres qui correspondent une cat gorisation sociale Pour lui les types de textes correspondent des corr lations de caract ristiques linguistiques qui participent d une m me fonction globale Ils ne se confondent ni avec les typologies fonctionnelles ni avec les genres Les genres ou registres sont les cat gories intuitives qu utilisent les locuteurs pour r partir les productions langagi res On l a vu propos de Brown ou d Archer elles m lent un rep rage th matique gros grain M decine Science et une utilisation de formes de textes th tre sermons et hom lies journaux intimes Ces cat gories voluent au fil du temps Elles fournissent n anmoins un premier d coupage des cat gories de textes prendre en compte 37 2 Typologie des param tres situationnels D Biber 1994 p 380 385 fournit un certain nombre de param tres situationnels permettant de d crire les documents int gr s dans un corpus 1 Canal crit parl crit lu 2 Format publi non publi 3 Cadre institutionnel autre cadre public priv interpersonnel 4 Destinataire a pluralit non compt pluriel individuel soi m me b pr sence pr sent absent c interaction aucune p
358. s sur article d fini continue constituer une fronti re L apprentissage porte donc ici sur des formes de sous cat gorisation 15 4 3 Vers une grammaire des d nominations complexes possibles L ensemble retenu par Lexter est encore nettement trop vaste par rapport ce qu un expert du domaine consid rerait comme termes effectifs Toutefois l objectif vis n est certainement pas une automatisation totale de la mise en vidence des termes d un domaine Pour deux raisons fondamentales La premi re c est que l utilisation de Lexter sur des corpus vari s de domaines distincts montre que les r gles de bonne formation de termes possibles ne sont pas forc ment les m mes d un domaine l autre C est pourquoi l apprentissage endog ne est justement 68 PREMIERE PARTIE incontournable La seconde raison tient la complexit des m canismes par lesquels une communaut langagi re s lectionne parmi les d nominations possibles celles qui deviennent des d nominations effectives Si l on peut esp rer diminuer la taille de l ensemble des candidats termes extraits d un corpus rep rer ceux d entre eux qui fonctionnent r ellement comme des termes semble difficilement automatisable Lexter mat rialise par les s quences qu il consid re comme des bornes un certain nombre d hypoth ses sur ce qui ne peut pas figurer dans une s quence nominale pour qu elle puisse tre employ e comme une d nomination La d marche suivie dans
359. s 61 SN genre lt 1 gt nombre lt 2 gt SAdj SAdj Nom Adj Adj genre lt 1 gt genre lt 1 gt genre lt 1 gt nombre lt 2 gt nombre lt 2 gt nombre lt 2 gt lemme 3 lemme 5 gt lemme lt 7 gt forme lt 4 gt forme lt 6 gt forme lt 8 gt SN genre lt 1 gt nombre lt 2 gt SAdj SAdj SAdj Nom Adj Adj Adj genre lt 1 gt genre 1 gt genre lt 1 gt genre lt 1 gt nombre lt 2 gt nombre lt 2 gt nombre lt 2 gt nombre lt 2 gt lemme 3 lemme lt 9 gt lemme 5 gt lemme lt 7 gt forme lt 4 gt forme lt 10 gt form lt 6 gt forme lt 8 gt e appliqu e l arbre repr sentant le descripteur fonction ventriculaire gauche produit l arbre suivant 62 PREMIERE PARTIE SN genre 1 nombre lt 2 gt SAdj SAdj SAdj Nom Adj Adj Adj genre f minin lt 1 gt O genre 1 gt genre lt 1 gt genre lt 1 gt nombre singulier lt 2 gt nombre lt 2 gt nombre lt 2 gt nombre lt 2 gt lemme fonction lemme lt 9 gt lemme ventriculaire lemme gauche forme fonction forme lt 10 gt forme ventriculaire forme gauche e Cet arbre correspond l interposition possible d un adjectif entre fonction et ventriculaire gauche Cet adjectif doit s accorder avec fonction
360. s ambiguit s possibles ne sont pas de m me nature on ne peut mettre sur le m me plan l h sitation entre nom et verbe porte et celle entre adjectif et participe pass Dans ce cas la lev e d ambiguit n a pas les m mes cons quences pour les traitements Bibliographie 173 ult rieurs consid rer un mot comme adjectif ou participe pass changera peu la place qui lui sera attribu e dans la structure construite 43 5 Post traitement et co ts Pour un usage linguistique fin le post traitement manuel s av re en tout cas indispensable Malgr les environnements sp cialis s qui ont t d velopp s la correction reste co teuse Dans le cadre de BNC elle est valu e Leech et al 1994 apr s le passage d un tiqueteur probabiliste CLAWS4 bas sur les chaines de Markov au taux de succ s de 96 97 96 40 minutes de travail sp cialis pour 1 000 mots soit 41 ann es homme pour 100 millions de mots Il faut en outre prendre en compte le nombre d tiquettes plus il est grand plus il rend difficile la correction manuelle Cette difficult pousserait choisir des tiquettes connues bas es sur le savoir grammatical courant sur la terminologie grammaticale traditionnelle pour faciliter le travail des correcteurs et l utilisation ult rieure par des chercheurs Greenbaum 1993 Pour le corpus de l universit de Lancaster pr s de 39 minutes Black et al 1994 p 60 sont n cessaires au traitement
361. s chapitres nous pr sentons d abord rapidement le niveau d annotation concern Les corpus pr sent s la fin de cette introduction sont sollicit s pour des exemples o nous respectons les lourdeurs des notations existantes Nous essayons en m me temps de fournir une repr sentation unifi e pour chaque niveau d annotation de mani re pouvoir comparer les formats effectifs utilis s ces derniers tant extr mement vari s Les diff rences de notations emp chent en effet souvent de percevoir les divergences et les convergences Nous rejoignons M P P ry Woodley 1995 Le fait que n existe pas en fran ais un terme unificateur Comme corpus linguistics pour cons quence que rien ne vient cacher la diversit des objectifs et des m thodes des diff rents utilisateurs de corpus r elles Dans un deuxi me temps nous d veloppons quelques exemples de recherches linguistiques rendues possibles par ce niveau d annotation et qui paraissent particulierement prometteuses Par ces exemples nous voulons montrer d embl e ce que peuvent apporter les diff rents niveaux d annotation possibles d un corpus sans que les probl mes techniques viennent troubler la perception des enjeux Le chapitre Ill d crit d autres ressources textuelles importantes les ressources lexicales sous forme lectronique 6 2 Dimensions transversales Le chapitre IV consacr au volet s mantique montre comment extraire des connaissances lexicographi
362. s de navigation et de nouvelles possibilit s d exploration mais il reste probablement inventer de nouvelles formes de dictionnaires On peut penser en particulier des bases de connaissances int gr es et dynamiques aux degr s de granularit et de sp cialisation variables qui puisse tre reconfigur es en fonction des besoins et des parcours de l utilisateur et offrir ainsi diff rents points de vue l utilisateur Reprenons l exemple de credit C est un mot polys mique riche en connotations et x son entr e dictionnairique est trop riche pour tre facile exploiter Si 135 Soit en faisant un zoom pour concentrer son attention sur une zone donn e soit au rotate en faisant abstraction d un certain niveau de d tail pour d gager une vue nsemble de En termes de couverture les objectifs de WordNet diff rent peu de ceux d un bon dictionnaire standard de langue C est dans l organisation de cette information que rdNet pr tend innover Miller et al 1993 1 d Qui respecte les propri t s de sym trie de transitivit et de r flexivit Ressources lexicales 87 l utilisateur s int resse au domaine conomique et financier la plupart des sens deviennent imm diatement caduques tandis que les d tails du deuxi me sens prennent de l importance On devrait ainsi pouvoir consid rer une base de connaissances sous diff rents points de vue 20 UN EXEMPLE DE RESEAU LEXICAL WORDNET Nous pr
363. s lexicales et de r gles et tr s d taill es concernant les conditions syntaxiques d emploi des mots par exemple Les ressources actuelles sont notoirement insuffisantes surtout en ce qui concerne la finesse de description En second lieu leur am lioration semble t il n est ni uniquement ni m me principalement chercher dans des nouvelles tudes en chambre mais plut t dans l observation des larges ensembles de donn es textuelles qui sont maintenant disponibles Il s agit en fait d un changement profond de paradigme Jusque l l objectif des recherches en TALN et en Intelligence Artificielle tait avant tout de mod liser de formaliser le savoir humain de d gager les r gles sous jacentes C est pourquoi les m thodes utilis es en TALN taient alors largement symboliques c est dire fond es pr cis ment sur des r gles M Liberman 1991 r sumait ainsi le courant anti empirique anti num rique et pro symbolique des vingt derni res ann es Compter tait pr cis ment consid r comme n tant pas une t che appropri e pour une personne de qualit L observation de donn es langagi res en tr s grande quantit et le traitement de flux d informations aussi importants que ceux qui circulent aujourd hui sur le r seau Internet conduisent in luctablement recourir des approches quantitatives ou marier approches symboliques et approches quantitatives C est donc un v ritable changement
364. s lexicales sur support lectronique les dictionnaires notamment machine readable dictionaries se situent un premier niveau On d signe ainsi les versions lectroniques des dictionnaires thesaurus terminologies et autres bases de connaissances disponibles qui ont t saisies ou scann es Par rapport la version reli e seul le support change les donn es sont identiques Pourtant ce premier niveau d informatisation permet d j de nouveaux modes d exploration Dans un dictionnaire qui se pr sente sous la forme d un livre on ne peut gu re rechercher les mots qu au hasard ou par ordre alphab tique C est l la limite des dictionnaires traditionnels pour G Miller le p re de WordNet 1993 Consid rant un exemple de d finition hyperonymique de arbre tree pris au sens de plante il regrette qu elle soit terriblement incompl te le sens dans lequel l hyperonyme plante doit tre entendu n est pas sp cifi on ne sait pas s il existe d autres plantes qui ne soient pas des arbres on ne peut pas retrouver facilement les diff rentes sortes d arbres D s lors que le texte est sur support lectronique on peut facilement passer d une entr e l autre par des algorithmes sur les chaines de caract res on peut trouver les mots ayant une terminaison commune rechercher tous les mots dont les d finitions contiennent un mot donn etc Cela permet de s affranchir partiellement des limites des d finitions
365. s linguistiques qui sont mis entre accolades commun adjectif relationnel d signe l enchainement d un nom commun et d un adjectif relationnel Les exemples extraits de corpus et les sorties d analyseurs sont signal s par un changement de police comme dans adjectif relationnel 5 ORIENTATION DE L OUVRAGE Devant la multiplicit des points de vue possibles sur cette conjoncture nouvelle et les travaux qui en sont issus nous pr cisons les parti pris qui sont les n tres dans les pages qui suivent 5 1 L crit au travers de corpus enrichis de langues vivantes Nous avons mis l accent sur les corpus relevant de l crit Les corpus d oral transcrit sont encore rares la transcription proprement dite les choix qu elle entraine les co ts qu elle suppose freinent leur d veloppement m me si celui ci semble s acc l rer dans les derni res ann es On dispose d un recul moindre pour ce domaine que pour celui de l crit II nous semble aussi que l oral impose des niveaux de description et des outils th oriques partiellement loign s de ceux qui sont traditionnellement utilis s pour l crit Ce cadre th orique nous fait d faut Il nous a sembl pr f rable de laisser d autres en parler mieux que nous De nombreux textes latins et grecs sont disponibles sous forme lectronique Nous ne parlerons cependant pas de ces corpus de langues mortes Nous centrons en effet notre analyse sur les langues vivantes ainsi que
366. s mots les plus repr sentatifs d un document et de guider l utilisateur dans la formulation de sa requ te si les mots clefs qu il donne comme crit re de recherche sont trop ou trop peu sp cifiques Les travaux en analyse s mantique de corpus permettent aujourd hui d envisager de r elles am liorations dans le domaine de la recherche documentaire voirsection 3 22 2 3 Acquisition de connaissances L analyse s mantique de corpus vise enfin acqu rir des connaissances partir de corpus Partant du constat que dans nos soci t s modernes 98 DEUXIEME PARTIE l crit est le principal v hicule de l information et des connaissances et que hors des domaines formels pour lesquels ont t con us des langages formels math matiques ou logiques ces connaissances sont toujours exprim es en langage naturel on cherche d velopper des m thodes pour extraire et donc acqu rir les connaissances des corpus 1 s agit ni plus ni moins de proposer des techniques de lecture rapide et automatique des corpus Les connaissances ainsi extraites servent souvent construire les bases de connaissances lexicographiques que sont les dictionnaires thesaurus et terminologies qu elles soient de langue g n rale ou sp cialis es monolingues ou bilingues Nous d veloppons cet aspect ci dessous section 2 Il s agit galement de mod liser l ensemble des connaissances constituant un domaine sp cialis Un corpus portant sur l a rona
367. s par les metteurs manifeste une corr lation Ceux qui emploient beaucoup l une des formes S 30 S 50 c est dire les dipl m s les plus jeunes ont tendance utiliser galement l autre et inversement 200 B 50 150 raisons 100 B 30 A 50 50 20 40 60 80 100 120 140 probl mes Figure 7 Les parties d Enfants et les formes raisons et probl mes Si l on accepte de perdre un peu de l information contenue sur ce graphique on peut simplifier la repr sentation des parties en tra ant un axe qui pouse e mieux possible la forme du nuage de points repr sent sur la figure 7 Si l on munit cet axe d un syst me de coordonn es on obtient une repr sentation des distances entre les parties figure 8 qui est moins pr cise mais plus synth tique 2 1 0 1 2 c co 2 Mi Ur qp 0 my m m l 1 I D in I n Figure 8 Les m mes parties dispos es sur un facteur Bibliographie 211 Les m thodes factorielles op rent partir des immenses tableaux soumis l analyse des synth ses du m me type Partant d un tableau qui compte cette fois plusieurs milliers de formes et toujours neuf parties l analyse des correspondances extrait une information synth tique La repr sentation simplifi e des distances entre cat gories met en vidence la principale information contenue dans le tableau de donn es soumises l analyse la proxi
368. s que la seconde rend compte des grandes oppositions pouvant exister dans le corpus Ainsi les r ponses contenues dans Enfants ont t regroup es cette fois en neuf parties qui correspondent au croisement de trois cat gories de dipl me A aucun B Baccalaur at ou BEPC et S Sup rieur avec trois cat gories d ge moins de 30 ans 30 50 ans 50 ans et plus On a ensuite calcul le tableau qui croise ces neuf cat gories avec les formes du corpus 99 287 L ouvrage de r f rence est le livre de J P Benz cri et coll Benz cri 1973 On trouvera des pr sentations diff rentes de cette m me m thode destin es au lecteur non th maticien dans Salem 1987 ainsi gua dans Lebart et Salem 1994 Pour all ger les r sultats seules les formes de fr quence sup rieure 10 occurrences ont t retenues L exp rience montre que ce type de s lection a peu d influence sur les r sultats de l analyse 210 Commengons par un exemple tr s simple On a repr sent Figure 7 les neuf parties du corpus en fonction de leur utilisation des formes raisons axe vertical et probl mes axe horizontal La valeur port e sur chacun des axes est gale la proportion d utilisation exprim e en 10 000 mes de chacune de ces formes par chacune des parties On voit que les parties ne se r partissent pas sur l ensemble du graphique mais sont plut t regroup es autour d une des diagonales Cela veut dire que l emploi des deux forme
369. s r ussi malgr des efforts soutenus des annotateurs int grer un classement des compl ments en termes de grammaire de cas la Fillmore la nature des relations logiques que des pr dicats vari s entretiennent dans l sage r el avec leurs arguments s est av r e trop diverse pour un tel traitement et l quipe croit avoir test jusqu puisement l hypoth se selon laquelle la structure propositionnelle de 259 tested to destruction Bibliographie 183 base en anglais peut tre ad quatement d crite gr ce un ensemble limit de cas Sampson 1994 p 185 Les relations entre les pronoms et leurs ant c dents n ont pas non plus t ajout es Susanne probablement moins par peur de d boucher sur des apories que faute de moyens Toute grammaire fuit pour reprendre une image souvent employ e dans la communaut du parsage robuste L id e de rendre compte de l ensemble des ph nom nes syntaxiques de la langue on parle de la couverture de la grammaire utilis e par un parseur est un fantasme stimulant certes comme tous les mythes mais illusoire comme le soulignent du point de vue linguistique J M Marandin 1993 et du point de vue du TALN T Briscoe 1994 p 100 Une raison de fond la langue varie Dans le temps d abord Mais aussi selon les genres discursifs et les domaines d emploi A la diff rence des langages formels utilis s en logique ou en informatique l ensemble des r gles n es
370. s textes et autres nonc s produits Les genres et domaines fournissent pour l crit un d coupage insatisfaisant certes mais utilisable des types repr senter Pour l oral l identification des classes consid rer est moins avanc e Notre connaissance de la population des donn es langagi res est donc encore extr mement fragmentaire Les erreurs statistiques classiques sont par cons quent monnaie courante l chantillon est trop petit pour bien repr senter la population l chantillon est syst matiquement biais il s carte significativement des caract ristiques de la population Biber 1993a p 219 220 36 LANGUES DE SPECIALITE ET SOUS LANGAGES l oppos de la langue g n rale que cherchent repr senter les corpus de r f rence se trouvent les usages sp cialis s Les d nominations langues sp cialis es langues de sp cialit sous langages impliquent des analyses et des vis es diff rentes Parler de langue sp cialis e n est ce pas insister sur la continuit entre la langue g n rale et ce fonctionnement particulier La notion de langue de sp cialit met plut t l accent sur le domaine technique ou scientifique concern Par sous langage Harris entend un fonctionnement langagier tout fait sp cifique 36 1 Les hypoth ses de Z Harris Z Harris partir du milieu des ann es soixante dix et jusqu aux ann es quatre vingt dix oppose le caract re relativement flou des restrict
371. s variations de fr quences int ressent des sp cialistes du texte politique L entr e quantitative est ici la seule voie d acc s l analyse d taill e et contrastive d un tel ph nom ne 47 LES UNITES La m thode statistique s appuie sur des mesures et des comptages r alis s partir des objets que l on veut tudier D compter des unit s les additionner entre elles cela signifie d un certain point de vue les consid rer au moins le temps d une exp rience comme des occurrences identiques d un m me type Pour soumettre une s rie d objets des comparaisons statistiques il faut donc dans un premier temps d finir une s rie de liens syst matiques entre des cas particuliers et des cat gories plus g n rales Dans la pratique l application de ces principes g n raux implique que soit d finie une norme de d pouillement permettant d isoler partir du texte annot les diff rentes unit s sur lesquelles porteront les d nombrements Le nombre des occurrences de chaque forme dans chaque partie est rapport la de la partie consid r e et multipli par 10 000 pour une plus grande lisibilit des r sultats 194 Ch Muller 1973 expose les difficult s li es l tablissement d une telle norme de d pouillement La norme devrait tre acceptable la fois pour le linguiste pour ses auxiliaires et pour le statisticien Mais leurs exigences sont souvent contradictoires L analyse linguistique about
372. se en contexte des r sultats Tableau 6 Formes et segments les plus caract ristiques pour les r pondants les 289 Des r sultats tout fait similaires ont t obtenus dans une exp rience du m me type portant cette fois sur des d comptes de lemmes au sein de la m me partition du corpus Bibliographie 213 plus dipl m s F f Sp financi res 174 79 06 les difficult s financi res 19 14 05 difficult s financi res 32 19 04 probl mes 108 47 04 fait de 10 7 03 et 205 77 03 face 10 8 03 et les 17 10 03 du couple 48 23 03 fait 25 14 03 situation conomique 24 13 03 raisons financi res 93 38 03 couple 95 39 03 raisons 178 66 03 probl mes financiers 51 23 03 affective 12 8 03 les probl mes 35 18 03 difficult s 83 37 03 des responsabilit s 13 9 03 responsabilit s 22 13 03 le fait 16 11 03 Ce tableau pr sente de nombreuses redondances qui r sultent du fait que dans un premier temps les listes d unit s sp cifiques sont produites de mani re enti rement automatique sans aucun filtrage L illustration par les segments r p t s pr cise la signification des unit s mises en vidence par le calcul des sp cificit s L implication des d nombrements portant sur les segments r p t s permet d extraire de l enchev trement inextricable des segments r p t s des unit s qui pr cisent la description par les unit s effectu e partir des unit s isol es de leur contexte imm diat
373. se retrouvent approximativement pon La fran ais cr dit argent mis disposition d autrui 1 m rite 2 paiement r 3 a Plank et board sont synonymes dans le sens de grosse planche mais board admet aucoup d autres sens tableau cartonnage comit NDA Relation de partie tout Cf section 4 2 1 0 E Nous mettons l accent sur les aspects s mantiques et nous ne consid rons pas ici les liens de morphologie flexionnelle _ N est reproduite ici qu une portion du sous r seau concern Pour ne pas surcharger la figure un synset est repr sent par un mot cl emprunt la liste des mots qui le d finit et not en petites majuscules La chaine d hyponymies compl te est la suivante les synsets et la relation d hyponymie sont respectivement not s entre accolades et par le 21805 credit card charge card charge plate bank card lt open end credit revolving credit charge account credit consumer credit gt credit line line of credit bank line line personal credit personal line of credit gt credit Ressources lexicales 89 La synonymie joue un r le central dans la mesure o elle est interne aux noeuds et constitutive des synsets Elle s oppose toutes les autres relations qui relient les mots les uns aux autres Cela revient distinguer deux niveaux de relations les relations J exicales qui relient respectivement entre eux les mots et les relations s ma
374. segments r p t s constitu s par les unit s qui rel vent de chacun des syst mes d annotation dont on dispose sur le texte Les suites de cat gories grammaticales par exemple consid r es sous l angle de leur r p tition dans le corpus renseignent sur la fr quence relative des constructions syntaxiques La recherche syst matique des segments r p t s de Mitterrand1 parmi les formes lexicales fait ainsi apparaitre un tr s grand nombre de r currences de fr quence lev e Tous ces constats de r p tition ne renvoient pas au m me niveau d analyse linguistique Certains r sultent de l utilisation de syntagmes relativement bien form s d autres sont produits par la reprise partielle dans des phrases diff rentes de fragments plus ou moins autonomes au plan syntaxique Dans le tableau 3 on a rassembl quelques uns des segments qui sont la fois longs et fr quents dans ce corpus La colonne L donne la longueur du segment mesur e en formes graphiques la colonne F indique sa fr quence Tableau 3 Quelques segments fr quemment r p t s dans Mitterrand1 F segment 13 jaidittout l heure 11 laidit tout a heure 42 ilnyapasde 15 cenest pas moi qui 15 je suis pr sident de la r publique 15 que le pr sident de la r publique 106 inyapas le pr sident de la r publique 36 dittout l heure 36 mais ce n est pas 34 point de vue 366 cenestpas 211 pr sident de la r publique 190 jenaipas
375. sentons ici l exemple de WordNet un thesaurus lectronique Deux raisons pr sident au choix de cette base lexicale C est probablement la base de connaissances g n rales la plus utilis e elle a servi mettre au point ou tester de nombreuses exp riences depuis le d but des ann es 1990 Par ailleurs WordNet est un exemple d une base lexicale congue et pens e pour le support lectronique 20 1 Un projet ambitieux Depuis 1985 un groupe de psycholinguistes et de linguistes de l universit de Princeton a d velopp une base de donn es lexicale selon des principes sugg r s par des exp riences et des recherches en psycholinguistique sur l organisation de la m moire humaine Depuis cette date ce projet a pris de l ampleur il se poursuit encore de nos jours Le r seau WordNet disponible aujourd hui est la version 1 5 Il peut soit tre consult en ligne soit tre import 20 1 1 Repr senter les sens de mots L objectif de WordNet est de d crire comment les sens de mots ou concepts et non les mots eux m mes s organisent les uns par rapport aux autres En ce sens WordNet ressemble davantage un thesaurus qu un dictionnaire La th orie sous jacente est une th orie diff rentielle un sens se d finit par la place qu il occupe dans le r seau par les relations de proximit ou de contraste qu il entretient avec les sens voisins Partant de ce principe un sens est repr sent par un ensemble de s
376. ses s mantiques de mots partir de corpus permet au cogniticien de rep rer les principales cat gories ou principaux types s mantiques existant dans le domaine en question et d organiser le lexique en regard de ces types 45 1 4 Proc der par it rations La construction de cat gories s mantiques repose g n ralement sur une alternance d induction de connaissances partir de corpus et d interpr tation ie de projection de connaissances ext rieures au corpus Une premi re classification permet d identifier une ou plusieurs classes coh rentes qui peuvent tre fig es puis projet es sur le corpus sous la forme d un tiquetage partiel Seuls les mots de ces premi res classes porteront une tiquette de classe mais ils constituent des lots de confiance partir desquels une nouvelle classification peut tre construite Cette m thode incr mentale est donc une m thode mixte consistant induire des connaissances m me Voir entre autres Assadi et Bourrigault 1995 Bensch et Savitch 1995 Mikheev et Ejnch 1995 MacMa on et Smith 1994 ou Bouaud et al 1997 C est la d marche adopt e par Bouaud et al 1997 ou P Bensch et W Savitch 1995 12 quand on applique notre technique de classification un corpus r el elle identifie un ensemble de cat gories qui paraissent naturelles sans toutefois classer beaucoup de mots dans ces cat gories Mais il s est av r que ce petit nombre de mots
377. sis Il a indiqu les fronti res de constituants la main pr parant ainsi la bonne r ponse Il a ensuite utilis son parseur les r sultats taient corrects dans 30 des cas seulement Troisi me exp rience la comparaison en 1992 des r sultats de sept parseurs sur 100 phrases de longueur variable de 4 69 mots avec une moyenne de 22 mots tir es au hasard d un million de mots du Wall Street Journal La correction moyenne du simple parenth sage sans prendre en compte les tiquettes ne d passait pas 22 et les r sultats s talaient de 16 41 96 de r sultats structuralement corrects Un second crit re d appr ciation concernant les parseurs et les grammaires qu ils utilisent est la r utilisation possible ou effective de l approche soit sur d autres secteurs de la m me langue soit pour d autres langues C est ainsi que le parseur ENCG d velopp pour l anglais a t adapt au su dois au danois et au basque Voutilainen et Heikkila 1994 p 191 Un troisi me crit re li au pr c dent mais plus difficile appr cier parce que moins factuel est celui de la coloration th orique des conventions d annotation A quel cadre th orique sous jacent renvoient elles Notons tout de m me que la tendance est plut t sinon des notations consensuelles ce qui n a pas grand sens du moins des pratiques vitant les distinctions controvers es et les parti pris m thodologiques trop marqu s 6 C est
378. solutions qui sans tre jamais vraiment consensuelles reposent sur des compromis entre des communaut s distinctes et des imp ratifs techniques multiples Ces solutions d pendent galement de l usage pr vu en aval pour les ressources annot es Cette imperfection ne constitue pas pour autant un obstacle majeur Nous l avons vu il est souvent possible de faire des d tours pour isoler les ph nom nes vis s Sans doute faut il aussi abandonner l horizon illusoire de corpus parfaitement annot s et d outils ne faisant pas d erreur Pourquoi attendre de la machine une coh rence et une perfection que l annotation manuelle n atteint pas La collaboration de l Universit de Lancaster et du centre de recherche d IBM Watson Black et al 1993 est exemplaire d une coop ration fructueuse entre les deux communaut s concern es au premier chef la linguistique et le TALN Les linguistes ont vu leur attention attir e sur des 226 ph nom nes souvent con us comme marginaux et sur la n cessit de les int grer dans leur description Les informaticiens ont appris mod liser des comportements langagiers plus fins que ceux qu ils traitaient initialement Les deux communaut s ont l int r t le plus vif coop rer La constitution de vastes corpus finement annot s et la mise au point des outils n cessaires supposent des recherches informatiques importantes et co teuses Les linguistes en b n fieront Inversement seuls
379. ssi bien des mots qu des groupes de mots Nous empruntons les notations du parseur ENGCG Voutilainen et Heikkila 1994 pour illustrer cette approche sur notre exemple indique que la t te est droite la premi re des deux cat gories suivant l arrobas 7 5 D autres informations sont Uds pour un corpus d oral transcrit et les caract ristiques syntaxiques propres l oral r it rations faux d marrages etc Nous ne DADOS pas puisque nous avons fait le choix de ne traiter que les corpus d crit ous suivons ici la terminologie de Mel cuk 1988 p 23 La d nomination d pendant y est pr f r e celle de modifieur parce qu elle est plus g n rique 50 PREMIERE PARTIE renvoie au mot examin la seconde au mot t te Ce Q DN guide NV2 gt leur PV gt permet al DN gt signifie que Ce est un D terminant d pendant du premier Nom a droite si c tait le deuxi me la notation serait DN2 gt Une autre notation indiqu e dans Leech et al 1996 p 26 assortit chaque mot d un num ro d ordre sa gauche et ventuellement droite du num ro de la t te dont il d pend 2 permet 2 guide N 4 3 leur P 4 i ne qui correspond guide DS a 1 Le mot 1 Ce d pend du mot 2 qui comme le mot 3 d pend du mot 4 Ce dernier qui est la t te ne d pend de rien Il est encore possible ibid p 27 de repr senter un graphe de d pendance par une expressio
380. ssienne Cette vision des sous langages s accompagne d une m thode pour mettre au jour les classes de mots et les patrons syntaxiques caract ristiques d un sous langage Pour reprendre les termes de N Sager 1987 p 198 Si l on applique un corpus de textes d un secteur scientifique des m thodes de linguistique descriptive similaires celles utilis es pour le d veloppement d une grammaire d une langue dans son ensemble on obtient des motifs pr cis de cooccurrences de mots partir desquels on peut d finir des sous classes de mots et des s quences de ces sous classes qui sont caract ristiques c est dire une grammaire Ces cat gories lexicales et formules syntaxiques de la grammaire du sous langage sont troitement corr l es aux classes d objets du monde et aux relations qui sont propres 219 N1 n est pas toujours roy pan exemple dans la nominalisation dilatation de N2 ou gans l utilisation du passif N2 a t dilat I s agit d ailleurs d une m tonymie c est en fait un segment qui est dilat non l art re i re Les manuels informatiques anglais ont par exemple un emploi particulier de to vary on un dispositif signifiant approximativement e mettre en marche dans n phases comme The system will be unable to vary on the device Black et al 1993 p 112 Bibliographie 153 ce sous domaine Ils fournissent donc un ensemble de structures s mantiques pour refl ter les connaissances de ce doma
381. st suivie d une liste de cat gories ou par analyse morphologique ou par combinaison des deux techniques Pour lever l ambiguit deux solutions qui peuvent d ailleurs tre associ es s offrent alors le recours des ou l appel aux probabilit s ce qui est sans doute la tendance dominante 43 1 Taux d ambiguit ll est n cessaire pour valuer la t che d d sambiguisation morpho syntaxique c est dire le choix de l tiquette correcte parmi les tiquettes possibles d valuer le nombre moyen d tiquettes pour un mot M El B ze et T Spriet 1995 donnent les informations suivantes une tr s grosse part de l ambiguit syntaxique est d tenue par un petit nombre de mots fr quents De plus ces mots sont essentiellement des mots outils Ils appartiennent des classes ferm es et jouent un r le syntaxique bien cern dans la litt rature Ils pr cisent ibid p 58 30 ie de l ambiguit est d tenue par les 8 mots ambigus les plus fr quents 50 par les 36 premiers mais il faut traiter 1 825 formes diff rentes pour lever 90 de l ambiguit E Tzoukermann et al 1996 pr cisent ce premier constat sur deux ensembles de 94 882 et 200 182 occurrences respectivement tous deux extraits du journal Le Monde septembre octobre 1989 et janvier 1990 Nombre du corpus de 94882 du corpus de 200 182 d tiquettes mots mots 7 On ne sait pas attacher de mani re fi
382. stdijk N de Haan P Rodopi Amsterdam 1994 121 142 KARLSSON F VOUTILAINEN A HEIKKILA J ANTILLA A Contraint Grammar a Language Independent System for Parsing Unrestricted Text Mouton de Gruyter 1995 KLEIBER G D nomination et relations d nominatives Langages 76 1984 77 94 KROCH A S Reflexes of grammar in patterns of language change Language Variation and Change 3 1990 275 299 KROVETZ R Lexical acquisition and information retrieval in Lexical Acquisition Exploiting On Line Ressources to build a Lexicon Zernik U Lawrence Erlbaum USA 1991 KUCERA H NELSON F Computational Analysis of Present Day American English Brown University Press Providence 1967 M A supplement to the Helsinki corpus of english texts the corpus of early american english in English language corpora design analysis and exploitation Aarts J de Haan P Oostdijk N Rodopi Amsterdam 1993 289 298 LABBE D Le vocabulaire de Francois Mitterrand Presses de la Fondation Nationale des Sciences Politiques Paris 1990 LAFON P Analyse lexicom trique et recherche des cooccurrences MOTS 3 1981 95 148 LAFON P Sur la variabilit de la fr quence des formes dans un corpus MOTS 1 1980 128 165 LAFON P SALEM A L inventaire des segments r p t s d un texte Mots 6 1983 161 177 LANGE J M GAUSSIER E Alignement de corpus multilingues au
383. stes peut tre modalit potentielle Dans la premi re version chaque mot est associ e une tiquette refl tant le sens dans lequel il est employ la distinction et la num rotation des sens est reprise du Petit Robert Dans ce cas chaque mot est tiquet Dans la deuxi me version en revanche il s agit d un tiquetage partiel qui ne concerne que les marques de modalit s et qui devrait permettre d observer la r partition de ces modalit s dans l ensemble du corpus Comme au niveau syntaxique ces tiquettes pourraient tre complexes et combiner plusieurs traits Nous ne prenons ici en compte que le premier type d tiquetage qui associe un ou plusieurs sens un mot ou une unit textuelle On parle dans ce cas de d sambiguisation lexicale word sense disambiguation I faut entendre ce terme dans un sens technique L objectif est d identifier le sens dans lequel un mot est employ Concr tement il s agit en fait d un num ro de sens ce sens tant choisi dans une liste finie de sens Dans l dition de 1973 La valeur 0 indique que le mot a un sens unique Ne ne P pas d tiquette s mantique parce qu il n a pas un fonctionnement tonome Il forme avec pas un seul et m me constituant discontinu Lorsque le contexte est clair nous parlons plus simplement de d sambiguisation Ressources lexicales 75 laquelle est g n ralement issue d une source de connaissances choisie comme r f rence un dictio
384. stin s traiter de gros volumes de textes tout venant de nouvelles approches sont aujourd hui explor es pour l analyse s mantique Sous l impulsion des besoins en mati re de recherche d information ou d aide la lexicographie sp cialis e l objectif s est d plac On ne cherche plus comprendre tout le texte le repr senter dans toute sa complexit ses implicites et ses nuances de sens Seule une partie du texte est pertinente la repr sentation cible est g n ralement pr d finie et on n glige les nuances de sens les buts du locuteur les pr suppos s et implicites etc L accent porte d sormais sur les probl mes de structuration lexicale avec notamment la d sambigu sation s mantique des mots le calcul de contraintes de s lection les ph nom nes de synonymie de parent ou de classe s mantique et plus largement le rep rage des relations lexicales 1 Cf Herzog et Rollinger 1991 Cela suppose tout la fois de r soudre les anaphores de rep rer les variations de la prise en charge nonciative de saisir la port e de telle n gation ou de tel quantificateur d identifier les relations structurant l ensemble du discours etc 118 DEUXIEME PARTIE Tous ces travaux reposent sur l id e que le sens se construit en contexte mais aussi par le contexte C est donner un r le central au corpus On a soulign ce point dans le travail de G Grefenstette Celui de M Sussna converge et gard M me lorsqu
385. straites ici morpho syntaxiques introduit une bienfaisante tranget dans l appr hension du corpus Ce pas de c t contrebalance la trompeuse imm diatet des formes lexicales dont le sens s impose trop videmment Mais en m me temps certaines associations de traits dans les dimensions d gag es par Biber ou le sur emploi de telle tiquette dans l tude d Enfants demeurent nigmatiques On ne dispose pas forc ment dans l imm diat des cadres th oriques n cessaires pour examiner les donn es ainsi produites L encore comme en 1 3 nous fournissons une repr sentation unifi e des diff rentes possibilit s effectives dans tel ou tel syst me d interrogation de texte tiquet Les corpus arbor s 37 12 2 Linguistique et textualit Benveniste assignait la linguistique la phrase comme horizon d analyse I n en a pas moins explor les r gularit s proprement textuelles li es l utilisation de l appareil de l nonciation Sa distinction histoire discours a donn naissance des typologies ou des grilles d analyse plus fines En didactique du fran ais cette dichotomie a t mobilis e largement pour aider les apprenants ma triser les conditions de bonne formation des textes L utilisation de corpus tiquet s diversifi s offre d sormais la possibilit d examiner s rieusement l hypoth se que les textes effectifs rel vent de types fondamentaux qui expliquent un certain nombre de leurs traits lin
386. subdivis s en sens distincts entree lt x forme homographe forme sens 225 forme lt orthographe phonetique homographe XI categorie sens Chaque l ment est encadr par deux balises de m me nom l une ouvrante l autre fermante Les balises sont entre chevrons La balise fermante commence par une oblique Le balisage concret serait alors entree forme lt orthographe gt linguistique lt orthographe gt lt phonetique gt a mettre lt phonetique gt lt forme gt lt homographe gt lt categorie gt nom lt categorie gt lt homographe gt lt categorie gt adjectif lt categorie gt lt sens gt relatif la linguistique lt sens gt lt sens gt propre a la langue envisag du point de vue de la langue lt sens gt lt sens gt relatif l apprentissage des langues sens 225 Le signe signifie que le constituant doit figurer au moins une fois et qu il peut se r senter un nombre ind fini de fois a barre verticale s pare deux mani res possibles de construire une entr e une forme suivie d homographes ou une forme suivie d un ou de plusieurs sens Une entr e de dictionnaire qui ne contiendrait pas d indications orthographiques et phon tiques serait mal form e par exemple Bibliographie 159 homographe lt entree gt Le balisage employ ici rend explicite ce qui n existait que sous forme d indices dans la version papier de l entr e Il ob it au langage standard de balisage
387. sur la facture m me des corpus et la langue employ e le texte demeure un message porteur d information et l on ne cesse d interroger les corpus sur le sens qu ils v hiculent Le pr sent chapitre met l accent sur l exploitation s mantique des corpus laquelle peut porter aussi bien sur des corpus nus que sur des corpus tiquet s et arbor s Sur les deux exemples de l aide la lexicographie et de la recherche d information il tente de montrer dans quelle mesure et quelles fins on peut acc der au sens v hicul par les phrases ou les textes d un corpus 22 2 Des applications vari es L analyse s mantique int resse des domaines et des publics extr mement divers On peut identifier trois principaux types d applications l analyse de contenu l acquisition de connaissances et la recherche documentaire 22 2 1 Analyse de contenu L analyse s mantique vise tout d abord rendre compte du contenu des corpus s inscrivant en cela dans une longue tradition la fois litt raire stylistique historique et sociologique Que l objectif soit de rendre compte des propri t s esth tiques de retracer une volution historique ou de d crire un moment de l histoire de caract riser les discours de certaines cat gories de population il s agit d explorer le contenu des corpus en tant que tel pour en rep rer la fois les th mes dominants et leur agencement Les tudes th matiques s int ressent principalement au lexique O
388. sur les tats anciens de ces langues l ancien et le moyen fran ais par exemple Par corpus enrichis ou annot s nous entendons des corpus dans lesquels les s quences de caract res qui constituent les mots sont assorties d autres informations lemmes tiquettes morpho syntaxiques s mantiques arbres syntaxiques apparat critique etc Nous ne retenons pas les corpus nus c est dire faits de mots seuls sans annotation sauf l occasion pour montrer l cart entre les analyses selon le niveau d information disponible ou dans le cas de corpus d tats anciens des langues actuelles Nous pr sentons cependant d autres ressources textuelles qui ne sont pas des corpus annot s mais qui repr sentent tout de m me une source d information pr cieuse C est le cas des versions lectroniques de dictionnaires papier ou de 12 Certains des corpus mentionn s comme BNC en fait SEA parie d oral Deux des corpus fran ais utilis s sont partiellement ou totalement de l oral transcrit Mitterrand1 mais aussi les lettres et les compte rendus dans Menelas qui sont dict s Certaines recherches pr sent es celles de Biber par exemple r sum es au chapitre 1 font appel l oral Mais c est une dimension e nous laissons chaque fois dans l ombre M On distingue en outre corpus d oral et corpus de parole Sinclair 1996 p 8 9 Les premiers servent aux linguistes et reposent sur des transcriptions associant ventuell
389. t e par les adverbiaux en particulier de temps et de lieu k Les traits privil gi s comprennent les infinitifs les modaux les subordonn es gonditionnelles Favorisant les passifs sans agent et les passifs avec by Cf chapitre IX 37 Les corpus arbor s 25 fonction de leur place sur chacune de ces dimensions 1 Interaction interpersonnelle intime intimate interpersonal interaction 2 Interaction informationnelle informational interaction 3 Expos scientifique scientific exposition 4 Expos savant learned exposition 5 Fiction narrative imaginative fiction 6 R cit general narrative exposition 7 Reportage situ situated reportage 8 Argumentation impliqu e involved persuasion Ces types ne correspondent pas forc ment aux intuitions communes C est ainsi qu on ne d bouche pas sur un type unique interaction ou dialogue mais deux l interaction vis e informationnelle et l interaction vis e interpersonnelle De la m me mani re Biber distingue plusieurs types de textes expositifs et de textes narratifs o 9 3 G n ralit des typologies induites Cette d marche permet la construction inductive d une typologie de textes bas e sur les corr lations effectives entre traits linguistiques Elle court n anmoins le risque d aboutir des oppositions qui pour avoir t tablies partir de textes concrets ne valent que
390. t raires romans biographies m moires des crits scientifiques et techniques et enfin des textes de fiction La particularit de Susanne est que chaque phrase est assortie d un arbre syntaxique tr s d taill associant des tiquettes cat gorielles et des tiquettes fonctionnelles e London Lund Ce corpus tiquet Svartvik et al 1982 totalise 435 000 mots d anglais parl r partis en 87 extraits de 5 000 occurrences de locuteurs adultes ayant fait des tudes Il inclut conversations y compris t l phoniques conf rences et cours commentaires radiophoniques etc Il comprend de nombreuses informations prosodiques pauses limites etc e Lancaster IBM Treebank Ce corpus arbor Black et al 1993 rassemble 1 million de mots de l agence Associated Press 1 million de mots issus des d bats du parlement canadien 250 000 mots de APHB American Printing House for the Blind 800 000 mots de manuels IBM Il est muni d une annotation syntaxique limit e parenth sage et tiquetage des constituants e Helsinki C est un corpus pour l tude diachronique de l anglais comprend 1 5 millions de mots non annot s couvrant la p riode allant de l ann e 750 1700 r partis en 11 p riodes et diff rents types de textes Kyto 1993a 1993b e Archer C est un corpus pour l tude diachronique de l anglais et de l am ricain Il comprend 1 7 million de mots non annot s de l ann e 1650 1990 r partis en p riodes de cinqu
391. t anglais That is what is called leadership not sticking one s head in the sand not looking through the rear view mirror not having some nostalgia for the old cold war but saying it is time to make some change This happened in 1990 and now she Says I do not understand why all of a sudden you are now saying we have a problem with the program Voil en quoi consiste le leadership Il faut viter de faire l autruche de regarder en arri re et d prouver une certaine nostalgie de l ancienne guerre froide Il faut plut t se dire que le moment est venu d apporter des changements C tait en 1990 dit qu elle ne comprend pas pourquoi Aujourd hui elle tout coup nous trouvons redire ce programme Mis part le fait que 205 Les contextes ont t fournis par L Langlois Dictionnaire canadien bilingue Universit d Ottawa utilisant sous licence TransSearch qui permet des concordances sur des textes align s TransSearch a t d velopp au CITI Centre d Innovations en Technologie de l Information Laval Canada devenu le RALI Laboratoire de Recherche Appliqu e en Linguistique Informatique Cf Simard et al 1992 D une langue l autre quite apart from the fact that the geostrategic situation has changed tremendously in the period we are talking about The cold war was pretty cold in 1990 I also want to acknowledge the staff reductions indicated b
392. t d tapes vers des traitements s mantiques cooccurrences syntaxiques et similarit s Le chapitre IV traite cet aspect Les recherches linguistiques qui ont recours des corpus arbor s sont donc encore rares Nous centrons notre analyse sur le traitement de la dimension phras ologique du langage pour la langue g n rale ce sont les expressions fig es les mots compos s mais surtout en langage de sp cialit ce sont les termes C est une zone la lisi re de la syntaxe et du lexique Corbin 1992 Nous pr sentons des utilisations de corpus arbor s et d analyseurs robustes pour rendre compte en fran ais et en anglais de ces fonctionnements langagiers 15 1 Le renouveau des tudes linguistiques de la phras ologie Les expressions toutes faites comme les noms compos s un champignon atomique les verbes compos s dans des constructions verbe support comme mettre en vidence les locutions adverbiales a vol e pr positionnelles a fin de ou conjonctives seule fin que ont souvent t rel gu es aux marges des traitements lexicographiques D abord ces unit s polylexicales s ins rent malais ment dans les 80 Le Centre Scientifique d IBM France a cependant d velopp au d but des ann es quatre vingt dix un corpus arbor de 400 000 mots d bats en fran ais du parlement ganadien manuels IBM qui peut tre achet Nous en donnons un exemple infra ai fran ais
393. t docteur en informatique est ma tre de conf rences en informatique l ENS de Fontenay Saint Cloud Adeline Nazarenko ancienne l ve de l ENS agr g e de lettres modernes docteur en informatique est ma tre de conf rences en informatique l uni versit Paris XIII Andr Salem docteur de 3 cycle en statistique math matique docteur d tat s lettres et sciences bumaines est ma tre de conf rences en sciences du langage l universit Paris IIl 253 253 18 La feuille de style ayant servi saisir ce document 254
394. t pas donc fini Ce constat classique pour le lexique soul ve plus de r ticences en syntaxe 45 TIQUETAGE SEMANTIQUE L une des grandes m thodes d analyse s mantique de corpus suppose des connaissances pr alables et consiste projeter ces connaissances sur le corpus pour en faire ressortir certaines propri t s C est sur ce principe que repose le travail de M Sussna 1993 et la plupart des recherches en mati re de d sambiguisation lexicale Le principe g n ral de cette m thode est simple On tiquette le corpus pour l enrichir d informations s mantiques Pour ce faire on exploite g n ralement des donn es lexicales et non contextuelles connaissances g n rales sur les sens d un mot le concept ou le th me auquel il renvoie Ceci permet alors d observer le fonctionnement du mot en contexte De multiples exp riences ont t men es dans cette optique 9 elles diff rent par le jeu d tiquettes utilis et par la m thode d tiquetage Toutefois les donn es lexicales initiales font parfois d faut C est m me souvent le cas lorsque le corpus traiter rel ve d une langue sp cialis e 1 faut alors commencer par construire les cat gories s mantiques devant servir tiqueter le corpus 260 Une variante de cette m thode consiste projeter des connaissances non pas sous la forme d tiquettes destin es enrichir le texte mais sous la forme de patrons qui permettent de s lectionner de mani re cibl
395. t une liste aussi exhaustive que possible des questions juridiques se poser lors de la constitution d un corpus en particulier dans un dre international Nous nous inspirons de ce travail dans ce paragraphe L oeuvre tant manipul e en tout sens il conviendra de s assurer qu il n est pas porte atteinte au droit moral de l auteur Ce droit peut tre menac a par la mauvaise qualit du traitement Hit inea b mais aussi du seul fait de le traitement in Quisque op r ne participe pas du mode de reproduction de l oeuvre autoris par l auteur Pujol 1993 p 14 Bibliographie 165 CHAPITRE VIII ANNOTER UN CORPUS Nous ne pr tendons pas fournir ici une pr sentation exhaustive L clatement des r alisations dispers es dans les publications l volution rapide des outils les avanc es th oriques et pratiques conduisent un instantan fragmentaire Il est en outre difficile de pr voir les tendances moyen terme Notre objectif est de donner une id e des grands axes et des difficult s Dans la tradition pragmatique anglo saxonne les publications concernant les corpus mentionnent souvent les co ts des diff rentes op rations n cessaires Ces renseignements permettent de prendre la mesure des moyens mobiliser pour disposer des corpus r ellement adapt s aux recherches linguistiques A l chelle de la francophonie ils donnent une id e de l ampleur des efforts fournir Ces co ts sont cepen
396. tach s certains mots sont inexistants on incomplets Il peut s agir de limites purement techniques l tiqueteur utilis bute sur des mots inconnus c est dire absents des dictionnaires qu il utilise ou que ne r solvent pas les r gles morphologiques qu il emploie Ou bien face un mot inconnu l tiqueteur fait des propositions moins pr cises que celles d clench es par les mots r pertori s dans les dictionnaires employ s L tiquetage partiel peut aussi tre vis en tant que tel Un sous ensemble des mots du texte est jug pertinent pour la recherche envisag e il est donc tiquet le reste est ignor Par exemple si l on entend tudier la r partition des marques de l nonciation dans un corpus on peut envisager un tiquetage limit aux mots retenus comme r v lateurs sur ce point embrayeurs certains adverbiaux indications temporelles et aspectuelles des verbes 8 4 2 Une tiquette ou plusieurs tiquettes Un corpus tiquet n est pas forc ment totalement d sambiguis c est dire qu un mot peut recevoir plusieurs tiquettes Dans BNC l issue de l tiquetage demeurent un peu plus de 3 de probl mes non r solus d ambiguit s repr sent es par des tiquettes composites portmanteau tags comme nom verbe pour l h sitation entre nom et verbe Pour un fragment de l exemple de Mitterrand fourni ci dessus un r sultat non d sambiguis serait mot je lemme je
397. tal probl mes 41 20 47 108 diagnostic 03 b 04 effectif tj 8006 3111 4487 15604 Ces r sultats indiquent que la forme graphique probl mes est sous Le mod le probabiliste utilis pour juger de cette r partition est ici le mod le hyperg om trique couramment utilis dans ce type d application Bibliographie 205 repr sent e 03 chez les sujets sans dipl me Elle est au contraire sur repr sent e 04 chez les plus dipl m s La notation b en regard de la cat gorie Baccalaur at indique que l effectif des occurrences de probl mes dans cette cat gorie n est ni excessivement lev ni excessivement bas Nous verrons plus loin comment organiser entre eux les diff rents constats de ce types obtenus partir de diff rents syst mes d unit s Tableau 4 Formes sp cifiques pour les r pondants les plus dipl m s F f Sp sur emplois financi res 174 79 06 probl mes 108 47 04 et 205 77 03 face 10 8 03 fait 25 14 03 couple 95 39 03 raisons 178 66 03 affective 12 8 03 difficult s 83 37 03 responsabilit s 22 13 03 sous emplois vie 180 35 03 NON REP 65 10 03 le 474 TEL 03 n 94 16 03 vois 20 0 03 manque 160 29 03 aucune 33 3 03 sais 25 1 03 y 57 7 03 faire 22 1 03 325 71 03 emploi 79 13 03 a 74 12 03 travail 152 26 04 il 105 15 04 ch mage 285 52 05 Une fois ce calcul effectu pour chacune des cases du tableau analys le regroupement des diagnostics re
398. tatives et statistiques La mesure en effet m me si elle a peu de signification en tant que telle permet de r sumer un ensemble d observations de comparer et d ordonner les ph nom nes observ s La d marche consiste g n ralement emprunter un mod le connu dont les propri t s ont le m rite d tre bien d crites puis en ajuster exp rimentalement les param tres pour affiner la description et mieux rendre compte des ph nom nes percus On cherche ainsi approcher la notion de parent s mantique par des mesures de distance vectorielle ou de distance dans un graphe Diverses exp riences ont t men es pour mod liser l op ration de d sambiguisation s mantique l aide d un r seau de neurones V ronis et Ide 1990 ou par la m thode du recuit simul emprunt e l algorithmique combinatoire Cowie et a 1992 Il reste ensuite ajuster le mod le en modifiant le nombre ou la nature des param tres pris en compte et en jouant sur leurs poids respectifs C est par une s rie d exp riences que M Sussna d termine la taille des contextes et le poids de chaque type de relation dans le calcul de la distance s mantique des noeuds de WordNet Apr s avoir test une grande vari t de mesures de similarit s entre les mots G Grefenstette retient celle qui semble produire les meilleurs r sultats 1994a p 47 I n est donc pas de bon mod le dans l absolu Il n existe que des mod les op ratoires
399. taxiques M Sussna ne conserve que les noms dans la repr sentation du document Ceci suppose donc une tape de d sambiguisation morpho syntaxique On notera dans le r sultat donn en b deux erreurs support et prime ne sont pas employ s comme noms dans l article initial En fait M Sussna ne retient que les noms pr sents dans WordNet ce qui limine des noms propres Kennedy MacMillan et des mots rares skybolt point c Il rejette de surcro t les mots r put s vides de sens et appartenant un anti dictionnaire stopword list Dans notre exemple il s agit de december mais surtout de noms propres tr s courants comme U S Europe Europeans Britain point d la diff rence de France On obtient ainsi une liste de noms d crivant le contenu de l article de d part formule e C est cette liste qu il s agit de d sambiguiser en associant chaque mot une tiquette sp cifiant le sens dans lequel il est employ dans cet article M Sussna ne donne pas d exemple de texte d sambiguis mais nous proposons ci dessous point f une version d sambiguis e de l article a Nous avons effectu cette d sambiguisation manuellement Les tiquettes renvoient des sens de WordNet voir supra 111 3 Le sens d un mot est repr sent par son num ro d ordre dans la liste des sens possibles pour ce mot c est le 3 des 6 sens de strike qui est employ ici Ce sens est galement d crit par le synset dans lequel il figure re l ensem
400. te financier 32 19 04 L financier 374 136 04 L probleme 145 60 04 F probl mes financiers 51 23 03 F couple 95 39 03 F responsabilit s 22 13 03 F raisons financi res 93 38 03 F situation conomique 24 13 03 F affective 12 8 03 F du couple 48 23 03 F et 205 77 03 F monde 16 10 03 F des responsabilit s 13 9 03 F difficult s 83 37 03 F les probl mes 35 18 03 F et les 17 10 03 L gende La colonne de gauche indique la nature des unit s et s quences d unit s prises en compte selon le code suivant F formes graphiques L lemmes C cat gories grammaticales Comme plus haut les unit s s lectionn es dans ce tableau l ont t en raison de leur abondance particuli re dans la partie du corpus qui correspond aux plus dipl m s L interclassement des unit s selon l indice de sp cificit calcul de la m me mani re sur tous les types d annotations et sur les segments r alis s partir de ces derni res permet de classer l ensemble des constats du plus surprenant au plus banal Bibliographie 215 La redondance s est encore accrue mais la description est devenue plus beaucoup plus riche faisant intervenir de plusieurs niveaux de l analyse linguistique 52 TEMPS LEXICAL Certains corpus r unis par chantillonnage au cours du temps d une m me source textuelle pr sentent d s le d part une homog n it remarquable les textes r unis sont produits dans des conditions d nonciation tr s p
401. tendance voluer de conserve au fil des p riodes les formes chrono homog nes En fait l id e qui sous tend cette approche est la suivante pour des formes fr quentes dans le corpus le fait que plusieurs formes voluent de mani re proportionnelle tout au long des p riodes ne peut tre mis au compte du hasard Il faut donc dans chaque cas d terminer la cause profonde qui est l origine de ces regroupements Selon les cas on trouvera des groupements li s une th matique une actualit etc La figure 11 pr sente un groupe de formes parmi les plus fr quentes de Mitterrand1 qui sont chrono homog nes par rapport la forme je On retrouve ici un ensemble de marqueurs de la premi re personne Bibliographie 219 100 J Fr quences relati es x10 000 Figure 11 Formes chrono homog nes la forme je dans Mitterrand1 L tude des s ries textuelles chronologiques s op re donc en combinant plusieurs types de m thodes L analyse des correspondances permet de v rifier que le corpus chronologique compte tenu d une p riodisation donn e rel ve bien du sch ma g n ral d volution du vocabulaire Elle permet galement de localiser des carts ventuels avec le sch ma g n ral qui seront dans la plupart des cas sources d interrogations utiles L examen attentif des accroissements sp cifiques signale la fois des moments particuliers dans l volution du vocabulaire et les unit s te
402. tenir la combinaison qui minimise la distance globale l nergie somme des distances binaires Le calcul de cette contrainte devient malheureusement vite prohibitif M Sussna propose donc de d sambiguiser conjointement les premiers mots d un texte et de poursuivre au fil du texte en d sambiguisant chaque mot en fonction des sens retenus pour les mots qui le pr c dent Le contexte pris en compte dans le cas g n ral est donc le seul contexte ant rieur Pour d terminer la taille du contexte consid rer M Sussna proc de l encore de mani re exp rimentale En appliquant sa m thode des fen tres de tailles diff rentes et en comparant les r sultats obtenus une d sambiguisation al atoire d une part et une d sambiguisation manuelle d autre part il constate que les r sultats de la d sambiguisation s am liorent quand on augmente la largeur de la fen tre et se stabilisent pour une fen tre de 41 mots Sur ce point cependant les exp riences de Agirre et Rigau 1996 semblent montrer que la taille du contexte prendre en compte d pend du type de corpus trait les fen tres r duites 10 mots convenant pour le dialogue et les fen tres plus larges donnant de meilleurs r sultats pour les textes journalistiques 24 3 De la d sambiguisation lexicale la recherche documentaire Si l approche contextuelle de la d sambiguisation lexicale de corpus avait d j t valid e par diff rents travaux le trav
403. th rapie est une sorte de th rapie et de traitement 152 Elles s apparentent davantage comme le souligne G Grefenstette des entr es de thesaurus D une langue l autre 101 23 1 2 Le corpus d origine Cette indication ici MED ou MERGERS est videmment importante dans la mesure o il s agit de d crire des langues sp cialis es partir de corpus Les trois premi res entr es sont construites partir d un corpus de r sum s m dicaux MED La derni re partir d un ensemble d articles du Wall Street Journal portant sur la fusion d entreprises MERGERS Le contraste entre les deux entr es de growth montre deux sens sp cialis s diff rents 23 1 3 Les noms voisins Cette liste qui est introduite par le mot clef Relat comporte des noms donn s comme s mantiquement proches du nom vedette Dans le corpus financier growth se trouve au voisinage d une dizaine de noms evel increase gain loss performance return rise decline flow expansion Soulignons la coh rence de cette liste Elle comporte essentiellement des synonymes ou des pseudo synonymes increase gain rise expansion et quelques antonymes oss decline M me si le lien de growth avec level performance et flow est moins vident le rapprochement de ces termes parait n anmoins assez judicieux Seul return surprend La liste des voisins est structur e en trois parties s par es par des points virgules Sont ainsi distingu s les vois
404. th se d fendue par G Gross 1988 L apport des corpus ce double renouveau porte sur deux points En premier lieu tant donn une expression jug e contrainte quant ses possibilit s de transformation les corpus permettent de chercher si ses r alisations effectives confirment ce jugement C est ce que nous examinons en 3 2 et en 8 8 pour des expressions de la langue g n rale et des termes techniques respectivement Deuxi mement l ensemble des unit s polylexicales est par d finition ouvert C est par ce biais notamment que s enrichit le lexique en particulier dans les domaines techniques et scientifiques L observation des corpus sert alors accro tre le lexique des expressions C est ce que nous montrons pour les langages de sp cialit en 3 4 15 2 La flexibilit en corpus d expressions polylexicales H Barkema 1993 1994 se fixe pour objectif la mesure de la flexibilit r elle en corpus d expressions toutes faites Il examine donc les variations c est dire les suites de mots qui sont apparent es ces expressions et qui r sultent d une transformation graphique phon tique morphologique ou syntaxique gagner le cocotier pour gagner le coquetier r sulte d une approximation phon tique par exemple Certaines de ces variations constituent des variantes c est dire des quivalents effectifs de l expression en cause infarctus myocardique pour infarctus du myocarde par exemple 15 2 1 Les
405. tilise l encore l analyse factorielle des prrespondances pour mettre en evidence les oppositions majeures Il est int ressant cet gard de comparer les traits retenus par Biber avec ceux oisis par Sueur 1982 et ceux privil gi s par Bronckart 1985 TN Langue parl e par environ 5 millions de personnes en Somalie Djibouti en Ethiopie au Kenya Langue parl e par 350 personnes sur l atoll Nukulaelae du groupe Tuvalu Pacifique 26 PREMIERE PARTIE de ces quatre organisations syndicales a pour objectif de d gager l organisation d ensemble de ces textes ibid p 169 186 Un programme qui isole les mots qui sont significativement sur employ s dans une partie d un corpus au regard de leur emploi dans le corpus entier est utilis pour valuer les ph nom nes tudi s Ce programme d gage en m me temps les sous emplois significatifs d une partie au regard du tout Les convergences des sur emplois et des sous emplois permettent d opposer ibid p 175 une structure dite analytique utilis e par la CFDT et la CGT une structure dite d clarative pr f r e par FO et la CFTC Le premier type de r solution sur emploie en particulier le verbe tre la troisi me personne de l indicatif pr sent les modaux les pronoms la premi re personne du pluriel et les possessifs de m me personne les pronoms de troisi me personne Le deuxi me type sur emploie les verbes d claratifs appelle consid re estime exige
406. tion des guides d annotation guidelines qui sont parfois plus justement d nomm s des recueils de jurisprudence caselaws Si les d coupages et la cat gorisation n ont en effet rien d une science il importe par contre de fixer la jurisprudence partir des d cisions qui ont t prises dans tel ou tel cas et qui clairent ou rectifient les principes g n raux qui ont t retenus Les comparaisons de doubles analyses en dehors des variations mineures permettent de les tablir C est la d marche suivie Lancaster les divergences importantes sont r solues par discussion ou par appel un tiers quand les deux analystes ne parviennent pas un accord Black et al 1984 p 34 L objectif de telles jurisprudences est d assurer dans la mesure du possible une certaine reproductibilit de l annotation une compr hension solide de ces conventions doit permettre en principe plusieurs analystes d aboutir une annotation la plus homog ne possible L exp rience de Lancaster semble montrer d ailleurs que l annotation ici sur le plan syntaxique mais le propos peut tre g n ralis ne peut pas reposer directement sur l intuition non tay e des locuteurs contrairement ce qui avait t essay dans une premi re phase Les annotateurs jouissaient d une telle latitude dans les d cisions prendre lors de l analyse manuelle qu ils aboutissaient un degr tr s bas de comparabilit des a
407. tion de BNC Burnard 1995 concu pour tre un corpus de r f rence pour l anglais s inscrit totalement dans cette seconde optique ceci pr s que les registres ne sont pas pris en compte Les crit res de choix diff rent pour l crit et pour l oral En ce qui concerne l crit plusieurs contraintes se superposent e le domaine 75 96 de textes informatifs le reste appartenant la fiction e le support 60 de livres 30 96 de p riodiques le reste comprenant des crits non publi s ou des supports de discours crits pour tre lus comme les informations radio t l vis es e la datation les ouvrages de fiction de 1960 1993 pour tenir compte de leur dur e de vie plus grande et les ouvrages informatifs de 1975 1993 e la diffusion une liste de livres imprim s disponibles les listes des meilleures ventes celles de prix litt raires les indications de pr ts en biblioth que la fois les ouvrages les plus pr t s et les ouvrages en pr t court terme qui sont donc tr s demand s ont ainsi servi choisir des livres bien diffus s Pour l oral l objectif est la conversation spontan e Le corpus est constitu par chantillonnage d mographique en termes d ge de sexe de groupe social et de r gion Les 124 personnes choisies sur ces crit res et partir d un entretien g es d au moins 15 ans disposaient pendant quelques jours d un magn tophone portable pour pouvoir en
408. tiquetage Etiqueter un segment de texte un mot mais aussi un groupe de mots une phrase un paragraphe etc c est de Mani re g n rale lui associer des informations arbitrairement complexes Ces informations peuvent se situer plusieurs niveaux de l analyse linguistique morphologie syntaxe s mantique pragmatique sans se limiter d ailleurs aux aspects linguistiques comme le trait dipl me utilis pour Enfants ou le trait r f rence de Susanne Cette vision largie de l tiquetage ne correspond cependant pas l acception la plus r pandue Quand on parle de corpus tiquet en particulier dans la communaut TALN on fait r f rence le plus souvent un document o chaque mot poss de une tiquette morpho syntaxique et une seule 2 8 D terminant pronom et nom dans l expression donner le la Nous avons fourni des structures de traits plates Rien n emp che d employer des co indiciations Ligozat 1994 assurant des parades de valeurs on y a recours au chapitre suivant ou encore des structures arbitrairement ench ss es qui regroupent des paquets traits DETMS est l abr viation de cat gorie d terminant genre masculin nombre singulier o le trait accord regroupe les traits de genre et nombre Les corpus arbor s 23 9 TIQUETAGE PARTIEL ET TYPOLOGIE DE TEXTES Le fait de disposer de textes partiellement tiquet s un certain nombre de traits linguistiques fins sont privil
409. tour de cinq dimensions La premi re oppose les textes qui se caract risent par l usage de do comme pro verbe celui de be comme verbe principal le pr sent les d monstratifs les contractions du type don t la premi re et la deuxi me personne du singulier le pronom it aux textes qui favorisent les noms les mots longs des adjectifs attributs les pr positions Biber appelle cette premi re dimension production impliqu e versus production informationnelle Les autres dimensions sont nomm es l orientation narrative versus non narrative la r f rence d pendante ou non de la situation d nonciation la vis e persuasive apparente ou non le style impersonnef ou non Biber souligne que les dimensions propos es l issue de l interpr tation des contrastes majeurs mis en vidence par l analyse factorielle sont en fait des prototypes des p les de fonctionnements textuels Chacune des dimensions mises en vidence oppose deux p les mais les textes concrets se situent en des points vari s des chelles ainsi d finies A partir de ces cinq dimensions en utilisant des techniques de x classification automatique Biber aboutit huit types de textes en 32 Ces traits et leur rep rage sont d crits en d tail dans Biber 1988 p 211 245 Cf chapitre IX Involved versus informational production MEN n pee Se par le pass la 3 personne la n gation synth tique les participes sents Manifes
410. trastes d un domaine aujourd hui tr s productif Les travaux s inscrivent en fait dans des perspectives tr s diff rentes nous en dressons une typologie sch matique ci apr s Nous d crivons ensuite deux exemples d applications repr sentatives des travaux de s mantique sur corpus En 2 nous nous appuyons sur les travaux de G Grefenstette pour montrer le parti que la lexicographie sp cialis e peut tirer de l exploitation syst matique de corpus enrichis La partie 3 plus prospective met l accent sur la recherche documentaire et sur l apport des techniques de d sambiguisation lexicale dans ce contexte Nous terminons en 4 en montrant que ces deux exp riences qui s opposent par leurs m thodes rel vent en fait d une m me d marche empirique 22 1 Un objectif commun acc der au sens Des corpus porteurs d annotations s mantiques commencent voir le 96 DEUXIEME PARTIE jour mais on n en est cependant qu aux balbutiements que ce soit pour la constitution de ces corpus ou pour leur exploitation Pourtant cela transparait dans les exemples des chapitres et 11 les pr occupations s mantiques occupent une place importante dans l exploitation des corpus que l on cherche identifier la terminologie d un domaine technique traduire des expressions fig es rep rer les th mes abord s par diff rentes cat gories de r pondants une enqu te d opinion le genre des textes etc Si de nombreuses tudes portent
411. ts prenant en compte les diff rents syst mes d unit s voqu s plus haut On a utilis successivement e le syst me des caract res qui servent encoder le texte sur support magn tique e la segmentation du texte en formes graphiques obtenue en d terminant un ensemble de caract res d limiteurs le point la virgule le point et virgule etc e a segmentation du texte en lemmes obtenue selon un ensemble de r gles fix es par Labb 1995 e un syst me d annotations grammaticales comportant 15 cat gories diff rentes nom verbe etc labor e dans le cadre de cette m me tude Bibliographie 197 Le tableau 2 permet une comparaison rapide entre ces diff rents d comptes effectu s partir de niveaux d annotation diff rents Tableau 2 D comptes sur Mitterrand1 caract res formes lemmes cat gories nombre des occurrences 1 667 251 297258 307865 307 865 nombre des types 98 13 590 9 309 15 nombre deshapax 0 5 543 3 255 0 fr quence maximale 224 865 11 544 29559 86700 Les diff rents syst mes de d comptes produisent des descriptions difficilement comparables Le syst me des cat gories compte en effet un nombre relativement faible de types diff rents les deux syst mes de descripteurs lexicaux formes et lemmes ont en commun de poss der un nombre tr s lev de types s talant sur une large gamme de fr quence 47 4 Exemple l accroissement du vocabulaire Le p
412. tte 1993 qui fait appel des techniques vari es mais applique galement une m me technique le calcul de similarit s sur des donn es de natures diff rentes A chaque fois une nouvelle facette du mot est mise en relief les relations d hyponymie dans lesquelles il entre ses verbes op rateurs les liens de parent s mantique entre les mots C est en regroupant ces diff rentes informations qu on peut construire des entr es de dictionnaires Il faut galement combiner diff rentes techniques pour la recherche de documents Si l on admet que l indexation sur les sens plut t que sur les mots am liore la pr cision de la recherche documentaire il faut galement cerner le r le et la place de la d sambiguisation lexicale dans un syst me de recherche documentaire Etant donn e la taille des bases documentaires traiter il est illusoire de chercher d sambiguiser et indexer tous les documents au pr alable M Sussna ne d sambiguise que des listes de mots pr s lectionn s Il faut probablement aller plus loin et ne d sambiguiser que certains textes ou certaines portions de textes qui auront t tri s dans un premier temps par des techniques plus classiques de la recherche d information sur la base de mots clefs statistiquement significatifs par exemple Plus g n ralement il s agit de trouver le bon dosage des m thodes linguistiques et statistiques Sussna 1993 semble postuler que la description la plus riche est
413. ty pour la p riode 1600 1800 s inscrit dans la m me perspective Wright 1993 Dans la m me acception qu au chapitre I D une langue l autre 125 Archer est organis par p riodes de cinquante ans pour que l on puisse examiner l volution les flux et les stabilit s sur des p riodes relativement courtes L am ricain n est dans l imm diat repr sent que par trois p riodes deuxi me moiti des XVIII XIX et XX si cles L anglais l est pour les neuf p riodes Pour chaque p riode de cinquante ans et chaque registre un chantillon de 20 000 mots est constitu Archer totalise 1 7 million de mots 27 2 Echantillonnage des registres Le choix de textes relevant des registres vis s se heurte plusieurs obstacles En premier lieu les ressources bibliographiques sont organis es th matiquement et non par registres Ainsi une des sources bibliographiques consult es l entr e lettres renvoie en fait aux manuels d criture de lettres ce qui ne correspond pas l objectif vis la correspondance priv e authentique En second lieu les distinctions de registre d une p riode peuvent ne pas correspondre exactement avec celles d une autre p riode Les registres ne restent pas n cessairement distincts l un de l autre au fil du temps Bien s r les registres mergent un moment donn de l histoire pas n cessairement tous au d but d une p riode d investigation ni au d but d une p riode de cinquante
414. u fiables Le point est une marque d abr viation un s parateur dans des codes 01 41 13 24 63 ou des nombres 3 13 un indice d alignement dans une table des mati res et une fin de phrase Or le d coupage en phrases est crucial pour de nombreux traitements examen des cooccurrences tiquetage et analyse syntaxique 42 2 Techniques Pour isoler les mots on crit des r gles qui emploient le contexte pour statuer sur les limites des unit s Par exemple un trait d union ayant sa droite un pronom clitique comme je tu il a un statut de d limiteur Il s pare un verbe de son pronom sujet conjoint un t d appui peut s interposer Ces r gles sont combin es avec le recours des dictionnaires de mots simples ou complexes par exemple comprenant la liste des mots francais qui incluent en leur sein l apostrophe comme aujourd hui ou prud hommes Le syst me INTEX Silberztein 1993 est l exemple d un segmenteur associant r gles et dictionnaires partir des dictionnaires lectroniques du LADL il assure le d coupage initial d un texte tout venant l tiquetage des mots simples et la reconnaissance des unit s polylexicales Son approche est bas e sur des r gles et non sur des probabilit s combine deux traitements la projection sur le texte des dictionnaires ce qui associe chaque mot la ou les tiquette s pertinente s ainsi qu aux suites de mots ventuellement discontinues leurs lectures ve
415. u sous arbre N DDEMMS Ce NCOMS guide N Ces deux pr sentations verticale et horizontale correspondent l arbre donn dans la figure ci contre nous le simplifions en omettant les cat gories pr terminales 13 2 Obtenir des analyses Il est possible d associer un texte des annotations syntaxiques plus ou moins complexes de mani re purement manuelle Mais sauf disposer de moyens humains et mat riels tr s importants cela limite la taille du texte ainsi analys C est le choix qui a t fait pour Susanne cf section 2 parce qu il s agissait d obtenir une analyse aussi fouill e que possible C est encore le cas des corpus qui sont balis s la main pour servir de corpus d apprentissage de grammaires probabilistes cf chapitre VIII comme celui d velopp en commun par l universit de Lancaster et IBM Eyes et Leech 1993 Dans ce cas ibid p 132 l oppos de Susanne il s agit d ins rer des arbres dits squelettiques parenth sage et cat gorisation des constituants principaux L autre possibilit est l analyse syntaxique automatique ou parsage mieux adapt e au traitement de gros volumes textuels Entre travail manuel et parsage bien des interm diaires existent l intervention humaine peut se produire en amont pour d limiter des groupes ou liminer des cat gories parasites ou en aval pour trancher entre plusieurs analyses c est le cas du syst me TOSCA Halteren et Oostdijk 199
416. u un genre bien d fini A c t de ces corpus de fait sp cialis s se constituent des corpus historiques Ils sont destin s explicitement l tude de l volution de la 17 Le chapitre IX aborde la mesure de l volution lexicale de tels corpus 124 DEUXIEME PARTIE langue Nous pr sentons en d tail un corpus de ce type Archer en section 2 ainsi que les probl mes de repr sentativit et de constitution de tels corpus L volution de la langue peut tre examin e sur la courte dur e sur le moyen terme ou sur le long terme Nous rendons compte d tudes relevant de ces diff rentes temporalit s en section 3 Nous abordons enfin en section 4 les probl mes m thodologiques propres aux corpus historiques 27 UN CORPUS POUR L ETUDE DE LA DIACHRONIE ARCHER Les analyses diachroniques de l anglais disposent du corpus d Helsinki dq 5 millions de mots Kyt 1993b La p riode couverte va de 750 1700 Le corpus Archer Biber et al 1994 compl te la tranche chronologique couverte D Biber E Finegan et D Atkinson 1994 p 7 13 montrent les usages possibles d un tel corpus historique Ils utilisent par exemple la distinction tablie par Biber cf chapitre 1 entre production informationnelle qui favorise noms pr positions adjectifs attributs etc et production impliqu e qui privil gie le pr sent l omission de that les contractions les d monstratifs la premi re personne le pron
417. ui les dominent 89 L tat fonctionnel du ventricule gauche est crucial en cardiologie Le ventricule droit ne rev t pas la m me importance Fonction ventriculaire droite n est d ailleurs pas un mot gl du domaine n n Dans cet arbre nous avons laiss comme tiquette du noeud la cat gorie du constituant Nous aurions aussi pu la repr senter comme un trait aditionnel cat gorie SN 60 PREMIERE PARTIE 15 3 2 Engendrer des variantes possibles de termes Une des variations possibles d un terme de structure SN Nom Sadj Sadj Adj Adj est la modification du syntagme adjectival par un nouvel adjectif gauche ou droite Pour le terme choisi cela signifie qu il est a priori possible d en rencontrer la modification suivante SN Nom fonction SAdj Adj x Sadj Sadj Adj ventriculaire Adj gauche ou bien encore SN Nom fonction SAdj Sadj Sadj Adj ventriculaire Adj gauche Aqj x o x peut tre remplac par un adjectif quelconque Les s quences correspondantes sont fonction x ventriculaire gauche et fonction ventriculaire gauche x dans lesquelles x doit tre un adjectif Des m ta r gles servent alors stipuler les transformations que peuvent ventuellement conna tre les descripteurs Elles prennent en entr e un arbre d crivant un descripteur et produisent en sortie un autre arbre repr sentant une variation possible de ce descripteur La m ta r gle suivante Ressources lexicale
418. ui sont retenus Dans l optique retenue par Jacquemin les termes complexes ne sont pas repr sent s comme des simples suites de mots mais directement comme des arbres syntaxiques aussi profonds et aussi larges que souhait Les relations de d pendance entre les composants sont donc directement indiqu es En outre les noeuds de ces arbres sont d cor s de traits galement aussi complexes que n cessaire Ces noeuds permettent d assortir les arbres de fines contraintes de bonne formation Ainsi pour Menelas le descripteur fonction ventriculaire gauche est repr sent de la mani re suivante SN genre lt 1 gt nombre lt 2 gt SAdj SAdj Mm Adj Adj genre f minin c1 8nre 17 nombre singulier lt 2 gt Ombre lt 2 gt 7 lemme ventriculaire lemme gauche lemme fonction forme fonction forme ventriculaire forme gauche La repr sentation choisie souligne la d pendance de gauche par rapport ventriculaire et non fonction On constate par ailleurs que le nombre de fonction est sp cifi ce doit tre le singulier si bien que la s quence fonctions ventriculaires gauches ne saurait correspondre une variation de ce descripteur puisqu elle viole l indication fournie pour le nombre Les indices entre chevrons indiquent un partage de valeur ici du genre et du nombre entre la t te et ses modifieurs adjectivaux ainsi qu avec les constituants q
419. uisation lexicale m me si ce n est pas dans ce but qu elles ont t concues Les ressources sont donc consid r es comme des bases de connaissances pour l tiquetage s mantique des corpus section 1 Elles sont de types vari s Elles diff rent d abord dans leur objet m me les unes portant sur des mots les autres sur des notions ou concepts section 2 La section 3 montre que ces bases de connaissances diff rent galement par la granularit de la description qu elles donnent des mots par leur degr de g n ralit et par leur codage La section 4 pr sente WordNet l une des sources lexicales les plus utilis es et le ferment de nombreux travaux de s mantique partir de corpus Nous terminons en soulignant le probl me de la disponibilit des sources section 5 17 UN OBJECTIF LA DESAMBIGUISATION LEXICALE L tiquetage s mantique consiste attacher aux unit s d un texte le morph me le mot une expression un syntagme une tiquette s mantique qui indique selon les cas le sens du mot ou de l expression des traits ou cat gories s mantiques un marqueur de domaine ou de registre etc titre d illustration voici deux versions tiquet es d une r ponse de Enfants je sens 1 ne sais sens l A 1 pas sens ll 2 les sens l 1 gens sens l A 1 sont sens ll goistes sens 0 peut tre sens 1 je ne modalit n gative sais modalit pist mique pas modalit n gative les gens sont goi
420. unit s sont cooccurrentes Cette unit de contexte peut correspondre la phrase ou encore tre constitu e par un contexte de longueur fixe occurrences avant et occurrences apr s la forme p le L espace de cooccurrence peut galement tre d fini de mani re ne pas d passer les limites d un constituant syntaxique Si l on se donne partir de l exemple pr sent plus haut section 2 1 une fen tre de deux occurrences avant et apr s la forme p le est laquelle compte 2 occurrences on construit autour de chacune des occurrences de la forme est deux fen tres mat rialis es par les contextes compris entre les barres verticales Le 14 juillet c est sans aucun doute sans aucun doute et c est fort important 1 Dans ce cas on s lectionne les cooccurrences de la forme p le avec les formes juillet c sans aucun et c fort important Si l on d cide toujours partir de ce m me extrait de borner l espace de cooccurrence au syntagme nominal minimal autour de la forme p le notre on obtient une cooccurrence unique avec la forme arm e Plusieurs m thodes statistiques se fixent pour but l extraction des cooccurrences les plus remarquables dans un corpus de textes Cette extraction s appuie en g n ral sur la comparaison des sous ensembles de contextes qui contiennent l unit p le avec ceux desquels elle est absente 280 Les applications de ces m thodes l tude de cooccurrences entr
421. uration de corpus recoive dans l imm diat peu de r alisations concr tes Greenbaum et Yibin 1994 p 44 11 2 1 Cat goriser On peut vouloir tiqueter totalement ou partiellement un texte nu S il s agit d utiliser un corpus d j tiquet ou les r sultats d un tiqueteur disponible la finesse des distinguos n cessaires pour des analyses proprement linguistiques suppose des programmes permettant de pr ciser l tiquetage morpho syntaxique accompagnant d sormais nombre de corpus Elle implique aussi des modules de cat gorisation interactive ou de modification interactive d tiquetages pr alables certaines valeurs d tiquettes ne pouvant pas tre attribu es automatiquement 11 2 2 Manipuler des corpus tiquet s Les programmes n cessaires ici permettent d extraire du texte tiquet des motifs arbitrairement complexes Les constituants de ces motifs sont 59 Par exemple la distinction entre d terminants d finis sp cifiques versus g n riques dans Sueur 1982 36 PREMIERE PARTIE ici encore des structures de traits Le motif ou patron correspondra au fragment de texte pour lequel les structures de traits de ses composants s apparient avec celles des l ments correspondants du texte On parle de filtrage pattern matching Des op rateurs permettent la conjonction la disjonction l optionalit la r p tition de ces contraintes etc Par exemple le motif nom adjectif relationnel v qu
422. us de suivi monitor corpus pour d signer des flux continus de textes permettant l analyse chronologique ann e par ann e par exemple de donn es langagi res Cette notion tait au d part une vue de l esprit De plus en plus de textes sont d sormais directement sous forme lectronique C est le cas de quotidiens employant une langue tenue comme Le Monde The Guardian dit s sous forme de CD ROM C est le cas aussi des bandes de 189 Voir Wright 1993 p 30 34 pour une discussion du statut donner aux emplois par Joseph Addison des diff rentes formes de relatives S Wright prend nettement le contrepied de l interpr tation que fournissent Biber et Finegan des m mes faits 128 DEUXIEME PARTIE photocomposition de journaux mises disposition des cr ateurs de corpus On peut donc comparer les ensembles constitu s pour chaque ann e ou examiner les apports d une ann e donn e A Renouf 1993 d taille l utilisation en ce sens du Times de novembre 1990 septembre 1991 Un premier filtrage isole les mots nouveaux en les r partissant en noms propres acronymes et mots ordinaires Le classement de ces derniers renseigne sur les m canismes l oeuvre et leur productivit relative formations base d onomatop es jeux de mots mots valises compos s doublons d rivatifs indifferentness suffixations eco terrorism executivedom pr fixations euroconvertible et conversions etc Par exempl
423. us est mort n L un des dangers de la facilit actuelle rassembler des textes lectroniques est pr cis ment que les objectifs du regroupement ainsi que ceux des annotations effectu es ne soient pas enregistr s le corpus cesse d tre utilisable d s que se perd la m moire de ces choix La documentation doit couvrir deux volets distincts les sources utilis es et la responsabilit ditoriale de constitution du corpus d une part les conventions d annotation d autre part la CEE la fondation Andrew W Mellon et le Social Science and Humanities Research uncil du Canada 231 La TEI est donc une proposition de norme et non une norme On trouvera dans e et V ronis 1995a une pr sentation g n rale de SGML et de TEI ainsi que les proposi ions relatives aux diff rents types de texte Les Cahiers Gutenberg n 24 juin 1996 traduisent certains de ces articles et compl tent l information sur TEI et Susanne l encore est exemplaire un livre entier Sampson 1995 informe sur ces deux volets du corpus mais une documentation d j tr s pr cise reprise dans Sampson 1994 est galement fournie avec la version lectronique La TEI a fait des propositions d taill es sur le type de documentation fournir pour un corpus Dunlop 1995 Bibliographie 161 39 1 Origine et histoire du corpus L information sur ce point doit indiquer les sources primaires utilis es avec les r f rences bibliographiques p
424. utilisent ces ressources paraissent avant tout dans des colloques des revues et des livres anglais ou am ricains Les outils d annotation et les dictionnaires lectroniques sont aussi majoritairement d velopp s pour la langue anglaise ou am ricaine Cet tat de fait r sulte la fois de l anciennet d une tradition anglo saxonne de linguistique descriptive appuy e sur des corpus et de la place pr minente de l anglais et de l am ricain dans les projets de TALN depuis les d buts de ces recherches La francophonie s engage dans ce mouvement avec un certain retard et une r ticence certaine mettre dans le domaine public des ressources comme des corpus tiquet s et des tiqueteurs A terme ces ressources n en seront pas moins disponibles Nous avons donc compl t un expos essentiellement consacr des travaux anglo saxons par la pr sentation de corpus annot s de langue francaise et d outils destin s notre langue 5 3 Un point de vue aux fronti res de la linguistique Nos domaines de sp cialit analyse syntaxique automatique s mantique formelle et statistique textuelle nous situent aux fronti res de la linguistique C est peut tre un regard oblique que nous portons sur les recherches dont nous rendons compte Nous ne pr tendons pas juger la pertinence linguistique des tudes que nous avons retenues Nous cherchons mettre en vidence les grandes tendances que nous percevons Il ne nous semble d ailleurs pas
425. utique doit ainsi permettre d identifier les diff rentes pi ces composant un avion et leurs agencements leur usage habituel les dysfonctionnements susceptibles de se produire etc Le mod le de connaissances ainsi construit donne alors une vue sch matis e du domaine Celle ci est pr cieuse pour le d veloppement d applications volu es comme les outils de diagnostic de panne des outils de visualisation des simulateurs de vols des syst mes d aide au pilotage etc De la m me mani re Bouaud et al 1997 exploite Menelas pour aider la construction de lontologie du domaine des maladies coronariennes L extraction des informations v hicul es par un corpus sert encore alimenter des bases de donn es L exploitation d un corpus de d p ches portant sur le terrorisme permet ainsi de stocker les donn es relatives aux v nements terroristes dans Appelt et al 1993 Ce panorama n cessairement sch matique montre que l analyse s mantique aborde les corpus tour tour comme un objet d crire analyse de contenu comme un ensemble de documents classer et retrouver recherche documentaire ou comme une source de connaissances acquisition de connaissances La diversit des applications vis es montre galement que pas plus qu en mati re d tiquetage ou de structuration de corpus il n existe de consensus en mati re s mantique lorsqu il s agit de rendre compte du sens Le sens de la recherche documentaire e
426. vais adjectif relationnel g ographique adjectif qualificatif relationnel conomique Cet enrichissement des tiquettes des adjectifs a ensuite t appliqu au texte l tiquette adjectif associ e goistes devient par exemple adjectif qualificatif L examen de la r partition des adjectifs relationnels par rapport aux qualificatifs permet de pr ciser le fonctionnement dans le corpus de la cat gorie nominale prise au sens large Les adjectifs n apparaissent pas dans les formes et segments sur employ s des non dipl m s En ce qui concerne les bacheliers seule la cat gorie adjectif relationnel appara t comme sur employ e isol e ou dans des segments r p t s Ce sur emploi souligne la nature nominale et pr positionnelle de cette partie puisqu un adjectif relationnel est quivalent un syntagme pr positionnel Cette quivalence est particuli rement flagrante dans le segment r p t nom adjectif relationnel ponctuation faible nom pr position nom qui coordonne par une virgule un nom modifi par un adjectif relationnel et un nom dominant un syntagme pr positionnel L adjectif relationnel caract rise davantage les dipl m s du sup rieur L examen des contextes montre en effet que les adjectifs portant l tiquette adjectif qualificatif relationnel sont en fait tous relationnels dans cette partie les constats quantitatifs sous estiment donc la place des adjectifs relationnels Voi
427. variations en corpus d expressions toutes faites Pour effectuer le rep rage de telles variations Barkema 1994 recherche les occurrences d expressions courantes et les suites de mots qui en sont proches dans un vaste corpus celui de Birmingham qui rassemble 20 millions de mots Ce corpus fournit par exemple 111 occurrences Barkema 1993 s inscrit dans la m me vision de hi rarchies de contraintes tout mme dans un autre cadre Mer der Linden 1992 Comme dans Gazdar et al 1985 et Barkema 1994 p 42 note 8 le signale que la s quence en cause est grammaticale mais qu elle ne peut pas tre interpr t e idiomatiquement Elle pourrait d noter un champignon fortement irradi et ne peut pas renvoyer au nuage caract ristique d une explosion atomique 56 PREMIERE PARTIE inchang es de l expression cold war guerre froide ainsi que les 13 exemples suivants qui en constituent des variations 1 renewed Cold War the melting Cold War the world Cold War continuing ever present cold war the Cold War won by Europeans who destalinized Eastern Europe the cold war which threatened to divide the world into two ideological armed back in the law offices of middlewestern towns akindofcoldcivlwar a kind of cold civil war 12 the Cold War in Washington 13 the cold war between the Nature Conservancy Council and the farmers Barkema r partit variations et emplois n
428. veaux de la classification regroupent par construction des ensembles de formes dont les profils de r partition sont tr s similaires proportionnels et parfois m mes identiques dans les parties du corpus Le retour syst matique au contexte permet seul de distinguer parmi ces associations celles qui proviennent essentiellement de la reprise de segments plus ou moins longs celles qui sont g n r es par les cooccurrences r p t es de plusieurs formes l int rieur de m mes phrases ou de m mes paragraphes et les associations qui r sultent de l identit plus ou moins fortuite de la ventilation de certaines formes La figure 6 montre une petite partie de l arbre de classification r alis partir des formes les plus fr quentes dans Enfants L analyse du contenu de ces classes se fait en retournant fr quemment au contexte probl mes ont moyens logement entente Y enfants peur aventure Figure 6 Extrait d une classification sur les formes d Enfants Bibliographie 209 50 1 3 Classifications descendantes Certains auteurs Reinert 1990 utilisent d autres proc dures de classification pour analyser les corpus textuels Le principe g n ral de la m thode est le suivant On commence par d couper dans le texte des unit s de contexte la plupart du temps une fen tre comportant quelques occurrences gauche et droite de chaque occurrence du texte L ensemble de ces unit s
429. vent tr s difficiles d pouiller et organiser Le d coupage op r en t te expansion et les regroupements par t tes et par expansions offrent au contraire une vision synth tique du fonctionnement syntagmatique et paradigmatique des noms pivots du texte tudi L un des r sultats de Lexter est d aileurs un r seau terminologique hypertextuel Chaque candidat terme est reli sa t te et son expansion et d autre part tous les candidats termes dont il est lui m me t te ou expansion Le lien aux documents de d part permet de replonger les s quences extraites dans leur contexte Le tout permet un connaisseur du domaine de s parer dans de bonnes conditions les termes effectifs des groupes parasites L acquisition terminologique possible avec FASTER r alis e avec LEXTER est une t che dont les r sultats sont difficiles valuer Ressources lexicales 69 objectivement Il n existe pas de corpus de tests o les termes pertinents seraient isol s et qui serviraient ainsi d aune pour mesurer l apport de ces outils En outre le projet de cr er de tels corpus est peut tre chim rique Ce sont des ensembles de termes distincts qui risquent d tre rep r s par des experts diff rents en fonction de leurs pr occupations et de leurs points de vue Un sp cialiste d pid miologie et un cardiologue n identifieront pas forc ment les m mes s quences dans Menelas 15 5 2 Distinguer variantes et variations D
430. vers Elles sont pronoms dans 3 cas sur 4 pour les formes suffix es en ui i et d terminants dans deux tiers des cas pour les formes pr fix es en i Elles d terminent alors le plus souvent un substantif compl ment d objet plac en t te de phrase Elles mettent en vidence cette construction marqu e cette poque A partir de ces observations C Marchello Nizia ibid p 144 formule l hypoth se d une r partition des d monstratifs en trois groupes les formes toujours atones ces et ce les formes toujours toniques les formes longues et les formes pouvant tre atones ou toniques cil cel cele ceus et cist cest ceste C est d passer l opposition d terminant pronom et prendre en compte la dimension accentuelle Les cas sujets masculins singuliers cil et cist suivent bizarrement une volution d cal e cist s efface partir de 1250 en lien avec la chute de la d clinaison tandis que cil reste employ jusqu la moiti du XV si cle o il conna t une disparition brutale C est un parall lisme avec le pronom personnel il qui expliquerait cette volution de cil on constate en effet Utilisable au f minin et au masculin Cette forme provient la fois de cez de la s rie CIST par volution phon tique de l occluso constrictive finale ts en s et de ce s de la s rie CIL employ de fa on inaccentu e et proclitique comme d terminant Ce est fait par analogie sur ces 182 uvres diff r
431. voire le maintien de la temp rature le seraient le d terminant z ro et le d terminant d fini sont compatibles avec une lecture d nominative 15 4 1 Isoler les groupes d allure d nominative La premi re tape du travail de Lexter consiste isoler les groupes nominaux d allure d nominative maximaux L approche retenue ne s appuie pas au premier chef sur des r gles de structuration du groupe nominal en fran ais Il s agit au contraire au d part de rep rer les fronti res c est dire les cat gories et suites de cat gories qui forment les bornes exclues d un tel constituant Dans la s quence ibid p 108 le circuit d aspersion de l enceinte de confinement assure le maintien de sa temp rature nominale de fonctionnement apres une augmentation de pression les l ments assure de sa et apr s une sont consid r s comme des fronti res Le verbe est la limite d un groupe nominal ordinaire Par contre de sa ne peut servir articuler deux parties d une d nomination complexe T te temp rature nominale T te temp rature Expansion nominale apr s une non plus On voit donc se superposer deux types de contraintes l une qui cherche isoler les groupes nominaux l autre qui au sein de ce type de constituant filtre ceux qui peuvent constituer des d nominations Les groupes retenus sont circuit d aspersion de l enceinte de confinement maintien temp rature nominale de fonctionnement augmentation d
432. voulez en faire le tour imaginez la fatigue des les pieds des les visiteurs il faut que les uvres d art soient quand m me la port e de ceux qui veulent se d placer sont retenus par LEXTER cf 3 4 partir de la version lemmatis e les groupes nominaux suivants SN SAdj Adj immense SN Nom palais SN SAdj Adj grand SN SN Nom mus e SP Prep de SN Det Art le SN Nom monde SN SN Nom fatigue SP Prep de SN Det Art le SN SN Nom pied SP Prep de SN Det Art le SN Nom visiteu TITI SN SN Nom ceuvre SP Prep de SN Nom Une analyse partielle peut enfin avoir pour but de produire une version simplifi e de la phrase en laissant de c t des composants ou des parties de composants con us comme secondaires Par exemple le parseur peut extraire l association sujet verbe compl ment d objet et ignorer les compl ments circonstanciels si l objectif est d tudier la sous cat gorisation des verbes leurs cadres syntaxiques et leurs arguments typiques 13 3 2 Une seule analyse ou plusieurs Le r sultat peut fournir pour un segment donn une seule analyse ou plusieurs On distingue deux types d ambiguit s Ambiguit s r elles un locuteur ne pourrait pas trancher Hors contexte par exemple il est difficile de savoir comment analyser tat de l art abstrait Cette th se commence par un tat de l art abstrait Ce critique d art pr sente l
433. x ce qui les conduit utiliser d abord les r gles puis les probabilit s Bibliographie 175 r sultats 44 1 Structuration par r gles 44 1 1 R gles n gatives On retrouve pour le parsage une technique d j utilis e pour l tiquetage l lagage pruning I s agit dans le domaine syntaxique d utiliser des r gles n gatives qui ont pour fonction d liminer les hypoth ses non justifi es C est l approche du parseur ENCG ce qui am ne Voutilainen et Heikkila 1994 p 190 parler d analyseur r ductionniste Pour chaque tiquette morphologique d un mot donn les fonctionnements syntaxiques possibles sont fournis Par exemple un nom peut tre sujet objet compl ment pr positionnel etc L lagage limine les fonctionnements ill gitimes en contexte Ces contraintes syntaxiques 400 dans le cas pr sent sont elles m mes issues d tudes intensives de corpus Karlsson 1994 p 122 En principe ces r gles d lagage sont ind pendantes les unes des autres et n ont pas besoin d tre ordonn es Il semblerait cependant qu une grammaire ENCG reste assez fragile 44 1 2 R gles positives Elles peuvent tre de complexit plus ou moins grande Les grammaires affixes du projet TOSCA Nederhof et Koster 1993 p 166 170 qui d corent des r gles hors contexte d affixes repr sentant des param tres des attributs ou des traits permettent une grande finesse de comportement v r
434. xical database Journal of Lexicography 3 1990 235 244 MILLER G A BECKWITH R FELLBAUM C GROSS D MILLER K Introduction to WordNet An on line lexical database in Five Papers on WordNet http www cogsci princeton edu wn sept 1997 1993 1 9 revised version MILNER J C Introduction a une science du langage Des Travaux Seuil Paris 1 dn 1989 MULLER C Initiation aux m thodes de la statistique linguistique Hachette Paris 1973 NEDERHOF M J KOSTER K A customized grammar workbench in English language corpora design analysis and exploitation Aarts J de Haan P Oostdijk N Rodopi Amsterdam 1993 163 180 NEVALAINEN T Diachronic issues in english adverb derivation in Creating and using English language corpora Fries U Tottie G Schneider P Rodopi Amsterdam 1994 139 147 NUNBERG G The Linguistics of Punctuation CSLI Menlo Park 1990 PAROUBEK P ADDA G MARIANI J RAJMAN M Les proc dures de mesure automatique de l action GRACE pour l valuation des assignateurs de parties du discours pour le francais in FRANCIL 97 Avignon 1997 245 252 PARTEE B H MEULEN A T WALL R E Mathematical models in linguistics Kluwer Academic Publishers 1990 P CHEUX M Analyse automatique du discours Dunod Paris 1969 PEREIRA F TISHBY N LEE L Distributional clustering of english words in ACL 93 Columbus USA 22 26 june 1993
435. xique Le niveau d ench ssement des constituants est ajout il peut le plus souvent tre calcul en fonction du niveau de parenth sage 14 UNE REALISATION EXEMPLAIRE SUSANNE Susanne est un sous ensemble de Brown qui avait d j t manuellement analys Gothenburg Il comprend 64 extraits de 2 000 mots chacun soit 128 000 mots relevant de quatre des genres distingu s par Brown reportage journalistique Belles Lettres crit scientifique et technique aventure et fiction Le corpus ob it un format vertical comme nous l avons vu au chapitre pr c dent avec un mot par ligne et dans l ordre la r f rence le statut correction ou non la cat gorie pr terminale le mot son lemme et l analyse syntaxique 14 1 Une annotation exhaustive Nous choisissons de pr senter en d tail ce corpus arbor manuellement pour trois raisons En premier lieu c est l un des plus faciles d acc s gratuitement et sans formalit s En second lieu le sch ma d annotation est l un des plus document s qui soit Sampson 1995 les choix faits sont discut s en d tail ils sont expos s dans des documents ais ment accessibles Cela permet de comprendre et d utiliser pleinement le r sultat Les conventions d annotation de Susanne proposent une m thode pour repr senter tous les aspects de la grammaire anglaise qui sont suffisamment d finis pour tre susceptibles d une annotation formelle Les cat gories et l
436. xtes dans une base documentaire 24 1 1 Principe g n ral Id alement la requ te de l utilisateur sp cifiant le type des documents recherch s devrait pouvoir tre exprim e en langage naturel avec toute latitude dans le choix de la formulation ou la rigueur dans un langage de requ te sous une forme explicite mais plus contr l e La formulation naturelle textes d crivant les probl mes de circulation sur les grandes art res peut ainsi se traduire par une relation de localisation entre deux entit s LOCALISATION probl me de circulation grandes art res En pratique cependant les syst mes commercialis s proposent g n ralement l utilisateur de formuler sa requ te sous la forme d une liste de mots clefs ventuellement combin s par des op rateurs bool ens ex circulation ET art res Un syst me de recherche documentaire commence par indexer les documents de sa base c est dire qu il repr sente leur contenu sous la forme d une liste de termes repr sentatifs de ce contenu Il extrait de la m me mani re des termes de la requ te de l utilisateur Puis il cherche apparier les termes de la requ te avec ceux d un document pour valuer la pertinence de ce document au regard de cette requ te L objectif est bien entendu de retrouver tous les documents pertinents de la base et 161 C est ce type de requ te qu admet par exemple AltaVista l un des grands moteurs de recherche documentaire sur Intern
437. xtuelles qui en sont l origine Enfin l tude des termes chrono homog nes permet de constituer des classes d unit s et d tudier leur volution conjointe au fil des p riodes 53 CONCLUSION Les analyses portant sur des textes annot s apportent un compl ment d information important par rapport aux m mes analyses effectu es partir d un d coupage en formes graphiques d s lors qu il s agit de mettre en 220 vidence des unit s textuelles caract ristiques pour chacune des parties d un corpus de textes encore que ces r sultats soient difficiles manier simultan ment L utilisation de comptages portant sur les segments r p t s d un corpus pour illustrer les typologies r alis es partir des formes permet de d passer les r sultats obtenus sur les formes isol es de leur contexte imm diat et d acc der la description d associations remarquables par leur r partition Les diff rentes m thodes de calcul des cooccurrences concourent galement ce but Par exemple dans le domaine de l tude des textes politiques l exp rience a montr que le singulier et le pluriel de certains substantifs renvoient souvent des oppositions profondes au plan de l id ologie politique On peut dire que de grandes oppositions id ologiques se sont souvent exprim es travers l emploi du singulier ou du pluriel d une m me forme de vocabulaire Les classes ouvri res proclamait le pouvoir monarchique sous Louis Philippe 1
438. y CSIS in the counterintelligence area They are probably a function of the reduction in cold war intelligence battles that went on for many years 139 la situation g ostrat gique a terriblement chang depuis la guerre froide tait plus que froide en 1990 Pour terminer je voudrais parler de la r duction des effectifs mentionn e par le SCRS dans le secteur du contre espionnage r duction qui est peut tre attribuable l apaisement de la guerre froide It is not so easy to keep them in the cold dawn of post war budgeting Il est moins facile de les tenir apr s la guerre l poque froide des contr les budg taires On per oit sur ces exemples dont le second remotive les constituants de l expression toute faite les difficult s de la mise en correspondance une phrase anglaise d un c t deux phrases fran aises de l autre dans l exemple 2 l inverse dans l exemple 3 Le troisieme exemple manifeste par exemple des d calages entre les deux versions intelligence battles that went for many years est sans quivalent dans la version francaise Le quatri me est une m taphore fil e partir de l expression toute faite Ce bi texte manifeste des types de contextes nouveaux par rapport ceux examin s par Barkema chapitre 11 e cold war nom o cold war est le modifieur du nom cold war attack helicopters h licopt res d assaut bons pour la Guerre froide cold war sty
439. ynonymes Les ensembles de synonymes synsets n expliquent pas ce que sont les concepts ils en posent l existence On suppose que les locuteurs anglais ont d j acquis ces concepts et sont en mesure de les reconna tre partir des mots list s dans le synset Miller 128 WordNet est disponible par ftp anonyme depuis ftp cogsci princeton edu ou ftp ims uni stuttgart de sept 1997 Il existe en diff rentes versions pour Unix PC indows et Macintosh E La terminologie de WordNet identifie le sens d un mot au concept sous jacent Ceci s oppose aux approches constructivistes qui tendent d finir un sens en le d composant en primitives de significations 130 88 PREMIERE PARTIE et al 1993 p 5 6 Consid rons l exemple du mot credit pour lequel huit sens sont identifi s dans WordNet En voici trois 1 credit money available for a client to borrow 2 recognition credit approval give her recognition for trying he was given credit for his work itis to her credit that she tried 3 credit deferred payment arrangement for deferred payment for goods and services chaque sens sont associ s des synonymes dans la mesure o il en existe Parler du deuxi me sens de credit ou du synset recognition credit revient au m me Les d finitions ou exemples not s entre parenth ses qui sont souvent associ s aux concepts dans certains cas ont un r le purement documentaire Dans Word
440. yntagmes libres dans d autres Dans l analyse des donn es montre que le segment analyse des donn es peut renvoyer une 245 Soulignons l extr me g n ralit du traitement effectu Cela permet d utiliser INTEX pour d autres traitements tiquetage s mantique etc Cet exc dent s explique partiellement par le caract re encore fruste des techniques employ es Il tient plus fondamentalement aux limites de nos connaissances sur les m canismes langagiers de cr ation d unit s d nominatives Les contraintes s mantiques l oeuvre sont encore tr s peu explor es Enfin les d nominations possibles constituent un sur ensemble des d nominations effectives il n est pas s r qu on puisse mod liser la mani re dont une communaut langagi re choisit au sein des d nominations possibles Bibliographie 169 famille pr cise de techniques statistiques pr sent e dans le chapitre IX et c est alors une unit ou bien il doit tre pris au pied de la lettre comme un groupe de mots sans lien particulier Plus les inventaires d unit s complexes s tendent plus ils rendent probables ces rencontres de hasard Il n est pas toujours s r qu il faille faire l hypoth se lorsqu on rencontre une s quence inventori e de la pr sence effective de cette s quence 43 TIQUETAGE MORPHO SYNTAXIQUE Attribuer chaque mot la ou les tiquettes possibles peut se faire par consultation d un dictionnaire o chaque forme e
Download Pdf Manuals
Related Search
Related Contents
Color: K Size: 3.5 x 8.375 Stock: (text) Uncoated 60# White S.WA-0660 Howard Richardson of Morse Co 1986/07/24 Howe Ewent EW1213 mobile device charger Package `RSAGA` Full Text - Mathematical Journals English - tekcomm.tv or Specifica Tecnica Lotto 8c (File 610 Kb) Copyright © All rights reserved.
Failed to retrieve file