Home
Télécharger le pdf
Contents
1. I am Ba _ z om i Bum aa i al eh Ss es Bo ca s und p ei DT relais pm ae we en mart ii m P i sudes mart ii ee GF i EI im iZ i che Ma s s nun M PE Pus 3 a a E 9 F aam La a TEA a X ieee RE Ml qm t 73 eur H E q a a r I 5 u i ER E r zY zz rf an rz nr ui 9 LE sp ad Lim sr Mero EE Saa m i m E 1 1 a Bam B NW w T B m y ns mi 1 usd aan p d aL I muy T oe HN MY aa mu users m 1 Q m 1 js e x diia a a NUE D 1 EE x J lt T Cul Ks m uh mu E gas E EB H LI i Ns LI J a m mu LE I A a sa yr E PR e i LL m ph sun _ m Sam ss F a mami F a a uu rl is m ss aiio u uk E i a gt i Ca 4 a i Ww mul mon a m DL TN wm u m wm s omm LANLIPRL im s XAR rf dele Ru MN at ut Vo z o z AE 1 a A mu m amy a capa Su Palat ml oa m wm ya mu z sus m n a mpn as m ma Se CULA E NE RUNE e Pihani DI ph fa iei zi uai p m a ri L S vs P m S Hu RUE a ot s M t US me g Puras ci al In Aq viaje ae L waa TH E ng if DUM nE ES a nsc de i un 1 ru ToU v 4 a a AS E E vus IP o5 1514 es fr IP 05 1514 da de TABLEAU 36 10 bi documents asynchrones avec suppression parmi les 12 correctemen
2. 2 3 2 M thodes d alignement sous phrastique 2 4 Alternatives pour appr hender la circularit 2 4 1 L alignement de phrases une interrogation docu DOTE x xs ce 2 4 2 M thodes d alignement sous phrastique affranchies d un alignement de phrases 2 4 3 Utilisation des structures hi rarchiques des docu MENTS esas se us ea sa a a 44 2 5 Constats M thodes d alignement existantes et applications 44 POUR UNE M THODE SANS PR SUPPOS DE PARALL LISME 47 3 1 Caract ristiques g n rales de notre approche 3 2 Corpus de langues morphologiquement diff rentes 48 48 153 154 TABLE DES MATIERES 3 2 1 Langues indo europ ennes 48 3 2 2 Langues ouraliennes 49 3 3 Corpus de documents en relation de traduction 50 II M THODE D ALIGNEMENT SANS PRESUPPOSE DE PA RALL LISME 51 4 NOS CONCEPTS 53 4 1 Le multidocument 54 4 2 La collection de multidocuments 54 4 3 Le document et sa mise en forme 55 4 4 Les cha nes de caract res r p t es de longueur maximale 55 4 5 Les multizones 57 5 UNE M THODE TEXTUELLE GUID E PAR LE MOD LE 61 5 1 Caract ristiques de la m thode 63 5 1 1 Une m thode descendante 63 5 1 2 Diff rents types d alignement de zones 64 5 2 Alignement de zones 65 5 2 1 Rech
3. Finlande deux projets E Ird and 2 projects France anze projets Grece quatre projets Italy 15 projects u xem bourg 1 project Irlande deux projets Italie quinze projets Luxembourg un projet Pays Bas sept projets Portugal deux projets Roumanie G jer x ultrahaute pression pour der desT pneumatiques uUsag s vative technologies for the x zz waste eens that are currently unsuitable is most glass manufacturing processes and thus end up ig 251 sites EI i utilisables X Ja plupart des processus de fabrication du ju s i FIGURE 17 D tection de multizones avec la population F tandis que la population B est co pr sente avec la population F dans les multidocuments 1 et 2 Les r partitions sur la collection des populations A B E et F servent pour l alignement des populations C et D respectivement avec C et C et D et D La m thode que nous proposons est descendante et repose sur les hypotheses suivantes figure 19 dans une collection de multidocuments un volet dans une langue quivaut au moins partiellement aux autres volets dans les autres langues du multidocument dans une collection de multidocuments un n gramme de carac teres d une langue partage avec ses quivalents dans les autres langues tout ou partie de sa liste de multidocuments Autrement 67
4. a a 5 5 IB he nn ID Ms ttt ements af d E EEE E CES AE IT HA i i HE ER oe Den Volets en fr Volets de fr Volets da de IP o5 181 s E ost H pw H HES EH B Volets en fr Volets de fr Volets el fr TABLEAU 22 Nouveau mod le cas de multilinguisme intra bi document Dans le tableau 22 le multidocument 1P 05 181 par exemple se compose d un volet anglais monolingue en d un volet fran ais bi lingue pr sentant deux zones en frangais l introduction et les annexes s par es par un tableau en anglais fr en fr et tous les autres volets sont 1 http europa eu rapid pressReleasesAction do reference IP 05 181 amp format HTML amp aged 1 amp lLanguage ES amp guiLanguage en 96 R SULTATS ET VALUATION SUR LA TACHE D ALIGNEMENT DE ZONES bilingues autres langues en en Le multidocument IP os 182 2 quant lui comprend entres autres un volet anglais terminant par une zone en francais un volet francais alternant frangais anglais frangais des volets danois et allemand trilingues respectivement danois anglais frangais et allemand anglais frangais Les carr s visibles au centre de ces images refletent des zones avec une forte densit de liens Des zones non traduites entre deux documents pr sentent naturellement beaucoup plus d alignements qu entre des zones traduites Ce ph nom ne de non tradution n est pas marginal nous l avons constat sur plusieurs dizaines de multidocuments de nos collections Un
5. 36 EXISTANT M THODOLOGIQUE documents parall les et les documents comparables Nous faisons dans la section suivante le tour d horizon des princi pales m thodes d alignement existantes Nous y exposons pour chaque grain align principalement phrases et mots les indices et les ressources auxquelles celles ci font appel ainsi que l utilisation qu elles en font 23 M THODES D ALIGNEMENT LA CIRCULARIT Historiquement les recherches ont d abord port sur des m thodes d alignement de phrases Mais la quasi r solution de ce probl me et surtout le constat que l alignement de phrases est intimement li celui des mots Debili et Sammouda 1992 et plus g n ralement aux unit s sous phrastiques quelles qu elles soient ont fait merger rapidement des m thodes proposant d aligner aux grains inf rieurs celui de la phrase mots Gale et Church 1991 chunks Zhou et al 2004 propo sitions Nakamura Delloye 2007 Debili et Sammouda 1992 d crivent en effet un ph nom ne de cir cularit Les m thodes d alignement de phrases peuvent utiliser comme point d ancrage un alignement m me partiel de mots l inverse l aligne ment de phrases peut tre un point de d part l alignement de mots Dans ce dernier cas on ne peut se satisfaire d alignements grossiers Deux coles s affrontent donc l une prenant le probl me par le haut par l alignement de phrases l autre choisissant de partir du bas par l
6. 68 UNE M THODE TEXTUELLE GUID E PAR LE MODELE Volet 3 Volet 2 MD2 MD3 FIGURE 18 D tection de multizones via la collection de multidocuments Volet 1 Volet 2 MD 1 FIGURE 19 Multizones entre alignement et appariement bleu appariement de populations vert alignement de zones rouge alignement d individus dit si deux n grammes ne sont pas partag s par au moins un mul 5 2 ALIGNEMENT DE ZONES tidocument s ils ne partagent aucun contexte ils ne peuvent pas tre s mantiquement quivalents ilexiste un partitionnement optimal de la collection qui met en vidence des zones s mantiquement quivalentes de tailles va riables pour lesquelles le nombre d alignements est maximis Partant du fait que le multidocument est une multizone de taille maximale un volet quivaut globalement aux autres volets nous cher chons faire merger des multizones Au lieu de supposer l ordre ou le d sordre entre les volets d un multidocument celui ci sera calcul en contexte Ainsi la facon du syst me K vec Fung et Church 1994 vu pr c demment nous nous attachons la comparaison de vecteurs d effectifs d unit s textuelles Cependant la diff rence de celui ci ces unit s sont d nombr es par document de la collection et non par por tion de document La seule position d une unit que nous consid rons est la position lt document gt telle unit en fran ais est pr sente n foi
7. intra figure 9 voir inter textuel Le parall lisme textuel Selon Heather et Rossiter 1990 on peut distinguer quatre types de parall lisme textuel en fonction de l organisation s mantique et structu relle de l ensemble des donn es l int rieur des documents explicite fonctionnel latent et implicite Parall lisme explicite les deux textes partagent les m mes iden tificateurs d unit s textuelles sous forme de cl s facilement acces sibles par l ordinateur Exemple les diff rentes ditions de la Bible Parall lisme fonctionnel les deux textes ont essentiellement la m me structure mais poss dent des identificateurs diff rents Une correspondance fonctionnelle peut tre tablie Exemple deux versions successives d un document juridique comportant des diff rences dans le syst me de num rotation de sections paragraphes phrases etc partial mapping ainsi que des diff rences dans le contenu Parall lisme latent il s agit de textes qui sont proches dans leurs contenus Cependant cette proximit n est pas manifeste au ni veau structurel Pour mettre en vidence les liens s mantiques qui r unissent l ensemble de ces textes il faut entreprendre une r organisation s mantique ou ins rer des identificateurs suppl 1 Chacun des six facteurs de la communication assure une des six fonctions de base dela communication verbale respectivement motive po tique conative parce
8. 69 70 UNE M THODE TEXTUELLE GUID E PAR LE MODELE occurrences dans la collection ces occurrences peuvent n anmoins tre dans le m me document Notre strat gie globale d alignement est multi chelle c est dire qu elle serala m me tous les grains Ainsi la notion de zone mise en vi dence pr c demment pourra recouvrir plusieurs r alisations concr tes du document lui m me au n gramme en passant par le paragraphe la phrase ou la proposition Plus les zones seront petites plus l inertie intramultizone devra tre minimis e au profit de l inertie intermulti zone plus notamment les ajouts et les suppressions de zones seront d terminants dans l alignement 53 APPARIEMENT ENDOGENE DE CHA NES DE CARACT RES R P T ES Si l alignement monolingue peut s appuyer sur une similitude de graphie Bourdaillet et Ganascia 2007 l alignement multilingue ne peut s en contenter Il doit donc tablir des similitudes entre les chaines r p t es dans chacune des langues sur un autre crit re Selon nos obser vations un d coupage en N grammes de caract res r p t s permet de faire merger les facteurs communs n cessaires 5 3 1 Capacit des N grammes de caract res r v ler des correspondances monolingues Pour un document donn dans une langue une segmentation en N grammes de caract res met en vidence des facteurs communs qu un d coupage en N grammes de mots ne revele pas Prenons l exemple d un
9. C dric BECQUEY Description discussion extension de la notion de parall lisme http www mae u paris o fr siteaci aci Niveaulll parallelisme notion html 2003a URL http www mae u paris10 fr siteaci aci NiveauIII parallelisme notion html Cit la page 28 C dric BECQUEY Le parall lisme http www mae u paris o fr siteaci aci Niveaull parallelisme html 2003b URL http www mae u parislO fr siteaci aci NiveauII parallelisme html Cit aux pages 28 et 30 Ismail BISKRI et Sylvain DELISLE Les n grams de caract res pour l extraction de connaissances dans des bases de donn es textuelles multilingues In Actes de la 8 me conf rence annuelle sur le Traitement Automatique des Langues Naturelles 2 5 juillet Tours France 2001 URL http www uqtr ca biskri Cit la page 56 Julien BOURDAILLET et Jean Gabriel GANASCIA Alignements mono lingues avec d placements In Actes des 14e Conf rence sur le Traite ment Automatique des Langues Naturelles pages 303 312 Toulouse France 2007 Cit aux pages 43 et 70 Romain BRIXTEL Alignement endog ne de documents une approche mul tilingue et multi chelle Th se de doctorat Universit de Caen Basse Normandie 2011 Cit aux pages 44 45 48 et 55 Romain BRIXTEL Mathieu FONTAINE Boris LESNER Cyril BAZIN et Romain ROBBES Language Independent clone detection applied to plagiarism detection In 2010 10th IEEE Working Conference on Source
10. LB 5 dis ome h Tow 4 in m i a SK Ga ie Dih _ MIA melius ripa ueri Rs nm rantes Lr bkg api yag patiente amiens bing else a zima pan mul Scares ie cas Stier A PE ob M iE TE RET TRIKE ai The felt te HT RIRE FIL IT Ta i Sh R d tig mier Ta dc E 1 ES pour pe pa ae dj Peri ica nie ERR HR ir RII dy SSS p wt E at ran wit n E is fie A it TEN wm PEG ut ded DER 5 1 A m L1 n Hu Beer PETERSE fis Ht nc tha bh otha Dad s ty A au MER i W We L i Ser ae UN DE gt W o ien TES 4 mF ete bi wines hata hex oi ciii rie L TEE HE y 5e L E FEE ES da Ez ITE ETH F tx tien 7 mama en LT le Dui www IE a we x AUR k 12 253 d A BAT cin m bi Pat Soiree fest IP os 1157 de d IP 05 1157 el fr Me RE Rn zia brew MI tidie tcd dde PE N iiri UA rcp dE EI nb HA dE I Td T ima Mu er er nr es i j aguts ber Ti TE Blips d L q Ped 2m SE 7 FR p RP s 23ER Fi umi du Merten ed iv ab tt um bns Sd duas dw i ondas ee NE AES ducc MALAE ACE ski ud pES Ny E x55 PLE dud T a di ES mn ice sic Ammo epa en AET paa tr mmo se ee ee im EN WEN AD te gt nee a an ub DUCERE HE se PR I Li ue NEC AC E r did d ru je ES eno R aku ICE Ey E asker Scat nee d See XG UH d aN e 2d E He pos KNIE CEU PANE 1 Tu di SEHE 2 g Spek 1 i E uu I F IEEE tr r al ne H 1 cr RIP PSSI CE HSE P
11. b waste management ng of cold rolled plates A new chemical free process will be used based on high pressure vacuum technology p p b Greece 4 projects ee Hungary 1 project lt b gt lt p gt p The project covering b water management lt b gt assesses the scale of arse nic contamination in groundwater in the southern part of Hungary It will develop a pilot management plan incorporating a new arsenic removal technology lt p gt p lt b gt Ireland 2 projects Italy 15 projects Netherlands 7 projects Portugal 2 projects eee Romania 1 project e e Spain 16 projects The third aims at defining g a mountain viticulture sustainable management system in order to reduce the environ mental impacts of this activity on landscape soil and water resources p p Four projects deal with b clean technologies lt b gt e The last project will demons trate the technical and economic feasibility of a new high capacity process to separate high purity metalalloys amp gt oo Used for the separation ofiron aluminium and heavy metals from re use lt p gt p fourth project aims to reduce the disposal of non sterile clinical waste in landfill sites and promote its use as a raw material for recycled products p p Two projects seek to mitigate the lt b gt environmental impact of economic activities lt b gt One will demonstrate the e
12. nonciation l origine du docu ment source Ce n est pas un processus lin aire Il s agit au contraire d un processus circulaire qui commence par une interpr tation globale d un texte en langue source r vis e ensuite par une analyse du texte source et l laboration de strat gies pour produire le texte cible Cette suite de proc d s contient elle m me un grand nombre de mouvements circulaires plus petits ou boucles qui ne cessent de revenir sur le texte source et sa situation le texte cible et sa situation les niveaux d analyse individuels et sur l analyse du texte source et la production du texte cible Le traducteur doit ainsi constamment reconsid rer des l ments d j analys s chaque information obtenue au fil du processus d analyse et de compr hension n cessite d tre confirm e et corrig e travers le prisme des nouveaux l ments Nord 2010 Concr tement le passage d un document d une langue une autre d pend entre autres de la langue source de la langue cible Chamsine 2005 du destinataire connaissances cultures Abudayeh 2010 du traducteur comp tences connaissances du domaine concepts et terminologie mais galement connaissances des cultures et des langues sources et cibles Culture source Culture cible Texte cible Texte source FIGURE 1 L intertextualit dans le processus de traduction Nord 2010 Les rectangles gauche de la figure de m me que les ovale
13. p Le troisi me projet vise d finir un systeme de gestion durable de la viticulture de montagne en vue de r duire les incidences de cette activit sur le paysage les sols et les ressources en eau lt p gt p Quatre projets traitent des lt b gt technologies propres lt b gt e Le sixi me projet d montrera qu il est techniquement et conomiquement possible d appliquer un nouveau proc d haute capacit pour s parer les alliages m talliques puret lev e plus de 9096 Utilis pour extraire le fer l aluminium et les m taux lourds contenus dans les v hicules hors d nouvelle technologie recourant la fermentation du lisier la transformation du bio gaz en nergie et en chaleur cologiques et la s paration int grale des composants recyclables et non recyclables lt p gt p lt b gt Finlande deux projets e e e France onze projets Le quatri me projet vise d montrer qu il est techniquement possible de recourir la technologie des ultrasons pour r duire la production de boues r siduaires dans les stations d puration des eaux us ernier projet fran ais concerne la lt b gt gestion de la qualit de l air lt b gt Il vise mettre au point un chantillonneur d air bas sur une nouvelle m thode de surveillance des pollens dans l air Au lieu de quantifier les grains de pollens selon leur morphologie cette m thode reposera sur la mesure en ligne del antig
14. par cette approche Malgr l imperfection de la m thode d valuation les r sultats sont positifs partant de 5096 de cognats et 696 de traductions et se stabilisant autour de 696 pour les deux 123 124 VALUATION QUANTITATIVE DES APPARIEMENTS 60 Traductions Cognats SS w wa s sk dp w a I wa iF wa E Waqalu a 200000 400000 600000 800000 1000000 1200000 FIGURE 22 volution des pourcentages de cognats trait continu et de tra ductions pointill s sur 40 md en fran ais anglais VALUATION MANUELLE DU PARALL LISME ENTRE LES VOLETS DES COLLECTIONS Nous pr sentons ci apres les diagnostics de parall lisme entre les volets des collections de notre corpus tablis l oeil nu par nos soins Chaque tableau pr sente l ensemble des bi documents d une collection Chaque bi document a fait l objet d un diagnostic synchrone asyn chrone avec inversion ou asynchrone avec suppression et le cas ch ant nous avons relev des sp cificit s telles que le type d inversion le type de suppression la longueur des volets la pr sence de multilinguisme Les principes qui ont pr sid s l attribution d un diagnostic sont les suivants seules les inversions et suppressions sur phrastiques ont t prises en consid ration les suppressions de balises n engageant pas de changement de rendu sont consid r es comme des suppressi
15. LA 7 127 EVALUATION MANUELLE DU PARALLELISME rueumoq e 19 oTIeS Ng ep e 923110dde apte jue re19p SUBST S9OJQIUIIP sop uorsso1ddns ep TJ sa To ap pm aun p uorssaiddns ap Sj9 OA T SI suep stej3ue uo oxouue sonsuTTIq Sj9 OA T SI suep sre Gue uo oxouue sonsuTTIq Sj9 OA c SI suep stejdue uo oxouue nuq 3j Sj9 OA T SI suep stej3ue uo oxouue sonsuTTIq Sj9 OA T SI suep stej3ue uo oxouue s n urliq Sj9 OA T SI suep sre Gue uo oxouue sonsuTTIq lt 2U4UDUU gt sas feq op uorsso1ddns 1 lt 2Wbub gt sasi eq op uorsso1ddns op map ap map topi aj 39 ua nbn qeudre aipio red sa911 sjo oad ap s 1srT USPI Sj9 OA T SI suep stejsue uo neajge songur Iq Sj9 OA c SI suep stejsue uo Neo qe onSui Iq 13 map map Sj9 OA T SI suep stejsue uo neajge songur Iq X Z1 YOST 1uoumoop 11194 ZT XZ 1 yuournoop 11194 ALT 35 T JUSUINIOP pyd AT 19 7 JUSUINIOP Hyd MZ 1 yuournoop 31194 ZT x1 q1usumoop pyd spes q JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S uorssa1ddns uorssa1ddns JUOIYIU S uorssa1ddns uorssa1ddns uorssa1ddns ouoi1qou s ouoi1qou s ouoi1qou s ouoi1qou s JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S uorssa1ddns JUOIYIU S JUOIYIU S JUOIYIU S uorssa1ddns ouoi1qou s JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S UOISIOAUT U
16. LEN u a Heg E A D E E a eg E Wo NT A E a 5 ooo m E E E mut m 2 A wp L A Sa E w a a a LE xoa a E E Wy w X _ Ml x L _ gt IP 05 1558 es fr IP 05 1558 de fr E a ES 1 E P z F T p fie MR ANA Ry ee ee x RA et NE ECC ta d c qM T ui SX 7 F tlg M C gt t a E E oo i o on 4 pEr p in 2 gt im um 1 i A n i _ 1 n P P Tox P M E D E a ATE i 7 ANS i E3 N lt ie HE NEP z W x Lolo D P M gt E EMT T eu p a I DEP E En ie wa it Nr Pu du A wr s ee XS A MAR CUN al yeti ee bpa LT f fiU mm Es RE pis ire nt OP T Peck o w ee en 0 PAM X nm La Lia Ww c E IP o6 202 de fr tec don onm ent Ba d ipua dd PS kus z 1 rd E eu E ur ah i gee EE er 1 cre E NI s E P watt cre E s a Pert tia Et nns eris lunt Wie E a 7 i T E Tia h T ilin IN iF litre pegs Petey ct eu TERG AM Nr _ zi sak p a dd i as s ws eae eo een o ve E Vi lt I Hn wee te matty Arr a mnt i en EIT way Sae TEST ety Sr T I lt S oth L wz yor TI 7 RER E a FS a re f k I T ran z LN n Li Lu z Yi A Bun z ti x EHE Bi a Gut ates id h DU T mW 2 MET kt a ese M
17. Nous avons vu pr c demment que si l alignement de phrase pouvait se contenter d une correspondance mot mot relative ment grossi re il n en est pas de m me pour l alignement en unit s sous phrastiques L alignement d unit s inf rieures la phrase peut 2 3 M THODES D ALIGNEMENT LA CIRCULARIT tre vu comme un raffinement de la technique d alignement phrase phrase dont le but est d arriver une granularit plus petite La tache est tr s complexe car il n est pas possible d envisager un alignement fin au niveau lexical sans se pencher sur les nombreuses difficult s que cela engendre les textes sont fortement constitu s d occurrences en rapport complexe mots compos s locutions phras ologies et aucun ali gnement ou extraction ne peut s rieusement tre fait sans prendre en consid ration ces ph nom nes la fois recherch s en termi nologie et n cessaires pour le travail sur certaines langues comme le su dois ou l allemand pour n en citer que deux les textes sont fortement constitu s de mots grammaticaux 5096 des occurrences d un texte dont la traduction est encore moins biunivoque que celle des mots lexicaux Deux types d approches ont merg certaines purement linguis tiques et d autres hybrides bas es sur la combinaison des m thodes sta tistiques avec les premi res et g n ralement bas es sur la reconnaissance de patrons et modeles l aide d expressions r guli res ou de grammaires loca
18. compl mentarit Le parall lisme fait appel diff rents proc d s permettant de contraster dans la structure d une image deux ou plusieurs termes qui peuvent tre contraires ou homo nymes ou synonymes ou presque homonymes ou presque synonymes Becquey 2003b L observation montre une grande vari t de types d associations pour lesquels il faut examiner le nombre de termes en parall le couplets triplets quadruplets inventaires leur taille paral l lisme de 1 x termes leur distance de la connexit l loignement leur composition chiasmes chos canon Becquey 20032 Cette d finition du parall lisme sert ici d finir un ph nom ne monolingue du domaine de l oralit agissant notamment travers la syntaxe des nonc s les lex mes les sons de la langue kubin int an utalam ki ichkelem injajaly um ma parole va mon vrai beau et myst rieux seigneur kumani tyosa kpixan qui se d place pour nos mes kumani tyosa klu uma qui se d place pour nos corps Tableau 8 Illustration du parall lisme en versification sur un couplet en yuca t que d une pri re d offrande agricole Becquey 20032 Le tableau 8 illustre un cas de microparall lisme rendu par la r p tition partielle de vers vers qui tablit des cadres syntagmatiques au sein desquels on trouve galement un contraste paradigmatique sym bolis en gras dans le tableau Cette d finition renvoie aux deux modes
19. gories recens es par Euratex l association europ enne des fabricants de produits textiles dans la lettre qu elle a adress e la Commission le 9 mars 2005 La clause sp cifique de sauvegarde relative aux produits textiles du protocole d adh sion de la Chine l OMC 2001 l 25 FIGURE 8 Illustration d un cas de suppression entre le volet anglais du com muniqu de presse IP 05 473 et sa traduction en fran ais Les ont t introduits par nos soins ils symbolisent la fin du paragraphe qui les pr c de EXISTANT M THODOLOGIQUE E chapitre est consacr un tour d horizon des principales approches 7 del tat de l art en mati re d alignement de corpus parall les Nous y pr sentons les multiples d finitions du parall lisme avant de montrer qu il existe de nombreuses techniques d alignement diff rentes notam ment du point de vue des unit s de base mises en jeu phrases parall les paragraphes parall les ou documents parall les Nous pr sentons les corpus les concepts et les indices qu elles exploitent Nous verrons en suite sur plusieurs d entre elles l usage qui en est fait et quel grain elles analysent pour aligner tel ou tel autre grain Les constats que nous tirons de ces principales techniques notam ment du point de vue du parall lisme nous am nent pr senter au chapitre 3 la fois les grandes lignes de notre approche et notre corpus tant du point de vue des langues que du type
20. la page 5 Marc DAMASHEK Gauging similarity with n Grams Language Independent categorization of text Science 267 843 848 1995 Cit la page 56 Fathi DEBILI et Ely s SAMMOUDA Aligning sentences in bilingual texts French English and French Arabic In Proceedings of the 14th conference on Computational linguistics Volume 2 pages 517 524 Nantes France 1992 Association for Computational Linguis tics URL http portal acm org citation cfm id 992151 amp dl GUIDEScoll GUIDES CFID 783361778CFTOKEN 78125505 Cit aux pages 34 36 et 39 Ted DUNNING Statistical identification of language Technical re port MCCS 94 273 New Mexico State University New Mexico 1994 URL http citeseerx ist psu edu viewdoc summary doi 10 1 1 48 1958 Cit la page 56 Christine DURIEUX Le foisonnement en traduction technique d anglais en francais Meta 35 1 55 60 1990 ISSN 0026 0452 URL http id erudit org iderudit 002689ar Cit aux pages 8 10 et 150 Herv D JEAN et Eric GAUSSIER Une nouvelle approche l extraction de lexiques bilingues partir de corpus comparables Lexicometrica Alignement lexical dans les corpus multilingues Num ro sp cial 2002 Cit la page 149 Jessica ENRIGHT et Grzegorz KONDRAK A fast method for parallel document identification In Human Language Technologies 2007 The Conference of the North American Chapter of the Association for Computational Linguistics C
21. les langues et le corpus tel que la pr sence de cognats ou les limites de phrases Cependant les syst mes reposant sur la similitude de r parti tion de mots se heurtent la nature flexionnelle de certaines langues un m me mot pouvant alors recouvrir plusieurs formes selon sa fonc tion dans la phrase En outre K vec suppose la lin arit de la traduction entre les volets ce qui n est pas toujours le cas notamment sur des paires de textes asiatiques indo europ ens comme il se propose d aligner En outre des ph nom nes d ajouts et ou de suppressions peuvent gale ment interf rer Pour de meilleurs r sultats Fung et Mckeown 1994 ont impl ment une version ynamique de K vec DK vec qui produit un petit dictionnaire dont les entr es peuvent tre utilis es comme des ancres pour l alignement Plusieurs auteurs ont utilis des matrices de points dotplots tech niques emprunt es l analyse ADN et d abord reprise pour explorer du code source Church et Helfman 1993 les appariements ainsi r v l s transformant le probl me de l alignement en un probl me de traitement d image Church 1993 Chang et Chen 1997 Langlais 1997 Mela med 1999 ou exploitant des hypotheses similaires pour la d tection de plagiat Brixtel et al 2010 43 44 EXISTANT M THODOLOGIQUE 2 4 3 Utilisation des structures hierarchiques des documents Brixtel 2011 met quant lui en vidence le fait que les marques de structur
22. mi mum 5 nr 1 m d Lm a fw 3 a Z sors see d E DOWD DSTI IE ATE cl 105 IP 08 405 fi fr IP 08 1829 da de TABLEAU 31 10 bi documents asynchrones avec suppression parmi les 26 correctement attribu s sur les collections 1 2 3 avec la m thode Grand Angle voir tableau 24 lt n En E wiih Fo GU num p n P ER oe 4 T i aA L Fe B HH qur 1 ai FE ETI d F amm g m 3 CE En m LI E nu s mA LE ax J 1 TU EU Ea MM ENEE mi i RU L IL E i THERE REI LEE HDHH uc R MIEI AIT F ERR BE p in iur 106 R SULTATS ET VALUATION SUR LA TACHE D ALIGNEMENT DE ZONES 1 1 Nr ony m nu a ua m u ptt LL T tem oz a ne a a L 1 L a E L a ja mg nu LA s a L A _ m 1 a 7 n x 1 1 LI a m a m LE f 1 4 T Vu T z Y H a E n nl I Tat k a E a x a P a P x L x x 3 LI r x a am r LE 1 CL m r i E LI La ud Uo eue uvY oc LA Kk E j a s j EA Uwe B QUA o id i D I xc ae m 1 i Me m TE EES eer no Lc E r h mo xx x Pu am f c pEIEUS y AD Iason Ble E ri ir V q e um EA ETR 2 gt 5 7 z III Rt Sa mm Ed a 5 mn Ve er do m 8 a 7 7 m mom i x S m R l LER I m
23. n it l allerg n it lt p gt p b Gr ce quatre projets Hongrie un projet E Irlande deux projets Italie quinze projets e e e Luxembourg un projet eee Pays Bas sept projets l Portugal deux projets e e e Roumanie un projet Royaume Uni dix projets Le quatri me projet vise r duire l limination des d chets hospitaliers non st riles dans les s incidences environnementales des activit s conomiques lt b gt Le premier vise d mon trer l efficacit du recyclage del eau au moyen d un nouveau r acteur de digestion a ro bie des eaux us es p p Le second projet concerne l exploitation des friches indus trielles pour la culture de biomasse des fins nerg tiques la r habilitation des terres endommag es et la production de chaleur et d nergie partir de sources d nergie re nouvelables e Su de deux projets Directive 2002 95 CE du Parle ment europ en et du Conseil du 27 janvier 2003 relative la limitation de l utilisation de certaines substances dangereuses dans en a b Environment Commission supports 89 innovation projects in 17 countries with 71 million lt b gt lt h1 gt p lt b gt lt i gt The European Commission has approved funding for 89 environmental innovation projects in 17 countries under the LIFE Environment programme 2005 9 More information lt b gt lt br gt See the annex
24. ordre analytique ayant pour objet les traductions Harris 1973 Ce n ologisme est l poque venu rempla cer les p riphrases the Sciences of Translation Nida 1964 et the Linguistic Theory of Translation gt Catford 1965 L objet primordial de la traductologie est la traduction naturelle trait e d une fa on descriptive et explicative Le travail du traductologue se situe donc en aval de la traduction au niveau du texte traduit et pas de la traduction il n a ini tialement pas de vocation prescriptive Les traductologues s int ressent notamment des ph nom nes tels que la surtraduction la perte de sens l erreur le foisonnement Durieux 1990 Juhel 1999 Cochrane 2007 Ballard 1999 dont ils identifient les causes Harris dit conserver le terme traduction pour l op ration traduisante et celui de texte traduit pour son produit Quelques ann es apr s dans Harris 1988 il propose le terme bi texte pour d signer le couple texte source texte cible par extension on trouve galement le terme multi texte pour d signer un ensemble constitu d un texte source et de ses traductions dans plusieurs langues Zimina 2006 quant elle propose de nommer volet chacune 13 DES T MOINS PRIVIL GI S DE LA VARI T DES LANGUES des versions d un tel ensemble Dans le laboratoire du GREYC nous avons cr le n ologisme multidocument qui inclut en tant que grain sup rieur au multitexte les dimensi
25. que vous le valez bien gt m talinguistique lt cadeaux gt prend un x au pluriel phatique comme le all dit au t l phone r f rentielle si nous distinguons ainsi six aspects fondamentaux dans le langage il serait difficile de trouver des messages qui ne rempliraient seulement une seule fonction La diversit des messages r side non dans le monopole de l une ou l autre fonction mais dans les diff rences de hi rarchies entre celles ci Jakobson 1963 29 30 EXISTANT M THODOLOGIQUE v 2107 v 2108 v 2109 v 2110 v 2111 v 2112 v 2113 v 2133 v 2134 v 2135 v 2136 v 2137 v 2138 v 2139 v 2140 v 2217 v 2218 v 2219 v 2220 v 2221 v 2222 v 2223 v 2224 v 2225 v 2226 v 2227 v 2228 v 2229 v 2230 v 2232 v 2233 v 2234 v 2235 v 2236 v 2237 v 2238 v 2239 v 2240 xa u nima bal nu te nu xoq ojaw ch in tij ta na pe xa ta nim a r eta L il u wach nu kam ik nu sach ik waral ch u xmut kaj ch u xmut ulew ixoq mun ch a k am a ul oq ri nu wa bal ri nu ok ibal ch a ya a chi r e ri oyew achi kaweq k iche winaq xa nim a r eta 1 11 u kam ik u sach ik waral ch 1 u xmut kaj ch u xmut ulew ri lo lo j ri ch uch u j ri laq an u q in ri k oxaj u wa ri ki kal a tz ka ban ik ri u ban om nu te nu xoq ojaw mi x ch in jik ik e j ul oq ch u pam u nim al tz aq chi u pam u nim al k oxtun chi kaj pa chi kaj xukut al xa ta nim a r
26. ralis e telle qu on en trouve dans un dictionnaire Concr tement aligner des mots ou des unit s s mantiquement quivalentes est donc l op ration consistant identifier des relations bilingues ou multilingues entre des mots ou des unit s dans des corpus parall les i e traductions bilingues ou multilingues autrement dit des bi textes ou des multidocuments Cette d marche s inscrit dans le but de les r utiliser dans le traitement des langues naturelles comme la lexicographie bilingue Klavans et Tzoukcrmann 1990 Langlois 1996 33 34 EXISTANT M THODOLOGIQUE la Traduction Automatique TA la Traduction Assist e par Ordinateur TAO via notamment des M moires de Traduction Planas 2000 ou des concordanciers bilingues Huet et al 2009 ou encore la cr ation de bases de donn es terminologiques multilingues Wu 1994 Lin et al 2008 et la d tection de plagiat Brixtel et al 2009 Langlais 1997 d finit un syst me d alignement multilingue id al comme un processus qui prend en entr e un corpus multilingue c est dire un ensemble de textes traitant d un m me sujet dans des langues diff rentes et qui produit une sortie constitu e d appariements 5 mettant en correspondance les r gions ou segments qui sont en relation de traduction dans l ensemble des textes du corpus Une r gion est une unit textuelle pouvant relever de diff rents niveaux comme le chapitre la division le paragra
27. thode 59 60 NOS CONCEPTS FIGURE 13 Multizones FR EN du m me communiqu IP 05 1157 UNE M THODE TEXTUELLE GUID E PAR LE MODELE N Totre m thode d alignement est orient e analyse textuelle Elle pr UN voit les probl mes de comparativit li es tant l activit du tra ducteur qu aux diff rences entre les langues La difficult inh rente aux m thodes d alignement endog nes est de savoir par quels alignements commencer a fortiori lorsqu elles sont appliqu es sur des corpus mul tilingues et potentiellement bruit s Un alignement endog ne ne peut tre que progressif C est dire qu il ne peut que se situer dans un cadre it ratif alignant soit de facon ascendante soit de facon descendante De facon ascendante en appariant d abord les cognats chaines de ca ract res identiques entre plusieurs langues et en d finissant partir d eux des zones dont la taille sera progressivement tendue De facon descendante en mettant progressivement en correspondance des zones de texte s mantiquement quivalentes l int rieur desquelles nous re cherchons nouveau des multizones plus petites Nous faisons le choix d une m thode descendante qui n impose pas le parall lisme mais re cherche et calcule en contexte les zones de textes o il existe Il existe un continuum entre des quivalences linguistiques r pertori es dans les ressources dictionnairiques i e les appariements et les quivalences traduc
28. thode adapt e toutes les langues ind pendante de l ordre des constituants de la phrase et de la disparit du grain mot Pour cela nous traitons toutes les langues avec des chaines de caract res comme le propose Cromieres 2006 pour les langues asiatiques Enfin dans l esprit des travaux de l quipe DLU du laboratoire GREYC nous souhaitons laborer une m thode endogene qui exploite le corpus pour analyser le corpus autrement dit qui n utilise que les connaissances intrins quement contenues dans les traductions Notre objectif est de pallier ainsi le manque voire l absence de ressource dic tionnairique disponible pour l analyse de certaines langues ainsi que le co t de l ajout ventuel d une langue dans le corpus 3 2 CORPUS DE LANGUES MORPHOLOGIQUEMENT DIFF RENTES Nous introduisons volontairement d s le d but des langues tr s diff rentes du point de vue du foisonnement de l alphabet de la mor phologie Ces diff rences nous aideront valider et renforcer l int r t de certains concepts la base de notre m thode appliqu e une collec tion de documents comme l alignement de N grammes de caract res ou le concept de multizones ainsi que le caract re ind pendant des langues que rev t la m thode dans son ensemble Tous les sch mas SVO et d termin d terminant sont repr sent s au travers de deux couples de langues proches et plusieurs couples de langues diff rentes selon plusieurs aspects plus ou
29. u stiones citadas en nuestros informes se deben tomar muy en serio y han de ser un incentivo para acelerar las reformas si Bulgaria y Ruman a quieren estar preparadas para la adhesi n el 1 de enero de 2007 lt i gt lt p gt p La Comisi n confirma que Bulgaria y Ruman a cumplen los criterios pol ticos de adhe si n Sin embargo deben hacer un esfuerzo adicional en parti cular reforzar el Estado de derecho mejorando la administra ci n p blica y el sistema judicial y luchando de manera efectiva contra la corrupci n p p Bulgaria y Ruman a cumplen el requisito de ser una econom a de mercado viable Si Bulgaria mantiene el ritmo actual de reformas y Ruman a prosigue con la misma determinaci n la aplicaci n de su programa de refor mas estructurales ambos pa ses deber an poder hacer frente a la presi n de la competencia y a las fuerzas del mercado dentro dela UE p p Los dos pa ses han seguido progresando en la adopci n y la aplicaci n de la legislaci n de la UE Han avan zado mucho en la mayor a de los diversos espec ficas de ahora al 1 de enero de 2007 p p El a o pr ximo en los meses de abril mayo la Comisi n volver a analizar la situaci n Podr a recomendar entonces en caso ne cesario retrasar la adhesi n de Bulgaria o Ruman a hasta el 1 de enero de 2008 si existe un riesgo grave de que cualqui tos importantes para enero de 2007 lt p gt lt p gt Para informac
30. Code Analysis and Manipulation pages 77 86 Timisoara Roma nia septembre 2010 URL http ieeexplore ieee org Xplore login jsp url http ieee orgecision 203 Cit la page 43 Romain BRIXTEL Boris LESNER Guillaume BAGAN et Cyril BAziN De la mesure de similarit de codes sources vers la d tection de plagiat le lt Pomp O Metre gt In 7e Manifestation des Jeunes Chercheurs en Sciences et Technologies de l Information et de la Communication 16 18 novembre page 8 Avignon France 2009 Cit la page 34 137 138 BIBLIOGRAPHIE Peter F BROWN John Cocke Stephen A Della PIETRA Vincent J Della PIETRA Fredrick JELINEK John D LAFFERTY Robert L MERCER et Paul S ROOSSIN A statistical approach to ma chine translation Comput Linguist 16 2 79 85 1990 URL http portal acm org citation cfm id 292858 92860 amp coll Portal amp dl GUIDE amp CFID 76577594 amp CFTOKEN 73477001 Cit la page 41 Peter F BRowN Jennifer C LAI et Robert L MERCER Aligning sen tences in parallel corpora In Proceedings of the 29th annual meeting on Association for Computational Linguistics pages 169 176 Berkeley Ca lifornia 1991 Association for Computational Linguistics URL http portal acm org citation cfm id 981344 981366 amp coll Portal amp dl GUIDE amp CFID 76577594 amp CFTOKEN 73477001 Cit aux pages 32 36 37 38 et 40 John C CATFORD A Linguistic Theory of Translation an Essay on Applied
31. De par le volume qu ils repr sentent ces hapax de document sont difficiles aligner a fortiori si l on d cide de ne pas pr supposer le parall lisme la synchronicit entre deux volets d un multidocument c est dire de ne pas consid rer leur position l int rieur des volets r v ler simplement partir de leurs distributions intra et inter langue et sans traitement sp cial des l ments de structures pr sents dans les diff rents volets des multidocuments En multi lingue une chaine de caract res largement ventil e sur les dif f rents volets et les diff rentes langues a de fortes chances de correspondre un l ment de structure Ces informations seront autant d indices suppl mentaires pour mettre en vidence des diff rences et des similitudes entre les volets des multidocuments et les unit s qui les composent Ces collections ont comme caract ristiques principales de regrouper plusieurs multidocuments tre quilibr es du point de vue des langues autant de documents pour chaque langue afin de limiter les d calages de fr quences d j forc ment pr sents d une langue une autre 4 3 LE DOCUMENT ET SA MISE EN FORME 55 tre ventuellement th matiquement homog nes afin de maximi ser l apparition de r p titions intermultidocument 4 3 LE DOCUMENT ET SA MISE EN FORME Dans la lign e des travaux de Brixtel 2011 nous consid rons que la mise en forme est porteuse de sens et
32. E np LO Y ir dt TE al hl VER x 1P 05 1157 el fr uu proud hamo m a k th LE L rim H tz op Bas Li En di wien HE N T V TUE E ii ht fn Hl if dr Zr ui I un ah im iFa di aiii d np m iw 2d oom a as H AA AA A A 3 IP 05 1157 en fr IP 05 1157 de fr TABLEAU 35 10 bi documents asynchrones avec inversion parmi les 12 correc tement attribu s sur les collections th matiques avec la m thode Grand Angle voir tableau 24 110 R SULTATS ET VALUATION SUR LA TACHE D ALIGNEMENT DE ZONES E i 5 T f a use LN a 1 Tan E r w I H it I I I ua a L E 7 E E a nnl shi e u wy oaa 1 i Li u F rin Y ME Cint Bt A OE o um a n L E x i IP 05 1558 es fr IP 06 1515 de fr N L a L 1 L x L L RI k L bd l wi i a 1 i E 1 x J gt ss a a g a afe m ma a a 2 Lir a E R q o F m n i i n k e s x niii cH ds u u um ln m nun u nl En m m s j 4 re 4 E g ap nu mg om m gc 4 g p mro a F us u um Qu mee n mmm Fant us u um Qu mun p un mmm F ve u w i p Ar ve i a p a a Eo S JL TE JL TREE en ne wa A lu e s ait Im sad a LI ums D a i LI um on my An mn ums m gs mg mg mg um B ic T L a i
33. En 1 IP 07 1295 es fr IP O6 751 el fr EP HL bade 2 i 4 L L mo m a p ma u us un zi LI a mE wm ol 4 M mu a Bar 4 M mus m m m m L LE r L ii CE a Ca m m n m LESI u I L m T IP 05 1558 el fr IP 05 1558 fi fr TABLEAU 32 10 bi documents asynchrones avec suppression non obtenus parmi les 49 attendus sur les collections 1 2 3 avec la m thode Grand Angle voir tableau 24 7 3 VALUATION ET DISCUSSION DES R SULTATS 107 Collection transport a bonum eat Sr mem DI e bise a Hmm am Rin le m ma 3 im ios ne bs cem Bed s 1 LE E i E rm a ve Ej a 1 a r miae al m LE E E 4 m Hug i uu en fr IP o5 1157 es fr EPA h S ET uis WE XE en dE TE a tube Ha da nn CR E E DEN mum nn EL ar Venen nee PR a Bul J ME IUIUS ee EL eee eee ELI Mui ure I HE 1 Fuss ddr 2 Lan 22d O a eem SE ONE A NH sn E gt IP 05 1157 en fr IP o5 1157 de fr TABLEAU 33 Les 5 bi documents asynchrones avec inversion correctement attribu s sur les collections th matiques avec la m thode Petit Angle voir tableau 25 108 R SULTATS ET VALUATION SUR LA TACHE D ALIGNEMENT DE ZONES UD AME miles a er Lr a east i om m Pru s
34. JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S nsouSer q yy 17 89 1J uo i e ip 9p p Y 17 89 1J uo i e ap 9p p 1J 17 89 1J uo ie Tj9p 3p ep Y 17 89 1J uo i e er 9p ep 1J 13 1J S3 1J U3 i e 1J 3P 9p p 1J 1J S3 1J U3 i e 17 9p Sp vp Y 17 89 1J uo i e 17 9P Sp ep y 17 89 1J uo ie 17 9p 3p ep Y 17 89 1J uo i e 1 P 9p ep 1J 13 1J S3 1J uo i e Tj9p op ep Pa anbrunururo o r S0o gI SSrI So dI TLTT SO AI T6 T SO d S lt I SO dI 6 71 So dI OOSI SO dI 9TT1 50 d1 S lt lt I SO dI ZSVI SO dI srre394 JUOIYIU S ouoi1gou s ouoigou s JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S uoiuou s JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S ouo1gou s JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S uoiuou s uoiuou s JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S uoiuou s ouoigou s ouoigou s ouoi1gou s uoiuou s uoiuou s uoiuou s uoiuou s uoiuou s uoiuou s JUOIYIU S JUOIYIU S JUOIYIU S ouoigou s nsouSer IT 1J S 1J U3 ire dup Per FT 1J S 1J ua ire TP prep IT 1J S 1J U3 i
35. JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S nsouSer IT 1J S 1J ua ire IP SPP FT 1J S 1J U3 ire Ip3p 9p p HT 1J S 1J ua ire Ip3p Sp ep IT 1J S 1J ua ire ep 9p p FT 1J S 1J ua ire 1 J P PP 13 13 1J S 1J U3 ire Ip3p SP EP IT 1J S 1J U3 ire Ip3p 9p p IT 1J S 1J ua ire 1 J P 9p ep IT 1J S 1J U3 ire Ip3p 9p ep 13 13 1J S 1J ua ire cep 9p ep Pa krS Zo dI koc Zo dI I9Z1 Z0O gI 991 Z0 dJ ZEST ZO AI tvy 90 d 9 9T 90 qI gog So dI 69gVv So gI lt 6 lt SO dI nbrunururo5 Pa JUOIYIU S JUOIYIU S ouoi1gou s ouoi1gou s ouoigou s ouoigou s ouoigou s ouoigou s uoiuou s uoiuou s uoiuou s JUOIYIU S JUOIYIU S JUOIYIU S uoiuou s uoiuou s ouoigou s ouoigou s ouoigo
36. Y 1J S 1J uo i e 1 P 9p ep Y 17 89 1J uo JJ a Sp ep Y 17 89 1J uo i e 9p Sp ep J g 1J S3 1J U3 i e NP 9p ep Y 1J S 1J uo i e ap pap J g 1J S 1J uo i e 9p 2p 4p Y 17 89 1J uo i e ESP FRE Pd 08 90 qI o0b 90 al tvVy 90 d J 61Z1 90 gI 6S91 90 gI vg t 90 41 981 1 90 dI 6gF So dI 9ST SO GI vzZZIL SO AI nbrunuuuro5 JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S nsouSerq Y 1J S 1J uo i e up 9p ep Y 17 89 1J uo i e Dp 9p ep Y 17 89 1J uo i e 1J 3P pp rg 17 89 1J uo i e IP 9p p Y 17 89 1J uo 1j 9 UTE 9p p Y 17 89 1J uo i e 1 P 9p ep Y 17 89 1J uo i e 1J 3P 9p ep y 1J S 1J U3 i e 17 9P 9p p Y 17 89 1J uo i e Lap D BP y 1J S 1J uo i e
37. a apu LE M iot m 2A F L d EI HL En l ss IL iu e m pi ToO VA ue Mig gt e ee Le TE ji ex T x moti LUC mt cheRh j qx L eon vy IRA gg al ra A al bias Ta A wir u L pme kr a Dua c mu Mu dip m og US n pl mi a guia But cU D B EE a lh dan i Meee Ta rete Ent is P n t AP Ao ere ee tm a E a ume Tb E a st ied oe en Ll 4 En COLI E A V ath Z es 2 1 VEI ARI CS sp s ul G Si S TREE BEN EE G SU TII LL bs el LS u 8 n mn Elan ums x M Rina d Kass sm sx ad I r En Ere en Se TT PM zent nn A us SEE Li EC FA AES E de ur PRET 2 Ca K n J X E Er 2 DEED m s ag n f 1 E EL Rates aa n ELS m s 4 x 2 Eh 4 vive e IP o7 1008 el fr IP 07 1008 da de ki 1 i j I j E ST Lea i744 easy RT RRR Loa Fea v ENCRES mg ht Qs xaT T s Ta toques u o det za se a TRE ET me P ala a E es E s W Prom ae PLUIE TERMS E at DR LEE EL naa on p W Me tees uma v Pure ut LEER eee Fe ud dca a E Lr sn tb eget ri M ue ate ks A I wan rad aoe w m u Ju Eu x gy on Um see E iEQal E Mo gato w m Bs r Ur mon 3 Mel BC teus EDU Ru W T a HIC o Ey Fa L em n uo p CR re fa ALD NAR aF P ing 5 V3 er AAA e a a s s s A P Q pn tease i BE m se mal Rx ua sP a TW de u a a LE s eu E MNA UM e EL B h 7 E E i et s r om CL da
38. a at a RY pev P F kir 1 u VU TENES m i a A a E sam tuis LT sa K xU LAS d rn id t Vu x Vf f i 2x LE v i ane DAS s Et Lmt e g Lm g lme 4 a LL a RM ah ITA vas te cor tee t Eis hae eee d u Ade A AE MC h nr il r r hz Sn AE CE LES k L 2 T nm r E nae sm ELI i rA MP c IA a Tl lt ad rsi ow afk a fee Ll sn Let Lr m A M ee ERO a t a mm Fe im ie m e N Be a i ir aaa dica TE EPIS Min e LEE mm m 8 wu Po nn mw s Ra onum gt M L nie Tax rt zum e A gt Te E eM AR Me ed oh a great ye mane mt E a ta te Bee EPT En Ant u T died E IP 07 1008 el fr IP 07 1008 da de TABLEAU 28 Les 6 bi documents asynchrones avec inversion correctement attribu s sur les collections 1 2 3 avec la m thode Petit Angle voir tableau 24 emerges poppe quem ep i Sak pa rumu tne i Ha deu ies iin ums idi Mii liit il a ater da pl d k TET ui ml m AID zm mme jin abi S T A Le 7 3 VALUATION ET DISCUSSION DES R SULTATS 103 pe Mers see te st Beten z a HET nd appie IR mi 1l x pns Il El tu Ulus ais ME EH a iE Ab rr I Re en fr Mo aaa al cia iM Bh ci pi a jj ira jaj dd OO Bio fi fr M a _ k aua METAL gt c t p td dt pam V q q b plz ja jasaga dad iaj ipinia i IP 10 1002 es fr H E uua T LI rre b mar irm CRUE ui u
39. alignement de mots Les deux m thodes partagent l objectif de s incrire dans un cercle vertueux Mais chacune comporte deux tapes succes sives et les r sultats de la deuxi me tape sont toujours d pendants des r sultats obtenus par la premiere Les m thodes d alignement automatique propos es vont du tout statistique Gale et Church 1993 des m thodes hybrides Langlais 1997 Moore 2002 alliant tant des indices de longueurs en mots Brown et al 1991 ou en caract res Gale et Church 1993 que des indices de fr quences de distributions Kay et R scheisen 1993 Fung et Church 1994 ou des indices lexicaux Church 1993 Chen 1993 Simard et al 1992 Kraif 1999 2 31 M thodes d alignement de phrases Les travaux d alignement ont d abord port sur l alignement de phrases L alignement de phrases consiste identifier des correspon dances entre une phrase dans unelangue et d autres phrases dans d autres langues Cette op ration pr c de l ambition plus grande d aligner des mots Elle fait galement parfois suite un alignement de paragraphes 2 3 M THODES D ALIGNEMENT LA CIRCULARIT voire de divisions lorsque le marquage du corpus l autorise systeme LO RIA effectu manuellement Gale et Church 1993 semi automatique ment ou automatiquement Gerdes 2008 Comme lui l alignement de phrases a pour objectif de r duire la combinatoire en vue d un ali gnement de mots Gale et Church 199
40. allemand amenant deux le nombre de couples proches avec celui compos par le fran ais et l espagnol Langue hell nique Le grec est seul dans ce groupe C est avec l espagnol une des deux langues les moins synth tiques C est galement une des langues de l Union Europ enne qui s crit avec un alphabet diff rent 3 2 2 Langues ouraliennes Langues finno ougriennes Ce groupe linguistique est lui aussi subdivis en 2 sous groupes langues fenniques et langue ougrienne compos s pour l un du finnois et de l estonien et pour le second du hongrois Notre choix s est port sur le finnois pour son caract re tr s synth tique Nous faisons le choix de ne pas nous int resser plus en profondeur aux langues slaves occidentales et m ridionales le polonais le slovaque et le tch que et de l autre le slov ne et le bulgare ni aux langues baltes groupe linguistique compos du letton et du lituanien Un tel corpus de langues nous am ne notamment nous interroger sur le statut du mot dans chacune de ces langues Et proposer une d limitation adapt e des unit s aligner 49 50 POUR UNE M THODE SANS PR SUPPOS DE PARALL LISME 3 3 CORPUS DE DOCUMENTS EN RELATION DE TRADUCTION Nos exp rimentations ont t men es sur un corpus est constitu de communiqu s de presse de l Union Europ enne Il s agit de commu niqu s de presse au format HTML et encod en utf 8 manant de la Commission Europ enne
41. aussi que de nombreuses chaines mises en vidence sont des chaines identiques d une langue sur l autre ou cognats notre avis cela constitue galement un indice de bon fonctionnement de la m thode d appariement dans la mesure o rappelons le elle ne s appuie que sur des informations de fr quence et de positions et ne fait aucun usage du contenu ou de la longueur des n grammes Dans les deux cas traductions ou cognats nous envisageons avant l valuation une tape de reconstruction des mots nous retournons aux textes pour trouver une liste de mots dans lequels interviennent les deux N grammes appari s Cette tape pr sente peu de difficult s th oriques et computationnelles dans la mesure o nous connaissons exactement les diff rentes occurrences de chaque population La figure 22 pr sente les volutions des pourcentages de cognats et de traductions trouv s par notre m thode appliqu e un corpus bilingue anglais fran ais de 40 bidocuments soit 80 textes En abscisse est port le nombre de mots vus par langue et en ordonn e le pourcentage de ces mots identiques cognats ou trouv s dans les dictionnaires de traduc tion Il faut signaler qu on ne peut rien dire sur les autres couples de mots sinon qu ils ne sont pas identiques et ne figurent pas dans le dictionnaire de traduction En particulier le rep rage d expressions multi mots qui valentes qui est un de nos objectifs ne peut que partiellement tre valu
42. de d rivations de chaque langue Au regard de ces caract ristiques morphologiques le mot graphique n apparait pas suffisamment universel pour r pondre au besoin de comparativit d un systeme multilingue d alignement et d extraction d information et qui plus est sans ressource cause des variations flexionnelles nous nous fions aux chaines de caract res plus qu aux mots Ce qui pour l humain correspond au m me sens se calcule davan 1 G Gross 1996 cit par Neveu 2004 4 5 LES MULTIZONES tage en terme de m me forme pour la machine Ainsi nous pr voyons un d coupage en contexte de N grammes de caract res pour faire merger des correspondances que ne r v le pas un d coupage en mots 4 5 LES MULTIZONES Textes Corpus de multidocuments Paragraphes Documents Phrases Zones Unit s sous phrastiques Segments a La hi rarchie de grains de l tat de l art N grammes de caract res b Notre hi rarchie de grains FIGURE 11 Hi rarchie de grains En corr lation avec le parall lisme pr sum de la narration l tat de l art de l alignement gros grain s appuie sur une d limitation forte des paragraphes via la mise en page et faible des phrases via la ponc tuation figure 11a Or nous l avons vu la phrase comme le mot peut recouvrir une r alit s mantique diff rente d une langue l autre L op ration tradui sante r alis e par l humain et visant interpr ter le sens d
43. de documents SOMMAIRE 2 1 Corpus parall les et d finitions du parall lisme 28 2 1 1 D finitions du parall lisme 28 2 1 2 Corpus parall les 32 2 2 M thodes d alignement et hypoth se de parall lisme 33 2 21 D finition del alignement 33 2 2 2 Hypothese de parall lisme de synchronicit 34 2 3 M thodes d alignement la circularit 36 2 3 1 M thodes d alignement de phrases 36 2 3 2 M thodes d alignement sous phrastique 40 2 4 Alternatives pour appr hender la circularit 42 2 4 1 L alignement de phrases une interrogation documentaire 42 2 4 2 M thodes d alignement sous phrastique af franchies d un alignement de phrases 43 2 4 3 Utilisation des structures hi rarchiques des documents 44 2 5 Constats M thodes d alignement existantes et ap enn v 44 27 28 EXISTANT M THODOLOGIQUE 2 1 CORPUS PARALLELES ET D FINITIONS DU PARALL LISME 2 1 1 D finitions du parall lisme Le terme parall le rev t un sens diff rent selon les communaut s et les dimensions des textes qu elles tudient Le parall lisme stylistique en versification Jakobson 1963 dans son article intitul linguistique et po tique introduit le terme parall lisme pour d signer un ph nom ne stylistique consistant souligner la correspondance entre deux parties de l nonc similitude opposition
44. de plusieurs rencontres et collaborations Tout d abord avec Lois Rigouste au sein de notre lieu de stage la soci t Pertimm nous avons sp cifi et d velopp les principes de calcul des populations sur une collection de multidocuments Puis l Universit de Caen Romain Brixtel a adapt nos objets ses outils d analyse et de visualisation de bi documents placant ainsi notre probl matique dans le domaine du traitement d image De l nous avons t amen e solliciter les connais sances et les comp tences de R gis Clouard sp cialiste du traitement d image de l quipe Image du laboratoire GREYC de l Universit de Caen Cette derni re collaboration nous a permis d obtenir des outils capables d analyser automatiquement les images que nous avions d sor mais analyser Le traitement de ces images refl tant l appariement entre deux volets pose les bases d un diagnostic automatique du parall lisme entre des bi documents et par l d un alignement de multidocuments sans pr suppos de parall lisme SOMMAIRE 6 1 Appariement endog ne de populations 78 6 1 1 Calcul des populations de N grammes de CALACIOT S ERRORI 2 E NORTE E ES T IT T S TT 78 6 1 2 Appariement de N grammes de caract res r p t s partir de ventilation similaire sur la collection 79 6 2 Appariementetalignement de zones 83 6 2 1 Travail pr paratoire pour la d tection de mul tizones cr ation de matric
45. des docu ments asynchrones correctement attribu s par notre syst me 89 90 MISE EN CEUVRE Ellipses et projections m m LII yy LET NC PR PET s a a 34 d 31 ti DIE ITE uL is u S u mia rire i wann E adul om EC a aai TRR SEE TOS H uo E RAS i ee l mr uw qu m m l um Pus e ECC RS LY A e la IP 05 489 da de IP elie da de a i Y oa i n x b gi ie an po jara a k b ES Do AN cfr oz 3 15 iet EMERI mi 22 m Fries o _ eds ide 1 nM t HE m 2 E V us ar n k kde k L A r Pi ca I n pa u r z Pal L L oun m L kw IP 05 743 en fr IP o5 1157 en fr TABLEAU 20 Ellipses et projections des segments de droites sur les axes des multidocuments 6 2 APPARIEMENT ET ALIGNEMENT DE ZONES 91 Ce chapitre nous a permis de d crire les tapes d appariement et de construction de nos matrices Dans le chapitre 7 nous en faisons l valuation sur la tache d alignement de zones de documents traduits Le chapitre 7 pr sente les r sultats que nous obtenons en mati re de diagnos tic de parall lisme sur plusieurs collections de multidocuments Nous y pr sentons galement les domaines de validit de notre m thode R SULTATS ET VALUATION SUR LA TACHE D ALIGNEMENT DE ZONES Dans ce chapitre nous allons prouver les mod les de traductions attendus d finis dans le chapitre 5 dans plus
46. document fait partie des documents que nous pr sentions au chapitre 1 p 22 et que nous annoncions au chapitre 3 vouloir tre capable de traiter IP 05 473 113 fr rtations de textiles chinois lt b gt lt h1 gt lt p gt lt b gt lt i gt M Peter Mandelson commissaire responsable du commerce a annonc ce jour qu il avait d cid de demander la Commi en document celex IP 05 473 lang en gt lt palign right b IP o5 473 lt b gt lt p gt p align right gt Brus sels 24 April 2005 lt p gt hl a name Heading4 gt lt a gt lt b gt European Commission launch O ee 7 7 7 7 S s Multizone 2 Multizone 3 les de sauvegarde Elle entamera parall lement des consulta tions imm diates avec la Chine pour tenter de d gager une solu tion satisfaisante i b p p Peter Mandelson a d clar Nous venons de recevoir les statistiques d importation des tats membres pour le premier trimestre 2005 Elles sont tr s pr occupantes pour plusieurs cat gories de produits tex tiles et d habillement Face cette situation l Europe ne peut rester les bras crois s et assister la disparition de son indus trie Notre enqu te me permettra de d cider s il convient que l UE adopte des mesures de sauvegarde Il faudrait certes lais ser les exportations chinoises croitre un rythme normal la suite ssi une action Les donn es d importation concernant un cer tain no
47. doit de ce fait tre utilis e pour l alignement de multidocuments Cependant la diff rence de celui ci qui recherche et interpr te les indices de forme nous choisissons de prendre en compte la structure et le contenu par la m me m thode sans leur accorder un traitement particulier Prendre les documents avec le source permet une fois encore de faire ressortir des l ments r p t s pour le coup pas forc ment int ressants dans l optique de constitution de lexiques multilingues mais pr cieux dans la masse d informations susceptible d tre align e pour identifier les cas particuliers que nous souhaitons prendre en charge document celex IP 08 2065 lang fr gt hl a name Heading4 gt p align right gt document TABLEAU 10 Indices de forme dans le source HTML La mise en correspondance de ces chaines de caract res ne va pas de soi elle est autant sujette variation que l usage d un mot ou d un de ses synonymes N anmoins l appariement de ces unit s constitue autant d indices suppl mentaires pour d terminer sans ressource ext rieure si les documents contiennent des inversions et ou des supressions autrement dit pour ancrer notre alignement de zones 4 4 LES CHA NES DE CARACTERES R P T ES DE LONGUEUR MAXIMALE Notre travail se situe dans la lign e de ceux de Cromi res nous proc dons une recherche de n grammes de caract res en contexte ind pen damment de leur taille Si l on
48. e Ces matrices sont trop claires ou trop fonc es pour permettre un diagnostic Nous voyons plusieurs raisons cela les volets sont petits ou plus grands que la moyenne des communi qu s la taille que nous donnons nos matrices n est pas adapt e Les segments de volets ne sont dans ce cas pas suffisamment significatifs les volets pr sentent une diff rence de taille significative lorsque par exemple un des deux volets est quasi non traduit c est le cas notamment du volet grec du communiqu IP 06 751 et du volet espagnol IP 05 1653 les langues sont loign es Entre certains couples de langues il existe moins de correspondances bi univoques ou quasi bi univoques l inverse des volets pr sentant beaucoup de similarit notam ment du fait de passages dans la m me langue dans les deux volets cf cas de multilinguisme la matrice est fonc e la d tection des segments est d licate r aliser 74 ALIGNEMENT DE ZONES Nous pr sentons dans cette derni re section les r sultats en contexte de l alignement de zones sur 5 documents asynchrones 3 suppressions 2 inversions correctement diagnostiqu s Le tableau 38 illustre un cas de suppression dans un des deux volets le volet fr correspondant environ un tiers du volet 2120 caract res Si la suppression a bien t diagnostiqu e l alignement de zones n est lui que partiellement correct Seule la multizone 2 correspond l attendu Ce document fai
49. en entr e des multidocuments le premier objectif est de proposer des outils de diagnostic de parall lisme synchrones ou asynchrones et le cas ch ant de d tection en contexte des zones qui maximisent le parall lisme l int rieur de chaque multidocument l objectif second est celui d un alignement lexical de ces zones elle comporte deux tapes interm diaires servant d amorces e tablir des correspondances multilingues de chaines de carac t res a partir d une collection de multidocuments e les utiliser pour d finir la similarit de segments de textes de niveau sup rieur Corpus de multidocuments Identification monolingue de chaines de caract res r p t es Appariement multilingue de chaines de caract res r p t es Identification de multizones Alignement intra multizones FIGURE 14 Chaine de traitement Ainsi partant du principe que des diff rences entre les volets existent m me l o on ne les attend pas nous proposons un relachement des contraintes de parall lisme intra multidocument visant diagnostiquer 64 UNE M THODE TEXTUELLE GUID E PAR LE MODELE en contexte les zones des documents l int rieur desquelles le parall lisme existe Pour cela nous faisons l hypoth se que la co pr sence de chaines de caract res peut suffire retrouver des zones s mantiquement quivalentes De facon th orique nous pr sentons dans la section suivante les modeles d aligne
50. est dire lors du m canisme de traduction Le plan structural et le plan s mantique sont th oriquement ind pendants l un de l autre La m tataxe n est qu une application de ce principe de l ind pendance du structural et du s mantique Elle corres pond la diff rence de stemma changement structural qui existe entre la phrase traduire et la phrase traduite sans changement s mantique c est dire qu elle intervient chaque fois que la structure actancielle d un verbe diff re d une langue une autre La m tataxe peut avoir plusieurs degr s elle peut tre simple ou complete simple appel une cat gorie grammaticale diff rente tableau 3 chaque langue tablit ses propres correspondances entre cat go ries de la pens e et cat gories grammaticales c est pourquoi la traduction d une langue une autre n cessite parfois l appel une cat gorie grammaticale diff rente cela s ajoute un principe de solidarit m tataxique Quand un mot est solidaire d un autre le passage m tataxique du premier 13 DES T MOINS PRIVIL GI S DE LA VARI T DES LANGUES ALLEMAND 2 FRANGAIS Id e de d placement changement de lieu Adverbes r sultatifs gt Verbe l imp ratif ou particules s parables Adverbe Fort Verbe Va t en TABLEAU 3 Simple appel une cat gorie grammaticale diff rente une autre cat gorie grammaticale a automatiquement pour ef fet d entrainer parall lement une
51. et disponibles sur le site Europa le portail de l Union europ enne source importante de documents traduits jusque dans 23 langues Les documents que nous observons sont consid r s a priori comme traductions pour la simple raison qu ils sont pr sents sur le m me site et portent le m me nom Nous choisissons ce corpus car nous avons d j pu observer qu il contient des inversions sur et sous phrastiques ainsi que des suppressions plus ou moins massives cf figure 8 que nous cherchons d couvrir automatiquement par notre m thode Nous ne r alisons pas de pr traitement sur ce corpus et le traitons directement avec son source en HTML De ce corpus de communiqu s nous avons extrait les documents disponibles dans les sept langues que nous avons annonc vouloir traiter dans la section 3 2 Chaque document source et ses traductions ont t plac s dans un dossier num rot constituant ainsi un multidocument De cette facon nous avons isol 385 multidocuments Nous ferons une synthese des r sultats obtenus sur 194 de ces multidocuments ventil s sur 6 collections diff rentes dans le chapitre 7 Les raisons sous jacentes la constitution de collections sont d taill es dans le chapitre 4 et la nature des collections utilis es pour l valuation est pr sent au chapitre 7 Dans ce chapitre nous avons pr sent les grandes lignes de notre ap proche sans pr suppos de parall lisme entre les volets d un multidocument a
52. eta l il nu kam ik nu sach ik waral ch 1 u xmut kaj ch u xmut ulew oyew achi kaweg k iche winaq nagi ta na on ri x ch a rayi j ri x ch a tz ono j ka nu ya o chG aw e xa nim a r eta l 1l a kam ik a sach ik waral ch 1 u xmut kaj ch u xmut ulew pm Seule la grande offre de ma mere de ma reine jelessayerai comme pr sage de ma mort de ma perte ici au nombril du ciel au nombril la terre Ixoq Mun Apporte mon plat mon r cipient Donne les lui l homme col reux Kaweq K iche comme grand signe de sa mort de saperte ici au nombril du ciel au nombril la terre La tendresse la d licatesse de la double chaine de la trame des tissages qui sont l oeuvre de ma mere de ma reine Je les ferai frotter l int rieur de la grande forteresse l int rieur de la grande muraille aux quatre directions aux quatre coins comme grand signe de ma mort de ma perte ici au nombril du ciel au nombril la terre Homme colereux Kaweq K iche Est ce vraiment ce que tu desires ce que tu demandes Je te le donne toi comme grand signe de ta mort de ta perte ici au nombril du ciel au nombril la terre FIGURE 9 Illustration du macroparall lisme intratextuel Becquey 2003b mentaires Exemple plusieurs textes traitant des m mes th mes On parle aussi dans ce cas de corpus comparables Parall lisme implicite les deux textes sont pr sent s sous un fo
53. fondamentaux d arrangement utilis s dans le comportement verbal la s lection et la combinaison la s lection lt la s lection entre des termes alternatifs implique la possibilit de substituer l un des termes l autre quivalent du premier sous un aspect et diff rent sous un autre En fait s lec tion et substitution sont les deux faces d une m me op ration Jakobson 1963 2 4 CORPUS PARALLELES ET D FINITIONS DU PARALL LISME a combinaison tout signe est compos de signes constituants et ou apparait en combinaison avec d autres signes Cela signifie que toute unit linguistique sert en m me temps de contexte des unit s plus simples et ou trouve son propre contexte dans une unit linguistique plus complexe D ot il suit que tout as semblage effectif d unit s linguistiques les relie dans une unit sup rieure combinaison et contexture sont les deux faces d une m me op ration Jakobson 1963 Ces deux modes d arrangement s actualisent d une fa on propre chaque langue et d pendent de chacun des six facteurs de la communi cation pr sent s par Jakobson un metteur transmet un message un r cepteur par le biais d un canal visuel auditif en utilisant un code pictural linguistique le tout dans un contexte donn Ainsi le parall lisme peut tre moins litt ral que ce que nous avons illustr au travers du tableau 8 il peut aboutir des niveaux de macro parall lisme
54. http dx doi org 10 3115 974557 974607 ACM ID 974607 Cit la page 41 Philip REsNIK et Noah A SMITH The web as a parallel corpus Comput Linguist 29 3 349 380 septembre 2003 ISSN 0891 2017 URL http dx doi org 10 1162 089120103322711578 Cit la page 48 Calliopi SACHTOURI Etude comparative des chaines anaphoriques dans vingt langues europ ennes M moire de master conjoint franco hell nique mention sciences du langage sp cialit sciences de la tra duction traductologie et sciences cognitives universit de Caen Basse Normandie et Universit ionienne de Corfou Gr ce Caen France 2006 Cit la page 19 Fatiha SADAT George FOSTER et Roland KuHN Systeme de traduction automatique statistique combinant diff rentes ressources In Actes de la 16 me conf rence annuelle sur le Traitement Automatique des Langues Naturelles 10 13 avril Leuven Belgique 2006 URL http www iro umontreal ca foster papers taln06 pdf Cit la page 32 Michel SIMARD Text Translation alignment Three languages are better than two IN PROC OF EMNLP VLC pages 2 11 1999 URL http citeseerx ist psu edu viewdoc summary doi 10 1 1 14 6716 Cit la page 45 Michel SIMARD George F FOSTER et Pierre ISABELLE Using cognates to align sentences in bilingual corpora In Proceedings of the 4th conference of the Centre for Advanced Studies on Col laborative research distributed computing Volume
55. i e 17 9P Sep J g 17 89 1J uo i e Ep 9p ep Y 17 89 1J uo i e ap 3p ep y 17 89 1J uo i e AFP 9p ep JU 17 89 1J uo i e Ip Re Pa 6S11 90 gdI grt 90 dI SIVI 90 q 6S 1 90 gI 1 1 00 gI x1 90 gI 9811 90 dI SIOI 9O dI anbrunwwoy sped JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S ouo1gou s JUOIYIU S JUOIYIU S JUOIYIU S uoiuou s JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S nsouSer 1 g 1J S3 1J U3 i e 17 9P ap ep J g 17 89 1J ua i e Tj 9p p ep IT 1J S 1j ua i e 1F9P 9p ep 1J 17 89 1J ua i e 17 9P op ep 1 g 1J S 1j ua i e 17 9P ep EP J g 17 89 1j ua i e pep 9p ep IT 1J S 1j ua i e 1F9P 9p ep 1J 17 89 1j ua i e 17 9P a Pd VSII 90 d1 6S01 90 gI bg 1 90 d1 9St1 90 dI o 1 90 gI LSTI 90 d1 LLII 90 d 9001 90 gI nbrunwwoy T LA EVALUATION MANUELLE DU PARALLELISME 130 uorpo oo P INS sjonueul sonsougerq 9t NVATAVI stej3ue uo JUOS oxouue p s 1s 1 SIT oxouue p jnqop uo
56. l enjeu de notre m thode est de mettre en place une m thode affranchie des contraintes li es tant la disponibilit de corpus pr par s ou s lectionn s pour leur parall lisme sur phrastique av r qu celles de ressources dictionnairiques ou la proximit des langues Nous pr sentons dans ce chapitre les principales caract ristiques de notre m thode ainsi que le corpus de langues et de documents que nous avons d lib r ment choisi pour sa vari t morphologique afin de pouvoir directement prouver notre m thode sur des donn es repr sentatives SOMMAIRE 3 1 Caract ristiques g n rales de notre approche 48 3 2 Corpus de langues morphologiquement diff rentes 48 3 2 1 Langues indo europ ennes 48 3 2 2 Langues ouraliennes 49 3 3 Corpus de documents en relation de traduction 50 47 48 POUR UNE METHODE SANS PRESUPPOSE DE PARALLELISME 3 1 CARACTERISTIQUES GENERALES DE NOTRE APPROCHE Le principal objectif de notre m thode est de prendre en charge les cas de suppressions omissions d une partie d un des deux volets d un bi document cf figure 8 aussi bien que les cas d inversions cf figure 6 Pour cela nous choisissons de nous affranchir d un alignement pr alable au grain phrase Church 1993 et d au contraire traiter les documents dans leur int gralit et avec leur MFM Brixtel 2011 Resnik et Smith 2003 Notre deuxi me objectif est de mettre au point une m
57. liss s La mise en correspondance de s quences de caract res s mantiquement quivalentes en contexte entre plusieurs langues sera facilit e le sch ma d alignement ne pouvant plus tre que de l ordre du 1 pour 1 ou du o pour 1 en cas d absence de traduction Prenons par exemple les diff rentes occurrences d un signifi tel que collectivit s en finnois paikallisviranomaisille paikallisvira nomaisten paikallisviranomaiset paikallisviranomaisilla se ront rapport es la s quence de caract res paikallisviranomai plus longue sous chaine commune Ce travail en chaines de caract res a pour effet de lisser les diff rences de fr quences de ces quivalents engendr es dans ce cas par la nature flexionnelle du finnois 5 3 3 Incapacit s des N grammes de caract res Nous pr sentons dans cette section trois limites la segmentation alignement de N grammes de caract res Celles ci trouvent une solu tion via la mise en place d un traitement informatique sp cifique et ou adapt les mots lexicaux ou polylexicaux dont une ou plusieurs lettres changent dans le cas de diphtongaison comme celle du verbe contar en espagnol aux premi res personnes du pr sent cuento cuentas cuenta i e skip grams pour Mcnamee et Mayfield 2004 ou SFM S quences Fr quentes Maximales avec possibilit d avoir un gap entre les mots de la s quence pour Doucet 2004 Ici sa
58. log Si l on consid re grossi rement que les caract res sont quiprobables 5 la quantit d information associ e chaque caract re est donc log p log n pour un alphabet de taille n D s lors si l on suppose l encore en simplifiant beaucoup qu il y a 26 caract res possibles en fran ais et zooo en japonais on obtient que la quantit d information est identique entre un texte de 1000 occurrences en fran ais et un texte de 400 caract res en japonais 1000 log 26 400 log 7000 En d autres termes plus intuitifs puisqu on ale choix entre un plus grand nombre de caract res chaque caract re est beaucoup plus pr cis et permet d exprimer plus de choses Incidemment cela explique aussi pourquoi l unit s mantique constitu e par le mot est souvent de deux caract res uniquement en chinois et toujours beaucoup plus en moyenne dans les langues europ ennes Avant de servir l illustration des diff rences entre les langues les coefficients de foisonnement ont tout d abord un int r t reconnu en mati re de tarification des traductions Les organismes professionnels conseillent en effet aux traducteurs d en tenir compte pour tablir leur 7 ARI Assistants Record International traduction r daction PAO interpr ta tion conseil 11 Rue des R glises 75020 Paris 8 Ce qui est bien s r tout fait faux en pratique mais permet ici de simplifier le propos en conservant l essentiel de l argumentation 11
59. mit gesch tzter Ursprungsbezeichnung Die Etikettierung wird den Bed rfnissen der Verbraucher entsprechen indem sie vereinfacht wird und vor allem erstmals bei EU Weinen ohne geografische An gabe die Angabe der Rebsorte und des Jahrgangs auf dem Etikett erm glicht um der Verbrauchernachfrage nach Rebsortenweinen Rechnung zu tragen p p b Nationale Finanzrahmen b Diese Finanzrahmen werden den Mitgliedstaaten die M glichkeit geben die Ma nahmen an ihre jeweilige Situation anzupassen Die Mittelausstattung betragt zwischen 634 Mio EUR im Jahr 2009 und 850 Mio EUR ab 2015 Der f r jedes Land verf f gbare Betrag wird anhand der Weinanbauflache der Erzeugung und der historischen Ausgaben berechnet M gliche Ma nahmen sind u a Absatzf r derung in Drittlandern Umstrukturierung Umstellung von Rebflachen Un terst tzung f r die gr ne Weinlese neue Mafinahmen zum Krisenmanage ment wie z B Versicherung gegen Naturkatastrophen und Deckung der Ver waltungskosten f r die Errichtung eines sektorspezifischen Fonds auf Gegen seitigkeit lt p gt p b Ma nahmen zur Entwicklung des l ndlichen Raums lt b gt Viele Ma nahmen im Rahmen der Verordnung ber die Entwicklung des l ndlichen Raums k nnten f r den Weinsektor von Interesse sein u a Nie derlassung von Jungweinbauern Verbesserung der Vermarktung Berufsbil dung F rderung von Erzeugerorganisationen Unterst tzung zur Deckung der mit der Erhal
60. moins agglutinant plus ou moins flexionnel 3 2 1 Langues indo europ ennes Langues romanes Dans ce groupe linguistique compos de l espagnol du frangais de l italien du portugais et du roumain nous avons conserv le fran ais et l espagnol le fran ais car c est notre langue maternelle mais galement du fait de son importance dans la traduction Le frangais est 3 2 CORPUS DE LANGUES MORPHOLOGIQUEMENT DIFF RENTES souvent pour autant que nous le sachions car cette information n est jamais mentionn e la langue du document source de nos multidocuments issus de la Commission Europ enne voir la section 3 3 l espagnol car c est l une des deux langues avec le grec les moins synth tiques des langues de l Union Europ enne l exception du roumain du bulgare et du ga lique En outre nous avions des connaissances de cette langue pr alables cette tude Langues germaniques Dans ce groupe subdivis en 2 sous groupes appel s langues ger maniques occidentales et langues scandinaves se situent d une part l allemand l anglais et le n erlandais et d autre part le danois et le su dois Nous avons choisi l anglais l allemand et le danois anglais car au m me titre que le fran ais il correspond sou vent la langue du document source de nos multidocuments et galement pour nos connaissances de cette langue allemand pour sa syntaxe particuli re le danois pour sa proximit avec l
61. mots d tymologie commune pr sentant une similitude de surface que Brown et al 1991 consid rent comme des ancres faibles les transfuges chaines de caract res invariantes entre 2 traduc tions nombre noms propres ou emprunts ponctuation que Brown et al 1991 consid rent comme des ancres fortes La recherche de ces invariants repose sur ce que Kraif 1999 appelle l hypoth se de cognacit et qu il formule de la fa on suivante la densit de cognats observ e entre deux phrases est probablement plus lev e si elles sont traductions l une de l autre que si elles sont prises au hasard Les m thodes bas es sur les cognats s appuient sur la longueur de la suite maximale de n caract res contigus communs Certains syst mes Simard et al 1992 Church 1993 en prenant n 4 ont obtenu des r sul tats significatifs qui selon Kraif 1999 peuvent tre am lior s par un raffinement de cette approximation Pour minimiser les ambiguit s dues la notion de ressemblance il propose donc une d finition op ratoire des cognats Ainsi deux mots M sont cognats si et seulement si il existe deux phrases P1 P2 dont l une est traduction de l autre et dans lesquelles ils sont traductions l un de l autre Ma et M2 pr sentent un lien tymologique emprunt origine commune perceptible dans leur signifiant ce quoi il ajoute les transfuges Cependant le premier crit re de traductibilit implique des diffic
62. nS uI 111 3 1q SJ9JOA S OA c So suep sreSue1j sre Sue ongut tq OVA songui Iq SI9JOA SJI OA c SI suep SreSue1j srepSue ongut Iq OVA s n uI 111 39 1q SI9 OA S OA c So suep sreSue1j sre Sue ongut tq OVA s nS uI 111 39 1q SI9JOA S OA c So sre5uvjj sre gue ongur Iq OVA SONBUT II Sj9 0A SI9JOA c SI suep sre5uevjj sre gue ongu OVA Sj9 OA c SO suep sTejsue uo neo qej S 9 0A c SO suep sTejsue uo neo qej Sj9 OA c SOT suep sTejsue uo neo qej S 9 0A c ST suep sTejsue uo neo qej 1 JOJOA suep sre5uev1j uo oxouue sjo OA c SI suep sre gue uo neajge Sj9 OA c SO suep sTejsue uo neo qej srejsue uo neo qe1 U sre gue uo neo qe3 so sre gue uo neo qe3 19 srejsue uo neo qei ep anbrjaqeydye 21p10 sed sooun sjo oad op s 1srT srera 31odsuej uono l oO e ANS sppnueur sonsouSet Zr NVATAV JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S uorssa1ddns uorssa1ddns uoiuou s uoiuou s JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S uorssa1ddns JUOIYIU S uoiuou s JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S uorssa1ddns uorssa1ddns uorssa1ddns uorss
63. op Mz M8 T JUSUINIOP 1Q m d AT M4 T qjusumoop 1iq m d HT M4 T qjueumoop 1iq m d NT M6 c yusaumsop Iq nad Mz M8 T jusumoop 1iq m d X8 1 M9 T jueumoop 1iq m d sre gue uo soxouue sre gue uo soxouue sre gue uo soxouue stejsue uo soxouue stejsue uo soxouue stejsue uo soxouue spes qd ouoi1qou s ouoi1qou s JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S ouoi1qou s JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S ouoi1qou s JUOIYIU S JUOIYIU S uorssa1ddns JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S uorssoa1ddns uorssa1ddns ouoi1qou s ouoi1qou s ouoi1qou s JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S nsouSer yy 17 89 1J uo i e 1 P RER y 17 89 1J uo ie 17 9p 9p p 1J 17 89 1J uo i e 1 P SEP Y 17 89 1J uo i e ep 9p ep y 1J S 1J u i e 17 9P 3p ep 13 13 1J S3 1J uo i e 1 P 3p ep Y 17 89 1J uo i e Pap 9p p y 17 89 1J uo i e Tp 9p ep y 1J S 1J uo i e 17 9p FD EP Pa Zg Zo al T61 0 GI FkSgr Zo dI 8Z1 Zo gI vost Zo al 86v 1 Zo gI ZcS 90 gI LLE 90 d1 8St 90 dI onbrunururo Pa JUOIYIU S
64. pratiquement inobservable en discours Car si deux lex mes peuvent manifester une r f rence similaire l effet s mantique produit par chacun d eux ne r velera pas la m me situation nonciative gt Neveu 2004 Cette d finition de la synonymie et l illustration qui en est faite au travers du tableau 6 t moignent bien du frein l alignement s mantique monolingue et multilingue que ce ph nom ne constitue OBSERVATIONS LINGUISTIQUES ET TRADUCTOLOGIQUES 18 6 S ouodns 1euonJodoud ap op 3119Jo eun eJej1ode euon odold 19294JO IezrjueTes 999 170 p JeuorDudodouq SH 6 13X3001 AQOX3dot DA UXodou aur 130360001 DY 13X3dnu aaod3boodu pa 1013X3001 DA 13X3d01 AQO00Q DN Td 8 F IPIAOIA IPIAOIA o 1940 IM SIPIAOIH Suruuni Sur JjJjo SIPIAOIH SUTAIO N 6 oos pp1our ejseuuof 1e ueeuo rej ueeJee eeolse ejseuuo 1ej ISNosrureo 1e eeolse ueeJolse Id 6 F 971 aj1odde ZT ITUINOJ op VIT 2170 oun Fr e2310dde STT NUINOJ 6T 1ruJnog ZT apo 9 T ISUUOP V Huuoq dd sa ouSedso ja 19 5918 US srejsue Y srouuy 17 sTeSuRIy ua SZ6 So dI 1ueumoopngnui 3 suep rur uou s op ouguiouaud np uonedisnj 9 AVATAVI lt Jouuop gt JUSIS np so ua11n200 p SIIQUION sjuo19prp SJULYIUSIS IP 2IQUION H DNV II 15 CONTRAINTES DITORIALES 1 4 3 L anaphore Ce terme d signe une relation r f rentielle qui s exerce l
65. presse FIGURE 3 Diff rence de l ordre des mots au niveau sous phrastique entre les extraits anglais et les extraits fran ais 1 4 LES TRADUCTIONS DES NONCIATIONS UNIQUES en fr The La European Commission Commission gt europ enne adopted a today adopt a aujourd hui proposal Nat une to gt proposition modify es de the es modification directive O de on TT la working w directive time Sur in e le road temps transport e de travail dans e le transport routier FIGURE 4 Similitude del ordre des mots entre une s rie de phrases en anglais et leur traduction en fran ais cais fait l conomie de ce compl ment puisqu en d but de phrase le sujet des transports est clairement cit Nous pouvons rapprocher cette particularit du finnois de sa qualit de langue tr s redondante peu anaphorique et utilisant peu les synonymes Plus g n ralement on peut dire que tout ce qui est contenu dans les phrases de d part implicite ment ou explicitement l est dans les phrases d arriv e implicitement ou explicitement 1 4 2 La synonymie La synonymie est une relation s mantique fond e sur une simi larit de signifi s entre des signifiants distincts Cette similarit de signifi s est souvent pr sent e comme pouvant tre totale ou par tielle En fait le lien troit dans le signe linguistique entre le signifi et le signifiant rend la synonymie totale qui est indiff rente au contexte
66. remment la circularit et d passer le probl me de l alignement de phrases mais celles ci ne r glent pas les questions fondamentales li es la pr sence d inversions de suppressions ou de reformulations massives En outre il faut signaler qu de rares exceptions pr s Simard 1999 Lardilleux 2009 ces m thodes sont bilingues et que peu d entre elles sont endog nes c est dire ne requi rentt aucune ressource dictionnai rique Giguet 2005 Giguet et Luquet 2006 Brixtel 2011 Ainsi la question qui demeure est de savoir comment parvenir aligner massivement de facon peu supervis e et donc peu co teuse des documents traduits y compris de facon asynchrone pr sentant des cas d inversions mais aussi de suppressions omissions Une des pistes que nous privil gions est celle d un travail sur les caract res amorc par Cro mi res voie prometteuse pour un alignement ind pendant des langues Nous pr sentons dans le chapitre 3 les principales caract ristiques de notre m thode d alignement de documents multilingues sans pr suppos de parall lisme Cette pr sentation g n rale ouvre la voie la pr sentation plus d taill e qui se tient dans la deuxi me partie de notre rapport POUR UNE M THODE SANS PR SUPPOS DE PARALL LISME SOUS OU SUR PHRASTIQUE Nous nous sommes int ress e aux limites rencontr es par les m thodes reposant sur l hypoth se du parall lisme sur phrastique Au regard de celles ci
67. s 2e d 1 s INpes Juos 7 seuoudooueuj sAed sa jueuroouos sayde sered sa spnas 13 oxouue p jnqop ue 99eJd 1 j31npeu Isa IPUPTULA e jueug22uoo oydergered a nos iy s amp ed red sjo oud sop juvjsi soxouue stej3ue uo JUOS oxouue p s 1s 1 SIT oxouue p jnqop uo s 2e d 19 s INpes Juos T souoydoouezz sAed sa jueuroouos sayde sered sa spnas 1j oxouue p 1nq p ua ped 19 J npe n Isa ouSedsq yueu122uoo aydes3ered a nos sa sked red syofoxd sop Jueysij soxouue stej3ue uo JUOS x uue p s 1s 1 SIT oxouue p jnqop uo sooejd ya Syr pez quos T souoydo gt uex shed sa jueug22uoo soydes3ered sa s nos 13 sAed sed syofoxd sop 1uejsi soxouue stej3ue Ud JUOS oxouue p s2jsa1 SIT x uue p jnqop uo s 2e d 139 SIMPpreA Juos 7 seuoudooueagj sAed sa jueuroouos saydeiSesed sa s nos IJ oxouue p 1nqop uo s 2e d ya sy npe1 3uos c sauoydosai3 sAed sa jueurssuos sayde sered xnop snos josAed 1ed syafoid sop 1uejsi soxouue sre 8ue Ud juos oxouue p IIS91 SIT x uue p jnqop uo SIRIA 39 s INpes Juos z souoyudosuei sAed sa jueuroouos soyderSered sa s nos 1j oxouue p 1nqop uo soov d ja sjinpes Juos souoydouewr198 sked sa jueu122uoo saudeisSeied sto snos op s ed ied sjaloid sop quest soxouue sre guv uo JUOS x uue p S9JS91 SIT PNPL Sa x1eurouep o jueugo2uoo oydessered 9 nos ep oxouue p 1nqop uo saoerd ya sjinpes Juos souoydouewr198 sAed sa jueu122uoo sayde dered stos snos op sXed 1ed
68. seulement dans le multidocument 1 5 2 ALIGNEMENT DE ZONES IP 157 FR IPi 5 1157 EN ANNEXE AMME X R sum des projets LIFE Environnement 2005 pays par pays Ovaniewof LIF tlg e amk nie Allemagne six projets Deux projets traitent de la gestion des eaux Le premier appli quera une strat gie int gr e pour r duire la pollution agricole diffuse dans le sens de la directive cadre sur l eau Will be implemented to prevent surface and groundwater fra pollution metal precipitation is a sustainable solution for clearing groundwater contaminated with non ferro danh auricultural activities in he dense river Pon in line vith the EU Water Framework Directive objectives The second concems the integrated protection of surface and groundwater in three agricultural regens in mid eastem Jutland 2 projal Estonia 1 project Deux projets traitent de la gestion des eaux Le premier vise r duire les IE dazte et de nn manant des Finland 2 projects activit s anricalee France 11 projects Germany B projects Two projects concem water management The first wil take an integrated approach to reduce diffuse pollution from agriculture in support of the Water Framework Directive Espagne seize projets Trois projets portent surla gesti on des eaux Le premier Greece 4 projects Hungary 1 project
69. sjafoid sop 1ueisi soxouue map Inapt topi map s eq 1ed sapte p suorrj1ed91 sop yuejuasoid neo qe un p sougi sop 11 neo qe3 IWE 9 19 IWT 9 31JU9 sau sonb onb ap uorsso1ddns y neo qe3 IWE 9 19 IWT 9 21juo sau sonb onb ap uorsso1ddns ua ne qe1 IWE 9 19 IWT 9 rnu sau sonbjonb ap uorsso1ddns o ne qe1 IWE 9 19 IWT o 31JU9 sau s nb nb Sa ru uty ej e neo qej 3 sed op neo qe3 IWE 9 19 IWT 9 31JU9 sau s nb nb Sa ru UL ep e neo qej 3 sed op map wap JU919JJIp 21p10 UN suep sy npen uonrsodoid ej ap re12p np soydessesed uge e c c f24uv gt sosi eq op sed 13 uorssa1ddns ry uu e e unu sast eq ap otas aun p uorsso1ddns 1j u ej e Juny sesr eq op 9119s aun p uorsso1ddns 1j uorsso1ddns 1J S uj ep e WY s st eq op alias aun p uorss iddns 1j ouoi1gou s 1J uo ouoi1gou s 1J 1 ouo1gou s IJ op ouo1gou s op ep 6 80 qI ouo1gou s ry n r ne 39 jnqop ne pwy sas feq op ALIS oun p uorsso1ddns 1j ur e e neo qe un p uorssouddns 1j uorsso1ddns 1J S noarrur ne unu sas feq op ar12s aun p uorssoiddns 1j JUOJYIU S 1J uo nap ne unu sost eq op arias oun p uorsso1ddns 1j JUOJYIU S ire nor rur ne uru sost eq op arias aun p uorsso1ddns 1j ur e neo qe un p uorssouddns 1j uorsso1ddns 1J 9P JUOJYIU S ap ep 1 Z 80 d1 n r ne Juny sosti eq op ati9s aun p uorsso1ddns ap srera nysougerq Pd nbrunururo5 srera UOISI AUI UOISIOAUT UOISIOA
70. tool for acquiring and enhancing translation competence Les Cahiers du GEPE Outils de traduction outils du traducteur 2 2010 URL http www cahiersdugepe fr index php id 1318 Cit aux pages 7 et 30 Franz Josef OcH et Hermann NEY A systematic comparison of various statistical alignment models Comput Linguist 29 1 19 51 2003 URL http portal acm org citation cfm id 7 8822 778824 amp colL L GUIDE amp d L GUIDE amp CFID 765775948 amp CFTOKEN 73477001 Cit la page 41 Francois OST Traduire D fense et illustration du multilinguisme Fayard 2009 ISBN 2213643660 Cit aux pages 5 et 8 Alexandre PATRY et Philippe LANGLAIS Automatic identifica tion of parallel documents with light or without linguistic re sources In Canadian Conference on Artificial Intelligence pages 354 365 2005 URL http www etud iro umontreal ca patryale papers patry_langlais_2005_ai pdf Cit la page 33 145 146 BIBLIOGRAPHIE Emmanuel PLANAS Extending translation memories Proceedings of the 5th European Association for Machine 2000 URL http citeseerx ist psu edu viewdoc summary doi 10 1 1 23 9756 Cit la page 34 Philip RESNIK et I Dan MELAMED Semi automatic acquisition of domain specific translation lexicons In Proceedings of the fifth confe rence on Applied natural language processing ANLC 97 page 340 347 Stroudsburg PA USA 1997 Association for Computational Linguis tics URL
71. traductions Population Ensemble constitu de l ensemble des occurrences d un n gramme de caract re Pr cision Mesure de calcul statistique qui refl te la proportion de bi document correctement diagnostiqu s GLOSSAIRE Quasi bijection Dans le bi texte T1 T2 pour un segment de texte TI il existe dans la majorit des cas un seul candidat issu de Fs T2 comme quivalent traductionnel Fs Fonction de segmentation Quasi synchronisation galement appel e quasi monotonie signi fie que dans le bi texte T1 T2 l ordre des segments de T1 respecte quelques variations locales pr s l ordre des segments de T2 Segment Un segment de volet correspond une portion de volet d finie en pourcentage Dans notre hi rarchie de grains voir figure 11 page 57 il se situe entre la zone et le N gramme de caract res Ainsi une zone peut comprendre plusieurs segments et un segment plusieurs N grammes de caracteres Volet Document pris comme version le plus souvent monolingue d un multidocument Zone Grain interm diaire entre le document et les unit s sous phras tiques la zone est d finie en contexte gr ce aux segments Elle est consti tu e de caract res pouvant en contexte recouvrir plusieurs r alit s du document la chaine de caract res en passant par le paragraphe la phrase la proposition l expression ou le mot Ainsi la facon du bi texte une bi zone correspond la mise en corresp
72. zwei Projekte D nemark sechs Projekte 5 Estland ein Projekte s Finnland swei Projekte Deutschland sechs Projekte s Spanien 16 Projekte Royaume unis dix projets n nv United Kingdom 10 projets Vereinigtes K nigreich zehn Projekte FIGURE 12 Maintien de l ordre et inversions entre les diff rents volets d un multidocument communiqu de presse IP 05 1157 de l Union Europ enne en anglais francais et allemand contenant des para graphes tri s par ordre alphab tique Nous utilisons les pour symboliser le contenu d un paragraphe dont nous ne conservons ici que le d but soit le nom du pays dont il traite Ainsi dans le premier cas selon notre hi rarchie de grains pr sent e dans la figure 11b nous consid rons qu il existe deux zones parall les une bi zone c est dire traduites de facon globalement litt rale cor respondant dans chaque langue aux documents dans son ensemble Tandis que dans le deuxi me cas nous consid rons qu il existe plusieurs zones entre lesquelles il existe un parall lisme plusieurs bi zones On dit de ces traductions qu elles sont asynchrones L ordre macroscopique n est pas syst matiquement maintenu d un volet un autre ce type d inversion apparait par exemple lorsqu un r sum pr sent au d but d un volet est traduit la fin d un ou de plusieurs autre
73. 113 Alignement de zones IP o5 1344 114 Alignement de zones IP 08 405 115 Alignement de zones IP 07 1008 116 Alignement de zones IP 05 1157 117 tude quantitative des diff rents ph nom nes r per tori s par collection 126 Diagnostics manuels sur la collection 1 127 Diagnostics manuels sur la collection 2 128 Diagnostics manuels sur la collection 3 130 Diagnostics manuels sur la Collection Transport 131 Diagnostics manuels sur la Collection T l phone 133 Diagnostics manuels sur la Collection Sant 135 Cette th se a t compos e avec IEX 2g en utilisant le style cLassicthesis disponible via CTAN La police principale est Minion d Adobe R SUM Alignement de documents multilingues sans pr suppos de parall lisme Aujourd hui les travaux exploitant des documents multilingues se tournent vers l tude de textes comparables alors m me que tous les aspects des documents paral l les n ont pas t tudi s ni tous les verrous li s aux m thodes d alignement lev s notamment leur mise en forme et les cas d inversions et de suppressions au niveau sur phrastique Ainsi nous ne disposons pas ce jour d outils permettant de valoriser cette mine d informations d en extraire aussi massivement qu envisag des ressources pourtant utiles tant aux traducteurs qu aux lexicologues Nous pr sentons ici une m t
74. 12 OBSERVATIONS LINGUISTIQUES ET TRADUCTOLOGIQUES devis Pour cela ces organismes diffusent des coefficients de foisonne ment de r f rence c est dire la diff rence envisag e de volume entre le texte original et le texte traduit Dans le tableau 2 nous pr sentons les seules donn es officielles que nous avons pu nous procurer Celles ci t moignent bien des variations de volume qui naissent de l op ration traduisante c est dire que le volume d un m me texte varie selon la langue Ainsi par exemple lors d une traduction de l anglais vers le francais le nombre de mots fran ais sera plus important que le nombre de mots anglais En outre plus le texte est technique plus le coefficient risque d tre lev Concr tement la tarification est le plus souvent tablie au nombre de mots Il existe une normalisation des mots lignes pages et feuillets une page ou un feuillet contient 250 mots ou 1500 signes carac teres une ligne contient 10 mots et un mot contient environ 6 signes ou caract res Il reste toutefois un certain nombre de langues ou pays dans lesquels l unit est plut t la page ou la ligne 1 3 2 Au niveau syntaxique La m tataxe Dans son ouvrage intitul l ments de syntaxe structurale Lucien Tesni re consacre le livre E la pr sentation de la lt m tataxe gt Il s y int resse notamment au changement structural qui peut intervenir entre une phrase traduire et une phrase traduite c
75. 1gou s ouoi1gou s ouo1gou s ouo1gou s JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S ouo1gou s JUOIYIU S ouo1gou s JUOIYIU S JUOIYIU S uorssa1ddns ouo1gou s JUOIYIU S JUOIYIU S ouo1gou s ouo1gou s ouo1gou s ouo1gou s ouoi1gou s ouo1gou s ouo1gou s ouoi1gou s ouo1gou s ouo1igou s ouo1gou s ouo1gou s ouo1gou s ouo1gou s ouoi1gou s ouo1gou s ouoigou s ouo1gou s ouoi1gou s JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S uorssa1ddns uorssa1ddns uorssa1ddns uorssa1ddns uorssa1ddns ouoi1gou s nsouSerq IT 1J S 1J U3 ire 1 J P 3p ep 1 g 1J S 1J U3 ire 1F9P 9p ep IT 1J S 1J U3 ire LFP pep IT 1J S 1J U3 ire 1 J P 9p ep Y 1J S 1J U3 ire pep Ja IT 1J S 1J U3 1J 3 T 9p Pr IT 1J S 1J U3 ire 1 J P pep IT 1J S 1J U3 ire ep a IT 1J S 1J U3 ire PP 3p ep IT 1J S 1J U3 ire 1F9P 9p ep Pd 089 SO qdI 909 SO d SS SO gI 69gv So gI Zv S0o gI c SO gI lt 6 lt SO dI 6Zor So dI cZ91 SO gI gSSr SO dI anbrunwwoy LA LA 129 EVALUATION MANUELLE DU PARALLELISME o r a8ed v ns ay ns uorjoo oo uu e e Juny sesr eq sonb onb op uorssouddns 1j ur e e Juny sesr eq sonb onb op uorssouddns 1j N9 1U ne unu sesi eq op ALIS aun p uorsso1ddns 1j TIN sinatsnyd op ja untu s st eq op a119s aun p u
76. 2 pages 1071 1082 Toronto Ontario Canada 1992 IBM Press URL http portal acm org citation cfm id 962367 962411 amp coll GUIDE amp d1 GUIDE amp CFID 76577594 amp CFTOKEN 73477001 Cit aux pages 36 et 38 Frank SMADJA Kathleen R McKEown et Vasileios HATZIVASSILO GLOU Translating collocations for bilingual lexicons a statistical ap proach Computational Linguistics 22 1 38 mars 1996 ISSN 0891 2017 URL http portal acm org citation cfm id 234285 234287 ACM ID 234287 Cit a la page 41 BIBLIOGRAPHIE Bernd SPILLNER Textsorten im sprachvergleich ansatze zu einer kon trastiven textologie In Kontrastive Linguistik und Ubersetzungswis senschaft pages 239 250 KUHLWEIN Wolfgang THOME Gisela WILSS Wolfram M nchen Fink 1981 Cit la page 30 Dan Turis et Ana Maria BARBU Lexical token alignment Experi ments results and application In Proceedings of LREC 2002 pages 458 465 2002 URL http citeseer ist psu edu viewdoc summary doi 10 1 1 145 469 Cit la page 41 J VERGNE et E GIGUET Regards th oriques sur le tagging In Proceedings of the conference Le Traitement Automatique des Langues Naturelles 1998 Cit la page 100 Jean VERONIS Evaluation of parallel text alignment systems the AR CADE project In Parallel text processing Alignment and use of trans lation corpora pages 369 388 J V ronis Dordrecht kluwer academic publishers dition 2000 Cit la p
77. 3 sugg rent m me qu il serait peut tre pr f rable d ajouter des tapes d alignement aux niveaux pro positions De facon op ratoire et non linguistique la phrase est d finie comme un niveau de d coupage d limit par la ponctuation et les majuscules Une phrase correspond un segment de texte s tendant le plus souvent d un Majuscule un autre Majuscule Pour un certain nombre de langues ce traitement ne r clame pas de ressource N anmoins dans certaines langues la phrase ne r pond pas ce type de description ou cette description ram ne autre chose que des phrases on fait alors appel des ressources l g res Les similitudes de longueur La m thode d alignement de phrases sur corpus bilingue de Gale et Church 1993 est statistique et ne se base pas sur le contenu lexical Ce mod le se base sur l observation que lt des r gions de texte plus longues ont tendance avoir des traductions plus longues et les r gions les plus courtes des traductions plus courtes gt il sugg re galement que ce rap port est constant Autrement dit il existe une forte corr lation entre la longueur en caract res d un paragraphe et la longueur en caract res de sa traduction Ceci sugg re que la longueur en caract res peut tre un indice la fois simple et fort pour l alignement de phrases Cette m thode aligne tout 4 pr t et si l on s lectionne 80 des alignements ayant le meilleur score le taux d erreur passe
78. 5 projects Luxembourg 1 project Methernands 7 projects Portugal 2 projects Romania 1 project spain 15 projects Three project focus on water management One wil define an integrated management model for dealing with liquid waste from the plating industry Sveden 2 projects United Kingdom 10 projects Four UK projects deal with waste management The first aims to demonstrate the use of an advanced utra high pressure water technaagy to recover materna from used tyres The second will demonstrate innovative technologies for the recvding of glass waste streams that are currently unsuitable for most glass manufacturing processes and thus end upin landfill sites FIGURE 6 Ordre diff rent au niveau sur phrastique entre les annexes des documents anglais et fran ais du multidocument IP o5 1157 Les ont t introduits par nos soins ils symbolisent des paragraphes entiers de plusieurs lignes de 3 plusieurs dizaines 15 CONTRAINTES DITORIALES 23 de certaines de ces contraintes notamment les contraintes mat rielles auxquelles les traducteurs doivent faire face figure 7 La direction g n rale ou le service envoie une nouvelle demande de traduction POETRY Le planning central l accepte Le document original est Si n cessaire o souhait automatiquement trait par Euramis l quipe de pr traitement pr pare afin de t
79. 7 17 19 19 19 21 27 34 en European Parliament 22 1 2 2 5 6 7 7 7 Z 7 7 12 16 16 17 17 17 19 19 19 21 27 distance 0 083 fr Parlement 25 1 2 2 2 2 5 6 7 7 7 7 7 7 12 16 16 17 17 17 19 19 19 21 27 34 en European Pa 23 1 2 2 5 6 7 7 7 7 7 7 12 16 16 17 17 17 19 19 19 21 27 37 distance 0 080 fr s a r 26 2 7 7 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 17 en airp 24 7 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 TABLEAU 17 Appariements de populations de chaines de caract res r p t es dans la collection Chaque groupe de 3 lignes pr sente ligne 1 la distance qui a t calcul e entre deux chaines de caract res sur la collection elle se situe entre o et 1 lignes 2 et 3 respectivement pour la chaine 1 et la chaine 2 la langue la chaine son effectif dans la collection et la liste de num ros de multidocument dans lesquels elle apparait 6 2 APPARIEMENT ET ALIGNEMENT DE ZONES 6 2 APPARIEMENT ET ALIGNEMENT DE ZONES Dans cette section nous pr sentons les travaux r alis s en mati re de d tection de multizones Ils comportent un travail pr paratoire de cr ation de matrices de points partir des appariements pr alablement d tect s une d tection de multizones via un traitement de ces matrices et un
80. 8 1016 es fr a i E a Seg E ont B hata E ag me LE m m Ea n seo cte ib omi d c q F TU K on 1 _ aP ot x A A ua s 4 af w cbe E ams Tu gne Te Ma MN as ll E XE _ nm ire ter UA A QA map x x X IP 08 1144 el fr CC PP l oed aa 7 l Qu rats Ww u x L nu IP 05 1558 en fr IP 05 1558 fi fr TABLEAU 37 10 bi documents asynchrones avec suppression parmi les 26 attendus sur les collections th matiques avec la m thode Grand Angle voir tableau 25 112 R SULTATS ET VALUATION SUR LA TACHE D ALIGNEMENT DE ZONES L observation de ces tableaux nous am ne plusieurs commentaires Tout d abord il convient de dire que la majorit de ces images offre l oeil nu une id e claire des ph nom nes engag s entre les deux volets concern s Nous placons donc principalement les difficult s dans les tapes ult rieures la cr ation des matrices tout d abord dans le traitement de ces images certains segments de droites que nous souhaiterions voir isol s ne le sont pas enfin et c est l la majorit des cas dans le diagnostic que nous avons mis en ceuvre Des exp riences de d tection automatique des caract ristiques propres chaque type sont en cours 73 2 Pourquoi des matrices restent ind finies ou mal d finies Entre 2 et 3596 des matrices restent ind finies selon la dimension observ
81. 9 90 qI TOT 90 d1 6rkF SO dI TgI SO dI TgI SO AI S91 SO gI osnbrunururo Pa ouoi1gou s ouoi1gou s JUOIYIU S JUOIYIU S ouo1gou s ouo1gou s JUOIYIU S JUOIYIU S ouoi1gou s ouoi1gou s ouoi1gou s ouoi1gou s ouoi1gou s ouoi1gou s ouoi1gou s JUOIYIU S JUOIYIU S JUOIYIU S ouo1gou s ouoi1gou s ouoi1gou s ouoi1gou s ouoi1gou s ouoi1gou s ouoigou s ouo1gou s ouoi1gou s ouoi1gou s ouo1gou s ouoi1gou s ouo1gou s ouoi1gou s ouoi1gou s ouoi1gou s ouoi1gou s ouoi1gou s ouoi1gou s ouoi1gou s ouoi1gou s ouo1gou s ouoi1gou s JUOIYIU S ouoi1gou s ouoi1gou s ouoi1gou s ouoi1gou s ouoi1gou s ouoi1gou s ouoi1gou s ouoi1gou s ouoi1gou s ouoigou s JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S ouoi1gou s ouoi1gou s ouoi1gou s ouoigou s nsouSer q IT 1J S 1J U3 ire 13 3P 9p ep FT 1J S 1J U3 ire 1 J P ep ep 19 1J S 1J U3 ire ep SPEED FT 1J S 1J U3 ire zd ap ep FT 1J S 1J U3 ire ap 9p ep Y 1J S 1J U3 1J 3 EP 3p ep 1 9 1J S 1J ua ire ap 3p ep Jg 1J S 1J ua ire 1 J P 2p ep IT 1J S 1J U3 ire x ads 3p Pp IT 1J S 1J U3 ire Ip3p 9p ep Pd IS 60 gI 99 S0 gI 66S So gI FvS So gI o9t So gI SrY So gI 68 So GI TET SO d1 FZor So dI t oor So gI osnbrunururo Pa JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU
82. ART D i ip UH i TE uA EI i x TAAG MEB LIN Tn Tang i id io da Fi Fiese En de asii Emi Dans pee 1 ER TIE domu pe isa decades Ser MEME R T RAUSA BE o LE o Mic ee E AAT EE Ur 1 FE B WE TH vem oko E ONE cu MIDI Ed rn OM l L t e on M ed A du J um E IP 05 1157 fi fr ann es dr os BRI DENT Fs ER I E l P N DENS LE m 1 M 1 i 1 E y h L ka L LE gt Coe CT PE IP 10 1002 es fr IP 10 1002 de fr pee RS del inal IP 10 1002 el fr IP 10 1002 fi fr TABLEAU 34 10 bi documents asynchrones avec inversion attendus mais non obtenus avec la m thode Petit Angle parmi les 16 des collections th matiques voir tableau 25 73 VALUATION ET DISCUSSION DES R SULTATS 109 CREME LE us ae IL ait re d a THC A mi x ES a C ez lm ce 4 RET zd 4524 Hr K ESS Tea ru ae huko E MI dis y Sess ar ee RE irm GE JEE e EEE SE CE TENE 5 ELLE we Lee ee ea vr sages ah BUR rem E AX Sc Le Hias ahua T t a H 1 1 d Seti nbet nm bene de ised ro mih i d m Bm m E Lm n u r ce SPE quil Bl 10986 TIN ct ARABE TIN T ura p wem ne 2E Da ENT E Tg TUTO FE iria 4 R E rA rius OR SLA V l a ke Mus DU were rmm LES J d gustus E ERE x Ji war T cr EDU deg RE im E 2 ME wi Wr s n Ed DE ut SE Me m SRE m zh ae
83. AU 33 TABLEAU 34 TABLEAU 35 Liste des tableaux Illustration du parall lisme en versification 28 Correspondances phrastiques 38 Indices de forme 55 Vecteurs d effectifs par document dans une collec tion de multidocuments 69 Mise en vidence de la cha ne de caract re com mune quatre mots form s par d rivation Liste des mots graphiques signifiant transport dans un chantillon de textes en fr es et el et leur CCE ed Bee eee es 72 Chaines de caract res d au minimum 3 caract res communes aux mots signifiant transport dans le m me chantillon de textes en fr es et el et leur effectif respectif uu v s sus w y e RE SS 73 Exemple de populations 79 Exemple de r partitions de deux N grammes de caract res grec et fran ais 80 Appariements de populations de cha nes de carac t res r p t es dans la collection 82 Traitement effectu sur chaque matrice 83 Illustration de max_liens s 85 Ellipses et projections des segments de droites sur TES AXES idu comu wu P EROR ran 90 Matrices obtenues et attendues 94 Nouveaux mod les 95 Synth se des r sultats 98 Mesures de pr cision rappel et F mesure 99 Mesures de pr cision rappel et F mesure 99 Mesures de pr cision rappel et F mesure 100 Mesur
84. CHEISEN Text translation align ment Comput Linguist 19 1 121 142 1993 URL http portal acm org citation cfm id 972450 972457 amp coll GUIDE amp d L GUIDE amp CFID 76577594 amp CFTOKEN 73477001 Cit aux pages 36 et 39 Judith KLAVANS et Evelyne TZOUKCRMANN The BICORD system combining lexical information from bilingual corpora and machine readable dictionaries In Proceedings of the 13th Annual Meeting of the Association of Computational Linguistics page 174 179 1990 Cit a la page 33 Olivier KRAIF Architecture d un systeme d alignement tude pour une int gration optimale des indices d alignement In Actes des Journ es internationales de linguistique appliqu e pages 161 164 facult des Lettres Arts et Sciences humaines Universit de Nice Sophia Antipolis 1999 Cit aux pages 36 38 et 39 Olivier KRAIF Constitution et exploitation de bi textes pour l aide la traduction These de doctorat Universit de Nice Sophia Antipolis 2001 Cit la page 33 Juha KARKKAINEN et Peter SANDERS Simple linear work suffix array construction In Jos C M BAETEN Jan Karel LENSTRA Joachim PAR ROW et Gerhard J WOEGINGER diteurs Automata Languages and Programming volume 2719 pages 943 955 Springer Berlin Heidel berg Berlin Heidelberg 2003 ISBN 978 3 540 40493 4 URL http www springerlink com content Onyb22e5amj4rac4 Cit la page 78 Philippe LANGLAIS Alignement de corpus
85. E 7 r x 4 B i LI i d E m 1 LI m n z LI ru L E E I 2 5 I LI z un z E E u H d Q m gea gr a m oa LE LI M E t t o r ELSE E a E I K Pr Ca ma aoe u E E CE LEE LI E LU a s LI u x m LI a 8 s x LES t F 2 TT d u al wo mu Y 77 cm PC rn s PF A F u F z Z z L Ms DU LL D eas BE _ ER IP 07 139 fi fr n So i um B TEEM A So LM T QUIAE A a 1 zm H n E Jd A M L Ra n ch T id A k is of 4 m owa a w an Ph f 1 m T mu ma am d n NL i Go d YE on a 3 4 OU 003 aun un ui m aun ui m j L am m nee Z es Aat s K ui ie a a i qu uo um do a an ER A Tun TE a Tu Eu I5 nz a Tu A eiit En one rF Y w pom a my t s ir F wa ALarg ri 0 D pom po Or mm a P as sms Ea l 3 i cS ma d X n RN a mali 1 Do uni d pda c tao rue rt r ann on o me 73 w E DELLI x Li lio Mos Ma t qe a Er LE m k LE t UT a as mme ces c a acts e ts Fin A a we r Ki cox T T LL a x Pu vu ct K rav h lH 418 h vi H Iis f x oo A Ce E H T Nu 1 COLE r mn pat e Z sam IP 0
86. GUID E PAR LE MODELE 61 II MISE EN UVRE ILLUSTRATIONS VALUATION 25 6 MISE EN EUVRE 77 7 RESULTATS ET EVALUATION SUR LA T CHE D ALIGNE MENT DE ZONES 93 CONCLUSION 119 IV ANNEXES 121 A VALUATION QUANTITATIVE DES APPARIEMENTS i23 B VALUATION MANUELLE DU PARALL LISME 125 BIBLIOGRAPHIE 1327 GLOSSAIRE 149 INTRODUCTION La traduction Un enjeu de soci t E web est l origine d une explosion de l information Chaque jour le nombre de textes disponibles en diff rentes langues augmente et avec lui la n cessit de faire face un flux d informations r solument multilingue Celle ci est sp cialement ressentie par les instances euro p ennes et mondiales qui doivent non seulement pr server la diversit linguistique en soutenant l apprentissage des langues trang res mais galement garantir l galit des e citoyens europ ens en assurant l acc s aux documents dans leur propre langue Cependant cet objectif s av re humainement difficile atteindre puisque le processus de traduction fait que l on traduit vers sa langue maternelle et qu il n existe pas suffisam ment de traducteurs pour certains couples de langues C est face ce double constat de n cessit et d incapacit qu a m ri l id e de convertir et valoriser les traductions r alis es par des traduc teurs humains Au d but du XIX si cle Champollion face la Pierre de Rosette prenait d j conscience qu un document traduit en plusieurs langues peut
87. Linguistics Oxford University Press London 1965 Cit a la page 8 Chirine CHAMSINE La traduction des motions M moire de master conjoint franco hell nique mention sciences du langage sp cialit sciences de la traduction traductologie et sciences cognitives Uni versit de Caen Basse Normandie Caen France 2005 Cit la page 7 Jason S CHANG et Mathis H CHEN An alignment method for noisy parallel corpora based on image processing techniques In Proceedings of the eighth conference on European chapter of the Association for Computational Linguistics pages 297 304 Madrid Spain 1997 Association for Computational Linguistics URL http portal acm org citation cfm id 979617 979655 amp coll GUIDE amp d1 GUIDE amp CFID 78470726 amp CFTOKEN 79586012 Cit la page 43 Stanley F CHEN Aligning sentences in bilingual corpora using lexical information In Proceedings of the 31st annual meeting on Association for Computational Linguistics pages 9 16 Columbus Ohio 1993 Association for Computational Linguistics URL http portal acm org citation cfm id 981574 981576 amp coll GUIDE amp d1 GUIDE amp CFID 76577594 amp CFTOKEN 73477001 Cit aux pages 36 38 et 40 Yun Chuang Curao Olivier KRAIF Dominique LAURENT Thi Minh Huyen NGUYEN Nasredine SEMMAR Francois STUCK Jean VERONIS et Wajdi ZAGHOUANI Evaluation of multilingual text ali gnment systems the ARCADE II project In sth internationa
88. OISIOAUT UOISIOAUT UOTSIOAUT UOISIOAUT JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S nsouSer T UOT 29 O0 LJ INS s onueur soysougerq FF nvaTavg y 17 89 1J uo i e 17 9p SPSRE J g 1J S 1J uo i e pap RER Y 1J so 1J uo i e 17 9P 9p ep Y 17 89 1J uo i e 1 P ap ep Y 17 89 1J uo ie Tj9p REP 1 g 17 89 1J uo i e 1F3P Sp ep 1J 17 89 1J uo i e 1 P PP EP 1 g 17 89 1J uo i e Tj9p 9p ep J g 17 89 1J uo i e ap sp ep 1 g 17 89 1J uo i e 1J 3P Sp ep Pd TSST SO d1 VVET SO d1 ScS1 SO q c6 1 So g vIST SO AI OISI SO dI ZS1T1 SO gI o6PT So qI ZVT So qI IIOI SO gI nbrunwwon JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S
89. P 5186 14032 CAEN CEDEX
90. PP F mesure 93 12 74 52 84 83 93 38 64 49 80 91 TABLEAU 27 Mesures de precision rappel et F mesure sur les collections 1 2 3 collections th matiques avec leur MFM en consid rant par d faut les ind finis comme synchrones Notre m thode se comporte aussi bien que si nous avions pris le parti de consid rer par d faut les ind cisions comme des bi documents synchrones Ainsi le syst me s av re tr s pr cis et assez pertinent pour les docu ments synchrones Mais les classes sont tr s d s quilibr es et les r sultats sur les documents asynchrones sont moins satisfaisants Les images li es ces bi documents sont pr sent es dans les tableaux des pages suivantes 102 R SULTATS ET VALUATION SUR LA TACHE D ALIGNEMENT DE ZONES sr HIER de a OG saras ge m qe cR Tae ee s Ra RI M t mia oe AE IT wp p um x ARD FE d T rom Ss 24 amp s il im il VES Tu suam twm Ps F MeL I Ir u i 47 doo ed 1 B at 5 own uw F T E Ve M Ad I LE P4 7 1 te As 7 mor mERR gens ha ar l ee Aa m T t Pe rA ILIA eg Dat Qd T mA TEL s na RM EN a qe TI AAA MEL EN A pa oco Tag dE z LE n ag a CA A EAD EEE ri TR A E LE uir M E et ara E Sli x 2 abl s cow T ELTE La Es SP ILLE T EN Fe FL I v rie P DIR LEUR JUPE i nh a pp e mtem TOW FEY ET NES A a wana nt vt na x Tao
91. S 1J uo i e 1 P SPSEP Pd ETTI SO Ad1 ZTZT SO AI goc1 So gI 69g11 So gI SZTT SO dI 6911 50 41 OSTI SO GI ScII SO d 8901 S0 gI TOT SO d nbrunurtuo5 T LA EVALUATION MANUELLE DU PARALLELISME 128 aed ap seq op ajou uorssarddns J oSed ap seq op ajou uorsso1ddns sa aed ap seq ap ajou uorssouddns uo aed ap seq ap ajou uorsso1ddns o a3ed ap seq ap ajou uorssarddns ep n r ne UY sas peq op a119S aun p uorss iddns 1j S 9 0A SIN SI suep SJUEISIXJUT xneo qe3 xnop op aduasaid 9 ynpe uou Isenb 1 oA o ur e e Juny sesr eq sanbjanb op uorsso1ddns uo Top map map Sj9 OA s suep sTejsue uo oxouue ruru N9 1U ne sosi eq op 9LI9S ep op uorsso1ddns 1j S 9 OA T SI suep sre gue uo oxouue UTU T 9 suep NIT FU ne sos feq op arses SOA T SI suep sre gue uo oxouue UTU sre gue uo neo qe1 y sre 3ue uo neo qej so sre Sue uo neo qej3 19 sre gue uo neo qej ep SONBUT 11 39 1q SI9JOA S OA c So suep sre5uvaj sre guve andumg OVA SONBUT 11 39 1q SI9JOA SJaTOA c SOT suep sreSueaj srepSue andumg OVA SINZUTTIG SI9JOA SI9J0A c SI suep sre5ueuj sre gue ongu OVA SONBUT 11 39 1q SI9JOA S OA c So suep sreSueaj srepSue andumg OVA songui 14 39 1q S1 OA S39 OA c SI sre5uvaj sre Suve ongur Iq OVA SONBUT II SJO OA s1 OA T SI suep sre5uvaj sre guv ongu OVA Sj9 OA T So suep sre gue uo neo qej Sj9 OA c So suep sre gue u
92. S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S nsouSerq Y 1J S 1J u i e ISP ie J g 17 89 1J uo ie 9p Pr rg 17 89 1J uo i e 1 P 9p ep Y 17 89 1J uo i e Jp 9p ep Y 17 89 1J uo i e 1J 3P PP Jr g 1J S 1J uo i e Le 9p ep Y 1J S 1J U3 i e p 9p ep Jr g 17 89 1J uo i e a Pe 1J 1J S3 1J uo i e T 9p Pop 1J 1J S 1J uo ie 1 P APE Pd ort Zo gI 8961 Z0 gI OocZ1 ZO gdI v S1r Zo gI 88Z 90 dI 96 90 d 06ST 90 dI TS So qI 68 So qI 9SI SO gI anbrunwuoy T LA 135 EVALUATION MANUELLE DU PARALLELISME JJUES uono oO LJ ANS s onueui sotjsouselq 6r AVATAVI sre guv uo JUOS x uue p s 1s 1 SIT oxouue p jnqop uo s 2e d 1 sy npe n Juos T seuoudooueag shed sa jueu1o22uoo soyder3ered sa s nos 17 t oxouue p Mqap uo 29eJd 19 JINpes Isa apuejurg e jueudo2uoo ayudeiseied a nos 1 s4ed red sjofo1d sop juejsi soxouue sre guv uo JUOS x uue p s 1s 1 SIT oxouue p jnqop uo soovid jo siinpez Juos T seuoudooueag shed sa jueu122uoo soyder3ered sa s nos 17 oxouue p jngap ue ovid 1 11npeu Isa ougedsq yjueu122uoo oydes3ered a nos sa sAed sed sjaloid sop juvjsi soxo
93. S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S ouoi1qou s JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S ouoi1qou s JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S nsouSer y 1J S 1J uo i e 1 P p EP y 17 89 1J uo i e 1 P Spp IT 17 89 1J uo i e Ip3p SPEED IU 17 89 1J uo i e 1 P 9p ep IU 17 89 1J uo i e 17 9P ap ep IT 1J S 1J U3 1J 3 1 P pap IT 17 89 1J uo i e Ip3p aad Y 17 89 1J uo i e 1 P PP y 17 89 1J uo i e pep 9p ep IT 1J S 1J u i e 1 P Pe Pd 9ZZ SO gI 8c9 SO qI lt ZS SO dI TS So qI 6SY So gI Vg So aI o7 SO aI Scc SO gI Z91 So gI ZS1 SO gI anbrunururo sre gue uo nb 9 SIX9 U saAroadsiod sa jue uouue anbrunururoo np onied e S 9J0A so1jne sa suep sjuasaid xneo qei xnop op o uesqe 1j spes qd ouoi1gou s ouoi1gou s JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S ouo
94. Tp 9p ep Pd 882 90 dI 6Ss 90 gI 981 90 dI 60Z1 90 gI 0651 90 41 S T 90 41 SZ6 So dI TEZ SO AI SST SO dI IZIT SO dI onbrunururo Pd JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S nsouSer IT 1J S 1J U3 ire 1 9p 3p ep y 1J S 1J U3 ire Feb Js IT 1J S 1J U3 ire 1 J P 9p ep IT 1J S 1J U3 ire 1 9p 9p ep IT 1J S 1J U3 1J 3 1 J P SPEED IT 1J S 1J U3 ire IP 9p ep IT 1J S 1J U3 ire 179P Sp EP 1 g 1J S 1J U3 ire 179P 9p ep IT 1J S 1J U3 ire pep 9p ep IT 1J S 1J U3 ire 1 J P ER Pd 6 Z 90 41 ZST 90 AI 8I8I 9O dI 9 91 90 qI Vt v1 90 gI T T 90 GI lt ZS SO dI Z91 SO gdI ZSVI SO dI Z6or So dI anbrunwwoy T LA CET
95. UNIVERSIT DE CAEN BASSE NORMANDIE U F R DE SCIENCES COLE DOCTORALE Universit de Caen Basse Normandie STRUCTURE INFORMATION MATI RE ET MAT RIAUX THESE pr sent e par CHARLOTTE LECLUZE et soutenue le 5 d cembre 2011 en vue de l obtention du DOCTORAT DE L UNIVERSIT DE CAEN Sp cialit informatique et applications Arr t du 7 aotit 2006 ALIGNEMENT DE DOCUMENTS MULTILINGUES SANS PR SUPPOS DE PARALL LISME MEMBRES DU JURY M Philippe LANGLAIs professeur universit de Montr al rapporteur M Eric GAUSSIER professeur universit de Grenoble rapporteur M Patrick CONSTANT pr sident et fondateur de Pertimm M Christine DURIEUX professeur universit de Caen M Emmanuel GIGUET charg de recherche HDR universit de Caen co directeur M Jacques VERGNE professeur universit de Caen directeur MERCIS Merci Jacques Vergne et Emmanuel Giguet d avoir ouvert les portes du laboratoire des tudiants venant d un autre horizon Merci pour votre encadrement tout au long de cette th se pour votre investis sement et votre grande disponibilit tous les deux ainsi que pour vos remarques enrichissantes et surtout pour la confiance que vous m avez accord e Je sais que sans vous cette th se n aurait pu aboutir Merci Pertimm de m avoir accueillie pendant ces trois ann es me permettant de m enrichir au contact de son quipe jeune innovante Je remercie ric Gau
96. UOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S nsouSer IT 1J S 1J U3 ire 1 J P 9p ep IT 1J S 1J U3 ire 17 gt p PER Y 1J S 1J ua ire 1 9P Sp Ep IT 1J S 1J U3 ire 179P 3p ep 1 g 1J S 1J ua ire 179P ap ep IT 1J S 1J U3 ire 1 J P PER IT 1J S 1J ua ire PP 9p ep Y 1J S 1J U3 ire IFR bp IT 1J S 1J U3 ire 179P RER IT 1J S 1J U3 ire ep 9p ep Pd Sr v 1 Zo gI 969 Z0 qI ZL11 ZO gdI 81Z 80 qdI c6vY1 g0 gI ISt 90 gI L6 1 80 d Str Z0o gI o9t So aI LITI SO d1 nbrunururo5 T T 133 EVALUATION MANUELLE DU PARALLELISME 9U0YA9 9 U01199 0 LJ Ins sppnueur sonsouserq gr NVATAV lt 2UDUv gt sasi eq op uorsso1ddns J lt awWvUD gt sos feq ap uorsso1ddns so lt awupuon gt so
97. UT UOISIOAUT UOISIOAUT UOISIOAUI UOISIOAUI UOISIOAUI UOISIOAUI UOISIOAUI UOISIOAUI ouoigou s uorssa1ddns ouoigou s uotssaiddns uorssa1ddns uorssa1ddns uorssa1ddns UOISIOAUI ouoigou s JUOIYIU S UOISIOAUI ouoi1gou s UOISIOAUI uorssa1ddns uorssa1ddns ouoigou s ouoigou s ouoigou s ouoigou s uorssa1ddns uorssa1ddns uorssa1ddns uorssa1ddns ouoigou s uorssa1ddns nsouSerq 13 13 1J S 1J ua JJ 1 J P PP IT 1J S 1J U3 ire 179P PP HT 1J S 1J U3 ire xx app IT 1J S 1J U3 ire Ip p 9p ep IT 1J S 1J U3 ire Jp PP IT 1J S 1J U3 ire Hep ep ep Pd lt OOI OL dI OI I 9O dI 6161 0 qI goor Zo dI Sot go gI c61 g0 gI nbrunurtuto5 LA LA 131 EVALUATION MANUELLE DU PARALLELISME ep udeiSeied un p uorsso1ddns op Sj9 OA T S suep sre gue uo oxouue Sj9 OA T S suep sre gue uo oxouue Sj9 OA T S suep sre gue uo oxouue Sj9 OA T SO suep sre gue uo oxouue stejsue uo oxouue 1J sre gue uo oxouue ep Sj9 OA T SI suep sTejsue uo oxouue ruru Sj9 OA T SI suep sTejsue uo oxouue ruru Sj9 OA T SI suep sTejsue uo oxouue ruru Sj9 OA T SI suep sTejsue uo oxouue ruru n rrur ne sosi eq op 91195 ep op uorsso1ddns 17 9 OA T SI suep sre gue uo oxouue PUTU T Sd SUP n rlru ne sosi eq op IFS S 9 OA T SI suep sre gue uo oxouue PUTU s n uI 111 3 1q SI9 OA S OA c So suep stedue1J stejsue ongut tq OVA s
98. a T L a e E E E n 1 ra E ELIT a oa m u a i om um m m um a mu I s u um a a dw d E n 7 EM a a MEE a 007 H a E a E u E gt E m uf ET a wit n BE M l E Quo Cog a Zu Gi Fr 25 i J E mm n oof z 7 zm g gi n m E uum m gam E m gam TI poet ui Yars ar p Und H hs E MASA SEC 07 co ag a art zm w ta t lo m a Le oc E ti E EE ti H x i kt i T E u CI E x i L E i T I u z 4 mu a pP EI sa E s OU E Ak s na HX dm MA ME mae i Rumi man i tA a m 3 dh 31 1 L4 PPE li 1 4 nu m d ti L4 115 E 1 1 1 73a 1 L L n m 1 x sol s a a LI LI Ti a a a s p a m a ug Ta u S u x a Se BE Er ie w 7 534 x J 4a J Peg a oo En 4 Ux aa L rj uc u a x s A L Loa mm 1 nu t o ho m iA h y A x T w hone A ma mul xi a E a mul ss 4 I s x EE A i u x p x af I 7 1P 07 139 es fr N LE e _ E M nn bru LI i u B LI ia LI E x aye z an x SENT sf e nee ume E litate LT w Da bi Bus NAE m LI m m ia zu ca LE T ih xe i 5 IP 07 139 en fr IP 07 139 el fr ML se
99. a i e 179P 9p ep J g 17 89 17 u9 i e dep 9p ep Y 1J S9 1j ua i e dep pP J g 17 89 1j ua i e Ip p 9p ep 9 17 89 1j ua i e ep Per J g 17 89 1j ua i e Ip p 9p ep Pd 6S01 90 gI 98t 90 dI ccV1 g0 gI VYII S0 GI 6c11 g0 gI 6vor 80 gI oZg Zo dI STST 90 d1 LSTI SO d1 nbrunurtuo5 lt 2UUUv gt sosi eq op uorsso1ddns 1j lt 2UUUD gt sasi eq op uorsso1ddns op 394 JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S uorssa1ddns JUOIYIU S JUOIYIU S JUOIYIU S uorssa1ddns nsouSerq Y 1J S 1J U3 i e x md 9p ep J g 1J S 1J uo i e esp 9p ep Y 17 89 1J uo i e PSP PP EP Y 17 89 1J uo i e Jp ap ep Y 17 89 1J uo i e ESP 9p ep y 17 89 1J uo i e ap rer 1J 1J S 1J uo i e TIS pop Jrg 1J S 1J uo i e 1 P PP 1J 1J S 1J uo i e
100. a1ddns uorsso1ddns JUOIYIU S UOISJ2AUI UOISIOAUT UOISIOAUT UOISJ2AUI UOISI AUI JUOIYIU S nsouSer 9 17 89 1J U3 i e 1 P pep IT 17 89 1j ua i e 1 P Pe Y 17 89 1j ua i e Ip3p 9p ep J g 17 89 1j ua i e 1 P PP 9 17 89 1J U3 JJ 1 P PP 17 1 17 89 1j ua i e 17 9P Sp ep Y 17 89 1j ua i e 1 P Pe J g 17 89 1j ua i e Ip3p Sp ep 9 17 89 1j ua i e 17 9P ap ep J g 17 89 1j ua i e 1 P Per Pd 918 90 dI 89 90 qI LtTS 90 d1 8F 9O dI TOT 90 d1 cg1 SO gI TgI SO AI 61v So gI gSSI SO dI ZSTT SO dI onbrunwwon Pa JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S ouoi1qou s JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S nsouSerq Y 1J S3 1J uo i e 1 P Sp Ep Y 17 89 1J uo i e 1J 3P ep ep 1J 1J S3 1J U3 i e 1 p PP
101. age 32 Jean V RONIS et Philippe LANGLAIS ARCADE Evaluation de syst mes d alignement de textes multilingues Lettre de l ELRA 4 1 1999 Cit aux pages 32 et 40 Dekai Wu Aligning a parallel English Chinese corpus statistically with lexical criteria In Proceedings of the 32nd annual meeting on Asso ciation for Computational Linguistics pages 80 87 Las Cruces New Mexico 1994 Association for Computational Linguistics URL http portal acm org citation cfm id 981732 981744 amp coll GUIDE amp dl GUIDE amp CFID 276577594 amp CFTOKEN 73477001 Cit la page 34 Dekai Wu et Xuanyin XIA Learning an English Chinese lexicon from a parallel corpus In Proceedings of the First Conference of the Associa tion for Machine Translation in the Americas pages 206 213 1994 URL http citeseerx ist psu edu viewdoc summary doi 10 1 1 8 710 Cit la page 41 Yu ZHOU Chengging ZHONG et Bo Xu Bilingual chunk alignment in statistical machine translation In Proceedings of the 2004 IEEE inter national conference on systems man and cybernetics 10 13 october The Hague Netherlands 2004 URL http cat inist fr aModele afficheN amp cpsidt 17523633 Cit la page 36 Maria ZIMINA Topographie bi textuelle et approches quantitatives de l extraction de ressources traductionnelles partir de corpus paral l les In Actes des zemes Journ es scientifiques du R seau de chercheurs Lexicologie Terminologie Traduc
102. aire de diff rer l adh sion de la Bulgarie ou de la Roumanie au 1 lt sup gt er lt sup gt lssup gt er lt sup gt janvier 2008 s il existe un risque grave 2008 s il existe un risque grave d i gt pour la Roumanie 1 155 millions d euros p p Pour de plus amples informations consulter a href http europa eu int rapid pressReleases Action do reference MEM0 05 395 amp amp format HTML amp amp aged 0 amp amp Language FR amp amp guiLanguage f r gt MEMO 05 395 lt a gt et lt a href http europa eu int rapid pressReleasesAction do reference MEM0 05 396 amp amp format HTML amp amp aged O amp amp Language EN amp amp guiLanguage fr gt MEM0 05 396 lt a gt lt p gt lt p gt lt a href http europa eu int comm p entargenent index him A A dl eu nto cel htm gt http europa eu int co hoy el Informe Global de Seguimiento de 2005 sobre los preparativos de Bulgaria y Rumania para su adhesi n a la UE El informe muestra que ambos paises han avanzado bien en sus preparativos Deberian poder cumplir los requisitos de adhesi n a la UE en la fecha prevista de de enero de 2007 siempre que dediquen todos sus esfuerzos a las reformas La Comisi n va a continuar siguiendo de cerca los preparativos de estos pa ses Volver a examinar la situaci n en abril mayo de 2006 momento en el que podr a recomendar en caso necesario posponer la adhesi n hasta 2008 en el caso de que manifiestamente
103. align 6 1 APPARIEMENT ENDOGENE DE POPULATIONS 79 LANGUE POPULATION POSITIONS effectif dans la collection N Md offset normalis en Commission 319 4 81 10 5 16 40 14 325 neighbouring countries 6 4 66 10 12 11 9 12 6 12 15 16 73 lt p gt lt p gt Thefourthproject s 10 90 10 47 10 44 11 78 11 815 ber 2004 2 3 80 36 99 fr irles c 7 4 47 10 16 11 12 12 20 ce s environnementaux 5 11 26 11 5 11 49 12 19 12 2 projet concerne la 4 10 919 10 62 10 93 11 80 elektroniikkalaitteissa 2 10 30 10 355 ng und Werbung 2 56 38 51 79 el OL npot os g nov 2 64 28 60 10 departing from an 2 52 74 52 74 TABLEAU 15 Exemple de populations extraites d une collection de multido cuments en fran ais anglais finnois allemand et grec Chaque ligne fournit pour une chaine de caract re r p t e la langue la chaine son effectif dans la collection et les positions de cha cun de ses individus sous la forme num ro de multidocument offset dans le volet normalis sur 100 d effectifs peuvent se compenser Les effectifs monolingues des popula tions sont notre premier crit re de classement pour trouver des candidats l appariement Les populations similaires d une langue l autre ont la caract ristique d apparaitre approximativement le m me nombre de fois dans une langue donn e Ce crit re pris isol ment est
104. ancrage d s que l on trouve des couples similaires on aligne chaque nouveau groupe de mots align s est un nouveau point d ancrage jusqu la solution optimale De la m me mani re le systeme IRMC propose un alignement en phrases s appuyant sur des liens entre les mots composant ces phrases Il fait intervenir un dictionnaire de transfert ainsi qu une mesure de proxi mit entre mots Debili et Sammouda 1992 L alignement en phrase est 39 40 EXISTANT M THODOLOGIQUE alors r alis par un algorithme qui recherche la solution qui optimise diff rents crit res comme la conservation de l ordre des mots dans le processus de traduction ou encore la synchronisation des textes aligner Dans la lign e de ces travaux Chen 1993 s appuie sur un lexique construit la vol e avec lequel il obtient un taux d erreur de 0 496 sur des donn es du Hansard ce niveau on constate que des heuristiques simples bas es sur la longueur des phrases en mots Brown ef al 1991 ou en caract res Gale et Church 1993 utilisant ventuellement des points d ancrage Brown et al 1991 ou un lexique construit la vol e Chen 1993 ont permis d atteindre des taux de r ussite avoisinant les 10096 Langlais 1997 Langlais et El B ze 1997 Melamed 2000 montrent l importance dela combinaison de ces diff rentes sources d informations L alignement de phrases tant consid r comme r solu les recherches se sont rapidement tou
105. ap pop Jr g 1J S 1J uo i e Sp ep EP pq I1 ZO qI 9 z1 80 dI Zcc1 Z0O gI LES 80 d1 IS S0 qI LES 80 d Scr gO dI g99 Zo dI 106 S0 q VISI SO d1 anbrunururo JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S nsouSerq y 1J S 1J uo i e 1 P 9p ep Y 1J S3 1J uo i e p 9p ep Y 17 89 1J uo i e Twp op YP Y 1J S 1J U3 i e Dep PP EP Y 1J S 1J u i e 1J 3P SEP Y 17 89 1J uo i e lp op ep Y 1J S 1J uo i e 1J 3P 3p ep Y 1J S 1J uo i e ap 9p ep Y 17 89 1J uo i e Jp pop Y 1J S 1J uo i e 1 P apep Pa IP T ZO dI 6911 g0 q lt O lt I ZO dI Z8 80 qI ScY g0 gI Zgv 80 d1 lt 6VI 9O dI cSh ZOo dI FVvS So gI 6 c1 SO gI onbrunururo Pd JUOIYIU S JUOIYIU S J
106. bilingues int r ts algo rithmes et valuations Bulletin de Linguistique Appliqu e et G n rale num ro Hors Serie 245 254 1997 URL http www iro umontreal ca felipe Papers fractal97 ps Cit aux pages 34 36 37 40 et 43 Philippe LANGLAIS et Marc EL B ZE Alignement de corpus bilingues algorithmes et valuation In 1 res Journ es Scientifiques et Techniques du R seau Francophone de l Ing nierie de la langue de l AUPELF UREF JST Avignon France avril 1997 Cit la page 40 143 144 BIBLIOGRAPHIE Lucie LANGLOIS Bitexte bi concordance et collocation Th se de doctorat Universit d Ottawa Canada 1996 URL http www dico uottawa ca theses langlois introduction htm Cit la page 33 J M LANGE et Eric GAUSSIER Alignement de corpus multilingues au niveau des phrases multilingual corpora alignment at sentence level TAL Traitement Automatique des Langues 36 1 2 67 80 1995 URL http cat inist fr aModele afficheN amp cpsidt 3282436 Cit a la page 34 Adrien LARDILLEUX L alignement sous phrastique multilingue pour les nuls In 7 me Manifestation des Jeunes Chercheurs en Sciences et Technologies de l Information et de la Communication 16 18 novembre Avignon France 2009 Cit la page 45 Adrien LARDILLEUX Contribution des basses fr quences l alignement sous phrastique multilingue une approche dif f rentielle Th se de doctorat Universit de Caen Bass
107. chantillon de document francais et de sa tra duction en finnois Nous cherchons les N grammes de mots r p t s d un chantillon de document en fran ais FR Donner aux collectivit s les moyens de d velopper les transports en commun La Commission europ enne a adopt aujourd hui une proposition r vis e d un r glement qui contribuera au d veloppe ment de services publics de transport en commun 3 N grammes de mots sont r p t s Nous cherchons les N grammes de caract res r p t s ici plus de 3 caract res espaces compris du m me chantillon FR Donner aux collectivit s les moyens de d velopper les transports en commun La Commission europ enne a adopt aujourd hui une proposition r vis e d un r glement qui contribuera au d ve loppement de services publics de transport en commun 5 3 APPARIEMENT ENDOGENE DE CHAINES DE CARACTERES R P T ES 71 5 N grammes de caract res sont r p t s Nous cherchons les N grammes de mots r p t s d un chantillon de document en finnois FI Paikallisviranomaisille tarjotaan keinot joukkoliikenteen kehittami seen Euroopan komissio hyv ksyi t n n tarkistetun ehdotuksen asetukseksi jolla edistet n julkisten joukkoliikennepalvelujen kehitt mist o N gramme de mots r p t Nous cherchons les N grammes de caract res r p t s ici plus de 3 caract res espaces compris du m me chantillon FI Paikallisviranomaisille tarjotaan ke
108. counts In Proceedings of the 21st International Conference on computational Linguistics and 44th Annual Meeting of the Asso ciation for Computational Linguistics Student Research Workshop pages 13 18 Sydney Australia 2006 Association for Computatio nal Linguistics URL http portal acm org citation cfm id 1557860 Cit aux pages 42 48 et 56 Ido DAGAN et Ken CHURCH Termight identifying and translating technical terminology In Proceedings of the fourth conference on Ap plied natural language processing ANLC 94 page 34 40 Stroudsburg PA USA 1994 Association for Computational Linguistics URL http dx doi org 10 3115 974358 974367 ACM ID 974367 Cit la page 41 Ido DAGAN Kenneth W CHURCH et William A GALE Robust bi lingual word alignment for machine aided translation In Pro ceedings of the Workshop on Very Large Corpora 11 8 1993 URL http citeseerx ist psu edu viewdoc summary doi 10 1 1 14 4941 Cit la page 41 139 140 BIBLIOGRAPHIE B atrice DAILLE Eric GAUSSIER et Jean Marc LANGE Towards automa tic extraction of monolingual and bilingual terminology PROCEE DINGS OF COLING 94 pages 515 521 1994 URL http citeseer ist psu edu viewdoc summary doi 10 1 1 12 9536 Cit la page 41 Leyla DAKHLI Le multilinguisme est un humanisme La Vie des id es 2009 ISSN ISSN 2105 3030 URL http www laviedesidees fr Le multilinguisme est un humanisme html Cit
109. couvre des nuances tr s pr cises comme en t moignent les quinze cas du finnois Le statut du mot Ainsi d finir le concept de mot ne serait ce que pour les langues europ ennes s av re d j complexe Cela d pend en fait du point de vue adopt lexical ou graphique Ces deux points de vue ne sont pas toujours en correspondance 2 Dans une langue flexionnelle les radicaux sont pourvus d affixes grammaticaux variables et exprimant plus ou moins la fois par exemple le genre le nombre et le cas ou la personne le temps le mode la voix La plupart des langues europ ennes sont des langues consid r es comme flexionnelles 3 Dans une langue agglutinante on juxtapose au radical une s rie de morph mes distincts servant exprimer les rapports grammaticaux Dans ce type de langue chacun des affixes pr fixes infixes ou suffixes est clairement analysable et identifie pr cis ment une fonction grammaticale ou syntaxique 10 OBSERVATIONS LINGUISTIQUES ET TRADUCTOLOGIQUES Consid rons pour illustrer ce fait les traductions du syntagme no minal les transports en commun gt dans 4 langues europ ennes 4 pr sentant une disparit notable du grain mot anglais en fran ais fr hongrois hu finnois fi pr sent es dans le tableau 1 LANGUE MOT POLYLEXICAL NOMBRES DE MOTS GRAPHIQUES fr transport en commun 3 mots graphiques en public transport 2 mots graphiques hu a t megk zlekedes 2 mots graphiq
110. d de tandis qu il est invers entre ces deux derniers volets et le volet francais fr comme nous l observons au travers de la figure 6 La pr sence d une s rie de paragraphes d butant par le nom du pays concern par les mesures voqu es et tri s par ordre alphab tique de ces noms rend l ordre largement diff rent d un volet l autre On observe un croisement des liens s mantiques Dans cet exemple l inversion concerne des paragraphes mais il pourrait tout aussi bien s agir de documents entiers de r sum s 15 CONTRAINTES DITORIALES La traduction en tant qu op ration est soumise de nombreuses contraintes ditoriales d ordre politique conomique juridique mat riel et linguistique comme nous l avons vu pr c demment Le cycle de la traduction la Commission europ enne tel qu il est pr sent dans le sch ma la page 24 du guide intitul Outils d aide la traduction et cycle de travail datant de 2009 et diffus par la DGT t moigne lui aussi 19 OBSERVATIONS LINGUISTIQUES ET TRADUCTOLOGIQUES 20 SOTolAOAD3 O aorlomoroa Lop od uAanlidosgoan H SOTO1AOAD3 m aXo1 O OA3T 3A 0100 OAZNM3AVAD OJ OA3T 3A 0100 oAg2rlido3g OT aorlomonoa liooiodx uA3rlidm3gpAD Td Jo apusl y 9Z9A19 9 9pudI WESSZIATN EJ V JOT9PUIIQA9 u qX u A4 Soul y 3IAOZS YOYSOPQU e ZA 3IAOZS eSsziA n g e ZA 9 J2Z 2AJ9 9 9DU 91 YONSOPoUI NH essosxnjosy Vc II essosxnjo
111. d les envisag s en vis vis dans le tableau 21 Mod les Matrices IP 05 1451 el fr Volets synchrones heise i RITE Volet 1 2 E om N ar gs of HII s iar d 4 us d m n TOLL n sm o m m u p a she wn peta CHO T i moe Furt uoo arr naria CAN K LM y tune L um ioc wor s ei QE I 7 s mmu a 20 a a e 7 Lu CN Mi ate LE ae air fan m one 2 ao ui M o pU ll tt ca a Pa ua U Tate DSE ine nn dir nr a i ul Ru gt EEE z Sal E A il a um I r H a LL H H i la j ma x a F LE nM Jaat SR a A Ete LA et w Me Fan a IP 05 473 en fr Volets asynchrones avec suppression mE k m aS 55 7 om gar F m Eu Ge anon ee ee eu e a i H MN 7 n So a tn Fa F m x s 3 ums x te ey Tas My s i be loba 7 Ir E h j a aT Ta d E quum E Gema Ea met As can oat 7 PIE A im k r eta 1 Lg wh a u gt Poet peat aaa w st R 1 I x hy he m m EU w Dz r LIP E Fac Ut Um 77 T gm 3 Y 1 hls roof o PL TU PROC m m QE xn M LA p ou any I q gus z H in ae i gas do P T y iM In m mad rmm d a n s E ku a oo HT en EI a i r a E 279 graria x Sw or s w E REINE CEBIT pnt ITI dee ft 2451 Hi x Et IE L T 1 AL i I s i d L
112. d tect es pour parvenir cette fois un alignement lexical 5 2 ALIGNEMENT DE ZONES 5 2 1 Recherche de multizones La m thode repose sur la recherche de multizones des portions de documents globalement s mantiquement quivalents entre les volets d un multidocument Elles peuvent correspondre tout ou partie d un multidocument Le multidocument est une multizone donn e a priori C est dire que nous savons d embl e que ses diff rents volets ont globalement le m me sens et que par cons quent il existe entre eux ce que nous appelons des faisceaux de liens s mantiques diff rents niveaux figure 16 66 UNE M THODE TEXTUELLE GUID E PAR LE MODELE MD Volet 1 Volet 2 Multizone 1 Multizone 2 FIGURE 16 Multizones et interd pendances entre les grains Partant de cette connaissance qu un volet d un multidocument qui vaut globalement aux autres volets nous cherchons faire merger des multizones c est dire que loin de supposer l ordre ou le d sordre entre les volets nous cherchons le constater le calculer Calculer les multizones en contexte permet de garantir le bon d roulement de l alignement Nous n int grons pas de bruit Si les indices ne convergent pas les alignements ne sont pas consid r s comme bons Dans la figure 17 nous observons cinq multizones Observons les deux zones entour es de vert il existe un faisceau de liens qui convergent autrement dit il y a un certain niveau u
113. d un multidocument 58 Multizones FR EN du m me communiqu IP 05 1157 60 Cha ne de traitement 63 Mod les des diff rents types d alignement de zones 65 Multizones et interd pendances entre les grains 66 LISTE DES TABLEAUX TABLEAU 1 TABLEAU 2 TABLEAU 3 TABLEAU 4 TABLEAU 5 TABLEAU 6 TABLEAU 7 156 D tection de multizones 67 D tection de multizones via la collection de multi documents 68 Multizones entre alignement et appariement 68 Segment de texte et score d une pixel 85 Coloration d une ligne de matrice 86 volution des pourcentages de cognats et de traduc tions sur 40 md en fran ais anglais 124 Illustration du d calage interlangue entre le niveau lexical et le niveau graphique du concept de mot 10 Coefficients de foisonnement ii M tataxe transformation simple 13 M tataxe transformation compl te 13 Ordre d terminant d termin 14 Illustration du ph nom ne de synonymie 18 Illustration du ph nom ne d anaphore 20 TABLEAU 8 TABLEAU 9 TABLEAU 10 TABLEAU 11 TABLEAU 12 TABLEAU 13 TABLEAU 14 TABLEAU 15 TABLEAU 16 TABLEAU 17 TABLEAU 18 TABLEAU 19 TABLEAU 20 TABLEAU 21 TABLEAU 22 TABLEAU 23 TABLEAU 24 TABLEAU 25 TABLEAU 26 TABLEAU 27 TABLEAU 28 TABLEAU 29 TABLEAU 30 TABLEAU 31 TABLEAU 32 TABLE
114. de 4 0 7 Ce modele constitue un raffinement de la m thode de Brown et al 1991 bas e sur le rapport de longueur en mots entre les phrases Ces deux syst mes ont prouv que la longueur en mots et surtout en caract res peut tre un indice efficace pour l alignement de phrases Ils sont encore largement exploit s Gale et Church 1993 exploitent un second indice de surface pou vant contribuer l alignement de phrase la fr quence d apparition de sa configuration L analyse d un corpus d j align en phrases permet en effet de d gager un nombre limit de sch mas de correspondances phrastiques tableau 9 tant entendu que la fr quence des sch mas d appariement d pend grandement du type de textes trait s comme le soul ve Langlais 1997 Les invariants graphiques D autres m thodes ont par la suite essay de conjuguer ces principes en ajoutant et en faisant primer des indices lexicaux comme par exemple 37 38 EXISTANT M THODOLOGIQUE NOMBRE DE PHRASES TYPES DE PARALL LISME en L en L2 1 1 Bi univocite 2 1 Fusion 1 2 Scission 2 2 Bi univocit multiple 1 gt O Suppression O gt 1 Insertion TABLEAU 9 Correspondances phrastiques entre une langue 1 et une langue 2 d apr s le modele de Gale et Church 1993 la pr sence de mots comportant des similitudes de surface Church 1993 Chen 1993 Simard et al 1992 Kraif 1999 On en distingue deux types les cognats deux
115. de d tails concernant chaque projet consulter le site suivant lt br gt lt a href http europa eu int comm environment life project index htm gt http europa eu int comm environment life project index htm lt a gt lt p gt lt p align right gt lt b gt ANNEXE lt b gt lt p gt lt p gt lt b gt R sum des projets r appliquera une strat gie int gr e pour r duire la pollution agricole dif fuse dans le sens de la directive cadre sur l eau a href i05 1157 frr html _Ref111348773 gt 1 lt a gt lt p gt p Le second e Le second projet concerne le pr traitement de la laine dans la production de fil L objectif principal est de supprimer les missions de compos s organohalog n s absorbables AOX et de r duire sensi blement l utilisation de produits chimiques dans le processus de nettoyage gr ce un proc d durable de pr traitement par plasma lt p gt p Un projet porte sur la lt b gt gestion des d chets b e er les t les lamin es froid Un nouveau proc d bas sur la technologie sous vide haute pression et n utilisant pas de produits chimiques sera employ lt p gt p b Bel gique deux projets Danemark six projets Espagne seize projets b p p Trois projets portent sur la b gestion des eaux b Le premier permet tra de d finir un modele d s vari t s d amandiers capables de r sister de telles conditions p
116. doc summary doi 10 1 1 53 4548 Cit la page 43 William A GALE et Kenneth W CHURCH Identifying word cor respondence in parallel texts In Proceedings of the workshop on Speech and Natural Language pages 152 157 Pacific Grove California 1991 Association for Computational Linguistics URL http portal acm org citation cfm id 112405 112428 amp coll Portal amp dl GUIDE amp CFID 76577594 amp CFTOKEN 73477001 Cit aux pages 36 et 41 William A GALE et Kenneth W CHURCH A program for ali gning sentences in bilingual corpora Comput Linguist 19 1 75 102 1993 URL http portal acm org citation cfm id 972450 972455 amp col LZGUIDE amp d LZGUIDES amp CFID276577594 amp CFTOKEN 73477001 Cit aux pages 32 36 37 38 et 40 ric GAUSSIER Flow network models for word alignment and ter minology extraction from bilingual corpora In proceedings of the joint 17th international conference on computational linguistics and 26th annual meeting of the Association for Computational Linguis tics pages 444 450 1998 URL http citeseer ist psu edu viewdoc summary doi 10 1 1 2 1725 Cit la page 41 Kim GERDES L alignement pour les pauvres Adapter la bonne m trique pour un algorithme dynamique de dilatation temporelle pour l alignement sans ressources de corpus bilingues In gemes Journ es in ternationales d Analyse statistique des Donn es Textuelles Lyon France 2008 Cit la page 37 Emmanu
117. documents parall les pr alablement align s en phrases ou un ensemble de phrases parall les Notre m thode orient e analyse textuelle prend en entr e des multidocuments Comme nous l avons mentionn dans le chapitre 1 le n ologisme multidocument a t cr e au laboratoire du GREYC Il inclut en tant que grain sup rieur au multitexte les dimensions de mise en forme mat rielle et de structure de documents Si le document est l unit la plus apte rendre compte des r sultats de l acte de langage le multidocument est le plus int ressant pour tudier l op ration de r criture qu est la traduction et les ph nom nes auxquels elle donne lieu choix des mots mais galement ce que nous souhaitons tudier dans nos travaux l inversion la suppression la diff rence de la phrase le document pr sente une autonomie permettant de travailler sur des r partitions autres que des r p titions l identique 4 2 LA COLLECTION DE MULTIDOCUMENTS La collection nous sert de cadre pour tudier les distributions des l ments contenus dans chacun des multidocuments lexique et struc ture Elle nous permet d augmenter les informations sur le contenu de chacun des multidocuments de la collection et notamment de trouver d autres occurrences d unit s hapax dans un document analyser dans un document pris isol ment l on d nombre un grand nombre de mot hapax et ce d autant plus que la langue est morphologiquement riche
118. e 0 000 fr l enseignement 4 4 4 31 31 en teaching 4 4 4 31 31 distance 0 000 fr ette ann e la 4 4 7 21 34 en year th 4 4 7 21 34 distance 0 000 fr es chiffres 4 3 15 24 26 en figures 4 3 15 24 26 distance 0 000 fr migratoires 4 27 30 30 30 en e migrati 4 27 30 30 30 distance 0 000 fr embre 2005 lt p gt hl a name Heading 25 2 4 5 6 7 8 9 10 13 14 15 21 22 24 26 28 30 32 31 33 34 35 36 37 39 en ember 2005 lt p gt hl a name Heading4 25 2 4 5 6 7 8 9 10 13 14 15 21 22 24 26 28 30 32 31 33 34 35 36 37 39 distance 0 000 de the obligation 2 53 53 es Member States to 2 53 53 distance 0 000 de gt lt p gt lt p gt p C 2 53 53 es de las compa as 2 53 53 distance 0 053 el this Regulation 9 52 52 52 52 52 52 52 52 52 fr width 12 10 42 52 52 52 52 52 52 52 52 52 distance 0 053 el gt lt a gt lt b gt H E 9 48 45 50 68 71 72 73 77 79 fr gt lt a gt lt b gt L 10 48 45 50 68 71 72 73 77 78 79 distance 0 053 el maxvoapkiac 9 56 56 56 56 56 56 56 56 56 fr ob sit 10 56 56 56 56 56 56 56 56 56 56 distance 0 064 fr Parlement 25 1 2 2 2 2 5 6 7 7 7 7 7 7 12 16 16 17 1
119. e Normandie 2010 URL http hal archives ouvertes fr index php halsid rsgsimesspm32r8ugl06nbpr03 amp view this doc tel 00520787 amp version 1 Cit la page 42 Dekang Lin Shaojun ZHAO Benjamin VAN DURME et Marius PASCA Mining parenthetical translations from the web by word alignment In Proceedings of ACL 08 HLT page 994 1002 Columbus Ohio juin 2008 Association for Computational Linguistics URL http www aclweb org anthology P P08 P08 1113 Cit la page 34 P MAJUMDER M MITRA et B B CHAUDHURI N gram a language independent approach to IR and NLP In Proceedings of the inter national Conference on Universal Knowledge and Language 25 29 novembre 2002 URL http citeseerx ist psu edu viewdoc summary doi 10 1 1 126 8275 Cit la page 56 Paul MCNAMEE et James MAYFIELD Character N Gram tokenization for european language text retrieval Information Retrieval 7 73 97 2004 ISSN 1386 4564 URL http portal acm org citation cfm id 961294 961313 ACM ID 961313 Cit aux pages 56 et 73 I Dan MELAMED Automatic evaluation and uniform filter cascades for inducing N Best translation lexicons In procee dings of the third workshop on very large corpora pages 184 198 1995 URL http citeseer ist psu edu viewdoc summary doi 10 1 1 14 7877 Cit la page 41 I Dan MELAMED Bitext maps and alignment via pattern re cognition Comput Linguist 25 1 107 130 1999 URL http porta
120. e ep Sj9 OA SIT suep sTejsue uo oxouue Sj9 OA SI suep sTejsue uo oxouue Sj9 OA SIT suep sTejsue uo oxouue Sj9 OA SIT suep sTejsue uo oxouue Sj9 OA SIT suep sTejsue uo oxouue 8 6 90 qI Sj9 OA SI suep sTejsue uo oxouue jousedsa oxouue suep saus 819 80 dI onbrunururo 94 nsouSer q Pa osnbrunururo a JUOIYIU S uorssa1ddns ouoi1qou s JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S uorssa1ddns JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S nsouSer q y 1J S IJ uo 1J Ij 9p op ep 9IOI 80 dI y 1J S IJ uo 1J Ip op ep 6Z01 Zo gI 1J 1J 1J S IJ uo 1J Ij 9p op ep 08 80 dI Pa nbrunururo T LA EVALUATION MANUELLE DU PARALLELISME 134 SET o8ed e ns ay ns 9 ue s uon3 o5 S 9 0A c SI suep sre guv uo xne qe Sj9 OA c SI suep sre guv uo xneo qej Sj9 OA c SI suep sre guv uo xneo qej Sjo OA c SI suep sre guv uo xneo qej Sj9 OA c SI suep sre guv uo xneo qej S 9 0A c SI suep srejdue uo xneo qej sre gue uo neo qei 1 stejue uo neo qej so sre 3ue uo neo qe3 19 sre gue uo neo qej ep 2131 op Sed sa JET MT JUSUINIOP 1Q m d ET TT Juswm9op Ig md YET M8T jAu um op Iq ad JET M9 JUSVINIOP 1q ad ET MT JUSUINIOP 1Q m d AT M6 T JUSUNIOP 1Q m d oydeiseied un p uorsso1ddns op oydeiseied un p uorsso1ddns
121. e E LH OL LE HI wm de n 4 un gen LE L x o z x ss F d EHESS Mn F CARRIER P y mo b Seb pha T E Angra eu eu m 7 a H ER k r x Pn A am m PL a a E vu un wr A am g m LET F Ta E FE i A RN Fra E Es Cm m a ad Ne tr t wu uum mom om B Hh dU w n amar u r UB U o LE ral LI HE dU bre dr amar TERN a AES ha ra i i m D rs gt iy ate gp 3 aF Ni gt E P ge t epe A oF amp i F l t LEN E m ED r r np ED og r LT 07 s 7197 Q m oUm LENT nt Pon RTT ug Ca A a ur 4 I I f Ii I Pi L m z L a og 108 P rnd P og sum ag 1 N T E a a 4 LLE L n LLE 3 ks j nn 1 A P a o a a E a e mor a a E d mon Pi IU u zz DL E Ceca n uis E z mman n uia LLL a a En z E he s on x E Cha k u EE mu 8 IET ey ia wu m om Tum suum 8 DE TI 1 C mg Z No x HH H H H E H H H m WS cad x ox Do a x 7 93 HI 11 1 93 Ii 11 SA Tg TAT L E Tg TA T u pea a hh m ve pra an L L E m a 1 P 05 1344 i fr Ld L E ES i iilis RUN ui NEE IP o7 1919 de fr 1
122. e et de mise en forme des documents peuvent servir d li miter des zones de recherche pour les alignements phrastiques et sous phrastiques Ses exp riences ont t r alis es sur des documents extraits du site Europa pr sent s sous la norme XHTML De nombreuses traces non textuelles comme des liens hypertextes des tableaux les s para tions horizontales ou l application de gras ou d italique peuvent y tre rep r s via la Mise en Forme Mat rielle MFM Brixtel soutient que la MFM peut tre consid r e comme un vecteur de sens pr serv dans le processus de traduction cela le conduit exploiter ces marques en tant qu invariant entre les documents de diff rentes langues pour identifier leur structure L id e est d exploiter une hi rarchie des constituants la plus fine possible pour s assurer de la construction d un espace de re cherche un niveau de r solution le plus bas possible en passant par des paliers fiables Ainsi cette segmentation alignement au grain alin a plus lev que la phrase permet de restreindre les espaces de recherche d quivalences s mantiques entre les documents d un multidocument et d identifier des suppressions Ces macro alignements posent les bases de la d tection d appariements sous phrastiques laquelle il proc de par la suite 2 5 CONSTATS METHODES D ALIGNEMENT EXISTANTES ET APPLICATIONS Le probl me del alignement est par d finition celui de la localisation et de la d l
123. e identification automatique de ce cas laisse envisager des op rations de contr le a posteriori des traductions 7 2 R PARTITIONS DES DIFF RENTS DIAGNOSTICS SUR LES COLLECTIONS 7 2 1 Corpus d valuation Dans cette section nous pr sentons les r sultats obtenus sur 6 collec tions de 40 multidocuments en 7 langues cf chapitre 3 Ces collections sont tir es de l ensemble des communiqu s de presse de l Union Euro p enne entre 2004 et 2009 213 multidocuments diff rents observ s au total certains multidocuments faisant partie de plusieurs collections Collection 1 2 et 3 Apr s une identification sur le corpus com plet des documents disponibles dans les 7 langues que nous sou haitions traiter nous avons constitu des multidocuments de 7 langues chacun 495 en tout Les multidocuments sont donc qui libr s du point de vue des langues Pour constituer les collections de 40 multidocuments nous avons regroup dans des dossiers des multidocuments par paquets de 40 au fil de leur num rotation collection 1 md 1 md 40 collection 2 md 41 80 Collections lt transport gt lt sant gt et t l phone gt Une des strat gies utilis e pour am liorer la qualit des matrices est de plonger les multidocuments non diagnostiqu s dans des collections de documents th matiquement proches L id e est de maximiser les chances de rencontrer des correspondances bi ou quasi uni voques Les collection
124. e la collection 2 et dela m thode Grand Angle Multizone 1 Multizone 2 Multizone 3 Multizone 4 114 R SULTATS ET VALUATION SUR LA TACHE D ALIGNEMENT DE ZONES IP 05 1344 ed 7959 es gn right gt Bruxelles le 25 octobre 2005 uselas 25 de octubre de 2005 lt p gt hl lt a name Heading4 id Heading4 gt lt a gt lt b gt La lt p gt hl lt a name Heading4 id Heading4 gt lt a gt lt b gt Bulgarie et la Roumanie se rapprochent de Bulgaria y Rumania se aproximan a la adhe l adhesion lt b gt lt h1 gt p lt b gt lt i gt La Commission a adopt si n lt b gt lt h1 gt p lt b gt lt i gt La Comisi n ha adoptado ce jour le rapport global de suivi relatif aux pr paratifs de la Bulgarie et de la Roumanie en vue de leur adh sion l UE Ce rapport montre que les deux pays ont bien progress en la mati re Ils devraient tre m me de satisfaire aux conditions d adh sion l Union la date pr vue du 1 lt sup gt er lt sup gt janvier 2007 pour autant qu ils consacrent tous leurs efforts la mise en ceuvre des r formes La Commission continuera de suivre de pr s leurs pr paratifs Elle r examinera la situation en avril mai 2006 ot elle pourrait recommander au besoin le report de l adh sion 2008 en cas d impr paration manifeste de l un des del un des pays voire des de manifestammnteu voire des de s rapports devraient tre
125. e nombre total de segments de droites d couverts la longueur totale des segments de droites d couverts les coordonn es des segments de droites d couverts le nombre de segments de droites situ s sur la diagonale la longueur totale des segments de droites situ s sur la diagonale le nombre de segments de droites situ s hors de la diagonale 6 2 APPARIEMENT ET ALIGNEMENT DE ZONES la longueur totale des segments de droites situ s hors de la diago nale la longueur des projections de ces segments de droites dans cha cune des langues la longueur de la diagonale le ratio longueur des segments de droites d tect s longueur de la diagonale Ces informations nous servent tablir un diagnostic de parall lisme entre les volets repr sent s Ce diagnostic de synchronicit permet de reconnaitre trois types de bi documents synchrones asynchrones avec inversion ou asynchrones avec suppression ou ind finis Ainsi en fonction de la longueur et de la position des segments de droites d cou verts nous tablissons un diagnostic de synchronicit entre les volets Si la diff rence de longueur en valeur absolue entre un des segments de droites d tect s pour un des volets dimension x est sup rieure 3 par rapport son quivalent dans l autre volet dimension y nous reconnaissons ce bi document comme asynchrone avec suppression partir des coordonn es x y x y de chaque segment nous tablisso
126. e phase de diagnostic tabli en fonction des multizones r v l es La chaine de traitement est illustr e au travers du tableau 18 Matrice Image binaris e Segments de droites Diagnostic d tect s Norah A i E A 3173 5 s 33 EN UM Eri ee Pra sio Mages o dV re C PAN een x Mus ue cp XR gem lt Ne Wo RE ME 3 Su E HS o EST s KT TI t TY xw uina wer wis s Li o nr PR op ee Inna SEASON MES a b 1 aitai O 2 j 323 2 32 113 p t TA FALCO b Ai lav fa n a s s a a q ms u 3 ETT a 3 Teak 1 1 E Patins 4 be fie 14244 2 Ep A x A Lira ect ES P u TS 22 ridi E potik Um poum P ETIO ON bi document synchrone hor v a T omoi lt IA A EET LEH _ B ZEN cid pet het Bor a Bo 1 3 del da ad gt At A s CR rado Saldo ca lian ds aimul a bi durae atri Bess im 231 SIR y Fe qu sitha M M Bus Hu pup WINE Le PI RE ud T ak de Fr MEFE agis Bu RN RS paiia i TES bi document asynchrone beet UE Fan galletas fan ar n E 3 FL ai ij l s T De ii vum do LD a E LE Wa lic d debio gt 3 E uio ugs Ai AUS Sa spe Ca TABLEAU 18 Traitement effectu sur chaque matrice La premi re ligne pr sente le traitement effectu sur un bi document danois allemand le communiqu de presse IP 05 489 de l UE La seconde pr sente le traitement effectu sur un bi document anglais frangais le communiqu de presse IP 05 1157 de l UE L
127. e zones de textes et les cas de zones rest es dans la langue source volets multilingues Nous faisons le constat que l identification automatique des docu ments asynchrones ne donne pas encore pleinement satisfaction Cer taines pistes susceptibles de mener des am liorations de notre m thode sont d j envisag es 119 120 R SULTATS ET VALUATION SUR LA TACHE D ALIGNEMENT DE ZONES affiner le diagnostic des matrices permettant notamment de mieux diagnostiquer les bi documents asynchrones et de cap ter les mod les mergents comme le mod le multilingue Sur ce point une collaboration avec des chercheurs en fouille de donn es pourrait nous permettre de proposer de meilleurs combinaisons de crit res de diagnostics ter les seuils que nous avons fix s afin de proc der un filtrage plus fin des appariements par des combinaisons de filtres moins ind pendants des langues et des collections dela m me maniere adapter automatiquement la taille des ma trices en fonction des volets traiter d tecter plus finement les fronti res de zones Une des strat gies envisageables serait de partir d unit s pr d finies comme l alin a ou la section et de les aligner selon notre m thode terme l apport de la d tection des multizones pourra tre valu en v rifiant que par cette m thode nous sommes d sormais effective ment capable de traiter ce que l on n tait pas capable de traiter les multidoc
128. el GIGUET Multi grained alignment of parallel texts with endogenous resources In In Proceedings of the Recent Advances in 141 142 BIBLIOGRAPHIE Natural Language Processing RANLP International Workshop New Trends in Machine Translations pages 12 17 Borovets Bulgaria 2005 Cit aux pages 9 et 45 Emmanuel GIGUET et Marianna APIDIANAKI Alignement d unit s textuelles de taille variable In 4 mes Journ es de la Linguistique de Cor pus Lorient France 2005 URL http hal archives ouvertes fr index php halsid 50le6pgjvcg7ral86p9i2qt0106view_ this doc halshs 00202140 amp version 1 Cit la page 42 Emmanuel GIGUET et Pierre Sylvain LUQUET Multilingual lexical database generation from parallel texts in 20 european languages with endogenous resources In Proceedings of the COLING ACL on Main conference poster sessions pages 271 278 Sydney Australia 2006 Association for Computational Linguistics URL http portal acm org citation cfm id 1273108 Cit aux pages 41 et 45 Brian Harris La traductologie la traduction naturelle la traduction automatique et la s mantique Cahier de linguistique 2 133 146 1973 ISSN 0315 4025 URL http id erudit org iderudit 800013ar Cit la page 8 Brian HARRIS Bi text a new concept in translation theory Lan guage Monthly UK 54 1988 URL http en wikipedia org wiki Parallel text Cit aux pages 8 et 149 Reinhard Rudolf Kard HARTMANN Contrasti
129. entre les occurrences des N grammes appari s sans se focaliser sur un espace de recherche pr cis Segments s2 o 0 05 01 0 15 02 0 75 08 0 85 0 9 0 95 Nombre de liens 14 3 O O O O O 2 O O TABLEAU 19 Illustration de max liens sj max liens vaut ici 14 le maxi mum sur la ligne 4 Ainsi la cr ation des matrices est directionnelle Nous n obtenons pas le m me rendu en comparant langue 1 langue 2 ou langue 2 langue 1 86 MISE EN UVRE Dans la figure 19 p 85 nous prenons pour illustrer max_liens s la distribution entre un segment donn du volet 1 s tendant de o 10 du document ici o o 1 avec chacun des segments du volet 2 Chaque ligne repr sente un segment sans chevauchement avec les autres chacun correspondant 596 du volet 2 20 fen tres en tout tant donn e la m thode de construction des matrices pr c dem ment d crite nous pouvons dire que plus un point de la matrice est noir plus les segments qui le composent sont similaires i e plus il existe de liens issus de l tape d appariement d crite dans la section 6 1 2 La figure 21 pr sente les lignes de matrice correspondant aux deux types d appariement de segments pr sent s dans la figure 20 0 Volet 2 100 Volet 1 Wo oT TL 1096 a Ligne de matrice correspondante la figure 20a 0946 Volet 2 10096 Volet 1 1096 b Ligne de matrice correspondante a la figure 20b FIGURE 21 Colo
130. erche de multizones 65 5 2 2 Calcul des multizones entre alignement et appa MEME asis RR w Rum De PUR S Q x MR 66 5 3 Appariement endog ne de chaines de caract res r p t es 7o 5 3 1 Capacit des N grammes de caract res r v ler des correspondances monolingues 70 5 3 2 Capacit des N grammes de caract res mettre en vidence des correspondances multilingues 72 5 3 3 Incapacit s des N grammes de caract res 23 5 4 Del alignement de zones l alignement intra multizones 74 II MISE EN UVRE ILLUSTRATIONS VALUATION 75 6 MISE EN EUVRE 77 6 1 Appariement endog ne de populations 78 6 1 1 Calcul des populations de N grammes de caract res 78 6 1 2 Appariement de N grammes de caract res r p t s partir de ventilation similaire sur la collection 79 6 2 Appariement et alignement de zones 83 6 2 1 Travail pr paratoire pour la d tection de multi zones cr ation de matrices de points 83 6 2 2 D tection des multizones partir des matrices 86 6 2 3 Diagnostic de parall lisme 88 7 R SULTATS ET VALUATION SUR LA T CHE D ALIGNE MENT DE ZONES 93 7 1 Mod les et images obtenues 94 7 1 1 Mod les envisag s et images obtenues 94 7 1 2 Images obtenues et mergence d un nouveau mod le 95 7 2 R partitions des diff rents diagnostics sur les collections 96 7 2 1 Corpus d valua
131. ermet d valuer la capacit de chacune des deux m thodes d cider tant en tendu que la m thode Grand Angle n est pas pr vue pour diagnostiquer les cas d inversion et de synchronicit Ce tableau montre que le taux de d cision est important partant de 6496 pour les collections trait es sans leur mise en forme mat rielle et allant jusqu 9796 sur les documents dans des langues proches exploit s avec leur mise en forme Ces r sultats nous permettent de valider nos hypoth ses de d part l appariement entre des langues proches donne de meilleurs r sultats que celui entre des langues loign es Les taux de d cisions entre ces deux contextes pr sentent un cart de 1396 sur le total des collections 1 2 et 3 L usage du lexique est diff rent d une langue l autre Le finnois par exemple comportera beaucoup plus d occurrences que son quivalent en francais qui sera alter nativement remplac ici par un synonyme ici par un pronom En d autres termes nous aurons plus de difficult s apparier des langues diff rentes de ce point de vue l Les diff rences morpho logiques tant quant elles liss es par l usage des N grammes de caract res qui permet de traiter par la m me m thode des langues riches ou pauvres morphologiquement analyser un multidocument par le prisme d une collection de multidocuments th matiquement proches am liore galement les r sultats jusqu 3 de d cisions prises Ceci s e
132. es de points 83 6 2 2 Detection des multizones partir des ma LEICES es a dox Nee Oe MUR ann 86 6 2 3 Diagnostic de parall lisme 88 77 79 MISE EN UVRE 6 1 APPARIEMENT ENDOGENE DE POPULATIONS DE N GRAMMES DE CARACTERES R P T S DANS UN CORPUS MULTILINGUE AU FORMAT HTML Dans cette section nous d crivons les exp rimentations que nous avons faites en mati re d amorce fr quentielle en vue d un alignement de multidocuments Notre premier objectif consiste obtenir de facon endog ne et ind pendante des langues une s rie de points de compa raison entre deux volets des appariements Pour mettre en ceuvre les principes pr c demment voqu s nous avons impl ment les tapes de calcul de populations de N grammes de caract res et d appariement de ces populations Les meilleurs appariements sont utilis s dans la phase suivante pour la cr ation des matrices de points 6 1 1 Calcul des populations de N grammes de caracteres Les populations sont d duites d un tableau de suffixes Crochemore et al 2007 K rkk inen et Sanders 2003 Ce dernier permet de calculer la liste des chaines de caract res r p t es de longueur maximale c est dire les chaines monolingues r p t es qui ne sont pas incluses au sein d autres r p titions de m me effectif De facon empirique dans une d marche d amorce nous ne consid rons que les chaines de longueur gale ou sup rieure 5 caract res Le tab
133. es de pr cision rappel et F mesure 101 6 bi documents avec inversion correctement attri bu s collections 1 2 3 methode Petit Angle 102 10 bi documents avec inversion attendus mais non obtenus collections 1 2 3 m thode Petit Angle 103 10 bi documents avec inversion correctement attri bu s collections 1 2 3 methode Grand Angle 104 10 bi documents avec suppression correctement at tribu s collections 1 2 3 m thode Grand Angle 105 10 bi documents avec suppression attendus mais non obtenus collections 1 2 3 m thode Grand Angle 106 5 bi documents avec inversion correctement attri bu s collections th matiques m thode Petit Angle 107 10 bi documents avec inversion non obtenus col lections th matiques m thode Petit Angle 10 bi documents avec inversion correctement attri bu s collections th matiques m thode Grand Angle 109 157 158 Liste des tableaux TABLEAU 36 TABLEAU 37 TABLEAU 38 TABLEAU 39 TABLEAU 40 TABLEAU 41 TABLEAU 42 TABLEAU 43 TABLEAU 44 TABLEAU 45 TABLEAU 46 TABLEAU 47 TABLEAU 48 TABLEAU 49 10 bi documents avec suppression correctement at tribu s collections th matiques m thode Grand O he ao ace EET EE TEPERT EE e de ERU 110 10 bi documents avec suppression attendus mais non obtenus collections th matiques m thode Grand LU O gt o lt Sq 9 2 O Q m 111 Alignement de zones IP 05 473
134. es images de droites illustrent la d tection de multizones Les segments de droites sont mis en vidence par des ellipses rouges leurs projec tions sur les axes apparaissent en bleu Chacune des tapes est d taill e dans les sous sections qui suivent 6 24 Travail pr paratoire pour la d tection de multizones cr ation de matrices de points La phase d appariement constitue une amorce grace laquelle nous trouvons des segments de volets pr sentant des similitudes Gr ce ces segments nous r v lons des zones de volets autrement dit des grains sup rieurs pr sentant des similitudes des multizones Un segment de volet correspond une portion de volet d finie en pourcentage Dans notre hi rarchie de grains voir figure 11 page 57 il se situe entre la 93 84 MISE EN UVRE zone et le N gramme de caract res Ainsi une zone peut comprendre plusieurs segments et un segment plusieurs N grammes de caract res Une matrice repr sente sous forme de points l appariement entre les N grammes de caract res de deux volets d un multidocument Tous les liens correspondant un appariement de deux N grammes de caract res calcul partir de la collection et actualis dans ce multidocument y sont pris en compte Chaque axe de nos matrices axe horizontal et axe vertical corres pond un des deux volets du bi document diagnostiquer Il y a autant de points sur une ligne d un axe que de segments de volet d finis e
135. esado en los siguientes t rminos Exemple document IP 05 975 ligne 9 FR Les collectivit s pourront soit fournir leurs transports locaux en r gie soit les confier en toute transparence un op rateur sp cialis FI Paikallisviranomaiset voivat joko vastata itse paikallisliikenteen palvelujen tarjonnasta tai uskoa niiden tarjonnan avoimelta pohjalta jollekin erikoistuneelle liikenteenharjoittajalle Le fait qu il s agisse d un op rateur de transport est en finnois clai rement explicit liikenteenharjoittajalle la diff rence de ce qui est propos dans la version francaise un op rateur sp cialis gt Le fran 15 en Road transport new working time directive to cover false self employed drivers OBSERVATIONS LINGUISTIQUES ET TRADUCTOLOGIQUES fr Transport routiers une nouvelle directive sur le temps de travail pour couvrir le cas des faux conducteurs ind pendants a Titre de communiqu de presse en The new proposal aims to ensure that the existing working time rules apply to all employed professional drivers including false self employed workers ed Bu ES fr Cette proposition vise garantir l application des regles actuelles sur le temps de travail tous les conducteurs professionnels y compris les faux travailleurs ind pendants b R sum de communiqu de
136. extes ont t recus repr sentant 134 combinai sons diff rentes de langue source et de langue cible Les traduc teurs dela DG Traduction ont not les copies contribuant ainsi d terminer quelle tait la meilleure traduction dans chaque tat membre p p Premier du genre ce concours de tra duction a t organis par la Commission europ enne titre de b projet pilote b le but tant de faire mieux connaitre la place essentielle de la traduction dans la politique multilingue appliqu e par la Commission Il a galement permis aux l ves de s essayer au m tier de traducteur fi o maaliskuuta 2008 lt p gt hl a name Heading4 gt lt a gt EU palkinnot lupaaville nuorille k nt jille lt b gt lt h1 gt lt h2 gt a name Heading7 gt lt a gt lt b gt lt i gt Brysseliin saapuu t n n 27 nuorta k nt j yksi jokaisesta EU j senvaltiosta noutamaan ensimm isess Euroopan laajuisessa koululaisten k nn skilpailussa heille my nn lt b gt ett t n n on n kyv sti esill k nt jien ty joka jaa usein huo maamatta mutta joka on EU lle ratkaisevan t rke lt p gt lt p gt Nuorille k nt jille on j rjestetty lt b gt komission p toimipai kassa pidett v n palkintojuhlan lt b gt lis ksi vierailu Euroopan komission elle kielelle L ht tekstit k sitteliv t vastuullista ja vaihtoeh toista matkailua lt p gt lt p gt Kilpailu
137. ffectiveness of water recycling using a new reactor for aerobic di gestion of wastewater lt p gt p second aims to re use brownfield sites to grow biomass energy crops restore damaged land and generate heat and power from renewable energy sources ee e Council Directive 1999 13 EC of 11 March 1999 on the limitation of em TABLEAU 42 Alignement de zones entre les volets fr et en du communiqu IP o5 1157 pr sentant une diff rence d ordre des zones d tec t e au travers de la collection 1 et dela m thode Petit Angle CONCLUSION ET PERSPECTIVES Nous annoncions en introduction qu une marge de progression dans le domaine de l alignement de documents traduits semblait envisageable Au regard du chemin parcouru nous pouvons valider cette hypoth se de d part Une voie est ouverte vers le traitement de documents traduits r els Un tel r sultat est le fruit d une conjonction de connaissances linguistiques et de comp tences informatiques en algorithmique du texte et en traitement d images Le chapitre 1 nous a permis d illustrer la complexit de la traduction en tant que produit de l op ration traduisante op ration empreinte la fois de servitudes linguistiques et d un travail de r criture de la part des traducteurs Deux ph nom nes amenant chacun son lot de diff rences entre des documents traduits diff rence de volume ajout ou suppression inversion Dans le chapitre 2 nous avons proc d un tour d
138. for a summary of the 88 projects funded under LIFE Environment More detailed information on each project is available at lt p gt lt p gt lt a href http europa e ht gt lt b gt ANNEX lt b gt lt p gt lt p gt lt b gt Overview of LIFE Environment projects 2oos by coun try lt b gt lt p gt lt p gt lt b gt Belgium 2 projects Denmark 6 projects e e Estonia 1 project the fermentation of manure processing of bio gas into tronic equipment in line with EU legislation lt sup gt lt b gt lt a name fnB2 href fn2 id fnB2 gt 2 lt a gt lt b gt lt sup gt with a particular emphasis on rural areas lt p gt lt p gt The second targets households schools and day care centres in Helsinki with a view to increasing awareness and ensuring the amount of waste produced does not ex ceed 2003 levels lt p gt lt p gt lt b gt France 11 projects The sixth will substitute lead with o to reduce diffuse pollution from agriculture in support of the Water Framework Directive lt a href i05_1157 enr html _Ref111348773 gt 1 lt a gt lt p gt lt p gt The second The second concerns the pre treatment of wool in yarn production The main goalis the elimination of emissions of absorbable organic halides AOX and a significant decrease in the use of chemicals in the cleaning process through a sustainable plasma pre treatment process p p One project addresses
139. gt lt p align right gt Br ssel den 4 Juli 2007 lt p gt hl a name Heading4 gt lt a gt b GAP Reform Weinreform wird Europa helfen verlorene Marktanteile zur ckzugewinnen schafft Die Dringlichkeitsdestillation w rde durch zwei aus den nationalen Finanzrahmen finanzierte Ma nahmen f r das Krisenmanagement ersetzt pss I k nnen Die Entscheidung der Erzeuger ihre Produktion zu steigern wird davon abh ngen wieweit sie das was sie erzeugen auch verkaufen k nnen lt p gt p b Onologische Verfahren lt b gt Die Zustandigkeit f r die Ge nehmigung neuer bzw nderung bestehender nologischer Verfahren wird auf die Kommission bertragen die die von der OIV genehmigten nologi schen Verfahren bewertet und in die Liste von genehmigten EU Verfahren aufnimmt Die EU genehmigt die Anwendung international bereits zugelasse ner nologischer Verfahren f r die Herstellung von Wein der zur Ausfuhr in diese Bestimmungsl nder vorgesehen ist Die Einfuhr von Most zur Weinbe reitung und der Verschnitt von Weinen aus der EU mit eingef hrten Weinen bleiben weiterhin verboten lt p gt lt p gt b Bessere Etikettierungsvorschriften lt b gt Das Konzept f r Qualitatsweine aus der EU wird auf dem geografischen Ursprung basieren in einer bestimmten Region erzeugter Qualit tswein Weine mit geografischer Angabe werden unterteilt in Weine mit gesch tzter geografischer Angabe und Weine
140. hode sans pr suppos de parall lisme entre les diff rents volets d un multidocument L id e essentielle de ces travaux est la suivante entre deux volets d un multidocument il existe des grains qui maximisent le parall lisme nous les appelons des multizones Celles ci peuvent recouvrir plusieurs r alit s documents s rie de paragraphes paragraphes propositions Ces multizones ne sont pas d limitables de facon ad hoc il convient de le faire en contexte et de facon ind pendante des langues ces fins nous combinons plusieurs proc d s originaux tudier chaque multidocument au travers d une collection de multidocuments exploiter la mise en forme des documents par traitement direct du source ou encore traiter des chaines de caract res r p t es plut t que des mots Notre objectif est double appariement et alignement i e cr ation de ressources et analyse de documents Cette m thode requiert peu de supervision l ajout d une nouvelle langue ou le changement de corpus d entr e ne repr sentent pas un co t important MOTS CL S traitement automatique des langues alignement multilinguisme paral l lisme collection de multidocuments multizones chaines de caract res r p t es ABSTRACT Multilingual document alignment method without assumption of parallelism Today the works using multilingual documents are turning to the study of com parable texts even though all aspects of parallel documents have not been
141. horizon des m thodes existantes avec un int r t particulier pour les facons de prendre en charge ces diff rences entre les documents traduits Le constat qui en est ressorti est que l hypoth se de parall lisme largement exploit e par l tat de l art constitue un verrou au traitement de documents traduits r els Notre parti pris a d s lors t celui d une m thode sans pr suppos de parall lisme Ainsi dans le chapitre 3 nous avons formul les grandes lignes de notre approche et pr sent le corpus que nous souhaitions tre capable de traiter un corpus r el Plus pr cis ment dans les chapitres 4 et 5 nous avons successivement pr sent les concepts originaux la base de notre m thode le multidocument les collections de multidocuments le document et sa mise en forme les chaines de caract res r p t s et les multizones avant de d tailler la m thode proprement parler Enfin la troisi me partie a permis de montrer qu un travail inter disciplinaire alliant hypotheses linguistiques algorithmique du texte et traitement d image donnait des r sultats d ores et d j prometteurs Les images que nous tirons des bi documents offrent l il nu une vision claire des strat gies de traductions Ces images nous ont d ailleurs permis de pointer d autres r alit s sur les traductions que celles commun ment envisag es les permutations de zones importantes entre deux versions d un m me document les suppressions d
142. i eb TABLEAU 21 Panel des matrices obtenues en vis vis avec les modeles d finis au chapitre 5 71 MODELES ET IMAGES OBTENUES 71 2 Images obtenues et mergence d un nouveau mod le En observant nos matrices l oeil nu nous avons constat l existence d un motif r current une sorte de matrice dans la matrice En retournant aux documents nous avons constat que ce motif d crivait des zones de textes dans une autre langue que les deux attendues dans au moins un des deux volets Pour des raisons fortuites ou structurelles oubli ou d faut de traducteurs des zones de textes de certains volets n ont pas fait l objet d une traduction Au travers de la collection le volume de traduction de chaque volet diff re Contrairement nos attentes les volets ne sont pas tous monolingues Nous illustrons ce nouveau cas de figure dans le tableau 22 par deux exemples de communiqu s de presse Cas de volets multilingues IP o5 182 o Were ee lt A BE ER en ere aaa RIEN Mae i r5 0 8g PCR DOCU E 07 er 1 CATIE Em E f El m Lu c i H im 1 1 te s DH m a a Fc am q nmm Lm H i etre k E I FP E ne FOR Naa ri na att L 117 7 J eS um pmi m kan m ix Y E s TEX mom o m Shy mu A m H li mio s LEE 1 i j mmn numm j m mI mai 1 N L m A sm mpm om a FERE ra LE F E JH im mim wP Pan Pa LE in T F Hi I
143. i n adicional v ase a href http europa eu int rapid pressReleases Action do reference MEM0 05 395 amp amp format HTML amp amp aged 0 amp amp Language FR amp amp guiLanguage f r gt MEMO 05 395 lt a gt et lt a href http europa eu int rapid pressReleasesAction do reference MEMO 05 396 amp amp format HTML amp amp aged 06amp language ENgamp guilanguage fr gt MEMO 05 396 lt a gt lt p gt lt p gt lt a href http europa eu int comm enlargement index htm gt http europa eu int co TABLEAU 39 Alignement de zones entre les volets fr et es du communiqu IP 05 1344 avec suppression d tect e au travers de la collection 1 et dela m thode Grand Angle Multizone 1 Multizone 2 Multizone 3 74 ALIGNEMENT DE ZONES 115 IP 08 405 fr hl lt h2 gt a name Heading gt lt a gt lt b gt lt i gt Vingt sept jeunes traducteurs un par tat membre de l Union europ enne sont venus aujourd hui Bruxelles pour recevoir leur prix l issue du tout premier concours europ en de traduction organis l intention des coles M Leonard Orban commissaire europ ment fier que le travail de nos traducteurs souvent invisible mais indispensable l Union soit aujourd hui sous les projec teurs lt p gt p Outre la b c r monie de remise des prix qui aura lieu au si ge de la b s n importe quelle autre langue officielle de l Union p p Plus de 1 300 t
144. ieurs dimensions Pour cela nous faisons varier les dimensions suivantes proximit des langues collection de multidocuments th matiquement proches ou non multidocuments avec ou sans leur mise en forme mat rielle Ainsi nous d finissons les domaines de validit de notre m thode de d tection et d alignement de zones SOMMAIRE 7 1 Mod les et images obtenues 94 7 1 1 Mod les envisag s et images obtenues 94 7 1 2 Images obtenues et mergence d un nouveau model hug de ei d Q Q Q 95 7 2 R partitions des diff rents diagnostics sur les collec 374 a ranas lores S eo dea ee 96 7 2 1 Corpus d valuation 96 7 2 2 Synth se des r sultats sur notre corpus d valuation 97 7 3 valuation et discussion des r sultats 99 7 3 1 Comparaison avec d autres mod les 100 7 3 2 Pourquoi des matrices restent ind finies ou Mal denies C rs 2 6 8 h 2 16 as ae ds 112 7 4 Alignement de zones 112 93 94 R SULTATS ET VALUATION SUR LA T CHE D ALIGNEMENT DE ZONES 71 MOD LES ET IMAGES OBTENUES 711 Mod les envisag s et images obtenues Dans cette section nous comparons l attendu que nous avions en matiere de visualisation de ph nom nes textuels entre des volets de multidocuments compar s deux deux Les images que nous obtenons sont en accord avec les modeles propos s au chapitre 5 Pour illustration nous mettons les images obtenues et les mo
145. ignement en mettant l accent sur la question du parall lisme travers diff rentes illustrations en contexte et une vue d ensemble des m thodes d alignement La deuxi me partie met ces observations profit pour d gager une m thode sans pr suppos de parall lisme Enfin la troisi me partie expose la mise en ceuvre de cette m thode Premiere partie DE LETUDE DE CORPUS DE DOCUMENTS PARALLELES L TUDE DE COLLECTIONS DE MULTIDOCUMENTS OBSERVATIONS LINGUISTIQUES ET TRADUCTOLOGIQUES SUR LES DOCUMENTS PARALLELES Ty Eut on se contenter de soutenir que traduire c est dire la m me l chose en d autres mots Pas si simple la ligne de partage entre simple reproduction traduction et libre adaptation est pour le moins fluctuante la traduction avant d op rer ab extra la fron ti re ext rieure des langues travaille de l int rieur de la moindre de nos paroles Voil donc que cette probl matique acquiert une port e in soupconn e au d part aussi vaste d sormais que le langage lui m me Ost 2009 p 13 Dans ce premier chapitre nous parcourons pas pas la distance qui s pare une langue d une autre Nous commengons par une description de l op ration traduisante Puis nous pr sentons plusieurs ph nom nes linguistiques dont l actualisation est propre chaque langue ce que nous illustrons travers des exemples de traductions multilingues pris en contexte Une telle observation traductolog
146. imitation pr cise des segments mettre en correspondance entre les langues Si les diff rentes m thodes d alignement au grain paragraphe ou phrase ont fait leurs preuves sur certains types de documents il est n anmoins noter qu elles reposent sur des hypoth ses simplificatrices propos du parall lisme de la structure des documents l ordre des phrases dans les deux textes est identique ou tr s proche les textes contiennent peu de suppressions ou d adjonctions les alignements 1 1 de longueur quivalente sont tr s large ment pr pond rants et les rares alignements m n sont limit s de petites valeurs de m et n typiquement 2 Elles ne sont par cons quent que tr s peu tol rantes aux variations dis positionnelles du contenu Les r sultats des analyseurs bas s sur ces hypoth ses se d gradent lorsqu elles ne sont pas v rifi es dans le corpus La qualit des alignements est globalement fonction du corpus satisfai sants sur des textes juridiques et techniques textes lt simples gt o les sch mas 1 1 mot et phrase sont les plus courants m diocres sur des textes scientifiques t moignant davantage d un travail de traduction 2 5 CONSTATS M THODES D ALIGNEMENT EXISTANTES ET APPLICATIONS 45 r criture que d un travail de traduction transcodage et elle se d grade encore mesure que l on tend vers des textes litt raires Des alternatives ont t propos es pour appr hender diff
147. inbedrifter stotte til gron host nye kriseforvaltningsforanstaltninger nemlig forsikring mod naturkatastrofer og d kning af de administrative om kostninger i forbindelse med oprettelse af sektorspecifikke gensidige fonde lt p gt p b Foranstaltninger til udvikling af landdistrikter lt b gt Mange af foranstaltningerne i forordningen om udvikling af landdistrikterne kan have interesse for vinsektoren ikke mindst etablering af unge landbrugere bedre markedsforing erhvervsuddannelse stotte til producentorganisationer stotte til daekning af ekstraomkostninger og indkomsttab ved opretholdelse af kulturlandskaber samt fortidspensionering For at tage hojde herfor er det meningen at der gradvist skal overfores penge til budgettet for udvikling af landdistrikterne I 2009 bliver der s ledes tale om 100 mio EUR og fra 2014 om 400 mio EUR Disse penge skal oremarkes til vinproducerende omr der p p b Vnologiske fremgangsm der lt b gt Ansvaret for godkendelse af nye ono logiske fremgangsmader eller endring af de eksisterende fremgangsmader overdrages til Kommissionen der vil foretage en vurdering af de onologiske fremgangsmader der er accepteret af OIV og medtage dem pa listen over accepterede fremgangsmader i EU EU vil tillade internationalt anerkendte fremgangsmader med henblik pa fremstilling af vin til eksport til de pagel dende destinationer Forbuddet mod fremstilling af vin af importeret most og blandi
148. inot joukkoliikent een kehitt miseen Euroopan komissio hyv ksyi t n n tarkistetun ehdo tuksen asetukseksi jolla edistet n julkisten joukkoliikennepal velujen kehitt mist 6 N grammes de caract res sont r p t s Ainsi en nous attachant aux cha nes de caract res r p t es nous souhaitons capturer par le m me m canisme des unit s qui s tendent sur moins d un mot comme sur un ou plusieurs mots des expressions r p t es plus longues que des mots d tectant ainsi le figement des racines de mots se r p tant en g n ral avec plus de constance que les formes fl chies notamment dans les langues morphologi quement riches et ou agglutinantes des indices de forme en g n ral des parties de balises HTML pas n cessairement int ressants dans l optique de constitution de lexiques multilingues mais des l ments pr cieux comme points d ancrage pour l alignement Outre l augmentation du nombre d unit s r p t es nous pouvons galement consid rer la nature de ces derniers il nous apparait qu un d coupage en N grammes de caract res en favorisant la r p tition met davantage de segments signifiants en vidence LANGUE MOTS CHA NES DE CARACTERES fr transport transports transport transporter transportation Tableau 12 Mise en vidence de la chaine de caract re commune quatre mots form s par d rivation Ici m me en mettant en ceuvre pour les N grammes de mots un t
149. insi que le corpus que nous souhaitons analyser Ce corpus se veut r el empreint de diversit s linguistiques et de la marque du travail de r criture que constitue la traduction 1 http europa eu 2 Nous le mettons la disposition de la communaut http code google com p europa corpus Deuxi me partie M THODE D ALIGNEMENT SANS PR SUPPOS DE PARALL LISME NOS CONCEPTS N Tous pr sentons ici les concepts utilis s pour d finir en contexte si UN les documents que nous cherchons aligner sont effectivement traductions si oui dans quelles mesures et pour r v ler les unit s qui sont effectivement en correspondance Notre approche est r solument orient e analyse textuelle en cela qu elle s applique des multidocuments dans leur int gralit Nous utilisons les N grammes de caract res les collections de multidocuments et la Mise en Forme Mat rielle MFM pour leur capacit r v ler de la r p tition Enfin dans un but op ratoire nous introduisons le concept de multizone SOMMAIRE 4 1 Lemultidocument 54 4 2 La collection de multidocuments 54 4 3 Le document et sa mise en forme 55 4 4 Les cha nes de caract res r p t es de longueur maxi ni AM censor raros dara co 55 45 Les multizones 57 53 54 NOS CONCEPTS 4 1 LE MULTIDOCUMENT Les syst mes d alignement sous phrastique prennent g n ralement en entr e un corpus de
150. int rieur du discours entre deux expressions linguistiques dont l une dite ana phorique ou forme de rappel re oit son interpr tation de l autre dite source de l anaphore ou ant c dent qui lui est ant pos e Neveu 2004 Au travers du tableau 7 nous pouvons constater que l usage de l anaphore n est pas uniforme voir galement Sachtouri 2006 Il d pend d une part du jeu des synonymes qui s op re dans chaque langue et d autre part de l usage que chacune d entre elles fait des pronoms la ligne 24 du document fran ais le pronom lt il anaphorise son ant c dent le syntagme nominal une proposition r vis e d un r gle ment gt 1 5 En finnois l ant c dent de la ligne 5 est anaphoris par le nom commun asetuksessa quivalent s mantique en contexte de reglement gt en fran ais De m me en hongrois et en grec la reprise anaphorique ne se fait pas de mani re pronominale car ces langues en font souvent l conomie Le pronom il n a pas graphiquement d quivalent s mantique puisqu il est contenu respectivement dans les verbes lt Kad epwve gt en grec et lt Establece gt en espagnol 14 4 Similitude et diff rence d ordre au niveau sur phrastique La conservation de l ordre au niveau sur phrastique d un volet d un multidocument l autre ne peut tre pr suppos e Dans la figure 5 l ordre est effectivement globalement pr serv entre les volets anglais en et alleman
151. ion et de quasi bijection des unit s textuelles ne sont pas toujours v rifi es comme nous l avons observ et illustr dans le chapitre 1 La traduction n est pas un simple transcodage la lin arit du discours n est pas toujours conserv e Il existe des diff rences d ordre tant au niveau sur que sous phrastique et des suppressions massives peuvent intervenir Ainsi bien que l alignement automatique de traductions soit consi d r comme un domaine verrouill un probl me quasi r solu et que les recherches s orientent maintenant vers les corpus comparables il convient de nuancer ce propos en distinguant notamment les diff rents types de corpus utilis s Si l on peut en effet dire que l alignement sur et sous phrastique sur corpus de phrases parall les ou de documents pa rall les et synchrones est r solu il n en est cependant pas de m me pour l alignement sur et sous phrastique de textes parall les asynchrones ou comme on peut les trouver nomm s complexe bruit s noisy crois s avec d placement Mais comme le souligne Church 1993 Real texts are noisy Cette affirmation met part la traduction traditionnelle de roman par exemple et vise davantage les traductions tout venant comme celles publi es sur internet qui pour des raisons de mise en page ou de gains subissent r guli rement des suppressions et ou des inver sions Il s agit l de documents quasi parall les mi chemin entre les 35
152. ique t moigne rapidement de certaines n cessit s si l on souhaite mettre en ceuvre un syst me de Traitement Automatique des Langues et plus particuli rement comme c est notre cas un syst me d alignement Ce premier chapitre nous amenera naturellement au chapitre 2 consacr un rappel de l existant m thodologique en mati re d alignement SOMMAIRE 1 1 La traduction une op ration linguistique et humaine 7 1 2 Les traductions des objets d tude 8 1 3 Des t moins privil gi s de la vari t des langues 9 1 3 1 Au niveau morphologique 9 1 3 2 Au niveau syntaxique 12 1 3 3 Similitude et difference d ordre au niveau sous phrastique 15 1 4 Les traductions des nonciations uniques 15 1 41 L implicite et l explicite 15 1 4 2 Lasynonymie 17 1 43 L anaphore 19 1 Chaque langue peut se traduire elle m me Dakhli 2009 OBSERVATIONS LINGUISTIQUES ET TRADUCTOLOGIQUES 1 4 4 Similitude et diff rence d ordre au niveau sur phrastique 19 1 5 Contraintes ditoriales 19 1 6 Constat l alignement automatique un enjeu de taille 24 1 1 LA TRADUCTION UNE OP RATION LINGUISTIQUE ET HUMAINE 7 11 LA TRADUCTION UNE OP RATION LINGUISTIQUE ET HU MAINE La traduction est une op ration complexe logique psychologique et linguistique au m me titre que l
153. ission determines that serious market disruption has occurred it can As set out by the conditions of the Textiles Specific Safeguard Clause these formal consultations shall last ninety days At no stage of the process is there any automatic advance to the next stage Any possible safeguard measures would take the form of a quantitative import restriction and could be put in place until December 31 of the current year or for twelve months if the request for formal consultations comes in the last three months of the calendar year P 05 473 Bruxelles le 24 avril 2005 La Commission europ enne ouvre des enqu tes sur la brusque hausse des Importations de textiles chinois M Peter Mandelson commissaire responsable du commerce a annonc ce jour qu il avait d cid de demander la Commission europ enne l autorisation de lancer des enqu tes concernant les exportations chinoises de neuf cat gories de produits textiles destination de l Union europ enne Peter Mandelson a d clar Nous venons de recevoir les statistiques d importation des Etats membres pour le premier trimestre 2005 Les cat gories de produits couvertes par l enqu te sont les T shirts les pull overs les chemisiers les bas et les chaussettes les pantalons pour hommes les manteaux pour femmes les soutiens gorge les fils de lin ou de ramie et les tissus de lin Les cat gories en cause couvrent sept des douze cat
154. itions Bi texte Ensemble constitu d un texte original en langue source et d une de ses traductions terme introduit par Harris 1988 Cognats Chaine de caract res qui reste invariante du point de vue graphique d une langue une autre noms propres chiffres sigles Corpus comparables Ensemble de documents non traduits pr sen tant une homog n it d un point de vue th matique chronologique et de leur registre D jean et Gaussier 2002 en donnent la d finition Deux corpus de deux langues 1 et 2 sont dits comparables s il existe une sous partie non n gligeable du vocabulaire du corpus de langue l1 respectivement 2 dont la traduction se trouve dans le corpus de langue l2 respectivement l1 Corpus parall les Ensemble de documents compos d originaux et de leurs traductions Correspondances traductionnelles Ensemble d unit s textuelles en re lation d quivalence traductionnelle On distingue des correspondances traductionnelles bi ou quasi univoques et des correspondances mul tiples 149 150 GLOSSAIRE Correspondances traductionnelles bi ou quasi univoques On parle de correspondances bi univoques lorsqu au sein d un corpus bilingue par exemple un mot source est toujours traduit par le m me mot cible dans l autre langue et qu ils pr sentent donc des similtudes de fr quence totale Correspondances traductionnelles multiples On parle de correspon dances bi univoques lorsqu au
155. l 1993 Dagan et Church 1994 Wu et Xia 1994 Resnik et Me lamed 1997 Tr s rapidement les travaux se sont toutefois orient s vers l extraction d unit s plus longues que le mot graphique collocations terminologie et phras ologie Daille et al 1994 Gaussier 1998 Zimina 41 42 EXISTANT M THODOLOGIQUE Poirot 2004 Giguet et Apidianaki 2005 Lardilleux 2010 Mais peu de travaux s attachent l alignement d unit s plus courtes il convient de mentionner ici la tentative de Cromi res 2006 de r aliser un aligne ment sous phrastique par calcul de coefficients de corr lation entre des N grammes de caract res de taille non pr d finie Il conseille particulie rement l utilisation du grain caract re sur les langues asiatiques ot le mot n est pas facile isoler Pour les langues occidentales Cromi res a galement appliqu son algorithme au grain caract re sur un petit corpus de bi phrases tir es du corpus Europarl cause de limites de m moire L alignement sous phrastique se heurte imm diatement la d li mitation des unit s notamment lorsque le mot n est pas physiquement marqu ou bien lorsque la langue est agglutinante En outre on ne peut pr sumer une quelconque pr servation de l ordre des unit s dans la phrase Pour pallier cette difficult le recours un dictionnaire bi lingue est souvent l option choisie mais cette technique exclut d embl e l analyse des langues faiblement dot es e
156. l les La notion de corpus parall les utilis s dans les tudes de traduction sur corpus se r f re g n ralement galement un corpus de textes traduits tandis qu un corpus de textes non traduits est appel lt corpus comparable gt Dans le domaine du TAL comme en linguistique contrastive l on consid re que des corpus parall les sont constitu s d ensembles de do cuments compos s d originaux et de leurs traductions Mais l id e de parall lisme en TAL va plus loin et op re galement dans les dimensions horizontale et verticale des textes On suppose globalement que la com binaison et la s lection des unit s sont r alis es de la m me fa on d une langue l autre l int rieur des documents Nous revenons sur cette d finition du parall lisme en TAL dans la partie consacr e l hypoth se de parall lisme ou hypoth se de synchronicit pour limiter les ambiguit s Voir 2 2 Nous situant dans le domaine de la traduction sur corpus nous utili sons l expression corpus parall les pour d signer un ensemble constitu de textes parall les i e de documents sources et de plusieurs de leurs traductions N anmoins nous adh rons l id e que les fonctions com municatives des textes et de leurs traductions ne sont pas toujours les m mes et par cons quent que la structure des documents en relation de traduction n est pas toujours la m me les arrangements de s lection et de combinaison tant propre chaq
157. l Confe rence on Language Resources and Evaluation Genoa Italy 2006 URL BIBLIOGRAPHIE http hal inria fr inria 00115670 v1 Cit aux pages 32 et 40 Kenneth Ward CHURCH Char align a program for aligning parallel texts at the character level In Proceedings of the 31st annual mee ting on Association for Computational Linguistics ACL 93 page 1 8 Stroudsburg PA USA 1993 Association for Computational Linguis tics URL http dx doi org 10 3115 981574 981575 ACM ID 981575 Cit aux pages 35 36 38 43 et 48 Kenneth Ward CHURCH et Jonathan Isaac HELEMAN Dotplot A pro gram for exploring Self Similarity in millions of lines of text and code Journal of Computational and Graphical Statistics 2 2 153 174 1993 ISSN 10618600 URL http www jstor org stable 1390697 Ar ticleType research article Full publication date Jun 1993 Co pyright 9 1993 American Statistical Association Institute of Mathe matical Statistics and Interface Foundation of America Cit la page 43 Guylaine COCHRANE Le foisonnement ph nom ne complexe TTR traduction terminologie r daction 8 2 2007 URL http id erudit org iderudit 037222ar Cit aux pages 8 et 10 Maxime CROCHEMORE Christophe HANCART et Thierry LECROQ Algo rithms on Strings Cambridge University Press 1 dition 2007 ISBN 0521848997 Cit la page 78 Fabien CROMIERES Sub sentential alignment using substring co occurrence
158. l acm org citation cfm id 973215 973218 amp coll BIBLIOGRAPHIE Portal amp dl GUIDE amp CFID 78818668 amp CFTOKEN 17474915 Cit la page 43 I Dan MELAMED Models of translational equivalence among words Computational linguistics 26 221 249 2000 URL http citeseer ist psu edu viewdoc summary doi 10 1 1 19 9615 Cit la page 40 Robert C MOORE Fast and accurate sentence alignment of bilingual corpora In Proceedings of the sth Conference of the Association for Machine Translation in the Americas on Machine Translation From Research to Real Users pages 135 144 Springer Verlag 2002 ISBN 3 540 44282 0 URL http portal acm org citation cfm id 749407 Cit la page 36 Yayoi NAKAMURA DELLOYE M thodes d alignement des propositions un d fi aux traductions crois es In Actes de la 14 me conference annuelle sur le Iraitement Automatique des Langues Naturelles 12 15 juin Toulouse France 2007 Cit la page 36 Franck NEVEU Dictionnaire des sciences du langage Armand Colin 2004 ISBN 2200263783 Cit aux pages 10 17 19 et 56 E A Niwa Toward a science of translation Brill Leiden 1964 Cit la page 8 Britta NORD Hilfsmittel beim bersetzen Eine empirische Studie zum Rechercheverhalten professioneller bersetzer Peter Lang Frankfurt am Main 2002 ISBN 3631393318 Cit la page 8 Christiane NORD TRACI The trainee translator s card index a self made
159. l objet d une pr sentation d une partie des matrices les illustrant et qui ont servi au diagnostic 100 R SULTATS ET VALUATION SUR LA TACHE D ALIGNEMENT DE ZONES Les exp riences r alis es sur ces deux s ries de collections montrent que la m thode Petit Angle offre un rappel entre 77 et 8096 pour une pr cision entre 84 et 86 La m thode Grand Angle quant elle obtient un rappel entre 40 et 4996 pour une pr cision entre 40 et 4496 Il faut rappeler sa d charge que cette derni re m thode n est pas pr vue pour d tecter les documents synchrones ou avec inversion Si ses r sultats sur les bi documents avec inversion d passent nos attentes en atteignant jusqu 4496 de plus que la m thode Petit Angle les r sultats pour les documents synchrones correspondent bien eux l attendu 35 de rappel par rapport la m thode Grand Angle dans les deux s ries de col lections Pour ce qui est des bi documents avec suppression la m thode Grand Angle r pond bien nos attentes en obtenant un rappel de 46 5396 meilleur pour les collections 1 2 3 contre o pour la m thode Petit Angle cependant sa pr cision s av re d cevante plafonnant 1096 pour les collections 1 2 3 7 3 1 Comparaison avec d autres mod les Comparaison avec le modele lt tout synchrone gt Le tableau 26 donne titre comparatif les r sultats par rapport une m thode baseline prenant comme hypoth se que tous les documents parall les s
160. lacements Plus pr cis ment son tude porte sur les diff rentes versions laiss es par un crivain d une de ses ceuvres c est dire les brouillons successifs Aligner en mono lingue ces r critures correspond calculer une distance d dition avec d placements les trois op rateurs classiques de la distance d dition insertions suppressions et remplacements ne suffisant pas d crire les ph nom nes potentiellement observables Ces travaux constituent une amorce de recherche sur la question d une m thode d alignement pre nant en charge les d placements de portions de texte entre deux versions d un document Il est n anmoins noter que la tache se trouve gran dement simplifi e par son contexte monolingue L hypoth se qu une m me graphie recouvre le m me sens dans les deux versions est directe ment exploitable et la multiplication des hapax simplifie la t che travers le syst me K vec Fung et Church 1994 ont galement propos une m thode d alignement de documents bas e sur une simi litude de r partition de mots L id e de K vec est de d couper chacun des deux volets en portions gales K segments et d assigner chaque mot de chaque texte un vecteur avec K dimensions K vec K vec fait l hypoth se que si deux mots sont traductions l un de l autre ils ont plus de chance d apparaitre dans les m mes segments que deux mots qui ne le sont pas K vec semble tre le premier syst me sans pr suppos sur
161. leau 15 pr sente des exemples de populations extraites d une collection de multidocuments Celles ci ne font par n cessairement directement sens pour l humain Les chaines de caract res de ces po 5r P 3 pulations s tendent selon le cas sur moins d un mot plus d un mot voire sur plusieurs mots Etant donn que nous prenons en compte la structure et le contenu par la m me m thode ces chaines de caract res peuvent naturellement tre ou contenir des morceaux de balises HTML Certaines sont des hapax de documents mais sont r p t es dans la col lection L appariement de ces derni res constitue un ancrage robuste pour la suite En revanche certaines ne correspondent pas la langue annonc e comme c est le cas du deuxi me exemple en grec ce qui t moigne d ores et d j de l intrusion d extraits de documents dans d autres langues que celle dans laquelle les documents sont tiquet s Nous trions ces populations par effectif d croissant puis effectif gal par longueur des cha nes Consid rant nos hypoth ses de travail effectuer ce classement des populations est l encore une mani re de rapprocher des unit s potentiellement align es Le tri sur les effectifs des chaines r p t es sur l ensemble du corpus fait que la m thode n est plus sensible aux inversions locales et que statistiquement les d calages 1 Les outils permettant la cr ation de ces matrices sont disponibles ici http code google com p zone
162. ler des correspondances fortement g n ralis es dans une col lection de multidocuments ou multizones des correspondances bi univoques ou quasi bi univoques tre insensible aux diff rences d ordres entre les volets et aux sup pressions locales de zones de textes Nous donnons quelques exemples d appariements ainsi calcul s dans le tableau 17 page 82 Les r sultats de cette tape corroborent notre intuition qu apparier des populations de chaines de caract res l int rieur d une collection de documents est une piste prometteuse Ils prouvent qu il existe bien des populations bi univoques statistiquement identifiables Dans l annexe A page 123 nous pr sentons une exp rience d valuation quantitative des r sultats de l op ration d appariement par rapport des dictionnaires Dans le chapitre 7 nous valuerons s ils sont en quantit suffisante pour permettre un diagnostic du parall lisme entre les volets d un mul tidocument Cette valuation extrins que passe par la projection des appariements r v l s sur des matrices de points qui font par la suite l objet d un traitement d image 3 Les offsets pr sent s dans le tableau 15 stock s au moment du calcul des po pulations ne nous servent pas au moment du calcul de distance Ils ne sont stock s que pour permettre un retour au texte Ils nous permettent de tracer les liens entre les segments des volets voir figure 20 page 85 81 82 MISE EN UVRE distanc
163. les Mais l introduction de connaissances linguistiques sp cifiques chaque langue est co teuse et rend les syst mes d pendants des langues Deux approches ont t explor es l approche estimative et l approche associative l approche estimative ou par mod les statistiques introduite par Brown et al 1990 est inspir e de la traduction automatique statistique ot le calcul d alignement de mots est la base du calcul des mod les de traduction Elle commence par d terminer les meilleurs alignements en contexte avant d en d river ventuelle ment des tables de traductions Och et Ney 2003 l approche associative ou par mod les heuristiques introduite par Gale et Church 1991 Cette approche descendante utilise la me sure de similarit de chaine des heuristiques d ordre des mots ou des mesures de co occurrences telles que le score d information mutuelle Fung et Church 1994 une paire de mots co occurre t elle plus souvent que par hasard le pourcentage de plus longue sous s quence commune Melamed 1995 le coefficient de Dice Smadja et al 1996 des mesures de log vraissemblance Tufis et Barbu 2002 ou encore le cosinus Giguet et Luquet 2006 Les m thodes relevant de cette approche commencent par extraire des traductions avant de cr er des alignements Ainsi beaucoup d tudes se sont attach es l extraction de diction naires de mots simples le plus souvent par des m thodes statistiques Dagan et a
164. llustrons en contexte dans la section 155 1 3 3 Similitude et diff rence d ordre au niveau sous phrastique L ordre des mots d une phrase n est g n ralement pas consid r comme pr serv dans le passage d une langue une autre figures 3a et 3b Cependant le niveau sous phrastique peut lui aussi tre globalement pr serv dans le passage d une langue une autre figure 4 et les unit s qui le composent dans le m me ordre 14 LES TRADUCTIONS DES NONCIATIONS UNIQUES Le travail du traducteur constitue un v ritable travail d criture r criture Nous illustrons dans les sous sections qui suivent quelques ph nom nes r sultant cette fois de la libert d adaptation dont b n ficie le traducteur et entrainant un foisonnement davantage artificiel que celui li aux servitudes linguistiques 1431 L implicite et l explicite Des l ments sous entendus c est dire voqu s de mani re impli cite dans certaines langues apparaissent de facon explicite dans d autres langues Ceci constitue videmment un frein l alignement d unit s s mantiquement quivalentes puisque certaines d entre elles n ont pas d quivalent clairement explicit Exemple document IP 05 975 ligne 8 FR Jacques Barrot Vice Pr sident de la Commission europ enne res ponsable des transports a d clar ES Jacques Barrot Vicepresidente de la Comisi n Europea y respon sable de la pol tica de transportes se ha expr
165. lues typiquement entre o et 0 1 Un N gramme de caract res pr sent dans le segment qui s tend de o 1096 du volet 1 se voit attribuer autant de liens que le N gramme de caract res qui lui est appari est r p t dans les segments du volet 2 Les appariements ainsi report s mettent en vidence que dans la figure 20a le segment o 1o du volet 1 partage plus d appariements avec le segment o 1096 qu avec les autres segments du volet 2 tandis que dans la figure 20b ce m me segment partage plus de liens avec le segment 6096 7096 du volet 2 Pour calculer cette similarit entre deux segments nous utilisons la fonction de score suivante nb_liens s s2 score s1 52 max_liens s 6 2 APPARIEMENT ET ALIGNEMENT DE ZONES 85 Volet 1 0 10 10096 l 1 i I Till ot ESE t TF Lr 4 4 E 1 d 095 1096 10096 Volet 2 a Segments similaires synchrones Volet 1 096 1096 10096 I FT D 1 9 39 S 3 E 60 70 10096 Volet 2 b Segments similaires asynchrones FIGURE 20 Appariement directionnel entre les segments de deux volets nb liens sys repr sente le nombre d appariements ayant une dis tance inf rieure 0 1 mettant en jeu des N grammes de caract res inclus dans les segments 1 et 2 max_liens s repr sente le nombre de liens maximum entre le segment 1 et tous les segments de s Pour viter de supposer le parall lisme nous consid rons donc l ensemble des liens possibles
166. m mu meer E rF IP 10 1002 da de TABLEAU 29 10 bi documents asynchrones avec inversion attendus mais non obtenus parmi les 19 sur les collections 1 2 3 avec la m thode Petit Angle voir tableau 24 104 R SULTATS ET VALUATION SUR LA TACHE D ALIGNEMENT DE ZONES Ee Pucca Tear al Teo Rune deis Jm eta al Nego t Rune E ES Le PAD AS part TE an ute ARTY reel pier Qu Las o M dE HA ji 3 E d lx 1 ren nl cese tH LA i E i fred sE 1 ae TM wn F vae vba IP 05 1157 el fr CE ii HSE SEAT st ip pee BE 4 Her Lud EX Lu A k T a A a E l T QU ou E isles s Tu r D AECA Eds wk i Ux D 79 wes dM OA T Pul jou was Y ar A a Fat S h st FPE kun Far pu ML 3 J A E L w x E um s pit Fa Gm cheri eee otal Yz A hip flew os AA CE a ue ERE Sr EI d m 8 m P A P ox E LE k L 1 NM E T z E E Y on ra AES de c t d e ri BAT P 1 d gt ER ri EE TA vL p Uwe ae i bi LEFT X t oor c A FUttt n ot on zw p a CAEDE apa a ER SN pe i Eat Sig L a rip TU ee nd e ctt a T F m 3 mul ma s Des k s sa TE LQ nrc ee Ea E Hate LIL ee E ha TI Nr uim edo m PEE a L lie F m m s u me E un a a 2 ELS i s Fin a I Jes F Me H o RN qui ii EE es de EYES a diit oT ES 1 Ar f n aiu a a k e LE EL CRUE Qu ne Lus x Tao rum
167. mbre d autres cat gories semblent pr occupantes mais exigent une analyse plus approfondie actuellem the EU should impose special safeguard measures In parallel it will launch immediate consultations with China in an attempt to find a satisfactory solution i b p p Peter Man delson said Member States have finally made available the import statistics for the first quarter of 2005 In several catego ries of textile and clothing imports they do give cause for se rious concern Based on these facts Europe cannot stand by and watch its industry disappear Our investigation will enable me to decide whether the EU should introduce safeguard measures Chinese exports should of course be allowed to grow at a nor mal speed following the removal of quotas But we must also extend protection to European industry if it is faced with a rui he global trade in textiles on 1 January 2005 This clause al lows for short term protective measures until the end of 2008 p p b Next Steps b p p These investigations will last for a maximum of 60 days of which the first 21 will be used to take submissions from parties The Commission will make a thorough assessment of market impact in the affected product categories During this period the Commission will also hold informal consultat TABLEAU 38 Alignement de zones entre les volets fr et en du communiqu IP o5 473 avec suppression d tect e au travers d
168. ment de zones qui nous guident Car si l on peut af firmer que tout n est pas toujours pr sent ou dans l ordre partant du principe que les documents sont effectivement traductions tous les cas de distorsion de la diagonale ne peuvent pas tre envisag s 5 1 2 Diff rents types d alignement de zones Nous pr sentons dans la figure 15 les diff rents attendus en matiere de visualisation de la structure des multidocuments La figure 15a page 65 pr sente le cas id al d une traduction glo balement synchrone o la structure est la m me dans les deux volets Chaque point sur la diagonale repr sente des alignements d unit s aux m mes positions dans les deux volets Ainsi la pr sence de la diagonale complete signifie que les volets ne pr sentent ni inversion ni suppres sion Nous avons une seule multizone quivalente au multidocument L alignement de zones est de type 1 1 Les figures 15b page 65 et 15c page 65 quant elles sont asynchrones dans un cas tout n est pas dans le m me ordre et dans l autre tout n est pas pr sent La figure 15b pr sente deux cas d inversions La premiere est simple elle correspond l interversion de deux zones de textes du volet 1 dans le passage au volet 2 Ce type d interversion correspond celle pr sent e dans la figure 16 page 66 La seconde est multiple plusieurs zones du volet 1 subissent un d placement dans le passage au volet 2 c est le cas que nous avons pu observer au t
169. n parametre Les segments de texte peuvent se chevaucher il ne s agit pas d une partition Nous autorisons un chevauchement de nos segments pour viter une segmentation trop abrupte de nos volets Un segment est une sous partie d un volet que nous exprimons relativement la taille du volet Pour la m me segmentation S s s appliqu e deux volets nous obtenons une matrice de similarit de taille nxn De facon empirique nous choisissons pour traiter les communiqu s de presse de notre corpus une segmentation en 200 segments correspon dant 1 du document Ces segments se chevauchent donc S s o 0 01 s 0 005 0 015 s3 0 01 0 02 pour chacun des deux vo lets C est en fonction de la r partition des segments similaires sur toute la matrice que nous calculons le parall lisme entre deux documents Comme l illustre la figure 20 deux segments sont consid r s comme similaires lorsqu ils maximisent le nombre de liens qui les relient La figure 2o illustre la r partition et la densit des appariements de N grammes de caract res entre un segment du volet 1 et les segments de m me taille du volet 2 Dans notre exemple les segments ne se che vauchent pas et correspondent chacun un intervalle d offset de 1096 du volet Les traits reliant les segments des volets symbolisent des appa riements obtenus lors de l tape d crite dans la section pr c dente et entrant dans la fourchette de distances vou
170. n mati re de ressources lin guistiques pose le probl me de la qualit de ces dictionnaires et rend l analyse d une nouvelle langue co teuse Nous noterons galement que l alignement au niveau sous phrastique suit g n ralement un aligne ment phrastique et qu il est donc largement d pendant de la qualit de celui ci 2 4 ALTERNATIVES POUR APPREHENDER LA CIRCULARITE Les m thodes pr sent es dans cette section visent l encore un ali gnement sous phrastique mais l amorcent de facon plus progressive et moins contrainte L objectif est de pouvoir traiter aussi bien des docu ments synchrones qu asynchrones 2 4 1 L alignement de phrases une interrogation documentaire Fluhr et al 2000 proposent une approche originale affranchie des hypoth ses contraignantes pr cit es dans laquelle les textes ne sont plus trait s s quentiellement mais comme des bases de donn es qui sont alors consid r es comme un syst me de recherche d informations le probl me de l alignement de phrases est ainsi ramen celui d une interrogation documentaire multilingue dont le but est de ramener la phrase la plus similaire dans le texte partir de la requ te que constitue la phrase source 2 4 ALTERNATIVES POUR APPR HENDER LA CIRCULARIT 2 4 2 M thodes d alignement sous phrastique affranchies d un aligne ment de phrases Bourdaillet et Ganascia 2007 abordent la question de l alignement monolingue de textes comprenant des d p
171. n parall lisme entre ces deux zones Les chaines de caract res verre en FR et glass en EN no tamment y apparaissent et permettent de le r v ler Ces deux zones constituent ce que nous appelons des multizones 5 2 2 Calcul des multizones entre alignement et appariement Dans un document chaque zone se distingue des autres zones du document par une liste et une densit de populations Nous appelons population l ensemble des occurrences d une suite de N grammes de caract res r p t s dans une langue nous appelons appariement la mise en correspondance de ces populations Nous appelons individu une occurrence d un N gramme d une de ces populations et nous appelons alignement la mise en correspondance de deux de ces individus Ces diff rences nous permettent de calculer la correspondance entre des zones quivalentes Dans l exemple de la figure 18 les populations C et D sont toutes les 2 uniquement pr sentes dans le multidocument 1 et comportent le m me nombre d individus Les populations A et B pr sentent les m mes effec tifs sur la collection Mais alors que la population A est pr sente dans les multidocuments 1 et 3 la population B apparait elle dans les multidocu ments 1 et 2 Ainsi les meilleurs candidats pour l appariement avec ces deux populations dans la collection sont respectivement A A A et B B B En outre la population A apparait dans les multidocuments 1 et 3 avec la population E mais
172. naturelle ment insuffisant pour proposer des appariements L observation des effectifs ne peut lui seul tre un indicateur fiable d appariement cette phase de classement devra n cessairement tre suivie d un calcul de distance puisque comme le souligne Zimina 2006 p 4 Lorsqu il s agit de mots dot s d un large ventail de sens dans le corpus les cor respondances lexicales entre les volets forment un r seau complexe et la comparaison des effectifs totaux des formes graphiques ne constitue pas toujours une bonne indication pour l appariement Nous introduisons donc dans la section 6 1 2 pour chaque popu lation une tude des positions dans la collection des individus qui les composent ou plus pr cis ment une tude de leur effectif par document 6 1 2 Appariement de N grammes de caract res r p t s partir de venti lation similaire sur la collection Nous avons donc en sortie de l tape pr c dente une liste de popula tions tri e par effectif monolingue Afin de limiter l explosion combina toire d un calcul exhaustif entre toutes les chaines r p t es maximales 80 MISE EN UVRE nous comparons les chaines d effectifs proches En tout tat de chose les chaines en dessous du seuil que nous nous fixons sont n cessairement d effectifs proches Pour conduire des tests d appariement plus pouss s nous faisons passer une fen tre glissante sur cette liste et pour chaque position de la fen tre nous tes
173. ng nitrogen and phosphorus losses from agricultural activities in Beim ersten Projekt wird versucht entsprechend den Zielen the Odense river basin in line with the E LI Water Framework der ELI asserrahmenrchtlinie im Flussanzugsgebiet von Directive objectives QC dense Ma nahmen durchzuf hren die das versickern von Stickstoff und P hasphareerbindundgen aus landwirtschaftlicher Estonia 1 project T tigkeit verhindern Finland 2 projects Estland ein Projekt 7 France 11 projects Finnland zwei Projekte Frankreich elf Projekte Tan projects concem water management The first will take an Integrated approach to reduce dffuse pollution from agriculture Deutschland sechs Projekte in support of the Water Fran ewark Directive mel Projekte betreffen die Wasserbewrtschaftung Das erste verfolgt im Einklang mit der v assermahmenrchtlinie einen Greece 4 projects integrierten Ansatz zur Reduzierung der diffusen verschm utzunag durch die Landwirtschaft Hungary 1 project is Griechenland ver Projekte Ireland 2 projects Ungam ein Projekt Italy 15 projects m Irland zwei Projekte Luxembourg 1 prajed Italien 15 Projekte Netherlands 7 projects Luxemburg ein Projekt Portugal 2 projects 4 Portugal zwei Projekte Romania 1 project Rum nien ein Projek
174. ng af vine fra EU med importerede vine opretholdes lt p gt lt p gt lt b gt Bedre etiketteringsregler lt b gt Begrebet EU kvalitetsvine baseres p geogra fisk oprindelse kvalitetsvin produceret i et bestemt dyrkningsomrade Vine med geografiske betegnelser opdeles i vine med beskyttede geografiske be tegnelser og vine med beskyttede oprindelsesbetegnelser Etiketteringen vil tage hensyn til forbrugernes behov Den bliver s ledes enklere og navnlig tillades det for forste gang at anfore druesort og argang pa etiketten for EU vine uden geografisk betegnelse for at imodekomme forbrugernes eftersporg sel efter vine fremstillet af en enkelt druesort lt p gt lt p gt lt b gt Salgsfremstod og oplysning lt b gt Kommissionen vil gennemfore en resolut og ansvarlig kam pagne for salgsfremme og oplysning Hertil skal der afs ttes et budget pa 120 mio EUR fra de nationale rammebelob til salgsfremmende foranstaltninger uden for EU hvor EU bidrager med 50 af finansieringen Der vil blive gen nemfort A a C 4 oplysningskampagner in nter vil fremstille vin udelukkende af druer og ikke subsideret most lt p gt lt p gt lt b gt EU s vinsektor lt b gt lt p gt lt p gt EU har over 2 4 mio bedrifter der producerer vin svarende til 3 6 mio ha og 2 af EU s landbrugsareal Vinproduktionen i 2006 de lt document celex IP 07 1008 lang de gt lt p align right gt lt b gt 1P 07 1008 lt b gt lt p
175. non plus un simple transcodage nous estimons que quoi qu il arrive cer taines langues sont intrins quement plus foisonnantes que d autres et qu il existe une sorte de servitude linguistique laquelle le traduc 4 Nous utilisons partir d ici les codes de langue tels qu ils sont d finis par la norme ISO 639 1 5 G Gross 2004 cit par Neveu 2004 6 Leterme servitude linguistique d signe les contraintes auxquelles le traduc teur est contraint pour respecter la syntaxe de la langue p ex ajout d articles et de joncteurs toffement des pr positions etc Cochrane 2007 13 DES T MOINS PRIVIL GI S DE LA VARI T DES LANGUES teur doit se plier Nous constatons cependant que les variations peuvent autant correspondre une r duction qu une augmentation du volume de mots d un document lors de sa traduction d une langue une autre Les coefficients sont en moyenne ceux pr sent s dans le tableau 2 ils nous ont t fournis par l ARIZ LANGUE D ORIGINE FRAN AIS anglais 20 allemand 30 n erlandais 20 italien 10 espagnol 10 portugais 10 su dois 30 danois 30 norv gien 30 japonais 67 TABLEAU 2 Coefficients de foisonnement fournis par l ARI Le tableau 2 montre que le japonais est beaucoup moins foisonnant que le fran ais La th orie de l information peut nous en apporter une explication La quantit d information associ e un symbole de proba bilit p est
176. ns que si entre deux segments cons cutifs x est inf rieur y 1 alors nous sommes face un bi document asynchrone avec inversion Enfin sila longueur totale des segments de droites d tect s est inf rieure 20 de la diagonale nous ne nous pronongons pas sur la nature du parall lisme qui lie les volets observ s Ces documents font alors l objet d un nouveau traitement Plusieurs solutions sont notre disposition utiliser la m thode Grand angle pr sent e dans la section 6 2 2 les plonger dans une nouvelle collection plus grande ou th matiquement homogene ou changer la taille de la matrice Dans les autres cas le bi document est reconnu comme synchrone Retour aux textes Les coordonn es des segments calcul s partir des matrices nous servent quant elles r aliser un retour aux volets autrement dit visualiser les multizones ainsi d tect es les alignements de zones ce stade nous pouvons d ores et d j mentionner un des effets de la m thode La m thode rep re correctement des coeurs de zones mais moins bien les fronti res Les fronti res de zones peuvent pr senter un d calage de plusieurs caract res voir plusieurs mots Ceci s explique par le fait que nous utilisons ici les coordonn es des segments compris dans les segments de droites d tect es et non les coordonn es des N grammes appari s se situant l int rieur Nous pr sentons dans la section 7 4 des retours aux textes sur
177. ns autre traitement l alignement de N grammes de caract res ne permet pas de r v ler davantage qu un alignement bas sur des N grammes de mots le risque de mettre en rapport des chaines de caract res non li es au niveau du mot entre transport et transparence par exemple la surg n ration de cha nes r p t es lt inint ressantes gt dans le but de construction de ressources lexicales par une m thode 4 UNE M THODE TEXTUELLE GUID E PAR LE MODELE d alignement Le fait de supposer que tout N gramme de ca ract res d une langue puisse tre align avec n importe quel N gramme dans une autre langue nous permet de trouver beaucoup d associations mais impose de fixer des r gles pour parcourir ce tr s grand espace de recherche Nous avons r solu ce probl me en comparant les positions de N grammes de fr quences similaires 5 4 DE L ALIGNEMENT DE ZONES L ALIGNEMENT INTRA MULTIZONES Nous consid rons dans cette section le cas particulier de documents courts 1 2 pages comme c est le cas des communiqu s de presse qui constituent notre corpus Une fois les zones maximisant le parall lisme identifi es le principe est de reprendre un alignement intra multizones des individus qui les composent en favorisant le parall lisme Ainsi suivant la taille des zones composant ces multizones un appariement d tect au moyen de la collection peut y apparaitre ou non r p t ou non Dans le cas ou il est
178. nstitu es partir de notre corpus d autre part Une tude qualitative et quantitative des diff rents types de parall lisme entre les volets des diff rents bi documents est fournie dans l annexe B Petit Angle Grand Angle Synchrones Asynchrones Synchrones Asynchrones avecinversion avec suppression avecinversion avec suppression Obtenus 601 665 333 Attendus 652 720 652 49 Correctement 554 560 325 26 358 attribu s Pr cision 92 1896 14 63 0 00 84 21 97 60 11 67 10 00 54 82 Rappel 84 97 31 58 0 00 77 78 49 85 36 84 53 06 49 93 F mesure 88 43 20 00 0 00 80 87 65 99 17 72 16 83 52 26 TABLEAU 24 Mesures de pr cision rappel et F mesure sur les collections 1 2 3 avec leur MFM La r f rence sur les 720 bi documents a t r alis e par nos soins Petit Angle Grand Angle Synchrones Asynchrones Synchrones Asynchrones avec inversion avec suppression avec inversion avec suppression Obtenus 603 277 664 Attendus 678 678 720 Correctement 572 577 270 294 attribu s Pr cision 94 8696 10 8796 0 0096 85 9996 97 47 14 63 3 93 44 28 Rappel 84 37 31 25 0 00 80 14 39 82 75 00 46 15 40 83 F mesure 89 3196 16 13 0 00 82 96 56 54 24 49 7 25 42 49 TABLEAU 25 Mesures de pr cision rappel et F mesure sur les collections transport sant et t l phone avec leur MFM La r f rence sur les 720 bi documents a t r alis e par nos soins 3 Les r sultats en couleur dans le tableau font chacun
179. nt quivalents L alignement des mots graphiques choue d autant plus que les langues compar es sont morphologiquement diff rentes LANGUE MOTS GRAPHIQUES SIGNIFIANT TRANSPORT ET LEUR EFFECTIF fr transports 3 transport 3 es transporte 5 transportes 1 el HETAPOPWV 3 HETAPOPEAG 1 HETAPOPES 1 uETapop a 1 Tableau 13 Liste des mots graphiques signifiant transport dans un chan tillon de textes en fr es et el et leur effectif Ici comme en t moigne le tableau 15 les carts d effectifs entre des mots align s dans un chantillon sont d j consid rables Or si l on s int resse d sormais aux r p titions de chaines de caract res on s apercoit qu il existe dans chaque langue une sous chaine commune l ensemble des quivalents s mantiques de transport Cette sous chaine commune apparait donc comme un moyen de comparaison des langues susceptible de passer l chelle moindre cout Les carts d effectifs entre les mots partiellement ou int gralement 5 3 APPARIEMENT ENDOGENE DE CHA NES DE CARACTERES R P T ES 73 LANGUE CHAINES DE CARACTERES R P T ES EFFECTIFS SIGNIFIANT TRANSPORT fr transport 3 3 6 es transporte 5 1 6 el ueraqop 3 1 1 1 6 Tableau 14 Chaines de caract res d au minimum 3 caract res communes aux mots signifiant transport dans le m me chantillon de textes en fr es et el et leur effectif respectif quivalents se trouvent
180. o o Per TET S6 OIT ocs FSI 9 9S vos 99S L8 VL TOTI HEIST gee obti snd107 ST LV tc ec SOT OT I II 99 OOT lt k S 9 SOT 8S v1 SE orc JJ TI vs OT SE 601 OT I 9 TOT OTT ST T6 617 96 Z g Ic orc p 1J OT cr IT or VOT CT O 6 86 LOT T76 LZ8 TIT 9690 7 T 6c orc 13 13 TV 44 vo OII SIE tr E QT LQT LTE 61 89 sS co IS TI sg orc SQUBIOT9 s dno5 9 ZS S oS TII v v S LOT OTI 00 S6 gcc 00 S TI orc ep ap 6S II Lv ZTI I 9 OT TOT 61I 86 OCT ZO T v orc uo IJ Sy T OZ ZTI I 9 SOT GTI o 96 OCT ZO T v orc S3 1J FT TOT QT LOT or 9 07 SI 9r YSE S1 L6 789 ST 07 orc sou oud s dno5 r ITI o Sg OCT TI OI SI voz 677 88 96 Sov METSE ST ogr euoudo o1 uono ct v6 ST 69 807 07 Z CT 007 OTT Z1 69 TV EQ OT TS ogr JJUES UO1PII 0 OT 06 LT COT OTT ST S ST 661 TTT 30 76 cvv 967 6 Z QE ogv J10dsue1 UOT DIT OD 9S Sot cg LLT roo 6v TT or coo 1 9 961Z c6 SEET 6T L SOIT orit Lewy UOTDITJOD Ic Sv 61 SE 66 ST T 6 S6 SOT 00 S8 voz 00 ST 9t orc y 1 VI Spy II oS 901 II T L OOT 60T 8S 68 SIT TV OT ST orc p 1J 61 ve 9I IS TOT IT O OI 69 66 HELLER 007 9629 91 or orc 13 13 vs vct oF OCT 90 Lv 97 Pet ETE Z6 S9 619 lt o TI TOI 07 SQUBIO 9 s dno5 S 6v 9 gS STI v L 9 OT QIT ST 96 Itc SLE 6 orc ep ap LV S So ZTI T L S OOT STI T6 L6 SET 9690 c S orc U3 1J S or I vZ SII T 9 v QOT STI 9690 26 EET T T L orc S 1J T OCT VI L61 LVE 8 07 ST LTE TSE g0 6 669 T6 T IT
181. o neo qej Sj9 OA c So suep sre gue uo neo qej Sj9 OA T So suep sre gue uo neo qej 1j 39 OA suep stedue1 uo oxouue sjo O0A c SI suep sre guv uo neo qej Sj9 OA c So suep sre gue uo neo qej ympeu uou rsenb 39 0A sa SIT z uono l oO EI Ins s onueui sonsouserq SF AVATaVL uorssa1ddns uorssa1ddns uorssa1ddns uorssa1ddns JUOIYIU S uorssa1ddns JUOIYIU S JUOIYIU S JUOIYIU S uorssa1ddns JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S uorssa1ddns JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S ouoi1qou s uorssa1ddns JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S uorssa1ddns JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S ouoi1qou s uorssa1ddns ouoi1qou s JUOIYIU S ouoi1qou s JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S uorssa1ddns ouoi1qou s ouoi1qou s JUOIYIU S JUOIYIU S nsouSer q yy 17 89 1J uo i e ep 3p ep y 1J S 1J uo i e 17 9p 3p ep Y 17 89 1J uo i e 1 P 9p p 1 g 17 89 1J uo ie Tj9P Sp ep 1J 13 1J S3 1J uo i e rap 3p ep Y 17 89 1J uo 1J 3 17 9P 3p ep 1J 17 89 1J uo i e 1 P pep 1 g 1J S 1J uo i e 17 9p prep J g 17 89 1J uo i e 1 P 9p ep y 17 89 1J uo i e 17 9P 9p ep Pd 6781 80 d1 616 Zo gI S6c1 ZO d 15 90 d1
182. oSed e Ans ajins Juoyd gt pL uon o o sre gue Ud oxouue o SIOUUT Ud sopuoSo xnop 9913 Ud pu 3 oun sonSur n nui soxouue xneo qei senSur n nui soxouue xneo qei sonSur n nui soxouue xneo qei sonSur n nui soxouue xneo qei sonSur n nui soxouue xneo qei sonSur nnui soxouue xneo qei sre gue uo soxouue sre gue uo soxouue sre gue uo soxouue sre gue uo soxouue sre gue uo soxouue sre gue uo soxouue EVALUATION MANUELLE DU PARALLELISME un sost eq op 2119S aun p uorsso1ddns ep lt 2UUUD gt s sti eq ap u s Jun p oouosqe IJ 132 lt 214DUU gt SoSI eq ap u s Jun p oouosqe 1j anbijaqeydye o1pao sed sa9117 sjo oad op s 1srT speyq JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S uorsso1ddns ouoigou s JUOIYIU S uorssa1ddns JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S uorssa1ddns uorssa1ddns JUOIYIU S JUOIYIU S JUOIYIU S uorsso1ddns ouoigou s UOISIOAUT UOISIOAUT UOISIOAUT UOISIOAUT UOISIOAUT JUOIYIU S nsouSer q 9 1J S9 1j ua i e 1 J P PP J g 17 89 1j ua i e 1 J P 9p ep J g 17 89 1j ua i e ep ap ep J g 17 89 1j u
183. oTL sou oud s dno5 Ic 96 ST SOT 617 OT 9 II ETT otc oor S 6 44 o69T 9 TE ogr uono o vz 99 ET SOT OTT QT L ST LQT TIT ZT 68 ach 96 EQ OT TS ogr uono o TT 9Z TT OTI QIT LT OT TI TOT ETT 88T16 TV T 9 6 ogr T uono o L9 097 09 ccc 6 SS c rv TOQ S99 ES T6 QICI LZv 8 TTI obti snd107 x dns oAe Aut eae dns aae Aur 504 SUOISTI9PU souo1qou sy souoryouds YW suorsp q suorsp pul souo1qou sy souorysuds vd suorspoq said suorspopug roi Po voDeluypui aeuvme NIN Sues suor o o I 491e A JULIO Ud 9SIJA DIAL suono 73 VALUATION ET DISCUSSION DES R SULTATS 99 de prendre en charge les documents avec cette mise en forme et de traiter la structure et le contenu par la m me m thode ajoute visiblement des informations suppl mentaires assimilables des cognats 73 VALUATION ET DISCUSSION DES R SULTATS valuer ces r sultats n est pas une t che triviale Il n existe pas de r f rences pour valuer la d tection de multizones La r alisation ma nuelle de cette r f rence est une tache sinon subjective au moins fasti dieuse une collection telles que nous les constituons correspondent 240 bi documents Nous pr sentons dans les tableaux 24 et 25 les me sures de pr cision rappel et F mesure obtenues partir d une r f rence constitu e pour les collections 1 2 3 d une part et sur les trois collections th matiques co
184. ojections Les multizones se contraignent mutuellement r it ration de ce processus jusqu puisement des candidats c est dire jusqu ne plus trouver de diagonale suffisamment longue pour tre pertinente La longueur minimum est fix e 8 pixels 5 http www greyc ensicaen fr regis Pandore index fr html 07 Volet 1 88 MISE EN UVRE La recherche de segments de droites est guid e par un modele Seules les droites avec au maximum un angle entre 25 et 25 par rapport la diagonale ont t consid r es Nous utilisons deux m thodes de d tection des segments de droites La premi re fortement contrainte pr suppose le parall lisme Elle permet de d tecter des segments de droites ayant la m me inclinaison que la diagonale parfaite une inclinaison de 45 Nous l appelons la m thode petit angle En cas de d tection insuffisante avec la premi re nous utilisons la deuxi me m thode qui offre une relaxation des contraintes Elle permet d tendre l espace de recherche aux segments de droites ayant une inclinaison situ e entre 25 et 25 par rapport la diagonale Nous l appelons la m thode grand angle Ainsi la premi re m thode nous permet de d tecter les volets la fois quasi synchrones et quasi bijectifs dans lesquels globalement ce qui est pr sent dans l un l est dans l autre et dans le m me ordre et les volets asynchrones c est dire les volets pr sentant le m me conten
185. oman De la terre la lune 40161 mots anglais et 53181 mots francais Cependant la plupart des m thodes trouvent leur limite dans la n cessit qu elles ont de prendre en entr e de leur syst me des cor pus pr alablement align s en phrases La disponibilit et la vari t de tels corpus sont telles que l objectif de fournir grace aux techniques d alignement des ressources lectroniques en quantit au traducteur ou au terminologue s en trouve compromis N anmoins des syst mes d identification automatique de corpus parall les voient galement le jour C est le cas de celui propos par Patry et Langlais 2005 ou en core par Enright et Kondrak 2007 qui utilisent pour l un quelques connaissances lexicales et pour l autre des similitudes de r partition 2 2 M THODES D ALIGNEMENT ET HYPOTH SE DE PARALL LISME 2 2 1 Definition de l alignement L alignement ou l appariement recouvre deux aspects il s agit de rep rer les mots et expressions du texte source et du texte cible puis de les mettre en correspondance Nous consid rons pour notre part comme le propose Kraif 2001 une distinction entre aligner et apparier entre alignement et apparie ment Dans le cas d un alignement nous dirons qu une occurrence d une unit correspond une occurence d une autre unit dans une autre langue il s agit d une correspondance observable en contexte tandis qu un appariement est une correspondance s mantique fortement g n
186. ompanion Volume Short Papers on XX pages 29 32 Rochester New York 2007 Association for Computatio nal Linguistics URL http webdocs cs ualberta ca kondrak papers hlt07 pdf Cit la page 33 Tomaz ERJAVEC Nancy IDE Vladimir PETKEVIC Jean VERONIS et Av Ro bert SCHUMAN Multext East Multilingual text tools and corpora for central and eastern european languages Technical Annex Cop 106 1995 URL http citeseer ist psu edu viewdoc summary doi 10 1 1 52 8485 Cit la page 32 BIBLIOGRAPHIE Christian FLUHR F Bisson et F ELKATEB Mutual benefit of sentence word alignment and crosslingual information retrieval In Parallel text processing Alignment and use of translation corpora Dordrecht Kluwer Academic Publishers j v ronis ed dition 2000 Cit la page 42 Pascale FUNG et Kenneth Ward CHURCH K vec a new approach for aligning parallel texts In Proceedings of the 15th conference on Computational linguistics Volume 2 pages 1096 1102 Kyoto Ja pan 1994 Association for Computational Linguistics URL http portal acm org citation cfm id 991328 Cit aux pages 36 41 43 et 69 Pascale Fung et Kathleen MckeownN Aligning noisy parallel corpora across language groups Word pair feature matching by dynamic time warping In Proceedings of the First Conference of the Association for Machine Translation in the Americas 81 88 pages 81 88 1994 URL http citeseerx ist psu edu view
187. ondance de deux zones de textes de deux langues diff rentes 151 TABLE DES MATIERES INTRODUCTION I 1 OBSERVATIONS LINGUISTIQUES ET TRADUCTOLOGIQUES 2 3 DE L ETUDE DE CORPUS DE DOCUMENTS PARALLELES L TUDE DE COLLECTIONS DE MULTIDOCUMENTS 1 1 La traduction une op ration linguistique et humaine 1 2 Les traductions des objets d tude 1 3 Des t moins privil gi s de la vari t des langues 1 3 1 Au niveau morphologique 1 3 2 Au niveau syntaxique 1 3 3 Similitude et diff rence d ordre au niveau sous PATASUQUE iue Saa ia k 240468 me 1 4 Les traductions des nonciations uniques 1 41 L implicite etl explicite 142 Las ynon ME u eo 5 88 Ere 1 4 3 L anaphore 19 1 4 4 Similitude et diff rence d ordre au niveau sur phrastique 19 1 5 Contraintes ditoriales 1 6 Constat l alignement automatique un enjeu de taille EXISTANT M THODOLOGIQUE 2 1 Corpus parall les et d finitions du parall lisme 2 1 1 D finitions du parall lisme 2 1 2 Corpus parall les o 2 2 M thodes d alignement et hypoth se de parall lisme 2 2 1 D finition del alignement 2 2 2 Hypothese de parall lisme de synchronicit 2 3 M thodes d alignement la circularit 2 3 1 M thodes d alignement de phrases
188. ons de mise en forme mat rielle et de structure des documents 13 DES T MOINS PRIVIL GI S DE LA VARI T DES LANGUES Un rapide tour d horizon de traductions en langues europ ennes t moigne d j des principales diff rences morphologiques et syntaxiques que peuvent avoir des langues entre elles et par l d une part des difficul t s traduire mais galement d autre part mettre en place d ventuelles op rations de r tro ing nierie sur des documents traduits telles que l alignement 131 Au niveau morphologique Si l int rieur d un document par souci de coh sion interne un terme est habituellement traduit au moyen du m me quivalent il existe des possibilit s de variations morphologiques Giguet 2005 entrainant des d calages d effectifs de ces quivalents Ce probl me est particu lierement pr sent et g nant dans les langues flexionnelles et dans les langues agglutinantes qu elles englobent et qui d clinent le groupe nominal Les langues suivantes d clinent le groupe nominal allemand 4 cas finnois 15 grec 4 hongrois 18 letton 6 polonais 7 Le fin nois et le hongrois utilisent un nombre important de cas et n utilisent donc pas comme le francais par exemple les adpositions Le sens d une preposition francaise est souvent traduit par un suffixe dans ces langues que ce soit une d sinence flexionnelle ou une postposition qui se dis tinguent mal Cette grande diversit de cas
189. ons sur phrastiques de m me que les suppressions d url S il n est pas toujours vident de faire la part des choses entre libert du traducteur et contraintes ditoriales nous pouvons n anmoins faire quelques remarques d ordre qualitatif sur les documents pr sentant des diff rences d ordre dans le discours ou des diff rences de contenu des suppressions Il ressort de cette tude que les inversions sont principale ment d es des tris par ordre alphab tique dans le texte ou l int rieur de tableau changeant ainsi l ordre des lignes de ces derniers Le cas de paragraphes invers s a galement t rencontr sans pouvoir y relever de raison apparente Pour ce qui est des suppressions nous avons pu relever des cas de suppressions divers allant de la suppression de titres de balises de paragraphes d annexes de tableaux la suppression de l int gralit du corps de certains volets 125 126 VALUATION MANUELLE DU PARALL LISME COLLECTION 1 3 3 Transport T l phone Sant SYNCHRONES 228 95 0096 223 92 92 201 83 7596 229 95 4296 220 91 67 231 91 67 ASYNCHRONES AVEC INVERSION 5 2 0896 o 0 0096 14 5 8396 5 2 0896 5 2 0896 6 2 5096 ASYNCHRONES AVEC SUPPRESSION 7 2 9296 17 7 0896 25 10 4296 8 3 3396 15 6 2596 3 1 2596 TABLEAU 43 tude quantitative des diff rents ph nom nes r pertori s par collection une collection 240 bi documents
190. ont explicitement mises en relation d quivalence traductionnelle en phrases ou en paragraphes Certains d entres eux ont t partiellement align s dans le cadre de campagne d valuation le Hansard est le premier et le plus connu des corpus paralleles collect par l IBM T J Watson Research Center et Bell Commu nications Research dans les ann es 80 C est une sorte d talon pour l valuation et la mise au point des syst mes Il s agit de d bats du parlement canadien disponibles en fran ais et anglais Des parties de ce corpus ont t utilis es notamment par Gale et Church 1993 ou encore Brown et al 1991 avant de servir dans le cadre des deux campagnes d valuation ARCADE 1 V ro nis et Langlais 1999 V ronis 2000 et ARCADE 2 Chiao et al 2006 mais galement dans le cadre du projet Portage Sadat et al 2006 Malheureusement ce corpus se trouve limit un seul genre et un seul couple de langues ce qui ne le rend pas tr s repr sentatif ni pour le couple frangais anglais ni a fortiori pour les autres couples de langues LeJRC ACQUIS Communautaire est disponible en 20 langues Il comporte environ 800 textes incluant l ensemble des textes et des trait s qui constituent le socle l gislatif de l UE Ce corpus parall le multilingue a t collect par l quipe des technologies du language du centre commun de recherche de le Commission Europ enne JRC le European Corpus Initiative de I Interna
191. ont synchrones dans chacune de nos deux s ries de collections Synchrones collections 1 2 3 collections th matiques Obtenus 720 Attendus 652 678 Correctement 652 678 attribu s Pr cision 90 56 94 17 Rappel 100 100 F mesure 95 0496 97 0096 TABLEAU 26 Mesures de pr cision rappel et F mesure sur les collections 1 2 3 etles collections th matiques avec leur MFM suivant l hypoth se que tous les bi documents sont synchrones Nos r sultats sur les documents synchrones sont de 2 7 meilleurs que les r sultats obtenus par cette m thode baseline Comparaison avec le mod le synchrone par d faut Le tableau 27 donne titre comparatif les r sultats par rapport une m thode consid rant par d faut Vergne et Giguet 1998 que les docu ments parall les sont synchrones dans chacune de nos deux s ries de collections Ainsi le nombre de bi documents synchrones correspond 73 VALUATION ET DISCUSSION DES R SULTATS 101 la somme des documents que nous avons d finis comme tant syn chrones et des bi documents non diagnostiqu s par nos deux m thodes dans chacune des deux s ries de collections Collections 1 2 3 Collections th matiques Petit Angle Grand Angle Total Petit Angle Grand Angle Total Obtenus 656 333 985 Attendus 652 652 678 1356 Correctement 609 392 326 947 attribu s Pr cision 92 8496 98 0096 94 7996 95 25 97 90 96 14 Rappel 93 40 60 12 76 76 91 59 48 08 69 84
192. orsso1ddns sa UIOpI uo W9PI 9 W9PI 1 Tunu s sr eq op 31195 sun p uorssarddns ep ug e e Juny sesr eq sanbjanb op uorssouddns 1j map map ep Mapa topi S 9 0A T SO suep sTejsue uo neo qej sped JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S uorsso1ddns JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S uorssa1ddns JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S uorsso1ddns JUOIYIU S JUOIYIU S JUOIYIU S uorssa1ddns uorsso1ddns uorsso1ddns uorsso1ddns uorsso1ddns JUOIYIU S uorssa1ddns ouoigou s JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S nsouSerq y 17 89 1J uo i e 1 P SP ep y 17 89 1J uo i e EPP 9p ep y 17 89 1J uo i e 122 pep IT 1J S 1J uo i e 1 P 9p ep IU 17 89 1J uo i e 1 P PP y 17 89 1J uo i e 17 9P SP EP IT 1J S 1J uo i e 1 P Pr y 17 89 1J uo i e 1 P PR Pd ITTI 90 d1 OF lt I 9O dI 8Z1 80 gdI VTET 8O d OIII g0 d 1 6 0 dI S91 ZO gI 8001 90 q nbrunurtuto5 JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S ouoi1qou
193. peut opposer cette unit d information un manque d ergonomie interpr tative celle ci pr sente n anmoins plusieurs avantages elle permet de capturer par le m me m canisme des expressions fig es des racines de mots des indices de formes elle est ind pendante de la langue elle permet donc de couvrir un large ventail de langues sans module sp cifique statistiquement comparables elle permet de calculer des fr quences d apparition et d estimer leur distribution et la r gularit avec 56 NOS CONCEPTS laquelle plusieurs unit s co occurentes dans les m mes parties du texte elle est facile rep rer sur le plan informatique La notion de N grammes de caract res est d j utilis e pour l identifi cation d auteurs Jardino 2006 l identification de la langue Dunning 1994 l analyse de l oral la cat gorisation de textes Damashek 1995 la classification num rique multilingue de documents Biskri et De lisle 2001 ou encore la recherche d informations Majumder et al 2002 Mcnamee et Mayfield 2004 Cependant notre connaissance il n existe qu une tentative de Cromi res 2006 pour appliquer une telle m thode l alignement multilingue Cromieres r alise un aligne ment sous phrastique par calcul de coefficients de corr lation entre des N grammes de caracteres Si dans les applications de TAL voqu es ci dessus les n grammes de caract res ont un nombre de caract res constant
194. phe la phrase la proposition le terme le mot ou encore le caract re Nous adh rons cette d finition multilingue et multi chelle d un systeme d alignement id al Cependant nous devons noter que cette d fi nition tr s g n rique ne correspond pas celle utilis e par les diff rentes approches de l tat de l art tant du point de vue des corpus utilis s il s agit le plus souvent de phrases que des unit s qu elle souhaite aligner Les m thodes existantes tiennent pour vraie une hypoth se de parall lisme ou de synchronicit trop contraignante y compris dans le cadre de corpus paralleles de documents traductions Elles pr supposent en effet que tout est l et ou tout est dans le m me ordre 2 2 2 Hypothese de parall lisme de synchronicit L hypoth se de parall lisme est largement exploit e par les sys temes d alignement qu ils soient sous ou sur phrastiques Les fonctions d alignement pour maximiser leur r sultat pr supposent un parall lisme fort On suppose que l ordre des unit s textuelles aligner est le m me ou presque tous les volets du corpus et ce d autant plus que l on a faire a des unit s supra phrastiques Derri re cette hypothese on trouve deux pr suppos s expos s par Lang et Gaussier 1995 celui de quasi synchronisation et celui de quasi bijection d finis comme suit quasi bijection toute phrase source a en g n ral un correspon dant dans le texte cible et r ci
195. prises tr s au s rieux et servir d aiguillon l acc l ration des r formes si la Bulgarie et la Roumanie d sirent tre au rendez vous de l adh sion au 1 lt sup gt er lt sup gt janvier 2007 p p La Commission confirme que la Bulgarie et la Roumanie remplissent les crit res politiques d adh sion N anmoins des efforts suppl mentaires doivent tre consentis en vue notamment de renforcer l tat de droit en am liorant la fonction publique et le syst me judi ciaire et en luttant efficacement contre la corruption p p La Bulgarie et la Roumanie satisfont l obligation d tre une conomie de march viable Si la Bulgarie maintient le rythme actuel de son processus de r forme et si la Roumanie poursuit avec autant de vigueur la mise en ceuvre de son programme de r formes structurelles les deux pays devraient tre en mesure de faire face la pression concurrentielle et aux forces du mar ch l int rieur de l Union lt p gt lt p gt Ils ont continu progres ser dans l adoption et la mise en uvre de la l gislation de l UE et sont bien avanc s dans la et sont bien avanc s dans la plupart des domaines Toutefois la des domaines Toutefois la ons dans ces domaines particuliers d ici au 1 lt sup gt er lt sup gt janvier 2007 p p L an prochain dans le courant des mois d avril et mai la Commission fera le point sur la si tuation Elle pourrait alors recommander si n cess
196. proquement Dans ce sens Debili et Sammouda 1992 utilisent la notion de proximit de taille quasi synchronisation ou quasi monotonie la s quence des phrases sources doit suivre quelques variations locales pr s la s quence des phrases cibles correspondantes Dans ce sens Debili et Sammouda 1992 utilisent la notion de proximit de rang Cette hypothese de la conservation de la s quentialit des id es dans le processus de traduction pr suppose deux choses la 5 Appariement est ici pris au sens d alignement la distinction de Kraif n ayant t introduite qu en 2001 2 2 M THODES D ALIGNEMENT ET HYPOTH SE DE PARALL LISME premi re plus on descend dans l chelle plus il y a de d sordre et la deuxi me la phrase est la plus petite unit dont l ordre sera presque toujours maintenu Si ces pr suppos s sont v rifi s et que l hypoth se de parall lisme est pleinement valid e l alignement peut tre illustr comme sur la figure 10 Volet Volet 2 2 Volet FIGURE 10 Illustration du parall lisme l int rieur d un bi texte compos de deux volets respectivement en langue 1 et en langue 2 Le tour d horizon des m thodes existantes que nous faisons par la suite montre que l alignement de phrases comme l alignement sous phrastique peut tre consid r comme r solu lorsque les traductions remplissent effectivement ces hypoth ses Cependant ces contraintes de quasi synchronisat
197. r p t nous consid rons que la premi re occurrence d un N gramme de caract res en langue Li appari grace la collection un N gramme de caract re de la langue 2 est align avec la premiere occurrence de ce dernier dans la multizone et le deuxi me avec le deuxi me Ainsi nous regroupons dans un m me corpus les multidocuments synchrones et les multizones des documents asynchrones align es pour calculer l alignement intra multizones Dans cette derni re nous pour rons pr supposer le parall lisme puisque celui ci aura t mesur l tape pr c dente cette tape l espace de recherche se situe autour de la diagonale Des strat gies devront tre pr vues pour aligner au mieux les zones r siduelles des multidocuments asynchrones i e les zones n ayant pu faire l objet d un alignement par manque d information sur leur contenu ou par absence d quivalent De fa on g n rale le diagnos tic devra pouvoir identifier le type exact de structure auquel correspond la traduction Dans ce chapitre 5 nous avons pr sent les principes d une m thode descendante sans pr suppos de parall lisme Cette m thode propose un relachement des contraintes de parall lisme et vise diagnostiquer en contexte les zones l int rieur desquelles le parall lisme existe Troisieme partie MISE EN CEUVRE ILLUSTRATIONS VALUATION MISE EN CEUVRE r Es travaux de mise en uvre pr sent s dans ce chapitre sont le fruit L
198. r document et la somme des effectifs des deux N grammes dans la collection de bi documents dans ces langues Y qoc ef f ectif sy volet ef fectif s2 voletn ef fectif_corpus s effectif corpus sz distancell s s2 Ce calcul de distance g n re des appariements entre deux popula tions de N grammes de caract res avec une distance situ e entre o et 1 2 Dans nos exp riences nous avons essay plusieurs tailles de fen tres diff rentes typiquement entre 100 et 10000 Plus la collection est grande plus la fen tre doit l tre aussi afin d tre s re de comparer les N grammes d effectifs proches Plus on arrive dans les faibles effectifs plus il y a de candidats comparer Pour une collection de 40 multidocuments une fen tre de 40 suffit 6 1 APPARIEMENT ENDOGENE DE POPULATIONS Les meilleurs appariements ont une distance de o Cette distance fait l hypoth se que certains termes sont globalement traduits de la m me mani re au travers des documents en relation de traduction et qu ils ont donc une r partition analogue calculable Cette distance ne prend en consid ration les positions des individus qu en terme de pr sence ab sence dans les diff rents volets Plus pr cis ment nous comparons des populations via leur vecteur d effectifs par volet dans chaque langue sans tenir compte des positions des individus l int rieur des volets 3 Les deux propri t s principales de cette distance sont donc de calcu
199. raitement type singulier pluriel suffisant dans le cas de la flexion de 72 UNE M THODE TEXTUELLE GUID E PAR LE MOD LE gt 1 gt Z A Y transport transports toutes les quivalences ne pourraient pas tre r v l es c est le cas notamment de la d rivation d velopper d veloppement cf galement tableau 12 L usage dans ces cas est de faire appel des dictionnaires mais ceci a un co t en termes de construction de main tenance et donc d extension du syst me de nouvelles langues auquel l extraction de N grammes de caract res n est pas soumise 5 3 2 Capacit des N grammes de caract res mettre en vidence des correspondances multilingues Le probl me de l alignement multilingue est un probl me de simila rit s et de diff rences de sens graphie et r partition Les facteurs com muns monolingues d ordre graphique pr c demment r v l s mettent en vidence des segments de textes s mantiquement proches Celles ci peuvent leur tour servir r v ler des similarit s multilingues de r partition Entre deux langues des formes diff rentes mais s mantique ment quivalentes ont des r partitions semblables entre deux documents traductions l un delautre Entre deux documents traductions l un de l autre l cart entre les effectifs de N grammes de caract res s mantiquement quivalents est inf rieur l cart entre les effectifs des N grammes de mots graphiques s mantiqueme
200. ration d une ligne de matrice Les matrices pr sentent donc diff rents niveaux de gris Une simila rit maximale est repr sent e par un pixel noir Plus un pixel est blanc plus les segments associ s sont diff rents suivant notre fonction de simi larit Ainsi si deux documents sont traduits de facon globalement litt rale alors une diagonale se dessine de l angle sup rieur gauche l angle inf rieur droit de la matrice Une diagonale bris e signifie au contraire l existence d inversions dans l ordre de la traduction Ainsi la question qui subsiste est celle de la d tection automatique des segments de droites autrement dit des multizones que nous obser vons sur ces matrices Nous pr sentons dans la section 6 2 2 les tapes du traitement r alis sur ces images 6 2 2 Detection des multizones partir des matrices Le probl me de la d tection des multizones en l occurrence ici des bizones entre deux volets est d sormais ramen un probl me de traitement d image et plus pr cis ment de d tection de segments de droites 6 2 APPARIEMENT ET ALIGNEMENT DE ZONES Les outils dont nous nous servons pour traiter les images font appel la suite d outils Pandore 5 labor e au sein de l quipe Image du labo ratoire GREYC de l Universit de Caen Ils ont t d velopp s par R gis Clouard En collaboration avec lui nous les avons utilis s sur nos objets Les tapes de lecture des matrices g n r es pa
201. ration que comme produit Parmi la vari t des ph no menes linguistiques ce chapitre a port sur ceux concernant les niveaux morphologiques syntaxiques et textuels Les conclusions de ce chapitre sont que au niveau sous phrastique l ordre des constituants d pend prin cipalement des langues en pr sence Bien que l ordre des mots n y soit pas toujours pr serv il arrive n anmoins que dans certains cas il le soit au niveau sur phrastique l ordre du discours d pend principa lement de choix du traducteur et bien que l ordre du texte en langue cible soit g n ralement le m me que celui du texte en langue source certaines contraintes peuvent engendrer des inver sions des suppressions ou des reformulations Nous retenons donc comme observation principale de ce premier chapitre qu au niveau sur phrastique comme au niveau sous phrastique on ne peut pr supposer ni de similitudes ni de diff rences d ordre Dans le chapitre 2 nous faisons le tour des diff rentes approches propo s es ce jour pour traiter ce mat riau complexe que sont les traductions corpus concepts indices approches du point de vue grain analys grain align Nous aurons un int r t particulier pour la facon dont elles prennent en charge les diff rences et les similitudes d ordre au niveau sur et sous phrastique Apr s avoir tir les constats qui s imposent nous pr senterons dans le chapitre 3 les grandes lignes de notre approche et le corpu
202. ravers des volets fran ais et anglais du communiqu IP 05 1157 pr sent es dans la figure 6 page 22 La figure 15c pr sente trois cas de suppressions respectivement au d but au milieu et la fin comme nous avons pu l observer travers l exemple du communiqu IP 05 473 pr sent dans la figure 8 page 25 Ces figures correspondent un attendu observable et d finissable l oeil nu Dans nos exp riences nous tablissons un diagnostic automa tique d finissant si les multidocuments sont synchrones asynchrones ou si le diagnostic n est pas tabli ind fini Le diagnostic ind fini est un diagnostic interm diaire donnant lieu un nouveau traitement automatique du multidocument Il pourra par exemple tre plong dans une nouvelle collection plus grande ou de documents th matiquement proches ou en cas d chec donner lieu une observation manuelle Il pourrait s av rer que des documents identifi s comme traductions via leur url nele soit pas en r alit Une fois le diagnostic pos nous r p tons 5 2 ALIGNEMENT DE ZONES 65 Volet 1 Volet 2 a Deux volets synchrones b j w b Mod les d inversions globale gauche et locale droite c Modeles de suppressions respectivement situ es au d but au milieu et la fin de gauche droite FIGURE 15 Mod les des diff rents types d alignement de zones les m mes op rations sur les multizones ainsi
203. re xd 2p ep FT 1J S 1J ua ire 179P 9p ep FT 1J S 1J U3 ire 1 J P PR 13 13 1J S 1J U3 ire el pe FT 1J S 1J U3 ire Dep 9p ep IT 1J S 1J ua ire PP Per FT 1J S 1J ua ire 1 J P SB HT 1J S 1J U3 ire 179P SEED Pd ISYI SO dI cvv 1 So g 9 bT SO AI gTHT SO AI 6Z11 S0o gI IZII SO gI c1 So gI SSTI SO qI Z6or So dI Vcct1 So gI anbrunuruio JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S ouoi1qou s JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S ouoi1qou s JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S nsouSer FU 1J S 1J U3 i e 9p AP EP y 17 89 1J uo i e 1 P PP JU 17 89 1J uo i e 1J 3P 9p ep y 17 89 1J uo i e Jp ep Ep y 1J S Ij ua i e Hep ap ep IU 17 89 1J uo i e Ap 3p ep y 1J S 1J U3 i e sp ap ep y 17 89 1J uo i e 1J 3P 9p ep y 17 89 1J uo i e dep PP J g 1J
204. re de transfert extrait automatiquement fr quence des sch mas de traduction 1 1 1 2 N anmoins si ces similitudes sont fr quentes entre les langues indo europ ennes elles s av rent plus rares et insuffisantes entre les langues de diff rentes familles indo europ ennes et asiatiques par exemple Les similitudes de distribution Kay et R scheisen 1993 s inspirent dela technique d ancrage lexical Pour cela ils utilisent d une part des dictionnaires bilingues et d autre part ils proc dent un rep rage des cognats grace au coefficient de Dice Leur modele est bas non seulement sur la correspondance phra se phrase mais aussi mot mot Selon Kay et R scheisen pour que les phrases d une langue soient align es il faut que les mots de ces phrases soient plus ou moins en correspondance M me si l alignement de ces mots est imparfait c est un bon point de d part l alignement de phrases Il faut donc comme point de d part trouver des phrases qui fassent of fice de point d ancrage aux autres les meilleures candidates sont les premi res et derni res phrases les plus susceptibles d tre effectivement align es La distribution des mots de cet ensemble de deux phrases est pris comme point de d part on fait l hypoth se que si ces distributions sont similaires au del d un certain seuil pour un couple de mots donn ces mots ont de bonnes chances d tre en relation de traduction Ces mots font office de point d
205. rmat qui ne permet pas d tablir des correspondances directes N anmoins il y a suffisamment d information pour mettre en correspondance les diff rentes parties de ces textes Exemple deux versions d un m me trait dans deux langues diff rentes Dans les formations de traduction Hartmann 1980 et Spillner 1981 ont d fini les textes parall les comme tant des documents au thentiques i e non traduits des textes choisis dans le r pertoire du texte cible de la culture car ils repr sentent le genre auquel le texte cible devrait appartenir Nord 2010 Cette utilisation renvoit la notion d intertextualit qui reconnait dans tout texte la pr sence d autres textes par le biais par exemple de la citation de l allusion du plagiat de la r f rence et du lien hypertexte c est dire de fa on plus ou moins ex plicite pour le lecteur Les documents auxiliaires utilis s en traduction 2 4 CORPUS PARALLELES ET D FINITIONS DU PARALL LISME couvrent les trois premiers types de parall lisme vu pr c demment explicite fonctionnel et latent L cole Coseriu de la linguistique contrastive favorise la derni re acceptation du terme parall le l implicite Elle a utilis les originaux et leurs traductions comme textes parall les pour l analyse des sources et l utilisation de la langue cible faisant valoir qu eu gard aux fonctions de communication nonc es par Jakobson il n existe pas de textes aussi paral
206. rn es vers de l alignement d unit s sous phrasti ques Cependant l alignement de phrases a des limites importantes comme en t moigne la campagne d valuation ARCADE 1 V ronis et Langlais 1999 r v lant les meilleurs r sultats sur le corpus JOC corpus marqu en paragraphes et divisions pas d interpr tation dans la traduction sch ma le plus g n ralement 1 1 et les pires r sultats sur le corpus VERNE il recueille les plus mauvais r sultats c est sur ce corpus que les syst mes pr sentent des performances les plus disparates de 2296 9096 de pr cision au niveau des caract res Ces mauvais r sultats s expliquent par la nature litt raire du corpus qui contient beaucoup moins d alignements 1 1 que les autres 7596 seule ment De plus la version anglaise est abr g e et pr sente des omissions par rapport la version francaise ce qui conduit des lt d crochements gt des syst mes Les m thodes sous phrastiques reposant largement sur l hypoth se que ce pr traitement est correctement r alis subissent des d gradations de r sultats lorsque ce n est pas le cas cf ARCADE 2 Chiao et al 2006 et autres valuations 2 3 M thodes d alignement sous phrastique Les m thodes d alignement sous phrastique prennent pour la plu part en entr e un corpus de phrases pr alablement align es Leurs r sultats sont donc largement d pendant de la qualit de cet aligne ment de phrases
207. rouver l information utile le dossier de traduction EURAMIS NOTE DANS DOSSIER MANAGER Le chef de l unit de traduction recoit la demande Le traducteur cr e le fichier de traduction DOSSIER MANAGER DGTWista Euramis Le traducteur traduit le document EUA Lex Un autre traducteur r vise le document WORD LATE TACE Le secr tariat sort le document SUIVI Le document est archiv DOSSIER MANAGER FIGURE 7 Cycle de la traduction la Commission europ enne Les besoins en traduction am nent des contraintes notamment de rapidit Les services de traduction doivent r pondre au mieux aux de mandes de traductions N anmoins les conditions ne sont pas toujours r unies selon le couple de langues notamment le systeme de Traduc tion Automatique de la Commission Europ enne TACE ne couvre que 18 couples de langues et ces couples ne recouvrent que 7 langues et les traducteurs sur certains couples de langues ne sont pas l gion Ces contraintes structurelles donnent lieu des choix tel que celui pr sent dans la figure 8 dans lequel la zone de texte commengant par Next 24 OBSERVATIONS LINGUISTIQUES ET TRADUCTOLOGIQUES steps en anglais n a t traduite dans aucune des autres langues dans lesquelles ce document est disponible 20 volets en tout 1 6 CONSTAT L ALIGNEMENT AUTOMATIQUE UN ENJEU DE TAILLE Nous avons fait ici l illustration de la complexit de la traduction tant comme op
208. rtir de la phase d appariement sont les suivantes 1 s lection des points de l image initiale qui peuvent entrer dans la composition d une diagonale La s lection des points d int r t utilis s pour d tecter les lignes utilise un seuillage fixe Un seuil fixe est possible ici car les images sont des images artificielles La valeur seuil a t fix e de facon empirique celui le plus proche de la perception humaine Les niveaux de gris vont de o 255 nous ne conservons que ceux au dessus de 127 Il reste ici beaucoup de points candidats utilisation de la transform e de Hough qui retourne la droite qui contient le plus de points de l image pr c dente dilatation de cette droite pour avoir une paisseur de 3 pixels soit 3 segments de documents afin de palier les micro d crochements de diagonale filtrage des points de l image initiale pour ne garder que les points sous la droite dilat e mise en relation des points qui ont une distance inf rieure une distance minimum donn e en param tre pour construire le plus grand segment de droite possible conservation du segment de droite le plus long suppression des points de l image de points candidats qui sont couverts par ce segment On emp che ainsi que ces points entrent en jeu dans une autre diagonale Nous souhaitons de cette facon obtenir le meilleur recouvrement des zones Celui dans lequel il n y a pas de recouvrement des segments et donc des pr
209. s us a nn re Tee a np m Bem Fa tuve RR i IP o7 1008 fi fr TABLEAU 30 Les 7 bi documents asynchrones avec inversion correctement attribu s sur les collections 1 2 3 avec la m thode Grand Angle voir tableau 24 7 3 VALUATION gt Meg na E 4E CO P xo a V A s is E YT Ew f a A 5 ty IT b E i k d I E E E PE LR a 1 zn i ul y w x sa a a e yt y LR w UN mn E n 4 E u p DOR EOM Eus OX B sd e E E ae Pa nm am u H lt Ay Mi DR IE Ey Gu S ET is s Pure E EE LE r c T z tu t t F i QM a z Die cH F z SIM N not t a at nn ipa E TP r UM A m D 1 r m p F y n n F T NC m nn E a a Jo EUM LM a I x US 2 T EM US e H a E d ta 4 nm FL o d o7 Ey r E LI E Da 1 1 A f s na m f a F LE ELE L s a L Rui o _ _ KI MX IP 05 1344 da de IP 05 1344 es fr k i ES i iS NN a a LI ma a Li LI LI LEM m E T T m m a H x an o a Sy m a a C E v ua amp QU a a4 amp a n ot a a4 pa o sa a oe Ra e 2 dtm I I nor 1 P ior For gg H 1 I 1 i Hl H 1 I 4 I 1 Es 1 M E I P P L HI V i I P L s og Du i od vi we F i CES E gt u r E r E oU Z m Cy L
210. s droite symbolisent des textes en relation avec les textes source et cible articles romans dutype de document On ne traduit pas de la m me facon un bulletin m t o une d p che diplomatique ou un texte litt raire Parmi ces derniers on n assimilera pas la traduction d un roman celle d une po sie dont il convient de rendre avant tout la musicalit ou celle d une piece de th atre dont il importe de OBSERVATIONS LINGUISTIQUES ET TRADUCTOLOGIQUES restituer l efficacit sc nique et le rythme des dialogues Ost 2009 p 227 des outils disposition dictionnaires monolingues et bilingues des documents auxiliaires parall les ou comparables voir cha pitre 2 Tools Texts Persons Objects j Auxiliary Texts Reference Works Laypersons colleagues experts I aa Previous background parallel atlases manuals chronicles lexicographical user designed translations texts texts sources glossaries etc model texts dictionaries encyclopaedias FIGURE 2 Les outils du traducteur Nord 2002 La probl matique de la traduction est donc aussi vaste que le langage lui m me c est donc naturellement que les traductions sont devenues des objets d tudes part enti re et qu une science proposant d en faire l tude est n e dans les ann es 60 12 LES TRADUCTIONS DES OBJETS D ETUDE La traductologie translatology Harris 1988 est le nom donn par Harris en 1973 a la m ta op ration d
211. s transport sant et t l phone ont t constitu es en exploitant des expressions r guli res sur les mots des th mes voulus en fran ais Les collections 1 2 et 3 ont t trait es avec et sans leur mise en forme mat rielle afin de mesurer l impact de la mise en forme sur nos 2 http europa eu rapid pressReleasesAction do reference IP 05 182 amp format HTML amp aged 1 amp language EN amp guiLanguage en 72 R PARTITIONS DES DIFF RENTS DIAGNOSTICS SUR LES COLLECTIONS 97 r sultats Une synth se des r sultats sur les 6 collections est pr sent e dans le tableau 23 Les diagnostics sont bilingues Ils sont r alis s sur les couples de langues suivants fr de fr el fr en fr es fr fi et de da Ces couples nous permettent de constater l impact de la proximit des langues sur le diagnostic Ainsi pour chaque collection nous obtenons 240 matrices 6 couples x 40 mds Chaque collection a t analys e avec les deux m thodes Petit angle et Grand angle Ainsi 1440 correspond au total des collections 1 2 et 3 soit 240 matrices x 3 collections x 2 m thodes 72 2 Synth se des r sultats sur notre corpus d valuation Une synth se des r sultats obtenus en mati re de diagnostic de synchronicit des multidocuments est pr sent e dans le tableau 23 Ce tableau pr sente les r sultats obtenus par chacune des deux m thodes Petit Angle et Grand Angle sur l ensemble des collections Ceci p
212. s JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S ouoi1qou s ouoi1qou s JUOIYIU S ouoi1qou s ouo1qou s JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S nsouSerq J g 1J S 1J uo i e Sp BPSEP Y 17 89 1J uo i e Sp Bp ep y 17 89 1J uo i e 9p ep EP J g 17 89 1J uo i e 9p Per y 17 89 1J uo i e 1 P 9p ep y 17 89 1J uo i e 1 P 9p ep Y 17 89 1J uo i e ISP per J g 1J S 1J uo i e dp Pep Pd VZTI 90 GI 6v11 90 gI 9ET1 90 d1 S T 90 GI v 1 00 gI OO T 90 I 6171 90 41 t or 90 gI anbrunururo JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S ouoi1qou s JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S nsouSer q Y 17 89 1J uo i e 17 9P p ep 17 1 17 89 1J uo i e 1J 3P 9p ep Jr g 17 89 1J uo i e Feb 3p ep y 17 89 1J uo
213. s dans tel document en fran ais et n fois dans tel autre document fran ais et ne l est pas dans tel autre L analyse de chacun des multidocuments de la collection est faite avec l aide d une collection de multidocuments tir e du corpus voir section 3 3 Consid rons une collection de quatre multidocuments Md Md2 Md3 et Md4 en deux langues h et 12 et la r partition sur la collection de trois individus un en langue 1 et les autre en langue 2 Individus Effectifs par document Mdi Md2 Md Md4 Individu 4 6 12 1 Individu 4 7 10 1 Individu 4 3 20 O TABLEAU 11 Vecteurs d effectifs par document de trois individus dans une collection de multidocuments En ne consid rant pas les positions des individus l int rieur des volets des multidocuments de la collection nous parvenons n anmoins r v ler des similitudes entre eux et les aligner sans imposer le parall lisme entre ces volets l Individu gt pr sente davantage de similitude de r partition sur la collection avec le premier lt Individu gt qu avec le second lt Individu gt En amont du processus d alignement la collection nous sert ga lement d limiter et s lectionner les chaines de caract res pr sentant un int r t pour l appariement Notre crit re de d limitation des chaines tant la r p tition nous nous servons de la collection pour la favoriser Ainsi nous ne conservons que les chaines de caract res d au moins deux
214. s feq ap uorsso1ddns uo lt awupupn gt sosi eq op uorsso1ddns o lt 2U4DUD gt sos feq op uorsso1ddns ap lt 2v gt sosi eq op uorsso1ddns ep ap s oop sop T ne sjo oA xnop so suep s nbnu pi lt t auyn gt sost eq op 31198 s oop sop T ne sjo oA xnop so suep s nbnu pir lt auyn gt sost eq op 31198 s oop sop T ne sjo oA xnop so suep sanbryuapt lt auyn gt sost eq op IFS s oop sop T ne sjo oA xnop so suep sanbryuapi lt f 241 v gt sost eq op 31198 s oop sop T ne sjo oA xnop so suep s nbnu pir lt f 241 v gt sost eq op 31198 s oop sop T ne sjo oA xnop so suep s nbnu pir lt f91YD gt sost eq op 31198 stej3ue uo soxouue xneo qej stej3ue uo soxouue xneo qej stej3ue uo soxouue xneo qej stej3ue uo soxouue xneo qej stej3ue uo soxouue xneo qej stej3ue uo soxouue xneo qej sera nsougerq Pa anbrunururo a uorssa1ddns uorssa1ddns uorssa1ddns uorssa1ddns uorssa1ddns uorssa1ddns ouoiqou s JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S nsouSer y 1J S 1J uo i e ap 9p ep 1J 17 89 1J uo i e T 9p 2P EP y 1J S 1J uo i e Ti 9p 9p ep Pa U9 IJ oXouue IJ Ud IJ oxouue JJ u s oxouue ousedsa Jo 0A np ul e e uorsso1ddns U3 1J oxouue JJ Je u 9XJUUP 9 U3 1J oxouue IJ U3 1J oxouue JJ 6 1 0 qI u ep oxouu
215. s quand une suppression de zone de textes intervient ou que les paragraphes sont tri s par ordre alphab tique figure 13 Ceci constitue un obstacle majeur aux m thodes d alignement qui reposent sur une hypoth se de parall lisme et qui traitent comme objet de d part des documents traduits dans leur int gralit Nos travaux s orientent vers la d limitation automatique de ce grain interm diaire entre le document et les unit s sous phrastiques grain d fini en contexte dans un traitement bilingue et non de facon ad hoc Cette bi zone est constitu e de deux zones une dans chaque langue elles m mes constitu es de caract res pouvant recouvrir plu sieurs r alit s en contexte du document la chaine de caract res en passant par le paragraphe la phrase la proposition l expression ou le 4 5 LES MULTIZONES mot Une bi zone est donc le r sultat de la mise en correspondance de deux zones de textes de deux langues diff rentes Deux zones seront align es si elles r v lent un maximum de liens autrement dit si elles maximisent le parall lisme Nous avons pr sent dans ce chapitre les concepts originaux la base de notre m thode r solument orient e analyse textuelle le multidocument la collection de multidocument le document et sa mise en forme mat rielle les chaines de caract res r p t es de longueur maximale et les multizones Nous pr sentons dans le chapitre 5 l exploitation que nous en faisons dans notre m
216. s av rer une grande source de connaissances sur les langues en pr sence lexicales syntaxiques Les organisations ayant un rayonnement international proposent des informations en diff rentes versions linguistiques documentation technique texte r glementaire document contractuel information com merciale communiqu de presse Des op rations de r tro ing nierie sur ces documents peuvent ap porter une aide tant en amont du processus de traduction qu en aval En amont elles participent la cr ation d outils d aides la traduction ressources dictionnairiques terminologiques m moires de traduction En aval elles peuvent s av rer utiles pour contr ler a posteriori la tra duction voire le cas ch ant pour orienter une r vision de la traduction en mettant par exemple en lumi re certaines divergences entre le texte source et le texte cible Ces outils visent augmenter la productivit de traducteurs humains Cela est rendu possible par la croissance des capacit s de calcul des ordinateurs Ces traductions d une m me infor mation font depuis plusieurs ann es l objet de recherches en Traitement Automatique des Langues L informatique alli e la linguistique de corpus offrent un nouveau regard sur ce mat riau linguistique Les techniques qui permettent la mise en correspondance de zones s mantiquement quivalentes sont des techniques dites d alignement Les correspondances s mantiques peuvent tre faites plu
217. s d fini a priori ce sont g n ralement des bi grammes ou des tri grammes de caract res 4 grammes ou 5 grammes dans le cas de Mcnamee et Mayfield 2004 chez Cromieres leur taille n est pas pr d finie Les syst mes d alignement et d extraction d information au sens large passent g n ralement par une segmentation en mots Mais la ques tion du statut du mot se pose En TAL le mot est g n ralement d crit comme un segment de discours compris entre deux espaces et ou ponctuation Or ce mot graphique au travers des langues recouvre des r alit s tr s diverses d un point de vue s mantique En outre certains syst mes d criture ne marquent pas les fronti res du mot par des espaces c est le cas notam ment en chinois Le concept de mot est donc complexe Son statut d pend en fait du point de vue adopt lexical ou graphique Ces deux points de vue ne sont pas toujours en correspondance cf tableau 1 Cette question est d autant plus complexe que l on a traiter des mots polylexicaux ou complexes savoir toute unit compos e de deux mots simples ou mots d riv s pr existants les mots polylexicaux ou complexes peuvent tre soud s et alors du point de vue informatique ils peuvent tre assimil s des mots simples ou comporter un s parateur La forme graphique d une unit lexicale compos e tient de propri t s intralangues Elle d pend des particularit s morphologiques de flexions et
218. s sur lequel nous l avons mise en place corpus que nous avons voulu d embl e repr sentatif de la diversit des langues et des documents 1 6 CONSTAT L ALIGNEMENT AUTOMATIQUE UN ENJEU DE TAILLE en 1P 05 473 Brussels 24 April 2005 European Commission launches Investigations into sharp surge in Chinese textiles imports Trade Commissioner Peter Mandelson today announced that he has decided to ask the European Commission to authorise him to launch investigations into nine categories of Chinese textile exports to the EU Peter Mandelson said Member States have finally made available the import statistics for the first quarter of 2005 The product categories to be covered by the investigation are T shirts pullovers blouses stockings and socks men s trousers women s overcoats brassieres flax or ramie yarn and woven fabrics flax The product categories concerned cover 7 of the 12 product categories identified by the European textile manufacturers association Euratex in a letter to the Commission on 9 March 2005 The Textile Specific Safeguard Clause in Chinas WTO Accession Protocol 2001 Next Steps These investigations will last for a maximum of 60 days of which the first 21 will be used to take submissions from parties The Commission reserves the right should massive and imminent damage to European textile producers At the end of the investigation if the Comm
219. s symbolisent des paragraphes entiers de plusieurs lignes de 3 plusieurs dizaines 22 OBSERVATIONS LINGUISTIQUES ET TRADUCTOLOGIQUES IPS 157 FR Resume des projets LIFE Envitonnement 2005 pays par pays Allemagne six projets Deux projets concement la question des eaux LE premie appliquera une strat gie int gr e agricole diffuse dans le sens de W Belgique deux projets Les deux projets traitent de la gestion premier des lignes directrices sur les m eilg mati re d utilisation sans risque des ee E Sera appliqu es dans le but de pr server de la poll surface et les eaux souterraines Danemark six projets Deux prajetstraitent de la gestion des eaux Le premi r duire les infitrations d azote et de phosphore manant Ow activit s agricoles dans le bassin fluvial d O dense conformement aux objectifs dela directive cadre sur l eau Espagne seize projets Trois projets portent sur la permettra de d finir un model de gestion int gr e pour la prise anant de l industrie du en charge des d chets liquides placage Estonie un projet Finlande deux projets France onze projets e Gr ce quatre projets Irlande deux projets Italie quinze projets Luxembourg un projet Pays Bas sent prajets Portugal deux projets Roumanie un projet Royaume Uni dix proje
220. sein d un corpus bilingue par exemple un mot source poss de diff rents quivalents dans la langue cible Dotplot ou matrice Le dot plot est un outil graphique servant tu dier la similarit entre deux s quences il est principalement utilis en bio informatique Foisonnement En traduction le foisonnement est la prolif ration de mots en surnombre c est l augmentation du volume du texte d arriv e par rapport au texte de d part Durieux 1990 Grain Taille d une unit linguistique donn Les grains s emboitent les uns dans les autres selon une hi rarchie de grains le grain document le grain phrase le grain mot Hapax Du grec lt amat Aeyopuevov gt h pax leg menon dit une seule fois le terme hapax signifie un mot qui n apparait qu une fois dans un texte ou un corpus de facon monolingue dans nos travaux Individu Occurrence d un n gramme de caract re r p t Intertextualit Ensemble des relations qu un texte entretient avec un ou plusieurs autres textes citations allusions r f rences Tout texte se situe la jonction de plusieurs textes dont il est la fois la relecture l accentuation la condensation le d placement et la profondeur Phi lippe Sollers 1980 Multi document Ensemble constitu d un document original en langue source et plusieurs de ses traductions Multi zone Ensemble constitu d une zone de texte en langue source et plusieurs de ses
221. sieurs niveaux paragraphes phrases mots L tat de l art pour automatiser cette mise en correspondance fait l hypoth se simplificatrice du parall lisme au niveau sur phrastique hy poth se qui sous tend que l ordre du discours est globalement pr serv Cependant celle ci n est pas toujours v rifi e et des verrous de meurent qui emp chent de valoriser pleinement cette mine d informa tions d en extraire aussi massivement qu envisag des ressources pour tant utiles tant aux traducteurs qu aux lexicologues Il nous semble qu il existe une marge de progression Certains aspects des documents paral l les m ritant d tre approfondis notamment leur mise en forme et les cas d inversions et de suppressions au niveau sur phrastique Nos travaux portent sur la recherche d une m thode d alignement prenant en consid ration le travail de r criture que constitue la traduc tion l image de notre cursus universitaire ces travaux sont de deux types observations linguistiques et r alisations informatiques Notre d marche consiste partir d une observation multi chelle des documents multilingues pour mettre en place une m thode g n rique d extraction d quivalences s mantiques entre ces traductions L objectif de ces travaux est double appariement et alignement i e cr ation de ressources et analyse de document La premi re partie de ce document pose les bases n cessaires l laboration de notre m thode d al
222. ssier et Philippe Langlais d avoir accept de rapporter sur cette th se et Christine Durieux et Patrick Constant de faire partie du jury Merci Lois Rigouste et Romain Brixtel je suis tr s heureuse d avoir crois vos routes Acteurs et t moins privil gi s si l on peut dire de ma mutation Il vous en aura fallu de la patience pour m pauler dans cet apprentissage tardif de l informatique Merci vous deux pour toutes ces discussions fructueuses toujours dans la bonne humeur Merci R gis Clouard d avoir imm diatement adh r au projet de s tre toujours montr disponible et int ress Et de m avoir fait b n fi cier de ses pr cieuses comp tences en traitement d images Merci Ga l Leslie et Estelle qui ont bien voulu prendre de leur temps pour me relire m me quand ils n en avaient pas Merci enfin ma famille et mes amis qui pendant ces trois ann es de travail m ont toujours entour e et encourag e Et un merci tout sp cial Samuel qui a v cu et surv cu ces ann es bien sp ciales au jour le jour iii SOMMAIRE INTRODUCTION 1 I DEL ETUDE DE CORPUS DE DOCUMENTS PARALLELES L TUDE DE COLLECTIONS DE MULTIDOCUMENTS 3 1 OBSERVATIONS LINGUISTIQUES ET TRADUCTOLOGIQUES 5 2 EXISTANT M THODOLOGIQUE 27 3 POUR UNE M THODE SANS PR SUPPOS DE PARALL LISME 47 II M THODE D ALIGNEMENT SANS PRESUPPOSE DE PA RALL LISME 51 4 NOS CONCEPTS 53 5 UNE M THODE TEXTUELLE
223. studied nor alignment method locks raised including their formatting and the cases of inversions and deletions at macro level Thus to date there is no tools to take benefit from this wealth of information to extract resources as massively as envisaged despite their usefulness both for translators and lexicologists We present a method without assumption of parallelism between the different com ponents of a multiple document The basic idea of this work is between two components of a multi document there are grains that maximize the parallelism we call them multi zones They can cover several realities document series of paragraphs paragraphs proposals Their boundaries can not be defined in an ad hoc way it should be done in context and independently of languages To this end we combine several original processes study each multiple document through a collection of multi document use the formatting of documents by direct processing of source or process repeated strings rather than words he purpose of this work is twofold matching and alignment i e resource creation and document analysis This method requires little supervision Add a new language or change corpus of entry do not represent a significant cost KEYWORDS natural language processing alignment multilingualism parallelism set of multidocuments multizones repeated character N grams Laboratoire GREYC La Campus C te de Nacre Boulevard du Mar chal Juin B
224. sy c qusuro 821 97 snjopuosnjose T T AUSSI IP NYSISDIIEL 29SIA91 uonisodoud eT TT Jonjoe snjose UsUTAYAN uosxnjopuo pny 1uouro 824 97 OT 2AOU9I UNJ9 STJ18 ULULI IX 27 91 aoug snjopuq IX 27 Isyasynjose S 3uouro d21 un p uosynjopue UNJIISTAIPI 99STA9 uonrsodoid oun Id dd T9 9018 33 nu STOISUOUY y srouuy 17 sreSue uo 26 S0 q 1usumoopng nui 21 suep s10ydeue p ougurouaud np uoneznsn i Z nvarrav T ppddez ap no SoJrepuooos sonbuioudeue saureyy 91uopo ojue no edrourid onbuoudeur sureyy HOAONVT 15 CONTRAINTES DITORIALES 21 IP 05 1157 DE IPUS415 EN ANHANG ANIME x Uberblick ber die LIFE Llm welt Projekte 2005 nach Landem Overview of LIF E Enviranm ent projects 2005 by country Belgien zwei Projekte Belgium 2 projects Beide Projekte befassen sich mit der Wasserbewirtschaftung Goth projects deal wih water management In the first best Beim ersten Projekt werden Bewirt schattunaslertlinien mit practice management guidelines for the safe use of pesticides bewahrten verfahren f r die unbedenkli che Verwendung von vill be implemented to prevent surface and groundwater from Pestiziden umgesetzt um das Oberfl chen und Grundwasser run vor Yerschmutzung zu sch tzen bom ark B projects D nemark sechs Projekte Two are water management projects One aims to reduce mel Projekte befassen sich mit der Wasserbewirtschaftu
225. t n erlandais nl polonais pl portugais pt roumain ro slovaque sk slovene sl su dois sv tch que cs langue SOV hongrois hu n erlandais Jangue VSO espagnol n erlandais langue OSV roumain ordre libre finnois hongrois polonais slovaque slov ne G n ralement les langues sans d clinaison comme le fran ais ou l espagnol ont un ordre plus strict que celles qui se d clinent mais ce n est pas une regle Les langues finno ougriennes utilisant peu la coordination ou la subordination au profit de la juxtaposition donnent beaucoup d importance l ordre des mots Nous pouvons galement ici voquer l ordre d terminant d termin Si en fran ais l ordre est principalement d termin d terminant en anglais la r gle est davantage celle du d terminant d termin quoique les deux se rencontrent tableau 5 d termin lt gt d terminant d termin d terminant d termin d terminant fr es it mt pt ro bg cs da et fi hu It lv nl sl sk sv de en el pl TABLEAU 5 Ordre d terminant d termin des langues de l Union Euro p enne Ainsi en n observant ne serait ce que le couple frangais anglais il nous est d j permis de rencontrer les deux cas de figure la similitude ordre SVO et la diff rence ordre d terminant d termin d ordre au 1 4 LES TRADUCTIONS DES NONCIATIONS UNIQUES niveau sous phrastique Nous les i
226. t possible d viter les pi ges Ici pour nous qui nous situons en aval de la traduction il nous sert prendre conscience de tous les changements qui s op rent dans le passage d une langue une autre tant au niveau de l ordre des constituants que de leur nature m me si ce dernier aspect ne nous int resse que peu ici 13 14 OBSERVATIONS LINGUISTIQUES ET TRADUCTOLOGIQUES Les diff rents sch mas Sujet Verbe Objet SVO Il existe des diff rences de syntaxe courantes y compris entre des langues de la m me famille linguistique Ainsi parmi les langues indo europ ennes notamment l on d nombre plusieurs sch mas SVO plus ou moins contraints L ordre des constituants de la phrase n est donc pas n cessairement invariant et peut galement poser probl me quand en allemand ou en grec par exemple l ordre de la phrase peut tre Sujet Verbe Objet SVO ou Objet Verbe Sujet OVS ou encore SOV parfois en allemand Il n est alors pas toujours vident de d finir cet ordre et donc dans le cadre d une m thode d alignement d tablir des alignements Les ressources linguistiques ce propos elles m mes se contredisent parfois En th orie en ce qui concerne les langues europ ennes on attribue aux langues les ordres suivants langues SVO allemand de anglais en bulgare bg danois da espagnol es estonien et finnois fi fran ais fr grec el italien it letton It litunien It maltais m
227. t attribu s sur les collections th matiques avec la m thode Grand Angle voir tableau 25 WA shaagime an oy Hees Poth assis og m oe m z LI m h Harn a _ s a Mass A n O o oT eu m og m Lala m r at m m m M d n a LL 7 3 VALUATION ET DISCUSSION DES R SULTATS 111 IP 06 1515 fi fr i N iSo u r e i 1 x X Lo _ IP 07 1504 es fr rd MC RES A er eins ur mme los W pen IR NUS eene und in na See RESTS apor isa i Tale Ena ma rac t no vi ae oe thes ta st ti aadi ws 3 Uis ENS tli t iTe n EM MEER RN uU SERT MA NT aC o tum I Yr DIMISIT hv gie n CNN Pda gea Pa Vut dou ma s PE JA nal inn m E i 78 H K 2 i ui F SURGE OL Garey dai eR 1 Y WX Macar T x wx MEET IP 08 1144 fi fr a an n m u u n of Wee R TIR UR ata 3 MDC Tau DU A EF D REC ELE LEM 2 A k u m ive E oe E a u J 1 PL r LN n in oe 7 uem in pott r nu Ss Tep uie n T p Ip a n Frac wx B F ae m en tH 3 IP 08 803 es fr EL p a B t re p un e Fan eva cn Ln t sita D s adm ag T s ma x I x ape de Tad 4 Ci E an T pan 4 L em IP 05 1558 el fr EH ak mon TR m E HL u EE LI K ole LE J s au E m EYE mM mm a oma C
228. t partie des documents que nous pr sentions au chapitre 1 p 25 et que nous annoncions au chapitre 3 vouloir tre capable de traiter ultizone 1 74 ALIGNEMENT DE ZONES Le tableau 39 illustre un cas de suppression dans un des deux volets le volet es correspondant 4 lignes 350 caract res Les termes d une aide apport e par l Europe la Bulgarie et la Roumanie n ont pas fait l objet d une traduction en espagnol L alignement de zones est globalement correct Le tableau 40 illustre un cas de suppression dans un des deux volets le volet fr correspondant environ 1000 caract res Des balises type lt a gt lt a name _H1t188932286 gt n apportant rien en terme de mise en forme ont t supprim es en fran ais L alignement de zones est globale ment correct Le tableau 41 illustre un cas de diff rences d ordre entre les zones de textes de deux volets L ordre des paragraphes est diff rent d un volet l autre Tous les segments de droites de la matrice n ont pas t mis en vidence cependant l alignement de zones d coulant des segments isol s est globalement correct Le tableau 42 illustre un cas de diff rences d ordre entre les zones de textes de deux volets L ordre des pr sentations des projets list s par pays respecte l ordre alphab tique des noms des pays concern s Tous les segments de droites de la matrice ont t mis en vidence l alignement de zones d coulant des segments est globalement correct Ce
229. t spain 15 projects ri Y ore Three project focus on water management One will define an spanien 16 Projekte Integrated management model for dealing with liquid waste Drei Projekte befassen sich mit der Wasserbewirtschafturng from the plating industry Eines dient der Erarbeitung eines integrierten Sweden 2 projects M anagementmodals zur Behandlung f ssiger Abf lle aus Ga vanisierbe neben United Kingdom 10 projects A Four UK projects deal wih waste management The first aims Vereinigtes K nigreich zehn Projekte ta demonstrate the use of an advanced ultra high pressure Vier Projekte betreffen die Abfallwirtschaft Mit dem ersten meter technology ta recover material from used tyres Projekt soll eine neue Vyasser Ultrahacherucktechnolagi e zur The second will dem onstrate innovative technologies for the R ck qewnnunag von Wertst fen aus Altreifen vorgef hrt recyding of glass waste streams that are currently unsuitable werden for mast glass manufacturing processes and thus end up in Das zweite Projekt dient der Demonstration innovativer landfill sites Technologien f r die Vviederzereertung von Glasabf llen die f r die meisten Glasherstellungsverfahren nicht geeignet sind und deshalb auf M lldepanien landen FIGURE 5 Similitude d ordre au niveau sur phrastique entre les annexes des documents anglais et allemand du multidocument IP 05 1157 Les ont t introduits par nos soins il
230. tion 96 TABLE DES MATIERES 7 2 2 Synthese des r sultats sur notre corpus d valuation 97 7 3 Evaluation et discussion des r sultats 7 3 1 Comparaison avec d autres mod les 7 3 2 Pourquoi des matrices restent ind finies ou mal d finies 7 4 Alignement de zones CONCLUSION IV ANNEXES VALUATION QUANTITATIVE DES APPARIEMENTS B VALUATION MANUELLE DU PARALL LISME BIBLIOGRAPHIE GLOSSAIRE 29 121 123 125 137 149 155 TABLE DES FIGURES FIGURE 1 FIGURE 2 FIGURE 3 FIGURE 4 FIGURE 5 FIGURE 6 FIGURE 7 FIGURE 8 FIGURE 9 FIGURE 10 FIGURE 11 FIGURE 12 FIGURE 13 FIGURE 14 FIGURE 15 FIGURE 16 FIGURE 17 FIGURE 18 FIGURE 19 FIGURE 20 FIGURE 21 FIGURE 22 L intertextualit dans le processus de traduction 7 Les outils du traducteur 8 Diff rence de l ordre des mots au niveau sous phrastique 16 Similitude de l ordre des mots au niveau sous phrastique 17 Similitude d ordre au niveau sur phrastique 23 Ordre diff rent au niveau sur phrastique 22 Cycle de la traduction la Commission europ enne 23 Illustration d un cas de suppression 25 Illustration du macroparall lisme intratextuel 30 Illustration du parall lisme 35 Hi rarchie de grains 57 Maintien de l ordre vs inversions entre les diff rents volets
231. tion pages 175 186 institut sup rieur de traducteurs et interpr tes ISTI Bruxelles Belgique 2006 Cit aux pages 8 et 79 147 148 BIBLIOGRAPHIE Maria ZIMINA POIROT Approches quantitatives de l extraction de ressources traductionnelles partir de corpus parall les Sciences du langage Universit Paris 3 Sorbonne Nou velle 2004 URL http hal archives ouvertes fr index php halsid 7hubfdttvo7pmuoousu7ulelg7 amp view this doc tel 00008311 amp version 1 Cit la page 41 GLOSSAIRE Aligner ou apparier lt Aligner ou apparier deux textes dont l un est une traduction de l autre consiste mettre en relation des unit s logiques qui se correspondent dans les deux textes Ces unit s logiques peuvent tre de diverses sortes paragraphes et structures logiques du document phrases syntagmes mots gt Harris 1988 Alignement Un alignement est une correspondance s mantique locale prise en contexte Il met en correspondance une occurrence d une unit donn dans une langue avec une occurrence d une unit d une autre langue Appariement Un appariement est une correspondance s mantique fortement g n ralis e telle qu on en trouve dans un dictionnaire Par extension l appariement en tant que m thode est la mise en correspon dance de deux chaines de caract res r p t es entre des multidocuments i e des populations gr ce leur similitude de r partitions i e effectifs et pos
232. tional Telecommunica tions Union CCITT handbook 13 5 M de mots et l International Labour Organisation 5M voient le jour entre 1992 93 ils com portent le fran ais l anglais et l espagnol Puis entre 1994 95 le projet MULTEXT MLCC constitue un corpus de questions crites de parlementaires sur plusieurs sujets 10M de mots et de d bats du parlement europ en environ 60M disponibles en 9 langues europ ennes Ide et V ronis 1994 ont align environ 1M de ces mots au niveau des phrases Erjavec et al 1995 travers le projet MULTEXT EAST ont constitu quant eux un corpus de langues de pays europ ens de l Est partiellement align s en phrases 3 Corpus align s textes et annotations m tainformation d quivalences entre des niveau de granularit paragraphes ou phrases 4 http wt jrc it lt Acquis 2 2 M THODES D ALIGNEMENT ET HYPOTH SE DE PARALL LISME d autres projets tel le Projet JEIDA Isahara et Hiruno 2000 ont vis la constitution de corpus paralleles pour les langues asia tiques Dans les textes juridico administratifs l alignement de phrases est tr s souvent de type 1 1 d o l largissement d autres types de textes dans le cadre de la campagne ARCADE 1 articles scientifiques manuels techniques litt rature Science 5 articles totalisant so ooo mots par langue Tech 1 manuel de documentation technique 39328 mots anglais et 46828 mots fran ais Verne le r
233. tionnelles observables en contexte i e des alignements Notre m thode d alignement endog ne prend en consid ration ce continuum et propose de l exploiter dans le traitement homog ne multilingue et multi chelle d une collection de multidocuments SOMMAIRE 5 1 Caract ristiques dela m thode 63 5 1 1 Une m thodedescendante 63 5 1 2 Diff rents types d alignement de zones 64 52 Alignementdezones 65 5 2 1 Recherche de multizones 65 5 2 2 Calcul des multizones entre alignement et appariement 66 5 3 Appariement endog ne de cha nes de caract res r 5 3 1 Capacit des N grammes de caract res r v ler des correspondances monolingues 7o 61 62 UNE M THODE TEXTUELLE GUID E PAR LE MODELE 5 3 2 Capacit des N grammes de caract res mettre en vidence des correspondances multilingues 72 5 3 3 Incapacit s des N grammes de caract res 73 5 4 Del alignement de zones l alignement intra multizones 74 5 1 CARACT RISTIQUES DE LA M THODE 63 5 1 CARACT RISTIQUES DE LA M THODE 5 1 1 Une m thode descendante Notre m thode figure 14 est descendante et s attaque au probl me de la d tection de parall lisme suivant la hi rarchie de grain figure 11b Document Zone Segment N grammes de caract res Nous pouvons r sumer ses caract ristiques principales en quelques points le processus d analyse prend
234. tons l appariement du dernier l ment avec tous ceux qui le pr c dent Pour une fen tre de taille F on aura donc calcul une distance sur les positions dans la collection selon une m thodologie que nous pr cisons ci dessous entre une population et les 2F 2 populations les plus proches de la liste F 1 au dessus et F 1 en dessous M me s ils pourraient se r v ler int ressants pour d autres applications nous ignorons ici les couples constitu s de populations de m me langue Ils pourraient servir r v ler les couples dont les appa ritions sont fortement corr l es Nous nous concentrons sur les liens interlingues langue N gramme effectif dans effectif par volet la collection el _agpoliuev 23 4 2 3 fr a roports 21 4 2 2 Tableau 16 Exemple de r partitions de deux N grammes de caract res en grec et en fran ais Les espaces sont repr sent s par le caract re lt _ gt Ainsi nous calculons les appariements entre chaines de caract res de langues diff rentes en prenant en compte des similitudes de r parti tions sur l ensemble des bi documents Un exemple de r partitions par volet de deux N grammes de caract res est donn dans le tableau 16 Pour calculer les appariements nous utilisons une distance L1 nor malis e elle consiste faire pour deux N grammes de caract res s et 5 de deux langues diff rentes l et 12 le rapport entre la somme des diff rences d effectifs pa
235. transformation m tataxique quivalente du second qui lui est solidaire Concr tement si on change un substantif en verbe ou inversement il y a lieu de chan ger parall lement l adjectif en verbe ou inversement Ceci est valable aussi bien en monolingue qu en multilingue transformation complete de l ordonnance structurale avec chan gement de noeud central tableau 4 on dit qu il y a interversion des actants quand un actant d une langue correspond s man tiquement un autre actant dans une autre langue La traduction de l une l autre n est possible qu en changeant la nature de l actant M me si le niveau s mantique pr vaut sur le structural un verbe dont on connait le sens mais dont on ignore la struc ture actancielle est inutilisable d o l importance de la structure actancielle dans le passage d une langue une autre Sans rap peler toute l tude de la m tataxe que propose Tesni re on peut simplement rappeler que cette interversion des actants peut tre notamment simple double intervenir entre des actants et des circonstants ou dans le passage de l actif au passif LATIN gt FRAN AIS Tela milites deficiunt les armes font d faut aux soldats Actant 2 Actant 3 TABLEAU 4 Transformation complete de l ordonnance structurale avec chan gement de n ud central Cette liste des diff rents types de m tataxe que Tesni re nous offre se veut une sorte de mode d emploi de la traduction grace auquel il es
236. ts Gualre projets britanniques traitent de la J I Le premier utilisera une techri que avanc e de projedion d ea ultrahaute pression pour r cup rer des mati res partir des pneumatiques usag s Le deuxi me projet utilisera des technologies innovantes pour le recyclage des d chets de verre actuellement inutilisables dans la plupart des processus de fabrication du verre et qui aboutissent des lors dans des d charges Suede deux projets IFP 051157 EN ANNEXE ANNEX Overview af LIFE Emironment projects 2005 by country Belgium 2 projects Bath projects deal with water management Inthe first best pradice management guidelines forthe safe use of pesticides Will be implemented to prevent surface and groundwater from pollution Denmark B projects To are water management projects One aimsto reduce nitrogen and phosphorus losses from agricultural activities in the Odense river basin inline with the ELI Vater Framework Directive objectives E aonia 1 project es ex Dans le in les eaux de Finland 2 projects France 11 projects Gemany projed s Tao projects concern water management The first vil take an integrated approachto reduce diffuze pollution from agriculture in support ofthe Water Framework Directive Greece 4 projects Hungary 1 project lon des eaux Le premier Ireland 2 projects Italy 1
237. tung von Kulturlandschaften verbundenen zus tzlichen Kos ten und Einkommenseinbu en und Vorruhestand Zu diesem Zweck w r den Mittel auf die Mafinahmen zur landlichen Entwicklung bertragen von 100 Mio EUR im Jahr 2009 bis 400 Mio EUR im Jahr 2014 Diese Mittel w ren den Weinbauregionen vorbe n im Rahmen der Entwicklungsprogramme f r den landlichen Raum werden aufgestockt lt p gt p b Der Weinsektor der EU lt b gt lt p gt p In der EU gibt es mehr als 2 4 Millionen weinerzeugende Betriebe mit einer Flache von insgesamt 3 6 Mio ha das sind 2 der landwirtschaftlichen Flache der EU Im Jahr 2006 r S F VR sal TABLEAU 41 Alignement de zones entre les volets da et de du communiqu IP o7 1008 pr sentant une diff rence d ordre des zones d tect e au travers de la collection 1 et dela m thode Petit Angle Multizone 1 Multizone 2 Multizone 3 Multizone 4 Multizone 5 Multizone 6 Multizone 7 74 ALIGNEMENT DE ZONES 117 IP os 1157 fr Bruxelles le 19 septembre 2005 lt p gt hl a name Heading4 id Heading4 gt lt a gt lt b gt Environnement la Commission subventionne 89 projets d innovation dans 17 pays pour un montant de 71 millions d euros lt b gt hl p lt b gt lt i gt La Commission europ enne a approuv le financement de 89 projets innovants dans le domaine de l environnement dans 17 pays au titre du programme LIFE Environnement 2005 Pour plus
238. u mais avec des diff rences d ordre notables dans la structure La seconde permet quant elle l identification de volets globalement dans le m me ordre mais avec une diff rence de contenu Il s agit de volets synchrones non bijectifs pr sentant une ou des zones supprim es ou ajout es d un volet l autre volet Ainsi ce stade nous ne prenons pas en charge le cas de figure de deux volets diff rents la fois du point de vue de l ordre et du contenu La taille des matrices que nous cr ons partir de notre corpus de communiqu s de presse est de 200x200 Il est videmment possible de changer la taille de l image notamment pour traiter des documents plus longs mais il faut que le contenu soit toujours la m me chelle notamment la distance minimale entre les points d un m me segment de droite l paisseur des segments de droites Le programme fonctionne avec des a priori sur la taille des objets l int rieur points lignes mais pas avec les dimensions de l image 6 2 Diagnostic de parall lisme l issue du traitement pr sent dans la section 6 2 2 nous disposons d images sur lesquelles les segments de droites sont mis en vidence par des ellipses en rouge dans les images du tableau 18 page 83 et leur longueur projet e sur les axes correspondant chacune des deux langues en bleu dans les images du tableau 20 page 90 L analyse de ces matrices nous fournit les informations chiffr es suivantes l
239. u s uoiuou s uoiuou s uoiuou s uoiuou s uoiuou s ouoigou s ouoigou s ouoigou s ouoi1gou s ouoigou s uoiuou s JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S ouoigou s JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S ouoigou s ouo1gou s ouoigou s rnsouSer y 17 89 1j ua i e 1 P 9p ep y 17 89 1j ua i e 1 P PP J g 17 89 1j ua i e 1 P pP ep JU 17 89 1J ua i e 1 P 3p Pp 17 1 17 89 1j ua i e 1 P 9p ep IU 17 89 1j ua i e 1 P 9p ep y 17 89 1J U3 i e 1 P 9p ep JU 17 89 1j ua i e 1 P 9p ep y 17 89 1J ua i e ap 9p ep IH 17 89 1J ua i e 1 P SP EP pq Sv L0 g c0Oc Z0 gI 8cZ1 ZO gI 9ZS1 Z0O gI 6vVv1 Zo gI ook oo dI 6S9T 90 qI 909 S0 d o9b So al S lt lt SO dI nbrunuuuroB a JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU S JUOIYIU
240. u MET Tu eee li VH Maa a la Ta la ka ha Lu u E TETHITLNES S IL idera eo dete V S E 5 KS ALTES CM SER LEA I Li UN dgr PL W a rum x MM PET XI p m UM IWwUR Hi Eg iu YT SE sens RER LIA du a hen Segment ita A Eten Er nd Ven cate Ls E rnit 4 Pas J FEL og TE E Pus 2 en gf ohm mu nn Js tata LE INC AG T fi d Nm H oe j Y ly i T d H x d NI pi mu E ip LIFT m Lf j pl B os gag LR A xi m LF m j ki Dad Ej vp ou pr a str s Hoa mph HE PU ee 9 eee Kart ri k nad ee a r k ii Es Min uim Won mm ua Qm N at dS Vu a SUN Za um LS a zu Ma mS mam am um Pa gua a pa NE LI piu a d a pu ue hn rig u sa F ku Fm a oa p tcd TERT PS RS ei 2 ir E t x H r uz qu LIE qi hi l W um gu Qe Moenum igs A y ue caa Ua m s Nel ae ms z du yy Mens Sp m i lt BEE Reen pu Dep m ui pero OCA YU Iru fw pvp UT n Du is a zog JESU Mt Ee E Pq ts EA IP 07 919 el fr ET DISCUSSION DES R SULTATS DL a r n Pr a L F toa K T u he ILL um m m rt cn 4 H Lh yl at k ge ores g j EIS P i Vins pA A RE ur FE CUm E a F T au E ee ae EA ia c et du gt mg T h 1 it E E E wa sn will mus B FR zn 1 M ue a a aim E Fon aw Dr nn 1 oa ma E ars RC pone aa a u a ati 778 wi d a gt
241. ue langue Pour ces raisons compter du chapitre 3 qui pr sente notre approche nous favoriserons l expression collection de multidocuments d pourvue d ambiguit et de pr suppos quant au parall lisme des documents que nous traitons Nous pr sentons dans la section 2 1 2 les principaux corpus paralleles disposition avant de pr senter l hypoth se de parall lisme sous jacente la quasi totalit des m thodes 2 N anmoins l expression textes parall les continue de prosp rer dans les formations de traductions pour d signer des documents non traduits Deux raisons cela d une part elle a t utilis e dans la formation des traducteurs au moins en allemand bien avant que les tudes de traduction sur corpus aient merg et d autre part les universitaires sp cialis s en traduction ont toujours pris le parti de ne pas consid rer les traductions comme une source fiable pour l tude de l utilisation du langage car il n existe aucune preuve empirique que les fonctions communicatives des textes et leurs traductions sont toujours les m mes 31 32 EXISTANT M THODOLOGIQUE 2 1 2 Corpus paralleles Le terme textes paralleles d signe un ensemble de textes en relation de traduction mutuelle En fonction des applications vis es ces corpus parall les correspondent des corpus de phrases parall les ou des corpus de textes parall les que l on dira align s si des sous parties des diff rents volets s
242. ues fi joukkoliikenne 1 mot graphique Tableau 1 Illustration du d calage interlangue entre le niveau lexical et le ni veau graphique du concept de mot partir de l exemple de trans port en commun Cette question est d autant plus complexe que l on a traiter des mots polylexicaux ou complexes savoir toute unit compos e de deux mots simples ou mots d riv s pr existants les mots polylexicaux ou complexes peuvent tre soud s et alors du point de vue informatique ils peuvent tre assimil s des mots simples ou comporter un s parateur gt La forme graphique d une unit lexicale compos e tient de propri t s intralangues Elle d pend des particularit s morphologiques de flexions et de d rivations de chaque langue Au regard de ces caract ristiques morphologiques le mot graphique n appara t pas suffisamment universel pour tablir des correspondances Une autre granularit doit tre recherch e pour r pondre au besoin de comparativit d un syst me multilingue d alignement qui plus est sans pr suppos Le foisonnement Le foisonnement est le terme utilis pour d finir en traduction la prolif ration de mots en surnombre l augmentation de vo lume du texte d arriv e par rapport au texte de d part Durieux 1990 Celui ci peut tre fortuit et r sulter d un d faut de m thode Mais sans nier le r le du traducteur dans le foisonnement et sans envisager
243. ul t s D une part un mot peut tre traduit par un phras me because lt gt a cause gt Kraif retient alors le couple portant l tymon commun because gt cause gt D autre part il est parfois difficile de d terminer si un mot peut en traduire un autre la traduction mot mot est un cas limite loign de la pratique effective de la traduction Kraif 1999 2 3 M THODES D ALIGNEMENT LA CIRCULARIT prend lui le parti restrictif de ne garder que les cognats effectifs du cor pus ceux qui sont effectivement traduits l un par l autre et qui de fait peuvent servir l alignement de celui ci Dans chacune de ces m thodes les invariants graphiques trans fuges et cognats permettent la r duction de l espace de recherche la constitution d un certain nombre de ce que Kraif 1999 appelle des lots de confiance gt entre les points aligner Cette tape de r duction de l espace parcourir pr c de la phase d alignement l int rieur de ces ilots de confiance On peut galement mentionner ici le systeme LIA proche du sys t me Jacal mais moins restrictif qui fait appel une tape de pr traitement bas e sur les cognats Le syst me propose un alignement en phrase par programmation dynamique pour d limiter un espace de recherche per tinent en utilisant une fonction de score faisant intervenir de maniere pond r e les informations suivantes longueur des phrases cognats dic tionnai
244. uments avec inversion ou suppression Cette valuation pourra dans un premier temps tre r alis e sur la tache d alignement de phrases avant de l tre sur l alignement d unit s sous phrastiques En outre d autres corpus comme Acquis Communautaire qui pr sente gale ment des cas de suppressions ou de non traduction d annexes pourront galement tre test s N anmoins ces travaux peuvent d ores et d j se placer dans le cadre d une chaine d observation et de contr le qualit de documents traduits La d tection de corpus de traductions synchrones ou non est galement un champ d utilisation de notre m thode qui atteint les 97 de d cisions sur des corpus de langues proches Quatri me partie ANNEXES VALUATION QUANTITATIVE DES APPARIEMENTS Lorsque l on examine les appariements obtenus ils semblent coh rents et repr sentatifs de ce que l on cherche Pour aller plus loin il est n anmoins souhaitable de valider plus grande chelle Une difficult suppl mentaire dans notre contexte est que les quivalents multilingues peuvent tre aussi bien des expressions des morceaux de mots que des balises HTML Notre m thode s appuie sur une des applications de l algorithme la constitution de dictionnaires Si cet objectif est attei gnable nous devrions en utilisant des dictionnaires existants disponibles sur Internet trouver au sein de nos appariements des liaisons existantes dans les dictionnaires On observe
245. un document donn dans une langue source et produire un document s mantique ment quivalent dans une ou plusieurs langues cibles peut donner lieu des modifications dans l organisation interne des diff rents volets Cette possibilit intervient tant au niveau microscopique qu au niveau macroscopique Les figures 5 et 6 pr sentent deux cas de traductions diff rents du point de vue de l ordre macroscopique co pr sents dans un m me multidocument disponible en trois langues fran ais anglais et allemand repris dans la figure 12 page 58 pr sentant de facon simplifi e les multidocuments des figures 5 et 6 DROITE l alignement entre les volets allemand et anglais montre le cas d un maintien de l ordre GAUCHE le cas d inversions massives de plusieurs zones de textes entre le volet fran ais et le volet anglais et par cons quent alle mand du m me multidocument 2 Nous utilisons N de facon g n rique sa valeur n tant pas pr d finie 58 NOS CONCEPTS Volet francais Allemagne six projets Belgique deux projets Danemark six projets Espagne seize projets Estonie un projet Finlande deux projets Volet anglais Belgium 2 projects Estonia project y l L J li A j Finland 2 projects A Y La fl Germany 6 projects d Spain 16 projects Volet allemand 5 Belgien
246. un l hetettiin yli 300 k nn st L ht ja kohdekielten erilaisia yhdistelmi oli 134 K nn stoimen p osaston k nt j t arvioivat k nn kset ja osallistuivat siten kunkin EU j senvaltion voittajak nn ksen valitsemiseen lt p gt lt p gt T m laatuaan ensimm inen k nn s kilpailu oli Euroopan komission lt b gt pilottihanke lt b gt jolla ha luttiin tuoda esiin k nt misen keskeist roolia komission nou dattamassa monikielisyyspolitiikassa Lis ksi koululaiset saivat hankkeessa tilaisuuden kok TABLEAU 40 Alignement de zones entre les volets fr et fi du communiqu IP 08 405 avec suppression d tect e au travers de la collection 3 et dela m thode Grand Angle Multizone 1 x 2 Multizone 3 Multizone 4 Multizone 5 116 RESULTATS ET EVALUATION SUR LA TACHE D ALIGNEMENT DE ZONES RR rc C t a eee ee ght gt b IP 07 1008 lt b gt lt p gt lt p align right gt Bruxelles den 4 juli 2007 lt p gt hl lt a name Heading3 gt lt a gt lt b gt Reformen af den f lles land brugspolitik Med vinreformen vil Europa kunne generobre tabte markedsan la d Europa helfen verlorene Marktanteile zur ckzugewinnen e eef nsigten at krisedestillation skal erstattes af to kriseforvaltningsforanstaltnin ger som finansieres over de nationale rammebelob altninger er bl a salgsfremstod i tredjelande omstrukturering og omstilling af v
247. uue sre guv Ud JUOS oxouue p s 1s 1 SIT oxouue p 1nq p uo soovld ya sy npe1 Juos 7 souoydouexj sAed sa jueurssuos sayde sered sa s nos 13 shed red syofoxd sop 1uejsi soxouue stej3ue uo JUOS oxouue p s 1s 1 SIT oxouue p jnqop uo s 2e d 19 s INpes Juos T seuoudooueag sAed sa Jueu1a9uo9 soyder3ered sa s nos 1j t oxouue p qp uo sooe d yo sj npe1 quos 7 seuoudooo18 sAed saj jueu1o2uoo soyder3ered xnop sinas asked red sjo oud sop Jue7st soxouue sre 8ue uo JUOS oxouue p so1sa1 SAT oxouue p jnqop uo SIRIA 19 s INpes Juos z sououdooueuj sAed sa jueuroouos sayde sered sa s nos 1 t oxouue p 1nqop ua saDerd ja sjinpes juos sououdoueur198 shed sa 1ueu122uoo soyderSered stor s nos op shed sed sjaford sop 1ueisi soxouue stej3ue uo JUOS oxouue p S9J891 SIT Npe 1s xreurouep 9 jueujo2uoo oydersered 2 nos ep oxouue p qp uo saoejd ya sym peu juos souoydoueursas shed sa 1ueu122uoo saudeiSeied stor s nos op shed red sjaford sop 1ueisi soxouue srera UOIS I9AUI UOIS I9AUI UOIS I9AUI UOIS I9AUI UOIS I9AUI UOIS I9AUI nsouSerq 13 13 1J S3 1J U9 13 T9 REP ap ep Pd lt OOI OI dI nbrunuttuo5 BIBLIOGRAPHIE Haneen ABUDAYEH Traduire l motion dans le discours politique These de doctorat Caen Basse Normandie 2010 Cit la page 7 Michel BALLARD propos de l erreur en traduction Revue des lettres et de traduction 5 51 65 1999 Cit la page 8
248. ve Textology Comparative Discourse Analysis in Applied Linguistics Num ro 5 in Studies in Descriptive Linguistics Groos Verlag Heidelberg 1980 Cit la page 30 St phane HUET Julien BOURDAILLET et Philippe LANGLAIS Int gration de l alignement de mots dans le concordancier bilingue TransSearch In Actes de la 16e Conf rence sur le Traitement Automatique des Langues Naturelles TALN 09 Senlis France 2009 Cit la page 34 Nancy IDE et Jean V RONIS MULTEXT Multilingual text tools and cor pora In Proceedings of the 15th conference on Computational linguistics Volume 1 pages 588 592 Kyoto Japan 1994 Association for Compu tational Linguistics URL http portal acm org citation cfm id 991990 Cit la page 32 H ISAHARA et M H runo Japanese English aligned bilingual corpora 2000 Cit la page 33 Roman JAKOBSON Linguistique et po tique Num ro 1 in Essais de linguistique g n rale Les ditions de minuit 1963 Cit aux pages 28 et 29 BIBLIOGRAPHIE Mich le JARDINO Identification des auteurs de textes courts avec des n grammes de caract res In Actes des 8emes Journ es internationales d Analyse statistique des Donn es Textuelles Besancon France 2006 Cit la page 56 Denis JUHEL Prolixit et qualit des traductions Meta 44 2 238 249 1999 ISSN 0026 0452 URL http id erudit org iderudit 003275ar Cit la page 8 Martin Kay et Martin R S
249. xplique par la diminution du nombre d hapax par document Un hapax de document pourra tre r p t d autres endroits de la collection ce qui nous permet obtenir les informations n cessaires son appariement et son alignement ult rieur traiter les documents avec leur mise en forme donne lieu de meilleurs r sultats 10 de d cisions prises Le parti pris original gt RESULTATS ET EVALUATION SUR LA TACHE D ALIGNEMENT DE ZONES A LA LA 98 SIAIISIO sansuey op so dnoo sop 39 o2Ao duro opoujour e op SUOHIATO ap IA np uor uoj US s l1u s id JUOS ST sJu um opnr nu op suoro sanorsn d ms snuo3qo SINSOU PIP sop asayyUAG Er nva avg oS ST zt CT OZ Sy O ZT gS GZ TV09 SYT gS 6E 6 orc U 1J 6 9t 61 9c IS ot O II 6Z 06 STIL TT WSL gT 69 orc p 1J Lv 67 I lt ET Z or T TI T9 vl STTO LVI SL gE 6 orc 13 13 OCT 06 cL c9 Vit ITI T 6 861 6tc I v9 tor 9669 S LST 07 souSro s dno5 9c cr 6 TV v6 ST O 8 v6 TOT LOTR 961 WEERT vy orc ep ap ST os 6 or SOT 9 I S OOT TII TV06 LIT 8S 6 ET orc uo IJ Z gv S 09 CTI Z v OOT CTI oo Z I V 6 OTT oo 9 S PT orc S9 1J gv IFI CT ST TIE v Lt 90 LTE SL 88 6 9 Sc TT IS oTL sau oud s dno5 rS cg QT 9Z SSI vy T ET TLT 961 HSLEL VSE Sc 9c TI ogr uono o 9 9Z TE g9 VTI rS I 9T 691 OST 96 Z 99 ott HSTTE OST ogr uono o 9 tZ 9t 99 6 T 9S ZT VOT PSI 67 9 tct HILL TE LST ogr T uon
Download Pdf Manuals
Related Search
Related Contents
Origin Storage IBM-320S/7-NB16 hard disk drive 白色LED式デジタル時計 取扱説明書 - シチズンTIC株式会社 TC Electronic Hall of Fame Mini Reverb Manual MAGNUS 1302 User Guide 取扱説明書 品番 SV-AV100 D-Link AirPremier DWL-G680 802.11g/b (DWLG680) Wireless Adapter thermoMETER LS - Micro-Epsilon Messtechnik & Co. KG Copyright © All rights reserved.
Failed to retrieve file