Home
Explorations textométriques
Contents
1.
2. 0000000000 0000000000
3. Illustration 1 Extrait de la traduction de la nouvelle Arfled d Alphonse Allais lt langue frth gt lt nouvelle 001 gt lt auteur 1 gt lt par 00001 gt Le Dr Joris Abraham W Snowdrop Pigtown U S A tait arriv l ge de cinquante cinq ans sans que personne de ses parents ou amis e t pu l amener prendre femme a 7 v v 4 L4 o H y 1 7 y
4. al zi Centrol clic sur marqueur de page s lection 5 sections l clic sur marqueur de s ler Eu BI Sei CILE la section Affich e EI Num ro de la section Affich e Je remercie le pr sident Bush des services rendus notre remercie le pr sident Bush pour les services qu il a nation ainsi que de la g n rosit et de la coop ration dont rendus notre nation ainsi que pour la g n rosit et la il a fait preuve durant toute la transition coop ration dont il a fait preuve tout au long de cette transition Figure 17 Carte des sections projection de la forme nation sur le volet source L outil carte des sections permet une visualisation globale de la r parti
5. 50 mH 100 EN 150 E 200 250 EN 300 350 400 m 450 500 7 ON B C CCm 11 o HN NENN 7350 m INNEN o mmm 75 am ma ss Cie NEN
6. Traduction chinoise par Fu Lei 1957 Le tableau 1 montre un extrait du texte original suivi de sa traduction chinoise Nous avons utilis la version compl te r unie en 1957 par les ditions Litt raires Populaires apartir d une r vision par Fu Lei la premi re version de 1953 La figure 4 montre dans la fen tre de droite l affichage par Lexico 3 du texte chinois dans lequel les caract res ont t isol s par insertion d un caract re espace entre chaque caract re Dans la fen tre de gauche on peut lire le r sultat du d pouillement statistique r alis sur la base du d compte des caract res isol s Les caract res sont tri s par ordre de fr quence d croissante dans le corpus analys ES Pr S lectionnez une couleur zzii gt 59 Navigation Rapport Dictionnaire Recherche version C ig Formes ordre lexiconfirique Frfuence 4 5 SUFHG B RS E Jr M ok X B I ZS E E k SS mg opp xm uw gu 4
7. 5 Une m thode de rep rage de passages originaux dans la traduction On mat rialise les distributions des types bilingues appari s sur une carte des sections bi textuelle Si les distributions se ressemblent quelques asym tries pr s la pr sence isol e de sections monochromes montre le plus souvent des passages originaux dans la traduction o sont attest es des quivalences lexicales susceptibles d int resser le chercheur Le diagramme d une telle ventilation se pr sente de la facon suivante
8. i a n Ti lt par 00002 gt Texte 1 Extrait du fichier en relation de traduction Le deuxi me fichier de dont nous disposons corpus frth al win contient la version fran aise en relation de traduction avec la version tha e segment e en unit s lexicales La partition langue unique est identifi e par la cl lt langue frth gt La valeur de la cl nouvelle est seulement compos e du num ro de la nouvelle sans tre pr fix e d une lettre La cl par ainsi que le symbole d limiteur de section sont utilis s mani re maintenir la relation de traduction L int r t de cette structure est de pouvoir retrouver facilement les unit s lexicales en relation de traduction l aide de la carte des sections Encodage des textes Thais pour Lexico3 Le couteau suisse de Lexico3 permet d afficher les caract res thais lorsqu ils sont encod s avec win874 Cependant on doit prendre quelques pr cautions car les caract res et partagent le m me code 8 bits Il faut donc exclure de l
9. 250 300 350 400 ah BF 7 RE OR Bk EAR H 9 Et Pt HK Bath To WE By 529 Bo MMA 69 LE HB Bappon Efacer HF nn SEDE
10. FSBR HE VOLO E e 8 EIE F e lat TR gq I AT EJ RICE Z f RT TESTA ET IR WE FE W
11. gt i a v a y S 9 1 a d a j de lt langue thsyl gt lt nouvelle A001 gt lt auteur 1 gt v v 2 4 A 4 v a m d m a n la en dv a y 5 D or M E a g T
12. 5 0000000000 Section lt teste fr gt toute autre lecture non seulement p cherait par manque de coh rence mais surtout trahirait intention des autorit s lesquelles entendaient soustraire emprise de la convention tout le syst me H E administratif compris les dispositions de fond et de proc dure du droit administratif p nal Oc
13. 100 150 200 250 300 350 400
14. 850 350 1000 1050 1100 1150
15. Be L 5 ol clic sur marqueur de page s lection 5 sections Shift control clic sur marqueur de page s lection sections l ligne n es Cbjnation Nb 81 EI 01 Nombre de sections s lectionn es 1 mm ro de 1a section Affich e D B PEE 5 Export Recherche html Etape n 2 calcul des cooccurrents de la forme p le gt recherche des mots sp cifiques dans les sections contenant la forme p le ce calcul est fait dans les sections source contenant la forme nation et en parall le dans les cellules associ es du volet cible zone miroir Figure 18 Calcul des cooccurrents d une forme par la carte des sections Le r sultat est constitu par deux listes donnant voir d une part les mots sp cifiques de la forme p le pour le volet source et les mots sp cifiques dans les sections associ es du volet cible Specificites du vocabulaire sur les sections SOURCE contenant le motif nation Specificites du vocabulaire sur les sections CIBLE associees aux sections SOURCE Nombre d occurrences du texte global 2726 Nombre d occurrences du texte global 2956 Nombre d occurrences dans la partie visee 284 Nombre d occurrences dans la partie visee 297 Seuil 5 Seuil 5 Specificites positives en haut de liste negatives en bas Spec
16. 1550 mm 1600 Emp urba 1550 0000000040 000000000 0000000000 0000000000 0008 1700 1750 4750 00000000 05000000000 000000000 0000000000 0000 OO 4800 450 050000000 00000050000 000000000 00500000000 000000000 40 D 4350 12050000000 050800000000 0000000000 00500000000 5000
17. 1 OORT 0000000000 OEE sim
18. Y 29 BR o X WI 1 b Er Er H SE WH 1 HH 6 Br m Am T 2 Ip Su KAK VY H mos JL RR RE HE 1 PX amp 1 H o H
19. aiuu
20. 100 50 a 100 100 100 L 150 100 200 100 50 100 300 100 350 100 m1 400 100 1550 Cas e EH 1600 BN 1 1550 100 1700 100 1750 100 4750 100 4800 100 4850 100 4900 I 100 I 4950 100 5000 5050 100 5100 100 5150 2 I 100 I 5250 100 5300 100 5350 100 5400 BN 5450 BOO 100 5500 100 7150 100 7200 222 100 7300
21. Diner N Diner V manger table manger diner V D jeuner Manger V d jeuner V F E d jeuner V Diner V Hi a tre de P Table N se mettre table R serve N provisions N ms manger ses provisions N 2 Cabaret Restaurant 314 gargote N Tableau 16 Matrice de composition lexicale Le Tableau 10 est une matrice de composition lexicale On la lit en combinant les formes de la premi re colonne avec les formes de la premi re ligne Par exemple _ nourriture Cela signifie que le sens de la forme la place du caract re _ tait clairement s par de celui de la forme De plus une s quence entre parenth se pr cise le contexte par exemple se mettre table ou gargote D apr s matrice en regardant la premi re ligne et la premi re colonne on peut isoler le sens de comme tant nourriture ou aliment La s quence m ams hung ha ahan existe en entr e de dictionnaire avec le sens de cuisiner dans un niveau de langue litt raire On peut d composer c
22. 450 500 600 650 700 750 800
23. 0000 000 400 450 OO0O000000000000 00000 OO0000000000000000000 50 7150 O0O0000000M00000000000000000080B0000B0B000BBO0BOMOD 720 7250 2000 7300 7350 7400 2000 mm
24. Tableau 15 Groupe de formes avec segments r p t s Les r sultats de la recherche consign es dans le Tableau 9 montrent un de sous segmentation pour la forme f licit puisque nous avons trouv un certain nombre de formes contenant voit tout l int r t d utiliser les segments r p t s puisqu on remarque que la forme wf jier n est pas un nom propre Le vrai nom propre est Grangier puisqu en contexte la s quence est pr c d e de Madame Monsieur ou ny le petit Grangier On vient donc d identifier un probl me de sur segmentation Le probl me de sur segmentation de la forme s explique partiellement par le fait que forme krong est un mot tha On utilise la carte des sections pour trouver des occurrences de n apparaissant pas en avec la forme STEET ST ANT Zi T lt aucune Aicina DI ml D DaAA Sp cils CA 50
25. 5050 Iw mi 5100 5150 mimi 5200 5250 100000000 0000000000 0000000000 000000000 00000000900 5300 1 TL 5550 50000000000 5400 0
26. H Ve TR RE LE NE Hon D Ed 5 Comparaisons quantitatives partir des mots Les comptages r alis s partir des mots ainsi d coup s par l algorithme de segmentation permettent de comparer les r sultats obtenus sur le texte chinois ceux que l on obtient de la m me mani re sur la version fran aise du texte Tableau 4 Principales caract ristiques quantitatives du d pouillement en mots r alis sur les volets fran ais JC1 Fr et chinois JC1 Chin du corpus Partie Occurrences Formes Hapax F Max JCI Chin 34 743 7 196 3 781 2313 BJ JCI Fr 39 666 6 673 3 970 1578 de Comme on le voit au tableau 4 la traduction chinoise compte nettement moins de mots graphiques que le texte frangais On notera qu elle compte cependant nettement plus de formes diff rentes La proportion des formes qui n apparaissent qu une seule fois dans chacun Java Lucene segmentation du chin
27. WA FH KF 2 Bb E W m 25 I D FH KE EZ n ME H LI Z m uu B R WA RREH km FX i A ZATI BHE B A BF f Sam MT GC Chr fh BJ ix 8
28. BIC 6 6 La d marche propos e permet de comprendre les raisons d asym tries dans les distributions parall les du vocabulaire bilingue correspondant aux Types appari s La suite des op rations textom triques convoqu es pour localiser les ruptures de parall lisme sur un diagramme repr sentant le bi texte align constitue une m thode largement applicable d autres corpus pluritextuels A la phase de rep rage direct appuy e sur la topographie bi textuelle succ de une phase de remise en contexte des particularit s distributionnelles constat es Cette derni re phase d bouche sur une dition contrast e des erreurs d alignement phrastique et de contextes originaux o sont attest es des quivalences lexicales peu communes difficiles postuler a priori 7 R f rences Bourigault D Chodkiewicz Ch Humbley J Construction d un lexique bilingue des droits de l homme partir de l analyse
29. 10 150 20 mimimimimmim mimi Jm 250 200 350 400
30. 1200 1250 1300 Ee EE SE UH M 2 d Illustration 5 Carte des sections en bleu en rouge On remarque que la forme krong appara t sans la forme jier dans six sections On a pu r partir ces occurrences de trois groupes apr s analyse Deux occurrences r f rent l unit lexicale tha e dont le sens attest par nos dictionnaires est le verbe filtrer Dans nos textes elles sont en relation de traduction avec le nom commun filtre Trois autres occurrences sont des erreurs de segmentation concernant des noms de lieu non reconnus rue Grand Pont fi Granville Granville La forme krong est ici une transcription approximative du son gran qui n existe pas en tha Enfin la derni re occurrence n aurait pas d exister En effet nous avons le segment suivant pour Onfroy l apothicaire qui est une err
31. alcool viande m m dicament voum vieille chose boutique estaminet boucherie pharmacie brocante v vendre Tableau 17 Composition lexicale X On peut d terminer le sens de ran partir de ces exemples C est un terme g n rique d signant un local dans lequel s exerce une activit commerciale peut s utiliser avec une certaine autonomie ce n est donc pas un pr fixe au sens de l analyse morphologique mais la plupart du temps il est sp cialis par un ou plusieurs autres morph mes lexicaux Le fait que le segmenteur a trait diff remment w rankha des autres formes compos es de s explique certainement par le mod le statistique utilis bas sur le score d information mutuelle Toutes ces formes devraient tre trait es de la m me mani re qu on les consid re comme une seule unit lexicale ou comme plusieurs Si on se r f re l article Asa2002 il est possible que les auteurs du segmenteur consid rent une s quence d butant par comme un syntagme nominal et non comme une unit lexicale puisque la s quence ne fait que pr ciser le sens de sans changer le concept fondamental auquel il r f re On d nombr six occurrences de sabieng om r partie dans deux nouvelles dont cinq comme traductions de provisions au sens de
32. 7450 0580500006000 88060500000 500050005000 0 7550 0000 000 7600 7650 7700 00 Figure 27 Extrait de la carte des sections omme fr et _ dans le corpus Droits La distribution du type homme co ne s accorde que tr s partiellement avec celle du type homme fr Figure 5 Une fr quence sup rieure du TGen homme co dans certaines parties nous am nera au constat que diff rentes expressions frangaises tres humains individu personne humaine ainsi que des formes qui constituent des reprises anap
33. 7350 Figure 30 Extrait de la carte des sections dans le volet cor en 5 Conclusion La traduction qui se donne pour objectif de transf rer le sens d un texte d une langue une autre mobilise des processus tr s complexes dans le cerveau humain Lorsqu il s agit de langues n ayant aucune parent la traduction des unit s de la langue source vers des unit s quivalentes dans la langue cible demande un travail encore plus complexe A partir de l analyse lexicom trique du corpus Droits nous avons tabli un certains nombre de rapports de correspondance pour le couple traductionnel homme fr homme co La complexit de ces rapports de traduction trouve sa source dans les diff rences profondes qui existent au plan linguistique et au plan culturel entre le frangais et le cor en Cependant l observation des diff rences distributionnelles locales nous a permis d tablir un sch ma de traduction du couple homme fr homme co valable pour le moins l int rieur du corpus Droits e homme saram o si homme accompagne le mot femme namnyeo ou namseong e droits de l homme ingwon o si inclusion d autres expressions lexicales ex droits fondamentaux de l homme o si est suivi par le mot femme namja ou namseong ex droits de l homme et de la femme e Autres expressions tres humains individu personne humaine chacun tous saram ingan Da
34. lt langue thlex gt lt nouvelle C001 gt lt auteur 1 gt 2 v a 4 A E v a DUNIN d A 0 y v a g y a 9 v a qu 141 a a y nu N aw Tableau 7 Les diff rentes versions d une nouvelle Guide de lecture du tableau 1 La premi re partie du Tableau 1 correspond la version originale de la nouvelle Collage d Alphonse Allais La deuxi me partie du tableau correspond la version traduite en tha On remarque que le texte n est globalement pas segment hormis quelques espaces ici ou l
35. DER Pour rendre le sens vaguement p joratif associ en fran ais vieux v tement il faut en chinois avoir recours d autres mots La traduction mot mot en chinois de vieux rideau et vieille caisse ne signifierait pas forc ment que les objets consid r s sont en mauvais tat mais soulignerait simplement leur anciennet sans liaison explicite avec leur tat au moment du r cit Fu Lei emploie po ab m d chir et po jiu ab m us d chir etc pour rendre accessible aux lecteurs chinois le sens original Tableau 7 Extrait de la concordance autour du p le Z lao vieux EEK I Ge 1 Hi o XP E E un o Pa mm ER o sgr tH iz NM 2 7 5 Z ZX RE A REN
36. has shown throughout this transition otre nation ainsi que de la g n rosit et de la coop ration dont il a fait preuve durant toute la ransition Forty four Americans have now taken the presidential loath m prosperity and the still waters of peace ER E calmes de Ces mots ont t souvent prononc s dans la mar e ontante de la prosp rit et dans les eaux la paix The words have been spoken during rising tides of 0 Reb 121 gt Figure 2 Chargement des fichiers aligner Les 2 volets tant charg s on peut ensuite affiner l alignement en utilisant les outils idoines pour scinder certaines sections ou en fusionner d autres FA mkAlign 2 00 2 0b116 MODE GENERAL Chargement Source et Cible S Dots ee 1 SE Sea fellow citizens es chers concitoyens I stand here today hunbled by the task before us grateful for the trust you have bestowed mindful of the sacrifices borne by our ancestors ilit face la t che qui nous attend reconnaissant de la confiance que vous m avez accord e let conscient des sacrifices consentis par nos anc tres I thank President Bush for his service to our is remercie le pr sident Bush des s
37. 7 8 2 sn 147 8 2 19 6 2 W 13 15 2 5 7 2 38 2 7 Illustration 6 Recherche groupe de formes segments r p t s On voit d j appara tre quelques segments int ressants mais pour compl ter la recherche on r alise un inventaire distributionnel sur l ensemble du groupe Une fois que nous disposons de ces formes compos es on recherche l expression correspondante source dans les textes fran ais afin de d terminer le sens en contexte Pour analyser les r sultats on construit une matrice dite de composition lexicale cf Tableau 10 o les formes de la premi re colonne se combinent avec certaines formes de la premi re ligne pour traduire un mot source nourriture aliment Souper N m faire la cuisine euner N Men du iner N a de vie diner N servir A nar heure T pendant le repas N du D jeuner N 4 Diner V
38. 4 Une m thode de synchronisation de l alignement On pose l quivalence de types bilingues issus de chaque volet du corpus parall le align au niveau du paragraphe ou de la phrase Le rapprochement des types peut tre effectu en prenant en consid ration leur proximit s mantique ou th matique dans le corpus On mat rialise les distributions des types sur une carte des sections bi textuelle Si les distributions sont toujours parall les mais tr s l g rement d cal es dans certaines parties du corpus les ruptures du parall lisme signalent le d calage dans l alignement des sections Les paires de sections monochromes voisines signalent g n ralement les passages o il existe des erreurs Voici un diagramme sommaire r alis partir d une telle ventilation oe tell lll tells ltl ri mmm ui np
39. 500 550 nouvelle 013 nouvelle 014 nouvelle 015 NN EN Section gt Flicite de temps autre parlait des ombres Les bonnes femmes s en allrent La Simonne an par 00556 gt ation 4 Carte des sections pour et Simon ne Que sont les 12 occurrences de dans la partie thlex Une concordance group e par nouvelle montre que sur les douze occurrences de 3 cinq r partie dans quatre nouvelles ont une autonomie r elle en tant que particule d insistance Comme le montre la carte des sections Illustration 4 les sept autres occurrences sont localis es dans une seule nouvelle et n ont qu une valeur syllabique en tant que constituant d un nom propre nom reconnu par le segmenteur Simonne Les deux formes si et sont apport es majoritairement par le pr nom F licit nlasiia Le segmenteur essaie de reconstituer les mots in
40. 7 gt GON Se Partition mum 4 a gt TM UL nouvelle gt seuilage m Sp cifs EJ leg HUES 200 nouvelle 009 nouvelle 010 250 nouvelle 011 300 Illust 00001 20 01 2000000 ustr 012 350 100 Ol 400 450
41. S S Si o JL d dE ix E H ou AA dE 7k SL B SR PB BY BI fx Mu d amp FE QE OBS wu o B 58 To SE H t I deo A 2982 dio dg V RE x s od T SS SS SS o ISS 29 S Zo xe d dB 69 RR B fh ck XT WB OR k SS gt RE du OBS Hy SB dT ES Ue 4 H t mE Uu EC K SS sm SS 3 3E HE RERE 3k YE T 8 B9 RS HS MO 8 EEZ M A B W 0 W 8 f 2 S E T DOW HE B Z JL SS uw Em toi Dm SG mp zx m dT mo m od amp 9 in m B BS Se 2490 formes A ET pp amp rH E db Xe RBS oi ye b FB 2 Pr t C Documents and Settinas Salem Bureau MJvourAS miao7carC nar Figure 4 Exploitation avec Lexico3 du texte chinois d coup en caract res Le texte ainsi modifi va nous permettre d obtenir un premier d pouillement en caract res hanzi du volet chinois du corpus On peut voir les principales caract ristiques quantitatives de ce d pouillement au tableau 2 Tableau 2 Principales caract ristiques quantitatives r sultant du d pouillement en caract res hanzi du volet chinois du corpus Partie NB caract
42. T aah AUDE KA 0 fiU Wu d BT MW XK SL X Je BA E am CE BA Dr DEES Partition 3 um an vm U 8 eAucune gt Zu ar seuillage visi Sp cits 50 d 1 100
43. rideau usag vieilles dames vieilles dames vieille caisse caisse abim e il vieillissait il prenait de 1 7 Conclusion La complexit apparente le syst me d criture chinois ne constitue pas un obstacle incontournable l exploration textom trique des textes Les traitements informatis s labor s pour les textes cod s l aide d critures alphab tiques peuvent tre adapt s moyennant des modifications mineures l tude des textes chinois Malgr des difficult s importantes dans la d finition de l entit mot en chinois l introduction de cette notion et sa prise en charge par des logiciels de segmentation automatique permet d augmenter l efficacit de l exploration textom trique du bitexte franco chinois et de d passer l exploration fond e sur les caract res hanzis consid r s comme des entit s isol es Les r sultats obtenus sur la base de la comparaison textom trique du bitexte align d coup en mots ouvrent au plan traductologique des pistes de comparaison qui semblent extr mement prometteuses Elles permettent d envisager la comparaison simultan e des moyens lexicaux utilis s dans les corpus de traduction mis en confrontation et des proc d s employ s par les traducteurs pour faire saisir leurs lecteurs les diff rents sens nuances et connotations v hicul s par le texte d origine 8 R f rences ALLETON V 1997
44. 150 200 250 300 1 350 400 Section le nouveau n s agite dans son berceau bien que le vieux ait laiss pour E iter ie 3 xfi entrer ses sabots la porte son pas fait craquer le plancher 1 enfant En commence gt geindre la m 7 re se penche hors de son afin de le rassurer ES et
45. Chacune des parties suivantes a t segment e par l outil Kucut remplac les espaces originels par la suite de caract res puis il a ajout des espaces afin de d limiter les segments La troisi me quatri me et cinqui me partie du tableau correspondent aux versions tha es segment es respectivement en syllabes morph mes et unit s lexicales 3 Navigation dans les segmentations du tha Nous essayons de caract riser dans cette partie les diff rents niveaux de segmentation en observant leurs formes avec les outils statistiques de Lexico3 Principales caract ristiques Partie occurrences formes hapax Fr q Max Forme thsyl 110235 399 11083 4125 98199 5978 2276 4125 89178 6493 2656 4125 Corpus 297612 8050 1353 112375 Tableau 8 Principales Caract ristiques Lexicographiques On observe dans le Tableau 2 conform ment ce que l on pouvait supposer que plus l unit est petite telle la syllabe plus la forme est en moyenne r p t e et moins elle est susceptible d tre hapax Inversement plus l unit est grande comme l unit lexicale moins la forme est r p t e et plus il y d hapax Le nombre lev de syllabes diff rentes peut frapper mais sachant que le syst me d criture thai peut th oriquement produire plus de 1 400 000 syllabes diff rentes Ber2004 le nombre attest est relativement faible Les sommations sur l ensemble du cor
46. 6 000 5500 5 000 4 500 4 e e e Nombre de formes diff rentes cen e on 10 000 20 000 30 000 40 000 50 000 60 000 70 000 80 000 90 000 100000 110000 Position dans le texte nombre d occurrences Illustration 2 Courbes d accroissement de vocabulaire Diagramme de Pareto Le diagramme de Pareto Illustration 3 montre que les syllabes les morph mes et les unit s lexicales suivent peu pr s la loi de Zipf Il confirme que les syllabes sont plus utilis es que les morph mes ceux ci plus utilis s que les unit s lexicales Cependant on observe que les courbes des morph mes lexicaux et des unit s lexicales sont tr s proches alors que celle des syllabes est un peu plus loign e Diagramme de Pareto langue thsyl thlex EX e e Fr quence F 1 10 100 1 000 Nombre de formes gt F Illustration 3 Diagramme de Pareto Les segmentations vues par les sp cificit s Nous avons observ dans les parties pr c dentes que les syllabes et plus encore les morph mes et les unit s lexicales ont des comportements textom triques assez similaires Par cons quent nous allons utiliser les sp cificit s de chacune des parties par rapport au corpus entier pour faire ressortir les formes sp cifiques chaque partie Les syllabes Le Tableau 3 montre dans le volet gauche les cinq formes les plus sp cifiques de la partie thsyl qui n est autre que les
47. Caract diff rents hapax FMax Caract res 56 797 2 478 579 2959 Le tableau 2 montre que les 56 797 caract res que compte le corpus JC1 Chin sont des occurrences de 2 478 hanzis diff rents Un quart environ de ces caract res soit 579 ne trouvent qu une seule occurrence dans le corpus Le caract re le plus fr quent est le caract re BJ qui correspond plus ou moins la pr position de en fran ais La figure 5 qui rend compte de l apparition de nouveaux caract res au fur et mesure que l on parcourt le texte permet de pr ciser ces observations La courbe d accroissement r alis e partir des caract res hanzis montre qu on atteint d s les 5 000 premiers caract res du texte le seuil de 1 000 caract res diff rents Les 5 000 caract res suivants n apportent que 500 nouveaux hanzis Comme dans le cas des courbes d accroissement de vocabulaire constitu es partir des mots les tranches successives apportent de moins en moins d unit s nouvelles Dans le cas des hanzis cependant on peut remarquer que l accroissement initial est plus fort que dans le cas des courbe d accroissement r alis es partir d unit s lexicales cf 5 infra Accroissement de vocabulaire Corpus entier 2 400 2 300 2 200 CS Se Gen 2 000 1 900 fati cda ber Dese ee 1 700 i 1 600 m 1 400 1 300 163 WIN ARE IN AI HIN s 1100 1 000 Nombre de formes diff ren
48. l exception de quelques caract res sp ciaux portant sur la structure des textes et sur leur alignement en phrases le paragraphe 9 la phrase l indice des phrases align es et les lettres en majuscules contenues dans l original Une relecture attentive du corpus nous a permis de corriger certaines erreurs de traduction Certains fragments absents dans l un des volets ont t supprim s dans le volet correspondant pour constituer un corpus d exp rimentation acceptable francais cor en article 1 tous les tres humains naissent libres et gaux en dignit et en droits ils sont dou s de raison et de conscience et doivent agir les uns envers les autres dans un esprit 4 411 HE AE old dy ns x 9178 DYN AAA BEA H FAS 34 9 ANSE rj ele ok stu de fraternit 88 article 2 chacun peut se pr valoir de tous les A12 884 RE AREE US s 3 4 Hou 1o RUOTE Ax EL We vl 9191 Fu m droits et toutes les libert s proclam s A AL 2 z EF Gol upz dans la pr sente d claration sans m FR THE 90 A ANE distinction aucune notamment de race de Aa 9 s al couleur de sexe de langue de religion d opinion politique ou de toute autre opinion d origine nationale ou sociale de fortune de naissance ou de toute autre situation
49. sans fond d o se d tachent comme des jet Tuo MHZ sm aue bon dieu qu il est laid fit le vieux d un ton convaincu il alla reposer la lampe sur la table Figure 9 Visualisation des correspondances de vieux et dans le bitexte l aide du logiciel mkAlign La localisation des concordances et des discordances dans la localisation des termes qui qui sont r put s constituer des quivalences traductionnelles permet d approfondir l tude traductologique et de mieux cerner les techniques propres chaque traducteur pour rendre compte du sens v hicul par le texte source Tableau 8 Traductions attest es dans le volet chinois pour le terme vieux francais traduction chinoise francais traduction chinoise vieille maison 19 2 maison ancienne de vieux amis vieux amis vieille ficelle ficelle usag e vieux grand grand p re de vieux habits IHX v tements usag s vieux grand vieux grand pere vieux veston bleu veston usag le vieux jean michel vieux grand p re vieille chanson m lodie ancienne le vieux un vieil homme vieille chanson chanson ancienne pauvre vieux vieil homme vieil escalier PE HR escalier noir vieilles dames vieilles dames vieux rideau
50. x Lll A Delo R sum Le tha ou siamois est une des langues d Asie du Sud Est criture non segment e d riv e de la d vanagari indienne Pour le chercheur qui tente de p n trer le domaine des tudes thaies la mise disposition sur des sites webs tha landais de traductions de textes fran ais r alis es par des traducteurs dont le thai est la langue maternelle constitue une occasion pr cieuse d avancer dans la compr hension de la langue et de la culture thaies La pr sente tude est consacr e l exploration en corpus l aide des outils fournis par Lexico3 des probl mes de segmentation du thai dans l optique d une tude textom trique comparative ult rieure En effet des tudes portant sur le thai dans le domaine du traitement automatique des langues sont de plus en plus pr sent es en France Toutes introduisent une sp cificit du thai savoir l utilisation d une criture non segment e mais rares sont celles montrant les intrications entre les notions de syllabe de morph me et d unit lexicale dans le systeme de la langue thaie Pour r aliser cette tude nous disposons d un segmenteur automatique permettant de segmenter les textes thais en trois niveaux la syllabe le morph me lexical et l unit lexicale Les m thodes de segmentation de cet outil ont fait l objet d une publication en tha Asa2003 Nous nous appuierons sur cette tude pour d finir les notions de syllabes de morph mes lexicau
51. 411 race la nationalit ou religion ont le droit de se marier et de fonder une famille 3g uL Ax Sao ue HE F lacc s aux tudes sup rieures doit A ARSA 19 tre ouvert pleine galit tous fonction de leur m rite 2 91491 TA er v 2 l ducation doit viser au plein gt PIE TEE 5 panouissement de la personnalit humaine et jo au renforcement du respect des droits de l homme et des libert s fondamentales Tableau 5 Exemple des expressions fran aises correspondantes au type bomme co dans le corpus Droits 4 3 droits de l homme Hingwon Plusieurs m thodes s lection des termes cooccurrents calcul des segments r p t s permettent de constater que dans notre corpus la forme homme est en cooccurrence troite avec la forme droits Le segment droits de l homme compte 986 occurrences dans le corpus Cependant on ne trouve aucune occurrence de la traduction litt rale du segment fran ais qui serait constitu e par l expression 212 9 4 z inganui gwolli Le segment droits de l homme est souvent traduit la seule forme lxlingwon qui compte 1 244 occurrences Si nous tentons de localiser ces occurrences partir des p les de recherche saram et ou ingan nous ne localiserons pas les occurrences de la forme ingwon L cart important des fr quences que l on a constat entre
52. Belgique 2004 http www cavi univ paris3 fr lexicometrica jadt jadt2004 pdf JADT 118 pdf Zimina Maria Topographie bi textuelle et approches quantitatives de l extraction de ressources traductionnelles partir de corpus parall les in Actes des 7es Journ es scientifiques du R seau de chercheurs Lexicologie Terminologie Traduction Institut sup rieur de traducteurs et interpr tes ISTI Bruxelles 8 10 septembre 2005 http perso univ lyon2 fr thoiron JS 20LTT 202005 pdf Zimina pdf Zimina Maria Corpus multilingues exploration textom trique dans l espace intertextuel in Ballard M Pineira Tresmontant C d Les corpus en linguistique et en traductologie p 107 121 Artois Presses Universit 2007 Equivalences traductionnelles Equivalences Maria Zimina zimina 9 msh paris fr R sum Les Types bilingues fran ais anglais administr administ sont appari s en raison de leur parent s mantique dans le corpus parall le Dans le bi texte d coup en sections leurs distributions respectives pr sentent des divergences Une suite d op rations textom triques permet de cerner les causes de ces discordances On d couvre deux ph nom nes sensiblement diff rents 1 Les asym tries sont dues au d calage dans l alignement des sections 2 Il existe des contextes originaux o les mots fran ais commen ant par la chaine administr administration administrer etc ne sont pas traduits par des mots
53. Tableau 1 Extrait du corpus Droits Le corpus Droits se compose de quarante parties qui correspondent chacune une convention ou un protocole Les deux volets du corpus comptent respectivement 7 867 phrases fran aises et 7 947 phrases cor ennes Le nombre de couples des phrases align es est de 7721 en raison des divers types de correspondances entre les phrases align es Pour cette Commission interam ricaine des Droits de l Homme http www cidh org docdebase htm et Bureau international du Travail http www logos net net ilo 150 base fra instr afri 2 htm 28 TI est possible d obtenir les textes traduits en cor en que nous avons utilis s sur les sites suivants UNESCO en Cor e http www unesco or kr hrtreaty Commission nationale des Droits de l Homme de Cor e http humanrights go kr eng index jsp Les caract res identiques contenus dans les textes originaux ont t remplac s par d autres signes de ponctuation tude lexicom trique les deux textes ont t segment s occurrences de formes graphiques afin d obtenir une premi re comparaison des caract ristiques lexicales des deux langues sur 30 la base de ce type de segmentation Partie Occurrences Formes Hapax Fr q Max Forme Max fran ais 214 313 7 821 2 548 12 576 de cor en 114 006 21 068 11 732 1 642 Tableau 2 Principales caract ristiques lexicom triques du corpus Droits Le Tableau 2 mont
54. constitue une entr e privil gi e dans le domaine des tudes comparatives entre textes r dig s dans des langues diff rentes Dans ce cas en effet les caract ristiques quantitatives calcul es partir de chacun des volets du corpus peuvent tre directement utilis es pour cerner les diff rences entre les langues mises en pr sence C est ce que nous allons tenter de faire dans l tude qui suit afin de poser les premiers jalons d tudes traductologiques que nous nous proposons d entreprendre par la suite 2 Le syst me d criture chinois Les critures chinoise japonaise et cor enne utilisent toutes trois les caract res Han caract res d origine chinoise dits hanzi en chinois ainsi que des caract res nationaux propres chacune des langues Le chinois poss de pour sa part un syst me d criture qui n est ni alphab tique ni phon tique On peut dire que chaque caract re correspond plus ou moins un morph me et une syllabe de l oral Le nombre de hanzis diff rents utilis s par ces syst mes d criture se compte en milliers parfois en dizaines de milliers d passant de tr s loin le nombres des lettres qui permettent de transcrire les critures alphab tiques On dit que pour lire un journal un lecteur chinois doit pouvoir identifier sans mal 5 000 hanzis environ 2 1 Les caract res chinois Chaque caract re chinois est compos d un certain nombre de traits que l on peut retrouver dans un
55. l tude des corpus textuels on consultera Lafon 1984 ou Lebart et Salem 1994 6 Nous utilisons ici un simple calcul hyperg om trique pour comparer le nombre des occurrences du candidat cooccurrent dans les sections ou est attest e la forme p le avec sa fr quence dans l ensemble du corpus Shift clic sur carr affichage clic droit sur carr sp cificit s Control rlic sur carr s lection Shift Control clic sur s lection d s lection source cible I00000 00000 0 I00000 00008 000000000000 H IO0000 O0000 SO000 0008000 Etape n 1 projection de la forme p le sur la carte mo gt projection de la forme nation sur le volet source
56. les morph mes lexicaux et l unit lexicale en tha et par cons quent certains probl mes de segmentation qui en d coulent La m thode originale d utilisation des outils de Lexico3 tel que le calcul des sp cificit s par partie segment e selon un niveau pour faire merger des formes sp cifiques ainsi que l utilisation des segments r p t s associ e la recherche par expression rationnelle permis de trouver des exemples pertinents L analyse des formes ainsi rep r es et de leurs contextes permis de pr ciser la mani re dont travaille le segmenteur Ainsi les syllabes semblent correctement segment es La segmentation en morph mes lexicaux ne constitue pas v ritablement une analyse morphologique mais une tape interm diaire vers la construction des unit s lexicales Enfin il semble que la segmentation en unit s lexicales ne corresponde pas la plus grande composition lexicale possible au point de ne plus distinguer l unit lexicale du syntagme nominal mais la composition de morph mes lexicaux en une unit dont le sens n est pas vraiment calculable partir de ceux ci C est aussi l tape de reconstitution des mots inconnus tels les noms de personnes qui sont imparfaitement mais assez bien reconstitu s Cette tude a donc montr qu il tait possible en utilisant ce segmenteur de r aliser une tude textom trique avec Lexico3 mais qu il fallait prendre quelques pr cautions quant la d finition de l unit
57. parties dont chacune correspond un ensemble de documents juridiques d un certain type les r sultats que l on peut voir au tableau 1 Tableau 1 Structure du corpus Convention Corpus Convention volet frangais volet anglais 296 396 occ 284 958 occ Convention europ enne des Droits de 5 953 occ 5 710 occ l Homme Protocoles int graux de la Convention 8 984 occ 8 773 occ Arr ts de la Cour Europ enne des Droits 281 459 occ 274 475 occ de l Homme Les arr ts de la Cour europ enne constituent la principale partie du corpus Convention On trouve un extrait du texte des arr ts en fran ais et en anglais au tableau 2 ci dessous Tableau 2 Convention Arr ts de la Cour europ enne des Droits de l Homme extraits volet fran ais volet anglais lt texte fr gt 5 du c t gibraltarien de la fronti re les fonctionnaires des douanes et de la police en service normal ne furent ni inform s ni associ s la surveillance au motif que cela impliquerait que l information soit communiqu e un trop grand nombre de personnes texte en on the gibraltar side of the border the customs officers and police normally on duty were not informed or involved in the surveillance on the basis that this would involve information being provided to an excessive number of people lt texte fr gt aucune mesure fut prise pour ralentir la file de voitures
58. pertori au tableau 4 des parties du corpus pour lesquelles la diff rence fr quentielle entre les deux volets est particuli rement importante Parties 01 03 14 33 36 37 38 40 _ 11 10 42 55 44 109 56 502 _ 42 41 7 19 11 71 18 83 Tableau 4 Extrait des fr quences locales de homme fr et homme co dans les parties du corpus Droits Une cartographie textuelle permet de visualiser au niveau de chaque section la pr sence ou l absence des occurrences de chacun des TGens La carte des sections Figure 27 montre des carts dans la r partition des TGens homme fr et homme co entre les deux volets du corpus Droits Dans chacun des volets de la carte des sections un carr repr sente une s quence en g n ral une phrase align e avec une s lection appartenant l autre volet du corpus Dans le volet fran ais la ventilation du TGen homme fr est repr sent e par des carr s noirs celle du T Gen homme co est repr sent e par des carr s vert fonc dans le volet cor en volet fran ais gt
59. s avoir s lectionn des items dans la liste on active l op ration vis e pour ces items 2 3 2 Etude globale des types simples Courbe d accroissement du vocabulaire Fichier graph graph 1247391211 jpg 1048 858 4 F 628 8 Nombre de formes 419 2 209 6 o 295 590 85 1180 1475 1770 2065 2360 2655 zm Nombre d occurrences source rouge cible vert Figure 10 Accroissement de vocabulaire sur les 2 volets de l alignement Le Diagramme d accroissement du vocabulaire permet d observer l apparition de nouvelles formes au fur et mesure que l on avance dans le corpus Comme c est toujours le cas pour les corpus textuels la courbe conna t une croissance rapide au d but du corpus cette croissance ralentit mesure que l on avance dans le corpus On remarque par del cette caract ristique globale des zones d accroissement plus fort ainsi que des paliers durant lesquels l apport de nouvelles formes est plus faible Dans le cas de mkAlign on peut observer cette ventilation sur les 2 volets charg s mkAlign Accroissement du vocabulaire Y Dans l onglet Graphe activez le bouton AC Y Le diagramme apparait dans la zone d dition de l onglet Graphe 2 3 3 Les types complexes Les segments r p t s La fonctionnalit Segments r p t s permet d tablir la liste de toutes les s quences de formes r p t es pour les 2 volets align s sans changement
60. 3 Affichage du texte avec le codage lt Chinois simplifi GB2312 gt B Xl Segmentation Musiques Nombre maximum d articles 00000 Nombre des tiquettes en test 1 Police d affichage Chinois simplifi amp Mainland China Y Figure 3 Lexico 3 Fen tre de r glage du param tre encodage des caract res 4 Un corpus d opplication Pour illustrer ces possibilit s nous utiliserons un corpus bilingue dont le volet frangais est constitu par le premier chapitre du roman Jean Christophe publi en 1904 par Romain Rolland 1866 1944 On trouve au tableau 1 ci dessous un extrait du texte original de Romain Rolland Le second volet du corpus est constitu par la traduction de ce texte en chinois par Fu Lei 1908 1966 Nous appellerons respectivement ces deux corpus Fran ais et JCI1 Chinois 41 Segmentation du texte caract res Comme on l a vu plus haut sans que cela constitue une g ne pour le lecteur exp riment le systeme d criture chinois n utilise pas d espace entre les unit s lexicales plac es c te c te Cette circonstance constitue une difficult sp cifique pour l exploitation textom trique des textes chinois Sur quels crit res peut on s appuyer pour d couper des unit s statistiques au fil du texte afin de r aliser des comparaisons entre textes Pour cette premi re analyse nous nous appuierons sur une segmentation automatique relativement facile formaliser
61. L criture chinoise lt Que sais je Se dition corrig e 1 dition 1970 Paris Presses universitaires de France FU LEI f amp 1998 La grande s rie de la traduction de Fu Lei fg iE X 4 He fei ditions de l art d An Hui FLEURY S MKAlign Manuel d utilisation http tal univ paris3 fr mkAlign mkAlignDOC htm GRANGER 5 LEROT J PETCH TYSON S eds 2003 Corpus based Approaches to Contrastive Linguistics and Translation Studies Amsterdam New York Editions Rodopi HABERT B NAZARENKO A et SALEM A 1997 Les linguistiques de corpus Paris Armand Colin Masson HOA M 2005 C est du chinois I volume Lire et crire 3 dition Paris dition You Feng LEBART L SALEM A Statistique textuelle Paris Dunod 1994 t l chargeable sur le site http www cavi univ paris3 fr lexicometrica livre st94 st94 tdm html OLOHAN M 2004 Introducing Corpora in Translation Studies London and New York Routledge SALEM A Introduction la r sonance textuelle Actes des 7 mes Journ es d analyse des donn es textuelles Louvain la neuve 2004 WEI N et alii 2005 Corpora in use Shanghai ditions de l enseignement des langues trang res de Shanghai ZIMINA M 2004 Approches quantitatives de l extraction de ressources traductionnelles partir de corpus parall les Th se de doctorat Universit de
62. Tableau 3 Extrait du volet chinois JC1 Chin segment en mots Chaque mot isol par le logiciel Hailanda est suivi d un blanc 8 JL EUH WK ER fd ZOUR WE RE BF T HE EA A EW Wy UST o RER M KH i BR GE MH Hm ON J Dt N dip t S HN o am Hy ws T A WA EX RE WE KM qd DU D HU AE B RT 4 o EY M bk mz ka xe MEHR BE d o DS 3 DE E
63. anglais commen ant par la chaine administ administration administering etc et r ciproquement On d duit deux m thodes de travail sur corpus parall les 1 Une m thode de synchronisation d alignement phrastique l aide de la carte des sections bi textuelle 2 Une m thode d exploration bi textuelle permettant le rep rage de passages originaux o sont attest es des quivalences lexicales peu communes 1 Contexte de la recherche Le corpus Convention est constitu de textes juridiques fran ais anglais de la Convention de sauvegarde des Droits de l Homme et des Libert s fondamentales de ses protocoles int graux et d une s rie d arr ts rendus par la Cour europ enne des Droits de l Homme de Strasbourg 1995 Deux versions de chaque document existent parall lement il est difficile de distinguer une langue source et une langue cible Ce corpus a t r uni dans le cadre d une tude plus large qui avait pour objectif la construction d un lexique bilingue des droits de l homme base de corpus parall les align s au niveau de la phrase Bourigault et al 1999 Au cours du projet le corpus Convention a t align semi automatiquement jusqu au niveau du paragraphe On estime le taux de pr cision du d coupage en phrases 90 environ Le corpus compte 12 913 formes pour 296 396 occurrences dans le volet frangais et 9 530 formes pour 284 958 occurrences dans le volet anglais La partition naturelle du corpus en 3
64. automatique d un corpus align in actes de la troisi me conf rence Terminologie et Intelligence Artificielle Nantes 1999 Fleury S MKAlign gt documentation Paris Universit de la Sorbonne nouvelle Paris 3 Travaux du SYLED CLA T 2005 http tal univ paris3 fr mkAlign mkAlignDOC htm Lamalle C Salem A Types g n ralis s et topographie textuelle dans l analyse quantitative des corpus textuels in actes des 6emes journ es d analyse statistique des donn es textuelles Inria St Malo 2002 Zimina M Alignement textom trique des unit s lexicales correspondances multiples dans les corpus parall les gt in actes des 7emes journ es d analyse statistique des donn es textuelles Presses universitaires de Louvain Louvain la neuve 2004 Zimina M Approches quantitatives de l extraction de ressources traductionnelles partir de corpus parall les Th se de Doctorat en Sciences du langage Universit de la Sorbonne nouvelle Paris 3 2004 Zimina M Exploration textom trique de corpus de traduction in actes du colloque Pour une traductologie proactive gt META 50 Presses de l Universit de Montr al Montr al 2005 paraitre 8 Fonctionnalit s Lexico3 utilis es dans cette navigation N Fonctionnalit R sultat 8 2 S lection d un Type occurrences de formes graphiques i x ES Figure 4 commen ant par une chaine de caract res d finie 7 Cart
65. aux ponctuations faibles et fortes contenues dans la police des caract res les caract res s parateurs de phrase sous ensemble des d limiteurs de s quence qui correspondent en g n ral aux seules ponctuations fortes forme ou forme graphique arch type correspondant aux occurrences identiques dans un corpus de textes c est dire aux occurrences compos es strictement des m mes caract res non d limiteurs d occurrence partition d un corpus de textes division d un corpus en parties constitu es par des fragments de texte cons cutifs n ayant pas d intersection commune et dont la r union est gale au corpus ventilation des occurrences d une unit dans les parties du corpus La suite des n nombres n nombre de parties du corpus constitu e par la succession des sous fr quences de cette unit dans chacune des parties prises dans l ordre des parties motif un ensemble d objets poss dant une propri t reconnaissable analyse factorielle famille de m thodes statistiques d analyse multidimensionnelle s appliquant des tableaux de nombres qui visent extraire des facteurs r sumant approximativement par quelques s ries de nombres l ensemble des informations contenues dans le tableau de d part sp cificit positive pour un seuil de sp cificit fix une forme 1 et une partie j donn es la forme 1 est dite sp cifique positive de la partie j ou forme caract ristique de cette partie si sa so
66. dire que tous les mots sont invariables le masculin f minin singulier et pluriel ne sont pas morphologiquement marqu s Les verbes ne se conjuguent pas C est une langue tendance monosyllabique dont les nombreux emprunts au sanskrit au p li et plus r cemment l anglais ont introduit de nombreux mots constitu s de plusieurs syllabes Comme on le voit sur l extrait de traduction pr sent ci dessous le tha poss de une criture non segment e Les mots ne sont pas s par s les uns des autres par des espaces Il n y a pas de d limiteur de phrase comparable aux signes de ponctuation de l alphabet latin bien que l espace Tha1978 puisse sembler jouer parfois ce r le L criture thaie utilise 44 signes consonnes et 19 signes suppl mentaires qui en se combinant permettent de repr senter 32 voyelles cela il faut ajouter 4 marques tonales 2 diacritiques 10 chiffres traditionnels 3 marques additionnelles pour les mots p li sanskrit et 6 signes typographiques utilis s principalement dans les ceuvres versifi es Dans le corpus que nous avons r uni on remarque aussi la pr sence de guillemets Segmentations pr alables des textes tha s Afin de rendre le texte tha analysable par Lexico3 nous l avons pr alablement segment en utilisant l outil d velopp par l unit de recherche NaiST de l universit Kasetsart sp cialis e dans le traitement automatique des textes crits en tha La m thode de segm
67. diverses tudes comparatives stylistique compar e lexicographie bilingue traductologie traitement automatique des langues d sormais TAL cf V ronis 2000 La m thode textom trique nous permet partir de la segmentation des s quences textuelles d explorer dans chacun des volets du corpus la ventilation des formes graphiques ainsi que les r seaux de cooccurrences autour d une forme p le Cette m thode permet dans certains cas d entreprendre des analyse directes bas e sur la forme graphique des unit s lexicales qui entrent en rapport de traduction cartant dans un premier temps l obstacle que constitue les caract ristiques syntaxiques diff rentes de chaque langue Cependant les comparaisons fructueuses entreprises partir de textes crits dans des langues proches deviennent plus compliqu es mettre en uvre lorsque les bitextes associent des langues qui ne pr sente aucune parent Dans cette tude nous commencerons par pr senter les principales caract ristiques morphosyntaxiques du cor en que nous comparerons tr s bri vement celle du fran ais 2 Nous analyserons ensuite les diff rences quantitatives induites par ces caract ristiques pour les d pouillements de bitextes franco cor ens 3 Nous envisagerons enfin l approche textom trique des quivalences traductionnelles dans le cadre de l tude d un corpus parall le cor en frangais 8 4 2 Le cor en et son syst me d criture Le cor
68. dp de le et le e w ait pas peur de la nuit flemme claire la 5 257 KR KD RE figure rouge du vieux jean michel sa barbe 210 d KA el E blanche et rude son air bourru et ses yeux vifs il IE MAP TP H vient pr s du berceau son manteau sent D BE mouill il tra ne en marchant ses gros chaussons XX bleus louisa lui fait signe de ne pas s approcher my t Sk elle est d un blond presque blanc ses traits sont BH ME tir s sa douce figure mouton est marqu e de 4k Am taches de rousseur elle a des l vres p les et jj mp lt s s grosses qui ne parviennent pas se rejoindre et mat M Se qui sourient avec timidit elle couve l enfant IO des yeux des yeux tres bleus tres vagues prunelle est un point tout petit mais infiniment BK tendre n 8 l enfant s veille et pleure son regard trouble nw dp s agite quelle pouvante les t n b
69. du corpus ont t effectu s l aide du logiciel Lexico 3 d velopp par le CLA2T Centre de Lexicom trie et d Analyse Automatique des Textes Universit de la Sorbonne Nouvelle Paris 3 http www cavi univ paris3 fr ilpga ipga tal lexicoWWW Les hapax sont les formes dont la fr quence est gale un dans le corpus Signalons que ce corpus particulier montre un accroissement du vocabulaire relativement constant pour un texte fran ais Cela est sans doute mettre sur le compte d une certaine h t rog n it des documents rassembl s dans le corpus partir de sources diverses bien que concernant le th me des droits de l homme 20 000 16 000 14 000 12 000 10 000 8 000 6 000 Nombre de formes diff rentes 4 000 2 000 50 000 100 000 150 000 200 000 Position dans le texte nombre d occurrences Figure 23 Accroissement de vocabulaire dans les deux volets du corpus Droits 3 2 Diagramme de Pareto Le diagramme de Pareto figure 2 permet de visualiser la gammes des fr quence du vocabulaire pour chacune des deux langues rassembl es dans le corpus Droits cor en fran ais Fr quence 1 10 100 1 000 10 000 Nombre de formes gt F Figure 24 Diagramme de Pareto pour les deux volets du corpus Droits Le diagramme de Pareto fournit une repr sentation tr s synth tique des renseignements contenus dans la g
70. e http www mofat go kr et sur celui du Centre d information des Nations Unies au Japon http www unic or jp know kensyo htm Par ailleurs le chinois poss de fondamentalement une structure phrastique qui n est pas sans rapport avec les deux premi res langues occidentales sujet verbe compl ment alors que le cor en et le japonais recourent une structure phrastique inverse sujet compl ment verbe Par contre le chinois suit pour la position des attributs un ordre identique celui des deux langues orientales Le cor en fait partie avec le japonais et le turc des langues agglutinantes caract ris es par la combinaison des radicaux avec des particules auxiliaires qui d terminent les propri t s grammaticales des radicaux Comme nous le verrons plus loin ces particularit s entra nent des cons quences importantes au plan quantitatif Le grand nombre des formes diff rentes dans les textes cor ens d pouill s en formes graphiques r sulte avant tout de cette agglutination des particules auxiliaires aux radicaux qui complique singuli rement l analyse morphologique 2 2 Les caract ristiques typographique Le cor en moderne utilise g n ralement les signes de ponctuation occidentaux pour marquer les limites de la phrase et celles de la proposition Il utilise de surcro t quelques ponctuations cor ennes comme 2 pour noter les titres d oeuvres On note aussi quelques diff rences entre la ponctuation du cor en
71. et mettre en oeuvre sur un ordinateur qui isole chaque caract re hanzi Pour r aliser cette segmentation en caract res nous avons remplac en utilisant pour cela une expression r guli re chaque caract re du texte de d part par ce m me caract re pr c d d un espace code ASCII 32 Le fichier ainsi modifi r alise l isolation de tous les caract res du corpus Une proc dure de ce type est disponible l adresse http www cavi univ paris3 fr Tableau 1 Extrait des corpus JCI Fr et JC1 Chin Le grondement du fleuve monte derri re la maison La pluie bat les carreaux depuis le commencement du jour Une bu e d eau ruisselle sur la vitre au coin f l Le jour jaun tre s teint Il fait ti de et fade dans la chambre Le nouveau n s agite dans son berceau Bien que le vieux ait laiss pour entrer ses sabots la porte son pas a fait craquer le plancher l enfant commence geindre La m re se penche hors de son lit afin de le rassurer et le grand p re allume la lampe en t tonnant pour que le petit n ait pas peur de la nuit La flamme claire la figure rouge du vieux Jean Michel sa barbe blanche et rude son air bourru et ses yeux vifs Il vient pr s du berceau Son manteau sent le mouill il traine en marchant ses gros chaussons bleus Louisa lui fait signe de ne pas s approcher Elle est d un blond presque blanc ses traits sont tir s sa douce figure mouton est marqu e de taches de
72. et celle du fran ais par exemple le cor en utilise pour les citations des guillemets anglais au lieu des guillemets fran ais Comme en fran ais et en anglais les mots cor ens sont s par s par des espaces Les corpus de textes cor ens se pr tent donc sans grande difficult la segmentation automatique en mot par la s lection d un ensemble de d limiteurs signes de ponctuation et espace La structure syllabique originale du cor en est caract ris par la combinaison 2 3 lettres par syllabe dispos es en carr virtuel on recense effectivement 11 172 combinaisons de ce type qui peuvent tre identifi es des caract res La version actuelle de Lexico3 n accepte pas encore la table Unicode Elle rencontre de ce fait des probl mes pour afficher simultan ment le cor en et le frangais 2 3 Encodage des textes cor ens pour Lexico3 Le couteau suisse de Lexico3 permet d afficher les caract res cor ens lorsqu ils sont encod s avec la table de caract res win 949 bas e sur l ASCII qui correspond au codage Cor en Wansung Mais dans le cas du traitement informatique d un corpus multilingue constitu par des couples langues occidentales langues orientales les outils informatiques ont du mal afficher simultan ment les caract res correspondant aux deux syst mes d criture 3 Le corpus Pour illustrer notre propos nous avons s lectionn un corpus de textes juridiques constitu
73. guard 5 Sur la figure4 chacun des types administr 478 occ et administ 482 fran ais anglais est constitu par l ensemble d occurrences des formes graphiques regroup es en raison de leur parent s mantique dans le corpus transform pour une exploration parall le sous Lexico3 voir l extrait pr sent au tableau 3 Sous Lexico3 le langage des lt expressions r guli res gt permet l utilisateur de constituer des groupes de mots correspondant au type de son choix et d enregistrer la liste de ces unit s pour une exploration ult rieure 10 Dans l tat actuel les fonctionnalit s de Lexico3 ne permettent pas encore de charger s par ment les dictionnaires de formes correspondant chaque volet d un corpus bi textuel Pour contourner cette difficult nous avons diff renci les deux langues en introduisant le caract re lt _ gt underscore devant chaque forme graphique du volet anglais Automatis e par une op ration Rechercher Remplacer l insertion de cette marque a permis d viter toute confusion entre les vocabulaires correspondant chaque volet du corpus Groupes formes administrative administrative administration administration administratif administered administratives administer administratifs administering administrateur administrations administre 2 administrator administrer administrant administ
74. l diteur d alignement ou aux sections dans la carte des sections e Le terme poly cooccurrence d signe les attractions lexicales au del de la cooccurrence binaire Le module de poly cooccurrences int gr reprend l algorithme d crit dans Martinez 2006 On calcule pour le p le A les cooccurrents sp cifiques B C et D e Dans leurs contextes communs on calcule pour les p les A B les cooccurrents sp cifiques E et F Les p les ont pour cooccurrent sp cifique H Les p les A B E HH n ont pas de cooccurrent sp cifique et l exploration s interrompt pour ce chemin Les p les A B F ont pour cooccurrents sp cifiques I etc Durant l exploration diff rents filtrages conditionnent l puisement des explorations contextuelles et r duisent le bruit dans les r sultats pour privil gier l information la plus sp cifique seuils maximaux de fr quence et de sp cificit du cooccurrent Le calcul des cooccurrents tant termin l activation du module de polycooccurrence construit les chemins de polycooccurrence le graphique suivant construit par mkAlign synth tise l ensemble de ces chemins que nous ins rons plus bas 2 3 1 2031 284 1 Figure 14 Les polycooccurrents de la forme nation Dans ce graphique les formes en jaune sont pr sentes dans les 2 volets les formes en rouge sont pr sentes dans le volet source FR 1 et les formes en bleu sont pr sentes dans le volet
75. la n vons pardu nol us AXES que Ile sont en pas les ou rapidement Mais je dire ceci Wees de faire Srionpher Atespeir sur E e sommes r uni pe re i l espoir 1 eri AM des fausses promesses 1 zo 1 amer mesquines wt des fausses promus ler Reritures I ert taspa de 1 e En une nation jeune mais temps ert wanu de di t de choisir ce qu il y a de mieux dans hist 22 Le moment est venu de preuve nouveau de t nacit de choisir ce qu il a de mieux di vous Het que nous sommes tous libres que nous 2 promesse divine selon laquelle nous sommes tous gaux nous sommes tous libres er nous a aue Grandeur n est 1 13 nouveau la arandeur de notre nation nous SAVOLA que l amp grandeur n est 25 E doit m riter acceptation de moindres bien lt Em e BEE roccoureis dvf pr sensien Ft Ri poue Les ceux qu pr tiram 27 Ca chenin par die pour le ics REN pour sam goi pri res 8 pem plutdt pour ceux qui pr des risques qui qui 2e ceux qui prennent des risques Ceux qui l action ceux qui o gt leurs Timer ap ont travers r nons d e les quelques p pur terre et traver sie ont dans der mis re et i Ouert 318 ont endur la e 3 e der et ER ront install e 1 peur nous sis B battus sont Lech sur weng champs de bataille Concor
76. le concept vieux vieillard etc est souvent rendu en chinois par les termes 1ao ren vieil homme et lao vieux qui constituent par ailleurs les quivalences traductionnelles les plus adapt es pour traduire le concept de vieux Dans une seconde tape nous introduisons les mots et Z sur la carte des sections d coup es partir du texte chinois La comparaison des deux volets montre que la correspondance est loin d tre parfaite On a rassembl dans le tableau 8 des paires s lectionn es partir du concept frangais vieux qui se trouvent tre en rapport de traduction avec des expressions chinoises L analyse des discordances dans la localisation de ces formes r v le avant tout un cart entre le champ s mantique du mot frangais vieux et celui du hanzi chinois 1ao vieux ancien etc En fran ais le mot vieux poss de un lien troit avec l ge et le temps mais il v hicule aussi une valeur parfois p jorative lorsqu il s applique des objets ou des personnes dans certains contextes vieux v tements vieille caisse En chinois tout au contraire le mot 2 dont le champ s mantique est un peu plus large est employ pour d signer des personnes anciennes respectables honorables professeur vieux ma tre 24 Cet alignement a t r alis en utilisant le logiciel MKAlign propos par Serge Fleury ce logiciel peut tre t l charg sur le site http tal univ paris3 fr mkAlign
77. le grand p re allume la lampe en t tonnant pour que le petit n ait pas E peur de la nuit la flamme claire figure rouge du vieux jean michel 3 EG barbe blanche et rude son air bourru et yeux vifs il vient pr s du berceau son manteau sent le mouill il traine en marchant ses eros Bappor Effacer R chaussons bleus lui fait signe de ne pas s approcher elle est d un qe 3 tition T 50 1 100 150 200
78. les types homme fr et homme co dans les parties 36 38 40 tient bien fait que la majorit des occurrences qui rel vent de la forme homme apparaissent dans le corpus Droits en cooccurrence avec la forme droits la plupart du temps sous la forme droits de l homme On localise les occurrences correspondantes du type ingwon dans les derni res parties du corpus cf Figure 28 Dans les cas ou le segment subit une inclusion il est nouveau rendu par ingan Par exemple les droits fondamentaux de l homme est traduit par 914t9 de l homme 7 9 fondamentaux xl droits et non plus Z 2 5 gibonjeok ingwon On v rifie sur figure 6 que les distributions dans les parties du corpus du couple droits de l homme ingwon sont assez similaires quelques expressions dues la pr sence de segments comme droits fondamentaux de l homme etc 650 600 I e ingwon s droits de l homme Fr quences T DETUR 1 3 5 7 9 1113 15 17 1921 23 25 27 29 31 33 35 37 39 Parties Figure 28 Les fr quences locales du couple ingwon droits de l homme dans les quarante parties du corpus Droit L cart constat propos de la partie 40 tient essentiellement au ph nom ne que nous venons de d crire plus haut Cependant apr s la prise en compte de ces variantes traductionnelles les parties 33 et 40 montrent encore des carts importants au plan fr quenti
79. lors de leur entr e ou pour examiner tous les passeports car on craignait que cela puisse alerter les suspects lt texte en gt no steps were taken to slow down the line of cars as they entered or to scrutinise all passports since it was felt that this might put the suspects on quard lt texte fr gt 5 une quipe de surveillance distincte se trouvait cependant la fronti re et un groupe pr pos l arrestation tait post dans le secteur de l a roport voisin texte en there was however a separate surveillance team at the border and in the area of the airfield nearby an arrest group texte fr S le t moin m dirigeait une quipe de surveillanc post e la fronti re exprima sa d ception au vu du manque apparent de coop ration entre les divers groupes qui impliqu s gibraltar mais il comprit que les choses taient ainsi organis es pour des questions de s curit lt texte en gt witness xm who led a surveillance team at the frontier expressed disappointment at the apparent lack of co operation between the various groups involved in gibraltar but he understood that matters were arranged that way as a matter of security Guide de lecture du tableau 2 Dans cet extrait du corpus parall le Convention plusieurs types de codage sont mis en vidence la cl texte texte qui distingue deux langues fran ais fr anglai
80. m me 51 ahan est d crit par les sp cificit s et donc par le segmenteur comme une des formes les plus repr sentative de l unit lexicale on vu bien des cas o elle rentre en composition avec d autres unit s lexicales pour tre en relation de traduction avec un seul mot fran ais Toute cette analyse doit nous permettre de r interpr ter les courbes d accroissement de vocabulaire Illustration 2 page 7 En effet les morph mes lexicaux sans parler de l instabilit de cette segmentation n est qu une tape interm diaire de la syllabe vers l unit lexicale L unit lexicale regroupe les morph mes lexicaux parmi lesquels certains on t recompos s en noms propres et en mots compos s de certains types Toutefois de nombreuses s quences pouvant tre consid r es comme unit lexicale vis vis du r f rentiel s mantique fran ais telle celle commen ant par la forme gt ran n ont pas t recompos es Sous l hypoth se que ces s quences s apparentent des syntagmes nominaux ce segmenteur tha imite les segmenteurs pour les langues criture segment e en ne les recomposant pas laissant si besoin est le soin un analyseur morpho syntaxique de les reconstituer Mais quelle est la diff rence r elle entre syntagme nominal et unit lexicale dans une langue dite isolante qui n isole rien l crit 5 Conclusion Cette premi re tude a illustr en corpus l intrication entre les syllabes
81. o 7650 mi EN 7700 lt volet cor en gt 50 100 150 20 50050 DDD 250 30 350
82. par une s rie de conventions protocoles chartes etc publi s propos du th me des droits de l homme par le Haut Commissariat des Nations Unies aux droits de l homme le Conseil de l Europe la Commission Interam ricaine des Droits de l Homme et le Bureau International du Travail 27 On peut consulter les textes originaux du corpus Droit sur les sites suivants Haut Commissariat des Nations Unies aux droits de l homme http www ohchr org french Conseil de l Europe http conventions coe int Treaty FR v3DefaultFRE asp Le corpus Droits se compose de deux volets le premier est constitu par le texte orignal fran ais le second par sa traduction en cor en Les traductions cor ennes ont t officiellement publi es par la repr sentation de l UNESCO en Cor e et par la Commission nationale des Droits de l Homme de Cor e Signalons que les traductions cor ennes n ont pas t r alis es directement partir des textes frangais mais partir de leurs quivalents anglais Cependant dans la mesure o l anglais et le fran ais sont les deux langues officielles de ces organisations qui effectuent pour leur compte des traductions de qualit nous avons consid r pour cette exp rience que le bitexte franco cor en pouvait tre consid r comme un corpus parall le de bonne qualit Le corpus Droits a d j t align au niveau des phrases Il ne contient aucune balise v hiculant des informations linguistiques
83. rousseur elle a des l vres p les et grosses qui ne parviennent pas se rejoindre et qui sourient avec timidit elle couve l enfant des yeux des yeux tr s bleus tr s vagues o la prunelle est un point tout petit mais infiniment tendre l enfant s veille et pleure son regard trouble s agite quelle pouvante les t n bres l clat brutal de la lampe les hallucinations d un cerveau peine d gag du chaos la nuit touffante et grouillante qui l entoure l ombre sans fond d o se d tachent comme des jets aveuglants de lumi re des sensations aigu s des douleurs des fant mes ces figures normes qui se penchent sur lui ces yeux qui le p n trent qui s enfoncent en lui et qu il ne comprend pas il n a pas la force de crier la terreur le cloue immobile les yeux la bouche ouverts soufflant du fond de la gorge sa grosse t te boursoufl e se plisse de grimaces lamentables et grotesques la peau de sa figure et de ses mains est brune violac e avec des taches Jaun tres Romain Rolland Jean Christophe 1904 M EKER nmn P em
84. s par le ralentissement de l accroissement du vocabulaire au cours du r cit peuvent tre mis en rapport d une courbe l autre Au ralentissement qui survient sur la courbe correspondant au texte fran ais abscisse 20 000 correspond un ralentissent dans la traduction chinoise abscisse 17 000 celui qui survient pour le texte fran ais abscisse 32 500 correspond galement un ralentissent dans la traduction chinoise abscisse 28 000 Accroissement de vocabulaire francais chinois 5 000 10 000 15 000 20 000 25 000 30 000 35 000 Position dans le texte nombre d occurrences Figure 6 Courbes d accroissement du vocabulaire r alis e sur les volets fran ais JC1 Fr et chinois JC1 Chin du corpus Diagramme de Pareto version chinois francais 1 000 100 Fr quence F 1 10 100 1 000 Nombre de formes gt F Figure 7 Diagramme de Pareto pour les deux volets du corpus Guide de lecture pour la figure 7 Pour un texte T d pouill en unit s statistiques appel es formes le Diagramme de Pareto permet de visualiser la structure de la gamme des fr quences m vertical permet de repr senter la fr quence F des formes du textes laquelle varie de 7 Fmax fr quence maximale calcul e pour le texte 7 m Sur l axe horizontal on porte la quantit nombre de formes du texte dont la fr quence est sup rieur
85. se ne confortent appellant cites in evidence in this toutefois pas cette affirmation connection do not however support that assertion La pr sence de sections monochromes sur la carte montre qu il existe des cas de non correspondance entre les types En cliquant sur un carr monochrome bleu ou rouge il est possible de visualiser dans la fen tre du bas le texte correspondant la section o les deux types ne sont pas li s volet fran ais volet anglais lt texte fr gt toute autre lecture lt texte en gt any other construction seulement p cherait par manque de would not only lack coherence coh rence mais surtout trahirait l intention des autorit s lesquelles entendaient soustraire l emprise de la convention tout le Syst me administratif y compris les dispositions de fond et de proc dur du droit administratif p nal Type 1 Lorsque deux sections monochromes colori es en bleue et rouge se succ dent sur la carte on peut g n ralement constater les d calages dans l appariement des sections Par exemple volet fran ais volet anglais lt texte fr gt toute autre lecture lt texte en gt any other construction seulement p cherait par manque de would not only lack coherence coh rence mais surtout trahirait l intention des autorit s lesquelles entendaient soustraire l emprise de la convention tout le Syst me administra
86. tant dit on peut avoir affaire deux probl mes Le premier est un probl me de sous segmentation c est dire que des parties de noms propres sont rattach es d autres unit s lexicales Le second est un probl me de sur segmentation c est dire que des bouts de morph mes de noms propres n ont pas t rattach s ensemble La m thode pour retrouver des occurrences de formes mal segment es avec Lexico3 consiste calculer les segments r p t s sur le corpus segment en trois parties puis utiliser conjointement l outil de recherche de groupe de formes et les expressions rationnelles Expressions Exemples de formes Expressions Exemples de formes aa d 14 formes Au N trouv es la plupart sont des 14 segments r p t s distribution vari e
87. traductions thaies segment es en syllabes Il montre dans le volet droit les cinq formes les moins sp cifiques de cette partie On observe que toutes ces formes sont monosyllabiques De plus on remarque que les occurrences des formes du volet gauche sont presque exclusivement dans cette partie alors que les occurrences des formes du volet droit ne compte que pour un tiers des occurrences totales 2x Nous avons retenu un seuil de probabilit de 5 et une fr quence minimale de 10 Syllabes Sp cificit s positives Sp cificit s n gatives Formes Fr q Fr q Tot Coef Formes Fr q Fr q Tot Coef 256 301 ENT 1980 5938 10 437 556 0 1248 3735 7 211 216 RTF 1144 3400 6 423 536 1151 3441 6 174 181 TR 1013 3028 6 Tableau 9 Sp cificit s pos n g thsyl sur thsyl thmor thlex On peut corroborer ce constat num rique par des connaissances linguistiques En effet il semble difficile d attribuer un sens aux formes de gauche alors qu on sait par connaissance du thai qu elles sont pr sentes dans de nombreuses unit s lexicales On peut confirmer cette affirmation par une recherche l aide de l outil groupe de formes Quelques exemples sont donn s dans le Tableau 4 Quant la pr sence d occurrences de ces formes dans les parties thmor ou thlex il peut s agir d erreur
88. 5450 1 1 7 NN s NEN N 1 7200 350 Figure 29 Extrait de la carte des sections homme_fr femme fr et I homme femme dans le volet francais
89. Cf par exemple ALLETON 1997 p 11 18 dongAEst WI xi x HONGXT Abkhose HH 2 2 Les mots chinois C est la combinaison de deux caract res ou parfois de trois caract res qui constitue le mot ni fu toi Af h o bon bien nih o Bonjour Comment ca va J Dans la langue moderne il existe beaucoup mots bi syllabiques voire tri syllabiques Par suite de l volution de la langue et de l adoption de mots emprunt s d autres langues Par exemple 1 2 3 4 sh u Shou j1 xi h u qi o ke li main portable rencontre par hasard chocolat Dans le premier exemple le caract re sh u signifie main il constitue une syllabe et correspond en m me temps un sens ind pendant Dans ce cas il peut tre consid r comme un mot Dans le deuxi me exemple FHl le m me caract re est associ au caract re ji machine appareil garde dans ce cas le sens main mais la combinaison des deux caract res prend un nouveau sens t l phone mobile portable Dans le troisi me exemple la combinaison des deux caract res xi h u signifie se rencontrer par hasard mais ces caract res perdent leur sens lorsqu il sont isol s Dans le mot anglais chocolate chacun des caract res 15 v 7 poss de un sens propre sans rapport imm diat avec le mot 257 adroite habile convaincre JJ force Pro
90. Dordrecht Boston London Kluwer Academic Publishers pp 1 24 Zimina M 2000 Alignement de textes bilingues par classification ascendante hi rarchique In Actes des 5es Journ es internationales d Analyse statistique des Donn es Textuelles Lausanne pp 171 178 Zimina M 2002 Rep rages lexicom triques des quivalences basse fr quence dans les corpus bilingues In J V ronis Ed Revue lectronique Lexicometrica n sp cial Corpus align s Zimina M 2004a Alignement textom trique des unit s lexicales correspondances multiples dans les corpus parall les In Actes des 7es Journ es internationales d Analyse statistique des Donn es Textuelles Louvain la Neuve pp 1195 1202 Zimina M 2004b Approches quantitatives de l extraction de ressources traductionnelles partir de corpus parall les Th se de doctorat Universit Paris III 7 Fonctionnalit s Lexico3 utilis es dans cette exploration N Fonctionnalit R sultat 5 5 Courbe d accroissement du vocabulaire Figure 5 5 Principales caract ristiques lexicom triques PCLC Tableau 2 5 5 Courbe d accroissement du vocabulaire Figure 1 54 Diagramme de Pareto Figure 2 6 Ventilation dans les parties Figure 4 6 8 Groupe de formes Figure 3 7 Carte des sections Figure 5 7 8 Le tha De la segmentation aux maux fran ais tha Christian Jean chr_jean2000 yahoo fr 2 2 E 39
91. Ressentir sentir 233 335 SES 1 369 sentiment F licit 76 76 41 8 472 Causer faire 225 355 39 3 536 S sorte de Modificateur 159 255 27 6 556 MEN d aspect temporel pouvoir N Pronom 111 157 26 82 988 Ka personnel r flexif Tableau 12 Sp cificit s pos neg thlex sur thsyl thmor thlex On observe que toutes les formes de gauche sont polysyllabiques alors que celles de droite sont monosyllabiques Les formes de gauche sont vari es quant leur nature En effet nous avons un verbe un nom commun un nom propre ainsi que des mots outils On remarque que le mot outils tham haj est compos de deux syllabes dont l une est principalement un verbe faire rentrant dans la composition d un nombre assez important d unit s lexicales et l autre est aussi un mot outil d riv du verbe haj donner Ils sont tr s fr quents Par exemple appara t dans les parties thsyl thmor thlex respectivement 581 360 210 fois et hi respectivement 1002 854 et 748 fois Les fr quences des formes de droite hormis celle de la forme h sont faibles dans cette partie Ainsi il n y a qu une seule occurrence seuk contre 132 dans la partie thmor et 236 dans la partie thsyl On ne m
92. SYLED CLA2T Universit de la Sorbonne Nouvelle Paris 3 Explorations textom triques LEXICO amp mk lign Volume 3 corpus multilingues Sous la direction de Andr Salem et Serge Fleury S Fleury M Zimina J Miao Salem J H Cho Christian Jean 2009 Nous avons rassembl plusieurs compte rendus d exp riences r alis es avec les logiciels famille Lexico au cours de nombreuses recherches et dans le cadre de collaborations diverses Les navigations rassembl es ici ont t choisies pour mettre en vidence la tr s vaste gamme des domaines d application des m thodes textom triques ainsi que les fonctionnalit s des logiciels Lexico3 et mkAlign Elles sont publi es sous la forme de trois volumes volume 1 corpus et probl mes volume 2 s ries textuelles chronologiques volume 3 corpus multilingues Lexico3 http www cavi univ paris3 fr ilpga ilpga tal lexicoWWW mkAlign http tal univ paris3 fr mkAlign Lexicometrica http www cavi univ paris3 fr lexicometrica Fonctionnalit s Lexico3 Tableau des fonctionnalit s Pour pr senter les fonctionnalit s mises en uvre dans les sections suivantes nous avons r unis ci dessous les diff rentes ic nes associ es aux fonctionnalit s vis es dans leur contexte d utilisation Fen tre barre principale J 4 55 7 89 10 Pattition Sr lt gt 0 L Sp cifs Fen
93. Xie up d RE 2 me HEART 5 E EX AN a Figure 8 Localisation des correspondances de vieux et Z dans le bitexte l aide du logiciel Lexico3 le grondement du fleuve monte derri re la maison la pluie bat les carreaux depuis le 5 6 3 ES commencement du jour une bu e d eau E km HE WA ER MAF ES ruisselle sur la vitre au coin f l le jour jaun tre s teint il fait ti de et fade dans la chambre Chargement Source et Cible version fran ais gt s lt version chinois gt Alignement Source Cible 5 a fait craque lan Recherche de cognats ce geindre la m re I hors de son lit afin de le rassurer le 7 grand p re allume la lampe en t tonnant pour RRES ALR o 1 bres gt zh B Ss SHE i r g du chaos la nuit touffante et grouillante qui l entoure l ombre RP MAR 28
94. a agi en violation d un unlawfulness on the allegation that principe g n ral de the commissioner has acted in breach administration algemeen beginsel van of a general principle of good behoorlijk bestuur governance algemeen beginsel van behoorlijk bestuur 12 Les erreurs recens es dans l alignement des sections bi textuelles peuvent tre corrig es l aide du programme mkAlign Fleury 2005 Tableau 6 suite Convention Contextes originaux rep r s l aide de la topographie bi textuelle volet fran ais volet anglais lt texte fr gt en outre la r serv lt texte en gt moreover the n entr n jeu que lorsqu ont t reservation only comes into play appliqu es des dispositions where both substantive and procedural administratives de fond et d of one or more of the four proc dure d une ou plusieurs des Specific laws indicated in it have quatre lois qu elle sp cifie been applied lt texte fr gt il ressort des m moires texte en it is apparent to the soumis par les parties la proc dure court from the pleadings of the devant ell t des dossiers des parties to the proceedings before it proc dures ant rieures qu une and from the files relating to the audience ne contribuera sans doute earlier administrative proceedings pas claircir l affaire that an oral hearing is not likely to clarify the case further
95. a liste des s parateurs et y ajouter le caractere qui sert de d limiteur de sections dans notre corpus Comme on veut garder la trace des espaces originaux on exclu aussi le caract re _ de la liste des d limiteurs La table win874 id ale pour des textes bilingues anglais thai permet de travailler simultan ment avec les caract res ASCII et les caract res thai mais pas avec les caract res fran ais accentu s Ainsi il faudra faire un choix d affichage lorsqu on travaillera avec les fichiers contenant la fois les versions fran aises et les versions tha es des nouvelles lt langue fr gt lt nouvelle 001 gt lt auteur 1 gt Le Dr Joris Abraham W Snowdrop de Pigtown U S A tait arriv l ge de cinquante cinq ans sans que personne de ses parents ou amis e t pu l amener prendre femme L ann e derni re quelques jours avant No l il entra dans le grand magasin du 37th Square Objets artistiques en Banaloid pour y acheter ses cadeaux de Christmas lt langue th gt lt nouvelle 001 gt lt auteur 1 gt A 2 Ei v a 4 a 4 v a 9015183
96. alignement des deux volets du bitexte r alis partir du corpus au niveau du paragraphe A partir d un tel alignement on peut s int resser aux traductions de ce qui constitue une unit dans la langue source dans l autre volet du corpus Cette comparaison peut tre men e simultan ment du point de vue distributionnel l aide de l outil concordance cf tableau 7 et d un point de vue spatial cf figure 8 6 2 Le groupe vieux vieillard ef son correspondant ren A titre d exemple nous examinerons les traductions chinoises d un ensemble de mots qui We 25 rendent en fran ais le concept de vieillesse vieux vieillard etc Pour cette famille de mots nous obtenons une fr quence globale de 95 occurrences qui se r partissent comme suit vieux 77 vieille 7 vieil 3 vieillard 3 vieilles 2 vieillards 1 vieillissait 1 vieillots 1 On trouve au tableau 7 un extrait de concordance r alis e autour du p le 2 1 vieux dont les lignes sont tri es par ordre d apparition dans le texte chinois La localisation des occurrences de chacun de ces termes dans la carte des sections tablie pour le texte fran ais figure 8 permet de rep rer des sections correspondantes du texte chinois dans lesquelles on peut s attendre ce que soit rendue en chinois l id e de vieux La liste des mots les plus sp cifiques dans le texte chinois qui correspond ces derni res sections nous laisse penser que
97. am connait deux principales variations grammaticales saram singulier et saramdeul pluriel Dans le volet cor en nous nous trouvons du fait de la structure agglutinante de la langue cor enne de nombreuses occurrences qui concernent galement la forme saram x3 2 sarameun 134 A 55 AH 34 30 LHbxbsaramgwa 26 AEsarameul 23 saramdeurui F 22 etc Dans notre corpus cf figure 3 ces formes trouvent pour la plupart une fr quence sup rieure celle de la forme saram laquelle ne compte que 10 occurrences Dans le cadre du d pouillement formes graphiques partir la s lection de caract res d limiteurs la variation graphique associ e un nom commun fran ais provient de la marque ventuelle du pluriel par rapport au singulier Dans le cas d un texte cor en cette variation est augment e par la combinaison possible avec diff rents mots fonctionnels ou particules auxiliaires C est la raison pour laquelle le d pouillement des textes cor ens g n re comme nous l avons d j signal au 2 beaucoup plus de formes et d hapax que celui des textes quivalents fran ais Faute de poss der une proc dure de segmentation adapt e la morphologie de la langue cor enne il est n cessaire pour rep rer des traductions possibles du terme homme d examiner au del de la cha ne de ca
98. amme des fr quences Sur l axe vertical gradu selon une chelle logarithmique on porte la fr quence de r p tition F qui varie donc de 1 Fmax la fr quence maximale du corpus Sur l axe horizontal gradu selon la m me chelle logarithmique on porte pour chacune des valeurs de la fr quence F comprises entre 1 et Fmax le nombre N F des formes r p t es au moins F fois dans le corpus La courbe obtenue est donc une courbe cumul e Lebart et Salem 1994 48 Les diff rences que l on peut constater aux deux extr mit s du Diagramme confirment que le fran ais utilise plus de formes de haute fr quence et moins d hapax que le cor en Ainsi le taux de formes ayant plus de 10 occurrences atteint 24 6 pour le fran ais tandis qu il est environ de 8 8 pour le cor en Pr s de 91 2 des formes graphiques du cor en ont une fr quence inf rieure 9 occurrences Les r sultats statistiques pr sent s ci dessus conduiraient penser que le cor en utilise un grand nombre de mots monos miques Comme nous l avons d j signal il s agit sans doute d un artefact li la segmentation en formes graphiques que nous avons op r e sur la base de la distinction entre caract res d limiteurs et caract res non d limiteurs Nous reporterons une autre tude l analyse de l incidence des propri t s agglutinantes que avons mentionn plus haut sur les calculs de fr quence Cet obstacle li a la seg
99. anquera pas de remarquer qu elle rentre en composition dans la forme n ruuseuk celle ci apparait 102 fois dans la partie thlex ce qui nous permet de d duire par calcul que la s quence appara t 131 fois dans la partie existe donc Conform ment l expression utilis e dans la m thode de langue intitul e Pratique du Tha de Wanee Pooput et Mich le Conjeaud 9s La formel cai est une des plus belles formes du thai dont le sens est associ celui de c ur au sens propre comme figur Je laisse son tude aux doctorants ou au romancier amoureux du thai cf http www learningthai com hearttalk htm 53 On notera au passage que la segmentation en morph mes lexicaux n est pas stable puisqu il n y a pas de raison de d couper la s quence tant t n tant t en n Cela n est pas tr s grave car l tape morph me une occurrence de dans la partie thlex et une dans la partie thmor L utilisation des concordances group es montre que c est la m me On remarqu pr c demment que les formes pra et kra participaient en tant que syllabe la formation de nombreux mots cf Tableau 4 mais il s av re que ces deux formes ont aussi une signification autonome attest e par l existence d entr e dans diff rents dictionnaires Cependant il reste confirmer le statut de leurs occurrences dans nos textes Fo
100. cible FR 2 Polycooccurrents FR 1 nation co freq 2 seuil 3 nation 2 3 demeurons 2 3 1 Nous 2 3 4 i1l 2 3 1 est nation 28 4 1 de 2 3 1 grandeur nation 28 4 1 de 3 4 1 envers nation 28 4 1 de 3 3 1 chaque Polycooccurrents FR 2 nation co freq 2 seuil 3 nation 3 4 1 envers 2 3 c nation 2 3 1 grandeur Les chemins de polycooccurrence sont accessibles apr s sauvegarde des r sultats du calcul dans le rapport d exploration cf sauvegarder un rapport dans le manuel d utilisation Le graphique des chemins polycooccurrences permet aussi de r aliser des retours au contexte en s lectionnant des n uds forme Control Clic sur un n ud que l on peut ensuite projeter sur la carte des sections de l alignement ic ne carte des sections dans la partie haute de la zone d dition du graphe dans l onglet Cooc Cette projection permet de mettre au jour les sections contenant l ensemble des formes s lectionn es Option Global coch e ou celles contenant au moins l une des d entre elles On peut ainsi visualiser rapidement les sections contenant des chemins complets de polycooccurrences mkAlign Polycooccurrences Dans l onglet Coocs s lectionner la forme p le volet source et volet cible Charger ventuellement une liste de forme exclure du calcul stop liste sur chacun des 2 volets Choisir une fr quence minimale et un seuil de probabi
101. connus uniquement lors de la segmentation en unit s lexicales il est donc normal de retrouver les formes et dans la partie thmor lors de la segmentation en morph me lexical En revanche laisser telles quelles les occurrences dans la partie thlex lorsqu elles font parties du pr nom w est clairement une erreur du segmenteur Le probl me sp cifique de la reconnaissance des noms propres sera abord ult rieurement Les formes du volet droit sont toutes monosyllabiques et ont une fr quence faible dans la partie thmor On observe que deux des formes e a n we sont des syllabes des formes ara et mai wela respectivement Les quatre occurrences de es dans la partie thmor proviennent essentiellement d emprunt dont certaines des syllabes sont connues comme des mots tha es ainsi aku pronom malais signifiant je o la syllabe signifie aussi je familier en thai La plupart de ces formes l exception des instances de noms propres seront reconstitu es correctement dans la partie thlex Les unit s lexicales Le Tableau 6 montre dans le volet gauche les cinq formes les plus sp cifiquement employ es comme unit lexicale et dans le volet droit les cinq formes les moins sp cifiques Unit lexicale Principaux Sp cificit s positives Sp cificit s n gatives Forme SEn Fr q Fr q Tot Coef Forme Fr q Fr q Tot Coef
102. currence lt texte en gt other construction would not only Jack coherence zn Ex D Rapport Effacer Figure 5 Ventilations des Types fran ais anglais administr administ dans le corpus align au niveau de la phrase recherche d asym tries distributionnelles Guide de lecture de la figure 5 L alignement des sections phrases du bi texte est mat rialis par des carr s Le coloriage des carr s indique la pr sence des types tudi s dans les sections concern es E les carr s bicolores de la carte signalent les sections bi textuelles o les mots fran ais commen ant par la chaine administr administration administrer etc sont traduits par des mots anglais commen ant par la chaine administ administration administering etc WO les carr s monochromes correspondent aux sections du bi texte o le type fran ais administr et le type anglais administ ne se correspondent pas dans le corpus En cliquant sur un carr monochrome bleu ou rouge il est possible de visualiser dans la fen tre du bas le texte correspondant la section o les deux types ne sont pas li s On peut ensuite tudier les particularit s de ces contextes et trier entre les cas qui correspondent aux d calages dans l alignement des sections parall les du corpus Type 1 et les autres susceptibles de r v ler des quivalences lexicales peu communes Type 2 Rappel sur les fo
103. d aligner au niveau de la phrase mkAlign permet de s lectionner un caract re le segmenteur d alignement permettant de d couper les textes aligner pour ensuite charger les diff rentes sections r sultantes dans les zones d dition disponibles chaque page contient 5 zones d dition align es permettant de visualiser chaque couple de sections textuelles align es Notre objectif d alignement phrastique nous a conduit pour amorcer grossi rement les choses charger les 2 volets initiaux en choisissant comme segmenteur d alignement le caract re retour la ligne mkalign 2 00 2 061 16 ksi MODE GENERAL Chargement Source et Cible Segmenteur Pr traitement MODE ALIGNEMENT AUTO Alignement Source Cible Recherche de cognats MODE Import Export TMX Outils Alignement Sauvegarde Modes SPLIT MERGE Recherche Source Cible I stand here today humbled by the task before us grateful for the trust you have bestowed mindful of the sacrifices borne by our ancestors My fellow citizens es chers concitoyens Fichiers charg s les 2 volets ont t align s sur la base du segmenteur d alignement choisi ici le retour la ligne zone segmenteur vide 2 17 me pr sente devant vous aujourd hui en toute rumilit face la t che qui nous attend reconnaissant de la confiance que vous n avez accord e let conscient des sacrifices consentis par nos anc tres s
104. d e 31 T Concord Cettysburg en Normand encore ces hommes et d re sont ont travaill p ouzes et ces ont lutt des sacri at travaill lie que i Am rique Zap plur ue la ambitions individueller tan r us DH ambitions individueller AIN 14 Cert trajectoire que 1 aujourd bus 35 Nous une nation prosp puissante e 5 s nation la plus sp re la plus puissante de la Terre 36 Mos travailleurs ne sont pas moins productis que Cette crise commenc a s moins productifs qu avant la 27 Nos ne ront pas moins ID as biens et services ne want par moins n cessaires 16 la semaine derni re 20 Nos biens et services ne sont pas moine n cessair capacit 29 Wos intactes le de E inerte droite de repousser z 0 Le temps O nous G nous prot gions nos int r ts 1 partir d aujourd hui nous devons KE relever la Voce de nos sandales at no 1 partir d aujourd hui nous devons nous relever ti x 2 Wm effet partout e i anah HEN En effet o Qe nous pen neus 3 audacieuses et rapides 3 4 de notre conomie des audacieuses rapides x une au et les prendre wulement pour cr nouveaux endroits mi aux lectriques vt les E et num riques nott d t merveilles de la te s rendre 1 science Dm re
105. de segmentation Motif ss Fr q Motif 8 Fr q Motif 35 40 formes 12 formes 198 formes 60 39 85 26 7 66 13 6 Motif A Anl 3 33 formes 1 2 8 1 1 8 1 1 1 Tableau 10 Extraits de r sultats de recherche de groupe de formes dans la partie thlex En revanche les formes du volet droit sont bien connues comme unit lexicale Par exemple les formes phony theu et khaw peuvent tre utilis es comme des substituts du nom je tu elle il il elle ils elles ou avoir une valeur lexicale cheveux montagne quant l c est une conjonction de coordination tant presque quivalant notre lt et gt Le a ja est une particule marquant l inaccompli On peut confirmer cette connaissance linguistique par l utilisation du concordancier pour d compter ces formes par partie Par exemple cela donne pour la forme les r sultats suivants thsyl 1980 thmor 1979 thlex 1979 confirmant ainsi le statut de syllabe morph
106. diff rents endroits du corpus dont la fr quence totale d passe un seuil minimal F pr alablement fix par l utilisateur Les segments ainsi s lectionn s peuvent ensuite tre tri s selon diff rents crit res longueur fr quence etc et de la que nous avons que nous sommes parce que nous et que nous sont pas moins de notre nation me sont pas moins me sont pas o la r ponse et que la de notre conomie qui nous ont et que nous sommes tout ce que d une nouvelle re les gardiens de face la de notre libert la r ponse sera mous sommes tous 5 5 4 3 3 3 3 3 3 3 2 2 2 2 2 2 2 2 2 2 2 2 2 prosp rit et que nous sommes me peut pas que nous avons pour nous qu ils ont de ceux qui C est pour nous C est pour nous qu ils me sont pas moins mous qu ils ont parce que nous sont pas moins mous ne pouvons C est pour nous qu ils ont une nouvelle re pour nous qu ils me sont pas chaque fois que la qui nous ont des hommes et des femmes les gardiens de chaque fois chaque fois que la r ponse de notre libert Figure 11 Liste des segments r p t s sur les 2 volets du corpus mkAlign Segments r p t s Y Dans l onglet Param s lectionner un seuil de fr quence minimal pour les segments Y Dans l onglet Segments activez le calcul Y Les segments apparaissent dans la zone d dition de l onglet Segments sous la
107. duit courant m li hua cha le th au jasmin est un mot dont les composants identifiables sont difficiles segmenter On peut consid rer li jasmin comme un mot bi syllabique compos de deux caract res d pourvus de sens propre Mais en combinaison avec le caract re ZE hua fleur le mot qui d signe toujours le jasmin renvoie la fleur de l arbuste On peut consid rer le caract re cha th comme un mot monosyllabique Mais pr c d par le caract re 4 hua fleur on peut galement consid rer que les caract res combin s hua cha th aux fleurs qui sont diff rents de l ch th vert ou h ng ch th noir forment un nouveau mot 2 3 Les phrases la ponctuation Comme dans le cas des mots il est difficile de d finir clairement les limites de la phrase chinoise Les d finitions et les classifications de la phrase que l on trouve dans les grammaires chinoises phrases nonciatives interrogatives imp ratives exclamatives etc permettent difficilement de segmenter un texte en phrases de mani re automatis e La ponctuation est d usage r cent en chinois En 1919 on a commenc utiliser la ponctuation moderne en se r f rant au syst me de ponctuation occidental Le syst me utilis actuellement conserve la trace des r formes successives de l criture chinoise C est pourquoi la ponctuation chinoise moderne malgr ses similarit s avec ce
108. e m Avant de tracer le Diagramme on transforme chacune de ces quantit s en son logarithme d cimal Le Diagramme ainsi obtenu prend alors approximativement la forme droite que l on appelle Droite de Zipf en l honneur de Georges Kingsley Zipf qui a montr que ce type de proc dure r alis e partir de larges cat gories de textes permet de mettre en vidence une propri t statistique commune aux d pouillements en unit s lexicales Cette propri t est parfois pr sent e sous la forme excessivement simplifi e Rang x Fr quence Constante Pour en savoir plus Zipf GK 1935 The Psychobiology of Language an introduction to Dynamic Philology Boston Houghton Mifflin Lebart L Salem A Statistique textuelle Paris Dunod 1994 t l chargeable sur le site http www cavi univ paris3 fr lexicometrica livre st94 st94 tdm html La comparaison des deux courbes fait apparaitre des diff rences assez nettes dans la structure des gammes de fr quences des deux textes Le texte fran ais poss de nettement plus de formes dans zone de fr quences qui s tend 50 occurrences 1000 occurrences environ De son c t le chinois cr e plus de formes diff rentes dans la zone des tr s basses fr quences 6 Un exemple d tude parall le Aligner un bitexte c est construire une repr sentation qui met en correspondance des unit s textuelles en rapport de traduction mutuelle Le tableau 6 montre un
109. e Aragon Baudelaire Bertot Bloy Daudet Didier Daeninckx Flaubert Jean Hourgon JMG Leclezio Marcel Schwob Maupassant Perrault Raymond Radiguet Renard Roegiers Sagan Sartre Zola valeurs sont thsyl pour la partie segment e syllabes thmor pour celle segment e morph mes et thlex pour celle segment e en unit s lexicales Chacune de ces parties est divis e en nouvelles identifi es par la cl nouvelle dont la valeur est compos e d un num ro et pr fix e de la lettre A B ou C pour les nouvelles segment es respectivement en syllabes morph mes et unit s lexicales Par exemple la nouvelle 001 est identifi e par les valeurs nouvelle A001 lt nouvelle B001 gt et lt nouvelle C001 gt WANAKAM k e Home Archives Authors Titles Webboard
110. e des sections sections bi textuelles pr sence absence des Types bilingues fran ais anglais Figure 5 administr administ Comparaisons textom triques de traductions franco chinoises Traductions franco chinoises Jun MIAO Andr SALEM silaomiaomiao yahoo fr salem msh paris fr R sum Apr s un bref rappel sur le syst me d criture chinoise et ses prises en charge par diff rents syst mes de codage informatique 3 on compare les d pouillements textom triques d un texte fran ais et d une de ses traductions chinoises Apr s le d pouillement du texte chinois en caract res isol s 4 on compare un d pouillement automatis en mots de ce m me texte avec le texte fran ais original 5 La derni re section est consacr e l tude des perspectives ouvertes par la d marche textom trique pour l analyse des diff rentes traductions chinoises utilis es pour rendre un m me mot fran ais 6 Mots cl s textom trie caract res chinois hanzi litt rature traductologie Abstract After a short recall of the Chinese writing system and on its various encoding systems 3 the authors apply textometric methods to compare a French text with its Chinese translation After an examination of the Chinese text with isolated characters 4 the same text cut into words with a Chinese word separation program is compared with the French original 5 The last section aims at studying the pers
111. e recherch e dans deux directions distinctes sans que l on puisse exclure a priori que le ph nom ne soit d une combinaison de ces deux possibilit s Type 1 il existe des d calages dans l alignement des sections parall les du corpus ce qui expliquerait la pr sence de sections bi textuelles o les deux types ne sont pas en correspondance Type 2 le type administr n est pas toujours traduit par le type administ et il existe des contextes originaux o sont attest es des quivalences lexicales peu communes susceptibles d int resser le chercheur La figure 5 permet de trier entre les cas qui correspondent la premi re hypoth se et les autres 3 R solution du probl me Les fonctionnalit s de la carte des sections rendent possible une visualisation simultan e de la pr sence absence des types bilingues Comme indiqu sur la figure 5 la couleur bleu est utilis e pour mat rialiser le type fran ais administr et le rouge pour le type anglais administ En cliquant sur un carr bicolore il est possible de visualiser dans la fen tre du bas le texte correspondant la section o les deux types sont li s L analyse de ces sections signale l quivalence lexicale des types appari s volet fran ais volet anglais lt texte fr gt les extraits du dossier lt texte en gt the passages from the administratif que cite l appelant administrative file which the l appui de sa th
112. e ressources textuelle cf Tableau 6 e le recours administratif the non contentious application l administration des douanes the customs bonne administration good governance e d positions administratives provisions e l administration du district district authority e l administration des eaux water rights authority proc dures ant rieures earlier administrative proceedings Tableau 6 Convention Contextes originaux rep r s l aide de la topographie bi textuelle volet fran ais volet anglais lt texte fr gt 1 recours lt texte en gt 1 the non contentious administratif application lt texte fr gt il prononca la lt texte en gt the court also ordered confiscation des marchandises saisies confiscation of the goods seized and et infligea aux pr venus une amende sentenced the defendants to pay a assortie de la contrainte par corps fine with imprisonment in default payer l administration des to ihe customs which was a co douanes partie poursuivante jointe prosecutor and had also joined the et qui s tait constitu e partie proceedings as a civil party civile l audience lt texte fr gt en pareil cas le tiers lt texte en gt in so doing the third peut aussi chercher d montrer qu party may also base his claim of le directeur
113. e s rie d autres caract res Les caract res correspondent la fois un segment sonore x Dy 15 la syllabe et une unit de sens r n ffhomme t tian m bois RFA l n f ret seng grande for t Chaque caract re v hicule une signification mais ne constitue pas n cessairement lui seul un mot Certains caract res changent de sens dans la combinaison avec d autres 14 Le Consortium Unicode et PISO consid rent que les caract res chinois cor ens et japonais sont les m mes que seuls les glyphes diff rent On peut rapprocher cette diff rence d aspect des traditions diff rentes qui ont longtemps pr valu en allemand police de caract res gothique en fran ais police 5 et en anglais police sans s rifs Les caract res sont cod s de la m me facon Chaque tradition utilise une police appropri e pour afficher les caract res dans le style qui convient le mieux aux habitudes locales Apr s l tablissement de la R publique Populaire de Chine en 1949 les autorit s ont entrepris des efforts pour simplifier les caract res chinois En 1955 le Comit pour la R forme de l criture Wenzi gaige wei yuanhui publi une proposition de caract res simplifi s En 1964 il a publi une deuxi me liste de simplifications Cette derni re liste r gle actuellement l emploi des caract res chinois 5
114. e sont pas ceux de de caract res l ensemble des voyelles minuscules gt 1 1 sme b A Repr sente une fin de L expression repr sente des b mol s quences comme syndicalisme capitalisme Sommaire Tutoriel n 3 Exploration du corpus Traductions align es du discours d investiture de B EC TT 8 1 Le corpus lt Traductions align es du discours d investiture de B Obama Investiture Obama 8 2 Construction d corpus align oae ente e Ret deve i 9 3 Et de la distribution d un type emt 0 0 19 4 M thodes textom triques inccr 1 21 SSH ER a 25 Eauivalenices traductionnelles rrr 26 Ree EE en tent 10 26 2 Asym tries distributionnelles des Types bilingues appari s nn 27 Rappel sur les fonctionnalit s de la carte des sections bi textuelle pp 31 3 R solution d Probl me error 117 31 4 Une m thode synchronisation l alignement ss 34 5 Une m thode de rep rage de passages originaux dans la traduction 34 35 E EC eL 35 8 Fonctionnalit s Lexico3 utilis es dans cette navigation 6 35 Comparaisons textom triques de traductions franco c
115. e trust you have bestowed mindful of the sacrifices borne by our ancestors seq lt tuv gt tuv xml langs fr lt seg gt Je me pr sente devant vous aujourd hui en toute humilit face la t che qui nous attend reconnaissant de la confiance que vous n avez accord e et conscient des sacrifices consentis par nos anc tres seg lt tuv gt lt gt lt tu gt tuv xml lang en gt lt seg gt I thank President Bush for his service to our nation throughout this transition lt seg gt lt tuv gt tuv xml lang fr gt well as the generosity and cooperation he has shown seq Je remercie le pr sident Bush des services rendus notre nation ainsi que de la g n rosit et de la coop ration dont il amp fait preuve durant toute la transition seq lt tuv gt Figure 5 Code source du fichier d alignement au format TMX 2 2 Etape n 2 G n ralisation de l alignement L op ration d crite dans l tape pr c dente t r p t e sur les diff rents couples de textes disponibles Les fichiers TMX construits chaque tape ont ensuite t fusionn s pour fournir au final un fichier regroupant les diff rents volets align s l alignement construit ici est compos pour chaque section d alignement de 5 volets le volet anglais et ses 4 traductions U DE PARIS 3 Sorbonne nouvelle mkalign Alignement au format Le discours d in
116. el dans la r partition des occurrences des deux TGen dont nous avons entrepris le rapprochement Dans la partie 33 les types ingwon et droits de l homme comptent respectivement 123 occurrences et 55 occurrences Dans le volet fran ais la fr quence du type homme fr s l ve galement 55 occurrences ce qui signifie que la forme homme n apparait dans cette partie que dans le contexte plus large droits de l homme Dans la partie correspondante du volet cor en la fr quence locale du type ingwon d passe largement celle de droits de l homme Cette diff rence provient du fait que le nom des organisations internationales contenant ce segment et leurs sigles respectifs sont fr quemment traduits en cor en par le m me segment cor en Commission des droits de l homme 91911 Commission Haute Commissariat des Nation Unies FANAI AFAA aux droits de l homme HCDH K 4 4 homme H On peut fournir une explication du m me type pour rendre compte de la fr quence nulle du TGen cor en Voir Tableau 3 Le retour au texte permet de v rifier n anmoins la pr sence d une opposition homme femme Dans les contextes o homme apparait en cooccurrence avec femme la plupart des occurrences cor ennes apparaissent sous la forme Hnamnyeo 31 eh 40 Namnyeo est un mot compos indiquant homme nam et femme gt et namseong synonyme de namja signifie entre autre
117. en est langue parl e en Cor e par environ 72 millions de personnes L alphabet cor en appel Hangul se compose fondamentalement de 24 lettres de base 14 consonnes et 10 voyelles Mais on utilise en fait 40 lettres si on inclut les consonnes et les voyelles doubles 2 1 Caract ristiques linguistiques Le cor en se distingue du chinois et du japonais qui appartiennent la m me r gion culturelle et g ographique par quelques caract ristiques typographiques et grammaticales On trouve ci dessous titre d exemple cinq traductions comment es grammaticalement d un m me article de la Charte des Nations Unies chapitre I article 2 1 anglais fran ais chinois cor en et japonais The Organization sujet is based verbe on the principle of the sovereign equality of all its Members complement pr dicat anglais L Organisation sujet est fond e verbe sur le principe de l galit souveraine de tous ses Membres compl ment pr dicat fran ais sujet REF verbe compl ment pr dicat chinois Zb sujet ME 435 9121 compl ment plaa verbe pr dicat cor en e sujet PE 0073 D SERES SEQ JE compl ment 5 2 verbe pr dicat japonais Bien
118. ent comparer des mots contenus dans le corpus parall le en langues sans parent bien que celles ci n aient aucune structure syntaxique en commun Dans le pr sent article nous pr senterons comment cette m thode est applicable aux corpus parall le en langues h t rog nes travers l analyse textom trique d un couple mots traductionnel fran ais cor en dans un corpus parall le cor en frangais Mots cl s corpus bilingues cor en traductologie textom trie Abstract A quantitative approach enables us to explore the distribution of words in translational correspondence obtained from the segmentation of the textual sequences in a corpus With this method we can directly compare the words from the parallel corpus in languages without cognates although they do not have any syntactic structure in common In this article we will present how this method is applicable to parallel corpora in heterogeneous languages through the textometric analysis of a couple of French Korean translational words in a parallel French Korean corpus Keywords bilingal corpora korean traductology textometrics 1 Contexte de la recherche Les corpus parall les bilingues sont des corpus compos s de deux textes en langues diff rentes dont l un constitue la traduction de l autre Chacun des textes est d coup en un syst me d unit s de traductions qui peuvent tre mises en correspondance deux deux Ce type de corpus est actuellement utilis dans
119. entation utilis e par segmenteur est d crite dans Asa2003 Le taux de reconnaissance des mots d clar est d environ 8096 pour la segmentation des mots inconnus et de 65 pour la fixation des fronti res de l unit lexicale Cet outil permet de r aliser la segmentation sur trois niveaux diff rents Le premier niveau est la syllabe Cette segmentation consiste regrouper des caract res afin de former une syllabe pronon able Par exemple Le mot thorara t sera d coup en 2 syllabes n3 thon sn ra t mot d origine sanskrite E Tous les caract res tha s sont r pertori s dans le seul standard existant le TIS 620 25335 d fini 1990 par l Institut des Standards Industriels Tha landais Il est encod principalement par deux tables d encodage 8 bits tr s similaires la tis620 table officielle et la Windows 874 tr s utilis e dans le monde Microsoft Ce jeu de caract res est aussi repr sent dans Unicode H Kucut est un programme crit en Python et t l chargeable gratuitement http naist cpe ku ac th wordcut static kucut 1 2 2 tar gz d Natural Language Processing and Intelligent Information SystemTechnology Research http naist cpe ku ac th Notes sur translitt ration translitt ration utilis e ici est une solution ad hoc ayant pour but l identification des mots par le lecteur Elle renseigne peu sur la fa on de lire car ni les tons ni les valeurs e
120. ents l l Am rique pers v r non seulement du fait des comp tences et de la perspicacit de ses dirigeants mais parce que nous le Peuple sommes demeur s loyaux envers les id aux de nos anc tres et envers les documents fondateurs de notre nation 11 en a t ainsi So it must be with this generation of Americans Et il doit en tre ainsi pour cette g n ration d Am ricains That we are in the midst of crisis is now well understood Le fait que nous traversons une crise est d sormais bien compris Our nation is at war against a far reaching network of violence and hatred Las 11 Notre pays est en guerre contre un r seau tentaculaire de violence et de haine Figure 4 Alignement au format affichage dans le navigateur La seconde montre un extrait du code source de ce fichier au format TMX lt xml version l 0 encoding UTF 8 EI tux version l 4 header adminlang en creationdate 20090712T110800Z creationtool mkAlign creationtoolversion 2 00 2 0b116 datatype xml o tnf unknown segtype block srclang en lt body gt lt tu gt tuv xml lang en gt lt seg gt My fellow citizens lt seg lt tuv gt tuv xml lang fr gt lt seg gt Mes chers concitoyens lt seg lt tuv gt lt gt lt tu gt tuv xml lang en gt lt seg gt I stand here today humbled by the task before us grateful for th
121. ervices rendus LL ginsi que de la g n rosit et de chargement ou sauvegarde d un alignement au format TMX Les outils d alignement sauvegarde des volets align s le mode SPLIT permet de scinder une cellule le mode MERGE permet de fusionner 2 cellules il a fait preuve durant toute la Am ricains ont d sormais fait ce htiel Ces mots ont t souvent prononc s dans la mar e montante de la prosp rit et dans les eaux calmes de la paix The words have been spoken during rising tides of prosperity and the still waters of peace HR RE B TE EE E Figure 3 Les outils de l alignement Au final on dispose dans l diteur de l alignement d un corpus align avec lequel on peut mener des explorations textom triques cf infra On peut aussi sauvegarder chacun des volets ainsi remodel s dans 2 fichiers ou exporter les 2 volets dans un fichier au format TMX ce type de fichier permettant de stocker de mani re s quentielle les diff rentes sections align es La premi re figure qui suit montre l tat de l alignement export au format TMX tel qu il est affich dans un navigateur avec une feuille de styles fournie CLA T U DE PARIS 3 Sorbonne no mkAlign Export Alignement au format My fellow citizens I stand here today humbled by the task before us grateful for the trust y
122. es Textuelles pp 495 506 Rastier F 2005 lt Enjeux pist mologiques de linguistique de corpus gt In G Williams Dir La linguistique de corpus Rennes Presses Universitaires de Rennes pp 31 45 Salem A 1987 Pratique des segments r p t s Essai de statistique textuelle Paris Klincksieck Salem A 2004 Introduction la r sonance textuelle In Actes des 7es Journ es internationales d Analyse statistique des Donn es Textuelles Louvain la Neuve pp 986 992 Salkie R 2000 Quelques questions m thodologiques dans l exploitation des corpus multilingues in M Bilger Ed Corpus M thodologie et applications linguistiques Paris Honor Champion pp 180 195 Shin J H Han 5 et Choi 5 1996 Bilingual Knowledge Acquisition from Korean English Parallel Corpus Using Alignment Method Korean English Alignment at Word and Phrase Level In Proceedings of the 16th International Conference on Computational Linguistics Copenhagen Denmark pp 230 235 Simard M Foster G et Isabelle P 1992 Using Cognates to Align Sentences in Bilingual Corpora Proceedings of the Fourth International Conference on Theoretical and Methodological Issues in Machine Translation TMI Montreal Canada pp 67 81 V ronis J 2000 From the Rosetta stone to the information society In J V ronis Ed Parallel Text Processing Alignment and Use of Translation Corpora
123. es chaines de caract res cod s sur un seul octet Cette limite qui est en voie d tre d pass e n entra ne cependant pas l impossibilit de traiter des chaines de caract res cod es sur plusieurs octets Comme on comprend en les comparant octet par octet 1l est possible de conclure que deux chaines de caract res multioctets sont identiques ou qu elles sont diff rentes De plus les syst mes informatiques modernes permettent d afficher correctement certaines repr sentation multioctets qui ne sont pas des repr sentations unicode Pour le pr sent travail nous avons utilis un codage Chinois simplifi Mainland China propos par le logiciel Word On prend en charge ce codage sous Lexico3 en activant l article Chinois simplifi Mainland China propos par le menu Options couteau suisse de Lexico3 Les composants utilis s dans Lexico3 Edition du texte Concordances Carte des sections etc affichent ce codage correctement lorsqu on choisit de le visualiser avec le codage Chinois GB2313 des navigateurs 16 A l instar de tr s nombreux syst mes d criture parmi lesquels ceux de l antiquit latin grec h breu sum rien etc Un grand nombre de syst mes d criture occidentaux dont le syst me du frangais ont utilis jusqu une date r cente le code ASCII 127 caract res puis le code ASCII tendu 255 caract res qui permettait de coder en outre les voyelles accentu es du frangais 18 Nous a
124. ette s quence de la mani re suivante 1 hung cuisiner attest dans le m me dictionnaire m ha existe en tant que verbe multiple sens chercher mais je pense qu ici il a une valeur euphonique ha plus que s mantique ahan ici nourriture Il sert de compl ment de la m me mani re que pour 7 servir Il va de soi que si m ha a une valeur euphonique alors il faut consid rer l expression enti re comme une seule unit lexicale La s quence liqueur dig rer nourriture n est pas attest e dans les dictionnaires mais il semble que ce soit un bon quivalent du mot digestif si on calcule le sens global partir de chaque unit La forme ran va permettre d illustrer en corpus la notion de termes g n riques bien connues des tudiants de tha En effet opposer la s quence u owns nourriture restaurant nous avons dans le corpus les s quences caf boisson caf le lieu fu ran khaj cf Tableau 11 fu boutiques commerces commercer marchander m On trouve quelques occurrences isol es mais toujours en coocurrence dans un paragraphe avec une autre des formes compos es La seule s quence isol e dans une nouvelle est f tes sortir u qui est utilis pour traduire f te foraine
125. eur de segmentation de niveau caract re En effet la s quence aurait d tre segment e de la fa on suivante apothicaire Onfroy Nous tenons faire remarquer que nous n avons pas utilis le segmenteur dans ses conditions optimales puisque pour r soudre les probl mes de mots inconnus il utilise une m thode de segmentation bas e sur des statistiques globales et locales On aurait probablement gagn en pr cision si on avait segment nouvelle par nouvelle au lieu du corpus dans sa globalit Ainsi les occurrences de krong dans les autres nouvelles n auraient peut tre pas interf r avec celles li es wf gier Cette exploration des noms propres a permis d expliciter quelques probl mes de segmentation provoqu par le fait que les formes emprunt es sont compos es de syllabes correspondant des mots tha Ces probl mes ne concernent pas uniquement des textes traduits mais aussi les textes proprement tha s puisque bien souvent les noms et pr noms tha s sont des noms venant du sanskrit et du p li ayant leur propre sens notamment dans le domaine religieux et royal Globalement le segmenteur bas sur des m thodes statistiques a r ussi correctement segmenter de nombreuses occurrences de noms propres Peut tre qu un post traitement symbolique de reconnaissance d entit s nomm s permettrait d am liorer cette segmentation Probl mes de comp
126. forme de 2 listes Ils peuvent tre tri s selon diff rents crit res longueur fr quence ordre lexicographique en cliquant sur le bandeau situ au dessus de la colonne correspondante Y Chaque s lection simple ou multiple r alis e dans la fen tre des segments peut ensuite tre analys e comme un tout l aide des diff rents outils disponibles concordance histogramme carte des sections etc au dessus de chaque liste Cooccurrences et polycooccurrences pour un type donn Un alignement induit un d coupage du corpus en sections les diff rentes cellules align es Pour une forme p le nous prendrons comme ci dessus l exemple de la forme nation il est possible de constituer la liste des formes qui trouvent d apr s un calcul statistique particulier un nombre lev d occurrence dans les m mes sections que la forme p le sur chacun des volets Cooccurrents Forme p le Source E specif demeurons de Figure 12 Les cooccurrents de nation Nous trouvons ici pour la forme p le sur le volet FR 1 demeurons de envers chaque grandeur et pour cette m me forme p le sur le volet FR 2 envers grandeur Le retour aux contextes confirmera que ces formes entrent avec le p le choisi dans des associations r currentes Concordance de grandeur de grandeur SECTION 24 SECTION 24 En r affirmant la grandeur de notre nation no lamant nouveau la grandeu
127. ha 79 4 Les maux de l unit lexicale se ciaoen t risian eik EnniodnconaDenaDnccanc Hn LG OCDE tasas 88 S COBCIUSIOB 8 1 111 7 95 6 DT 95 Tutoriel n 3 Exploration du corpus Traductions align es du discours d investiture de B Obama Corpus align s m thodes textom triques pour l alignement Obamal Serge Fleury Apprendre Construire une ressource textom trique align e Utiliser les outils textom triques de base sur un alignement de textes e Conduire une exploration textom trique sur un corpus align 1 Le corpus Traductions align es du discours d investiture de B Obama Investiture Obama Le corpus Investiture Obama est constitu de 5 volets le discours original en anglais prononc par B Obama le 20 janvier 2009 Washington et 4 traductions en frangais de ce discours Ces diff rents volets ont t r cup r s sur diff rents site web Volet EN le discours en anglais disponible sur le site du New York Times Cette page n est plus accessible ce jour On peut acc der une version de cette page sauvegard e pour cette tude cette adresse http tal univ paris3 fr mkAlign corpus obama tmx v5 PDF nyt pdf Volet FR 1 traduction en fran ais fournie par les services de la Maison Blanche On peut acc der une version de cette page sauvegard e pour cette tude cette adresse http tal univ paris3 fr mkAlign corpu
128. hinoises 36 1 Contexte de la ce puse eee up ee 77 1 1 0 36 2 L systeme d criture LEE 37 3 Le codage informatique des caract res chinois ss 39 4 Un corpus d application 00 41 5 Comparaisons quantitatives partir des moie 45 a ASEEN 49 ast 54 NS EE EE 0 54 9 Fonctionnalit s Lexico3 utilis es dans cette exploration 55 Traductions franco cor ennes 56 1 Contexte iios s 3 3 1 1 1 1 11 56 2 Le cor en et son systeme d criture 11 1 11111111111 1050 57 3 E 58 4 Analyse des quivalences traductionnelles fran ais cor en 62 A NN 71 TT 1 1 1 71 7 Fonctionnalit s Lexico3 utilis es dans cette exploration 72 Le thai De la segmentation aux mausx 74 33 3 1 1 1 1 75 pao M EE ee aq ent te 76 3 Navigation dans les segmentations du t
129. horiques de ces 38 Dans certains cas m me carr peut contenir plus de deux phrases en fonction de la relation de correspondance avec l autre volet derni res le pronom personnel ils et le pronom chacun tous Tableau 5 sont rendues cor en par des formes relevant du TGen _ L cart des fr quences locales dans les parties 01 et 03 s explique par la pr sence de ces quivalences traductionnelles cor en francais 964 HE J YL 8 4 tous les tres humains naissent libres et 9252 lel AAA AEA gaux en dignit et droits 4 AHS 2 9 i ai ils sont dou s de raison et de conscience A BAA 3419 2 stu et doivent agir les uns envers les autres dans un esprit de fraternit 4 HE oz Ha 910 EN chacun peut se pr valoir de tous les droits et de toutes les libert s proclam s MI AE FA tout individu a droit la vie la libert S 2 7 Qt et la s ret de sa personne 4 o z st Aus NAg 279 51 0 reconnaissant que ces droits d coulent d eld eru de la dignit inh rente la personne humaine 1 SE UE 91 EE 1 partir de l ge nubile l homme et mE ASE uta Qu 5 la femme sans aucune restriction quant la 7A 4 2 7
130. i s crit Ceci laisse penser que la s quence compl te de la troisi me ligne constitue une seule unit lexicale construite des fins litt raires mais dont le sens est parfaitement d composable Nous voyons donc que la notion d unit lexicale n est pas simple et que les sp cificit s donc le segmenteur ne se sont pas tromp es en nous pr sentant la forme comme peu repr sentative d une unit lexicale et en nous pr sentant les noms propres et les mots outils comme des unit s lexicales Toutefois on peut s interroger sur la pertinence la segmentation des s quences plus longues comme celles du Tableau 7 Bilan de la navigation Les observations fa tes sur les courbes d accroissement de vocabulaire savoir que les accroissements de syllabes de morph mes et d unit s lexicales sont corr l s ont t confirm es par l analyse des sp cificit s par partie Ainsi on a vu que les syllabes les plus sp cifiques rentrent dans la composition de nombreuses formes polysyllabiques ayant autant le statut de morph me lexicale que d unit lexicale On a aussi observ que certaines syllabes tr s fr quentes sont aussi des morph mes et des unit s lexicales notamment des mots usage grammatical comme les substituts du noms On a aussi montr qu il ne fallait pas trop se fier la partie morph me lexicale lorsqu il s agissait d analyser la composition d une unit lexicale car bien s
131. ificites positives en haut de liste negatives en bas Le fichier construit EXPORT TXT resultspecif source 1247416002 txt Le fichier construit EXPORT TXT resultspecif cible 1247416003 txt Forme Ind Specif Fq Totale Forme Ind Specif Eq Totale mation 11 9 11 mation 6 9 11 de 4 1 147 envers 4 0 3 envers 4 0 3 grandeur 3 0 2 chaque 3 0 5 la 2 9 81 demeurons 3 0 2 de 2 7 133 grandeur 3 0 2 preuve 2 3 4 En 2 2 4 re 2 3 4 ses 2 2 4 sachez 2 3 4 il 2 2 5 2 1 60 notre 2 1 43 sommes 2 1 17 ainsi 2 1 5 fortement 2 0 1 sommes 2 0 11 Pas 2 0 1 donne 2 0 1 chr tiens 2 0 1 part 2 0 1 aspirent 2 0 1 membres 2 0 1 Ecritures 2 0 1 prosp res 2 0 1 neige 2 0 1 reconnaissance 2 0 1 proclamant 2 0 1 critures 2 0 1 m mes 2 0 1 favorise 2 0 1 puissante 2 0 x affaiblie 2 0 1 pairs 2 0 amp loyaux 2 0 1 musulmans 2 0 remercie 2 0 1 favorise 2 0 1 pers v r 2 0 1 antis 2 0 1 population 2 0 1 affaiblie 2 0 assumer 2 0 1 remercie 2 0 1 fenme 2 0 1 vision 2 0 1 transition 2 0 1 collective 2 0 1 incapacit 2 0 restons 2 0 1 rendus 2 0 1 transition 2 0 cupidit 2 0 1 moments 2 0 pr sident 2 0 1 g n rosit 2 0 1 prosp re 2 0 T rapacit 2 0 pr parer 2 0 1 incapacit 2 0 1 comp tences 2 0 1 rendus 2 0 1 documents 2 0 1 toujours 2 0 1 Peuple 2 0 1 s 6 2 0 1 Figure 19 Liste des cooccurrents de la forme p le et liste des mots sp cifiques de la zone miroir Nous retrouvons normalement ici
132. l int ressant de publier ces premiers comptages sur la comparaison textom trique entre textes chinois et textes frangais Cependant ces r sultats pr sent s dans le but de fournir une comparaison sur deux syst mes d criture tr s diff rents doivent tre pris avec de grandes pr cautions Nous tudierons par la suite l influence que peut avoir la lemmatisation de chacune des listes de formes sur les r sultats produits de la sorte ainsi par exemple la fr quence dela forme chinoise la plus fr quente 2313 occ renvoie la forme francaise de 1578 occ mais aussi aux formes du 243 occ des 447 occ etc courbes d accroissement du vocabulaire figure 6 pr cise les r sultats obtenus par la comparaison des principales caract ristiques lexicom triques des volets fran ais et chinois du corpus La courbe situ e dans le haut du graphique correspond l enrichissement du vocabulaire chinois au fil du texte Le fait que ce texte comporte moins d occurrences est responsable de l interruption de la courbe correspondante abscisse 34 743 avant la courbe qui correspond au texte fran ais abscisse 39 666 La courbe correspondant l apparition de nouveaux mots chinois est situ e d s que l on atteint le premier tiers du corpus largement au dessus de celle qui correspond l apparition des mots fran ais ce qui confirme l existence d un plus grand nombre de formes en chinois On peut remarquer que des paliers cr
133. la Sorbonne nouvelle Paris3 ZIMINA M 2005 Topographie bi textuelle et approches quantitatives de l extraction de ressources traductionnelles partir de corpus parall les Actes des 7es Journ es scientifiques du R seau de chercheurs Lexicologie Terminologie Traduction Institut sup rieur des traducteurs et interpr tes ISTI Bruxelles ZIPF G K 1935 The Psychobiology of Language an introduction to Dynamic Philology Boston Houghton Mifflin ZHOU Q DUAN H 2007 Traitement de segmentation et de marquage des mots dans les corpus chinois modernes MU disponible sur http hi baidu com Jagard blog item dcdb653844fd842097ddd8ec html 9 Fonctionnalit s Lexico3 utilis es dans cette exploration N Fonctionnalit R sultat 5 5 Courbe d accroissement des caract res hanzis Figure 5 5 Principales caract riques lexicom triques PCLC Tableau 4 5 5 Accroissement du vocabulaire chinois et fran ais Figure 6 54 Diagramme Pareto chinois et fran ais Figure 7 7 Carte des sections volets fran ais et chinois Figure 8 Traductions franco cor ennes franco cor en Cho Joon Hyung chojh4netG gmail com R sum L approche quantitative nous permet d explorer la ventilation des mots en correspondance de traduction partir d une segmentation des s quences textuelles dans le corpus Avec cette m thode nous pouvons directem
134. les r sultats d j vus plus haut Le corpus tant align la forme en t te de liste est sans surprise la forme nation les deux traductions convergent sur cette forme localis e dans les m mes sections dans les 2 volets par contre les divergences entre les traductions se traduisent par des comportements lexicaux sp cifiques propres chaque volet 4 2 Mise au jour de la variation entre les 2 volets du corpus align Dans l exemple trait dans ce tutorial les volets fran ais sont issus par une d rivation de traduction du m me texte original Dans ce cas pr cis si on choisit 2 volets fran ais particuliers ces deux textes sont th oriquement proches mais diff rents les traductions n tant pas compl tement similaires 2 2 On peut donc vouloir essayer mettre au jour les diff rences entre ces volets traduits du m me texte de d part Cette mise au jour de la variation est possible dans mkAlign une fois les textes align s le module de variation donne voir globalement les diff rences entre les 2 volets charg s Ce processus s appuie sur l impl mentation de la commande di f dans la biblioth que Tk Di ffText composite widget for colorized diffs Figure 20 param trage du calcul de la variation Apr s avoir choisi le grain la variation mot ligne caract re on lance la visualisation de la variation en activant le bouton idoine aujourd hui en toute humilit face la c che q
135. lexicale notamment dans le cas d tude comparative 6 R f rences Tha1978 Kobkool THAWARANON 1978 Asa2002 Nattakan Pengphon Asanee Kawtrakul Mukda Suktarachan Word Formation Approach to Noun Phrase Analysis for Thai Asa2003 S P et Kawtrakul Asanee Thai Word Segmentation based on Global and Local Unsupervised Learning Kos2003 Krit Kosowat M thodes de segmentation et d analyse automatique de textes tha th se de doctorat Universit Marne La Vall e Ber2004 Vincent Berment M thodes Pour Informatiser Des Langues Et Des Groupes De Langues lt Peu Dot es th se de doctorat Universit Joseph Fourier Dictionnaires HAAS Stanford 1964 Thai English Students dictionnary SE ED S Bangkok 2001 Modern Thai Enlish dictionnary wis Dictionnaire en ligne de l institut royal 2542 http rirs3 royin go th dictionary asp
136. li res permettent de repr senter de mani re g n rique des motifs textuels un motif est un ensemble d objets poss dant une propri t reconnaissable par exemple tous les mots termin s par le suffixe able ou commengant par le pr fixe pr Les expressions r guli res permettent ainsi de d crire des portions de texte l aide d op rateurs particuliers Le tableau suivant rassemble l ensemble des op rateurs disponibles avec Lexico3 pour crire des motifs sous la forme d expression r guli re Op rateur Fonction Application le point Repr sente n importe L expression m l repr sente des s quences quel caract re mal mol O ou n occurrences du L expression com e repr sente des s quences caract re qui pr c de komme coe come comme commme 1 oun occurrences du L expression com e repr sente des s quences caract re qui pr c de komme comme commme L expression bcapital repr sente des s quences comme capital capitale capitalisme Repr sente un d but de mot L expression aeiou repr sente des s quences un des caract res de l ensemble des Repr sente un ensemble oyelles minuscules de caract res I n L expression a z repr sente un des caract res inuscules compris entre a et z Repr sente n gation L expression aeiou repr sente un des du contenu l ensemblelcaract res parmi ceux qui n
137. lit pour les cooccurrents Appuyer sur l ic ne des cooccurrences Appuyer sur l ic ne des polycooccurrents Le graphe des polycooccurrents appara t dans la zone sup rieur de la zone d dition de l onglet Coocs Les chemins de cooccurrence seront accessibles dans le rapport si les r sultats produits y sont ajout s 3 Etude la distribution d un type 3 1 Les outils de base 3 11 L outil concordances L outil concordances permet de rassembler toutes les occurrences relatives un type donn en les munissant d un petit fragment de contexte En faisant varier la taille du contexte l ordre de pr sentation ici les contextes sont tri s en fonction de la forme qui suit le p le s lectionn A l aide de cet outil le chercheur peut op rer des rapprochements qu une lecture cursive du texte ne lui aurait sans doute pas permis de saisir La concordance est ici disponible pour chacun des volets du corpus align Concordance de nation Concordance de nation SECTION SECTION SECTION SECTION SECTION SECTION SECTION SECTION SECTION SECTION SECTION Figure 15 Concordance de la forme nation sur les 2 volets du corpus 3 ices rendus notre 7 mation ainsi que de la g fondateurs 12 de notre nation t de pr parer notre 21 nation une nouvelle donn deneurons une jeune 24 mation mais comme il est gra
138. lle utilis e en occident reste distincte de cette derni re L utilit des rep res li s la notation de la ponctuation chinoise est d autant plus importante que comme on s en souvient les mots ou plut t les caract res chinois sont crits l un apr s 4 16 l autre sans tre s par s des espaces 3 Le codage informatique des caract res chinois En raison de leur nombre lev et contrairement ce qui se passe pour les syst mes d criture des langues qui utilisent un alphabet restreint les caract res chinois ne peuvent tre repr sent s l aide d un codage sur un seul octet La norme Unicode qui permet de repr senter chaque caract re sur plusieurs octets fournit une bonne solution pour repr senter les caract res chinois 3 1 Logiciels supportant le traitement de textes chinois Dans leurs versions r centes les logiciels de traitement de textes permettent de manipuler en plus des textes cod s en unicode qui vont rapidement constituer la norme des polices multioctets qui permettent d afficher correctement les textes chinois entre autres critures non latines Avec le logiciel Word par exemple lorsqu on tente d enregistrer un texte chinois avec l option texte seulement une boite de dialogue permet de s lectionner le codage Chinois simplifi GB2312 comme on peut le voir sur la figure 1 3 2 Lexico3 et les textes chinois Dans ses versions actuelles 3 5 0 2 Lexico3 manipule d
139. me lexicale et unit lexicale de cette forme Les morph mes lexicaux Le Tableau 5 montre dans le volet gauche les cinq formes les plus sp cifiques de la partie thmor qui n est autre que les traductions tha es segment es en morph mes lexicaux Ceux ci tant d fini par le segmenteur comme la plus petite unit ayant un sens selon son dictionnaire Il montre dans le volet droit les cinq formes les moins sp cifiques Morph mes Sp cificit s positives Sp cificit s n gatives Forme thsyl Fr q Tot Coef Forme Fr q Tot Coef 205 205 0 410 13 4 216 32 184 12 184 381 10 6 181 24 140 143 0 283 9 8 172 20 108 0 108 216 8 1 117 20 147 167 0 314 8 2 119 18 Tableau 11 Sp cificit s pos neg sur thsyl thmor thlex On observe dans le volet gauche trois formes compos es de deux syllabes a raj aY we la et ma dam et deux formes compos es d une seule syllabe si et Le nombre de syllabes est aussi d ductible par l observation de la distribution des fr quences selon les parties Les morph mes dissyllabiques sont clairement des morph mes lexicaux en effet on a pronom interrogatif a Le temps et qui est une translitt ration de madame
140. ment l entr e des dictionnaires Quant savoir si les formes langka et doivent tre fusionn es il s agit d un autre probl me La deuxi me occurrence de laisse penser que ce sont bien deux unit s s par es car la NC 54 s quence pra mins maw n est attest e dans aucun de nos dictionnaires Cependant le sens de est l g rement modifi par rapport aux diff rents sens donn s par ces dictionnaires La troisi me occurrence de ajoute encore au doute En effet on retrouve de nouveau la s quence En outre on observe la s quence khraw et suey qui est une accumulation de deux formes au sens proche ce qui l gitimerait la composition en Quant la forme phou elle est souvent d crite dans les m thodes de langues comme un pr fixe permettant la cr ation de nombreux mots relatifs une personne Ainsi si la forme lexical pour le segmenteur est une sorte de pr traitement pour constituer les unit s lexicales Ce n est pas une analyse d une unit lexicale en morph mes i Voir la liste des dictionnaires utilis s dans les r f rences khien signifiant crire est pr c d e de pour former le tout signifie auteur ne pas confondre avec crivain qu
141. mentation en formes graphiques peut cependant tre contourn pour les analyses qui suivent par un rep rage syst matique utilisant notamment le langage des expressions r guli res qui offre une possibilit de rep rer les diff rentes compositions r alis es partir d un m me radical 4 Analyse des quivalences traductionnelles fran ais cor en Pour l analyse textom trique les textes sont d abord segment s en occurrences de formes graphiques qui sont ensuite regroup es par type Les corpus textuels ainsi d coup s permettent d observer directement des formes ou des s quences textuelles sans r f rence particuli res aux structures syntaxiques particuli res des langues consid r es Les r sultats obtenus l aide du calcul statistique partir de textes qui entrent en correspondance de traduction constituent des donn es parall les particuli rement pr cieuses pour les tudes contrastives Les travaux lexicom triques de M Zimina Zimina 2000 portant sur des corpus parall les frangais anglais constitu s de documents concernant la Convention de sauvegarde des Droits de l Homme et des libert s fondamentales ont illustr les possibilit s de cette m thode pour contribuer l alignement des unit s correspondantes dans les deux volets du corpus En comparant les fr quences globales et locales des termes frangais et de leurs traductions anglaises ils ont mis en vidence des similarit s distributionnelles en
142. mkAlignDOC htm 2 Maria Zimina Poirot a tudi dans sa th se Zimina 2004 des correspondances traductionnelles de ce type Les logiciels de textom trie permettent d sormais l tude syst matique de ce genre de correspondances traductionnelles Les termes de la correspondance peuvent tre tendus par l utilisation du syst me des expressions rationnelles Dans notre cas le motif vie iu permet de localiser toutes les occurrences des formes d taill es plus haut Tableau 6 Alignement en paragraphes sur les deux volets du corpus le grondement du fleuve monte derri re la Bum maison la pluie bat les carreaux depuis le I dT fd b EA BOR commencement du jour une bu e d eau ruisselle ek ot m sur la vitre au coin f l le jour jaun tre s teint JE iz A il fait ti de et fade dans la chambre le nouveau n s agite dans son berceau bien qe que le vieux ait laiss pour entrer ses sabots la AE porte son pas a fait craquer le plancher l enfant NE commence geindre la m re se penche hors de ik tj T Pu
143. ml o graphique de comptage de la variation http tal univ paris3 fr mkAlign mkalign variation graph variation obama pg e Deux discours de S gol ne Royal campagne 2007 export comparaison apr s alignement automatique http tal univ paris3 fr mkAlign mkalign variation variation royal export html Deux discours de Nicolas Sarkozy conf rence de presse 2008 export comparaison apr s alignement automatique http tal univ paris3 fr mkAlign mkalign variation variation sarko export html On peut aussi calculer des indicateurs de la variation fond commun mots ajout s supprim s modifi s le graphique produit donne voir pour chaque section d alignement un d compte des variations sur chaque section On trouvera en ligne supra des exemples de telles sorties 5 Bibliographie Fleury Serge Zimina Maria Exploring Translation Corpora with mkAlign in Translation Journal Volume 11 n 1 January 2007 http accurapid com journal 39mk htm Fleury Serge Zimina Maria Utilisations de mkAlign pour la traduction philologique PDF in Actes JADT 2008 Journ es Internationales d Analyse Statistiques des Donn es Textuelles Lyon 2008 http www cavi univ paris3 fr lexicometrica jadt jadt2008 pdf fleury zimina pdf http tal univ paris3 fr mkAlign Slides 20 20JADT2008 http tal univ paris3 fr mkAlign Demo mkAlign 20 20JADT2008 Leblanc Jean Marc Martinez William L analyse contrastive de
144. n ol rrillyu en fr humanit en fr l antonyme de femme A l inverse de ce qui se passe pour les confrontations entre langues proches comme le frangais et l anglais pour lesquelles les comparaisons peuvent s appuyer sur des ressemblances typographiques homme human administration administration etc les confrontations entre textes fran ais et cor ens ne peuvent s appuyer sur des ressemblance de ce type Pour recenser l ensemble des quivalences traductionnelles d un terme particulier appartenant un des volet du corpus il est n cessaire d examiner autant que possible l ensemble du vocabulaire de l autre volet On peut optimiser ce genre de recherche en s appuyant sur la fr quence et la r partition des formes attest es dans chacun des volets du corpus Le nom commun frangais connait deux variations grammaticales le singulier et le pluriel Dans le volet frangais du corpus Droits la forme singuli re homme compte 1 046 occurrences et son pluriel hommes 41 occurrences En cor en le nom commun est susceptible de prendre un assez grand nombre de variations au plan de la forme graphique _ Groupes BE Nom du groupe saram Le motif contenu dans ce que je recherche Ajouter 9 Rechercher Enregistrer Charger Fr quence 134 Figure 25 Groupe de formes saram dans le volet cor en du corpus Droits Le mot cor en sar
145. nctionnalit s de la carte des sections bi textuelle Pour tudier la ventilation des types sur la carte des sections on proc de de la fa on suivante On s lectionne le Tgen partir du dictionnaire du Garde mots de la liste des segments r p t s etc et on le fait glisser sur la carte bouton gauche maintenu enfonc On s lectionne la section visualiser dans la fen tre du bas en cliquant sur le carr qui la repr sente dans la carte des sections La case seuillage permet de r gler deux seuils en probabilit s qui entraineront un coloriage plus ou moins sombre des sections Pour une repr sentation simultan e de deux Tgen s ce processus doit tre r it r en prenant soin de changer la couleur dans la boite correspondante Il faut maintenir la touche Control en position basse lors du second glisser d poser La figure 5 montre la ventilation des types administr administ dans les sections appari es du corpus Une conclusion s impose dans le corpus Convention m me si l on peut constater des similitudes importantes qui concernent des parties quivalentes les distributions des ces types pr sentent des divergences Ce constat am ne une question Quelles sont les particularit s des contextes o les mots fran ais par la cha ne administr ne sont pas en correspondance avec des mots anglais commen ant par la cha ne administ La r ponse cette question peut tr
146. ndeur de notre 35 nation nous comprenons qu Nous demeurons une 61 nation prosp re et puissan et qu une 69 nation ne peut pas prosp r st l amie de chaque 81 nation et de chaque homme Nous sommes une 103 nation de chr tiens de mu vers nous m mes la mation et le monde 112 ue le p re de notre nation ordonna que les par SECTION 3 il rendus notre 11 mation ainsi que pour la Notre 12 nation est en guerre contr es et pr parer la 21 nation une nouvelle re Nous restons une 24 nation jeune mais selon grandeur de notre 35 nation nous savons que la sommes toujours la 61 nation la plus prosp re 1 Une 81 nation peut pas prosp r Nous sommes une 96 nation de chr tiens et de e am ricain dont la nation d pend 103 m mes envers notre nation et envers le monde 113 le P re de notre nation demand que ces n mkAlign Concordances Y Dans l onglet Concordances Y Entrer une forme dans la zone de saisie ex nation Choisir ventuellement un regroupement par parties si une partition a t s lectionn e 3 1 2 L outil ventilation par sections d alignement Cet outil permet de juger de la r partition des occurrences relevant d un m me type dans les diff
147. ns cette tude nous nous sommes attach s la seule entit traductionnelle homme_fr homme_co sans puiser l exploration des r seaux de cooccurrence autour de ces notions Malgr ces limites nous pensons avoir montr que l analyse lexicom trique constitue d sormais un outil extr mement utile pour l analyse des corpus parall les qui concernent des langues sans parent 6 R f rences Isabelle P et Warwick Armstrong 5 1993 Les corpus bilingues une nouvelle ressource pour le traducteur In P Bouillon et A Clas Dir La Traductique tudes et recherches de traduction par ordinateur Les Presses de l Universit de Montr al pp 288 306 Isahara H et Haruno M 2000 lt Japanese English aligned bilingual corpora In J V ronis Ed Parallel Text Processing Alignment and Use of Translation Corpora Dordrecht Boston London Kluwer Academic Publishers pp 313 334 Lamalle C et Salem A 2002 Types g n ralis s et topographie textuelle dans l analyse quantitative des corpus textuels gt In Actes des Journ es internationales d Analyse statistique des Donn es Textuelles Saint Malo 2002 pp 403 412 Lebart L et Salem A 1994 Statistique textuelle Paris Dunod Martinez W et Zimina M 2002 Utilisation de la m thode des cooccurrences pour l alignement des mots de textes bilingues In Actes des 6es Journ es internationales d Analyse statistique des Donn
148. ois etc Signalons qu en raison de l absence d un consensus sur la d finition de ce qu est un mot chinois aucun logiciel ne peut pr tendre fournir de r sultats parfaits des textes est moindre dans le texte chinois alors que la forme la plus fr quente y trouve nettement plus d occurrences que dans le texte fran ais La comparaison entre le syst me des mots chinois et celui des caract res chinois pour lequel nous avons pr sent plus haut des d comptes comparables montre que les mots chinois sont compos s en moyenne de 1 6 caract res et que le mot le plus fr quent rassemble presque toutes les occurrences du caract re le plus fr quent dans les deux cas le caract re de Tableau 5 Les formes les plus fr quentes pour chacun des volets du corpus Fran ais Chinois 2313 1 d 1 578 1581 4b 2 il 1 044 638 3 et 1034 373 368 4 le 908 276 5 la 841 275 274 6 les 575 235 7 Il 515 208 ES 204 463 8 6 184 9 lui 448 158 10 des 447 156 WT 147 11 ne 439 143 12 un 407 142 139 13 en 399 139 14 que 394 136 15 pas 376 16 qui 375 17 362 18 dans 329 19 une 314 La comparaison entre les formes les plus fr quentes dans chacun des volets du corpus montre que les fr quences d croissent plus rapidement dans le volet chinois L tude compar e des 23 nous a semb
149. onstruits Barre principale par Lexico3 Elle permet surtout de faire des recherches de formes ou de groupes de formes en utilisant la notion d expression r guli re 5 3 AFC AFC Fen tre des PCLC SPECIFICITES Fen tre des PCLC 5 1 7 2 POSITIVES Partie ou section du corpus NEGATIVES Carte des sections Lexico3 Tableau des Fonctionnalit s Glossaire segmentation op ration qui consiste d limiter des unit s minimales dans un texte Les unit s minimales pour un type de segmentation unit s que l on ne d compose pas en unit s plus petites pouvant entrer dans leur composition ex dans la segmentation en formes graphiques les formes ne sont pas d compos es en fonction des caract res qui les composent caract res d limiteurs non d limiteurs distinction op r e sur l ensemble des caract res qui entrent dans la composition du texte permettant aux proc dures informatis es de segmenter le texte en occurrences suite de caract res non d limiteurs born e ses extr mit s par des caract res d limiteurs On distingue parmi les caract res d limiteurs les caract res d limiteurs d occurrence encore appel s d limiteurs de forme qui sont en g n ral le blanc les signes de ponctuation usuels les signes de pr analyse ventuellement contenus dans le texte les caract res d limiteurs de s quences sous ensemble des d limiteurs d occurrence correspondant en g n ral
150. osition lexicale Le Tableau 8 montre que les formes du volet droit ont une distribution diff rente des formes nominales du volet gauche Par exemple la forme ahan apparait 88 fois dans la partie thlex et seulement 43 fois dans la partie thmor On a d j expliqu ce ph nom ne pr c demment De plus ce qui nous int resse pour la suite de cette tude est de trouver des formes ou des segments r p t s dans la partie thlex contenant la forme ahan afin de d terminer la limite de l unit lexicale La m thode pour retrouver ces formes avec Lexico3 consiste calculer les segments r p t s sur le corpus align puis utiliser conjointement l outil de recherche de groupe de formes et les expressions rationnelles comme dans l Illustration 6 O Lexico3 Groupes de formes Fichier Traitement Fen tre Navigation Rapport Dictionnaire Segments r p t s 2 Nom du groupe S lectionnez une couleur C aliad Emi Le motif ig sme ral fest une expression rationes 2 Un 10 2 12 Ajouter 10 Q Rechercher Enregistrer il 2 11 i Supprimer gt Charger 3 07 5 2 i 3 7 o 1 11 5 3 7 7 7 7 gn o 3 7
151. ou have bestowed mindful of the sacrifices borne by our ancestors I thank President Bush for his service to our nation as well as the generosity and cooperation he has shown throughout this transition f chers concitoyens de me pr sente devant vous aujourd hui en toute humilit face la t che qui nous attend reconnaissant de la confiance vous m avez accord e et conscient des sacrifices consentis par nos anc tres Je remercie le pr sident Bush des services rendus notre nation ainsi que de g n rosit et de 1a coop ration dont il a fait preuve durant toute la transition Forty four Americans have now taken the presidential oath Quarante quatre Am ricains ont d sormais fait ce serment pr sidentiel The words have been spoken during rising tides of prosperity and the still waters of peace Ces mots ont t souvent prononc s dans la mar e montante de la prosp rit et dans les eaux calmes de la paix Yet every so often the oath is taken amidst gathering clouds and raging storms At these moments America has carried on not simply because of the skill or vision of those in high office but because We the People have remained faithful to the ideals of our forebears and true to our founding documents So it has been r z cx Mais il est arriv que ce serment ait t prononc alors que le temps tait orageux et que la temp te faisait rage En ces mom
152. ouvent la segmentation tait instable soit l unit lexicale apparaissait telle quelle soit elle apparaissait segment e Conform ment la description de cette m thode employ e par le segmenteur Asa2003 la segmentation en morph mes lexicaux doit tre vue comme une tape interm diaire vers la construction des unit s lexicales partir des syllabes Enfin l observation des sp cificit s sur la partie unit lexicale a montr que si les mots outils les noms propres semblent constituer le gros des unit s lexicales c est que les fronti res des unit s compos es ne semblent pas tr s nette 4 Les maux de l unit lexicale On vient d observer que la nature des formes les plus sp cifiques de la partie thlex est vari e noms propres mots outils verbe Cependant si on s lectionne les quinze premi res formes au lieu de cinq on remarque une large pr dominance des noms propres Ces formes compl mentaires sont consign es dans le Tableau 8 L identification des noms propres et notamment des personnages est int ressante puisque notre corpus est constitu de nouvelles frangaises traduites en thai L enjeu est donc la restitution des noms de personnes mots vraisemblablement inconnus des dictionnaires du segmenteur mais dont la limite signifiant signifi est claire Par cons quent nous utiliserons dans un premier temps les outils de Lexico3 pour v rifier si les occurrences de noms propres ont t correctement identifi e
153. pectives of textometric approaches in the analysis of different Chinese translations of French words 6 Key words Textometry Chinese characters Hanzi literature translation studies 8 3 4 48 5 FERAS 86 HO UI 1 Contexte de la recherche Parmi les nombreuses raisons qui peuvent expliquer le fait que les m thodes d analyse des textes sur ordinateur de plus en plus largement r pandues dans le monde occidental ne se sont d velopp es que plus tardivement dans la sph re culturelle chinoise on doit consid rer les facteurs li s l existence d un syst me d criture t
154. produits alimentaires et une comme traduction de r serves au sens de r serves alimentaires en coocurrence dans le m me paragraphe avec provisions On a aussi d nombr trois occurrences de sans ams comme traduction de provisions De plus nous avons aussi relev une occurrence de la s quence suivante ms kan rappratan sabieng om ahan comme traduction de provisions On a aussi relev la s quence 1 comme traduction de wagon restaurant On d duit donc que la pr sence de la suite de n est pas obligatoire la construction du sens mais servirait plut t un but litt raire Le Tableau 11 laisse clairement apparaitre deux autres oppositions que nous ne d taillerons pas Il s agit de l opposition entre rappratan et w kin qui est normalement une opposition de registre de langue l emploi de tant plus soutenu que fu La seconde opposition concerne 116 du jour u soir e N frais ADJ ams amp N nuit o les trois formes viennent pr ciser ajoutant une information temporelle Cette partie a montr quelques probl mes de composition lexicale puisque
155. pus montrent que les parties ne sont pas au sens strict des partitions En effet il existe des formes et des hapax communs aux diff rentes parties Une derni re remarque concerne la forme la plus fr quente le symbole qui repr sente les espaces pr sents initialement dans le corpus Son utilisation reste fr quente bien que l espace ne sert pas s parer les mots Accroissement de vocabulaire L Illustration 2 montre les courbes d accroissement de vocabulaire pour chacune des parties On observe une forte corr lation entre les courbes des morph mes et des unit s lexicales L cart entre ces deux courbes tend se stabiliser plus on avance dans le corpus alors que la courbe des syllabes a un comportement diff rent elle se tasse beaucoup plus rapidement On observe cependant dans deux secteurs du corpus entour s en gris une acc l ration de l accroissement du vocabulaire pour chacune des parties Ceci indique que l apport de nouveaux mots et de nouveaux morph mes est en partie r alis par l apport de nouvelles syllabes Peut tre s agit il de mots emprunt s transcrits comme des noms propres Nous rappelons que les partitions thsyl thmor correspondent au corpus segment respectivement en syllabes morph mes et unit s lexicales iid Une tude textom trique de son usage travers par exemple des concordances serait int ressante mener ult rieurement Accroissement de vocabulaire thsyl thmor thlex
156. qu il s agisse de langues diff rentes l anglais et le fran ais partagent en plus de l alphabet latin des structures syntaxiques proches En revanche les trois derni res langues orientales poss dent des caract ristiques qui diff rent fortement des premi res et qui ne sont pas les m mes l int rieur du second groupe En premier lieu les trois langues orientales utilisent depuis longtemps certains caract res chinois des fins de communication Mais ceux ci se diff rent dans chaque cas par la prononciation et la forme En cor en moderne les caract res chinois hanja caract res phon tiques id ogrammes indispensables l criture du chinois et du japonais ont pour r le principal d aider lever de nombreuses ambigu t s s mantiques qui r sultent de la transcription en Hangul des mots chinois on the principle of the sovereign equality of all its Members LEM d zx 271 sur le principe de souveraine de tous ses Membres NAMI PEPES EER E _ 1 N X 037 00 JI 3 Es OO 3E E Ja 26 Les versions anglais fran ais chinois de la Charte de l ONU se trouvent sur le site officiel de l ONU http www un org Les versions cor enne et japonaise peuvent tre consult es respectivement sur les sites du Minist re des affaires trang res et du commerce en Cor
157. r s ancien dont certaines qualit s sont indiscutables mais dont l informatisation s est r v l e beaucoup plus complexe que celle des syst mes bas s sur l utilisation d un alphabet r duit Dans la p riode r cente parall lement aux efforts entrepris par les linguistes chinois pour simplifier la repr sentation des caract res hanzi les probl mes li s l informatisation des syst mes d critures complexes ont t d pass s par la mise en place de normes internationales telle la norme Unicode et de technologies permettant la saisie et l affichage P Les auteurs remercient Kim Gerdes Serge Fleury et C dric Lamalle pour leur aide et leurs conseils pr cieux dans la r alisation de ce travail de textes crits dans des langues jusqu alors difficilement accessibles au traitement sur ordinateur Ces avanc es technologiques ouvrent la voie un formidable d veloppement des tudes textuelles appliqu es des gisements textuels que les codages traditionnels taient incapables de prendre en charge Au del de l exploration des corpus lectroniques des fins de recherches linguistiques ou sociolinguistiques la fouille de donn es textuelles concerne dor navant un tr s vaste ensemble de textes saisis dans le cadre d activit s entreprises dans tous les secteurs de la vie socio conomique d un pays en plein d veloppement L tude de bitextes dont l un des volets est constitu par la traduction de l autre
158. r de notre nation no omprenons que cette grandeur n est jamais un d nous savons que la grandeur n est jamais un d retour au contexte via une concordance sur les 2 volets Figure 13 Retours aux contextes mkAlign Cooccurrences Y Dans l onglet Coocs s lectionner la forme p le volet source et volet cible Y Charger ventuellement une liste de forme exclure du calcul stop liste sur chacun des 2 volets Y Choisir une fr quence minimale et un seuil de probabilit pour les cooccurrents v Appuyer sur l ic ne des cooccurrences On verra infra qu il est possible de d terminer cette liste de cooccurrents en utilisant dans mkAlign une autre m thode bas e sur la repr sentation graphique de l alignement A partir de la liste de cooccurrents on peut ensuite activer le calcul des polycooccurrents Ce calcul reprend la d marche mise en ceuvre dans le travail de William Martinez 2002 2003 2006 3 Un calcul hyperg om trique est utilis ici pour comparer le nombre des occurrences du candidat cooccurrent dans les sections ou est attest e la forme p le avec sa fr quence dans l ensemble du corpus Une cooccurrence d signe l apparition de deux mots m me temps et dans le m me contexte Le module de cooccurrences mis en uvre prend appui sur l alignement en cours les contextes dans lesquels on examine la co pr sence sont donc ceux qui co ncident aux diff rentes cellules dans
159. ract res isol e saram les occurrences de toutes les formes contenant la s quence de caract res saram Pour venir bout de cette t che le concept de Type g n ralis TGen va se r v ler d une grande utilit Le TGen homme d sormais homme fr nous permet de rassembler les variations de la forme homme attest es dans le volet frangais du corpus hommes et hommes De la m me fa on on constitue le TGen saram en rassemblant toutes les occurrences contenant saram Nous pouvons faire de m me pour chacune des formes traductionnelles cor ennes mentionn es ci dessus et rassembler l ensemble de ces occurrences du corpus cor en dans un TGen homme co que nous allons comparer au TGen fran ais homme fr TGen Fr quence saram 428 ingan 135 18 0 Total 581 Tableau 3 Fr quence des mots traductionnels cor ens correspondants au type homme fr dans le volet cor en du corpus Droits La comparaison des fr quences de chaque sous groupe de formes du TGen homme co r v le que dans le corpus Droits les types saram et ingan sont nettement plus fr quents pour traduire le terme frangais homme Tableau 3 Au contraire la fr quence du TGen est nulle dans la pr sente enqu te Ce r sultat peut laisser penser que la forme homme n est jamais utilis e comme antonyme de femme dans le corpus Droits La question qui reste pos e est celle de comprendre les raisons qui peuvent
160. rateurs administrations administr e Figure 4 S lection des Types bilingues pour une exploration parall le Afin de poursuivre notre exploration nous allons cr er une carte bi textuelle en s appuyant sur l alignement des sections parall les La mise en correspondance des parties quivalentes du corpus parall le a t r alis e l aide du logiciel mkAlign qui permet de construire ou de corriger un alignement de deux textes L outil permet de visualiser l alignement en cours et de le modifier via un diteur double entr e dans notre exemple le caract re sert de d limiteur de sections appari es mkAlign donne la possibilit d exporter l alignement au format Lexico3 Pour plus d informations sur les fonctionnalit s de cet outil on consultera la documentation l adresse suivante http tal univ paris3 fr mkAlign mkAlignDOC mkAlignDOC htm Partition C s ope El cl H T F TT gt m I seuillage administratives administrative Sp cifs m
161. re S lectionnez une couleur 8 Recherche Formes ordre FrMuence a SE RGEC 2797 EUH BE AF m T 991 XT ZSAE Be 907 SUL MUR 454 T ROM ST 708 BA 3 286 GE ker ZTZT Hz 3H 89S B9 AN 212 de EF L 251 W BOX X wd d SS d E WE iB E TR gt 4 en e RK TE I 158 EX 165 BE X So RE XL amp g 162 TH wp Erb 3 HOS 3l 8 CH 9 189 mm H ES XD 142 e RE F SG DIS Figure 2 Lexico
162. re que la taille du volet fran ais mesur e en occurrence de formes graphiques est pr s deux fois sup rieure celle du volet cor en A l inverse le nombre des formes du volet cor en est 3 fois plus lev que celui qui a t calcul pour le volet fran ais Le volet cor en compte beaucoup plus d hapax que le volet fran ais cons quence des particularit s morphologiques propres la langue cor enne que nous avons mentionn es plus haut Dans le volet cor en plus de la moiti des formes soit 55 7 des formes graphiques apparaissent en tant qu hapax ce qui contraste avec le taux de 32 6 calcul pour le volet fran ais 3 1 Accroissement du vocabulaire L tude de l apparition de nouvelles formes graphiques au fil du corpus confirme les diff rences quantitatives entrevues plus haut entre le cor en et le fran ais La courbe d accroissement de vocabulaire calcul e simultan ment pour les deux volets du corpus Figure 1 montre que la croissance du vocabulaire fran ais s puise plus rapidement que celle du vocabulaire cor en De plus l accroissement du vocabulaire fran ais devient de plus en plus faible au fur et mesure que l on avance dans le texte alors que la courbe qui correspond au texte cor en maintient une pente relativement stable Plus que le texte fran ais le texte cor en voit sans cesse appara tre de nouvelles formes graphiques 30 Les pr sents travaux y compris la segmentation
163. rences Pour expliquer cet cart important il est n cessaire d explorer les fr quences locales du couple homme fr homme co dans les parties du corpus L exploration de la variation des fr quences locales nous permettra de comprendre les raisons de cette disparit globale 550 500 RM 450 A e e homme co s homme fr m m Fr quences absolues 100 50 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 Parties Figure 26 Fr quences locales des deux types homme fr et homme co dans les quarante parties du corpus Droits Comme nous l avons signal plus haut le corpus Droits est constitu de quarante parties On voit sur la Figure 26 que les deux courbes pr sentent un profil distributionnel similaire quelques exceptions pr s Le TGen homme fr ne d passe la cinquantaine d occurrences que dans quelques parties Dans les parties 37 et 40 homme fr compte respectivement 109 occ et 502 occ Les parties 04 09 12 17 18 20 22 contiennent au maximum occurrence Dans le volet cor en la fr quence locale du TGen Aomme co dans chaque partie reste inf rieurs 50 occurrences l exception des parties 37 et 40 dans lesquelles leur fr quence atteint respectivement 71 et 83 occurrences Les parties 4 5 9 10 12 15 17 22 25 27 comptent chacune une occurrence au plus On a r
164. rentes sections de l alignement Ventilation des formes s lectionn es Fichier graph graph 1247395753 jpg Nombre de formes Fq absolues Il 8 z 8 z z z z Sections source nation cible nation Figure 16 Ventilation de la forme nation sur les 2 volets de l alignement mkAlign Ventilation par section d alignement Y Dans l onglet Dic et dans chaque onglet donnant voir des listes de formes v S lectionner une ou plusieurs forme s Y Activez le bouton Ventilation la ventilation concernera l ensemble des formes s lectionn es dans le volet source et dans le volet cible 3 13 L outil carte des sections Shift clic sur carr affichage clic droit sur carr sp cificit s Control clic sur carr s lection Shift Control clic sur s lection d s lection source cible
165. res l clat ag lt brutal de la lampe les hallucinations d un li cerveau peine d gag du chaos la nuit etouffante et grouillante qui l entoure l ombre sans fond d o se d tachent comme des jets MER aveuglants de lumi re des sensations aigu s des KOE xu mus A douleurs des fant mes ces figures normes qui se penchent sur lui ces yeux qui le p n trent qui BR RA Jr EX s enfoncent en lui et qu il ne comprend pas il 1E IRIE W d fb LIH J cr 4 8 r n a pas la force de crier la terreur le cloue immobile les yeux la bouche ouverts soufflant KA du fond de la gorge sa grosse t te boursoufl e D ment mr E Dh plisse de grimaces lamentables et grotesques la peau sa figure et de ses mains est brune M eeu epe violac e avec des taches jaun tres x Kc TE Pe NE KE 5 m JK Hy
166. rmes Occurrences dans le texte Entr es de dictionnaire Not capote N c uverture V convenir Adj etre adapt Abs dico N personne V tre fait pour Y malheureuse N chance ou malchance Adj malchanceux mnz Vi roder fu V tre abim us s pr p Jusqu tre roder Tableau 13 Occurrences en contexte d unit s lexicales les moins sp cifiques Le Tableau 7 montre les occurrences des formes pra et seuk de la partie thlex c est dire consid r es comme une unit lexicale apr s segmentation du texte original On voit que leur statut respectif n est pas simple puisqu chacune des s quences o apparaissent ces formes correspond un seul mot source fran ais La premi re ligne du tableau montre que la s quence est mal segment e puisque les formes pra et nu thun auraient d tre fusionn es en conform
167. rs les occurrences en anglais tokens Dans le cas de mkAlign cette segmentation des 2 volets en unit s est r alis e au chargement des fichiers Le d pouillement des 2 volets en formes graphiques d limit es par les d limiteurs propos s par d faut conduit aux r sultats suivants visibles dans l onglet Rapport de mkAlign Fichier Trait frO txt Fichier Trait frl txt Encodage UTF 8 Encodage UTF 8 D limiteurs S D limiteurs S Nombre des occurrences Nombre des occurrences Nombre des formes Nombre des formes Fr quence maximale Fr quence maximale Nombre des hapax Nombre des hapax Figure 8 Param tres lexicom triques des deux volets align s Cette segmentation conduit la g n ration des 2 dictionnaires de formes chacun tant associ un des volets du corpus align Figure 9 Les dictionnaires de formes issus de l alignement Diff rents outils textom triques que l on d crira plus loin permettent d appr cier la fr quence la r partition la spatialisation des occurrences relevant de chacun des types constitu s cette tape Les r sultats fournis par ces outils ne sont pas ind pendants des types d unit s constitu s mais les m mes outils s appliquent tous les types constitu s de la sorte Dans la figure pr c dente certains de ces outils sont visibles dans la partie sup rieure sous la forme d ic ne Apr
168. s en le caract re 5 qui mat rialise l alignement des phrases le caract re qui permet d identifier des lettres l origine en majuscules 2 Asym tries distributionnelles des Types bilingues appari s La confrontation des dictionnaires de formes graphiques constitu s partir de chacun des volets du corpus nous am ne nous interroger sur les particularit s d un ensemble de vocabulaire associ dans les deux langues la notion d administration en anglais administration Nous allons constituer un type particulier que nous appellerons administr partir de toutes les formes graphiques commen ant par cette cha ne de caract res dans le volet fran ais du corpus Puis de la m me fa on nous allons construire un deuxi me type partir de toutes les formes graphiques commen ant par la cha ne administ dans le volet anglais du corpus priori on peut s attendre ce que ces entit s soient li es sur le plan de la traduction Tableau 3 Convention transformation pour une exploration parall le sous Lexico3 5 lt texte fr gt aucune mesure fut prise pour ralentir la file de voitures lors de leur entr e ou pour examiner tous les passeports car on craignait que cela puisse alerter les suspects lt texte en gt no steps wer taken to slow down the line of cars _as they entered or to scrutinise all passports since it was felt that this might put the suspects on
169. s il permet aussi de sauvegarder l alignement dans un format normalis le format permettant de stocker pour une ressource textuelle donn e diff rents volets associ s comme ses diff rentes traductions par exemple 2 1 Etape n 1 alignement de 2 volets initiaux e En entree en txt fr 0 txt les 2 volets initiaux e En sortie en mkAlign txt fr 0 mkAlign txt obama alignement en frl tmx les 2 fichiers sauvegard s l issue de l alignement et la version de l alignement La figure suivante donne voir l interface de mkAlign permettant de construire un alignement 1 http tal univ paris3 fr mkAlign 2 http en wikipedia org wiki Translation Memory eXchange EAmkalign 2 00 2 0b116 MODE GENERAL Editeur de l alignement _Editeur de l alignement 1 choix du segmenteur N 2 chargement du fichier source 3 Chargement du fichier cible MODE ALIGNEMENT AUTO Alignement Source Cible Recherche de cognats H C 6 MODE Import Erport me p D 1 Modes SPLITMERGE Di Zone d dition du Zone d dition du fichier source fichier cible mate Me m Figure 1 Interface l alignement avec mkAlign Pour cette tude nous avons choisi
170. s choses un homme adulte La cartographie textuelle permet de repr senter simultan ment la localisation des occurrences du type homme et celle du type femme femme 120 occurrences et femmes 55 occurrences On compare ces r sultats la ventilation des occurrences du type cor en namja partir du d pouillement de namnyeo et namseong Dans le volet frangais de la carte des sections Figures 7 et 8 les carr s noir indiquent la pr sence d une occurrence du type homme un carr gris celles des occurrences du type Les carr bicolores noir et gris signalent la cooccurrence au sein d une m me section des types homme femme De mani re sym trique les carr s noirs de la carte des sections r alis e pour le volet cor en indiquent la pr sence des occurrences du type La cartographie r v le que le type 8 g n re une repr sentation qui ressemble consid rablement celle tablie partir du type g pour le volet cor en Le tableau 6 rassemble quelques cas qui font exception cette r gle et qui int resseront le traducteur cor en francais TE Tan pz VA gF AREA LFE ZAZ AHSA les mesures destin es combattre la traite des personnes de l un ou de l autre sexe aux fins de prostitution 7 9 41 5 9 AAA AAA aalt selon des proc dures sp ciales devant la commission des droit
171. s de l homme et la commission de la condition de la femme Tableau 6 Exemples de cooccurrences homme amp femme ne correspondant pas au TGen namja dans le corpus Droits ael AE La diff rence de fr quence constat e dans la partie 14 Tableau 4 s explique bien par la relation de cooccurrence du couple homme femme Le retour au contexte nous montre quelques segments comme droits de l homme et de la femme entre l homme et la femme galit de l homme et de la femme La fr quence locale du type namja dans la partie 14 est effectivement beaucoup plus lev e que dans les autres parties 38 50
172. s et analyser le cas ch ant les probl mes de non reconnaissance Dans un deuxi me temps nous essayerons de saisir la complexit de la notion d unit lexicale en l illustrant par un exemple tir des formes les plus sp cifiques priori simple la forme ew ahan aliment nourriture Forme Principaux sens Fr q Fr q Tot Forme Principaux sens Fr q Fr q Tot F licit 76 76 Ressentir sentir 233 335 3 S Aubain 40 40 ER Marguerite 39 39 am Repas diner aliment 88 131 Paris 35 35 Porte V 75 110 Gier 31 31 Tableau 14 Formes extraites parmi les 15 unit s lexicales les plus sp cifiques Probl mes de segmentation des noms propres Le Tableau 8 montre que les formes r f ren ant des noms propres situ es dans le volet gauche n apparaissent que dans la partie thlex Ceci indique qu elles ont t d coup es diff remment dans la partie thmor C est premi re vue surprenant puisque ce sont des mots emprunt s donc impossible analyser morphologiquement mais il faut garder l esprit que le segmenteur n analyse pas en morph mes les unit s lexicales En effet 1 d coupe d abord le texte en syllabes puis en morph mes lexicaux enfin recompose les unit s lexicales partir de ces morph mes Ceci
173. s obama tmx v5 PDF traduction maison blanche pdf Volet FR 2 traduction fournie sur le site du Monde Cette page n est plus accessible ce jour On peut acc der une version de cette page sauvegard e pour cette tude cette adresse http tal univ paris3 fr mkAlign corpus obama tmx v5 PDF LeMonde pdf Volet FR 3 traduction fournie sur le site de Lib ration via l AFP Cette page n est plus accessible ce jour On peut acc der une version de cette page sauvegard e pour cette tude cette adresse http tal univ paris3 fr mkAlign corpus obama tmx v5 PDF libe pdf Volet FR 4 traduction fournie sur le site de RFI Cette page n est plus accessible ce jour On peut acc der une version de cette page sauvegard e pour cette tude cette adresse http tal univ paris3 fr mkAlign corpus obama tmx v5 PDF RFI pdf 2 Construction du corpus align Les contenus textuels des diff rentes pages web contenant le discours ou sa traduction ont t sauvegard s dans 5 fichiers diff rents au format texte brut en txt volet EN fr 0 txt volet FR 1 fr 1 txt volet FR 2 fr 2 txt volet FR 3 fr 3 txt volet FR 4 Les volets EN et FR 1 ont servi d amorce pour construire l alignement global Ces deux volets tant align s on a ensuite align FR 1 avec FR 2 FR 2 avec FR 3 et enfin FR 3 avec FR 4 Cet alignement a t construit avec mkAlign qui fournit des outils d aide l alignement dans un diteur 2 volet
174. s r seaux de cooccurrence Le monde dans les discours des pr sidents de la Cinqui me R publique in Actes JADT 2006 Journ es Internationales d Analyse Statistiques des Donn es Textuelles Besan on 2006 http www cavi univ paris3 fr lexicometrica jadt jadt2006 PDF II 054 pdf Martinez William Zimina Maria Utilisation de la m thode des cooccurrences pour l alignement des mots de textes bilingues in Actes JADT 2002 Journ es Internationales d Analyse Statistiques des Donn es Textuelles St Malo 2002 http www cavi univ paris3 fr lexicometrica jadt jadt2002 PDF 2002 martinez zimina pdf V ronis Jean Alignement de corpus multilingues in Pierrel J M diteur Ing nierie des langues Informatique et syst mes d information chapitre 6 pages 151 172 Herm s Sciences 2000 http www up univ mrs fr veronis pdf 2000hermes6 pdf Zimina Maria Approches quantitatives de l extraction de ressources traductionnelles partir de corpus parall les Pr sentation la soutenance de th se Universit de la Sorbonne nouvelle Paris 3 le 26 novembre 2004 http www cavi univ paris3 fr ilpga ED student stmz ED268 PagePersoMZ fichiers stmz page6 fichiers 26novembre MZ zip Zimina Maria L alignement textom trique des unit s lexicales correspondances multiples dans les corpus parall les Conf rence aux 7es Journ es internationales d Analyse statistique des Donn es Textuelles JADT 2004 Louvain la Neuve
175. t ni les longueurs de voyelles ne sont vraiment repr sent s Le mot wa khlaw sera d coup en une seule syllabe bien qu on aurait pu le d couper en deux syllabes w khe av a mais dans ce cas on aurait eu soit deux mots thais soit un mot d origine trang re Le v kh et le a l forment un groupe consonantique Le second niveau de segmentation est celui du morph me lexicale Il est d fini comme la plus petite unit ayant un sens et apparaissant dans le dictionnaire de mots du segmenteur Par exemple e o phau p re m m re hung cuire asmu pont Le troisi me niveau est celui de l unit lexicale L unit lexicale est soit un morph me lexical soit un mot compos Un mot compos est la fusion de plusieurs morph mes dont le sens est changeant par rapport ces morph mes Par exemple Simple i nam eau e Compos e parents m rivi re fleuve Le but de notre tude est de pouvoir observer en corpus les formes les plus et les moins sp cifiques de chacun de ces niveaux d initier le lecteur la complexit de diff rencier un mot compos d un syntagme nominale et de d terminer quoi correspond r ellement ce niveau d unit lexicale 2 Le corpus Nous pr sentons dans cette partie le corpus de travail sa structure logique ainsi que les probl mes d encodage Cons
176. tes w 800 700 i i e E E E 400 300 200 100 5000 10000 15000 20000 25000 30000 35000 40000 45000 50000 55000 Position dans le texte nombre d occurrences Figure 5 Apparition progressive des caract res dans le volet chinois 4 2 Segmentation automatique en lt mots gt Certains professionnels du Traitement Automatique des Langues proposent sur le web des proc dures qui permettent de d couper un texte chinois en mots Dans cette section nous utiliserons un d coupage automatique en mots r alis par un logiciel de segmentation sp cialement con u pour les textes chinois On peut voir au tableau 3 le r sultat de cette segmentation en mots r alis e partir de l extrait de texte pr sent au tableau 1 2 Pour cette premi re tude nous avons utilis le logiciel Hailanda Segmentation intelligente version d essai r alis par le Centre d intelligence artificielle Hailanda disponible l adresse suivante http www mydown com code 234 234301 html En plus de la segmentation ce logiciel r alise une cat gorisation des mots du texte orient e vers la recherche d information technico commerciale Nous n avons pas utilis cette cat gorisation pour notre tude Il existe d autres logiciels de segmentation du chinois que l on peut trouver sur l Internet ICTCLAS Institute of Computing Technology Chinese Lexical Analysis System et
177. tif y compris les dispositions de fond et de proc dur du droit administratif p nal lt texte fr gt cela vaudrait m me dans le cas o comme en l esp ce l accus ne se voit infliger qu une amende d s lors qu d faut de paiement une peine d emprisonnement s y substitue would be so even in a case where as in this instance the accused was merely fined in so far as default on payment of that fine would entail committal to prison Les erreurs de l alignement initial peuvent tre corrig es si l on prend soin de sauvegarder les sections concern es dans un rapport Pour ajouter une section au rapport 1 suffit de cliquer sur l ic ne Rapport CA situ e en bas de fen tre de la carte des sections cf Figure 5 Type 2 La pr sence isol e de sections monochromes colori es en bleu ou en rouge r v le des contextes originaux o les mots fran ais commen ant la chaine administra administration administratif etc ne sont pas traduits par des mots anglais commengant par la chaine administ administration administrative etc et r ciproquement La mat rialisation de ces sections sur une carte repr sentant le corpus parall le permet de dresser une v ritable topographie bi textuelle devient possible d isoler des contextes singuliers o sont attest es des quivalences lexicales originales susceptibles d int resser l expert humain pour la construction d
178. tion des occurrences qui rel vent d un type donn dans l ensemble du corpus constitu ici de 2 volets et donc de 2 cartes Chacun des carr s repr sente un l ment particulier du texte d coup en sections les sections correspondent ici aux sections de l alignement construit les cellules align es dans l diteur de l alignement Chacun des carr s de la s quence du haut repr sente une des sections du texte original volet source gauche et volet cible droite La forme nation a t projet e sur la carte des sections partir du dictionnaire source provoquant ainsi le marquage par une croix et le coloriage du contour des sections ou elle est attest e Le texte d une des sections s lectionn e par l utilisateur est affich en bas de la figure Les occurrences de la forme s lectionn e y sont mises en vidence mkAlign Carte des sections Y Dans l onglet Map Y Activez la construction de la carte Y Projet une forme sur la carte partir du dictionnaire par exemple nation Y Choisir ventuellement un regroupement par parties si une partition a t s lectionn e 4 M thodes textom triques Plusieurs m thodes statistiques permettent d clairer la structure d un corpus textuel partir de comparaisons r alis es entre les fragments du corpus La partition du corpus constitue une tape tr s importante dans l analyse comparative des textes dans la mesure o les oppositions q
179. titution Ce corpus est constitu d un ensemble de nouvelles fran aises ainsi que de leurs traductions en thai Elles sont disponibles sur le site http www wanakam com Un travail de normalisation ainsi qu un alignement manuelle en unit s de traduction a t effectu Celle ci varie d une phrase plusieurs paragraphes selon les nouvelles Nous disposons de deux fichiers de travail qui ont chacun une finalit et donc une structure diff rente Le premier fichier de travail sylmorwor corpus th cp874 a pour but l tude des diff rents niveaux de segmentation du thai Il contient les textes thais en trois exemplaires divis s en parties selon leur niveau de segmentation Elles sont identifi es par la cl langue dont les On utilisera tout au long de l article le pour marquer segmentation des syllabes Nous employons le terme morph me lexical bien qu il puisse s agir de mots outils pour indiquer qu il n est pas question de morph mes comme dans les langues flexionnelles ou agglutinantes 46 Pour le lecteur curieux ouvrir un dictionnaire thai anglais l entr e kham que l on donne comme 2 traduction du mot mot peu impressionner tant la liste de mots compos s partir morph me lexical est longue Par exemple dans le SE ED s thai english dictionnary la liste d bute la fin de la page 133 et s ach ve la fin de la page 136 47 Auteurs de ces nouvelles Alphonse Allais Apollinair
180. tre groupe de formes Nom du groupe Le 8 est exactement ce que je recherche v Ajouter Q Rechercher Enregistrer Supprimer 5 Charger Le tableau ci contre rassemble nomme et pr sente bri vement l ensemble des fonctionnalit s du logiciel Lexico3 utilis es pour mener bien l exploration textom trique propos e dans les sections suivantes On pourra aussi se reporter aux diff rents manuels du logiciel disponibles en ligne N Nom Param tres Localisation ic ne Liste de d limiteurs 1 SEGMENTATION d faut Barre principale 2 2 _ 10055 3 CONCORDANCE Forme ou Type G n ralis Barre principale 4 SEGMENTS Barre principale 5 REPETES R Une fois la partition construite on peut acc der au tableau IPCLC 5 PCLC pr sentant les Principales B incipal dr Caract ristiques SES e lexicom triques de la partition Une cl d finissant une partition dans le corpus original 6 PARTITION est du type Barre principale m lt CLE valeur gt C est le nom de la cl qui est donn ici pour construire la partition vis e 6 VENTILATION Forme ou groupe de formes 7 ARTE DES d limiteur de section Barre principale princip z SECTIONS Cette fonctionnalit produit des listes de formes qu il est possible de m moriser 8 GROUPE DE d exporter ou de projeter M E FORMES sur les graphiques c
181. tre l origine de l cart fr quentiel entre les deux TGen homme fr 1 087 et homme co 581 Dans ce qui suit nous allons chercher ces raisons partir de l exploration des fr quences locales de ces deux TGen dans les parties du corpus 35 Dans nos exemples eun nominatif o i nominatif g nitif N ege datif Seul accusatif Z gwa conjonction appartiennent aux particules auxiliaires Elles ne d finissent que position du nom dans une phrase et n entrainent aucun changement au plan s mantique Ce est un des traits particuliers des langues agglutinantes telles que le cor en et le japonais 36 Dans l tat actuel bien que la forme cor enne ait une seule occurrence il serait difficile d affirmer que cette forme est un hapax Par exemple les formes cor ennes saramdeuldo et FF sarameuro ont une seule occurrence dans le corpus Droits En pratique nous recens 12 hapax contenant dans le volet cor en du corpus Droits 37 Le TGen Type g n ralis est un ensemble d occurrences s lectionn es parmi les occurrences du texte cf Lamalle et Salem 2002 4 2 Comparaison des fr quences locales dans les parties du corpus Le type homme fr compte 1 087 occurrences dans le volet fran ais du corpus Comme nous l avons vu la fr quence du TGen correspondant dans le volet cor en homme co est beaucoup moins lev e 581 occur
182. tre les r partitions des termes des deux volets D autre part l analyse multidimensionnelle des formes qui entrent en rapport de cooccurrence avec un terme p le a permis de mettre en lumi re des similarit s distributionnelles qui concernent les r seaux de cooccurrences Le fran ais et le cor en sont deux langues qui n ont aucune parent structurelle et qui de plus utilisent des caract res diff rents Ces diff rences interdisent de s appuyer sur la ressemblance des formes graphiques pour comparer la ventilation de termes qui entrent en rapport de traduction dans les deux langues L approche lexicom trique est elle susceptible d apporter un clairage int ressant pour l tude des corpus parall les cor en frangais Dans ce qui suit nous montrerons l utilit de la m thode textom trique sur l exemple de l analyse d un ensemble de formes qui entrent en rapport de traduction dans le corpus fran ais cor en Droits 34 Des analyses lexicom triques de ce type ont t r alis es propos de corpus parall les parmi lesquelles Martinez et Zimina 2002 Salem 2004 et Zimina 2000 2002 2004a 20045 etc 41 Etude de l guivalence traductionnelle homme saram La forme homme est en fran ais une forme polys mique capable de d signer plusieurs concepts du g n rique au particulier Dans des contextes ordinaires cette forme est fr quemment traduite en cor en par les quatre formes 17kinga
183. u de du a am lt langue thmor gt lt nouvelle B001 gt lt auteur 1 gt y a v a 7 y S s 1 Ad 5 y 0 fi
184. u il sera possible de mettre en vidence entre les parties soumises comparaison d pendent troitement du choix de la partition initiale 4 1 Analyse des sp cificit s du corpus L analyse des sp cificit s permet de porter un diagnostic exprim en probabilit sur l effectif de chacune des cases d un tableau lexical on se reportera au Tutorial n 1 pour des informations compl mentaires sur la m thode des sp cificit s Exemple n 1 Calcul des cooccurrents d une forme partir de la carte des sections de l alignement La carte des sections construit par d finition d coupage du corpus en sections correspondant l tat de l alignement Une forme p le tant choisi sur le volet source ou le volet cible la projection de la forme sur la carte des sections donne voir la localisation de la forme dans la carte des sections Nous reprenons ci dessous l exemple de la forme nation et la projection construite dans la figure pr c dente A partir de cette carte il est possible de constituer la liste des formes et des segments r p t s qui trouvent d apr s un calcul statistique particulier un nombre lev d occurrence dans les m mes sections que la forme p le les cooccurrents de cette forme 5 L analyse des sp cificit s repose sur l utilisation du mod le hyperg om trique pour l analyse des tableaux de nombres deux dimensions Pour plus de d tails sur le mod le des sp cificit s et ses applications
185. ui nous attend r i deren vous avec un Push services rendus otre nation ainsi que de la g n rosit 3 ie services tre nation ainsi que ne ent rernent pr sidentiel H gw pr sidence souvent Le war e montant de la prorp rir et dans ier eaux D Di 1 Aen de prosp rit ep alors que nous vivions que ce serment ait t alors que le temps tait orageun et E qu Fa 28 acr serment t alors que les nuages sg ure eto nts l l Am rique a pwrs v r non s ulexent fait des comp tences st de la per 7 6616 EE OR SG la 00 6 ar g n ration 6 6 d D ert Aves cette g n ration d Aw ricains aa une crise F L compris e que KE rise rra contre Wlaire de violence wt de baine 1 m quei de vi n vu afaiblie cons quence de la 153 Z Notre conomie es miblie 164 lt t is responsabilit des emploie ont t Ai entreprises ont 64 bris e Maison ont t 2 des entrepriser ont fait faillite syst me de est crop nos coles m nent das i Onireun nos coles ant crop de portes ou bord de la 1 des indices de crise pr lo e stiques 5 Voil les de lt que l on peut exprimer n donn es lt t statistiques A I ins mesurable mais tout aussi a ni c est
186. us fr quence est anormalement lev e dans cette partie De fa on plus pr cise si la somme des probabilit s calcul es partir du mod le hyperg om trique pour les valeurs gales ou sup rieures la sous fr quence constat e est inf rieure au seuil fix au d part sp cificit n gative pour un seuil de sp cificit fix une forme 1 et une partie j donn es la forme 1 est dite sp cifique n gative de la partie j si sa sous fr quence est anormalement faible dans cette partie De fa on plus pr cise si la somme des probabilit s calcul es partir du mod le hyperg om trique pour les valeurs gales ou inf rieures la sous fr quence constat e est inf rieure au seuil fix au d part partie d un corpus de textes fragment de texte correspondant aux divisions naturelles de ce corpus ou un regroupement de ces derni res section portion de texte comprise entre deux d limiteurs de section exemple le paragraphe etc segment r p t ou polyforme r p t e suite de forme dont la fr quence est sup rieure ou gale 2 dans le corpus Les expressions r guli res avec Lexico3 Dans les sections qui suivent on utilisera plusieurs reprises la notion d expression r guli re en particulier travers la fonction GROUPE DE FORMES Nous rappelons ci dessous bri vement cette notion et les diff rents op rateurs disponibles avec Lexico3 pour crire de telles expressions Les expressions r gu
187. vestiture de Barak Obama le 20 janvier 2009 Washington es lors de toute transition Am ricains ont ETES RE ia H en 1 arrive de temes Figure 6 Alignement du corpus Obama Investiture Affichage dans un navigateur 2 3 Etape n 3 Exploration textom trique de l alignement P P q g mkAlign permet de mener des explorations textom triques sur des couples de textes align s Dans notre cas le fichier TMX tant compos de 5 volets il est n cessaire de s lectionner au pr alable 2 volets avec de d marrer cette exploration Dans les exemples qui suivent nous travaillerons avec les 2 volets FR 1 et FR 2 La figure qui suit montre l tat de l alignement de ces 2 volets mk Align 2 00 2 00116 gardant l esprit les 4540 8 consentis par nos anc tres 1 coop ration dont il a fait preuve cout au long de cette transition muarante quacre Am ricains ont d sormais faic ce serment pr sidentiel Ces mote t souvent prononc e dans 1 mar e ante de la prosp rit et dans les eaux calmes de lla pain Figure 7 Alignement Volets FR 1 et FR 2 2 3 1 Le d pouillement en formes graphiques Comme pour toute exploration textom trique la premi re phase de l exploration textom trique est constitu e par la segmentation du corpus textuel en unit s qui serviront de base aux d comptes ult rieu
188. vient et nous nos voitures et faire marche A du soleil du vent ec du sol pour av s de fa on r pondre mum lt s transformer nos coles et nos universit s pour cus pouvons B rete nous allone t en cause l ampleur de nos ambitions Figure 21 Mise au jour de la variation comparaison au niveau du mot 7 Compare deux fichiers et affiche les diff rences cf http fr wikipedia org wiki Diff 8 http search cpan org mjcarman Tk DiffText 0 1 7 lib Tk DiffText pm Figure 22 Mise au jour la variation comparaison au niveau des lignes Pour ce module le texte source gauche est consid r comme le texte de r f rence partir duquel on mesure les diff rences La coloration permet de mettre au jour Les l ments supprim s dans le texte source zones rouges dans le volet gauche Les l ments ajout s dans le texte cible zones vertes dans le volet droite Les l ments modifi s dans les 2 volets zones bleues dans les 2 volets Les l ments inchang s d un volet l autre restant non color s dans la seconde comparaison la seule ligne inchang e dans la partie visible l cran est cercl e de rouge Ce r sultat est exportable au format HTML on trouve en ligne plusieurs illustrations de ces exports Deux traductions du discours d investiture de B Obama export comparaison http tal univ paris3 fr mkAlign mkalign variation variation obama export ht
189. vons utilis pour cette tude la version 2003 du logiciel Word distribu par Microsoft 19 Plusieurs versions de la s rie Lexico en cours d ach vement permettent d j de traiter les chaines de caract res unicodes Le logiciel MKAlign d velopp par S Fleury dans l quipe Syled Cla2t permet galement de traiter les textes encod s sous ces formats Bouton droit gt Codage gt Plus gt Chinois simplifi GB2312 Conversion de fichier Mian6mcf txt A xl Choisissez le codage utiliser pour rendre ce document lisible Codage de texte C Windows par d faut MS DOS Autre codage Arabe Windows Direction du document ASCII E U Baltique Windows Canadien frangais DOS Chinois simplifi Chinois simplifi GB2312 C De droite gauche De gauche droite Aper u lt version chinois 4L EG EH SK ER TE Ste ue QUE 4 RE ET HET He HR S ow x 3508 ZEA GE k MM 4 9 s HE Qm 2 9 dE JJ EIRE SF AREE 485 RR 98 5 37 ARU m WS GUT To fh XOFD 2 55 HD H Ke Word 2003 Param trage de l enregistrement du texte 7 Figure 1 Lexico3 TextPloreur Fichier Traitement Fen tre Navigation Rapport Dictionnai
190. x et d unit s lexicales Acquies ons que sans cet outil et sans cette publication la pr sente tude aurait t impossible r aliser Nous disposons par ailleurs d un corpus parall le de nouvelles frangaises traduites en thai Ce corpus initialement pr par dans le but de faire une tude textom trique comparative entre le fran ais et le thai permettra d appr cier le sens des mots thais en fournissant le r f rentiel s mantique d origine en plus de fournir des mots inconnus au segmenteur La section 1 pr sente les particularit s du syst me d criture thai ainsi que les trois niveaux de segmentation utilis s La section 2 pr sente le corpus s lectionn La navigation dans les syllabes les morph mes et les unit s lexicales d bute v ritablement dans la section 3 La derni re section 4 est consacr e un approfondissement des probl mes de segmentation en unit s lexicales 3 Le terme tha est mani re dont les Tha s nomment leur langue leur pays et eux m mes depuis 1939 Le siamois est le dialecte du centre de la Tha lande ancien royaume du siam promu au rang de langue officielle on l appelle aussi tha standard 1 Pr sentation du tha Nous commencerons par d crire quelques propri t s du tha sur lesquelles les chercheurs s accordent en g n ral et qui nous seront utiles pour notre tude La langue et son syst me d criture Le thai est une langue isolante c est
Download Pdf Manuals
Related Search
Related Contents
カットマン AS02 Kettler AERO 9981-700 User's Manual Untitled Manual de Instrucciones - TA Triumph Wavemaster Dakota White Hoover Domestic Appliance User Manual Copyright © All rights reserved.
Failed to retrieve file