Home
Comparaisons textométriques de traductions franco
Contents
1.
2. HUS fb SH RAR DS AR 1 3H RE 4 XA ILTA FE FD NN Fil LE KR AU BUE BE A F
3. M HI 5 Comparaisons quantitatives partir des mots Les comptages r alis s partir des mots ainsi d coup s par l algorithme de segmentation permettent de comparer les r sultats obtenus sur le texte chinois ceux que l on obtient de la m me mani re sur la version fran aise du texte Tableau 4 Principales caract ristiques quantitatives du d pouillement en mots r alis sur les volets fran ais JC1 Fr et chinois JC1 Chin du corpus Partie Occurrences Formes Hapax F Max JC1 Chin 34 743 7196 3 781 2313 JCI Fr 39 666 6 673 3 970 1578 de Comme on le voit au tableau 4 la traduction chinoise compte nettement moins de mots graphiques que le texte frangais On notera qu elle compte cependant nettement plus de Java Lucene segmentation du chinois etc Signalons qu en raison de l absence d un consensus sur la d finition de ce qu est un mot chinois aucun logiciel ne peut pr tendre fournir de r sultats parfaits Comparaisons textom triques de traductions franco chinoises 11 formes diff rentes La proportion des formes qui n apparaissent qu une seule fois dans chacun des textes est moindre dans le texte chinois alors que la forme la plus fr quente y trouve nettement plus d occurrences que dans le texte francais
4. Traduction chinoise par Fu Lei 1957 Nous avons utilis la version compl te r unie en 1957 par les ditions Litt raires Populaires partir d une r vision par Fu Lei de la premi re version de 1953 8 Explorations textom triques Le tableau 1 montre un extrait du texte original suivi de sa traduction chinoise La figure 4 montre dans la fen tre de droite l affichage par Lexico 3 du texte chinois dans lequel les caract res ont t isol s par insertion d un caract re espace entre chaque caract re Dans la fen tre de gauche on peut lire le r sultat du d pouillement statistique r alis sur la base du d compte des caract res isol s Les caract res sont tri s par ordre de fr quence d croissante dans le corpus analys Navigation Rapport Dictionnaire S lectionnez une couleur cst Recherche version Car ig n IL amp EG B FE F E Jr M jk X By dT d WE E k iG E X 770 JN VENE WG F m v x 41 JL vk JE E dum E AR d ESL At 5B GE F 49 BJ dx Xe d amp xn E gt TE JE BJ mj TA TOUT H E By 56 To Sb EOM f 9
5. ZUR M AF BE R BA ZA X M 7 US NW UE ORG SET SR RE RE HS n mim RE MER HEN EGGS T NES BE MEHR HE 6x ME dd DA mi BE rh k
6. 3 BATARE 42 a He HIT XT UE ER ASR EZAR J k 2 L Z O ft Comparaisons textom triques de traductions franco chinoises 17 Partition
7. Parition i i A t lt amp ucune gt z F seuillage E e 50 z mimi mu Imumasmm mamaamimamamums mamuamumama SBB00MOMMO 100 DHNBUODLDLDDOOLUDLDDDINDUODONNEN 00000000 DDODOCDOCOLCUCUCODCOCOLDLCDCOEULDLOL 150 naummuuuuuauiuuuumiuUmuodguualdaruuaudiumw e CpmpOoodOaAaRdga d jg uuu 200 poooo0o0000000000m0 m0O0 Omm O000me 07 m0O00mmO00 0000000000 250 OCOOOOCMOMC MOCOOBOMO0CMOOMOMSMOMOUMOCOOOCOOOOOO0OO0 300 ooo0o0m00 mmm DIDCIOOLDOCCUN CDOCNLDCDCOCHS SOMOMOOMOOOOOOOCDOOMO 350 DOOOOOO00000000000000000000000000000 0O0D000000000000 400 DBmooiimiaadgsarnn uu me io nmn uuu im m mlissECIHHI opooo0o00a0 Ma SE Bm MUR RE NE deo Bk ST Jl egle H 9 i is Yk Et Pt 2 s mis n TR Bath fa To zo WE By ED 529 By Xx wo Bo MMA 69 EXT PME Bappot Efacer WT ENAERE amp 5 BOE FS d RE me HEART ma ER JE EE
8. WE ATF SE m T 981 X T EN RORA y Kt E91 US m z 434 Wj m B 35 To SEX M RE 9 T de NX 286 e NX 212 SD Bim RE MAR R E 261 a K g 229 GEO 196 mie H M HE AERE H 5 E RE SU 2 E RE n 169 H xk xtfS q8 FRE 165 SW 165 E 38 Cm HU 162 xin ATX SEXE Y S X 8 160 Bi DE amp oo DS XD Rp 4 FE 159 ER tu 30 Ju 142 XE Ro 05 HE Ex D ED EN dE h REE is HOS E fh E Ek f NOH um M 32 RERO Gk EO UE RD YE HU E yE de
9. vieux amis grand pere vieux grand pere vieux grand p re un vieil homme vieil homme vieilles dames vieilles dames il prenait de lage Comparaisons textom triques de traductions franco chinoises 19 7 Conclusion La complexit apparente le syst me d criture chinois ne constitue pas un obstacle incontournable l exploration textom trique des textes Les traitements informatis s labor s pour les textes cod s l aide d critures alphab tiques peuvent tre adapt s moyennant des modifications mineures l tude des textes chinois Malgr des difficult s importantes dans la d finition de l entit mot en chinois l introduction de cette notion et sa prise en charge par des logiciels de segmentation automatique permet d augmenter l efficacit de l exploration textom trique du bitexte franco chinois et de d passer l exploration fond e sur les caract res hanzis consid r s comme des entit s isol es Les r sultats obtenus sur la base de la comparaison textom trique du bitexte align d coup en mots ouvrent au plan traductologique des pistes de comparaison qui semblent extr mement prometteuses Elles permettent d envisager la comparaison simultan e des moyens lexicaux utilis s dans les corpus de traduction mis en confrontation et des proc d s employ s par les traducteurs
10. i TRRAGANE HERGAS REN ZB ge m A D a LE X A E B 88 E RR 40 36 B9 Ho SE dT S T MAH Se 4E DI WOW gu amp OB JBE W EO xk xE fd d8 BU HR YR R HBO 8 S uj E U SPE fauna r W T H B E NJ EA s TE D L u f m tim mg m zx B YT x Jt Z Y 47 B 85 3 Bh m 8 4 9 Hi 38 o BS HS x B BS ROG XH BE HE 2490 formes Z nur M Gu EH SZ rh o d ode Xe HS nu Ye 6 Ho W 23 Pr t C Documents and Settinas Salem Bureau MJoourAS miao7carC par Figure 4 Exploitation avec Lexico3 du texte chinois d coup en caract res Le texte ainsi modifi va nous permettre d obtenir un premier d pouillement en caract res hanzi du volet chinois du corpus On peut voir les principales caract ristiques quantitatives de ce d pouillement au tableau 2 Tableau 2 Principales caract ristiques quantitatives r sultant du d pouillement en caract res hanzi du volet chinois du corpus Partie NB de caract Caract diff rents hapax FMax Caracteres 56 797 2 478 579 2 959 Le tableau 2 montre que les 56 797 caract res que compte le corpus JC1 Chin sont des occurrences de 2 478 hanzis diff
11. e partir de larges cat gories de textes permet de mettre en vidence une propri t statistique commune aux d pouillements en unit s lexicales Cette propri t est parfois pr sent e sous la forme excessivement simplifi e Rang x Fr quence Constante Pour en savoir plus Zipf GK 1935 The Psychobiology of Language an introduction to Dynamic Philology Boston Houghton Mifflin Lebart L Salem A Statistique textuelle Paris Dunod 1994 t l chargeable sur le site http www cavi univ paris3 fr lexicometrica livre st94 st94 tdm html La comparaison des deux courbes fait apparaitre des diff rences assez nettes dans la structure des gammes de fr quences des deux textes Le texte fran ais poss de nettement plus de formes dans la zone de fr quences qui s tend de 50 occurrences 1000 occurrences environ De son c t le chinois cr e plus de formes diff rentes dans la zone des tr s basses fr quences 14 Explorations textom triques 6 Un exemple d tude parall le Aligner un bitexte c est construire une repr sentation qui met en correspondance des unit s textuelles en rapport de traduction mutuelle Le tableau 6 montre un alignement des deux volets du bitexte r alis partir du corpus JC1 au niveau du paragraphe A partir d un tel alignement on peut s int resser aux traductions de ce qui constitue une unit dans la langue source dans l autre volet du corpus Cette comparaison peut tre
12. literature translation studies S3 S4 5 6 1 Contexte de la recherche Parmi les nombreuses raisons qui peuvent expliquer le fait que les m thodes d analyse des textes sur ordinateur de plus en plus largement r pandues dans le monde occidental ne se sont d velopp es que plus tardivement dans la sph re culturelle chinoise on doit consid rer les facteurs li s l existence d un syst me d criture tr s ancien dont certaines qualit s sont indiscutables mais dont l informatisation s est r v l e beaucoup plus complexe que celle des syst mes bas s sur l utilisation d un alphabet r duit Dans la p riode r cente parall lement aux efforts entrepris par les linguistes chinois pour simplifier la repr sentation des ca
13. sur une segmentation automatique relativement facile formaliser et mettre en ceuvre sur un ordinateur qui isole chaque caract re hanzi Pour r aliser cette segmentation en caract res nous avons remplac en utilisant pour cela une expression r guli re chaque caract re du texte de d part par ce m me caract re pr c d d un espace code ASCII 32 Le fichier ainsi modifi r alise l isolation de tous les caract res du corpus Une proc dure de ce type est disponible l adresse http www cavi univ paris3 fr Comparaisons textom triques de traductions franco chinoises 7 Tableau 1 Extrait des corpus JCI Fr et JC1 Chin Le grondement du fleuve monte derri re la maison La pluie bat les carreaux depuis le commencement du jour Une bu e d eau ruisselle sur la vitre au coin f l Le jour jaun tre s teint Il fait ti de et fade dans la chambre Le nouveau n s agite dans son berceau Bien que le vieux ait laiss pour entrer ses sabots la porte son pas a fait craquer le plancher l enfant commence geindre La m re se penche hors de son lit afin de le rassurer et le grand p re allume la lampe en t tonnant pour que le petit n ait pas peur de la nuit La flamme claire la figure rouge du vieux Jean Michel sa barbe blanche et rude son air bourru et ses yeux vifs Il vient pr s du berceau Son manteau sent le mouill il traine en marchant ses gros chaussons bleus Louisa lui fait signe de ne pas s
14. La comparaison entre le syst me des mots chinois et celui des caract res chinois pour lequel nous avons pr sent plus haut des d comptes comparables montre que les mots chinois sont compos s en moyenne de 1 6 caract res et que le mot le plus fr quent rassemble presque toutes les occurrences du caract re le plus fr quent dans les deux cas le caract re de Tableau 5 Les formes les plus fr quentes pour chacun des volets du corpus Frangais Chinois 1 de 1 578 2313 2 il 1 044 1581 3 et 1 034 4 le 908 638 5 la 841 373 6 les 575 368 7 Il 515 276 X 8 se 463 JUL 9 lui 448 275 10 des 447 274 11 ne 439 235 12 Un 407 13 en 399 208 14 que 394 204 15 pas 376 184 16 qui 375 158 17 son 362 18 dans 329 196 19 une 314 147 143 142 139 139 136 La comparaison entre les formes les plus fr quentes dans chacun des volets du corpus montre que les fr quences d croissent plus rapidement dans le volet chinois L tude compar e des courbes d accroissement du vocabulaire figure 6 pr cise les r sultats obtenus par la comparaison des principales caract ristiques lexicom triques des volets frangais et chinois du corpus La courbe situ e dans le haut du graphique correspond l enrichissement du T nous a sembl int ressant de publier ces premiers comptages sur la comparaison textom
15. approcher Elle est d un blond presque blanc ses traits sont tir s sa douce figure mouton est marqu e de taches de rousseur elle a des l vres pales et grosses qui ne parviennent pas se rejoindre et qui sourient avec timidit elle couve l enfant des yeux des yeux tr s bleus tr s vagues o la prunelle est un point tout petit mais infiniment tendre l enfant s veille et pleure son regard trouble s agite quelle pouvante les t n bres l clat brutal de la lampe les hallucinations d un cerveau peine d gag du chaos la nuit touffante et grouillante qui l entoure l ombre sans fond d o se d tachent comme des jets aveuglants de lumi re des sensations aigu s des douleurs des fant mes ces figures normes qui se penchent sur lui ces yeux qui le p n trent qui s enfoncent en lui et qu il ne comprend pas il n a pas la force de crier la terreur le cloue immobile les yeux la bouche ouverts soufflant du fond de la gorge sa grosse t te boursoufl e se plisse de grimaces lamentables et grotesques la peau de sa figure et de ses mains est brune violac e avec des taches Jaun tres Romain Rolland Jean Christophe 1904
16. les diff rences entre les langues mises en pr sence C est ce que nous allons tenter de faire dans l tude qui suit afin de poser les premiers jalons d tudes traductologiques que nous nous proposons d entreprendre par la suite 2 Le syst me d criture chinois Les critures chinoise japonaise et cor enne utilisent toutes trois les caracteres Han caract res d origine chinoise dits hanzi en chinois ainsi que des caract res nationaux propres chacune des langues Le chinois poss de pour sa part un syst me d criture qui n est ni alphab tique ni phon tique On peut dire que chaque caract re correspond plus ou moins un morph me et une syllabe de l oral Le nombre de hanzis diff rents utilis s par ces syst mes d criture se compte en milliers parfois en dizaines de milliers d passant de tr s loin le nombres des lettres qui permettent de transcrire les critures alphab tiques On dit que pour lire un journal un lecteur chinois doit pouvoir identifier sans mal 5 000 hanzis environ 2 1 Les caract res chinois Chaque caract re chinois est compos d un certain nombre de traits que l on peut retrouver dans une s rie d autres caract res Les caract res correspondent la fois un segment sonore id 3 la syllabe et une unit de sens r n homme d grand tian ciel m bois Tk l n f ret
17. men e simultan ment du point de vue distributionnel l aide de l outil concordance cf tableau 7 et d un point de vue spatial cf figure 8 6 2 Le groupe vieux vieillard e son correspondant lao ren A titre d exemple nous examinerons les traductions chinoises d un ensemble de mots qui cs P 13 rendent en fran ais le concept de vieillesse vieux vieillard etc Pour cette famille de mots nous obtenons une fr quence globale de 95 occurrences qui se r partissent comme suit vieux 77 vieille 7 vieil 3 vieillard 3 vieilles 2 vieillards 1 vieillissait 1 vieillots 1 On trouve au tableau 7 un extrait de concordance r alis e autour du p le 1ao vieux dont les lignes sont tri es par ordre d apparition dans le texte chinois La localisation des occurrences de chacun de ces termes dans la carte des sections tablie pour le texte frangais figure 8 permet de rep rer des sections correspondantes du texte chinois dans lesquelles on peut s attendre ce que soit rendue en chinois l id e de vieux La liste des mots les plus sp cifiques dans le texte chinois qui correspond ces derni res sections nous laisse penser que le concept vieux vieillard etc est souvent rendu en chinois par les termes 1ao ren vieil homme et 1ao vieux qui constituent par ailleurs les quivalences traductionnelles les plus adapt es pour traduire le concept de vieux Dans une seconde tape nous intr
18. survient pour le texte fran ais abscisse 32 500 correspond galement un ralentissent dans la traduction chinoise abscisse 28 000 Accroissement de vocabulaire francais chinois 5 000 10 000 15 000 20 000 25 000 30 000 35 000 Position dans le texte nombre d occurrences Figure 6 Courbes d accroissement du vocabulaire r alis e sur les volets fran ais JC1 Fr et chinois JC1 Chin du corpus Comparaisons textom triques de traductions franco chinoises 13 Diagramme de Pareto version chinois francais 1 000 100 Fr quence F 1 10 100 1 000 Nombre de formes gt F Figure 7 Diagramme de Pareto pour les deux volets du corpus Pour un texte T d pouill en unit s statistiques appel es formes le Diagramme de Pareto permet de visualiser la structure de la gamme des fr quences m L axe vertical permet de repr senter la fr quence F des formes du textes laquelle varie de Fmax fr quence maximale calcul e pour le texte T m Sur l axe horizontal on porte la quantit nombre de formes du texte dont la fr quence est sup rieure F m Avant de tracer le Diagramme on transforme chacune de ces quantit s en son logarithme d cimal Le Diagramme ainsi obtenu prend alors approximativement la forme droite que l on appelle Droite de Zipf en l honneur de Georges Kingsley Zipf qui a montr que ce type de proc dure r alis
19. toi h o bon bien nih o Bonjour Comment a va Dans la langue moderne il existe beaucoup de mots bi syllabiques voire tri syllabiques Par suite de l volution de la langue et de l adoption de mots emprunt s d autres langues Par exemple 1 Q 3 4 HE sh u sh u j xi h u qi o ke li main portable rencontre par hasard chocolat Dans le premier exemple le caract re sh u signifie main il constitue une syllabe et correspond en m me temps un sens ind pendant Dans ce cas il peut tre consid r comme un mot Dans le deuxi me exemple le m me caract re est associ au caract re jt machine appareil Il garde dans ce cas le sens main mais la combinaison des deux caract res prend un nouveau sens t l phone mobile portable Dans le troisi me exemple la combinaison des deux caract res 33s xi h u signifie se rencontrer par hasard mais ces caract res perdent leur sens lorsqu il sont isol s Dans le mot anglais chocolate chacun des caract res 15 poss de un sens propre sans rapport imm diat avec le mot 15 adroite habile convaincre force Produit courant mo li hua cha le th au jasmin est un mot dont les composants identifiables sont difficiles segmenter On peut consid rer m li jasmin comme un mot bi syllabique compos de deux caract res d pourvus de sens p
20. Comparaisons textom triques de traductions franco chinoises Traductions franco chinoises Jun MIAO Andr SALEM silaomiaomiao a yahoo fr salem a msh paris fr R sum Apr s un bref rappel sur le syst me d criture chinoise et ses prises en charge par diff rents syst mes de codage informatique 3 on compare les d pouillements textom triques d un texte fran ais et d une de ses traductions chinoises Apr s le d pouillement du texte chinois en caract res isol s 4 on compare un d pouillement automatis en mots de ce m me texte avec le texte fran ais original 5 La derni re section est consacr e l tude des perspectives ouvertes par la d marche textom trique pour l analyse des diff rentes traductions chinoises utilis es pour rendre un m me mot fran ais 86 Mots cl s textom trie caract res chinois hanzi litt rature traductologie Abstract After a short recall of the Chinese writing system and on its various encoding systems 3 the authors apply textometric methods to compare a French text with its Chinese translation After an examination of the Chinese text with isolated characters 4 the same text cut into words with a Chinese word separation program is compared with the French original 85 The last section aims at studying the perspectives of textometric approaches in the analysis of different Chinese translations of French words 86 Key words Textometry Chinese characters Hanzi
21. ES eb ta rrt rre rrt 10 E B Ed i XXVI ERAS lt Aucune gt seuillage o s Sp cits E aonn r MR 00gso0mo o 00000Mm0 000000 0000000880 Doudous amamos DONDDUDODNUDDOONUDONN CIOCODOOUODCOND DUODCOCODUOICOCC DDODICIC pnaauuuuuudguiuuuumuuuuumumumuuscd opuuuuduiuuumsmBDa m DIODODBDBDBOLU DmImaauaauuagadac ogsisii acnouous o mis CC perc ouaaa pomagaummmadaadgduouuu erm Cod gas m scs mii DoOpia rm n Om oo aipuauauauu DDOUNDOUNNN DCOCODOCOCOLDODOODN CODCOONCODOCONNEN UNDONCONDC DDCOCODOODCONDO 3 DOODOODO0D0000000000000000000000000000000000000000D0D0000Q 400 DDOBDaOdpoiuausiaidmcouousia cus du npJuUuYul uuu odmoiomescoodcogms gaodoggdcourc Section zn E Occurrence n 9 d Rapport Effacer 100 150 LINIM DNE 200 Fi m le nouveau n agite dans son berceau bien que le vieux ait laiss pour entrer ses sabots la parie son pas a fait craquer le plancher enfant commence geindre la m re se penche hors de son lit afin de le rassurer et le grand p re allume la lampe en t tonnant pour que le petit n ait pas peur de la nuit la flamme claire la figure rouge du vieux jean michel sa barbe blanche et rude son air bourru et ses yeux vifs il vient pr s du berceau son manteau sent le mouill il traine en marchant ses eros chaussons bleus louisa lui fait signe de ne pas approcher elle est d un
22. aW un RETE IR R o XE ke WES EX UN EBk BE Figure 8 Localisation des correspondances de vieux et dans le bitexte l aide du logiciel Lexico3 18 Explorations textom triques version fran ais gt maison la pluie bat les carreaux depuis le Es m mes commencement du jour une bu e d eau ruisselle sur la vitre au coin f l le jour La _ jaun tre s teint il fait ti de et fade dans la zversion chinaiss I le grondement du fleuve monte derri re la L B EJ EX EKF HE SUR MEO RE RB mec chambre Chargement Source et Cible FENI em eet s C e le nouveau n s agite dans son berceau bien icd que le vieux ait laiss pour entrer ses sabots 7 Alignement Source Cible la porte sen pas a fait craquer le plancher Recherche de cognats l enfant commence geindre la m re se penche arand b re allume la lampe en t tonnant pour Sauvegarde Ud L4 s agite quelle pouvante les t n bres l clat brutal de la lampe les hallucinations d un cerveau peine d gag du chaos la nuit touffante et grouillante qui l entoure l ombre sans fond d o se d tachent comme des jets mm me hors de son lit afin de le rassurer et le l enfant s veille et pleure son rega
23. aract res chinois sont crits l un apr s 4 l autre sans tre s par s par des espaces 3 Le codage informatique des caract res chinois En raison de leur nombre lev et contrairement ce qui se passe pour les syst mes d criture des langues qui utilisent un alphabet restreint les caract res chinois ne peuvent tre repr sent s l aide d un codage sur un seul octet La norme Unicode qui permet de repr senter chaque caract re sur plusieurs octets fournit une bonne solution pour repr senter les caract res chinois 3 1 Logiciels supportant le traitement de textes chinois Dans leurs versions r centes les logiciels de traitement de textes permettent de manipuler en plus des textes cod s en unicode qui vont rapidement constituer la norme des polices multioctets qui permettent d afficher correctement les textes chinois entre autres critures non latines Avec le logiciel Word par exemple lorsqu on tente d enregistrer un texte chinois avec l option texte seulement une boite de dialogue permet de s lectionner le codage Chinois simplifi GB2312 comme on peut le voir sur la figure 1 3 2 Lexico3 et les textes chinois Dans ses versions actuelles 3 5 0 2 Lexico3 manipule des cha nes de caract res cod s sur un seul octet Cette limite qui est en voie d tre d pass e n entra ne cependant pas l impossibilit de traiter des cha nes de caract res cod es sur plusieurs octets Comm
24. e on comprend en les comparant octet par octet il est possible de conclure que deux cha nes de caract res multioctets sont identiques ou qu elles sont diff rentes De plus les syst mes informatiques modernes permettent d afficher correctement certaines repr sentation multioctets qui ne sont pas des repr sentations unicode Pour le pr sent travail nous avons utilis un codage Chinois simplifi Mainland China propos par le logiciel Word On prend en charge ce codage sous Lexico3 en activant l article Chinois simplifi Mainland China propos par le menu Options couteau suisse de Lexico3 Les composants utilis s dans Lexico3 Edition du texte Concordances Carte des sections etc affichent ce codage correctement lorsqu on choisit de le visualiser avec le codage Chinois GB2313 des navigateurs Bouton droit gt Codage gt Plus gt Chinois simplifi GB2312 A l instar de tr s nombreux syst mes d criture parmi lesquels ceux de l antiquit latin grec h breu sum rien etc Un grand nombre de syst mes d criture occidentaux dont le syst me du fran ais ont utilis jusqu une date r cente le code ASCII 127 caract res puis le code ASCII tendu 255 caract res qui permettait de coder en outre les voyelles accentu es du fran ais Nous avons utilis pour cette tude la version 2003 du logiciel Word distribu par Microsoft 7 Plusieurs versions de la s rie Lexico e
25. elle a des l vres pales et grosses qui ne parviennent pas se rejoindre et qui sourient avec timidit elle couve l enfant des yeux des yeux tr s bleus tr s vagues o la prunelle est un point tout petit mais infiniment tendre Ak MERE BS UE 2 OUS Gp UE HU SE T B RE Hee TE RE AE Rx ONDE BS Be WD TR T B AE EH AR K E d XK XXE de 09 53b By HUS l enfant s veille et pleure son regard trouble s agite quelle pouvante les t n bres l clat brutal de la lampe les hallucinations d un cerveau peine d gag du chaos la nuit touffante et grouillante qui l entoure l ombre sans fond d o se d tachent comme des jets aveuglants de lumi re des sensations aigu s des douleurs des fant mes ces figures normes qui se penchent sur lu
26. ermes de la correspondance peuvent tre tendus par l utilisation du syst me des expressions rationnelles Dans notre cas le motif vie iu permet de localiser toutes les occurrences des formes d taill es plus haut Comparaisons textom triques de traductions franco chinoises 15 Tableau 6 Alignement en paragraphes sur les deux volets du corpus le grondement du fleuve monte derri re la maison la pluie bat les carreaux depuis le commencement du jour une bu e d eau ruisselle sur la vitre au coin f l le jour jaun tre s teint il fait ti de et fade dans la chambre 3178 JE B EX BKE WE RA D RAR MH BEDRE Bz le nouveau n s agite dans son berceau bien que le vieux ait laiss pour entrer ses sabots la porte son pas a fait craquer le plancher l enfant commence geindre la m re se penche hors de son lit afin de le rassurer et le grand p re allume la lampe en t tonnant pour que le petit n ait pas peur de la nuit la flamme claire la figure rouge du vieux jean michel sa barbe blanche et rude son air bourru et ses yeux vifs il vient pr s du berceau son manteau sent le mouill il traine en marchant ses gros chaussons bleus louisa lui fait signe de ne pas s approcher elle est d un blond presque blanc ses traits sont tir s sa douce figure mouton est marqu e de taches de rousseur
27. i ces yeux qui le p n trent qui s enfoncent en lui et qu il ne comprend pas il n a pas la force de crier la terreur le cloue immobile les yeux la bouche ouverts soufflant du fond de la gorge sa grosse t te boursoufl e se plisse de grimaces lamentables et grotesques la peau de sa figure et de ses mains est brune violac e avec des taches jaun tres BE OT L HUR E RES R ERR ED Me 16 Explorations textom triques Pour rendre le sens vaguement p joratif associ en fran ais vieux v tement il faut en chinois avoir recours d autres mots La traduction mot mot en chinois de vieux rideau et vieille caisse ne signifierait pas forc ment que les objets consid r s
28. n cours d ach vement permettent d j de traiter les cha nes de caract res unicodes Le logiciel MKAlign d velopp par S Fleury dans l quipe Syled Cla2t permet galement de traiter les textes encod s sous ces formats Comparaisons fextom triques de traductions franco chinoises 5 Conversion de fichier MianG6mcf txt A xl Choisissez le codage utiliser pour rendre ce document lisible Codage de texte C Windows par d faut C MS DOS Autre codage Arabe Windows Direction du document ASCII E U Baltique Windows Canadien fran ais DOS Chinois simplifi Chinois simplifi GB2312 C De droite gauche De gauche droite Aper u lt version chinois L A 6 EG LH EX JTE Ste E RENE RAA EUR SE T FE AT RAT EN HE AA 7 4 4D A Z JL x 39508 oc ea ed dia ub Qm e F Up A 4E 8 ET BER A R SRE ST JR UE moule X SE S eS BTERRE E mua TUE SHELL K pus JS TET ah dA cwniAd nh ag v6 EE mue PA Figure 1 Word 2003 Param trage de l enregistrement du texte Lexico3 TextPloreur nl Fichier Traitement Fen tre ss e gt ra Navigation Rapport Dictionnaire S lectionnez une couleur Es Recherche Formes ordre FrRiuence uuu seks m mus GE B 2197 E KZ
29. oduisons les mots et sur la carte des sections d coup es partir du texte chinois La comparaison des deux volets montre que la correspondance est loin d tre parfaite On a rassembl dans le tableau 8 des paires s lectionn es partir du concept frangais vieux qui se trouvent tre en rapport de traduction avec des expressions chinoises L analyse des discordances dans la localisation de ces formes r v le avant tout un cart entre le champ s mantique du mot fran ais vieux et celui du hanzi chinois lao vieux ancien etc En fran ais le mot vieux poss de un lien troit avec l ge et le temps mais il v hicule aussi une valeur parfois p jorative lorsqu il s applique des objets ou des personnes dans certains contextes vieux v tements vieille caisse En chinois tout au contraire le mot dont le champ s mantique est un peu plus large est employ pour d signer des personnes anciennes respectables honorables professeur vieux ma tre Cet alignement a t r alis en utilisant le logiciel MKAlign propos par Serge Fleury ce logiciel peut tre t l charg sur le site http tal univ paris3 fr mkAlign mkAlignDOC htm 1 Maria Zimina Poirot a tudi dans sa th se Zimina 2004 des correspondances traductionnelles de ce type Les logiciels de textom trie permettent d sormais l tude syst matique de ce genre de correspondances traductionnelles Les t
30. pour faire saisir leurs lecteurs les diff rents sens nuances et connotations v hicul s par le texte d origine 8 R f rences ALLETON V 1997 L criture chinoise lt Que sais je 5 dition corrig e 1 dition 1970 Paris Presses universitaires de France FU LEI 8 1998 La grande s rie de la traduction de Fu Lei fE BE X He fei ditions de l art d An Hui FLEURY S MKAlign Manuel d utilisation http tal univ paris3 fr mkAlign mkAlignDOC htm GRANGER S LEROT J PETCH TYSON S eds 2003 Corpus based Approaches to Contrastive Linguistics and Translation Studies Amsterdam New York Editions Rodopi HABERT B NAZARENKO A et SALEM A 1997 Les linguistiques de corpus Paris Armand Colin Masson HOA M 2005 C est du chinois I volume Lire et crire 3 dition Paris dition You Feng LEBART L SALEM A Statistique textuelle Paris Dunod 1994 t l chargeable sur le site http www cavi univ paris3 fr lexicometrica livre st94 st94 tdm html OLOHAN M 2004 Introducing Corpora in Translation Studies London and New York Routledge SALEM A Introduction la r sonance textuelle Actes des 7 mes Journ es d analyse des donn es textuelles Louvain la neuve 2004 WEI N et alii 2005 Corpora in use JEMA Shanghai ditions de l enseignement des langues trang res de Shanghai ZIMINA M 2004 Approches
31. quantitatives de l extraction de ressources traductionnelles partir de corpus parall les Th se de doctorat Universit de la Sorbonne nouvelle Paris3 ZIMINA M 2005 Topographie bi textuelle et approches quantitatives de l extraction de ressources traductionnelles partir de corpus parall les Actes des 7es Journ es scientifiques du R seau de chercheurs Lexicologie Terminologie Traduction Institut sup rieur des traducteurs et interpr tes ISTD Bruxelles ZIPF G K 1935 The Psychobiology of Language an introduction to Dynamic Philology Boston Houghton Mifflin ZHOU Q DUAN H 2007 Traitement de segmentation et de marquage des mots dans les corpus chinois modernes Z fCZKiE ZEE ALL PHI iE i EERE disponible sur http hi baidu com Jagard blog item dcdb653844f4842097ddd8ec html 20 Explorations textom triques 9 Fonctionnalit s Lexico3 utilis es dans cette exploration N Fonctionnalit R sultat 5 5 Courbe d accroissement des caract res hanzis Figure 5 5 Principales caract riques lexicom triques PCLC Tableau 4 5 5 Accroissement du vocabulaire chinois et fran ais Figure 6 5 4 Diagramme de Pareto chinois et fran ais Figure 7 7 Carte des sections volets fran ais et chinois Figure 8
32. ract res hanzi les probl mes li s l informatisation des Systemes d critures complexes ont t d pass s par la mise en place de normes internationales telle la norme Unicode et de technologies permettant la saisie et l affichage Les auteurs remercient Kim Gerdes Serge Fleury et C dric Lamalle pour leur aide et leurs conseils pr cieux dans la r alisation de ce travail 25 02 2008 2 Explorations textom triques de textes crits dans des langues jusqu alors difficilement accessibles au traitement sur ordinateur Ces avanc es technologiques ouvrent la voie un formidable d veloppement des tudes textuelles appliqu es des gisements textuels que les codages traditionnels taient incapables de prendre en charge Au del de l exploration des corpus lectroniques des fins de recherches linguistiques ou sociolinguistiques la fouille de donn es textuelles concerne dor navant un tr s vaste ensemble de textes saisis dans le cadre d activit s entreprises dans tous les secteurs de la vie socio conomique d un pays en plein d veloppement L tude de bitextes dont l un des volets est constitu par la traduction de l autre constitue une entr e privil gi e dans le domaine des tudes comparatives entre textes r dig s dans des langues diff rentes Dans ce cas en effet les caract ristiques quantitatives calcul es partir de chacun des volets du corpus peuvent tre directement utilis es pour cerner
33. rd trouble 1 T BH RE AL AR RE RANTE FX OX IA A bon dieu qu il est laid fit le vieux d un ton convaincu il alla reposer la lampe sur la table Figure 9 Visualisation des correspondances de vieux et dans le bitexte l aide du logiciel mkAlign La localisation des concordances et des discordances dans la localisation des termes qui qui sont r put s constituer des quivalences traductionnelles permet d approfondir l tude traductologique et de mieux cerner les techniques propres chaque traducteur pour rendre compte du sens v hicul par le texte source Tableau 8 Traductions attest es dans le volet chinois pour le terme vieux fran ais traduction chinoise fran ais traduction chinoise vieille maison IAE maison ancienne de vieux amis vieille ficelle IF ficelle usag e vieux grand p re de vieux habits V tements usag s vieux grand pere vieux veston bleu veston usag le vieux jean michel vieille chanson m lodie ancienne le vieux vieille chanson chanson ancienne pauvre vieux vieil escalier RUE FERE escalier noir vieilles dames vieux rideau rideau usag vieilles dames vieille caisse caisse abim e il vieillissait
34. rents Un quart environ de ces caract res soit 579 ne Comparaisons textom triques de traductions franco chinoises 9 trouvent qu une seule occurrence dans le corpus Le caract re le plus fr quent est le caract re qui correspond plus ou moins la pr position de en frangais La figure 5 qui rend compte de l apparition de nouveaux caract res au fur et mesure que l on parcourt le texte permet de pr ciser ces observations La courbe d accroissement r alis e partir des caract res hanzis montre qu on atteint d s les 5 000 premiers caract res du texte le seuil de 1 000 caract res diff rents Les 5 000 caract res suivants n apportent que 500 nouveaux hanzis Comme dans le cas des courbes d accroissement de vocabulaire constitu es partir des mots les tranches successives apportent de moins en moins d unit s nouvelles Dans le cas des hanzis cependant on peut remarquer que l accroissement initial est plus fort que dans le cas des courbe d accroissement r alis es partir d unit s lexicales cf 5 infra Accroissement de vocabulaire Corpus entier 2 400 2300 2200 2100 I j aa 1 900 I i 1 1 800 1700 1 600 1 500 1 400 Nombre de formes diff rentes t9 in we CD e ea ND w eo eco ec e ec to QU eoo e a g a O a ae 5000 10000 15000 20000 25000 30000 35000 40000 45000 50000 55000 Position dans le texte nombre d occurrences Figure 5 Apparition progre
35. ropre Mais en combinaison avec le caract re 45 hua fleur le mot qui d signe toujours le jasmin renvoie la fleur de l arbuste On peut consid rer le caract re cha th comme un mot monosyllabique Mais pr c d par le caract re hua fleur on peut galement consid rer que les caract res combin s hua cha th aux fleurs qui sont diff rents de l ch th vert ou de h ng ch th noir forment un nouveau mot 2 3 Les phrases et la ponctuation Comme dans le cas des mots il est difficile de d finir clairement les limites de la phrase chinoise Les d finitions et les classifications de la phrase que l on trouve dans les grammaires chinoises phrases nonciatives interrogatives imp ratives exclamatives etc permettent difficilement de segmenter un texte en phrases de mani re automatis e La ponctuation est d usage r cent en chinois En 1919 on a commenc utiliser la ponctuation moderne en se r f rant au syst me de ponctuation occidental Le syst me utilis actuellement conserve la trace des r formes successives de l criture chinoise C est pourquoi 4 Explorations textom triques la ponctuation chinoise moderne malgr ses similarit s avec celle utilis e en occident reste distincte de cette derni re L utilit des rep res li s la notation de la ponctuation chinoise est d autant plus importante que comme on s en souvient les mots ou plut t les c
36. s ng grande for t Chaque caractere v hicule une signification mais ne constitue pas n cessairement lui seul un mot Certains caract res changent de sens dans la combinaison avec d autres dong Est E8 xi Ouest d ngxi chose 2 Le Consortium Unicode et l ISO consid rent que les caract res chinois cor ens et japonais sont les m mes que seuls les glyphes diff rent On peut rapprocher cette diff rence d aspect des traditions diff rentes qui ont longtemps pr valu en allemand police de caract res gothique en fran ais police s rifs et en anglais police sans s rifs Les caract res sont cod s de la m me facon Chaque tradition utilise une police appropri e pour afficher les caract res dans le style qui convient le mieux aux habitudes locales Apr s l tablissement de la R publique Populaire de Chine en 1949 les autorit s ont entrepris des efforts pour simplifier les caract res chinois En 1955 le Comit pour la R forme de l criture Wenzi gaige wei yuanhui a publi une proposition de caract res simplifi s En 1964 il a publi une deuxi me liste de simplifications Cette derni re liste r gle actuellement l emploi des caract res chinois C par exemple ALLETON 1997 p 11 18 Comparaisons textom triques de traductions franco chinoises 3 2 2 Les mots chinois C est la combinaison de deux caract res ou parfois de trois caract res qui constitue le mot ni fu
37. sont en mauvais tat mais soulignerait simplement leur anciennet sans liaison explicite avec leur tat au moment du r cit Fu Lei emploie po ab m d chir et po jiu ab m us d chir etc pour rendre accessible aux lecteurs chinois le sens original Tableau 7 Extrait de la concordance autour du p le lao vieux ER SRE RES BU DIR EOS fb o RERE
38. ssive des caract res dans le volet chinois 4 2 Segmentation automatique en lt mots gt Certains professionnels du Traitement Automatique des Langues proposent sur le web des proc dures qui permettent de d couper un texte chinois en mots Dans cette section nous utiliserons un d coupage automatique en mots r alis par un logiciel de segmentation sp cialement congu pour les textes chinois On peut voir au tableau 3 le r sultat de cette segmentation en mots r alis e partir de l extrait de texte pr sent au tableau 1 10 Pour cette premi re tude nous avons utilis le logiciel Hailanda Segmentation intelligente version d essai r alis par le Centre d intelligence artificielle Hailanda disponible l adresse suivante http www mydown com code 234 234301 html En plus de la segmentation ce logiciel r alise une cat gorisation des mots du texte orient e vers la recherche d information technico commerciale Nous n avons pas utilis cette cat gorisation pour notre tude Il existe d autres logiciels de segmentation du chinois que l on peut trouver sur l Internet ICTCLAS Institute of Computing Technology Chinese Lexical Analysis System et 10 Explorations textom triques Tableau 3 Extrait du volet chinois JC1 Chin segment en mots Chaque mot isol par le logiciel Hailanda est suivi d un blanc L ER Ej EX amp
39. trique entre textes chinois et textes frangais Cependant ces r sultats pr sent s dans le but de fournir une comparaison sur deux syst mes d criture tr s diff rents doivent tre pris avec de grandes pr cautions Nous tudierons par la suite l influence que peut avoir la lemmatisation de chacune des listes de formes sur les r sultats produits de la sorte ainsi par exemple la fr quence de la forme chinoise la plus fr quente 2313 occ renvoie la forme francaise de 1578 occ mais aussi aux formes du 243 occ des 447 occ etc 12 Explorations textom triques vocabulaire chinois au fil du texte Le fait que ce texte comporte moins d occurrences est responsable de l interruption de la courbe correspondante abscisse 34 743 avant la courbe qui correspond au texte fran ais abscisse 39 666 La courbe correspondant l apparition de nouveaux mots chinois est situ e d s que l on atteint le premier tiers du corpus largement au dessus de celle qui correspond l apparition des mots fran ais ce qui confirme l existence d un plus grand nombre de formes en chinois On peut remarquer que des paliers cr s par le ralentissement de l accroissement du vocabulaire au cours du r cit peuvent tre mis en rapport d une courbe l autre Au ralentissement qui survient sur la courbe correspondant au texte fran ais abscisse 20 000 correspond un ralentissent dans la traduction chinoise abscisse 17 000 A celui qui
40. tta uc rl Ne zl Figure2 Lexico 3 Affichage du texte avec le codage Chinois simplifi GB2312 6 Explorations textom triques Options e xl Segmentation Musiques Nombre maximum d articles fi 00000 Nombre des tiquettes en test 1 Police d affichage Chinois simplifi Mainland China Figure 3 Lexico 3 Fen tre de r glage du param tre lt encodage des caract res gt 4 Un corpus d application Pour illustrer ces possibilit s nous utiliserons un corpus bilingue dont le volet frangais est constitu par le premier chapitre du roman Jean Christophe publi en 1904 par Romain Rolland 1866 1944 On trouve au tableau 1 ci dessous un extrait du texte original de Romain Rolland Le second volet du corpus est constitu par la traduction de ce texte en chinois par Fu Lei 1908 1966 Nous appellerons respectivement ces deux corpus JC1 Francais et JCI1 Chinois 41 Segmentation du texte en caract res Comme on l a vu plus haut sans que cela constitue une g ne pour le lecteur exp riment le systeme d criture chinois n utilise pas d espace entre les unit s lexicales plac es c te c te Cette circonstance constitue une difficult sp cifique pour l exploitation textom trique des textes chinois Sur quels crit res peut on s appuyer pour d couper des unit s statistiques au fil du texte afin de r aliser des comparaisons entre textes Pour cette premi re analyse nous nous appuierons
Download Pdf Manuals
Related Search
Related Contents
Sommaire détaillé Full Text - IAEA Publications - International Atomic Energy Agency Manuale INSTRUCCIONES DE INSTALACIÓN de Puertas de Madera para BACOU SOLANUM S1P SRC Adept MV Controller User`s Guide SECO-LARM USA Enforcer EV-2240-N3B User's Manual Access controller user`s manual (Single door access control with LevelOne POC-4000 network chassis Copyright © All rights reserved.
Failed to retrieve file