Home

Comparaison de manuscrits sanskrits 1. Introduction

image

Contents

1. al ulnin o rw DIR ol aU ulnin o BI aA RPS PRP Sfmt Oo Bw A xlix alae ols o lolo l olol sisi Bio SIS ojl olol o o SIPS SS S S S is a n DP dO ol wf HK oo O A S of S S S Sy Ss w ESS EN Tableau 3 Chemins LCS entre MOURIR et D AMOUR Revue MODULAD 2005 17 Num ro 33 Dans cet exemple il existe une seule plus longue s quence commune et les deux chemins indiqu s correspondant aux deux alignements optimaux sont RIR MOURIR R D AMOU R La longueur de cette plus longue s quence commune tant gale 4 la distance entre mourir et d amour est 6 7 2 4 6 7 5 13 0 385 En ce qui concerne les diff rences entre tournures de phrase nous avons adapt l algorithme DIFF sans augmenter sa complexit algorithmique Notre approche implique videment d avoir d fini dans les deux textes compar s une unit lexicale appel e MOT Nous proposons de reconna tre les phrases quivalentes avec un algorithme qui consiste d abord calculer les distances entre chaque paire de mots issus des deux phrases Puis l algorithme calcule la distance entre les deux phrases comme tant le poids minimum d un chemin hamiltonien dans le graphe biparti complet qui est d fini de la mani re suivante chaque partie du graphe biparti repr sente une phrase chaque sommet un mot d une des deux phrases et chaque ar te qui relie donc
2. lt lt plutas svaritas dvis_vacanaml k 3pta_ sikhas pra_k Iptas Figure 7 R sultats de l algorithme de Gale Church 4 3 Les alignements via les LCS Revue MODULAD 2005 14 Num ro 33 Les alignements via la m thode LCS rel vent du cadre g n ral du calcul des distances d dition dont le prototype est la distance de Levenshtein Rappelons que la distance de Levenshtein a pour but de d terminer le co t total minimal des op rations n cessaires pour transformer une cha ne de caract res en une autre ce co t total tant gal la somme des co ts des op rations l mentaires Les op rations l mentaires autoris es sont au nombre de trois ajout suppression et substitution Consid rons l exemple suivant qui consiste comparer les cha nes ATGCTA et ACGA en supposant que toutes les op rations l mentaires autoris es poss dent un co t unitaire gal 1 Le tableau 1 ci dessous montre le calcul de la distance de Levenshtein entre les cha nes ATGCTA et ACGA not es respectivement CH1 et CH2 Ce calcul est effectu selon la m thode de la programmation dynamique Plus pr cis ment chaque case t i j du tableau 1 contient la distance d dition entre les 1 premi res lettre de CH1 et les j premi res lettres de CH2 c est dire indique le nombre minimum d op rations n cessaires pour passer d une cha ne l autre Le tableau se remplit en partant de la case du coin haut gauche Da
3. 2005 6 Num ro 33 certains caract res la place d autres ce qui donne lieu des manuscrits qui diff rent entre eux seulement en leurs formes 2 3 L affichage du sanskrit et Unicode Dans ce qui suit nous donnons un aper u du contexte dans lequel ces probl mes se posent et nous esquissons la mani re actuelle de les traiter Si la possibilit d imprimer l aide de l informatique des textes crits en sanskrit existe depuis longtemps gr ce TeX l affichage des caract res sanskrits sur le Web n est devenu possible que gr ce au standard Unicode Unicode n du d sir de trouver un standard d affichage qui permette de prendre en compte les langues chinoise et japonaise est un syst me de codage dont l origine remonte aux ann es 1990 L ambition d Unicode UNI est de fournir un seul et unique syst me de codage qui prenne en compte l ensemble des caract res existant de par le monde Unicode nous permet de m ler dans un m me texte et de mani re simple des caract res chinois des hi roglyphes gyptiens de l anglais du fran ais et du grec ancien Malgr tous ses d fauts dont le principal est d ignorer trop superbement la notion de glyphe Unicode semble une tentative r ussie Chacun des caract res recens s par Unicode re oit un code sur 21 bits ce code tant naturellement unique Les codages se font par ensemble relatif une langue ou un ensemble de langues Par exemple le codage LATIN 1 quivalent
4. ristiques graphiques l mentaires du sanskrit qui vont rendre plus difficile la cr ation d une dition critique La premi re est que la graphie des lettres du Sanskrit ne nous est pas famili re ce n est pas l alphabet latin La seconde est que les blancs sont minemment rares dans ce texte de longues s quences de lettres pouvant appara tre de mani re quasi continue Nous pouvons d j imaginer l effet de ce manque de s paration entre les mots sur la complexit des op rations de comparaison de deux manuscrits Remarquons enfin que les lettres sont li es entre elles par une barre horizontale appel e mantra la m re La graphie utilis e dans ce manuscrit est la Devanagari eaea TATATA ee AEAEE tA a Srv erect ware THEY ATR A Ao HASTE AS AE HIST ATA SAT PHU ATT mma MARE HAE TELAT WAR ARTIS RIAR RETENE Some EL TORTUE a gt Pr ro arr da IAAT RE ou TETE TTS A Figure 4 Un manuscrit Sanskrit Le sanskrit n est pas la seule langue pouvoir s crire sans espace entre les mots Par exemple les pigraphies latines qui ont t conserv es ne comportent pas d espace et restent lisibles mais sur une courte longueur Bien souvent les manuscrits crits en minuscules carolingiennes voire en onciales ne comportent pas de blanc eux non plus mais en revanche ils deviennent rapidement incompr hensibles pass le premier mot En ce qui concerne le sanskrit et les langues d une graphie apparent e l absence d
5. assist e d dition critique en d crivant pr cis ment les crit res sur lesquels se fondent la comparaison des textes sanskrits Puis nous consid rons l application ce contexte de techniques relevant de l analyse de donn es que l dition critique informatis e rend possible en vue notamment de d terminer au moins partiellement la filiation des manuscrits l aide d arbres phylog n tiques ou encore l aide de m thodes de classification des manuscrits kharosthi ET a 3 hane LR ouc Brahmapoutra BORNEO Figure 1 La transmission de la graphie du sanskrit 2 Le Sanskrit Le Sanskrit fait partie des langues dites indo europ ennes au m me titre que le fran ais C est une langue ancienne de l Inde qui est devenue au cours des ann es non seulement une langue liturgique mais aussi la Lingua Franca des lettr s indiens les pandits De nos jours encore deux Revue MODULAD 2005 2 Num ro 33 pandits venant du nord et du sud de l Inde et ne parlant pas la m me langue vont converser en sanskrit s ils voquent des sujets de philosophie de religion Ils utiliseront plus naturellement l anglais lorsqu ils discuteront d horaires d avion ou des qualit s d une automobile Deux ph nom nes historiques diff rents ont influenc l criture du sanskrit D une part du fait de l extension de la culture indienne au cours des premiers si cles de notre re dans toutes l Asie du sud est u
6. en fonction des diff rentes sources possibles Le choix du texte d une dition critique rel ve de l diteur qui apr s comparaison des manuscrits peut aussi bien retenir un manuscrit particulier que proposer un texte moyen obtenu partir de plusieurs manuscrits La comparaison deux deux des variantes d un texte tant un travail des plus fastidieux le choix du texte de l dition est donc un authentique travail de b n dictin Revue MODULAD 2005 1 Num ro 33 C est pourquoi depuis longtemps l informatique s est mise au service des diteurs critiques Malheureusement l criture de la langue sanskrite est dot e de caract ristiques qui rendent inutilisables les logiciels d dition habituels Par exemple et bien qu il puisse tre appliqu au sanskrit Edmac LAV 96 n est qu un ensemble de macros Tex qui facilitent la pr sentation de l dition Malgr ses succ s concernant l anglais OHA 93 Collate ROB 94 00 n a pas r ussi donner des r sultats satisfaisants en ce qui concerne le sanskrit Le logiciel Anastasia ANA 00 donne l universit de Munster de bons r sultats avec la graphie grecque en fournissant une dition critique lectronique interactive de l vangile selon St Jean JON 03 mais ne peut servir d autres graphies Dans ce qui suit apr s avoir expos certaines sp cificit s graphiques du sanskrit nous pr sentons les probl mes rencontr s pour cr er un logiciel de g n ration
7. forme non lemmatis e s appelle un samitapatha c est aussi le nom d une forme de r citation du sanskrit qui est dite en respectant les liaisons entre les mots Par ailleurs mentionnons que le processus de lemmatisation est utilis couramment comme pr alable a un traitement plus sophistiqu d un texte notamment dans le domaine des statistiques textuelles le lecteur int ress par ce sujet pourra consulter le chapitre 2 du livre de L Lebart et A Salem LEB 04 Enfin on pourrait croire que la lemmatisation permet de r soudre l essentiel des probl mes li s a la comparaison des textes sanskrits mais il n en est rien En effet les mots sanskrits se comportent comme des prot ines ils se transforment lorsqu ils s accolent C est ce que l on appelle des Sandhi Un m diocre exemple de sandhi est fourni en fran ais par la transformation du pr fixe privatif in en im devant un m un b ou un p par exemple on crit in dit mais immuable Plus sp cifiquement une m me s quence incluse la fois dans le padapatha et dans un manuscrit ne figure pas sous la m me forme dans ces deux documents en raison de la lemmatisation du padapatha et de l existence de sandhi Ainsi dans notre mauvais exemple fran ais il faudrait comparer in muable avec immuable Remarquons enfin qu il existe un dernier plaisir pour compliquer un peu les comparaisons les multiples r gles des copistes qui autorisent l usage de Revue MODULAD
8. l outil de base algorithmique pour r aliser les alignements est la m thode LCS i e la d termination d une plus Longue S quence Commune entre les deux parties de texte compar es La recherche d un simple alignement n est pourtant pas suffisante pour permettre d effectuer compl tement les comparaisons car il reste encore des probl mes annexes li s a la graphie du sanskrit Avant de continuer plus avant et essentiellement pour des raisons de terminologie nous pr sentons maintenant la structure en chapitres et paragraphes des textes comparer e Les textes comparer sont divis s en chapitres chaque chapitre d un manuscrit tant repr sent par un fichier e Chaque chapitre est divis en paragraphes et chaque paragraphe est porteur d un num ro La num rotation des paragraphes est unique c est dire que le num ro d un Revue MODULAD 2005 12 Num ro 33 paragraphe dans un manuscrit ne change pas dans tous les autres manuscrits o il est pr sent De plus le padapatha contient tous les num ros de paragraphes possibles dans un chapitre e Chaque paragraphe est divis en s quences une s quence d signant une suite de caract res s par s par un blanc ou un signe de ponctuation la ponctuation peut contenir des indications propres la versification Comme les blancs sont parfois plac s au hasard la notion de s quence est impr cise en sanskrit Elle est n anmoins tr s utile au profane pour p
9. la comparaison des cha nes CHI ATGCTA et CH2 ACGA on obtient le tableau 1 ci dessous A T G C _ T A 0 2 3 4 j5 6 A 1 0 Ji 2 3 4 5 c 2 1 E 2 E 3 4 Revue MODULAD 2005 15 Num ro 33 G 3 2 2 JI 2 IH 14 3 A 4 3 3 2 2 3 Tableau 1 Distance de Levenshtein Dans cet exemple il existe deux chemins ayant un co t minimal Ils sont indiqu s dans le tableau par la mise en valeur des cases qu ils traversent Les deux chemins peuvent tre d finis de fa on quivalente l aide de deux alignements repr sent s ci dessous ATGCTA ATGCTA A CGA ACG A Chaque alignement s interpr te de la fa on suivante e une paire align e du type B indique la substitution de la lettre A par la lettre B e une paire align e du type 2 indique la suppression de la lettre A e et une paire align e du type indique l insertion de la lettre B Lorsque l on donne a l op ration de substitution un co t sup rieur celui d un ajout suivi d une suppression alors l algorithme devient celui de la recherche d une plus longue s quence commune LCS Si l on utilise cet algorithme la longueur d une plus longue s quence commune est la valeur que l on trouve dans le coin bas droit du tableau l interpr tation des autres cases du tableau est identique la case i j contient la plus longue s quence commune entre les deux
10. par alignement de deux s quences l une provenant d un manuscrit sam et l autre du texte maitre le padapatha Pour effectuer chaque alignement nous nous baserons sur les distances d dition comme cela se pratique en biologie mol culaire pour les comparaisons de longues mol cules et plus particuli rement sur les distances fournies par la m thode dite de plus Longue S quence Commune Longuest Common Subsequence not e LCS Plus pr cis ment nous utiliserons la solution donn e par un des algorithmes les plus connus l algorithme DIFF d Unix HUN 77 Notons toutefois qu au vu des sp cificit s des manuscrits sanskrits l information fournie par un seul alignement sera g n ralement insuffisante pour d terminer toutes les diff rences recherch es Par ailleurs la comparaison de deux manuscrits ne peut tre qu indirecte puisqu ils sont tous les deux compar s uniquement au padapatha Pour r aliser le deuxi me objectif c est dire tablir une distance entre les manuscrits la m me difficult se pr sente Si on se limite la simple comparaison de chacun des manuscrits au Padapatha une repr sentation fid le des distances ainsi obtenues conduit n cessairement une forme en toile dont le centre serait le padapatha et il est clair que ce type d analyse ne peut conduire qu des conclusions dont l int r t reste limit 4 1 Les alignements de s quences Comme nous venons de le mentionner
11. plus courant est le syst me Velthuis qui est directement d riv de l ancien syst me de translitt ration et qui est associ un pr processeur et des fontes TeX con ues et dessin es par Franz Velthuis cet ensemble accompagn du mode d emploi ad hoc est disponible sur toutes les archives TeX TEXA Une cons quence majeure de l utilisation de la translitt ration est que les comparaisons de textes ne peuvent s effectuer directement lettre par lettre celles ci ne correspondant pas directement aux caract res latins mais seulement s quence par s quence chaque s quence correspondant la translitt ration latine d un caract re sanskrit Comme nous le verrons au paragraphe 4 l absence de caract re s parateur entre les mots augmente consid rablement la complexit algorithmique Afin de diminuer cette complexit et de rendre possible l identification des mots sur lesquels porte la diff rence entre les textes nous allons utiliser dans l dition critique un texte lemmatis c est dire une version du texte incluant des signes sp cifiques afin d indiquer les s parations entre les mots les racines les pr fixes Cette version lemmatis e du texte de l dition va servir de r f rence pour une comparaison avec tous les autres textes et se nomme dans notre contexte padapatha ce qui correspond une forme de r citation sanskrite effectu e en d tachant distinctement les mots et les syllabes La
12. son stage de Mast re 4 2 La M thode de Gale amp Church La m thode de Gale amp Church GALE 93 a pour but d aligner des phrases s mantiquement correspondantes dans un corpus bilingue Elle utilise la longueur des phrases comme crit re d alignement Bien que ce crit re soit extr mement simple il donne de tr s bons r sultats pour des langues relativement proches telles le fran ais l anglais et l allemand Ces langues ont en effet une structure de texte comparable L algorithme proc de dans son principe de la mani re suivante Tout d abord les deux textes comparer sont mis en regarden alignant les paragraphes qui se correspondent d un texte l autre Cette tape ne pr sente pas de difficult particuli re bien que de rares erreurs soient toujours possibles Puis les phrases sont align es l int rieur de chaque paragraphe L algorithme utilise le fait que des phrases longues respectivement courtes auront plut t tendance tre traduites par des phrases longues respectivement courtes Un score probabiliste bas entre autres sur le rapport des longueurs des deux phrases est mesur pour chaque paire de phrases examin e Une technique de programmation dynamique est utilis e afin de d terminer la paire de phrases qui maximise le maximum de vraisemblance d un alignement de deux phrases Notons que pour chaque paragraphe les premi res respectivement derni res phrases des deux textes sont n cessairem
13. sous chaines obtenues en extrayant respectivement les 1 et les j premiers caract res des deux cha nes compar es Consid rons l exemple suivant extrait de Charras et Lecroq CHA qui consiste d terminer l ensemble des plus longues sous s quences communes entre AGCGA et CAGATAGAG G LT AG PG 0 0 o o o o o 0 olo A 0 0 1 1 1 1 1 1 1 1 G 0 0 1 I 2 D 2 2 2 C 0 1 1 2 I 2 2 2 2 G 0 1 1 2 2 2 2 3 3 3 A 0 1 2 3 3 3 3 3 4 4 Tableau 2 Calcul d une plus Longue S quence Commune Ce tableau permet d obtenir les quatre alignements optimaux suivants tous relatifs la m me plus longue s quence commune AGGA Revue MODULAD 2005 16 Num ro 33 AGC GA AG C GA CAG ATAGAG CAGA TAGAG AG C GA AG CGA CAGAT AGAG CAGATA GAG 4 4 La construction des distances entre les manuscrits La comparaison de deux manuscrits s effectue sur la base d un d coupage en mots des deux textes qui est obtenu apr s avoir compar chacun d eux avec le texte lemmatis padapatha La proc dure de comparaison s effectue s quentiellement selon l ordre des mots du padapatha Les diff rences sont de trois types celles qui apparaissent entre deux mots celles qui sont relatives aux assemblages de mots tournures de phrases et qui ressemblent la diff rence existant entre d amour mourir me font en lieu et place de m
14. Comparaison de manuscrits sanskrits dition critique et classification Marc Csernel Patrice Bertrand Inria Rocquencourt amp Universit Paris IX Dauphine Domaine de Voluceau BP 105 78 153 Le Chesnay Cedex France Marc Csernel inria fr GET ENST Bretagne Umr Tamcic amp Dept Lussi Technop le Brest Iroise CS 83818 29 238 Brest Cedex 3 France Patrice Bertrand enst bretagne fr R sum Face une collection de manuscrits retranscrivant un m me texte fr quemment dispers s dans le temps et l espace le chercheur a recours l dition critique afin de prendre en compte tous les aspects du texte En vue de faciliter leurs cr ations et d offrir de nouvelles possibilit s en mati re d analyse et d interactivit quelques ditions critiques informatis es ont d j t propos es Dans cet article nous nous int ressons au cas de l dition critique lectronique de manuscrits crits en sanskrit Nous commen ons par d crire les sp cificit s du sanskrit qui soul vent un ensemble de probl mes touchant aussi bien la typographie qu l informatique et l analyse de donn es Puis nous pr sentons bri vement les solutions informatiques actuelles permettant d adapter les traitements la typographie et la syntaxe particuli re au sanskrit Enfin nous proposons une approche automatique pour identifier et valuer les diff rences entre deux manuscrits en vue notamment de d crire les relations de f
15. Flex Le module en langage C g n r par FLEX peut tre associ n importe quel autre module de mani re former un programme Chacun des automates reconna t une des expressions r guli res donn es et peut associer cette expression une s quence d instructions C sp cifique insertion s mantique Dans FLEX les expressions r guli res peuvent tre reconnues au sein de deux contextes le contexte gauche et le contexte droit Nous ne consid rons ici que le contexte droit qui est le plus simple utiliser Ce contexte est indiqu sous FLEX par le signe Ainsi l expression r guli re Revue MODULAD 2005 10 Num ro 33 abc reconna t abe partout dans un texte alors que l expression r guli re abc def reconna t abe dans un texte uniquement quand il est suivi de def Les expressions r guli res peuvent tre utilis es dans FLEX de nombreuses fins mais en ce qui nous concerne nous les utilisons essentiellement dans 3 buts e garder le texte reconnu par les expressions en ignorant le texte non reconnu e ignorer le texte reconnu par les expressions en gardant le texte non reconnu e coder des expressions reconnues Nous utilisons le codage a la fois pour coder les caract res de l alphabet Velthuis et pour effectuer certaines transformations de sandhi en nous servant du contexte droit qui est parfaitement adapt la reconnaissance des sandhi Pour finir voici une s rie d exemples d expressi
16. au codage Iso latin1 est couramment utilis pour les langues de l ouest europ en y compris pour le fran ais mais condition de lui adjoindre le codage LATIN ETENDU A qui permet d afficher entre autres le caract re cf le mot c ur Tous les caract res Unicode ne sont pas log s a la m me enseigne Le codage d un certain nombre de caract res commence par un nombre cons quent de z ro ce qui permet lorsqu aucune ambigu t n est craindre de les repr senter dans un format beaucoup plus court que 21 bits C est le cas en particulier des caract res ASCII mais aussi des caract res indiens tels ceux de la graphie Devanagari N anmoins les caract res Unicode sont un peu comme les dieux du panth on indien ils apparaissent plus souvent sous la forme de leurs avatars que sous leur forme propre De fait nous ne voyons jamais de codes Unicode mais uniquement leurs repr sentations Il existe trois repr sentations majeures qui s expriment par paquets de 8 16 ou 32 bits La forme la plus utilis e est la forme 8 bits car elle permet d afficher les caract res ASCII tel quel et procure en moyenne une meilleure compacit Les caract res autres que ceux de l Ascii sont cod s en utilisant plusieurs l ments successifs de 8 bits Pour la Devanagari qui nous concerne il faut deux ou trois paquets de huit bits pour coder chaque caract re Le lecteur curieux et int ress par ces probl mes peut consulter les chapit
17. deux mots des deux phrases est valu e par la distance entre ces deux mots En transposant au fran ais il faut pouvoir retrouver d amour mourir me font en lieu et place de me font mourir d amour pour paraphraser le bourgeois gentilhomme POQ 98 Le tableau 4 permet de calculer la distance selon cette m thode entre les deux phrases Nous pouvons constater que chaque ligne contient une distance gale 0 et par cons quent il existe un hamiltonien de poids nul les deux phrases sont quivalentes me font mourir d amour d amour 0 778 0 818 0 385 0 000 mourir 0 750 0 800 0 000 0 385 me 0 000 1 000 0 750 0 778 font 1 000 0 000 0 800 0 818 Tableau 4 Distance entre deux phrases Il appara t donc que la d finition de notre dissimilarit intertextuelle d pend de plusieurs facteurs distances entre mots distances entre phrases dissimilarit s entre paragraphes que nous n avons fait qu voquer pans de phrases oubli s ainsi que des dissimilarit s g n r es par les m ta donn es accessibles couleur de l encre style de graphie qui est un autre aspect galement voqu 5 Conclusion La masse consid rable d informations trait es par les r cents logiciels d dition critique cf OHA 93 ROB 94 00 LAV 96 et ANA 00 conduit diverses questions d analyse de donn es exploratoire qui sont souvent sp cifiques de l uvre tudi e et du langage utilis Il est p
18. e blanc rend dans certains cas les textes ambigus et c est l parfois un effet de style recherch Une Le site de la Biblioth que Nationale de France BNF contient une description des d buts de l criture de notre langue dont on pourra admirer les exemples pr sent s Revue MODULAD 2005 5 Num ro 33 d sambigu sation automatique des textes dont la graphie d rive du sanskrit a t tudi e par Del Vigna et Berment au sujet du Lao DEL 03 2 2 L utilisation de code translitt r La translitt ration consiste crire le sanskrit suivant l alphabet latin en faisant correspondre chaque lettre sanskrit une s quence de lettres latines La translitt ration du sanskrit a d abord t mise au point par l administration britannique la suite des travaux de Sir William Jones afin de pouvoir imprimer du sanskrit voire de l hindi en se servant des fontes de caract res usuelles pour l anglais l alphabet latin Cette translitt ration qui poss de son histoire propre est approximativement conforme la prononciation du sanskrit et est assez facilement compr hensible et utilisable pour un locuteur de cette langue Ce type de translitt ration tait n anmoins peu adapt la saisie et l affichage par ordinateur l aide des logiciels auxquels nous sommes habitu s pour afficher les caract res ascii Il a donc fallu cr er de nouveaux syst mes de translitt ration adapt s cette fin Actuellement le
19. e font mourir d amour et enfin celles qui concernent les pans de phrase rajout s ou oubli s par un scribe L identification de ces pans de phrases consiste d terminer les endroits o s arr tent les parties de texte oubli es ou rajout es ce qui entra ne une importante difficult algorithmique Pour comparer deux mots nous calculons la longueur d une plus longue s quence commune LCS l aide de l approche pr sent e au paragraphe pr c dent Plus pr cis ment nous proposons de calculer la distance entre deux mots x et y en utilisant la formule suivante x ly 2 LCS x y RD ou LCS x y d signe la longueur d une plus longue s quence commune entre x et y Le tableau 3 illustre ce type de comparaison entre mourir et d amour Ce tableau se lit de la mani re suivante la premi re ligne contient les indices de colonne correspondant aux caract res du mot d amour La premi re colonne comprend les m mes informations pour le mot mourir La seconde ligne contient le premier des mots comparer M1 d amour la seconde colonne le second mot a comparer M2 mourir Chaque case du tableau d indice n m contient le nombre de caract res communs entre les n premiers caract res de M1 et les m premiers caract res de M2 Le tableau est bati suivant l algorithme de la programmation dynamique Le coin inf rieur droit du tableau contient le nombre de caract res d une plus longue s quence commune 7
20. elles s quences e Traiter et faire dispara tre les m ta donn es du samitaptha du texte de la comparaison e Faire apparaitre les s quences du texte en tenant compte des s quences ajout es pour le padapatha e Pour le padapatha o Faire appara tre les Sandhi du padapatha e Reconnaitre les caract res Velthuis Lorsque tous ces pr traitements ont t r alis s la comparaison des textes sanskrits peut alors commencer caract re par caract re 3 2 Les expressions r guli res et l utilisation de FLEX Nous n avons pas l intention de donner ici une d finition pr cise et d taill e de la th orie des langages et par cons quent les d finitions manquantes resteront dans le flou de la langue commune La notion d expression r guli re peut tre d finie de la mani re suivante Soit V un ensemble de lettres appel vocabulaire terminal ou alphabet que l on suppose muni d une op ration de concat nation not e parfois ou non not e s il n y a pas d ambiguit d une op ration d alternance appel ou et not l et enfin d un op rateur de r p tition not appel aussi toile de Kleene Les l ments de la cl ture de l ensemble V par ces trois op rateurs sont appel s expressions r guli res En d autres termes les expressions r guli res se d finissent par r currence l aide des deux r gles suivantes Toute lettre appartenant V est une expre
21. ent align es Remarquons enfin que l algorithme ne Revue MODULAD 2005 13 Num ro 33 recherche pas seulement les co ncidences entre deux phrases mais aussi entre une phrase et deux autres cons cutives voire entre deux phrases cons cutives et deux autres galement cons cutives Bien que les deux textes comparer soient dans notre cas crits chacun en sanskrit leur ensemble s apparente un texte bilingue D une part le padapatha contient des signes de lemmatisation absents du samitapatha et d autre part le samitapatha contient des annotations en anglais crites par le pandit qui effectue la saisie et qui peuvent allonger le texte de mani re notable Les r sultats de l algorithme de Gale amp Church sont tout fait satisfaisants au niveau des s quences texte s par par un blanc ou un signe de ponctuation La figure 7 contient les r sultats que fournit cet algorithme Chaque ligne du samitapatha est pr c d e du symbole gt gt et chaque ligne du padapatha est pr c d de lt lt On peut constater que les alignements se font convenablement m me lorsque du texte anglais se m le au sanskrit et que deux lignes du samitapatha correspondent une seule ligne du padapatha gt gt r l ityetau var naavupadi sya puurvaa m scaante kakaaramita m karoti lt lt r l ititetau var nau upa di sya puurvaan ca ante ka_kaaram itam karoti gt gt pratyaahaaraarthaml tasya graha na m bhavati gt gt aft
22. erc tribhi h aka h savar ne diirgha h lt lt prati aa haara_arthaml tasya graha nam bhavati tribhis akas sa_var ne gt gt beforec tribhiraka h savar ne diirgha h gt gt 6 1 101 ityakaare na iko gu nav rddhii 1 1 3 lt lt diirgha h 6 1 101 itita_kaare na ikas gu na_v rddhii 1 1 3 gt gt afterc itiikarina beforec itiikaare na ugita sca 4 1 6 ityukaare nal akaaraadayovar naa h lt lt iti i_kaare na uk_itas ca 4 1 6 ititu_kaare nal a_kaara_aadayas var naas gt gt pracuraprayogavi sayaaste saa m suj naanamupade se prayojanaml lt lt pracura_pra yoga_vi sayaas te saam su_j naanam upa de se pra yojanaml gt gt lkaarastu k lpistha eva prayujyatel k lpe sca puurvatraasiddham lt lt _kaaras tu k lpi_sthas eva pra yujyatel k lpes ca puurvatra a_siddham gt gt 8 2 1 iti afterc sa beforec la tvam afterc prasiddham tatra rkara eva beforec asiddham tasyaasiddhatvaad rkaara eva ackaaryaa ni lt lt 8 2 1 iti latvam a_siddham tasya a_siddhatvaat r_kaare eva ac_kaaryaa ni gt gt bhavi syantiiti kimartham Ikaara upadi syate latvavidhaanaadyaani lt lt bhavi syanti iti kim_artham _kaaras upa di syate latva_vi dhaanaat yaani gt gt paraa nyackaaryaa ni taani Ikaare yathaa syuritil kaani punastaanil lt lt paraa nitac_kaaryaa ni taani _kaare yathaa syus itil kaani punar taanil gt gt pluta h svarita h dvirvacana ml k 13 afterc pra beforec pta sikha h prak lpta
23. iliation entre manuscrits connus d un m me texte D un point de vue algorithmique notre approche est bas e sur des techniques habituellement employ es pour comparer des cha nes mol culaires Mots cl s dition critique sanskrit distance intertextuelle arbres phylog n tiques 1 Introduction Une dition critique est un ouvrage qui fait appara tre toutes les diff rences existantes entre les variantes d un texte L laboration d une dition critique prend toute son importance et rev t toute sa difficult lorsqu un texte est connu au travers d un vaste ensemble de manuscrits dispers s la fois dans le temps et dans l espace En effet la retranscription des manuscrits est affect e non seulement par des modifications successives provenant de fa on volontaire ou non des scribes mais aussi par des atteintes du temps qui peuvent rendre inutilisable telle ou telle partie En outre il est possible qu un manuscrit provienne de plusieurs sources manuscrits recopi s par d autres scribes pigraphies Si l dition critique comprend de nombreux manuscrits elle peut alors rev tir une allure r barbative pour le profane puisqu en poussant les choses l extr me le lecteur se retrouve devant une page comportant quelques lignes faisant partie du texte de l dition appel encore texte maitre et un grand nombre de lignes crites sous la forme de notes de bas de pages d crivant par le menu les variations du texte
24. ion le nom le verbe la phrase Maisonneuve r impression Paris ROB 94 Robinson P Collate A Program for Interactive Collation of Large Textual Traditions in Hockey and Ide 1994 32 45 ROB 00 Robinson P Project Edition of Collate URL http www cta dmu ac uk projects collate intro html TEX_A Archives Tex pour la Devenagari ftp ftp tex ac uk tex archive language devanagari velthuis doc Revue MODULAD 2005 20 Num ro 33
25. istance La comparaison des textes que nous pr sentons dans ce papier comporte deux objectifs Revue MODULAD 2005 11 Num ro 33 1 D terminer les diff rences qualitatives qui existent entre les textes des manuscrits en vue de l laboration d une dition critique Le r sultat de cette op ration doit indiquer les mots ou les phrases qui diff rent entre chaque manuscrit et le texte ma tre 2 Evaluer les dissimilarit s entre les manuscrits en vue d tablir des relations de filiation voire des classifications entre eux La principale difficult r side dans la structure m me du sanskrit en particulier elle provient de l absence possible de blanc entre deux mots cons cutifs ce qui rend la notion de mot extr mement impr cise Pour illustrer ce point revenons un exemple francais le texte lepetitchatestmort est clair pour toute personne qui le lit mais ne permet pas un programme d muni de lexique de distinguer les mots entre eux La m me difficult apparait en ce qui concerne les manuscrits sanskrits Comment d terminer en comparant deux cha nes de caract res les mots qui diff rent et plus g n ralement quels sont les mots En fait pour comparer les textes nous n avons pour I instant que la possibilit de confronter chaque manuscrit au padapatha qui est le seul texte lemmatis dont nous disposons Par cons quent en ce qui concerne notre premier objectif nous proc dons essentiellement
26. lus facile de r pondre ces questions l aide d un logiciel offrant des possibilit s de visualisation MON 02 Dans ce texte nous avons pr sent les nombreuses sp cificit s du sanskrit et les contraintes informatiques qu elles engendrent puis nous avons introduit des distances et des dissimilarit s entre textes qui mesurent chacune l cart entre deux textes en tenant compte de ces sp cificit s Par la suite nous envisageons de construire des hypoth ses de filiation des manuscrits Revue MODULAD 2005 18 Num ro 33 l aide notamment de repr sentations arbor es BUN 71 BAR 91 bas es sur une dissimilarit synth tique obtenue comme moyenne pond r e des dissimilarit s relatives un crit re particulier le choix de cette pond ration pouvant tre guid par l exigence de stabilit de la repr sentation arbor e qui en r sulte Remerciements Les auteurs remercient le CNRS pour son soutien dans le cadre de l ACI Histoire des savoirs ainsi que la communaut europ enne qui leur a permis de poursuivre leurs travaux de recherche dans de bonnes conditions gr ce un contrat ITT Asia REFERENCES ANA 00 Scholarly Digital Editions Leicester UK URL http server30087 uk2net com hengwrt BAR 91 BARTHELEMY J P amp GUENOCHE A 1991 Trees and Proximity Representations John Wiley amp Sons premi re dition fran aise Les arbres et les repr sentations des proximit s Pari
27. mat for plain TeX San Francisco and Birmingham TeX Users Group 1996 108 pages ill Revue MODULAD 2005 19 Num ro 33 LEB 04 Lebart L amp Salem A 2004 Statistique textuelle Dunod Paris LESK M E Lesk and E Schmidt LEX Lexical Analyzer Generator Unix Research System Programmer s Manual Tenth Edition Volume 2 LO 05 Lo Lawrence K Ancient Script URL http www ancientscripts com sa_ws_cmp html MAL 05 Malaiya Y K Languages and Scripts of India URL http www cs colostate edu malaiya scripts html MON 02 Monroy C Kochumann R Furuta R Uribina E Melgoza E Goenka A Visualization of Variants in Textual Collations to Analyse the Evolution of Literary Works in the Cervantes Project Proceedings of the 6th European Conference ECDL 2002 Rome Italy September 2002 Maristella Agosti and Constantino Thanos eds Berlin Springer 2002 638 53 OHA 93 O Hara Robert J and Peter M W Robinson 1993 Computer assisted methods of stemmatic analysis Occasional Papers of the Canterbury Tales Project 1 53 74 Publication 5 Office for Humanities Communication Oxford University PAX 95 Paxson V Flex A fast scanner generator URL http www gnu org software flex manual POQ 98 Poquelin J B dit Moli re Le Bourgeois Gentilhomme Acte II Sc 4 Larousse Petits classiques Larousse 10 juillet 1998 REN 96 RENOU L 1996 Grammaire sanskrite phon tique composition d rivat
28. n certain nombre de langues g n ralement fort loign es du sanskrit ont adopt pour leur criture la graphie du sanskrit ou un mod le d riv Je Indian Falava prototype a ae ae PA LE vie ae Khmer in n lt f Mon d Champa goo OY java Bi Khmer bso amp Champa 1000 1050 un 1150 4 1200 ay Mon l 1250 6 1300 Ses 1350 A Symara 1400 1450 1500 1450 OF puma 1600 4 7 1650 a 1700 ns Jav i 1750 1800 1850 1400 1950 an lt D anan R M me Java Vampuy Mon Thai Lao Khmer Cham of Cham of Tagaiog Sumatra Burnese Cambodia Vietnam Figure 2 Langues la graphie d riv e du sanskrit Ces langues ayant elles m mes parfois influenc leurs voisines l influence du sanskrit s est ainsi propag e de mani re indirecte Parmi les vecteurs de cette diffusion nous pouvons citer le khmer le tha le birman certaines langues lao La carte de la figure 1 donne une id e de cette propagation qui s est effectu e en Asie De la m me mani re les japonais ont adopt et modifi la graphie chinoise Revue MODULAD 2005 3 Num ro 33 L arbre d crit par la figure 2 permet de montrer les langages d Asie du sud est dont la graphie d rive du sanskrit Toutes ces langues partagent avec celui ci un assez grand nombre de propri t s et par cons quent peuvent tre prises en compte par notre logiciel moyennant quelq
29. ns notre exemple cette case correspond la distance entre le premier caract re de CH1 et le premier caract re de CH2 soit entre A et A Les cases suivantes se remplissent par r currence plus pr cis ment en appliquant les r gles suivantes t 1 j 1 t 1 j ajout CH1 j 1 tli 1 1 tfi 1 ajout CH2 i 1 tlit 1 j 1 min t i j subs CH1 j 1 CH2 i 1 tlit1 j ajout CH1 j 1 tli j 1 ajout CH2 i 1 Dans notre exemple nous avons t 1 21 t 1 1 1 t 2 1 t 1 1 1 et t 2 2 t 1 1 1 La valeur qui se trouve dans le coin bas droit d un tel tableau correspond la distance entre les deux cha nes compar es et il en est de m me pour chaque cellule du tableau qui contient la distance entre les deux sous cha nes associ es la cellule consid r e Le chemin qui indique les op rations n cessaires pour transformer une cha ne en l autre est celui qui part du coin bas droit et rejoint le coin haut gauche en choisissant chaque fois la plus petite des trois valeurs possibles Lorsqu il existe plusieurs plus petites valeurs possibles toutes les alternatives sont explor es Les diff rents chemins ainsi d finis qui conduisent au coin haut gauche d finissent les s quences d op rations n cessaires pour transformer une cha ne en une autre avec un co t minimal De plus chaque chemin peut tre repr sent par un alignement entre les deux cha nes compar es Dans le cas de l exemple de
30. ons r guli res l g rement simplifi es pour des raisons de lisibilit Les l ments compris entre accolades sont des l ments pr d finis comme SPECIAL qui d signe un caract re sp cial utilis pour la lemmatisation et voy qui d signe une voyelle quelconque Premier exemple e a return LettreAc e aa return LettreAL Ces deux expressions peuvent s interpr ter de la mani re suivante Si nous rencontrons un caract re a seul a court nous retournons le code LettreAc si nous rencontrons aa a long nous retournons le code LettreAL Les l ments reconnus sont retir s de la cha ne trait e Second exemple alaa SPECIAL a aa return LettreAL Cette expression indique que si l on rencontre un a a court ou un aa a long suivi d un caract re de lemmatisation puis d un autre a court ou long nous devons retourner dans tous les cas le code de la lettre aa a long LettreAL Troisi me exemple ilii SPECIAL VOY return LettreY Cette expression indique que si l on rencontre un i i court ou un ii i long suivi d un caract re de lemmatisation puis d une voyelle nous devons retourner de la lettre y LettreY Seul le i court ou long fait partie de la chaine reconnue et est retir du texte trait Le caract re sp cial et la voyelle qui suivent font partie du contexte droit et ne sont pas retir s du texte trait 4 Comparaison de textes sanskrits laboration d une d
31. ouvoir se rep rer au milieu d un texte qui lui appara t de prime abord comme un simple amoncellement de caract res Les comparaisons vont donc s effectuer sans aucune ambigu t chapitre par chapitre paragraphe par paragraphe puisque chapitres et paragraphes sont chacun identifi s par un nom ou par un num ro Les comparaisons de s quences seront moins simples et ceci pour deux raisons e Comme nous l avons d j mentionn les caract res blanc s parateurs de s quences peuvent tre dispos s non pas au hasard mais au gr de l inspiration d un scribe cette inspiration pouvant varier au cours des poques Nous pourrions ais ment trouver deux textes identiques mais compos s de s quences diff rentes e L ordre des mots n est pas en sanskrit un l ment important deux phrases peuvent tre consid r es comme identiques alors qu elles ne le seraient pas en fran ais Pour paraphraser le ma tre de philosophie du bourgeois gentilhomme POQ 98 les phrases me font mourir d amour et d amour mourir me font sont consid r es en sanskrit comme absolument gales Le premier point peut tre r solu par une m thode assez inattendue que nous avons utilis e sans pour l instant l int grer au reste de nos programmes et c est notre grande surprise que nous avons d couvert ses excellents r sultats Il s agit de la m thode de Gale et Church GALE 93 L id e d utiliser cette m thode revient M Le Pouliquen au cours de
32. patha texte non lemmatis ne peut se faire en utilisant les voies habituelles En effet les deux textes ne sont pas homog nes selon plusieurs crit res e Le padapatha contient des caract res s parateurs indiquant les fronti res des lemmes qui ne figurent pas dans le samitapatha e Du fait que le padapatha contient des mots s par s les sandhi ne sont pas form s alors qu ils le sont dans le samitapatha e Les samitapatha contiennent des informations suppl mentaires collect es par le pandit qui a effectu la saisie concernant le manuscrit dont il est issu Ces informations peuvent tre consid r es comme des m ta donn es elles concernent les ratures les couleurs d encre le style d criture e Enfin les deux textes peuvent contenir des commentaires des signes de ponctuation une num rotation des vers dont il a t d cid de ne pas tenir compte pour la comparaison des manuscrits Une comparaison caract re par caract re surtout s il s agit des caract res latins de la translitt ration ne peut manifestement pas convenir Nous allons d tailler ci dessous les tapes n cessaires Signalons auparavant un probl me particulier que faire lorsqu appara t dans un manuscrit une s quence qui n est visiblement pas pr sente dans le texte ma tre Comme il n existe pas de partie quivalente dans le padapatha nous ne pouvons pas lemmatiser cette s quence et donc savoir s il s agit d un mot d
33. res 2 4 du livre de Y Haralambous Fontes amp Codages HAL 04 Une fois la transformation des caract res Velthuis en caract res Unicode effectu e tous les probl mes d affichage des caract res ne sont pas r solus pour autant En effet comme nous l avons d ja mentionn le sanskrit est une langue dans laquelle les ligatures telles que la transformation du OE en dans le mot c ur abondent Or et c est l un probl me d Unicode coder les caract res et non pas les glyphes image d un ou plusieurs caract res et cela sans les ligatures comme le propose Unicode conduit a un affichage du sanskrit qui est tr s difficilement lisible Il faut donc trouver des polices de caract res et les programmes capables de les utiliser autorisant non seulement l affichage des caract res sanskrits mais permettant galement d effectuer les ligatures susceptibles d tre form es Revue MODULAD 2005 7 Num ro 33 Nous pouvons voir ci dessous le mot dont la translitt ration Velthuis est KTHNA appara tre dans l image de gauche sans ligature et dans celle de droite avec ligature la diff rence est notable IT PH sans ligatures avec ligatures Figure 5 Exemple de ligature 3 La reconnaissance des s quences de caract res D apr s ce que nous avons pu dire pr c demment sur la graphie du sanskrit la comparaison des textes sanskrits surtout quand elle s effectue entre un padapatha texte lemmatis et un samita
34. s Masson 1988 BNF Biblioth que Nationale de France Ecritures grecque et latine URL http classes bnf fr dossiecr sp voye3 htm BUN 71 BUNEMAN P 1971 Filiations of Manuscripts Mathematics in Archaeological and Historical Sciences Edinburgh University Press CHA CHARRAS C amp LECROQ T Sequence Comparison animation l aide d appliquettes Java d algorithmes classiques d alignements de s quences par programmation dynamique URL http www igm univ_mlv fr lecrog seqcomp CRO 01 CROCHEMORE HANCART amp LECROCQ 2001 Algorithmique du texte Vuibert Paris DEL 03 DEL VIGNA C et BERMENT V 2003 Ambiguit s irr ductibles dans les mono des de mots Actes des 9 mes journ es montoises d informatique th orique Montpellier Sept 2002 HALA 04 Haralambous Y 2004 Fontes et Codage Editions O reilly Paris HUN 77 HUNT J W amp SZYMANSKI T G A fast algorithm for computing longest common subsequence CACM 20 5 1977 HUE Huet G Parsing assistant for simple phrases URL http sanskrit inria fr DICO reader html GALE 93 Gale W A Church K W A program for Aligning Sentences in Bilingual Corpora Computational Linguistic 19 1 75 102 1993 JON 03 Westfalische Wilhelms Universit t M nsterSchlossplatz 2 48149 M nster URL http nestlealand uni muenster de AnaServer NAtranscripts 0 start anv LAV 96 John Lavagnino amp Dominik Wujastyk Critical Edition Typesetting The EDMAC for
35. ssion r guli re 3 ay Lex est un g n rateur d analyseurs lexicaux Revue MODULAD 2005 9 Num ro 33 Si r et r sont deux expressions r guli res alors r r rlr et r sont des expressions r guli res Par exemple si V d signe l alphabet latin alors toto est une expression r guli re obtenue par exemple par la concat nation t 0 t 0 blanclbleu est une expression r guli re dont l automate associ est capable de reconna tre les cha nes qui sont soit la cha ne bleue soit la cha ne blanc c alb est une expression r guli re dont l automate associ est capable de reconna tre le caract re c suivi d une suite pouvant tre vide de a ou de b par exemple cabaaba caaaa cbbb caaabbb c Un Automate a Etats Finis ou AEF Automates a nombre Fini d Etats serait plus pr cis est une machine math matique qui lit les cha nes de caract res et qui r pond par OUI ou NON selon que la cha ne lue appartient ou non au langage qu elle reconna t Le programme FLEX permet de g n rer des Automates Etats Finis partir d un ensemble d expressions r guli res Le processus se sch matise de la mani re suivante Module en C d finition reconnaissant les des expressions expressions r guli res r guli res Autres programmes Programme Final texte traiter texte trait ex cution des insertions s mantiques Figure 6 Le principe de fonctionnement de
36. ues adaptations Aux indes m me au cours du temps et selon les r gions la graphie du sanskrit s est galement modifi e La figure 3 fournit un arbre phylog n tique de cette volution L arbre refl te l volution du caract re n en translitt ration Velthuis en fonction du temps et du lieu g ographique Ces deux figures se trouvent sur le site internet de Y K Malaiya Mala 05 Dans le m me esprit on peut trouver sur le site de LO LO 05 un programme qui permet d afficher diff rents caract res selon les graphies les plus courantes aux indes ard s B C B I Brahm IST ce X nerthem seripts we seuthem scripts Gil c 219 y S Ch AU 6 D A A 7 ri eee he t fin i AN MH 1 j NA A i Ki i n Ooo tth c 5 y wi 3 1 A TN de i N we ie ve N ae e 4 WE SF l 3 co SI sm 4 ee g D 3 g 6 fa Figure 3 Diff rentes graphies sanskrites Un m me texte sanskrit peut donc tre crit selon le manuscrit consid r en utilisant la graphie Nagari Bengali ou Telugu Seul un lecteur familier de la graphie utilis e pourra lire le texte alors que le texte lui m me est compr hensible par tout sanskritiste Revue MODULAD 2005 4 Num ro 33 2 1 La graphie du sanskrit Consid rons tout d abord le texte du manuscrit sanskrit qui appara t dans la figure 4 ci dessous Nous pouvons constater sur cet exemple deux caract
37. un groupe de mots ou d une phrase La seule indication fiable dont nous pouvons disposer tant la longueur de ce texte suppl mentaire nous pouvons toutefois consid rer raisonnablement qu il s agit d un mot si la longueur de la s quence reste dans certaines limites Si l on dispose d un lemmatiseur automatique de sanskrit comme celui qui a t construit par G rard Huet Huet 05 alors on peut obtenir les formes lemmatis es les plus vraisemblables de la s quence en question mais uniquement pour des phrases simples Par cons quent le cas de s quences additionnelles simples peut tre enti rement r solu Revue MODULAD 2005 8 Num ro 33 3 1 Les tapes du pr traitement Afin de pouvoir effectuer nos comparaisons d une mani re homog ne un certain nombre de pr traitements doivent tre effectu s Ils consistent en une s rie de traitements Lex LESK ou plut t son avatar Flex PAX 95 Dans ce qui suit nous appellerons s quence toute suite de caract res sanskrits limit e par un blanc ou par un signe de ponctuation Les diff rents traitements Flex peuvent s effectuer au vol et s encha ner l un apr s l autre sans affecter le texte original La liste de ces pr traitements est indiqu e ci apr s e Purger les commentaires num roter les paragraphes garder le texte en m moire e Pour le Padapatha o Faire appara tre les sandhi ajouteurs de blancs qui peuvent faire appara tre de nouv

Download Pdf Manuals

image

Related Search

Related Contents

Centaur User Guide.book  WSS and WSS-L Data Sheet    OWNER`S MANUAL - Pro-Team Backpack Vacuums  dreamGEAR DGUN-2517 gaming control  「ソーラーシャワー あつ太郎」 工事説明書  Linksys PLUSB10 User's Manual  Atlas Manuale dell`operatore - Italiano (P/N 620412_2I  6720608XXX-0712 (GWH300DE).fm - Jato D`água  TP-Link T3700G-28TQ CLI Reference Guide  

Copyright © All rights reserved.
Failed to retrieve file