Home

La transcription synchronisée des corpus oraux. Un aller

image

Contents

1. 40 171278 40 171278 Visible part 7 481772 seconds 633050 1690 005616 Figure 1 fen tre d dition de Praat utilis e pour la transcription synchronis e la n cessit d un script ou d un logiciel pour transformer le textgrid dans un format plus lisible pour la relecture la publication ou la consultation des transcriptions impose une op ration suppl mentaire et distingue le format des donn es telles qu elles sont stock es et chang es du format de publication En conclusion il n y a plus aucune raison technique aujourd hui pour transcrire un fichier son de mani re non synchronis e La transcription align e pose par contre les questions suivantes L acc s ais au son modifie t il la mani re d envisager la transcription degr de pr cision notation des formes non standard etc question laquelle nous avons r pondu la section 3 1 Quelle unit d alignement choisir cf 4 2 Comment concevoir et organiser les transcriptions ou les annotations multiples d un m me enregistrement cf 4 3 4 2 Quelle s unit s d alignement choisir L utilisation de Praat permet de cr er un fichier contenant des intervalles temporels qui segmentent le fichier son en portions On ins re dans chaque intervalle la transcription de para tre 2007 dans Arena Romanistica la portion de son correspondante La structure du fichier d alignement force le transcripteu
2. 4 Le cas de m f illustre l alternative entre la graphie mais enfin qui ram ne la forme prononc e une forme standard et la graphie m enfin qui repr senterait une lexicalisation du marqueur et non un trucage orthographique Quelle que soit la forme graphique utilis e elle permet cependant de retrouver toutes les occurrences partir d une recherche sur la forme enfin 2 Le logiciel ne traitait pas l apostrophe comme un s parateur para tre 2007 dans Arena Romanistica unicode et les textes align s dans Praat cf 4 1 sont sauv s sous un format texte Concr tement cela signifie que toute mise en forme particuli re des caract res est perdue italique soulignement etc Nous avons donc d adapter nos conventions les passages dans une langue autre que le fran ais sont maintenant encadr s par des balises de type XML Notons que nous n avons jamais utilis dans nos transcriptions les notes de bas de page Nous n avons jamais non plus jou sur la disposition graphique comme le font certaines quipes pour par exemple aligner l un en dessous de l autre les chevauchements de parole Si cette pr sentation a des avantages incontestables de lisibilit elle est troitement contrainte par la police et la taille des caract res Modifier l une ou l autre n cessite de la part du transcripteur un ajustement manuel de l alignement qui peut se faire au cas par cas pour une publication mais est inen
3. couter et r couter encore les enregistrements il ne peut les appr hender uniquement par le biais du son Ceux ci ne pourront devenir objets d tude part enti re qu partir de leur mise en par crit La parole reste fluide essentiellement fugace m me apr s avoir t capt e sur bande sonore On ne peut pas tudier l oral par l oral en se fiant la m moire qu on en garde On ne peut pas sans le secours de la repr sentation visuelle parcourir l oral en tous sens et en comparer les morceaux Blanche Benveniste 2000 24 Cet article a b n fici des commentaires clairants de Michel Francard et de Philippe Hambye Toute erreur ou impr cision y subsistant est attribuer la seule responsabilit des auteures Avec le logiciel Praat Boersma et Weenink 2007 para tre 2007 dans Arena Romanistica On est donc l devant un paradoxe mis en vidence par de nombreux chercheurs Blanche Benveniste et Jeanjean 1987 Blanche Benveniste 1997 et 2000 Gadet 2003 Raingeard et Lorscheider 1977 pour approcher l oral on doit en passer par l crit D s ses d buts en 1989 le centre de recherche VALIBEL acronyme pour Vari t s Linguistiques du fran ais en Belgique qui constitue et exploite de grands corpus oraux a r fl chi ses pratiques de transcription et tabli des conventions de transcription explicites Celles ci ont d embl e suivi quatre grands principes adoption de
4. para tre 2007 dans Arena Romanistica La transcription synchronis e des corpus oraux Un aller retour entre th orie m thodologie et traitement informatis Anne DISTER et Anne Catherine SIMON Centre de recherche VALIBEL UCLouvain anne dister anne catherine simon uclouvain be R sum Les corpus oraux ont pour particularit qu aux donn es primaires les enregistrements s ajoutent des donn es secondaires les transcriptions n cessaires leur exploitation Cet article examine les cons quences sur les conventions de transcription adopter de l volution des outils informatis s pour l exploitation des corpus oraux l implication qu ont les conventions de transcription sur les types de requ tes et d analyses qu on peut mener sur les donn es comment la transcription synchronis e en alignant le texte et le son facilite l acc s au son mais introduit un art fact d au choix d une unit temporelle d alignement De mani re plus particuli re cet article examine l volution des conventions de transcription et d alignement utilis es dans la banque de donn es VALIBEL et analyse les probl mes et les cons quences de ces conventions pour l annotation et la recherche linguistique sur corpus 1 Grands principes des conventions de transcription Toute analyse linguistique de productions orales est impossible partir de la seule source sonore En effet le chercheur aura beau
5. 2002 Guide de pr sentation de m moires et de th ses en linguistique et conventions pour la transcription de conversations Universit de Moncton MERTENS Piet 1997 De la cha ne lin aire la s quence de tons TAL Traitement automatique des Langues 38 1 27 51 Paris Klincksieck MONDADA Lorenza 2000 Les effets th oriques des pratiques de transcription LINX 42 revue de l Universit de Paris X Nanterre pp 131 150 OCHS Elinor 1979 Transcription as theory Developmental pragmatics E Ochs et B B Schieffelin Eds New York San Francisco London Academic Press pp 43 72 PAUMIER S bastien 2006 Unitex 1 2 Manuel d utilisation http www igm univ mlv fr unitex manuel html RAINGEARD Martine LORSCHEIDER Ute 1977 dition d un corpus de fran ais parl Recherches sur le fran ais parl 1 pp 14 29 SIMON Anne Catherine 2001 Le r le de la prosodie dans le rep rage des unit s textuelles minimales Cahiers de linguistique fran aise 23 pp SIMON Anne Catherine 2004 La structuration prosodique du discours en fran ais Une approche multidimensionnelle et exp rientielle Berne Peter Lang VERSTRAETE Estelle 2000 Digressions dans les interactions verbales entre l ves travaillant en groupe Recherches 33 pp 151 179
6. Corpora and Spoken Language C Pusch W Raible Wolfgang Ed ScriptOralia 126 T bingen Gunter Narr pp 71 80 GADET Fran oise 1992 Le Fran ais populaire Paris Presses universitaires de France GADET Fran oise 2003 La variation sociale en fran ais Paris Ophrys GIOVANNONI Dominique Catherine SAVELLI Marie Jos e 1990 Transcrire traduire orthographier le fran ais parl De l impossible copie la falsification des donn es orales Recherches sur le fran ais parl 10 pp 19 37 GUMPERZ John J BERENZ Norine 1993 Transcribing Conversational Exchanges Talking Data Transcription and in Coding Discourse Research J A Edwards adnt MD Lampert Eds Hillsdale Lawrence Erlbaum Associates pp 91 120 KEVERS Laurent GILLES Peter SIMON Anne Catherine 2006 moca un syst me de gestion et d annotation de donn es orales communication communication pr sent e la 3 rencontre fribourgeoise de la linguistique sur corpus appliqu e aux langues romanes Freiburg im Breisgau 14 17 septembre 2006 LACHERET DUJOUR Anne VICTORRI Bernard 2002 La p riode intonative comme unit d analyse pour l tude du fran ais parl mod lisation prosodique et enjeux linguistiques Verbum XXIV 1 2 pp 55 72 LAFOREST Marty 1992 Le Back channel en situation d entrevue Qu bec CIRAL Recherches sociolinguistiques LOSIER Line KASPARIAN Sylvia CHEVALIER Gis le GAUVIN Karine
7. choix2 multitranscriptions incertain transcription incertaine Nos conventions s appliquent au format des donn es telles que nous les stockons En ce qui concerne la publication scientifique par exemple on peut modifier certaines conventions ou la mise en forme du texte pour des questions de meilleure lisibilit ou de mise en vidence du ph nom ne tudi Cette remarque se fonde sur le principe que le format de stockage et d exploitation format textgrid ou texte ne co ncide pas n cessairement avec le format de publication dont on peut obtenir automatiquement divers types l aide par exemple du logiciel Transformer cf Ehmer 2006 2 Les 3 degr s de pauses sont jug s intuitivement par le transcripteur c est dire non corr l s des seuils de mesures acoustiques para tre 2007 dans Arena Romanistica sampa indications de phon tique en Sampa 2 1 2 Locuteurs Les locuteurs re oivent chacun un code unique compos de 5 lettres et 1 chiffre 3 lettres minuscules pour le nom du sous corpus auquel l enregistrement est rattach 2 lettres en majuscules pour les initiales du locuteur un chiffre pour diff rencier les ventuels homonymes Le chiffre O est r serv au locuteur qui a le r le d intervieweur si un tel r le est d volu dans l enregistrement Ce code est not devant chaque tour de parole Lorsque le locuteur prend la parole dans un chevauchement i
8. e Cette exigence de conventions qui ne varient pas d un traitement de texte l autre d une mise en page l autre nous semble essentielle en vue du partage des donn es Quand on sait le temps que prennent la r colte des donn es orales et leur transcription minutieuse la conservation des donn es dans chaque centre de recherche apparait comme une aberration L heure n est plus ou ne devrait plus tre ce que chacun garde jalousement ses corpus Se posent dans cette optique de diffusion de nouvelles contraintes li es notamment l anonymisation para tre 2007 dans Arena Romanistica exemple pour formuler une recherche d un certain type par exemple la particule enfin dans une certaine position un segment de discours chevauch ou chevauchant en combinant l tiquetage morphosyntaxique avec les symboles temporels comme les symboles l et l d ouverture et de fermeture de chevauchement 4 Transcription align e On n utilise plus aujourd hui pour transcrire un lecteur de cassettes audio muni d une p dale permettant de revenir en arri re et de r couter plusieurs fois le m me segment D une part parce que la num risation des donn es audio permet de les couter sur un ordinateur d autre part parce qu on transcrit en synchronisant le texte avec le son correspondant Nous n allons pas aborder les contraintes techniques de num risation du son en lien avec l analyse acous
9. on est entre les deux ni tout fait de l oral ni tout fait de l crit En outre une repr sentation de la phon tique m l e l orthographe est tr s imparfaite et est source d erreurs puisqu chaque occurrence d une forme par exemple les pronoms il ou ils il faut pr ter attention sa prononciation exacte et la traduire par une graphie non standard par exemple y dans le cas d une prononciation i On ne peut nier l effet de stigmatisation qu engendre la lecture d une transcription ainsi am nag e sur les propos de la personne et par l sur la personne elle m me Gumperz et Berenz 1993 97 Ces alt rations graphiques notamment l lision de voyelles sont d ailleurs fr quemment utilis es par les crivains depuis le XIX si cle pour stigmatiser le parl de personnes issues de classes populaires Dans les publications scientifiques l utilisation de telles adaptations graphiques a ind niablement des implications sur l analyse Consid rons le texte suivant transcription d une conversation entre l ves de CE2 Olivia Oh le hamster 5 Giovannoni et Savelli 1990 parlent quant elles de bricolage orthographique Gadet 2003 d am nagement graphique Raingeard et Lorscheider 1977 de b tards phon tico orthographiques Dans le corpus dit par ces derni res on est donc tonn es de trouver main ant pour maintenant pa ce que pour parce que
10. tre op r aussi en regroupant des unit s de type pseudo nonc en unit s plus grandes comme le tour de parole 30 En effet un argument se d veloppe souvent sur plusieurs unit s intonatives majeures et donc sur plusieurs lignes de transcription qui doivent recevoir la m me tiquette 31 Une tiquette comme assourdissement consonantique attribu e une ligne de transcription de quelques secondes de parole est relativement impr cise plusieurs contextes sont potentiellement concern s 32 Les r sultats de travaux en cours qui visent tablir une segmentation semi automatis e sur la base de crit res prosodiques et partir d un alignement syllabique r duiront ces inconv nients para tre 2007 dans Arena Romanistica Chaque niveau d annotation peut ensuite tre dupliqu si la transcription orthographique ou phon tique le chercheur ajoute un codage sp cifique par exemple un codage alpha num rique ou un tiquetage morphosyntaxique utilisant un ensemble de symboles qui lui sont propres De cette mani re on peut garder une transcription en orthographe standard qui sert de base d autres codages Le protocole de codage des donn es mis au point par le projet Phonologie du fran ais contemporain cf Durand et al 2002 adopte cette possibilit technique pour coder la r alisation des schwas et des liaisons de mani re parall le non int gr e une transcription en ortho
11. c qui faut pour ce qu il faut et pis pour et puis veulent pour ils veulent i faut pour il faut c t dire pour c est dire etc Cette transcription est extraite de Verstraete 2000 154 156 Nous avons respect strictement la typographie et la mise en page originales Le gras note que l l ve lit les majuscules marquent l accentuation les doubles barres l h sitation entre deux interpr tations beuh peur E indique une ind termination du locuteur Ponctuation et didascalies ont t ajout es par Verstraete en vue de sa publication Notre seule intervention concerne la graphie de maitresse qui suit comme tout notre texte les recommandations orthographiques de 1990 para tre 2007 dans Arena Romanistica S lal Hein Eh elle sait m me pas c que c est qu un hamster L vy C est une b te h S lal C est un p tit truc a ressemble un peu une souris Olivia tr s s re d elle Mais NON un HAMSTER Pas un animal L vy Un hamster c est un animal S lal Ben oui c est un p tit animal qui ressemble un peu une souris Olivia rires moqueurs C est un animal un hamster Eh r garde parle au magn tophone en articulant bien Un hamster est un animal rires moqueurs puis se rangeant brutalement l avis des autres Ouais j en ai un chez moi K vin p us vite que faisaient les Gaulois pour effrayer les esprits t a qu
12. cite pour celle ci c t heure pour maintenant qu et ti prononc s tf sont crits tch comme dans tchequ un quelqu un tch que part quelque part moitch moiti pitch piti tcheu fou quel fou 3 Ces corpus forment aujourd hui le plus grand corpus informatis de donn es textuelles orales en francophonie une banque de donn es de pr s de 4 millions de mots 4 Voir Francard et P ronnet 1989 pour une premi re formulation para tre 2007 dans Arena Romanistica Ces d formations graphiques affectent aussi bien des pronoms des suites pronom verbe que des lex mes Le but est de calquer dans la graphie les variantes de prononciation r pandues dans le fran ais acadien Ces am nagements graphiques sont clairement li s dans les conventions cit es ci dessus une conception des unit s linguistiques du syst me observ L id ologie sous jacente est que chus est une unit part enti re du syst me acadien et non pas une variante marqu e de Foral Cet exemple illustre en quoi une transcription est une analyse Ces modifications graphiques participent de ce que Blanche Benveniste et Jeanjean 1987 appellent des trucages orthographiques Trucages parce que ces formes ne correspondent pas des graphies connues d un scripteur lecteur de la langue telles que r pertori es dans les ouvrages de r f rence par exemple tout en y renvoyant n anmoins Dans de telles transcriptions
13. l orthographe standard non recours la ponctuation de l crit valorisation de l oralit des corpus et compatibilit avec un traitement informatis 1 1 Adoption de l orthographe standard Pour les recherches linguistiques autres que celles concernant directement la forme phonique phon tique phonologie prosodie VALIBEL transcrit en utilisant l orthographe traditionnelle Ceci est loin d tre le cas dans toutes les pratiques de transcription o l orthographe traditionnelle est souvent adapt e dans la volont de marquer des particularit s de prononciation Ces particularit s apparaissent travers la graphie et non dans une notation phon tique Ainsi le Guide de pr sentation de m moires et de th ses en linguistique et conventions pour la transcription de conversations Losier et al 2002 d taille les conventions que doivent adopter les tudiants pour la transcription de corpus acadiens Voici un extrait de ces conventions chus pour je suis Il importe ici de garder le s puisqu il s agit du verbe la premi re personne Il serait possible de transcrire j suis mais ce ne serait pas exact cause de l lision du i _ j sais j savais j chante etc Il y a lision du je devant une consonne j sais pas pour je ne sais pas M me si le sais est prononc fe il est pr f rable d adopter cette transcription plut t que che pas ipour il et ils a ou alle pour elle celle
14. schwa etc Dans notre optique cet inconv nient est tout relatif une transcription qui utilise des trucages orthographiques est plus couteuse en temps pour chaque prononciation non standard le transcripteur doit couter et analyser exactement ce qui a t produit et est rarement homog ne si l on rajoute de l interpr tation au niveau de para tre 2007 dans Arena Romanistica la transcription il est plus difficile de maintenir une pratique coh rente entre diff rents transcripteurs cf les inconv nients d crits au point 1 1 En outre nous pensons que si un chercheur veut analyser par exemple les r alisations du marqueur de discours enfin il devra de toute mani re r couter chaque occurrence et la coder selon ses propres crit res de classification r duction la syllabe f prononciation m f etc Le maintien de l orthographe standard permet de retrouver ais ment toutes les occurrences l alignement du son sur le texte permet de r couter chaque occurrence la fonction d tiquetage cf 4 2 permet de les coder Le tout sans intervenir sur la transcription orthographique qui sert de guide pour naviguer dans l enregistrement La synchronisation du texte au son justifie aussi qu on ait de moins en moins besoin de recourir des inserts de transcription phon tique dans la transcription orthographique 3 2 Conventions typographiques et concordanciers Au d but des recherche
15. 4 pp 275 290 DURAND Jacques LAKS Bernard LYCHE Chantal 2002 Protocole conventions et directions d analyse Toulouse CNRS ERSS UMR5610 et Universit de Toulouse Le Mirail Bulletin PFC n 1 74 p EDWARDS Jane A 1995 Principles and alternative systems in the transcription coding an mark up of spoken discourse Spoken English on computer Transcription mark up and application G Leech G Myers T Jenny Eds New York Longman pp 19 34 EHMER Oliver 2006 The Tranformer a tool for working with aligned language data communication pr sent e la 3 rencontre fribourgeoise de la linguistique sur corpus appliqu e aux langues romanes Freiburg im Breisgau 14 17 septembre 2006 ESPESSER Robert 2003 L enregistrement et la prise de son Bulletin de Phonologie du fran ais contemporain 2 23 24 http www projet pfc net u_s 0 amp u_a 34 amp para tre 2007 dans Arena Romanistica FRANCARD Michel PERONNET Louise 1989 La transcription de corpus oraux dans une perspective comparative la d marche du projet PLURAL Recherche en linguistique appliqu e l informatique RELAI CIRB Qu bec pp 295 307 FRANCARD Michel GERON Genevi ve WILMET R gine 2002 La banque de donn es VALIBEL des ressources textuelles orales pour l tude du fran ais en Wallonie et Bruxelles Romanistische Korpuslinguistik Korpora und gesprochene Sprache Romance Corpus Linguistics
16. art fact pour l tiquetage qui sera fait ult rieurement sur les donn es Si l unit intonative majeure convient bien comme domaine temporel pour identifier des ph nom nes moca est une interface en ligne qui permet tout la fois d archiver les donn es primaires secondaires analyses de les consulter et de les annoter L interface est sp cifiquement con ue pour une exploitation sociolinguistique des donn es via la formulation de requ tes exploitant la description des locuteurs et des situations d enregistrement cf Kevers et al 2006 L interface moca permet une gestion des donn es coh rente avec la politique de VALIBEL de constituer une banque de donn es ouverte et non un m ga corpus clos les corpus s additionnent au fil des collaborations et ce ind pendamment des th matiques et des exploitations Cette option qui avait t pr f r e initialement des techniques d chantillonnage repr sentatif s est av r e pertinente d s lors qu une masse critique de donn es a t r unie non seulement elle permet des recherches multiples sur l ensemble du mat riau disponible mais elle atteint l essentiel des objectifs qui pourraient tre assign s un m ga corpus clos Francard et al 2002 71 72 Sur le mod le de l attribution des keywords qu on utilise pour identifier et retrouver des extraits de vid os dans les bases de donn es g n r es par les utilisat
17. ase l analyse En effet identifi e sur une base auditive elle n est actuellement pas une unit linguistique objectivable qui garantit une segmentation en unit s homog nes Dans notre syst me de consultation des corpus en ligne l unit d alignement sert aussi d unit d annotation avec les inconv nients d crits Ces inconv nients sont temp r s par le fait que pour les corpus int gr s dans la base de donn es VALIBEL chaque chercheur a la libert d opter pour une autre unit d alignement si elle convient mieux l objectif de sa recherche 4 3 Combiner plusieurs transcriptions et annotations d un enregistrement L inconv nient du choix d une unit d alignement est aussi partiellement compens par la possibilit offerte dans le format textgrid de Praat de multiplier les couches d annotation et donc les unit s d alignement En g n ral le mouvement va plut t vers un alignement de plus en plus fin dont la borne ultime est l alignement sur une transcription phon tique qui peut passer par un alignement en groupes accentuables en mots ou en syllabes Ces diff rents alignements qu ils soient strictement hi rarchis s encapsul s ou qu ils se chevauchent partiellement peuvent se combiner dans un m me textgrid et tre utilis s par le chercheur pour divers types d analyses qui concernent le plus souvent la structure prosodique ou intono syntaxique Le mouvement inverse peut
18. cription de l oral et morphologie Romania Una et diversa Philologische Studien f r Theodor Berchem Gille M et Kiesler R Eds T bingen Gunter Narr pp 61 74 BLANCHE BENVENISTE Claire ROUGET Christine SABIO Fr d ric ds 2002 Choix de textes de fran ais parl 36 extraits Paris Honor Champion BOERSMA Paul WEENINK David 2007 Praat doing phonetics by computer Version 4 5 16 Computer program Retrieved February 18 2007 from http www praat org CANDEA Maria 2000 Contribution l tude des pauses silencieuses et des ph nom nes dits d h sitation en fran ais oral spontan Th se non publi e CHEEPEN Christine 1995 Discourse considerations in transcription and analysis G Leech G Myers J Thomas Eds Spoken English on Computer Transcription Mark up and Application New York Longman pp 135 143 DISTER Anne 2007 De la transcription l tiquetage morphosyntaxique Le cas de la banque de donn es textuelle orale VALIBEL Th se de doctorat Universit de Louvain DISTER Anne FRANCARD Michel GERON Genevi ve GIROUL Vincent HAMBYE Philippe SIMON Anne Catherine WILMET R gine 2006 Conventions de transcription r gissant les corpus de la banque de donn es VALIBEL http valibel fltr ucl ac be corpus oraux conventions de transcription DUEZ Danielle 1997 La signification des pauses dans la production et la perception de la parole Revue Parole 3
19. ention de la part du transcripteur pour noter des ph nom nes qui sont habituellement gomm s dans une coute ordinaire En effet notre oreille semble ignorer totalement ces marques qui passent donc la plupart du temps inaper ues tant elles sont communes dans l oral spontan 1 3 2 Tour de parole Comme nous l avons mentionn ci dessus pour justifier l absence de ponctuation des corpus la question de l unit pertinente l oral est loin d tre r solue cf 4 2 et une solution qui vite de faire intervenir un mod le th orique d s la transcription est de consid rer l unit envisag e comme relativement neutre du tour de parole On donne alors au tour de parole un statut non pas th orique mais purement graphique qui devient dans la transcription une unit visuelle par d faut une unit pratique dot e de caract ristiques objectivables qui ne seraient pas d finies par des partis pris th oriques D finir le tour de parole de fa on neutre revient l envisager de la sorte un tour de parole correspond l occupation mat rielle du canal de parole par un locuteur le tour de parole s ach ve lorsqu un nouveau locuteur prend la parole son tour cf ci dessous 1 3 3 pour la parole superpos e Dans nos transcriptions la succession des tours de parole se pr sente de mani re horizontale les paroles des locuteurs se succ dent de haut en bas sur la page ou l cran et chaque para
20. es bibliographiques BACHY Sylviane HAMBYE Philippe SIMON Anne Catherine 2006 Tutoriel Praat Cahier 2 Transcription et alignement du texte sur le son Document non publi BALLY Charles 1935 Le Langage et la Vie Zurich Max Niehans 2 d Les diff rentes tapes du protocole depuis le recueil des donn es jusqu leur transcription et leur codage sont expliqu es sur le site du projet http www projet pfc net para tre 2007 dans Arena Romanistica B GUELIN Marie Jos dir 2000 De la phrase aux nonc s grammaire scolaire et descriptions linguistiques Bruxelles De Boeck amp Larcier B GUELIN Marie Jos 2002 Clause p riode ou autre La phrase graphique et la question des niveaux d analyse Verbum XXIV 1 2 Y a t il une syntaxe au del de la phrase M Charolles P Le Goffic et M A Morel Ed pp 85 107 BERTHOUD Anne Claude MONDADA Lorenza Eds 2000 Mod les du discours en confrontation Berne Lang BERTRAND Roxane 1999 De l h t rog n it de la parole Analyse nonciative de ph nom nes prosodiques et kin siques dans l interaction interindividuelle Th se de doctorat Universit de Provence BLANCHE BENVENISTE Claire JEANJEAN Colette 1987 Le fran ais parl Transcription et dition Paris Didier rudition BLANCHE BENVENISTE Claire 1997 Approches de la langue parl e en fran ais Paris Ophrys BLANCHE BENVENISTE Claire 2000 Trans
21. estion 3 Tarik arr te Vincent Vincent Y fsaient Beuh peur EEE Rires Vincent Ou bien y cassaient leurs couilles Rire de Karen Maitresse chut Vincent y faisaient la mort Tarik Attends fais voir K vin Ils tuaient les gens Karen Non Vincent Ben ouais p t t a Karen Non quand m me pas Non les Gaulois y faisaient pas a Je sais qu ils ont tu mais On voit les trucages utilis s ici lision marqu e au moyen de lapostrophe p tit c que p t t f saient r garde ce qui produit un effet d ailleurs assez trange pour r garde dont la mise en page laisse le r seul en fin de ligne utilisation de la graphie y pour noter la prononciation du pronom ils Par ailleurs informant le lecteur du cadre sociologique dans lequel s est effectu son travail l auteure rapporte que l cole est situ e dans une zone urbaine sensible que six l ves sur vingt ont d j doubl une fois que la plupart des l ves ont un rapport au savoir qui n est pas toujours direct que certains ont des difficult s psychologiques et sont suivis par un psychologue 2000 153 154 Elle pr cise galement que les paroles des enfants n ont 7 Risquant par l de rendre la transcription ambig e y tant dans nos habitudes de lecture le pronom ou la lettre de l alphabet para tre 2007 dans Arena Romanistica pas t censur es el
22. eurs de Transana cf http www transana org Noter cependant qu fiquetage n quivaut pas analyse Dans notre proc dure l tiquetage permet d identifier des ph nom nes qu on suppose int ressants de les rep rer dans de nombreux enregistrements et de rassembler les occurrences tiquet es afin de les comparer et de les analyser Il s agit du premier balisage d un corpus lequel peut aussi se faire sur un corpus non transcrit mais ce n est pas l objet de cet article Lors du processus de r cup ration des lignes tiquet es l utilisateur peut toujours afficher les lignes autour de la ligne qui a re u une tiquette afin de valider son tiquetage ou de le modifier le cas ch ant para tre 2007 dans Arena Romanistica micro syntaxiques ou prosodiques elle se r v le trop r duite pour mener une analyse de contenu en tiquetant par exemple les types d arguments utilis s par les locuteurs lors d interviews sociolinguistiques 30 voire trop tendue pour rep rer des ph nom nes de phon tique articulatoire En conclusion l unit intonative majeure est une unit d alignement qui s tablit un certain niveau de segmentation du discours Elle facilite en g n ral la consultation d une transcription car elle correspond grossi rement des actes de discours des pseudo nonc s ou des unit s de construction de tour mais elle ne peut en aucun cas servir de b
23. graphe repr sente l intervention d un locuteur Cette disposition que Edwards 1995 appelle le format vertical est coh rente avec nos habitudes de lecture on Sauf dans des exercices sp cifiques mis en place lors de tests de perception comme ceux de Cand a 2000 ou de Duez 1997 par exemple o l attention du sujet est explicitement attir e sur ces ph nom nes En ce qui concerne notre il le correcteur orthographique de Microsoft attire d ailleurs notre attention sur les formes r p t es contigi es en les soulignant en rouge Marty Laforest 1992 31 note propos du tour de parole Cette notion est toujours donn e jamais construite Notre tour de parole ne doit donc pas recevoir le sens qu il re oit dans les analyses de la linguistique interactionnelle Il s agit bien pour nous d une unit de transcription On parle ici de paragraphe au niveau graphique car du point de vue informatique il ne s agit que d une seule ligne para tre 2007 dans Arena Romanistica commence par lire en haut de la page et ce qu on lit d abord se d roule dans le temps avant ce qu on lit ensuite plus bas sur la page Les textes des pi ces de th tre adoptent depuis longtemps ce format qui fait partie de notre culture pour repr senter la succession des paroles des protagonistes de la conversation 1 3 3 Chevauchement de parole Dans les conversations il est tr s fr quent que deux o
24. graphe standard Chaque couche de transcription d annotation peut ensuite tre interrog e et exploit e par des outils sp cifiques essentiellement des scripts 5 Conclusion La transcription de donn es orales est une d marche cruciale de laquelle d pendent troitement les r sultats de la recherche Transcrire ce n est pas simplement couter et mettre sur le papier ce qu on entend Blanche Benveniste et Jeanjean 1987 Blanche Benveniste 2002 Depuis que la transcription est vue comme une d marche digne d tre th oris e cf l article fondateur de Ochs 1979 le mythe du copiste est mort Le centre de recherche VALIBEL a r fl chi depuis sa cr ation la pratique de transcription se dotant de conventions explicites qui ne gomment pas le travail d laboration du discours non planifi Nous avons montr ici comment ces conventions peuvent voluer sur des points mineurs notamment en fonction des outils informatiques dont on dispose concordanciers logiciels d aide la transcription Ces outils permettent des tudes sur les donn es secondaires et primaires que l on n envisageait pas auparavant non seulement en termes de qualit mais galement de taille des donn es Nous avons enfin insist sur les r percussions que peut avoir l alignement du texte et du signal sonore sur les informations pr sentes dans les transcriptions et sur la n cessit de d finir une unit d alignement R f renc
25. it de consultation lecture coute du corpus et une unit d annotation blaNDO parce que faire les interros tous les trois jours Choisissezune tiquette E Pnn je me rends compte que Choisissez une tiquette E a P2 sujet RETER Cnoisissezune tiquete E a P2 sujet mais c est quand m me pas euh Cnoisissez une tiquete 5 a P2 sujet il me dit quand m me lt blaAT1 gt oui mais ce qui est ce qui est vous vous vous nous fetons f to rire f Choisissezune tiquete 4 distan Figure 2 visualisation d un enregistrement annot dans l interface moca D une part l utilisateur qui consulte un corpus align et d pos sur l interface web verra ce corpus dispos ligne par ligne chaque ligne correspondant un intervalle dans le fichier de transcription align e g n r sous Praat voir figures 1 et 2 Le tour de parole d un locuteur est donc divis en autant de lignes que d unit s intonatives majeures et l utilisateur peut couter chaque ligne individuellement ou cliquer sur une ligne pour l couter ainsi que les lignes suivantes de mani re continue D autre part l utilisateur peut attribuer des tiquettes des lignes de transcription dans lesquelles il observe un ph nom ne linguistique int ressant qu il voudra retrouver par la suite Chaque tiquette cf figure 2 est attribu e une ligne de transcription L unit d alignement cr e donc un
26. les sont retranscrites telles quelles dans la crudit du langage des l ves In vitablement les choix de transcription et le profil des l ves pr sent s ne font que cumuler leurs effets n gatifs et risquent de faire passer pour particulier pour sp cifique ce qui ne l est pas La stigmatisation d j possible dans la description du profil des l ves se voit renforc e par les choix de transcription En fait comme le dit Gadet 2003 30 seule une graphie sans am nagement ni r criture limite le risque de stigmatiser un nonc Concernant le lexique les variantes lex matiques non standard sont transcrites suivant les principes de l orthographe fran aise de r f rence par exemple nous transcrivons l emprunt au wallon p quet eau de vie de geni vre et non p k t qui serait la graphie adopt e en wallon Dans ce domaine VALIBEL a t la premi re quipe francophone prendre en compte la variation diatopique g ographique dans ses corpus informatis s Si le choix de l orthographe standard nous semble plus neutre que l adoption de trucages orthographiques il comporte n anmoins une part d analyse puisqu on rapporte une s rie de variantes de prononciation une forme graphique unique La mise en mots graphiques de productions orales implique un travail est la fois analytique et interpr tatif qui a parfois t qualifi de traduction Cheepen 1995 de repr sentation heu
27. ls ou en fonction des caract ristiques des donn es recueillies conversations bilingues ou multi locuteurs etc Ces conventions de 18 La d finition de ce chevauchement par VALIBEL va de pair avec sa disposition spatio visuelle chevauchement interne au tour de parole du locuteur para tre 2007 dans Arena Romanistica transcription sont appliqu es l ensemble des textes qui entrent dans sa banque de donn es Elles sont explicit es dans un manuel destination des transcripteurs Dister er al 2006 Nous les r sumons bri vement 2 1 1 Marques marque signifi pause br ve A pause longue silence silence toux rire chuchotement commentaires para verbaux de type toux rire chuchotement etc x passage incompr hensible d une syllabe xx passage incompr hensible de plusieurs syllabes xxx passage incompr hensible relativement long cou amorce de morph me cou pure amorce achev e sans reprise ant rieure question de forme d clarative contour intonatif montant l d but de chevauchement l fin de chevauchement l d but de chevauchement impliquant plus de 2 locuteurs l fin de chevauchement impliquant plus de 2 locuteurs I d but de conversations en parall le s quences simultan es l fin de conversations en parall le s quences simultan es s pare 2 conversations en parall le choixl
28. nterne ce code est indiqu entre balises lt lt mmmNNI1 gt 2 1 3 Enregistrement Chaque texte est balis au d but et la fin de la transcription Il re oit le code du locuteur principal de l enregistrement et l extension r pour recording Les balises de d but et de fin de texte sont repectivement lt deb id mmmNNir gt et lt fin id mmmNNir gt Ces indications sont utiles afin de s parer les textes lorsque ceux ci sont compil s automatiquement dans un seul fichier 3 volution des outils informatiques Ces derni res ann es les outils informatiques ont fortement volu plus performants plus rapides ils permettent des exploitations autrefois inconcevables Cette volution est galement li e la capacit de stockage dont les limites sont toujours repouss es plus loin Elle a eu des r percussions sur les transcriptions elle m mes et sur les exploitations que l on peut en faire 3 1 Cons quences de l alignement du texte et du son sur le degr de pr cision de la transcription Notre choix d utiliser l orthographe standard pour transcrire les donn es orales y compris celles qui rel vent d un style tr s informel vise ne pas stigmatiser a priori les productions verbales mais aussi viter toute pr analyse cf 1 1 Ce choix a pour cons quence de perdre au niveau de la transcription une partie de la variation observable dans les donn es sonores lision des pronoms chute de
29. r adopter une r gle pour segmenter en intervalles temporels Plusieurs types d intervalles sont envisageables des intervalles de taille identique 5 ou 10 secondes par exemple avec pour cons quence que les paroles transcrites sont interrompues de mani re al atoire d un intervalle au suivant des intervalles d tect s automatiquement par exemple en ins rant une fronti re chaque pause silencieuse choix op r par Bertrand 1999 et en transcrivant des unit s s par es par des pauses qui ne correspondent pas n cessairement des unit s linguistiques comme la proposition syntaxique ou l nonc des tours de parole avec les probl mes de d finition pos s par cette unit mergente lesquels peuvent s av rer tr s longs dans des discours structure monologique et ou de style formel conf rence mission radiophonique des unit s d finies sur la base de crit res prosodiques dont la d tection sera automatis e ou auditive comme la p riode Lacheret Dujour et Victorri 2002 ou Tunit born e par une fronti re majeure Mertens 1997 Simon 2004 La liste pourrait encore tre longue Les deux premiers types n ont a priori aucun statut linguistique les deux seconds ont un certain r le jouer dans l organisation du discours ou de la conversation sans pour autant qu on puisse lors de la transcription pousser l analyse suffisamment loin pour appliquer des crit res de d fini
30. rectes sur le comptage des tours de parole pour cette courte s quence trois au GARS contre un seul chez VALIBEL En fait comme nous ne donnons pas de statut th orique l unit tour de parole c est v ritablement l occupation du canal qui guide la transcription ind pendamment des paroles prononc es Ainsi le cas des r gulateurs verbaux de type mm ou oui souvent appel s pseudo tours dans l analyse interactionnelle si la s quence r gulatrice est prononc e en m me temps que les paroles du locuteur qui occupe le canal elle figure dans le tour de parole de celui ci si elle n est pas prononc e de fa on superpos e pendant une pause de l autre locuteur par exemple elle apparait dans un tour s par La seule analyse du transcripteur concerne donc bien le chevauchement ou non des paroles et non le statut leur accorder 1 4 Compatibilit avec l informatisation des donn es D embl e les transcriptions ont t con ues en vue d une utilisation informatique des donn es Les choix de transcription ont volu en fonction du d veloppement des outils informatiques lesquels offrent de nouvelles perspectives de recherche cf 3 2 Conventions de transcription VALIBEL Les quatre grands principes rappel s au point pr c dent ont guid les pratiques de transcription du Centre VALIBEL m me si au cours des ann es ces pratiques ont volu parall lement au d veloppement de nouveaux outi
31. ristique Mondada 2000 ou encore de d formation Bally 1935 En conclusion outre leur effet de stigmatisation les am nagements graphiques qui concernent la morphologie ou certaines variantes de prononciation ont selon nous quatre inconv nients majeurs 1 il est difficile de les syst matiser 2 il est parfois difficile de distinguer des variantes de prononciation la seule coute du signal sonore 3 ces d formations perturbent nos habitudes de lecture en compliquant le syst me graphique et obligent le lecteur oraliser pour d coder 4 ce mode de transcription complique la t che du transcripteur surchargeant son travail par l attention qu il doit porter ces ph nom nes dont la fr quence est souvent tr s lev e N anmoins lorsque la prononciation effective est tr s loign e de la prononciation standard la possibilit est laiss e au transcripteur d ajouter la transcription orthographique une transcription phon tique entre crochets en utilisant l alphabet Sampa Les points de suspension sont le fait de Verstraete Speech Assessment Methods Phonetic Alphabet http www phon ucl ac uk home sampa french htm para tre 2007 dans Arena Romanistica 1 2 Non recours la ponctuation de l crit Les corpus de langue parl e transcrits des fins de recherche linguistique ne sont en g n ral pas ponctu s En effet il n y a pas de correspondance stricte entre ph nom ne
32. s VALIBEL utilisait un concordancier qui avait des r percussions concr tes sur le format des transcriptions Ainsi une espace devait tre ins r e apr s l apostrophe afin de ne pas reconnaitre la forme lid e et la forme qui la suit comme un seul mot on crivait l amoureux avec espace et non l amoureux pour pouvoir effectuer des recherches sur la forme amoureux et obtenir les occurrences dans une concordance Dans un mouvement inverse des traits d union taient ins r s entre les termes d une forme compos e n ayant pas de trait d union dans l orthographe standard parce que tandis que etc L utilisation d un concordancier performant Unitex cf Paumier 2006 n oblige plus ce type d adaptations graphiques qui n cessitaient deux versions des transcriptions l une consultable pour la lecture l autre pour la recherche d occurrences Une autre modification qui a son importance pour les transcriptions est le format du texte Au d part nous travaillions sur des transcriptions au format doc format utilis par Microsoft Word qui permet une mise en forme du texte Certaines conventions taient ainsi not es en italique c tait notamment le cas lorsque le locuteur utilise une autre langue que le fran ais en g n ral pour des passages en langue r gionale wallon luxembourgeois dans nos corpus Actuellement nos fichiers sont au format texte simple En effet Unitex utilise des fichiers en
33. s prosodiques et ponctuation crite une petite pause ne correspond pas n cessairement une virgule l crit pas plus qu une pause plus grande une ponctuation forte Il n y a pas de relation bi univoque entre les deux De plus si certains nonc s se laissent enfermer relativement facilement dans le moule de la ponctuation graphique comment s en sortir avec des productions dans lesquelles foisonnent r p titions de mots inach vements et autres ph nom nes propres l oral qui se construit cf 1 3 Blanche Benveniste et Jeanjean 1987 139 plaident pour des transcriptions non ponctu es La ponctuation si on la met trop t t pr juge de l analyse syntaxique et impose un d coupage sur lequel il est difficile de revenir Selon elles en ponctuant le transcripteur sugg r e une analyse avant de l avoir faite 1987 142 En fait l absence de ponctuation va de pair avec la remise en cause de la notion de phrase l oral ainsi que le dit Gadet Comme pour toutes les tudes de ph nom nes oraux la s quence fondamentale ne correspond g n ralement pas ce que l on entend par phrase l crit Il faut donc se passer de cette cat gorie 1992 69 C est ainsi que la notion de phrase dans les tudes de productions orales a t abandonn e et que s est pos e la question de l unit minimale pertinente prendre en consid ration Cependant une transcription
34. sans aucune autre marque de segmentation que les espaces entre les mots et les changements de locuteurs est tr s difficilement lisible C est pourquoi la plupart des syst mes de transcription s accordent reconnaitre deux ou trois degr s de pauses tant entendu qu il ne s agit pas n cessairement de pauses silence rendues par un silence acoustique mesurable mais bien d une perception subjective de segmentation laquelle peut tre rendue par une pause par un allongement vocalique par un contour intonatif voire par la pr sence d une fronti re syntaxique qui influence le d coupage du discours Que ce soit les pauses silencieuses ou pleines ou les contours intonatifs montants descendants ou complexes Nous parlons ici d oral non planifi et non d oral obtenu partir d un texte lu Voir l ouvrage collectif dirig par Berthoud et Mondada 2000 pour la position des diff rents auteurs sur le sujet voir aussi B guelin 2000 et 2002 Simon 2001 para tre 2007 dans Arena Romanistica 1 3 Valorisation de l oralit des corpus 1 3 1 Disfluences Nous conservons dans la transcription les traces de l laboration de l nonc traces souvent appel es dans la litt rature disfluences Nous notons ainsi les pauses pleines ou ponctuants euh ben bon etc les r p titions de mots ou de suite de mots les amorces de morph mes Ce travail n cessite une grande att
35. sition au format en colonnes columnar format o une colonne est d volue un locuteur Pour une implication th orique de ces choix de disposition spatio visuelle voir Edwards 1995 et l article fondateur de Ochs 1979 Cette transcription est extraite de Blanche Benveniste et al 2002 47 La pause br ve est symbolis e par un tiret au GARS par une barre oblique entour e de blanc chez VALIBEL Cet extrait est issu de Blanche Benveniste et al 2002 152 para tre 2007 dans Arena Romanistica L1 ces choses l j en lt L2 gt plus ou moins parle je ne raconte pas une je vais pas raconter tout a comme a tu vois Dans les transcriptions du GARS le chevauchement de L2 apparait visuellement dans un tour de parole s par alors que dans les conventions VALIBEL il est ins r dans la ligne d un autre locuteur il est de ce fait moins visible et risque de ne pas tre interpr t comme un tour de parole part enti re La diff rence la plus flagrante concerne sans doute le sort r serv au tour de parole de L1 le d coupage op r par le GARS en fait deux tours de parole l o VALIBEL en conserve un seul Ainsi la repr sentation visuelle d un m me ph nom ne a des implications sur les unit s de segmentation du discours alors m me que celles ci avaient re u une d finition ne semblant pas devoir prendre en compte ce type de variation Cette disposition diff rente a des implications di
36. sultant est peut lisible comme tel mais peut tre transform l aide d un script Un fichier en format propri taire ne peut tre lu et modifi qu partir du logiciel sp cifique utilis pour le cr er l inverse un format ouvert permet de lire le fichier avec n importe quel logiciel con u cet effet Cette distinction entre format propri taire vs ouvert devient pertinente d s qu on souhaite changer ou diffuser des fichiers para tre 2007 dans Arena Romanistica ou d un logiciel en un fichier texte qui adopte le format vertical en colonnes choisi par l utilisateur le format textgrid permet d attribuer une couche d annotation tier par locuteur afin de noter les ph nom nes sp cifiques l oral chevauchements de parole silences etc Jusqu pr sent nous avons exp riment les inconv nients suivants lors de l utilisation de Praat pour transcrire le mode de visualisation du texte dans la fen tre Praat cf figure 1 est relativement inconfortable et peut provoquer certaines erreurs coquilles qui seraient vit es dans un traitement de texte traditionnel le fait que le texte soit coup n importe o selon la taille de la fen tre rend difficilement visible l omission d une espace le fait qu un symbole par exemple de pause est coll au mot qui pr c de au lieu d en tre s par etc par cons quent toute transcription r alis e sous Praat doi
37. t tre relue en utilisant un autre logiciel par exemple Transformer cf Ehmer 2006 certains types d interaction qui font intervenir un grand nombre de locuteurs comme une interaction en classe compliquent la manipulation de l interface car les paroles de chaque locuteur sont inscrites dans une couche d annotation s par e on a une id e du r sultat si l on imagine que le textgrid pr sent la figure 1 contient non pas 3 mais 20 couches empil es un logiciel comme Transana pour la transcription de vid os ne pr sente pas ce probl me puisque le transcripteur ins re manuellement le nom du locuteur au d but de chaque ligne 25 Plusieurs scripts prennent un fichier textgrid en entr e pour le transformer en un fichier texte sans rep res temporels scripts d velopp s par VALIBEL entre autres Des logiciels comme Winpitch logiciel gratuit sur demande d velopp par Philippe Martin www winpitch com ou Transformer logiciel payant d velopp par Oliver Ehmer http www oliverehmer de transformer proposent des fonctions similaires avec un large choix de formats de sortie doc txt xml etc para tre 2007 dans Arena Romanistica CRE oi x Fie Edt Quey View Select Interval Boundary Tier Spectum Pich intensity Fomant Pulses Help je vais allumer moi ie bruit d eau que l on verse s il te plait Audrey il fait super noir ici lt blaAT1 gt m erci beaucoup Nathalie
38. tion homog nes on sait que le tour de parole tel qu il est d fini dans la linguistique interactionnelle cf note 11 n est pas simplement une unit born e par des changements de locuteurs la preuve le statut de pseudo tour de certaines productions verbales qui viennent interrompre un tour en cours de construction on sait aussi que les unit s intonatives qu on aurait parfois tendance assimiler des actes discursifs ou des nonc s se d finissent par une s rie de crit res l intonation mais aussi la pr sence ou l absence de pause les acc l rations de d bit etc qui se combinent de mani re subtile Au mieux on peut dire qu elle d finissent des pseudo nonc s Pour r soudre la question de l unit d alignement il faut tenir compte d une part du fait que ce choix aura des implications sur des tapes ult rieures du traitement des donn es ceci constitue un inconv nient et d autre part que les outils informatiques ne limitent pas n cessairement le chercheur un seul alignement par fichier son il est possible de superposer ou de combiner plusieurs types d alignement en fonction des objectifs de la recherche ceci constitue un avantage cf 4 3 para tre 2007 dans Arena Romanistica Dans notre banque de donn es g r e par l interface moca ci l unit d alignement est l unit intonative majeure Bachy et al 2006 Elle est la fois une un
39. tique des donn es cf Espesser 2003 mais envisager les particularit s d une transcription orthographique align e r alis e avec le logiciel Praat 4 1 Le logiciel Praat pour segmenter et transcrire Il y a plusieurs raisons externes et internes d adopter le logiciel Praat pour r aliser des transcriptions align es pour autant qu on travaille sur des donn es audio et non vid o le logiciel Praat est distribu librement par ses concepteurs Paul Boersma et Daniel Weenink voir wwWw praat org avec pour cons quence qu il est largement utilis dans la communaut scientifique pas seulement celle des phon ticiens initialement vis s par ce programme d analyse phon tique mais par beaucoup de chercheurs en linguistique sur corpus oraux de nombreux manuels pr sentent les fonctions de segmentation et d tiquetage labelling and segmentation qui sont utilis es pour la transcription synchronis e Praat permet de traiter des sons tr s longs il accepte les fichiers d une taille maximale de 2 giga bytes ce qui correspond 3 heures de son st r o de qualit CD ou 12 heures de son mono chantillonn 22050 Hz 16 bit le fichier de sortie d une transcription align e sous Praat textgrid est un format ouvert qui prend la forme d un fichier texte structur de telle mani re que chaque segment de transcription correspond un intervalle temporel du fichier son le fichier texte r
40. u plusieurs locuteurs parlent en m me temps On a alors des s quences o la parole est superpos e Dans des tudes interactionnelles il est important de garder une trace de ces chevauchements et pas uniquement des paroles prononc es L quipe du GARS Groupe Aixois de Recherche en Syntaxe utilise le soulignement pour noter les chevauchements de parole comme ci dessous transcription du GARS L2 on le tirait par la queue L1 il y avait il y a avait on le tirait par la queue voil eh c est Le m me change dans les conventions VALIBEL prend la forme suivante o la barre et le tiret d limitent la portion de texte chevauch e tiret droite de la barre pour le d but du chevauchement tiret gauche de la barre pour la fin du chevauchement transcription de VALIBEL L2 on le tirait par la queue L1 il y avait il y a avait on le tirait par la queue voil eh c est Dans ce cas L1 qui avait la parole cesse de parler apr s le chevauchement et L2 poursuit aucune diff rence n apparait la lecture des deux formats de transcription Par contre les deux types de conventions impliquent une disposition spatiale diff rente lorsque apr s le chevauchement de parole le locuteur qui avait la parole la conserve transcription du GARS L1 ces choses l j en L2 plus ou moins L1 parle je ne raconte pas une je vais pas raconter tout a comme a tu vois transcription de VALIBEL Edwards oppose cette dispo
41. visageable pour un format de stockage et de diffusion des donn es De toute fa on ces indications sont inutilisables en format texte 3 3 Types de recherches dans les transcription L utilisation d un concordancier volu comme Unitex permet de traiter des ph nom nes li s la temporalit des donn es comme les pauses dans les recherches effectu es sur le corpus Les transcriptions comprennent 3 degr s de pauses not es intuitivement dans le texte La pause pouvant a priori apparaitre n importe o dans un nonc bien que l on constate de fortes r gularit s une recherche sur une s quence de mots devait pr voir la possibilit d insertion d une pause entre chaque mot Gr ce aux modifications introduites dans les programmes d Unitex on peut retrouver une s quence donn e m me si celle ci est interrompue par une pause De plus le projet d tiquetage morphosyntaxique actuellement en cours Dister 2007 permettra d envisager des recherches non plus sur des formes particuli res telles qu elles se rencontrent dans les textes mais bien sur des lemmes formes canoniques ou encore sur des cat gories grammaticales Le corpus ainsi tiquet offre de nouvelles perspectives de recherche inenvisageables jusqu ici La flexibilit d Unitex permet galement de combiner les requ tes de type syntaxique avec des contraintes proprement conversationnelle par 23 Utilis au GARS pour la parole superpos

Download Pdf Manuals

image

Related Search

Related Contents

SEMAINE N°46 LES DOSSIERS DE TÉVA - INÉDIT    Samsung GT-S5200 Užívateľská príručka  オプトマEH503新登場!!  566 User Manual - Ten-Tec  Untitled - Electrostimulateurs manuels  Manuel d`utilisation EMATRONIC LT NUM3  Kawasaki 73690 Motorized Toy Car User Manual  Table des matie`res  Manual  

Copyright © All rights reserved.
Failed to retrieve file