Home
Mode d`emploi pour transcription multimodale adapté po
Contents
1. Les commentaires sont laiss s la discr tion du transcripteur 2 7 Anonymisation Suivant les licences Creative Commons les indications concernant les individus doivent tre masqu es transform es sauf indications contraires adresses patronymes etc Les pr noms peuvent tre conserv s Les acteurs sont identifies l aide leur code le tout mi entre balise XML Si le patronyme figure 1l est enlev et substitu par le code 9 Robin Tartenpion n est pas l devient lt acd cd TutR gt lt firstname gt Robin lt firstname gt lt lastname gt TutR lt lastname gt lt acd gt n est pas l 10 Robin est l 11 ANR 06 CORP 006 Mulce Rapport d activit t cheT multi devient lt acd cd TutR gt Robin lt acd gt est l 11 je te donne mon adresse thipanie petit gmail com devient par exemple je te donne mon adresse thipanie bidon gmail com 12
2. ANR 06 CORP 006 Mulce Rapport d activit t cheTmult1 Les passages marqu s par des probl mes phon tiques qui ont une incidence dans l interaction sont signal s dans le texte entre crochets so the first question Herst Non utilis dans Infral L alternance codique est signal e par les accolades Le transcripteur indique le passage d une langue l autre en notant entre accolades la partie du message qui se r alise dans l autre langue Le transcripteur reporte pour chaque tpa la langue dominante dans la colonne r serv e la langue notation iso La langue caract rise la langue dominante d un tpa et ne vaut que pour les tpa sinon code na pour non applicable Si une partie du message est entre accolades alors cela signifie que l autre langue mise entre accolades est minoritaire Sur silence ou binette smiley ou passage court du genre ok valable dans deux langues mettre dans la colonne Langues na pour non applicable Q ah oui Les passages inaudibles ou trop incertains pour tre retranscrits XXX yes XXX Les commentaires du transcripteur apparaissent dans la colonne commentaires du transcripteur de la table parole en r f rence au pointeur de commentaires dans le texte de l audio Le pinteur peut renvoyer un moment entre deux mots ou peut s tendre sur plusieurs mots pour un pointeur dans le champ commentaire suite_de_m
3. es dans la session Centra On fera alors attention de bien nommer ces fichiers avec le nom figurant dans la partie Agenda de la session Centra Il peut galement s agir d une nouvelle version de la vid o En effet le format vid o primaire est celui de Centra exemple infral_q2_108 11 03_12 11 exe Il est tr s compact mais peu pratique pour la transcription car il ne permet pas d acc der directement une partie de la vid o partir d un curseur temporel ni de ralentir le d roulement de la vid o Pour voir la diff rence un fichier de type AVI est fourni titre d exemple essai_infral_avi_q2_1 avi Il s agit d un extrait de la vid o Centra Nous conseillons de le lire l aide d un programme gratuit tel VLC pour vor la diff rence VLC est un bon outil pour transcrire les vid ogrammes Il appartient au transcripteur ou son quipe de faire les traitements n cessaires pour passe du format Centra au format AVI s ils en estiment le besoin Ce travail serait aussi n cessaire car il n est pas raisonnable de stocker des donn es vid os dans un corpus dans un format propri taire Centra au lieu de ouvert AVI 2 2 2 Organisation des donn es Besan on a fourni un d v d rom chacun des chercheurs contenant les donn es primaires recueillies lors de l exp rimentation Si lors de la transcription de nouvelle donn es sont produites d riv es des donn es primaires vid os aux formats diff rents images extraites
4. etc alors il appartient de mettre l ensemble donn es primaires donn es d riv es dans un m me dossier dont le nom sera l identifiant de la session Par exemple pour la session 1 du quadrem 2 cela pourrait donner Dossier infral_q2_1 contenant e _infral_q2_108 11 03_12 11 exe vid o Centra fournie dans DVD e central_q2 clavardage html clavardage fourni dans DVD e _infral_q2_1 avi vid o au format AVI non fournie e cartemagalie jpg image diapo utilis e pendant session non fourmie 4 ANR 06 CORP 006 Mulce Rapport d activit t cheT multi Ces dossiers seraient ensuite transmis tout le groupe de recherche et partag et viendrait ainsi compl ter les donn es fournies par Besan on 2 3 Organisation g n rale feuille session Chaque feuille de transcription se pr sente ainsi une boite de renseignement rappelant en particulier l identifiant de la session et le nom du fichier vid o de la session id sequence id_action Canal D but Fin Code Acteur Langue Contenu Liste des colonnes e id_sequence une session est compos e d une suite de s quences voir Chanier amp Vette 2006 que le transcripteurs d limitera lors de sa transcription Il donnera chacune un identifiant unique permettant donc de la distinguer de toutes les autres dans une m me feuille donc deux s quences peuvent avoir le m me identifiant dans deux session diff rentes e id_action c est l identif
5. les diapositives le tableau blanc etc Il pourrait ventuellement s agir d une fen tre ind pendante partag e quand un utilisateur ouvre un programme sur son ordinateur et le partage avec les autres Au contraire de l environnement Lyceum Chanier amp vetter 2006 les actions des outils de production collaboratives n ont pas t analys es n1 r pertori es donc pas codifi es Le transcripteur est donc libre en sachant qu il doit mettre un minimum d information de fa on la plus coh rente syst matique possibles en vue de permettre plus tard d autres transcripteurs de les reprendre Quelques exemples 3 diapo ce qui va se passer une diapo apparait l cran on reproduit le nom tel qu il figure dans l agenda 4 agenda chargement Karte presentation bmp l acteur vient de charger dans la partie agenda une diapo qui n est encore pas visible l cran 5 plus de diapo cran de base de Centra Si on d cide de transcrire le contenu d une diapos la partie texte du moins on pourrait alors imaginer le mettre en argument suppl mentaire 6 diapo ce qui va se passer ce qui va se passer pr sentation de petits codes pour que l on puisse respecter le temps de parole de chacun ou 7 diapo ce qui va se _passer jpg ce qui va se passer pr sentation de petits codes pour que l on puisse respecter le temps de parole de chacun si l on a r alis une image JPG de la diapo on met alors le
6. nom du fichier correspondant 7 ANR 06 CORP 006 Mulce Rapport d activit t cheT multi 2 6 La modalit audio ou table trancription oral Un principe fondamental dans la transcription est d assurer la continuit de la transcription de la modalit audio sans interruption chanier amp Vetter 2006 Autrement dit la suite des actes audio tpa doivent couvrir sans trou en continuit tout l espace temporel entre le temps de d but et de fin de la session Il se peut que par moments qui peuvent tre longs aucun signal sonore ne passe dans la modalit audio par exemple quand les acteurs travaillent en silence dans le tableau blanc On introduit un acteur fictif de code sil pour silence et le contenu de l action correspond la dur e de ce silence Le temps de d but est le temps de d but du silence et celui de fin celui de la prise de parole suivante par un acteur La diff rence entre les deux est la dur e du silence On distinguera silence et pause voir tableau ci apr s Les pauses durent par convention jusqu 3 secondes Au del on ne note plus la pause dans une interventin d un acteur mais on introduit un acteur tpa de code sil Les conventions sp cifiques pour la transcription audio ont t reprises de la convention ICOR et adapt e aux besoins de Mulce Conventions symboles Exemple de transcription L intonation montante est signal e par un slash ah L allongement insistance est sign
7. on indique un silence En cas de tour de parole sans son mettre _ vide Si le tour de parole est inaudible alors le mentionner avec _XXX gt Comment transcrire les probl mes audio Si plusieurs interlocuteurs ont des probl mes audio que transcrit on e Cas l une ic ne appara t il n y a pas d audio alors on marque l ic ne et le tour de parole vide _vide e Cas 2 une ic ne appara t avec un soupir ou du bruit puis dispara t alors on indique la pr sence de bruit dans la colonne commentaire et on transcrit le passage inaudible avec _XXX e Cas 3 une ic ne appara t puis bruit ou respiration puis prise de parole alors on indique la pr sence de bruit dans la colonne commentaire on transcrit le passage inaudible avec _XXX puis on transcrit ce qui est dit Quelle distinction faire entre inaudible et incertain Ce n est pas la m me chose pour le transcripteur Si le canal audio est fortement perturb alors le passage est tiquet comme inaudible _XXX avec un commentaire dans la colonne commentaire de la table parole En cas d incertitude le passage incertain sera indiqu avec _XXX avec un commentaire dans la colonne commentaire de la table parole Les _XXX ne tiennent pas compte du nombre de syllabes incertaines 1ls indiquent uniquement une incertitude Quelle distinction faire entre troncation et inaudible Il y a troncation si l interruption est intentionnelle pour le locuteur le
8. passage est inaudible s il y a perte du message 10 ANR 06 CORP 006 Mulce Rapport d activit t cheT multi gt Les chevauchements En r gle g n rale les chevauchements ont peu d int r t ici situation particuli re d apprentissage On ne note pas le segment qui est chevauch on indique simplement l existence d un chevauchement 8 alors euh je me pr sente je m appelle lt acd cd afbes2_3 gt Marjorie lt acd gt et je vais tre l animatrice de ce euh de cette s ance Centra donc willkommen est ce que c est bon pour tout le monde euh pour le clavardage vous ai bon j pense que vous avez tous vu comment a fonctionnait lt stp cd afbre2_4 gt oui a marche lt stp vous pouvez _XXX oui s il vous plait dans l intervention orale de l acteur afbes2_3 info figurant dans la colonne Code_acteur il y a eu chevauchement en fin d intervention par une intervention orale audio de l acteur afbre2_4 not avec la baise lt stp gt qui a dit oui a marche Ne pas confondre ce codage du chevauchement avec le moment o afbes2_ 3 dit Marjorie ce que l on code avec la balise lt acd gt Par convention on fait d marrer sur la m me seconde le temps de d but d un tpa et la fin du pr c dent Il n y a pas pour autant chevauchement gt Les commentaires Dans les commentaires on indique directement le code acteur mais sans les balises Les balises sont utilis es dans les tpa et tpc
9. ANR 06 CORP 006 Mulce Rapport d activit t cheT multi ANR 06 CORP 006 change de corpus d apprentissage multimodaux MULCE Eole Multimodal Learning Corpus Exc T che Tmult1 Multimodal mod les transcription Annexe technique Mode d emploi pour transcription multimodale adapt pour le projet Infral Version du 20 aout 2009 Auteurs Thierry CHANIER d apr s Maud CIEKANSKI et Anna VETTER Projet CoP As 2005 ANR 06 CORP 006 Mulce Rapport d activit t cheT multi 1 Table des mati res ls Table des MatI fe Sirisiri ne Rte ne MR ie nets 2 Mod d emploi pour transerre siens nil innt init E han sts 2 1 Description de la trame trans riphon fsss sus en ent ts nf 2 2 Donn es primaires parti desquelles se fait la transcription eseeeseeeseeeresreereeressrsereee 2 2 1 Listase simon miam nina disent 2 22 Organisat ondes donn e Soas o e Ea LE nr nr cn in 2 3 Organisation g n rale feuille SESSION ns NRA MR R nt 2 4 Modalit ClAVATASe SSSR ne Se Rte ec ed E 2 5 Moda lit prod ction ES en nn nn ne nee tt een Net ne Tr 4 2 6 La modalit audio et la table trancription oral sesssessssesesseesseeesseessesssseessseesseesseessee Zels Anonymi sati Onn ne dt ann Neue ANR 06 CORP 006 Mulce Rapport d activit t cheT multi 2 Mode d emploi pour transcrire Concernant le sens des mots utilis s ici sur les interactions multimodales en ligne mode modalit session s quence
10. al par une mise bonJOUR en majuscule suivie de deux points ajout du 7 07 07 d apr s ICOR BON jour La troncation est signal par l insertion de apr s le son tronqu attention pas d espace avant un th espace apr s L lision non standard est not e par une antiquote il nous faut d j a Si l lision non standard se produit en fin de mot J veux un espace entre le signe d lision et le faire suivre l antiquote d un espace mot veux tpal Apr s Les chevauchements en d but ou en fin de tour de parole sont indiqu s par les parenth ses tpa2 ah oui Les chevauchements l int rieur d un tour de lt Stp n parole sont indiqu s l int rieur du tour de parole entre lt gt en indiquant le code_acteur concern avec la balise stp s par du texte par des so this is the document and you can write on here lt stp cd AT6 gt yes but euh lt stp gt but you need to just hum talk together really just discuss the English Club site guillemets the world wide web world wide it means Les pauses sont signal es par le signe 1s 2 international is it right s 3 s Si la pause dure davantage elle appara tre avec la dur e not e en secondes dans une ligne sp cifique 7 cod e tpa acteur sil 1 Groupe ICOR 2006 La convention ICOR site CORINTE http icar univ lyon2 fr projets corinte
11. iant d une action correspondant un canal donn Chaque action une ligne par action dans la feuille Excel a donc un identifiant diff rent e Canal le canal ou modalit dans laquelle s est produite l action soit O tpa tour de parole audio O tpc tour de parole clavardage O v vote cadre participants dans Centra composant communication dans Chanier amp Vetter 2006 O prod action dans le cadre outils de production collaborative dans Centra peut tre un tableau blanc un cran partag une diapo etc O abs ic ne d absence momentan e cadre participants dans Centra composant communication dans Chanier amp Vetter 2006 O Im main lev e pour demander la parole cadre participants dans Centra composant communication dans Chanier amp Vetter 2006 e D but Fin temps de d but et fin d une action rep r e uniquement par rapport au temps de la vid o tel qu indiqu dans l cran Centra en haut et droite de la fen tre correspondante e Code_acteur cf feuille acteurs o figurent ces codes e Langues langue majoritaire du contenu de l action Les langues sont cod es suivant ISO 639 3 3 caract res Chaque cellule de cette colonne doit avoir un contenu pas de vide donc on utilisera un code sp cial si la langue ne peut s appliquer l acte Donc dans Infral O deu allemand O fra fran ais ANR 06 CORP 006 Mulce Rapport d activit t cheTmult1 O na n
12. izarres on veillera les r tablir Mais il ne fat en aucun cas r crire es contenus correction changement casse etc On notera cependant deux cas particuliers d intervention 1 _a afbes2_ 3 oublie ce que j ai dit Il s agit d un tour de parole sp cifiquement adress un interlocuteur les autres ne le voit pas On note alors en d but de champ Contenu par _a lt code_acteur gt puis le contenu tap ANR 06 CORP 006 Mulce Rapport d activit t cheT multi 2 salut lt acd cd afbre2 4 gt annika lt acd gt Dans le contenu tap par un acteur celui ci s adressait ou faisait r f rence un autre acteur en l apprenant par son pr nom On ajoute alors des blaises la XML permettant de rep rer de qui il s agit en indiquant le code de l acteur On se garde bien de rectifier ce qui a t tap au d part Ainsi on ne remplace par annika par Annika De m me si le pr nom n est pas orthographi correctement on laisse ainsi Dans certains fichiers clavardage les temps des tours de parole ne figurent pas On essayera alors de les ins rer au mieux lors de la transcription en sachant que l incertitude peut tre grande Mais ces interventions sont souvent importantes pour comprendre le dialogue d ensemble 2 5 Modalit production Les actes production correspondent aux actions survenant dans les deux cadres de l cran Centra celui not Agenda ou le principal o apparaissent
13. on applicable e Contenu de la transcription cf Tableau 1 e Commentaire_transcripteur Transcription de l ic ne sortie as momentan e au moment de son abs Temps d but temps fin donc action apparition l cran instantan e back x s Dr x Ic ne de sortie meomentan e dispara t acteur revenu enter Arriv e d un acteur dans Centra Temps d but temps fin donc action instantan e leave Acteur quitte session Centra R Temps d but d but intervention Voir section tpa pa Audio et silences sp cifique 2 na Temps fin fin intervention Voir section Temps d but temps fin donc action tpe ne p e Clavardage sp cifique instantan e yes Pour chaque valeur temps d but Vas sole y n x apparition ic ne l cran temps fin temps disparition ic ne si ic ne reste Ses oe longtemps l cran ou temps d but OTER ETON TOURE u Visualisation d un lever la main Im f Temps d but temps fin donc action instantan e T aai down Fin visualisation d un lever la main Temps d but d but action RE f id Voir section Transcription des actions dans l espace p sp cifique de produciton collaboratif Temps fin fin action Tableau 1 2 4 Modalit clavardage Les contenus de tpc sont tir es directement des fichiers de clavardage quand ils existent Si lors des transferts les accents ont t modifi s accents remplac s par signes b
14. ots pour un passage Dans champ Contenu I will draw here could you help me Dans champ Commentaire AT5 traces 3 fl ches depuis to play du tour de parole Pas de majuscules dans le texte sauf noms propres Google Lyceum Bill Gates L rires _soupirs _sinterrompt _tousse _chante lorsqu il n y a pas de son associ au passage _vide diff rent de inaudible ou incertain lorsque par exemple l enregistrement a connu une interruption momentan e Tableau 2 ANR 06 CORP 006 Mulce Rapport d activit t cheT multi Attention les tours de parole transcrits dans les corpus rel vent de la communication didactique en ligne dans un environnement sp cifique C est donc ce contexte particulier d interaction qui permet d interpr ter la communication transcrite gt Comment transcrire un tour de parole audio tpa Le tour de parole commence avec la prise de parole du premier locuteur et se termine quand le locuteur a fini de parler Sa d termination ne se fait donc pas en se fondant sur l ic ne haut parleur de la plateforme micro en jaune dans Centra On attribue les pauses au tour de parole pr c dent Un tour de parole se termine quand un nouveau tour de parole commence S il y a 4 secondes de pause alors on indique un silence Il n est pas possible d avoir une pause suivi d un silence s il y a plus de 4 secondes alors cela annule la pause et
15. q2_1 C est dans ce gabarit que le transcripteur saisie les donn es Il ajoute une nouvelle feuille par session suppl mentaire transcrite Le fichier Infral_transcript_patron xls est le patron fournit au d part Lors des transcriptions on veillera changer le nom en indiquant en fin de fichier la date du jour et les initiales du transcripteur pour viter confusion entre plusieurs versions Par exemple Infral transcription_evh_090821 xls pour le travail de transcription d une ou plusieurs s quences faites jusqu ce jour par Eva Maria H et Infral transcription_evh_090822 xls pour la poursuite du travail le jour suivant 2 2 Donn es primaires parti desquelles se fait la transcription 2 2 1 Listage Pour chaque session un ensemble de donn es dites primaires vont servir de base partir de laquelle la transcription sera faite ANR 06 CORP 006 Mulce Rapport d activit t cheT multi Il s agit en particulier O Fichier vid o de la session O Fichier trace du clavardage Autres fichiers comme fichiers correspondant aux images extraites des diapos montr s lors des sessions Centra Une partie de ces donn es sont des donn es primaires au sens o ce sont recueillies lors de l exp rimentation et contenu dans le d v d rom fournit chaque chercheur D autres peuvent tre de nouveaux fichiers par exemple si le transcripteur d cident d extraire des images de la vid o correspondant aux diapos montr
16. tour de parole silence etc on se reportera Chanier T Vetter A 2006 Multimodalit et expression en langue trang re dans une plate forme audio synchrone Apprentissage des langues et Syst me d Information et de Communication Alsic vol 9 pp 61 101 http alsic u strasbg fr v09 chanier alsic vO9 08 rec3 pdf 2 1 Description de la trame transcription Le fichier Excel dans lequel le transcripteur va effectuer la saisie des donn es se compose des feuilles suivantes une feuille liste session elle comporte des informations sur les sessions les documents correspondants et les transcripteurs Le transcripteur compl tera cette feuille en reportant pour chaque session transcrite les informations aff rentes Ces informations sont tr s importantes Il faut donc les v rifier avec beaucoup d attention e une feuille acteurs cette feuille comporte notamment des informations sur les acteurs n cessaires la transcription 3 premi res colonnes Elle ne doit pas tre modif e e une feuille codes elle comprend l ensemble des valeurs que le transcripteur copiera et collera de fa on viter les erreurs de frappe Ces valeurs sont organis es par cat gorie actions parole actions production actions sur les objets et on y retrouve l ensemble des codes d anonymisation pour l ensemble des acteurs du corpus e une feuille par session qui porte le code de la session transcrite ex infral_
Download Pdf Manuals
Related Search
Related Contents
Léase este instructivo antes de usarse Whirlpool EC510 User's Manual ERNT-AQTX41 - Omni Ray AG Manual do operador DENTEL 17.12.13.indd Rotel RX-1052 Stereo System User Manual DELL Inspiron 7537 L`ANALYSE D`IMAGE APPLIQUÉE À L`ÉTUDE DE LA DIFFUSION ImposeMate User Manual MVI94-GSC E User Manual Copyright © All rights reserved.
Failed to retrieve file