Home

Corpus oraux : Essai de segmentation automatique -

image

Contents

1. lt BALISE nom Enreg titre InfosEnregistrement type string gt lt TEXTE gt lt BALISE gt lt BALISE nom Loc titre Informateur s type zone lt TEXTE gt lt BALISE gt lt BALISE nom Enq titre Enqu teur type string gt lt TEXTE gt lt BALISE gt lt BALISE nome FichSon titre Son type zone gt lt ATTRIBUT nom href presence obligatoire gt lt TEXTE gt lt ATTRIBUT nom start presence optionelle gt lt ATTRIBUT nom stop presence optionelle lt BALISE gt XBALISE nome FichCarte titre Carte type string gt lt ATTRIBUT nom href presence obligatoire gt lt TEXTE gt lt BALISE gt lt BALISE nome FichPhoto titre Photo type string gt lt ATTRIBUT nom href presence obligatoire gt lt TEXTE gt lt BALISE gt XBALISE nom FichVideo titre Vid o type string gt lt ATTRIBUT nom href presence obligatoire gt lt TEXTE gt lt BALISE gt lt BALISE nom Rem titre Remarques type zone gt lt TEXTE gt lt BALISE gt lt MENU gt
2. lt TEXTE gt lt SOUSBALISE nom M tadonn es gt XSOUSBALISE nom Donn es gt lt BALISE gt lt RACINE gt MENU titre M tadonn es XBALISE nom M tadonn es titre Informations sur ce corpus type division gt TEXTE XSOUSBALISE nom T XSOUSBALISE nom L XSOUSBALISE nom D XSOUSBALISE nom Dial lt SOUSBALISE nom Tr XSOUSBALISE nom Enreg XSOUSBALISE nom Loc XSOUSBALISE nom Enq XSOUSBALISE nome FichSon 5 XSOUSBALISE nome FichCarte 5 XSOUSBALISE nom FichPhoto gt XSOUSBALISE nom FichVideo gt lt SOUSBALISE nom Rem gt lt BALISE gt lt BALISE nom T titre Titre type string TEXTE lt BALISE gt lt BALISE nom L titre Lieu type string gt lt TEXTE gt lt BALISE gt lt BALISE nom D titre Date type string gt lt TEXTE gt lt BALISE gt BALISE nome Dial titre Dialecte s type string gt lt TEXTE gt lt BALISE gt lt BALISE nom Tr titre TypeTranscription type string gt lt TEXTE gt lt BALISE gt 291 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION
3. lt MENU titre Donn es gt lt BALISE nom Donn es titre Texte transcrit type division gt lt TEXTE gt lt SOUSBALISE nom Enonc gt lt SOUSBALISE nom Phrase gt lt SOUSBALISE nom Mot gt lt SOUSBALISE nom Mon me lt SOUSBALISE nom Trad gt lt SOUSBALISE nom Phono gt XSOUSBALISE nom Phonet gt lt SOUSBALISE nom Graf gt lt SOUSBALISE nom ChLg lt BALISE gt lt BALISE nome ChLg titre Autre langue type string gt lt ATTRIBUT nom code langue presence obligatoire gt 292 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION lt TEXTE gt lt BALISE gt XBALISE titre Enonc type string gt XATTRIBUT nom id presence obligatoire XSOUSBALISE nom Phrase SOUSBALISE nom Mot gt XSOUSBALISE nom Mon me XSOUSBALISE nom Trad XSOUSBALISE nom Phono gt XSOUSBALISE nom Phonet XSOUSBALISE nom Graf gt lt TEXTE gt lt BALISE gt lt BALISE nom Phrase titre Phrase type string
4. XATTRIBUT nom id presence obligatoire XSOUSBALISE nom Enonc XSOUSBALISE nom Mot gt XSOUSBALISE nom Mon me XSOUSBALISE nom Trad XSOUSBALISE nom Phono gt XSOUSBALISE nom Phonet XSOUSBALISE nom Graf gt lt TEXTE gt lt BALISE gt lt BALISE nom Mot titre Mot type string lt TEXTE gt lt SOUSBALISE nom Mon me lt SOUSBALISE nom Trad gt lt SOUSBALISE nom Phono gt lt SOUSBALISE nom Phonet gt lt SOUSBALISE nom Graf gt lt BALISE gt XBALISE nom Mon me titre Mon me type string gt lt TEXTE gt lt SOUSBALISE nom Trad gt lt SOUSBALISE nom Phono gt XSOUSBALISE nom Phonet gt lt SOUSBALISE nom Graf gt lt BALISE gt lt BALISE nom Trad titre Traduction type string gt lt TEXTE gt lt BALISE gt lt BALISE nome Phono titre Phonologie type string gt lt TEXTE gt lt BALISE gt XBALISE nom Phonet titre Phon tique type string gt lt TEXTE gt lt BALISE gt 293 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION XBALISE nom Graf titre Graphie type string gt lt ATTRIBUT nom systeme presence optionelle gt lt TEXTE gt lt BALISE gt lt MENU gt lt JAXECFG gt Annexe 6 7 8 et 9 Phrase EI Nom Adjectif Num ral Pr personnel Demonstratif Ind fini Pr position Adverb
5. ny anl alews is Sa id At Ttaleb SPV expansion directe expansion directe dv al wwintt id v er ssbitar l connecteur autonome sp cifique SPV synt Pr p Amek i s xedmen l 4298 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION Interrogatif relatif proposition relative Ssawlen SPV l Bruit de fond gt l rrfed itt imir si Micli v er Tizi VVezzu l SPV adverbe synt Prep synt Pr p V Azekka nni efsen anev a win d yisurdiyen Adverbe SPV expansion directe V nnan as i baba Iha i baba Ihad Muhend kker A SPV expansion indirect SPV v l yev li gar t eddarin SPV synt Pr p V yenna as lukan d lEibad iav d wwin SPV subordonnant syntagme nominal proposition relative v JI ur yettsuv u ara s yisurdiyen salle d eau d axxam pitru SPV synt Prep s lt Syntagme nominal v akken ajirikan n waman acifun ma jajin iv min iv amen yitu i av ttawin v Wwin qbel deg yimeqqranen SPV adverbe synt Prep V wwin Ca ban n Watliqa ad fell as ye fu Rebbi SPV expansion directe V nan mara iqa SPV expansion directe v ad ak rnun Muhend Wae A SPV expansion directe Y meqqar Rnan dadda k salah salah At AEli A SPV expansion directe v i vvalbe d nney synt Pr p Y wwin Yunes At Sa di 299 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION
6. CONSTRUCTION ET EXPLOITATION construits et occupant une position dans la grille Unicode ou bien tre produit par l association de deux caract res une lettre et un signe diacritique Or les programmes informatiques vont traiter diff remment ces deux situations Les logiciels permettant d tablir des listes de fr quence ou des concordances fonctionnent correctement lorsque les caract res complexes sont cod s par des caract res uniques mais ne savent pas traiter le cas o ils sont form s par l association de deux caract res La r gle appliquer est donc la suivante si c est possible crire un caract re complexe en utilisant un caract re unique et non pas en combinant un caract re litt ral et un caract re diacritique C est pourtant exactement l inverse que propose le site edition berbere http edition berbere free fr tables saisie berbere utf 8 OI hl Les propositions qui figurent dans le tableau suivant respectent la r gle ci dessus Pour les consonnes labiovelaires pas reprises ici il n y a pas de caract res uniques dans Unicode La proposition de l INALCO postposition de reste donc la plus simple puisque en exposant se trouve directement sur tous les claviers Bloc Code Bloc Code a Latin de base 0061 A Latin de base 0041 b Latin de base 0062 B Latin de base 0042 c Latin de base 0063 C Latin de base 0043 Latin tendu A 010D Latin tendu A 010C d Latin de base 0064 D Latin de base 00
7. JLBN S tacilcscsacat Tazumbilt R ZMBL UC C3iCat et ic et Tidekt R DK S ti ciecot Le ed s R UDS CiC C3CA Akalatus R KLTS S aciacoacsUuCa kirruc R KRC S iciiC ucs Abellud R BLD S acjeCiuc Lfengla R LFGL LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION L argent donn pour la fianc e Amas de bois qui sert cuire la poterie Tig fart RT FR S tic1c acst Tazdayt R ZDY S tac c2a cst Taxsayt R XSY S tacic a cat Ikeffis R KFS S 1c eC lc3 Lkermus R L KRMS C1C2 C3C4UC5 Tinijwal R NIWL S 1 Timendekrar R MNDKR S ticiec csecacsac Timeccucin R MC S tic eCuc3ic4 Ayefki R YEK S ac1eCc3i Xuya R XY S cuca Tullas R LS S tuCiac fart R T FR S tac c2ac3t Tazanet R ZN S tacjac et Taxsakt R XSK S tac c2ac3t Ikeffil R KFL S icjeC lcs Lkermus R L KRMS S C1C2 C3C4UC5 Tizwal R ZVVL S ticicoacs Tiferkekkay R FRKY S ticiecocaeCuaacs Agersiwen R T RSW ac ec c ic4ecs fki R FK S 1 CiCi Ugma R GM S uc c a Tizri R ZR S Tihdayin R HDY S tic C2aC3lC4 Uyud Uyud R TD R TD 278 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION S C ueme S uciuc Chapelet de morceau de viande Un s
8. Et l objet de la syntaxe est d exprimer par quels moyens les rapports qui existent entre les l ments d une exp rience peuvent tre marqu s dans une succession 270 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION d unit s linguistiques de mani re que le r cepteur du message puisse reconstruire cette exp rience Ibid 2 8 p 16 Toujours pour notre tiquetage linguistique nous avons un l ment aussi important que la phrase et l nonc savoir le syntagme pour qui la d finition de A Martinet est tout fait indiqu e puisqu il le d finit Martinet 1980 4 13 p 112 comme toute combinaison de mon mes dont les rapports mutuels sont plus troits que ceux qu ils entretiennent avec les autres l ments de l nonc plus ventuellement le mon me fonctionnel qui rattache cette combinaison au reste de l nonc Dans un nonc complexe on trouve donc un nonc minimum qui se compose g n ralement d un pr dicat et d un sujet expansion obligatoire et les expansions Le pr dicat est l l ment irr ductible de l nonc Donc une phrase est un nonc dont tous les l ments se rattachent un pr dicat unique ou plusieurs pr dicats coordonn s en tenant compte des pauses importantes initiale et finale de l intonation qui varie avec le type de phrase assertive interrogative injonctive Deux logiciels gratuits et libres d acc s sont utilis s PRAAT http www fon hu
9. acieC u S taciuc a CCS Tameyrust Tanqult Figuier R MFRS R NQL S taciecocsucuat S tacicoucs t PI dunt M a Timentedt Ihinted ante ont les uits collent a tous ce qu elles R MNTD R HNTD touchent S ticiec csec S iciic c ec Tajengalt Tajenjirt R JNGL R JNJR Vari t de la figue S taciec caacat Ss tac ec csicat Ajgagal Tajnant La vigne R JGL R JN S aciCsac3aC4 S taciczacst Ssanu Zraree Nigelle R SNG R ZR S Ciac uc3 CIC28aC3CC4 Tawekka Take a Ver R WK R K S tacjeC a S tacjeC a Axerfi kerri Mouton R XRF R KR S ac ec csl S cie Coi Agrus Agarus R ERS R ERS S acicoucs S aciacoucs Afekrur fekker Tortu R FKR R FKR ac ec c uc S Escargot 283 LES RESSOURCES LANGAGIERES Vari t de figue Olivier sauvages Ahuli R HL S acquc Abakur R BKR S ac ac uc3 Lbesbas R L BS CICoCC3CAaCs Aheccad R HCD S ac e Cac Hlafa R HLF S 284 CONSTRUCTION ET EXPLOITATION Arzaz R RZ S AC1C24C3 Abukar R BER S aciucoacs Abesbas R BS S Azebbuj R ZBJ S acjeC uc R HLF S LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION Annexe 3 Corpus Sahel Bouzegu ne Transcription en jaxe lt xml version 1 0 encoding 150 8859 1
10. standalone no gt lt CORPUS gt lt CORPUS gt NOTATION USUELLE gt Nekkni zik ad d neker deg yid n af n yid ad nruh ta ad teyyar i ta ad d nagem d talla n wadda mi i d newwed ad necyel seksu mi nfuk seksu nni ad n edi ad nnened leybar mi nfuk leybar nni ad n edi ad nerfed iqettaren tasebhif ad nruh yer cyel Nettewqam amardil Ad nawed a yelli yer uzemmur ad nawi iqcer n uyrum deg yiciwan n nay ur nettawi ara ll ali agi i ttawin akka medden tura wellah ar d tidet a yelli Ad nawi iqceran nni n uyrum deg yiciwan nntey ad nawed aken nemwellah d tislatin d Ixalat deg mi ara nali yef l edra alama n fuk itt id deg yixef mi ara d nars a eqqa ad awdey ar l edra ad xezrey tazemurt ma ufiy a eqqa ar teqacuct ad qley ad t id yeqdey hemlay arrezq a yelli maci am tura il n tura Ad d nars a yelli tameddit n wass ad ay iney lazz ad nettdeqir iqceran nni n uyrum Tecfad yema m ad tt ig Rebbi n rrehma Setti m ad tt ig Rebbi n I ennet Ula d yema m tlehqed Ad nettdegir ayrum nni akka sdat ad nluqed ad nettdegir ayrum nni sdat ma nufa d a eqqa aquran ad t nsexdel s uyrum nni Ur nes i re vvaz ur nes i d ayrum nni kan ad d nawed s lfarh d ameqran ad d naf tabbarbuct am iqeccaden ad tt ne d tazidant d tuzyint Ad nruh ma i yefuk uzemmur nni d tuga ma tefuk tuga nni d nqec n tebhirin d timegrivvin d inurrar d ti elafin nyezgaren Ssarwaten madden deg yivv iben d tayarza Ixalat d azemmur
11. S tac4ec csucat Agrud R GRD S acicoucs Agenduz R GNDZ ac ec c uc4 Qlilu R QL S Cic lC u Tejde R JDC S tecic ec3 Imieruf R MERE 1C11 CoC3UC4 Tifirellest R FRLS S ticiceCzecat A fertitu R FRT S aciecocsicau LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION Afertetu A fertitu R FRT R FRT S S ac4ecocaic4u Singe R DW R BK iC1ec2 S icieC l Tirellil Itirelli S ciicoeCsica KRISS WI Papillon de nuit Tiyirdemt Tawejjidt Scorpi corpion 3 RDM R wun t1C11C2C3 C4t S tacjeC ic Aburebbu burebbu Tordeuse R RB R RB S abuc Cu S buciC u Taggent Aggen Taon R GN R GN S S aCiec Afalku Lbaz S aciacoc su S Cicoacs Tahluqt Tarzeft Bon plat R RZF R HLQ S tacichecst S tacicoucat ssegmi Agudem Jeune pousse R SGM S 1 R GDM S aciuc ecs zirdi Akcab Renard R ZRD R K B S iC11C2C31 S ac c a6 l afunast Tuwmat Vache R FNS R WM S tacquc acat S tucic at 500 P Tasellift Taselluft 282 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION Puce R SLF R SLF S tacieC ucst S tacieC ucst Tacihbudt Wahrir R CHBD R WHR S tacjicocauca c acoc3lca Coquelicot Agewdiw Agidiw Chevale R VVDVV R EDW S 2 1 S acjic ics Massette Roseau R GL R BD S
12. SPV expansion directe ula d netta ur yeqqar ara SnV SV d baba s i yeqqaren deg sen di Emara Syntagme nominal proposition relative synt pr p Synt prep uy alen d v ur i ur qqarev ara SPV Synt pr p SPV dav en Ferhat Sliman akked Muhend At Wetli Ulhusin Adverbe nominal cordonnant nominal ur qqaren ara irkel SPV adverbe mais mbe amp d kan xemsa n taddart ufan xemsa limumbr Cordonnant adverbe synt nominal SPV expansion directe Azekka nni ad d nruh ar taddart Adverbe SPV synt pr p sukken av d seg Furbiyen dinna s ddaw Uwrir SPV Synt pr p d ictique synt Pr pos Dda Muhend Hemmu fell as ye fu Rebbi Indicateur de theme lye wej as uttbadri SPV Expansion r f rentielle deg uzv al hi d nemlal li d nhar s ukubri nsen s les para n xali k Ibrahim derfen d xemsa nni n taddart Syntagme nominal SPV expansion directe hebsen ten ar Ihid mitrayin ten nv an ten SPV synt Pr pos SPV SPV iruh cit nni SPV expansion directe apr s vvehd s yerra t un peu de grace Adverbe SPV itekka as s yiwet s la balle s aqerru 300 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION SPV synt Prep synt Prep synt Prep nejbed as nentel it A t edda dde wa SPV SPV SPV expansion r f rentielle uv alen d une
13. Tasalast et Tamda Ouguemoune support de l enregistrement dur e de l enregistrement Environ 45 minutes lieu de l enregistrement Au bord de la mer sujet de l enregistrement Poissons animaux de la mer Y avait il un public Non Reference 2 engu t Nom Date de naissance L un est n en 1934 l autre est n en 1977 Sexe Hommes Village d origine Tigzirt Tribu Iflissen Domicile actuel village Tigzirt region Dialecte parl nom donn par Kabyle le locuteur son parler Autre s langue s parl e s Kabyle arabe Au travail 274 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION la maison Kabyle S jour s l tranger Non Dur e du des s jour s Scolarit et formation Niveau CEM celui qui est n en 1977 Langue s de l enseignement re u Profession Chasseurs marins Personne s ayant jou un r le dans l apprentissage linguistique par exemple son p re sa m re personne avec qui le locuteur a pass son enfance lien de parent relation avec la personne Non lieu d origine scolarit et langues d enseignement situation familiale mariage s enfants Mari celui qui est n en 1934 c libataire celui qui est n en 1977
14. langue s parl e s par le conjoint Kabyle attitude du locuteur par rapport sa langue et sa fa on de parler Fi re vis vis du kabyle leur parler diff rent au reste de la Kabylie 3 Collecteur nom pr nom Oumaouche Omar 275 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION langue s parl e s Kabyle arabe fran ais origine Tigzirt relation enqu teur enqu t 4 Debriefing conscience du micro attitude du locuteur par rapport a Penregistrement attitude du locuteur par rapport a Pentretien aux questions pos es 5 Autres infos 4276 Anneye 2 mot en fran ais Champignon Petits pois Pin Silvestre Citronnier Lentisque Lentilles Eucalyptus Ch ne li ge Parler 01 Aglala Beni Zmenzer Tireylin Racine RF L Sch me ticiec2c3ic4 Tajijbant R JBN S tacilc csacat Tazumbit R ZMB S tacjucocsit Tilimet R LM S tic icet Imidek R m DK S 1C11C2eC La des R LIDS C1aC5C34eC4 Karitus R KRTS S C1AC gt iC3U C4 Akerruc R KRC S a cieCoucs Ah ellud R HLD S acjeCiuc Awermi R WRM S acjec c i 277 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION Parler 02 Isseradj ne Boudjima Tireyla Racine RT L Sch me ticjec csa Tajilbant R
15. 44 d Latin tendu 1EOD D Latin tendu 1EOC suppl suppl e Latin de base 0065 E Latin de base 0045 Latin de base 0066 F Latin de base 0046 g Latin de base 0067 G Latin de base 0047 Latin tendu B 01E7 5 Latin tendu B 01E6 265 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION NPC avec et I diacritique br ve de Latin tendu A O11F et OLE h Latin de base 0068 H Latin de base 0048 h Latin tendu 1E25 H Latin tendu 1E24 suppl suppl i Latin de base 0069 I Latin de base 0049 j Latin de base 006A 1 Latin de base 004A k Latin de base 00658 K Latin de base 004B Latin de base 006C L Latin de base 004C m Latin de base 006D M Latin de base 004D n Latin de base 006E N Latin de base 004 y Extensions IPA 0263 Y Latin tendu B 0194 Attention autre possibilit bloc Grec et Copte avec le couple y 03B3 pour la minuscule et 0393 pour la capitale On pourrait r server ces caract res si n cessaire la notation d une r alisation spirante d un g q Latin de base 0071 Q Latin de base 0051 r Latin de base 0072 R Latin de base 0052 r Latin etendu 1E5B R Latin tendu 1E5A suppl suppl s Latindebase 0073 S Latin de base 0053 s Latin tendu 1E63 5 Latin tendu 1E62 suppl suppl t Latin de base 0074 T Latin de base 0054 t Latin tendu 1E6D T Latin tendu 1E6C suppl suppl t Latin 0163 T Latin tendu A 0162 tendu A u Latin de base 0075 U Latin de base 0055 266 LES RESS
16. GIERES CONSTRUCTION ET EXPLOITATION ntsmor m rram sraakkaillof nm sra ilqar nayama iqar nmhaya a tifaayvvrsaf n fikiin voyjasatsifrieomajoyijmorramorraeimorajagimorranno aeontsjvitwo raziea jodojwarqaej odoihornostivavaenakornostijomaenokjomaatsiyaroppinzrohmaefawoniji ogarrawiwaadno karnowoeeaywoeswadoeoraijnokorijivoxajfaajppaendat wossu lt M tadonn es gt lt T gt traditions et coutumes lt T gt lt L gt Village Sahel Commune Bouzegu ne Daira Bouzegu ne Wilaya Tizi ouzou lt L gt lt D gt novembre 2007 D gt lt Dial gt langue kabyle Dial gt Tr 7 I Notation usuelle II Transcription phon tique Tr gt lt Enreg gt m thode semi directive cam scope audiovisuel lt Enreg gt lt Loc gt Nna ouardia sexe F minin ge 79 ans monolingue lt Loc gt lt Enq Karima HABBI lt Enq gt lt FichVideo href gt Rem M tadonn es gt lt CORPUS gt 289 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION 290 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION Annexe 5 lt xml version 1 0 encodinge 1S0 8859 1 5cGAXECFGS DESCRIPTION Configuration pour corpus de kabyle UMMTO UNIL lt DESCRIPTION gt lt RACINE gt XBALISE nom CORPUS titre R f rence du corpus type division gt
17. LES RESSOURCES LANGAGIERES CONSTRUCT ON ET EXPLOITATION Corpus oraux Essai de segmentation automatique Noura Tigziri Departement de langue et culture amazighes Universitet Mouloud Mammeri de Tizi Ouzou Nora tigziri gmail com Introduction Pr sentation du projet Notre projet consiste en la mise en place d une banque de donn es de corpus oraux num ris s transcrits et annot s pour la langue amazighe qui soit exploitable des fins scientifiques s adressant principalement aux enseignants chercheurs linguistes Nous souhaitons r colter un corpus suffisamment large pour qu il soit repr sentatif de la langue et afin qu il permette sa sauvegarde sous forme de ressource linguistique Cette recherche fait intervenir deux institutions le d partement de langue et culture de Tizi Ouzou et la section linguistique de la Facult de lettres de l universit de Lausanne Aucun moyen financier sp cifique n accompagne ce projet mais ce dernier a t int gr dans le laboratoire de recherche Am nagement et enseignement de la langue amazighe agr e en 2009 Les objectifs Le premier objectif est de mettre disposition de linguistes une ressource linguistique ce qui implique des cons quences sur la mani re de d finir les m tadonn es et les annotations Cette recherche est aussi une occasion de documenter le kabyle parl dans toutes ses vari t s sous toutes ses formes g ographiques Son int r t r side au
18. OURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION w Latin de base 0077 W Latin de base 0057 X Latin de base 0078 X Latin de base 0058 y Latin de base 0079 Y Latin de base 0059 Latin de base 007A Z Latin de base 005A 2 Latin tendu 1E93 2 Latin etendu 1E92 suppl suppl Extensions 025B Latin tendu B 0190 IPA Attention d autres possibilit s seraient envisageables p ex bloc Grec et Copte G n ralisation la notation de la spirantisation Le principe consistant pr f rer syst matiquement l utilisation d un caract re unique sur l association de deux caract res est galement pr f rable pour les autres niveaux de transcription Ainsi pour la notation des spirantes dans une transcription phon tique large si l on d cide d adopter la convention du trait souscrit suscrit sur g ou G plut t que le recours aux caract res de l API il vaudra mieux utiliser les caract res qui apparaissent dans le bloc Latin tendu suppl mentaire plut t que de combiner un caract re avec le diacritique trait souscrit Unicode 0320 Pour crire le kabyle en plus des lettres habituelles on a besoin des lettres Y et e des lettres diacrit es c et g avec caron appel encore hacek chevron antiflexe accent hirondelle v suscrit d h r s t z avec point souscrit t c dille Tous ces caract res doivent tre disponibles en lettres minuscules et en lettres capitales majuscules Toutes ces let
19. accord sur des descripteurs qui permettront ensuite une recherche efficace dans un catalogue qui renverra aux ressources elles m mes Dans la constitution d un syst me de m tadonn es pour des donn es ou ressources linguistiques enregistrements audio ou video photos transcriptions annotations diff rents niveaux peuvent tre consid r s Description g n rale de la ressource linguistique langue vari t date de recueil genre Description des traits sp cifiques de la ressource linguistique date lieu enqu teur informateur moyens techniques fichiers noms types localisation Pour notre projet cela nous concerne 1 puisque l un des objectifs dans l avenir est de publier les informations sur les ressources construites pour permettre d autres chercheurs de savoir qu elles existent et le cas ch ant d y acc der Mais rendre publiques les m tadonn es n impliquent pas obligatoirement de rendre l acc s ces donn es galement libre 2 Comme il est pr vu un grand nombre de corpus l mentaires enregistrements ou sessions il faut alors de toutes fa ons se construire un syst me de m tadonn es pour retrouver rapidement un sous ensemble de donn es Alors autant le construire de fa on a ce qu il soit compatible avec un syst me standardis En relation avec ces structures de m tadonn es des logiciels capables de les utiliser ont t d velopp s OLAC IMDI Pour notre pa
20. asaeidjoqdarho miakazr zqai llimat ameoraas3 iintoraadnarsaf li am di ppasakinak azzaan tsd giriqf r annni pvveromelfadi mmamatsiyr ppin zrahmas tsimatsyr ppill nn eola yemmam f h qgodanstsdogirasromnniakaarzzaemanofadaSoqqaaqoranaenossoxdojswogromnniurnosfirdz wazurnos asromnnikanadnawodsjofarh amogranadnafeavvarvofeamiqoffadonatsnetfitsaz i antsozjintanohmajfokozommornn tsoyamaeofokeoyanni nqofetovhirintsimeyriwinOinora rtsitelafinogozggaronsarwaeenmoddon ogwoddsivontsajarzaijxajae azemmorirgazontsijarzi winnzixdifollahonmasraitoglijona omxareajonnnatmaafwo jirenmaraa mxareajenkolijxirj tszi imirkoliixir tszi ora nkk zinekk zniarsaqeoraursinarara h raka ifarviigT ddan fallanakalahalahnnikasa si ireppiurijkollij ttisardonfakwa rdonfakwa si ia roppiurikollij tti 3innaardonfakeirnijinnanotsfarasa atszrod irajowqamiwasmijoweakeayoesadojomoewarg gaziwijxomsawoejaein amoftohjodzajidrovtaigwardaneamoreeollaeamoreeollanhondikare ppinfokrikeonzaevarqoqeeonzaeeromantjonzaojfajofojeonza ogmaradnokkareamoreolofnin ddonienppod tsnoppodzovgaaeotovollaaeoltarvinoppodajolliifarhononnoppodkolojsjahmojo karmos ogmaradnofkKorhorhorhorasskamojtsiyliwinadnawodanozonzadnatfarjahmojnni ak 287 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION ar ojovsoj jvatataanohnoznozojsjo rimoneamoreeollaajollinxo omno tfanhondikaroppinfok rikeorawollahaaroppiarsinik ija marfirakalaxjaarakkaidofi
21. ce programme exige l installation pr alable de l environnement de programmation NET NET Framework t l charger ici http www microsoft com net Download aspx Un mode d emploi en fran ais ci joint MKLC fr pdf extrait de http llacan vjf cnrs fr fichiers manuels Internet SaisieClavier pdf permet de se d brouiller assez facilement Il faut simplement corriger ce qui est dit sur l installation du clavier dans Windows le fichier msi est le fichier compos du nom du clavier et de l abr viation de la famille du processeur le plus souvent 1386 Mais il y a un fichier de Setup qui doit se charger d installer la bonne version Attendre le message Installation compl te Ce n est pas imm diat c est le panneau de configuration Options r gionales et non Clavier qui sous Windows XP en tout cas permet d installer et d activer le nouveau clavier Bien entendu il est possible de choisir n importe quelle touche comme touche morte pas seulement le Extension envisageable Si on le souhaite on peut ajouter d autres caract res comme par exemple le o lt ta La difficult consiste attribuer les caract res suppl mentaires une touche pr sentant si possible un certain rapport pour viter un effort de m moire Mais on pourrait parfaitement par exemple d finir une autre touche morte pour entrer des caract res de l alphabet phon tique utilis s dans une transcription phon tico phonologique On pourrai
22. deuxitme fois SPV nekkni nfaq Indicateur de th me SPV ur d ufin yiwen yiwen r p tition di taddart SPV 2299997099 synt Pr pos passage d un autre informateur meZZi nev meqqer nekk SEiv tafunast Indicateur de th me SPV expansion directe wwiv tafunast ksiv tt SPV expansion directe SPV Deg uxxam iruh l esker Synt pr pos SPV expansion r f rentielle dav nekkini ma ur iruh ara 5 Subordonnant SPV expansion r f rentielle tenna ak tmettut dya ad tawid tafunast SPV expansion r f rentielle SPV expansion directe nekk ad rrev kan syagi Indicateur de theme SPV adverbe determinant autonome yuy al arravv is bdan I emga auxiliaire indicateur de th me SPV adverbe ass nnikat d ssebt dv a i neddukkel Adverbe syntagme nominal connecteur ama d wigad i xeddmen Fonctionnel propositionnel SnV relatif predicatoide Wigad ur nxeddem ara substitut non personnel pr dicatoide 301 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION yiwen n yid tett ubbu tmettut Adverbe SPV expansion r f rentielle tenna ak ad awiv tafunast SPV SPV expansion directe nniv as tura ad nens SPV adverbe SPV nuqem tti ad ad nemlil deg yiv zer nni Bu Sliman SPV expansion directe SPV expansion indirecte Xedmen asen ratissage SPV expansion indirecte expans
23. e Verbe 3 Vb auxiliaire 2 Conjonction Negation Interrogatif Particule Affixe_d rivation Autre Glose Transcription_phonologique Transcription_phon tique C Traduction 3 Audio 3 SO ESL ES ES E ESL ES S ESL ES ES ESL ESL ES ESI ESL SI E Gielen Nouveau document Jake Langage Sch ma simple Enregistrement Menus Affichage Exports Textes cd Insertion Arbre Attributs lemen O l a PIC sous ensemble lt Attribut 294 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION ooo Nouveau document Jaxe Langage Sch ma simple Enregistrement Menus Affichage Exports Textes PIC 0 Insertion Arbre Attributs M tadonn es Identificateur fichier son Identificateur fiche collecte ISl SI EE 91 EST EN 7 97 ESL EET ET m 2 8 Type_de_discours Lieu_enqu te Date_enqu te Enqu teur Transcripteur Date cr ation modification 295 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION Annexe 10 Le corpus s gment Bruit de fond 00 00 s 00 03 s B l Ad wen d hedrev y ef cinquante huit SPV sy
24. ement les diff rentes parties du discours C est pourquoi on les r unit en un ensemble nomm dans cet exemple formes Les parties du discours ainsi que les attributs qui les caract risent sont d termin es par les linguistes berb risants du groupe de recherche Pour que le fichier de description de la structure soit accept par Jaxe il faut encore indiquer un l ment racine de l arborescence hi rarchique Dans notre exemple ce sera l l ment Document kabyle L illustration est en Annexe 6 7 8 9 Application avec PRAAT PRAAT est exploit en analyse acoustique En cr ant de nombreuses tires on arrive aligner le signal temporel le sonagramme la notation usuelle le d coupage en unit s pr alablement d finies ou tiquetage linguistique racines sch mes syntagmes Annexe 10 Des scripts sont galement utilis s des fins de segmentation en nonc s par exemple Evidemment toute la probl matique de la 272 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION d finition de l nonc en ce qui concerne l oral est difficilement maitrisable Pour notre part les pauses sont prises comme indicateur de s parations d nonc s Annexe 11 12 Evidemment PRAAT a aussi la qualit d aligner son transcription 273 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION Annexe 1 Fiche de collecte 1 divers date de collecte 2009 lieu Tigzirt
25. es transcriptions jug es insuffisantes par un evaluateur au moins pour d cider de celles qui devraient tre cart es comme trop fautives et refaites On identifiera clairement quels tudiants ont transcrit quels corpus quels membres de l quipe l ont contr l et conserver cette information ce seront des m tadonn es importantes Il pourrait tre utile d avoir des informations de type sociolinguistique sur les tudiants qui transcrivent Nous avons tabli pour chaque locuteur une fiche de collecte Annexe 1 o doivent apparaitre les m tadonn es pr alablement d finies Pour compl ter ces donn es nous avons tabli des listes de mots Annexe 2 en fonction de plusieurs param tres dont les diff rents champs s mantiques que nous soumettons dans les divers points d enqu te 262 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION Choix technologiques Nous avons opt pour l adoption de standarts OLAC xml et des logiciels autant que possible gratuits open source et multi plateformes Windows Mac OSX Linux Le traitement et l informatisation des corpus oraux supposent un certain nombre d outils th oriques et de techniques qu on devait ma triser Le premier point est la d finition des m tadonn es La question des m tadonn es commence se poser s rieusement lorsque se multiplient les ressources linguistiques informatis es et potentiellement accessibles en ligne Il s agit de se mettre d
26. foKwazoea tssomoyonseSoKwazoeigtodan ilgiranniigtodanadnawodajollieatzizeiwarzomtonamaareo 3maSeamaarjiwoelharanots akajmorranotsagwa irgazonajollifokontonfihelamdinixfiholirga z nfok nsortomaddandat frio vofvv n a tifaakk nara nvvaliniargaz ntsdondvvi axtsdon dif s karagivvanayi T skariromif nziy imafigy s nasr viTarmi assmillanakKaixabie nifok n afar gargaz ndhaio assagiddandat frio a tifa vofvv niq dr n gargaz nisfevv n g mogradogargazonmsayjieah oajoneorasifininah ieleqamtnaetjiiwsawonihaloxwajarogimirts irobafmorratsirobat arozoqipolhadzlatamonaemojqansotsimatsiyaroppinzzohomazodimaxxa mnaevvinae na iyas ppift aniqarains nvv xxama s fa aak nkan lifkin tsoqravakKan tsoqr avamkarnakaeiyas ppinsr hmaakkaa sfa atsnos n inafin dassagia n s na sfa agiyar tq ajon 3omaSjimanmanoKKkatsoja noknianomyardogidajaxirsomodojhaja notsaa rohonaesta anniadofkonjiwoe ieosjaeinnsonaOanornonokkinokeasot ieeamosatsanohanawiimonsianon s ijaxjaanomyardogidanomyar ogzajanoseatfoimiraheeppijidid3adarmijonajoaramdho rak xafarrawiwajollinonoenonokeoppijieonideilloleroheoramajollawarasjinin ir tsassatofrinlos najagiorjilofavoxajfaaearwatotobothafafarhaestigjiwonkanwanayvoxajfaeoppiee lloleihaje weakeayoesadokafarawiwjod3ajinid imo ftatahmorrasokrarnidsojonaesjvi wofraandamoni kakkapdaxatipodakzovgapodaxaejtarvipodakeaddareifarhononpodaxavri gnnarisyayajola 288 LES RESSOURCES LANGA
27. heq Rebbi ar xir n miya u miyin d aksum n tura tabarbuct nzik akka tt timyarin ma ulac ma tfuk teyenat tekarfat n unebdu ad d tili Ibecna ma tefuk Ibecnatabarkant ad d tili temelalt ad d yili ubelud d azidan qut kulec d azidan d avven an Tura timyarin arssant alqec telmezyin tteddunt aryan a lah ibarek d aya i yellan tura hata win i yellan D tidet neznuzuy lleft yettemyay d lleft nettawi tt ebga n lleft imir yelluz lhal ctaqen medden qut Ad ne cartt ebgat n left art mura ad ad y d fken abllud d tifrac n ubelud ad t id nzed 5 tesirt ad d neggar ayrum tabarbuct d tazidant ayrum is d azidan ticki ulac tifrect nni ntteks d azegzavv Tura azegzavv tura ma tegred t id d ayrum vvellah ma tmena ad d yekes deg yimi k nettedez amaqcur ad t negar d ayrum A Rebbi di tmexluqt agi tarvva tadsa tarid ay d i egunen 221 a yamzuy im Ikem kan i umi id hedrey akka wanag lami ad d hedray ma ur ssiney lehdur Aheq Rebbi ma sney a yelli lehdur haca ayen yelan akka sufela Tenna as Se diya tarihant ad tt idker Rebbi s Ixir tmetut n Lewnis At cilatt aken ara ad d awden ken tinni as lt ayu ulac lwexda fell i alama vvalay ten beran d i yiserxuden nsen sddaw uxxam n Juhra n t ezugt gt Di Ihara nni n Juhra n t ezugt wina ufella ayu a ysetma tima zuzin ulac vvexda fell i ad vvayiy bran d i yisarxuden nsen seddaw uxxam n Juhra n t ezugt Ad d awden a yelli Ixallat ad ttgejgijent deg yixxamen ad tent zuyu zuy
28. ion directe iremdan nni deg yid ner a d seb a Syntagme nominal Synt pr pos SPV syntagme pr dicatoide akk SPV adverbe l qqimev d ala wehd i diteswi t nni n Sid Lhusin SPV syntheme adverbial synt prepos Synt prepos 302 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION Annexe 11 et 12 d ara ad i u in a D ya i aD i win uneg hid ara ad iruh ata inin aDyawi aDiqeLeb aman win u r n G hid ara ad i ruh a Qewinin a D yawi a D i qLb aman win ur neg hid ara ad iruh a taeWinin ad d yavvi ad d iqelleb aman celui n gation avoir la force participe n h r el il aller sources non reel vers ici i celui qui n est pas riche il n a qu alle aux sources pour en chercher de l eau co O o 1 450000 1 450000 0 Visible part 2 900000 seconds 2 900000 Total duration 2 900000 seconds 303
29. irgazen d tiyarziwin n zik d ifellahen merra i eqliyen ad mexartayen nne ma akk d yirden merra ad mxartayen Kul lexir yettzid imir kul lexir yettzid Tura d nkkez i nekkzen lerzaq ad imna Rebbi Imumen d nkkez d nkkez i nekkzen larzaq tura Ur siney ara ad hedrey a tifaryi i y edan fell aney Alah alah nniy as a sidi Rebbi ur iyelli yittij ar d nfak wa ar d nfak wa sidi aRebbi ur iyeli yittij inna ar d nfak tirni inna Nettfaras ad tezred diy a yevvqam ivv asmi vvtey tagut s adu yemut urgaz ivv deg xemsa vvetlatin d amectuh ye ay d reb a igerdan tamurt tella nhend ik a Rebbi n cekr ikTenza tbarquqet tenza tremant yenza ifelfel tenza deg mi ara d nekker tamurt n lefni n ddunit nevvvved itt Newwed Zubga at a bella newwed a yelli Ifarhunen newwed kulci s lahmul n ukarmus deg mi ara d nekkar hur hur hur ass kamel hur hur hur ass kamel d tikliwin 285 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION ad d nawed nezenz ad d ne ar lahmul nni d ker d lebsel d lebatata ad nuh neznuzuy s yidrimen tamurt tella a yelli nexdem ne a nhend ik a Rebbi n cekr ik tura wellah a Rebbi ar siniy di le mer feyay ar lexla ar akka id ufiy iman ivv ttyimiy akka deg uxxam nenyec ad nezdem ad d nawi aman di lefni n ddunit mi ara cacarent telliwa ar vvasif ara nruh deg yid wellah ar daxel n temdivvin id netta ar tibettiyin nettruhu d s axxam I iye edan ihi n leqwanen zik A zik tabarbuct ma te id tt a
30. m uva nl praat download win html et JAXE http sourceforge net projects jaxe JAXE Un langage XML est d fini de fa on formelle de mani re permettre la v rification automatique de la syntaxe Cette description formelle comprend les noms des l ments du langage les imbrications possibles entre les l ments l ordre autoris des l ments et leurs attributs les attributs tant optionnels ou obligatoires Jaxe facilite la cr ation des documents XML en utilisant les r gles du langage pour proposer des l ments ins rer l o c est possible Cela permet de cr er des documents valides c est dire se conformant aux r gles du langage beaucoup plus facilement qu avec un simple diteur de texte En plus des fichiers d crivant les langages XML les sch mas Jaxe utilise des fichiers de configuration qui d finissent la barre de menus et la fa on d afficher les l ments du langage Ces fichiers se trouvent dans le r pertoire config et leur nomsetermineen config xml La composante M tadonn es Chaque enregistrement est accompagn d une fiche de collecte qui le d crit Cette fiche de collecte 271 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION Sera int gralement transcrite sous la forme d un fichier xml l ments Divers Enqu t Collecteur Debriefing Autres infos sous l ments les diff rentes lignes de la fiche auquel il sera r f rence dans le doc
31. mir arraw is Ah Tewwi iyi d i adarmiyen acu ara m id hedrey yef uraw iw a yelli nenuy nenuy tewwi iyi ten d Tillult Ruh tura mayella win ara as yinin diri tt assa Eecrin n ssnin agi ur iyi ilu a Buxalfa a tarwa n t ebbudt Haca Ferhat seiy yiwen kan wamag Buxalfa tiwwi t Tillult Ih Ay wtey tagut s adu yef uraw iw ye a ten id d imectatahmerra sekrey ten id s uyenat s Ibi w cra Anda im nniy akka wwdey 4217 Wwdey Zubga wwdey At I arbi wwdey taddert u Ifarhunen wwdey abrid Gnnaris ak ak yelan d tamurt merra merra akka Illulen merra di qern almi d qern Mhaga d At ica Agrsafen d yiyil n Bukyasa d Tifrit Umalek iy merra merra timura agi merra nenuda tent id s bi vv cra Zzit ad idu vvarq ad idu ih ur nes i baba tenay ur 21 yema tenay yema ad tt yig Rebbi n rrehma t evven itideg uraw iw A ad nekker nwet tagut s wadu tura i inekr iyi Buxalfa a iwwiy n da wesu lt CORPUS gt TRANSCRIPTION PHONETIQUE gt noKwniziyadnokardogidnssafogi anoheaatsogsarieaadnaywem ieajjapaddamidneppodane fsojsokso minfoksokso nnianSodianonnodjasvarminfokjasvarnniaSodianrfedigetareneasovh ieannrohgorfsojnetsowqamamrdijanawodajelliarozommoranwiiq fareppasrom egfiwanntas ontsawijarajSajijagiitswinakkamoddonwollahartsi otsajellianawiiqfrannnippasrom ogfiwan ntasanawodakonnomwolahtsisl ojxajaedogmaranajiafold3 raajamanfokitsid ogaxofmaradn arsaSoqqaadawdagaldze raa xozraseazomoremaofisaSoqqaareqafofea qoj
32. nt Pr pos A l Ah II Bruit de fond 00 06 s 00 08 s A euh gt alors euh gt lI Aglav di Tesga Mellul d ssebt Pr sentatif syntagme nominal syntagme nominal tnayen u ecrin v uct ttes a v irrrbe l syntagme nominal syntagme nominal C l v ir ffbe Il syntagme nominal B Aqlay di Tesga Mellul ttesTa wa crin Pr sentatif syntagme nominal T d ssebt ttes a vva crin di v uct syntagme nominal syntagme nominal ssa a attan dtes a lt u h sitation gt indicateur de th me pr sentatif syntagme nominal v ir fTbe l syntagme nominal Bruit de fond 00 26 s 31 08 5 l Di Ja pression n tmanya uxemsin yella lliv Synt prepos auxiliaire SPV di Micli l synt pr pos l Ass nni lt amar n imjuhad gt l Autonome syntagme nominal 296 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION l laq ad nregroupi v er tudrin l SPV Synt Prepos l Nekkenni l l I ubb iyi d Dda Sliman bessif SPV expansion r f rentielle adverbe si Micli l Synt Prepos N ubb d nebbvved ver ssbitar SPV SPV synt Pr p nufa d embuscade SPV expansion directe Axatar n ettel di micli l Subordonnant SPV synt Pr p yey li d 1 ttlam ll SPV expansion r f rentielle l Netta d couvre feu Pronom personnel ind pendant Syntagme nominal amek te
33. ntation digital a l avantage d tre r pandu facile d emploi et a la capacit de mieux conserver les donn es Nous utiliserons un codage sans compression pour nos donn es audio ce qui semble plus adapt pour l archivage long terme Le travail sur le terrain Pour atteindre notre but nous enregistrons des corpus de locuteurs monolingues Ces corpus sont recueillis par nos tudiants de licence de notre d partement Ceci a un double objectif cibler toutes les r gions de la Kabylie gr ce eux qui proviennent des quatre coins de notre terrain d enqu te compl ter la formation de nos tudiants Des consignes strictes sont donn es aux enqu teurs Faire transcrire le m me corpus par deux tudiants ind pendamment l un de l autre Un membre de l quipe comparera ensuite ces deux transcriptions pour rep rer d ventuelles carts r currents par exemple variation fr quente entre k et t entre occlusive et spirante etc qui peuvent tre l indice de difficult s Contr ler toutes les transcriptions faites par les tudiants ind pendamment par deux membres de l quipe avec r coute de l enregistrement simultan ment et la faire valuer grossi rement par exemple Tr s bon Bon Suffisant Insuffisant On comparera ensuite les valuations donn es et on r examinera les transcriptions pour lesquelles les valuations diff rent de facon importante de plus d un degr On r examinera galement toutes l
34. p cialiste pour circoncire les gar ons Les ufs la semoule Cr pes Petite fille Faire purifier circoncire clarifier A ce moment l Acmux R CMX S acicoucs Iceddiwen R CDW S 1c C lcsecA ahe am R HOM S acjeC ac Timcewwect R MCW S ticjc eCsecat Llufan R LFN S Ciucac Lemsemmen R L MSMS ciechczeC4ecs Taqcict R QC S tac c2ic3t Sdehren R DHR KSE Ace i R C S Aqcic R QC S acci cs mir n R MR S 1C11C2C3 Sagd R SEd 4279 Asagem R GM S acjac ecs meck R L MCK C1C2 C3C4 lemeellem R L ELM CIeCoCaeCuaecs Tabeyrirt R BIR S taciecaC31C4t Agrud R GRD acicoucs Aheddur R HDR S acj eCiuc Tagrudt R GRD 5 tacicouc Zeyynen R ZYN cie Ase i R C S acieCi Aqcic R QC S aciCics mir R MR S ICC Henni R HN LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION S cieCil Je lui dois elle leur doit Peuvent Haut robe qui 7 en poche au dessus de la ceinture La cuise Celles qui roule la semoule avec 15 mains dans un grand plat pour la pr paration du couscous Etre d accord Ce qu il faut Faire les youyous Beignets Insectes Tettalas R LS S Zemren R ZMR CEC2C3eC4 cimmi R CM S IC C Tayma R TM S
35. rimaniwtsrimirakkagwuxxama nonkofanoz omadnawiaman ilofninddoniemaratjatfaronteliwaarwasifaranohdogidwollahar axejtomo winidontfa tjareivotsijinntsrohodsaxxami igtodanihiolaqwanonzixya ziyeavarvo emaeo tfidtsahoqroppiarxirnmi jawmi jinOaysomntoraeavarvofenziyakkatseimkarinmawla fmaeofokeojonatsexwarfatsonov oatsijilvo jnamaefoklov naeavaryantatsiliemolalea j lliov olod azi anijqoekolof azi anOawonSaneoraeimkarinarssantijqofeijmozjintsedontSarjanolla hivaroxdajaigollaneorahaeawiglan Tsi tsn znozoill fei ts msaidil f netsavvitst vgan l f imiri lozlhalfeaq nm dd niqoead n tfartst vgan l foaremoraa acd fk nav lodtsifrafov lodatsidn z s sir adn garavrom avarvofetsazidantasromis azieifkiolafeifrafnnintsoksodazogzaweoraazogzaweoramaeoyrot id asromwo lahmaemonada jokos ogmmiyntsodozamaqfora eonyardasromaroppi iemax oqgeagiearwaeadsaearidas iSogwononafSiajamozogimixomkanimidho rasakkawanay33am miaddh racmorsin klah orh qr ppimas nakai llil h orhafaaf ni llankanakkasof llae nn ajassaSodijaearihantatsidokorroppisjxireemotoentownisaefilatsakonaradawodonkaneinasajo olaflvraxdaf llialamavvalaxe nv randi sarxodenn s ns ddavvp xxamn ohraTf oy ilhara nninzohrattozoyewinaofollaajoa josoemaeimaSzozinolafIwaxdafolliar wajirvrandisorxodo nnsonsoddawwoxxamnsohratS ozoyeadawdonajollijoxajaea0sogozgisont ogoxxamonaeontoz oEzokorenakamzon jmajwinwa ankanaesof onsemogholewinwofanaesof onseS
36. rt nous avons choisi d utiliser OLAC http linguistlist org olac index html L OLAC a labor son syst me de m tadonn es pour la description de ressources linguistiques Il est simple et assez g n ral mais la formalisation d un m canisme 263 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION d extensions permet d tre plus sp cifique Pour notre recherche l examen m me rapide de ces syst mes de m tadonn es a eu le m rite de nous permettre de contr ler que rien d essentiel n a chapp notre projet de fiche de collecte On voit ainsi par exemple que cette fiche ne permet pas de d crire le genre de donn es recueillies soliloque conversation r ponses orales des questions po mes etc D autre part les notations de lieux d enqu te de naissance etc devraient tre pr cis es par une indication longitude latitude en raison du grand nombre de noms de lieux identiques donc ambigus en Kabylie Actuellement nous sommes arriv s 700 points d enqu te et 400 enregistrements de 20mn chacun pour la plupart transcrits Annexe 3 exemple de corpus Nous avons tabli une carte exemple d un certain nombre de points d enqu te Annexe 4 Nous avons pour le moment utilis Google Earth pour la repr sentation spatiale de ces points d enqu te La d finition des coordonn es de ces points longitude et latitude n a pas t une t che facile En effet les toponymes pr
37. sentent une grande variation dans le temps et dans l espace Il nous arrive de ne pas pouvoir situer exactement un point d enquete sur la carte parce le nom a chang ou a t transform En effet les diverses sources cartes topographiques enqu tes de Basset documents administratifs fournis par la Wilaya pr sentent parfois des variations importantes dans les toponymes et ceci est une difficult suppl mentaire surmonter quand on passe une repr sentation cartographique Enrichissement des donn es La premi re op ration indispensable pour passer de corpus oraux au corpus crits est la pr paration d un clavier qui pourrait nous faciliter l utilisation des caract res sp cifiques du kabyle Pour ce faire nous sommes partis des conventions d criture de PINALCO http vvvvvv inalco fr erb pages htmel tableau prononciation kab html et UNICODE pour laborer ce clavier Unicode c est fantastique parce qu on peut utiliser des dizaines de milliers de caract res dans une seule police Mais Unicode c est infernal parce qu on peut r aliser la m me lettre de plusieurs fa ons diff rentes et que ces diff rences si elles ne sont pas toujours facilement per ues par l oeil humain sont un ab me pour un ordinateur Le probl me se pose pour les caract res complexes notation des emphatiques par exemple qui peuvent exister comme caract res uniques en quelque sorte pr 264 LES RESSOURCES LANGAGIERES
38. ssi du fait que cette ressource linguistique sera accessible via le web Ainsi on peut ajouter que cette banque de corpus n a pas pour objectif le TAL ou le TIC mais un outil aussi complet possible m tadonn es annotations tiquetage pour des linguistes qui pourraient s int resser un ou des l ment s de recherche La cr ation d un corpus oral se fait sur la base l article de Jacobson 2002 chercheur au LACITO Laboratoire de langues et civilisations tradition orales Nous int grerons l crit en utilisant la notation usuelle du kabyle Les corpus constitu s nous les crivons en notation usuelle et les retranscrivons en transcription phon tique API Annexe transcription Cette op ration tant faite nous y ajoutons des m tadonn es qui permettront d identifier nos donn es et les 261 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION d crire date langue etc Nous nous basons sur les recommandations d OLAC pour le codage des m tadonn es LACITO http lacito vif cnrs fr archivage index htm m me si d autres mod les ALAV AL http www2 unine ch dialectologie page9353 html CRDO http crdo risc cnrs fr exist crdo et http crdo up univ aix fr sont aussi int ressants La conservation des donn es se fera gr ce des copies et la num risation transformation en ressource linguistique informatis e En effet comme le rappelle Jacobson 2002 le mode de repr se
39. t avoir par exemple avec comme touche morte Sit donnant 0 d donnant 6 etc Sites cit s pour t l charger Ukelele logiciel de configuration du clavier pour Macintosh http seripts sil org ukelele pour telecharger Microsoft Keboard Layout Creator logiciel de configuration du 269 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION clavier pour PC http www microsoft com globaldev tools msklc mspx pour t l charger l environnement de programmation NET pour Windows s il n est pas install http www microsoft com net Download aspx Enrichissement des donn es L enrichissement des donn es par un certain nombre de logiciels pr suppose la mise en place d un certain nombre de concepts qui pourraient nous aider dans la segmentation des corpus en unit s nonc s phrase et l tiquetage linguistique morphosyntaxique L un des points qui nous int ressent est la relation phrase prosodie segmentation Philippe Martin 1981 2002 2010 d finit assez clairement les concepts qui nous int ressent pour notre probl matique Ainsi pour lui le mot prosodique est l unit prosodique minimale contenant un seul mot accentu Cela correspond g n ralement au syntagme Ceci explique la composition du groupe prosodique de mots prosodiques Quant la phrase prosodique toujours d apr s Philippe Martin elle indique la courbe m lodique phrastique d pendant de la modalit de la phrase d clarati
40. tac c2a Tifettalin R FTL S ticjeCoa c3ic4 Mseqbalen R MS QBL C1C2EC3C4aC ECG sli R SL S IC1Ci laqen R LQ S ic ac ec Siyret R IRT S C11C2C3eC4 Lesfen R L SFNG C1EC2C3E CCS bageac R BEC S Cat ac 280 Tettaras R RS S teC acac Wasan R WE S civvi R CW S cilc l Tagesbudt R QSBD S taciecjCsUuC4 Tineffalin R NFL S ticie Coa c3ic4 mrudan R M RD S c c uc3ac4 sli R SL S ICC lezmen R LZM ic jec cseca Seyret IRT CEC2C3eC4 Lexfaf R L XF Cec5c5ac4 beleac R BLE S 1 2 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION Faire partie du cort ge qui chercher la marie Toute petite Achille gold R QR acicoucs Arrac R RC S aCjac Tkelli R LKL S ici coe Cal serrasen R RS S icieC acaec4 Tatutaht R TH S taciuc acst Ssebyan R SBY 2 Agejmi R S ac eczc3i Tlilu RTL S cic lCSU Timigruft Chouette R MERE Tifilellest Hirondelle R FLS Papillon du Jour S tici cocsucat S ticilc eC ecat Timecriwect R MCRWC S 281 R GRD ac c uc3 gerdan R GRD S C ec c ac Urkelli R RKL S uciceC3i Iqeffafen R QF S 1c eC acsec4 Tamectuht R MCTH
41. tres sont pr vues pr compos es dans divers blocs Unicode Les codes correspondants sont indiqu s ci dessus Pour permettre la saisie de ces lettres sans exiger de trop gros efforts de m morisation et viter des conflits avec des combinaisons de touches pr d finies par le syst me ou par d autres programmes Word par exemple la solution 267 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION g n rale retenue consiste d finir une touche morte au fonctionnement analogue la touche de l accent circonflexe ou du tr ma On presse la touche morte puis la touche correspondant portant un caract re simple dit de base et on obtient le caract re sp cial voulu La touche retenue comme touche morte est celle qui sur le clavier suisse romand porte les signes lt et gt Ley et le 6 s obtiennent avec la touche morte suivie des touches y et e les caract res de base les plus proches par leur forme Les d h r S t etz avec la touche morte suivie des caract res de base correspondants d h r s t et z Pour t la touche morte est suivie de la touche x iks Les lettres capitales s obtiennent normalement en combinant la touche morte avec la touche shift majuscule Les caract res et gt restent disponibles il suffit de les taper apr s la touche morte deux pressions successives sur la touche lt donne lt ou gt si la touche shift est press e Concr tement et suivant Sur Macintosh a
42. ument l mentaire Constituera la source des m tadonn es incluses dans le document l mentaire Le choix des m tadonn es retenues pour accompagner directement chaque document l mentaire se fonde sur les standarts re us Dublin Core DC et OpenLangage Archives Community OLAC et suit d assez pr s les recommandations du Centre de Ressources pour la Description de l Oral CRDO CNRS On renonce cependant noter les caract ristiques constantes de nos documents la langue tudi e le kabyle et la langue d tude le francais On donne sous l l ment M tadonn es la liste des sous l ments repr sentation de la structure hi rarchique On d finit ensuite comme des l ments distincts en dehors de la sp cification de l l ment M tadonn es chacun de ces sous l ments repr sentation des composantes de la structure Ces sous l ments de l l ment M tadonn es sont donc des l ments et peuvent leur tour se composer de sous l ments Cette repr sentation est donn e en Annexe 5 La composante de l l ment Donn es La premi re composante est la Phrase qui va tre analys e en une succession de parties du discours et qui peut tre glos e traduction juxtallin aire transcrite en phon tique ou en phonologie traduite Elle est galement li e un l ment sonore Les l ments de glose de transcriptions de traduction et de lien avec le signal audio caract risent gal
43. urn ay amzun d Imal win wetan kan ad tsefden s tmeghelt win vve an ad tsefden s t ekazt ad at semken s t ekazt I y edan di gira nni i y edan i y edan ad d nawed ayelli ta zizt iw ay jem en ama ar tejma t ama ar yiwet n lhara n ttdakal mera nettugad Irgazen a yelli fuken ten fihel ad am d iniy fihel irgazen fuken Surtu ma ddzn d a Tefrit d Bu wen d At ica Akken ara ten vvalin yergazen tteddun d vvid ak ttedun d 1 eskar agi wanag l eskar n yirumiyen zik d Imal i ykesen arrebi armi d ass mi i llan akka ixabiten ifuken tafart n yirgazenAh ayu ass agi ddan d aTefrit d At ica d Bu ewen I qedren deg yirgazen i s evvien deg yimegra n yirgazen msakit Aha dayen tura si finin Ah di tleqqamt n At a li iwsawen ih a lexwayar n yimir d tireba mera d tireba d Arezqi n VVelha Latamen At mecqant setti im ad ttig Rebbi n rrehma jedi im axxam ahaxxam n At winaten ad yig Rebbi an iqaray n sen uxxam At s ada aken kan ticki nettuqrab akka nettuqrab amyar nney ad t yig Rebbi n rrehma akka At seada ttnusun dina yii d ass ass agi ad n nsen At sEada deg yiger n tqayed jema amp 286 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION liman ma neka tt ula d neknni ad nemger deg yid ayaxir semed lhal ad netta ad ruhen At s ada nni ad d feken yiwet di teslatin nsen ad arnuy nekki ney Tasa dit Tamusat ad nruh ad nawi imensi ad nens ai lexla ad nemger deg yid ad nemgar deg zal ad nesta fu i
44. ve interrogative etc Dans cette perspective la phrase prosodique n est qu une suite de mots d limit e par deux pauses importantes initiale et finale et caract ris e par une intonation qui varie avec le type de phrase assertive interrogative injonctive Pour la d finition de la phrase et de l nonc le Dictionnaire de la linguistique de Georges Mounin 2004 262 stipule Beaucoup d usages linguistiques tiennent nonc et phrase pour des termes synonymes Mais on a int r t opposer les phrases unit s de langue aux nonc s unit s ou exemples de parole l nonc tant ce qui est donn dans le mat riau non analys Un nonc est tout segment de la chaine parl e compris entre deux interruptions n es soit du silence soit du changement de locuteur et qui n a pas encore t identifi ou analys en phrases G Mounin 2004 125 La phrase est d finie par A Martin 1991 131 comme une s quence dont tous les l ments se rattachent un pr dicat unique ou plusieurs pr dicats coordonn s gt Pour la syntaxe il d clare 1985 13 5711 est un point sur lequel peuvent tomber d accord les linguistes contemporains quelque cole qu ils se rattachent c est qu appartient la syntaxe l examen de la facon dont les unit s linguistiques dou es de sens se combinent dans la chaine parl e pour former des nonc s c est dire la fa on d ordonner des mots pour former des phrases
45. vec clavier Frangais Suisse ou sur PC 1l faut suivre les op rations suivantes Sur Macintosh avec clavier Frangais Suisse installer le fichier kabyle keylayout cr avec le logiciel gratuit Ukelele cf scripts sil org ukelele dans le dossier Keyboard Layouts qui se trouve dans le dossier Biblioth que ou Library de l utilisateur ou de l ordinateur 1Mac Si le dossier Keyboard Layouts n existe pas il faut le cr er dans le dossier biblioth que en lui donnant exactement ce nom red marrer l ordinateur ouvrir les Pr f rences Syst me menu Pomme et ensuite International cliquer sur l onglet Menu Saisie rechercher le clavier kabyle et cocher la case gauche Activ dans la barre en haut de la fen tre droite cliquer sur le drapeau qui symbolise le clavier combinaison des drapeaux suisse et fran ais et s lectionner le clavier kabyle qui doit se trouver en dessous Le clavier kabyle est d sormais accessible et toute application utilisant une police 268 LES RESSOURCES LANGAGIERES CONSTRUCT ON ET EXPLOITATION Unicode assez complete comme Doulos SIL permettra d obtenir les caracteres sp cifiques n cessaires avec la touche morte Mais il y a un logiciel gratuit Microsoft Keboard Layout Creator accessible ici http www microsoft com globaldev tools msklc mspx qui permet de reconfigurer un clavier et notamment de cr er une touche morte Toutefois l utilisation de
46. y lil l embuscade amezwaru interrogatif SPV expansion r f rentielle Ner a ixeddamen s ukamyun mi d ffv en SPV expansion directe expansion indirecte Proposition 1 axater ur nezmir ara ad n eddi l subordonnant Proposition 2 l n raversi y er I iha agi l SPV synt Prep l nniv 5 ma yella nufa Tembuscade SPV subordonnant auxiliaire SPV expansion directe Y er zdat ma Teddan d ady env en l synt Pr p subordonnant SPV propositionl prop 2 297 LES RESSOURCES LANGAGIERES CONSTRUCTION ET EXPLOITATION lt nebbwi ten daxel gt yetterdeq ukamyun SPV adverbe SPV expansion r f rentielle neggim d cca bl ger anev SPV cordonnant synt Pr p en dehors des personnes de pipa l 999999999999999999999999999999999 l int as i Za sup rieure ila m re SPV Expansion indirecte Expansion indirecte l nnan as an av wehd nnev di ssbitar SPV SPV synt Pr p synt Pr p nettes en chirurgie SPV synt Pr p Akken 4 ftnac deggid Adverbe syntagme nominal synt Prep qel en v er tewrirt s tsita si ejmiyen l SPV synt Prep synt Pr p synt pr p Ass nni wwten Wizan n Muhend Wa mer Autonome SPV expansion directe huzzen tt deg ufus SPV synt Pr p l nv an as taqcict v ef yiy il is l SPV expansion directe synt Prep lnv anl aseimi l SPV expansion directe

Download Pdf Manuals

image

Related Search

Related Contents

Imprimante à Cartes Plastiques P320i  La diffusion des découvertes du CNRS vers le monde industriel  マニュアル1  Manual de usuario  Philips SCD487 DECT baby monitor  Tecumseh AJA7444AAADA Performance Data Sheet  Manuel d`installation et d`utilisation 6100 Série  

Copyright © All rights reserved.
Failed to retrieve file