Home

Guide pratique pour la production de corpus numérique

image

Contents

1. Transformations w ixati mo des iimis p aline A hApparat critique Notes et com mentaines Conception ou chig d un outil Avec le num rique il y a toujours plusieurs mani res diff rentes possibles de r aliser les choses Commencer par d tailler toutes les r alisations interm diaires et finales souhait es aide fortement choisir entre une ou une autre voie Quelques questions clefs se poser pour cela 1 Dans quelle mesure dois je num riser les donn es de mes documents e Mode image iconographie e Souci de conservation du document sous sa forme originelle mode image e Illustrations e La num risation devra t elle permettre une consultation fine de l image e etc e Mode texte donn es textuelles e Quels types d informations voulez vous extraire e Quelques types d op rations voulez vous effectuer sur les documents sources e En quoi le format num rique facilitera t 1l l extraction ou des op rations sur les donn es Ex automatisation rapidit etc e Besoin d analyser le texte gr ce un encodage Fonctionnalit s de recherche e Recherche full text e Recherche th matique structurelle e Quel mode de consultation Unique ou plusieurs parcours de lecture Quel mode d acc s Ouvert restreint O mD ha O mD v Q u O O 05 O C O p O mD O O ha Q G u O Q O gt eJ pas ha Q O D mD O
2. la distinction entre les deux types d annotation Guide pratique pour la production de corpus num rique 14 Conserver le corpus num rique Les objets num riques ont un cycle de vie propre leur perp tuation demande un outillage et une organisation humaine sp cifiques Cette question est particuli rement cruciale pour les objets num riques qui ont un caract re scientifique car se pose le probl me de leur citabilit long terme Dans presque tous les cas de projets de corpus num rique les quipes n ont pas les moyens en interne de garantir cette p rennit et c est en soi assez normal de la m me mani re chaque quipe de recherche ne poss de pas en interne une imprimerie et une biblioth que pour fabriquer et conserver ses ouvrages papiers Or pour les objets num riques l quivalent professionnel et institutionnel de la cha ne du livre n existe pas encore Voici quelques questions se poser pour anticiper cet aspect du projet e L institution tutelle est elle au fait de l archivage et de la conservation num riques Est elle en mesure de l assurer avec un minimum de garanties respect des proc dures OAIS etc e Quels sont les acteurs existants qui offrent des garanties suffisantes f A retenir gt L archivage num rique p renne doit r pondre des normes techniques et organisationnelles pr cises comme celles que pr conise par exemple le mod le OAIS http fr wikipedia org wik 0
3. Description des r alisations interm diaires et finales Nous n entrons pas encore dans le d tail des modalit s de diffusion public vis accessibilit rythme de publication etc Exemple 1 e Etape a inventaires dans une base de donn es personnes lieux v nements etc e Etape b puis requ tes sur cette base de donn es pour extraction des mat riaux utiliser listes graphiques statistiques etc e Etape c puis dition ouvrage papier utilisant ces mat riaux ou ouvrage lectronique utilisant ces mat riaux Exemple 2 e Etape a num risation reconnaissance de caract res sur documents sources O transcription de documents sources e Etape b encodage balisage de ces textes au format XML TET e Etape c Et enfin diffusion en ligne de ces textes encod s avec diff rents points d entr e possibles dans le texte listes de personnes de lieux moteur de recherche etc 2 Existe t il des influences ext rieures Devez vous respecter un standard d fini pour la communaut scientifique laquelle vous appartenez ou laquelle appartiennent les ing nieurs du projet 3 Outils supports informatiques envisag s e Outil de travail back office Outil de publication front office e Documents sites web relatifs ou inspirateurs au du projet 2 1 Collecter les documents sources et les d crire les m tadonn es M me s1 cette tape semble inutile et fastidieuse 1l est primordial pour l
4. d un imprim e Une ou plusieurs versions e Si plusieurs versions traductions dition d une seule version ou plusieurs d Droits probl mes juridiques L exploitation la manipulation la reproduction la modification ou la diffusion au grand public d un document demandent le respect du droit propri t mat rielle intellectuelle Pour vous guider dans cette tape nous vous renvoyons aux Informations Juridiques propos es par le Minist re de la Culture fran ais http www culture gouv fr culture mrt numerisation fr f_05 htm Les questions essentielles se poser pour aborder cette tape e Quelle est la provenance des documents fonds d archives biblioth ques e Au droit de quel pays dois je me r f rer e Le document est il tomb dans le domaine public e Qui est l ayant droit du document l ayant droit n est pas forc ment l auteur e Quel contrat dois je r diger pour r gler la question avec les ayants droit les diteurs Les biblioth ques 2 2 Extraire les donn es Les sources primaires ou secondaires papier textes manuscrits ou imprim s photographie ne sont pas utilisables telles quelles n1 pour une analyse pointue employant des traitements automatiques n1 pour e Pour aller plus loin Num risationClavaud document de Florence Clavaud sur les bonnes pratiques http www cn telma fr bonnes pratiques pdf MinCulture document inventaire type du minist re de la c
5. de production d une dition critique ou d un corpus num rique Pour chacune de ces tapes est propos un clairage sur e Les diff rentes m thodes possibles et leurs enjeux e Les comp tences et connaissances m tier n cessaires une r alisation de qualit et p renne et des exemples d acteurs et institutions cl s dans ce s domainet s e Des exemples puis s dans des projets r alis s ou en cours de r alisation A qui s adresse ce guide Ce guide s adresse aux chercheur e s en SHS qui envisagent de se lancer dans la production d un corpus num rique afin de les aider balayer l ensemble des chantiers et sous chantiers impliqu s et d tailler les ressources et comp tences n cessaires chacun d eux Ce guide voudrait ainsi tre une aide pour mieux planifier et budg ter ce type de projet et pour nouer d embl e les partenariats et les contacts indispensables leur succ s Il s adresse dans le m me temps aux ing nieur es et technicien nes charg s de la mise en uvre de ces projets au sein des quipes SHS Dans un paysage professionnel encore relativement peu structur sur toutes ces questions MutEC pointe en effet l isolement des ing nieurs et techniciens au sein des quipes et l absence de r seaux de m tiers structur s comme l un des principaux obstacles la production large chelle de corpus scientifiques num riques de qualit et p rennes MutEC cherche donc tre un lieu d analyse de m
6. outil gt S assurer de la p rennit de l h bergement et de la maintenance technique des outils organisationnels choisis sur quel serveur seront ils install s sous la responsabilit institutionnelle de qui Qui y aura acc s en pratique qui sait administrer ces logiciels bases de donn es etc Ces comp tences seront elles pr sentes de mani re p renne dans le projet gt S assurer de la bonne prise en main de ces outils par toute l quipe y a t il un besoin de formation D assistance Faut il pr voir une homog n isation des habitudes et des usages de ces outils Par exemple Listes des outils de travail collaboratif et coop ratif faisant l objet de fiches descriptives sur la plate forme Plume http www projet plume org logiciels_valides tid 221 http www projet plume org logiciels_valides td 220 O mD ha O mD v Q u O O O TD C O pa O gt O O ha Q G Len O Q O gt eJ pas ha Q O D mD O O mD ha O mD v Q u O O O TD ZC O p O mD O O ha Q ha O Q O gt eJ pas ha Q O D mD O 2 Construire et encoder le corpus Dans la plupart des cas le caract re num rique informatique du projet va induire des t ches pr paratoires sp cifiques qui vont s ajouter et se m ler aux imp ratifs traditionnels de la discipline en mati re de constitution de corpus a P 5 pi Ba
7. riques pour l expression d informations sp cifiques un corpus donn et non pr vues par le standard exemple en EAD le champ odd Other Descriptive Data http www loc gov ead tglib elements odd htm M me s il manque quelques types d informations souhait s dans le standard le co t de cr ation d une structure de notice ad hoc risque fort d tre plus lev que les b n fices de l utilisation du standard am nag gr ce aux champs g n riques qu il pr voit D crire les sources mode d emploi a Trouver les sources La recherche de sources primaires et secondaires est au c ur de la formation des chercheurs euses Nous n entrerons donc pas dans le d tail ici On pourra cependant rappeler quelques questions permettant la d limitation du corpus e Quels crit res de choix ont pr sid la constitution du corpus e Quelle est la volum trie du corpus un ou plusieurs documents e Quelle r gion g ographique d limite ce corpus Europe Royaume Uni etc e Quelle p riode d limite ce corpus e Exhaustivit b Documenter r f rencer Un probl me r current dans les projets que nous avons observ s est le manque de documentation autour des sources choisies M me si cette tape semble inutile et fastidieuse il est primordial pour la m moire et la qualit scientifique du projet de r f rencer les documents sources ou secondaires utilis s que ceux ci fassent d j l objet d une description d taill e par u
8. support qui en soi ne conf re aucun statut scientifique ou ditorial un objet La destination sociale d une production num rique doit tre pens e et explicit e par son ou ses auteurs gt Sur internet le droit d auteur et la propri t intellectuelle s appliquent y compris aux logiciels qui en Europe sont prot g s par le droit d auteur Nul ne peut utiliser une production trouv e sur internet sans autorisation expresse des d tenteurs des droits f Bonnes pratiques gt Toujours s assurer que l on d tient les droits et ou les autorisations expresses des d tenteurs des droits sur les objets utilis s dans le projet Organiser la gestion de son propre droit d auteur expliciter les droits que l on accorde sur ses productions num riques gt Se rapprocher du service juridique des institutions qui financent le projet Dans la plupart des cas ce sont elles qui d tiendront les droits patrimoniaux sur le corpus num rique les logiciels et autres l ments produits dans le cadre du projet Par exemple les licences types Creative Commons un jeu de six licences combinant diff rents types de droits interdictions http fr creativecommons org contrats htm facilitent cette explicitation La diffusion sous licence libre en particulier pour les logiciels peut tre particuli rement adapt e aux productions des laboratoires de recherche Attention libre ne signifie pas sans auteur Voir par exemple http www projet
9. Dnstitut des Flciences de l Comme i MutEC r Guide pratique pour la production de corpus num rique Maud Ingarao Samantha Saidi Ce guide peut tre t l charg sur http www mutec shs fr guides Mutec des mondes CM al mi L Institut C Z a Il D LYON d Histoire de la lin l 5 Pens e Classique O mD ha O mD v Q u O O O TD C O pa O gt O O ha Q G Len O Q O gt eJ pas ha Q O D mD O Guide pratique pour la production de corpus num rique Tout projet de recherche en SHS visant produire un corpus num rique qu il soit question d une base de donn es relationnelle ou XML d une iconoth que num rique sp cialis e en arch ologie d une dition critique en ligne ou d autres choses encore va r clamer des ressources et des comp tences souvent tr s loign es du champ disciplinaire d origine science politique histoire et donc en g n ral absentes ou partiellement pr sentes au sein de l quipe scientifique qui con oit le projet Image num rique ing nierie ditoriale du num rique mod lisation de bases de donn es biblioth ques d veloppement logiciel archivage num rique p renne ces ressources et comp tences qui rel vent d autres m tiers sont nombreuses complexes et ne peuvent s improviser Ce guide se pr sente comme une feuille de route qui balaye les grandes tapes d un projet
10. a m moire et la qualit scientifique du projet de r f rencer les documents sources ou secondaires utilis s que ceux ci fassent d j l objet d une description d taill e par un organisme sp cialis bnf etc ou qu il s agisse de documents in dits ex des archives in dites cette tape 1l peut tre judicieux de faire appel un sp cialiste de la documentation Pour les sources d j d crites est il possible de de r cup rer les notices existantes e si oui sous quel format Base de donn es fiches papier e si oui avec quelle norme EAD UNIMARC Sinon voici quelques questions se poser pour d terminer les informations renseigner lors du r f rencement e Observer un standard de m tadonn es par exemple EAD quels champs sont pertinents pour la description des sources du projet Lesquels ne semblent pas pertinents mais sont pourtant signal s comme obligatoires par le standard Y a t il des informations qui semblent incontournables dans le projet mais que le standard ne pr voit pas Qu en d duire e Quels l ments clefs de la structure des documents souhaite t on garder e Quels types d informations clefs rel ve t on dans les documents Guide pratique pour la production de corpus num rique fi A retenir gt L absence d un type d information souhait dans un standard ne signifie pas que le standard est inadapt au projet La plupart des standards pr voient des champs g n
11. ent de la copie source choix du plan de nommage et de classement des fichiers choix du lieu de stockage des fichiers choix de l outil de num risation appareil photo num rique scanner scanner livre ouvert choix des m tadonn es de description des fichiers caract ristiques des documents sources accessibilit fragilit format Pour valider la qualit de la num risation par exemple pour lire un histogramme des couleurs v rifier qu il n y a pas de saturation et donc de perte d information etc f A retenir gt Une information non enregistr e la capture ne pourra plus tre cr e a posteriori on peut cr er des images en basse r solution partir d images en haute r solution jamais l inverse Pour des documents de taille A4 ou approchant viser une r solution de 600 dpi minimum si possible et en tout cas ne jamais num riser moins de 300 dpi ni dans un format compress H Bonnes pratiques gt Constituer un jeu de fichiers d images brutes dans un format non compress TIFF par exemple mais attention ce format est propri taire et pose des questions de p rennit renseigner les m tadonn es de ces fichiers EXIF par exemple puis travailler sur des jeux secondaires d images dont les formats pourront tre adapt s aux op rations correspondantes PNG ou JPEG pour le web etc gt Les besoins en espace disque et en puissance des processeurs seront tr s vite importants avec les images valu
12. er le poids global des fichiers images num riques et pr voir au minimum le double jeu d images brutes copie de travail s assurer qu on a les outils ad quats pour manipuler les images les visualiser inscrire informatiquement les interventions qu on effectue sur elles analyse classement m tadonn es Guide pratique pour la production de corpus num rique 12 Exploitation et manipulation des images obtenues e Les images serviront elles en tant que documents iconographiques Illustrations imag es Objets de commentaire e Les images doivent elles tre converties au format texte Dans ce format le texte sera lisible caract re par caract re dans un diteur de texte et non plus dans un logiciel de retouche d image A retenir gt dans le cas d une conversion au format TEXTE il faudra choisir un logiciel de reconnaissance de caract re appel commun ment OCR du terme anglais Optical Recognition Caracter pour Reconnaissance Optique de Caract res Le choix du logiciel ne pourra tre effectu qu apr s localisation et datation des textes passer en mode texte le logiciel devant reconna tre les caract res de la langue utilis e et de l poque o les textes furent produits En effet les logiciels de reconnaissance de caract res fonctionnent tr s bien sur les imprim s de la fin du 20 me si cle mais moins bien pour la fin du 19 me et le d but 20 me Par exemple Certains projets europ ens ont ten
13. es propri t s du corpus Selon quelles m thodes scientifiques issues de quelles disciplines linguistique de corpus traitement automatique de l image num rique Y a t il alors des formats d encodage des standards respecter pour pouvoir b n ficier des savoir faire informatiques et des instruments logiciels de ces disciplines A retenir gt La num risation d un corpus peut avoir plusieurs objectifs tr s diff rents et chacun de ces objectifs appelle une d marche sp cifique qui n implique pas les m mes comp tences et ressources scientifiques ditoriales et techniques que les autres m me si certaines op rations sont communes tous les projets de num risation On peut bien entendu d cider qu on vise tous ces objectifs la fois mais il faut alors tre certain e de pouvoir disposer de toute s les comp tences et ressources n cessaires H Bonne pratique gt Une bonne pratique peut tre de se concentrer plut t sur l un des objectifs seulement conservation OU tude scientifique OU autre tout en veillant produire des donn es num riques r utilisables par d autres quipes qui chercheront atteindre d autres objectifs pr f rer l usage de standards documenter les choix effectu s etc O mD ha O mD v Q u O O O TD C O pa O gt O O ha Q G Len O Q O gt eJ pas ha Q O D mD O 1 2 Diffuser Publier Mettre en ligne D s la c
14. gue de la publication fran ais Type de support docs papier texte en criture manuscrite caract d imprimerie non standard docs papier texte en caract res d imprimerie standard livres tapuscrit fichiers num riques images tif gif png jpg pdf texte non s lectionnable fichiers num riques texte word odt pdf avec texte selectionnable Type de transcription Langue du titre O mD ha O mD v Q u O O 05 O C O p O mD O O ha Q G Len O Q O gt eJ pas ha Q O D gt O Guide pratique pour la production de corpus num rique 10 Exemple de r f rencement pour la Transcription ou num risation de la source pour le projet UNTEL Champs d crire Source d crite Nom du fichier d finir 1r gle de nommage Encodage du fichier ex 150 8859 1 cp1252 Date J mm aaaa Transcripteur Pr nom Nom Support utilis copie BNF livre publi en 2003 Lieux de conservation actuels sous forme papier localisation physique Lieux de conservation actuels sous forme lectronique URL c Histoire des documents L histoire d un document est souvent utile sa compr hension contexte historique g ographique intellectuel politique juridique e P riode s pour mieux comprendre l volution de la source e Th matique s pour mieux la replacer dans un contexte e Genre s e n dit s ou r dition e A partir d un manuscrit ou
15. i seul un vaste champ de savoirs et de pratiques et des comp tences qu il semble indispensable d int grer au sein du projet Un cours ou un tat de l art sur la num risation et l image num rique abord es ici tr s succintement Nous conseillons de se reporter aux conseils outils ainsi qu au travail de veille du centre national de ressources CN2SV sp cialis e dans l informatisation de donn es visuelles photos diapos carnets de terrains cartes planches dessins croquis etc De m me ce guide tant r dig par des personnes qui travaillent principalement avec des corpus textuels nous n abordons pas la num risation de vid o ou de son Nous conseillons de se reporter aux conseils outils ainsi qu au travail de veille du centre national de ressources CRDO sp cialis dans la gestion documentaire des ressources orales et la constitution d un r servoir de donn es On peut galement se r f rer au site Corinthe site d di la recherche sur les corpus de langue parl e en interaction propos par le groupe ICOR de l UMR 5191 O mD ha O mD v Q u O O 05 O C O p O mD O O ha Q ha O Q O gt eJ pas ha Q O D mD O O mD ha O mD v Q u O O O TD ZC O pas O gt O O ha Q ha O Q O gt eJ pas Len Q O D mD O 1 Concevoir un projet aspects scientifiques ditoriaux et techniques Une avent
16. ise en forme et de capitalisation des m thodes outils et bonnes pratiques qui mergent dans le champs de la production et de l dition de corpus num riques scientifiques La pr sente feuille de route est l un des r sultats de ce travail Remarque ce guide est modulaire au sens o tous les projets ne comportent pas n cessairement toutes les tapes pr sent es par exemple un projet d dition exclusivement textuel ne sera pas concern par la probl matique des images num riques Le terme corpus est ici employ dans son acception large Ce que ce guide n est pas Attention ce guide n est pas Un cours de conduite de projet ni de management par projet Si l on souhaite adopter une d marche projet on se r f rera utilement l tat de l art en la mati re de nombreux outils th oriques et pratiques de planification et de gestion de projet existent cahier des charges diagramme de Gantt etc et l on pourra d cider de doter l quipe de comp tences organisationnelles sp cifiques Un tat de l art ou un guide sur le document num rique et la gestion lectronique de document GED en g n ral qui sont des champs de savoirs th oriques et m thodologiques part enti re pouvant tre utilement interrog s ou m me int gr s l quipe dans le cadre d un projet de corpus scientifique num rique Un cours de g nie logiciel ni de gestion de projet informatique qui repr sente galement so
17. n organisme sp cialis bnf etc ou qu il s agisse de documents in dits ex des archives in dites A cette tape 1l semble judicieux de faire appel un sp cialiste de la documentation Pour les sources d j d crites vous pourrez essayer de r cup rer les notices existantes e catalogage m tadonn es inventaire EAD e si oui sous quel format Base de donn es fiches papier e si oui avec quelle norme EAD UNIMARC 2 soa jo Nous nous concentrerons ici sur les sources d un corpus crit textes iconographique Pour les corpus Oraux voir le site Corinthe Pour aller plus loin quelques informations utiles sur les normes de description et d encodage IMARK Pour mieux conna tre les formats d indexation utiliser le tutoriel IMARK unit 4 cr ation et gestion de documents lectroniques http www imarkgroup org moduledescription_fr asp id 6_ EAD site Une documentation tr s compl te sur l EAD est disponible sur ce site EAD site Bibliographie EAD http www archivists org saagroups ead bibliography html EAD site Liste de metadonn es et standards _http www archivists org saagroups ead metadata html ArchivisToolKit Outils pour l archiviste http archiviststoolkit org M tadonn es _http www archivists org saagroups ead metadata html CNS2SV Documentation du CN2SV XML EAD EAC http archivesic ccsd cnrs fr sic_00285219 fr TEI Initiative Le guideli
18. nes de la derni re version PS http www tei c org release doc te1 p5 doc en Guidelines pdf Poupeaul Poupeau x G R flexions sur l utilisation de la TEI pour coder les sources diplomatiques partir de l exemple du Cartulaire blanc de l abbaye de Saint Denis Le M di viste et l ordinateur 43 2004 Poupeau Poupeau G Les possibilit s de la TEI P5 pour les sources historiques l exemple d un recueil de chartes SIC 2007 http archivesic ccsd cnrs fr index php hals id 2jbnuba7sc22ntvrgcrbpo6n TEI R seau d experts TEI Bertrand Gaiffe TEI TELMA cr ation d un environnement de production TEI e est il possible de r cup rer les notices existantes Sinon voici quelques questions que vous pourrez vous poser pour choisir les informations renseigner lors du r f rencement e quels champs choisir pour la description e quels l ments clefs de cette structure souhaitez vous garder e quels types d informations clefs relevez vous dans vos documents Exemple Exemple de r f rencement bibliographique pour les sources crites du projet Champs d crire Source d crite n de la r f REfO01 Titre Truc sur les trucs Auteur Pr nom Nom diteur critique scientifique Pr nom Nom Traducteur Pr nom Nom Publication monographie aprimus maison d dition Nom Localisation Ville ISBN 2 58965 563 5 Ann e de publication aaaa N de notice FRBNEF55669944 Lan
19. onception d un projet il importe de se demander sous quelle forme on souhaite produire les r sultats Cela ne signifie pas que l on doive savoir compl tement en d but de projet tout ce que l on va d couvrir et produire c est m me le propre de la recherche d tre en situation inverse Mais il importe d expliciter le statut scientifique et ditorial que l on souhaite conf rer aux diff rents types de r sultats que l on va produire Ce qui est videment pour le m dium papier la hi rarchie de statut qui existe entre un article dans une revue comit de lecture ou une tribune dans un quotidien une communication dans un s minaire o dans un colloque un rapport de recherche ou un ouvrage dans telle collection de telle maison d dition etc ne l est pas encore pour les productions num riques De m me si le cycle de vie d un ouvrage papier est aujourdhui institutionnellement et professionnellement bien balis du bon tirer au catalogage en biblioth que en passant par l impression le d p t l gal etc ce n est pas encore le cas avec les productions num riques En somme c est toute une culture de l dition num rique qui est en mergence et n est pas encore stabilis e et laquelle chacun e peut contribuer en prenant conscience des diff rentes destinations sociales possibles d une production num rique et en s effor ant de positionner clairement ses propres productions Voici quelques exemples de questions se poser pou
20. outils mutualis s etc Voir par exemple les activit s du consortium TEI http www te1i c org index xml Par exemple l italique dans une dition papier peut recouvrir deux types d informations de statut totalement diff rent un titre d ouvrage dans la pr face ET une marque d insistance dans la r plique d un personnage Guide pratique pour la production de corpus num rique 13 En compl ment quelques questions se poser pour v rifier la qualit scientifique et technique de la transcription Les r gles de transcription ont elles t explicit es comment encoder les accents la ponctuation les variations d orthographe la mise en page e Par quel dispositif va t on contr ler qu elles sont respect es e Comment ces r gles sont elles inscrites informatiquement e Qui effectue les transcriptions Interne Prestataire externe e Sous quel format sont elles t effectu es doc txt e Quel codage de caract re est utilis utf8 iso 55 2 3 Annoter L annotation recouvre deux types d actes scientifiques de nature diff rente mais dont la fronti re n est pas toujours vidente elle peut consister dans la poursuite l affinage de la discr tisation des informations commenc e aux tapes pr c dentes ou dans l analyse scientifique le commentaire sur la justification d un choix etc fi Bonne pratique gt Expliciter o se situe la fronti re dans le cas du projet et veiller
21. pen_Archival_Information_System Cela implique des infrastructures relativement lourdes fl Bonne pratique gt Se rapprocher des tutelles et voir si le projet peut b n ficier de leur politique de pr servation de leur patrimoine num rique
22. plume org fr ressource declaration de berlin 1 3 Comment s organiser Qu est ce que documenter le projet En plus des fichiers num riques eux m me le projet va produire norm ment de documents CR de r unions changes de mails rapports comparatifs tableaux de recette etc La bonne gestion de cette documentation la fois pour le suivi du projet et pour sa p rennisation est cruciale Elle doit tre accessible l ensemble des participant es structur e r guli rement synth tis e Elle doit tre pour chacun e une aide pour se rep rer dans le temps et par rapport aux diff rents chantiers d finis Il peut tre strat gique de pr voir une personne ressource dont ce sera le r le unique Des outils d di s la gestion de projet existent dotProject etc Leur mise en place est un risque ces outils ont un co t d apprentissage de maintenance ils exigent une grande rigueur d utilisation ils peuvent donc s av rer sur dimensionn s et co ter plus qu ils ne rapportent au projet mais est indispensable partir d un certain niveau de complexit nombre de personnes impliqu es distance dur e j Bonnes pratiques gt Distinguer travail collaboratif et travail coop ratif produire un m me objet plusieurs et organiser la structuration et la circulation de l information dans la dur e au sein d une quipe sont deux choses diff rentes qui demandent des outils diff rents ou des usages diff rents d un m me
23. r saisir ces enjeux e Veut on construire un corpus pour r pondre ses besoins de recherche propres ou ceux de son quipe sans d marche de diffusion ext rieure Le but est il au contraire de mettre des ressources la disposition de la communaut scientifique Du grand public e M me si le corpus n est pas destin tre diffus publiquement quels l ments devront n anmoins tre diffus s voire publi s pour rendre les r sultats scientifiques du projet v rifiables reproductibles par les pair es Quels l ments devront tre visibles par les tutelles et ou organismes financeurs e Que peut signifier publier un corpus Quels crit res de qualit scientifiques ditoriaux et techniques faut il respecter Existe t il des labels des organismes susceptibles de cautionner la qualit d une production num rique comme le fait une maison d dition ou une revue pour un article ou un ouvrage papier e Que deviendront les l ments produits une fois le projet termin Qui sera en mesure de les conserver de les maintenir d un point de vue informatique d en assurer l acc s long terme Comment la communaut scientifique pourra t elle se r f rer ces productions les citer dans dix ans voir 3 Conserver un corpus num rique e Comment prot ger la paternit d un travail diffus en ligne Qu en est il des droits d auteur f A retenir gt Le num rique est une technique un format et un
24. t de mutualiser les efforts de plusieurs universit s dans le but de d velopper un logiciel sp cifique pour tel ou tel caract re de telle ou telle poque On peut citer le projet METAe qui a port ses efforts sur la reconnaissance des lettre gothiques Fraktur beaucoup utilis es en Europe du 18 me jusqu au milieu du 20 me Le projet Debora a quant lui concentr son travail sur les caract res d imprimerie du 16 me Actuellement le projet Corpus Num riques financ par le cluster 13 de la r gion Rh ne Alpes s int resse aux caract res du 18 me 2 2 2 Transcrire Transcrire ce n est pas singer le document physique mais de discr tiser et de qualifier l information Ce que le lecteur humain distingue parce qu il s appuie sur des habitudes culturelles contextualise ce qu il lit la machine ne peut le distinguer Transcrire c est expliciter pr voir une trace num rique distincte pour chaque type d information i A retenir gt Ne pas r inventer sa propre grammaire de transcription C est un norme co t en termes d essai erreur pour parvenir une bonne expressivit de documentation maintenir et cela met en danger la p rennit du corpus Des mod les de donn es libres ouverts et utilis s dans de larges communaut s scientifiques existent d j qui permettent de b n ficier d une documentation collectivement maintenue d une expertise et d une m moire des questions de transcription largement d battues d
25. ulture http www culture gouv fr culture mrt numerisation fr technique inventa EchoFabrique MutEC cf GrilleMutECDocNum pdf pour mod le de workflow de num risation Guide pratique pour la production de corpus num rique 11 une mise en ligne Une importante tape du projet consistera extraire les donn es de ces sources papier pour les rendre num riques par des proc d s aussi simples que la transcription ou d autres plus complexes tels la num risation et le passage au logiciel de reconnaissance de caract res OCR 2 2 1 Num risation et reconnaissance optique de caract res Il y a de multiples mani res de produire les images du corpus en fonction du mat riel utilis des formats choisis etc La capture est d j un choix d encodage de l information Les questions suivantes peuvent aider pr ciser comment envisager le scannage e A quoi doivent servir les images Illustration du produit final Recherche automatis e de formes par des logiciels sp cialis s Si oui ces logiciels imposent tr s vraisemblablement des contraintes quand au format et aux propri t s des images pour pouvoir les traiter lesquelles e Quia les comp tences n cessaires pour orienter les choix de num risation en mode image choix op rer en fonction de l utilisation qui sera faite des images dans les r sultats interm diaires et finaux choix de la r solution choix du mode chromatique choix du format d enregistrem
26. ure num rique commence le plus souvent par le rep rage par des chercheur es sp cialistes d une ressource fonds d archive ensemble documentaire collection etc pr sentant une grande valeur scientifique et ou patrimoniale et qu ils d cident alors de num riser Il est alors crucial de franchir une premi re tape consistant se demander pr cis ment pourquoi on souhaite num riser cette ressource Cette r flexion va en effet conditionner de mani re fondamentale l orientation g n rale et l ampleur du projet Voici ci apr s quelques exemples de questions se poser pour pr ciser les objectifs vis s et ainsi initier la conception du projet 1 1 Pourquoi num riser ce corpus Que vise t on avec cette num risation e La conservation le souci de pr servation des documents Cette conservation est elle temporaire ou doit elle tre p renne Toute num risation est une perte d information quelles informations importe t il de conserver image couleur texte son etc e La diffusion aupr s de la communaut scientifique int ress e du grand public de certains publics Quels modes d acc s seront int ressants pour ces publics quelles organisations du corpus quels modes de navigation de recherche quel outillage Faut il pr voir plusieurs organisations concurrentes conjugu es voir aussi 1 2 e L exploitation l tude scientifique du corpus c est dire l observation la recherche de certain

Download Pdf Manuals

image

Related Search

Related Contents

  SMAP Version 6.58 Update Note    OML100 Manual [00].indd  Home Decorators Collection 0920600310 Instructions / Assembly  エンジョイ ガイド - 121ware.com  Bedienungsanleitung  TM884B USER'S MANUAL  7400 - 1150 WIMA  User Manual ITA-5730 Series  

Copyright © All rights reserved.
Failed to retrieve file