Home
Fonctionnalités textométriques
Contents
1. Position du focus au fil du texte selon le type d empan choisi centr align verticalement sur une colonne Disposition du contexte comme un paragraphe sans interruption particuli re ni alignement naturel comme dans le texte sur une seule ligne quitte quiper la fen tre d un ascenseur horizontal pour ne pas rompre le regroupement vertical des occurrences du focus Usage Travail sur des passages comme unit s d tude lecture s apparentant une lecture continue s appuyant sur une mise en forme usuelle pas de lignes artificiellement longues comme dans la concordance Voisinage imm diat syntagmatique orient sensibilit la distance au focus mise en vidence de constructions de leur r currence et de leurs divergences et variantes lecture centr e sur le focus 3 2 Premi re famille de fonctionnalit s de synth se les relev s 3 2 1 Vocabulaire La m tafonctionnalit Vocabulaire proc de l inventaire des unit s avec indication de leur fr quence Cette liste peut tre exhaustive ou focalis e filtre Un tri alphab tique facilite la recherche d une unit donn e et induit certains regroupements morphologiques Corr lativement il peut mettre en vidence des lacunes significatives Le tri hi rarchique sur la fr quence d croissante permet de situer les unit s dans une gamme de fr quences des unit s dominantes aux hapax Ses deux
2. lorsque ce sont les fonctionnalit s pr liminaires ou m me class es dans les fonctionnalit s statistiques puisqu il y a mod lisation de distributions ou synth se des contextes locaux Les fonctionnalit s statistiques ne sont g n ralement organis es que par leur ordre avec des encha nements dont on explicite quelquefois la motivation L ordre global de pr sentation est variable mais certains encha nements sont souvent observ s La partie s ouvre g n ralement sur les fonctionnalit s de d compte dictionnaire zipf etc si elles n ont pas t abord es ailleurs Puis les graphes ou histogrammes de r partition apparaissent comme une premi re proc dure simple d tude de la distribution d un focus Sont ensuite abord s tant t le calcul des sp cificit s qui donne une mesure statistique de la distribution tant t un calcul de cooccurrences qui vient comme une autre mani re de caract riser l environnement cette Les tableaux comparatifs d taill s comportent plusieurs dizaines d entr es les manuels comptent jusqu une quarantaine de sections traitant chacune d une fonctionnalit JADT 2010 10 Journ es internationales d Analyse statistique des Donn es Textuelles 4 BENEDICTE PINCEMIN ET AL fois ci lexical d un focus Sp cificit s et cooccurrences sont par ailleurs souvent consid r es comme li es du fait qu une technique de calcul des cooccurrents recourt un calcul
3. Heiden 2002 et supports de formation l interface d un logiciel suppose aussi des choix de mise en sc ne des fonctionnalit s dans l organisation des menus d roulants ou des boutons d appel des fonctionnalit s e tablissement d une grille pour d crire l tat de l art et situer diff rents lo giciels e une tude de synth se en vue de la conception d un nouvel outil C est de ce dernier point de vue que rel ve la pr sente communication Sa particularit est d tre prospectif il s agit de prendre du recul pour i comprendre la logique des d veloppements th oriques jusqu pr sent ii saisir les quivalences entre des fonctionnalit s analogues et inversement rep rer les diff rences significatives savoir utiliser et iii percevoir des lieux d innovation 1 2 Conventions Convenons pour la suite que nous tudions un corpus divis en parties analys es en unit s Parties et unit s sont des d signations simples pour des r les que peuvent prendre toutes sortes de composantes du corpus les parties peuvent correspondre aux textes des regroupements de textes des qualifications de l expression par ex toutes les r pliques de chacun des personnages dans une pi ce de th tre les unit s se situent commun ment au plan lexical mais elles peuvent aussi tre infra ou supra lexicales Unit s comme parties peuvent tre consid r es sous l angle d une quelconque de le
4. atouts sont la simplicit et la r duction op r e Reposant sur des proc dures famili res tri et d doublonnage l interpr tation des r sultats ne n cessite pas de comprendre un calcul complexe Et elle fournit une vue r duite du corpus ou d un ph nom ne puisque l on voit non pas les occurrences en contexte mais les types La m tafonctionnalit Vocabulaire joue souvent un r le de point d entr e dans l analyse Tout d abord elle permet une prise de connaissance synth tique du corpus par le balayage syst matique de toutes les attestations et donne des rep res pour ajuster un seuil Elle guide la recherche d un focus significativement pr sent dans le corpus et avec un ordre de grandeur de fr quence exploitable et facilite sa formulation en piochant dans les formes attest es 3 2 2 Mesures La m tafonctionnalit Mesures permet d obtenir des caract risations quantitatives focalis es ou non base de d comptes simples comme effectif proportion moyenne Certaines mesures peuvent tre pr d finies concernant des tailles nombre de types nombre d occurrences nombre de hapax la v rification de lois statistiques table et diagramme de 8 2 sZ J22 s242 2 Pour m moire les unit s sont consid r es sous l angle d une propri t donn e donc on peut lister par exemple les diff rentes graphies attest es dans le corpus ou les lemmes ou les cat gories grammaticales etc JADT 2010 1
5. types Relev s D comptes Vocabulaire Liste triable des unit s avec leur fr quence et leurs sous fr quences si partition active pour tout le sous corpus ou correspondant un focus Mesures Caract risations quantitatives du corpus tailles gamme des fr quences indices valuatifs synth tiques Positions Caract risation des localisations d unit s dans le corpus D roulement Disposition et r gularit des positions d unit s au fil du texte Distribution R partition contrast e d unit s dans les parties d une partition Evolution R partition d unit s dans un corpus partition chronologique ou s rielle 6 C est un profil d usage plut t qu un profil utilisateur car cela correspond en pratique un contexte d emploi un m me utilisateur peut avoir besoin de plusieurs profils et un m me profil peut tre partag par plusieurs utilisateurs Un profil peut notamment servir proposer un param trage par d faut adapt un corpus 7 2 hz s Cette fonctionnalit comprend les aspects concernant la segmentation en unit s Selon la mani re de mettre en uvre cette fonctionnalit il est possible ou non 1 d importer une segmentation compl te encod e dans le corpus ii de proposer une segmentation interne plus ou moins param trable en l absence de segmentation d j pr sente dans le corpus iii de prendre en compte une segmentation partielle encod e dans le corpus et de prop
6. 0 Journ es internationales d Analyse statistique des Donn es Textuelles 10 BENEDICTE PINCEMN ET AL zipf pareto des valuations globales notamment dans une perspective stylom trique richesse du vocabulaire lisibilit 3 3 Deuxi me famille de fonctionnalit s de synth se les tudes de positions Un tableau r sume la compl mentarit des trois m tafonctionnalit s concernant les positions M tafonctionnalit D roulement M tafonctionnalit M tafonctionnalit Distribution Evolution Le corpus est vu Continue ventuellement pseudo Partitionn e Partitionn e comme ayant continue discr tisation en tranches Sans orientation ni Lin aire orient e une structure Lin aire orient e contiguit s d clar es Usage typique Analyse intratextuelle approches Analyse intertextuelle Analyse chronologique topologique et topographique contrastive avec p riodes objectiv es S miologie courbe histogramme carte histogramme graphique 3 3 1 D roulement lin aire Le corpus est ici consid r comme une structure continue lin aire syntagmatique La m tafonctionnalit D roulement vise alors rendre compte de la r gularit ou de l irr gularit apparitions group es en rafales des positions d un focus vue focalis e ou de l ensemble des unit s vue panoramique Elle peut galement tudier l volution continue d une caract ristique au fil des unit s par e
7. a cr ation et l exploitation de bases hypertextuelles Manuel de r f rence Institut de linguistique fran aise Bases Corpus et Langage Universit de Nice mai 2006 151 pages Fleury S 2009 Le M tier Textom trique aka Le Trameur Manuel d utilisation Centre de Textom trie CAT2T Universit de Paris 3 juillet 2009 127 pages Fracchiolla B Kuncova A Maisondieu A 2003 Lexico 3 outils de statistique textuelle Manuel d utilisation Version 3 41 SYLED CLAT Universit Paris 3 f vrier 2003 50 pages Heiden S 2002 Weblex Manuel Utilisateur Version 4 1 Laboratoire ICAR UMR 5191 ENS Lyon janvier 2002 180 pages Lafon P 1981 Analyse lexicom trique et recherche des cooccurrences Mots 3 95 148 Lebart L and Salem A 1994 Statistique textuelle Paris Dunod Leblanc J M 2005 Les voeux pr sidentiels sous la Cinqui me R publique 1959 2001 Recherches et exp rimentations lexicom triques propos de l ethos dans un genre discursif rituel Th se de Doctorat Sciences du langage Universit de Paris 12 8 d cembre 2005 Salem A and Fleury S ds 2007 Explorations textom triques Lexicometrica Salem A and Mellet S ds 2008 Topographie et topologie textuelles Lexicometrica Sites internet Projet Textom trie http textometrie ens Ish fr Logiciel Xaira http wWww xaira org Portail et revue Lexicometrica http wWww cavi univ paris3 fr lexicomet
8. a textom trie comme l aide en ligne Elle rend peu compte de l ergonomie et des facilit s de navigation qui peuvent tre tr s importantes notamment pour faciliter le retour au texte La pr sentation de la typologie pourrait aussi donner lieu une tude approfondie fonctionnalit par fonctionnalit On reporte d autres publications de tels d veloppements L enjeu ici est de donner comprendre une sorte de r f rentiel en se limitant dans la description de chaque m tafonctionnalit ce qui permet de cerner sa port e et d en reconna tre des impl mentations Les parcours hypertextes peuvent alors ensuite tre con us pour lier les fonctionnalit s en fonction d une m thodologie d usage que l on exprimerait dans les termes de la typologie JADT 2010 10 Journ es internationales d Analyse statistique des Donn es Textuelles FONCTIONNALIT S TEXTOM TRIQUES 5 Les entr es de la typologie sont en effet des m tafonctionnalit s elles groupent sous une m me probl matique diff rents traitements concourant y r pondre Nous sommes conduits aussi faire des propositions terminologiques pour d signer ces m tafonctionnalit s mais ce sont plut t les concepts sous jacents qui se veulent le principal apport scientifique de l article Tout d abord 2 une vue globale permet de percevoir la couverture et la logique d ensemble de la typologie avec ses principales articulations Pr se
9. ature variable Le cas de figure le plus courant est la recherche de contextes telle qu un relev des paragraphes contenant tel focus L empan des contextes peut tre d fini par fen trage nombre d unit s de part et d autre du focus d limiteur typiquement ponctuation forte ou structure englobante le paragraphe la r plique Mais l extrait n est pas n cessairement un contexte autour d un focus on peut par exemple vouloir tous les premiers vers d un recueil de po mes ou les paragraphes r alisant au moins un certain score bas sur les sp cificit s des unit s qu ils contiennent S1 le crit re de s lection est li la pr sence de certaines unit s alors celles ci sont mises en vidence typographiquement Dans certains cas selon le mode de s lection des extraits on peut aussi avoir des doublons un param trage permet l utilisateur de choisir soit de pr senter chaque contexte une seule fois en signalant les diff rents cas qu il r alise soit d afficher le contexte pour chaque r alisation du crit re La m tafonctionnalit Extrait sert habituellement travailler sur une repr sentation r duite du corpus une lecture s lective du texte Elle s articule donc fortement et g n ralement hypertextuellement avec la m tafonctionnalit Texte pour faciliter un retour un contexte non limit aux bornes de l empan Ses usages typiques sont 1 la recherche d exemples d attestat
10. ctionnalit Evolution offre alors diff rents calculs mettant en vidence diverses associations entre la r partition des unit s et la structure chronologique ou quivalente tels que celui du profil d un focus pr sence croissante ou d croissante ou p riode ou suite de p riodes de pr sence caract ristique la recherche des formes dont l accroissement ou l effacement est le plus significatif au fil du corpus le rep rage des accroissements ou des chutes significatives de l emploi de certaines unit s d une p riode l autre JADT 2010 10 Journ es internationales d Analyse statistique des Donn es Textuelles FONCTIONNALIT S TEXTOM TRIQUES 11 3 4 Troisi me famille de fonctionnalit s de synth se les associations 3 4 1 S quences La m tafonctionnalit S quences typiquement impl ment e par les segments r p t s Lebart amp Salem 1994 vise rep rer des encha nements r currents des figements Elle op re une synth se des successions syntagmatiques d unit s en corpus sans n cessairement pr juger de leur structure Son usage caract ristique est la reconstitution a posteriori pour l interpr tation voire pour les calculs d unit s linguistiques non d crites dans la segmentation initiale du corpus et de motifs r guliers de port e plus ou moins longue 3 4 2 Cooccurrences La cooccurrence est la pr sence d une unit dans le voisinage syntagmatique d une autre les voisinag
11. de sp cificit s Le c ur des proc dures statistiques est la constitution de tableaux de contingence de similarit s et leur traitement par analyse des donn es analyses factorielles analyse arbor e classifications Enfin les pr sentations se terminent souvent par les fonctionnalit s dites topologiques ou topographiques impl ment es plus r cemment mais elles peuvent aussi tre associ es aux cooccurrences voire tre expos es dans les premi res fonctionnalit s comme point d acc s au texte Viennent galement dans les derni res les fonctionnalit s sp cifiques certains types de corpus comme les corpus align s La structure adopt e par l ouvrage de r f rence Lebart amp Salem 1994 est relativement originale Un chapitre consacr aux unit s de la statistique textuelle concentre un grand nombre de fonctionnalit s vues donc sous l angle de leur participation la d finition et la caract risation des unit s d analyse non seulement dictionnaire mesures g n rales et segments r p t s mais aussi concordances et cooccurrences mettant au Jour des r gularit s locales Les chapitres suivants pr sentent des proc dures d analyse des donn es les sp cificit s sont introduites comme un moyen de caract risation d une partie d un corpus pour l aide l interpr tation d une analyse factorielle ou d une classification Enfin en marge des fonctionnalit s d analyse pr
12. es de la typologie sont des m tafonctionnalit s sous lesquelles sont rassembl es des fonctionnalit s de calcul et de traitement r pondant un m me questionnement Par exemple la m tafonctionnalit Evolution peut rassembler une fonctionnalit qui calcule la p riode caract ristique apparition d une unit et une autre fonctionnalit qui recherche les unit s en progression globale et celles de plus en plus d laiss es On peut donc parler de la m tafonctionnalit Evolution lorsque l on consid re la probl matique commune aux divers traitements rassembl s et d une fonctionnalit de type Evolution lorsque l on a affaire aux diff rents traitements concrets La typologie s ouvre sur les m tafonctionnalit s qui entrent naturellement en jeu au d but d une analyse textom trique car elles tablissent l environnement dans lequel les calculs textom triques peuvent ensuite tre lanc s Les deux grands groupes de m tafonctionnalit s suivants correspondent aux calculs textom triques proprement parler produisant des r sultats que l utilisateur doit interpr ter Le quatri me groupe vient donc logiquement compl ter l ensemble en couvrant les fonctionnalit s qui outillent l utilisateur dans ce travail interpr tatif Ce document est intitul Typologie des fonctionnalit s textom triques selon un point de vue utilisateur illustration par leurs impl mentations dans des logiciels et est disponible
13. es et les colonnes d placement suppression fusion sur les valeurs recodage normalisation Graphiques Courbe diagramme en b tons histogramme camembert Aide la lecture styles d dition Diagrammes Graphes dendogrammes aide la lecture styles d dition Cartes Aide la lecture styles d dition projections Organisation Heuristique de mise en forme des r sultats accompagnant leur interpr tation Filtrage Possibilit de traduire visuellement une organisation des r sultats au fur et regroupements mesure de leur analyse tris Synopse et Mise en regard de plusieurs r sultats et outils d aide leur comparaison comparaison projection diff rence trac de relations Annotation Commentaire Commentaire libre signet non destin l analyse par des calculs non index pour cela Edition du Modification du corpus valeur d une propri t segmentation corpus Archive Journal Syst matique note les fonctions appel es et les param tres pour lecture et pour laboration de sc narios Rapport Edition s lective et document e de r sultats et export dont impression 3 Pr sentation plus d taill e des m tafonctionnalit s de calculs textom triques 3 1 Les fonctionnalit s de Lecture Ce premier groupe de fonctionnalit s est fondamental car il outille ce qu il est convenu d appeler le retour au texte tout r sultat exprim via des unit s
14. es typiques tant de l ordre de la phrase ou du paragraphe La m tafonctionnalit Cooccurrences vise d celer de telles attirances contextuelles remarquables au vu du comportement global des unit s dans le corpus Elle peut tre orient e en distinguant pour deux unit s les deux cas de figures selon l unit qui pr c de l autre Dans ses versions statistiques elle peut tre bas e sur un calcul de sp cificit s ou mobiliser un calcul d di Lafon 1981 Elle est utile pour rep rer des associations plus souples que celles des S quences 3 4 3 Analogies Les S quences et Cooccurrences d crivent des associations syntagmatiques La m tafonctionnalit Analogies s int resse aux similarit s entre unit s ou entre parties Elle peut capter des associations paradigmatiques en mettant en relation des unit s qui voisinent dans le corpus avec les m mes cooccurrents sans pour autant n cessairement se trouver ensemble dans les m mes contextes La m tafonctionnalit Analogies se base g n ralement sur un tableau de caract risation d unit s ou de parties dans un espace de description Elle peut prendre diff rentes formes production d un tableau de similarit ou de distances classification non supervis e visualisation par analyse factorielle ou arbor e par carte de Kohonen Elle peut fournir des indications tant quantitatives mesure de coh sion de distance que qualitatives facteurs concourant au rapp
15. hors contexte doit s interpr ter en v rifiant les valeurs prises par ces unit s en contexte local l entour imm diat de l unit au plan syntagmatique et global par une indication de localisation La d limitation des m tafonctionnalit s est ici essentiellement bas e sur la disposition des informations pr sent es plus que sur leur nature En effet la mise en page et les outils de manipulation et de parcours associ s d terminent des usages appropri s 3 1 1 Texte La fonctionnalit Texte typique affiche le corpus dans son d roulement lin aire en rendant compte visuellement de la structure logique des textes paragraphes vers didascalies sections etc L affichage peut tre pagin ou continu L interface est dot e de possibilit s de JADT 2010 10 Journ es internationales d Analyse statistique des Donn es Textuelles 8 BENEDICTE PINCEMN ET AL navigation par acc s s quentiel ou acc s direct Un corpus parall le align peut donner lieu une pr sentation synoptique Lorsqu un focus est d fini et activ les occurrences correspondantes dans le texte sont mises en vidence et un dispositif permet de naviguer d occurrence en occurrence La fonctionnalit Texte instrumente un retour au texte per u comme un feuilletage du texte Elle est utilis e pour l analyse textuelle d un ph nom ne avec un contexte non limit en taille et la perception du positionnement dans la structure textuelle E
16. in Sergio Bolasco Isabella Chiari Luca Giuliano eds Statistical Analysis of Textual Data Proceedings of 10th International Conference JADT 2010 Edizioni Universitarie di Lettere Economia Diritto Roma June 9 11 2010 Available on line in the LED electronic archive at the http www ledonline it web site Fonctionnalit s textom triques Proposition de typologie selon un point de vue utilisateur B n dicte Pincemin Serge Heiden Marie H l ne Lay Jean Marc Leblanc Jean Marie Viprey ICNRS et Universit de Lyon ICAR UMR 5191 ENS LSH 15 parvis Ren Descartes B P 7000 F69342 Lyon cedex 07 France Universit de Poitiers Laboratoire FoReLL MSHS de Poitiers 95 avenue du Recteur Pineau F86000 Poitiers France Universit Paris Est Cr teil Val de Marne C ditec EA 3119 61 avenue du G n ral de Gaulle F94000Cr teil France SUniversit de Franche Comt et MSH de Franche Comt Archives Textes Sciences des Textes EA 3187 30 rue M gevand F25030 Besan on France Abstract In the field of textometry every text analysis software offers its own set of functionalities Although these functionalities originate in common ideas their implementations and their names may differ It is therefore impossible to compile a comprehensive and synthetic list of functionalities straight or to draw a direct comparison between softwares This paper sets a struct
17. ions l appui d un document didactique scientifique etc la sortie peut alors n tre exploit e que partiellement on choisit le premier extrait satisfaisant ii l analyse syst matique d un ph nom ne dans le corpus comme la polys mie d un mot en regroupant les extraits en classes correspondant diff rents cas de figure de r alisation du ph nom ne JADT 2010 10 Journ es internationales d Analyse statistique des Donn es Textuelles FONCTIONNALIT S TEXTOM TRIQUES 9 3 1 4 Concordance Un corpus tant fix une concordance est la liste de toutes les occurrences d un focus i align es verticalement en colonne nous dirons empil es ii entour es de part et d autre par leur contexte iii munies d une indication de localisation et iv tri es selon un crit re pertinent pour l analyse L int r t de la pr sentation en concordance est de cr er des effets visuels par les tris et la superposition elle est sp cialement appropri e pour l observation des r currences et des contrastes au voisinage imm diat du focus tout en gardant un acc s direct un contexte largi par un lien hypertexte renvoyant la m tafonctionnalit Texte et au contexte global par la mention de la localisation Ses propri t s de mise en page tr s particuli res permettent de la distinguer nettement de la m tafonctionnalit Extraits M tafonctionnalit Extraits M tafonctionnalit Concordance
18. istique des Donn es Textuelles FONCTIONNALIT S TEXTOM TRIQUES 3 1 3 Etat de l art Les fonctionnalit s textom triques sont souvent pr sent es de fa on peu structur e bien qu elles puissent tre nombreuses Elles sont g n ralement group es en au moins deux grandes cat gories les fonctionnalit s documentaires couvrent les diverses formes de consultation du corpus et d acc s au texte notamment via la recherche des contextes d un focus elles sont oppos es aux fonctionnalit s sfatistiques qui font appel une mod lisation math matique avanc e probabilit s statistiques analyse des donn es etc et qui g n rent des listes d unit s accompagn es de scores des tableaux de similarit ou de coordonn es On parle quelquefois de fonctionnalit s d exploration textuelle pour d signer les premi res vues donn es l utilisateur apr s l int gration de son corpus consultation du texte dictionnaire des mots du corpus avec leur fr quence et de fonctionnalit s de navigation textom trique pour rendre compte notamment des dispositifs donnant une repr sentation globale du corpus ou de r sultats archiv s avec des acc s hypertextes des vues d taill es tels la carte des sections et le rapport de Lexico 3 Les fonctionnalit s permettant de d finir un focus sont souvent introduites avec les fonctionnalit s documentaires La transversalit de ces proc dures de construction de focus pour diff
19. le et unifie la vision des fonctionnalit s textom triques Par exemple la m tafonctionnalit D roulement groupe ce qui est habituellement dispers rafales cartes des sections accroissement du vocabulaire topologie De plus cette m tafonctionnalit se trouve bien correspondre aux recherches actuelles des textom tres en topologie ou topographie Salem amp Mellet 2008 notre typologie s ajuste donc naturellement cette probl matique existante Par ailleurs labor e dans le contexte de la conception d un nouveau logiciel projet Textom trie cette typologie couvre des aspects encore peu d velopp s comme une int gration forte des corpus tiquet s d finition transverse aux calculs des propri t s d analyse et d affichage construction de propri t s ou encore le besoin d un environnement outill d analyse et d aide l interpr tation des r sultats organisation par filtrages et regroupements vues synoptiques et instruments de comparaison Ceci tant ces propositions innovantes restent clairement au service de la valorisation des calculs au c ur de la textom trie patrimoine scientifique riche et bien vivant Cette communication a t pr par e dans le cadre du projet Textom trie ANR 06 CORP 029 elle a b n fici d une r flexion collective d passant le cercle des auteurs ayant r dig ces lignes R f rences Brunet E 2006 Hyperbase Logiciel documentaire et statistique pour l
20. lle peut convenir mieux que la m tafonctionnalit Extraits la visualisation des occurrences d un focus tr s fr quent ou concentr sur certaines zones du texte 3 1 2 Vue interne La m tafonctionnalit Vue interne sert comprendre comment l application voit le texte sur quelle repr sentation se fondent les traitements textom triques la segmentation en occurrences les valeurs des tiquettes pour contr ler l interpr tation des r sultats La Vue interne peut tre compl te ou partielle limit e un choix de propri t s Dans les autres m tafonctionnalit s de Lecture divers proc d s d affichage de propri t s sont d j possibles cf logiciel Xaira affichage d escamots bulles contextuelles fly over ou pop up utilisation de couleurs pour rendre compte de cat gories etc On peut aussi jouer sur les propri t s d affichage N anmoins la repr sentation des donn es internes peut tre plus efficace dans d autres formes de disposition que celles du Texte de l Extrait ou de la Concordance typiquement en tableau une ligne par occurrence une colonne par propri t voire en arborescence pour la repr sentation de structures embo t es 3 1 3 Extraits La m tafonctionnalit Extraits fournit une s rie de passages munis de r f rences de localisation dans le corpus et donn s dans un ordre choisi avec des regroupements possibles Le crit re de s lection des extraits est de n
21. nt e sous la forme d un tableau elle fournit ainsi une fiche pratique synth se pour se rem morer la typologie ou grille pour la description d un logiciel Puis 3 nous d taillons la pr sentation des m tafonctionnalit s au c ur de la textom trie celles correspondant aux calculs textom triques proprement parler notamment pour expliciter la logique de diff renciation entre fonctionnalit s traditionnellement proches voire confondues Par ailleurs compl mentairement nous mettons en ligne une description de plusieurs logiciels textom triques selon cette typologie Son int r t est d abord de donner des exemples 1illustratifs d impl mentation des m tafonctionnalit s d finis ici aidant mieux comprendre concr tement partir de l exp rience d un logiciel en quoi peut consister telle ou telle m tafonctionnalit En pratique c est aussi une table de correspondance faisant le lien entre les fonctionnalit s nomm es dans le logiciel et les m tafonctionnalit s identifi es dans notre typologie permettant ainsi d acc der divers logiciels avec une vue unifi e et orient e usages Par exemple partir d un besoin donn comme celui d tudier le positionnement des unit s dans le d roulement lin aire du corpus on obtient la ou les diff rentes fonctionnalit s pouvant tre mises en uvre pour y r pondre dans les termes du logiciel consid r 2 Vue globale de la typologie Les entr
22. oprement parler sont pr sent es les indispensables fonctionnalit s d import de corpus et d ouverture d une base d j existante ainsi que les fonctionnalit s de sauvegarde d impression et d export dans des formats exploitables par d autres logiciels On peut galement voquer la gestion des traitements lourds les donn es textuelles soumises la textom trie tant souvent volumineuses 1 4 Point de vue utilisateur L objectif de la pr sente typologie est d adopter un point de vue utilisateur Elle est structur e selon les diff rents types de besoins de questionnements que l utilisateur peut mobiliser dans son tude du corpus Ce point de vue s carte parfois d un point de vue technique qui peut consid rer comme une m me fonctionnalit ce qui repose sur le m me calcul sous jacent Par exemple le calcul des sp cificit s peut se retrouver pour nous dans au moins deux m tafonctionnalit s la Distribution et les Cooccurrences Et inversement la Distribution se trouve r alisable dans diff rents calculs d un simple histogramme de r partition montrant les fr quences dans chaque partie au calcul statistique des sp cificit s comme d autres indices statistiques utilis s eux aussi pour valuer une irr gularit de r partition 1 5 Organisation et limites de l expos Bien que la typologie propos e soit large elle ne couvre pas des fonctionnalit s essentielles mais non sp cifiques l
23. oser une segmentation compl mentaire pour les passages non segment s iv d importer plusieurs segmentations alternatives JADT 2010 10 Journ es internationales d Analyse statistique des Donn es Textuelles FONCTIONNALIT S TEXTOM TRIQUES 7 Associations Liens syntagmatiques ou non entre l ments de m me nature plusieurs unit s ou plusieurs parties ou plusieurs propri t s S quences Rep rage d encha nements d unit s r currents Cooccurrences Rep rage de la copr sence d unit s au sein d un m me contexte Analogies Rep rage de similarit s entre unit s ou parties configuration du corpus par analyse factorielle par exemple classification Corr lations Force et orientation du lien entre deux propri t s caract ris es par leurs valeurs au fil des occurrences ANALYSE Conduite de l analyse qualification des r sultats progression des traitements Gestion de la charge N cessaire car les calculs textom triques peuvent tre complexes et les donn es et r sultats volumineux Progression du Indicateur de progression du calcul jauge possibilit d interruption calcul annulation Volume des Information et possibilit s de r duction chantillonnages r sultats Visualisations Choix d une s miotique de pr sentation et outils d exploitation adapt s Tableaux Transformations sur les lign
24. rents calculs n est pas toujours mise en vidence en particulier dans l interface o la mani re de d finir un focus peut prendre des formes dispers es et variables selon le contexte De m me les fonctionnalit s de manipulation des sorties annotation des repr sentations graphiques tri des listes ou les possibilit s de parcours hypertextuels sont la plupart du temps d crites avec les fonctionnalit s de calcul concern es En ce qui concerne les fonctionnalit s documentaires la fonctionnalit d affichage du texte n est pas toujours explicit e et la distinction entre concordance et affichage de contextes non centr s sur le focus est peu ou pas explicit e du point de vue technique cela peut effectivement tre vu comme des variantes d affichage d une m me proc dure alors que du point de vue des usages ces pr sentations ont des propri t s tr s diff rentes Le dictionnaire des unit s du corpus les mesures g n rales souvent associ es taille du corpus loi de zipf longueur des phrases accroissement du vocabulaire ainsi que le calcul des segments r p t s ont un statut tr s variable selon les pr sentations Ces fonctionnalit s sont tant t per ues comme faisant partie de l ouverture de la base car d finissant des unit s ou pr sent es comme relevant d une premi re cat gorie de fonctionnalit s dites d exploration on les trouve galement assimil es des fonctionnalit s documentaires
25. rica Textopol Ressources informatis es pour l analyse du discours politique Pierre Fiala Jean Marc Leblanc http textopol org JADT 2010 10 Journ es internationales d Analyse statistique des Donn es Textuelles
26. rochement ou la diff rentiation 3 4 4 Corr lations La m tafonctionnalit Corr lations tudie quant elle la force et l orientation du lien ventuel entre deux propri t s caract ris es par leurs valeurs au fil des occurrences La statistique propose pour cela des techniques classiques chi 2 r gression encore peu int gr es dans les logiciels de textom trie 9 2 A z es e Certaines s quences peuvent aussi quelquefois tre recherch es et identifi es laide de ressources dictionnairiques mots compos s locutions le calcul peut n anmoins tre mobilis pour trouver des s quences d autres natures 10 Comme pour les fonctionnalit s Extraits ou Concordance les voisinages peuvent tre d fini par fen trage d limiteur ou structure englobante ll Cela pourrait tenir la prise en compte relativement r cente des corpus tiquet s dotant les unit s de multiples propri t s JADT 2010 10 Journ es internationales d Analyse statistique des Donn es Textuelles 12 BENEDICTE PINCEMN ET AL 4 Conclusion Tradition et innovation En adoptant un point de vue utilisateur la typologie propos e ici apporte une structuration p dagogique et mn monique correspondant aux types de questionnements de l analyse textuelle caract risation d une unit ou d un texte affinit s entre les unit s et les parties du corpus voisinages des unit s etc Cette typologie renouvel
27. s pour l automatiser Vue courante Param tres g n raux exprimant un tat de repr sentation des donn es Fond D limitation du sous corpus tudi et d termination des unit s prises en compte dans les calculs et servant de r f rence aux calculs statistiques Structure Partition et regroupements actifs le cas ch ant parall lisme ventuel Localisations Constitution et forme de l indication pr cisant le positionnement d une occurrence Plan d analyse Syst me d unit s consid r segmentation et propri t d finissant les types Propri t s Propri t s utilis e s pour repr senter les unit s au niveau de l affichage d affichage du texte ou d un r sultat de calcul Focus Unit ou motif sur lequel se centre le traitement le cas ch ant LECTURE Acc s au texte traitements textom triques affichant des occurrences Texte Affichage du texte en rendant compte visuellement de sa structure logique avec possibilit s de navigation Vue interne Affichage de la repr sentation interne structures propri t s correspondant au texte ou un extrait Extraits Liste triable d extraits d finis par un crit re et localis s Concordance Liste triable des occurrences d un focus align es verticalement entour es de leur contexte sur une seule ligne et avec indication de leur localisation SYNTHESES Traitements textom triques affichant des
28. ssociations syntagmatiques ou paradigmatiques d unit s de textes ou de propri t s La typologie s tend en amont des calculs aux fonctionnalit s de mise en place de l environnement d interrogation et en aval aux fonctionnalit s de gestion et d aide l analyse des r sultats des calculs Cette typologie a t mise au point pour la conception d une nouvelle plateforme textom trique projet ANR 06 CORP 029 Elle peut galement tre utile pour pr senter un panorama des possibilit s d analyse textom trique ainsi que pour situer diff rents logiciels au plan fonctionnel Keywords textometry lexicometry textual statistics functionnalities software design textual analysis uses JADT 2010 10 Journ es internationales d Analyse statistique des Donn es Textuelles 2 BENEDICTE PINCEMN ET AL 1 Contexte et positionnement 1 1 Probl matique Quels traitements offre la textom trie pour l analyse textuelle d un corpus num ris Plusieurs situations peuvent conduire tablir un inventaire de fonctionnalit s e une pr sentation p dagogique g n rale de la textom trie dans un cours un article de synth se une th se ou un ouvrage de r f rence comme Lebart amp Salem 1994 e un expos des possibilit s de traitement offertes par un logiciel donn manuels utilisateur tels que ceux de Hyperbase Brunet 2006 Lexico 3 Fracchiolla amp al 2003 Le Trameur Fleury 2009 Weblex
29. sur le site du projet Textom trie http textometrie ens lsh fr rubrique Publications Cette partie de notre pr sentation est naturellement plus dynamique car il s agit de pouvoir suivre l volution des logiciels comme d tendre la description d autres logiciels que ceux consid r s initialement JADT 2010 10 Journ es internationales d Analyse statistique des Donn es Textuelles 6 BENEDICTE PINCEMN ET AL Structuration M ta Description br ve fonctionnalit s DONNEES Constitution de l environnement partir duquel lancer les calculs Initialisation Profil Param trage par d faut identification des traces Interfa age Importation cr ation et chargement d une base textuelle exportation de la base pour utilisation dans d autres logiciels Session Ouverture et fermeture d une base textuelle dans un tat m moris et avec une archive des traitements pr c dents Constructions D finition de nouveaux objets consultation et gestion d objets r utilisables Propri t s A partir des propri t s l mentaires disponibles construction de nouvelles propri t s descriptives par fusion de valeurs croisement etc S lections D signation d un ensemble d occurrences en compr hension moteur de recherche ou en extension par s lection sur une visualisation du corpus Sc narios Macro traitement int grant un encha nement de traitement
30. ured overview of textometric metafunctionalities Each of them adresses a type of textual research text reading and browsing through different views listing of units typically words with quantitative information looking at the positions of units in the corpus paradigmatic and syntagmatic linking of units texts or properties This functional typology covers the whole range of textometric processing from context and parameters initialization to results management and analysis This typology was elaborated in order to design a new textometric software project ANR 06 CORP 029 It may also be used to introduce to textometric functionalities or to characterize software R sum Chaque logiciel de textom trie donne acc s un certain nombre de calculs Mais en l tat actuel l inventaire synth tique des fonctionnalit s comme la comparaison des logiciels au plan fonctionnel ne sont pas possibles directement car malgr des parent s d approche les calculs sont rarement strictement identiques et l usage des noms d signant les fonctionnalit s n est pas uniforme Cette communication propose un recensement large et structur des fonctionnalit s de calcul textom triques en m tafonctionnalit s correspondant chacune un type de questionnement du corpus lecture du texte selon diff rents modes compl mentaires inventaires et d comptes d unit s typiquement de mots tude de la position d unit s dans le corpus a
31. urs propri t s de description par exemple pour un mot sa graphie son lemme sa cat gorie morphosyntaxique pour un texte son ann e de publication son auteur son genre Les valeurs de la propri t consid r e d finissent des types les unit s occurrences au fil du texte li es un m me type en sont alors autant d attestations Nous appellerons focus l objet unit suite d unit s pouvant tre d fini par un patron plus ou moins complexe sur lequel se centre la recherche ou le calcul le cas ch ant Nous appuyons explicitement cette tude sur les logiciels qui sont la fois i les plus repr sentatifs de la textom trie telle que d crite dans Lebart amp Salem 1994 et les plus diffus s dans la communaut scientifique D autres logiciels existent bien s r dans la m me famille et ont aussi t consid r s dans la r flexion comme Astartex Taltac DTM Vic Alceste Sato Xaira le Sphinx Lexica Dans le cadre du projet Textom trie D Mayaffre a coordonn l dition mise jour et augment e d un Tableau synth tique des fonctionnalit s des logiciels de textom trie 2007 Sur site Textopol la discussion Tableau r capitulatif des fonctionnalit s cite deux r alisations http tinyurl com LogicielsTextometrie Ph Gambette et http www cati parisd sorbonne fr centre activites colloques synoptiq_11mars0O5 htm F Deconinck JADT 2010 10 Journ es internationales d Analyse stat
32. xemple l accroissement du vocabulaire La mod lisation peut tre pseudo continue elle mobilise alors une discr tisation un d coupage en tranches sans identit propre au sens o dans le cadre de cette m tafonctionnalit on ne cherche pas caract riser ces tranches elles m mes 3 3 2 Distribution La m tafonctionnalit Distribution sert mettre en vidence les affinit s ou les vitements entre des unit s et des parties du corpus Pour chaque partie elle indique les unit s les plus saillantes et ventuellement celles qui sont sous repr sent es l aune du corpus plus exactement du fond choisi Pour le corpus elle rep re les formes de base savoir celles qui sont banales dans toutes les parties Et pour un focus elle value le caract re normal ou remarquable de la fr quence du focus dans les diff rentes parties du corpus La m tafonctionnalit Distribution s appuie sur une mesure de la distribution des fr quences dans un corpus partitionn Certaines mesures sont plus intuitives fr quence fr quence relative D autres visent une plus grande fiabilit en reposant sur une mod lisation statistique cart r duit et surtout sp cificit s Lebart amp Salem 1994 3 3 3 Evolution Par opposition la m tafonctionnalit D roulement on consid re que le corpus se repr sente comme une succession de p riodes individualisables a priori dot es d une consistance propre La m tafon
Download Pdf Manuals
Related Search
Related Contents
HP ElitePad 900 desherbant total systemique non selectif des espaces verts AP 12LB USA デントプーラー 取扱説明書 Zebra T40 Walkie Talkie Ektron CMS400.NET User Manual - Ektron Product Documentation 取扱説明書 - Össur MF SERIES - Hoffer Flow Controls, Inc Cisco Systems AE1000 User's Manual Philips SPA1305 Copyright © All rights reserved.
Failed to retrieve file