Home

Explorations textométriques Volume 1

image

Contents

1. Dior CaptureTotale KA SSME SHARE Szen R SA SKA RES SRE BARE BA E SEU AM 5
2. Comment cerner les sentiments suscit s dans les diff rentes couches de l opinion publique chinoise par un v nement m diatique dont la r percussion a t plan taire compte tenu des moyens modernes de circulation de l information S agissant d un pays aussi tendu et aussi diversifi que la Chine la question peut paraitre naive voire d nu e de sens Le titre quelque peu provocateur que nous avons donn cette tude souligne en fait le caract re chim rique d une telle entreprise con ue comme une tentative d exploration exhaustive aboutissant des conclusions nettes et clairement formul es Cependant par del la multiplicit et la diversit des r actions individuelles susceptibles d tre observ es au sein d un peuple qui compte plus d un milliard d habitants dont les 31 i ko Far H r H D Les auteurs remercient Jean Maxence Granier de la soci t Think Out pour ses pr cieuses suggestions et ses encouragements dans la r alisation de cette tude 63 Explorations textom trigues langues les coutumes sont extr mement vari e
3. nn ooo DOOOOOOOO oonanonnoicdi ODO q00000000 0000000001 08800101 0000000 000000d00 DDOOO
4. ODOOOOOOOO D0000000n0 0MOOCOO0OCO0O0O0O0MOOQOOQMOOO 0000008000 00008888N DDODOOOOOOOEODDODOODOO 0000000000 o0000000 00000000 DIDIDIDIDISEEIEIEIEI 00000000 0000080090 0808000000 don ooo Dona UU ONE OoOOOO OO 0n0nono anon 0000000080 BOCOOBOOOC 0080080800 0800000000 0080080070 0008000008 eo 00001000 0000000 0000078 000888007078 0000800 Oooo 00801188 080098000788 0000808000 0000000009 Don 0000000 0000 088000008888
5. ER lt p P12 gt Les excuses de Sharon refus es par les internautes chinois Les m dias trangers la qualifient d imb cile lt ANNEE 2008 gt lt MOIS 2008 5 gt lt JOUR 2008 5 29 gt 4 35 Selon les reportages du Journal des jeunes de Shangha Mes propos d plac s ont bless le peuple chinois et ont suscit sa col re Je m en excuse profond ment reproduit 2 3 fois dans diff rents articles On peut voir au tableau 4 une intervention due un internaute qui manifeste son indignation en reproduisant un grand nombre de fois la m me s quence d injures Sharon Stone tu es une esp ce de chienne cr ve Comme on le comprend ais ment ce type de r p tition est facilit par les possibilit s technologiques de l criture lectronique l internaute a visiblement construit son message l aide du copier coller r p t plusieurs fois qui rend ces r p titions incomparablement plus faciles produire que lors d un nonc vocal par exemple Tableau 4 Exemple de r p tition r alis e sur un forum de discussion base de copier coller lt ANNEE 2008 gt lt MOIS 2008 05 JOUR 2008 05 28 222 12 17 ARTE x E Ko ZE UU
6. AE BIR BR te L CARE S Figure 3 Volet Blogs du corpus StoneKarma Les propos de l actrice reproduits sur le blog de HU Jianll 70 Explorations textom friques am ww DES Gm SLB ner ase Duy bo m ER gt 6 16069 12181 SERY EIDE IR DERTIL TAS EE UBHBH Ed 2008 05 27 03 10 05 HE gt gt ES AIRE ip 58 49 FA SEI SET JAN SO ETJE ip 288 143 x TBI BBC GE E SE AR T BIRT AL 1 11 ESSERE ip B80 214 2008 05 27 03 45 08 Fi hsec epe cro 89 x x ARAE Jabel DIS It EE EHE GR SR Po T RISI ATA 16 34 41 PI BR HIR PCR 1
7. DOOOOOOOOO OOOOOOOOOO OOOOOOODOOO UI OOODOOOOOOO OOOOOOODDDD DOOOOOOOOO OOOOOOOOOO UUCHT OOOOOOOODOO EIEJEIETEIETEIETETE EPIEIEIEIETEIETEIETE DOOOOOOOOO OOOOOOOOOO UCI OICHT EIEJPIETEIETEIETETE goggas 0010 UU LIBI 0000 BOBOOOOOC OOOOOOOOOO PEIEIETJEIETETEIETE EIEIPIETEIETEIETETE PIEIEIEIEJEIEIETEIE UW UR UR X EPIEIETEIETEIETEIETISE EIETEIETEIETETEIETE BISISRISISISISIRISISISIRISISIR IRISISISISISISISIRISISISIRISISISIRISISISISIRISISISISISISISISIRISIN DOOOOOOOOO UO UDO TET EIETETEIETETE UU ETETETETE TE TETE TE TE I LILIEDIEIEILIEIEIEIE DIEIEIEIEIETEIEIEIETI EIETEIETIEIEIETEIETE DOUDOU
8. 22 5 27 21 31 45 ip 218 64 K Lig MA wang13386190 2008 05 2721 46 50 WA oB ZH TE ME Contextes de di zhi boycott dans la partie BLOGS tri apr s DIOR E BE Y Sa K DIOR U MX B5 MI Gg EW DH N 5 pe RARE ME d MM Xe E AE S RA K
9. KO AR E K Figure 6 Extraits de la concordance de la forme di zhi boycott dans chacune des trois parties du corpus StoneKarma 82 Explorations textom trigues On voit sur l inventaire distributionnel r alis apr s la forme boycott boycotter que l objet de l action de boycott envisag e est prioritairement la France ou les produits fran ais 415 occurrences Les USA n apparaissent qu occasionnellement dans ce contexte La personne de Sharon Stone elle m me n est vis e que secondairement Cooccurrences La recherche des cooccurrences 1 e formes de vocabulaire apparaissant plus souvent qu un mod le de r partition homog ne ne le laisserait supposer l int rieur des seuls textes produits sur les forums permet de pr ciser encore l objet du boycott pr n par les intervenants sur les forums Parmi les segments les plus longs et les plus r p t s dans le volet forum du corpus on rep re ais ment des s quences en forme de mot d ordre qui permettent de mieux cerner la nature de la col re exprim e par les internautes Forme Equivalent fran ais Tot Fr q boycotter fermement 379 379
10. 0000001000 01 03 sept2001 o0000009800 0888808998088 8 0000800001 D DDO 0008000098 000008080601 mos tt d octobre2001 00000000 0008010018010
11. Ah DAS HEA RANE en Eh ato hire ABER DIS E 766 KD HAJER EFAA ip 221 218 4 41 2008 05 27 03 28 01 3k tE his os E PES RET EI iso REI RERE ip 125 934 4 2008 05 27 03 49 25 fr TRAE se Else Eil GEES EIERE HERE AE 2008 05 27 03 49 31 RS DIOR 537 EHe Traduction de la derni re intervention IP 59 61 Dior si tu ne changes pas de repr sentante quitte la Chine 1 Figure 4 Volet Forum du corpus StoneKarma Exemples de discussion sur le forum NetEase Explorations textom triques Guide de lecture pour les figures 3a 5 Principaux composants du site de l agence Sina e d GJ de 9 re Nom du site Internet Sina Titre de l article D claration de Dior Chine Hyperlien de la Vid o de l interview de Sharon Stone Le corps de la d claration de Dior se d solidarisant de l actrice Datation et signature de Dior Chine Proposition du th me de la discussion Nombre de r actions 1847 fois ce jour Principaux composants du blog de HU J ianli 10 11 12 13
12. La pr sence de plusieurs d ictiques dans ces listes nous am ne faire les remarques suivantes les d ictiques temporels apr s matin sont sp cifiques des tours de parole que le demandeur d information adresse la machine 133 Explorations textom trigues les d ictiques personnels caract risent les tours de parole adress s l op ratrice humaine moi mon on ce qui indique que le correspondant en situation de demande d information se met davantage au premier plan avec un interlocuteur humain les d ictiques de lieu produits par le correspondant ont des sp cificit s diff rentes selon la situation d interaction des noms propres paris brussel sont adress s la machine alors que les noms communs ou adverbes l tgv sont sp cifiques des tours de parole destin s l op ratrice humaine Les modes verbaux sp cifiques des tours de parole adress s la machine sont exclusivement au conditionnel aimerais voudrais alors que ceux destin s l op ratrice sont au mode indicatif peut vais Les marques de l accord simple telles que oui ou ouais ne sont pas sp cifiques des tours de parole adress s la machine Les fournisseurs d information La machine et l op ratrice partagent le r le discursif de fournisseur d information Les 30 formes les plus sp cifiques de leurs tours de parole sont pr sent es en tableau 8
13. DOODOOO SISIel 18011888 0800009000 0008000000 QE Uno 2001 Ooo OOOOBOOOOC OOMOOOMOOC noi 0008009000 0080080000 0800000000 0088080000 350 Oooo 88 nn 81 Section ce redoutable effet boomerang comme le qualifie le sociologue dominique montjardet avait t
14. D RD0rRecitduSerpent D 08NaufetSerpent WT TBI O09DiscDuSerpent2 150 D Retour bD llEpilogue Figure 0 Ventilation des occurrences des segments r p t s longs trouvant dans les fragments 2 et 5 du volet hi roglyphique du corpus Naufrag E hE vers la mer a bord d un navire Be ko je de 120 coud es de long et 40 coud es de plin Ti large 120 marins s y trouvaient ho dul de l lite de l gypte Qu ils scrutassent Ge A i di le ciel qu ils observassent la terre plus brave FL ez bi he tait leur coeur que celui des lions 5 154 Explorations textom trigues PN a du Souverain sur un navire de in DN dal on NS 120 coud es de long et 40 coud es de large N NA 120 marins se trouvaient a bord DER Ne de l lite de l gypte PAN ESS Qu ils scrutassent le ciel qu ils observassent la terre rt Bet AE plus brave tait leur coeur que celui des lions 5 Figure 7 Deux passages du corpus Naufrag rapproch s sur la base de leur utilisation de segments r p t s communs La comparaison syst matique entre les r sultats fournis par la m me m thode sur les deux
15. DODODOODODODODOODOODOODODOODOODODDOD 450 III EIEIEIEIEIEIEILIEIEI TTT DIEIEIEIEIEIEIEIEIEd EIEIEJEIEIEIEIEIEIE 500 X DDDDODDOD 550 LIEILIEIJEIEIEIEIEIE EIEIEIJEIEIEIEIEIEIEI dd nd dd di nn nn qin nin ion indi OTT 600 LIEILIEIEILIEIEILIEI OOOBOOOOOC EJEJEIETETJEIETETEIE 07 0701 0701 071 01 0101 071801 EIEIEJEIEIEI EIEIE E 650 DDODODOODOODO 700 LIEIEIEIEIJIEIBSIEIJEIE LILIEIETIEIEIEIEIEIES EJIEJEIEIEIJEIEIEIJEIE DOC 010000000001 750 dona ann nn dona ann OOOO DOODODODO 500 sso 300 070107 8 01071 01 0101 DIEIEIEJETIEIEJEIETE CITT 35
16. DAS S RS hairychest23 HE W MON t RA XM MA willshine Sh gi w EX 18 KARA Birger Ber AED BOES HF Sr Va ESL Fr Traduction Sharon Stone a mis en relation le tremblement de terre avec un mauvais Karma Ceci a d clench de nombreuses critiques 21 mai 2008 19 52 40 Source Beijing Morning News Le festival de Cannes a pris fin hier matin dans le calme Quelques jours avant l actrice am ricaine Sharon Stone avait fait des d clarations brutales dans une interview Ceci a d clench de multiples critiques La marque de luxe Dior dont elle est la repr sentante a d clar hier que la soci t Dior se d solidarisait des propos tenus par Sharon Stone et qu elle envisageait de donner une suite s rieuse cet incident Dior fera une d claration publique ult rieurement Le 22 mai Cannes Sharon Stone a particip un gala de charit pour la lutte contre le sida Sur le tapis rouge elle a t interview e par un journaliste propos du tremblement de terre Sichuan Tout d abord Sharon Stone a d clar qu elle n aime pas trop la Chine le tremblement de terre tait int r
17. DB K FF WE Z amp 2008 UME pn UME NL Contextes de di zhi boycott dans la partie FORUM tri apr s K DIOR REA DIOR LS DIOR AA GR Fae 2716 21 11 AX ml EX SB fe Wa MX ip 58 37 SBST H sBsT K BJ fEf U AR SBST 190 BJ Jt SBST AR SBST t K 2008 05 27 17 24 3 SBST ip
18. Bx ER boycotter les cosm tiques de Dior France 413 413 AE lunissons nous pour faire conna tre la orce du peuple chinois S17 ee 5 Conclusion La d tection ou la fouille d opinions est un domaine de recherche en plein essor Ils peuvent se r v ler cruciales pour les entreprises et trouve de tr s nombreux domaines d applications veille technologique marketing concurentielle tudes politiques et soci tales La mise en relation des opinions et sentiments exprim s avec les th mes sur lesquels ces opinions et sentiments portent est encore un domaine en cours d exploration dont les enjeux concernent la transformation des informations extraites des textes en informations structur es en connaissances synth tis es et exploitables A partir d une vive pol mique d clanch e dans l opinion publique chinoise par les propos d une actrice am ricaine nous nous sommes int r ss s la partie du d bat accessible sur le r seau internet Utilisant les deux grands moteurs de recherche Google et Baidu nous r f rencer via un certain nombre de mots cl s les textes les plus consult s par les internautes et relatifs ce d bat Dans un second temps nous avons s lectionn pour trois types de supports m diatiques identifi s presse blogs forums des chantillons de texte qui nous ont permis de constituer un corpus d tude Ce ty
19. l chelle de la phrase ou d un paragraphe Tableau 9 dans des s quences qui font intervenir des classes de locuteurs diff rentes journalistes hommes politiques chercheurs repr sentants de la soci t civile citoyens Une analyse plus approfondie sur corpus restreint montre que le mot va fonctionner comme une d nomination consensuelle de d linquance quels que soient les locuteurs Tableau 9 Echantillon de s quences contenant les formes ins curit et d linquance Extrait du corpus Monde Ins curit S adjoint charg de la s curit la pr vention de la d linquance et la protection de l enfance en danger florent montillot quarante sept ans tient sa premi re victoire dans sa croisade contre l ins curit S le ch mage n a jamais autant d cru et jamais la d linquance n a autant progress martele florent montillot qui affirme vouloir affronter l ins curit sans cache sexe sans tats d me et en m me temps sans dogmatisme S la hausse sensible de la d linquance met l ins curit au coeur du d bat politique S au contraire elles ont en confirmant une tendance la hausse de la d linquance commenc e en 2000 offert une assise officielle aux discours alarmistes sur la mont e de l ins curit S de ce creuset tait n e la police de proximit formule cens e r pondre la fois aux nouvelles formes de d linquance de mani re plus efficace et Exp
20. S d AN ER ER S4 8 B 7 mb BE OS E K DH EX HERA S ZA HW Ks Sha GM B Dior K WB SHME 8 mb 3 o8 FA S R d i KR PH Dior SA ZB PA N E H SA RUA fn S L t A S OL 8 t BOX DUK DM B M BO EX DE N 5 22 2 BA Bm Ww EX AN SERA sie XO Si E X BR UE K 5 ME HE 1600
21. St Pour davantage de pr cisions consulter par exemple Lebart et Salem 1994 8 On renvoie en particulier Sacks et al 1974 pour davantage de pr cisions sur le domaine de l analyse conversationnelle Pour une pr sentation d taill e des unit s minimales de l infrastructure conversationnelle voir par exemple Portes et Bertrand 2005 55 Les changes sign s exprim s en langue des signes sont inclus dans les conversations De plus avec l mergence des nouvelles technologies de communication m diatis e par ordinateur CMO il est aujourd hui admis que certains changes crits SMS messagerie instantan e par exemple appartiennent au paradigme conversationnel 120 Explorations textom trigues conversation Chaque s quence est constitu e de tours de parole un tour de parole correspondant au temps durant lequel l un des interactants garde la parole Les tours de parole peuvent entrer en relation de pertinence conditionnelle pour former une paire adjacente Une s quence d ouverture peut par exemple tre compos e de la paire suivante Ol Interactant A sncf bonjour C1 Interactant B all bonjour madame est c que je pourrais pourrais savoir e le prix d un billet e paris rouen s il vous pla t SITUATION INTERACTION CONVERSATION TOJA DE PAROLE Aj TOUR DE PAROLE Hj T SEQUENCE 2 TOUR DE PAHOLE iA TOUA DE PAROLE Di TOUR DE PAROLE iA TOUA DE PAROLE E F
22. 1 million de visiteurs dans cette p riode Nom de l auteur du blog De haut en bas 1 Notation du blog num ro 1 fr quentation globale 2 Notation du blog num ro 2 mise disposition et r actions 3 Nombre de visites 1 067 602 dans la p riode Vid o de l interview de Sharon Stone Retranscription des propos incrimin s D claration de Dior se d solidarisant de l actrice Commentaires de l auteur du blog Principaux composants du forum du site de Netease 14 15 16 17 18 19 20 Nom du forum du site Netease www 163 com Th me de la discussion Les propos de ST sur le s isme Sichuan provoquent des appels sanctions Avec des extraits vid os Nombre de r ponses 16 069 Num ro IP de l internaute partiel ne permettant pas de l identifier totalement signalant cependant que le site est capable de localiser l metteur Nombre de ceux qui ont vot pour cette proposition ici 1048 pour Nombre de ceux qui ont vot contre cette proposition ici 147 contre Citation de propos d un internaute s tant exprim pr c demment reprise dans la r action d un internaute suivant Cette note de popularit est attribu e aux blogs individuels par le gestionnaire du site Sina en fonction du nombre de visites re ues par chacun d eux 72 Explorations textom trigues 2 3 Les forums Un forum en ligne est un site d changes entre internautes se situant au m me niveau du poi
23. tabli il y a environ 4 000 ans Il n est pas possible d estimer avec pr cision la date de la cr ation du r cit lui m me Bien avant sa fixation sous forme crite ce texte z pu circuler sous forme d un r cit po tique transmis oralement sans alt ration majeure de g n rations en g n rations pendant une tr s longue p riode Le texte peut avoir t traduit ou fortement inspir par un texte pr existant transmis oralement ou fix sur un document r dig dans une autre langue L histoire Pour rassurer un jeune sup rieur inquiet d avoir rencontrer prochainement son suzerain un vieux serviteur lui raconte qu embarqu sur un navire il a t victime d un naufrage qui l a fait chouer sur une le habit e par un serpent g ant Sa frayeur dissip e ila racont son histoire au serpent Puis le naufrag a cout l histoire du serpent lui m me victime de malheurs qui ont abouti la destruction de sa propre famille lors d une p riode pr c dente A l issue de cette rencontre le serpent a couvert le naufrag de pr sents et lui a pr dit qu il vivrait heureux parmi les siens Le jeune sup rieur coute avec attention ce r cit qui ne dissipe cependant pas ses propres craintes La critique Plusieurs critiques modernes ont soulign la composition originale de ce r cit Plusieurs conteurs y ench ssent tour de r le des r cits personnels ainsi que des commentaires sur les faits qu ils relatent On note des sym t
24. P re Duchesne n 260 exemple du genre facture classique S marat n est plus foutre peuple g mis pleure ton meilleur ami il meurt martyr de la libert c est le calvados qui a vomi le monstre sous les coups duquel il vient de p rir une jeune fille ou plut t une furie arm e par les pr tres et p nitente dit on du cafard fauchet part de caen pour ex cuter cet horrible attentat P re Duchesne n 262 exemple du genre parade S voil donc tes projets inf me coquin avais je tort quand je foutais mes fourneaux sens dessus dessous quand je brisais ma pipe toutes les fois que l on m annongait qu un noble avait t nomm quelque place importante tu ne savais pas en d filant ton chapelet archi traitre que tu parlais au p re duchesne moi mes gens moi mes aides de camp C est cette alternance dans le style d criture qui explique pour l essentiel l opposition constat e sur le premier axe de l AFC Cette opposition int ressera sans doute la fois les sp cialistes de stylistique et les historiens qui tudient de pr s la rh torique du Pere Duchesne cependant nos pr occupations plus centr es sur l volution du vocabulaire dans cette p riode nous ont entrain s nous int resser des partitions regroupant plusieurs num ros cons cutifs De tels regroupements permettent de neutraliser les diff rences stylistiques opposant les livraisons que nous venons d entrevoir et d o
25. 1 les fran ais sont pr occup s par l ins curit 2 les m dias veulent plaire aux fran ais 3 donc l ins curit s accroit mais la t l vision n en est pas responsable etienne mougeotte peut penser ce qu il veut et ventuellement prendre ses t l spectateurs pour des imb ciles je ne regarde pas tfl mais les infos de france 2 et france 3 sont de ce m me point de vue caricaturales avant le premier tour de l lection pr sidentielle nous y entendions chaque jour le th me de l ins curit abord sous divers aspects chaque journal le th me de l ins curit tait nonc en titre abord et d velopp avec des informations sur les banlieues les voitures br l es le proc s de patrick dils les suites de la tuerie de nanterre l agression du papy d orl ans etc pas un journal sans que le mot ins curit soit prononc et r p t plusieurs fois depuis le 21 avril un calme trange est apparu comme si les banlieues s taient soudain apais es et que les voyous avaient disparu on n entend plus parler d ins curit dans les journaux t l vis s gt 2 21 r D r e 7 ee e La ventilation des fr quences de la forme ins curit sur cette partition chronologique va mettre jour un ph nom ne de densification qu il va s agir de d crire pr cis ment 2 Une densification des emplois de la forme ins curit Les fr quences absolues de la forme La Figure 1 projette
26. 49 Explorations textom trigues Tableau 8 Extrait des sp cificit s relatives des s quences contenant la forme ins curit Formes Fr quence totale Fr quence Coeff sentiment 370 181 TUUM th me 207 108 Tem lutte 305 120 dioi ch mage 333 88 29 immigration 294 80 28 mont e 162 56 26 r occupation 70 37 25 d linquance 567 111 24 d ferlante 18 16 18 campagne 964 141 18 d bat 389 74 16 Une lecture de moment de corpus montre d une part que se croisent dans les articles des discours politiques concurrents qui vont charger le mot ins curit d accents diff rents d autre part que Journalistes et politiques voquent surtout l ins curit travers la question de la d linquance en France Mais jusque la nous ne pouvons parler de ph nom ne discursif qui prend en compte la mat rialit linguistique Pour tudier la relation entre les deux formes nous avons constitu un sous corpus en prenant en consid ration les moments de suremploi de la forme voir Figure 12 Une analyse plus fine sur ce corpus restreint articulant des cat gories descriptives telles que la reprise ou la reformulation la notion d objet de discours telle qu elle a t th oris e par S Moirand et F Sitri r v le un jeu de reprises entre segments discursifs contenant les termes ins curit et d linquance et un paradigme de termes en relation m tonymique avec d linquance vol s agression s
27. Zipf 1936 on sait au contraire que dans la plupart des corpus de textes crits en langue naturelle la propri t de n apparaitre qu une seule fois dans un corpus est partag e par un tr s grand nombre de formes du texte 151 Explorations textom trigues Courbe d accroissement du vocabulaire et courbe d accroissement du nombre des hapax calcul es pour le volet hi roglyphique du corpus Naufrag Guide de lecture pour la figure 5 e Le nombre des occurrences du texte se d veloppe le long de l axe horizontal entre le d but et la fin du texte pour lequel la courbe a t tablie La Courbe d accroissement du vocabulaire en rouge dans la partie sup rieure du graphique s accro t d une unit chaque fois que l on rencontre une forme qui n a pas encore t rencontr e pr c demment C est une courbe croissante qui varie de 0 au d but du texte NbForm nombre de formes diff rentes du texte valeur atteinte lorsque le texte a t enti rement parcouru La Courbe d accroissement du nombre des hapax en bleu dans la partie inf rieure du graphique r sulte d un calcul similaire pour lequel ne sont prises en compte que les formes hapax du texte consid r i e les formes qui ne poss dent qu une seule occurrence dans l ensemble du corpus Cette seconde courbe varie de 0 NbHap nombre total des hapax du texte Dans le cas du d pouillement en signes hi roglyphiques que nous avons adopt pour
28. la cl Sadult 1 001 distingue les locuteurs adulte adult enfant child le num ro du dialogue 1 2 3 et les nonc s 001 101 Explorations textom trigues 3 pourquoi parce que Le centre d int r t des recherches men es par Lentin et ses collaborateurs concerne le d veloppement de la syntaxe comme facteur de structuration et d volution du langage de l enfant et l influence des interactions langagi res entre un adulte et un enfant sur ce d veloppement Lorsque l enfant s approprie le langage 1l s approprie entre autres choses l organisation des l ments La syntaxe contribue l organisation s mantique du discours puisque les mots prennent sens dans leur contexte nonciatif et syntaxique L observation porte donc sur les cheminements individuels de mise en fonctionnement du langage Une liste d Introducteurs de complexit IC a t tablie partir des occurrences de formes et de constructions syntaxiques relev es dans des corpus d enfants de 3 7 ans A partir de cette liste Lentin a recherch pour chaque corpus le ou les nonc s de l enfant qui pr sentaient le maximum d introducteurs de complexit syntaxique selon les crit res adopt s la complexit maxima ce param tre permet de comparer les apprenants entre eux et surtout chaque apprenant lui m me dans une observation diachronique Lentin 1998 31 C est partir de ces observables que l on peut me
29. mais tes escroqueries d alors les bourses lt Epg 4 gt que tu coupais dans 1 ancien r gime n t que des coups d essai des brigandages que tu as fait pendant la a L Guide de lecture pour la figure 4 Chacun des carr s de la s quence du haut repr sente un des paragraphes du texte original La num rotation de la colonne de droite permet de calculer le num ro de chaque paragraphe La forme proie a t tra n e sur la carte des sections provoquant le coloriage des sections ou elle est attest e Le texte du paragraphe 295 s lectionn par l utilisateur est affich en bas de la figure Les occurrences de la forme s lectionn e y sont mises en vidence Figure 4 Localisation des occurrences de la forme proie sur une carte des sections du corpus Duchn Lexico3 Carte des sections v S lectionner l ic ne Carte des sections 5 me ic ne partir de la gauche Choisir un d limiteur de section qui servira construire la carte Faire glisser une forme sur la carte partir d une liste ex proie Choisir ventuellement un regroupement par parties si une partition a t s lectionn e v v v Intermede utilisation de la partition en pages La cl lt Epg x gt ou x prend les valeurs 1 2 3 8 permet de rep rer les changements de page l int rieur de chaque num ro Comme c est le cas pour chaque type de cl il est possible d utiliser la fonctionnalit Partition de Lexico3 p
30. sa longueur La surabondance de formes de fr quence 1 dans un fragment particulier constitue un souvent le signe que le fragment est le lieu de descriptions et d num rations de termes qui ne seront plus employ s par la suite A l inverse l absence relative de ces formes est souvent le signe que le fragment contient des r p titions de segments de textes dupliqu s dans le corpus Nombre de fam s dih renies EA uh 1 400 1 BO 1800 2 DOO Position dans la texte nombre d eccumences Figure 5 TT Dans la longue tradition des tudes critiques propos des textes le concept d hapax legomena chose dite une fois a t labor pour signaler la propri t attach e une unit textuelle de constituer un exemple unique d utilisation dans un corpus donn Dans la pratique les copistes et les commentateurs ont souvent not cette propri t jug e exceptionnelle propos d unit s textuelles remarquables du point de vue de leur forme D s le d but des tudes quantitatives appliqu es aux textes et avant que les d pouillements textom triques ne soient syst matiquement confi s des ordinateurs les textom triciens ont not que le ph nom ne de l hapaxie loin de constituer une propri t exceptionnelle pour certaines formes rares constituait au contraire un ph nom ne massif pour tout texte crit dans une langue naturelle Depuis la description de la structure quantitative du vocabulaire op r e par G K Zipf cf
31. BISISISIRSISISISISISISISISISISIRISISISISISISISISISISIRISISISISISIR 5r LIEJEIEIEIEIEIETEIETEIET 100 DOUT DOUD gogrog OO DOD 150 UU DDT Ab s lection des versets du volet hi roglyphique correspondant des versets du volet fran ais contenant la forme ile Figure 4 Extraction de termes en rapport de traduction partir d un bitexte On commence par rep rer les sections du volet fran ais dans lesquelles apparait le terme e Pour chacune de ces sections on peut localiser dans le volet hi roglyphique une section correspondante laquelle est susceptible de contenir un terme en rapport de traduction avec cette forme lexicale Le calcul des sp cificit s formes surrepr sent es dans la zone du volet hi roglyphique ainsi mise en vidence nous indique que la s quence de signes 1w N23 Z 1 apparait 11 fois dans le corpus L diteur du site Rosette nous fournit la forme hi roglyphique originale de cette translitt ration et nous informe que ce signe complexe se traduit bien en fran ais par le nom commun ile Le site Projet Rosette offre un diteur en ligne qui traduit sous forme hi roglyphique les s quences de signes translitt r s qui lui sont
32. COMMUNICATION 238 lt TdP MC1284 gt sncf bonjour noncez votre demande s il vous pla t TdP CM0944 voil je voudrais savoir pour aujourd hui samedi quels sont les trains qui vont bonni re sur seine dans l apr s midi TdP MC1285 vers quelle heure pr cise d sirez vous partir TdP CM0945 entre trois heures et demi entre trois heures et e et six heures lt TdP MC1286 gt ne quittez pas 3 Analyses quantitatives sur le corpus Interactions Pour mettre en vidence les l ments de typologie globale du corpus on s appuie sur le d coupage du corpus en contenants les tours de parole dont on rend transparente la trajectoire locuteur courant gt interlocuteur La proc dure de d coupage appliqu e permet de distinguer quatre types de contenants ceux adress s par le correspondant humain C la machine M ceux adress s par le correspondant humain C l op ratrice O ceux adress s par la machine M au correspondant humain C ceux adress s par l op ratrice O au correspondant humain C Le typage des tours de parole permet donc de caract riser chacune des situations d interaction du corpus selon qu elles impliquent deux humains ou un humain dialoguant avec une machine les parties MC et CM caract risent le premier type les parties OC et CO le second 7l Traiter int gralement un grand corpus tel que celui ci pour en purger les phatiques mobiliserait une quipe de plusie
33. Cette analyse nous a amen e aujourd hui un red coupage du corpus en paragraphes afin de v rifier de mani re plus syst matique sur l ensemble des articles la proximit des formes ins curit et d linquance Tableau 10 d une part de cr er de nouveaux types rassemblant ce paradigme de terme associ au terme d linquance d autre part Tableau 11 Tableau 10 Cooccurrence de la forme ins curit et de la forme d linquance dans les paragraphes du corpus Monde Ins curit Partition SP E ae B EBI seuilage E L A CET NE TION mois T 98 ins curit d linquance Sp cifs fii T HI Met ZO 0008008078 0180080088 0080098080 0008008880 50 DDODODOOO E ES EE NE Oooo ssao00 0707 0080010909000 eme 3 02 ao t2001 080180 0000 nn E 0088080000
34. EL m t 26 n t tyw E XE eU e s D35 Zz p Partie 03IleDuKa Nombre de contextes 1 H n a A p d w zA 22 D35 s qe SE l JS inas t m Partie O4LeSerpent Nombre de contextes 6 V12 Y1 EN wp Y S zo SE 1 amp ow wp A gu ES e vL s D LEE wer n ME E eu tw zp Zl EL n D 23 E wr Al 2 GTX if qos boc ALA x SMS AL X cow NDS PD Z ins X ee AL 34 en AL D es Hr ee EL SS t 21 SAT m b b A H D53 Xl e f L e aHa n Al n m a inii n t W EB ZI Z1 Le Di Z wr Al fun N36 e mn FES y kal Al S y m n U19 nw W S 1 mw aHa Partie 05RecitNaufAuSerp Nombre de contextes 9 cp e i SAL eo x XA A m DL d ea Do DA o SH DES fol S D i d p p w t D54 i SAq t SHQ GI m d D FE Pl mn ft l ME Yi Vl mD mD me SX Sow d iab Y1 s s SA SARO AL VL V20 V20 i m s Od ee cb X p w U21 Y1 n eng Hb L niwt mA ir N23 Z1 m a V3IA A A24 ID XL Bec RE E Le PMR S s N36 tp Zl m Z1 D61 D54 A NS FILS E s A t eA e 92 bi LI r 7 D r r Rappelons que l identit que nous avons recherch e porte sur la s quence des signes l mentaires qui constituent la s quence hi roglyphique En l occurrence les deux versions de la s quence rep r e pr sentent quelques carts minimes qui peuvent concerner la disposition des signes sur la ligne 5 Sur la m
35. Les contextes pr lev s sur des forums r sultent au contraire de l expression directe d un appel au boycott dont la cible peut varier de la part des citoyens chinois A DIOR REA DIOR Unissons nous pour boycotter DIOR s il ne change pas de repr sentant DIOR HA C est du m pris pour la vie humaine nous devons boycotter DIOR Elle doit le payer AE SBST E Boycott de tous les films et les produits de cette conne de Sharon Stone L inventaire distributionnel r alis apr s la m me forme permet de hi rarchiser les entit s que les internautes proposent de soumettre a un boycott Inventaire distributionnel 1 K RE X Equivalent fran ais boycott boycott boycott boycott boycott boycott boycott boycott boycott boycott boycott boycott boycott boycott Tableau 5 Extrait de l inventaire distributionnel apr s la forme di zhi boycott France et USA Lol ce qu elle
36. Principales caract ristiques lexicom triques 867561 37456 44194 15230 ombre d occurrences de la forme ins curit 1705 Tableau 2 Extrait d un article paru apr s le second tour des lections pr sidentielles 5 mai 2002 Extrait du corpus Monde Ins curit mois 11 mai2002 Par s rie textuelle chronologique on entend l chantillonnage au cours du temps d une m me source textuelle sur une p riode plus ou moins longue Lebart et Salem 1994 217 Voir galement les r centes analyses de corpus de veille de S Fleury http www cavi univ paris3 fr ilpga ilpga sfleury veille htm Explorations textom triques 36 lt rubl supplementtelevision gt lt date 020511 gt o est pass e l ins curit 2 la question de l ins curit et de son traitement la t l vision avant les lections pr sidentielles n a pas fini de faire parler d elle etienne mougeotte interrog par le monde t l vision dat 4 mai se plaint d tre un bouc missaire je cite si tfl comme tous les grands m dias a longuement trait de l ins curit c est simplement que nous nous effor ons d tre l coute de nos concitoyens et de r pondre leurs attentes ce n est pas la t l vision qui g n re l ins curit c est la mont e de l ins curit qui justifie que la t l vision en parle il est probable que certains entendront ce curieux syllogisme de la fa on suivante
37. chacune des translitt rations obtenues comme des ressources quivalentes au texte original Comme on le con oit ais ment cette propri t est rarement associ e aux traductions effectu es d une langue une autre Les traductions ne suffisent pas dans le cas g n ral reconstituer de mani re univoque le texte original 2 5 Segmentation en mots Comme nous l avons signal plus haut la tradition d criture hi roglyphique ne s pare pas syst matiquement par des blancs les diff rents mots qu un lecteur gyptologue peut identifier dans le texte Pour venir bout de cette t che 1l est possible de s appuyer sur le rep rage de certains signes ex les d terminatifs qui apparaissent prioritairement en fin de mot Cependant les sp cialistes s accordent sur le fait qu une solide connaissance de la langue est n cessaire pour d couper un texte hi roglyphique en mots 2 6 Ressources hi roglyphiques en ligne Un certain nombre de translitt rations et tout particuli rement celles qui permettent de redessiner les signes hi roglyphiques originaux partir des translitt rations de type Gardiner peuvent tre confi es des proc dures informatiques L utilisation de telles proc dures permet du m me coup de v rifier le bon encodage du texte translitt r et de garantir l homog n it de la translitt ration elle m me Plusieurs sites web proposent des proc dures capables d effectuer automatiquement cette op
38. de est le verbe d cider Et les deux seuls verbes infinitifs nonc s dans la m me construction sont prendre ou emmener Avec la pr position pour c est la construction prendre la forme pour apprendre qui est la plus utilis e 110 Explorations textom trigues Tableau 19 R partition des pr positions dans les corpus Julien LC et Mathilde LC Parties ge Total pour TT EC EC jul adult jul child ju2 adult ju2 child ju3 adult ju3 child mal adult mal child ma2 adult ma2 child ma3 adult ma3 child Dans le corpus de Julien la construction 4 VInf repr sente les deux tiers des constructions Prep Vinf Dans chaque entretien l enfant utilise autant ces constructions que l adulte L enfant est le seul noncer des constructions de type pourt Vinf Dans chaque entretien l enfant nonce toujours plus de constructions Prep Vinf que l adulte soit au total 13 occurrences pour l enfant et 8 pour l adulte Dans le corpus de Mathilde les constructions Prept VInf avec et pour repr sentent les deux tiers des occurrences du total Les constructions det VInf et pour VInf n apparaissent qu partir du deuxi me entretien L utilisation de ces constructions est quilibr e entre les deux locuteurs 19 occurrences pour l adulte et 20 pour l enfant L adulte a plus que doubl son utilisation de ce patron Prep Vinf avec Mathilde 8 occurrences dans le corpus de Julien et 19 dans le corpus de Mathilde D autre part il utili
39. de tout ce qu elle les produits qu elle Sharon Sharon Stone Sharon Stone de ce qu elle repr sente les films de ST de tout ce que elle SBST initiales en caract res romains de Shabi f k Sharone Stone conne de Sharon Stone 79 Explorations textom trigues media presse LILILIEILIEIEILIEILI III WII blog oom LIEIEI EIEBIEIEIETEIETETEIE DUDU so NO 100 OO0OOOOGOO DIEIEIEJETIEIEIEIETE CITT 150 LIEILIEIJEIEIEIEIEIE EIEIEIJEIEIEIEIEIEIEI EIEJEIEIEJEIEIEIEIE DODOODODOOOODDODODOD CTIE 200 LILIEIEIEIEIEILIEIE TTT DOC 0000000001 250 300 LIEILIEIEIEIEIEILIE LILIEJETJEIEIETIEIETE EJEJEJEIJETEIJETEIEIE DIEIEIJEJEIEIEIEIEIE 010000000001 350 Dia nn na nn ITT TTC DIEIEIJEIEIEIJEIEIEIEd CTIE 400
40. don etc Le syst me d criture hi roglyphique permet et encourage m me des fins esth tiques des modifications de la s quence lin aire du texte Les signes sont dessin s l int rieur d un carr imaginaire qu on appelle cadrat Il sont parfois regroup s en un empilement m thodique certains signes pouvant tre associ s ou superpos s par rapport d autres 2 1 Classification des hi roglyphes par leur fonction On peut classer les signes en trois classes principales e a ogrammes certains signes sont utilis s pour coder le nom de l tre de l objet ou de l action qu ils repr sentent L image d un taureau permet la r f rence cet animal celle d un plan de maison O est utilis e pour signifier maison L image d une voile gonfl e par le vent est utilis e pour faire r f rence au vent e phonogrammes d autres signes sont principalement utilis s pour repr senter un son L image d un serpent ce correspond plus ou moins au groupe phonique dj celle d une bouche que l on prononce er sert repr senter la lettre r etc e d terminatifs pour r duire le nombre des ambiguit s dues l homonymie on utilise des d terminatifs plac s en fin de mot qui ne se prononcent pas Ainsi dans cette fonction l homme assis d termine la s quence qui pr c de comme occupations masculines noms propres etc Notons qu un m me signe peut avoir des fonctions diff rentes en fonction d
41. gt IEN Zr spo BH HIE Ber RER pi ZU R R SERRE 2008 06 26 17 39 50 news qa com a2 0080526003543 htm 38k Figure la Recherche sur Google cn partir du mot cl Sharon Stone a en haut les suggestions du moteur de recherche b les premiers r sultats r f renc s Signalons que la version chinoise du moteur www google cn est plac e sous le contr le effectif des autorit s chinoises Le moteur de recherche Baidu a t cr par des chercheurs sinophones expatri s aux Etats Unis En Chine continentale sa popularit d passe largement celle de son concurrent Google 66 Explorations textom trigues Les r ponses fournies par les deux moteurs pr sentaient une grande intersection pour ce qui concerne les sites officiels sites de presse etc Comme pr vu la couverture du moteur Baidu s est r v l e plus importante pour ce qui concerne les blogs et les forums Le moteur Google nous fournit de tr s nombreuses r f rences concernant ce d bat partir du seul mot cl Sharon Stone La recherche prompt e par Google nous propose de choisir entre e Sharon Stone 1 160 000 r sultats index s 1 suggestion e Sharon Stone et ses films 15 600 r sultats index s 2 suggestion e Sharon Stone le tremblement de terre Sichuan cause du karma n gatif de
42. j utilis es dans un des discours de la p riode pr c dente qu il conviendra alors d identifier L hypoth se HI peut facilement tre cart e si l on consid re le tableau 2 qui permet de comparer les longueurs de chacune des parties et le nombre des formes diff rentes qu elles contiennent On v rifie facilement que la partie P93 qui compte 1 800 occurrences compte peu pr s autant de formes diff rentes un peu plus de 700 formes que les parties de longueur tout fait comparables P83 P90 P92 Tableau 2 Caract ristique lexicom triques pour les 25 allocutions occurrences formes occurrences formes occurrences formes 294 164 131 84 1313 593 415 1035 491 1366 924 444 2333 868 444 1748 814 416 665 660 333 813 Pascua 32 389 4 731 La figure 2 qui permet de comparer les courbes d accroissement du vocabulaire pour les parties P92 et P93 nous confirme que l accroissement calcul pour la partie P93 est tout fait comparable celui que l on calcule pour l allocution qui pr c de 3 R solution du probl me La proc dure d crite dans les paragraphes qui suivent devrait nous permettre de trancher entre les deux hypoth ses qui subsistent Nous allons constituer un type particulier que nous appellerons Segments Longs partir de tous les segments les plus longs que l on peut rep rer dans le texte En d autres termes une occurrence du corpus rel ve du type Segments Longs si la s quence com
43. l 3 4 5 6 7 8 5 10 mu wb ST SE Fen tre PCLC D S a Sp cifs Fen tre groupe de formes Mom du groupe Le motif 8 est exactement ce que je recherche B M Ajouter 9 Rechercher Enregistrer Supprimer LG Charger Le tableau ci contre rassemble nomme et pr sente bri vement l ensemble des fonctionnalit s du logiciel Lexico3 utilis es pour mener bien l exploration textom trique propos e dans les sections suivantes On pourra aussi se reporter aux diff rents manuels du logiciel disponibles en ligne Explorations fextom trigues 4 Ar Nom Param tres Localisation ic ne Liste de d limiteurs SEGMENTATION 4 d faut Barre principale ITI le NU lis ES CONCORDANCE Forme ou Type G n ralis Barre principale EN SEGMENTS Barre principale S REPETES E Une fois la partition construite on peut acc der au tableau PCLC SE inci pr sentant les Principales Caract ristiques lexicom triques de la partition Une cl d finissant une partition dans le corpus original PARTITION GEET EN lt CLE valeur az C est le nom de la cl qui est donn ici pour construire la partition vis e VENTILATION Forme ou groupe de formes CARTE DES d limiteur de section Barre a SECTIONS Cette fonctionnalit produit des listes de formes qu il est possible de m moriser GROUPE DE d exporter ou de projeter E FORMES sur les graphiques construits Barre principale par Lexico3
44. les brissotins ne so pas chapp et il aurait aussi mis la t te la fen tre S lorsque sa foutue t chicane pour les emp cher de mettre la t te la fen tre mais j esp re que t ra pas plus vous emp cher de mettre la t te la fen tre qu ellen apu s joie de voir bient t ce butor mettre la t te la fen tre ses bons avis aux bra omme son confr re capet aurait mis la t te la fen tre si 1 inf me dumour allumer la guerre civile aient mis la t te la fen tre son grand discours au ur qu elle fasse promptement mettre la t te la lunette 1 inf me brissot que t t ou tard chacun d eux mettra la t te la lunette comme leur confr re ca ps que nous aurions d voir sa bougre de t te la lunette mieux vaut tard que j Notons qu une bonne connaissance du corpus et de la p riode concern e peuvent se r v ler indispensable pour rep rer certaines de ces formules Ainsi le fait d tre inform par une source historique possiblement ext rieure au corpus que X a t ex cut dans une p riode pr c dente permet de comprendre la formule X a crach dans le sac comme un quivalent de X a t mis mort 21 Explorations textom trigues L ensemble de ces mentions peut tre rassembl en un groupe de forme particulier dont on nt 12 tudiera ensuite la variabilit au sein du corpus Lexico3 Groupe de forme v S lectionner l ic ne Groupe de form
45. ration A partir du texte translitt r ces proc dures restituent des images qui permettent de v rifier visuellement la conformit de la translitt ration r interpr t e au texte d origine Les proc dures r unies sur le site du Projet Rosette permettent de plus de faire le lien pour chaque signe hi roglyphique avec toute une s rie de renseignements de type dictionnairique qui concernent ses variantes scripturales sa prononciation sa signification globale ses diff rentes significations en contexte etc Ces possibilit s de transcriptions automatiques fiables permettent de consid rer les corpus de textes hi roglyphiques translitt r s comme des bases de donn es textom triques susceptibles de servir de point de d part des traitements textom triques dont les r sultats pourront galement tre translitt r s sous leur forme hi roglyphique originale 3 Le corpus Naufrag Le Conte du Naufrag est l un des textes importants de la litt rature de l gypte ancienne parvenus jusqu nous Des versions lectroniques du texte hi roglyphique original compos de 190 versets ainsi que des traductions des transcriptions et des translitt rations destin es permettre la conservation de ce texte sur des supports informatis s peuvent tre ais ment localis s sur diff rents sites consacr s l gyptologie Le Conte du naufrag donn lieu De cette certitude partag e par les gyptologues on peut inf
46. rer sans risque de se tromper qu l instar de ce qui se passe pour les textes crits en d autres langues tout d coupage d un texte hi roglyphique en mots et a fortiori toute tentative de rattacher syst matiquement chacun des mots d coup s dans la chaine textuelle des unit s dictionnairiques plus g n riques lemmatisation sera susceptible de pr ter le flan des critiques qui feront valoir des interpr tations du texte ou des arguments de grammairiens conduisant des d coupages et ou des regroupements diff rents 55 Pour cette tude nous avons eu recours l ensemble des proc dures r unies sur le site du Projet Rosette http www projetrosette info La version lectronique du texte hi roglyphique du Conte du naufrag que nous avons utilis e pour cette tude a t t l charg e partir du site du Projet Rosette 142 Explorations textom trigues de nombreuses tudes de caract re litt raire portant essentiellement sur la structure A 4 2 85 extr mement remarquable du r cit Le conte du naufrag Le papyrus La seule version de ce conte qui nous soit parvenue est consign e sur un papyrus hi ratique Le document a t d couvert dans les r serves du Mus e de l Ermitage Saint P tersbourg la fin du 19 me si cle de notre re Les historiens qui ont pu faire des rapprochements avec d autres textes fix s sur papyrus la m me poque pensent que le document a t
47. simple de Julien il utilise un pass compos Figure 20 En revanche avec Mathilde l adulte reformule un pass simple canonique que l enfant r utilisera imm diatement et plus tard dans ses nonc s Figure 22 A l aide de ces localisations pr cises nous constatons que l adulte a chang sa mani re d interagir avec l enfant Avec Julien nous avons remarqu le questionnement incessant Figure 8 alors qu avec Mathilde ce m me adulte pose moins de question Figure 9 D autre par l adulte fait plus attention aux cr ations enfantines de Mathilde Il propose galement plus de patron syntaxique de type Prep Vinf Mathilde qu Julien Figures 23 et 24 ci dessous L adulte se serait adapt l enfant au fur et mesure de ces interactions ju adult ju child juz adult juz child ju3 adult ju 3 child Figure 23 Graphique de r partition des constructions Prep VInf entre l adulte et Julien dans JAMaLC 115 Explorations textom trigues mei art mei child meist ma2 chid meS adut ms3 child Figure 24 Graphique de r partition des constructions Prep VInf entre l adulte et Mathilde dans JuMaLC Les fr quences dans les figures 23 et 24 sont absolues c est dire que le nombre correspond au nombre de fois que la forme apparait dans la partie Les parties s lectionn es pour ces graphiques repr sentent l ensemble des nonc s d un locuteur dans un dialogue Cette repr sentation permet de comparer dan
48. tique nerg tique nerg tique nerg tique nerg tique nerg tique nerg tique nerg tique nerg tique nerg tique nerg tique nerg tique nerg tique nerg tique nerg tique environnementale actuelle e ce n est plus une actuelle on oublie souvent annonc e il est fort probable de l poque oui elles peuvent durable il serait irresponsable en moinsd un an les prix est profonde et durable la grave le gouvernement persiste l europe confie encore ce mondiale je juge l ouverture mondiale S les objectifs affich s qui n est pas pr s de se d nouer qui touche actuellement 1 Sans pr c dent en californie Seuls 8 des citoyens fran ais S S publi par S ce passionnant environnementale de ce jeune s nateur environnementale profonde que nous vivons 93 Explorations textom trigues 8 Energies renouvelables ou d croissance 2 Sur la p riode que nous avons consid r e on rel ve deux formes qui traduisent une certaine id e du consensus en termes de solutions environnementales et de r ponse la crise nerg tique L expression nergies renouvelables particuli rement fr quente 200 occurrences manifeste le concept le plus consensuel en pleine expansion Les concordances tri es avant tableau 7 montrent que le vocabulaire associ s inscrit dans le registre de l essor conomies d ible l apr s ible l apr s p trole et S parler de
49. un d coupage en phrase en fournissant aux outils qui assurent un tel d coupage une liste de caract res d limiteurs de phrases par exemple Comme on va le voir dans les sections qui suivent les d coupages en partitions constituent avec les syst mes de d coupage en sections un dispositif articul qui permet de renvoyer les constats textom triques des zones textuelles d limit s avec une pr cision que l on peut faire varier entre deux options a on consid re que le caract re est un caract re d limiteur et les formes abc et abc seront alors consid r es comme deux occurrences d un m me type abc b on d cide que le caract re n est pas un d limiteur et les formes abc et abc seront alors consid r es comme des occurrences de deux types diff rents Le syst me de balisage du texte d crit dans ce paragraphe a t labor avant l apparition de normes plus consensuelles dans la communaut des tudes textuelles r alis es avec l aide de l ordinateur Les prochaines versions du logiciel prennent en compte les formats d entr e des textes construits partir de la norme XML EXtensible Mark Up Langage Les fonctionnalit s textom triques de ces diff rentes formes de balisage restent cependant tr s voisines Ce remplacement peut tre effectu de mani re g n rique l aide d un logiciel de traitement de texte en rempla ant le caract re retour chariot par la s quence retour cha
50. veloppement durable forums d bats protection de 1 environnement sant S d veloppement durable forums d bats protection de 1 environnement lien permanent dologies blog d veloppement durable protection de 1 environnement sant lien dbli dans blog d veloppement durable protection de l environnement transports lien dbli dans blog d veloppement durable protection de l environnement sant lien d 00 publi dans d veloppement durable protection de 1 environnement lien permanent 7 R chauffement changement ou crise climatique Le constat d un r chauffement climatique apparait largement partag et c toie l expression changement climatique qui appartient au m me paradigme d signationnel Toutefois l exploration figure 3 montre des sp cificit s fortes selon les blogs et permet de nuancer le sens de ces expressions id V G E ed tt a az LEE Lear ras Lana cxx i m c aab nii c aL 2 rri cL a ET Mr NONE NEN REN NNI BE a c IB r chauffement climatique qf i i i i i H H BS changement climatique i i LI LI j Zeie F En ge i s TE bi K sch 8 e K T p i i i e a II EE a a a a ee ee mme ee a a me M em mm a m a mue ee LI i i k EE E LAlIER E QI 1 LI LI i ES ES SN P MO ELO REEL es L E 1 rr Mr ue acm nr EE LI L LI i SQ e aa ES RE he i ur i i LI I A i ses ee mm S mm m Le nn lt me mr Les me i
51. 3 Principales caract ristiques textom triques Le d pouillement des deux volets du corpus parall le am ne les caract ristiques lexicom triques que l on trouve au tableau 3 Ces caract ristiques ne sont pas directement comparables car elles signalent avant tout des diff rences notables dans les syst mes d criture compte tenu des normes de d pouillement que nous avons utilis es Dans le cas du volet frangais du texte la segmentation s est faite sur des unit s lexicales qui correspondent plus ou moins aux mots de la langue Dans le cas du corpus hi roglyphique la segmentation a abouti isoler des unit s plus t nues qui entrent dans la composition des mots lettres phon mes morph mes d terminants Les caract ristiques lexicom triques calcul es sur chacun des volets du corpus portent la trace de cette importante diff rence Les diff rents modes de segmentation retenus expliquent eux seuls d une part le plus grand nombre d occurrences et la fr quence maximale nettement plus lev e dans le volet hi roglyphique de l autre le plus grand nombre de formes et d hapax dans la traduction frangaise du texte 148 Explorations textom trigues Tableau 3 Principales caract ristiques textom triques pour les deux volets du corpus Naufrag Hi roglyphes 3741 1745 Nombre de formes Nombre d hapax 316 Fr quence maximale L3 7 forme n de 4 5 Concordance d un signe Lorsqu on d sire tudier la sign
52. AFC r alis e partir de la partition par blog permet de constituer des groupes qui corroborent en partie la typologie constitutive du corpus Ainsi le groupe le plus dense dans la zone inf rieure de la figure 2 rassemble majoritairement les blogs s lectionn s pour leur positionnement co citoyen On retrouve dans la partie sup rieure gauche un groupe qui r unit les blogs initialement identifi s comme syndicalistes On note que le blog des militants communistes d EDF GDF de Rouen pcegdf se situe proximit de ce dernier groupe L analyse isole par ailleurs certains blogs dont le discours est particulier gaia eole On note que les blogs de personnalit s politiques ne sont pas rapproch s entre eux en revanche on observe une proximit entre le groupe eco citoyen et le blog de Dominique Voynet 4 r r r D e Notre sujet d tude n tant pas centr sur le positionnement lexical des blogs nous n approfondirons donc pas davantage ces premi res observations N anmoins on rel ve un axe exploratoire int ressant qui consisterait 87 Explorations textom trigues Figure 1 Typologie r alis e partir de la partition chronologique en mois Figure 2 Typologie r alis e partir de la partition par blog cerner les r currences de formes proches entre les blogs par exemple entre celui de D Voynet et les blogs eco citoyens 88 Explorations textom trigues 5 Les formes clefs Le tableau de fr qu
53. ARTE K RI EN VARR UK BD UK R E REOS ZR F6 UE GERD RE KR 7C ELEM K v HEROS Ir E RA Jz E UE POBRES KM E Real H BASE x EECH Ets EE lt ANNEE 2008 gt lt MOIS 2008 05 gt lt JOUR 2008 05 28 gt TIP n 22 12 17 x x dit Sharon Stone tu es une esp ce de chienne cr ve r p t 25 fois Le statut de ces r p titions dans les comptages textom triques se complique d autant D un c te il n est pas tout fait naturel de consid rer que ces nombreuses r p titions quivalent une seule s quence l internaute a dupliqu son texte 25 fois ce qui traduit tr s certainement une grande irritation de sa part d un autre c t la prise en compte de ces 25 occurrences 77 Explorations textom trigues
54. Crictor titre du livre illustr pour l entretien marque d h sitation ou d interruption dans le d roulement de l nonc ouv r e mise en parenth se de syllabes non prononc es pour la lisibilit des nonc s transcription d un son qu on ne pourrait orthographier notation des silences avec espacements plus ou moins long selon leur dur e les nonc s contenant uniquement mm ne sont pas num rot Anciennes conventions de transcription Dans les actuelles conventions les nonc s contenant mm sont num rot es les silences sont not s p pp ppp selon leur dur e Les conventions suivent les r flexions des chercheurs et les r centes avanc es dans le traitement informatique des corpus corpus julien dial jul part loc corp part corp loc S lt adult 1 001 gt S lt adult 1 002 gt S lt adult 1 003 gt Tableau 4 Corpus de Julien balis extrait nonc s de l adulte dans la 1 p riode adult juls jul adult alors c est quoi 1 histoire de crictor et pourquoi elle va au zoo pourquoi le serpent dangereux il est dans il tait dans le paquet p que le facteur a apport S adult 1 004 S adult 1 005 S adult 1 006 S lt adult 1 007 gt S lt adult 1 008 gt occupe du serpent comme un un petit enfant S lt adult 1 009 gt S lt adult 1 010 gt S lt adult 1 011 gt S adult 1 012 S lt adult 1 013 gt S adult 1 014 S lt adul
55. E71 de de ee ee EE Md EEE PARET PI CE SU ee ose el ed kl slk Mit ora o T Lei Sal Kaf IS Sei el ee ET SS un section t l visions dans la perc e de jean marie le pen tH pourrait s appeler fn a affirm le d put socialiste de essonne critiquant la fa on dant la cha ne a trait les sujets sur l ins curit pendant la campagne pr sidentielle la pol mique tur le r le des t l visions et leur traitement de l ins cunt pendant la campagne pr sidentielle t relanc e jeudi 3 mai par julien dray l un des animateurs de la gauche socialiste dans un entretien radio shalom dans mission carnets de campagne diffus e jeudi 18 h 30 Is en est vivement pris tfl en estimant que la chaine priv e pourrait s appeler Un t l vision front national ily a une cha ne de t l vision qui ccurence porte une part particuli re de responsabilit elle s appelle tH elle pourrait s appeler tin pour tre clair a t il lanc laissant entendre que tH avait accord une trap N E large place aux ph nom nes d ins curit et fait ainsi le lit du front national m dray d put ps del essonne a dt assumer la responsabilit des accusations qu il port Je mets en cause cette cha ne de t l vision pour la mani re dont elle a mit en sc ne l ins curit dont elle en a fait un leitmotiv quotidien d lib r ment en sachant qu elle ne pr sentait pas la r alit de tat de
56. EIETISSE TE IETETETE TET m Lamm AA AA Lan Lan Lamm La am Lamm Lem Lamm Lem Lamm Lamm Lem Lem Lan am Lamm tt tn tn tn tn tn tn wm tn tn tn rn tn tn tn tn tn tt tt tt tt or tt tt tt blog DOOOOOOOOO UUCHT OOOOOOOOOO OOOOOOEOOO LILILILILILILIEILIE aoaaa opaan opoopo nonnooindi BISISRISISISISISISISISISIRISISISIRISISISISISISIRISISISISISISISISISIRISISISIRISISIRISISISIRISISIRIN LILIEIEIEIEIEIEIEIET EIETIETEIEIEIETEIETETI EIETETIETEIETETETIE UO OO IO DIOU OO OO UI LILIEIEIEIEIEIEIEIET EIETIETEIEIEIETEIETETI EIETETETEIETETETIETET UO OO IO DIOU OO OO UI LILIEIEIEIEIEIEIEIET EIETIETEIEIEIETEIETETI UDO TET EJETETETETIE TE OO IO DIOU OHIO OO UI LILIEIEIEIEIEIE TIS LE TEE IE IE ETE TIE TET EISE TEE OO LILILDIEIEIEIEIEIEIE I EIETEIEIEIETETEIEIET EIEIETETEIETETETEIET EIEIETETEIETETETETE LILIEIEIEIEIEIEIEIET DUR UDO OO OO DDODOODOOD PIETIETETEIETEIETEIET LILIEIEIEIEIEIEIEIET EIETIETEIEIEIETEIETETI EIETETIETETIETETETIE OO OO IO DIOU OO OO UHT LILIEIEIEIEIEIEIEIET EIEIETEIEIEIETEIETETI EIETEIETEIETETETIETET EIETIETETEIE TE OO IO DIOU OO OORT UHT LILIEIEIEIEIEIEIEIET EIETIETEIEIEIETEIETETI OO OO IETE IET EIEIETETIETIE TE TE TISIE 1 LILILDIEIEIEIEIEIEIE EIEISIEIETIEIETEIE
57. Elle permet surtout de faire des recherches de formes ou de groupes de formes en utilisant la notion d expression r guli re y Fen tre des PCLC RA SPECIFICITES Fen tre des PCLC 5 1 7 2 POSITIVES Partie ou section du corpus Barre principale Barre principale NEGATIVES Carte des sections Lexico3 Tableau des Fonctionnalit s 5 Explorations textom trigues Glossaire segmentation op ration qui consiste a d limiter des unit s minimales dans un texte Les unit s minimales pour un type de segmentation unit s que l on ne d compose pas en unit s plus petites pouvant entrer dans leur composition ex dans la segmentation en formes graphiques les formes ne sont pas d compos es en fonction des caract res qui les composent caract res d limiteurs non d limiteurs distinction op r e sur l ensemble des caract res qui entrent dans la composition du texte permettant aux proc dures informatis es de segmenter le texte en occurrences suite de caract res non d limiteurs born e ses extr mit s par des caract res d limiteurs On distingue parmi les caract res d limiteurs les caract res d limiteurs d occurrence encore appel s d limiteurs de forme qui sont en g n ral le blanc les signes de ponctuation usuels les signes de pr analyse ventuellement contenus dans le texte les caract res d limiteurs de s quences sous ensemble des d limiteurs d occurrence cor
58. La suite des op rations textom triques convoqu es pour rep rer les reprises textuelles d une allocution l autre constitue une m thode largement applicable d autres s ries textuelles A la phase de rep rage direct appuy e sur la localisation des segments r p t s les plus longs succ de une phase de remise en contexte des r p titions constat es qui d bouche sur une dition contrast e des textes repris et de textes originaux 6 R f rences Labb D Hubert P Vocabulary Richness in Lexicometrica oU 1997 http www cavi univ paris3 fr lexicometrica article numero0 DLVocRich html Lamalle C Salem A Types g n ralis s et topographie textuelle dans l analyse quantitative des corpus textuels y in Actes des 6emes journ es d analyse statistique des donn es textuelles Inria St Malo 2002 http www cavi univ paris3 fr lexicometrica jadt jadt2002 PDF 2002 lamalle salem pdf Pineira Tresmontant C Un pas en avant un pas en arri re in Le poids des mots Actes des Temes journ es d analyse statistique des donn es textuelles Presses universitaires de Louvain Louvain la neuve 2004 http www cavi univ paris3 fr lexicometrica jadt jadt2004 pdf JADT 085 pdf Pineira Tresmontant C Persuasion ou tradition la communication du roi d Espagne in actes du colloque Argumentation Manipulation Persuasion ressources linguistiques et strat gies discursives Universit de Pau 2005 parai
59. Si les r gles de translitt ration sont explicites et r versibles il est possible de reconstituer le texte original partir du r sultat de la translitt ration e une transcription substitue chaque phon me d une langue un graph me ou un groupe de graph mes d un syst me d criture e une traduction tente de restituer dans une autre langue le sens contenu dans le texte original Dans la pratique les traducteurs choisissent entre plusieurs options dont certaines visent rester au plus pr s du texte original pour le trahir le moins possible alors que d autres prennent au contraire le parti de placer la traduction dans un cadre socio culturel familier au lecteur afin de faciliter au maximum sa perception du texte original Comme on le comprend les translitt rations et les transcriptions peuvent poss der sous certaines conditions la propri t de r versibilit Tel est le cas par exemple si chaque tat du texte est accompagn des r gles de translitt ration qui associ es ce texte permettent de 8 Cf Manuel de codage des donn es pour textes hi roglyphiques sur ordinateur consultable par exemple sur le site http projetrosette info page php Id 205 On trouvera au tableau 2 l exemple d un texte hi roglyphique muni de sa codification dans un codage de ce type 141 Explorations textom trigues reconstituer l tat original Dans ce cas on peut grosso modo consid rer au plan textom trique
60. Tableau 8 Productions des fournisseurs d information les 30 formes les plus sp cifiques Produites par la machine M Produites par l op ratrice O Forme Frq Fr quence Coeff Forme Frq Tot Fr quence Coeff Tot renseignem 283 270 SE alors 544 8 ge ents premi re 315 291 e en 474 44 Heus autres 194 185 dili ca 250 2 dil convient 259 251 id hein T gare 759 649 iid non did classes 215 265 Tem est dd la 771 609 ai oui diii ce 490 413 ida mais di minutes 601 593 SE je EH de 1574 1032 EE al 44 d sirez 429 421 uid E 44 deuxi me 382 325 DOS ben 38 quittez 648 489 poem bon 35 part 346 282 47 qui 34 corail 172 155 38 A 34 ne 747 499 37 allo 119 1 29 train 609 416 35 au 154 9 28 phrase 93 93 34 donc 109 1 26 VOUS 2016 1145 33 Y 163 12 26 134 Explorations textom trigues obtenir 85 85 31 avez 139 7 25 quels 84 84 31 les 324 37 24 votre 207 170 30 pour 289 49 23 paris 517 351 29 la 203 28 21 a 1882 1042 25 que 297 59 19 arrive 431 292 24 des 137 15 17 ouvez 182 145 23 tard 92 6 16 noncez 60 60 127 plus 173 26 16 formuler 57 57 21 si 130 16 15 autrement 27 21 21 le 623 180 15 pla t 237 172 20 voulez 60 1 14 Les d ictiques personnels sont sp cifiques des tours de parole des fournisseurs d information La machine emploie de fa on sp cifique le vocatif v
61. aux t tonnements de l enfant et lui fournit le moyen d expression recherch C est ce que Wyatt appelle feed back correctif Wyatt 1969 d sign aujourd hui par interaction ajust e ou adapt e 2 Les corpus Julien et Mathilde Pour cette tude nous consid rerons deux corpus chacun r alis partir de transcriptions de dialogues entre un adulte et un enfant Le premier corpus Julien est constitu de trois dialogues entre un adulte et un m me enfant Le second corpus Mathilde est galement constitu de trois dialogues entre le m me adulte et une petite fille L auteur remercie Emmanuelle Canut Martine Vertalier et Andr Salem pour leurs lectures attentives et leurs remarques pr cieuses dans l laboration de ce travail Nous appelons reprise lorsque le mot est r p t l identique et reformulation lorsqu un autre mot est propos la place ou s il suit une modification morphosyntaxique Les corpus utilis s pour cette tude ont t recueillis par Tissier 2001 97 Explorations textom trigues Tableau 1 Tableau de synth se des corpus Julien et Mathilde Nom Claire Julien Mathilde Age moyen 20 25 ans 5 ans 10 mois 20 25 ans 4 ans 9 mois 6 ans 4 mois 4 ans 11 mois 145 135 141 3 Dans les deux cas c est un livre illustr de Tomi Ungerer Crictor qui a servi de support l entretien Apr s avoir lu le livre l enfant l avoir relu lorsque l en
62. avec des fr quences d passant les 150 occurrences par mois partir de mi avril jusqu la fin du mois de mai elles d passent le seuil de 200 occurrences mensuelles Le mois de juin voit une r elle baisse de fr quence Au mois de juillet 2002 le nombre d occurrences retombe en dessous de 100 sans retrouver la fr quence de juillet 2001 Densification de la forme ins curit dans les parties du corpus Monde Ins curit La Figure 3 projette les fr quences relatives du mot sur les 13 parties du corpus Pr cisons ici que nous prenons en compte la fr quence d ins curit partir d un corpus qui ne contient que les articles avec la forme et non pas partir d un corpus compos de tous les articles du Monde cf Figure 2 Dans ce cas le nombre d occurrences du terme est rapport la longueur de la partie Explorations textom friques 38 S IS Bulego aen m i Or janvier2002 rest Im uk Figure 3 Les fr quences relatives de la forme ins curit juillet 2001 juillet 2002 Cette nouvelle repr sentation nous am ne observer plus en d tail quel type de densification est soumise la forme ins curit En effet sans pour l instant trancher nous pouvons poser plusieurs hypoth ses quant la mani re dont la forme appara t soit le mot ins curit est employ plusieurs reprises dans un m me article et dans ce cas on observera une densification de la forme l chelle d un arti
63. avec une grande violence n excluant pas la vulgarit 1 VER N ASB A GJA Ri TI Sharon Stone a t b jusqu a la destruction de son s 2 Map ei IOLO OLO DRAHA AE ER blk BANNE AI A l Jusqu pr sent j utilisais assez souvent les produits Dior partir de maintenant 1111 Et dor navant Je les boycotterai totalement ainsi que les films de Sharon Stone 3 1 Segmentation du texte Les comparaisons textom triques supposent que l on d finisse des unit s de d compte dont on tudie ensuite les variations de fr quence au sein des diff rentes parties du corpus Pour pourvoir mettre en oeuvre des comparaisons textom triques on utilise des outils informatiques qui permettent de d couper automatiquement les unit s du texte avec lesquelles on pourra s en servir de leurs occurrences et sp cificit s 42 e e eeh VES ox Notons que ce num ro d identification avant tout destin l identification de la machine utilis e sur l Internet pour des satisfaire des imp ratifs techniques de transfert de donn es peut galement tre utilis pour localiser l internaute sur le web avec une pr cision plus ou moins lev e 74 Explorations textom trigues pe d o8 NENE R N x Re IA IA 2008 05 E T XR ER v BI T R il PUR Her 2008 05 A 27 A 15 52 46 HE
64. cette tude l unit de d compte concerne des unit s dont les combinaisons permettent ensuite de former les unit s plus tendues que sont les mots Ces unit s peuvent parfois coincider avec des mots dans d autres cas elles n en constituent qu un l ment Compromis entre un syst me bas sur un alphabet extr mement r duit et un syst me dans lequel tous les signes auraient valeur d id ogramme le syst me d criture hi roglyphique ne peut donc tre totalement assimil un syst me lexical du point de vue de ses caract ristiques textom triques ce dont t moignent d ailleurs les d comptes produits au tableau 3 Malgr ces diff rences nous allons montrer que la rar faction des hapax constitue bien un signe de redondance du texte contenu dans le fragment par rapport l ensemble des fragments qui pr c dent Sur la figure 5 on peut v rifier que certaines portions du texte connaissent un accroissement faible du nombre des hapax courbe d apparition des hapax presque horizontale pour le fragment La suite de notre tude nous permettra de v rifier que ces fragments constituent bien des reprises textuelles par rapport aux fragments pr c demment rencontr s dans les parties pr c dentes du texte 4 6 tude des segments r p t s du corpus Les proc dure de calcul des segments r p t s permettent de localiser des suite de signes hi roglyphiques apparaissant l identique plusieurs endroits du corpus Naufrag Ainsi
65. comme serpent E comme l phant c est c est quoi A12 N BILLETE TEL T LL TE TE TE TET ETE TII E 1 DTE TIE E E a LILIEIEIEIEIEIETEIET jene e N Figure 21 Localisation des faisa en rouge et des formes canoniques du verbe faire en bleu dans le corpus JuMa LC Dans l exemple 9 l enfant tente une construction au pass simple du verbe faire mais l adulte ne reprend ni ne reformule cette tentative Quelques nonc s plus loin l enfant r utilise le verbe faire l imparfait et l adulte reprend imm diatement cette production exemple 10 Dans l exemple 11 l enfant nonce un pass compos apr s quelques h sitations Apr s une interrogation de l adulte 1l reprend son nonc en faisant une tentative de construction au pass simple L adulte reformule l nonciation de l enfant en utilisant un pass compos que l enfant reprend imm diatement L adulte n a donc pas propos le pass simple canonique mais a repris le pass compos nonc par l enfant L enfant Mathilde ne produit pas de construction non canonique du verbe faire Exemple 9 J 7 mm elle lui faisa un petit gilet elle d cida de de l em mener en classe il apprena l alphabet A8 Et euh en fait elle s occu madame Bodot elle s occupe du serpent comme un un petit enfant en fait 113 Explorations textom trigues Exemple 10 Jl a toboggan il ta
66. contemporains bitexte align permet d clairer les r sultats textom triques obtenus sur le corpus hi roglyphique l aide de r sultats du m me type obtenus partir de leur traduction Cette possibilit permet d envisager l tudes syst matique des traductions obtenues partir de corpus hi roglyphiques nettement plus vastes que le corpus r duit que nous avons consid r pour cette premi re tude y i f S34 U28 S29 Vie prosp rit sant 1 Formule d eulogie i e courte proposition exclamative appelant toutes sortes de b n dictions sur la personne qui fait l objet du texte souvent plac e la fin des textes hi roglyphiques gyptiens 157 Explorations textom trigues 7 R f rences Brunet E 2000 Qui lemmatise dilemme attise in Lexicometrica no 2 Lamalle C Salem A 2002 Types g n ralis s et topographie textuelle dans l analyse quantitative des corpus textuels in Actes des 6 mes Journ es d analyse des donn es textuelles St Malo Mayaffre D 2005 De la lexicom trie la logom trie L Astrolabe Muller Ch 1963 Le Mot unit de texte et unit de lexique en statistique lexicologique in Travaux de linguistique et de litt rature 1 salem A 1987 Pratique des segments r p t s Publications de l INaLF collection St Cloud Klincksieck Paris Zimina M 2004 Approches quantitatives de l extraction de ressources traductionnelles p
67. corpus StoneKarma D claration de Dior Chine reproduite par l agence Sina Retranscription int grale de la d claration de Dior Chine Explorations textom friques sina I RIES WEGERE EIH Ss I PS lt lt Hid http blog sina com cn hujianli iu Sr nx HELE EX EX 2008 05 27 21 15 51 RE DAME ME BA ES CQ 58 t wes Sa HES 20a 432 5 1067602 Ap SS ZA 1 n bbsKlu line com A EPBH Am r AGES mE IEPUTISSUSEGUELARUR FX t SN RE Christian Dior Ka Aa AH Sep LAIT ARR KS SHEK 2008 5 24 Dior
68. d une m me s quence ne peut tre mise sur le m me plan que 25 occurrences d une m me s quence produites par des individus diff rents avec ou sans citation mutuelle 4 Etude contextuelle de la forme di zhi boycott L tude des sp cificit s maximales mots particuli rement sur employ s pour le volet forum met en vidence un emploi massif du terme di zhi par les internautes qui s expriment sur ce type de support Le terme di r sister zhi ma trise correspond plus ou moins au terme occidental de boycott Il appara t avec une fr quence tr s lev e 784 occurrences dans ce volet du corpus imm diatement apr s les particules grammaticales qui sont les mots les plus fr quents du corpus Nous avons tent d analyser l emploi de cette forme dans le corpus StoneKarma sous le triple aspect de sa r partition l int rieur des textes de la comparaison de ses contextes imm diats et de la liste des formes lexicales qu il attire dans son entourage syntagmatique 4 1 R partition de la forme L histogramme de la figure 6 montre la r partition du terme di zhi boycott au sein des trois ensembles de textes rassembl s dans le corpus Comme nous l avons signal plus haut le terme apparait tr s majoritairement dans la partie forum du corpus 733 occurrences dans les forums sur 784 au total ires Figure 6 Ventilation
69. de cette partie si sa sous fr quence est anormalement lev e dans cette partie De fa on plus pr cise si la somme des probabilit s calcul es partir du mod le hyperg om trique pour les valeurs gales ou sup rieures la sous fr quence constat e est inf rieure au seuil fix au d part sp cificit n gative pour un seuil de sp cificit fix une forme 1 et une partie j donn es la forme 1 est dite sp cifique n gative de la partie j si sa sous fr quence est anormalement faible dans cette partie De fa on plus pr cise si la somme des probabilit s calcul es partir du mod le hyperg om trique pour les valeurs gales ou inf rieures la sous fr quence constat e est inf rieure au seuil fix au d part partie d un corpus de textes fragment de texte correspondant aux divisions naturelles de ce corpus ou un regroupement de ces derni res section portion de texte comprise entre deux d limiteurs de section exemple le paragraphe etc segment r p t ou polyforme r p t e suite de forme dont la fr quence est sup rieure ou gale 2 dans le corpus Explorations fextom trigues Les expressions r guli res avec Lex co3 Dans les sections qui suivent on utilisera plusieurs reprises la notion d expression r guli re en particulier travers la fonction KGROUPE DE FORMES Nous rappelons ci dessous bri vement cette notion et les diff rents op rateurs disponibles avec Lex
70. de construction de pass simple apprena marqu e en rouge est compar e aux autres emplois du verbe apprendre marqu s en bleu La reformulation de cette tentative par l adulte n aboutit jamais au pass simple apprit L enfant Julien produit une premi re fois une forme non canonique qui n est ni reprise ni reformul e par l adulte exemple 5 A la deuxi me tentative de l enfant l adulte reprend le verbe au pass compos exemple 6 L enfant produira par la suite un imparfait qui lui sera imm diatement repris par l adulte dans le m me contexte exemple 7 Dans le dernier dialogue l nonciation de apprena n est ni reprise ni reformul e par l adulte Vers la fin du dialogue l enfant utilise l imparfait pour le verbe apprendre L enfant Mathilde ne produit pas de construction non canonique du verbe apprendre 112 Explorations textom trigues Exemple 5 J 7 mm elle lui faisa un petit gilet elle d cida de de l em mener en classe il apprena l alphabet A8 Et euh en fait elle s occu madame Bodot elle s occupe du serpent comme un un petit enfant en fait Exemple 6 J9 il apprena compter A11 Donc ila il a appris compter l cole aussi Exemple 7 JI a toboggan il tait tr s serviable et il montrait comment on faisait les nouds A13 Il montrait euh qui comment on faisait les nouds Exemple 8 J9 mm S comme s il apprena faire euh l alphabet sa place S
71. du d but de la s rie l occurrence 24 000 environ conna t un fl chissement tr s net de son accroissement pour la partie du texte qui s tend entre les occurrences 24 000 et 25 0000 environ En se reportant au d compte cumul des occurrences on s aper oit que cette portion du texte correspond tr s exactement au discours prononce l occasion de la f te de 1993 Ce constat am ne une question Comment expliquer le fait que le discours de 1993 n apporte que tr s peu de formes nouvelles la s rie des allocutions prononc es entre 1976 et 1993 La r ponse cette question peut tre recherch e dans trois directions distinctes sans que l on puisse exclure a priori que le ph nom ne soit d une combinaison de ces trois possibilit s Rappelons que la courbe d accroissement du vocabulaire montre la d pendance entre V x le nombre des formes diff rentes rencontr es jusqu l occurrence t ici en ordonn e et t la longueur du corpus port e en abscisse 55 Explorations textom trigues HI le discours P93 est intrins quement pauvre en vocabulaire ce qui expliquerait son tr s faible apport l ensemble du point de vue de l accroissement H2 le discours P93 reprend syst matiquement des formes lexicales d j utilis es dans les diff rentes allocutions de la p riode pr c dente 1976 1992 H3 le discours P93 reprend massivement sous forme de recopie de citation etc des formes d
72. ensuite le segment a d linquance 26 S r r r Suite de formes non s par es par une ponctuation dont la fr quence est gale ou sup rieure deux Pour plus de lisibilit nous avons ici restitu les majuscules aux noms propres 47 Explorations textom trigues Tableau 7 Segments r p t s du corpus extraits Formes Occurrences Le Pen 995 l ins curit 1256 la France 719 Jacques Chirac 706 Lionel Jospin 640 la gauche 592 la s curit 551 la droite 458 la d linquance 420 la r publique 409 la campagne 401 la police 391 le gouvernement 387 extr me droite 383 lection pr sidentielle 362 Une derni re exp rience permet de montrer qu il n y pas de corr lation l chelle du corpus entre l v nement attentat du 11 septembre et le traitement de cette actualit d une part et entre la hausse de fr quence d insecurit d autre part Le 11 septembre et la forme ins curit Nous avons constitu partir du dictionnaire un type particulier que nous appellerons ATA et qui regroupe les formes attentats terrorisme et terroristes en raison de la parent s mantique et lexicales pour les deux derni res formes qui apparaissent dans des textes voquant les attentats du 11 septembre et leurs cons quences lutte contre le terrorisme au niveau international par exemple Nous avons voulu comparer les indices de sp cificit s de ce type av
73. gt 10 La repr sentation propos e par l AFC ne permet pas de rep rer une quelconque volution chronologique des parties Pour tenter de comprendre les bases de l opposition qui oppose les diff rents num ros oppos s par le premier axe nous pouvons consulter les longues listes de 16 Les pourcentages d inertie attach s aux deux premiers axes factoriels responsables de la repr sentation que l on trouve au tableau 6 sont respectivement gaux 77396 T 2 29 Explorations textom trigues contributions aux facteurs fournis par les programmes d AFC Nous allons employer une m thode plus simple pour arriver un r sultat tr s proche E UU Lex co3 Analyse Factorielle des Correspondances AFC v V rifiez que vous avez op r au moins une partition du corpus cf Sxx S lectionner l ic ne PELC 5 me ic ne partir de la gauche S lectionner une partition du corpus ici numero Appuyez sur le bouton AFC droite de l cran Choisissez un seuil de fr quence minimale ou acceptez le seuil 10 propos par d faut Lancez l analyse en appuyant sur le bouton OK RARA SAs Rep res m thodologiques L analyse factorielle des correspondances AFC L analyse factorielle des correspondances est une m thode statistique qui s applique aux tableaux de contingence tels par exemple les tableaux r sultant du d compte de diff rents types de vocabulaire lignes du tableau dans les diff rentes partie
74. hicule 100 propre am liorent la rentabilit p renniser la fili re S ces nergies sont encore j ai indiqu pr c demment seront financ s gr ce ce ne para t pas manquer cette op ration conduira information en soit En revanche le mot d croissance qui comme nergies renouvelables est porteur d une solution environnementale appara t beaucoup plus contest Un retour au texte montre que le mot d croissance est jug n gatif en soi et donc non porteur d espoir 94 Explorations textom trigues Le mot croissance est dynamique le mot d croissance est un frein Qui donc accepte d tre frein Pour ma part je pr f re les mots sans connotation de privations endurer Blog Noolithic le choix du d veloppement durable est un choix de croissance forte le d veloppement technologique indispensable est cr ateur d emplois et fournira une base solide de la comp titivit internationale c est un postulat on le sait qui est loin d tre partag par tous les adeptes du d veloppement durable dont certains vont jusqu parler d une d croissance indispensable pour que tous les pays puissent arriver des niveaux de richesse peu pr s comparables et l on sait quel point les carts sont aujourd hui consid rables Vous pensez bien que je ne suis pas de ceux l mais je m tonne quand m me qu on puisse aujourd hui en france traiter le probl me de la croissance sans int grer de mani
75. la S d conomie d nergie et e efficacit nerg tique et laires progr s en mati re ensoleillement maximum le passage n cessit de recourir de recours recours un de recours soutien nergie et le passage aux p trole et le passage aux aux aux aux aux aux aux ssociations et discuter de coop ration ent de lancer un programme ambitieux iques pour le choix d production d n 2010 21 de 1 installation lectricit partir nergie partir de son lectricit produite partir conomie d nergie et de re 2005 S statistiques de forte augmentation de la S certes favoriser les mesures ils Si la r d couvrir six sites en comparaison d comp titifs avec d et i t nerg tique et ons sinistr es au de de de de du du du de france etc S r le fonds europ en Ssociation g n rale e un beau potentiel ademe fait le bilan ontarisme en faveur lus vis vis re ouverte et avant cherait de financer ise de l nergie ou rrog es plaide pour ang des priorit s le associations actives dans mme nerg tique destin industries propres a volont de la france de ma triser la demande S il nous faudra ensuite isi mement il nous faut res projets permettant de europ en la volont de t une vitrine id ale pour d veloppement d veloppement d veloppement d veloppement d veloppement d velo
76. la prise en compte de ces textes est cependant n cessaire Chaque carr sur cette figure repr sente un article Explorations textom triques 40 Cette carte des sections permet de d crire ensuite avec plus de pr cision les variations de fr quences de la Figure 3 et de valider les hypoth ses formul es concernant les diff rents types de densification de la forme Par exemple on observe en ao t un pic de fr quences relatives mais la carte des sections nous informe qu au m me moment le nombre d articles demeure peu lev le mot est donc souvent employ plusieurs reprises dans un m me article comme on peut le v rifier sur le Tableau 3 Tableau 3 Carte des sections et extrait d un article paru au mois d ao t Partition i Ely seuilage E m Sp ci 3 t juilet2001 0000001000 00an EB 7 snc AL DUDU E ooo 50 EIEIE EIEIDELEIEL E EIL ILLE E EET OO Oooo 010000000 oononioonion 100 NM octobre HEBEBEBEEE BEBBEBEBEEBE EEBEBBEEBEE EBEEBE memm HBEBEB 150 HBEBBEBEEEBBEBBEBBEBEEBEBEBEBBEE BBEBEBEEEBE EHEBEBBEEBEE 200 HBEBBEBEBE MM ol D DDDDDDDDDD EIL LELEL EL ELELEL E ELEL EL ELELELEL EL ELE nnn 5 EIEIBJEIEI ELE ETETE mi D pel EIE E E E E E E E E 0000000000 DOOIODDDDDT 200 AAA A A PIP Section lt mb hancesl intervention
77. le DETDPIG le DETDPIG le PPER3P le PPER3P Tableau 12 Exemple d tiquetage d nonc s Enonc d origine S adult 1 001 alors c est quoi l histoire de crictor Enonc cat goris S adult 1 001 alors ADV c PDS est VINDP3S quoi PRI 1 DETDFS histoire NCFS de PREP Crictor NPI Enonc cat goris et lemmatis S lt adult 1 001 gt alors ADV ce PDS tre VINDP3S quod PRI le DETDFS histoire NCFS de PREP Crictor NPI La proc dure de lemmatisation cat gorisation nous permet alors de rechercher des nonc s sur la base d un patron syntaxique d fini Dans le corpus Julien LC nous trouvons partir du patron syntaxique pr position suivie d un verbe infinitif not Prep Vinf 21 occurrences de s quences relevant de cette construction r parties ainsi dans le corpus Tableau 13 Liste des Prep VInf dans Julien LC PREP compter VINF a PREP faire VINF a PREP lire VINF PREP manger VINF a PREP sauter VINF de PREP le PPER3S prendre VINF de PREP le PPER3S emmener VINF pour PREP Yolr VINE pour PREP lui PPER3S rappeler VINF Tableau 14 R partition des constructions Prep VInf dans Julien LC ju le 1 ju le 2 ju le 3 Total Locuteur Mu 224 4 Emm 4 4 3 n Total Dialogue 6 6 9 a 107 Explorations textom trigues A partir de ce patron nous tablissons des concordances mieux cerner la nature des pr positions et des verbes utilis s La pr posit
78. les les les les les les les les les les les les les les les les les les les les les les les les les les les les les les les les les brissotins fran ais Jacobins sans culottes de Ass sans culottes sans culottes de sans culottes de paris sans culottes se aboyeurs accapareurs ambitieux amis amis de la amis de la libert aristocrates aristocrates et les aristocrates tous les royalistes autres badauds badauds de bandits bandits qui beaux biens bons bons Sans culottes bons sans culottes se bons citoyens bons r publicains bougres bougres poil qui ont bougres qui bougres qui ont boutiquiers bras braves braves bougres brigands brigands couronn s brigands couronn s ce brigands couronn s et brigands couronn s et les brigands couronn s qui brigands et brigands qui brouillards de la tamise se bureaux ch teaux ch teaux en espagne ch teaux en espagne que chefs chefs de chiens ci devant citoyens coeurs coins de complots complots qu complots que 1 on conspirateurs contre r volutionnaires coquins coquins qui coups de coups de chien coups de chien des ennemis coups de chien qu 19 Explorations textom trigues Cooccurrences pour un type donn S1 l on se donne un d coupage du corpus en sections parties paragraphes phrases groupes de phrases et une forme p le nous prendrons comme ci dessus
79. les fr quences absolues du mot sur les 13 parties du corpus correspondant chacune un mois de publication ins curit Li Co c i D r 8 o 4 Bax S TE 4n juillet 2001 LiS se p 2001 5 nov 2001 D7 janvierz 2 09 mars2002 1 mai2002 1 3 juillet 2002 T Suite des N nombres n nombre de parties du corpus constitu e par la succession des sous fr quences de cette unit dans chacune des parties prises dans l ordre des parties Lebart Salem 57 319 37 Explorations textom trigues Figure 1 Les fr quences absolues de la forme ins curit juillet 2001 juillet 2002 Si nous rapportons les fr quences de la forme ins curit l ensemble des articles du Monde paru cette p riode dans ce cas chaque partie contient un nombre d occurrences peu variable 18000001 tout en conservant la m me partition nous obtenons la repr sentation graphique suivante Figure 2 juil 01 ao t 01 sept 01 oct 01 nov 01 dec 01 janv 02 f vr 02 mars 02 avr 02 mai 02 juin 02 juil 02 Figure 2 Les fr quences relatives de la forme ins curit dans Le Monde complet juillet 2001 juillet 2002 Sur la Figure 1 nous observons une fr quence moyenne de la forme p le 75 occurrences par mois de juillet 2001 au mois de f vrier 2002 inclus avec deux l gers pics au mois d ao t et au mois de d cembre partir du mois de mars et jusqu au mois de mai l emploi d ins curit s intensifie
80. moyenne de 987 sujets par semaine une croissance de 126 4 tous m dias confondus a t observ e entre f vrier et mars du Ter janvier au 5 mai l ins curit a t m diatis e deux fois plus que emploi huit fois plus que le ch mage d apr s les estimations du minist re de l int rieur Occurence aucune augmentation sensible des crimes et d lits n a pourtant t constat e sur la p riode au premier trimestre les services ont plut t constat un ralentissement par rapport la m me p riode en 2001 x E Rapport Effacer C Program Files Lexico 3 ETENee par 5 Conclusion Cette exploration met en vidence un ph nom ne que tout lecteur du journal Le Monde pouvait pressentir sans toujours avoir les moyens de le v rifier la densification d emploi du mot ins curit L observation de diff rents types de fr quence a permis de d crire cette densification sp cifique ce corpus m diatique et d en donner les caract ristiques compl tes Trois types d observations compl mentaires nous ont guid e dans l interpr tation de cette densification ainsi nous avons pu valider l hypoth se selon laquelle il y a corr lation de cet emploi dans le journal avec un v nement politique majeur l lection pr sidentielle L analyse des cooccurrences telle qu elle a t utilis e dans cette tude nous a permis de rep rer un ph nom ne particulier la forte proximit de deux formes Dans le cas pr sen
81. noter qu il a conscience de s adresser une machine est amen r duire l tendue de son vocabulaire Ainsi on peut dire que les productions du correspondant portent la trace d un ajustement conversationnel la vari t du vocabulaire de chacun de ses interlocuteurs D ictiques et cl tures Il nous a paru int ressant de comparer de mani re similaire les ancrages et cl tures conversationnels r alis s au cours de chacun des types d interactions Nous montrons que les d ictiques comme les usages de fin de conversation sont des indicateurs importants de l ajustement conversationnel du correspondant Lorsqu il converse avec l op ratrice le correspondant produit une plus grande vari t de d ictiques personnels Nous avons donc choisi de projeter sur un m me graphique figure 3 les sp cificit s des principaux d ictiques du corpus je 1 176 occurrences vous 2 486 128 Explorations textom trigues occurrences il 1 382 occurrences on 126 occurrences et nous 16 occurrences La pr sence tr s sp cifique du pronom je dans ses productions confirme l existence d une dimension interpersonnelle plus forte dans la conduite interactionnelle du correspondant lorsqu il interagit avec un humain Sn cihicit s Figure 3 Ventilation des sp cificit s des formes Je vous il on nous par type de tour de parole CM correspondant machine CO correspondant op ratrice MC machine correspondant OC
82. op ratrice correspondant Contrairement aux interactions avec l op ratrice lorsque le correspondant s adresse la machine le pronom je figure dans des tours de parole sans disfluence et sans indice explicite de la dimension interpersonnelle lt TdP CO0124 gt donc on peut y aller comme a d autre part je vais vous demander un renseignement est ce que la r duction est valable par exemple sur un billet paris brussell lt TdP CO0149 gt si je veux r server je je je demande le train cinq mille neuf cent quarante cinq En particulier les tours de parole adress s la machine pr sentent une r gularit structurelle importante je voudrais informations sur la circulation des trains XTdP CM1177 je voudrais les horaires des trains pour rouen au d part de paris saint lazare pour ce soir XTdP CM1082 pour le lundi vingt huit janvier je voudrais l heure d un train partant de b le pour paris On note le vouvoiement adress de mani re pr f rentielle la machine plut t qu l op ratrice ce qui indique une diff rentiation op r e de mani re plus ou moins consciente par l appelant TdP CM0016 vous n avez pas d autres trains 2 Ces d comptes sont op r s sur les formes originales non lemmatis es au pr alable 129 Explorations textom trigues lt TdP CM0166 gt tr s bien vous pouvez me donner le prix du billet Deux emplois principaux sont observ s pour l utilisation du pronom il d une part
83. par exemple la s quence de signes translitt r s SAL rif n V3lA mi si t t Yl Si r y xprir peut tre localis e l identique dans deux versets du texte versets 21 et 125 L diteur du site Projet Rosette permet de r tablir la forme originale de cette s quence ED em Q DS 8 ZAAN N UC sm gt ES 152 Explorations textom trigues p S mE 92 et de v rifier sa pr sence dans le texte original aux deux endroits indiqu s On trouvera figure 8 les traductions associ es cette s quence aux endroits du corpus qui la contiennent Classification et localisation des r p titions du corpus Diff rents travaux consacr s l utilisation des recensements de segments r p t s dans un corpus de textes montrent que les r sultats fournis par ce type de formalisation renvoient la plupart du temps des ph nom nes textuels de niveaux tr s diff rents Dans le cas des d pouillements en mots les segments courts 1 e compos s de 2 3 formes renvoient souvent la pr sence d unit s lexicales complexes mots compos s locutions etc alors que la r p tition de segments compos s d un plus grand nombre de formes trahit en g n ral la pr sence de citations ou de reprises textuelles plus syst matiques L analyse des segments r p t s contenus dans chacun des volets du bitexte Naufrag fait apparaitre toute une s rie de segments r p t s particuli rement longs L tablisseme
84. place dans les corpus crits e frangais A leur place nous trouvons deux pronoms tu il un auxiliaire est une conjonction et et un d terminant un l Selon les anciennes conventions seuls les nonc s ne contenant que mm ne sont pas num rot s C est pourquoi dans nos corpus informatis s il peut y avoir un d calage dans la num rotation des nonc s e Ungerer T Crictor 1958 L ecole des Loisirs pour l dition fran aise 1980 Collection Lutin Poche r dition 2000 Le corpus a t transcrit selon les conventions tablies par Laurence Lentin et ses collaborateurs Lentin 1984 1988 Formes Tableau 2 Principales caract ristiques quantitatives des corpus Julien et Mathilde Dialogue jul Dialogue ma3 302 243 221 159 301 329 Occurrences Fr quence Mot le plus Maximale fr quent 2986 215 234 1609 ct 239 239 Guide de lecture du tableau 2 Dans ce tableau e les nombres align s gauche et en gras correspondent l ensemble des dialogues r unis e les nombres centr s correspondent au dialogue seul mais r unissant les locuteurs e les nombres align s droite correspondent au locuteur seul Dans la derni re colonne le mot en gras et align gauche correspond la forme la plus fr quente dans le corpus longitudinal Le mot centr correspond au mot le plus fr quent dans l entretien et le mot align droite correspond au mot le plus fr que
85. pour e paris rouen h trains qui vont bonni re sur seine en quelle classe s il vous plait dans l apr s midi en deuxi me vers quelle heure pr cise d sirez en deuxi me vous n b n ficiez pas der vous partir r duction ss e entre trois heures et d mi non non entre trois heures et e et six et vous voulez un aller simple heures oui ne quittez pas d accord ne quittez pas s il vous plait le seul train que vous pouvez prendre est un autorail premi re et all deuxi me classes partant de la gare de oui paris saint lazare dix sept heures h oui alors le prix en plein tarif vingt sept minutes arrivant la gare deuxi me classe aller simple est de de bonni re dix huit heures quinze soixante minutes ce train vous convient il deux francs coutez c est parfait mad moiselle et le retour c est la m me chose alors d sirez vous d autres oui a vous fait cent vingt quat re renseignements francs aller retour oui qu est c que vous faites ce soir sx d accord l vous r mercie au r voir ceci n est pas de mon domaine ne quittez pas je vous passe la personne comp tente 2 Le corpus Interactions Ce corpus est constitu par un ensemble d entretiens centr s sur la r servation de billets de trains et les informations sur leurs horaires de circulation Il a t enregistr en 1985 par le groupe de recherche PRC Communica
86. pr sident J Chirac qui attaque le Premier ministre sur le th me de l ins curit entr e en campagne de J M Le Pen publication des statistiques officielles sur la d linquance 1 semestre 2001 intervention t l vis e de L Jospin 28 ao t 2001 qui r pond aux attaques du pr sident sur la gestion de l ins curit adoption par le parlement d une loi sur la s curit quotidienne candidature officielle de J Chirac l lection pr sidentielle Le premier th me abord est celui de la s curit l ins curit candidature officielle de L Jospin tuerie de Nanterre qui donne lieu une pol mique politique premier tour des lections pr sidentielles J Chirac arrive en t te avec J M Le Pen second tour des lections pr sidentielles J Chirac est r lu pr sident cr ation par d cret d un Conseil de S curit Int rieure lection d une nouvelle assembl e Un homme arm Richard Durn s introduit dans le conseil municipal de la commune de Nanterre et tire sur l ensemble des participants la tuerie fait plusieurs morts et la classe politique sans distinction de courants se sent r ellement fragilis e Une fois emmen Quai des orf vres pour d poser l homme profite d un moment d inattention de la part des policiers pour se suicider ce qui suscite une grande pol mique 43 Explorations textom trigues On peut enfin tre tent de valider cette interpr tation en c
87. prise en charge par Lexico3 Le tableau 3 donne la liste des principales caract ristiques lexicom triques du corpus 85 Explorations textom trigues Tableau 1 Les 23 blogs r unis dans le corpus BlogsEnvironnement e 9 BLOGS ECO CITOYENS http ecocitoyen over blog com http blog toutallantvert com www changement climatique fr Conseil Economique et Social http www eco echos com dotclear index php http droitdanslemur blogspot com ga a http www criseclimatique fr film Al Gore http durable et responsable hautetfort com http utopie viabloga com http noolithic typepad com e 3 BLOGS ENERGIE RENOUVELABLES http eole over blog net http www leblogenergie com http terre blogs liberation fr e 3 BLOGS SYNDICAT ENERGIE a http cfdtieglot canalblog com http www acspe com http www unsa energie civaux com e 3 BLOGS ALTER py http sdn49 hautetfort com http energie com over blog com pcegdf http blpwebzine blogs com champg e 5 BLOGS POLITIQUES http www desirsdavenir org index php http dsk typepad com http dominiquevoynet net blog http blog villepin free fr http sarkozyblog free fr index php Tableau 2 Extrait du corpus Blogs Environnement lt blog ecocitoyen gt cdate gaouto5 S lundi 15 ao t 2005 S 1 aspartame miam S je me rappelle du d go t ressenti en lisant un article concernant l asparta
88. re plus nette l ensemble de la r flexion aujourd hui disponible et urgente sur la durabilit blog DSK La d croissance ce mot que je n aime pas j interviens r guli rement sur des billets d autres blogs concernant la d croissance je n en parle presque jamais sur mon blog parce qu utiliser ce mot me d range on m a incit le faire a marche alors pourquoi je n aime pas ce mot 2 1 c est un mot n gatif il est peu enthousiasmant pour porter un projet or le projet que nous avons mettre en place pour se sortir de la crise actuelle et passer le syndrome du titanic est lui tr s enthousiasmant j y reviendrai plus tard 2 c est un mot flou d croissance d croissance de quoi Blog eco echos Isabelle Delannoy 9 Conclusion Les diff rentes d marches d exploration textom trique permettent d identifier des ph nom nes quantitatifs de discours qu une lecture cursive ou analytique ne permettrait pas d identifier Le discours d velopp sur les blogs se pr te particuli rement une discussion sur les mots et les concepts La r activit induite par la mise en ligne instantan e des prises de position la libert de ton et le d cloisonnement des territoires le discours scientifique c toie le discours des citoyens sont autant de facteurs qui favorisent la fluidit et la dynamique des id es et des discours Cette premi re exploration montre que les changes sur la blogosph re contrib
89. recueillir et de classer une certaine vari t de r actions qui diff rent largement selon le media utilis et dont certaines pr sentent une fr quence importante au sein d un m me m dia Nous nous proposons essentiellement de montrer la possibilit de r aliser de mani re relativement simple une enqu te de ce type 32 Une s rie de tremblements de terre survenus autour du 12 mai 2008 dans la r gion de Si Chuan Chine a caus la mort de plus de 69 000 personnes et entrain de tr s importantes destructions dans toute la r gion Ces circonstances ont t l origine d une campagne nationale et internationale de solidarit avec les victimes 64 Explorations textom trigues Points de rep res e Les propos incrimin s Cannes 24 mai 2008 And I have been concerned about oh how should we deal with the Olympics because they haven t been nice to the Dalai Lama who is a good friend of mine and the earthquake and all the stuff happened I think is that karma when you re not nice that the bad things happen e Le karma sanskrit cu de la racine kri acte action est un terme utilis dans plusieurs religions orientales Le karma d signe le cycle des causes et des cons quences li l existence des tres sensibles Le karma est la somme de ce qu un individu a fait est en train de faire ou fera Dans les religions incorporant les concepts de r incarnation les effets de ces actes karmiques se r percuten
90. sum En 2001 2002 pendant la campagne pour les lections pr sidentielles fran aises le mot ins curit a jou un r le souvent d nonc par la suite dans la structuration du d bat politique Comment analyser l emploi de la forme ins curit dans le journal Le Monde pendant cette campagne lectorale emploi qui va d abord se caract riser par une densification de fr quence Cette exploration textom trique sur un grand corpus m diatique constitu autour d une forme p le permettra de rep rer plusieurs ph nom nes discursifs l uvre dans le journal Le Monde et de lever le jour sur certains probl mes d interpr tation li s la nature m me de ce corpus 1 Le corpus Monde Ins curit Le corpus Monde Ins curit est compos de l ensemble des articles publi s entre le 1 juillet 2001 et le 1 juillet 2002 qui contiennent le mot ins curit 965 articles Ce corpus s tend sur une p riode qui englobe la campagne lectorale des pr sidentielles de 2002 Cette campagne qui S acheve d but mai 2002 est suivie par une autre campagne pour l lection d un parlement qui sera lu le 16 juin 2002 Le corpus Monde Ins curit est d abord divis en 13 parties qui correspondent chacune une p riode d un mois Ce corpus constitue donc une s rie textuelle chronologique Un balisage syst matique du corpus en rubriques articles jours permet d affiner l analyse des p riodes consid r es Tableau 1
91. t i 1 1 1 T T T LI I I I I I I 1 i LI LI i i i i LI i i i i i i LI i i i i i i LI i i LI LI LI L L I 1 I L L L i LI LI LI i i i I 1 1 i i i LI LI i i i i i i LI D DU DU L 1 I 1 1 LI I LI LI LI I LI LI 1 I I LI I I 1 I 1 i i i i i i i LI i i i i i i i i i i i i i i 1 1 I i i L I LI LI I I LI i I L LI i L 1 1 1 i i i LI LI i i i i i i i i i L i i LI I LI I LI LI I LI 1 I I 1 I I L L i I i LI LI i i i LI LI i i i i i i LI i i i i LI i i i i i L i i I LI LI 1 LI i Li LI LI LI i i i L 1 I i i i LI LI i i i i i 1 LI i i DU 1 U 1 1 LI L LI LI LI Li LI Li LI LI LI 1 1 LI LI I I I LI rt GAR Le PT E ER Rp Jeer e E E WE CT kee i i 1 I i i l L I LI LI I LI LI i d LI L L i i 1 i i i i i i LI LI i i i i i i i i i i L i L I LU LI LI LI LI LI I LI I U 1 I 1 LI P P U 1 I 1 i LI i i i i LI LI i i i i i i LI LI i i i LI i i 1 1 i 1 b U LI LI LI LI I i i i L LI L i i 1 LI 1 1 LI i LI LI i i i i i i 1 LI U i i 1 L 1 LI LI LI LI LI LI 1 LI 1 I 1 LI 1 L P L L L LI i i i i i i i i i i i i i i i i i i i i 1 I i I i L L LI LI 1 I 1 i 1 I L L i i 1 i i U i i i L LI i i i U i i i i LI i LI LI i i I 1 1 LI LI LI LI LI I LI LI 1 I LI 1 LI LI I I I 1 i LI 1 i LI LI i i i i i i LI i i i i 1 CE zm dl e zm mm A e zm rm Am ms mm m mm A e ze rm P e ze zm E i LI 1 1 LI i LI L i i i i i U LI F i V LI L 1 I 1 1 I I LI LI L LI I I LI LI I I L 1 i i i i i i i i i i i i i i i i i i i i I i i L L I 1 LI 1 I 1 i i I
92. thode des segments r p t s cf par exemple Salem 1994 153 Explorations textom trigues m i i t A2 n U19 nw w 1i 1i t mwl 1i m f n t mH Ey ANDE X EN ZL H SA a LS FAR sall S OE oS codd b poo t PI ER d i DRE SEL eme SACR Llam Ce t w 2 i m s D353 amp o9 D Dans le cas de reprise textuelle d un r cit relativement long que nous venons d explorer on peut penser que l existence d une r p tition n aurait pas chapp un lecteur attentif pour peu que celui ci soit suffisamment l aise avec la langue dans laquelle le texte a t r dig Une fois identifi es les zones de r p tition le rep rage des unit s textuelles qui n apparaissent que dans l un des deux fragments qui entrent en rapport de duplication peut alors permettre de localiser des variations entre les diff rentes versions du r cit D O1Intro D Oavoyagekthlaifr agr DT 03lleDuka 50 D 04Leserpent D 05RecitNaufauSerp 100 D Dis cu Serpent
93. tour des slogans hostiles aux m dias avaient t C Program Files Lexica 3YETEMee par Ces observations nous am nent compl ter les Figures 3 et 4 par un graphique Figure 5 repr sentant l volution du nombre d articles avec la forme dans le corpus Monde Ins curit et la fr quence moyenne de la forme dans les articles e Nbre d articles avec ins curit gt D Fr q moy par article 100 Figure 5 Ventilation du nombre d articles avec ins curit et fr quence moyenne de la forme dans les articles partie 1 juillet 2001 partie 13 juillet 2002 Explorations fextom trigues 42 Cette derni re figure met en vidence les diff rents ph nom nes de densification pr c demment d crits et nous livre avec pr cision les diff rents modes de densification 3 Des l ments d explication Comment expliquer les variations de fr quence de la forme ins curit et son emploi massif jusqu au mois de mai 2002 partie 11 2 Ces variations naissent elles du traitement simultan de plusieurs actualit s o il est question d ins curit 2 Il faudra dans ce cas mettre en vidence les th mes qui sont li s la forme L augmentation en fr quence n est elle pas directement li e une position politique face la campagne lectorale pour les lections pr sidentielles et donc un emploi politique du mot dans Le Monde Il serait tentant de valider la secon
94. tous les peuples 12 tous les tr nes 11 tous les conspirateurs 11 tous les coquins 10 tous les jours 10 tous les nobles Lexico3 Segments r p t s v S lectionner l ic ne Segments r p t s 4 me ic ne partir de la gauche v S lectionner un seuil de fr quence minimal pour les segments v Les segments apparaissent dans un onglet sur la partie gauche Ils peuvent tre tri s selon diff rents crit res longueur fr quence ordre lexicographique en cliquant sur le bandeau situ au dessus de la colonne correspondante Chaque s lection simple ou multiple r alis e dans la fen tre des segments peut ensuite amp tre analys e comme un tout en transitant ventuellement par la fen tre groupe de formes laide des diff rents outils disponible concordance histogramme carte des sections etc Actuellement les fonctionnalit s de Lexico3 ne permettent pas d obtenir directement l tat pr sent au tableau 5 Cet tat a t obtenu en triant l aide d un tableur Excel les lignes du tableau 4 Explorations fextom trigues 18 Tableau 4 D but de l inventaire distributionnel des segment r p t s apr s la s quence fous les dans le corpus P re Duchesne classement par ordre lexicographique de la forme qui suit les les les les les les les les les les les les les les les les les les les les les les les les les les les les les les les les les les les les
95. ventilation de la forme dans ces rubriques En reprenant les classifications propos es par M Mouillaud et J F T tu nous n avons conserv pour cette partition que les rubriques de niveau ly c est dire les titres rubriques qui figurent en haut de page int rieur et qui sont sur une page de journal le sommet d une arborescence qui peut contenir des noeuds plusieurs niveaux J F T tu M Mouillaud 118 Nous y avons ajout les suppl ments comme Le Monde des Livres ainsi que les pages externes du journal La Une et La Derni re qui certes n ont pas le Nous nous appuyons ici sur une exploration r cente effectu e par S Fleury Textes pr sidentiels http tal univ paris3 fr blogtal index php cat 65 sur un corpus de travail compos de toutes des textes d interventions de Jacques Chirac r cup r s Sur le site de l Elys e http www elysee fr elysee francais interventions sommaire interventions du president de la republique 126 29 html et pr par s pour Lexico3 balisage En sortie de la chaine de traitements aspiration formatage nettoyage le corpus contient 813 textes diff rents 251 textes de type Discours et D claration 10 textes de type Dialogues et D bats 136 textes de type Conf rences et points de presse 108 textes de type nterviews Articles de presse Interventions t l vis es 308 textes de type Lettres ibid Voir aussi D Mayaffre 2004 Paroles de pr sident Jacques
96. 0 1000 LIEILIEIEIEIBIEIEIE EDIEIEIJEIEIEIEILEIEIE EJIEIEIEIEIJEIEIEIJEIE OOODOOOO DO EIEIEJEIEIEJEIEIE E 1050 qd onde nn nn DIEIJEIEJEIEIEIEIEIE DODODDODODOOOOODDO 1100 LIEIEIEIEIEIEIEIEIE EJEJEIETEJETETEJETIE DEIEJESETJETEIEIETEIE EIEIEJEIEIEJEIEIE E 1150 EIEJEIEIEJISEEIETEIE DEIEIEIEIJEIEIEIJEIEIE EIEIEJEIEIEJEIEIEJE 1200 LIEILIEIEIEIEIEIEIEI LIEIEIJEIEIEIEILIEIE DOOOOOOODODO DOODOOOOOODODO 0100000000001 1250 III EIEIEIEIEIEIEILIEIEI DODOODOOOODODODOD DPIEIEIEJEIEIEIETIEIE DDODDODODOOOODODDOD 1300 EJIEIEIEIEJETEIEIEIE DIEIEIEJEIEIEIEIEIE 0000010000001 1350 III OOOOOODOODOOOD OOOOOOOOODOD qinda 1400 DOOODODODOO DOOOOOOODODO DODOOOODODODO 000000000001 1450 DIEIEIEJEIEIEIETIEIE DIEIEJEIEIEJEIEIE E 1500 LIEILIEIEIEILIEILEIE LIEIEIEIEIEIEIEIETE EJIEI EIEIEJEIETIETE
97. 0008080 00088800 08980888 0000008 0000000000 8800088808 00000000 SIS 0008 00000000 D 0 000000000000 000088001010 ooo IIIe 08000080 mis C 12ain 00 F4100 0008080080 0000000080 0080090090908 amnad Section premier enseignement depuis le 7 janvier et jusqu au second tour de l lection pr sidentielle il y a eu 18 766 sujets consacr s dans les journaux t l vis s qui repr sentent 6 4 du temps global d antenne de toutes les cha nes aux crimes jets de pierre vols de voiture braquages interventions de la police nationale et de la gendarmerie x1 Es instructions judiciaires relevant du droit p nal soit une
98. 87 2161 1703 158132 7277 3209 7815 17937 On se gardera d interpr ter directement des diff rences entre ces caract ristiques textom triques qui peuvent r sulter d art facts produits par des m thodes d encodage et de stockage diff rents pour chacun des supports rassembl s en un m me corpus 3 2 Comparaisons entre m dias Les trois volets diff rent bien entendu par les types d expression propres chaque m dia Style plut t soutenu et tournures officielles pour la presse style plus litt raire mais aussi plus personnel pour l expression sur les blogs tr s grande vari t de modes d expression sur les forums qui peuvent aller d un style soutenu des listes d interjections et d insultes Statut de la r p tition dans les trois volets Les proc dures de rep rages des segments r p t s suite de formes reproduites l identique diff rents endroits du corpus permettent de rep rer des reprises de s quences plus ou moins tendues dans chacun des trois volets du corpus sur le tableau 5 on peut voir la r p tition de s quences localis es au sein d articles de presse Cette r p tition vient 1c1 de la reprise fr quente par les diff rents journaux du m me texte pr sentant au nom de Sharon Stone des excuses exprim es par son agent Mes propos d plac s ont bless le peuple chinois et ont suscit sa col re Je m en excuse profond ment Les commentaires qui accompagnent ce texte contiennen
99. Analyses quantitatives sur le corpus Interactions ee 124 4 Typologies conversationnelles ss 131 5 Ajustements conversationnels de l usager ss 136 6 Conclusions PePsbpecTIVES soccer r vinee d tor er e 137 7 PELEN ST a soto BU PR 137 Textometrie hi roglyphique ee 138 1 Le contexte de la recherche sse tete tntn tt tntn tnt tn there th tenet h itane 138 2 Le syst me d criture hi rogl phique ss 139 3I Le corpus NOUN OJE e e 141 4 Approches textom triques du corpus Naufrag ns 145 5 Reproductibilit des explorations dans le bitexte essere 155 Bene EA EE 156 9 Explorations textom trigues Tutoriels pour l analyse textom trique Tutoriels Andr Salem salem msh paris fr R sum Ces tutoriels devrait permettre l utilisateur d butant de Lexico3 et de mkAlign de se familiariser avec les diff rentes fonctionnalit s du logiciel partir de corpus de recherche concrets et au del de cette prise en main d entrevoir quelques unes des possibilit s offertes par l approche textom trique des corpus de textes Compl tant la documentation disponible sur Lexico3 e Manuel d utilisation e User s Manual traduction anglaise du m me manuel e Les l premiers pas avec Lexico3 manuel de prise en main e http www cavi univ paris3 fr lexico3www site web de Lexico3 et sur mkAlign e Manuel d utilisation en ligne http tal univ pa
100. Chirac 1995 2003 et le discours pr sidentiel sous la V me R publique Paris Champion Explorations textom friques 44 m me statut que les rubriques des pages int rieures mais qui recouvrent d autres types d information que les rubriques principales hs curit EA Co c in ce i zi ch c Fr quences absolues 5 ca c zm c 0 i regions inz curit si cn c ZS 4 2 UN 2 200 Ti S JE CH ce zm c ce edition entreprises france hofizonsanalyse international k cn CH c c ka CH c ET Fr quences absolues france francepresidentislle horizonsanalyses international Figures 7 8 9 R partition des occurrences de la forme ins curit par rubrique Les Figures 7 8 et 9 montrent que la forme est tr s pr sente dans certaines rubriques mais absente d autres rubriques Elle est fortement attest e dans des textes relevant des rubriques Soci t Horizons Analyses France et de la rubrique France Pr sidentielles qui traite de l actualit de la campagne lectorale Elle est beaucoup moins fr quente dans la rubrique International qui repr sente en moyenne sur l ensemble du corpus 16 7 du nombre total d articles 45 Explorations textom trigues I Lu D w B ins curit Sp cificit s Edition france horizons international lemondedeslivres N ins curite Sp6ccites 1 horizoriskiasque lemondeargeri
101. EIEIDIETETET HIETEIETETETETETE a LILIEIE a BUI EJECIETEIETETETETETET mooo UO UO EPIEJETETCIETEIETETE EJEJETETETETETETETEI LIDIEJEIETEIETEIEIET EJETEIETET a IO UI a COU DOUD EJEJEIETETJEJETETJEIE EIETEJEIETEIETETETE OO DUU a DJEIEIETEIETIEIETETE LIDJIEIEIETIEIETETETSI IO EIETEIETETEIJETETETE OO UO a LILDIEIEIEIEIEIETETE EIBIETEIETIEJEIETETISE ETEIEIETCIETEIETEIE DIEJETETISIETEIETETEI udm a OO LILIEIEIETETEI LIDJIEIEIETEIETETIETE UO OO EIETCIETETETETIETEIE detit a L IO a CU OO ionioidiioio a LILILICIEJEJETIEIE EJEIETETETIETEIETETE OO EJETEIETETEIETETES a L1EIBIEIEIETEIETETJEIET EIEJEJEJETETETETETE OO a BILILIEIEIDIEIEEIEI EIBIETIEIETEJEIETETE BSISEJETEIETETEIETETE DOI UO a BILILILILI R UO OO EIETEIETETETES a LIDIEIEIEIEIEIETEIE UO OO a BILILT BILE TLIETETIETEIEIETE LES Ee nonen ET EE EST ES EL C1 OI WETTER a E TL TESL EN CES CI CT EE ESI sasin E a BILILIEHBIEIEIETIEBIETE TE OO BEI 099001801008 a Oni DETEIEIETEIETEIETET EJETEJETETETETETETIS a IO EIEJETETETETES a LILIEIEIETEIETEIETE ggo EJEJEIEIETETEIJETEIE EJEIETETETIETEIETETE OO a UO LILIEIEIETIEIEIETEIJE EJETETETE TET a LIEIEIE UO EJETETET a LIEIEIEJEIE UDO Figure 3 a 100 150 200 zu 3D 250 400 450 Sn 550 B ban rog 750 en e
102. EIEIEIEIEIEIEI LIEIEIEIEIEIEILIEIE EJIEJEIEIEIJEIEIEIEIE DOODOOOOODODO 000000000001 2250 DODODODODODO ITT 2300 2350 DODOODODODDODODOODO EIEJEIEIEJEIEIEIEIEI DIEIEIEIJETIEIEIEIEIE EIEIEJEIEIEJEIEIEJE 2400 EJEILIEIJEIEIEIEIEIE LIEIEIJEIEIEIEIEIEIE EJIEJEIEIEIJEIEIEIJEIE DOODOOOOOOO DOODODOOODODDOD 2450 E ITT CITT UTC ITT 2500 LIEILIEIEIEIEIEILIE EDILIEIJEIEIEIEIEIEIE EJIEIEIEIEJEIEIEIJEIE BON 0100000000001 2550 III EIEIEIJEIEIEIEILEIEIEI CITT UECHT CITT 2600 LIEILIEIEIEIEIEIEIEI LIEIEIJEIEIEIEIEIEIE EJIEJEIEIEIJEIEIEIJEIE E E EJIEJIEJEIEIEJETEIE E 2650 III ITT CITT UTC ITT 2700 BOOOOOOOO EIELIEIJEIEIEIEIEIETIES EJIEIEIEIEJEIEIEIEIE DOC 0100000000001 2750 LIEILIEIJEIEIEIEIEIE EIEIEIEILIEIEIEIEIEI CITT DOODOOOOODOOD DIEJIEJEIEIEJEIEIE E 2800 LIEIBIEIEILIEIEIEIE OO EIEIJEIEIEIJEIEIEIJEIEI DONC EIEIEJEIEIEJEIEIE E 2950 III ECO EIEJEIEIEJEIEIBS DICHT CITT 2500 EJLIEIEILIEIEIEIEIE UO UO UO EIEIETIEIEIEIETEIEIE 2358 IO EIETEIETETETIETEIETE UO UO OUT 3000 IO UO UO UO OO 3058 DIOU UDO UO Figure 7 Carte des sections r alis es partir des occurren
103. Explorations fextom trigues SYLED CLA2T Universit de la Sorbonne Nouvelle Paris 3 Explorations textom triques Volume 1 corpus et probl mes Sous la direction de Andr Salem et Serge Fleury F Abbassi E N e C Pineira Tresmontant A Salem L Sansonetti M Leenhardt P Couton Wyporek Romuald Schummer 2009 Explorations textom triques 2 Nous avons rassembl plusieurs compte rendus d exp riences r alis es avec les logiciels de la famille Lexico au cours de nombreuses recherches et dans le cadre de collaborations diverses Les navigations rassembl es ici ont t choisies pour mettre en vidence la tr s vaste gamme des domaines d application des m thodes textom triques ainsi que les fonctionnalit s des logiciels Lexico3 et mkAlign Elles sont publi es sous la forme de trois volumes volume 1 corpus et probl mes volume 2 s ries textuelles chronologiques volume 3 corpus multilingues Lexico3 http www cavi univ paris3 fr ilpga ilpga tal lexicoWWW mkAlign http tal univ paris3 fr mkAlign Lexicometrica http www cavi univ paris3 fr lexicometrica 3 Explorations textom trigues Fonctionnalites de Lexico3 Tableau des fonctionnalit s Pour pr senter les fonctionnalit s mises en uvre dans les sections suivantes nous avons r unis ci dessous les diff rentes ic nes associ es aux fonctionnalit s vis es dans leur contexte d utilisation Fen tre barre principale
104. F4 D36 A1 KSE 6 ri All G17 D36 V31 F22 D54 N35 N35 Z2 F26 N35 W24 G43 O1 Ux gt DCE ALL UN e u is 4 Fe Q42 03 D40 T1 D21 Q3 Z7 M3 V28 A 25 A 4 Y 5 N35 M17 X1 P11 M3 dom drin E VUE 22 A 3X FA XI X1 Z7 D21 D36 X1 D2 Z1 N16 Z1 N 3 At pesa Tip e D21 D36 V28 V31 N35 W24 Z 7 A RK8 N14 A30 A2 O34 A1 Z1 V30 D 2 I X 1 D32 D36 T22 N35 W24 CGr43 A 1 74 9 ANANAS TO KA La ii M40 G43 X1 A1 Z2 N35 Z2 M18 M17 X1 D54 V26 D46 X1 Y1 D35 N35 N35 04 G43 G37N35 A12 A1 Z2 N35 22 ACTI D LO naa F2X D54 N35 N35 Z2 F22 G43 Z4 V4 V4 X 1 N25 WENN mm RAT nn d O34 N35 X5 D54 N35 N35 Z22 034 N35 G14 X1 N25 Awm mulAmMS G17 D36 V31 D21 I9 N35 Z2 M18 M17 D54 N35 Z2 G17 R4 X1 Q3 Y1 Le Figure 2 Le d but du Conte du naufrag suivi de sa transcription en codes Gardiner Dans l tat actuel des logiciels de traitement textom trique il n est pas envisageable d appliquer directement les proc dures textom triques destin es permettre des mesures sur le texte aux s quences de signes hi roglyphiques Cependant comme nous l avons signal plus haut les translitt rations obtenues partir des codages de type Gardiner constituent des quivalents extr mement fid les de leur source hi roglyphique Dans ce qui suit nous tenterons de montrer comment des mesures textom triques portant en fait sur les s quences originales du texte hi roglyphique peuvent tre r alis es partir des translitt ra
105. I Google Envoyer res Engagez vous voir UNE VERITE QUI DERANGE lors de sa sortie en salle t dAliGore A fy Sh i i fer 1e at d la plan te 2 Za Monde Ni LI Ce film l ve les derniers doutes les changements climatiques globaux mettent l humanit au pied du mur a Figure 5 Micolas Hulot D Ka A La page d accueil du blog criseclimatique fr En revanche le mot crise tableau 6 est utilis pour voquer la plupart du temps la p nurie de ressources nerg tiques fossiles et les tensions sur le march du p trole Tableau 9 Extrait de la concordance autour de crise que nerg tique du pays car avec la demande de 50 d ici la S dans la rg tique pour faire face aux d fis d une ait dans les ann es 70 en r ponse la la fnme cgt dans un contexte de pieds dans le tapis en pleine p riode de le pr sident de la r publique S la e la comp titivit dans un contexte de st paradoxal que face aux pr mices d une df est porteuse qui plus est en pleine orientation de notre pays un moment de e g n ral de la cgt nous vivons une une solution autochtone et pratique la es garnies de milliards provoquant une rop enne r v le que pour r pondre la our lancer une telle op ration en pleine 1 urgente n cessit de r soudre cette tr s t t 1 ampleur et les enjeux de la abilit face une r alit celle de la nerg tique nerg
106. I 1 1 LI LI LI LI LI I LI LI 1 I LI LI LI I I I 1 i 1 i i i I LI i 1 i i i i I LI i i i i i i 1 i i i i i i LI LI i i i i i i i LI i i i L 1 1 i i i L LI i i i i i i 1 LI LI V LI i 1 I 1 1 I LI I LI LI I LI 1 I LI LI LI I LI I I 1 i i i i i i i i i i i i i i i i i i i i i Cl x c qu es F LO DE zt CN Sen e dq baal F en Hi zt ey CH ee CH CH CH q ka dx E Lu T Ke Ke ODD OF X S8ANEIN SB Explorations textom friques 33 I 1 1 i i 1 1 1 i D 1 i i 1 1 i i 1 i i 1 i i i i i i i i 1 1 i i i i i i i i i r 1 i i i i 1 i i i i i i i i i i i i i i i i i i i i LI LI LI LI Li LI LI LI LI LI LI LI LI i i i 1 i i 1 1 i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i D LI i LI LI LI LI 1 1 I i TI L t i i i i i i i TI u i i i i i i i i i i i i i i i i i i i i i i i i i 5 EIL AT Gs e Kg ek STI tee CE a r FT KAH E EL MH LAC Ps rm prg EC P LI LI LI 1 i i i LI LI i i L LI i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i LI LI i i i LI LI LI L i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i LI LI LI LI LI LI I 1 LI 1 I 1 U LI i i i i i i i i i i i i i i i i i i i i i i i i Jess si La ld Li Less S dem dt G i W T p I cur aile een E SA uer e tap n mum Eust r i i i 1 i D 1 1 i 1 LI LI LI LI 1 LI LI LI 1 1 I LI i LI LI LI LI LI LI LI LI LI LI LI L i 1 1 1 1 i i r i i i r LI LI LI LI I I 1 I LI 1 I U 1 LI i i 1 i
107. I LI I LI LI LI 1 H 1 L i L LI I LI LI I I i i LI LI i i i L 1 i i LI LI i i i i i LI LI D DU DU L 1 L LI 1 1 LI p U LI 1 I LI 1 LI LI P I LI L U i i i i i i i i i i i i i LI i i i i i i i i i I I I k I LI LI I I LI LI i L L L i i 1 i i i i i i i i i i i i i i i i i i i L i I 1 1 LI LI LI LI Li 1 LI LI LI L LI LI P P P L L i i LI i i LI LI LI i i i LI LI i i i i i LI i i i i i 1 i i I LI I 1 i i I L LI i i i LI 1 1 i i LI LI i i i i 4 LI LI LI i 1 I LI LI LI I LI LI U 1 LI 1 I U 1 LI F P L L L LI i i i i i i i i i i i i i i i i i i D Ru 1 31 p TL De Re Ra I 1t gap mcr Bel ee e Ek palT eeh pes palT pes pe l Mehr E cm Ix arm TS Be E DX TP E Pa DT E LI LI i i i i L L i i i i i i LI U F I i L I 1 1 LI LI LI LI LI 1 LI LI 1 I 1 LI LI LI I I I 1 i LI 1 i i i LI LI i i i i i i LI i i i i LI i i i i i i i i i LI LI 1 i i i L I LI i i i LI 1 1 i i L LI i i TI i i i 1 i U V LI i 1 L LI 1 I LI LI LI I LI 1 I LI LI LI LI I LI I I 1 i i i i i i i i i i i i i i i i i i i i i i LI LI i L L LI 1 I 1 LI I LI l L LI I i i i L L i i i L L i i i i i i LI i LI I i L 1 LI LI LI LI LI LI LI I L LI I L LI LI LI I I I I LI i i LI i i i LI LI i i i i i i LI LI i i i 1 i i i LI LI L L L LI LI 1 I LI i i i L LI LI i L i imom o br zen me o ker ze zm o Le se zm les ze zm cl ze zm lee ze ze im ze mm mel e om zm 2 mm dl e ze zm zl e s Es ze ze E e ses E L L e e le la I 1 1 LI LI LI
108. I LI LI LI I 1 L LI i i i i T i i i i I i i i i i i i i i i L i 1 LI T i LI LI LI 1 r La CH Lo D C L e iu c li cim c Io c A c Ll uy Cc Lu C D O i o C Li c uw C uy o Fe r qi d u3 Wu st cb Ou Di C4 Duo se CO CO CD Ou CO Fee CD D oua Hi st st Ou Di Cl Cl sz e eee eee o ge SENJOSQE 580 Ua DEJT m E 5 a Pt E i i i i i i i i i i i i i i r i i i i i i i i i i i i i i i sl 4 Hi i 1 i I 1 i i i i i i i i i i i i r i i i i i i i i i i i i i i i i 1 1 LI D i i i i i i i i i i D i i i i i i i i i i i i i i i i i i I 4 I i i i i i i i i i 15 TT dpi i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i 1 1 1 u i H He i i i i i i i i i i i i i rr e OES cce m ems i i i i i i i i I LI i LI LI LI i i 1 i i i i i i i i i i i i 1 LI I 1 de Co sh V 1 LI 1 1 i i 1 i i 1 LI 1 i i i i i i i i i i i i i i i i 1 i i 1 1 i i i i i zd rue Kcu LT 1 ke Arm el 1 i i i i 1 i 1 1 i i i i 1 LA i i 1 i 1 1 i i i i i i i i i 1 LI 1 1 i i i iON i i 1 i 1 1 i i i i LI i LI D LI i i i i i 1 i 1 LI 1 i i i i i 1 i i i i i i i i 1 LI 1 1 1 si ee Er F QE A J Z i i i i i i i i 1 LI 1 i i i i i i i i i 1 i Li i i i i i i i i ES L e E E gr qu IE ES I
109. IE UECHT 0000010010001 1550 III OOOOOOOOOOD DOODODODODODODODO DOODODOODOOODODODODO DIEIEJEIEIEJEIEIEJE 1600 LIEILIEIJEIEIEIEIEIE LIEIEIEILIEIEILEIEIE EJIEJEIEIEJEIEIETJEIE EJEIEIEJETIEIEJETEIE OO 1650 III ITT EIEJEIEIEIEIEIEIEIE DIEIEIEIJEIEIEIJEIEIBS 1700 LIEILIEIEIEIEIEIEIE BILIEIEILIEIEILIEIE EJIEIEIEIEIJEIEIEJETIE DOC 0000010000001 1750 1800 1850 Da mn nn nn nin nde nan Din ni nn ni ndon DIEIEIEIJEIEIEIEIEIE DIEJIEJEIEIEJEIEIEJE 1900 LIEILIEIEIEIEIEIEIEI LIEIEIJEIEIEIEILIEIE EJIEJEIEIEIJEIEIEIJEIE DPIEIEIEIJEIEIEIETEIE 010000000001 1950 DODODOODDODODOODO III DOODODOODOOODODOOD DIEJEIEIEIETJEIEIEJE 2000 LIEILIEIEIEILIEILIE LILIEIJEILIEIEILIEIE EJIEJIEIEIETEIEIEIEIE DOC 0100000000001 2050 III EIEIEIEIEIEIEIEIEIEI CITT qon nin nin DIEJIEJEIEIEJEIEIEJE 2100 EJEILIEIEIEIBIETELIE EILIEIJEIEIEIEIEIEIE EJIEJEIETEJETIETETETE DOG EIEIEJEIEIEIEIEIE E 2150 CITT E ITT 2200 LIEILI
110. IESIL ILE IL IE IE ETEIE TET E REL 1L 1L EISE LE OE OE E IE T COE IE IE JEJE IE IE IE IE TEIETE IE IE IE JE IE IET dl OO RR RR IE IE TE IE 1 U O OOOO TIS C TE 1E TE TE 1E TE 1E TI E RR BS JE TE 1E TE TE HIE E E 1 E TE TE TEES E OE OE IET ETE TE TE TE TE TIS E E T C 1E 1E 1E 1E 1E TE HI E 1E BI TL IL IL IEIE OO IE IET EIE TEILE IE IE IE IE IE IET EIETE IE IE IE EIE IE IE TETETETETE IE TIE IE IE TE I BI IL U I EIE IE IEIEIEIE IE IE IET EIEIEIEIEIEIEIE IE IET EIETIE IE IE IE IE IE IE IET EIE TE TIE TE IE IE IE IE TE Figure 18 Localisation des Prep VInf dans le corpus Mathilde LC Il n y a aucune occurrence des constructions det VInf ni pourt Vinf dans le 1 corpus Quant la pr position at VInf il s agit d une nonciation spontan e de l enfant reprise imm diatement par l adulte dans le m me contexte lexical Dans le corpus Julien LC la pr position repr sente le tiers de la cat gorie Prep et apparait principalement dans le contexte lexical apprendre compter Pour la pr position de le contexte pr c dent est exclusivement d cider suivi de prendre ou emmener Enfin pour la pr position pour le contexte est aller au zoo pour voir si Les m mes d comptes sur le corpus Mathilde LC montrent que l emploi des pr positions et pour est quilibr respectivement 17 et 16 occurrences Ici encore c est la construction apprendre compter qui est la plus utilis e Le seul verbe qui sert introduire la pr position
111. LI F i i i i i i i i i i i i i i i i i i i i i i i i 4 a Es H DEET D i i i i i 1 i i t e Ecke ek LE WT E TE WEE be Lud l i i I 1 i i i j j j i i L i i 4 pl ST SS SS am ebe F zi mm D Ch c F Or CO CQ x CO CN Ost Hi 0D les patriotes 91 Explorations fextom trigues 89 les 88 EE E les 86 SS SS SS les 75 E e We ce les 66 les 64 les D q a JEE les G0 SS les 58 c ne e j les Du eee Sp geile jj les 46 eee EE EE EE les A2 eie uides fette e Geistes les 2 H E les E MN les ZT ss eee ps ps tg les d esee peces E E ue les SS SS SS E SS les Eet EE cc t eu les 39290 uersu EE EE les 3J les ee ee e Ee EE les ZJ SS Si les 30 cese les DO SS cene SS SS les Par page 22 foutre hommes plus tra tres aristocrates autres fripons brigands jean ennemis d partements bons accapareurs sc l rats uns xfran ais hrissotiris rois bougres muscadins riches meilleurs intrigants pr tres royalistes 38 175 157 142 144 161 161 122 34 35 Explorations textom trigues Ins curit et lections pr sidentielles dans le journal Le Monde Presse Emilie N e emilienee wanadoo fr R
112. LI L i i i L L i i i L L i i i i i i 1 i U I L 1 1 1 LI I LI LI LI I LI LI 1 I LI LI I I I I LI i i 1 i i i LI LI i i i i i i LI LI i i i i i 1 i i i I LI LI L L LI LI 1 I i 1 LI LI I LI L i i i i i 1 i i i LI LI i i i i i LI LI i L i i L 1 I LI 1 LI LI LI LI LI I LI 1 I LI LI LI LI LI I I I 1 i 1 1 i i i LI LI i i i i i i LI LI i i i i i LI LI i i LI LI LI LI t LI 1 I L L L LI LI LI LI LI LI LI i Era p a p m E pe Ee D Eer Ee E EH pd EI I 1 1 LI I I F F I T r 1 I 1 i LI I I I I 1 LI LI LI i i i i LI LI i i LI i LI I LI LI LI LI LI LI LI i i i I i i L L I LI LI I LI I r LI LI L LI i L 1 i i i i i LI LI i i i i i i i i i i L i I I LI LI LI LI LI I I 1 I LI 1 I I I i i I i LI LI i i LI i i i i i i LI i i i LI i i i L LI i b i LI LI LI I L 1 i LI LI L i i i L 1 I i i i LI LI i LI i i i i LI i i i L I L 1 LI LI LI LI LI LI 1 LI 1 I LI 1 LI LI L U P L L 1 i i i i i i i i i i i i i i i i i i i i LI 1 I i I L D I LI LI 1 i LI LI L L L i i 1 i i 1 i i i LI LI i i i i i i Pd i i i i i L i Li 1 1 1 1 1 LI I 1 1 1 i 1 i LI i 1 I L 1 De EST X W dpa zw D NN ET AT r E RE E E TEE RE Tr TT TAA 71 L i i LI i i i k I I LI 1 1 i LI LI LI i i i i i i i i i LI I i i i i i i Ee i i L V i i 1 I LI 1 LI LI LI U 1 LI 1 I I I i Ze L U L L I 1 i i i i i i i i i i i i i i i i i i i i i i 1 I 1 L I LI LI I L I I 1 I L L i i 1 L 1 i i i i LI LI i i i i i i 1 i L LI L I L L
113. TEI EIETEIEIEIETETEIETET EIEIETIETEIETEIETEIET DOUDOU LILIEIEIEIEIETHISIEIET EIETETETEIE TE OO IO DIOU EIETEIEIEIETETEIETET COOC OORT LILIEIEIEIEIEIEIEIET EIETEIETETISIE ETE TE T RIIT IO DIOU EIETEIEIEIETETETIETET OO UHT LILIEIEIEIEIEIEIEIET OO OO IO DIOU EIETEIEIEIETETEIETET OORT TE IE OCH LILIEIEISIEIEIEIEIET O0OBOOOOOC EIETETETEIE TE TETE TET EIETETETEIE TE IETE TE T EIEIETETETE TE TE TISIE 1 LILIEIEIEIEIEIEIEIET EIETETETEIETETETETISI EIE TE TETTE TE TE IE TE TIS ETE TE TE TIE TE TE TE TE V Figure 4 R partition des formes r chauffement et changement ST ecoecho gala On constate que le parti pris ditorial nonc travers la banni re du blog contraint fortement la d signation notionnelle dans le discours Ainsi la banni re du CES installe d embl e l expression changement climatique tandis que le blog gaia introduit son propos en parlant de r chauffement climatique Les cartes de section figure 4 permettent de visualiser les co occurrences des deux formes L extrait de corpus pour chaque occurrence offre la possibilit d identifier les constantes et les variations d usage 91 Explorations textom trigues Cette approche permet de constater que le contexte s mantique de la
114. Tibet possiblement responsable selon elle d un d une alt ration du karma commun aux chinois La connotation particuli rement sensible de ce type de conclusions dans le monde sinophone qui implique d une certaine mani re une punition m rit e par ses victimes a imm diatement suscit de tr s vives r actions dans l opinion publique chinoise Dans cette tude nous avons tent une premi re exploration des r actions cet v nement partir des textes accessibles sur l Internet Dans un premier temps nous avons interrog deux moteurs de recherche Google et Baidu pour localiser les documents qui contenaient la fois les termes Shalang Sitong Sharon Stone en caract res chinois et W JII Sichuan r gion dans laquelle a eu lieu le tremblement de terre Wenchuan Au vu des r sultats nous avons constitu un premier corpus partir de trois types de sources textuelles diff rentes que nous avions identifi es e des sites d information en ligne presse agences etc e des textes pr sent s sur des blogs personnels e des r actions individuelles sur des forums ouverts au public par des sites tr s fr quent s Bien entendu dans cette premi re tude qui ne porte que sur un corpus restreint nous ne pr tendrons pas rendre compte de la totalit des r actions suscit es cette occasion dans l ensemble de la population chinoise Il nous semble cependant qu elle montre la possibilit de
115. a un parc qui porte son nom parce que ila il a il a arr t le cambrioleur d accord parce que il a arr t le cambrioleur ind Lorsque nous faisons la comparaison des deux tudes Julien et Mathilde nous voyons que face aux 22 occurrences de parce que localis es dans le corpus de Julien 4 par l adulte et 18 par l enfant 12 occurrences seulement sont pr sentes dans le corpus de Mathilde 8 par l adulte et 4 par l enfant L nonciation de parce que dans Julien s explique par la forte pr sence des questions de type pourquoi de la part de l adulte mais aussi par la fr quence des questions en g n ral En effet lorsque nous faisons la carte des questions dans Julien en recherchant le point d interrogation not en rouge nous remarquons que l enfant est soumis un questionnement serr de l adulte tout au long de l entretien dl MI Lie mal RERE HERB WILL IN NENNEN INENENNENENENHNHNHNEHNENEEB 0 enen Pj nn e E JE JEJE IE IE 100 o E ER ER E EP 150 E E BE OE TEE E E E E E U U PR E PE ER E E a Keel UE L1 1 j E im imp imm MMM 40 LILILIEIEHSIEIEIEIE EISE SEL SEL IE E OE EET E OE JEJE JEJEJEJE IE IET ETISHIEE JE JEJE IE IE IET UU 300 dl M EE ERRER UER U LI ILLBES EERE NN UE ER SERBE RCBEMININIIU 350 je Eje Ene 40 Figure 8 Localisation des parce que dans le corpus Julien A l inverse dans le corpus de Mathilde nous observons une dispersion des marques qui correspondent des questio
116. ableau 2 ES Graphique de Ventilation Figures 23 24 AFC locuteur par dialogue 118 Explorations textom trigues Interactions homme machine Ajustements l interlocuteur dans l change Marguerite Leenhardt EA2290 Syled Cla2T Le S miopole mleenhardt le semiopole fr R sum On utilise la textom trie pour comparer les productions d intervenants en situation de demande de renseignement dans un contexte industriel Des traitements adapt s ces comparaisons mettent en vidence diff rentes conduites interactionnelles dans les changes entre humains d une part entre humains confront s une machine d autre part Apr s une pr sentation du corpus et des codages indispensables sa prise en charge 2 une s rie d analyses quantitatives permettent de d gager des caract ristiques propres aux diff rents types d intervenants 3 puis de proposer sur cette base une typologie conversationnelle des interactions 4 Ces analyses nous am nent 5 discuter la question de l ajustement conversationnel chez l humain en situation de demande d information Mots cl s conversation humain machine analyse conversationnelle textom trie conduite interactionnelle Abstract Textometry is used to compare a verbal inquiry by a human speaker in reference to an industrial context or subject matter Specific data processing is used to compare and correlate behavioural interaction between a human to human exchange and human t
117. age Je cadre urbain ou un d faut d int gration a conc d m jospin mais cela ne supprime pas la responsabilit individuelle de ses actes pour chacun nile refus de l impunit et de marteler la volont du gouvemement est que chaque acte non respectueux de la regle trouve sa sanction et sa juste sanction la s mantique est importante le 17 avril lars d une pr c dente intervention sur france 2 le premier ministre ne parlait pas de sanction mais de r ponse apporter chaque acte d lictieux avec ce glissement on n est d sormais plus tr s loin du concept de tol rance z ro che al opposition inspir des m thodes am ricaines de lutte contre la d linquance alors que jusqu pr sent Je premier ministre maistait galement sur le volet ducatif des r ponses que son gouvernement apportait la d linquance dn va quere fait r f rence dans son intervention de mardi afin de lutter contre les probl mes pos s par une partie d la jeunesse violente et lutter contre l conomie souterraine et la drogue m jospin a aingi annonc que les ministres de int rieur et de justice allaient simultan ment r unir le b septembre les pr fets et procureurs pour justement faire que la coop ration entre la justice et la police soit meilleure et accrue et le premier ministra ra a Fara mrriar we at une mom annii niin dans la duro ei ie allez nannar nalta batailles main get la rae niei shilt
118. am p cun cape i a uo AJ con a Up im uni ag c cca un a C oca tun a pee tan eap piece can ap iu man wei ap ap Co a n n ca a ung C em i ue ual ul a iced gj SS cauia Eco Eua mm E e D E boum nibo cuam bus a 260 264 266 272 2F6 260 284 25388 2982 296 200 304 308 sta 516 320 324 3238 S32 536 340 344 348 352 Figure 3 Ventilation des occurrences de la forme de en fr quence relative dans les 96 num ros du corpus Duchn Lexico3 Statistiques par parties v S lectionner l ic ne Statistiques par parties 5 me ic ne partir de la gauche v Choisir le type de cl qui d terminera la partition active du corpus Y Faire glisser une forme partir du dictionnaire ou de toute autre liste ex proie L outil carte des sections L outil carte des sections permet une visualisation globale de la r partition des occurrences qui rel vent d un type donn dans l ensemble du corpus Chacun des carr s repr sente un l ment particulier du texte d coup en sections On a d cid pour tablir la carte pr sent e la figure 4 de repr senter chacun des paragraphes du texte rep rable gr ce notre codage pr alable ce qu il s ouvre sur un caract re La s lection l aide de la souris d un paragraphe particulier provoque son affichage dans une fen tre situ e 23 sous la carte des sections Comme on le verra plus loin XX il est possible de Explorations textom triques mat rialiser une partition
119. ans le pr sent manuel peuvent tre t l charg es depuis ce site Explorations textom triques 10 entreprises textom triques et le compte rendu d une recherche qui nous a conduit a agencer l utilisation de ces m thodes en fonction des objectifs fix s au d part de l tude des r sultats que nous avons obtenus mais aussi des perspectives de recherche qui se sont ouvertes cette occasion Dans chaque cas nous nous sommes efforc s de faire en sorte que le lecteur dispose des informations suffisantes pour reproduire par ses propres moyens les fonctionnalit s d crites Ces informations sont rassembl es chaque tape en fin de paragraphe dans un encart annonc par la s quence Lexico3 ou mkAlign On se reportera aux manuels d utilisation pour une description plus d taill e de chacune des fonctionnalit s Le Tutoriel n l Exploration du corpus P re Duchesne devrait permettre l utilisateur de se familiariser avec les notions de ressources num riques textuelles de corpus textom triques de d pouillement d un corpus en unit s textuelles de partition d un corpus textom trique et d aequ rir quelques notions sur les principales m thodes textom triques qui permettent d explorer ces corpus de textes Le Tutoriel n 2 S ries textuelles chronologiques est consacr l tude d un type de corpus particulier que l on rencontre tr s souvent dans le domaine textom trique qui est celui des corpus rasse
120. aque routine La colonne gauche contient les diff rents exemples tandis que la colonne droite comporte nos propositions de typage pour chaque cas de routine Tableau 9 Exemples de tours de parole produits par la machine M proposition de typologie des routines Exemple de routine Type de la routine lt TdP MC0174 gt sncf bonjour quels renseignements d sirez vous obtenir Routine d ouverture P Nous nous attachons montrer des tours de parole caract ristiques des routines de l un et de l autre pour affiner la comparaison des interactions Nous utilisons cette fin la carte des sections comme trame d exploration Nous y projetons des formes et des segments r p t s caract ristiques des routines de l op ratrice et de la machine 135 Explorations textom trigues lt TdP MC0175 gt quel jour d sirez vous partir Routine pour l obtention du jour lt TdP MC0176 gt vers quelle heure d sirez vous partir Routine pour l obtention de l heure XTdP MC0O179 d sirez vous d autres renseignements 2 Routine de pr cl ture lt TdP MC1203 gt est ce qu il s agit d une question si oui est ce Routine de reformulation que vous pouvez exprimer cette question de mani re plus pr cise s il vous plait TdP MC1487 pouvez vous formuler votre phrase autrement il Routine de reformulation vous pla t T lt TdP MC1403 gt le premier train apr s douze heures z ro minute Message caract re informa
121. ar d faut conduit aux r sultats suivants nombre des occurrences 141 182 nombre des formes 11 070 nombre des hapax 5 056 forme la plus fr quente de 6 130 3 2 Etude globale des types simples Ces donn es sont accessibles en activant l ic ne PCLC d s qu une partition quelconque a t choisie Sur le panneau qui apparait alors on peut tudier l accroissement du vocabulaire au fil du corpus en activant l ic ne ACCV zc HS UE 04 Ver Ub UF ERI toco 20000 OO 4000 SO ROC TODO POD 9 T00000 110 000 120 000 130 000 140 000 Position dana le bete nenet d occumencex Figure 2 Accroissement du vocabulaire et structure de la gamme des fr quences Lex co3 Accroissement du vocabulaire v S lectionner l ic ne Statistiques par parties 5 me ic ne partir de la gauche v Choisir un type de cl qui d terminera la partition active du corpus v S lectionner l icone PELC 5 me ic ne partir de la gauche v S lectionner sur la droite du panneau b me bouton partir du haut le bouton AC comme Accroissement du vocabulaire Le diagramme appara t dans une fen tre sp cifique On peut constituer le diagramme correspondant chacune des parties ou un ensemble de parties en les s lectionnant l une apr s l autre et en les glissant sur la fen tre du Diagramme d accroissemenet Explorations textom friques 16 Guide de lecture pour la figure 2 Le Diagramme d accroissement du vocabula
122. art et l omnipr sence des questions li es l cologie d autre part La question initiale que l on se pose est celle de savoir comment sont appropri s et restitu s les diff rents concepts environnementaux v hicul s par des univers de discours a priori diff renci s scientifique citoyen politique etc Compte tenu du grand nombre de blogs disponibles cf la constitution du corpus ci apr s et d une masse textuelle significative pour chacun d eux nous nous sommes orient s vers l approche textom trique Dans un premier temps l outil Lexico3 nous a permis d identifier une s rie d expressions rattach es au sujet de l environnement et d obtenir une vue quantitative globale sur les formes clefs en pr sence Dans un second temps nous avons prolong ces observations par une observation qualitative de ces formes dans leur contexte discursif afin de cerner plus pr cis ment le sens qu elles v hiculent dans chacun des discours mis en pr sence 2 Caract ristiques du corpus Le corpus que nous avons constitu est compos de l ensemble des billets de chaque blog de sa cr ation jusqu au mois d octobre 2006 date du recueil L exploration a t r alis e sur la base d un corpus de 23 blogs recouvrant 5 champs discursifs identifi s comme distincts Le tableau 1 donne la liste des blogs r unis pour constituer le corpus BlogsEnvironnement On peut voir au tableau 2 un extrait du corpus apr s balisage succinct pour permettre sa
123. artir de corpus paralleles Th se de doctorat Universit de la Sorbonne nouvelle Paris 3 Paris Zipf G K 1935 The Psychobiology of Language an Introduction to Dynamic Philology Houghton Mifflin Boston Webographie Site du Projet Rosette http projetrosette info page php Id 1 Pr sentation et texte int gral du conte du naufrag http pagesperso orange fr sylvie griffon textes naufrage naufrage htm
124. as textom trie Abstract The expressions of many ways related to web technologies become ever more accessible to Chinese citizens wishing to express their opinions about topical issues About an incident caused by the remarks of an american actress after a natural disaster in China we try to explore the dimensions of the reaction to these words in chinese public We chosed to compare a few samples of texts published on the web by the official press texts recorded on personal blogs and responses collected from public forums This first approach illustrates the ability and interest of the type of proposed investigation Keywords Opinion studies media analysis textometrics
125. avant ordre du texte Y Choisir ventuellement un regroupement par parties si une partition a t s lectionn e L outil statistiques par parties L outil statistiques par parties permet de juger de la r partition des occurrences relevant d un m me type dans les diff rentes parties d une partition cf figure 2 re cm mi e ncm Less les cmt p eam m m Sh cm n el Ee qup gue cm m c sue ne am hag om cm cam hn cm ee prp n c c e ee Lie ee cem Ju ie um cmm le ne cu a Rma Lee Le i i 1 i i i b 1 1 1 i D Ti i H es ii EEN EE ME nn E GR FE ET SS rT me mY mT i Hi Ra ua2 E pro d aene pe pe e L WALT LY Le deed x E EP eg S H 4 OT k RE RIT Ae NT I D Pa 3 na S E beet Ee D E CM E a E E E ca p ELI SE M E a a A ES SU RA E o a gu orar cal li cr Rt EE icut E II ELA Ra cu E p o A c EC M ei poer E goo E Mp A pa i i i SDL DU RE S e CEN AM A C RE DE D E ER uo circi cili cu Lcid E e reete iler irre lee E cuc hol EE E ee elec c poene ca pee eee aee rre dm Sem P CRT acras RU RE e ue c ur EE M Kap c NES TE NH c A cnni C cie Ou cum ae CN TON EN PT TN ON de EE Rer i i ir E tie E m cun e em m c i mm cm AM mem ce ems m E m me cm cem m Ru m cum E m m m cum cm Rp Ra ce ia p ra cm cm o Ra cum m RO Ra ee Sra Tee ime c is mw am Rum n Le CR um e ae Ra QI m Dae om mm Cra e am Rs cm a uo RR get go ES Yt ny ee crue beide EE a arm a arma S em ale S nme o t rim am
126. avoir le vent en poupe gt yi lu pin an La notion de mot chinois et la segmentation automatique en mots seront pr cis s plus loin 82 73 Explorations textom trigues Tableau 1 Exemple de r actions dans la partie forum du corpus Un forum Le forum du site Netease 163 com Kmediazforum cH vedi EMINA Lmoqinglio317 1 2008 10 02 13 11 06 REH EHR Hy B AB Z QUA EI MA ip 222 213 x 2008 08 27 23 28 26 REH 2 N ME S 3 L By x rf SZ DN CAT ml KA K E Ab EH MAY 1 rg LO L EB RE ip 222 181 xk Ki 2008 06 10 12 11 02 KEH MA 70 69 x x ik MA 116 3 kx kx 42 sur le forum les intervenants s identifient par un num ro IP Les propos sont parfois exprim s avec certaine retenue parfois
127. ces de la forme di zhi boycott La carte des sections qui montre la distribution de cette m me unit l int rieur des sections paragraphes d coup es dans le corpus permet de localiser cette vision avec une plus grande pr cision et de v rifier que le terme outre ses emplois massifs par certains des internautes 80 Explorations textom trigues rep rables par la couleur fonc e des paragraphes qui correspondent leurs interventions est largement utilis par un grand nombre d intervenants Guide de lecture pour la figure 7 Dans la carte des sections qui correspond au corpus StoneKarma les volets correspondant chacun des m dias tudi s sont s par s par une ligne rouge Pour chacun des volets les diff rentes sources presse blogs forums sont repr sent es par un carr Les carr s de couleur vive permettent de rep rer les sections qui utilisent particuli rement le mot pour lequel la carte a t tablie ici la forme di zhi Poycott 81 Explorations textom trigues Contextes de di zhi boycott dans la partie PRESSE tri apr s WA et E E coy AT 2 MR PE Sa X m 2
128. cle ainsi qu un ventuel ph nom ne de ressassement soit un grand nombre d articles emploient le mot et dans ce cas on observera une densification de la forme l chelle d une partie soit les deux ph nom nes sont conjugu s 39 Explorations textom trigues mats EREIEJEIEIEJEI EIE E EJEJEIESEIJEIEIJEIETE EJEIEJEIEIEIEL EH EJEI rao ulet 2001 N sotit 201 EJEJIEIEIEJEIEJE DDDDDDDDDD P EJ EJ EJEJ E13 EJ E E3 EJ EJ DODDUUDDUIRD CDD naci 00000000E EJEJ EJ EJETESTEJ EJETEJ EIE EI EJ ET EJ ET ETE EJEJE EI E31 EJ EJ EJET E rac EJEJEJEJ EJ EJ E EJ ETE EJ EJ EJ EJETES E31 E EJ EJ EJE3 E31 EJ EJ EJ E E ELE EJ EJ EIE ET maig EJEIEIEIEI EIEIEIJEIEIEIEIEIEIEI EJEJIEIEJEIEIEIJEIEIE EJEIEIJEIEIEIEJEIEIEI EJEJIEIJEJEIEIEIEIJEIE EJEJEI EJEJETEI EJEI EJ EIEIEIEIEITEI EI EJES mois EI EJEJEJEJEJEIJEIEIEIE DDDDDDDDDD O0 0 0 0 EJEI 000 Agga N nA EJ EJ EJ EJ EJ EJ E mats EIEIEIEIEIEIEIEIEIE EJEIEJEIEIEIEIEIJEJEI EJIEIEIEJEJEJEIJEIEIE I EJEIEIJEIEIEI EC CE LE3 sept zT 100 DA octobre ZOU OB an I5 decembreznt eb U Aopr ier 2001 300 E E3E E EE E3 E ES E E1EJ E3 8 Fevrier 002 350 mats EIEIEIEIEI OD DOP OO EIEIEIJEIEIEIEIEIEJ DD Umatrz 2011 400 450 DUODDD 0000000000 0000000800 0 E E3 EL ET ET EJ E E E 1U as n2 002 DO EJEJEIEIEIJE OO DO EI mais EJETEIE ETE E31 EJ EJ EJETEJE E3 EJ E1 E3 EJ UODDDDDDD LEIEJIEIEJIEIEJEL EIE mars Tu
129. da Leute e askima li de allant U t k En avril au contraire la forme apparait dans de nombreux articles mais la courbe des fr quences relatives montre que la forme le ph nom ne de densification est att nu si on consid re la longueur de la partie et le nombre des articles Enfin en mai deux ph nom nes sont conjugu s de nombreux articles utilisent la forme et celle ci est r p t e au sein d un m me article voir Tableau 4 al Explorations textom trigues Tableau 4 Carte des sections et extrait d un article paru au mois de mai Partition 5P CT ET D E rrdbrrprgrggrggrgrgrgrgrgragy moig T E M seullage Ins curit 5p cifs ed mi ee dl LIEBIEIBI EH EE BEJEIEHETELELES ES E ELEE ELE ESELE EE EJ E EEEL E EJEJEE E 550 LEIBIBIBIBIBE E ETE E ET EI ET EH mi VI mars al UDO BEBIBEIEEL BEBE EL ETE E ELE EL ETE ES ET EE EE EESEJEELEJES ET Au UDO DUDU EJ EJES ET EL ETE ELE DOUD ORT 450 HBEBEBBBBEE DUDU vis awril DUDU BBEEBEHBEBEE BEBEBBBBEBEBEBEBBEEBEBLBEEBEL 500 UDO DUDU DOUD DUDU LDBDBBEBLBEBEBLBELD 550 E 500 E nn Eee L1 HEIBIBIBIBEBS EL ETE EL ETE BL ELE ES ELE E ELE EE ES EL ET EE EL ETE ELETEHS ES EL ET EJ EL ETE 650 DDODDDDDDD GC LOGO OGC EL EE ELE 0000000080 8808100100680 at LIBIBIBIBIBI BEBE DUDU E E BEES EL ELE E EE EE ELE ELE BE ERE EE EE EL EL EE E EBELEEBL ELE EE ELE E E 0 HBEEBEBBEBEBEBEB BBEBBEEDEDE EBEDBBEBBEBE DOUD DBBBBEEBEBEE 800 Dai Di E71 E71 E ESI E E E31
130. de interpr tation sans exploration compl mentaire si on met en rapport les r sultats obtenus ci dessous avec un contexte extralinguistique et plus pr cis ment avec des faits concernant la politique int rieure en France entre juillet 2001 et juillet 2002 En s appuyant sur les rep res chronologiques ci dessous Tableau 5 nous pouvons par exemple faire correspondre la premi re hausse de fr quence qui se situe au mois d ao t 2001 partie 02 la publication des chiffres de la d linquance en France ainsi que les premi res orientations de la campagne lectorale On peut galement mettre en rapport l accroissement de la fr quence de la forme ins curit en mars 2002 avec un fait divers qui mobilise politiques et journalistes la Tuerie de Nanterre un retour au texte en mars 2002 montre que seuls 16 articles sur une centaine concernent le fait divers C est donc de facon indirecte semble t il l occasion d un v nement ext rieur que prolif rent des discours sur l ins curit Tableau 5 Rep res chronologiques 6 juillet 2001 14 juillet 2001 18 juillet 2001 1 2 ao t 2001 28 ao t 2001 15 novembre 2001 11 f vrier 2002 20 f vrier 2002 27 mars 2002 21 avril 2002 5 mai 2002 15 mai 2002 16 Juin 2002 cr ation par le Premier ministre L Jospin d une mission de r flexion sur l laboration d un nouvel instrument statistique de mesure de l ins curit discours du
131. de la forme boycott dans les 3 parties du corpus StoneKarma Cet emploi privil gi n est pas sans rapport avec les m canismes de saturation des messages l aide du copier coller dont nous avons pr sent un exemple ci dessus un m me paragraphe pouvant contenir un nombre important des occurrences du terme Cependant la disproportion en faveur des forums nous am ne conclure que ce mot trouve une faveur particuli re chez les intervenants des forums alors que les r dacteurs de presse et de blogs sans doute tenus une certaine r serve vitent de l employer trop souvent 78 Explorations textom trigues 4 2 Contextes La figure 6 montre pour chaque m dia s lectionn un certain nombre de contextes dans lesquels on retrouve la forme di zhi boycott Comme on le voit les contextes de cette forme repris dans les articles de presse proviennent le plus souvent de discours rapport s dont les auteurs sont des citoyens que l on interroge dans le cadre du reportage SE K Appelons au boycott des produits de Sharon Stone dans toutes les librairies et boutiques ER DB K ER PE FRA Oo C est un grand choc pour le monde sinophone les internautes appellent au boycott de Sharon Stone ainsi que des produits qu elle repr sente
132. demande d information pr sente dans les diff rentes dimensions de son discours des indices sp cifiques d un ajustement discursif l interlocuteur avec lequel il converse En somme ce qui aurait pu tre un obstacle en soi purger manuellement l int gralit des disfluences s av re un atout important pour la piste d analyse 121 Explorations textom trigues que nous privil gions 1c1 Nous posons en effet l hypoth se que la pr sence des disfluences est l un des param tres qui permettra d appr cier les traits distinctifs de l ajustement du correspondant humain C selon qu il interagit avec une machine M ou un humain O Tableau 1 Types d interactions dans le corpus analys Interactions entre humains Interactions humain machine SITE C C M 117 interactions 143 interactions 2 713 tours de parole produits par C destination de O 1198 tours de parole produits par C destination de M 2 769 tours de parole produits par O destination de C 607 tours de parole produits par M destination de C Exemple d interaction Exemple d interaction PHASE 1 COMMUNICATION 11 PHASE 3 COMMUNICATION 39 OL sncf bonjour M1 sncf bonjour noncez votre demande CI ss all bonjour madame est c que je S il vous pla t pourrais pourrais savoir e le prix d un C1 voil je voudrais e savoir pour billet e paris rouen s il vous pla t aujourd hui sam di quels sont les un prix paris
133. diff rents interactant en pr sence L approche pluridisciplinaire mobilis e dans ce travail a permis d identifier et d analyser des indices de l ajustement conversationnel de l appelant humain aussi bien des niveaux de description linguistiques locaux emploi du vocabulaire sp cificit s segments r p t s que globaux typologies et routines conversationnelles r gularit s irr gularit s conversationnelles dans la production de s quences de cl ture Nous avons pu v rifier sur notre corpus que la situation d interaction induit un certain nombre de conduites socialement norm es et contraintes par une polarit plus ou moins formelle Ces conduites sont li es aux diff rentes fonctions assur es par chaque intervenant au fil de la conversation et fondent les r les conversationnels L analyse textom trique peut tre utilis e pour effectuer des comparaisons des niveaux de granularit variables permettant de ne pas dissocier dans l analyse les dimensions locale et globale du corpus 7 R f rences Ech Chafai N Ochs M Peters C Mancini M Bevacqua E Pelachaud C 2007 Des agents virtuels sociaux et motionnels pour l interaction humain machine m Actes de la 19 me conf rence francophone sur l interaction humain machine IHM 07 pp 207 214 Lebart L Salem A 1994 Statistique Textuelle 342 p Paris Dunod 1994 Portes C Bertrand R 2005 De a valeur interactionnelle du contour int
134. donn lieu l insertion d intertitres r dig s par les diteurs frangais du manuscrit sur le site sur lequel nous avons r cup r le texte orignal 88 Sur ces questions on consultera par exemple Muller 1963 et Brunet 2000 147 Explorations textom trigues D 0lIntro SvcDDI Did Ln 2ms W AL L BgirsxL ST DA sh Yl lt v 002 gt 1b Zl1 V3lA HAt a a A1 m a V3lA pH D54 n n 2Z2 lt y 003 gt Xndgy nw W DE SHSPIP a XE DHI S lt v 004 gt H A25 A24 mn n i t Pll xt HAt t t W r a t lt v 005 gt Hr Zl t 421 N25 r a SH V3LA rn nw W SA nlr dwA veDU6G SASO SAZ Z21 AI A41 sb HriZzl H pt D32ra SS ninw w SAL y r SV DOTE Su MD SAL 4 Eina eds c SHBA eaDid eir DST eveDUs Shih w wr n msa Al Zz2 ntZze pHiD54 nin 22 lt v 009 gt pH w Y wA WA UIXASLC Z n X5 D54 n inr42 lt vV 010 gt z 1 wt L XASLt m ar V31lA r f A22 IL 1 D54 n 222 3 lt v 011 gt m Htp t p Y1 tA N23 Zl n 22 pH D54 n 22 sw W lt D 01Intro gt lt v 001 gt un excellent suivant dit alors apaise S lt v 002 gt ton coeur prince vois nous avons atteint S lt v 003 gt la r sidence le maillet est saisi et S lt v 004 gt le poteau d amarrage est frapp l amarre de proue ayant t port e S lt v 005 gt terre les pri res sont dites le dieu a t remerci S v 006 et chaque homme embra
135. du grand diable Belr bur ere ie ADIEU paniers vendanges sont faites tous De l imprimerie de la Cour des Miracles rue Neuve e l Evalit Ci devant Bourbon Vilientur 3 O 5 Figure la Fac simile de l dition originale du num ro 305 du P re Duchesne 1793 lt numero 305 gt lt Epg 1 gt S la grande joie du p re duchesne apr s avoir vu d filer la procession des brissotins des girondins et des rolandins pour aller jouer la main chaude la place de la r volution le testament de cartouche brissot et la confession du pr tre fauchet qui a fait le cafard jusqu la fin pour faire pleurer les vieilles d votes mais qui dans le fond du coeur se foutait autant du p re ternel que du grand diable belz but S adieu paniers vendanges sont faites tous Epg 2 les ch teaux en espagne que vous avez b tis inf mes brissotins s en vont tous en fum e non foutre non la r publique que vous aviez vendue aux brigands couronn s ne sera point d chir e le roi georges dandin et pitt porte esprit ont tir leur poudre aux oiseaux nous serons r publicains malgr toutes les guin es de l angleterre et tout l or de l autriche et de l espagne partout nos affaires prennent la meilleure tournure Les brigands de la vend e sont dispers s et leurs cadavres engraissent la terre qu ils ont souill e par leurs crimes ce qu il en reste est cern de toutes parts et va bient t tomber sous les co
136. du premier ministre lionel jospin s applique restaurer la confiance des fran ais prioritaire Ja bataille de l ins curit ne doit souffrir aucun a z lasisme E prieur cecile le ton s voulait particuli rement ferme bien que les solutions ne soient pas neuves lionel KE m n la bataille de ins curit qu la rig e pr mardi 28 ao t sur tf au rang de lutte collective rappelant que la question de la s curit est la deuxieme priorit du gouvemement le premier ministre a affirm qu cet gard son gouvernement ne ferait preuve d aucun laxisme attendu sur cette th matique qui s annonce comme un des enjeux Forts des futures ch ances Occurence lectorales m jospin n a rien annonc de nouveau en amp grenant action des minist res de int rieur et de la justice mais ila une nouvelle fois durci son discours sur la d linquance en insistant sur la n cessaire sanction de chaque acte non respectueux de la regle offensif Je premier ministre a tenu r pliquer aux accusations du E pr sident de la r publique sur l inaction de son gouvernement lors de son intervention du 14 juillet jacques chirac avait en effet stigmatis un manque d autorit de tat et un manque de volont politique dans la lutte contre ins curit nous sommes arriv s un pont qui est absolument nsupportable faut mettre un coup d e P d amt affirmait l chef de l ta
137. e que est induite par une question pourquoi dial LIBRE TL JL IL IL IL LIEIEIEIE IE IE TE nn E E TE TIE TE TE TE TE TET DIEHDBBDBDODImiIdgopaaldmiuuuuuuu uA Uu dg m gd 0b ago ymdiI m 111100 EE LO E OE IE TE TE IE OO OO UU Dimm BOOM T EE IE TE IE JEJE TE IE IET EJEJETETETEIETETETE OO dial III DIEIEIEIEIEIEIETISIET 0101 010101000001 BOB TE TET ETE TETETETETETETETE IR nn nn dl fja LILIEIEIEHSEIEIEIEI BOOOOOOO UU UU aje Ee Ke Figure 6 Localisation des pourquoi parce que dans le corpus Julien 103 Explorations textom trigues Guide de lecture de la figure 6 Les combinaisons de couleurs sur la carte des nonc s permettent d identifier plusieurs situations distinctes cts m Question pourquoi de Question pourquoi de Pr sence simultan e dans Padulte et r ponse l adulte r ponse le m me nonc des deux imm diate de l enfant imm diate de l enfant unit s recherch es avec parce que avec parce que et reprise de l adulte du parce que La localisation des parce que recherch s simultan ment avec les pourquoi permet de mettre en relief certains ph nom nes propres l oral En effet nous cherchons les nonciations de parce que pour v rifier s il s agit d une production en construction compl te ou non En r gle g n rale lorsque nous r pondons une question de type pourquoi il est rare que nous reprenions la principale L enfant r
138. e r ponse qu on distingue selon la nature des interactants impliqu s un correspondant humain dialoguant avec un op rateur humain form au renseignement t l phonique de l entreprise un correspondant humain dialoguant avec un automate vocal programm pour fournir une r ponse aux demandes d information Trois interactants peuvent tre distingu s un correspondant humain C appelant pour obtenir des informations une op ratrice humaine O prenant en charge une partie des appels de C une machine M prenant en charge l autre partie des appels de C Deux r les conversationnels sont donc tenus par les interactants le r le de demandeur d information le r le de fournisseur d information 2 2 Mise en forme des donn es L tape de normalisation a pour principal objectif une exploitation du corpus fond e sur des donn es comparables par des proc dures d analyse textom triques Le corpus original au Le genre du correspondant humain est un param tre qu il serait int ressant de prendre en compte dans le cadre d analyses sur la conduite interactionnelle en situation de demande d information 67 Nous utilisons les crit res structurels introduits par Sacks et al 1974 dans le cadre du mod le du Turn Taking System pour caract riser les interactions du corpus Sacks et al 1974 formalisent la structuration des changes conversationnels en paires adjacentes unit s de descrip
139. ec ceux des formes d linquance et ins curit sur un axe chronologique partition mois du corpus la forme d linquance tant l une des formes le plus employ l chelle du corpus avec la forme ins curit 7 Par type nous entendons les divers regroupements d unit s que l on peut op rer sur la base de leur identit ou de leurs ressemblances On peut d finir le type gen ralis TGen comme un ensemble d occurrences s lectionn es parmi les occurrences du texte C Lamalle A Salem 2002 2 Explorations textom friques 48 El T EJ ins curit EJ d linquance Ed U E P LO LI LI LI LI D LI C11 jutilet 2001 LE3 zeptanu OS no 2001 D Jercler 2002 1 Qer ia bz A2 juain 2010172 Figure 12 Sp cificit s du type ATA et des formes ins curit et d linquance juillet 2001 juillet 2002 Nous remarquons sur la Figure 12 que les formes ins curit et d linquance sont anormalement sous employ es de mani re simultan e dans les parties 4 et 5 octobre et novembre 2001 ce qui n est pas le cas du type ATA qui est en suremploi Ces trois ensembles d observations nous am nent retenir l interpr tation selon laquelle l emploi d ins curit est fortement li au traitement de la campagne lectorale par Le Monde Nous souhaitons maintenant revenir sur la pr sence r p t e de la forme d linquance ce qui va nous permettre de d celer un nouveau ph nom ne concernant l emploi du mot ins cu
140. ection lorsque l un des interactants prend la parole sans que l interlocuteur la lui ait accord e ce qui s appelle dans le langage courant couper la parole PLe d compte op r sur les segments K marqueurs des fins de recouvrement de parole entre deux tours de parole donne les fr quences absolues suivantes 67 occurrences dans les interactions entre C et M 1036 occurrences dans les interactions entre C et O Cette analyse s est d roul e sur la version du corpus brut 127 Explorations textom trigues Accroissement de vocabuhire CM CO en MC OC Figure 2 Accroissement du vocabulaire par type de tour de parole CM correspondant machine CO correspondant op ratrice MC machine correspondant OC op ratrice correspondant Les deux courbes qui correspondent des changes entre humains courbe verte OC op ratrice correspondant et courbe grise CO correspondant op ratrice sont situ es sur le haut du graphique ce qui indique une vari t du vocabulaire plus importante De ces deux types d interaction ce sont les productions de l op ratrice qui poss dent la plus grande vari t de vocabulaire compar celles des demandeurs d information Les productions des correspondants confront s une machine courbe rouge CM correspondant machine occupent une position interm diaire dans ce classement On en d duit que dans cette situation le demandeur m me si rien ne permet de
141. ence du dictionnaire de formes et des segments r p t s nous permet d identifier d embl e six termes parmi les plus fr quents sur le th me de l environnement Tableau 5 Termes les plus fr quents li s au th mes de l environnement Termes Fr quence d veloppement durable nergies renouvelables r chauffement climatique changement climatique d croissance protection de l environnement 6 D veloppement durable ou protection de l environnement L expression d veloppement durable avec un effectif de 297 occurrences est omnipr sente et confirm e comme la notion phare en r ponse au constat du r chauffement climatique L adjectif durable apparait s mantiquement comme la forme pivot C est ce que r v le l inventaire distributionnel illustr dans le tableau 3 avec quelques exemples de concordances Tableau 6 Extrait de la concordance autour de durable en valeur de techniques d agriculture durable par le don de semences traditionnelles e de la part de chacun la consommation durable est notamment associ e la production et S priv s dans les technologies d nergie durable pour plus de d tail je vous invite ource mon ami olivier de quotidien durable r cemment propos une note sur le S modes de consommation et de production durable S la publication du pnue modes de yer cette note S 28 novembre 2005 S noel durable et responsable 1 S une initiative qui 29 mai 2006 S narb
142. enido y mantenga un comportamiento vigilante sin ego smos ni dudas en cuanto a lo que nos corresponde hacer dentro del concierto internacional S ello supone que el an lisis del periodo recientemente terminado est impregnado de un l gico sentimiento de optimismo y de f hacia los tiempos venideros porque no estamos ni solos ni aislados y se conf a en nuestra capacidad para seguir cumpliendo un papel necesario y digno en europa y en el mundo lt a 1993 gt S palabras de s m el rey en la pascua militar S 6 de enero de 1993 S queridos compaheros S aunque a trav s del a o procuro encontrar todas las ocasiones posibles para asistir a actos ceremonias conmemoraciones o maniobras militares es esta de la pascua militar la m s propicia para reunirme con las representaciones de las fuerzas armadas y experimentar la satisfacci n de compartir con vosotros una fiesta tan tradicional S por eso lament mucho en la celebraci n de 1992 verme privado por un desafortunado accidente de asistir a un acto como este que encierra para mi tan profunda significaci n S en el de hoy recibid ante todo mi felicitaci n y la de mi familia para vosotros y las vuestras con los mejores deseos en el a o que acaba de comenzar S un a o que vamos a vivir a continuaci n del que estuvo repleto de acontecimientos importantes la conmemoraci n del v centenario del descubrimiento de am rica los juegos ol mpicos de barce
143. ercie de rien au revoir au revoir madame par type de tour de parole CM correspondant machine CO correspondant op ratrice MC machine correspondant OC op ratrice correspondant La sp cificit du SR au revoir madame en noir dans les tours de parole de type CO qui rajoute une dimension de politesse la cl ture conversationnelle avec le substantif de posture sociale madame corrobore cette id e d ajustement Comparaison des types de tours de parole L analyse factorielle des correspondances AFC donne une visualisation synth tique des proximit s entre les diff rentes parties confront es en fonction de leur vocabulaire figure 5 L analyse a t r alis e partir du tableau croisant les 723 formes de fr quence sup rieure 5 dans le corpus et les quatre types de tours de parole Un premier axe horizontal sur le graphique se d tache nettement 64 de l inertie totale qui oppose les tours de parole produits par la machine aux productions des trois autres intervenants humains On trouvera au tableau 7 les sp cificit s des productions de chacun de ces groupes d actants Le deuxi me facteur 24 de l inertie totale oppose les tours de parole adress s la machine ceux qui sont chang s entre humains Nous analyserons plus loin cette opposition comme une adaptation du demandeur son interlocuteur 131 Explorations textom trigues Figure 5 Repr sentation factorielle des productions par type de to
144. es 8 me ic ne partir de la gauche v Donner un nom au groupe dans la bo te de dialogue sup rieure Plusieurs possibilit s s offrent alors pour constituer le groupe v S lectionner un par un les constituants du groupe partir du dictionnaire Utiliser les fonctionnalit s g n riques est le d but de ce que je recherche etc S lectionner formes segments l aide d une expression rationnelle La fl che rouge situ e en haut droite constitue un point d accroche pour l ensemble du groupe ainsi constitu Elle peut tre fra n e vers tous les outils qui acceptent un TGen 4 Etude la distribution d un type 4 1 Les outils de base L outil concordances L outil concordances permet de rassembler toutes les occurrences relatives un type donn en les munissant d un petit fragment de contexte et de les trier selon diff rents crit res cf tableau 1 En faisant varier la taille du contexte l ordre de pr sentation 1ci les contextes sont tri s en fonction de la forme qui suit le p le s lectionn A l aide de cet outil le chercheur peut op rer des rapprochements qu une lecture cursive du texte ne lui aurait sans doute pas permis de saisir 1ci par exemple perdre sa proie et sa proie lui chappe Tableau 1 Concordance de la forme proie dans le corpus Duchn pendant quelques instants ces oiseaux de proie avaient disparus foutre et depuis que s avoir rogn les ongles des oiseaux de proie de la finance a
145. es exemples de routines produits par l op ratrice dont certains correspondent des routines conversationnelles On propose pour chaque cas le type de la routine Tableau 10 Exemples de tours de parole produits par l op ratrice O proposition de typologie des routines Exemple de routine Type de la routine lt TdP 0C0061 gt ne quittez pas Routine de mise en attente lt TdP 0C2067 gt sncf bonjour Routine d ouverture 76 Les routines de cl ture de la conversation sont non pertinentes dans la situation d interaction la machine produisant syst matiquement le tour de parole ne quittez pas Un tel proc d pour cl turer une conversation n est pas r gulier c est dire qu il n y a pas dans les routines de la machine de formule de politesse telle qu au revoir par exemple C est surtout la densit d information notamment li e la longueur des tours de parole qui caract rise les nonc s de la machine 136 Explorations textom trigues lt TdP 0C1158 gt non celui ci est sp cial ah la la je peux c est Message caract re digressif c est un peu c est un peu oui c est difficile parce que moi j ai des j ai des mois j ai des de tel mois tel mois a circule mais e je peux pas prendre en compte lt TdP 0C1157 gt oui oui c est le tgv mais apparemment j en ai Message caract re digressif pas j ai pas autre chose que des tgv TdP CO2675 je l ai fait une fois oui c est un vrai Messa
146. essant puis elle a dit qu elle est touch e par les gens et les v nements du tremblement de terre galement elle envisage faire quelque chose pour la zone frapp e par le s isme Figure 5 Exemple d un fragment de presse extrait du journal Beijing Morning News avant gauche et apr s segmentation en mots par le logiciel Haylanda droite suivi de la traduction en frangais du d but de l extrait en bas du tableau 75 Explorations textom trigues 1 la notion de mot est bien d finie dans les grammaires chinoises l criture chinoise n int gre pas d espace entre les unit s lexicales Les lecteurs chinois appr hendent les textes en d coupant la cha ne textuelle en unit s distinctes partir de leurs propres connaissances linguistiques Les mots chinois sont compos s d un quatre sinogrammes Un m me caract re peut avoir diff rentes fonctions grammaticales en fonction de son contexte Cette particularit constitue une difficult sp cifique pour l exploitation textom trique des textes chinois Pour pouvoir d couper les textes en unit s correspondant plus ou moins des mots du chinois nous avons choisi le logiciel de segmentation Haylanda On trouvera ci dessous les principales caract ristiques lexicom triques des trois sous ensembles rassembl s dans le corpus StoneKarma Tableau 2 Principales caract ristiques lexicom triques des trois sous ensembles du corpus StoneKarma 21538 39
147. este stable dans les pages interm diaires mais la conclusion du journal se fait sur un style plus muscl qui recourt largement l emploi de jurons et d invectives La visualisation des occurrences de foutre sur la carte des sections permet de localiser facilement des exemples de cette utilisation particuli re BE 8 BB m S i CG TEE z B E E S Fr guences races X L 085 E E Figure 5 Ventilation des occurrences de la forme foutre dans les 8 pages du journal le num ro de page figure en abscisse sur le graphique On trouvera ci dessous un exemple parmi beaucoup d autres possibles d une s quence pr lev e dans la page qui cl t le num ro 347 du corpus Numero 347 lt Epg 8 gt imposture ainsi donc foutre vive la raison vivent la v rit et l humanit au foutre les pr tres qui ne savent que mentir tromper voler et gorger foutre L analyse du vocabulaire sp cifique de cette huiti me partie nous permettra de d gager un ensemble de formes qui ob issent ce m me sch ma d utilisation vive vos soyez peuple etc En r sum les r sultats de cette exp rience qui n avait au d part d autre finalit que celle de v rifier le fonctionnement correct du logiciel nous ont sugg r une possibilit d exploration textom trique laquelle nous n avions pas pens au d part La mise en uvre extr mement simplifi e de la division du corpus en partie permet on le voit d en
148. f rertes Position da igure 9 156 Explorations textom trigues Courbe d accroissement du vocabulaire et courbe d accroissement du nombre des hapax calcul es pour le volet fran ais du corpus Naufrag Comme c tait le cas pour le volet hi roglyphique du corpus la ventilation des segments repetes les plus longs montre une r partition privil gi e de certains segments entre les fragments 2 et 5 de la traduction fran aise du conte On v rifiera sans surprise que les traductions fran aises des deux parties constitu es par la r p tition d un m me r cit dans le corpus original ont amen la cr ation de textes qui sont tr s proches entre eux Tableau 5 Extrait des concordances r alis es partir des occurrences des segments r p t s les plus longs dans le volet frangais du corpus Naufrag Partie OlIntro Nombre de contextes 1 S car c est fatiguant de te parler laisse moi donc te raconter S quelque chose de Partie 02VoyageEtNaufrage Nombre de contextes 5 tais descendu S vers la mer bord d un navire S de 120 coud es de long et 40 coud es large 120 marins s y trouvaient S de 1 lite de 1 gypte qu ils scrutassent a venue un orage S avant son arriv e une temp te tait survenue S alors que nous rvenue S alors que nous tions en mer et avant S que nous eussions touch terre le vent ta pas S un et je fus d pos S sur une ile par une vague de la mer je passai
149. fant en exprimait le d sir l adulte a demand l enfant de lui raconter son tour l histoire qu il venait d entendre intervenant en permanence pour l aider dans son r cit Le corpus des interactions enregistr sur support audio au cours de ces dialogues a t ensuite transcrit sous forme textuelle sur un support informatique pour tenter d analyser les caract ristiques de ces interactions dans la co construction d une narration partir d un livre illustr Le corpus Julien constitu des interactions entre l adulte et le petit garcon compte 467 formes pour 2 986 occurrences Le corpus Mathilde qui rassemble les interactions entre le m me adulte et la petite fille comprend 444 formes pour 3 619 occurrences Les corpus sont partitionn s en dialogue Les nonc s sont tri s par locuteur d abord l adulte puis l enfant et ainsi de suite puis 50 par 50 Cette pr sentation des tours de parole nonc s d sormais permet d avoir sur les lignes impaires les nonc s de l adulte et sur les lignes paires ceux de l enfant Dans cette repr sentation deux interventions cons cutives dans le temps sont situ es l une en dessous de l autre et les interventions de chaque locuteur sont sur une m me ligne Les principales caract ristiques lexicom triques des corpus ainsi constitu s nous conduisent remarquer que les mots les plus fr quents ne sont pas les traditionnels mots outils comme de le la les que l on trouve cette
150. forme r chauffement climatique privil gi e par les blogs criseclimatique et gata s inscrit en majeur dans un registre de sensibilisation le r chauffement climatique le sommet du kilimandjaro presque sans neige yahoo news S Gaia urgence il faut rem dier au r chauffement climatique criseclimatique filmAlgore si l humanit avait besoin d un signal fort concernant le r chauffement climatique je pense que cette saison de cyclones et de temp tes tropicales aura t un signal quand m me suffisamment d vastateur en tous cas pour les populations directement concern es la nouvelle orl ans et ailleurs Ga a Dans les blogs ecocechos et CES l usage de l expression changement climatique s inscrirait davantage dans un registre r flexif sur les causes les cons quences et les enjeux du changement climatique nous avons demand olivier godard conomiste directeur de recherche au cnrs et professeur l ecole polytechnique ce que signifiait co t du changement climatique que prend on en compte n a t on pas parfois consid r que les activit s environnementales cr aient leur tour des productions et des richesses CES dans le pass plusieurs civilisations tr s avanc es se sont teintes alors qu elles taient leur apog e celle des maya et de 1 ile de p ques sont certainement les exemples les plus frappants d autres confront es des contraintes simi
151. fournies par le biais d un interface web 7 Ce type de proc dure a t analys par Maria Zimina dans sa th se cf Zimina 2004 Les versions actuelles de Lexico3 partir de la version 3 5 9 permettent d interroger chacun des volets d un corpus parall le partir d un s lection effectu e sur l autre volet 150 Explorations textom trigues 4 6 L accroissement du vocabulaire La figure 9 montre la courbe du vocabulaire r alis e pour le volet hi roglyphique du corpus Naufrag La partition du corpus en fragments a t mat rialis e sur ce graphique par des lignes verticales qui marquent chacune le d but d un des douze fragments du corpus Certains fragments sont caract ris s par des portions presque horizontales de la courbe d accroissement Cette circonstance peut s expliquer par le fait que ces fragments sont le si ge de r p titions de signes hi roglyphiques d j utilis s dans des fragments pr c dents La seconde courbe rend compte de l apparition des hapax formes qui ne trouvent qu une seule occurrence dans le corpus Dans les d pouillements textom triques pratiqu s partir du d coupage du texte en mots on a pu remarquer que loin de constituer une exception la propri t d hapaxie est partag e par un tr s grand nombre de formes du texte De ce fait l ensemble du texte se trouve parsem de formes de fr quence 1 et tout fragment du texte en contient un certain nombre plus ou moins proportionnel
152. ge caract re digressif p lerinage lt TdP 0C1190 gt m m bon ben je vais regarder hein ne quittez pas Routine de mise en attente lt TdP 0C0071 gt c est bien pour un vendredi hein Demande de confirmation lt TdP CO0823 gt au revoir merci Routine de cl ture Trois types de routines conversationnelles sont syst matiquement pr sents dans les productions de l op ratrice la routine d ouverture de la conversation la routine de mise en attente de l usager la routine de cl ture de la conversation Les messages caract re digressif constituent une grande part des tours de parole de l op ratrice L information d livr e au correspondant est dilu e dans ses productions On identifie par ailleurs une conduite interactionnelle centr e sur une application des normes conversationnelles dans les routines de l op ratrice D Ajustements conversationnels de l usager La comparaison de l adaptation du correspondant un interlocuteur machine d une part un interlocuteur humain d autre part est l axe d tude majeur de ce travail Nous avons utilis diff rentes proc dures d analyse textom trique pour tudier ce ph nom ne En particulier nous avons mobilis analyse de l accroissement du vocabulaire compar e pour les quatre types de tours de parole du corpus selon le double crit re foyer nonciatif cible de l nonciation la ventilation des pronoms personnels et des segments r p t s
153. ge d information des changes digressifs Les 137 Explorations textom trigues routines conversationnelles produites sont r guli res tant donn e la formalisation des s quences conversationnelles et la relation de pertinence conditionnelle entre les tours de parole syst matis es dans le Turn Taking System notamment concernant les cl tures La n gociation des tours de parole est plus longue dans les interactions humain humain qui comportent de nombreuses phases de recouvrement de parole dues des autos lections plus fr quentes La dynamique conversationnelle semble plus fluide avec la machine en tous cas la dynamique de l allocation des tours de parole est plus r guli re presque m canique On a par ailleurs not la faible part de phatiques produits par le correspondant en interaction avec la machine Les phatiques tant caract ristiques de l oral spontan nous avons donc des premiers l ments tangibles pour soutenir l id e d un ajustement conversationnel du demandeur d information 6 Conclusions Perspectives Ce travail nous a permis de montrer l utilisation des proc dures d analyses textom triques et du cadre m thodologique de l analyse conversationnelle pour la description de corpus d interactions entre diff rents intervenants Des strat gies de partition du corpus nous ont permis de gagner en puissance d analyse notamment en introduisant des types homog nes de tours de parole produits par les
154. ge dans la voiture aux trente six porti res num ro 321 ternuer dans le sac num ro 317 cracher dans le sac num ro 341 avoir la t te dans le sac num ro 304 faire la grimace au pont rouge num ro 319 Il serait totalement d raisonnable d esp rer qu une telle t che puisse tre confi e une machine Par contre une fois rep r es les s quences qui renvoient ce th me telle par exemple la s quence la t te la fen tre il est facile de rep rer automatiquement toutes les occurrences du segment r p t Tableau 3 Concordances du segment r p t la t te la fen tre dans le corpus Duchn fallait bon gr mal gr mettre la t te la fen tre a tir de sa manche ibunaux pour faire mettre promptement la t te la fen tre la louve autrichienne coit pas d un pauvre bougre qui met la t te la fen tre S cependant foutre t leurs v ritables amoureux de mettre la t te la fen tre convention national e vont dans cette semaine mettre tous la t te la fen tre et six tribunaux comp ue le dernier des brissotins ait mis la t te la fen tre foutre S la grande comme son maitre va bient t mettre la t te la fen tre S il est donc vrai qu de la convention et il mettra aussi la t te la fen tre le roi coco S les punis pas un conspirateur n a mis la t te la fen tre le tribunal r volutio fin bon port 1 ogre royal a mis la t te la fen tre
155. ginales qui ont servi de base la constitution du corpus nous apprendra que l allocution destin e la c r monie de 1992 bien que publi e dans les organes de presse n a finalement pu tre prononc e par le souverain en raison d un accident corporel dont il a t victime avant la c r monie de la Pascua militar de 1992 Dans ces circonstances la tentation a t forte pour les r dacteurs de l allocution de l ann e suivante 1993 d utiliser le travail effectu l ann e pr c dente tout en le modifiant pour le r actualiser Le tableau 3 pr sente une dition parall le des paragraphes correspondant au d but de chacune de ces deux allocutions Les parties modifi es ont t signal es en caract res gras dans les deux documents Comme on le voit les reprises textuelles constituent de longs fragments du premier texte Les s quences rajout es ou supprim es dans l allocution de 1993 vont d une s quence de quelques occurrences au paragraphe entier Etait il indispensable de mettre en uvre une m thodologie faisant intervenir des calculs aussi compliqu s pour arriver la conclusion qu une des allocutions reprend simplement de larges extraits de la pr c dente Cette question est plus compliqu e qu il n y parait au premier abord En effet une fois rep r e la similarit des paragraphes qui r sultent de recopies totales ou partielles semble tout fait vidente Cependant l exp rience montre que le rituel nonciatif pr
156. i en sont revenus sains et saufs En abordant l exploration textom trique de textes fix s sur parchemin il y a plusieurs mill naires apr s avoir connu une existence que l on peut supposer aussi longue sous forme de po mes transmis oralement de g n rations en g n rations nous avons pleinement conscience de ne pas avoir pr par notre voyage avec autant de soin qu il aurait t utile de le faire D un autre c t nous disposons aujourd hui d un corps de m thodes et d outils textom triques prouv s sur de tr s nombreux textes crits dans des langues extr mement diverses Ces m thodes ont montr qu en s appuyant sur la forme mat rielle du texte et en y projetant un clairage quantitatif il tait possible d y rep rer de faits textuels de r partition ou de r p tition que les sp cialistes form s aux sciences humaines plus naturellement enclins lors de leurs lectures cursives en extraire ce qui fait sens pour eux en s appuyant sur l rudition acquise leur contact risquaient de n gliger L intuition textom trique souffle que cet clairage devrait galement prouver son efficacit r ey 78 H D sur les s quences de caract res hi roglyphiques que les syst mes informatiques modernes permettent d sormais de g rer 1 Le contexte de la recherche Dans ce qui suit notre projet sera double Nous aimerions en premier lieu attirer l attention des diff rents sp cialistes de l tude des textes hi rog
157. i i i i i i i i i i i i 1 i i i i i i i i i i i 1 i i i D i i i i i i i i i i i i i i i LI LI 1 i i i i i i i i LI i d LI LI LI LI LI LI LI LI LI I i i i i i i i i i i i 1c E j i dio ps la J Sete ila As GE d bz s de Kol i Gd Lo ic C i i 1 1 i 1 i i 1 i 1 i T i 1 1 D Li LI i i i L LI LI LI L i i i i i i i i i i i i i i i i i i i i i i i i D LI LI LI 1 LI LI 1 LI LI i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i BERE kachs Ale KSE H EE Sek SM il 8 SEA nn r i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i I i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i 1 i i i i i i i i 1 LI LI LI LI 1 LI LI LI 1 1 i i i i i i i i i i i FP i A A E br I i L GH dee Ska A t Ed i d gig us 4 E E EPI r 1 i r i P i i i i i i i i i i i i i i i i i i i i i i i LI 1 i L i i i LI LI LI Li i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i r 1 i LI i i i LI i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i L i i i i i i i i i i i i i i i i i i i i SE CL e e eege dt erg cd o Eech KLOER E zt KL Ae ma 1 EDO Eo ce ET C TE 1 i i i i i i i i i i t H i i i i i LI LI TI i i i i i i i i i i i i i i i i i L i i i i i i i i i i LI LI LI I
158. i kPa ee h i mr se PE re TT Er em m i LI Pa hh ma Sr ri E E LI i i LI SS Ene c SS SS e SS SE SS ee d e mim SJE LI a el ee cu me me ehn Mme ce me ce me ee mn ce ne fs ce mue ee Mene SH DEE We ud re ge i ox dar beer KE dur n e denge cas dare ege RA LL dare e acspe ves charnpu ecoechoz caia pcegdf sgdn4s unsa wilepin Figure 3 Sp cificit s par blogs des termes changement climatique r chauffement climatique Comme on le voit sur la figure 3 l expression r chauffement climatique est privil gi e par le blog citoyen gala tandis que l expression changement climatique est surrepr sent e dans le blog du Conseil Economique et Social CES anim par des scientifiques ainsi que le blog ecoechos d une ing nieur agronome On peut faire l hypoth se que l id e de r chauffement 90 Explorations textom trigues appara t restrictive pour les scientifiques qui pr f rent parler de changement ce qui laisse la place a d autres analyses causales du changement climatique r chauffement changement blog LILILIBI LIBE TIE TI CET DOOODOOOOOOO OOOOOOOOOOD DPIEJEIEIETEIETEIETE LILIBILTILIETEIETEIE EIEIEIEIETEIEIETEIE UCI ICC
159. i plus que toute autre forme acquiescement qui met en avant la fonction conversationnelle de r cepteur d information La machine quant elle use d un nombre de formes relativement restreint en particulier compar l op ratrice C est l l indice d une redondance dans les productions de la machine D comptes par type d interaction Nous commengons par comparer la r partition des tours de parole entre les conversations entre humains ou humain machine D un point de vue quantitatif si le nombre de conversations humain humain et humain machine est quilibr respectivement 117 dans le premier cas contre 143 dans le second on rel ve un cart plus cons quent au niveau des tours de parole produits respectivement 5 482 dans les conversations entre humains contre 2 805 dans les conversations humain machine seuls 34 des tours de parole sont produits dans ces derni res D apr s les premiers d comptes sur le corpus brut on peut d j dire que la n gociation pour l allocation des tours 126 Explorations textom trigues de parole explique en partie ces diff rences quantitatives En effet les autos lections du correspondant C sont plus fr quentes lors des changes avec l op ratrice humaine O qu avec la machine M Les fins de recouvrements de parole indiqu s par des marqueurs sp cifiques constituent un crit re pertinent pour comparer la r partition des ph nom nes d autos lection dans les interact
160. iaison avec l articulation du raisonnement dans le langage en voie d acquisition Nous observons aussi les tentatives de constructions syntaxiques chez l enfant car elles traduisent la mise en place de structures syntaxiques D autre part nous v rifions si l adulte fait cho ces tentatives de l enfant en le reprenant en lui proposant d autres structures Pour atteindre ces objectifs nous avons tiquet les corpus Julien et Mathilde Nous utilisons d sormais les corpus lemmatis s et cat goris s Julien LC et Mathilde LC La lemmatisation d un vocabulaire associe chaque mot graphique sa forme canonique voir tableau 10 Elle permet de rassembler les flexions d un m me verbe la forme singulier ou pluriel d un m me nom les formes fl chies d un m me adjectif et de distinguer des formes graphiques correspondant aux homographes voir tableau 11 Tableau 10 Exemple de lemmatisation de flexions verbales gt L tiquetage a t r alis avec Cordial http www synapse fr com puisqu il appara t tre le plus efficace dans la reconnaissance des cat gories pour le francais parl Valli amp V ronis 1999 V ronis 2000 106 Explorations textom trigues Tableau 11 Exemple de lemmatisation d homographies Forme graphique Forme iquet e 1 DETDMS __DETDMS le DETDMS __DETDMS EET ENEMY NN 1 PPERSS le_PPER3S la DEIDFS le DETDFS Be OT Le DETDMS Le DETDMS le PPER3S le PPER3S les
161. ico3 pour crire de telles expressions Les expressions r guli res permettent de repr senter de mani re g n rique des motifs textuels un motif est un ensemble d objets poss dant une propri t reconnaissable par exemple tous les mots termin s par le suffixe able ou commengant par le pr fixe pr Les expressions r guli res permettent ainsi de d crire des portions de texte l aide d op rateurs particuliers Le tableau suivant rassemble l ensemble des op rateurs disponibles avec Lexico3 pour crire des motifs sous la forme d expression r guli re Op rateur Fonction le point Repr sente n Do quel caract re 0 ou n occurrences du caract re qui pr c de x ou n occurrences du caract re qui pr c de kd Repr sente un d but de mot Vb Repr sente une fin de mot Repr sente un ensemble de caract res Repr sente la n gation L expression du contenu de l ensemble caract res parmi ceux qui ne sont pas ceux de de caract res Application des Ten mol L expression comme mal repr sente s quences repr sente des s quences comme L expression com e comme coe come commme L expression comme com e repr sente des s quences comme commime L expression bcapital s quences comme capital capitalisme repr sente des capitale isme b comme L expression s quences capitalisme repr sente des syndica
162. ification d une unit textuelle dans l ensemble d un corpus ou examiner chacun de ses contextes particuliers d utilisation la possibilit de rassembler sur un m me document toutes les occurrences d une forme donn e accompagn e d un contexte minimal constitue l un des avantages les plus appr ciables offerts par la prise en compte d un corpus informatis SE GE VEH pue ru I Si FELN ZS s lt ee pt me oodd M ze GK cer US Pe cox o M tk diea FAS Aem Tom Ps d Signe Signification AAA criture abstraction Description Code Gardiner Y1 EGPZ 58328 e3d8 GlyphBasic 4 242 Commentaire Transliteration mDA t dmD dmd id ogramme dans mDAt rouleau de papyrus d terminatif dans les termes li s l criture ou aux rouleau de papyrus scell var Y2 notions abstraites Figure 3 Extrait d une concordance r alis e partir de la forme Y1 criture les carr s gris signalent un changement de verset Comme on l a soulign plus haut dans le cas d une translitt ration chacune des occurrences d une m me unit textuelle re oit un codage identique Dans notre cas chacun des signes 149 Explorations textom trigues hi roglyphiques re oit un code identique Pour r aliser la concordance du signe SN que l on peut voir sur la figure 3 nous avons commenc par r aliser une concordance portant sur les occurrences de la forme Yl dans le fichier tran
163. ifs localis s on tente d observer la prise en compte par l enfant dans ces productions ult rieures des corrections qui lui ont t propos es par l adulte Lorsque nous avons v rifi et corrig l tiquetage et la lemmatisation du corpus par Cordial nous avons appos l tiquette CREA pour toutes les tentatives inabouties de construction du pass simple par l enfant Nous avons trait de la m me mani re les variations sur les noms communs ou noms propres En effet pour ces derni res nous avons voulu v rifier s il s agissait juste d une prononciation fautive ou un r el t tonnement sur le mot Les formes tiquet es CREA rel vent en fait de deux grandes cat gories La premi re concerne des checs qui peuvent tre mis sur le compte d une mauvaise m morisation d entit s lexicales d j rencontr es comme conscrictor instritutrice servent pour serpent trictor pour Crictor v ant pour n ant et contistitua pour constata La seconde concerne les checs dus une ma trise d fectueuse des m canismes de flexions et de conjugaisons C est cette derni re qui nous int resse tout particuli rement ae LILILIEIEIPSESP IL I TE ILIETLIEIEIEIEIEIET EIEIEIEIEIEIEIETEIEI OI CID DIOU EIETETEIETETETETE TET dial Figure 20 Localisation des apprena en rouge et des formes canoniques du verbe apprendre en bleu dans le corpus JuMa LC Dans le corpus JuMa LC la tentative
164. igne partir des sites s lectionn s par les deux moteurs de recherche utilis s nous avons retenu 27 articles signal s comme ayant t le plus souvent consult s par les internautes 2 2 Les blogs Dans le contexte chinois comme dans le contexte francophone le concept blog peut recouvrir des situations tr s diff rentes un journal intime assum ou anonyme un journal d opinion tenu par un Journaliste les changes quotidiens d une classe de coll ge une uvre litt raire collective en construction etc Comme partout dans le monde le ph nom ne conna t en Chine un immense succ s gr ce une grande facilit de publication en ligne une relative tol rance ditoriale et une grande capacit d interaction avec le lectorat Le blog est en g n ral dit et mis jour par un auteur ou un groupe d individus identifi s qui ne donnent que tr s rarement aux lecteurs potentiels la possibilit de s exprimer leur tour sur le site du blog Le nombre de lecteurs d un blog surpasse souvent celui des lecteurs d une publication traditionnelle sur papier En tr s peu de temps certains blogs sont devenus extr mement fr quent s au sein de la communaut des internautes chinois en Chine et l tranger Nous avons s lectionn vingt six blogs parmi les plus fr quent s nous avons veill rassembler des opinions diff rentes autant qu il se pouvait Ces blogs nous ont fourni un mat riau peu pr s comparable du poi
165. igure 1 Les diff rentes unit s de description Objectifs de cette tude Deux pistes possibles mergent pour l analyse du corpus Interactions selon des proc dures textom triques la comparaison des r ponses de la machine M celles de l op ratrice O la comparaison de l adaptation du correspondant C un interlocuteur machine M d une part un interlocuteur humain O d autre part La premi re piste constitue selon nous une question mineure En effet les disfluences transcrites dans les tours de parole les phatiques en particulier ne r sisteraient pas l preuve des analyses textom triques Il faudrait pour ne pas tomber sur des r sultats vidents proc der une standardisation du corpus et partant le purger int gralement des disfluences pr sentes dans les tours de parole Cela s av re une op ration fastidieuse les conventions de transcription utilis es rendant la normalisation du corpus quasiment impossible r aliser par des proc dures automatiques Standardiser les disfluences du corpus la main serait pertinent afin par exemple d valuer la vari t linguistique des routines de la machine ce qui restreindrait par contre l tendue des analyses la dimension lexicale La seconde piste est un axe d tude qui nous parait plus riche car elle permet de ne pas dissocier dans l analyse les dimensions locales et globales du corpus On peut se demander si le correspondant en situation de
166. in l int grale de la discussion au sein de laquelle nous nous sommes refus s faire des s lections pr sentait un volume beaucoup plus important que les deux autres volets du corpus Nous appellerons d sormais StoneKarma le corpus ainsi rassembl Ces trois volets pr lev s sur des supports lectroniques de diff rents types englobent grosso modo trois sources qui peuvent pr tendre repr senter en partie l opinion publique chinoise Le choix de ces diff rents supports permet de mieux cerner l h t rog n it de cette opinion publique qui s exprime sur le web On peut supposer a priori que la presse repr sente dans la plupart des cas l opinion officielle des autorit s chinoises Les blogs et les forums fournissant une approche moins contr l e de l opinion des citoyens 3 D pouillement quantitatif du corpus L ensemble du corpus compte 512 806 caract res chinois balises comprises que le segmenteur isole en 208 707 occurrences de mots chinois On peut diviser le corpus en 16 953 paragraphes Ces paragraphes correspondent des retours la ligne dans les textes de presse et dans les blogs et des successions de tours de paroles Les textes rassembl s dans le volet Presse sont au nombre de 27 les textes de blogs au nombre de 26 et le volet forum est constitu de 3 023 interventions individuelles TT Le nom du site 163 constitue un jeu de mots partir de la forme phon tique de l expression tout va bien ou
167. in nombre d actions men es par des associations pour s y opposer a E i encore soulign t etienne mougeott vice pr sident de tii affirmait quant lui dans le monde du 4 mali cen est pas la t l vision qui g n re l ins curit c est la mont e del inz curit qui justifie que la t l vision en pale de son c t patrick poivre d arvor avait d clar l hebdomadaire le nouvel observateur cette semaine ai v rifie les conducteurs de tous les 20 heures depuis Janvier les sujets sur ins curit repr sentent en moyenne 10 du it dont 83 reportages positifs sur les associations qui luttent contre la d linquance sur les grands fr res dans le parisien de vendredi 10 mat m dray revient sur cette provoc tr s volontaire qu il assume il pr cise toutefois que dans ton esprit t n cela veut dire tf haine et non pas t l front national la formule de julen dray reprend ce que l on pouvait lire sur certaines pancartes lors de la grande manifestation qui avait r uni pr s d un demi milion de personnes selon les chiffres de la police le 1er mai paris le sigle bleu blanc rouge de tH v tait travesti en tin avec au dessous quelques mots pour justifier attaque l ins curit 24 heures tur 24 7 jours sur 7 le 21 avril au soir d j lors du rassemblement spontan qui s tait form dans les rues de la capitale apr s les r sultats du premier
168. ion de la premi re et de la derni re page d un des exemplaires du P re Duchesne feuille imprim e pli e en quatre vendue la fois par abonnement et la cri e dans les rues de Paris 1 1 Etablissement de la version num rique du corpus Lors de la saisie initiale sous forme num rique de cette ressource textuelle quelques normalisations orthographiques mineures ont t effectu es l poque par les chercheurs qui ont transcrit le corpus sous forme num rique Ainsi les terminaisons en oit ont toutes t ramen es l orthographe moderne en ait ex foutoit est devenu foutait Les enrichissements textuels 1taliques gras etc ont t n glig s Les majuscules du texte ont t remplac es par le signe suivi de la minuscule correspondante ex Paris gt paris Y Des recherches sur ce corpus ont t r alis es dans le cadre de l quipe R volution fran aise de laboratoire de l ENS de St Cloud Guilhaumou 19xx Salem 1993 Cette technique permet de diff rer la d cision de savoir si les formes qui ne diff rent que par une majuscule initiale doivent tre d compt es s par ment Lors des segmentations ult rieures de la ressource on aura le choix Explorations fextom trigues 12 1 2 Balisage du corpus Afin de permettre la comparaison entre les diff rents textes r unis en un m me corpus on a introduit des jalons textuels ou balises servant d limiter des parties Dans cette version de Le
169. ion la plus utilis e est 14 occurrences tr s souvent apr s le verbe apprendre Lorsque nous regardons la cartographie des nonc s nous remarquons que c est toujours l enfant qui nonce le premier une construction de type Prep Vinf Les exemples qui suivent ont t localis s selon la proc dure d crite ci dessus Ils sont pr sent s sous leur forme originale pour garder la lisibilit des nonc s dial III gompa DODODODDODDODOODOOO OEOODONON gaa UI CE Hoag DILEIPIDIEIPIEIEIEIE 1 DLLE4 CW III OO dial ooo0004 dial III om onde I CIEIETEIEIETEIEIETEI g000000000 DIEIETETETEIETETEIL jj ej HIETEIEIEIETETISE Figure 15 Localisation des Prep VInf dans le corpus Julien LC Exemple 1 J9 il apprena compter A11 Donc ila il a appris compter l cole aussi Exemple 2 J32 ben j e lui aurais donn manger j e l aurais amen j e lui aurais amen un lit une pe j e lui aurais mis une p e tite cabane pour qu i l dorme dedans et puis euh et puis avec sa cabane il pourrait manger A34 Et tu lui au rais tu lui aurais donn quoi manger Exemple 3 J9 elle elle elle veut elle veut l emmener dans sa classe alors euh il apprend compter S comme A10 Serpent J10 S comme serpent E comme l phant mm mm Ali Donc le serpent il a
170. ions du corpus En effet lorsque les tours de parole de deux interactants se recouvrent c est que l un des deux s est arrog un four de parole avant que l interlocuteur n ait achev le sien ou n y ait donn voir de point de transition possible La n gociation pour l attribution d un tour de parole l un ou l autre des interactants est donc plus longue puisqu elle s tend sur plusieurs tours de parole On rel ve un ratio de 6 de fins de recouvrement de parole dans les interactions humain machine contre 94 dans celles impliquant deux humains Ces premiers l ments d observation des disfluences dans le corpus brut montrent que les autos lections sont plus fr quentes dans les interactions humain humain que dans celles impliquant un humain et une machine La n gociation pour l allocation des tours de parole plus difficile entre les humains contribue donc expliquer cette diff rence quantitative Dans le cadre des conversations entre humain et machine la n gociation pour l allocation des tours de parole est moins longue en moyenne du fait de l existence de deux facteurs distincts la machine ne coupe jamais la parole son interlocuteur les cas de recouvrement de parole tant d clench s par l humain la structuration du message produit par la machine semble d courager toute interruption intempestive des la part des humains 3 2 Quelques entr es textom triques Nous avons appliqu ce corpus d interaction
171. ique du corpus permet de rep rer et de confronter les reprises et les reformulations chez les deux locuteurs Elle permet d observer la reprise par l enfant des productions de l adulte et d tudier la mani re dont l adulte corrige les cr ations enfantines 1 L tude des interactions adulte enfant La linguistique de l acquisition s int resse en premier lieu la mise en place et l volution du fonctionnement cognitivo langagier chez l enfant A partir de corpus d interactions verbales entre un adulte et un enfant recueillies en situation de parole spontan e il est possible d observer les changements survenus dans sa capacit d expression au cours du temps Les avanc es du courant interactionniste Ochs et Schieffelin 1995 et des travaux sur le fran ais parl Blanche Benveniste 1997 nous ont servi de point de rep re pour analyser ces interactions particuli res dans lesquelles l un des sujets l enfant se trouve en phase d acquisition des moyens d expression Dans un corpus longitudinal constitu de plusieurs dialogues entre un adulte et un enfant on observe des ph nom nes de reprises et de reformulations de la part des deux locuteurs Lorsque l enfant reprend de mani re inappropri e une construction employ e par l adulte et que l adulte reformule cette construction de mani re ad quate l adulte se trouve impliqu dans une situation de collaboration dans le processus d nonciation entrepris par l enfant Il r pond
172. ire que l on trouve sur la gauche permet d observer l apparition de nouvelles formes au fur et mesure que l on avance dans le corpus Comme c est toujours le cas pour les corpus textuels la courbe connait une croissance rapide au d but du corpus cette croissance ralentit mesure que l on avance dans le corpus On remarque par del cette caract ristique globale des zones d accroissement plus fort ainsi que des paliers durant lesquels l apport de nouvelles formes est plus faible Le Diagramme de Pareto que l on trouve sur la permet de visualiser la structure de la gamme des fr quences m L axe vertical permet de repr senter la fr quence F des formes du textes laquelle varie de 7 Fmax fr quence maximale calcul e pour le texte T m Sur l axe horizontal on porte la quantit nombre de formes du texte dont la fr quence est sup rieure d F m Avant de tracer le Diagramme on transforme chacune de ces quantit s en son logarithme d cimal Le Diagramme ainsi obtenu prend alors approximativement la forme droite que l on appelle Droite de Zipf en l honneur de Georges Kingsley Zipf qui a montr que ce type de proc dure r alis e partir de larges cat gories de textes permet de mettre en vidence une propri t statistique commune aux d pouillements en unit s lexicales Cette propri t est parfois pr sent e sous la forme excessivement simplifi e Rang x fr quence Constante 3 3 Les types comp
173. it tr s serviable et il montrait comment on faisait les nouds A13 Il montrait euh qui comment on faisait les nouds Exemple 11 Jg 7 inu il a eut une m daill et il a il t on l a on i a fait en Statue A29 Le serpent J28 mm on lui faisa un jardin A30 Le serpent a fait un jardin JA nan on lui a fait un jardin pour le serpent 000 5001 Figure 22 Localisation du ouvra en rouge et des formes canoniques du verbe ouvrir en bleu dans le corpus JuMa LC La seule tentative de pass simple du verbe ouvrir nonc e par Mathilde au d but du premier dialogue est imm diatement reprise par l adulte au m me temps exemple 12 L enfant valide alors cette construction de pass simple en reprenant imm diatement l nonc de l adulte Dans le dernier dialogue Mathilde produit un nonc spontan avec la forme canonique exemple 13 Toutes les autres nonciations de ce verbe sont au g rondif Exemple 12 M2 Bodot et un monsieur lui donna des ind il lui acheta un cadeau elle l ouvra et elle avait ind euh euh A3 Madame Bodot avait peur quand elle ouvrit la bo te M3 quand madame Bodot avait peur quand elle ouvrit la bo te Exemple 13 M5 apr s madame Bodot poussa un cri en l ouvrant c tait un serpent Crigy A6 Madame madame Bodot pousse un cri M6 en l ouvrant A7 Car en ouvrant la bo te car dans la bo te il y avait un serpent M7 madame Bodot ouvrit la bo te car dans la bo te il
174. l exemple de la forme proie il est possible de constituer la liste des formes et des segments r p t s qui trouvent d apr s un calcul statistique particulier un nombre lev d occurrence dans les m mes sections que la forme p le Nous avons trouv ici aux gibet oiseaux perd Le retour aux contextes nous confirmera que ces formes entrent avec le p le choisi dans des associations r currentes insuffisamment st r otyp es cependant pour constituer des segments r p t s du type le gibet ne perd jamais sa proie etc Les calculs de cooccurrences fournissent de mani re sym trique des listes d unit s textuelles qui trouvent au contraire toujours d apr s le m me calcul statistique tr s peu d occurrences au voisinage d une forme p le donn e On pourrait appeler ces formes des formes anti cooccurrentes ou des formes vit es ou repouss es par la forme p le L tude des listes de forme dont les occurrences sont repouss es par la pr sence dans un contexte proche d une unit p le fix e peut parfois se r v ler tr s instructive Lexlco3 Cooccurrences v Demander une carte des sections 7 me ic ne partir de la gauche Choisir un d limiteur de section paragraphe ou groupe de d limiteurs de phrase 12 Faire glisser une forme sur la carte partir du dictionnaire ou de toute autre liste Appuyer sur l ic ne des cooccurrences l extr me droite de la 2eme ligne d ic nes Choisi
175. la soci t fran aise a t il d clar evaquant un certain nombre de pr sentateurs de chaines de t l vision i if julien dray a affirm qu ne leur laissera rien passer et qu ils auront des comptes rendre ajoutant c est fini la rigolade on ne va pas me balader pena Rapport Effacer assez de ces spectacles de ces reconstitutions qui n ant rien voir de ces castings al am ricaine at il enchain ze disant pr t d battre avec patrick poivre d las arvor pr sentateur du journal de 20 heures de la un au charles villeneuve producteur de deux missions de la chaine appels d urgence et le droit de savoir moi je suis lu de quartier difficile je sais ce que c est et je n utilise pas le malheur des gens la souffrance que a repr sente pour Faire lire mes copains a t il conclu pour le directeur de la r daction de t robert namias Interrog par afp ces propos sont insultants et absurdes il suffirait de regarder les journaux de ces derni res semaines pour voir qu iln v a pas eu la moindre connivence de tH avec le front national et c est un euph misme a t il fait valoir estimant que la cha ne priv e avait restitu une pr occupation majeure d un certain nombre de fran ais et traduit un certain nombre de faits qu elle n a en rien provoqu s a c t des faits de d linquance et d ins curit nous avons galement montr un certa
176. laires ont surv cu Jared diamond grand scientifique am ricain s est attach les tudier les comparer et comprendre les causes de leur effondrement il a identifi 5 facteurs dommages environnementaux changement climatique voisins hostiles d pendances entre partenaires commerciaux et capacit s de la soci t r pondre ces menaces avec ses valeurs propres des causes qui r sonnent on ne peut mieux nos oreilles ecoechos comment le logement et l habitat pourraient il contribuer lutter contre le changement climatique et comment accompagner cette volution l exp rience personnelle d une blogueuse viviane rommelaere montre que la soci t dans son ensemble il ne s agit pas seulement des pouvoirs publics n incite pas aller dans ce sens CES On rel ve dans le corpus la variante r chauffement de la plan te 19 occurrences qui constitue une alternative la d signation du r chauffement climatique tableau 5 sans que cela trahisse selon nous une r elle nuance Tableau 8 Extrait de la concordance autour de r chauffement de la plan te climate threat yahoo news S 5 changement climatique r chauffement plan te co2 de 1 atmosph re et donc une acc l ration brutale du r chauffement plan te es 12 149 de ce mois d ao t on va m me finir douter du r chauffement plan te dant quatre mille ans pour en savoir plus S 1 le r chauffement plan te ca
177. le On peut tendre le calcul d crit ci dessus pour les unit s simples aux segments r p t s d un texte si l on remarque que les occurrences d un segment AB ou A et B sont des formes simples peuvent tre vues comme un sous ensemble des occurrences de la forme A pour lesquelles B succ de imm diatement A dans le texte Le calcul simultan des sp cificit s sur les ensembles de formes et de segments r p t s d un m me texte permet souvent de mettre en vidence des associations sp cifiques compos es de plusieurs formes dont les r partition particuli res n entrainent pas de diagnostic particulier Pour en savoir plus Pour un expos et des exemples d application de l analyse des sp cificit s l tude des corpus de textes on consultera par exemple Lafon P D pouillements et analyses statistique en lexicom trie Paris Klincksieck 1984 Lebart L Salem A Statistiques textuelles Paris Dunod 1994 L analyse des sp cificit s repose sur l utilisation du mod le hyperg om trique pour l analyse des tableaux de nombres deux dimensions Pour plus de d tails sur le mod le des sp cificit s et ses applications l tude des corpus textuels on consultera Lafon 1984 ou Lebart et Salem 1994 I5 Pour une sp cificit positive et un effectif observ gal a k un indice de probabilit x signifie que le mod le attache au ph nom ne constat effectif gal ou sup rieur k une probabili
178. leau 6 range l ensemble des termes du corpus en ordre d croissant selon leur fr quence d apparition Nous n avons retenu ici que les formes pleines les plus fr quentes Explorations textom triques 46 Tableau 6 Dictionnaire du corpus Formes Occurrences France 1810 ins curit 1705 politique 1468 Chirac 1421 droite 1249 Jospin 1239 gauche 1168 securite 1010 President 1070 Le Pen 997 tour 783 r sidentielle 744 police 651 d linquance 567 lection 519 vote 496 soci t 484 Les mots les plus employ s d signent soit l v nement politique de la p riode savoir les lections pr sidentielles campagne vote pr sidentielle soit des hommes politiques qui tiennent un role au sein de l Etat et ou qui sont acteurs de cet v nement Jospin Chirac Le Pen candidat L emploi du terme ins curit parait donc surtout d pendant dans le quotidien d une masse discursive sur le th me de la campagne lectorale A ce r seau de termes viennent s ajouter les formes d linquance et police sur l une desquelles nous allons revenir Le dictionnaire des segments r p t s Tableau 7 donne quelques pr cisions suppl mentaires avec le segment l ins curit les segments les plus fr quents sont les d signants de trois acteurs politiques Jospin Chirac et Le Pen et de deux mouvements a gauche et la droite Parmi les formes pleines vient
179. lexes Les limites que l on rencontre d s que l on commence explorer un corpus textuel partir de formes isol es de leur contexte imm diat conduisent rapidement la n cessit d observer la r partition d unit s plus complexes Les segments r p t s du P re Duchesne La fonctionnalit Segments r p t s permet d tablir la liste de toutes les s quences de formes r p t es sans changement diff rents endroits du corpus dont la fr quence totale d passe un seuil minimal F pr alablement fix par l utilisateur Les segments ainsi s lectionn s peuvent ensuite tre tri s selon diff rents crit res longueur fr quence etc On retrouvera parmi les segments longs les expressions favorites du P re Duchesne comme employer le vert et le sec pour 15 perdre le go t du pain 12 ses bons avis aux braves sans culottes 15 brouiller les cartes 20 Parmi les segments plus courts et plus fr quents on retrouvera les unit s compos es voqu es plus haut comme sans culottes 398 jean foutres 136 brigands couronn s 49 Une forme particuli re de pr sentation des contextes du segment tous les qui compte 871 occurrences dans le corpus permettra de constater que cet op rateur textuel sert entre autres choses introduire des entit s pr sent es plut t comme n gatives et contre lesquelles le P re Duchesne propose de se mobiliser On peut voir un extrait de cet inventaire au tableau 4 Cependant l ensemble cons
180. lisateur n implique pas qu il est toujours utile de rassembler dans tous les cas le pluriel et le singulier d un m me substantif lesquels peuvent avoir des r partitions tr s diff rentes dans le corpus D autre part le regroupement des types correspondant l adjectif nouveau mentionn plus haut absorbera galement dans l tat actuel de la fonctionnalit groupe de formes les occurrences qui correspondent aux formes substantivales un nouveau une nouvelle etc Explorations fextom trigues 20 relire attentivement le texte d un bout l autre en nous concentrant sur les seules expressions ll susceptibles de renvoyer ce th me Au del de la mention des substantifs guillotine chafaud rasoir national etc le recensement des formules susceptibles de constituer des occurrences du th me de la mise mort permet de s lectionner les expression suivantes Tableau 2 Exemples d expressions renvoyant au th me de la mise mort s lectionn es d apr s une lecture cursive corpus Duchn faire jouer X la main chaude avoir Jou a la main chaude faire perdre le go t du pain num ro 272 mettre la t te la fen tre num ro 272 jouer la boule num ro 280 mettre la t te la lunette num ro 286 faire faire la bascule num ro 303 faire la fatale culbute num ro 304 voyager dans la charrette de Samson num ro 294 grimper ou paraitre dans le vis vis de maitre Samson num ro 296 faire le voya
181. lisme 11 L expression aeiou repr sente des s quences comme un des caract res de l ensemble des voyelles minuscules L expression a z repr sente un des caract res minuscules compris entre a et z aeiou repr sente un des l ensemble des voyelles minuscules 7 Explorations textom trigues Sommaire Tutoriels pour l analyse textom trique ee 9 Tutoriel n 1 Exploration du corpus P re Duchesne ee 11 1 Le corpus Fere EE 11 2 E E A ne EE A E I EA E A EE con an 12 3 Unites E ea a a te en 14 4 etude la dis ele CUM TVDE nun 21 5 M thodes E NEE 25 OI 31 e E NR ER 31 8 Principales fonctionnalit s Lexico3 utilis es sees 31 Ins curit et lections pr sidentielles dans le journal Le Monde e ee eeeeee 35 1 Le corpus Monde InsecunpiTe mm 35 2 Une densification des emplois de la forme ins curit 36 6 Des l ments d explication 4 42 4 Ins curit et d linquance deux formes tr s proches 48 5 TT a 51 6 Indications bIBIIOGFAPNIGUES ww 52 7 Fonctionnalit s Lexico3 utilis es dans cette exploration 52 DISCOURS royal espaonol 53 1 Contexte de la recherche n iuter tivi itenim nice iit ip aE 53 2 Anomalies dans l accroissement du vocabulaire pe 54 3 R solution du E 55 4 Une m thode de rep rage du taux des reprises textuelles ee 60 5 OO 61 6 References NINE I I OE ERR PE 61 7 Foncti
182. lona la exposici n universal de sevilla los actos de madrid como capital europea de la cultura la conferencia de jefes de estado y de gobierno iberoamericanos S todos ellos han sido una muestra de la vitalidad de espa a de su capacidad de organizaci n y de su proyecci n en el mundo S un a o el actual que si sigue las normas de lo que viene ocurriendo en los ltimos tiempos puede caracterizarse tambi n por novedades imprevistas y tal vez preocupantes de distinto signo que se producen en el mundo y constituyen un aldabonazo a la convivencia de la humanidad 60 Explorations textom trigues La figure 3 montre la ventilation du Tgen SegmentsLongs parmi l ensemble des paragraphes du corpus Une conclusion s impose Dans le corpus Pascua m me si l on peut constater des reprises de s quences longues qui concernent des parties diff rentes du corpus les r p titions de s quences longues se produisent principalement entre les allocutions P92 et P93 Le retour au texte assist par la mise en vidence de ces r p titions nous permet de v rifier que l allocution de 93 reprend effectivement de larges extraits de celle de 92 C est donc l hypoth se H3 que nous devons retenir pour expliquer le ph nom ne constat plus haut L allocution de 93 reprend en grande partie celle de l ann e pr c dente Il reste maintenant trouver les raisons qui peuvent expliquer ce ph nom ne Une enqu te sur les publications ori
183. lorations textom trigues 50 satisfaire les demandes d une population inqui te de l accroissement sensible des petites infractions cr atrices d un sentiment d ins curit S ministres en campagne sur la s curit le ps proclame que le droit la s ret est une libert fondamentale et l ins curit une in galit sociale et s engage apporter tout acte d incivilit ou de d linquance une r ponse juste proportionn e et rapide S dans un premier temps l enqu te s attache analyser le sentiment d ins curit en ile de france qui se d compose entre la pr occupation g n rale pour la d linquance et la peur du crime S tournant le dos en octobre 1997 aux explications sociales de la d linquance lionel jospin a rig la lutte contre l ins curit au rang de seconde priorit de son gouvernement juste apr s l emploi et la lutte contre le ch mage S alors que le th me de l ins curit occupe une large place dans la campagne lectorale des magistrats avocats syndicalistes ducateurs de la protection Judiciaire de la Jeunesse universitaires ou sociologues multiplient les initiatives pour d noncer les amalgames gt et la antastique hypocrisie des candidats en mati re de lutte contre la d linquance des mineurs S jospin ne souhaite pas revenir l ancienne conception de la gauche sur l ins curit qui privil giait les explications sociales la d linquance
184. lyphiques sur l efficacit des m thodes 77 Citation plac e en exergue sur le site du Projet Rosette http projetrosette info sur lequel nous avons recueilli l essentiel des ressources informatis es qui nous ont permis de r aliser cette tude 7 Du grec ispoyAbopoc hierogluphos compos de iepo hier s sacr et yAvoeiv gl phein graver 139 Explorations textom trigues textom triques et sur les possibilit s d investigation nouvelles qu elles ouvrent aux chercheurs dans le domaine des tudes gyptologiques Par ailleurs il nous semble que cette premi re application de m thodes textom triques souvent prouv es sur des corpus de textes r dig s dans des langues modernes des textes qui rel vent d un syst me d criture tr s diff rent peut permettre du m me coup la communaut des tudes textom triques de prendre un recul utile par rapport au corps de m thodes qu elle met r guli rement en uvre sur les corpus de texte qui retienne son atention 2 Le syst me d criture hi roglyphique Les textes hi roglyphiques sont en fait compos s de phrases regroupant des mots crits l aide de signes images Il n y a pas de ponctuation et comme c est le cas pour la plupart des syst mes d criture de l Antiquit les mots ne sont pas s par s par des espaces L ordre dans lequel le texte doit tre lu varie d une inscription l autre gauche droite droite gauche haut bas parcours boustroph
185. m lem ch Vegan wl Tale m EE n s 1 aii a ET SR EE ET E EEN i i i i i T i H i I I i i L i i i i r i i L 1 i i I SS i i i L i i i i r i i 1 L i i 1 i LI SS SS KS SS nl SS SST ms e e mi i LI I LI SI ue NS NT pel SE a E P a qma A LY a T i E g t Cen SE ES CS i TE EH i i T T p iz Seet d eebe SI K j i Ecl cap SS NS i i Sesa re en e re e e e 1 i i i 1 LI i Ms D LI m iE ela SS e e e oo e e LI PE e zs zm e ele se Roo i i I Euri t i m R e e Ke i l l LI CE momo moo E e re mm zm Ee Bl zm zl zm 1 i m m m fe e e ze bk me ze ze cl e e om S m Se aoi D KOKE d dg sejuajajip Sawy ap SALON m um oh ze o mm zem lon zm e em es Goom rm wm mm zl i i i i e mm rm zm m meom mom we dl m m me zm cm cmm zem i i enn 000 1 200 1400 1 600 1 800 2 000 2200 2 400 3 DUU 2 800 3000 3 200 3400 3 DO 400 DUU 200 Position dans le texte nombre d accurrences Figure 4 Comparaison des courbes d accroissement pour les allocutions de 1989 1990 et 1992 1993 Explorations textom friques a a IBILIEI
186. mblant une s rie de textes produits au cours du temps par un m me metteur L tude de ces corpus ob it des r gles particuli res que l on s est efforc de d crire dans ce tutoriel Le Tutoriel n 3 Investiture Obama est consacr l tude d un corpus align avec mkAlign 11 Explorations textom trigues Tutoriel n 1 Exploration du corpus P re Duchesne Corpus unit s textuelles partitions m thodes textom triques Duchesne1 Apprendre a e Construire une ressource textom trique e Introduire des jalons textuels e Choisir des unit s d analyse textom trique e Utiliser les outils textom triques de base e Conduire une exploration textom trique 1 Le corpus P re Duchesne Le corpus P re Duchesne que l on consid re ici est constitu de 96 livraisons d un journal dit par Jacques Ren H bert 1757 1794 parues entre juillet 1793 et mars 1794 durant la R volution fran aise dans une p riode de luttes particuli rement pres entres diff rentesfactions politiques Du fait de sa reproduction et de son acheminement syst matique en direction des arm es ce Journal a connu une diffusion exceptionnelle pour l poque qui lui permet de pr tendre au titre de premier media de masse de l poque moderne Le corpus a t r uni dans le cadre d une tude plus large portant sur la presse jacobine de l poque et a donn lieu depuis de nombreuses publications On peut voir sur la figure une reproduct
187. me l aspartame vous connaissez mais si bien s r une large majorit de produits dits light en contiennent S cet article n est pas r cent mais il vaut le coup que je le cite pour faire le point et savoir o l on en est dans la commercialisation de l aspartame aujourd hui S Coca cola light is 4 no good S des milliers deg i s pendant la guerre du golfe et non de l irak ont t victimes d intoxications dues au coca cola light ils sont dulcor s l aspartame pendant les hostilit s les palettes de canettes taient entrepos es au soleil chaud dans ces r gions S a partir de 33 c l aspartame devient du m thanol alcool br ler tr s toxique qui ensuite se d grade en formald hyde formol encore plus toxique S et que se pass t il dans l estomac 37 c bien tass s 2 S bizarre bizarre l aspartame a t invent par monsanto dans le cadre de la guerre chimique ac sulfamine de potassium S depuis 1996 des scientifiques et des m decins d noncent sa dangerosit diab tes graves et cancers du cerveau in journal of neurology and exp rimental neurology et r clament son interdiction cependant l aspartame est toujours largement consomm dans 90 pays et notamment par les femmes par souci erron de mincir S cet article a t publi par le magazine votre sant n 45 en juin 2003 S et depuis 2003 Afin de visualiser les r sultats de Le
188. ment pour l allocution de 1993 Une suite d op rations textom triques permet de comprendre la raison de cette anomalie On en d duit une m thode pour rep rer les passages fort taux de r p tition dans les s ries textuelles du m me type 1 Contexte de la recherche Le corpus Pascua est constitu de 25 allocutions prononc es par le roi Juan Carlos l intention des forces arm es espagnoles l occasion d une f te annuelle a Pascua militar entre 1976 date de son accession au pouvoir et 2000 Ce corpus a t r uni par C Pineira Tresmontant dans le cadre d une tude plus large sur les strat gies de communication du monarque espagnol On trouve un exemple de ce type d allocution au tableau 1 ci dessous Le corpus compte 4 731 formes pour 32 389 occurrences La partition naturelle du corpus en 25 parties dont chacune correspond une ann e am ne les r sultats que l on peut voir au tableau 2 Tableau 1 Extrait de l allocution prononc e en 1976 Extrait du corpus Pascua lt a 1976 gt S palabras de s m el rey en la celebraci n de la pascua militar S 6 de enero de 1976 S gracias se or vicepresidente por estas palabras tan cargadas de Sentimientos castrenses S gracias por esa lealtad y esa uni n de las fuerzas armadas que me present is y que son garant a de un futuro prometedor S la pascua de reyes es una fiesta de gran arraigo en nuestra patria y es un d a de ilusiones es una fecha q
189. mesur par les chercheurs qui appellent de leurs voeux depuis plus de dix ba ans un changement d outils de mesure de la violence en france lionel jospin leur a donn raison le 25 juin en affirmant qu en l tat actuel les statistiques de la x1 E d linquance ne permettent qu une approche parcellaire de l ins curit et ne rendent compte qu imparfaitement de son volution dans la foul e il nommait une mission confi e aux d put s christophe caresche ps paris et robert pandraud tpr seine saint denis afin d laborer un nouvel instrument statistique de mesure del Occurence ins curit les parlementaires doivent rendre leurs travaux d but 2002 trop tard certainement pour disposer d un outil de mesure fiable et complet de la d linquance avant l entr e dans la campagne lectorale x Es o i Rapport Effacer C Program Files Lexico 31ETENee par 51 Explorations textom triques Tableau 11 Cooccurrence de la forme ins curit et du type DELINQUANCE d linquance d linquant s vol s agression s Partition CI ST mois Si seuilage d linquants ins curit Sp cifs Se OOOBSOOSOS 00 DO008008 00 0008090080 EO OO 2600 Oooo QE mai2002 000 OORT 2650
190. mp tre verbal ou non verbal Conversation cas particulier de l interaction caract rise les changes verbaux entre les interactants S quence suite de tours de parole formant un ensemble fonctionnel distinct dans la conversation Tour de parole temps durant lequel l un des interactants garde la parole parfois abr g en tour dans la litt rature La situation renvoie au contexte o sont situ es les interactions en l occurrence l appel t l phonique d un usager vers la plateforme de renseignements d une soci t de services L interaction correspond un change entre au moins deux interactants qui sont en pr sence pour mener bien une activit sociale Cet change peut tre verbal ou non verbal tant donn e la situation d interaction le corpus tudi ne contient que des changes verbaux La conversation est un cas particulier de l interaction Cette pratique sociale caract rise les changes verbaux entre des interactants Ces changes se structurent en s quences unit s qui d crivent des tapes distinctes de la conversation Certaines tapes sont attendues telles que les s quences d ouverture ou de fermeture qui consistent par exemple en des changes de salutations en d but et en fin de En particulier la conf rence IHM 07 a t consacr e l tude de l engagement de l utilisateur dans les interactions verbales homme machine On peut par exemple consulter Ech Chafai et al 2007
191. n environnementale permet d extraire une s rie de notions clefs du domaine et de cerner leurs usages respectifs parmi les diff rentes sources qui participent au d bat sur ce th me On tudie ensuite les variations dans l emploi de ces notions au cours du temps Abstract The statistical analysis of a corpus of blogs on the topic of ecology yields a series of key notions of this semantic area and their different usages by the various sources which take part in the debate around this theme A chronological study can then be undertaken to show the evolutions in the use of these words through time 1 Contexte de la recherche Dans la p riode pr c dant l lection pr sidentielle fran aise de 2007 la question environnementale a occup une place remarquable sur tous les m dias imposant d finitivement dans l opinion au cours de l ann e 2005 2006 l vidence d une crise cologique majeure Durant cette m me p riode le d veloppement exponentiel des blogs comme outil de communication privil gi sur Internet a permis de constituer un espace d changes particuli rement riche sur le sujet environnemental Dans ce contexte il nous a sembl utile d tudier le d ploiement de notions clefs telles que d veloppement durable nergies renouvelables au sein des nombreux ensembles de textes produits dans la rencontre entre ces deux tendances fortes que sont l appropriation massive des blogs comme moyen de communication d une p
192. n ligne blogs forums nous avons choisi pour cette tude exploratoire de s lectionner un chantillon de E 7 37 sites plus particuli rement r f renc s par les moteurs de recherche 37 Le calcul de l indice de r f rencement ranking qui sert trier les sites dans les r sultats d un moteur de recherche s appuie en principe sur le nombre des consultations effectu es sur chacun des sites 67 Explorations textom trigues Nous avons choisi de retenir pour notre tude les textes publi s sur l Internet entre le 26 mai 2008 date des premi res r actions et le 02 octobre 2008 cl ture du fil de discussion sur ce sujet sur les forums observ s Nous avons privil gi les sites les plus fr quent s par les internautes partir des indices de fr quentation calcul s par les diff rents moteurs de recherche ranking 2 1 La presse en ligne Comme partout ailleurs les grands quotidiens nationaux chinois et les agences de presse entretiennent des sites informationnels sur l Internet qui leur permettent de mettre leurs principales publications la disposition des internautes dans des d lais relativement courts Nous avons s lectionn vingt sept mis en ligne apr s leur parution par ces grands organes de la presse officielle Le site de l agence Sina Nouvelle vague et celui de l agence Art f Xinhua Chine nouvelle ont constitu nos principales sources lors de cette s lection de notre volet de Presse en l
193. nalyser l activit de traduction effectu e entre les deux versions du texte 4 1 D coupages du corpus Le document original se pr sente sous forme d un texte d coup en 190 lignes que nous appellerons ici des versets Une m me phrase du texte un m me mot 2 peut se retrouver transcrite cheval sur la fin d un verset et sur le d but du verset suivant Nous avons num rot les versets de 1 190 en faisant pr c der le verset x de la balise lt v x gt Tableau 1 Partition en douze fragments du corpus Naufrag Partie occurrences formes hapax fmax forme OlIntro 313 78 35 31 n 02VoyageEtNaufrage 211 81 34 21 O3lleDuKa 251 73 40 28 04LeSerpent 434 90 39 39 OSRecitNaufAuSerp 374 9 40 29 06DiscduSerpentl 224 61 28 23 07RecitduSerpent 270 73 37 31 O8NaufetSerpent 354 91 41 30 09DiscDuSerpent2 597 115 60 60 LORetour 2141 59 21 31 11Epilogue 153 56 29 13 p D p D p D p D p D Dans le document original certains groupes de versets sont pr c d s d une courte s quence de signes mise en valeur par une coloration rouge qui semble marquer le d but d une nouvelle 146 Explorations textom trigues partie du r cit et sugg rer un d coupage du texte en parties Ce d coupage provisoire dont il faut noter que nous ignorons l origine exacte ne con
194. ne sno 1 3 juilet 20101 450 EJ E EJ EJ E1EJ E EAE E 00 A EJEIEIJEI ETE EJ EJETES DO mois EJ EI EJ EJ EJ E E3 E EZ EHE E EI E E EJ EJ EL E E31 E EI EI EI EZ E EEE EIEIEIJEIEIETEJ EJEJEI EJETEJ EJ Figure 4 Ventilation de la forme ins curit dans les articles du corpus La carte des sections Figure 4 montre d abord que l augmentation de la fr quence du mot est avant tout li e au nombre des articles qui emploient la forme Dans la mesure ou le volume du journal est constant cela signifie qu ins curit est de plus en plus pr sent dans l espace textuel du quotidien Cette carte confirme une des observations de la Figure 1 si le nombre d occurrences baisse partir du mois de juin 2002 et si la fr quence du terme au mois de juillet 2002 rejoint pratiquement le niveau observ au mois de juillet 2001 le nombre d articles employant la forme ins curit demeure lev Au regard de la constitution m me du corpus cette derni re observation n est pas de moindre importance En effet comme nous l avons dit plus haut le choix des articles est exhaustif puisque nous avons rassembl tous les articles avec le mot ins curit Or certains emplois n ont peut tre pas de liens directs avec une argumentation lectorale ou des arguments post lectoraux et sans exploration ult rieure du corpus nous ne savons m me pas s ils sont pris dans un discours politique Pour le traitement statistique
195. nettement plus satisfaisante Les m thodes quantitatives permettent alors tout la fois de mettre en vidence un vocabulaire offensif qui trouvera un emploi particuli rement remarquable dans la p riode M6 Le retour au contexte permet de pr ciser ces analyses 7 R f rences Lamalle C Salem A Types g n ralis s et topographie textuelle dans l analyse quantitative des corpus textuels in actes des 6emes journ es d analyse statistique des donn es textuelles Inria St Malo 2002 http www cavi univ paris3 fr lexicometrica 1997 8 Principales fonctionnalit s Lexico3 utilis es Kl Fonctionnalit EE Partition cl a pour Partition cl a pour ann e 000000000 H Principales car lexicom PCLC T Ner 2 Accroissement du vocabulaire corpus Accroissement du vocabulaire P92 P93 Segments R p t s seuil minimal EE E S lection d un Type occurrence de SR long gt 10 BEEN Carte des sections paragraphes pr sence SR de long gt 10 Figure 3 92 Explorations textom trigues Annexe Accroissement de vocabulaire 01 06 3300 EE VE si ri oe e E o S N S9juajajlip sawo op siguro e e e 909 dl 1 600 1 400 3 o o e N 600 600 200 12 000 10 000 Position dans le texte nombre d occurrences 16 000 15 000 14 000 4 000 6 000 8 000 2 000 230 An x 5 OC um T 1 1 I I LI 1 LI 1 1 1 1 LI 1 1 L
196. nonc note une pause finale Une premi re phase de normalisation a consist purger certains ph nom nes de l oral spontan appartenant au paradigme des disfluences Les marqueurs des recouvrements de parole et des pauses internes aux tours de parole ont t limin s les caract res qui les signalent tant interpr t s comme des segmenteurs du fil textuel par les outils de textom trie utilis s par la suite Le but de cette op ration est d isoler correctement les unit s dans la chaine textuelle afin d obtenir des d comptes pertinents sur les occurrences de formes Dans le m me temps les marqueurs de reprises et de r p titions ont galement t purg s Seuls les phatiques qui se pr sentent sous des formes faiblement distinctives dans le corpus 5 La FreeBank http freebank loria fr corpus php est la banque de corpus ouverte du LORIA Pour davantage de pr cisions typologiques autour de la notion de disfluence voir par exemple Schriberg 1994 7 Dans le cadre m thodologique de l analyse conversationnelle l nonc et le tour de parole ne recouvrent pas la m me r alit linguistique un tour de parole peut tre non verbal consister en un phatique ou comprendre plusieurs nonc s alors qu un nonc est soumis des conditions de compl tude ou de v rit selon les approches Les approches traditionnelles de l nonc en linguistique ne consid rent par exemple pas qu un mot isol ou un phatique peu
197. nouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables S W Tode Sog comment ne pas voir que est aussi une utopie ou v ritable faites dans l tude des d placements r duits S a lire galement leur gageons que la wallonie philosophie etc ils ont certes raison chacun voir ici x d des mesures incitatives d ici 2010 4 S je fais ce que je dit dans le monde S que et les activit s d olien n a progress de 30 de pair avec des conomies situ s en wallonie Ql S le doe esp re que la et ce dans le cadre d SC feder comme plan te eolienne avantage d tre le conseil S bizarrement et des conomies d il est certain que nous et de leur mis en place en parall le et pour cela il nous faut leur souhait sortir et dont je d duis une vidence soit 46 twh c est les v nements mondiaux 7 et pourra vous intervient iberdrola est dans ce contexte les panneaux nergie d une hausse et des campagnes de ma trise reste un poste important S l1 et chasser le p trole et un v
198. ns beaucoup moins nombreuses de la part de l adulte et des nonciations spontan es par l enfant de parce que not es en bleu qui doivent tre interpr t es comme une tentative de mise en vidence de la coh rence du r cit entendu da E OOM O OEE E OB OL THISEL JE TEE TE JE TES E IE E TIE TET ME JE TE TEE IE IE IL T ETE TE TE TE TETETETE TE I LILIEIEHBSIEIEIEIEIEIEIEIEIEIEIEIEJIEIEHISE dinin dd nin ILI Figure 9 Localisation des parce que dans le corpus Mathilde Avec l enfant Mathilde l adulte a pos moins de questions et a renonc l utilisation de pourquoi pour viter de recevoir des parce que en construction syntaxique incompl te sans l nonciation de la principale L adulte a analys ses dialogues avec Julien et a proc d par la 105 Explorations textom trigues suite un enregistrement d un nouveau corpus longitudinal avec Mathilde pour observer le r le de l adulte dans ne situation de co construction de la narration autour du m me livre illustr 4 Acquisition de structures syntaxiques Nous recherchons dans les nonc s de l adulte et de l enfant des formes lexicales quand puisque des groupes de formes il faut que parce que pour que des constructions syntaxiques verbe verbe infinitif Ces introducteurs de complexit IC constituent selon Lentin 1984 les marques les plus significatives de la progression de la complexit syntaxique en l
199. nser parler lire crire Paris ESF Ochs E amp Schieffelin B 1995 Language socialization and its consequences for language development in Fletcher P and MacWhinney B d The Handbook of Child Language Blackwell Publishers Tissier C 2001 Role de l adulte dans l interaction langagi re adulte enfant entre 4 ans 9 mois et 6 ans 4 mois en situation de narrations dans deux corpus longitudinaux Paris M moire de Ma trise ILPGA Paris 3 non publi Valli A amp V ronis J 1999 Etiquetage grammatical des corpus de parole probl mes et perspectives in Revue Fran aise de Linguistique Appliqu e Volume IV n 2 d cembre 1999 p 113 133 V ronis J 2000 Annotation automatique de corpus panorama et tat de la technique in Pierrel J M d 2000 Ing nierie des langues Hermes Sciences Publications p 151 171 117 Explorations textom trigues Wyatt G 1969 La relation m re enfant et l acquisition du langage Mardaga Bruxelles 8 Fonctionnalit s Lexico3 utilis es dans cette navigation v Fonctionnalit R sultat LG Pain Gj dl ANR EP i Partition cl dial pour Partition cl dial pour dialogue cl part pour locuteur cl part pour locuteur Carte des sections nonc s 1 locuteur par ligne Figures 5 6 7 8 9 15 EC 20 21 22 Groupe de Formes Pr position suivie de Verbe Infinitif T Tableaux 13 16 0 13 16 PCLC corpus dialogue locuteur T
200. nt de vue ditorial Les discussions y prennent place sous la forme de fils de messages publication instantan e ou diff r e cette publication est souvent durable car les messages ne sont pas effac s Elle est par nature le fait de plusieurs auteurs Dans certains forums inscription les messages sont modifiables a posteriori par leurs auteurs Les fonctionnalit s offertes par les diff rents forums citation d un point de vue pr c demment exprim cr ation d intertitres mise en page indentation particuli re mod ration des droits d acc s a priori ou a posteriori peuvent varier d un forum l autre certains forums ne permettent que de contribuer de mani re ponctuelle un sujet discussion tandis que d autres permettent de r pondre plus longuement un message particulier voire un paragraphe particulier contenu dans ce message Pour repr senter le type de m dia forum nous avons s lectionn l ensemble du fil de discussion L actrice Sharon Stone consid re que le tremblement de terre de Sichuan est une cons quence d un mauvais karma ce qui entra ne de vives r actions qui se sont d velopp sur le site de l agence NetEase www 163 com 4 Nous avons choisi ce site parmi d autres parce qu en d pit d un th me nominal au caract re r probateur il pr sentait premi re vue une discussion beaucoup plus ouverte des opinions vari es que des sites concurrents Comme on le verra plus lo
201. nt d une concordance portant sur les segments les plus longs tableau 5 nous permet de v rifier que plusieurs de ces segments trouvent une de leurs occurrences dans le fragment n 2 du conte laquelle correspond une seconde occurrence qui peut tre localis e dans le fragment n 5 L tablissement d une carte de sections sur laquelle on a signal la pr sence des segments appartenant ce seul groupe nous conduit au constat que la duplication de ces longues s quences r sulte de la r p tition d un m me r cit repris avec des variations deux endroits diff rents du corpus figure 4 Tableau 4 Extrait des concordances r alis es partir des occurrences des segments r p t s les plus longs dans le volet hi roglyphique du corpus Naufrag Partie OlIntro Nombre de contextes 1 RE NP zm Pre ub V31A s D d Al r I MOIA mi 9 X 9 d T Partie 02VoyageEtNaufrage Nombre de contextes 8 cub AL Ml4 wr se d o PE e BI OG oom X E c mm ES Wi mD mD t MD SS SH ow iab s ES SQ X o A30 AL VL V20 V20 VI e V20 V20 i m s d m stp YI n km m t niwt mA ir A LA N23 SL m a t Vala f ib Zl s n Z2 S WA i L SA W E S to SE ca ZL L SAH gt Y1 B 72 TA y CR ZL f A SE AS a m i i t A2 n U19 nw W i i t mw i m f n t mH H xt L ZL H SHI A25 A24 n Al s aHa a f n rtp FE Pl a n d p t
202. nt de vue du volume de texte la partie s lectionn e pour repr senter la presse dans notre corpus Signalons enfin que les moteurs de recherche proposent des outils sp cifiques pour la recherche des blogs blogsearch google cn blogsearch baidu com qui nous ont permis de localiser ces derniers sans difficult 38 On trouvera plus loin l exemple d un blog consult par plus d un million d utilisateurs au cours de la semaine consid r e 68 Explorations textom trigues sina XER gt gt ET AD http www sina com en 2008 05 27 16 10 MELE RAM RD EE ER EI E 2008 5 27 3 15 PPR P 4 SE RAKE A E F oof 5 H ARKE S pt SH E ART St PEQIN I PRITA te HI II ED sit Malo RR Dion Be SE A HERRERA ST Coin DS Seb RH SCH RTE EE EMEA SENTE A KELA P AIM Re Hi lE Ramen n EH RB AES AE RT Uc DS eR SE TANT s DS SESEASER D TAH SMS EUR TERRES DD JA S Ftoj HA pa du HE Gy Pim OA Powered By Google 8 sons Figure 2 Volet Presse du
203. nt pour chaque locuteur Tableau 3 Transcription du premier dialogue de Julien extrait Alors c est quoi l histoire de Crictor mm un jour le facteur arrive et donne un mm quand madame Bodot ouv r e le pa quet mm elle va elle va au zoo Et pourquoi elle va au zoo pour voir si c est pas un un serpent dang e reux il avale sa salive Pourquoi le serpent dang e reux il est dans il tait dans 1 e paquet que l e facteur a apport oui D accord et mm un c tait un boa constructeur alors elle l appela Cric tor elle lui donna un s s le biberon s elle lui apporta des palmiers Et pourquoi elle lui apporta des palmiers pour sa propre nature Ah pour qu i l euh se rappelle sa nature D accord mm elle lui faisa un petit gilet elle d cida de de l em mener en classe il apprena l alphabet Et euh en fait elle s occu madame Bodot elle s occupe du serpent comme un un petit enfant en fait mm Et c est qui qui lui a envoy le le serpent c est son c est son mari C est son mari il apprena compter Donc ila il a appris compter l cole aussi 2 Guide de lecture du tableau 3 Convention de transcription signes utilis s dans l extrait Transcription orthographique pour garder la lisibilit des nonc s et pour tudier la syntaxe Ponctuation dans les nonc s de l adulte Pas de ponctuation dans les nonc s de l enfant sauf 2 et
204. ntexte lexical Dans ce corpus l enfant est le seul produire des constructions de type pour VInf Le nombre d occurrences de la structure Prep VInf est deux fois plus lev dans le corpus Mathilde LC que dans le corpus Julien LC 21 occurrences dans Julien LC 39 dans Mathilde LC L encore la r partition des pr positions augmente au fur et mesure des entretiens mais l cart entre les deux locuteurs est moindre 19 occurrences pour l adulte et 20 pour l enfant dans Mathilde LC alors qu il y avait respectivement 8 et 13 occurrences dans Julien LC Tableau 16 Liste des Prep VInf dans Mathilde LC PREP compter VINF a PREP enlever VINF a PREP faire VINF a PREP sauter VINF de PREP prendre VINF de PREP le PPER3S emmener VINF pour PREP apprendre VINF pour PREP tre VINF pour PREP permettre VIN pour PREP voir VINFE pour PREP lui PPER3S rappeler VINF Tableau 17 R partition des constructions Prep VInf dans Mathilde LC mae ma le 2 ma lc 3 Total Locuteur Wu 2 7 107 19 S Total Dialogue 3 109 Explorations textom trigues La cartographie figure 18 permet de v rifier que les nonc s concern s par cette construction sont dans la plus part des cas regroup s en paires del III EIEIEIEIEIE HIE IE OORT OO OICHT i LILIEJIEIEIEIEIEIEIE EIEIETIEIEIEIEIEIETET OTT OO COOC del LILIEILIEIEIEIEIDO EIE ETE HIE T DOE TET C E S DOS JE JE TE JE TE TEE JE JEJE IE IE OO oi LIL
205. o machine conversations First a presentation is given of the corpus and formatted processing codifications 82 next a series of quantitative analyses are used to extract speaker specific characteristics and main features 3 As a result a conversational topology is proposed for the interaction processes 4 and an analysis 1s put forth to reveal questions pertaining to variations in human behaviour in situations of information inquiry 35 Key words man machine conversation conversational analysis textometry interactional behaviour Pour faire face aux demandes de renseignement toujours plus nombreuses formul es par les usagers les grandes entreprises qui interviennent dans le domaine des services mettent en place des traitements informatis s de prise en charge t l phonique Apr s une p riode d essai en contexte industriel la phase actuelle est consacr e l valuation des syst mes d automates vocaux une partie des appels tant d sormais trait e par ces syst mes intelligents 5 les op rateurs humains restant en charge de l essentiel du travail de r ponse aux usagers Dans le domaine des interactions humain machine on appelle ainsi des syst mes informatiques qui couplent un module de synth se vocale et un module de traitement de questions r ponses 59 D D H H e 7 r II convient de signaler que ces syst mes ont acquis une certaine qualit de r ponse et que de nombreux usagers ne se rendent pas compte au te
206. occurrences identiques d apr s le crit re d identification retenu Lex co3 Segmentation initiale v Lancer Lexico3 S lectionner l ic ne Segmentation 1 ic ne en haut gauche Choisir le fichier texte segmenter Duchn txt Accepter les d limiteurs de forme propos s par d faut bouton OK q re Sur les types g n ralis s cf Lamalle amp Salem 2002 Selon les tudes on trouve des crit res d identification dont la nature peut varier Dans certains types de d pouillements dits d pouillement en forme graphiques on se base sur l identit graphique des s quences consid r es d autres formes de d pouillements font intervenir la nature grammaticale des occurrences isol es voire des informations de type s mantique On consultera sur ce sujet Labb xxx 15 Explorations textom trigues Diff rents outils textom triques que l on d crira plus loin permettent d appr cier la fr quence la r partition la spatialisation des occurrences relevant de chacun des types constitu s cette tape Les r sultats fournis par ces outils ne sont pas ind pendants des types d unit s constitu s mais les m mes outils s appliquent tous les types constitu s de la sorte La qualit premi re d une norme de d pouillement est d tre la fois simple noncer et automatiser Le d pouillement du corpus Duchn en formes graphiques d limit es par les d limiteurs propos s p
207. omparant ces fr quences de la forme dans Le Monde avec les fr quences de la forme dans les discours de l un des candidats l lection pr sidentielle le pr sident Jacques Chirac en 2001 2002 Figure 6 ins curtt m i d i Cp Tj m H i Ce J 5 i E 1995 1996 1997 1938 gs 2000 2001 2002 2003 2004 2005 Figure 6 Ventilation des fr quences de la forme ins curit dans les interventions de J Chirac 1995 2005 Cependant ce type interpr tation s appuie essentiellement sur un savoir ext rieur qui ne donne aucune indication sur la mani re dont Le Monde voque ce m me contexte De plus dans ce corpus qui regroupe des articles appartenant des rubriques diff rentes un v nement port e internationale comme les attentats du 11 septembre peut avoir une incidence dans l augmentation de fr quence du mot dans le quotidien D autres explorations sont donc n cessaires Ventilation des occurrences dins curit dans les rubriques du journal Le Monde La premi re exp rience porte sur la r partition de la forme p le dans les rubriques du journal En effet si le terme ins curit est majoritairement employ en rapport avec la campagne lectorale il sera surtout pr sent dans des articles qui traitent de l actualit nationale Nous avons red coup le corpus Monde Ins curit balisant les rubriques principales qui apparaissent dans le quotidien ce moment et avons observ la
208. onatif en fran ais R sultats pr liminaires Travaux interdisciplinaires du Laboratoire Parole et Langage vol 24 pp 139 157 Sacks H Schegloff E A Jefferson G 1974 A simplest systematics for the organisation of turn taking for conversation in Language 50 pp 696 735 Schriberg E 1994 Preliminaries to a theory of speech disfluencies Ph D thesis University of Berkeley California 138 Explorations textom trigues Textometrie hi roglyphique Conte du naufrag Andr Salem Romuald Schummer salem msh paris fr schummer2001 yahoo fr They did not know it was impossible so they did it Mark Twain R sum A partir d un texte hi roglyphique et de ses translitt rations sur un support informatis les m thodes textom triques permettent d explorer directement des r currences textuelles contenues dans le corpus Le rep rage de s quences r p t es dans le texte original ouvre une voie textom trique l tude des proc d s narratifs l uvre dans le r cit La constitution d un bitexte constitu du texte original et de sa traduction fran aise align e au niveau du verset permet d tudier l activit de traduction r alis e partir des textes originaux Mots cl s textom trie hi roglyphes L activit d exploration rec le bien des dangers pour ceux qui s aventurent sans pr paration dans des contr es qu ils n ont pas pris le temps de connaitre au moins par les r cits de gens qu
209. onnalit s Lexico3 utilis es dans cette navigation 61 CU 62 l Contexte de arat nar Ore a a ui 63 2 Localisation et pr s lection des textes 65 3 D pouillement quantitatif du corpus 72 4 Etude contextuelle de la forme di zhi boycott 77 Coco 82 CR ES 0 83 DIOSSA environnement ee 84 1 Contexte de la recherche EE 84 2 Caract ristigues du Corpus se ve ANTR 84 3 Et de de la partition par dates usati rS nues DII QE meet 86 Explorations textom triques 8 4 Etude de la partition par dI005 panorame demo naasia N EE VeRO ER UR eR LUE Sra rtr 86 5 Les Tormes OS ttu a EDU RM NU MESI 88 6 D veloppement durable ou protection de l environnement 3 88 5 R chauffement changement ou crise climatique Ne 89 8 Energies renouvelables ou d croissance 7 93 9 ele ET ed ioi ERU dam d REM OUS Up MGR DM MICE 94 10 TE 94 11 Fonctionnalit s Lexico3 utilis es dans cette exploration 95 Interactions adulte enl ant E 96 1 L tude des interactions odulte entfont ss 96 2 Les corpus Julien et Mathilde 96 3 pourquoi pare GUE e E E A E E 101 4 Acquisition de structures syntaxiques ee 105 D Le pole de Adile uoo tese nicotine nUvto dem todo nime EEEE AEAEE 110 6 COCO MR A eset EnEMENU EUMD 114 7 Indications bibliographiques ee 116 8 Fonctionnalit s Lexico3 utilis es dans cette navigation 117 Interactions Donmeniac ne a 118 1 Contexte et motivations de la recherche ss 119 2 LE CORSA so 121 3
210. onne ou 1 urbanisme durable dans des posts pr c dents je vous avais Le terme protection de l environnement apparait nettement moins fr quemment que d veloppement durable dans le corpus de blogs 50 occurrences Pourtant une requ te sur Google donne plus de r sultats pour protection de l environnement que pour d veloppement durable 3 660 000 contre 2 070 000 Bien qu ayant t une des expressions historique de la cause cologique les associations de protection de l environnement elle semble tre tomb e en d su tude Une exploration des sp cificit s par blog permet de constater que l expression est sp cifiquement employ e par le blog alternacteur qui en fait une rubrique d ou un nombre d occurrence sup rieur l usage r el de la locution En effet le retour au texte via le module textploreur tableau 4 permet de constater que la locution fait l objet d une r currence Cette liste est une s lection D autres formes d int r t pourraient faire l objet d explorations biodiversit consommation responsable 89 Explorations textom trigues artificielle compte tenu de la d nomination de rubrique par opposition une r elle r currence d usage dans le discours Tableau 7 Extrait de la concordance autour de protection de l environnement Partie alternacteurs Nombre de contextes 40 d veloppement durable forums d bats protection de 1 environnement lien permanent d
211. opre ce type d intervention complique la distinction entre des tournures et des formules difficilement vitables dans ce genre d allocution et ce qui constitue manifestement des reprises in extenso d un texte ant rieur Par ailleurs une fois le corpus mis disposition sur support informatis le rep rage des s quences r p t es constitue de nos jours une op ration relativement facile mettre en uvre pour le chercheur m me si elle entraine pour la machine un volume de calculs relativement important 4 Une m thode de rep rage du taux des reprises textuelles Sur la figure 4 on a trac deux courbes d accroissement du vocabulaire La premi re en dessous sur la figure concerne l ensemble compos des deux allocutions P92 et P93 mises bout bout La seconde concerne deux allocutions correspondant d autres p riodes du corpus et choisies en raison de leurs tailles comparables Ce rapprochement permet de localiser des portions du texte pour lesquelles l accroissement est tr s faible et dont on peut supposer qu elles correspondent des reprises importantes d un texte pr c demment nonc On voit ici que la fin du texte de 1992 semble contenir peu de redites si l on en juge par la reprise r guli re de l accroissement du vocabulaire 61 Explorations textom trigues 5 Conclusion La d marche propos e permet donc de comprendre les raisons de l anomalie rep r e sur la courbe d accroissement du vocabulaire
212. our constituer partir de cette cl un corpus en 8 parties La partition r alis e partir de la cl Epg rassemble donc en une m me partie toutes les premi res pages de chacun des 96 num ros la seconde partie est compos e de toutes les secondes pages et ainsi de suite jusqu la huiti me partie qui rassemble les derni res pages de chaque num ro Le contenu de la cl Epg x prend des valeurs de 1 8 car la publication une grande feuille imprim e pli e en quatre par la suite est toujours compos e de 8 pages Explorations fextom trigues 24 Quel peut tre l int r t d une telle partition au plan textom trique 2 Ce d coupage du corpus un peu curieux au premier abord permet de mettre en vidence une particularit int ressante dans l utilisation du vocabulaire Comme on peut le voir sur la figure 5 la fr quence de la forme foutre assez faible dans la premi re page se maintient un niveau stable dans les pages int rieures pour cro tre brutalement l int rieur de la derni re page Ce d s quilibre traduit coup sur un proc d r current employ par l auteur dans la conclusion de son p riodique Une hypoth se explicative se pr sente imm diatement au vu de cette ventilation que des recherches ult rieures viendront conforter par la suite la forme foutre juron favori du P re Duchesne est utilis e assez mod r ment dans l introduction de chaque livraison sa fr quence relative r
213. ous alors que les tours de parole de la seconde sont caract ris s par l emploi du pronom je Le vous de politesse est particuli rement sp cifique des productions de la machine Le temps verbal dominant dans les deux cas est le pr sent toujours au mode indicatif chez l op ratrice et parfois l imp ratif pour la machine Les verbes d action sont sp cifiques des tours de parole de la machine obtenir noncez formuler tandis que l op ratrice privil gie l utilisation des adverbes oui et non ainsi que les articulateurs du discours alors et donc 4 2 Routines conversationnelles Au del des formes sp cifiques employ es par chacun des fournisseurs on remarque que ces derniers utilisent de mani re pr f rentielle un grand nombre de routines conversationnelles Etant donn e la situation d interaction les fournisseurs d information v ritable interface entre l entreprise de services et les usagers sont fortement soumis la norme sociale ils repr sentent l entreprise et la qualit de leur travail est valu e partir du respect de ces normes lorsqu ils fournissent des informations aux usagers Cependant leurs routines sont diff rentes leur mise en ceuvre de pratiques socialement norm es diverge Routines machine la densit d information Le tableau 9 comporte des exemples de tours de parole produits par la machine qui correspondent de telles routines conversationnelles On propose un type pour ch
214. pe d tude surtout lorsqu il est pratiqu sur un chantillon restreint ne saurait se pr senter comme une synth se des r actions rep rables dans l opinion publique chinoise Les traitements textom triques nous ont permis de constater la diversit des r actions exprim es par les internautes et de d couvrir une hi rarchie inattendue des th mes exprim s gr ce aux observations sur la diversit des r actions Nous pensons avoir montr la possibilit qu il y a d acc der des r actions authentiques vis vis de ce qu on croit de la libert d expressions exprim es dans trois diff rentes couches de l opinion publique chinoise 83 Explorations textom trigues 6 R f rences Lamalle C Salem A Types g n ralis s et topographie textuelle dans l analyse quantitative des corpus textuels Actes des 6 mes Journ es d analyse des donn es textuelles St Malo 2002 Lebart L Salem A Statistique textuelle Paris Dunod 1994 t l chargeable sur le site http www cavi univ paris3 fr lexicometrica livre st94 st94 tdm html Miao J Salem A Comparaisons textom triques de traductions franco chinoises in Explorations textom triques 2008 Shen L http lionelshen free fr Labo Master Memoire M2 LS pdf 84 Explorations textom trigues Blogs amp environnement Blogs Patrick Couton Wyporek www pcw etudes fr R sum L exploration textom trique d un corpus de blogs qui abordent sur le web la questio
215. plorations fextom trigues 28 5 2 Analyse des sp cificit s du corpus L analyse des sp cificit s permet de porter un diagnostic exprim en probabilit sur l effectif de chacune des cases d un tableau lexical Rep res m thodologiques La m thode des sp cificit s A partir de l effectif constat l intersection de la ligne i et de la colonne j le nombre d occurrences de la forme i dans la partie j tant donn s la fr quence totale de la forme F la longueur de la partie t et l effectif total T la m thode permet de tirer des conclusions sur l effectif observ Dans certains cas la conclusion est que l effectif observ correspond a peu pr s ce que le mod le permettait de pr voir On dira alors que la r partition de la forme est banale pour cette partie Dans d autres cas le mod le am nera conclure que l effectif observ s loigne notablement des pr visions que l on pouvait faire sous les hypoth ses admises par le mod le On appelle sp cificit s positives les effectifs qui d passent largement ce que le mod le laissait pr voir et sp cificit s n gatives les effectifs qui se r v lent nettement inf rieurs ce que ce m me mod le permettait d esp rer On attache ces diagnostic un indice de sp cificit qui permet de mesure les carts constat s par rapport ce que le mod le laissait pr voir Plus ce diagnostic est lev plus l cart est jug significatif par le mod
216. pond de fa on quasi syst matiquement en construction incompl te la suite d une question de la part de l adulte Lorsque nous proc dons la m me recherche dans le corpus longitudinal de Mathilde nous remarquons qu il n y a aucune question de type pourquoi da Figure 7 Localisation des pourquoi parce que dans le corpus Mathilde Le premier parce que de l enfant nonc dans le deuxi me dialogue est une tentative abandonn e qui n est pas reprise par l adulte M3 elle va au zoo parce que le serpent trictor alors elle l appela Crictor alors Dans ce troisi me corpus l adulte nonce plusieurs constructions avec parce que sans que l enfant ne les reprenne imm diatement Il n y a que trois productions de parce que par Mathilde dont les deux derni res dans le troisi me dialogue sont des reprises imm diates des nonc s de l adulte 104 Explorations textom trigues Parce que le mot n ant commence par la lettre N d accord parce que parce que euh dans dans quoi 2 on lui a fait une statue et il y
217. pos e par cette occurrence et dix occurrences autour d elle peut tre localis e deux endroits diff rents du corpus La version 3 45 1 de Lexico3 permet de rep rer les segments r p t s compos s de onze formes cons cutives Cette limitation n est pas contraignante car la r p tition d une s quence aussi longue trahit en g n ral la r p tition citation reprise etc de portions de textes beaucoup plus importantes groupe de phrases paragraphes groupes de paragraphes 56 Explorations textom friques Accraizsement de vocabulaire 1992 1995 i CH Hi z c c c c ua CH u c Ki i my ae ap sau ap aJquioy ZOU ze rm pm em wm le ail im ond Me Rn d M i EE en d i P 150 L i x I L L I i 47 i L i i L i L L U L L I i i L I i L i 417 i L L L L L I i DU U i i i 1 000 1100 1200 1 300 1 400 1500 1 600 1700 1800 200 300 400 so0 600 O0 SOU 500 Position dans le texte nombre d 100 occurrences Figure 2 Courbes d accroissement du vocabulaire pour les allocutions de 1992 et 1993 Explorations textom friques 57 Accraiszemernt de vocabulaire 1992 1993 1959 1990 D mm mb mm mm p ome mcm m me i I LI zs e rm e ie mm m 1 11504 1 100 1 0504 1 UUU i i mn ts i man De log Ce du es us Si L e e ai i i i i i i i lem alem l
218. ppement d veloppement d veloppement d veloppement d veloppement d veloppement d veloppement d veloppement d veloppement production production production production de productions de productions autres sources autres sources 4 d p 4 le domaine d velopper d velopper d velopper d velopper d velopper d velopper promouvoir promouvoir promouvoir a Q HD Q Q D o un u des des des des des des des des des des des des des les les les les les les les les les Tableau 10 Extrait de la concordance autour de nergies renouvelables nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies nergies renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables renouvelables re
219. pprend a lire et a compter Fxemple 4 J8 il va il va et la il va dans la neige et il et madame Bodot d cida de le prendre dans sa classe ATI Euh madame Bodot d cide d e le prendre dans sa classe parce qu elle est institutrice d9 mm S comme s il apprena faire euh l alphabet sa place S comme serpent E comme l phant c est c est quoi 108 Explorations textom trigues Dans l exemple 1 l enfant produit une construction Prep Vinf en tentant de construire le pass simple du verbe apprendre L adulte reformule imm diatement cette tentative en proposant un pass compos dans le m me contexte lexical en reprenant la m me construction Dans l exemple 2 l adulte reprend l nonciation de l enfant pour lui demander de pr ciser son raisonnement Dans l exemple 3 l adulte reprend l nonciation de l enfant et la compl te par un autre groupe pr positionnel Dans l exemple 4 l adulte reprend l nonciation de l enfant et la compl te par un parce que L enfant continue avec une tentative de construction au pass simple du verbe apprendre que l adulte ne reprend pas du tout dans la suite du dialogue En d taillant la nature des pr positions dans le corpus Julien LC on remarque que les occurrences de la construction de VInf sont toutes rassembl es dans le troisi me dialogue Il s agit d une nonciation spontan e par l enfant de cette construction reprise imm diatement par l adulte dans le m me co
220. pr s avoir d truit la m am e qui rugit quand on lui a arrach sa proie elle poussait des cris affreux ains da fuite mais le gibet ne perd jamais sa proie et t t ou tard les pigeons reviendront d e te dire que le gibet ne perd jamais sa proie il y a plus de dix ans que tu aurais fa er num ro que le gibet ne perd jamais sa proie le jean foutre est hors de la loi S entre d chiraient pour avoir leur proie les sans culottes se fortifiaient ut tout d vorer tout engloutir si sa proie lui chappe il devient enrag et il examine ce tigre qui rugit de voir sa proie lui chapper me voil au bout de mes aux tigres et aux ours de d chirer la proie qui tombe sous leurs griffes ils regard L esquisse de proc dure ainsi d crite ne garantit pas totalement que l on a int gr aux comptages toutes les occurrences du textes susceptibles de relever du th me choisi Un autre chercheur confront au m me texte disposant d autres connaissances aurait peut tre inclus ou exclu d autres occurrences susceptibles de modifier les comptages d ensemble Cf sur ce point le manuel d utilisation de Lexico3 pg xxxxxxxx Explorations textom trigues 22 Lexico3 Concordances v S lectionner l icone Concordances 3 me ic ne partir de la gauche et Entrer une forme dans la boite de dialogue forme ex proie v Y Choisir l ordre de pr sentation des contextes Tri apr s
221. ques sp cifiques des tours de parole de type CO sont plus nombreux Il y a donc une plus grande vari t de phatiques adress e par le correspondant lorsqu il interagit avec un interlocuteur humain Tableau 7 132 Explorations textom trigues Productions des demandeurs d information en fonction de l interlocuteur les 30 formes les plus sp cifiques Adress es la machine M Adress es l op ratrice O Forme Frq Tot Fr quence Coeff Forme Frq Tot F geg train 273 196 192 oui 1188 paris 307 193 21 accord m a a merci 297 187 20 madame 20 le 753 395 19 ah 19 horaires 151 104 16 bonjour ms 6 17 voudrais 202 129 15 parce 15 non 360 204 15 bon 14 apr s 192 122 14 a 289 13 pour 528 278 13 ben 12 vers 128 85 12 hein 42 matin 137 90 12 revoir horaire 46 38 11 que 260 11 aimerais 55 44 11 ouais 585 2 9 janvier 56 44 11 pas 29 70 8 e 360 191 1 est 70 19 8 suivant 31 28 10 alors 240 50 8 midi 119 77 10 vais Aa 2 8 trains 134 84 0 107 de 732 350 10 quarante d cembre 63 45 9 moi 65 8 6 ws 74 3 9 pm un 502 247 9 mon les 326 172 9 donc parfait 22 20 8 oh 5 8 5 conna tre 58 42 8 au samedi 82 55 T O7 16 4 7 d part 85 56 8 cinquante 99 22 4 lundi 47 A 7 ml 3 9 4 prix 82 52 7 peut brussel 13 13 7 sinon 19 l 4
222. r une fr quence minimale et un seuil de probabilit pour les cooccurrents NB si la liste des segments r p t s a t pr alablement demand e on obtiendra galement les segments jug s cooccurrents sp cifiques pour le p le s lectionn Constituer des groupes de formes On peut constituer des groupes de formes en associant plusieurs types l mentaires par exemple le singulier et le pluriel d un m me substantif les diff rentes flexions d un m me verbe les diff rentes formes d un adjectif nouveau nouvelle nouveaux nouvelles On peut galement constituer des groupes partir de toutes sortes de crit res grammaticaux s mantiques etc 3 4 Les types g n ralis s TGen Au del de ces constructions simples l outil groupe de formes permet galement de constituer des unit s qui correspondent au codage d un th me particulier Nous avons utilis cette possibilit pour coder les occurrence d un th me important chez le P re Duchesne celui de la mise mort Pour rep rer les occurrences de ce th me dans le corpus Duchn nous avons du Nous utilisons ici un simple calcul hyperg om trique pour comparer le nombre des occurrences du candidat cooccurrent dans les sections ou est attest e la forme p le avec sa fr quence dans l ensemble du corpus Pour des compl ments sur les m thodes de calcul des cooccurrences cf par exemple Lafon XX et Heiden XX 1 Cette possibilit offerte l uti
223. res n cessaires aux analyses multidimensionnelles Explorations fextom trigues 26 Cette petite partie extraite du tableau lexical 8 parties x 11 070 formes permet d imaginer la difficult qu il y aurait essayer d analyser un tel tableau Cependant plusieurs m thodes statistiques permettent d extraire de ces tableaux des faits particuli rement remarquables sur lesquels il est pratique de concentrer son attention dans une premi re approche Pour ces m thodes et pour les machines qui les mettent en uvre la dimension des tableaux lexicaux ne constitue pas de difficult particuli re La division en 96 parties num rot es de 260 355 selon la num rotation originale de la publication parait a priori la division la plus naturelle du corpus Duchn La cl lt num ro x gt introduite lors du codage du corpus permet de r aliser cette partition en 96 numeros Nous allons tudier cette partition en combinant deux m thodes d analyse statistiques tr s compl mentaires et couramment utilis es en textom trie l analyse factorielle des correspondances AFC et l analyse des sp cificit s 5 1 Etude de la partition du corpus Duchn en 96 num ros On trouve sur la figure 6 une repr sentation de l ensemble des 96 num ros fournie par l analyse factorielles des correspondances partir du tableau 96 num ros x 1420 formes de fr quence sup rieure 10 Figure 6 AFC sur le corpus Duchn 96 num ros X 1420 formes de fr quence
224. respondant en g n ral aux ponctuations faibles et fortes contenues dans la police des caract res les caract res s parateurs de phrase sous ensemble des d limiteurs de s quence qui correspondent en g n ral aux seules ponctuations fortes forme ou forme graphique arch type correspondant aux occurrences identiques dans un corpus de textes c est dire aux occurrences compos es strictement des m mes caract res non d limiteurs d occurrence partition d un corpus de textes division d un corpus en parties constitu es par des fragments de texte cons cutifs n ayant pas d intersection commune et dont la r union est gale au corpus ventilation des occurrences d une unit dans les parties du corpus La suite des n nombres n nombre de parties du corpus constitu e par la succession des sous fr quences de cette unit dans chacune des parties prises dans l ordre des parties motif un ensemble d objets poss dant une propri t reconnaissable analyse factorielle famille de m thodes statistiques d analyse multidimensionnelle s appliquant des tableaux de nombres qui visent extraire des facteurs r sumant approximativement par quelques s ries de nombres l ensemble des informations contenues dans le tableau de d part sp cificit positive pour un seuil de sp cificit fix une forme 1 et une partie j donn es la forme 1 est dite sp cifique positive de la partie j ou forme caract ristique
225. rienter les analyses vers l observation des changements qui surviennent au cours du temps dans l utilisation du vocabulaire Lexico3 Liste des sp cificit s pour une partie ou un groupe de parties S lectionner l ic ne PCLC 5 me ic ne partir de la gauche S lectionner une partie ou un groupe de parties Appuyer sur le bouton Sp cifs droite de la fen tre Les r sultats apparaissent dans une fen tre sur la gauche On obtient galement les segments r p t s sp cifiques si la liste des segments r p t s a t construite avant l appel des sp cificit s cf 82 2 On peut galement appeler cette fonctionnalit en s lectionnant une ou plusieurs parties sur les plans factoriels produits par l Afc ou des zones de texte de la carte des sections P A la suite de J Guilhaumou Guilhaumou 19xx 31 Explorations textom trigues 6 Conclusion L exploration du corpus Duchn l aide des m thodes textom triques met en vidence une importante volution du vocabulaire au cours des huit mois sur lesquels s tend le corpus Les analyses quantitatives sur la partition en 96 livraisons mettent en vidence des diff rences stylistiques li es une alternance de genre entretenue par l auteur du corpus De ce fait elles ne permettent pas d appr cier l volution lexicale du corpus Un regroupement des livraisons en p riodes de 30 jours cons cutifs permet par sa part de cerner l volution lexicale de mani re
226. ries dans la mani re dont sont agenc es les diff rentes parties du conte A la description du voyage d aller correspond celle d un retour aux frayeurs initiales des surprises agr ables etc 85 Cf par exemple D Benoit Le conte du naufrag dans le cycle Les grands textes de l gypte ancienne http www thotscribe net docs 2004 2005 conte naufrage pdf L criture hi ratigue constitue une forme simplifi e de l criture hi roglyphique permettant d crire plus rapidement 143 Explorations textom trigues a sources r cits oraux texte hi roglyphique ez b document Manuscrit hi ratique environ 2000 av JC Mus e de l Ermitage texte hi ratique n PM rS erudite translitt rations automatisees p texte hi roglyphique reconstitu translitt rations de type MdC Figure 1 Le conte du naufrag sources probables documents attest s et translitt rations modernes On a rassembl sur la figure 1 diff rents tats du r cit qui ne nous est parvenu que sous forme d un papyrus hi ratique section b Les tats ant rieurs de ce r cit dont l existence est probable sont mentionn s en gris section a La derni re section section c regroupe les versions informatis es du texte sur lesquelles nous avons pu travailler effectivement 144 Explorations textom trigues Le conte du naufrag IE 110 D46 M17 N35 T18 G43 A1 M17 N29 D21 Y1 KE G43 U28 G1 Y1 F34 Z1 V31
227. riot suivi de Avec le logiciel Word par exemple on utilisera les commmandes Chercher p Remplacer par Am 13 Explorations textom trigues 8 que dessus ma main et la Frince entiere ne seroit plus qu un vaste cimeti re que les bri pands couconn s se seroient partag s Million de bombes il n y auroit plus de justice sur Ja terre si un seul de ces sc l rats pouvoit chapper Le repos de la France en d pend uc les tet s de ces brigands tombent donc vite et qu elles servent de signal pour abattre danstous les d partemens celles des jean foutres qui tourmentent le peuple qui l affument et le trahissent foutre E On s abonne pour cetie feuille dont il parole trois Je suis l v ritable P re Duchesne foutre nris rps par Jemne a raison de cingwante eur par mers Franc de porc pour tous les d partemtens Le bureau de l abonnement st rue Neuve de treie L A G R A N D E J O I E Ceur des Miracles la ei devant Cav rne de Honne Nouvelle Les leures non affranchics ne seront pas re ues DU PERE DUCHESNE APRES avoir vu d filer la procession des Bris sotins des Girondins et des Rolandins pour aller jouer la main chaude la place de la R volution Le testament de Cartouche Brissot et la confession du pr tre Faucher qui a faiile caffard jusqu la fin pour faire pleurer les vieilles d votes mais qui dans le fond du c ur se foutoit autant du p re ternel que
228. ris3 fr mkAlign mkAlignDOC htm ces Tutoriels devrait permettre l utilisateur d butant au del d une simple prise en main de se familiariser avec les diff rentes fonctionnalit s de ces logiciels partir d un corpus de recherche concret et d entrevoir quelques unes des possibilit s offertes par l approche textom trique des corpus de textes e Le corpus P re Duchesne choisi dans les deux premiers tutoriels pour servir de base cette exploration guid e est le m me que celui utilis dans les brochures pr c dentes Ce corpus fait l objet de plusieurs tudes de caract re pluridisciplinaire dont on trouvera les r f rences dans la derni re section La ressource textuelle duchn txt qui sert de support ce tutoriel est diffus e en tant que corpus d essai sur toutes les versions du logiciel Lexico Accessible sur le CD Rom Lexico3 elle est install e automatiquement dans le dossier Lexico3 cr lors de l installation du logiciel Elle peut galement tre t l charg e directement depuis le site du logiciel e e corpus Investiture Obama utilis dans le troisi me tutoriel est disponible en ligne sur le site de mkAlign On a tent dans ce qui suit de trouver un compromis acceptable entre la n cessit de pr senter les principales fonctionnalit s du logiciel que le lecteur pourra utiliser dans d autres Le logiciel la documentation et les ressources textuelles parmi lesquelles la ressource duchn txt utilis es d
229. rit en 2001 2002 4 Ins curit et d linquance deux formes tr s proches Les dictionnaires du corpus et des segments r p t s et les indices de sp cificit des formes ins curit et d linquance sur la partition chronologique nous ont amen e formuler l hypoth se que les deux formes taient cooccurrentes l chelle d un paragraphe ou d une s quence phrastique et identifier le lien qui les associait Pour affiner ces observations qui nous laissent pr sager l existence d un ph nom ne caract ristique des discours qui traversent Le Monde pendant cette p riode lectorale nous avons voulu mettre en vidence le vocabulaire sp cifique des s quences qui contiennent le mot ins curit ce qui implique d observer la ventilation de la forme sur un nouveau d coupage du corpus Le Tableau 8 rel ve les formes nominales les plus employ es 1 colonne leur fr quence dans l ensemble du corpus 2 colonne leur fr quence dans les s quences qui contiennent la forme ins curit 3 colonne enfin leur indice de sp cificit 4 colonne mots employ s par les hommes politiques ce moment et repris par des journalistes d linquance ch mage lutte qui renvoient aux th mes abord s pendant la campagne ou des d signations qualifiantes d ferlante On remarque surtout la forme d linquance qui fonctionne troitement en s quences avec ins curit et dont on a d j not la forte fr quence dans le corpus
230. rma de l encyclop die en ligne Wikip dia 65 Explorations textom trigues 2 Localisation et pr s lection des textes Dans un premier temps nous avons entrepris de localiser sur la toile les textes susceptibles de concerner le d bat cr parmi les internautes chinois Nous avons utilis de mani re compl mentaire deux moteurs de recherche le classique Google dans sa version www google cn mais galement le moteur Baidu 25 r put plus performant pour la recherche des documents num riques r dig s en chinois Ft BH AMIE ur chum ch IS zt pn FT Bm ET Fe BH AMI SHE 1 340 000 SEE Fi BA AMI BE TEA ER 2 540 R St GH RIES AFE Eel dh e 22 100 F Ft BH AMIE EB m 427 000 SER mir SHAMIA E j s GJ EE E 54 200 G ES D Far SHANI 321 000 ER 2 E LT E Google ose Google com in English SADI H FALEN Cars SE BOTE E BE Ki MAN Ev Google prem AE HE Con Oepama C 7 61 700 PRRH H 2008 5 25 Tu pR RTE EE Et ELA E IRIEDOERERE PRATA prha S El i2 AE S EE A ERGA SE RT A v sohu com 2008052625707 r719 shtml BH Am PUR E RE Pn EST E Er RAMA H AERA SS b 8 RT s ET EEREN ARR PP BR HTA E Ir e 2164 BER Se P LEE Hb ae TR o T8 7 BT MJERSRTIL CECR EREN gt GIE 12
231. rme de l change qu ils ont t confront s une machine 119 Explorations textom trigues L tude du comportement de l usager avec une machine mobilise un effort de recherche cons quent notamment d velopp au sein des quipes de recherche en t l communications Notre travail va consister comparer la conduite interactionnelle des correspondants humains en interaction avec un op rateur humain ou avec un op rateur machine Nous proposerons des proc dures de traitement textom triques adapt es ces comparaisons 1 Contexte et motivations de la recherche Certaines notions mobilis es pour la description des donn es du corpus sont emprunt es au cadre m thodologique de l analyse conversationnelle Plusieurs ph nom nes relevant de divers niveaux de description linguistique sont analys s l aide des m mes outils de statistique textuelle Apr s une description d taill e des donn es de travail les analyses quantitatives nous permettront d aborder les typologies conversationnelles globales du corpus pour enfin discuter la question de l ajustement conversationnel chez l usager Glossaire minimal pour l analyse des conversations Situation contexte dans lequel sont situ es les interactions Interactants locuteurs en relation d interaction pour mener bien une activit sociale parfois participants dans la litt rature Interaction change entre au moins deux interactants qui peut a
232. rotte de glace d me c epica gt eurekalert S 2 le r chauffement plan te by luc at 7 39 am 0 comments S jeudi mars 24 2005 S le r chauffement plan te d fi d une tonne S 3 faisons vite ademe S 4 le r chauffement plan te diminuant les fameuses missions de co2 limitant ainsi le r chauffement plan te mesures de temp rature de surface oc anique bref avec le r chauffement plan te ie et de vent sur lequel on pose nos bris de bottes S le r chauffement plan te hui important de manifester nos pr occupations concernant le r chauffement plan te rgie nucl aire comme une des solutions pour lutter contre le r chauffement plan te S qu ralentir l effet de serre c est dire limiter le r chauffement plan te foundation des tudes r centes viennent de montrer que le r chauffement plan te peut tre chaud par le documentaire catastrophe sur le r chauffement plan te p chaud tout ce que vous avez toujours voulu savoir sur le r chauffement plan te On observe que l expression crise climatique plus alarmiste qui correspond l adresse du blog de lancement du film d Al Gore Une v rit qui d range n est pas reprise par les 92 Explorations textom trigues blogueurs 0 occurrence Le discours d ploy dans ce blog pr f re d ailleurs utiliser l expression r chauffement climatique dresse i http imi criseclima tone Fr www criseclimatique fr UNE QU
233. s colonnes du tableau d un corpus de textes On commence par calculer une distance dite distance du chi deux entre chacune des paires de textes qui constituent le corpus On d compose ensuite ces distances sur une succession hi rarchis e d axes factoriels La propri t remarquable de ce syst me d axes factoriels est que les repr sentations limit es aux premiers axes de ce syst me sont celles qui d forment le moins possible les distances calcul es entre chaque paire d l ments Des pourcentages d inertie dont la somme vaut 100 calcul s pour chaque axe permettent d appr cier la quantit d information apport e par chacun des axes dans la d composition Cette m thode d obtenir des repr sentations synth tiques portant la fois sur les distances calcul es entre les textes et celles que l on peut calculer entre les unit s textuelles qui les composent Les typologies obtenues sur chacun des deux ensembles mis en correspondance sont intiment li es et peuvent tre mise en relation gr ce des repr sentations simultan es sur les premiers axes factoriels L int r t principal de l AFC r side dans sa capacit extraire partir de vastes tableaux de donn es difficilement appr hendables des structures simples qui rendent compte approximativement des grandes oppositions sous jacentes dans un corpus de textes Pour en savoir plus Lebart L Salem A Statistiques textuelles Paris Dunod 1994 Ex
234. s les technologies li es au web offrent d sormais la possibilit d observer et ce quel que soit l endroit ou l on se trouve sur la plan te des interactions entre citoyens chinois qui changent des avis par ce biais Il est bien entendu que cet chantillon de r actions limit aux intervenants qui ont acc s ces nouveaux m dias ne constitue en aucun cas une photographie fid le de l ensemble de la soci t chinoise moderne Cependant de part le fait qu elles aient t produites par des acteurs de la vie conomique chinoise ces r actions constituent un mat riau extr mement pr cieux pour ceux qui s int ressent l tude de l opinion publique chinoise Dans ce qui suit nous commencerons par rappeler le contexte des v nements qui ont t au centre de notre enqu te 81 Nous pr senterons ensuite les diff rents supports que notre strat gie de fouille de textes permis de rep rer en liaison avec notre recherche 2 La section suivante 3 est consacr e au d pouillement du corpus La derni re section 4 analyse les emplois contextuels de la forme boycott particuli rement fr quente dans les forums 1 Contexte de la recherche S exprimant l occasion du festival de cin ma de Cannes le 24 mai 2008 quelques jours apr s le tremblement de terre survenue en Chine l actrice am ricaine Sharon Stone a tent d tablir un parall le entre cette catastrophe naturelle et l action politique de l tat chinois au
235. s chaque dialogue la fr quence d utilisation de la forme recherch e par locuteur En effet nous constatons que l enfant Julien a nonc plus de patron syntaxique de type Prep Vinf que l adulte mais que les fr quences d occurrences restent faibles En revanche avec l enfant Mathilde il y a beaucoup plus d occurrences de ce patron de la part des deux locuteurs et qu ils sont assez proches quant la fr quence d utilisation La figure 25 repr sentant l analyse factorielle des correspondances entre les locuteurs dans les diff rents dialogues du corpus JuMa LC nous montre l effort produit par l adulte pour se rapprocher de l enfant Julien au fil des dialogues ainsi qu un rapprochement davantage marqu de Mathilde Cette interpr tation est confirm e par le fait que l adulte a d abord travaill avec l enfant Julien puis a analys ses dialogues C est ensuite que ce m me adulte a fait attention de proc der autrement avec un autre enfant en utilisant les m mes supports pour guider les interactions Tissier 2001 116 Explorations textom trigues Figure 25 AFC des parties locuteur par dialogue dans le corpus JuMaLC 7 Indications bibliographiques Blanche Benveniste C 1997 Approches de la langue parl e en fran ais Paris Ophrys Collection l essentiel fran ais Lentin L et al 1984 1988 Recherches sur VAcquisition du Langage tome 1 amp 2 Presses de la Sorbonne Nouvelle Lentin L 1998 Apprendre pe
236. s chinois 78 700 r sultats index s 3 suggestion C est cette derni re suggestion qui correspond manifestement le mieux notre recherche m So MP3 EF M Bai Er SFRA GE MJII EE e ER Sir O Bt BA AMTI O RTE 05 26 15 02 58 9 FEI FH TiueamdEe Eua rn HE POI RE Sin ISS Zb ek Belle TE KAJSI 250 yau videa sina com cn b 13845210 10627522 35K 2009 2 15 BEER Bb Ei iN R mn 51 E E LTE Et STE t GPS A HEIE PE EH Sie Eur ES SSC ol ET HS 12 ARSA HET EU d e E PAARA MEE Ste b ar s op EURE HEE AA EA e e E E a at L DIS e ent sina com cn s u 11552037 487 shtml 74 2008 10 23 EH Eg PRA LI Hie TR e PS a FI RR Bir BH HIR BD Bn FE BABERE TET TT LA ent 163 com special OOOS2NOM SharonStone html 79K 2009 2 23 HEJER ent 163 com EAE ESS Figure 1b Recherche sur le moteur Baidu partir des mots cl Sharon Stone et Sichuan premiers r sultats r f renc s partir des deux mots cl Sharon Stone et Sichuan le moteur Baidu nous fournit une liste de r f rences qui si elle recoupe largement la pr c dente liste fournie par Google cn en ce qui concerne les sites officiels est beaucoup plus abondante pour ce qui concerne les sites de type forum Parmi les trois types de m dias qui apparaissent dans les r f rences presse e
237. s exemples en tableau 1 Diff rents types de disfluences sont signal s les phatiques tels que euh transcrits e les recouvrements de parole marqu s par des combinaisons variables du caract re pour en indiquer le d but et la fin Les reprises et r p titions sont indiqu es par Le marqueur indique les pauses et peut tre doubl ou tripl pour fournir une information sur la dur e de la pause Les conventions de transcription utilis es tableau 3 qui faisaient partie int grante de la ressource t l charg e pr sentent comme un nonc ce que nous consid rons comme des fours de parole Tableau 3 Conventions de transcription utilis es dans le codage du corpus nteractions pr c d de l initiale identifiant le locuteur ce symbole marque le d but d un nonc normal c est dire commen ant pendant un silence et non simultan ment avec d autres interventions l int rieur d un nonc indique qu ce moment une autre voix intervient pouvant provoquer un recouvrement note la fin du recouvrement des voix indique que l nonc qui suit se pr sente comme une intervention situ e l int rieur m me de l nonc du pr c dent locuteur provoquant par l un recouvrement de paroles ou une interruption ayant t indiqu e par la marque au moment o elle s est produite note une pause m me br ve Selon la dur e de la pause note une reformulation ou une r p tition d un mot dans l
238. s initialement compos s sous forme hi roglyphique A cette translitt ration vient souvent d ajouter un d coupage en mots Chaque s quence reconnue comme un mot est pr c d e par un blanc et ou caract re informatique particulier les diff rents morph mes grammaticaux tant syst matiquement isol s par d autres caracteres Ainsi la s quence de signes dont le codage dans la liste Gardiner est M17 M18 R4 sera not e dans ce syst me de codage partir de ses valeurs phon tiques i ii Htp Dans les transcriptions que nous avons utilis es les codes et permettent respectivement de transcrire la superposition et la juxtaposition de deux signes Le groupe de signes I o sera cod p t pt d apr s ses valeurs phon tiques ou Q3 X1 N1 d apr s les codes de la liste de Gardiner association des signes Q3 et XI dessin e au dessus du signe N1 2 4 Transcriptions translitt rations traductions Partant d un texte hi roglyphique ont peut g n rer en utilisant dans chaque cas des r gles dont le degr de formalisation varie selon l objectif fix d autres textes qui permettront des individus moins vers s dans la lecture hi roglyphique de mieux saisir tel ou tel aspect de la signification ou de la prononciation du texte e une translift ration substitue chaque graph me d un syst me d criture un eraph me ou un groupe de graph mes d un autre syst me ind pendamment de la prononciation
239. s les diff rentes proc dures textom triques que l on emploie pour analyser les ensembles de textes num ris s L accroissement du vocabulaire La figure 2 montre les courbes d accroissement du vocabulaire calcul es pour chacun des types de situation d interaction on l a vu les parties MC et CM caract risent les interactions humain machine les parties OC et CO celles entre humains Le fait que dans le corpus que nous avons construit le volume des transcriptions retenues pour chacun des types de communication soit in gal explique que certaines de ces courbes s interrompent plus t t que les autres sur l axe horizontal Il est par contre possible de comparer les diff rentes courbes sur la partie gauche du graphique en ne consid rant que des volumes comparables On constate tout d abord que le vocabulaire de la machine courbe rose MC machine correspondant croit de fa on beaucoup moins importante que les trois autres courbes qui correspondent des productions humaines Le d crochement important que l on observe partir de l abscisse 3000 correspond au d marrage de routines sp cifiant l offre sur les trajets d clench es par des questions de confort et de tarifs qui n avaient pas t introduites dans la partie pr c dente du corpus Les th matiques introduites portent par exemple sur la classe du train choisie pour le voyage caract ris e par le segment r p t premiere et deuxi me classes on parle d autos l
240. se seulement avec Mathilde la pr position pour VInf 5 Le role de l adulte La notion d interaction adapt e de la part de l adulte avanc e par L Lentin et J Bruner s appuie sur l id e que les offres langagi res les reprises et les reformulations de l adulte se produisent au moment o l enfant cherche verbaliser son exp rience propre Nous allons maintenant observer plus en d tails certains de ces ph nom nes de feed back correctif travers les cr ations enfantines Cordial n tiquette pas les cr ations enfantines nous avons ajout cette cat gorie apr s relecture et rep rage des l ments 111 Explorations textom trigues Pour am liorer la comparaison entre les diff rents locuteurs et pour mieux observer le r le de l adulte et la r action de l enfant nous avons r uni Julien LC et Mathilde LC en un seul et m me corpus JuMa LC La localisation des cr ations enfantines constitue une entr e particuli rement pr cieuse pour l tude de l activit que nous avons appel e feed back correctif Nous appelons cr ations enfantines les tentatives non canoniques de formation de flexions verbales comme le pass simple par exemple L observation porte galement sur la r action de l adulte face ces productions non standards de l enfant Si l adulte reformule les tentatives de l enfant en les reformulant de mani re canonique il s agit de feed back correctif Une fois ces feed back correct
241. seul de localiser des r p titions segmentales importantes pour l tude de la construction du r cit dans le cas du corpus que nous avons consid r et a fortiori dans le cas d un corpus qui r unirait un plus grand nombre de textes 5 Reproductibilit des explorations dans le bitexte Dans ce qui pr c de nous avons utilis la traduction frangaise du conte pour permettre au lecteur francophone de mieux s approprier les r sultats que nous obtenions partir du volet hi roglyphique du texte Dans cette derni re section nous avons regroup quelques r sultats obtenus par la mise en uvre des m mes m thodes appliqu es cette fois au volet fran ais du bitexte Ces r sultats montrent que les ph nom nes constat s sur le texte hi roglyphique trouvent en quelque sorte un cho mesurable dans les r sultats du m me type que l on obtient partir de la traduction fran aise Sur la courbe d accroissement du vocabulaire tablie partir du volet frangais du corpus la stagnation est encore plus perceptible que sur la courbe r alis e partir du volet hi roglyphique correspondant Cette stagnation est encore plus marqu e sur la courbe situ e dans le bas du graphique qui rend compte de l apparition des hapax au fil du texte SE 2 E 5 TH D H no 4X 400 300 kal aan SA 300 280 250 240 AN 180 20 1 600 900 1 000 1 100 t 200 t 300 i 400 1 500 1 600 1 700 exte nombre d occurrences Nornbre de formes d
242. si que leurs fr quences pour chaque dialogue L volution des fr quences de chaque cat gorie syntaxique dans le corpus longitudinal est ensuite repr sent e par des courbes d volution 102 Explorations textom trigues Guide de lecture de la figure 5 Le corpus Julien est r parti en trois dialogues Les lignes impaires concernent l adulte les lignes paires l enfant Chaque nonc est repr sent par un carr Le coloriage du carr indique la pr sence de la forme recherch e dans le corpus dial jul ILILILIL 20 Enonc s de l adulte ILILILIB 100 Enonc s de l enfant QOO 150 Enonc s de l adulte ICI 200 Enonc s de l enfant Section lt child 1 020 p parce que Le premier parce que est produit par l enfant dans l nonc 20 du premier dialogue J20 Cette tentative de l enfant n est pas reprise par l adulte mais par l enfant lui m me l nonc J21 dans une construction syntaxique qui est cette fois complete Et pourquoi t u aimes bien ce livre rr parce que T u aimes bien les serpents euh non mais c est ciel que je c est pa r ce que j avais envie Quand nous recherchons la motivation de ce parce que not en bleu chez l enfant nous nous apercevons qu il vient toujours en r ponse un pourquoi not en rouge de l adulte Sur la figure 6 nous avons not simultan ment les parce que en rouge et les pourquoi en bleu pour v rifier que l nonciation des parc
243. slitt r Les lignes de contexte g n r es par le module de concordance ont ensuite t soumises l diteur Rosette qui a r tabli leur forme hi roglyphique originale Les tats ainsi obtenus permettent d examiner sous forme visuelle l ensemble des emplois d une m me unit de segmentation dans un corpus de textes hi roglyphiques 4 4 Explorations multilingues Le fait de disposer d une traduction align e du texte que l on tudie se r v le d une grande utilit pour explorer un texte r dig dans une langue que l on ne domine pas Les m thodes textom triques permettent d tablir des liens entre certaines des unit s textuelles qui sont en rapport de traduction au sein d un bitexte align Ainsi par exemple on peut constater que le terme e apparait onze fois dans le volet fran ais du corpus Pour tenter de trouver des termes qui correspondent ce terme dans le volet hi roglyphique du corpus on commence par s lectionner les versets qui contiennent la forme ile dans le volet fran ais figure 4a LIDIEIDIEIEIEIEIEIEI EPIEIEIEIETEIEIEIEIE EIBIEIEIETETETETETEI ooononnioadi PJEICIEIETEIETEIEIE s OOOOOOOOOO OO E TETETEIETETETETETET UI OO 100 COURT UR UR DOUD 150 Aa versets du volets fran ais contenant la forme ile
244. sp cifiques des tours de parole typ s a projection des fours de parole typ s sur la carte des sections pour illustrer les ph nom nes d ajustement du correspondant dont nous donnons des exemples Plusieurs indices corroborent l id e d un ajustement conversationnel du correspondant selon qu il interagit avec un interlocuteur humain ou machine Ces indices s observent aussi bien un niveau local le tour de parole sp cificit s SR qu un niveau global proximit s linguistiques et de vocabulaire AFC Accroissement du Vocabulaire et font cho aux observations sur la dynamique conversationnelle n gociation des tours de parole Nous avons montr dans un premier temps que la n gociation de l allocation des tours de parole est quasi absente des interactions de l usager avec la machine Les diff rentes analyses sur les fours de parole typ s et les segments r p t s produits par les interactants confirment ces diff rences dans l ajustement conversationnel du correspondant En effet confront une machine le demandeur d information humain manifeste une tendance la r duction de son propre vocabulaire minimise la complexit de ses productions et la longueur de l change Il va m me jusqu moduler sa production de cl tures conversationnelles sur celles de la machine Nous avons vu plus haut que les productions de l op ratrice sont caract ris es par ce qui constitue du strict point de vue de l chan
245. sse son semblable S lt v 007 gt car notre quipage est revenu sain et sauf sans ZS v 008 perte pour notre troupe nous avons atteint S lt v 009 gt les confins de ouaouat apr s avoir doubl S v 010 senmout vois donc nous revenons lt v 011 gt en paix notre pays nous l avons atteint S Tableau 2 Le corpus multilingue align Naufrag a le d but du po me cod selon les normes MdC b la traduction francaise de cet extrait Pour mettre en uvre ce choix il nous suffira de consid rer dans le cadre de cette premi re exp rience les signes d association et de superposition comme des caract res isolant les diff rents signes r unis dans un m me cadrat Cette option s appuie sur l affirmation trouv e dans les travaux que nous avons pu consulter que l habitude de superposer et d associer diff rents signes hi roglyphiques dans un m me cadrat prend souvent sa source dans des consid rations d ordre esth tique S1 cette hypoth se est vraie on peut s attendre ce que les s quences de signes ayant donn lieu au regroupement graphique en un m me cadrat composite soient trait es de la m me mani re aux diff rents endroits du texte dans lesquels elles apparaissent Notons que la prise en compte du texte sur support informatis nous permet de v rifier syst matiquement cette hypoth se par l utilisation de la m thode textom trique de base que constitue l tablissement de concordances 4
246. stituera pas pour nous une donn e ind passable Nous nous appuierons cependant sur ce d coupage pour effectuer une premi re comparaison partir des diff rents fragments du texte Nous avons transcrit cette division qui aboutit une partition du texte en douze fragments par des balises de type lt D y gt o y varie de 1 12 Le tableau 3 fournit les principales caract ristiques lexicom triques calcul es pour chacun des fragments On trouve au tableau 3 un tat qui pr sente le d but de chacun des deux volets du corpus munis des balises qui permettent de distinguer les versets et les regroupements th matiques 4 2 Les unit s de d compte La question de la d termination des unit s les plus aptes servir de base aux d comptes textom triques a longtemps agit les communaut s de chercheurs confront es aux corpus textom triques Nous avons signal que dans le cas des corpus hi roglyphiques la d termination des fronti res de mots constituait une t che hors de port e pour les traitements automatis s Nous consacrerons l essentiel de cette premi re tude au rep rage automatique des r p titions contenues dans le texte Pour effectuer cette t che nous allons commencer par consid rer le syst me des unit s de d compte constitu par les diff rents signes hi roglyphiques 87 r z f i TP Pour effectuer ce d coupage nous nous sommes efforc s de suivre les indications du manuscrit original qui ont
247. sur ce type de carte LILIE LILIE 00o LILIE IO UI LILIEIEIEI LILILIE LILIEIEIEIEIETEI ugo LILIEILIEI LILILIE LILIEIEIEIEIETEI LILIEIEIEI agog LILIEILIEI LILILIE LILIEIEILIETETEI goggy LILIEIEILIETETEI LILIEIEI IO LILIETEI BISISISISISISIS EIS LILIE CID PIEIEBIETEIEIETEIETES OOOOUORUODDD UO HIT EIEIEIETEIETETETETEI EIETPIETEIJEIETEIETE EJETEIETEJETEIETETET LILICIEIEIDIEIEIEIE DIBIBIETIIIETETETETEI PIEIETETETIETETETJEIES PIEIETETETETETIETETEI EIEJEJEIETEIETETETE LIEIEIEIEIEIEIETEIEI PFETIETETJEIJETETETETET OO EJEIETETEJETETETETE EJEJETETEIETETETETE LILIEJEIEIBIEIEIETE EIEIBIETEIETETETETE EIEIETEIETIEIETEIEITLI EJIEIEIETEIETEIETETE DOUDOU IO UDO UDO EJETEIETEIJETEIETETET OUNI LILIEJEIEIEIETEIETE EIEIETETEIETETEJETE EIEIETETETETETETETE S 295 te pr disais prophe proie e Si toutes taien r volu te voil enfin sur la fatale sellette inf me brissot quand je que tu ferais une mauvaise fin n tais je pas un bon te n avais je pas raison de te dire que le gibet ne perd jamais sa il y a plus de dix ans que tu aurais fait la grimace au pont rouge on t avait rendu justice
248. t de l ordre de 10 Pour une sp cificit n gative cette probabilit s attache un effectif inf rieur ou gal k 29 Explorations textom trigues Pour comprendre l opposition constat e sur le premier axe de l AFC on a calcul les sp cificit s par rapport l ensemble du corpus de deux groupes de num ros oppos s par le premier facteur Chacun des deux groupe est compos des 20 num ros les plus loign s du centre sur la droite et sur la gauche du graphique Les sp cificit s majeures pour chacun de ces groupe ont t rassembl es au tableau 6 L analyse de ces listes nous fournira une piste pour expliquer la diff rence qui existe entre les deux groupes de textes Tableau 6 Formes et segments sp cifiques positifs majeurs pour les num ros oppos s par l AFC sur les 96 num ros Sp cificit s positives Sp cificit s positive de la partie gauche de la partie droite Forme Frq Tot Partie Coeff Forme Frq Tot Partie Coeff nous 1270 449 29 je 979 436 SH vous 1097 395 27 329 184 43 avez 171 94 296 142 25 fermiers 28 24 132 81 24 constitution 72 44 206 102 20 accapareurs 80 45 144 80 est vous 24 21 193 95 nos 132 7 281 123 vous avez 43 ai 91 c est vous 21 me dit 24 vous qui 28 que je 58 les dit 72 subsistances jai 59 la constitution que j c est vous qui avez ph lipotin Guide de lecture pour le tableau 6 Dans chacun des volets du tableau on trouve les sp cificit s relatives l un des gro
249. t en parlant de cette ins curit croissante cette esp ce de d ferlante inacceptable c s propos catastrophistes avalent trouv leur relais dans la publication en plein coeur de l t des statistiques du minist re de int rieur qui montrent une augmentation de 10 3 sur le premier trimestre des crimes et Rapport Effacer d lits enregistr s par la police et la gendarmerie dire que l ins curit r sulterait d un manque de volont politique d la part du gouvemement n a aucun sens a affirm m jospin en r ponse implicite m cher ac tait seulement une question de volont politique ily a longtemps que l ins curit aurait t radiqu e puisque je lal mise au coeur de la politique du gouvernement avec ancien ministre de int rieur jean pierre chev nement des 1337 a l poque la gauche avail effectu lors du colloque de villepinte un virage sur l ins curit que le gouvernement avait rig au rang de priorit dans son action ily a une form de d magogie qui consiste ne pas dire aus fran ais ce qu est la r alit c est dire que c est la soci t qui est violente a ajout le premier ministre intention de opposition sanction et juste sanction pour autant m jospin ne souhaite pas revenir ancienne conception de la gauche sur ins curit qui privil giait les explications sociales la d linquance on peut dire que c est le ch m
250. t la r currence d une forme cooccurrente d linquance plusieurs chelles corpus dans son ensemble ou s quence phrastique nous a amen e la s lection avertie de corpus restreints pour une analyse qui s est appuy e cette fois ci sur le texte dans sa lin arit Celle ci a pu mettre jour un ph nom ne discursif savoir la reprise de segments discursifs avec ins curit par la reprise de segments avec d linquance et inversement Enfin et de mani re plus g n rale nous pouvons voir que sur des corpus de presse particuli rement d licats d crire en analyse du discours il est n cessaire de multiplier les exp riences textom triques sur diff rentes partitions et d articuler analyse quantitative et analyse qualitative Explorations textom triques 92 6 Indications bibliographiques Lamalle C Salem A 2002 Types g n ralis s et topographie textuelle dans l analyse quantitative des corpus textuels dans Actes des 6emes journ es d analyse statistique des donn es textuelles 2002 Inria St Malo http www cavi univparis3 fr lexicometrica jadt jadt2002 tocJ ADT2002 htm Lebart L Salem A 1994 Statistique textuelle Paris Dunod Moirand S 2003 De la nomination au dialogisme quelques questionnements autour de l objet de discours et de la m moire des mots in Cassanas A Demange A Laurent B Lecler A Dialogisme et nomination Montpellier Praxiling Universit Paul Val ry Mon
251. t 1 015 gt S lt adult 1 016 gt d accord et pourquoi elle lui apporta des palmiers ah pour qu il euh se rappelle d actora OCCU madame bodot elle s en fait et euh en fait elle s et c est qui qui lui a envoy le le serpent c est son mari donc ila il a appris compter 1 cole aussi 2 il jouait quoi avec les gargons il montrait euh qui p comment on faisait les noeuds ok et euh le qui 1 des gar ons a b illonn e euh madame euh bodot le cambrioleur d accord et qu est ce qui s est pass par la suite S lt adult 1 017 gt S lt adult 1 018 gt S lt adult 1 019 gt S lt adult 1 020 gt il attacha qui le serpent 2 l Bandit y donc il a bien un jardin qui portait son nom d tait 1 accord accord donc la c histoire du petit crictor Guide de lecture du tableau 4 Dans cet extrait du corpus Julien les balises permettent de d limiter les s quences de texte produites par chaque locuteur e lacl lt dial gt dialogue qui distingue les trois dialogues de Julien la cl part loc corp adult jul gt partie locuteur corpus qui distingue les corpus par locuteurs pour la visibilit de certains graphques la cl part corp loczjul adultz partie corpus locuteur qui distingue les locuteurs par corpus pour la visibilit de certains graphques le caract re qui mat rialise les nonc s
252. t aussi des r p titions de phrases de commentaires et de r actions souvent identiques B Ce logiciel est en d velopp par la soci t Hailanda Segmentation intelligente version d essai EH BE 77 id http www hylanda com 76 Explorations textom trigues Tableau 3 Exemple de r p tition localis e dans deux articles de presse lt p P12 gt GB xe PIE PR CE Aja lt ANNEE 2008 gt lt MOIS 2008 5 gt lt JOUR 2008 5 29 gt 04 35 FFR EN Dior 24 BS ai sie E ah Dm PDA It Ex ale E K DI nj AAK TH R KET BHO E Sy P RSE fT xt AT PI Er Z R Al DERE re USH D SX B FEAR XR ER fe By NA Hi 6 Kir z Am RE ic Ws
253. t constituer un nonc De la m me fa on les approches issues de la philosophie du langage consid rent l nonc comme une unit laquelle on peut attribuer une valeur de v rit 124 Explorations textom trigues original ont t conserv s leur transcription rendant d licate l application d une proc dure automatique pour les normaliser La transcription originale distingue les interactions marqueurs COMMUNICATION et les tours de parole qui les composent marqueurs Une seconde phase de normalisation consiste adapter ce d coupage du texte en parties pour en rendre comparables ces deux types de contenants du texte On normalise donc d une part les param tres de segmentation de la chaine textuelle d autre part les param tres de partition pour les rendre ad quats l analyse textom trique Tableau 4 Adaptation de la structuration du corpus pour la normalisation des interactions Extrait d une interaction tumain machine avant normalisation extrait PHASE 3 COMMUNICATION 39 M1 sncf bonjour noncez votre demande s il vous pla t Cl voil je voudrais e savoir pour aujourd hui sam di quels sont les trains qui vont bonni re sur seine dans l apr s midi M2 vers quelle heure pr cise d sirez vous partir C2 e entre trois heures et d mi entre trois heures et e et six heures M3 ne quittez pas Extrait d une interaction humain machine apr s normalisation extrait
254. t sur les diff rentes vies d un individu Chaque tre y est responsable de son karma et donc de sa sortie du Samsara e La notion de karma n gatif La traduction chinoise diffus e dans les m dias partir de cette d claration initiale bao ying karma n gatif accentue peut tre en les synth tisant le caract re blessant des propos tenus par l actrice L expression poss de une connotation particuli rement n gative dans le monde sinophone de mauvaise cons quence justement m rit e punition m rit e Chronologie sommaire avril2008 agitation suivie d une r pression dans la province chinoise du Tibet incidents et manifestations contre le gouvernement chinois sur le parcours de la flamme olympique dans plusieurs pays occidentaux tremblement de terre dans la province de Si Chuan 70 000 victimes mai 2008 d clarations de Sharon Stone au festival de Cannes cf supra Vives r actions dans la presse sur les blogs et les forums chinois d claration de Dior Chine se d solidarisant de l opinion de Sharon Stone juin 2008 excuses officielles de Sharon Stone la campagne de r actions se poursuit sur les forums ao t 2008 ouverture des jeux olympiques P kin 33 Propos retranscrits d apr s la vid o enregistr e pendant l interview et post e entre autres sur le site http Hionelshen free fr Labo stage ST Karma interview flv Les auteurs se sont largement inspir s de l article ka
255. tepargne lemondedeslivres regions societe Figures 10 et 11 Sp cificit s de la forme ins curit rubriques Les indices de sp cificit s de la forme sur la m me partition Figure 9 et 10 permettent d carter l hypoth se d une influence forte de l international puisque la forme est en sous emploi dans la rubrique International y Elle apporte aussi quelques pr cisions la forme est en suremploi dans les rubriques Horizons et Soci t en sous emploi dans la rubrique Horizons Analyses l observation du vocabulaire sp cifique de ces rubriques ainsi qu un retour au texte montre qu il est surtout question dans la rubrique Horizons de point de vue sur l actualit nationale alors que la rubrique Horizons Analyses regroupe des points de vue sur l ensemble de l actualit De mani re plus g n rale l ensemble de ces visualisations montrent que la forme ins curit est essentiellement employ e donc dans des textes traitant de l actualit nationale De plus il est int ressant de noter que les rubriques Horizons et Horizons Analyses sont des rubriques privil gi s pour l emploi du mot en effet celles ci font souvent place des tribunes ou s expriment diff rents points de vue de repr sentants politiques sociologues etc Dictionnaire du corpus et segments r p t s Une seconde observation porte sur le vocabulaire qui domine dans le corpus Le dictionnaire du corpus Tab
256. tif est un autorail premi re et deuxi me classes qui part de la gare d auxerre saint gervais quinze heures quarante deux minutes arrive la gare de laroche migenne seize heures z ro quatre minutes l vous devez changer et prendre un express premi re et deuxi me classes qui part de la gare de laroche migenne seize heures vingt minutes arrive paris gare de lyon dix huit heures trente trois minutes ce train vous convient il lt TdP MC1244 gt le dernier train que vous pouvez prendre est un Message caract re informatif corail premi re et deuxi me classes partant de la gare d amboise dix neuf heures quinze minutes arrivant la gare de paris austerlitz vingt et une heures quarante trois minutes ce renseignement vous satisfait il TdP MC0177 ne quittez pas Routine de cl ture On remarque que la machine utilise le segment ne quittez pas en guise de cl ture conversationnelle au lieu d employer au revoir comme le fait l op ratrice tableau 10 Le systeme intelligent sous jacent qui g re la production des routines de la machine est construit pour e r A gt 76 reproduire des s quences d ouverture et de cl ture de la conversation amener le correspondant pr ciser sa demande d livrer la r ponse la demande du correspondant sous la forme d un message a caract re informatif Routines op ratrice respect des normes conversationnelles Le tableau 10 donne d
257. tion Homme machine du LIMSI p le de recherche national pour l laboration et l valuation des syst mes de communication humain machine t Ces entretiens ont t enregistr s par la SNCF Soci t Nationale des Chemins de fer France qui a poss d le monopole de l exploitation du r seau ferroviaire frangais de sa cr ation en 1938 l ouverture du r seau la concurrence en 2005 9 De plus amples informations sur ce groupe de recherche sont accessibles via le lien suivant http www limsi fr RS96FF CHM CAM html 122 Explorations textom trigues 2 1 Les donn es recueillies Le corpus comprend 260 interactions Le tableau 1 r capitule les types d interaction observ s et le nombre de tours de parole produits par chacun des interactants Dans le cas de l interaction humain machine le syst me intelligent avec lequel interagit l usager poss de un module de synth se vocale synth tisant une voix humaine f minine en l occurrence L op rateur humain est toujours de sexe f minin et aucune information externe aux tours de F 00 parole du corpus ne permet de d terminer le sexe du correspondant humain Tableau 2 R les conversationnels et nature des diff rents interactants du corpus Correspondant humain C Op ratrice humaine O Machine M R le Demandeur Fournisseur Fournisseur conversationnel Le corpus tudi est form de textes recueillis dans deux situations d interaction de type requ t
258. tion de la dynamique conversationnelle fond es sur l alternance de fours de parole entre les interlocuteurs Les paires adjacentes rendent possible l accomplissement d activit s sociales la demande de renseignements en l occurrence Une paire adjacente est une suite connexe de deux tours de parole entretenant une relation de pertinence conditionnelle et produits par deux interlocuteurs diff rents La notion de pertinence conditionnelle renvoie au fait qu une activit sociale donn e induit la pr sence de certains types de paires En principe dans le cadre des interactions du corpus la r ussite de l activit sociale l change t l phonique pour une demande de renseignements est satisfaite si chaque question pos e par le correspondant C trouve des l ments de r ponse dans les tours de parole de ses interlocuteurs M ou O 123 Explorations textom trigues format texte brut est une transcription orthographique d interactions t l phoniques ou se d roulent des changes conversationnels Cette transcription est enrichie de deux niveaux d annotation le premier d crivant des ph nom nes audibles le second donnant voir la structure des changes Etant donn s les objectifs de la recherche nous choisissons de normaliser le corpus pour aplanir un certain nombre de diff rences videntes entre les interactants humain et machine Nous sommes partie des transcriptions recueillies sur le site de la FreeBank dont on peut voir de
259. tions de type Gardiner archiv es sur support informatique 145 Explorations textom trigues 4 Approches textom triques du corpus Naufrag Pour soumettre un texte des traitements textom triques 1l est n cessaire de d terminer deux syst mes compl mentaires un syst me de contenants parties du texte qui vont tre soumises des comparaisons textom triques et un syst me de contenus unit s textuelles habituellement mots graph mes etc dont on s attachera ensuite recenser les occurrences au sein de chacune des parties du texte A partir du d compte des occurrences des unit s contenus l int rieur des contenants les m thodes textom triques produisent des jugements quantitatifs qui peuvent ensuite tre interpr t s en terme de variations dans l usage du vocabulaire Nous avons jug utile dans ce qui suit de faire figurer en regard des calculs effectu s partir du texte hi roglyphique des calculs similaires r alis s partir de la traduction fran aise du Conte du naufrag On peut voir sur le tableau 2 un extrait de chacune des deux versions du texte qui constituent ensemble ce que l on appelle un corpus align multilingue L alignement a t r alis 1c1 au niveau du verset A c t des calculs que l on peut effectuer partir de chacun des volets pris isol ment les investigations multilingues permettent d effectuer des rapprochements entre fragments du corpus align et de mieux a
260. titu par la totalit de segments r p t s qui se chevauchent de mani re quasiment inextricable se r v le toujours d une grande complexit et d fie toute 17 Explorations textom trigues description synth tique En textom trie on utilise plut t ce vaste ensemble pour en extraire des unit s dont la r partition dans le corpus est particuli rement d s quilibr e Du fait de leur longueur ces s quences sont dans l ensemble plut t moins polys miques que les formes simples isol es de leur contexte imm diat ce qui facilite grandement l interpr tation des r sultats Si l on classe par contre les lignes de cet inventaire d apr s la fr quence de la forme qui suit la s quence p le comme cela a t fait au tableau 4 on s aper oit que l op rateur tous les introduit la plupart du temps une notion appartenant un registre n gatif traitres brigands etc m me si cette r gle subit des exceptions notables Tableau 5 D but de l inventaire distributionnel des segment r p t s pour la s quence tous les dans le corpus P re Duchesne classement par ordre de fr quence d croissante de la forme qui suit 871 ss tous les 32 tous les hommes 30 tous les tra tres 29 tous les brigands 26 tous les d partements 24 tous les ennemis 21 tous les fripons 20 tous les bons 19 tous les sc l rats 15 tous les maux 14 tous les patriotes 13 tous les citoyens 12 tous les bougres 12 tous les muscadins 12
261. tomatisables appartenance ou non de chacun des caract res une liste pr tablie d limiteurs non d limiteurs et repousser une seconde phase l observation d unit s plus complexes s quences de formes cooccurrences etc Pour la s quence sans culottes pr sent e plus haut nos pr f rerons op rer dans un premier temps un d pouillement appuy sur la segmentation en deux formes distinctes tiret d limiteur laissant d autres proc dures le soin de rep rer ensuite la s quence des deux formes sans culottes ais ment rep rable du fait m me de sa forte r p tition dans le corpus Par ailleurs au fil des recherches est apparue la n cessit de g n raliser fortement la d finition du type d unit textuelle prise en compte par les analyses textom triques Le type g n ralis ou Tgen est d fini comme une s lection d occurrences prise dans le texte Cette d finition permet de prendre en compte les types constitu s partir de crit res de s lection difficiles formaliser 3 1 Le d pouillement en formes graphiques La premi re phase de l exploration textom trique est constitu e par la segmentation du corpus textuel en unit s qui serviront de base aux d comptes ult rieurs les occurrences en anglais tokens A l issue de cette phase une seconde phase d identification constitue un dictionnaire des formes ou des types en anglais types Les types regroupent en une m me unit chaque classe d
262. tpellier III p 27 61 Moirand S 2004 L impossible cl ture des corpus m diatiques La mise au jour des observables entre cat gorisation et contextualisation dans TRANEL 40 juillet 2004 p 72 92 Mouillaud M T tu J F 1989 Le journal quotidien Presses Universitaires de Lyon Nee E 2005 L ins curit ou de la fabrication d un objet consensuel dans le discours de presse communication au Colloque Jeunes Chercheurs Mat rialit s de l activit de nomination 11 mars 2005 Universit Paris III Syled EA2290 Publication en cours Sitri F 2003 L objet du d bat La construction des objets de discours dans des situations argumentatives orales Paris Presses de la Sorbonne Nouvelle Tournier M 1997 Des mots en politique Propos d tymologie sociale 2 Paris Klincksieck 7 Fonctionnalit s Lexico3 utilis es dans cette exploration NO Fonctionnalit oa Ventilation Figure 1 Figure 3 Figure 6 Figures 71819 Figures 10 11 Figure 12 Carte des sections Figure 4 Tableau 3 Tableau 4 Tableau 10 Tableau 11 53 Explorations textom trigues Discours royal espagnol Discours gouvernementaux C Pineira Tresmontant Salem cpineirat aol com salem msh paris fr R sum La courbe d accroissement du vocabulaire calcul e partir d une s rie de 25 allocutions adress es aux forces arm es par le roi d Espagne corpus Pascua 1976 2000 r v le un tr s faible accroisse
263. tre 7 Fonctionnalit s Lexico3 utilis es dans cette navigation v Fonctionnalit Ge Lei Partition cl a pour ann e RA Principales car lexicom PCLC T IE 2 Accroissement du vocabulaire corpus 4 SepmetsR p t s et minima D T seem dun Type occurrence de SR r10 62 Explorations textom trigues Qu en pensent les Chinois Essai d exploration de l opinion publique chinoise travers des documents disponibles sur la toile Bad karma Liangcai Shen Andr Salem liangcaishen gmail com salem msh paris fr R sum Les nombreux moyens d expressions li s aux technologies du web deviennent chaque jour plus accessibles aux citoyens chinois d sireux d exprimer leurs r actions propos de sujets d actualit A propos d un incident m diatique entra n par les propos d une c l bre actrice am ricaine apr s une catastrophe naturelle survenue en Chine nous avons cherch mettre jour quelques unes des dimensions de la r action suscit e par ces propos dans l opinion publique chinoise Pour cette premi re tude nous avons choisi de comparer quelques chantillons de textes publi s sur la toile par la presse officielle des textes relev s sur des blogs personnels et des interventions collect es sur des forums publics Cette premi re d marche aux dimensions modestes illustre la possibilit et l int r t du type d enqu te propos Mots cl s Etude d opinion m di
264. treprendre peu de frais des exp riences dont les r sultats peuvent se r v ler int ressants 25 Explorations textom trigues 5 M thodes textom triques Plusieurs m thodes statistiques permettent d clairer la structure d un corpus textuel partir de comparaisons r alis es entre les fragments du corpus La partition du corpus constitue une tape tr s importante dans l analyse comparative des textes dans la mesure o les oppositions qu il sera possible de mettre en vidence entre les parties soumises comparaison d pendent troitement du choix de la partition initiale Tableau 6 T te du tableau lexical constitu par le d compte des 30 formes les plus fr quentes du corpus dans les 8 parties d une partition en 8 mois Le Tableau lexical On commence par constituer un tableau qui compte autant de colonnes que la partition choisie compte de parties et autant de lignes que le vocabulaire du corpus compte de formes diff rentes A l intersection de la ligne i et de la colonne j on notera le nombre d occurrences que la forme i trouve dans la partie j du corpus Le tableau 6 pr sente les 30 premi res lignes du tableau lexical r alis partir d une partition du corpus Duchn en 8 parties dont chacune correspond un mois de parution du journal 1 e rr e H H e r r r Un fichier coran don est cr par Lexico3 qui contient le tableau lexical pr c d de quelques param t
265. trois Partie O4LeSerpent Nombre de contextes 2 il ouvrit la bouche vers moi tandis que S j tais plat ventre devant lui S il ouvrit sa bouche vers moi alors que S j tais plat ventre devant lui Ss Partie OSRecitNauf uSerp Nombre de contextes 5 les mines en mission S du souverain sur un navire de S 120 coud es de long et 40 coud es S 120 marins se trouvaient bord Sde 1 lite de 1 gypte S qu ils scrutassent y avait pas S de maladroit parmi eux une temp te S tait survenue alors que nous urvenue alors que nous tions en mer S avant que nous eussions touch terre S le S voici que j ai t d pos sur cette le par S une vague de la mer S il me dit 6 Conclusion Dans cette tude exploratoire portant sur un corpus de textes hi roglyphiques nous avons montr comment des m thodes textom triques pouvaient tre requises pour explorer les r p titions segmentales l oeuvre dans un corpus de textes L tude de ces r p titions permet de mettre en vidence diff rents types de reprises textuelles reprises de fragments tendus lorsqu il s agit de la r p tition d une portion de r cit reprises de fragments plus courts dans le cas de la r p tition de formules de locutions d expressions plus ou moins fig es en langue L tude d un corpus de texte hi roglyphique pratiqu e en liaison avec celle de sa traduction align e dans une langue plus accessible aux chercheurs
266. ttre en relief une appropriation par l enfant d une partie du syst me langagier de l adulte pour l laboration de son propre syst me Dans la mesure ou il s agit d analyses syntaxiques sur les transcriptions les informations concernant la prosodie ou la phonologie ne sont pas prises en compte Pour d celer les constructions complexes nonc es par l enfant nous recherchons dans les nonc s de l adulte et de l enfant des mots quand puisque des groupes de mots il faut que parce que pour que des constructions syntaxiques verbe verbe infinitif ainsi que des tentatives de constructions syntaxiques chez l enfant Nous recherchons par exemple l emploi de la locution parce que parce qu parce que et sa r partition dans le corpus longitudinal de Julien dial III OO CIR OOOOOOOOOO OORT sea oni ETE IETE IE TE TIE TE TIL 1 COOC IW DOIT III DOIT BS ETE TIE OE TEILE TE UO UDO dial COOC ICT DOIT III DOIT FIETIETETETETETETETET IRC UCI dial nn WII LILIEIEIEIBIE LLI Figure 5 Localisation des parce que dans le corpus Julien Pour chaque dialogue une grille d analyse est remplie Une synth se classe les l ments et les constructions trouv s les r f rences des nonc s contenant ces l ments ain
267. u contexte dans lequel il est utilis 2 2 Translitt rations modernes En 1927 un si cle apr s la classification de Champollion Gardiner propose une classification portant sur les quelques 740 hi roglyphes les plus courants Chacune des 26 cat gories de cette classification est symbolis e par une lettre A l int rieur de chaque cat gorie les hi roglyphes sont num rot s partir de 1 Le code Al correspond par exemple au signe homme assis le code A2 au signe homme assis portant la main la bouche etc Pour les translitt rations modernes on utilise de plus en plus les prescriptions du Manuel de codage dor navant MdC adopt es en 1988 par une grande partie de la communaut des Pour cette pr sentation des grandes lignes du syst me d criture hi roglyphique nous avons utilis l ouvrage publi par le minist re fran ais de la culture l occasion de l exposition Naissance de l criture cun iforme et hi roglyphes Galeries nationales du Grand Palais Editions de la r union des mus es nationaux Paris 1982 140 Explorations textom trigues egyptologues qui permettent de transcrire les textes hi roglyphiques en utilisant la fois les codes de Gardiner et les translitt rations de certains phonogrammes les plus courants 2 3 Codage informatique des crits hi roglyphiques Le codage informatique moderne s appuie notamment sur ces derni res m thodes de translitt ration pour stocker les texte
268. ue nos habla de fe de porvenir y de esperanza virtudes militares que son imprescindibles para cimentar la seguridad en el triunfo base del xito en los ej rcitos S nosotros que consagramos nuestra vida a espana sabemos bien que la patria necesita que todos los d as le ofrezcamos algo para cumplir este compromiso tenemos que esforzarnos en hacer cada d a mejor el servicio encomendado 2 e x D Fr H H r r On trouvera dans la derni re section les r f rences de plusieurs articles consacr s l tude de ce type de corpus Explorations fextom trigues 54 ccroissemert de vocabulaire 44p00 4 i i i i i 4 2004 pd Eh EE AE EE E e 32004 i i i i i i MM MN RSS NN GENE MESE GEO q Kueb ARR EE EL E i i d E 00 5 E e i E EE E E i I EM C 1 1 i E 4 6004 GEET d 1 200 i 1000 i i i i i 600 400 200 2000 4 opp B OOD DUDU 10 000 12 non 14 000 15 000 18 Don 20 non 22 000 24 000 26 Don 28 000 30 000 32 Don Position dans le texte nombre docourrences Figure 1 Courbe d accroissement du vocabulaire pour la s rie Pascua 2 Anomalies dans l accroissement du vocabulaire La courbe d accroissement du vocabulaire Figure 1 tablie pour l ensemble de la s rie Pascua r v le une particularit textom trique de ce corpus On voit sur cette figure que cette courbe qui ne pr sente pas de particularit
269. uent au destin des concepts et des mots qui les portent dans un cas c est l expression r chauffement climatique qui est concurrenc e par la variante changement climatique Dans un autre cas de figure les prises de position concordantes sur un concept comme celui de la d croissance concourent sa disqualification 10 R f rences Mortureux M F Paradigmes d signationnels Semen 08 Configurations discursives 1993 En ligne URL http semen revues org document4132 html mis en ligne le 6 juillet 2007 Nee E ns curit et lections pr sidentielles dans le journal Le Monde http www cavi univ paris3 fr Ilpga ilpga tal lexicoWW W navigations Presse3 html 95 Explorations textom trigues 11 Fonctionnalit s Lexico3 utilis es dans cette exploration m Fonctionnalit R sultat Principales caract ristiques lexicom triques PCLC Tableau 3 Figure Figurel 2 2 E 5 H T DEM 6 7 6 LE 10 Ventilation dans les Ventilation dans les parties 0 Figure 0 3 Carte des sections Figure 4 96 Explorations textom trigues Interactions adulte enfant Interactions Luiggi Sansonetti luiggiC luiggisansonetti fr R sum L apprentissage de la langue maternelle chez l enfant en situation dialogique avec un adulte montre quel point l enfant est r ceptif et r actif l apprentissage dans le cadre de dialogues Comment l adulte r agit il dans cette m me situation L exploration textom tr
270. un 1375 1977 1378 1979 1380 1381 1382 1383 1384 1385 1986 1387 1388 1383 1331 1331 1332 1333 1334 19395 1996 1337 1338 1333 2000 Ventilation des segments r p t s de long gt 11 dans les paragraphes du corpus 58 59 Explorations textom trigues Tableau 3 Comparaison des allocutions de 1992 et 1993 lt a 1992 gt S discurso de s m el rey en la celebracion de la pascua militar S 6 de enero de 1992 S queridos compa eros S aunque a trav s del ano procuro encontrar todas las ocasiones posibles para asistir a actos ceremonias conmemoraciones o maniobras militares es esta de la pascua militar la m s propicia para reunirme con las representaciones de las fuerzas armadas y experimentar la satisfacci n de compartir con vosotros una fiesta tan tradicional S L CIDLO ante todo mi felicitaci n y la de mi familia para vosotros y las vuestras con los mejores deseos en el ano que acaba de comenzar S un a o que si sigue la norma del pasado puede estar repleto de acontecimientos importantes imprevistos y tal vez preocupantes que se producen en el mundo S lo ocurrido en 1991 est en la memoria de todos y sus consecuencias constituyen un aldabonazo a la convivencia de la humanidad como espa oles debemos sentirnos orgullosos de que nuestra naci n identificada con el ideal de la paz que es el supremo bien de las sociedades haya mant
271. un emploi impersonnel en particulier dans les figements de type il faut ou il faudrait d autre part un emploi anaphorique ou le pronom renvoie au moyen de transport TdP CO0198 oui oui je sais bien il faut passer par vous et j ai appel d j et c tait neuf heures moins le quart je me suis dit peut tre ils font la journ e continue TdP 2CO0517 autrement il part de paris quelle heure le deuxi me La fr quence de la forme on est remarquable dans les interactions entre humains ou ce pronom figure essentiellement dans les confirmations de renseignements donn s par l op ratrice Cette forme est absente des tours de parole produits par la machine elle est nettement moins employ e par les correspondants qui changent avec une machine ce qui constitue un autre indice de l ajustement conversationnel lt TdP CO0097 gt all oui bonjour madame je voudrais avoir des horaires je sais pas on m a donn des horaires e suivants pour paris le creusot le quatorze d cembre seize heures quarante neuf et moi je les trouve pas TdP CO0121 on n a pas besoin de photo La forme nous est tr s peu produite et apparait de facon privil gi e dans des contextes locaux de disfluence au sein de tours de parole adress s l op ratrice Comme le pronom on sa fr quence est remarquable dans les interactions entre humains lt TdP C01303 gt non non non non non non non nous partirions mardi je ne sais pas je crois qu il doit
272. upes de textes s par s par l AFC e La premi re colonne du tableau indique le terme pour lequel le diagnostic de sp cificit a t calcul e la seconde Frg Tot donne la fr quence du terme dans l ensemble du corpus 5 e la troisi me Partie la fr quence de ce m me terme dans la partie consid r e la troisi me Coefft donne le coefficient de sp cificit calcul pour le terme Sur la partie droite du tableau 6 on trouve des formes comme je fu me moi mon caract ristiques du dialogue gauche les contextes des formes comme vous renvoient moins au dialogue qu a des monologues On note galement la pr sence de nombreux substantifs Une analyse plus pouss e de ces listes accompagn e de retours fr quents au contexte nous am nerons la conclusion que l criture du P re Duchesne fait appel deux types d critures distincts dans des proportions qui varient tout au long des huit mois sur lesquels s tale le corpus et l int rieur de chaque num ro Certains num ros rel vent plus particuli rement Explorations textom triques 30 19 L 2 r Le d un genre que nous appelons parade caract ris par la pr sence de nombreux effets sc niques emprunt s au th tre de foire les autres sont de facture rh torique plus classique On trouve ci dessous deux brefs extraits qui illustrent cette opposition Tableau 7 Deux extraits du corpus Duchn illustrant la diff rence entre les genres parade et classique
273. ups des g n reux d fenseurs de la r publique tandis foutre que l arm e du nord partout victorieuse est aux trousses des gros talons et des pieds plats que commande cobourg tandis que mons ouvre ses portes au brave jourdan brissot et sa clique marchent l chafaud Figure Ib Extrait de l dition num ris e du num ro 305 du P re Duchesne 1793 Explorations fextom trigues 14 3 Unites textuelles Quelles sont les unit s qui circulent dans un texte sociopolitique 7 Quelles s quences doit on constituer en unit s ins cables afin d op rer des comptages dans les textes L exp rience du d pouillement informatis des corpus de textes montre que ces interrogations constituent chaque fois des questions centrales pour la recherche en cours et qu elle ne peuvent tre r gl es une fois pour toutes et a priori Dans le corpus Duchn par exemple on serait tent de constituer en une seule unit le terme sans culottes pourvu d une haute fr quence et qui renvoie un r f rent assez clairement identifiable l poque Sans doute le tiret qui unit les deux formes graphiques n est 1l pas de m me nature que celui qui unit les formes dans dit il Une autre question se pose alors Comment traiter le probl me automatiquement sans tre oblig de trancher au cas par cas 2 Notre exp rience nous a conduit privil gier dans un premier temps les d pouillements appuy s sur des caract res ais ment au
274. ur de parole CM correspondant machine CO correspondant op ratrice MC machine correspondant OC op ratrice correspondant 4 Typologies conversationnelles La situation d interaction impose aux interactants des r les conversationnels on distingue les demandeurs d information C des fournisseurs d information M et O 4 1 Roles conversationnels On utilise la m trique du calcul des sp cificit s pour contraster les diff rents types de tours de parole en fonction du r le des interactants Les demandeurs d information La premi re cat gorie d interactants pr sente dans le corpus est celle des demandeurs d information repr sent s par les correspondants Ce sont des usagers de la SNCF qui soumettent des requ tes sur la circulation et la r servation des trains aux services de renseignement de la soci t Pour donner des l ments de typologie de leurs productions nous pr sentons en tableau 7 les 30 formes les plus sp cifiques de leurs tours de parole selon qu ils sont en interaction avec une op ratrice humaine ou une machine Ces r sultats font apparaitre un premier trait distinctif de la conduite interactionnelle du demandeur d information en fonction de son interlocuteur ce qui r pond l un des objectifs de cette recherche section 1 qui vise identifier des indices de son ajustement conversationnel en fonction de la nature de l interlocuteur humain ou machine On observe en premier lieu que les phati
275. urs personnes pour plusieurs semaines de travail Une telle op ration est tr s co teuse et ne se justifie que si l on souhaite par exemple comparer les productions de M et de O pour rendre les productions de la machine plus proches des tours de parole humains Hors cet aspect de l am lioration des interfaces humain machine est d j fort bien document notre apport serait donc peu utile de ce point de vue 125 Explorations textom trigues Tableau 5 Tours de parole typ s en fonction du role et de la nature des interactants Role interactionnel Demandeur Nature des interactants d information Humain humain CO CM MC Fournisseur d information 3 1 Premiers d comptes Nous commen ons par quantifier les diff rentes unit s de description des interactions pr sent es plus haut figure 1 On s int resse en particulier aux diff rents types d interactants ainsi qu aux deux types d interaction distingu s D comptes par type d interactant Tableau 6 Principales caract ristiques quantitatives du corpus nteractions Le tableau 6 pr sente les principales caract ristiques quantitatives du corpus Le d ictique personnel vocatif vous forme la plus fr quente repr sente pr s de 32 des occurrences du corpus Cela s explique en partie par un contexte ou les situations d interaction sont de nature formelle et ou le vous de politesse est obligatoire Le demandeur d information C produit l adverbe ou
276. volets du corpus multilingue peut permettre d interroger utilement le travail du traducteur a t il rendu par des formulations diff rentes des segments de texte absolument identiques dans le texte original a t il au contraire traduit par les m mes expressions des formulations qui diff raient quelque peu dans ce m me texte r currences sol es La m thode des segments r p t s permet galement de rep rer des r currences moins syst matiques dues la reprise d une formule particuli re dont l origine peut tre trouv e soit dans l existence d un figement linguistique particulier soit au contraire dans la mise en pratique de proc d s narratifs utilis s de mani re r currente On voit par exemple sur la figure 8 le rapprochement que l on peut op rer en suivant la m me m thode entre les propos tenus par le vieux serviteur pour commencer le r cit qu il adresse son sup rieur et ceux prononc s par le Serpent pour commencer le sien put SIT car c est fatiquant de te parler Laisse moi donc te raconter Ms me CH quelque chose de semblable qui m est arriv 155 Explorations textom trigues S SHEHI nb Laisse moi donc te raconter quelque chose de semblable qui est arriv sur cette ile Figure 8 Fragments du corpus Naufrag rapproch s sur la base de leur utilisation de segments r p t s communs Dans ce second cas la m thode textom trique apporte incontestablement un clairage qui permet
277. xico3 les balises qui permettent d introduire les partitions sont du type stypez contenuz Chaque type particulier de balise partie situ e avant le signe permet de d finir une partition du corpus Pour un type fix si on ignore tous les autres types les diff rents contenus partie situ e apr s le signe correspondent autant de parties diff rentes dans le corpus Ainsi par exemple la s lection de la cl numero lt numero xx permet de d couper le corpus en 96 parties correspondant chacune une des 96 livraisons qui constituent le corpus Les balises introduites dans le corpus Duchn txt sont e lt Epg x gt qui permettent de localiser chacune des pages l int rieur d un m me num ro e numero x qui permettent de d limiter chacune des 96 livraisons du corpus e lt mois x gt qui permettent d op rer un regroupement des livraisons parues l int rieur de chaque p riode d un mois Ces p riodes sont not es MI M2 M8 e Squinzainezxx qui permettent d op rer un regroupement de ces m mes livraisons par quinzaines e semaine xxxx qui permettent d op rer un regroupement de ces m mes livraisons par semaines 2 Zones textuelles Pour pouvoir s appuyer sur une division du texte en paragraphes on a fait pr c der chacun e 5 des paragraphes par le caract re Il est galement possible de r aliser un d coupage correspondant approximativement
278. xico3 par ordre chronologique nous avant fait pr c der l intitul du mois de r f rence par une lettre en suivant l ordre alphab tique 86 Explorations textom trigues Tableau 3 Principales caract ristiques lexicom triques du corpus Nombre d occurrences 647 121 Nombre de formes 40 397 Nombre d hapax 20 026 32 752 3 Etude de la partition par dates La clef date permet de diviser le corpus en 23 parties qui correspondent chacune un mois L Analyse Factorielle des Correspondances du tableau r alis partir de cette partition figure 1 permet de distinguer des groupes relativement homog nes du point de vue de la chronologie Le calcul des sp cificit s appliqu chacun de ces groupes permet d identifier les th mes dominants pour chacune des p riodes 1 semestre 2005 une actualit sur les nergies notamment pour l automobile carburant diesel voitures hydrog ne 2 semestre 2005 le cyclone Katrina survenu fin ao t 2005 et la d r gulation du march nerg tique en Europe trimestre 2006 La production lectrique et la part des nergies renouvelables les oliennes I hydraulique D avril octobre 2006 le discours des politiques propos de la fusion GDF Suez et la sortie du film d Al Gore octobre 2006 Tableau 4 Exemples de sp cificit s lexicales d avril octobre 2006 Freq Totale Freq Totale 4 Etude de la partition par blogs L
279. y avait un serpent aujourd hui je l appelle Serpounet 114 Explorations textom trigues 6 Conclusion La linguistique de l acquisition du langage s int resse la mise en place du syst me cognitivo langagier chez l enfant en situation d interactions verbales avec un adulte L observation porte entre autres choses sur l organisation syntaxique des l ments de la phrase et les ph nom nes de feed back correctif La localisation d une forme ou d une structure syntaxique dans un corpus constitu de plusieurs dialogues permet de rep rer de fa on pr cise les cas de reprise et de reformulation Il est alors ais d analyser en retournant au texte les interactions entre les locuteurs La cartographie des nonc s permet de localiser la forme ou la structure syntaxique recherch e dans les nonc s de l enfant et de l adulte Avec le cas des constructions de type Prep Vinf on constate que dans le corpus Julien LC l adulte ne propose pas ce patron syntaxique l enfant mais il reprend ce que l enfant nonce Figure 15 En revanche avec le corpus Mathilde LC on s aper oit que c est l adulte qui propose le plus souvent ce patron syntaxique l enfant Lorsque nous recherchons les cr ations enfantines dans le corpus JuMa LC pour localiser les feed back correctif de l adulte nous remarquons qu il y a peu de correction apport e par l adulte Quand il reprend la tentative de construction du pass
280. y avoir un train dans l apr s midi fin de l apr s midi lt TdP CO0474 gt oui c est a c est que nous on va e je c est pour une maison d retraite et je dispose pas de beaucoup de temps si vous voulez En second lieu les analyses sur la sp cificit des segments r p t s SR ventil s figure 4 permettent d identifier des tendances compl mentaires dans les strat gies mises en oeuvre pour clore les conversations S1 le SR je vous remercie en vert n est pas plus sp cifique des tours de parole de type CM que de ceux de type CO la forme merci en rouge est par contre caract ristique des changes du correspondant avec la machine En corr lant ce constat avec les observations sur l accroissement du vocabulaire figure 2 on en d duit que les remerciements adress s la machine par le correspondant ont des formulations moins vari es Par ailleurs la machine ne produit jamais de marque d agr ment du remerciement ce qu indiquent les r sultats pour le SR de rien en jaune Cela ajoute au caract re non r gulier de la conduite interactionnelle de la machine Enfin le parall lisme d emploi de la cl ture conversationnelle au revoir en bleu entre les tours de parole CO et OC est un indice suppl mentaire de l ajustement conversationnel du correspondant en fonction de son interlocuteur 130 Explorations textom trigues Sp cificit s CM co MC OC Figure 4 Ventilation des sp cificit s des segments merci je vous rem

Download Pdf Manuals

image

Related Search

Related Contents

ES IT - Boretti    取扱説明書 - アソビックス  USER`S MANUAL - Electus Distribution  GÎine Gelée de Groseilles 24103110  Zanussi Z50 Use & Care Manual    上手な使い方 メンテナンス 保管・洗浄・消毒など  Voir l`ordre du jour - Villeneuve  User`s Manual - BLUESTAR Forensic  

Copyright © All rights reserved.
Failed to retrieve file