Home
L`information biographique : modélisation
Contents
1. d veloppement de ressources d extraction Enfin dans une derni re section toujours sur la base des concepts mis en vidence dans la deuxi me partie le choix d une m thode de stockage des donn es sera sugg r 2 Approche intuitive et d finition Une biographie est d finie par le Petit Robert 2004 comme tant un crit qui a pour objet l histoire d une vie particuli re Autrement dit il s agit des v nements survenant dans la vie des personnes Ces v nements sont en relation avec diff rents l ments de leur vie quotidienne Ils font intervenir des personnes ou des organisations sont caract ris s par des dates et des lieux impliquent divers objets plus ou moins abstraits avec lesquels ils sont amen s interagir Cette premi re perception m rite une formalisation plus pr cise Nous appellerons entit les l ments intervenant dans les donn es biographiques personnes organisations lieux dates etc Ce concept est d fini dans Chinchor 1998 mais l interpr tation utilis e ici sera moins stricte Les types d entit s seront plus nombreux et pourront inclure certains l ments exclus dans cette d finition Nous appellerons v nement toute action faisant intervenir ces entit s L analyse d un v nement de la vie r elle permet de d composer celui ci en plusieurs relations Une relation lie deux entit s quelconques L une d elle joue le r le de suje
2. personne Y personne ou organisation organisation organisation X a d pos plainte aupr s X personne ou O organisation X a t arr t L X personne L lieu de O organisation X a d pos plainte le D X personne ou D date Y a t arr t le D X personne D date organisation Inculpation 0 N Condamnation 0 N relation sujet objet relation sujet objet X a t inculp pour I X personne ou I motif d inculpation X a t condamn pour C X personne ou C motif de organisation organisation condamnation X a t inculp par O X personne ou O personne ou X a t condamn par O X personne ou O personne ou organisation organisation organisation organisation organisation Y a t inculp le D X personne ou D date X a t condamn P X personne ou P peine organisation organisation Y a t condamn le D X personne ou D date RECITAL 2006 Leuven 10 13 avril 2006 684 LAURENT KEVERS 4 D veloppement des ressources d extraction 4 1 Processus g n ral Le processus g n ral d extraction d informations biographiques pr sent ici constitue une premi re approche qui doit certainement tre am lior e Divers travaux peuvent tre consult s cet effet Par exemple Grishman 1997 expose les principes g n raux des syst mes d extraction d informations et Fourour 2004 propose un tat de l art ainsi qu
3. Ev nement mariage Termes possibles union unir pouser poux pouse marier mari femme Motif d extraction simplifi poux G lt PERSON gt H A Hae lt PERSON gt pl femme p2 p pl 2 p1 p2 MARIAGE PERSON Exemple de r sultat prince TITLE Ernst August de Hanovre NAME princesse TITLE Caroline de Monaco NAME PERSON MARIAGE PERSON tant donn la complexit de cette tape il n est pas vident que celle ci pourra tre men e bien au seul moyen de la technique d extraction pr sent e ci dessus En effet on constate qu au moins l information est localis e un seul endroit de la phrase au moins l approche par transducteurs ou grammaires locales semble pertinente Pour les d veloppements futurs une RECITAL 2006 Leuven 10 13 avril 2006 686 LAURENT KEVERS autre approche encore d finir devra probablement tre tudi e afin d valuer les gains de performance possibles tant au niveau de la construction m me des ressources que de la qualit de l extraction 5 Vers une solution d impl mentation pour le stockage 5 1 Pr cision des concepts de relation et d entit L analyse partielle de la nature des informations biographiques r alis e permet de mettre en vidence quelques caract ristiques qui peuvent nous guider dans les choix d impl mentation d un syst me de stockage de ces d
4. L lieu X est identifi par R X personne R n de registre national X est mari avec Y X personne Y personne Divorce 0 N Concubinage 0 N relation sujet objet relation sujet objet X a divorc le D X personne D date X est concubin de Y X personne Y personne X a divorc L X personne L lieu X est concubin depuis D X personne D date X est divorc de Y X personne Y personne X est concubin jusque D X personne D date La cardinalit de divorce est li e la cardinalit de mariage Pour divorce la borne inf rieure est toujours gale z ro ou au nombre de mariages moins un si le nombre de mariages est sup rieur ou gal un La borne sup rieure est toujours gale au nombre de mariages 3 2 Informations relatives la formation Obtention d un dipl me 0 N relation sujet objet X a obtenu le niveau d tude Y X personne Y dipl me Y a t obtenu le D Y dipl me D date Y est un dipl me d livr par O Y dipl me O organisation RECITAL 2006 Leuven 10 13 avril 2006 MOD LISATION EXTRACTION ET ORGANISATION EN BASE DE CONNAISSANCES 3 3 Informations professionnelles Occupation une fonction d un poste 0 N Cr ation d une entreprise 0 N 683 3 4 Informations relatives des r compenses Obtention d une distinction r compense 0 N relation sujet objet relation suj
5. L information biographique mod lisation extraction et organisation en base de connaissances Laurent Kevers Universit catholique de Louvain CENTAL laurent kevers Quclouvain be R sum L extraction et la valorisation de donn es biographiques contenues dans les d p ches de presse est un processus complexe Pour l appr hender correctement une d finition compl te pr cise et fonctionnelle de cette information est n cessaire Or la difficult que l on rencontre lors de l analyse pr alable de la t che d extraction r side dans l absence d une telle d finition Nous proposons ici des conventions dans le but d en d velopper une Le principal concept utilis pour son expression est la structuration de l information sous forme de triplets sujet relation objet Le d but de d finition ainsi construit est exploit lors de l tape d extraction d informations par transducteurs tats finis Il permet galement de sugg rer une solution d impl mentation pour l organisation des donn es extraites en base de connaissances Mots cl s information biographique mod lisation extraction d information transducteur tats finis entit nomm e relation base de connaissances Abstract Extraction and valorization of biographical information from news wires is a complex task In order to handle it correctly it is necessary to have a complete accurate and functional definition The prelimin
6. Leuven 10 13 avril 2006 MOD LISATION EXTRACTION ET ORGANISATION EN BASE DE CONNAISSANCES 681 biographique Tout le monde sait intuitivement ce qu est une biographie mais il est assez malais d en d finir pr cis ment le contenu Plusieurs ressources disponibles sur Internet Davis 2004 Kanzaki 2003 proposent des nomenclatures mais celles ci sont forc ment incompl tes Le niveau de g n ricit est galement peu lev car ces documents sont construits dans une optique d impl mentation plut t que de mod lisation Le flou en ce qui concerne cette d finition est assez g nant que ce soit pour le d veloppement de la phase d extraction ou pour l organisation du stockage des informations Il est en effet impossible de travailler efficacement si l on ne conna t pas avec pr cision l objet de l tude La clarification du domaine d application profite l ensemble du processus depuis l extraction d information jusqu la phase d accumulation des donn es La premi re partie sera donc consacr e une approche intuitive de l information biographique et la d finition des concepts sous jacents ces intuitions partir de ces d finitions une nomenclature de l information biographique peut tre construite La deuxi me section s attaquera cette t che sans avoir la pr tention de l exhaustivit La troisi me partie montre l apport de l analyse des v nements biographiques lors du
7. RG gu rilla marxiste dans le nord de la Colombie PLACE COUNTRY a annonc l AFP ORG le commandant FCT arm e colombienne ORG PRO le g n ral TITLE Reinaldo Castellanos H NAME PERSON S Figure 2 Annotation des informations en apposition Certains regroupements ont d j t effectu s Ce r sultat int ressant en soi facilitera l analyse de surface n cessaire lors de la suite du processus d extraction 4 4 Extraction d informations par type d v nement Au del de l exploitation des informations contenues dans les appositions la t che accomplir ensuite devient plus complexe Non seulement l information extraire sera parpill e dans toute la phrase voire dans un paragraphe mais elle sera aussi exprim e de fa on plus vari e C est ce moment que le travail de d finition de l information biographique men en amont peut r ellement aider structurer et orienter l extraction Sur la base d un type d v nement particulier comparable un sc nario selon la terminologie MUC Grishman 1997 il est possible de d river des patrons d extraction La r flexion peut se faire en deux temps Premi rement on s lectionne un v nement et on recherche les termes d notant cette s mantique Ensuite l tude de ces derniers permet d aboutir un ou plusieurs motifs d extraction Le but tant ici de reconna tre les contextes porteurs d informations
8. ances Cette architecture reste cependant valuer et doit encore prouver sa faisabilit pratique R f rences BOUHAFS A 2004 Syst me d extraction d information d di la veille Qui est qui Qui fait quoi O Quand Comment In Actes de RECITAL 2004 BROEKSTRA J KAMPMAN A VAN HARMELEN F 2002 Sesame A Generic Architecture for Storing and Querying RDF and RDF Schema In Proceedings of the International Semantic Web Conference 2002 Sardinia http www openrdf org doc papers Sesame IS WC2002 pdf CHARLET J LAUBLET P REYNAUD C 2002 Sur quelques aspects du Web s mantique In Assises du GDR I3 Nancy http www lalic paris4 sorbonne fr stic articles 03 WebSemantique pdf CHINCHOR N 1998 MUC 7 Named Entity Task Definition Version 3 5 In Proceedings of MUC 7 Fairfax FAIRON C WATRIN P 2003 From extraction to indexation Collecting new indexation keys by means of IE techniques In Proceedings of EACL 2003 Budapest FOUROUR N 2004 Identification et cat gorisation automatiques des entit s nomm es dans les textes fran ais Th se de doctorat Universit de Nantes FRIBURGER N MAUREL D 2004 Finite state transducer cascades to extract named entities in texts In Theoretical Computer Science 313 1 93 104 GRISHMAN R 1997 Information extraction Techniques and challenges In M T Pazienza d Information Extraction techniq
9. ary analysis of the extraction task reveals the lack of such a definition This article proposes some conventions to develop it Information modelling as triples subject relation object is the main concept used at this level This incomplete definition can be used during the information extraction step It also allows to suggest some implementation solutions for data organisation as a knowledge base Keywords biographical information modelling information extraction finite state transducers named entities relation knowledge base 1 Introduction Les textes journalistiques se caract risent souvent par une proportion lev e de noms propres Selon Fourour 2004 les anthroponymes en constituent la cat gorie la plus importante de 50 70 des formes en fonction des types de journaux Notre travail sur l information biographique repose sur ces constats Il se base sur un large corpus de d p ches de presse fournies par l agence de presse belge Belga et s articulera en quatre points la d finition m me de l information biographique le formalisme utiliser pour exprimer les faits l apport d une d finition claire pour la phase d extraction la mani re de conserver les informations extraites Lorsqu il s agit d extraire de mod liser et de structurer des donn es biographiques on se heurte rapidement une question de taille Qu est ce que r ellement l information RECITAL 2006
10. complexe dans les phrases Ce m canisme s inspire de l approche par cascade d automates d crite par Friburger et al 2004 Ce processus d applications successives de transducteurs permet de simplifier l expression des r gles de plus haut niveau c est dire celles passant la fin Divers traitements peuvent tre introduits entre certaines passes afin d am liorer la couverture ou la pr cision de l analyse recherche des variations graphiques et de cor f rences des entit s r solution des anaphores pronominales etc Il s agit de t ches complexes qui n ont pu tre abord es que de mani re tr s superficielle pour l instant dans le cadre de ce travail Une fois toutes les ressources d extraction exploit es le format de sortie doit d tre suffisamment g n ral afin d tre exploitable par le plus grand nombre d applications Cette exigence est remplie par un fichier XML qui reprend les l ments annot s 4 2 Extraction des entit s de base Le travail men sur des textes journalistiques en fran ais par Fairon et al 2003 et en anglais par Mallchok 2004 a prouv l ad quation des transducteurs tats finis pour le rep rage des entit s de base Le d veloppement de quelques dizaines de graphes coupl l utilisation de ressources lexicales sp cialis es permet d obtenir une analyse telle que celle reprise ci dessous BOGOTA PLACE TOWN 07 04 AFP ORG Dix sept militaire
11. des relations 3 Information biographique v nements et relations entre entit s Pour chaque v nement la liste des relations qui en d coule est d velopp e Une cardinalit indique la fr quence d apparition des v nements par rapport une personne Si n cessaire des contraintes suppl mentaires sont introduites Toute relation implique l existence de son inverse Pour l v nement naissance la relation X a pour parent Y implique que Y est parent de X Il n est par cons quent pas n cessaire de pr voir cette derni re dans la d finition La sp cification se situe un niveau conceptuel et non linguistique Elle d finit ce dont l information est compos e mais pas la mani re dont celle ci sera effectivement exprim e dans les textes 3 1 Informations personnelles Naissance 1 1 D c s 0 1 relation sujet objet relation sujet objet X se nomme N X personne N nom X est d c d le D X personne D date X se pr nomme P X personne P pr nom X est d c d L X personne L lieu X est de sexe S X personne S sexe X est d c d de C X personne C cause de d c s X est n le D X personne D date Mariage 0 N X est n L X personne L lieu relation sujet objet X a pour parent Y X personne Y personne X s est mari le D X personne D date X est de nationalit N X personne N nationalit X s est mari L X personne
12. es se nomme Sesame Boekstra ef al 2002 Aduna 2005 Il s agit d une architecture open source LGPL ind pendante du moyen d enregistrement des donn es qui permet le stockage persistent et l interrogation de donn es RDF et RDFS Sesame propose aussi parmi d autres choses un module pour le dialogue avec un SGBD qui impl mente la norme SQL92 et un langage d interrogation tendant RQL SeRQL 6 Conclusion L extraction d informations biographiques ne peut se passer d une d finition pr cise du domaine d application Cette d finition peut tre effectu e par la description sous forme de relations entre entit s des v nements qui constituent la vie des personnes Il s agit l d une t che de longue haleine qui n a ici t qu effleur e mais qu il est fondamental de continuer La sp cification ainsi obtenue sera extr mement utile pour l extraction d informations par sc narios la phase la plus complexe du processus Les v nements biographiques d j d finis permettent galement d avancer des suggestions en ce qui concerne l architecture logicielle RECITAL 2006 Leuven 10 13 avril 2006 MOD LISATION EXTRACTION ET ORGANISATION EN BASE DE CONNAISSANCES 689 mettre en uvre pour le stockage des donn es Une solution orient e vers la repr sentation de donn es sous forme de graphes doit permettre de stocker des triplets sujet relation objet dans une base de connaiss
13. et objet X exerce le profession de M X personne M profession X a cr O X personne O organisation X fait partie de O X personne O organisation O a t cr e le D O organisation D date X est engag le D X personne D date Cession d une entreprise 0 N X est remerci le D X personne D date relation sujet objet O a t vendu le D O organisation D date X a vendu O X personne ou organisation O organisation O a t vendu Y O organisation Y personne ou organisation Victoire lors d une comp tition d un concours 0 N relation sujet objet relation sujet objet X a re u la distinction R X personne R r compense X a remport C X personne ou C comp tition prix distinction organisation concours R est attribu par O R r compense O organisation C a lieu L C comp tition L lieu prix distinction concours R a t attribu le D R r compense D date C a lieu le D C comp tition D date prix distinction concours 3 5 Informations juridiques D p t d une plainte 0 N Arrestation 0 N relation sujet objet relation sujet objet X a d pos plainte pour A X personne ou A motif X a t arr t pour A X personne A motif organisation d accusation d arrestation X a d pos plainte contre Y X personne ou Y personne ou X a t arr t par Y X
14. n es est g n ralement souhaitable elle se fait parfois quelque peu au d triment de la richesse de celles ci S est mari s est mari le et s est mari avec sont des noms de relations Ces noms ne s accordent pas selon le genre ou le nombre de l entit qui joue le r le de sujet RECITAL 2006 Leuven 10 13 avril 2006 688 LAURENT KEVERS L organisation des donn es autour d un nombre restreint de relations bien d finies implique une certaine perte au niveau de la formulation originale par rapport au texte de d part en langage naturel Lors de l exploitation des informations il faut tre conscient qu un certain nombre d applications n cessiteront ventuellement une reformulation vers le langage naturel ce qui n est pas une t che des plus triviale Le fait que les relations soient cod es comme des valeurs dans une structure g n rique impose une grande rigueur en ce qui concerne l encodage de celles ci Toute erreur cet endroit rendrait une partie de l information inutilisable Des m canismes de contr le v rification de contraintes d int grit doivent tre mis en place pour s assurer de l emploi correct d une relation Une cons quence de la g n ricit du syst me est que toutes les informations seront stock es quasiment au m me endroit Cela va nous amener cr er et manipuler quelques objets tables tr s volumineux Comme toujours dans ce cas la question de la perf
15. onn es Ce syst me sera nomm de mani re g n rique base de connaissances D une mani re g n rale on constate que les exemples d informations biographiques mentionn s dans les sections pr c dentes sont effectivement bien exprimables sous la forme d une ou plusieurs relations entre des sujets et des objets Il est cependant n cessaire de fournir des contraintes d int grit afin de garantir la coh rence des donn es Ces contraintes doivent d terminer quelles sont les relations utilisables pour d crire l information biographique et entre quelles entit s elles peuvent survenir L analyse intuitive donne d j une assez bonne id e des relations et des contraintes exprimer mais plusieurs points m ritent d tre sp cifi s plus pr cis ment En plus des relations porteuses d informations biographiques directement inspir es de la liste donn e plus haut nous souhaiterons galement stocker un ensemble de relations dont la fonction est de donner de l information sur l information m ta donn es Les relations peuvent donc appartenir deux classes diff rentes les relations informationnelles et les m ta relations On dispose par exemple de relations permettant d indiquer un poids ou indice de confiance attribu une donn e d indiquer la source et la date relatives l origine de l information de fournir la langue dans laquelle elle a t exprim e de relier deux informations synonyme
16. ormance se pose 5 3 Pistes retenues pour une impl mentation Un langage semble particuli rement adapt pour exprimer l information selon les principes voqu s jusqu ici RDF Resource Description Framework voir W3C 2004 Il s agit d un dialecte XML d velopp par le W3C Son but est la repr sentation de m ta donn es sous forme de graphes l origine pr vu pour des ressources Web RDF peut n anmoins tre utilis avec n importe quel type de donn es m ta donn es ou autres RDF doit tre coupl RDFS RDF Schema si l on veut pouvoir introduire de la s mantique et ainsi respecter les contraintes d int grit dont nous avons d j parl RDFS est un m canisme qui permet de d finir un vocabulaire particulier pour des donn es RDF et de sp cifier les types d objets sur lesquels les pr dicats peuvent tre appliqu s En pratique RDFS nous permet de d finir les relations les entit s et la mani re dont ces l ments se combinent pour d crire l information biographique Des langages tels que RQL RDF Query Language proposent une interrogation sous la forme d une requ te select from where Celle ci permet de sp cifier un chemin caract ris par certaines contraintes parcourir dans les graphes RDF RDEFS pattern matching Le r sultat tant contenu dans la suite de n uds du ou des chemins reconnus Des plateformes mettant en uvre ces technologies existent d j L un d ell
17. s etc Selon les besoins particuliers on pourra encore ajouter diff rentes m ta relations Les entit s peuvent galement tre r parties en diff rents types l instar des relations il existe des entit s informationnelles et des m ta entit s En pratique il n y a pas une grande diff rence entre ces deux types d entit s si ce n est qu une m ta entit est toujours associ e une m ta relation Les natures des entit s informationnelles peuvent tre d riv es de l analyse de la premi re partie et celles des m ta entit s sont reprises dans la table ci dessous m ta relation nature de X I a un indice de confiance de X Un entier ou un r el I est en langue X Un code repr sentant une langue I a t ajout le X Une date I provient de la source X Une valeur d signant un document I est un synonyme de X Une information reprise dans la base de donn es Figure 3 M ta relations Soit I une information contenue dans la base de connaissances La difficult qui appara t avec la d composition en relations telle que pr sent e au paragraphe 3 est la conservation de la coh rence et de l int grit des donn es Prenons l exemple d un RECITAL 2006 Leuven 10 13 avril 2006 MOD LISATION EXTRACTION ET ORGANISATION EN BASE DE CONNAISSANCES 687 mariage entre monsieur Smith et mademoiselle Dupond qui a lieu le 17 juillet 2007 Bruxelles On peut d composer cet v nemen
18. s colombiens ont t tu s mercredi DATE lors d une embuscade de rebelles des Forces arm es r volutionnaires de Colombie ORG FARC ORG gu rilla marxiste dans le nord de la Colombie PLACE COUNTRY a annonc l AFP ORG le commandant de l arm e colombienne ORG le g n ral Reinaldo Castellanos PERSON S Figure 1 Annotation des entit s de base RECITAL 2006 Leuven 10 13 avril 2006 MOD LISATION EXTRACTION ET ORGANISATION EN BASE DE CONNAISSANCES 685 Le format d annotation adopte les conventions utilis es pour les entr es de dictionnaire DELA d Unitex 4 3 Extraction des informations contenues dans les appositions Les contextes imm diats des noms de personnes sont riches en informations biographiques On y retrouve couramment en apposition des donn es telles que l ge la profession la nationalit un titre ou une tendance politique Il est possible de regrouper tout ces l ments en un seul groupe sans modifier la structure globale de la phrase l int rieur de cette entit complexe on conserve l identification des diff rents l ments reconnus partir de l exemple obtenu suite la premi re passe on pourra ainsi obtenir ce texte dans un deuxi me temps BOGOTA PLACE TOWN 07 04 AFP ORG Dix sept militaires colombiens ont t tu s mercredi DATE lors d une embuscade de rebelles des Forces arm es r volutionnaires de Colombie ORG FARC O
19. t alors que la seconde constitue l objet de la relation Un v nement est donc formalisable sous la forme d un ensemble de triplets sujet relation objet Cette approche que l on peut retrouver dans les travaux portant sur le Web s mantique Charlet et al 2002 a galement t sugg r e dans le cadre de travaux en extraction d informations Bouhafs 2004 Le Priol 2001 Une entit qui joue un r le d objet dans une relation peut tre le sujet d une autre relation et inversement L entit centrale pour l information biographique est bien entendu la personne Elle sera par cons quent souvent utilis e en tant que sujet des relations La d composition des faits biographiques en relations ne veut pas dire que l on se d barrasse compl tement de la notion d v nement En effet les relations d coulant d un v nement doivent toujours tre interpr t es conjointement Prises individuellement ou en combinaison avec des relations issues d autres v nements elles m nent des interpr tations incompl tes ou erron es l aide de ces concepts il est possible de d finir ce qu est l information biographique La partie suivante est consacr e au recensement de quelques v nements Cette liste permet de RECITAL 2006 Leuven 10 13 avril 2006 682 LAURENT KEVERS prendre la mesure du probl me et d tablir concr tement un format de sp cification des v nements des entit s et
20. t avec les relations suivantes M Smith s est mari Bruxelles Mile Dupond s est mari Bruxelles M Smith s est mari le 17 juillet 2007 Mile Dupond s est mari le 17 juillet 2007 M Smith s est mari avec Mlle Dupond Mile Dupond s est mari avec M Smith Le probl me de cette d composition c est que Mile Dupond et M Smith peuvent tre impliqu s dans plusieurs mariages au cours de leur vie Il sera alors impossible de savoir quel mariage correspond quelle date et quel lieu Pour mod liser l information de mani re correcte il faut noncer les relations de la mani re suivante M Smith s est mari avec Mile Dupond Mile Dupond s est mari avec M Smith Le mariage de M Smith et de Mile Dupond a eu lieu le 17 juillet 2007 Le mariage de M Smith et de Mile Dupond a eu lieu Bruxelles Dans cet exemple le mariage de M Smith et de Mlle Dupond est une entit compos e partir d une relation s est mari avec entre deux entit s deux personnes Cela nous am ne largir le concept de relation en admettant qu une premi re relation peut jouer le r le de sujet dans une seconde 5 2 valuation de la pertinence du mod le de donn es en vue d une impl mentation Un des avantages de la structuration de l information sous forme de relations est qu elle pr sente un haut degr de g n ricit La mod lisation des donn es quelles qu elles soient l aide d un triplet perme
21. t de placer la s mantique uniquement au niveau des donn es et non dans la structure de celles ci Les bases de donn es relationnelles sont souvent con ues en d finissant des types d entit s et de relations plus tard traduits en tables Dans ce cas la structure des tables contient une partie de l information L utilisation de ce genre de syst me n est pas en soi un probl me lorsqu on conna t bien le domaine d application En ce qui concerne les informations biographiques tout porte croire qu il sera pratiquement impossible d arr ter une structure compl te et d finitive avant toute impl mentation L adoption d une structuration sous forme de triplets devrait nous apporter la souplesse n cessaire l adaptation continue de la mod lisation du domaine d application En effet dans un syst me de base de donn es relationnelle classique l ajout de nouveaux attributs une entit devrait se traduire par une alt ration de la structure d une ou plusieurs tables alors que le syst me envisag ne demandera que l ajout d un triplet PERSONNE id num national nom pr nom Mna RELATION y RELATION ENTITE id rel id_entite sexe date_naissance lieu naissance date_deces lieu_deces id_entite_1 valeur id_entite_2 type_entite type_relation Figure 4 Base de donn es relationnelle classique et base de donn es g n rique Si d un point de vue informatique une forte formalisation des don
22. ues and challenges Springer Verlag Berlin LE PRIOL F 2001 Identification interpr tation et repr sentation de relations s mantiques entre concepts In Actes de TALN 2001 MALLCHOK F 2004 Automatic Recognition of Organisation Names in English Business News Th se de doctorat Universit de Munich MCDONALD D D 1996 Internal and External Evidence in the Identification and Semantic Categorization of Proper Names In B Boguraev J Pustejovsky ds Corpus processing for lexical acquisition 21 39 PAUMIER S 2004 Unitex 1 2 Manuel d utilisation Universit de Marne la Vall e POIBEAU T Nazarenko A 1999 L extraction d information une nouvelle conception de la compr hension de texte In TAL 40 2 87 115 R f rences sur Internet ADUNA B V 2005 User Guide for Sesame v1 2 3 http www openrdf org doc sesame users DAVIS I GALBRAITH D 2004 BIO A vocabulary for biographical information http purl org vocab bio KANZARI 2003 Who s who description vocabulary http www kanzaki com ns whois W3C 2004 Resource Description Framework RDF Concepts and Abstract Syntax http www w3 org TR 2004 REC rdf concepts 20040210 RECITAL 2006 Leuven 10 13 avril 2006
23. une impl mentation d un syst me mixte base de r gles et d apprentissage Les premiers r sultats obtenus permettent d avoir une id e plus pr cise de l ensemble des traitements effectuer dans le cadre de l extraction et de l exploitation d informations biographiques La technique choisie et pr sent e par exemple par Poibeau ef al 1999 fait appel des transducteurs tats finis Ceux ci permettent une description et une annotation des motifs que l on d sire retrouver Il s agit d une analyse locale dont l action se situe au niveau subphrastique Plusieurs traitements sont effectu s au pr alable sur les textes d coupe en tokens et en phrases application de dictionnaires Ces manipulations sont effectu s l aide d Unitex Paumier 2004 Le processus g n ral se d compose en plusieurs passes chacune correspond un niveau de complexit des l ments recherch s Les premi res passes consistent en l application de graphes qui exploitent les informations lexicales ainsi que des indices internes la structure des entit s et externes le contexte des entit s tels que ceux pr sent s dans McDonald 1996 Le but est de retrouver et d annoter des entit s de base souvent appel es entit s nomm es telles que les personnes les organisations les lieux Les passes suivantes s appuient sur cette premi re analyse pour rechercher des informations dispos es de mani re de plus en plus
Download Pdf Manuals
Related Search
Related Contents
Varian Exhaust Filter DS-NW25 9499392 User's GUide USER`S MANUAL and INSTALLATION GUIDE Targus 15” Side Access Laptop Roller 2配器 2SPF ^1 USER MANUAL ^2 Accessory 20 Copyright © All rights reserved.
Failed to retrieve file